机器学习-决策树系列-GBDT算法-集成学习-29-526互联

1. 复习
2. GBDT
3. gbdt应用于二分类：
3. gbdt应用于多类
4. 叶子节点输出值c的计算
5. GBDT的其他应用
6. GBDT+LR 代码实现

1. 复习

再开始学习GBDT算法之前先复习一下之前的线性回归逻辑回归（二分类）多分类

线性回归
找到一组W 使得 L 最小进而求得F*

使用梯度下降法：
梯度下降的方向：
不断更新w:
最终求得的w 可以表示为:

2.逻辑回归
逻辑回归是用于处理二分类的问题
只不过是将线性回归的输出 Wx结果再用sigmoid函数映射到 0-1 之间
sigmoid函数：

逻辑回归预测的结果是该样本为正例的概率

多分类
多分类：

多分类求解的θ 跟线性回归的w不一样而是一个矩阵

对于任意一条样本：

2. GBDT

gradient boost decision tree

初始化第0棵树 f0 （初始化的值可以给0 为了快速拟合给定一个先验概率例如统计正例的比例）
计算残值 y-y_hat 训练第一棵树 f1
再计算残值再训练第二棵树 f2
...
直到满足收敛条件
模型做预测：sum(f1+f2+...+fm)

gbdt用于回归树

每一次计算都是为了减少上一次的残差。
AdaBoosting中关注正确错误的样本加权，也就是下一次会更重视上一次分错的。

3. gbdt应用于二分类：

之前学的逻辑回归，本质上是用一个线性模型去拟合对数几率：

GBDT处理二分类也是一样，只是用一系列的梯度提升树去拟合这个对数几率。

就是学习到的决策树

单条样本的熵：

因此，与回归问题很类似，下一棵决策树的训练样本为：
需要拟合的残差为真实标签与预测概率之差。

GBDT应用于二分类的算法：
1，初始化：
训练样本中y=1的比例，利用先验信息来初始化学习器
2. 训练的次数 for m=1, 2, 3, ...
3. 计算
得到训练样本：

4. 得到学习器

3. gbdt应用于多类

多分类问题，则需要考虑以下softmax模型：

每一轮的训练实际上是训练了 k 棵树去拟合softmax的每一个分支模型的负梯度。

softmax模型的单样本损失函数为：

4. 叶子节点输出值c的计算

对于新生成的树，计算各个叶子节点的最佳残差拟合值c：

对于m次迭代，所有落入j
推导过程：

GBDT算法：

init
-gradient
leaf node value update

5. GBDT的其他应用

特征重要度
树在做分叉的时候是根据某一特征值来进行的
特征j在单颗树中的重要度，是计算特征j在单颗树中带来的收益之和

例如：

petal width (cm)就是根节点：feature importance=(112∗0.6647−75∗0.4956−37∗0)/112=0.5564007189

petal length (cm)的featureimportance=(75∗0.4956−39∗0.05−36∗0.1528)/112=0.4435992811

特征组合对特征降维
GBDT + LT

将X的特征（很多维度几百个甚至更多）转化成GBDT输出的几个组合特征
feature_1 feature_2, feature_3, feature_4, feature_5
x1 0 1 0 0 0
x2 1 0 0 0 0
...

再用这些新的特征去做一个LR 线性回归给出预测值

6. GBDT+LR 代码实现

import numpy as np
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.linear_model._logistic import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
from sklearn.metrics._ranking import roc_auc_score


class GradientBoostingWithLr(object):
    def __init__(self):
        self.gbdt_model = None
        self.lr_model = None

        self.gbdt_encoder = None

        self.X_train_leafs = None
        self.X_test_leafs = None

        self.X_trans = None  # GBDT 转后之后的X


    def gbdt_train(self, X_train, y_train):
        """
        训练GBDT模型
        :return:
        """
        gbdt_model = GradientBoostingClassifier(
            n_estimators=10,
            max_depth=6,
            verbose=0,
            max_features=0.5  # 训练的时候 会计算那哪些特征 的收益 取最小 features are considered at each split.
        )
        gbdt_model.fit(X_train, y_train)
        return gbdt_model


    def lr_train(self, X_train, y_train):
        lr_model = LogisticRegression()
        lr_model.fit(X_train, y_train)
        return lr_model


    def gbdt_lr_train(self, X_train, y_train):
        self.gbdt_model = self.gbdt_train(X_train, y_train)

        # one_hot
        self.X_train_leafs = self.gbdt_model.apply(X_train)[:, :, 0]
        # print(self.X_train_leafs[0])
        self.gbdt_encoder = OneHotEncoder(categories="auto", sparse=False)
        self.X_transform= self.gbdt_encoder.fit_transform(self.X_train_leafs)
        # print(self.X_transform[0])

        self.lr_model = self.lr_train(self.X_transform, y_train)

    def predict(self, X_test, _test):
        self.X_test_leafs = self.gbdt_model.apply(X_test)[:, :, 0]
        (train_rows, cols) = self.X_train_leafs.shape
        X_trans_all = self.gbdt_encoder.fit_transform(np.concatenate((self.X_train_leafs, self.X_test_leafs), axis=0))

        y_pred = self.lr_model.predict_proba(X_trans_all[train_rows:])[:, 1]
        print(roc_auc_score(y_test, y_pred))

def load_data():
    iris_data = load_iris()
    X = iris_data.data
    y = iris_data.target == 2  # 原结果输出的是 0,1,2 根据是否==2 转化成 0,1
    return train_test_split(X, y, test_size=0.4, random_state=0)


if __name__ == '__main__':
    X_train, X_test, y_train, y_test = load_data()

    gblr = GradientBoostingWithLr()
    gblr.gbdt_lr_train(X_train, y_train)

    gblr.predict(X_test, y_test)