GBDT算法原理深入解析

合集下载

GBDT算法简介

N
Fkm (x ) Fk ,m 1(x )
j
J
1
jkm 1 (x R jkm )
endfor
endfor
end algorithm
Shrinkage

Shrinkage（步长）的思想认为，每次走一小步逐渐逼近结果的效果，
要比每次迈一大步很快逼近结果的方式更容易避免过拟合。
V4 V4 26.95075005
V3 V3 26.55249121 V1 V1 16.70574425
V2 V2 14.70020206
V5 V5 14.29587256 V9 V9 0.29304017 V10 V10 0.17544501

V7 V7 0.14033320
V6 V6 0.12248522 V8 V8 0.06363625
K
For k=1 to K do: y ~ik y ik p k(x i ),i=1…N
J ~ik ,x i } 1 ) terminal node tree ({y {R jkm }j 1 J ~ik xi Rjkm y K 1 jkm K x R y ~ik (1 y ~ik ) i jkm
GBDT算法简介
应用统计20144507007
主要内容

1.算法定义的简单理解 2.算法的原理

3.算法的编程
4.算法的适用范围 5.算法的优缺点

定义

GBDT(Gradient Boosting Decision Tree) ：是一种迭代的决策树算法，
该算法由多棵决策树组成，所有树的结论累加起来做最终答案。
2.Gradient Boosting（即GB)

十大经典预测算法（九）---GBDT

⼗⼤经典预测算法（九）---GBDT
GBDT⼜叫梯度提升决策树，它也属于Boosting框架。

GBDT核⼼原理如下：
如图所⽰，⽤GBDT预测年龄，第⼀轮，预测到年龄为20，它和真实值之间的残差为10，第⼆轮，GBDT开始预测上⼀轮的残差10，预测结果为6，这⼀轮的残差为4，第三轮，以年龄4为预测⽬标，预测来的值为3，和真实值之间相差1，最后以残差1为预测⽬标，预测结果为1，此时残差为0，预测结束，最后把之前模型预测的结果全部相加，就得到预测的真实值为30岁
所以，GBDT的核⼼原理是先⽤初始值预测⼀颗决策树，得到本轮的残差，即真实值减预测值，然后⽤残差作为下⼀轮决策树的预测对象，这时会再产⽣⼀个残差，再⽤这个残差作为下⼀轮的预测对象，以此循环迭代直到最后⼀轮的预测残差为0或⾮常⼩的时候就停⽌迭代，然后把所有轮的模型预测结果相加得到最终预测结果，GBDT核⼼原理如下图所⽰
GBDT和AdaBoost的异同
相似之处：
都是基于Boosting思想的融合算法
默认的基分类器都是决策树
AdaBoost其实是GBDT的⼀个特例
不同之处：
AdaBoost的基分类器可以选择更多的算法，⽽GBDT只能选决策树
GBDT的模型提升⽅法与AdaBoost不同，AdaBoost是通过不断加强对错判数据的权重学习来提升模型的预测效果，⽽GBDT则是通过不断降低模型误差来（学习残差）的思想来提升模型的预测效果。

GBDT(梯度提升树) 原理小结

输入:是训练集样本T={(x1,y1),(x2,y2)...(xm,ym)}，最大迭代次数T, 损失函数L。输出是强学习器f(x)
1) 初始化弱学习器: 2) 对迭代轮数t=1,2,...T有： a)对样本i=1,2，...m，计算负梯度
b)利用(xi,r ti)(i=1,2...m), 拟合一颗CART回归树,得到第t颗回归树，其对应的叶子节点区域为 Rtj,j=1.2...J 。其中J为回归树t的叶子节点的个数。
b)绝对损失，这个损失函数也很常见
对应负梯度误差为：
c)Huber损失，它是均方差和绝对损失的折衷产物，对于远离中心的异常点，采用绝对损失，而中心附近的点采用均方差。这个界限一般用分位数点度量。损失函数如下：
对应的负梯度误差为：
d) 分位数损，需要我们在回归前指定。对应的负梯度误差为：
这里我们再对常用的GBDT损失函数做一个总结。对于分类算法，其损失函数一般有对数损失函数和指数损失函数两种: a) 如果是指数损失函数，则损失函数表达式为
其负梯度计算和叶子节点的最佳残差拟合参见Adaboost原理篇。 b) 如果是对数损失函数，分为二元分类和多元分类两种，参见4.1节和4.2节。对于回归算法，常用损失函数有如下4种: a)均方差，这个是最常见的回归损失函数了
如果我们加上了正则化项，则有:
v 的取值范围为0<v<1.对于同样的训练集学习效果，较小的v意味着我们需要更多的弱学习器的迭代次数。通常我们用步长和迭代最大次数一起来决定算法的拟合效果。
第二种正则化的方式是通过子采样比例（subsample）。取值为(0,1]。注意这里的子采样和随机森林不一样，随机森林使用的是放回抽样，而这里是不放回抽样。如果取值为1，则全部样本都使用，等于没有使用子采样。如果取值小于1，则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。推荐在[0.5, 0.8]之间。

GBDT算法原理深入解析

GBDT算法原理深入解析GBDT（Gradient Boosting Decision Tree）是一种基于决策树的集成学习方法，由Freidman于1999年提出，并在近年来得到了广泛的应用。

GBDT通过串行训练多个弱分类器（决策树），并通过迭代的方式不断优化模型的预测结果，最终得到一个强大的预测模型。

GBDT的核心原理可以简述为以下几个步骤：1.初始化：将所有样本的权重初始化为相等值，并选择一个初始的弱分类器作为基学习器。

2.计算残差：根据当前的模型预测值与真实值的差异，计算残差。

这里的残差可以理解为当前模型预测的错误。

3. 拟合残差：使用残差作为目标值，通过训练一个新的弱分类器去拟合这些残差。

这个新的弱分类器被称为Boosting弱学习器，它的输出结果会修正之前模型的预测值。

4.更新模型：将新训练的弱分类器加入到模型中，并通过更新样本权重来调整模型预测的偏差。

样本权重会根据预测错误的程度进行调整，即让之前预测错误的样本在后续的训练中获得更大的权重。

5.迭代训练：通过重复步骤3和4，不断拟合残差并更新模型，构建出一个由多个弱分类器组成的强分类器。

每个弱分类器都在尽可能修正之前模型的预测错误，并最小化整体模型的损失函数。

6.终止条件：当达到设定的迭代次数，或者当模型的性能无法继续提升时，结束训练过程。

7.最终结果：将多个弱分类器的预测结果加权求和，得到最终的预测结果。

这里的权重可以视为每个弱分类器对模型的贡献程度，通常是根据每个弱分类器的训练误差来计算。

此外，GBDT还存在一些常见的改进方法，如XGBoost和LightGBM。

XGBoost（Extreme Gradient Boosting）在GBDT的基础上增加了一些算法细节的创新，如损失函数的优化、正则化项的添加等，从而提高了模型的精确性和泛化性能。

LightGBM是一种基于GBDT的高效实现，通过使用直方图（Histogram）和基于树的学习算法，大幅度提升了模型的训练速度。

gbdt原理

gbdt原理
梯度提升决策树（GBDT）是一种常用的监督学习算法，它是一种集成学习方法，通过集成多个决策树来构建强大的预测模型。

GBDT的原理如下：首先，我们定义一个损失函数，常用的有均方误差（MSE）、平均绝对误差（MAE）等。

然后，我们构建一个初始的决策树模型作为第一个基学习器。

接下来，我们根据定义的损失函数，计算当前模型的预测值与真实值之间的差异，这就是残差。

然后，我们使用这个残差作为新的标签，构建一个新的决策树模型，将其添加到集成模型中。

然后，我们通过迭代的方式，继续计算每个新模型的残差，并构建新的决策树模型，将其添加到集成模型中。

这样，我们不断地优化我们的模型，直到达到预设的迭代次数或停止条件。

最终，通过将每个决策树的预测结果进行累加，我们得到了最终的预测结果。

在预测过程中，GBDT使用加法模型的形式，将每个决策树的预测结果相加得到最终的预测值。

总结来说，GBDT通过迭代地构建决策树模型，并使用残差作为新的标签进行训练，不断优化模型的预测能力。

该算法具有很强的灵活性和鲁棒性，在很多实际问题中都有较好的表现。

GBDT算法梳理

GBDT算法梳理1.GBDT(Gradient Boosting Decision Tree)思想 Boosting : 给定初始训练数据，由此训练出第⼀个基学习器；根据基学习器的表现对样本进⾏调整，在之前学习器做错的样本上投⼊更多关注；⽤调整后的样本，训练下⼀个基学习器；重复上述过程 T 次，将 T 个学习器加权结合。

Gradient boosting Gradient boosting是 boosting 的其中⼀种⽅法，它主要的思想是，每⼀次建⽴单个学习器时，是在之前建⽴的模型的损失函数的梯度下降⽅向。

我们知道损失函数(loss function)越⼤，说明模型越容易出错，如果我们的模型能够让损失函数持续的下降，则说明我们的模型在不停的改进，⽽最好的⽅式就是让损失函数在其梯度（Gradient)的⽅向上下降。

GBDT GBDT是 GB 和 DT(Decision Tree) 的结合，就是当 GB 中的单个学习器为决策树时的情况.决策树分为两⼤类，回归树和分类树。

前者⽤于预测实数值，如明天的温度、⽤户的年龄、⽹页的相关程度；后者⽤于分类标签值，如晴天/阴天/雾/⾬、⽤户性别、⽹页是否是垃圾页⾯。

这⾥要强调的是，前者的结果加减是有意义的，如10岁+5岁-3岁=12岁，后者则⽆意义，如男+男+⼥=到底是男是⼥？GBDT的核⼼就在于，每⼀棵树学的是之前所有树结论和的残差，这个残差就是⼀个加预测值后能得真实值的累加量。

⽐如A的真实年龄是18岁，但第⼀棵树的预测年龄是12岁，差了6岁，即残差为6岁。

那么在第⼆棵树⾥我们把A的年龄设为6岁去学习，如果第⼆棵树真的能把A分到6岁的叶⼦节如果第⼆棵树的结论是5岁，则A仍然存在1岁的残差，第三棵树⾥A的年龄就变成1岁，继续学。

⽽分类树的结果显然是没办法累加的，所以GBDT中的树都是回归树，这点对理解GBDT相当重要我们通过⼀张图⽚，来说明gbdt的训练过程: gbdt通过多轮迭代,每轮迭代产⽣⼀个弱分类器，每个分类器在上⼀轮分类器的残差基础上进⾏训练。

GBDT算法原理深入解析

GBDT算法原理深入解析标签：机器学习集成学习GBM GBDT XGBoost梯度提升（Gradient boosting）是一种用于回归、分类和排序任务的机器学习技术，属于Boosting算法族的一部分。

Boosting是一族可将弱学习器提升为强学习器的算法，属于集成学习（ensemble learning）的范畴。

Boosting方法基于这样一种思想：对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断要好。

通俗地说，就是“三个臭皮匠顶个诸葛亮”的道理。

梯度提升同其他boosting方法一样，通过集成（ensemble）多个弱学习器，通常是决策树，来构建最终的预测模型。

Boosting、bagging和stacking是集成学习的三种主要方法。

不同于bagging方法，boosting方法通过分步迭代（stage-wise）的方式来构建模型，在迭代的每一步构建的弱学习器都是为了弥补已有模型的不足。

Boosting族算法的著名代表是AdaBoost，AdaBoost算法通过给已有模型预测错误的样本更高的权重，使得先前的学习器做错的训练样本在后续受到更多的关注的方式来弥补已有模型的不足。

与AdaBoost算法不同，梯度提升方法在迭代的每一步构建一个能够沿着梯度最陡的方向降低损失（steepest-descent）的学习器来弥补已有模型的不足。

经典的AdaBoost算法只能处理采用指数损失函数的二分类学习任务，而梯度提升方法通过设置不同的可微损失函数可以处理各类学习任务（多分类、回归、Ranking等），应用范围大大扩展。

另一方面，AdaBoost算法对异常点（outlier）比较敏感，而梯度提升算法通过引入bagging思想、加入正则项等方法能够有效地抵御训练数据中的噪音，具有更好的健壮性。

这也是为什么梯度提升算法（尤其是采用决策树作为弱学习器的GBDT算法）如此流行的原因，有种观点认为GBDT是性能最好的机器学习算法，这当然有点过于激进又固步自封的味道，但通常各类机器学习算法比赛的赢家们都非常青睐GBDT算法，由此可见该算法的实力不可小觑。

gbdt原理

gbdt原理GBDT（Gradient Boosting Decision Tree）是一种集成学习算法，它通过多棵决策树的集成来提高预测准确性。

在GBDT中，每棵树都是基于上一棵树的残差进行训练的，这使得GBDT能够不断迭代地提高模型的预测能力。

本文将详细介绍GBDT的原理及其在机器学习中的应用。

首先，GBDT的核心思想是将多棵决策树进行集成。

在训练过程中，每棵树都试图学习上一棵树的残差，以此来不断改进模型的预测能力。

这种残差学习的方式使得GBDT能够有效地拟合复杂的非线性关系，从而提高模型的泛化能力。

其次，GBDT在训练过程中采用了梯度提升（Gradient Boosting）的方法。

具体来说，每一棵树的训练都是通过最小化损失函数来实现的。

在每一轮迭代中，GBDT都会计算出当前模型对训练样本的残差，然后用一个新的决策树来拟合这些残差，从而不断改进模型的预测能力。

此外，GBDT还采用了加法模型的思想。

在GBDT中，模型的预测结果是多棵树的预测结果的累加。

这种累加的方式使得GBDT能够灵活地拟合不同的数据分布，从而提高模型的适应能力。

在实际应用中，GBDT已经被广泛应用于各种机器学习任务中。

例如，在推荐系统中，GBDT可以用于预测用户对商品的喜好程度；在金融风控领域，GBDT可以用于预测客户的信用风险等。

由于GBDT 具有较强的泛化能力和适应能力，因此在实际应用中取得了很好的效果。

总的来说，GBDT作为一种集成学习算法，通过多棵决策树的集成来提高模型的预测能力。

它采用了梯度提升的方法，通过不断迭代地改进模型来提高预测准确性。

在实际应用中，GBDT已经取得了很好的效果，并被广泛应用于各种机器学习任务中。

希望本文能够帮助读者更好地理解GBDT的原理及其在机器学习中的应用。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Boosting是一族可将弱学习器提升为强学习器的算法，属于集成学习（ensemble learning）的范畴。

Boosting方法基于这样一种思想：对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断要好。

通俗地说，就是“三个臭皮匠顶个诸葛亮”的道理。

梯度提升同其他boosting方法一样，通过集成（ensemble）多个弱学习器，通常是决策树，来构建最终的预测模型。

Boosting、bagging和stacking是集成学习的三种主要方法。

不同于bagging方法，boosting方法通过分步迭代（stage-wise）的方式来构建模型，在迭代的每一步构建的弱学习器都是为了弥补已有模型的不足。

与AdaBoost算法不同，梯度提升方法在迭代的每一步构建一个能够沿着梯度最陡的方向降低损失（steepest-descent）的学习器来弥补已有模型的不足。

基于梯度提升算法的学习器叫做GBM(Gradient Boosting Machine)。

理论上，GBM可以选择各种不同的学习算法作为基学习器。

现实中，用得最多的基学习器是决策树。

为什么梯度提升方法倾向于选择决策树（通常是CART树）作为基学习器呢？这与决策树算法自身的优点有很大的关系。

决策树可以认为是if-then规则的集合，易于理解，可解释性强，预测速度快。

同时，决策树算法相比于其他的算法需要更少的特征工程，比如可以不用做特征标准化，可以很好的处理字段缺失的数据，也可以不用关心特征间是否相互依赖等。

决策树能够自动组合多个特征，它可以毫无压力地处理特征间的交互关系并且是非参数化的，因此你不必担心异常值或者数据是否线性可分（举个例子，决策树能轻松处理好类别A在某个特征维度x的末端，类别B在中间，然后类别A又出现在特征维度x前端的情况）。

不过，单独使用决策树算法时，有容易过拟合缺点。

所幸的是，通过各种方法，抑制决策树的复杂性，降低单颗决策树的拟合能力，再通过梯度提升的方法集成多个决策树，最终能够很好的解决过拟合的问题。

由此可见，梯度提升方法和决策树学习算法可以互相取长补短，是一对完美的搭档。

至于抑制单颗决策树的复杂度的方法有很多，比如限制树的最大深度、限制叶子节点的最少样本数量、限制节点分裂时的最少样本数量、吸收bagging的思想对训练样本采样（subsample），在学习单颗决策树时只使用一部分训练样本、借鉴随机森林的思路在学习单颗决策树时只采样一部分特征、在目标函数中添加正则项惩罚复杂的树结构等。

现在主流的GBDT算法实现中这些方法基本上都有实现，因此GBDT算法的超参数还是比较多的，应用过程中需要精心调参，并用交叉验证的方法选择最佳参数。

本文对GBDT算法原理进行介绍，从机器学习的关键元素出发，一步一步推导出GBDT算法背后的理论基础，读者可以从这个过程中了解到GBDT算法的来龙去脉。

对于该算法的工程实现，本文也有较好的指导意义，实际上对机器学习关键概念元素的区分对应了软件工程中的“开放封闭原则”的思想，基于此思想的实现将会具有很好的模块独立性和扩展性。

机器学习的关键元素先复习下监督学习的关键概念：模型（model）、参数（parameters）、目标函数（objective function）模型就是所要学习的条件概率分布或者决策函数，它决定了在给定特征向量\(x\)时如何预测出目标\(y\)。

定义\(x_i \in R^d\) 为训练集中的第\(i\)个训练样本，则线性模型（linear model）可以表示为：\(\hat{y}_i = \sum_j{w_j x_{ij}}\)。

模型预测的分数\(\hat{y}_i\)在不同的任务中有不同的解释。

例如在逻辑回归任务中，\(1/(1+exp(-\hat{y}_i))\)表示模型预测为正例的概率；而在排序学习任务中，\(\hat{y}_i\)表示排序分。

参数就是我们要从数据中学习得到的内容。

模型通常是由一个参数向量决定的函数。

例如，线性模型的参数可以表示为：\(\Theta=\{w_j|j=1,\cdots,d\}\)。

目标函数通常定义为如下形式：\[ Obj(\Theta)=L(\Theta)+\Omega(\Theta)\] 其中，\(L(\Theta)\)是损失函数，用来衡量模型拟合训练数据的好坏程度；\(\Omega(\Theta)\)称之为正则项，用来衡量学习到的模型的复杂度。

训练集上的损失（Loss）定义为：\(L=\sum_{i=1}^n l(y_i, \hat{y}_i)\)。

常用的损失函数有平方损失（square loss）：\(l(y_i, \hat{y}_i)=(y_i - \hat{y}_i)^2\)；Logistic损失：\(l(y_i, \hat{y}_i)=y_i ln(1+e^{y_i}) +(1-y_i)ln(1+e^{\hat{y}_i})\)。

常用的正则项有L1范数\(\Omega(w)=\lambda \Vert w \Vert_1\)和L2范数\(\Omega(w)=\lambda \Vert w \Vert_2\)。

Ridge regression就是指使用平方损失和L2范数正则项的线性回归模型；Lasso regression就是指使用平方损失和L1范数正则项的线性回归模型；逻辑回归（Logistic regression）指使用logistic损失和L2范数或L1范数正则项的线性模型。

目标函数之所以定义为损失函数和正则项两部分，是为了尽可能平衡模型的偏差和方差（Bias Variance Trade-off）。

最小化目标函数意味着同时最小化损失函数和正则项，损失函数最小化表明模型能够较好的拟合训练数据，一般也预示着模型能够较好地拟合真实数据（groud true）；另一方面，对正则项的优化鼓励算法学习到较简单的模型，简单模型一般在测试样本上的预测结果比较稳定、方差较小（奥坎姆剃刀原则）。

也就是说，优化损失函数尽量使模型走出欠拟合的状态，优化正则项尽量使模型避免过拟合。

从概念上区分模型、参数和目标函数给学习算法的工程实现带来了益处，使得机器学习的各个组成部分之间耦合尽量松散。

加法模型（additive model）GBDT算法可以看成是由K棵树组成的加法模型：\[\hat{y}_i=\sum_{k=1}^K f_k(x_i), f_k \in F \tag 0\] 其中\(F\)为所有树组成的函数空间，以回归任务为例，回归树可以看作为一个把特征向量映射为某个score的函数。

该模型的参数为：\(\Theta=\{f_1,f_2, \cdots, f_K \}\)。

于一般的机器学习算法不同的是，加法模型不是学习d维空间中的权重，而是直接学习函数（决策树）集合。

上述加法模型的目标函数定义为：\(Obj=\sum_{i=1}^n l(y_i, \hat{y}_i) + \sum_{k=1}^K\Omega(f_k)\)，其中\(\Omega\)表示决策树的复杂度，那么该如何定义树的复杂度呢？比如，可以考虑树的节点数量、树的深度或者叶子节点所对应的分数的L2范数等等。

如何来学习加法模型呢？解这一优化问题，可以用前向分布算法（forward stagewise algorithm）。

因为学习的是加法模型，如果能够从前往后，每一步只学习一个基函数及其系数（结构），逐步逼近优化目标函数，那么就可以简化复杂度。

这一学习过程称之为Boosting。

具体地，我们从一个常量预测开始，每次学习一个新的函数，过程如下：\[ \begin{split}\hat{y}_i^0 &= 0 \\ \hat{y}_i^1 &= f_1(x_i) = \hat{y}_i^0 +f_1(x_i) \\ \hat{y}_i^2 &= f_1(x_i) + f_2(x_i) = \hat{y}_i^1 +f_2(x_i) \\ & \cdots \\ \hat{y}_i^t &= \sum_{k=1}^t f_k(x_i) =\hat{y}_i^{t-1} + f_t(x_i) \\ \end{split} \]那么，在每一步如何决定哪一个函数\(f\)被加入呢？指导原则还是最小化目标函数。

在第\(t\)步，模型对\(x_i\)的预测为：\(\hat{y}_i^t=\hat{y}_i^{t-1} + f_t(x_i)\)，其中\(f_t(x_i)\)为这一轮我们要学习的函数（决策树）。

这个时候目标函数可以写为：\[ \begin{split} Obj^{(t)} &= \sum_{i=1}^nl(y_i, \hat{y}_i^t) +\sum_{i=i}^t \Omega(f_i) \\ &= \sum_{i=1}^n l\left(y_i,\hat{y}_i^{t-1} + f_t(x_i) \right) + \Omega(f_t) + constant\end{split}\tag{1} \]举例说明，假设损失函数为平方损失（square loss），则目标函数为：\[ \begin{split} Obj^{(t)} &= \sum_{i=1}^n \left(y_i - (\hat{y}_i^{t-1} + f_t(x_i)) \right)^2 + \Omega(f_t) + constant \\ &= \sum_{i=1}^n\left[2(\hat{y}_i^{t-1} - y_i)f_t(x_i) + f_t(x_i)^2 \right] +\Omega(f_t) + constant \end{split}\tag{2} \]其中，\((\hat{y}_i^{t-1} - y_i)\)称之为残差（residual）。