Adaboost 算法的原理与推导
Adaboost算法实例解析

Adaboost算法实例解析Adaboost 算法实例解析1 Adaboost的原理1.1 Adaboost基本介绍AdaBoost,是英⽂"Adaptive Boosting"(⾃适应增强)的缩写,由Yoav Freund和Robert Schapire在1995年提出。
Adaboost是⼀种迭代,其核⼼思想是针对同⼀个训练集训练不同的分类器(弱分类器),然后把这 Adaboost 些弱分类器集合起来,构成⼀个更强的最终分类器(强分类器)。
其算法本⾝是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。
将修改过权值的新数据集送给下层分类器进⾏训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。
使⽤adaboost分类器可以排除⼀些不必要的训练数据特徵,并将关键放在关键的训练数据上⾯。
主要解决的问题 ⽬前,对adaBoost算法的研究以及应⽤⼤多集中于分类问题,同时近年也出现了⼀些在回归问题上的应⽤。
就其应⽤adaBoost系列主要解决了: 两类问题、多类单标签问题、多类多标签问题、⼤类单标签问题,回归问题。
它⽤全部的训练样本进⾏学习。
1.2 Adaboost算法介绍算法分析 该算法其实是⼀个简单的弱分类算法提升过程,这个过程通过不断的训练,可以提⾼对数据的分类能 Adaboost⼒。
整个过程如下所⽰: 1. 先通过对N个训练样本的学习得到第⼀个弱分类器; 2. 将分错的样本和其他的新数据⼀起构成⼀个新的N个的训练样本,通过对这个样本的学习得到第⼆个弱分类器; 3. 将1和2都分错了的样本加上其他的新样本构成另⼀个新的N个的训练样本,通过对这个样本的学习得到第三个弱分类器; 4. 最终经过提升的强分类器。
即某个数据被分为哪⼀类要通过, ……的多数表决。
Adaboost的⾃适应在于:前⼀个基本分类器分错的样本会得到加强,加权后的全体样本再次被⽤来训练下⼀个基本分类器。
adaboost算法基本原理

adaboost算法基本原理Adaboost算法是一种集成学习方法,通过组合多个弱分类器来构建一个强分类器。
它的基本原理是通过逐步调整训练样本的权重,并将每个弱分类器的分类结果进行加权投票,从而得到最终的分类结果。
Adaboost算法的核心思想是通过迭代的方式训练多个弱分类器,并根据每个分类器的性能调整样本的权重,使得那些被错误分类的样本在后续的训练中得到更多的关注。
具体来说,Adaboost算法的训练过程可以分为以下几个步骤:1. 初始化样本权重:开始时,所有样本的权重相等。
2. 迭代训练:对于每次迭代,都会训练一个新的弱分类器。
训练过程中,会根据当前的样本权重来调整训练样本的相对重要性。
3. 弱分类器训练:在每次迭代中,选择一个最佳的弱分类器来训练。
弱分类器通常是一个简单的分类模型,比如决策树桩(decision stump)。
4. 弱分类器权重计算:计算当前弱分类器的权重,该权重取决于分类器的准确性。
准确性越高的分类器,其权重越大。
5. 样本权重更新:根据当前的弱分类器的表现,调整每个样本的权重。
被正确分类的样本权重会减小,被错误分类的样本权重会增加。
6. 结果加权投票:将每个弱分类器的分类结果进行加权投票,权重为其对应的分类器权重。
最终的分类结果是投票得到的分类标签。
通过上述步骤的迭代,Adaboost算法能够不断调整样本的权重,逐渐提升弱分类器的准确性,并且将它们组合成一个强分类器。
Adaboost算法的优点在于,它能够处理多类别分类问题,并且对于噪声数据具有较好的鲁棒性。
此外,Adaboost算法还能够自动选择特征,并且减少了参数的选择。
然而,Adaboost算法也存在一些限制。
首先,它对异常值敏感,异常值可能会对训练过程产生较大的影响。
其次,Adaboost算法对于噪声数据和过拟合问题也比较敏感。
最后,Adaboost算法的训练过程是串行的,无法并行化处理。
总结起来,Adaboost算法是一种通过迭代训练多个弱分类器,并将它们进行加权投票的集成学习方法。
adaboost算法参数

adaboost算法参数摘要:1.简介2.AdaBoost 算法原理3.AdaBoost 算法关键参数4.参数调整策略与技巧5.总结正文:1.简介AdaBoost(Adaptive Boosting)算法是一种自适应提升算法,由Yoav Freund 和Robert Schapire 于1995 年提出。
它通过组合多个弱学习器(决策树、SVM 等)来构建一个更强大的学习器,从而提高分类和回归任务的性能。
2.AdaBoost 算法原理AdaBoost 算法基于加权训练样本的概念,每次迭代过程中,算法会根据当前学习器的性能调整样本的权重。
在弱学习器训练过程中,权重大的样本被优先考虑,以达到优化学习器的目的。
3.AdaBoost 算法关键参数AdaBoost 算法有以下几个关键参数:- n_estimators:弱学习器的数量,影响模型的复杂度和性能。
- learning_rate:加权系数,控制每次迭代时样本权重更新的幅度。
- max_depth:决策树的深度,限制模型复杂度,防止过拟合。
- min_samples_split:决策树分裂所需的最小样本数,防止过拟合。
- min_samples_leaf:决策树叶节点所需的最小样本数,防止过拟合。
4.参数调整策略与技巧- 对于分类问题,可以先从较小的n_estimators 值开始,逐步增加以找到最佳组合。
- learning_rate 的选择需要平衡模型的拟合能力和泛化性能,可以采用网格搜索法寻找最佳值。
- 可以通过交叉验证来评估模型性能,从而确定合适的参数组合。
5.总结AdaBoost 算法是一种具有很高实用价值的集成学习方法,通过调整关键参数,可以有效地提高分类和回归任务的性能。
adaboostclassifier()介绍

adaboostclassifier()介绍摘要:1.AdaBoost 简介2.AdaBoost 算法原理3.AdaBoost 应用实例4.AdaBoost 优缺点正文:1.AdaBoost 简介AdaBoost(Adaptive Boosting)是一种自适应的集成学习算法,主要用于解决分类和回归问题。
它通过组合多个基本分类器(弱学习器)来提高预测性能,可以有效地解决单个分类器准确率不高的问题。
AdaBoost 算法在机器学习领域被广泛应用,尤其是在图像识别、文本分类等任务中取得了很好的效果。
2.AdaBoost 算法原理AdaBoost 算法的核心思想是加权训练样本和加权弱学习器。
在每一轮迭代过程中,算法会根据样本的权重来调整训练样本,使得错误分类的样本在下一轮中拥有更高的权重。
同时,算法会根据弱学习器的权重来调整弱学习器的重要性,使得表现更好的弱学习器在下一轮中拥有更高的权重。
这个过程会一直进行,直到达到预设的迭代次数。
具体来说,AdaBoost 算法包括以下步骤:(1) 初始化:设置初始权重,通常为等权重。
(2) 迭代:a.根据样本权重,对训练样本进行加权抽样。
b.训练弱学习器,得到弱学习器的预测结果。
c.更新样本权重,将错误分类的样本权重增加,正确分类的样本权重减小。
d.更新弱学习器权重,将表现更好的弱学习器权重增加,表现较差的弱学习器权重减小。
(3) 终止条件:达到预设的迭代次数或满足其他终止条件。
(4) 集成:将多个弱学习器进行集成,得到最终的预测结果。
3.AdaBoost 应用实例AdaBoost 算法在许多领域都有广泛应用,例如:(1) 图像识别:在计算机视觉领域,AdaBoost 算法被广泛应用于图像识别任务,尤其是人脸识别、车牌识别等。
(2) 文本分类:在自然语言处理领域,AdaBoost 算法可以用于文本分类任务,例如情感分析、垃圾邮件过滤等。
(3) 语音识别:在语音识别领域,AdaBoost 算法可以用于声学模型的训练,提高语音识别的准确率。
r语言adaboost的shap模型解释

“R语言Adaboost的SHAP模型解释”一、介绍Adaboost是一种经典的集成学习算法,旨在通过串行训练多个弱分类器来提升整体分类性能。
而SHAP(SHapley Additive exPlanations)模型解释则是一种用于解释机器学习模型预测的方法,它基于博弈论中的Shapley值理论,可以帮助我们理解模型预测结果背后的因果关系。
本文将围绕R语言中Adaboost算法与SHAP模型解释的结合,从深度和广度兼具的角度展开全面评估,并撰写一篇有价值的文章。
二、从简到繁:Adaboost算法的基本原理和应用1. Adaboost的基本原理Adaboost算法通过迭代训练多个弱分类器,并加权组合它们的预测结果来增强整体分类性能。
在每一轮迭代中,样本的权重会根据前一轮分类器的表现进行调整,以便更加聚焦于被错误分类的样本。
这种串行训练的方式可以在保持高效性的同时提升分类器的准确性。
2. Adaboost的应用场景Adaboost算法在实际应用中广泛用于人脸检测、目标识别和文本分类等领域。
由于其对弱分类器的要求相对较低,使得Adaboost算法在处理大规模数据时具有较高的计算效率。
三、由浅入深:SHAP模型解释的原理与应用3. SHAP模型解释的原理SHAP模型解释的核心理论是Shapley值,它通过博弈论中的合作博弈概念来对每个特征对模型预测结果的贡献进行量化。
通过计算每个特征值对应的Shapley值,我们可以清晰地了解每个特征对模型预测的影响程度。
4. SHAP模型解释的应用场景SHAP模型解释在解释机器学习模型预测结果时具有重要意义,特别是对于具有较高复杂性的模型,如集成学习算法和深度学习模型。
它可以帮助我们理解模型对于不同特征的敏感度,从而为进一步优化模型提供有力的参考。
四、Adaboost与SHAP模型解释的结合与个人观点5. Adaboost与SHAP模型解释的结合将Adaboost算法与SHAP模型解释相结合,可以帮助我们更全面地理解模型预测结果。
adaboostclassifier()介绍

adaboostclassifier()介绍摘要:1.介绍Adaboost 分类器2.Adaboost 的工作原理3.Adaboost 的优势和应用领域4.如何在Python 中使用Adaboost 分类器正文:Adaboost 分类器是一种非常强大的机器学习算法,它可以用来解决分类问题。
它的全称是"Adaptive Boosting",是一种自适应增强技术。
Adaboost 的工作原理是通过组合多个弱分类器来构建一个更强大的分类器。
这些弱分类器是通过训练数据集的子集得到的,而每个子集的样本都是通过随机抽样得到的。
在训练过程中,Adaboost 算法会根据每个弱分类器的性能来调整它们的权重,从而使分类器能够更好地拟合数据集。
Adaboost 的优势在于它可以处理数据集中存在的噪声和异常值,而且对于数据集中不同类别的样本,它可以自动调整分类器的权重,从而提高分类器的性能。
因此,Adaboost 分类器在文本分类、垃圾邮件分类、图像分类等领域都取得了很好的效果。
在Python 中,我们可以使用scikit-learn 库中的AdaboostClassifier 类来创建和使用Adaboost 分类器。
首先,需要导入所需的库,然后使用fit 方法来训练分类器,最后使用predict 方法来对新的数据进行分类。
例如,以下代码展示了如何使用scikit-learn 库中的AdaboostClassifier类来创建一个Adaboost 分类器,并对Iris 数据集进行分类:```pythonfrom sklearn.datasets import load_irisfrom sklearn.ensemble import AdaboostClassifierfrom sklearn.model_selection import train_test_split# 加载Iris 数据集iris = load_iris()X = iris.datay = iris.target# 将数据集划分为训练集和测试集X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 创建Adaboost 分类器adaboost = AdaboostClassifier()# 使用训练集训练分类器adaboost.fit(X_train, y_train)# 使用测试集进行预测y_pred = adaboost.predict(X_test)# 计算分类器的准确率accuracy = adaboost.score(X_test, y_test)print("Accuracy: {:.2f}".format(accuracy * 100))```总之,Adaboost 分类器是一种非常有用的机器学习算法,它通过组合多个弱分类器来构建一个更强大的分类器,可以有效地处理数据集中的噪声和异常值,提高分类器的性能。
Boosting算法之Adaboost和GBDT

Boosting算法之Adaboost和GBDT Boosting是串⾏式集成学习⽅法的代表,它使⽤加法模型和前向分步算法,将弱学习器提升为强学习器。
Boosting系列算法⾥最著名的算法主要有AdaBoost和梯度提升系列算法(Gradient Boost,GB),梯度提升系列算法⾥⾯应⽤最⼴泛的是梯度提升树(Gradient Boosting Decision Tree,GBDT)。
⼀、Adaboost1、Adaboost介绍 Adaboost算法通过在训练集上不断调整样本权重分布,基于不同的样本权重分布,重复训练多个弱分类器,最后通过结合策略将所有的弱分类器组合起来,构成强分类器。
Adaboost算法在训练过程中,注重减少每个弱学习器的误差,在训练下⼀个弱学习器时,根据上⼀次的训练结果,调整样本的权重分布,更加关注那些被分错的样本,使它们在下⼀次训练中得到更多的关注,有更⼤的可能被分类正确。
Adaboost算法框架图2、Adaboost算法过程1)初始化样本权重,⼀共有n个样本,则每个样本的权重为1/n2)在样本分布D t上,训练弱分类器,for t=1,2,……T:a、训练分类器h tb、计算当前弱分类器的分类误差率c、判断误差率是否⼩于0.5,是则继续,否则退出循环d、计算当前弱分类器的权重系数alpha值e、根据alpha值调整样本分布D t+1如果样本被正确分类,则该样本的权重更改为:如果样本被错误分类,则该样本的权重更改为:3)组合弱分类器得到强分类器3、算法伪代码: AdaBoost算法每⼀轮都要判断当前基学习器是否满⾜条件,⼀旦条件不满⾜,则当前学习器被抛弃,且学习过程停⽌。
Adaboost算法使⽤指数损失函数,通过最⼩化指数损失函数,得到在每次迭代中更新的权重参数计算公式。
AdaBoost算法使⽤串⾏⽣成的序列化⽅法,多个基学习器之间存在强依赖关系。
Adaboost的每⼀个弱分类器的⽬标,都是为了最⼩化损失函数,下⼀个弱分类器是在上⼀个分类器的基础上对错分样本进⾏修正,所以, AdaBoost算法是注重减⼩偏差的算法。
adaboost算法原理,以伪代码描述其算法过程

adaboost算法原理,以伪代码描述其算法过程Adaboost算法原理Adaboost算法是一种常用的分类算法,它的主要思想是通过迭代训练一系列弱分类器,将它们组合成一个强分类器。
Adaboost算法最早由Freund和Schapire在1996年提出,目前已被广泛应用于机器学习和数据挖掘领域。
1. 弱分类器首先需要明确什么是弱分类器。
弱分类器是指准确率略高于随机猜测的分类器,例如一个决策树深度只有1或2层、一个简单的线性模型等。
2. Adaboost算法流程Adaboost算法流程如下:(1)初始化样本权重:对于训练集中的每个样本,初始时赋予相同的权重。
(2)迭代训练:对于每轮迭代,根据当前样本权重训练一个弱分类器,并计算其误差率。
(3)更新样本权重:将误差率小的弱分类器赋予更大的权重,并根据其预测结果更新样本权重。
(4)组合所有弱分类器:将所有弱分类器按照其权重进行加权组合,得到最终的强分类器。
3. Adaboost算法具体实现具体实现过程中,需要定义以下变量:(1)训练集:$D=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$,其中$x_i$表示第$i$个样本的特征向量,$y_i\in\{-1,1\}$表示第$i$个样本的类别。
(2)弱分类器:$h_t(x)$表示第$t$个弱分类器。
(3)样本权重:$w_{i,t}$表示第$i$个样本在第$t$轮迭代中的权重。
(4)弱分类器权重:$\alpha_t$表示第$t$个弱分类器的权重。
Adaboost算法伪代码如下:输入:训练集D,迭代次数T输出:最终的强分类器1. 初始化样本权重for i=1 to N dow_{i,0}=1/N2. 迭代训练for t=1 to T do(a) 训练一个弱分类器h_t(x)=train(D,w_{:,t})(b) 计算误差率e_t=sum(w_{i,t}I(h_t(x_i)!=y_i))/sum(w_{i,t})(c) 计算弱分类器权重alpha_t=log((1-e_t)/e_t)(d) 更新样本权重for i=1 to N dow_{i,t+1}=w_{i,t}*exp(alpha_ty_ih_t(x_i))/Z_t(e) 归一化因子Z_t=sum(w_{i,t+1})3. 组合所有弱分类器H(x)=sign(sum(alpha_th_t(x)))其中,$I$为指示函数,当$h_t(x_i)\neq y_i$时取值为1,否则为0;$Z_t$为归一化因子,使得权重和为1。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
d . 更新训练数据集的权
使得被基本分类器Gm(x)误分类样本的权值增大,而被正确分类样本的权值减小。就这样,通过这样的方式,AdaBoost方法能“重点关注”或“聚焦于”那些较难分的样本 上。 其中,Zm是规范化因子,使得Dm+1成为一个概率分布:
步骤3. 组合各个弱分类器
从而得到最终分类器,如下: 1
所以阈值v取5.5时误差率最低,故第三个基本分类器为:
依然还是原样本:
此时,被误分类的样本是:0 1 2 9,这4个样本所对应的权值皆为0.0455, 所以G3(x)在训练数据集上的误差率e3 = P(G3(xi)≠yi) = 0.0455*4 = 0.1820。 计算G3的系数:
更新训练数据的权值分布:
3. 将各个训练得到的弱分类器组合成强分类器。各个弱分类器的训练过程结束后,加大分类误差率小的弱分类器的权重,使其在最终的分类函数中起着较大的决定作用,而 降低分类误差率大的弱分类器的权重,使其在最终的分类函数中起着较小的决定作用。换言之,误差率低的弱分类器在最终分类器中占的权重较大,否则较小。
1.2 Adaboost算法流程
结构之法 算法之道
七月算法(面试、算法、机器学习):/。
Adaboost 算法的原理与推导
分类: 30.Machine L&Data Mining 2014-11-02 23:31 13877人阅读 评论(37) 收藏 举报
Adaboost 算法的原理与推导
此时,得到的第三个基本分类器sign(f3(x))在训练数据集上有0个误分类点。至此,整个训练过程结束。
现在,咱们来总结下3轮迭代下来,各个样本权值和误差率的变化,如下所示(其中,样本权值D中加了下划线的表示在上一轮中被分错的样本的新权值): 1. 训练之前,各个样本的权值被初始化为D1 = (0.1, 0.1,0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1); 2. 第一轮迭代 中,样本“6 7 8” 被分错,对应的误差率为e1 =P(G1(xi)≠yi) = 3*0.1 = 0.3,此第一个基本分类器在最终的分类器中所占的权重为a1 = 0.4236。第一轮
无心啰嗦,本文结合邹博之决策树与Adaboost 的PPT,跟他讲Adaboost指数损失函数推导的PPT(第85~第98页)、以及《统计学习方法》等参考资料写就,可以定义为一 篇课程笔记、读书笔记或学习心得,有何问题或意见,欢迎于本文评论下随时不吝指出,thanks。
1 Adaboost的原理
1.1 Adaboost是什么
0 引言
一直想写Adaboost来着,但迟迟未能动笔。其算法思想虽然简单:听取多人意见,最后综合决策,但一般书上对其算法的流程描述实在是过于晦涩。昨日11月1日下午,邹 博在我组织的机器学习班第8次课上讲决策树与Adaboost,其中,Adaboost讲得酣畅淋漓,讲完后,我知道,可以写本篇博客了。
0.1060, 0.0455)。被分错的样本“3 4 5”的权值变大,其它被分对的样本的权值变小。
f2(x)=0.4236G1(x) + 0.6496G2(x)
0.01667, 0.1060, 0.1060,
此时,得到的第二个基本分类器sign(f2(x))在训练数据集上有3个误分类点(即3 4 5)。
对于m=1,在权值分布为D1 (10个数据,每个数据的权值皆初始化为0.1)的训练数据上,经过计算可得: 1. 阈值v取2.5 时误差率为0.3(x < 2.5时取1,x > 2.5时取-1,则6 7 8分错 ,误差率为0.3), 2. 阈值v取5.5时误差率最低为0.4(x < 5.5时取1,x > 5.5时取-1,则3 4 5 6 7 8皆分错,误差率0.6大于0.5,不可取。故令x > 5.5时取1,x < 5.5时取-1,则0
c . 计算Gm(x)的系数,am表示Gm(x)在最终分类器中的重要程度(目的:得到基本分类器在最终分类器中所占的权重):
由上述式子可知,em <= 1/2时,am >= 0,且am随着em的减小而增大,意味着分类误差率越小的基本分类器在最终分类器中的作用越大。 值分布(目的:得到样本的新的权值分布),用于下一轮迭代
D4 = (0.125, 0.125, 0.125, 0.102, 0.102, 0.102, 0.065, 0.065, 0.065, 0.125)。被分错的样本“0 1 2 9”的权值变大,其它被分对的样本的权值变
小。 f3(x)=0.4236G1(x) + 0.6496G2(x)+0.7514G3(x)
迭代过程3
对于m=3,在权值分布为D3 = (0.0455, 0.0455, 0.0455, 0.1667, 0.1667, 0.01667, 0.1060, 0.1060, 0.1060, 0.0455)的训练数据上,经过计算可得:
1. 阈值v取2.5时误差率为0.1060*3(x < 2.5时取1,x > 2.5时取-1,则6 7 8分错,误差率为0.1060*3), 2. 阈值v取5.5 时误差率最低为0.0455*4(x > 5.5时取1,x < 5.5时取-1,则0 1 2 9分错 ,误差率为0.0455*3 + 0.0715), 3. 阈值v取8.5时误差率为0.1667*3(x < 8.5时取1,x > 8.5时取-1,则3 4 5分错,误差率为0.1667*3)。
出,因为样本中是数据“6 7 8”被G1(x)分错了,所以它们的权值由之前的0.1增大到0.1666,反之,其它数据皆被分正确,所以它们的权值皆由之前的0.1减小到0.0715。
分类函数f1(x)= a1*G1(x) = 0.4236G1(x)。 此时,得到的第一个基本分类器sign(f1(x))在训练数据集上有3个误分类点(即6 7 8)。 从上述第一轮的整个迭代过程可以看出:被误分类样本的权值之和影响误差率,误差率影响基本分类器在最终分类器中所占的权重。 迭代过程2 对于m=2,在权值分布为D2 = (0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.1666, 0.1666, 0.1666, 0.0715)的训练数据上,经过计算可得: 1. 阈值v取2.5时误差率为0.1666*3(x < 2.5时取1,x > 2.5时取-1,则6 7 8分错,误差率为0.1666*3), 2. 阈值v取5.5时误差率最低为0.0715*4(x > 5.5时取1,x < 5.5时取-1,则0 1 2 9分错,误差率为0.0715*3 + 0.0715), 3. 阈值v取8.5 时误差率为0.0715*3(x < 8.5时取1,x > 8.5时取-1,则3 4 5分错 ,误差率为0.0715*3)。 所以,阈值v取8.5时误差率最低,故第二个基本分类器为:
给定一个训练数据集T={(x1,y1), (x2,y2)…(xN,yN)},其中实例 系列弱分类器或基本分类器,然后将这些弱分类器组合成一个强分类器。
,而实例空间
,yi属于标记集合{-1,+1},Adaboost的目的就是从训练数据中学习一
Adaboost的算法流程如下:
步骤1. 首先,初始化训练数据的权值分布。每一个训练样本最开始时都被赋予相同的权值:1/N。
步骤2. 进行多轮迭代,用m = 1,2, ..., M表示迭代的第多少轮 a . 使用具有权值分布Dm的训练数据集学习,得到基本分类器(选取让误差率最低的阈值来设计基本分类器):
b . 计算Gm(x)在训练数据集上的分类误差率
由上述式子可知,Gm(x)在训练数据集上的误差率em就是被Gm(x)误分类样本的权值之和。
具体说来,整个Adaboost 迭代算法就3步:
1. 初始化训练数据的权值分布。如果有N个样本,则每一个训练样本最开始时都被赋予相同的权值:1/N。
2. 训练弱分类器。具体训练过程中,如果某个样本点已经被准确地分类,那么在构造下一个训练集中,它的权值就被降低;相反,如果某个样本点没有被准确地分类,那么 它的权值就得到提高。然后,权值更新过的样本集被用于训练下一个分类器,整个训练过程如此迭代地进行下去。
值得一提的是,由权值更新的公式可知,每个样本的新权值是变大还是变小,取决于它是被分错还是被分正确。 即如果某个样本被分错了,则yi * Gm(xi)为负,负负得正,结果使得整个式子变大(样本权值变大),否则变小。 第一轮迭代后,最后得到各个数据新 的权值分布D2 = (0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.1666, 0.1666, 0.1666, 0.0715)。由此可以看
AdaBoost,是英文"Adaptive Boosting"(自适应增强)的缩写,由Yoav Freund和Robert Schapire在1995年提出。它的自适应在于:前一个基本分类器分错的样本会得到 加强,加权后的全体样本再次被用来训练下一个基本分类器。同时,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。
1.3 Adaboost的一个例子
下面,给定下列训练样本,请用AdaBoost算法学习一个强分类器。
求解过程:初始化训练数据的权值分布,令每个权值W1i = 1/N = 0.1,其中,N = 10,i = 1,2, ..., 10,然后分别对于m = 1,2,3, ...等值进行迭代。 拿到这10个数据的训练样本后,根据 X 和 Y 的对应关系,要把这10个数据分为两类,一类是“1”,一类是“-1”,根据数据的特点发现:“0 1 2”这3个数据对应的类 是“1”,“3 4 5”这3个数据对应的类是“-1”,“6 7 8”这3个数据对应的类是“1”,9是比较孤独的,对应类“-1”。抛开孤独的9不讲,“0 1 2”、“3 4 5”、“6 7 8”这是3类不同的数据,分别对应的类是1、-1、1,直观上推测可知,可以找到对应的数据分界点,比如2.5、5.5、8.5 将那几类数据分成两类。当然,这只是主观臆测,下面实 际计算下这个具体过程。 迭代过程1