随机森林

合集下载

随机森林算法

随机森林算法

随机森林算法引言随机森林(Random Forest)是一种经典的集成学习算法,它通过构建多个决策树并结合其结果来进行分类或回归任务。

随机森林算法的特点是能够处理高维数据、解决过拟合问题以及能够评估特征的重要性等。

随机森林算法由Tin Kam Ho于1995年提出,它集成了决策树和随机性的概念。

本文将对随机森林算法的原理、构建过程以及应用领域进行详细介绍。

随机森林的原理随机森林算法的原理主要包括两个方面:决策树和随机性。

决策树决策树是一种基本的分类和回归方法,它使用树形结构来对数据进行分类或预测。

决策树由根节点、内部节点和叶节点组成。

根节点代表整个数据集,内部节点代表一个属性以及它的取值,叶节点代表最终的分类或回归结果。

构建决策树的过程包括选择最佳的属性作为当前节点的划分标准,通过计算信息增益(或基尼指数)选择最佳划分属性。

决策树的构建过程通常涉及递归和剪枝等步骤。

随机性随机森林引入了随机性的概念。

在构建随机森林时,每次构建决策树时,从原始数据集中随机选择一部分样本作为训练集,并且从所有属性中随机选择一部分属性作为划分候选属性。

通过引入随机性,可以使得随机森林中的决策树具有多样性,减少了过拟合的风险。

构建随机森林的过程构建随机森林算法通常包括以下步骤:1.随机选择一部分样本作为训练集。

2.从训练集中随机选择一部分属性作为划分候选属性。

3.构建一棵决策树,并选择最佳的划分属性。

4.重复步骤1-3,构建多棵决策树。

5.对新数据进行预测时,将新数据带入每棵决策树中,并根据决策树的结果进行投票或取平均值来得到最终的分类结果或回归结果。

随机森林算法的重要参数包括决策树的数量、划分属性的数量等。

在构建过程中,可以通过交叉验证等方法选择最优的参数。

随机森林的应用领域随机森林算法在许多领域都有广泛的应用。

以下是随机森林算法的一些典型应用场景:•分类问题:随机森林算法可以用于分类问题,如垃圾邮件过滤、疾病诊断等。

随机森林(RandomForest)

随机森林(RandomForest)

随机森林(RandomForest)1.什么是随机森林简述随机森林是⼀个⾼度灵活的机器学习⽅法,拥有⼴泛的应⽤前景,从市场营销到医疗保健保险。

既可以⽤来做市场营销模拟的建模,统计客户来源,保留和流失。

也可⽤来预测疾病的风险和病患者的易感性。

随机森林是⼀个可做能够回归和分类。

它具备处理⼤数据的特性,⽽且它有助于估计或变量是⾮常重要的基础数据建模。

随机森林是⼏乎任何预测问题 (甚⾄⾮直线部分) 的固有选择。

它是⼀个相对较新的机器学习的策略(在90 年代产⽣于贝尔实验室 ) 和它可以⼏乎⽤于任何⽅⾯。

思想随机森林就是通过集成学习的思想将多棵树集成的⼀种算法,它的基本单元是决策树,⽽它的本质属于机器学习的⼀⼤分⽀——集成学习(Ensemble Learning)⽅法。

随机森林的名称中有两个关键词,⼀个是“随机”,⼀个就是“森林”。

“森林”我们很好理解,⼀棵叫做树,那么成百上千棵就可以叫做森林了,这样的⽐喻还是很贴切的,其实这也是随机森林的主要思想--集成思想的体现。

“随机”的含义我们会在下边部分讲到。

其实从直观⾓度来解释,每棵决策树都是⼀个分类器(假设现在针对的是分类问题),那么对于⼀个输⼊样本,N棵树会有N个分类结果。

⽽随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是⼀种最简单的 Bagging 思想。

2.相关知识集成学习集成学习通过建⽴⼏个模型组合的来解决单⼀预测问题。

它的⼯作原理是⽣成多个分类器/模型,各⾃独⽴地学习和作出预测。

这些预测最后结合成单预测,因此优于任何⼀个单分类的做出预测。

随机森林是集成学习的⼀个⼦类,由于它依靠于策率树的合并。

信息、熵以及信息增益的概念这三个基本概念是决策树的根本,是决策树利⽤特征来分类时,确定特征选取顺序的依据。

理解了它们,决策树你也就了解了⼤概。

引⽤⾹农的话来说,信息是⽤来消除随机不确定性的东西。

当然这句话虽然经典,但是还是很难去搞明⽩这种东西到底是个什么样,可能在不同的地⽅来说,指的东西⼜不⼀样。

随机森林通俗理解

随机森林通俗理解

随机森林通俗理解
随机森林通俗理解:
随机森林(Random Forests)是一种分类和回归的机器学习方法,它是对决策树的扩展,由多个决策树组成,它们具有强大的泛化能力,可以处理非线性问题。

这种方法可以帮助我们更好地理解数据,并有效地预测未来结果。

随机森林最早由Breiman于2001年提出,其核心思想是基于多个决策树的集成方法,即将多个决策树结合起来,以期得到更准确的预测结果。

随机森林的优势在于,它不仅可以提供准确的预测,而且还可以衡量特征的相关性,从而发现数据中的模式。

随机森林的工作原理如下:
1、首先,从原始数据集中抽取N个子数据集,每个子数据集包含M个特征,每个特征都有K个不同的值;
2、然后,使用每个子数据集训练一棵决策树,每棵树都可以根据训练数据生成一组预测结果;
3、最后,将每棵树的预测结果汇总,用来预测新的数据。

因此,随机森林的工作原理就是在训练数据上训练多个决策树,然后将它们的预测结果汇总,从而提高预测精度。

随机森林的优势如下:
1、随机森林的泛化能力很强:它比单个决策树的泛化能力要强,降低了过拟合的风险;
2、随机森林能够处理非线性问题;
3、随机森林可以检测特征之间的相关性,从而发现数据中的隐藏模式;
4、随机森林运行效率较高,可以解决大数据集的问题。

总之,随机森林是一种强大的机器学习方法,它可以有效地处理大型数据集,改善模型的泛化能力,还可以检测特征之间的相关性,从而发现数据中的隐藏模式。

随机森林原理解释及其中各个参数的含义中文解释

随机森林原理解释及其中各个参数的含义中文解释

随机森林原理解释及其中各个参数的含义中文解释随机森林(Random Forest)是一种集成学习算法,它结合了决策树和随机性的概念,能够用于分类和回归问题。

随机森林通过构建多棵决策树,并基于“投票”或“平均”策略来做出最终预测。

以下是对随机森林的原理和各个参数的中文解释。

随机森林的原理包括两个主要部分:随机性构建决策树和投票或平均策略。

1.随机性构建决策树:随机森林中的每棵决策树都是以随机取样方式构建的。

首先,从原始数据集中有放回地随机抽取一些样本(称为bootstrap样本),然后使用这些bootstrap样本构建一棵决策树。

这种随机抽样与替换的方式能够保证每个决策树都有一定的差异性。

2.投票或平均策略:对于分类问题,随机森林中的每棵决策树都会根据样本特征做出预测。

最后,根据“投票”策略,所有决策树的预测结果中得票最多的类别被认定为最终的预测结果。

对于回归问题,随机森林中的每棵决策树都会输出一个数值结果,最后取所有决策树输出结果的平均值作为最终预测结果。

随机森林参数解释:随机森林有许多参数可以调节,以下是其中一些重要参数的中文解释:1. n_estimators(决策树数量):决策树的数量,也就是随机森林中包含的决策树的个数。

n_estimators参数越大,随机森林的性能可能会更好,但是计算开销也会增加。

2. max_depth(最大深度):决策树的最大深度限制,用于控制决策树的复杂度。

较小的最大深度可以减少过拟合的风险,但可能导致欠拟合。

3. min_samples_split(内部节点最少样本数):决定是否需要进一步拆分内部节点的最小样本数。

当样本数量小于min_samples_split时,节点将不再拆分,成为叶节点。

4. min_samples_leaf(叶节点最小样本数):叶节点中需要含有的最少样本数。

当样本数量小于min_samples_leaf时,样本将和同类别的样本一起作为一个叶节点。

用通俗易懂的方式剖析随机森林

用通俗易懂的方式剖析随机森林

0. 引言随机森林是现在比较流行的一个算法。

对于回归和分类问题有很好的效果。

大家有可能有过这样的经历,辛辛苦苦搭好神经网络,最后预测的准确率还不如随机森林。

既然随机森林这么好用,那它的内在的机理到底是什么呢?接下来将会用通俗易懂的方式讲一讲随机森林。

1. 什么是随机森林随机森林分解开来就是“随机”和“森林”。

“随机”的含义我们之后讲,我们先说“森林”,森林是由很多棵树组成的,因此随机森林的结果是依赖于多棵决策树的结果,这是一种集成学习的思想。

森林里新来了一只动物,森林举办森林大会,判断这到底是什么动物,每棵树都必须发表意见,票数最多的结果将是最终的结果。

随机森林最终的模型见下图示:森林中的每棵树是怎么构建出来的,是不是每棵树都是判断正确的树,这是我们需要考虑的一些问题。

接下来我们就来看一看森林中的每棵树是怎么来的?怎么选出“优秀”的树?2. 如何构建一棵树假设共有N个样本,M个特征。

这里我们讲“随机”的含义。

对于每棵树都有放回的随机抽取训练样本,这里抽取随机抽取的样本作为训练集,再有放回的随机选取m个特征作为这棵树的分枝的依据,这里要注意。

这就是“随机”两层含义,一个是随机选取样本,一个是随机选取特征。

这样就构建出了一棵树,需要注意的是这里生成的树都是完全生长的树(关于为什么是要完全生长的树,我认为的原因是便于计算每个特征的重要程度,剪枝的话将无法进行计算)。

一棵树的构建方式如下图所示:按照这种方法,可以构建出很多棵树,那么这么多棵树综合评判的结果可以作为最后的结果吗?当然不是的,随机森林真正厉害的地方不在于它通过多棵树进行综合得出最终结果,而是在于通过迭代使得森林中的树不断变得优秀(森林中的树选用更好的特征进行分枝)。

上面的一个森林相当于第一次迭代得到的森林。

那么随机森林是怎么往后迭代的呢?3. 如何选出优秀的特征随机森林的思想是构建出优秀的树,优秀的树需要优秀的特征。

那我们需要知道各个特征的重要程度。

随机森林的原理

随机森林的原理

随机森林的原理随机森林(Random Forest)是一种集成学习(Ensemble Learning)方法,它通过构建多个决策树来完成分类或回归任务。

随机森林由Leo Breiman和AdeleCutler于2001年提出,它是一种强大且灵活的机器学习算法,被广泛应用于数据挖掘、模式识别和预测分析等领域。

随机森林的原理基于决策树,决策树是一种树形结构,用于对实例进行分类或预测。

在随机森林中,会构建多个决策树,并通过投票或平均值的方式来进行最终的分类或预测。

随机森林的核心思想包括两点,随机性和集成学习。

首先,随机性体现在两个方面,样本随机性和特征随机性。

在构建每棵决策树时,随机森林会随机选择一部分样本和特征进行训练,这样可以减少过拟合的风险,提高模型的泛化能力。

其次,集成学习是指通过组合多个模型来完成任务,随机森林通过组合多棵决策树来实现更稳定和准确的预测。

随机森林的构建过程如下,首先,从原始数据集中随机选择一部分样本(有放回抽样),然后随机选择一部分特征,接着利用这些样本和特征来构建一棵决策树。

重复这一过程,直到构建了足够数量的决策树。

最后,对于分类任务,随机森林会采用投票的方式来确定最终的分类结果;对于回归任务,随机森林会采用平均值的方式来确定最终的预测结果。

随机森林具有许多优点。

首先,它可以处理高维数据和大规模数据,且不需要进行特征选择。

其次,随机森林对缺失值和异常值具有较强的鲁棒性,能够处理不平衡数据集。

此外,随机森林能够估计特征的重要性,帮助我们理解数据集。

最重要的是,随机森林能够有效地减少过拟合,提高模型的泛化能力。

然而,随机森林也存在一些缺点。

首先,由于随机森林构建了多棵决策树,因此模型的训练和预测速度相对较慢。

其次,随机森林对于噪声较大的数据集容易过拟合,需要进行参数调优。

此外,由于随机森林是一种黑盒模型,难以解释模型的预测过程。

总的来说,随机森林是一种强大且灵活的机器学习算法,它通过构建多棵决策树来完成分类或回归任务,具有良好的泛化能力和鲁棒性。

随机森林数学公式

随机森林数学公式随机森林数学公式随机森林(Random Forest)是一种强大的机器学习算法,它通过构建多个决策树并进行集成,能够有效地处理分类和回归问题。

下面是随机森林的相关公式及其解释说明:决策树公式决策树是随机森林的基本组成部分,其公式包括以下几个方面:求信息增益公式信息增益用于衡量在特征取值划分下的信息量减少程度,其公式为:ΔH(D,A)=H(D)−∑|D v| |D|Vv=1H(D v)其中,H(D)是数据集D的初始信息熵,H(D v)是特征A取值为v时的条件熵,V为特征A的取值个数,|D|是数据集D的样本数量,|D v|是特征A取值为v时的样本数量。

求基尼指数公式基尼指数用于度量数据集的纯度,其公式为:KGini(D)=1−∑(P k)2k=1其中,K为数据集D中类别的个数,P k为数据集D中属于第k类的样本占总样本的比例。

决策树构建算法公式决策树的构建算法通常是基于信息增益或基尼指数进行特征选择。

建立决策树的公式如下:输入:训练集D,特征集A,阈值ϵ输出:决策树T1.若D中样本全属于同一类别C,则将T作为单节点树,标记为C,返回T;2.若A为空集,即已无特征可供选择,则将T作为单节点树,标记为D中样本数最多的类别C,返回T;3.根据信息增益或基尼指数选择最优特征A∗;4.若A∗的信息增益或基尼指数小于阈值ϵ,则将T作为单节点树,标记为D中样本数最多的类别C,返回T;5.否则,根据特征A∗的取值将D划分为子集D1,D2,...,D v;6.对于每个子集D v,递归调用以上步骤,构建子树T v;7.将T v连接到T上。

随机森林公式随机森林是通过集成多个决策树进行预测或分类的算法,其公式包括以下几个方面:随机森林生成公式随机森林生成的公式为:RF(X)=1T∑f tTt=1(X)其中,RF(X)表示随机森林对样本X的预测结果,T表示随机森林中决策树的数量,f t(X)表示第t棵决策树对样本X的预测结果。

随机森林的原理

随机森林的原理随机森林是一种集成学习算法,通过组合多个决策树来进行分类和回归任务。

它的原理基于决策树和随机抽样的思想,具有一定的鲁棒性和预测能力。

本文将详细介绍随机森林的原理和应用,并探讨其优缺点及改进方法。

一、随机森林的原理随机森林由多个决策树组成,每个决策树都是一个分类器。

在随机森林中,每个决策树的生成过程都是独立的,首先从样本集中通过有放回抽样(bootstrap)的方式抽取出n个样本,然后对每个样本随机选择k个特征,构建决策树。

这里的k是一个常数,通常取总特征数的平方根。

每个决策树都对应着一个子样本集和一个特征子集,通过递归地选择最优特征进行划分,直到满足某个停止条件(如节点样本数小于阈值或深度达到预定值)。

在决策树的生成过程中,每个节点通过计算一个评价指标(如信息增益或基尼指数)来选择最优特征进行划分。

决策树的划分过程会不断减少样本的纯度,直到达到叶节点。

叶节点的类别由该节点中样本的多数类确定。

每个决策树都会对新样本进行分类,最终通过投票的方式确定随机森林的预测结果。

二、随机森林的优点1. 随机森林能够处理高维数据和大规模数据集,具有较强的泛化能力。

2. 随机森林能够处理缺失值和不平衡数据集,并且对异常值具有较好的鲁棒性。

3. 随机森林能够评估特征的重要性,可以用于特征选择和特征工程。

4. 随机森林可以并行计算,提高了训练速度。

三、随机森林的应用1. 随机森林广泛应用于分类问题,如垃圾邮件过滤、疾病诊断等。

通过训练多个决策树,随机森林可以提高分类的准确度和鲁棒性。

2. 随机森林可以用于回归问题,如房价预测、股票走势预测等。

通过训练多个决策树,随机森林可以提供更加准确的预测结果。

3. 随机森林还可以用于异常检测、聚类分析等领域。

通过利用随机森林的特征选择和异常检测能力,可以有效地发现异常样本或聚类相似样本。

四、随机森林的改进方法尽管随机森林具有很多优点,但也存在一些缺点。

比如,随机森林在处理高维数据时容易过拟合,而且对噪声数据敏感。

随机森林算法综述

随机森林算法综述随机森林算法是一种强大的集成学习方法,它结合了决策树的预测能力和随机性的优点,被广泛应用于分类和回归问题中。

本文将对随机森林算法进行综述,包括其原理、优缺点、应用领域和发展趋势等方面的内容。

1. 随机森林算法原理随机森林算法是基于决策树的集成学习方法。

它通过构建多棵决策树,并将它们的结果进行集成来实现预测。

具体来说,随机森林算法随机选择样本和特征来构建每棵决策树,然后通过投票或取平均值的方式来决定最终的预测结果。

这种随机性的引入可以有效降低过拟合的风险,提高模型的泛化能力。

2. 随机森林算法优缺点随机森林算法的优点包括:(1)对缺失值和异常值具有较好的鲁棒性;(2)能够处理高维度的数据集;(3)具有较高的准确率和泛化能力;(4)能够评估特征的重要性。

随机森林算法的缺点包括:(1)模型的可解释性较差;(2)需要较大的计算资源和训练时间;(3)可能在处理噪声较大的数据集时性能下降。

3. 随机森林算法应用领域随机森林算法在各个领域都有广泛的应用,包括但不限于:(1)金融领域:用于信用评分、风险管理等;(2)医疗领域:用于疾病预测、诊断等;(3)电商领域:用于推荐系统、用户行为分析等;(4)工业领域:用于故障诊断、质量控制等。

4. 随机森林算法发展趋势随机森林算法作为一种经典的集成学习方法,一直在不断发展和完善。

未来随机森林算法的发展趋势包括但不限于:(1)提高算法的效率和性能,减少模型的计算成本;(2)进一步提升模型的泛化能力和鲁棒性;(3)结合深度学习等新技术,实现更强大的模型集成;(4)探索在大规模数据集和高维数据下的应用场景。

综上所述,随机森林算法作为一种强大的集成学习方法,具有广泛的应用前景和发展空间。

通过不断的研究和优化,随机森林算法将在各个领域发挥重要的作用,为解决实际问题提供有效的解决方案。

随机森林的名词解释

随机森林的名词解释随机森林(Random Forest)是一种常用的机器学习算法,被广泛应用于分类和回归等问题的解决中。

随机森林属于集成学习(Ensemble Learning)的一种,它通过构建多个决策树(Decision Tree)并进行组合,来改善模型的预测性能。

1. 决策树决策树是一种常见的机器学习模型,它以树状结构表示决策规则。

决策树由一系列节点(Node)和分支(Branch)构成,每个节点代表一个特征(Feature)的判断,而每个分支代表条件判断的结果。

从根节点(Root Node)开始,通过不断根据特征进行判断,最终到达叶节点(Leaf Node),叶节点即为决策的结果。

2. 集成学习集成学习是一种将多个学习器进行集成的机器学习方法。

通过将多个学习器的预测结果进行组合,可以获得更加准确和稳定的预测结果。

随机森林便是一种典型的集成学习算法。

3. 随机性随机森林中的随机性体现在两个方面:随机选择特征和随机选择样本。

在决策树的构建过程中,随机森林会在每个节点的特征选择上引入随机因素。

每次构建节点时,从所有特征中随机选择一部分特征用于判断,这样可以减少特征之间的相关性,提高每棵决策树的独立性。

此外,在随机森林的训练过程中,每棵决策树所使用的样本集也是随机选择的,即通过有放回地从原始样本集中抽样。

这样可以保证每棵决策树的训练集是不同的,增加模型的多样性。

4. Bagging算法随机森林采用Bagging(Bootstrap Aggregating)算法作为决策树的集成方法。

Bagging算法通过有放回地从原始样本集中抽取多个子训练集,并用这些子训练集来训练多个独立的决策树。

最终,通过对每棵决策树的预测结果进行投票或取平均值等方式,得到最终的预测结果。

5. 特征重要性评估随机森林可以对特征的重要性进行评估,根据这些评估结果可以帮助我们理解数据中各个特征的贡献度,并进行特征选择。

随机森林通过基于袋外误差(Out-of-Bag Error)的方法,计算每个特征对模型预测性能的影响程度,进而给出每个特征的重要性指标。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

随机森林
为了克服决策树容易过度拟合的缺点,Breiman(2001)提出了一种新的组合分类器算法——随机森林算法(Random Forests , RF)。

他把分类决策树组合成随即森林,即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。

随机森林在运算量没有显著提高的前提下提高了预测精度,对多元共线性不敏感,可以很好地预测多达几千个解释变量的作用,被称为当前最好的算法之一。

基本原理
1.随机森林的定义
随机森林是一个由决策树分类器集合{}
θ构成的组合分类器模
x
,2,1
k
h
(=
),
,
k
型,其中参数集{}
θ是独立同分布的随机向量,x是输入向量。

当给定输入向量
k
时每个决策树有一票投票权来选择最优分类结果。

每一个决策树是由分类回归树(CART)算法构建的未剪枝的决策树。

因此与CART相对应,随机森林也分为随机分类森林和随机回归森林。

目前,随机分类森林的应用较为普遍,它的最终结果是单棵树分类结果的简单多数投票。

而随机回归森林的最终结果是单棵树输出结果的简单平均。

2.随机森林的基本思想
随机森林是通过自助法(Bootstrap)重复采样技术,从原始训练样本集N 中有放回地重复随机抽取k个样本生成新的训练集样本集合,然后根据自助样本生成k决策树组成的随机森林。

其实质是对决策树算法的一种改进,将多个决策树合并在一起,每棵树的建立依赖一个独立抽取的样本,森林中的每棵树具有相同的分布,分类误差取决于每一棵树的分类能力和它之间的相关性。

3.随机森林的生成过程
根据随机森林的原理和基本思想,随机森林的生成主要包括以下三个步骤:首先,通过Bootstrap方法在原始样本集S中抽取k个训练样本集,一般情况下每个训练集的样本容量与S一致;
其次,对k个训练集进行学习,以此生成k个决策树模型。

在决策树生成过
程中,假设共有M个输入变量,从M个变量中随机抽取F个变量,各个内部节点均是利用这F个特征变量上最优的分裂方式来分裂,且F值在随机森林模型的形成过程中为恒定常数;
最后,将k个决策树的结果进行组合,形成最终结果。

针对分类问题,组合方法是简单多数投票法;针对回归问题,组合方法则是简单平均法。

4.重要参数
(1)随机森林中单棵树的分类强度和任意两棵树间的相关度。

在随机森林中,每一棵决策树的分类强度越大,即每棵树枝叶越是茂盛,则整体随机森林的分类性能越好;树与树之间的相关度越大,即树与树之间的枝叶相互穿插越多,则随机森林的分类性能越差。

减少树之间的相关度可以有效地降低随机森林的总体误差率,同时增加每棵决策树的强度。

因为它是由Bootstrap方法来形成训练集的,并且随机抓取特征来分裂,并且不对单棵树进行剪枝,使得随机森林模型能够具有较高的噪声容忍度和较大的分类强度,同时也降低了任意两棵树之间的相关度。

(2)OOB估计。

应用Bootstrap方法时,在原始样本集S中进行k次有放回的简单随机抽样,形成训练样本集。

在使用Bootstrap对S进行抽样时,每个样本未被抽取的概率p为()n n/1-1。

当n足够大时,p=0.368,表明原始样本集S 中接近37%的样本不会出现在训练样本集中,这些为被抽中的样本称为OOB (Out of Bag)。

利用这部分样本进行模型性能的估计称为OOB估计,这种估计方法类似于交叉验证的方法。

在随机分类模型中,它是分类模型的出错率;在随机回归模型中,它是回归模型的残差。

(3)对模型中变量重要性的估计。

随机森林计算变量重要性有两种方法:一种是基于OOB误差的方法,称为MDA(Mean Decrease Accuracy);另一种是基于Gini不纯度的方法,称为MDG(Mean Decrease Gini)。

两种方法都是下降的越多表示变量越重要。

MDA具体描述如下:
第一,训练随机森林模型,利用袋外样本数据测试模型中每棵树的OOB误差;
第二,随机打乱袋外样本数据中变量v的值,重新测试每棵树的OOB误差;
第三,两次测试的OOB误差的差值的平均值,即为单棵树对变量v重要性
的度量值,计算公式为:MDG具体描述如下:
()
∑-
=
t
t
t
errOOB
errOOB
ntree
v
MDA'
1
)
(
基于Gini 的变量重要性是用变量v 导致的Gini 不纯度的降低来衡量的。

在分类节点t 出,Gini 系数不纯度的计算公式为:
其中Q 代表目标变量的类别总数,)/(t k p 代表在节点t 中目标变量为第k 类的条件概率。

根据公式计算每棵树的Gini 不纯度下降值,再将所有树的结果进行平均。

5.随机森林模型的优缺点
优点:
(1)相对于其他算法,随机森林具有极高的预测精度,且不易过度拟合;
(2)能处理海量数据,对高维数据,无需进行变量删减或筛选;
(3)模型内部产生的OOB 估计具有无偏性;
(4)对噪声不敏感,具有较好的容噪能力。

缺点:
(1)对少量数据集和低维数据集的分类不一定可以得到很好的效果。

因为在不断重复的随机选择过程中,可供选择的样本很少,会产生大量的重复选择,可能让最有效的选择不能表现出优势;
(2)执行速度虽然比Boosting 等快,但是比单个的决策树慢很多。

()∑=-=Q
K t k p t G 12/1)(。

相关文档
最新文档