随机森林简介

合集下载

随机森林通俗理解

随机森林通俗理解
随机森林通俗理解：
随机森林(Random Forests)是一种分类和回归的机器学习方法，它是对决策树的扩展，由多个决策树组成，它们具有强大的泛化能力，可以处理非线性问题。

这种方法可以帮助我们更好地理解数据，并有效地预测未来结果。

随机森林最早由Breiman于2001年提出，其核心思想是基于多个决策树的集成方法，即将多个决策树结合起来，以期得到更准确的预测结果。

随机森林的优势在于，它不仅可以提供准确的预测，而且还可以衡量特征的相关性，从而发现数据中的模式。

随机森林的工作原理如下：
1、首先，从原始数据集中抽取N个子数据集，每个子数据集包含M个特征，每个特征都有K个不同的值；
2、然后，使用每个子数据集训练一棵决策树，每棵树都可以根据训练数据生成一组预测结果；
3、最后，将每棵树的预测结果汇总，用来预测新的数据。

因此，随机森林的工作原理就是在训练数据上训练多个决策树，然后将它们的预测结果汇总，从而提高预测精度。

随机森林的优势如下：
1、随机森林的泛化能力很强：它比单个决策树的泛化能力要强，降低了过拟合的风险；
2、随机森林能够处理非线性问题；
3、随机森林可以检测特征之间的相关性，从而发现数据中的隐藏模式；
4、随机森林运行效率较高，可以解决大数据集的问题。

总之，随机森林是一种强大的机器学习方法，它可以有效地处理大型数据集，改善模型的泛化能力，还可以检测特征之间的相关性，从而发现数据中的隐藏模式。

随机森林原理解释及其中各个参数的含义中文解释

随机森林原理解释及其中各个参数的含义中文解释随机森林（Random Forest）是一种集成学习算法，它结合了决策树和随机性的概念，能够用于分类和回归问题。

随机森林通过构建多棵决策树，并基于“投票”或“平均”策略来做出最终预测。

以下是对随机森林的原理和各个参数的中文解释。

随机森林的原理包括两个主要部分：随机性构建决策树和投票或平均策略。

1.随机性构建决策树：随机森林中的每棵决策树都是以随机取样方式构建的。

首先，从原始数据集中有放回地随机抽取一些样本（称为bootstrap样本），然后使用这些bootstrap样本构建一棵决策树。

这种随机抽样与替换的方式能够保证每个决策树都有一定的差异性。

2.投票或平均策略：对于分类问题，随机森林中的每棵决策树都会根据样本特征做出预测。

最后，根据“投票”策略，所有决策树的预测结果中得票最多的类别被认定为最终的预测结果。

对于回归问题，随机森林中的每棵决策树都会输出一个数值结果，最后取所有决策树输出结果的平均值作为最终预测结果。

随机森林参数解释：随机森林有许多参数可以调节，以下是其中一些重要参数的中文解释：1. n_estimators（决策树数量）：决策树的数量，也就是随机森林中包含的决策树的个数。

n_estimators参数越大，随机森林的性能可能会更好，但是计算开销也会增加。

2. max_depth（最大深度）：决策树的最大深度限制，用于控制决策树的复杂度。

较小的最大深度可以减少过拟合的风险，但可能导致欠拟合。

3. min_samples_split（内部节点最少样本数）：决定是否需要进一步拆分内部节点的最小样本数。

当样本数量小于min_samples_split时，节点将不再拆分，成为叶节点。

4. min_samples_leaf（叶节点最小样本数）：叶节点中需要含有的最少样本数。

当样本数量小于min_samples_leaf时，样本将和同类别的样本一起作为一个叶节点。

随机森林的原理及分析结果

随机森林的原理及分析结果
随机森林（Random Forest）是一种集成学习算法，它将多个决策树组合在一起，形成一个森林。

每个决策树都是从数据样本中随机选择特征来进行划分，这样可以降低模型的方差和泛化误差。

随机森林还使用袋装法（Bagging）来从样本中进行有放回抽样，以产生多个训练集来进行模型的训练。

随机森林的主要优点是可以处理高维数据、具有较高的准确性、可以处理缺失数据和异常值等。

随机森林的分析结果主要包括以下方面：
1. 特征重要性分析：随机森林通过测量每个特征的重要性程度来评估它们对模型的贡献。

特征重要性可以衡量每个特征对预测结果的贡献程度，可以用于特征选择和预测模型的解释。

2. 模型的性能指标：与其他机器学习模型一样，随机森林的性能可以使用诸如准确率、精确率、召回率、F1值和ROC曲线等指标进行评估。

3. 可解释性分析：与其他集成算法相比，随机森林的结果更容易解释。

通过查看决策树的规则、特征的重要性和不同特征的组合，可以更好地理解模型是如何做出预测的。

4. 超参数调优结果：随机森林算法的性能很大程度上取决于其超参数的选择，如决策树数量、决策树深度、特征选择和最小叶节点数等。

通过分析调优结果，可以得出在特定数据集和任务上最优的超参数组合。

如何使用随机森林进行时间序列数据预测(七)

随机森林是一种强大的机器学习算法，它可以用于时间序列数据预测。

本文将介绍如何使用随机森林进行时间序列数据预测，并探讨其优缺点以及常见的应用场景。

一、随机森林简介随机森林是一种集成学习方法，它由多个决策树组成。

每个决策树都是基于一部分数据集进行训练，然后通过投票或取平均值的方式来进行预测。

这种集成学习的方法能够有效地减少过拟合并提高模型的准确性。

二、时间序列数据预测时间序列数据是一种按时间顺序排列的数据，例如股票价格、气温等。

时间序列数据预测是指根据过去的数据来预测未来的数据。

随机森林可以用于时间序列数据预测，其原理是将时间序列数据转化为监督学习问题，然后使用随机森林模型进行拟合和预测。

三、使用随机森林进行时间序列数据预测的步骤1. 数据准备：将时间序列数据转化为监督学习问题，即将时间序列数据转化为特征和目标变量。

通常可以通过滞后值、移动平均等方法来创建特征。

2. 数据划分：将数据集划分为训练集和测试集，通常将一部分数据用于训练模型，另一部分数据用于评估模型的性能。

3. 模型训练：使用训练集来训练随机森林模型，选择合适的参数和超参数。

4. 模型预测：使用训练好的模型对测试集进行预测。

5. 模型评估：通过比较预测结果和实际结果来评估模型的性能，通常可以使用均方误差（Mean Squared Error）等指标来评估模型的准确性。

四、随机森林的优点1. 鲁棒性强：随机森林可以处理大量的数据，并且不容易受到异常值和噪声的影响。

2. 擅长处理高维数据：随机森林可以处理大量的特征，并且不需要进行特征选择。

3. 防止过拟合：随机森林通过集成多个模型的结果来预测，能够有效地防止过拟合。

五、随机森林的缺点1. 计算复杂度高：随机森林由多个决策树组成，因此训练和预测的时间较长。

2. 难以解释：由于随机森林是由多个决策树组成的，其预测结果比较难以解释。

六、随机森林的应用场景1. 股票价格预测：随机森林可以用于预测股票价格的走势，帮助投资者进行决策。

随机森林的原理

随机森林的原理随机森林（Random Forest）是一种集成学习（Ensemble Learning）算法，它将多个决策树（Decision Tree）组合起来进行分类或回归预测。

随机森林具有较高的准确性、鲁棒性和可解释性，广泛应用于数据挖掘、图像识别、自然语言处理等领域。

随机森林的原理主要包括以下几个方面：1. 随机采样在构建每个决策树时，随机森林会从原始数据集中有放回地抽取一定比例的样本数据进行训练。

这种采样方式被称为“自助采样”（Bootstrap Sampling），可以有效减少过拟合现象的发生。

2. 随机选择特征在构建每个决策树时，随机森林会从所有特征中选择一定数量的特征进行训练。

这种特征选择方式被称为“随机子空间”（Random Subspace），可以有效降低决策树之间的相关性，提高整体模型的泛化能力。

3. 决策树构建在每个决策树的构建过程中，随机森林采用CART算法（Classification and Regression Tree）进行分裂节点，即根据样本数据的特征值进行二分。

对于分类问题，采用基尼指数（Gini Index）或熵（Entropy）作为评价指标；对于回归问题，采用均方误差（Mean Squared Error）或平均绝对误差（Mean Absolute Error）作为评价指标。

4. 随机森林投票在预测阶段，随机森林会将每个决策树的预测结果进行投票，并选择得票最多的类别或数值作为最终预测结果。

对于分类问题，可以采用硬投票（Hard Voting）或软投票（Soft Voting）；对于回归问题，通常采用平均值作为最终预测结果。

随机森林的主要优点包括：1. 鲁棒性强：随机森林能够处理大量的输入变量和样本数据，并且不容易受到噪声数据和异常值的影响。

2. 准确性高：随机森林具有较高的准确性和泛化能力，在许多实际应用中表现优异。

3. 可解释性好：随机森林可以提供每个特征在模型中的重要性排序，帮助用户理解模型内部运行机制。

随机森林（RandomForest）

随机森林（RandomForest）1.什么是随机森林简述随机森林是⼀个⾼度灵活的机器学习⽅法，拥有⼴泛的应⽤前景，从市场营销到医疗保健保险。

既可以⽤来做市场营销模拟的建模，统计客户来源，保留和流失。

也可⽤来预测疾病的风险和病患者的易感性。

随机森林是⼀个可做能够回归和分类。

它具备处理⼤数据的特性，⽽且它有助于估计或变量是⾮常重要的基础数据建模。

随机森林是⼏乎任何预测问题 (甚⾄⾮直线部分) 的固有选择。

它是⼀个相对较新的机器学习的策略（在90 年代产⽣于贝尔实验室 ) 和它可以⼏乎⽤于任何⽅⾯。

思想随机森林就是通过集成学习的思想将多棵树集成的⼀种算法，它的基本单元是决策树，⽽它的本质属于机器学习的⼀⼤分⽀——集成学习（Ensemble Learning）⽅法。

随机森林的名称中有两个关键词，⼀个是“随机”，⼀个就是“森林”。

“森林”我们很好理解，⼀棵叫做树，那么成百上千棵就可以叫做森林了，这样的⽐喻还是很贴切的，其实这也是随机森林的主要思想--集成思想的体现。

“随机”的含义我们会在下边部分讲到。

其实从直观⾓度来解释，每棵决策树都是⼀个分类器（假设现在针对的是分类问题），那么对于⼀个输⼊样本，N棵树会有N个分类结果。

⽽随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出，这就是⼀种最简单的 Bagging 思想。

2.相关知识集成学习集成学习通过建⽴⼏个模型组合的来解决单⼀预测问题。

它的⼯作原理是⽣成多个分类器/模型，各⾃独⽴地学习和作出预测。

这些预测最后结合成单预测，因此优于任何⼀个单分类的做出预测。

随机森林是集成学习的⼀个⼦类，由于它依靠于策率树的合并。

信息、熵以及信息增益的概念这三个基本概念是决策树的根本，是决策树利⽤特征来分类时，确定特征选取顺序的依据。

理解了它们，决策树你也就了解了⼤概。

引⽤⾹农的话来说，信息是⽤来消除随机不确定性的东西。

当然这句话虽然经典，但是还是很难去搞明⽩这种东西到底是个什么样，可能在不同的地⽅来说，指的东西⼜不⼀样。

如何使用随机森林进行多标签分类(Ⅰ)

随机森林是一种常用的机器学习算法，它在解决多标签分类问题上表现出色。

本文将详细介绍如何使用随机森林进行多标签分类，并探讨其优缺点以及应用场景。

1. 随机森林简介随机森林是一种集成学习方法，它由多个决策树组成。

每个决策树都是独立训练的，且从数据集中随机选择特征进行分裂。

最终，随机森林通过投票或平均值等方式综合所有决策树的结果，以达到降低过拟合风险、提高泛化能力的目的。

2. 多标签分类问题多标签分类是指一个实例可以被分配多个标签。

与传统的单标签分类问题不同，多标签分类需要考虑多个输出变量之间的相关性。

例如，对于一张图片来说，可以同时预测出其中包含的物体种类、颜色、形状等多个标签。

3. 使用随机森林进行多标签分类随机森林可以很好地解决多标签分类问题。

首先，通过对每个标签分别构建一个决策树，可以减小标签之间的相关性对结果的影响。

其次，随机森林对大量特征和样本的处理能力较强，适用于高维数据的多标签分类任务。

在实际应用中，可以通过调用Python中sklearn库的MultiOutputClassifier类来实现基于随机森林的多标签分类模型。

同时，还可以通过交叉验证、调参等方式对模型进行优化，以提高多标签分类的准确性和泛化能力。

4. 随机森林的优缺点随机森林作为一种强大的机器学习算法，在多标签分类问题上有着诸多优点。

首先，它能够有效处理高维数据和大规模数据集，适用于实际场景中复杂的多标签分类任务。

其次，随机森林具有较好的鲁棒性，对异常值和噪声的影响较小。

然而，随机森林也存在一些不足之处。

首先，随机森林在处理高维稀疏数据时效果不佳，需要进行特征选择和降维等预处理工作。

其次，随机森林算法的训练和预测过程相对耗时，需要付出一定的计算代价。

5. 随机森林在多标签分类中的应用随机森林在多标签分类问题上有着广泛的应用场景。

例如，在图片标注、音乐推荐、文本分类等任务中，随机森林都可以通过训练多个决策树并综合它们的结果来实现对多个标签的准确预测。

random forest原理

random forest原理Random Forest（随机森林）是一种经典的集成学习算法，用于解决分类和回归问题。

它由多个决策树组成，每个决策树的输出结果为一个类别或值。

随机森林算法采用的是Bagging（自主抽样）思想，先在原始训练集中采用Bootstrap方法有放回地抽取m个新的训练集，然后用这m个集合去训练m个决策树，最后将这些决策树组合起来。

Random Forest不同于传统的决策树算法，它在训练决策树的过程中引入了两个随机性，一个是样本随机性，即随机采样数据集用于生成决策树；另一个是特征随机性，即在每次决策树分裂的过程中，随机选择k个（k<<d）特征作为生成该决策树的候选切分特征，然后从中选择最佳特征进行分裂。

对于样本随机性和特征随机性的引入，可以有效地解决数据集中的过拟合问题。

在训练过程中，每个决策树的误差都可以通过一个袋外数据集来评估，这个袋外数据集就是训练过程中被随机抽样出来的数据集。

在生成决策树的过程中，会不断地从训练集中随机选择样本，这样可以保证每个样本都有机会被选中，从而减小了预测误差。

而特征随机性的引入则可以保证决策树的多样性，使得模型更具泛化能力。

最终，随机森林算法将多个决策树的结果进行投票，得到最终预测结果。

随机森林算法具有以下几个特点：（1）具有很高的准确率：随机森林能够处理较高维度的数据，对于处理高维数据的效果比较明显，而且能够保证较高的准确率。

（2）能够处理缺失值：随机森林能够很好地处理缺失数据，因为在建树的过程中会随机从现有特征中进行选择。

（3）能够评估特征的重要性：随机森林算法可以很好地衡量每个特征的重要性，因为每个特征在生成决策树的时候都有可能被用到，从而能够衡量每个特征的重要性。

随机森林算法的应用范围非常广泛，包括分类和回归问题。

在分类问题中，随机森林可以用于解决文本分类、图像分类、股票评估、人脸识别等问题；在回归问题中，随机森林可以用于解决预测房价、预测销售额等问题。

随机森林——精选推荐

随机森林为了克服决策树容易过度拟合的缺点，Breiman（2001）提出了一种新的组合分类器算法——随机森林算法（Random Forests , RF）。

他把分类决策树组合成随即森林，即在变量（列）的使用和数据（行）的使用上进行随机化，生成很多分类树，再汇总分类树的结果。

随机森林在运算量没有显著提高的前提下提高了预测精度，对多元共线性不敏感，可以很好地预测多达几千个解释变量的作用，被称为当前最好的算法之一。

基本原理1.随机森林的定义随机森林是一个由决策树分类器集合{}θ构成的组合分类器模x,2,1kh(=),,k型，其中参数集{}θ是独立同分布的随机向量，x是输入向量。

当给定输入向量k时每个决策树有一票投票权来选择最优分类结果。

每一个决策树是由分类回归树（CART）算法构建的未剪枝的决策树。

因此与CART相对应，随机森林也分为随机分类森林和随机回归森林。

目前，随机分类森林的应用较为普遍，它的最终结果是单棵树分类结果的简单多数投票。

而随机回归森林的最终结果是单棵树输出结果的简单平均。

2.随机森林的基本思想随机森林是通过自助法（Bootstrap）重复采样技术，从原始训练样本集N 中有放回地重复随机抽取k个样本生成新的训练集样本集合，然后根据自助样本生成k决策树组成的随机森林。

其实质是对决策树算法的一种改进，将多个决策树合并在一起，每棵树的建立依赖一个独立抽取的样本，森林中的每棵树具有相同的分布，分类误差取决于每一棵树的分类能力和它之间的相关性。

3.随机森林的生成过程根据随机森林的原理和基本思想，随机森林的生成主要包括以下三个步骤：首先，通过Bootstrap方法在原始样本集S中抽取k个训练样本集，一般情况下每个训练集的样本容量与S一致；其次，对k个训练集进行学习，以此生成k个决策树模型。

在决策树生成过程中，假设共有M个输入变量，从M个变量中随机抽取F个变量，各个内部节点均是利用这F个特征变量上最优的分裂方式来分裂，且F值在随机森林模型的形成过程中为恒定常数；最后，将k个决策树的结果进行组合，形成最终结果。

《随机森林简介》PPT课件

• 可生成一个Proximities=（pij）矩阵，用于度量样本之间的相似性： pij=aij/N, aij表示样本i和j出现在随机森林中同一个叶子结点的次数，N随机森林中树的颗数。
• 可以得到变量重要性排序（两种：基于OOB误分率的增加量和基于分裂时的GINI下降量）
主要参考文献
1. J.R. Quinlan. Induction of Decision Trees[J].Machine learning 1986,1:81-106.
基尼指数——Gini index (Classification and Regression Tress,CART,Breiman,1984) • 能够适用于离散和连续值字段
信息增益
• 任意样本分类的期望信息：
– I(s1,s2,……,sm)=－∑Pi log2(pi) (i=1..m)
• 其中，数据集为S，m为S的分类数目， Pi≈|Si/|S|
2. S.L. Salzberg.Book Review:C4.5 Programs for Machine Learning by J.Ross Quinlan[J]. Machine Learning,1994,3:235-240.
3. L.Breiman, J.Friedman,al.et. Classification and Regression Trees[M]. New York: Chapman & Hall,1984.
– 树的生成
• 开始，数据都在根节点 • 递归的进行数据分片
– 树的剪枝
• 防止过拟合
• 决策树使用: 对未知数据进行分割
– 按照决策树上采用的分割属性量
原则：分类效果最好的（或分类最纯的，或能使树的路径最短）的属性

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

– E(A)= ∑(s1j+ ……+smj)/s * I(s1j,……,smj)
– 信息增益：Gain(A)= I(s1,s2,……,sm) － E(A)
• 分裂属性选择规则：选择具有最大信息增益的属性为分裂属性
基尼指数
• 集合T包含N个类别的记录，那么其Gini指标就是
gini(T) 1
n
• 思想：最简单的是最好的 • 做法：对Decision-Tree 进行二进位编码，编码所需二进位最
少的树即为“最佳剪枝树”
– 期望错误率最小原则
• 思想：选择期望错误率最小的子树进行剪枝 • 对树中的内部节点计算其剪枝和不剪枝可能出现的期望错误率，
比较后加以取舍
决策树的用法
4. L.Breiman. Random Forests[J].Machine Learning,2001,45(1):5-32.
5. /users/breiman/ra ndomforests
随机森林
• 随机森林定义 • 随机森林算法 • 随机森林的泛化误差 • OOB(Out-Of-Bag）估计：泛化误差的一个
估计 • 随机森林的特点
随机森林的定义
• 随机森林是一个树型分类器{h(x,k),k=1,…} 的集合。其中元分类器h(x,k)是用CART算法构建的没有剪枝的分类回归树；x是输入向量；k是独立同分布的随机向量，决定了单颗树的生长过程；森林的输出采用简单多数投票法（针对分类）或单颗树输出结果的简单平均（针对回归）得到。
– 对每个样本赋予一个权重，代表该样本被当前分类器选入训练集的概率，并根据预测函数的输出与期望输出的差异调整权重：如某个样本点已被正确分类，则它的权重减小，否则，它的权重增大；通过这种方式，使得学习算法能集中学习较难判别的样本。
– 经权过重T{轮1,训2练,…，, 得T}到，T最个终分的类分函类数规{f则1,f为2,…加,权fT}投及票对法应的
– 树的生成
• 开始，数据都在根节点 • 递归的进行数据分片
– 树的剪枝
• 防止过拟合
• 决策树使用: 对未知数据进行分割
– 按照决策树上采用的分割属性逐层往下，直到一个叶子节点
决策树续2—分裂属性的选择度量
原则：分类效果最好的（或分类最纯的，或能使树的路径最短）的属性
常用度量
信息增益——Information gain (ID3/C4.5) • 所有属性假设都是取离散值的字段（ID3） • 经过修改之后可以适用于连续值字段（C4.5）
• 大数据集 (理想情况):
– 将数据集划分成3部分: GS, VS, TS – 根据GS生成一个树 – 根据VS进行后剪枝 – 在TS测试该树的准确率
• 小数据集 (通常)
– 根据整个数据集生成一个树 – 用10折交叉验证进行后剪枝 – 用10折交叉验证测试树的准确率
分类器组合
• AdaBoosting(Adaptive Boosting)
• Bagging(Breiman,1996)
– 在训练的每一轮中，均从原始样本集S中有放回地随机抽取训练样本集T（T的样本个数同S），这样一个初始样本在某轮训练中可能出现多次或根本不出现（ S中每个样本未被抽取的概率为(1-1/|S|)|S|≈0.368，当|S|很大时）。
– 最终的分类规则为简单多数投票法或简单平均法
随机森林算法
• 随机选取训练样本集：使用Bagging方法形成每颗树的训练集
• 随机选取分裂属性集：假设共有M个属性，指定一个属性数F≤M，在每个内部结点，从M个属性中随机抽取F个属性作分裂属性集，以这F个属性上最好的分裂方式对结点进行分裂（在整个森林的生长过程中， F的值一般维持不变）
2. S.L. Salzberg.Book Review:C4.5 Programs for Machine Learning by J.Ross Quinlan[J]. Machine Learning,1994,3:235-240.
3. L.Breiman, J.Friedman,al.et. Classification and Regression Trees[M]. New York: Chapman & Hall,1984.
• 每颗树任其生长，不进行剪枝
随机森林的泛化误差
随机森林的泛化误差
影响随机森林分类性能的主要因素
• 森林中单颗树的分类强度（Strength）：每颗树的分类强度越大，则随机森林的分类性能越好。
• 森林中树之间的相关度（Correlation）：树之间的相关度越大，则随机森林的分类性能越差。
随机森林
• 决策树 • 分类器组合 • 随机森林
决策树的定义
• 决策树是这样的一颗树:
– 每个内部节点上选用一个属性进行分割 – 每个分叉对应一个属性值 – 每个叶子结点代表一个分类
A1
a11
a12
A2 c1
a21
a22
c1
c2
a13
A3
a31
a32
c2
c1
决策树框架
• 决策树生成算法分成两个步骤
p2j
pj 类别j出现的频率
j1
• 如果集合T分成m部分 N1 , N2 ,…, Nm 。那么这个
分割的Gini就是
gini
(T
split
)

N1 N
gini(T
1)

Nm N
gini(T
m)
• 分裂属性选择规则：选择具有最小Ginisplit的属性
为分裂属性 (对于每个属性都要遍历所有可能的分割方法).
过拟合
Error
Underfitting
Overfitting
Errorunseen
ErrorLS
• 过拟合的原因：训练样本带噪声或不充分等
Complexity
树的剪枝
• 剪枝原因和目的：解决决策树对训练样本的过拟合问题
• 解决方法：剪枝（预剪枝，后剪枝）和树组合 • 后剪枝原则
– 最小描Байду номын сангаас长度原则(MDL)
• Ci为某分类标号，Pi为任意样本属于Ci的概率， si为分类Ci上
的样本数
– I(s1,s2,……,sm)越小， s1,s2,……,sm就越有序（越纯），分类效果就越好。
• 由属性A划分为子集的熵：
– A为属性，具有V个不同的取值， S被A 划分为V 个子
集s1,s2,……,sv，sij是子集sj中类Ci的样本数。
• 可生成一个Proximities=（pij）矩阵，用于度量样本之间的相似性： pij=aij/N, aij表示样本i和j出现在随机森林中同一个叶子结点的次数，N随机森林中树的颗数。
• 可以得到变量重要性排序（两种：基于OOB误分率的增加量和基于分裂时的GINI下降量）
主要参考文献
1. J.R. Quinlan. Induction of Decision Trees[J].Machine learning 1986,1:81-106.
• OOB误分率是随机森林的泛化误差的一个无偏估计
• OOB估计是高效的，其结果近似于需要大量计算的k折交叉验证。
随机森林的特点
• 两个随机性的引入，使得随机森林不容易陷入过拟合
• 两个随机性的引入，使得随机森林具有很好的抗噪声能力
• 对数据集的适应能力强：既能处理离散型数据，也能处理连续型数据，数据集无需规范化。
基尼指数——Gini index (Classification and Regression Tress,CART,Breiman,1984) • 能够适用于离散和连续值字段
信息增益
• 任意样本分类的期望信息：
– I(s1,s2,……,sm)=－∑Pi log2(pi) (i=1..m)
• 其中，数据集为S，m为S的分类数目， Pi≈|Si/|S|
OOB估计
• 计算1（以树为单位,错误）：对每颗树，利用未被该树选中的训练样本点，统计该树的误分率；将所有树的误分率取平均得到随机森林的OOB误分率
• 计算2（以样本为单位，正确）：对每个样本，计算它作为OOB样本的树对它的分类情况（约1/3的树）；然后以简单多数投票作为该样本的分类结果；最后用误分个数占样本总数的比率作为随机森林的OOB误分率
AdaBoosting和Bagging的比较
• Adaboosting的训练集选取与前面各轮的学习结果相关；而Bagging训练集的选取是随机的，各轮训练集之间相互独立。
• Adaboosting的每个分量分类器有权重，而 Bagging的没有权重。
• Adaboosting的每个分量分类器只能循序生成，而Bagging可以并行生成。