第4章决策树与随机森林

合集下载

了解机器学习中的随机森林算法和决策树模型

了解机器学习中的随机森林算法和决策树模型一、介绍机器学习中的随机森林算法和决策树模型是常用的监督学习方法，被广泛应用于分类和回归问题。

本文将详细介绍这两个模型的原理以及它们在机器学习中的应用。

二、决策树模型1. 原理决策树是通过一系列的判断条件对数据进行分类或预测的模型。

其原理是基于对样本特征属性进行分割，直至得到能够完全分开不同类别的叶节点。

决策树模型具有易于理解、可解释性强等优点，适用于处理有离散特征和连续特征的数据集。

2. 构建过程决策树模型构建过程包括选择最佳划分属性、生成子节点以及递归构建子树等步骤。

通过计算划分属性的信息增益或其他指标，选择最佳属性作为当前节点的分裂条件。

然后将数据集按照该属性值进行划分，并递归地生成子节点，直到满足停止条件（如达到叶节点或深度限制）为止。

3. 应用领域决策树模型在多个领域都能得到广泛应用。

例如，在医学领域，可以利用决策树模型对患者的症状和各种检测指标进行分类，以辅助医生做出诊断决策。

在金融领域，可以通过构建决策树模型进行信用评分，帮助银行判断借款人的还款能力。

三、随机森林算法随机森林是一种基于集成学习思想的算法，它由多个决策树组成。

它通过对原始数据集进行有放回抽样（bootstrap）得到多个样本子集，并利用这些子集构建不同的决策树。

最后通过投票或平均等方式综合各决策树的结果来做出最终预测。

随机森林算法能够处理高维度数据和离群点，并且不容易过拟合。

2. 构建过程随机森林算法包括两个重要步骤：创建随机子集和构建决策树。

创建随机子集时，首先从原始数据集中进行有放回抽样得到训练集，然后再从每个特征子集中选择最佳划分属性。

构建决策树的过程与决策树模型相似，但在节点划分时只考虑随机子集中的一部分特征。

3. 应用领域随机森林算法被广泛用于文本分类、图像识别、推荐系统等领域。

在文本分类中，可以利用随机森林对文章或评论进行情感分析，帮助企业了解用户对其产品的态度。

在推荐系统中，可以利用随机森林对用户的历史行为进行分析，并给出个性化的推荐结果。

《决策树与随机森林》课件

交叉验证
使用交叉验证来评估模型的泛化能力，以避免过拟合。
随机森林的参数调整
1 2
决策树数量
调整决策树的数量，以找到最优的模型性能。
特征子集大小
调整在每一步分裂中选择的特征子集大小，以找到最优的模型性能。
3
决策树深度
调整决策树的深度限制，以防止过拟合或欠拟合。
05
决策树与随机森林的应用场景
分类问题
THANKS
感谢观看
随机森林的优缺点
可解释性强
每棵决策树都可以单独解释，有助于理解模型的工作原理。
鲁棒
对异常值和噪声具有较强的鲁棒性。
随机森林的优缺点
对参数敏感
随机森林中的参数如树的数量、特征选择比例等对模型性能影响较大。
可能产生过拟合
当数据集较小或特征过多时，随机森林可能产生过拟合。
04
随机森林算法
随机森林的生成
决策树的基本原理
特征选择
选择最能划分数据集的特征进行分裂，以减少决策树的深度和复杂度。
剪枝
通过去除部分分支来降低过拟合的风险，提高模型的泛化能力。
决策规则
将每个叶子节点映射到一个类别或值，根据该节点所属类别或值进行预测。
决策树的优缺点
优点
易于理解和解释，分类效果好，对异常值和缺失值容忍度高。
在构建每棵决策树时，随机选择一部分特征进行划分，增加模型的泛化能力。
多样性
通过生成多棵决策树，增加模型的多样性，降低过拟合的风险。
集成学习
将多棵决策树的预测结果进行汇总，利用投票等方式决定最终输出，提高分类任务的准确率。
随机森林的优缺点
高效
能够处理大规模数据集，计算效率高。

随机森林原理详解

随机森林原理详解随机森林是一种集成学习方法，通过组合多个决策树来进行分类或回归预测。

它的原理基于决策树的集成和随机性的引入，具有较高的预测准确性和鲁棒性。

我们来了解一下决策树。

决策树是一种基于特征条件进行决策的树状结构。

在构建决策树时，我们首先需要选择一个特征作为根节点，然后根据该特征的取值将数据集划分成不同的分支。

接着，我们在每个分支上继续选择特征，构建子树，直到满足某个条件，比如达到预设的深度或者所有样本都属于同一类别。

决策树的训练过程就是选择最优的特征和划分方式的过程。

然而，单一的决策树容易产生过拟合问题，即在训练集上表现良好，但在测试集上表现较差。

为了解决这个问题，随机森林引入了集成学习的思想。

集成学习通过组合多个模型的预测结果，来提高整体的预测准确性。

随机森林就是通过构建多个决策树并进行投票或平均的方式来进行预测的。

随机森林的构建过程如下：1. 随机选择样本：从原始数据集中随机选择一部分样本，作为训练集。

这个过程称为有放回的采样，意味着一个样本可以被选择多次，也可以不被选择。

2. 随机选择特征：从原始特征集中随机选择一部分特征，作为待选特征集。

这个过程可以有效地减少特征数量，避免过拟合。

3. 构建决策树：根据选择的样本和特征，构建决策树。

在决策树的构建过程中，我们可以使用不同的划分标准，比如信息增益、基尼系数等。

4. 集成决策树：重复上述步骤，构建多个决策树。

最后，我们可以通过投票或平均的方式，来对多个决策树的预测结果进行集成。

随机森林的优势在于：1. 随机性的引入：通过随机选择样本和特征，随机森林可以减少模型的方差，提高模型的泛化能力。

2. 高度并行化：随机森林的构建过程可以高度并行化，每个决策树可以独立地构建。

这使得随机森林在大规模数据集上训练的速度更快。

3. 可解释性强：与其他复杂的模型相比，决策树和随机森林具有较强的可解释性。

我们可以通过查看每个决策树的结构和特征重要性，来理解模型的决策过程。

决策树随机森林原理与区别

决策树随机森林原理与区别
决策树和随机森林都是机器学习中常用的模型，它们都属于监督学习的范畴。

首先我们来看一下决策树的原理。

决策树是一种树形结构，用于决策分析。

它通过一系列的规则对数据进行分类或预测。

决策树的构建过程是一个递归地选择最优特征，并根据该特征对数据集进行划分的过程。

在构建决策树的过程中，通过对数据集进行划分，使得每个子集内的数据尽可能属于同一类别，从而实现对数据的分类和预测。

而随机森林是基于决策树构建的一种集成学习方法。

它通过构建多个决策树，并将它们进行组合来完成对数据的分类或预测。

随机森林的构建过程是通过对训练集进行有放回抽样，然后对每个子样本集构建一个决策树，最后将这些决策树进行组合，通过投票或取平均值的方式来进行分类或预测。

决策树和随机森林的区别在于，决策树是单个树形结构，它对数据进行分类或预测的能力受到树的深度和分裂规则的影响。

而随机森林是由多个决策树组成的集成模型，它通过对多个决策树的组合来提高整体模型的泛化能力和鲁棒性。

另外，随机森林在构建决策树的过程中引入了随机性，这样可以减小过拟合的风险，提高模
型的稳定性。

总的来说，决策树和随机森林都是常用的机器学习模型，它们都可以用于分类和预测任务。

决策树是单个树形结构，而随机森林是由多个决策树组成的集成模型，通过对多个决策树的组合来提高模型的性能。

在实际应用中，需要根据具体的问题和数据集的特点来选择合适的模型。

随机森林预测模型原理

随机森林预测模型原理随机森林是一种集成学习方法，它结合了决策树和随机性的特点。

随机森林可以应用于分类和回归问题，并在机器学习领域取得了广泛的应用。

在本文中，我们将介绍随机森林预测模型的原理和工作原理。

一、决策树为了更好地理解随机森林，首先需要了解决策树。

决策树是一种有监督学习算法，它根据特征的值进行分类或预测。

决策树由节点和边组成，每个节点表示一个特征或属性，边表示特征值的可能性。

在决策树中，我们根据特征的值将数据集划分为不同的子集，直到达到预定的终止条件。

决策树的一个显著特点是它能够对数据进行非线性建模。

它可以处理多个特征和类别，并且不需要对数据进行特定的假设。

然而，决策树容易过拟合和过度拟合，特别是在处理复杂的数据集时。

二、随机森林随机森林是由多个决策树构成的集成学习模型。

每个决策树都是独立训练的，它们之间没有关联。

随机森林通过对每个决策树的预测结果进行投票或取平均值来确定最终的预测结果。

随机森林的关键思想是引入随机性。

具体来说，随机森林在构建每个决策树时，会从原始数据集中随机选择一部分样本和特征进行训练。

这样做的好处是能够减少过拟合和提高模型的泛化能力。

三、随机森林的训练过程下面我们将介绍随机森林的训练过程。

假设我们有一个包含N个样本的训练集，每个样本有M个特征。

我们还需要选择每个决策树的数量和其他超参数。

1. 从训练集中随机选择B个样本（有放回地抽样），构建一个新的训练集。

这个新的训练集称为“bootstrap样本”。

2. 从M个特征中随机选择m个特征，构建一个新的特征集。

这个新的特征集称为“随机特征子集”。

3. 使用步骤1和步骤2得到的数据集，构建一个决策树。

在构建决策树的过程中，我们可以使用不同的分割准则（如基尼系数或信息增益）。

4. 重复步骤1到步骤3，直到构建了预定数量的决策树。

5. 对于分类问题，随机森林通过投票的方式来确定最终的预测结果。

对于回归问题，随机森林通过取平均值来确定最终的预测结果。

随机森林决策树训练过程

随机森林决策树训练过程
随机森林是一种集成学习方法，它由多个决策树组成，每棵树
都是独立训练的。

随机森林的训练过程可以分为以下几个步骤：
1. 数据准备，首先，需要准备训练数据集。

每个样本都包含多
个特征和一个标签，特征用来描述样本的属性，标签用来表示样本
的类别或者输出值。

2. 随机抽样，在训练每棵决策树时，从训练数据集中进行随机
抽样。

这种随机抽样的方法被称为自助采样法（bootstrap sampling），它可以保证每棵决策树的训练集都是有放回地从原始
训练集中抽取的，且大小与原始训练集相同。

3. 特征随机选择，在每个节点的决策过程中，随机选择一部分
特征进行考虑。

这样做的目的是为了降低各个决策树之间的相关性，增加随机性，提高模型的泛化能力。

4. 决策树训练，对于每棵决策树，使用随机抽样的训练集和随
机选择的特征集进行训练。

通常采用递归二分法构建决策树，选择
最佳的特征进行节点划分，直到满足停止条件（如节点样本数小于
阈值或树的深度达到预设值）为止。

5. 集成学习，训练多棵决策树后，将它们组合成随机森林。

在分类问题中，通常采用投票的方式确定最终的分类结果；在回归问题中，通常采用平均值的方式确定最终的预测结果。

总的来说，随机森林的训练过程就是通过构建多棵决策树，利用随机抽样和特征随机选择增加模型的多样性，然后通过集成学习将这些决策树组合起来，以取得更好的分类或回归性能。

这种方法能够有效地减少过拟合，提高模型的鲁棒性和泛化能力。

决策树与随机森林模型的比较与使用指南(Ⅰ)

决策树与随机森林模型的比较与使用指南在机器学习领域，决策树和随机森林是两种常见的分类和回归模型。

它们都可以用于处理结构化数据，如表格数据或特征向量。

本文将对决策树与随机森林这两种模型进行比较，并提供使用指南。

一、决策树决策树是一种树形结构的模型，用于表示各种可能的决策路径。

它通过对数据的特征进行递归分割，最终生成一个树状结构。

在决策树中，每个节点代表一个特征，每个分支代表一个可能的取值，而每个叶子节点代表一个类别或数值输出。

使用决策树模型时，可以根据特征的重要性来进行特征选择，也可以解释模型的预测结果。

此外，决策树模型对数据的缺失值和异常值有较强的鲁棒性，能够处理非线性关系和交互效应。

但是，决策树模型也存在一些缺点。

它容易过拟合，尤其是在处理高维数据时。

另外，决策树对数据的微小变化较为敏感，容易产生不稳定的结果。

二、随机森林随机森林是一种集成学习方法，通过构建多个决策树来进行分类或回归。

在随机森林中，每个决策树都是由对原始数据进行有放回抽样得到的不同训练集构建而成。

最终的预测结果是由所有决策树的预测结果取平均值或投票决定。

随机森林模型具有较高的准确率和泛化能力，对于大规模高维数据集也有很好的表现。

它能够有效地减少过拟合的风险，对噪声和异常值有一定的鲁棒性。

然而，随机森林模型也有一些缺点。

它对于数据集中的线性关系不够敏感，有时可能会产生较大的计算开销。

此外，由于随机森林模型的复杂性，对于模型的解释相对困难。

三、如何选择在选择模型时，可以根据实际的问题和数据情况来进行权衡。

如果数据集较小，并且希望得到模型的解释和可视化结果，可以选择决策树模型。

如果数据集较大，并且追求更高的准确率和泛化能力，可以选择随机森林模型。

另外，在使用随机森林模型时，可以通过调节决策树的数量、树的深度和特征的个数等超参数来优化模型的性能。

在训练过程中，还可以通过交叉验证等方法来评估模型的性能，并进行模型选择。

总之，决策树和随机森林是两种常见的机器学习模型，它们各自具有一定的优势和不足。

人工智能与机器学习应用作业指导书

人工智能与机器学习应用作业指导书第1章人工智能与机器学习基础 (3)1.1 人工智能概述 (3)1.1.1 定义与分类 (3)1.1.2 发展历程 (3)1.1.3 应用领域 (3)1.2 机器学习基本概念 (3)1.2.1 定义 (3)1.2.2 学习类型 (3)1.2.3 评估指标 (4)1.3 数据预处理 (4)1.3.1 数据清洗 (4)1.3.2 特征工程 (4)1.3.3 数据变换 (4)1.3.4 数据采样 (4)第2章线性回归 (4)2.1 线性回归原理 (4)2.2 最小二乘法 (4)2.3 梯度下降法 (5)第3章逻辑回归与分类 (5)3.1 逻辑回归 (5)3.1.1 基本原理 (5)3.1.2 模型构建与优化 (6)3.2 模型评估指标 (6)3.2.1 准确率（Accuracy） (6)3.2.2 精确率（Precision） (6)3.2.3 召回率（Recall） (7)3.2.4 F1分数（F1 Score） (7)3.3 其他分类算法 (7)3.3.1 支持向量机（Support Vector Machine，SVM） (7)3.3.2 决策树（Decision Tree） (7)3.3.3 随机森林（Random Forest） (7)3.3.4 神经网络（Neural Networks） (7)第4章决策树与随机森林 (7)4.1 决策树基本原理 (7)4.2 特征选择 (8)4.3 随机森林 (8)第5章支持向量机 (8)5.1 支持向量机原理 (9)5.1.1 最大间隔分类 (9)5.1.2 硬间隔与软间隔 (9)5.1.3 对偶问题 (9)5.2 核函数 (9)5.2.1 常见核函数 (9)5.2.2 核函数的选择 (9)5.3 支持向量回归 (9)5.3.1 ε支持向量回归 (10)5.3.2SVR的优化目标 (10)5.3.3SVR的核函数 (10)第6章人工神经网络 (10)6.1 神经元模型 (10)6.1.1 神经元结构 (10)6.1.2 激活函数 (10)6.2 感知机 (10)6.2.1 感知机模型 (11)6.2.2 感知机学习算法 (11)6.3 反向传播算法 (11)6.3.1 算法原理 (11)6.3.2 算法流程 (11)第7章深度学习 (11)7.1 卷积神经网络 (11)7.1.1 基本原理 (12)7.1.2 结构与特点 (12)7.1.3 应用场景 (12)7.2 循环神经网络 (12)7.2.1 基本原理 (12)7.2.2 结构与特点 (12)7.2.3 应用场景 (12)7.3 对抗网络 (13)7.3.1 基本原理 (13)7.3.2 结构与特点 (13)7.3.3 应用场景 (13)第8章集成学习 (13)8.1 集成学习概述 (13)8.2 Bagging算法 (13)8.3 Boosting算法 (14)第9章聚类分析 (14)9.1 聚类基本概念 (14)9.2 K均值聚类 (14)9.3 层次聚类 (15)第10章机器学习应用实践 (15)10.1 数据挖掘与可视化 (15)10.2 文本分类与情感分析 (16)10.3 语音识别与合成 (16)10.4 计算机视觉与图像识别 (16)第1章人工智能与机器学习基础1.1 人工智能概述1.1.1 定义与分类人工智能（Artificial Intelligence，）是指使计算机系统模拟人类智能行为，进行感知、推理、学习和解决问题的技术。

决策树、支持向量机、logistic、随机森林分类模型的数学公式

决策树、支持向量机、logistic、随机森林分类模型的数学公式决策树（Decision Tree）是一种基于树状结构进行决策的分类和回归方法。

决策树的数学公式可以表示为：对于分类问题：f(x) = mode(Y), 当节点为叶子节点f(x) = f_left, 当 x 属于左子树f(x) = f_right, 当 x 属于右子树其中，mode(Y) 表示选择 Y 中出现最频繁的类别作为预测结果，f_left 和 f_right 分别表示左子树和右子树的预测结果。

对于回归问题：f(x) = Σ(y_i)/n, 当节点为叶子节点f(x) = f_left, 当 x 属于左子树f(x) = f_right, 当 x 属于右子树其中，Σ(y_i) 表示叶子节点中所有样本的输出值之和，n 表示叶子节点中样本的数量，f_left 和 f_right 分别表示左子树和右子树的预测结果。

支持向量机（Support Vector Machine，简称 SVM）是一种非概率的二分类模型，其数学公式可以表示为：对于线性可分问题：f(x) = sign(w^T x + b)其中，w 是超平面的法向量，b 是超平面的截距，sign 表示取符号函数。

对于线性不可分问题，可以使用核函数将输入空间映射到高维特征空间，公式变为：f(x) = sign(Σα_i y_i K(x_i, x) + b)其中，α_i 和 y_i 是支持向量机的参数，K(x_i, x) 表示核函数。

Logistic 回归是一种常用的分类模型，其数学公式可以表示为：P(Y=1|X) = 1 / (1 + exp(-w^T x))其中，P(Y=1|X) 表示给定输入 X 的条件下 Y=1 的概率，w 是模型的参数。

随机森林（Random Forest）是一种集成学习方法，由多个决策树组成。

对于分类问题，随机森林的数学公式可以表示为：f(x) = mode(Y_1, Y_2, ..., Y_n)其中，Y_1, Y_2, ..., Y_n 分别是每个决策树的预测结果，mode 表示选择出现最频繁的类别作为预测结果。

决策树与随机森林模型的比较与使用指南(四)

决策树与随机森林模型的比较与使用指南随着大数据和人工智能技术的迅猛发展，机器学习模型在各个领域得到了广泛的应用。

决策树和随机森林作为经典的机器学习算法，在数据挖掘和预测建模中扮演着重要的角色。

本文将对决策树和随机森林进行比较，并提供使用指南，帮助读者更好地理解和应用这两种模型。

1. 决策树模型决策树是一种基于树形结构来进行决策的模型。

它通过对样本数据进行分类和预测，构建一个树形的决策流程。

在决策树中，每个节点代表一个属性，每个分支代表这个属性的一个取值，而每个叶子节点代表一个类别或者一个数值。

决策树的优点是易于理解和解释，能够处理多种数据类型，并且可以处理大规模的数据集。

然而，决策树容易过拟合，对噪声和异常值敏感，因此需要进行剪枝操作来避免过拟合。

2. 随机森林模型随机森林是一种集成学习方法，它由多个决策树组成。

在随机森林中，每棵决策树都是基于不同的随机样本和随机特征构建的，然后将它们进行整合得到最终的预测结果。

随机森林通过利用多个模型的集成来提高预测的准确性和稳定性，同时减少了过拟合的风险。

由于随机森林能够处理高维数据和大规模数据集，并且不需要对数据进行特征缩放，因此在实际应用中得到了广泛的应用。

3. 决策树与随机森林的比较在比较决策树和随机森林时，可以看出它们各自的特点。

决策树简单直观，易于理解和解释，但容易过拟合；而随机森林通过集成多个决策树，提高了预测的准确性和稳定性，同时减少了过拟合的风险。

因此，在实际应用中，可以根据具体的场景和数据特点来选择合适的模型。

4. 使用指南在使用决策树和随机森林模型时，需要注意以下几点：- 数据准备：对于决策树和随机森林模型，需要对数据进行预处理和特征工程，包括缺失值处理、数据标准化、特征选择等操作。

此外，需要将数据集划分为训练集和测试集，用于模型的训练和评估。

- 模型选择：在选择模型时，需要根据实际情况和数据特点来决定使用决策树还是随机森林。

如果数据集较小，且希望获得更好的解释性和可解释性，可以选择决策树模型；如果数据集较大，且需要更高的预测准确性和稳定性，可以选择随机森林模型。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

不剪枝
1 脐部
凹陷
2 色泽
稍凹
3 根蒂
平坦 4
坏瓜
青绿
好瓜
乌黑浅白
稍蜷
5
好瓜
坏瓜
色泽
蜷缩硬挺
坏瓜
好瓜
青绿
好瓜
乌黑浅白
好瓜
好瓜
后剪枝 (续)
对结点，若将其替换为叶结点，根据落在其上的训练样例
，将其标记为“好瓜”，测得验证集精度提升至 71.4%，
决定剪枝
1 脐部
凹陷 2
色泽?
稍凹
3 根蒂
平坦 4
CART算法中使用
划分选择 vs. 剪枝
研究表明: 划分选择的各种准则虽然对决策树的尺寸有较大影响，但对泛化性能的影响很有限
例如信息增益与基尼指数产生的结果，仅在约 2% 的情况下不同
剪枝方法和程度对决策树泛化性能的影响更为显著
在数据带噪时甚至可能将泛化性能提升 25%
Why?
剪枝 (pruning) 是决策树对付“过拟合”的主要手段！
1 脐部
凹陷
2 色泽
稍凹
3 根蒂
平坦 4
坏瓜
青绿
好瓜
乌黑浅白
稍蜷
5
好瓜
坏瓜
色泽
蜷缩硬挺
坏瓜
好瓜
青绿 6 乌黑浅白
好瓜纹理? 好瓜
稍糊
清晰模糊
好瓜
坏瓜
好瓜
验证集精度
剪枝前: 42.9% 剪枝后: 57.1% 后剪枝决策: 剪枝
后剪枝 (续)
首先考虑结点，若将其替换为叶结点，根据落在其上的训练样例
验证集精度 “脐部=?” 划分前: 42.9%
划分后: 71.4% 平坦预剪枝决策: 划分 4
坏瓜
验证集精度
“色泽=?” 划分前: 71.4% 划分后: 57.1%
预剪枝决策: 禁止划分
验证集精度
“根蒂=?” 划分前: 71.4% 划分后: 71.4%
预剪枝决策: 禁止划分
后剪枝
先生成一棵完整的决策树，其验证集精度测得为 42.9%
• 使决策树受到关注、成为机器学习主流技术的算法：ID3 [J. R. Quinlan’s paper in a book “Expert Systems in the Micro Electronic Age” edited by D. Michie, published by Edinburgh University Press in 1979]
蜷缩硬挺
坏瓜
好瓜
青绿
好瓜
乌黑浅白
好瓜
好瓜
后剪枝 (续) 最终，后剪枝得到的决策树：
凹陷 2 好瓜
1 脐部
稍凹
3 根蒂
平坦 4 坏瓜
稍蜷 5
色泽
蜷缩硬挺
坏瓜
好瓜
青绿
好瓜乌黑浅白来自好瓜好瓜预剪枝 vs. 后剪枝
时间开销： • 预剪枝：训练时间开销降低，测试时间开销降低 • 后剪枝：训练时间开销增加，测试时间开销降低
清晰
根蒂=?
蜷缩
稍蜷硬挺
好瓜
青绿
色泽=?
乌黑
坏瓜
浅白
好瓜触感=? 好瓜
硬滑
软粘
好瓜坏瓜
纹理=?
模糊
触感=?
坏瓜
硬滑
软粘
坏瓜好瓜
增益率 (gain ratio)
信息增益：对可取值数目较多的属性有所偏好
有明显弱点，例如：考虑将“编号”作为一个属性
增益率：
其中
属性 a 的可能取值数目越多 (即 V 越大)，则 IV(a) 的值通常就越大
决策树简史
• 第一个决策树算法：CLS (Concept Learning System) [E. B. Hunt, J. Marin, and P. T. Stone’s book “Experiments in Induction” published by Academic Press in 1966]
验证集精度
“脐部=?” 划分前: 42.9% 划分后: 71.4%
平坦预剪枝决策: 划分
4
坏瓜
预剪枝 (续)
验证
集
凹陷 2
好瓜
1
脐部=?
稍凹 3
好瓜
对结点，，分别进行剪枝判断，结点，都禁止划分，结点本身为叶子结点。最终得到仅有一层划分的决策树，称为 “决策树桩”(decision stump)
• 基于决策树的最强大算法：RF (Random Forest) [L. Breiman’s MLJ’01 paper “Random Forest”]
基本流程
策略：“分而治之”(divide-and-conquer)
自根至叶的递归过程在每个中间结点寻找一个“划分”(split or test)属性
第2章
数据集
训练集验证集
未剪枝决策树
凹陷 2
色泽=?
1
脐部=?
稍凹 3
根蒂=?
青绿
好瓜
乌黑
好瓜
浅白
坏瓜
稍蜷
5
色泽=?
蜷缩
坏瓜
青绿
乌黑
6
好瓜纹理=?
浅白
好瓜
稍糊
清晰模糊
好瓜坏瓜好瓜
平坦
4 坏瓜
硬挺
好瓜
预剪枝
验证集
1
脐部=?
结点1：若不划分，则将其标记为
叶结点，类别标记为训练样例中最
4.决策树与随机森林
决策树模型
决策树基于“树”结构进行决策每个“内部结点”对应于某个属性上的“测试”(test) 每个分支对应于该测试的一种可能结果（即该属性的某个取值）每个“叶结点”对应于一个“预测结果”
学习过程：通过对训练样本的分析来确定“划分属性”（即内部结点所对应的属性）预测过程：将测试示例从根结点开始，沿着划分属性所构成的“判定测试序列”下行，直到叶结点
三种停止条件： (1) 当前结点包含的样本全属于同一类别，无需划分; (2) 当前属性集为空, 或是所有样本在所有属性上取值相同，无法划分; (3) 当前结点包含的样本集合为空，不能划分.
基本算法
利用当前结点的后验分布
递归返回，情形(2)
递归返回，情形(3)
决策树算法的核心
将父结点的样本分布作为当前结点的先验分布
随机森林
算法流程： 1. 假如有N个样本,则有回放的随机选择N个样本（每次
随机选择一个样本，然后返回继续选择）。这选择好了的N 个样本用来训练一个决策树，作为决策树根节点处的样本。
2.当每个样本有M个属性时，在决策树的每个节点需要分裂时，随机从这M个属性中选取出m个属性，满足条件 m<<M。然后从这m个属性中采用某种策略（如信息增益）来选择一个属性，作为该节点的分裂属性。
，反例占
，、同理，个结点的信息熵为：
属性“色泽”的信息增益为
一个例子 (续)
类似的，其他属性的信息增益为
显然，属性“纹理”的信息增益最大，其被选为划分属性
纹理=?
清晰
{1,2,3,4,5,6,8,10,15}
稍糊
{7,9,13,14,17}
模糊
{11,12,16}
一个例子 (续)
对每个分支结点做进一步划分，最终得到决策树
信息增益 (information gain)
信息熵 (entropy) 是度量样本集合“纯度”最常用的一种指标假定当前样本集合 D 中第 k 类样本所占的比例为，则 D 的信息熵定义为
的值越小，则的纯度越高信息增益直接以信息熵为基础，计算当前划分对信息熵所造成的变化
信息增益
离散属性 a 的取值： Dv: D 中在 a 上取值 = av 的样本集合以属性 a 对数据集 D 进行划分所获得的信息增益为：
随机森林
算法流程： 3.决策树形成过程中，每个节点都要按照步骤2来分裂（
很容易理解，如果下一次该节点选出来的那一个属性是刚刚父节点分裂时用过的属性，则该节点已经达到了叶子节点，无需继续分裂）。一直到不能再分裂为止，注意整个决策树形成过程中没有剪枝。
4.按步骤1-3建立大量决策树，如此形成随机森林。从上边的步骤可以看出，随机森林每棵树的训练样本是随机的，数中每个节点的分类属性也是随机选择的，这2个随机的选择过程，保证了随机森林不会产生过拟合现象。
ID3算法中使用
划分前的信息熵
划分后的信息熵
第 v 个分支的权重, 样本越多越重要
一个例子
该数据集包含训练样例，
其中正例占反例占
个
，
，
根结点的信息熵为
一个例子 (续)
以属性“色泽”为例，其对应的个数据子集分别为 (色泽=青
绿)， (色泽=乌黑)， (色泽=浅白)
子集包含编号为
的个样例，其中正例占
启发式：先从候选划分属性中找出信息增益高于平均水平的，再从中选取增益率最高的
C4.5算法中使用
基尼指数 (gini index)
反映了从 D 中随机抽取两个样例，其类别标记不一致的概率
Gini(D) 越小，数据集 D 的纯度越高
属性 a 的基尼指数：
在候选属性集合中，选取那个使划分后基尼指数最小的属性
凹陷
2 色泽
1 脐部
稍凹
3 根蒂
平坦 4
坏瓜
青绿
好瓜
乌黑浅白稍蜷
5
好瓜
坏瓜
色泽
蜷缩硬挺
坏瓜
好瓜
青绿 6 乌黑浅白