机器学习之第四章-决策树

合集下载

机器学习--决策树算法（ID3C4.5）

机器学习--决策树算法（ID3C4.5）在⽣活中，“树”这⼀模型有很⼴泛的应⽤，事实证明，它在机器学习分类和回归领域也有着深刻⽽⼴泛的影响。

在决策分析中，决策树可以明确直观的展现出决策结果和决策过程。

如名所⽰，它使⽤树状决策模型。

它不仅仅是在数据挖掘中⽤户获取特定⽬标解的策略，同时也被⼴泛的应⽤于机器学习。

如何使⽤树来表⽰算法为此，我们考虑使⽤泰坦尼克号数据集的⽰例，以预测乘客是否会⽣存。

下⾯的模型使⽤数据集中的3个特征/属性/列，即性别，年龄和SIBSP（配偶或⼉童的数量）。

这是⼀棵体现了⼈性光辉的决策树。

树的形状是⼀棵上下颠倒的决策树，叶⼦节点在下，根节点在上。

在图像中，⿊⾊中的粗体⽂本表⽰条件/内部节点，基于树分成分⽀/边缘。

不再分裂的分⽀结束是决策/叶⼦，在这种情况下，乘客是否被死亡或幸存，分别表⽰为红⾊和绿⾊⽂本。

虽然，⼀个真实的数据集将有很多功能，这只是⼀个更⼤的树中的部分分⽀，但你不能忽略这种算法的简单性。

该特征重要性是明确的，可以轻易查看决策关系。

该⽅法更常见于来⾃数据的学习决策树，并且在树上被称为分类树，因为⽬标是将乘客分类为幸存或死亡，上⾯所展⽰的决策树就是分类树。

回归树以相同的⽅式表⽰，例如⽤于预测房⼦价格的连续价值。

通常，决策树算法被称为CART或分类和回归树。

那么，算法⽣成的背后发⽣了什么呢？如何⽣成⼀个决策树取决于选择什么特征和在何种情况下进⾏分裂，以及在什么时候停⽌。

因为⼀棵树通常是随意⽣长的，你需要修剪它，让它看起来漂亮（研究如何⽣成决策树）。

ID3算法ID3算法⽣成决策树ID3算法（Iterative Dichotomiser 3）是决策树⽣成算法的⼀种，基于奥卡姆剃⼑原理(简约原则) 1。

是Ross Quinlan发明的⼀种决策树算法，这个算法的基础就是上⾯提到的奥卡姆剃⼑原理，越是⼩型的决策树越优于⼤的决策树，尽管如此，也不总是⽣成最⼩的树型结构，⽽是⼀个启发式算法。

机器学习-决策树-ppt

例如：我们要对“这是好瓜吗”这样的问题进行决策时，通常会进行一系列的判断：我们先看“它是什么颜色”，如果是“青绿色”再看“它的根蒂是什么形态”，如果是“蜷缩”，我们在判断“它敲起来是什么声音”，最后，我们得出最终的决策：这是个好瓜，这个过程如下：
决策树的基本组成部分：决策结点、分支和叶子。
主要内容
决策树基本概念基本流程划分选择剪枝处理
决策树

决策树基本概念
决策树是数据挖掘分类算法的一个重要方法。在各种分类算法中，决策树是最直观的一种。在机器学习中也是一种常用方法。
我们希望从给定的训练集中学得一个模型用来对新示例进行分类，这一分类过程称为“决策”过程。决策树是基于树结构进行决策的。
一般而言，信息增益越大，则意味着使用属性a来进行划分所获得的“纯度”（即分支节点所包含的样本尽可能属于同一类别）
以下表的西瓜数据为例
以属性“色泽”为例，它有三个可能取值{青绿，乌黑，浅白}，记为：D1==青绿，D2=乌黑，D3=浅白算 D1包含{1，4，6,10,13,17}6个样例，其中正比例 P1=3/6，反比例P2=3/6；D2包含{2,3,7,8,9，15}6个样例，其中正比例P1=4/6，反比例P2=2/6；D3包含 {5,11,12,14,16}5个样例，其中正比例P1=1/5，反比例P2=4/5。
决策树算法
目前已有多种决策树算法：CLS、ID3、CHAID、C4.5、 CART、 SLIQ、SPRINT等。著名的ID3（Iterative Dichotomiser3）算法是 J.R.Quinlan在1986 年提出的，该算法引入了信息论中的理论，是基于信息熵的决策树分类算法。
决策树ID3算法
剪枝分为“预剪枝”和“后剪枝”。预剪枝是在决策树生成过程中，对每个节点在划分之前先进行估计，若当前节点的划分不能带来决策树的泛化性能的提升，则停止划分并将当前节点标记为叶节点。

《决策树与随机森林》课件

交叉验证
使用交叉验证来评估模型的泛化能力，以避免过拟合。
随机森林的参数调整
1 2
决策树数量
调整决策树的数量，以找到最优的模型性能。
特征子集大小
调整在每一步分裂中选择的特征子集大小，以找到最优的模型性能。
3
决策树深度
调整决策树的深度限制，以防止过拟合或欠拟合。
05
决策树与随机森林的应用场景
分类问题
THANKS
感谢观看
随机森林的优缺点
可解释性强
每棵决策树都可以单独解释，有助于理解模型的工作原理。
鲁棒
对异常值和噪声具有较强的鲁棒性。
随机森林的优缺点
对参数敏感
随机森林中的参数如树的数量、特征选择比例等对模型性能影响较大。
可能产生过拟合
当数据集较小或特征过多时，随机森林可能产生过拟合。
04
随机森林算法
随机森林的生成
决策树的基本原理
特征选择
选择最能划分数据集的特征进行分裂，以减少决策树的深度和复杂度。
剪枝
通过去除部分分支来降低过拟合的风险，提高模型的泛化能力。
决策规则
将每个叶子节点映射到一个类别或值，根据该节点所属类别或值进行预测。
决策树的优缺点
优点
易于理解和解释，分类效果好，对异常值和缺失值容忍度高。
在构建每棵决策树时，随机选择一部分特征进行划分，增加模型的泛化能力。
多样性
通过生成多棵决策树，增加模型的多样性，降低过拟合的风险。
集成学习
将多棵决策树的预测结果进行汇总，利用投票等方式决定最终输出，提高分类任务的准确率。
随机森林的优缺点
高效
能够处理大规模数据集，计算效率高。

机器学习课后习题答案(周志华)

第二章模型评估与选择1.数据集包含1000个样本，其中500个正例，500个反例，将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估，试估算共有多少种划分方式。

一个组合问题，从500500正反例中分别选出150150正反例用于留出法评估，所以可能取150)2。

法应该是(C5002.数据集包含100个样本，其中正反例各一半，假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别（训练样本数相同时进行随机猜测），试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。

10折交叉检验：由于每次训练样本中正反例数目一样，所以讲结果判断为正反例的概率也是一样的，所以错误率的期望是5050%。

留一法：如果留下的是正例，训练样本中反例的数目比正例多一个，所以留出的样本会被判断是反例；同理，留出的是反例，则会被判断成正例，所以错误率是100%。

3.若学习器A的F1值比学习器B高，试析A的BEP值是否也比B高。

4.试述真正例率（TPR）、假正例率（FPR）与查准率（P）、查全率（R）之间的联系。

查全率: 真实正例被预测为正例的比例真正例率: 真实正例被预测为正例的比例显然查全率与真正例率是相等的。

查准率:预测为正例的实例中真实正例的比例假正例率: 真实反例被预测为正例的比例两者并没有直接的数值关系。

9.试述卡方检验过程。

第三章线性模型2.试证明，对于参数w，对率回归（logistics回归）的目标函数（式1）是非凸的，但其对数似然函数（式2）是凸的。

如果一个多元函数是凸的，那么它的Hessian矩阵是半正定的。

3.编程实现对率回归，并给出西瓜数据集3.0α上的结果/icefire_tyh/article/details/520688444.选择两个UCI数据集，比较10折交叉验证法和留一法所估计出的对率回归的错误率。

/icefire_tyh/article/details/520689005.编程实现线性判别分析，并给出西瓜数据集3.0α上的结果。

决策树(完整)

无缺失值样本中在属性上取值的样本所占比例
无缺失值样本中在属性上取值的样本所占比例
ቤተ መጻሕፍቲ ባይዱ
谢谢大家！
举例：求解划分根结点的最优划分属性
根结点的信息熵：
用“色泽”将根结点划分后获得3个分支结点的信息熵分别为：
属性“色泽”的信息增益为：
若把“编号”也作为一个候选划分属性，则属性“编号”的信息增益为：
根结点的信息熵仍为：
用“编号”将根结点划分后获得17个分支结点的信息熵均为：
则“编号”的信息增益为：
三种度量结点“纯度”的指标：信息增益增益率基尼指数
1. 信息增益
香农提出了“信息熵”的概念，解决了对信息的量化度量问题。香农用“信息熵”的概念来描述信源的不确定性。
信息熵
信息增益
一般而言，信息增益越大，则意味着使用属性a来进行划分所获得的“纯度提升”越大。决策树算法第8行选择属性
著名的ID3决策树算法
远大于其他候选属性信息增益准则对可取值数目较多的属性有所偏好
2. 增益率
增益率准则对可取值数目较少的属性有所偏好著名的C4.5决策树算法综合了信息增益准则和信息率准则的特点：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。
3. 基尼指数
基尼值
基尼指数
著名的CART决策树算法
过拟合：学习器学习能力过于强大，把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，导致泛化性能下降。欠拟合：学习器学习能力低下，对训练样本的一般性质尚未学好。
过拟合无法彻底避免，只能做到“缓解”。
不足：基于“贪心”本质禁止某些分支展开，带来了欠拟合的风险
预剪枝使得决策树的很多分支都没有“展开”优点：降低过拟合的风险减少了训练时间开销和测试时间开销

《机器学习（周志华）》笔记--决策树（1）--决策树模型、决策树简史、基本流程

《机器学习（周志华）》笔记--决策树（1）--决策树模型、决策树简史、基本流程⼀、决策树模型决策树(decision tree)是⼀种常⽤的机器学习⽅法，是⼀种描述对实例进⾏分类的树形结构。

决策树是⼀种常⽤的机器学习⽅法，以⼆分类为例，假设现在我们要对是否买西⽠进⾏判断和决策，我们会问⼀些问题，根据回答，我们决断是买还是不买，或者还拿补丁主意，这时会继续问问题，直到可以确定为⽌。

决策树基于“树”结构进⾏决策：（1）内部结点：属性（2）分⽀：属性值（3）p叶结点：分类结果学习过程：通过对训练样本的分析来确定“划分属性”（即内部结点所对应的属性）预测过程：将测试⽰例从根结点开始，沿着划分属性所构成的“判定测试序列”下⾏，直到叶结点学习的过程就是通过划分属性构建决策树的过程，预测过程就是将测试样本从根节点开始，沿着划分属性构成的“判定序列”下⾏，直到叶结点。

结构举例：从代码⾓度来看，决策树其实可以看成是⼀堆if-else语句的集合，例如引例中的决策树完全可以看成是如下代码：if isRed:if isCold:if hasSeed:print("buy")else:print("don't buy")else:if isCheap:print("buy")else:print("don't buy")else:print("don't buy") 由决策树的根结点(root node)到叶结点(leaf node)的每⼀条路径构建⼀条规则：路径上内部结点的特征对应着规则的条件，⽽叶结点的类对应着规则的结论。

决策树的路径或其对应的if-then规则集合具有⼀个重要的性质：互斥并且完备。

这就是说，每⼀个实例都被⼀条路径或⼀条规则所覆盖，⽽且只被⼀条路径或⼀条规则所覆盖。

简单说明决策树原理

简单说明决策树原理决策树是一种基于树形结构的分类和回归模型，它通过对训练数据进行学习来建立一个树形模型，用于预测新的数据。

决策树模型具有易于理解、易于实现、可处理离散和连续数据等优点，因此在机器学习领域得到了广泛应用。

一、决策树的基本概念1. 节点：决策树中的每个圆圈都称为一个节点，分为两种类型：内部节点和叶节点。

2. 内部节点：表示对特征进行测试的节点。

每个内部节点包含一个属性测试，将输入实例分配到其子节点中。

3. 叶节点：表示分类结果或输出结果。

在叶子结点处不再进行属性测试，每个叶子结点对应着一种类别或值。

4. 分支：表示从一个内部节点指向其子节点的箭头，代表了样本在该特征上取某个值时所走的路径。

5. 根节点：表示整棵决策树的起始点，在分类问题中代表所有样本都未被分类时所走的路径。

6. 深度：从根结点到当前结点所经过分支数目。

叶子结点深度为0。

7. 路径：从根结点到叶子结点所经过的所有分支构成的序列。

8. 剪枝：对决策树进行简化的过程，目的是减少模型复杂度，提高泛化能力。

二、决策树的生成1. ID3算法ID3算法是一种基于信息熵来进行特征选择的决策树生成算法。

它通过计算每个特征对训练数据集的信息增益来选择最优特征作为当前节点的属性测试。

具体步骤如下：（1）计算数据集D的信息熵H(D)。

（2）对于每个特征A，计算其对数据集D的信息增益Gain(A)，并选择信息增益最大的特征作为当前节点的属性测试。

其中，信息增益定义为：Gain(A)=H(D)-H(D|A)，其中H(D|A)表示在已知特征A时，数据集D中所包含的各个类别所占比例对应的熵值。

（3）将数据集按照选定属性划分为多个子集，并递归地生成子树。

（4）直到所有样本都属于同一类别或者没有更多可用特征时停止递归。

2. C4.5算法C4.5算法是ID3算法的改进版，它在选择最优特征时使用了信息增益比来解决ID3算法中存在的偏向于选择取值较多的特征的问题。

机器学习-决策树之ID3算法

机器学习-决策树之ID3算法概述决策树（Decision Tree）是⼀种⾮参数的有监督学习⽅法，它是⼀种树形结构，所以叫决策树。

它能够从⼀系列有特征和标签的数据中总结出决策规则，并⽤树状图的结构来呈现这些规则，以解决分类和回归问题。

决策树算法容易理解，适⽤各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核⼼的各种集成算法，在各个⾏业和领域都有⼴泛的应⽤。

决策树的核⼼有三种算法：ID3：ID3 是最早提出的决策树算法，他就是利⽤信息增益来选择特征的。

C4.5：他是 ID3 的改进版，他不是直接使⽤信息增益，⽽是引⼊“信息增益⽐”指标作为特征的选择依据。

CART：这种算法即可以⽤于分类，也可以⽤于回归问题。

CART 算法使⽤了基尼系数取代了信息熵模型。

ID3算法是本教程的重点要讲的内容，其余两种算法将会后续推出。

数据集下⾯举个例⼦，会使⽤ID3算法帮助我们判断今天的天⽓适不适合出去打球。

进⾏判断之前，需要历史天⽓数据和打球活动数据，以下为历史数据集S。

天数天⽓⽓温湿度风⼒是否打球D1晴朗热湿弱否D2晴朗热湿强否D3⼤⾬热湿弱是D4⼩⾬中等湿弱是D5⼩⾬凉爽正常弱是D6⼩⾬凉爽正常强否D7⼤⾬凉爽正常强是D8晴朗中等湿弱否D9晴朗凉爽正常弱是D10⼩⾬中等正常弱是D11晴朗中等正常强是D12⼤⾬中等湿强是D13⼤⾬热正常弱是D14⼩⾬中等湿强否ID3算法ID3算法会选择当前信息增益最⼤的特征作为树中新的节点。

计算过程如下：步骤1假设S为完整的数据集，数据标签（数据类别）共有n个类别，分别为C1，...，Cn。

Si对应Ci类别下数据⼦集，因此，数据集S的信息熵计算如下：\[Entropy(S)=-\sum_{i=1}^{n}p_{i}\log_{2}{p_{i}} \]其中，pi是数据样本为Ci的概率，因此：\[p_i=\frac{|S_i|}{|S|} \]|Si|是类别Ci在数据集S中的数据数量，|S|是数据集S中的数据数量。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第四章决策树
提纲
一、基本流程二、划分选择
三、剪枝处理
四、连续与缺失值
五、多变量决策树
一、基本流程
一、基本流程
一、基本流程
一、基本流程
一、基本流程
二、划分选择
常见的度量样本集合纯度的指标：信息增益、增益率、基尼指数
二、划分选择
若某项Pk=1，则Ent（D）=0
二、划分选择
二、划分选择
五、多变量决策树
五、多变量决策树
五、多变量决策树
五、多变量决策树
二、划分选择
二、划分选择
三、剪枝处理
二、剪枝处理
二、剪枝处理
二、剪枝处理
二、剪枝处理
二、剪枝处理
二、剪枝处理
二、剪枝处理
四、连续与缺失值
二、剪枝处理
四、连续与缺失值
四、连续与缺失值
四、连续续与缺失值
四、连续与缺失值
四、连续与缺失值
4.9试将4.4.2节对缺失值的处理机制推广到基尼指数的计算中去。答：
二、划分选择
二、划分选择
二、划分选择
二、划分选择
二、划分选择
二、划分选择
二、划分选择
在上面的介绍中，我们有意忽略了表4.1 中的“编号”这一列.若把“编号”也作为一个候选划分属性，则根据式件均可计算出它的信息增益为0.998，远大于其他候选划分属性。这很容易理解“编号”将产生17 个分支，每个分支结点仅包含一个样本，这些分支结点的纯度己达最大。然而，这样的决策树显然不具有泛化能力，无法对新样本进行有效预测。（泛化能力：算法对新样本的适应能力）实际上，信息增益准则对可取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，著名的C4.5 决策树算法[Quinlan， 1993J 不直接使用信息增益，而是使用"增益率" (gain ratio) 来选择最优划分属