第3章_分类与决策树解析

合集下载

第3章_决策树学习

表3-2 目标概念PlayTennis的训练样例
Day Outlook Temperature Humidity
D1
Sunny
Hot
High
D2
Sunny
Hot
High
D3 Overcast
Hot
High
D4
Rainy
Mild
High
D5
Rainy
Cool
Normal
D6
Rainy
Cool
Normal
• S的正反样例数量不等，熵介于0，1之间
• 抛一枚均匀硬币的信息熵是多少？解：出现正面与反面的概率均为0. 5，信息熵是
q
E x p xi log p xi i1
(0.5log 0.5 0.5log 0.5)
1
• 用信息增益度量期望的熵降低
– 属性的信息增益，由于使用这个属性分割样例而导致的期望熵降低
• 返回root
最佳分类属性
• 信息增益(Information Gain)
– 用来衡量给定的属性区分训练样例的能力 – ID3算法在增长树的每一步使用信息增益从候选属性中
选择属性
• 用熵度量样例的均一性
– 给定包含关于某个目标概念的正反样例的样例集S，那么S相对这个布尔型分类的熵为
E n tr o p y (S ) p lo g 2 p plo g 2 p
ID3算法的核心问题是选取在树的每个节点要测试的属性。
表3-1 用于学习布尔函数的ID3算法
• ID3(Examples, Target_attribute, Attributes)
• 创建树的root节点
• 如果Examples都为正,返回label=+的单节点树root

习题3(第三章分类技术)

习题3（第三章分类技术）1. 在决策树归纳中，选项有：(a)将决策树转化为规则，然后对结果规则剪枝，或(b)对决策树剪枝，然后将剪枝后的树转化为规则。

相对于(b)，(a)的优点是什么？解答：如果剪掉子树，我们可以用(b)将全部子树移除掉，但是用方法(a)的话，我们可以将子树的任何前提都移除掉。

方法(a)约束更少。

2. 在决策树归纳中，为什么树剪枝是有用的？使用分离的元组集评估剪枝有什么缺点？解答：决策树的建立可能过度拟合训练数据，这样就会产生过多分支，有些分支就是因为训练数据中的噪声或者离群点造成的。

剪枝通过移除最不可能的分支(通过统计学方法)，来排除这些过度拟合的数据。

这样得到的决策树就会变得更加简单跟可靠，用它来对未知数据分类时也会变得更快、更精确。

使用分离的元组集评估剪枝的缺点是，它可能不能代表那些构建原始决策树的训练元组。

如果分离的元组集不能很好地代表，用它们来评估剪枝树的分类精确度将不是一个很好的指示器。

而且，用分离的元组集来评估剪枝意味着将使用更少的元组来构建和测试树。

3. 画出包含4个布尔属性A,B,C,D 的奇偶函数的决策树。

该树有可能被简化吗？解答：决策树如下，该树不可能被简化。

4. X 是一个具有期望Np 、方差Np(1-p)的二项随机变量，证明X/N 同样具有二项分布且期望为p 方差为p(1-p)/N 。

解答：令r=X/N ，因为Ｘ是二项分布，ｒ同样具有二项分布。

期望，E[r] = E[X/N] = E[X]/N = (Np)/N = p; 方差，E[错误!未找到引用源。

] = E[错误!未找到引用源。

]/错误!未找到引用源。

= Np(1-p)/错误!未找到引用源。

= p(1-p)/N5. 当一个数据对象同时属于多个类时，很难评估分类的准确率。

评述在这种情况下，你将A B C D Class T T T T T T T T F F T T F T F T T F F T T F T T F T F T F T T F F T T T F F F F F T T T F FTTFTF T F T TF T F F FF F T T TF F T F F F F F T F F F F F T使用何种标准比较对相同数据建立的不同分类器。

分类分析--决策树（经典决策树、条件推断树）

分类分析--决策树（经典决策树、条件推断树）分类分析--决策树决策树是数据挖掘领域中的常⽤模型。

其基本思想是对预测变量进⾏⼆元分离，从⽽构造⼀棵可⽤于预测新样本单元所属类别的树。

两类决策树：经典树和条件推断树。

1 经典决策树经典决策树以⼀个⼆元输出变量（对应威斯康星州乳腺癌数据集中的良性/恶性）和⼀组预测变量（对应九个细胞特征）为基础。

具体算法如下：(1) 选定⼀个最佳预测变量将全部样本单元分为两类，实现两类中的纯度最⼤化（即⼀类中良性样本单元尽可能多，另⼀类中恶性样本单元尽可能多）。

如果预测变量连续，则选定⼀个分割点进⾏分类，使得两类纯度最⼤化；如果预测变量为分类变量（本例中未体现），则对各类别进⾏合并再分类。

(2) 对每⼀个⼦类别继续执⾏步骤(1)。

(3) 重复步骤(1)~(2)，直到⼦类别中所含的样本单元数过少，或者没有分类法能将不纯度下降到⼀个给定阈值以下。

最终集中的⼦类别即终端节点（terminal node）。

根据每⼀个终端节点中样本单元的类别数众数来判别这⼀终端节点的所属类别。

(4) 对任⼀样本单元执⾏决策树，得到其终端节点，即可根据步骤3得到模型预测的所属类别。

上述算法通常会得到⼀棵过⼤的树，从⽽出现过拟合现象。

结果就是，对于训练集外单元的分类性能较差。

为解决这⼀问题，可采⽤10折交叉验证法选择预测误差最⼩的树。

这⼀剪枝后的树即可⽤于预测。

R中的rpart包⽀持rpart()函数构造决策树，prune()函数对决策树进⾏剪枝。

下⾯给出判别细胞为良性或恶性的决策树算法实现。

（1）使⽤rpart()函数创建分类决策树：#⽣成树：rpart()函数可⽤于⽣成决策树library(rpart)set.seed(1234)dtree <- rpart(class ~ ., data=df.train, method="class",parms=list(split="information"))#rpart() 返回的cptable值中包括不同⼤⼩的树对应的预测误差，因此可⽤于辅助设定最终的树的⼤⼩。

决策树(完整)

无缺失值样本中在属性上取值的样本所占比例
无缺失值样本中在属性上取值的样本所占比例
ቤተ መጻሕፍቲ ባይዱ
谢谢大家！
举例：求解划分根结点的最优划分属性
根结点的信息熵：
用“色泽”将根结点划分后获得3个分支结点的信息熵分别为：
属性“色泽”的信息增益为：
若把“编号”也作为一个候选划分属性，则属性“编号”的信息增益为：
根结点的信息熵仍为：
用“编号”将根结点划分后获得17个分支结点的信息熵均为：
则“编号”的信息增益为：
三种度量结点“纯度”的指标：信息增益增益率基尼指数
1. 信息增益
香农提出了“信息熵”的概念，解决了对信息的量化度量问题。香农用“信息熵”的概念来描述信源的不确定性。
信息熵
信息增益
一般而言，信息增益越大，则意味着使用属性a来进行划分所获得的“纯度提升”越大。决策树算法第8行选择属性
著名的ID3决策树算法
远大于其他候选属性信息增益准则对可取值数目较多的属性有所偏好
2. 增益率
增益率准则对可取值数目较少的属性有所偏好著名的C4.5决策树算法综合了信息增益准则和信息率准则的特点：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。
3. 基尼指数
基尼值
基尼指数
著名的CART决策树算法
过拟合：学习器学习能力过于强大，把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，导致泛化性能下降。欠拟合：学习器学习能力低下，对训练样本的一般性质尚未学好。
过拟合无法彻底避免，只能做到“缓解”。
不足：基于“贪心”本质禁止某些分支展开，带来了欠拟合的风险
预剪枝使得决策树的很多分支都没有“展开”优点：降低过拟合的风险减少了训练时间开销和测试时间开销

决策树例题分析和解答课件

19
非确定性决策方法
是指决策者对环境情况几乎一无所知，决策者只好根据自己的主观倾向进行决策
1、乐观决策（极大极大决策、大中取大）
决策者持乐观态度，有具有较强的实力，担心失去获利的机会。愿冒大的风险，意图大的回报。决策者凭借冒险精神，在不知道未来各种可能状态发生概率的前提下，将各个方案在各种状态下可能取得的最大收益值作为该方案的收益值，然后，再从各方案收益值中找出最大收益值的方案。
350
220
250
需求量较低 -150 -350
50
90
需求量很低 -350
-700 -100
-50
21
损益值方案甲乙丙丁
状态需求量需求量需求量较需求量 max
较高一般
低
很低
600 400 800 350 350 220 400 250
-150 -350 50 90
-350 600 -700 800 -100 350 -50 400
600×0.7+(--350 ×0.3)=315
28
决策准则小结
不同决策者甚至同一决策者在不同决策环境下对同一个问题的决策可能截然不同，并没有所谓的“正确答案”。决策准则的选取主要取决于决策者对于决策的性格和态度，以及制定决策时的环境
所有的准则都不能保证所选择的方案在实际情况发生时会成为最佳方案
2
决策方案评价
作物类别
玉米棉花花生合计资源供给量资源余缺量
占用耕忙季耗用灌水用量地面积工日数（立方米）（公顷）
20
1200
45000
5.333
560
12000
8

分类决策树的基本原理

分类决策树的基本原理分类决策树是一种常用的机器学习算法，用于解决分类问题。

它的基本原理是通过对数据集进行分割，将数据划分为不同的类别。

这种分割过程是基于一系列特征和阈值来进行的，最终形成一个树状结构，每个节点代表一个特征及其阈值，每个叶子节点代表一个分类结果。

决策树的构建是一个递归的过程。

首先，从根节点开始，选择一个最佳的特征和阈值来进行数据集的分割。

选择最佳特征的方法有很多种，例如信息增益、基尼指数等。

信息增益是衡量特征对分类结果的贡献程度的指标，基尼指数是衡量数据集纯度的指标。

选取最佳特征后，将数据集分为不同的子集，每个子集对应该特征的不同取值。

接下来，对每个子集递归地进行上述过程，直到满足停止条件，例如达到最大深度或数据集纯度达到要求等。

决策树的构建过程中，需要解决的一个重要问题是如何选择最佳特征和阈值。

这需要根据具体的分类问题和数据集的特点进行选择。

在选择特征时，可以使用启发式算法，例如贪心算法，它通过选择当前最佳的特征来进行分割。

对于阈值的选择，一般可以使用二分法或者其他优化算法来确定。

决策树的构建完成后，可以通过对新样本的特征进行判断来进行分类。

从根节点开始，根据样本的特征值和节点的阈值进行判断，进而遍历树的节点，直到达到叶子节点，得到分类结果。

决策树具有很多优点。

首先，决策树易于理解和解释，可以生成直观的规则。

其次，决策树可以处理多类别问题，并且可以处理连续和离散的特征。

此外，决策树可以处理缺失数据，不需要对数据进行预处理。

最后，决策树算法的时间复杂度较低，适合处理大规模的数据集。

然而，决策树也存在一些缺点。

首先，决策树容易出现过拟合问题，特别是当树的深度较大时。

过拟合会导致决策树对训练样本的分类效果很好，但对未知样本的分类效果较差。

为了解决过拟合问题，可以使用剪枝等方法。

其次，决策树对于一些复杂的问题，可能无法找到最优解。

此外，决策树对于数据集中噪声和异常值较为敏感，容易受到干扰。

分类决策树decisiontreeclassifier详解介绍

分类决策树DecisionTreeClassifier详解介绍分类决策树（Decision Tree Classifier）是机器学习中一种常见且易于理解的分类算法。

它通过树状结构来表示实例可能的分类过程，每个内部节点表示一个属性上的判断条件，每个分支代表一个可能的属性值，每个叶节点代表一个分类结果。

下面将详细介绍分类决策树的基本概念、构建过程、优缺点以及实际应用。

一、基本概念1. 决策树：决策树是一种树形结构，其中每个内部节点表示在一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。

2. 根节点：决策树的顶部节点，包含对整个数据集的第一次划分。

3. 内部节点：决策树中的节点，它根据某个属性的值将数据集划分成子集，并且还有子节点。

4. 叶节点：决策树中没有子节点的节点，它表示一个类别或者决策结果。

5. 剪枝：为了防止过拟合，通过去掉决策树的一些分支来简化模型的过程。

二、构建过程分类决策树的构建通常包括以下步骤：1. 特征选择：选择合适的特征进行数据集的划分。

常见的特征选择算法有信息增益、增益率、基尼指数等。

2. 决策树生成：根据选择的特征评估标准，递归地生成决策树。

从根节点开始，对数据集进行划分，生成子节点。

重复此过程，直到满足停止条件（如达到最大深度、节点中样本数小于预设值等）。

3. 决策树剪枝：通过去掉决策树的一些分支来简化模型，防止过拟合。

剪枝策略包括预剪枝和后剪枝。

三、优缺点1. 优点：- 易于理解和解释：决策树的结构直观，易于理解和解释，适合非专业人士使用。

- 对数据预处理要求较低：决策树算法能够处理数值型和离散型数据，不需要过多的数据预处理。

- 能够处理非线性关系：决策树能够自动捕捉特征与目标变量之间的非线性关系。

- 对异常值和缺失值不敏感：决策树算法在一定程度上对异常值和缺失值具有鲁棒性。

2. 缺点：- 容易过拟合：决策树在生成过程中可能会过于复杂，导致过拟合现象。

决策树分类算法

决策树分类算法⼀、决策树原理决策树是⽤样本的属性作为结点，⽤属性的取值作为分⽀的树结构。

决策树的根结点是所有样本中信息量最⼤的属性。

树的中间结点是该结点为根的⼦树所包含的样本⼦集中信息量最⼤的属性。

决策树的叶结点是样本的类别值。

决策树是⼀种知识表⽰形式，它是对所有样本数据的⾼度概括决策树能准确地识别所有样本的类别，也能有效地识别新样本的类别。

决策树算法ID3的基本思想：⾸先找出最有判别⼒的属性，把样例分成多个⼦集，每个⼦集⼜选择最有判别⼒的属性进⾏划分，⼀直进⾏到所有⼦集仅包含同⼀类型的数据为⽌。

最后得到⼀棵决策树。

J.R.Quinlan的⼯作主要是引进了信息论中的信息增益，他将其称为信息增益（information gain），作为属性判别能⼒的度量，设计了构造决策树的递归算法。

举例⼦⽐较容易理解：对于⽓候分类问题，属性为:天⽓(A1) 取值为：晴，多云，⾬⽓温(A2) 取值为：冷，适中，热湿度(A3) 取值为：⾼，正常风 (A4) 取值为：有风，⽆风每个样例属于不同的类别，此例仅有两个类别，分别为P，N。

P类和N类的样例分别称为正例和反例。

将⼀些已知的正例和反例放在⼀起便得到训练集。

由ID3算法得出⼀棵正确分类训练集中每个样例的决策树，见下图。

决策树叶⼦为类别名，即P 或者N。

其它结点由样例的属性组成，每个属性的不同取值对应⼀分枝。

若要对⼀样例分类，从树根开始进⾏测试，按属性的取值分枝向下进⼊下层结点，对该结点进⾏测试，过程⼀直进⾏到叶结点，样例被判为属于该叶结点所标记的类别。

现⽤图来判⼀个具体例⼦，某天早晨⽓候描述为:天⽓：多云⽓温：冷湿度：正常风：⽆风它属于哪类⽓候呢?-------------从图中可判别该样例的类别为P类。

ID3就是要从表的训练集构造图这样的决策树。

实际上，能正确分类训练集的决策树不⽌⼀棵。

Quinlan的ID3算法能得出结点最少的决策树。

ID3算法：⒈对当前例⼦集合，计算各属性的信息增益；⒉选择信息增益最⼤的属性A k；⒊把在A k处取值相同的例⼦归于同⼀⼦集，A k取⼏个值就得⼏个⼦集；⒋对既含正例⼜含反例的⼦集，递归调⽤建树算法；⒌若⼦集仅含正例或反例，对应分枝标上P或N，返回调⽤处。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

3.1 决策树概述
决策树(Decision

Tree) 一种描述概念空间的有效的归纳推理办法。基于决策树的学习方法可以进行不相关的多概念学习，具有简单快捷的优势，已经在各个领域取得广泛应用。决策树是一种树型结构，其中每个内部结点表示在一个属性上的测试，每个分支代表一个测试输出，每个叶结点代表一种类别。
YEARS TENURED 3 7 2 7 6 3 no yes yes yes no no
分类规则
IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’
第二步——用模型进行分类
分类规则
测试集
未知数据 (Jeff, Professor, 4)
第一步——建立模型
分类算法训练数据集
NAME RANK M ike M ary B ill Jim D ave Anne A ssistan t P ro f A ssistan t P ro f P ro fesso r A sso ciate P ro f A ssistan t P ro f A sso ciate P ro f

决策树学习采用的是自顶向下的递归方法。决策树的每一层节点依照某一属性值向下分为子节点，待分类的实例在每一节点处与该节点相关的属性值进行比较，根据不同的比较结果向相应的子节点扩展，这一过程在到达决策树的叶节点时结束，此时得到结论。从根节点到叶节点的每一条路经都对应着一条合理的规则，规则间各个部分（各个层的条件）的关系是合取关系。整个决策树就对应着一组析取的规则。决策树学习算法的最大优点是，它可以自学习。在学习的过程中，不需要使用者了解过多背景知识，只需要对训练例子进行较好的标注，就能够进行学习。如果在应用中发现不符合规则的实例，程序会询问用户该实例的正确分类，从而生成新的分枝和叶子，并添加到树中。
第3章
分类与预测
主要内容
分类与决策树概述
ID3、C4.5与C5.0
CART
分类 VS. 预测

分类和预测是两种数据分析形式，用于提取描述重要数据类或预测未来的数据趋势的模型分类：预测类对象的分类标号（或离散值）根据训练数据集和类标号属性，构建模型来分类现有数据，并用来分类新数据预测：建立连续函数值模型比如预测空缺值，或者预测顾客在计算机设备上的花费典型应用欺诈检测、市场定位、性能预测、医疗诊断分类是一种应用非常广泛的数据挖掘技术分类与预测的区别：当估计的属性值是离散值时，这就是分类；当估计的属性值是连续值时，这就是预测。
用方法是回归分析
数据分类——一个两步过描述预先定义的数据类或概念集的分类器
分类算法通过分析或从训练集“学习”来构造分类器。
训练集由数据库元组（用n维属性向量表示）和他们相对
应的类编号组成；假定每个元组属于一个预定义的类
训练元组：训练数据集中的单个元组
NAME Tom M erlisa G eorge Joseph
RANK Y E A R S TE N U R E D A ssistant P rof 2 no A ssociate P rof 7 no P rofessor 5 yes A ssistant P rof 7 yes
Tenured?
监督学习 VS. 无监督学习
监督学习（用于分类）
模型的学习在被告知每个训练样本属于哪个类的
“指导”下进行新数据使用训练数据集中得到的规则进行分类
无监督学习（用于聚类）
每个训练样本的类编号是未知的，要学习的类集
合或数量也可能是事先未知的通过一系列的度量、观察来建立数据中的类编号或进行聚类
数据预测的两步过程

数据预测也是一个两步的过程，类似于前面描述的数据分类对于预测，没有“类标号属性” 要预测的属性是连续值，而不是离散值，该属性可简称 “预测属性” E.g. 银行贷款员需要预测贷给某个顾客多少钱是安全的预测器可以看作一个映射或函数y=f(X) 其中X是输入；y是输出，是一个连续或有序的值与分类类似，准确率的预测，也要使用单独的测试集
分类和预测---示例
分类
银行贷款员需要分析数据，来弄清哪些贷款申请
者是安全的，哪些是有风险的（将贷款申请者分为“安全”和“有风险”两类）
我们需要构造一个分类器来预测类属编号，比如预测
顾客属类
预测
银行贷款员需要预测贷给某个顾客多少钱是安全
的
构造一个预测器，预测一个连续值函数或有序值，常
学习模型可以用分类规则、决策树或数学公式的形式提
供
数据分类——一个两步过程 (2)

第二步，使用模型，对将来的或未知的对象进行分类
首先评估模型的预测准确率对每个测试样本，将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集，否则会出现“过分拟合”的情况

决策树学习是以实例为基础的归纳学习。从一类无序、无规则的事物（概念）中推理出决策树表示的分类规则。概念分类学习算法：来源于 Hunt,Marin和Stone 于1966年研制的CLS学习系统，用于学习单个概念。 1979年, J.R. Quinlan 给出ID3算法，并在1983年和1986年对 ID3 进行了总结和简化，使其成为决策树学习算法的典型。 Schlimmer 和Fisher 于1986年对ID3进行改造，在每个可能的决策树节点创建缓冲区，使决策树可以递增式生成，得到ID4算法。 1988年，Utgoff 在ID4基础上提出了ID5学习算法，进一步提高了效率。 1993年，Quinlan 进一步发展了ID3算法，改进成C4.5算法。另一类决策树算法为CART，与C4.5不同的是，CART的决策树由二元逻辑问题生成，每个树节点只有两个分枝，分别包括学习实例的正例与反例。其基本思想是以信息熵为度量构造一棵熵值下降最快的树，到叶子节点处的熵值为零，此时每个叶节点中的实例都属于同一类。