第6章 决策树分类算法
决策树

Power BI 提供了强大的数据可 视化功能,可以轻松地创建和 共享决策树图表。它支持多种 数据源,并具有高度的自定义 性和交互性。
02
Tableau
Tableau 是一款功能强大的数 据可视化工具,也支持决策树 的可视化。它提供了丰富的图 表类型和可视化选项,以及强 大的数据分析和挖掘功能。
佳的过拟合现象。
提高泛化能力
剪枝后的决策树结构更为简洁,有 助于提高模型在新数据上的泛化能 力。
减少计算资源消耗
简化决策树结构可以降低模型训练 和预测的计算复杂度,节省计算资 源。
预剪枝策略及实现
设定决策树生长的最大深度
01
在决策树生长过程中,限制树的最大深度,防止树生长过于庞
大。
设定叶节点最小样本数
代价复杂性剪枝(Cost-Complexity Pr…
引入一个代价复杂性参数,通过最小化代价复杂性函数来实现剪枝,该函数权衡了模型复杂度与 训练误差。
最小描述长度剪枝(Minimum Descripti…
基于信息论原理,通过最小化描述决策树所需的编码长度来实现剪枝。
剪枝效果评估方法
交叉验证
将数据集划分为训练集和验证集,使用训练集生成不同剪枝程度的 决策树,在验证集上评估其性能,选择性能最优的剪枝程度。
• 交互性和动画:一些工具提供了交互性和动画功能,如鼠标悬停提示、节点点击事件、动态展示决策过程等。 这些功能可以帮助用户更好地理解和探索决策树的结构和逻辑。
• 布局和排列:决策树的可视化还需要考虑布局和排列的问题。不同的布局算法可以产生不同的可视化效果,如 垂直布局、水平布局、径向布局等。选择合适的布局算法可以使决策树的可视化更加清晰和易于理解。
机器学习之分类算法:决策树

机器学习之分类算法:决策树决策树(Decision Tree)是什么东西呢?它是怎么用于分类的呢?它其实很简单,请看下图。
上图就是一颗决策树,椭圆是判断模块(特征属性),从判断模块引出的左右箭头称作分支,它可以到达另一个判断模块或终止模块(类别值)。
上图构造的决策树,根据颜色、价格、大小来判断是否喜欢所选择的礼物。
从上图可以看出决策树的数据形式及分类过程很好理解,不像其他分类算法,比如SVM、K最近邻,无法给出数据的内在形式。
决策树构造决策树用样本的属性作为节点,用属性的取值作为分支的树结构。
决策树方法最早产生于上世纪60年代,到70年代末。
由J RossQuinlan提出了ID3算法,此算法的目的在于减少树的深度。
但是忽略了叶子数目的研究。
C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进,既适合于分类问题,又适合于回归问题。
决策树算法用构造决策树来发现数据中蕴涵的分类规则。
如何构造精度高、规模小的决策树是决策树算法的核心内容。
决策树构造可以分两步进行:第一步,决策树的生成,由训练样本集生成决策树的过程;第二步,决策树的剪技,决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程,主要是用测试数据集校验决策树生成过程中产生的初步规则,将那些影响预衡准确性的分枝剪除。
那么决策树生成过程哪些节点作为根节点,哪些节点作为中间节点呢?中间节点是信息量最大的属性,中间节点是子树所包含样本子集中信息量最大的属性,叶节点是类别值。
ID3算法:(1)计算每个属性的信息增益。
将信息增益最大的点作为根节点。
C4.5算法:ID3算法的改进,用信息增益率来选择属性。
用信息增益来选择属性存在一个问题:假设某个属性存在大量的不同值,如ID编号(在上面例子中加一列为ID,编号为a ~ n),在划分时将每个值成为一个结点。
那么用这个属性划分后的熵会很小,因为每个概率变小了。
决策树算法公式

决策树算法公式
决策树算法公式是机器学习中常用的分类算法,通过构建一个树形结构来实现对数据集的分类。
决策树的主要思路是将数据集分成若干个小部分,每个小部分对应一条分支,直到达到预定的终止条件。
根据数据集的属性特征,决策树算法会选择最优的属性来进行划分,从而得到最优的分类效果。
决策树算法的主要公式包括:
1.信息增益公式:$IG(D, A) = H(D) - H(D|A)$
其中,$H(D)$表示数据集$D$的经验熵,$H(D|A)$表示在属性$A$的条件下,数据集$D$的经验条件熵。
信息增益越大,说明使用属性$A$进行划分能够得到更好的分类效果。
2.基尼系数公式:$Gini(D) =
sum_{k=1}^{|mathcal{Y}|}sum_{k'
eq k}p_kp_{k'} = 1 - sum_{k=1}^{|mathcal{Y}|}p_k^2$ 其中,$|mathcal{Y}|$表示数据集$D$中不同类别的个数,
$p_k$表示数据集$D$中属于第$k$个类别的样本占总样本数的比例。
基尼系数越小,说明使用属性$A$进行划分能够得到更好的分类效果。
通过使用信息增益或基尼系数等公式,决策树算法可以自动选择最优的属性进行划分,从而得到最优的分类效果。
- 1 -。
第6讲 树类模型

树类模型问题引入某连锁餐饮企业手头拥有一批数据,想了解周末和非周末对销量是否有很大区别,以及天气的好坏、是否有促销活动对销量的影响。
单击此处编辑母版标题样式决策树学习算法1熵、信息增益、基尼指数2Bagging与随机森林3Adaboost/GDBT4各种树模型优缺点及应用场景5案例演示6目 录CONTENTS1chapter 决策树学习算法1chapter决策树学习算法概览决策树是一个两阶段过程,包括模型学习阶段(构建分类模型)和分类预测阶段(使用模型预测类标号)。
决策树分类算法属于监督学习(Supervised learning),即样本数据中有类别标号,构建使用递归的方法依次进行。
一阶段(以分类为例):可以看做是根据样本来学习一个映射或函数y=f(x)表达式,能够使用它预测给定元组X的类标号y。
第二阶段:使用第一阶段学习得到的模型进行分类。
首先评估分类器的预测准确率。
这个过程要尽量减少过拟合。
单击此处编辑母版标题样式2chapter 熵、信息增益、基尼指数1chapter 2chapter熵(Entropy)在信息论中,熵是对不确定性(离散程度或混乱程度)的一种度量,用来对信息进行量化。
熵越大,不确定性越大,信息量也就越大。
根据熵的特性,可以通过计算熵值来判断一个事件的随机性及无序程度,也可以用熵值来判断某个指标的离散程度,指标的离散程度越大,该指标对综合评价的影响(权重)越大。
假如样本数据在某指标下取值都相等,则该指标对总体评价的影响为0,即权值为0.单击此处编辑母版标题样式熵权法是一种客观赋权法,因为它仅依赖于数据本身的离散性。
假设在一个集合D中第i类样本所占的比例为pi(i=1,2,3…n),则D的信息熵可表示为:单击此处编辑母版标题样式条件熵(在特定变量发生的条件下指定变量发生与否的熵)现在我们假设将训练数据D 按属性A 进行划分,假设属性A 有v 个可能的取值,则按A 属性进行分裂出的v 个子集(即树中的v 个分支),每个可能取值集合为Dj ,则A 属性的条件熵计算方法为(|Dj|和|D|表示集合中元素的个数):信息增益(不确定性的减少程度)信息熵减去条件熵,表示此条件对于信息熵减少的程度,即可以对信息的判断减少多少不确定性,数值越大,表示某个条件熵对信息熵减少程序越大,也就是说,这个属性对于信息的判断起到的作用越大。
决策树--很详细的算法介绍课件PPT

可诠释性:指模型的解释能力。
9
2021/3/10
二、决策树(Decision Tree)
决策树归纳的基本算法是贪心算法,它以自顶向下 递归各个击破的方式构造决策树。
贪心算法:在每一步选择中都采取在当前状态下最好 /优的选择。
在其生成过程中,分割方法即属性选择度量是关键。 通过属性选择度量,选择出最好的将样本分类的属 性。
IF性别=Female AND家庭所得= 低所得THEN购买RV房车=否 IF性别=Female AND家庭所得= 小康THEN购买RV房车=否 IF性别=Female AND家庭所得= 高所得THEN购买RV房车=是
IF性别=Male AND年龄<35 THEN购买RV房车=否 IF性别=Male AND年龄≧35 THEN购买RV房车=是
决策树(Decision Tree)
1
2021/3/10
一、分类(Classification)
1、分类的意义
数据库
分类模型— 决策树
分类模型— 聚类
预测
了解类别属性 与特征
2
2021/3/10
2、分类的技术
(1)决策树
数据库
3
分类标记
性别
Female
年龄
Male 婚姻
<35
≧35
未婚 已婚
否
评估模型
6
2021/3/10
例:
资料
2.模型评估
1.建立模型 未婚
婚姻
已婚
年龄
家庭
所得
<35 ≧35
训
练样否
是
本
决策树算法算法介绍

决策树算法算法介绍⽬录1.2.3.4.5.⼀、概念决策树(decision tree)是⼀种基本的分类与回归⽅法。
决策树模型呈树形结构,在分类问题中,表⽰基于特征对实例进⾏分类的过程。
它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。
其主要优点是模型具有可读性,分类速度快。
学习时,利⽤训练数据,根据损失函数最⼩化的原则建⽴决策树模型。
预测时,对新的数据,利⽤决策树模型进⾏分类其中每个⾮叶节点表⽰⼀个特征属性上的测试,每个分⽀代表这个特征属性在某个值域上的输出,⽽每个叶节点存放⼀个类别。
使⽤决策树进⾏决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分⽀,直到到达叶⼦节点,将叶⼦节点存放的类别作为决策结果。
总结来说:决策树模型核⼼是下⾯⼏部分:节点和有向边组成节点有内部节点和叶节点俩种类型内部节点表⽰⼀个特征,叶节点表⽰⼀个类下图即为⼀个决策树的⽰意描述,内部节点⽤矩形表⽰,叶⼦节点⽤椭圆表⽰:⼆、决策树的学习过程⼀棵决策树的⽣成过程主要分为以下3个部分:特征选择:特征选择是指从训练数据中众多的特征中选择⼀个特征作为当前节点的分裂标准,如何选择特征有着很多不同量化评估标准标准,从⽽衍⽣出不同的决策树算法。
决策树⽣成:根据选择的特征评估标准,从上⾄下递归地⽣成⼦节点,直到数据集不可分则停⽌决策树停⽌⽣长。
树结构来说,递归结构是最容易理解的⽅式。
剪枝:决策树容易过拟合,⼀般来需要剪枝,缩⼩树结构规模、缓解过拟合。
剪枝技术有预剪枝和后剪枝两种先了解⼀些基本概念(1)决策树节点的不纯度(impurity)不纯度⽤基尼系数(gini)表⽰:其中k代表y值的类别的个数,p k表⽰类别k样本数量占所有样本的⽐例,从该公式可以看出,当数据集中数据混合的程度越⾼,基尼指数也就越⾼。
当数据集只有⼀种数据类型,那么基尼指数的值为最低,纯度越⾼,基尼系数越⼩如果选取的属性为 A,那么分裂后的数据集 D 的基尼指数的计算公式为:其中 k 表⽰样本 D 被分为 k 个部分,数据集 D 分裂成为 k 个 Dj 数据集。
决策树(完整)

无缺失值样本中在属性 上取值 的样本所占比例
ቤተ መጻሕፍቲ ባይዱ
谢谢大家!
举例:求解划分根结点的最优划分属性
根结点的信息熵:
用“色泽”将根结点划分后获得3个分支结点的信息熵分别为:
属性“色泽”的信息增益为:
若把“编号”也作为一个候选划分属性,则属性“编号”的信息增益为:
根结点的信息熵仍为:
用“编号”将根结点划分后获得17个分支结点的信息熵均为:
则“编号”的信息增益为:
三种度量结点“纯度”的指标:信息增益增益率基尼指数
1. 信息增益
香农提出了“信息熵”的概念,解决了对信息的量化度量问题。香农用“信息熵”的概念来描述信源的不确定性。
信息熵
信息增益
一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升”越大。决策树算法第8行选择属性
著名的ID3决策树算法
远大于其他候选属性信息增益准则对可取值数目较多的属性有所偏好
2. 增益率
增益率准则对可取值数目较少的属性有所偏好著名的C4.5决策树算法综合了信息增益准则和信息率准则的特点:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。
3. 基尼指数
基尼值
基尼指数
著名的CART决策树算法
过拟合:学习器学习能力过于强大,把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,导致泛化性能下降。欠拟合:学习器学习能力低下,对训练样本的一般性质尚未学好。
过拟合无法彻底避免,只能做到“缓解”。
不足:基于“贪心”本质禁止某些分支展开,带来了欠拟合的风险
预剪枝使得决策树的很多分支都没有“展开”优点:降低过拟合的风险减少了训练时间开销和测试时间开销
决策树算法——精选推荐

决策树算法算法思想决策树(decision tree)是⼀个树结构(可以是⼆叉树或⾮⼆叉树)。
其每个⾮叶节点表⽰⼀个特征属性上的测试,每个分⽀代表这个特征属性在某个值域上的输出,⽽每个叶节点存放⼀个类别。
使⽤决策树进⾏决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分⽀,直到到达叶⼦节点,将叶⼦节点存放的类别作为决策结果。
总结来说:决策树模型核⼼是下⾯⼏部分:结点和有向边组成结点有内部结点和叶结点俩种类型内部结点表⽰⼀个特征,叶节点表⽰⼀个类⼀、ID3算法“信息熵”是度量样本集合不确定度(纯度)的最常⽤的指标。
在我们的ID3算法中,我们采取信息增益这个量来作为纯度的度量。
我们选取使得信息增益最⼤的特征进⾏分裂!信息熵是代表随机变量的复杂度(不确定度),条件熵代表在某⼀个条件下,随机变量的复杂度(不确定度)。
⽽我们的信息增益恰好是:信息熵-条件熵。
•当前样本集合 D 中第 k 类样本所占的⽐例为 pk ,则 D 的信息熵定义为•离散属性 a 有 V 个可能的取值 {a1,a2,…,aV};样本集合中,属性 a 上取值为 av 的样本集合,记为 Dv。
•⽤属性 a 对样本集 D 进⾏划分所获得的“信息增益”•信息增益表⽰得知属性 a 的信息⽽使得样本集合不确定度减少的程度在决策树算法中,我们的关键就是每次选择⼀个特征,特征有多个,那么到底按照什么标准来选择哪⼀个特征。
这个问题就可以⽤信息增益来度量。
如果选择⼀个特征后,信息增益最⼤(信息不确定性减少的程度最⼤),那么我们就选取这个特征。
选择指标就是在所有的特征中,选择信息增益最⼤的特征。
那么如何计算呢?看下⾯例⼦:正例(好⽠)占 8/17,反例占 9/17 ,根结点的信息熵为计算当前属性集合{⾊泽,根蒂,敲声,纹理,脐部,触感}中每个属性的信息增益⾊泽有3个可能的取值:{青绿,乌⿊,浅⽩}D1(⾊泽=青绿) = {1, 4, 6, 10, 13, 17},正例 3/6,反例 3/6D2(⾊泽=乌⿊) = {2, 3, 7, 8, 9, 15},正例 4/6,反例 2/6D3(⾊泽=浅⽩) = {5, 11, 12, 14, 16},正例 1/5,反例 4/53 个分⽀结点的信息熵那么我们可以知道属性⾊泽的信息增益是:同理,我们可以求出其它属性的信息增益,分别如下:于是我们找到了信息增益最⼤的属性纹理,它的Gain(D,纹理) = 0.381最⼤。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 P(ui ) log2 P(ui ) P(ui ) i
பைடு நூலகம்
信息论的基本概念
3、信源熵H(X) 信源熵是度量整个信源X整体的平均不确定性,也称先验熵。 4、条件熵H(X/Y) 条件熵是一个确定值,表示收信者在收到Y后,信源X仍然存在的不确定度, 也称为后验熵。 5、互信息量 熵差H(X)-H(X/Y)是不确定性的消除,即互信息才是接收端所获得的信息量。
数为si。
对于描述属性Ak(1≤k≤m),它的不同取值个数为v,其值域 为(a1,a2,…,av)。在类别属性C取值为ci(1≤i≤u)的子区域
中,描述属性Ak取aj(1≤j≤v)的元组个数为sij。
定义6.1 对于某个属性B,取值为{b1,b2,…,bk},它将训练 数据集S中所有元组分为k个组,p(bi)为bi出现的概率,p(bi)=si/n,
的不确定性;当有一个p(ci)=1时,此时C(X)最小即为0,呈现最
小的不确定性。
定义6.3 对于描述属性Ak(1≤j≤m),类别属性C的条件熵E(C,Ak)定义为:
sj E (C, Ak ) n j 1
v
i 1
u
sij
sij log2 sj sj
定义6.4 给定描述属性Ak(1≤k≤m),对应类别属性C的信息增益(information gain)定
2019/4/2
6.2.2 建立决策树的ID3算法
1. 信息增益
从信息论角度看,通过描述属性可以减少类别属性的不确定性。
不确定性可以使用熵来描述。
假设训练数据集是关系数据表S,共有n元组和m+1个属性,所 有属性取值为离散值。其中A1、A2、…、Am为描述属性或条件属性, C为类别属性。类别属性C的不同取值个数即类别数为u,其值域为 (c1,c2,…,cu),在S中类别属性C取值为ci(1≤i≤u)的元组个
定义6.2 类别属性C的无条件熵E(C)定义为:
E (C )
i 1
u
p (ci )log2 p(ci )
i 1
u
si s log2 i n n
其中,p(ci)为C=ci(1≤i≤u)的概率。注意,这里对数函数
以2为底,因为信息用二进制位编码,此时熵的单位为位或比特。 也可以以e为底,此时熵的单位为奈特。 实际上,E(C)反映了属性C中各个类别取值的平均自信息量, 即平均不确定性,当所有p(ci)相同时,此时E(C)最大,呈现最大
描述属性 编号 9 11 收入 低 中 信誉 中 优 是 类别属性 购买计算机
此时构造部分决策树如图6.7所示。
(4)求年龄属性取值为“31~40”的子树。此时的子表S2如表 6.8所示,描述属性集合为{收入,学生,信誉},其中全部类别属性 值相同,该分支结束。
描述属性 类别属性 信誉 中 优 优 中 购买计算机
所以,E(购买计算机,年龄)=-[(2/5)×log2(2/5)+(3/5)×log2(3/5)]×(5/14)[(4/4)×log2(4/4)]×(4/14)-[(3/5)×log2(3/5)+(2/5)×log2(2/5)]×(5/14)=0.69。 则:G(购买计算机,年龄)=0.94-0.69=0.25。 同样:E(购买计算机,收入)=-[(3/4)×log2(3/4)+(1/4)×log2(1/4)]×(4/14)[(4/6)×log2(4/6)+(2/6)×log2(2/6)]×(6/14)[(2/4)×log2(2/4)+(2/4)×log2(2/4)]×(4/14)=0.91。 G(购买计算机,收入)=0.94-0.91=0.03。 E(购买计算机,学生)=-[(6/7)×log2(6/7)+(1/7)×log2(1/7)]×(7/14)[(3/7)×log2(3/7)+(4/7)×log2(4/7)]×(7/14)=0.79。 G(购买计算机,学生)=0.94-0.79=0.15。 E(购买计算机,信誉)=-[(6/8)×log2(6/8)+(2/8)×log2(2/8)]×(8/14)[(3/6)×log2(3/6)+(3/6)×log2(3/6)]×(6/14)=0.89。 G(购买计算机,信誉)=0.94-0.89=0.05。
信息论的基本概念
1、信息是用来消除随机不确定性的度量。信息量的大小可由 所消除的不确定性大小来计量。 信息量的数学定义:
I (ui ) log2 1 log2 P(ui ) P(u i )
2、信息熵是信息量的数学期望,是信源发出信息前的平均 不确定性,也称先验熵,信息熵的数学定义为:
Ent(U ) P(ui ) log2
通过比较,求得信息增益最大的描述属性为“年龄”,选取 该描述属性来划分样本数据集S,构造决策树的根结点,如图6.6 所示。
(3)求年龄属性取值为“≤30”的子树。此时的子表S1如表6.5所 示,描述属性集合为{收入,学生,信誉}。
描述属性 编号 1 2 8 9 11 收入 高 高 中 低 中 学生 否 否 否 是 是 信誉 中 优 中 中 优 否 类别属性 购买计算机
组或记录称为测试样本,与训练样本相似,每个测试样本的类别 是已知的。 在评估分类模型的准确率时,首先利用分类模型对测试数据 集中的每个测试样本的类别进行预测,并将已知的类别与分类模 型预测的结果进行比较,然后计算分类模型的准确率。 分类模型正确分类的测试样本数占总测试样本数的百分比称为 该分类模型的准确率。如果分类模型的准确率可以接受,就可以
② 对于数据集S1,求学生属性取值为“否”的子树。此时的 子表S11如表6.6所示,其中全部类别属性值相同,该分支结束。
描述属性 编号 1 2 8 收入 高 高 中 信誉 中 优 中 否 类别属性 购买计算机
③ 对于数据集S1,求学生属性取值为“是”的子树。此时的子 表S12如表6.7所示,其中全部类别属性值相同,该分支结束。
属性集中的一个属性,而叶子结点是分类中的类标签的集合。
一棵决策树
建立一棵决策树,需要解决的问题主要有:
如何选择测试属性:测试属性的选择顺序影响决策树的结构甚至 决策树的准确率。 如何停止划分样本:从根结点测试属性开始,每个内部结点测试 属性都把样本空间划分为若干个子区域,一般当某个子区域的样 本同类或空时,就停止划分样本。有时也通过设置特定条件来停 止划分样本,例如树的深度达到用户指定的深度,结点中样本的 个数少于用户指定的个数等。
利用该分类模型对新样本进行分类。否则,需要重新建立分类模
型。
6.1.3 分类过程的分类阶段
分类阶段的主要任务就是利用分类模型对未知类别的新样本进 行分类。如图6.4所示。
6.2 决策树分类
6.2.1 决策树
一棵决策树由3类结点构成:根结点、内部结点(决策结点)
和叶子结点。其中,根结点和内部结点都对应着要进行分类的
第6章 决策树分类算法
分类过程 决策树分类 SQL Server决策树分类 电子商务数据的决策树分类
6.1 分类过程
6.1.1 分类概述
分类是一种重要的数据挖掘技术。分类的目的是建立分类 模型,并利用分类模型预测未知类别数据对象的所属类别。 分类任务就是通过学习得到一个目标函数 f,把每个数据集x映 射到一个预先定义的类别y,即y=f(x),如图6.1所示。这个目标 函数就是分类模型。
① 选择数据集S3的划分属性。 E(购买计算机)=-(3/5)×log2(3/5)-(2/5)×log2(2/5)=0.97。 E(购买计算机,收入)=-[(1/2)×log2(1/2)+(1/2)×log2(1/2)]×(2/5)[(2/3)×log2(2/3)+(1/3)×log2(1/3)]×(3/5)=0.95。 G(购买计算机,收入)=0.97-0.95=0.02。 E(购买计算机,学生)=-[(2/3)×log2(2/3)+(1/3)×log2(1/3)]×(3/5)[(1/2)×log2(1/2)+(1/2)×log2(1/2)]×(2/5)=0.95。 G(购买计算机,学生)=0.97-0.95=0.02。 E(购买计算机,信誉)=-[(3/3)×log2(3/3)]×(3/5)[(2/2)×log2(2/2)]×(2/5)=0。 G(购买计算机,信誉)=0.97-0=0.97。 通过比较,求得信息增益最大的描述属性为“信誉”,选取该描 述属性来划分样本数据集S3。
以具有不同的值域,当一个属性的值域为连续域时,该属性称为
连续属性,否则称为离散属性;C表示类别属性,C=(c1,c2, …,ck),即训练数据集有k个不同的类别。
在选择合适的分类算法后,通过训练数据集进行训练建立正确 的分类模型,如图6.3所示。
2. 评估分类模型的准确率
利用测试数据集评估分类模型的准确率。测试数据集中的元
年龄为“≤30”的元组数为s1=5,其中类别属性取“是”时共有
s11=2个元组,类别属性取“否”时共有s21=3个元组。 年龄为“31~40”的元组数为s2=4,其中类别属性取“是”时共
有s12=4个元组,类别属性取“否”时共有s22=0个元组。
年龄为“>40”的元组数为s3=5,其中类别属性取“是”时共有 s13=3个元组,类别属性取“否”时共有s23=2个元组。
编号
3 7 12 13
收入 高 低 中 高
学生 否 是 否 是
是
此时构造部分决策树如图6.8所示。
(5)求年龄属性取值为“>40”的子树。此时的子表S3如表6.9 所示,描述属性集合为{收入,学生,信誉}。
描述属性 编号 4 5 10 6 14 收入 中 低 中 低 中 学生 否 是 是 是 否 信誉 中 中 中 优 优 否 是 类别属性 购买计算机
是
① 选择数据集S1的划分属性。 求类别属性的无条件熵: E(购买计算机)=-(2/5)×log2(2/5)-(3/5)×log2(3/5)=0.97。 E(购买计算机,收入)=-[(1/1)×log2(1/1)]×(1/5)-[(1/2)×log2(1/2)+ (1/2)×log2(1/2)]×(2/5)-[(2/2)×log2(2/2)]×(2/5)=0.4。 G(购买计算机,收入)=0.97-0.4=0.57。 E(购买计算机,学生)=-[(2/2)×log2(2/2)]×(2/5)[(3/3)×log2(3/3)]×(3/5)=0。 G(购买计算机,学生)=0.97-0=0.97。 E(购买计算机,信誉)=-[(1/3)×log2(1/3)+(2/3)×log2(2/3)]×(3/5)[(1/2)×log2(1/2)+[(1/2)×log2(1/2)]×(2/5)=0.95。 G(购买计算机,信誉)=0.97-0.95=0.02。 通过比较,求得信息增益最大的描述属性为“学生”。选取该描 述属性来划分样本数据集S1。