第四章:决策树学习报告
人工智能课程设计决策树

课程设计决策树一、教学目标本课程的教学目标是让学生掌握决策树的基本概念、原理和应用方法。
通过本课程的学习,学生应能理解决策树的特点和优势,掌握决策树的构建方法和算法,并能运用决策树解决实际问题。
具体来说,知识目标包括:1.了解决策树的基本概念和原理;2.掌握决策树的分类和回归方法;3.理解决策树的优势和局限性。
技能目标包括:1.能够使用决策树算法进行数据分类和预测;2.能够运用决策树解决实际问题,如分类问题和回归问题;3.能够对决策树进行评估和优化。
情感态度价值观目标包括:1.培养对和机器学习的兴趣和好奇心;2.培养对数据的敏感性和数据分析的能力;3.培养解决问题的思维方式和团队合作的能力。
二、教学内容本课程的教学内容主要包括决策树的基本概念、原理和应用方法。
具体来说,教学大纲如下:1.决策树的基本概念:介绍决策树的概念、结构和决策过程;2.决策树的原理:讲解决策树的分类和回归方法,包括决策树的构建、剪枝和优化;3.决策树的应用:介绍决策树在实际问题中的应用,如分类问题、回归问题和异常检测等。
教材的章节安排如下:1.第四章:决策树的基本概念和原理;2.第五章:决策树的分类和回归方法;3.第六章:决策树的应用方法和实例。
三、教学方法本课程的教学方法采用讲授法、案例分析法和实验法相结合的方式。
具体来说:1.讲授法:通过讲解和演示决策树的基本概念、原理和应用方法,让学生掌握决策树的基础知识;2.案例分析法:通过分析实际案例,让学生了解决策树在实际问题中的应用和效果;3.实验法:通过实验和实践,让学生动手构建和优化决策树模型,培养解决问题的能力。
四、教学资源本课程的教学资源包括教材、参考书、多媒体资料和实验设备。
具体来说:1.教材:选用《导论》作为主教材,辅助以《机器学习》等参考书籍;2.参考书:提供相关的学术论文和案例分析,供学生深入研究和参考;3.多媒体资料:提供决策树的动画演示和实验操作视频,帮助学生更好地理解和掌握知识;4.实验设备:提供计算机和相应的软件工具,让学生进行实验和实践。
第四章决策

确定型决策问题指决策者确切地知道不可控的环境因素 的未来表现,即只有一种自然状态,每个方案对应一个特定 的结果。
单纯选优:根据决策要求,从结果明确的方案中选择合适的方案。 通常运用的方法为: 线性规划 盈亏平衡分析
第三节 决策的方法
二、决策的“硬”方法
1。确定型决策方法
(1)线性规划法
第三节 决策的方法
一、决策的“软”方法
1。头脑风暴法(Brain Storming )
1957年由英国心理学家奥斯本(A.F.Osborn) 首创。 通常的做法是将对解决某一问题有兴趣的人集合在一起,在完全 不受约束的条件下,敞开思路,畅所欲言。 四项原则: 不批评别人的意见,且在别人未讲完之前不以任何方式评论它们。 允许“免费搭车”,欢迎对别人的意见加以改进,提出新奇的建 议。 思路越新越好,越宽越好。 对建议数量的重视高于对质量的重视。
状态、方案、后果 三者的对应关系
第二节 有效决策的过程
二、决策的合理性
问题清楚 目标单一 明确 备选方案 及后果已知 偏好明确且 稳定 能获得 有关标准 和方案的 全部信息 最终选择 使经济利 益最大化
完全合理的决策
第二节 有效决策的过程
三、决策的原则
信息准全原则 可行性原则 选优原则 系统原则 利用“外脑”原则
选优原则是指最优方案必须是按一定 价值准则对诸多备选方案进行对比选优产 生的。
第二节 有效决策的过程
三、决策的原则
信息准全原则 可行性原则 选优原则 系统原则 利用“外脑”原则
系统原则是指用系统分析的理论和方 法进行决策.
第二节 有效决策的过程
三、决策的原则
信息准全原则 可行性原则 选优原则 系统原则 利用“外脑”原则
决策树分类实习报告

实习报告:决策树分类实验一、实习背景随着人工智能和机器学习的不断发展,越来越多的任务需要使用机器学习算法进行数据分析和处理。
决策树作为一种常见的机器学习算法,在分类和回归任务中有着广泛的应用。
本次实习,我选择了决策树分类任务,并使用Python的sklearn库进行实验。
二、实习目的1. 熟悉决策树算法的基本原理和实现方式;2. 掌握决策树模型的训练、评估和改进方法;3. 应用决策树算法解决实际问题,提高对机器学习算法的理解和应用能力。
三、实习内容1. 数据集选取与预处理:本次实验选用OpenML的汽车数据集,包含214个样本,11个特征。
首先,对数据集进行加载和探索性分析,了解数据的分布和特点。
然后,进行数据预处理,包括缺失值填充、异常值处理和特征选择等。
2. 模型训练与评估:使用决策树分类器对预处理后的数据集进行训练。
通过调整模型参数,如最大深度、分裂准则等,评估不同模型在测试集上的性能。
评估指标包括准确率、召回率、F1分数等。
3. 改进模型:为了提高模型性能,采用GridSearchCV方法寻找最佳的超参数组合。
同时,针对过拟合问题,限制树的最大深度,并调整类别权重以应对数据集的不平衡。
4. 结果展示:最后,在使用最佳参数的决策树模型上,对测试集进行预测,并使用混淆矩阵、准确率评分和分类报告形式展示模型结果。
四、实习心得1. 决策树算法易于理解和实现,但模型性能受到参数设置的影响较大。
因此,在实际应用中,需要对参数进行调整和优化。
2. GridSearchCV方法是一种有效的参数调整工具,可以较大程度地提高模型性能。
3. 过拟合问题是决策树算法常见的问题之一。
通过限制树的最大深度、调整类别权重等方法,可以有效减轻过拟合现象,提高模型在实际任务中的表现。
4. 本次实习使我更深入地了解了决策树算法,提高了我在实际项目中应用机器学习算法的能力。
五、实习展望1. 进一步学习其他机器学习算法,如支持向量机、随机森林等,提高模型的泛化能力。
实验三决策树算法实验实验报告

实验三决策树算法实验实验报告一、引言决策树算法是一种常用的机器学习算法,它通过构建一个决策树模型来解决分类和回归问题。
在本次实验中,我们将使用决策树算法对一个分类问题进行建模,评估算法的性能,并对实验结果进行分析和总结。
二、实验目的1.学习理解决策树算法的基本原理和建模过程。
2. 掌握使用Python编程实现决策树算法。
3.分析决策树算法在不同数据集上的性能表现。
三、实验过程1.数据集介绍2.决策树算法实现我们使用Python编程语言实现了决策树算法。
首先,我们将数据集随机分为训练集和测试集,其中训练集占70%,测试集占30%。
然后,我们使用训练集来构建决策树模型。
在构建决策树时,我们采用了ID3算法,该算法根据信息增益来选择最优的特征进行分割。
最后,我们使用测试集来评估决策树模型的性能,计算并输出准确率和召回率。
3.实验结果与分析我们对实验结果进行了统计和分析。
在本次实验中,决策树算法在测试集上的准确率为0.95,召回率为0.94、这表明决策树模型对于鸢尾花分类问题具有很好的性能。
通过分析决策树模型,我们发现花瓣长度是最重要的特征,它能够很好地区分不同种类的鸢尾花。
四、实验总结通过本次实验,我们学习了决策树算法的基本原理和建模过程,并使用Python实现了决策树算法。
通过实验结果分析,我们发现决策树算法在鸢尾花分类问题上具有很好的性能。
然而,决策树算法也存在一些不足之处,例如容易过拟合和对数据的敏感性较强等。
在实际应用中,可以使用集成学习方法如随机森林来改进决策树算法的性能。
实验报告 决策树

4 0.01000000
3 0.03909774 0.09182077 0.03029535
Variable importance
Petal.Width Petal.Length Sepal.Length Sepal.Width
32
32
22
14
Node number 1: 114 observations, complexity param=0.75 mean=2, MSE=0.6666667 left son=2 (38 obs) right son=3 (76 obs) Primary splits: Petal.Length < 2.6 to the left, improve=0.7500000, (0 missing) Petal.Width < 0.8 to the left, improve=0.7500000, (0 missing) Sepal.Length < 5.55 to the left, improve=0.5917874, (0 missing) Sepal.Width < 3.35 to the right, improve=0.2148810, (0 missing) Surrogate splits: Petal.Width < 0.8 to the left, agree=1.000, adj=1.000, (0
1 1 1 1 1 ...
> summary(iris)
Sepal.Length
Sepal.Width
Petal.Length
Petal.Width
批注 [U1]: 清除 workplace 中所有变量 批注 [U2]: 清除内存垃圾
《运筹学》第四章决策分析介绍

P(S2)=0.4时
一般: 般:
E(A1 )=α×500+(1500+(1 α)(-200)=700 )( 200)=700α-200 200 E(A2) )=α×( (-150)+(1150)+(1 α)(1000) )(1000)=-1150 1150α+1000 令E1 =E2 得α=0.65
决策步骤
30
(三)、折衷准则 选择加权系数α(0 α1) max{α(maxVij )+(1-α)(minVij )}
i j j
α=0.6
S1
S2
S3 Vi1 =max Vi2 =min 加权平均
A1 20 A2 9 A3 6
1 8 5
-6 0 4
20 9 6
-6 0 4
9.6 5.4 max=9.6
15
决策分析的主要内容
决策准则 决策树 用决策树分析系列决策问 用决策树分析系列决策问题 检查是否需要获得更多的信息 贝叶斯法 用更新的信息更好地决策 贝叶斯法——用更新的信息更好地决策 效用理论 用效用更好地反映收益的价值 效用理论——用效用更好地反映收益的价值
16
概率论基础
随机事件(实验,试验 实验 试验)
称α=0.65为转折概率 α>0.65 α<0.65 选 A1 选 A2
42
直接使用先验概率 决策步骤 –对于每一种备选方案,将每一个收益乘以 相应自然状态的先验概率,再把乘积相加 就得到收 的加权 均 这就是备选方案 就得到收益的加权平均,这就是备选方案 的期望收益 –选择具有最大期望收益的备选方案作为决 选择具有最大期 收益的备选方案作为决 策方案
34
决策树 实验报告
实验(实习)名称决策树分析一.实验要求:(1)学习决策树分类学习方法,学习其中C4.5学习算法,了解其他ADtree、Id3等其它分类学习方法。
(2)应用Weka软件,学会导入数据文件,并对数据文件进行预处理。
(3)学会如何选择学习函数并调节学习训练参数以达到最佳学习效果。
(4)学习并应用其他决策树学习算法,可以进行各种算法对照比较。
二.实验操作(1)在开始程序(或者桌面图标)中找到WEKA3.6.2,单击即可启动WEKA,启动WEKA 时会发现首先出现的一个命令提示符。
接着将出现如下Weka GUI Chooser界面。
(2)选择GUI Chooser中的探索者(Explorer)用户界面。
点击预处理(Preprocess)功能按钮的,Open file,选择其中的“weather”数据作关联规则的分析。
打开“weather.arff”,可以看到“Current relation”、“Attributes”“Selected attribute”三个区域。
(3)点击“Classify”选项卡。
单击左上方的Choose按钮,在随后打开的层级式菜单中的tree部分找到J48。
(4)选中J48分类器后,J48以及它的相关默认参数值出现在Choose按钮旁边的条形框中。
单击这个条形框会打开J48分类器的对象编辑器,编辑器会显示J48的各个参数的含义。
根据实际情况选择适当的参数,探索者通常会合理地设定这些参数的默认值。
三.实验结果:计算正确率可得:(74+132)/(74+30+64+132)=0.69四.实验小结:通过本次试验,我学习了决策树分类方法,以及其中C4.5算法,并了解了其他ADtree、Id3等其它分类方法,应用Weka软件,学会导入数据文件,并对数据文件进行预处理,今后还需努力。
决策树实验报告
决策树实验报告决策树实验报告引言决策树是一种常见的机器学习算法,被广泛应用于数据挖掘和预测分析等领域。
本文将介绍决策树的基本原理、实验过程和结果分析,以及对决策树算法的优化和应用的思考。
一、决策树的基本原理决策树是一种基于树形结构的分类模型,通过一系列的判断和决策来对数据进行分类。
决策树的构建过程中,首先选择一个特征作为根节点,然后根据该特征的取值将数据划分为不同的子集,接着对每个子集递归地构建子树,直到满足停止条件。
构建完成后,通过树的分支路径即可对新的数据进行分类。
二、实验过程1. 数据准备为了验证决策树算法的效果,我们选择了一个包含多个特征的数据集。
数据集中包含了学生的性别、年龄、成绩等特征,以及是否通过考试的标签。
我们将数据集分为训练集和测试集,其中训练集用于构建决策树模型,测试集用于评估模型的准确性。
2. 决策树构建在实验中,我们使用了Python编程语言中的scikit-learn库来构建决策树模型。
首先,我们导入所需的库和数据集,并对数据进行预处理,包括缺失值处理、特征选择等。
然后,我们使用训练集来构建决策树模型,设置合适的参数,如最大深度、最小样本数等。
最后,我们使用测试集对模型进行评估,并计算准确率、召回率等指标。
3. 结果分析通过实验,我们得到了决策树模型在测试集上的准确率为80%。
这意味着模型能够正确分类80%的测试样本。
此外,我们还计算了模型的召回率和F1值等指标,用于评估模型的性能。
通过对结果的分析,我们可以发现模型在某些特征上表现较好,而在其他特征上表现较差。
这可能是由于数据集中某些特征对于分类结果的影响较大,而其他特征的影响较小。
三、决策树算法的优化和应用1. 算法优化决策树算法在实际应用中存在一些问题,如容易过拟合、对噪声敏感等。
为了提高模型的性能,可以采取以下措施进行优化。
首先,可以通过剪枝操作减少决策树的复杂度,防止过拟合。
其次,可以使用集成学习方法,如随机森林和梯度提升树,来进一步提高模型的准确性和鲁棒性。
实验二决策树实验实验报告
实验二决策树实验实验报告
一、实验目的
本实验旨在通过实际操作,加深对决策树算法的理解,并掌握
决策树的基本原理、构建过程以及应用场景。
二、实验原理
决策树是一种常用的机器学习算法,主要用于分类和回归问题。
其基本原理是将问题划分为不同的决策节点和叶节点,通过一系列
的特征测试来进行决策。
决策树的构建过程包括特征选择、划分准
则和剪枝等步骤。
三、实验步骤
1. 数据收集:从开放数据集或自有数据中选择一个适当的数据集,用于构建决策树模型。
2. 数据预处理:对收集到的数据进行缺失值处理、异常值处理
以及特征选择等预处理操作,以提高模型的准确性和可靠性。
3. 特征选择:采用合适的特征选择算法,从所有特征中选择对
分类或回归任务最重要的特征。
4. 构建决策树模型:根据选定的特征选择算法,以及划分准则(如信息增益或基尼系数)进行决策树模型的构建。
5. 模型评估:使用交叉验证等方法对构建的决策树模型进行评估,包括准确率、召回率、F1-score等指标。
6. 模型调优:根据评估结果,对决策树模型进行调优,如调整模型参数、采用剪枝技术等方法。
7. 模型应用:将得到的最优决策树模型应用于实际问题中,进行预测和决策。
四、实验结果及分析
在本次实验中,我们选择了某电商网站的用户购买记录作为数据集,利用决策树算法构建用户购买意愿的预测模型。
经过数据预处理和特征选择,选取了用户地理位置、年龄、性别和购买历史等特征作为输入。
利用信息增益作为划分准则,构建了一棵决策树模型。
实验二-决策树实验-实验报告
决策树实验一、实验原理决策树是一个类似于流程图的树结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输入,而每个树叶结点代表类或类分布。
数的最顶层结点是根结点。
一棵典型的决策树如图1所示。
它表示概念buys_computer,它预测顾客是否可能购买计算机。
内部结点用矩形表示,而树叶结点用椭圆表示。
为了对未知的样本分类,样本的属性值在决策树上测试。
决策树从根到叶结点的一条路径就对应着一条合取规则,因此决策树容易转化成分类规则。
图1ID3算法:■决策树中每一个非叶结点对应着一个非类别属性,树枝代表这个属性的值。
一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性值。
■每一个非叶结点都将与属性中具有最大信息量的非类别属性相关联。
■采用信息增益来选择能够最好地将样本分类的属性。
信息增益基于信息论中熵的概念。
ID3总是选择具有最高信息增益(或最大熵压缩)的属性作为当前结点的测试属性。
该属性使得对结果划分中的样本分类所需的信息量最小,并反映划分的最小随机性或“不纯性”。
二、算法伪代码算法Decision_Tree(data,AttributeName)输入由离散值属性描述的训练样本集data;候选属性集合AttributeName。
输出一棵决策树。
(1)创建节点N;(2)If samples 都在同一类C中then(3)返回N作为叶节点,以类C标记;(4)If attribute_list为空then(5)返回N作为叶节点,以samples 中最普遍的类标记;//多数表决(6)选择attribute_list 中具有最高信息增益的属性test_attribute;(7)以test_attribute 标记节点N;(8)For each test_attribute 的已知值v //划分samples(9)由节点N分出一个对应test_attribute=v的分支;(10令S v为samples中test_attribute=v 的样本集合;//一个划分块(11)If S v为空then(12)加上一个叶节点,以samples中最普遍的类标记;(13)Else 加入一个由Decision_Tree(Sv,attribute_list-test_attribute)返回节点值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
好瓜
稍蜷
根蒂=?
蜷缩 硬挺
坏瓜
色泽=?
青绿 乌黑 浅白
坏瓜
坏瓜
好瓜
好瓜
好瓜
4.3.2(1)
后剪枝决策树通常比预剪枝决策树保留了 更多的分支,一般情况下,后剪枝决策树的 欠拟合风险很小,泛化性能往往优于预剪 枝决策树.但后剪枝过程是在生成完全决 策树之后进行的,并且要自底向上地对树 中的所有非叶结点进行逐一考察.因此其 训练时间开销比未剪枝决策树和预剪枝决 策树都要大得多.
D1={1,4,6,10,13,17} p1 3 6 p2 3 6 p1 4 6 p2 2 6 D2={2,3,7,8,9,15} p1 1 5 D3={5,11,12,14,16} p2 4 5 所以 Ent ( D ) ( 3 log 3 3 log 3 ) 1.000 6 6 6 6
v
4.2(4)信息增益
属性a对样本集D进行划分所获得的“信息增益” (information gain)
V
Gain( D, a) Ent ( D)
v 1
D
v
D
Ent ( D )
v
⑵
信息增益越大,则意味着使用属性a来进行划 分所获得的“纯度提升”越大。因此,可用信 息增益来进行决策树的划分属性选择。
稍糊
清晰 模糊 稍糊
凹陷
稍凹 平坦 稍凹
硬滑
软粘 硬滑 硬滑
否
否 否 否
4.2(5)信息增益
以上表为例,该数据集包含17个训练样例, 用以学习一颗能预测没剖开的瓜是不是好 瓜的决策树.显然 y 2 .在决策树开始学 习时,根结点包含D中的所有样例,其中正 9 8 p 例占 p1 ,反例占 2 17 .根据(1)式可算 17 出根结点的信息熵为:
浊响
浊响 浊响 浊响 沉闷 清脆 清脆 浊响 浊响
清晰
清晰 稍糊 清晰 稍糊 清晰 模糊 模糊 稍糊
凹陷
稍凹 稍凹 稍凹 稍凹 平坦 平坦 平坦 凹陷
硬滑
软粘 软粘 硬滑 硬滑 软粘 硬滑 软粘 硬滑
是
是 是 是 否 否 否 否 否
14
15 16 17
浅白
乌黑 浅白 青绿
稍蜷
稍蜷 蜷缩 蜷缩
沉闷
浊响 浊响 沉闷
4.3.1(2)
预剪枝使得决策树的很多分支都没有“展 开”,这不仅降低了过拟合的风险,还显著 减少了决策树的训练时间开销和预测试时 间开销.另一方面,有些分支的当前划分虽 不能提升泛化性能、甚至可能导致泛化性 能暂时下降,但在其基础上进行的后续划 分却有可能导致性能显著提高. 预剪枝基于“贪心”本质禁止这些分支展 开,给预剪枝决策树带来了欠拟合的风险.
4.2(10)
决策树:
清晰
纹理
稍糊
硬挺 模糊
蜷缩
根蒂=?
稍蜷
触感=?
软粘 硬滑
坏瓜
好瓜
青绿
坏瓜
浅白
好瓜
坏瓜
色泽=?
乌黑
好瓜
硬滑
好瓜
软粘
触感=?
好瓜
坏瓜
4.2.2增益率
信息增益准则对可取值数目较多的属性有所偏好, 例如“编号”,它的信息增益为0.998,远大于其他属 性,“编号”将产生17支分支,每个分支结点仅包含 一个样本,这些分支结点的纯度达到最大.然而,这样 的决策树显然不具有泛化能力,无法对新样本进行 有效的预测. C4.5决策树算法[Quinlan,1993]不直接使用信息增 益,而是用“增益率”(gain ratio)来选择最优划分属 性.
① 脐部=?
凹陷
②
好瓜
{4,5,13}
③
稍凹
平坦
验证集精度 划分前:42.9% 划分后:71.4% 预剪枝决
坏瓜
{11,12} 仅有一层划分的 决策树,亦称为 “决策树桩”
验证集精度 色泽=?划分前:71.4% 划分后:57.1% 预剪枝决策:禁止划分
验证集精度 根蒂=? 划分前:71.4% 划分后:71.4% 预剪枝决策:禁止划分
目的:产生一颗泛化能力强,即处理未见 示例能力强的决策树 决策树的生成是一个递归的过程,在基本 算法中,有三种情形会导致递归返回:
1 2
3
• 当前结点包含的样本全属于同一类别, 无需划分 • 当前属性集为空,或是所有样本在所有 属性上取值相同,无法划分 • 当前结点包含的样本集合为空,不能划 分
4.2.划分选择
决策树学习的关键:如何选择最优化分属 性 随着划分过程不断进行,我们希望决策树 的分支结点所包含的样本尽可能属于同一 类别,即结点的“纯度”(purity)越来 越高。
4.2(1)信息熵
信息熵(information entropy)是度量样 本集合纯度最常用的一种指标。 假定当前样本集合D中第k类样本所占的 比例为 pk (k=1,2,…, y ),则D的信息熵定义 为:
4.2(9)
基于D1(纹理=清晰)={1,2,3,4,5,6,8,10,15} 计算出的各属性的信息增益为: Gain(D1,色泽)=0.043 Gain(D1,根蒂)=0.458 Gain(D1,敲声)=0.331 Gain(D1,脐部)=0.458 Gain(D1,触感)=0.458 根蒂、脐部、触感3个属性均取得最大的信息 增益,可任选之一作为划分属性.类似的,对每 个分支结点进行上述操作,最终得到的决策树 如下:
2
8 8 9 9 Ent ( D) pk log 2 pk ( log2 log2 ) 0.998 17 17 17 17 k 1
4.2(6)
然后我们要计算出当前属性集合{色泽,根蒂,敲声,纹理,脐部, 触感}中每个属性的信息增益.以色泽为例,它有三个可能的 取值:{青绿,乌黑,浅白}.对D进行划分,则可得到3个子集,分 3 1 2 别为: ( 色泽 = 青绿 ), ( 色泽 = 乌黑 ), D (色泽=浅白). D D
Ent ( D) pk log
k 1
y
pk 2
⑴
Ent(D)的值越小,则D的纯度越高。
4.2(2)信息熵
p p log 计算信息熵时约定:若p=0,则 2 0
Ent(D)的最小值为0,最大值为 log2y 例:假设D中有8个样本,且有k=8,则
pk
1 8
1 1 Ent ( D) log 2 8 k 1 8
编号
1 2 3 4
色泽
青绿 乌黑 乌黑 青绿
根蒂
蜷缩 蜷缩 蜷缩 蜷缩
敲声
浊响 沉闷 浊响 沉闷
纹理
清晰 清晰 清晰 清晰
脐部
凹陷 凹陷 凹陷 凹陷
触感
硬滑 硬滑 硬滑 硬滑
好瓜
是 是 是 是
5
6 7 8 9 10 11 12 13
浅白
青绿 乌黑 乌黑 乌黑 青绿 浅白 浅白 青绿
蜷缩
稍蜷 稍蜷 稍蜷 稍蜷 硬挺 硬挺 蜷缩 稍蜷
4.2(8)
显然,属于“纹理”的信息增益最大,于是它被 选为划分属性.
纹理
清晰 稍糊 模糊
{1,2,3,4,5,6,8,10,15}
{7,9,13,14,17}
{11,12,16}
然后,决策树学习算法将对每个分支结点做进 一步划分.可用属性集合{色泽,根蒂,敲声,脐部, 触感}基于各结点的集合样例计算出各属性的 信息增益.
8
4.2(3)信息增益
假定离散属性a有V个可能的取值{ a1 , a2 ,..., aV }, 若使用a来对样本集D进行划分,则会产生V个 分支结点,其中第v个分支结点包含了D中所有 在属性a上取值为 av 的样本,记为 D v 。 根据不同分支结点包含的样本数不同,给分支 结点赋予权重:D / D 即样本数越多的分支结 点的影响越大。
剪枝(ppruning)是决策树学习算法对付“过拟 合”的主要手段. 基本策略:①预剪枝(prepruning) ②后剪枝(post-pruning)
①
在决策树生成过程中,对 每个结点在划分前先进 性估计,若当前结点的划 分不能带来决策树泛化 性能提升,则停止划分并 将当前结点标记为叶结 点.
4.2.3基尼指数(Gini index)
CART决策树[Breiman et al.,1984]使用“基尼 指数”来选择划分属性.数据集D的纯度可用基 尼值来度量:
Gini(D)反应了从数据集D中随 机抽取两个样本,其类别标记不 一致的概率. Gini(D)越小,则数据集D的纯度 越高
Gini( D) pk pk '
1 2 2
4 4 2 2 Ent ( D 2 ) ( log 2 log 2 ) 0.918 6 6 6 6
1 1 4 4 Ent ( D3 ) ( log 2 log ) 0.722 5 5 5 5
4.2(7)
于是,我们可以算出属性”色泽”的信息增益为: 3 Dv Gain(D,色泽) Ent ( D) Ent ( Dv )
②
先从训练集生成一棵完 整的决策树,然后自底向 上地对非叶结点进行考 察,若将该结点对应的子 树替换为叶结点能带来 泛化能力提升,则将该子 树替换为叶结点
4.3(1)
随机划分出两部分: Train:{1,2,3,6,7,10,14,15,16,17} ① Test:{4,5,8,9,11,12,13} 脐部=?
4.2.2(1)
增益率:
Gain( D, a) Gain _ ratio IV (a)