决策树1

合集下载

决策树

决策树
Microsoft Power BI
Power BI 提供了强大的数据可 视化功能,可以轻松地创建和 共享决策树图表。它支持多种 数据源,并具有高度的自定义 性和交互性。
02
Tableau
Tableau 是一款功能强大的数 据可视化工具,也支持决策树 的可视化。它提供了丰富的图 表类型和可视化选项,以及强 大的数据分析和挖掘功能。
佳的过拟合现象。
提高泛化能力
剪枝后的决策树结构更为简洁,有 助于提高模型在新数据上的泛化能 力。
减少计算资源消耗
简化决策树结构可以降低模型训练 和预测的计算复杂度,节省计算资 源。
预剪枝策略及实现
设定决策树生长的最大深度
01
在决策树生长过程中,限制树的最大深度,防止树生长过于庞
大。
设定叶节点最小样本数
代价复杂性剪枝(Cost-Complexity Pr…
引入一个代价复杂性参数,通过最小化代价复杂性函数来实现剪枝,该函数权衡了模型复杂度与 训练误差。
最小描述长度剪枝(Minimum Descripti…
基于信息论原理,通过最小化描述决策树所需的编码长度来实现剪枝。
剪枝效果评估方法
交叉验证
将数据集划分为训练集和验证集,使用训练集生成不同剪枝程度的 决策树,在验证集上评估其性能,选择性能最优的剪枝程度。
• 交互性和动画:一些工具提供了交互性和动画功能,如鼠标悬停提示、节点点击事件、动态展示决策过程等。 这些功能可以帮助用户更好地理解和探索决策树的结构和逻辑。
• 布局和排列:决策树的可视化还需要考虑布局和排列的问题。不同的布局算法可以产生不同的可视化效果,如 垂直布局、水平布局、径向布局等。选择合适的布局算法可以使决策树的可视化更加清晰和易于理解。

决策树的三种算法

决策树的三种算法

决策树的三种算法一、决策树算法的简单介绍决策树算法就像是一个超级智能的树状决策指南。

你可以把它想象成一棵倒着长的树,树根在上面,树枝和树叶在下面。

它的任务呢,就是根据不同的条件来做出各种决策。

比如说,你想决定今天穿什么衣服,天气就是一个条件,如果天气冷,你可能就选择穿厚衣服;如果天气热,那薄衣服就比较合适啦。

决策树算法在很多地方都超级有用,像预测一个人会不会买某个商品,或者判断一个邮件是不是垃圾邮件之类的。

二、决策树的三种算法1. ID3算法这个算法就像是一个很会找重点的小机灵鬼。

它主要是根据信息增益来构建决策树的。

啥是信息增益呢?就是通过计算某个属性带来的信息量的增加。

比如说,在判断一个水果是苹果还是香蕉的时候,颜色这个属性可能就有很大的信息增益。

如果一个水果是红色的,那它是苹果的可能性就比较大。

ID3算法会优先选择信息增益大的属性来作为树的节点,这样就能更快更准地做出决策啦。

不过呢,这个算法也有个小缺点,就是它比较容易对噪声数据敏感,就像一个很敏感的小娃娃,稍微有点风吹草动就可能受到影响。

2. C4.5算法C4.5算法就像是ID3算法的升级版。

它在ID3算法的基础上做了一些改进。

它不仅仅考虑信息增益,还考虑了信息增益率。

这就好比是一个更加全面考虑的智者。

通过考虑信息增益率,它能够更好地处理那些属性值比较多的情况。

比如说,在一个数据集中有一个属性有很多很多不同的值,C4.5算法就能比ID3算法更好地处理这种情况,不会轻易地被这种复杂情况给弄晕。

而且C4.5算法还能够处理连续的属性值,这就像是它多了一项特殊的技能,让它在更多的情况下都能发挥作用。

3. CART算法CART算法又有自己的特点。

它使用的是基尼系数来选择属性进行划分。

基尼系数就像是一个衡量公平性的小尺子,在决策树这里,它是用来衡量数据的纯度的。

如果基尼系数越小,说明数据越纯,就越容易做出准确的决策。

CART算法既可以用于分类问题,就像前面说的判断水果是苹果还是香蕉这种,也可以用于回归问题,比如预测房价之类的。

决策树DecisionTree[1]

决策树DecisionTree[1]

PPT文档演模板
决策树DecisionTree[1]
例子:算法过程
1. samples = { 1,2,3,4,5,6,7,8,9,10 }
attribute_list = {Refund, MarSt, TaxInc }
假设选择Refund为最优分割属性:
Refund
Yes
No
2. samples = { 1,4,7 } attribute_list = { MarSt, TaxInc }
TaxInc
NO > 80K
NO
YES
PPT文档演模板
决策树DecisionTree[1]
Apply Model to Test Data
Test Data
Refund
Yes
No
NO
MarSt
Single, Divorced
Married
< 80K
TaxInc
NO > 80K
NO
YES
PPT文档演模板
决策树DecisionTree[1]
Apply Model to Test Data
Test Data
Refund
Yes
No
NO
MarSt
Single, Divorced
Married
< 80K
TaxInc
NO > 80K
NO
YES
Assign Cheat to “No”
PPT文档演模板
决策树DecisionTree[1]
Test Data
Refund
Yes
No
NO
MarSt
Single, Divorced

分类分析--决策树(经典决策树、条件推断树)

分类分析--决策树(经典决策树、条件推断树)

分类分析--决策树(经典决策树、条件推断树)分类分析--决策树决策树是数据挖掘领域中的常⽤模型。

其基本思想是对预测变量进⾏⼆元分离,从⽽构造⼀棵可⽤于预测新样本单元所属类别的树。

两类决策树:经典树和条件推断树。

1 经典决策树经典决策树以⼀个⼆元输出变量(对应威斯康星州乳腺癌数据集中的良性/恶性)和⼀组预测变量(对应九个细胞特征)为基础。

具体算法如下:(1) 选定⼀个最佳预测变量将全部样本单元分为两类,实现两类中的纯度最⼤化(即⼀类中良性样本单元尽可能多,另⼀类中恶性样本单元尽可能多)。

如果预测变量连续,则选定⼀个分割点进⾏分类,使得两类纯度最⼤化;如果预测变量为分类变量(本例中未体现),则对各类别进⾏合并再分类。

(2) 对每⼀个⼦类别继续执⾏步骤(1)。

(3) 重复步骤(1)~(2),直到⼦类别中所含的样本单元数过少,或者没有分类法能将不纯度下降到⼀个给定阈值以下。

最终集中的⼦类别即终端节点(terminal node)。

根据每⼀个终端节点中样本单元的类别数众数来判别这⼀终端节点的所属类别。

(4) 对任⼀样本单元执⾏决策树,得到其终端节点,即可根据步骤3得到模型预测的所属类别。

上述算法通常会得到⼀棵过⼤的树,从⽽出现过拟合现象。

结果就是,对于训练集外单元的分类性能较差。

为解决这⼀问题,可采⽤10折交叉验证法选择预测误差最⼩的树。

这⼀剪枝后的树即可⽤于预测。

R中的rpart包⽀持rpart()函数构造决策树,prune()函数对决策树进⾏剪枝。

下⾯给出判别细胞为良性或恶性的决策树算法实现。

(1)使⽤rpart()函数创建分类决策树:#⽣成树:rpart()函数可⽤于⽣成决策树library(rpart)set.seed(1234)dtree <- rpart(class ~ ., data=df.train, method="class",parms=list(split="information"))#rpart() 返回的cptable值中包括不同⼤⼩的树对应的预测误差,因此可⽤于辅助设定最终的树的⼤⼩。

决策树名词解释

决策树名词解释

决策树名词解释决策树(DecisionTree)是一种常见的数据挖掘技术,也称为决策树分类(Decision Tree Classification)。

决策树是一种以树状结构表示数据的模型,它可以用来描述一组数据集的概念,它可以用来作出决策。

策树是一种数据挖掘的常用算法,它可以用于分类、回归任务,以及关联规则建模,它可以帮助智能系统理解数据,从而实现更好的决策。

决策树的基本原理很简单,它是一种将每个属性值与实例的关联转换成树形结构的方法。

在这种树形结构中,每个节点存储关联属性的值,从而决定一个决策。

策树通常用于研究一组已知数据,它可以用来预测未知数据的结果,也可以用来归类数据,从而发现数据的规律性。

决策树的建立有很多步骤,但是大致可以分为以下几个步骤:(1)数据集准备:首先,需要对数据集进行预处理,将数据分成训练集和测试集。

(2)决策树划分:根据训练集中的特征属性,将数据集划分为不同的分支,并且不断划分,直到达到决策树模型所需要的精度或停止条件为止。

(3)估属性:根据训练集中的数据,选择最优的划分属性,用于对训练集进行划分。

(4)决策树剪枝:新建的决策树可能过度拟合训练数据,这会使训练出来的决策树在测试数据上的表现变差,因此,需要使用剪枝算法,来减少决策树的过拟合现象。

(5)测试:根据训练好的决策树,对测试集数据进行分类,统计测试集分类正确率,从而对决策树进行评估。

决策树在实际应用中可以用于社会决策分析、企业决策分析、关联规则挖掘等应用场景,但是决策树也有若干缺点。

其一,决策树生成过程中属性之间的关系可能非线性,而决策树假设属性之间的关系是线性的,因此可能导致决策树模型的准确性不足。

其二,决策树的剪枝操作可能会过度剪枝,也影响模型的准确性。

总之,决策树是一种常用的数据挖掘技术,它可以用于推理和预测数据,它可以用来帮助智能系统理解数据,从而改善决策效率。

但是,因为决策树的局限性,仍然需要其他的数据挖掘技术来提高决策的准确性。

决策树

决策树

决策树决策树法(Decision Tree)决策树(decision tree)一般都是自上而下的来生成的。

每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。

决策树就是将决策过程各个阶段之间的结构绘制成一张箭线图,我们可以用下图来表示。

选择分割的方法有好几种,但是目的都是一致的:对目标类尝试进行最佳的分割。

从根到叶子节点都有一条路径,这条路径就是一条“规则”。

决策树可以是二叉的,也可以是多叉的。

对每个节点的衡量:1) 通过该节点的记录数2) 如果是叶子节点的话,分类的路径3) 对叶子节点正确分类的比例有些规则的效果可以比其他的一些规则要好。

决策树的构成要素[1]决策树的构成有四个要素:(1)决策结点;(2)方案枝;(3)状态结点;(4)概率枝。

如图所示:总之,决策树一般由方块结点、圆形结点、方案枝、概率枝等组成,方块结点称为决策结点,由结点引出若干条细支,每条细支代表一个方案,称为方案枝;圆形结点称为状态结点,由状态结点引出若干条细支,表示不同的自然状态,称为概率枝。

每条概率枝代表一种自然状态。

在每条细枝上标明客观状态的内容和其出现概率。

在概率枝的最末稍标明该方案在该自然状态下所达到的结果(收益值或损失值)。

这样树形图由左向右,由简到繁展开,组成一个树状网络图。

决策树对于常规统计方法的优缺点优点:1)可以生成可以理解的规则;2)计算量相对来说不是很大;3) 可以处理连续和种类字段;4) 决策树可以清晰的显示哪些字段比较重要。

缺点:1) 对连续性的字段比较难预测;2) 对有时间顺序的数据,需要很多预处理的工作;3) 当类别太多时,错误可能就会增加的比较快;4) 一般的算法分类的时候,只是根据一个字段来分类。

决策树的适用范围[1]科学的决策是现代管理者的一项重要职责。

我们在企业管理实践中,常遇到的情景是:若干个可行性方案制订出来了,分析一下企业内、外部环境,大部分条件是己知的,但还存在一定的不确定因素。

决策树基本原理

决策树基本原理1决策树简介决策树(Decision Tree)是一种通过将特征属性划分为若干类别,以用于决策的有监督学习算法。

决策树往往被用于分类与回归问题,比如预测一个样本是病人还是健康,以及估算一个样本的字段。

特征属性与特征值之间通过层级结构进行连接,构造出来的形式结构被称之为决策树。

2决策树的基本原理决策树的基本原理是人工智能估计技术,这种技术把一个复杂问题分割成以特征属性值为基础的可解决问题,从而实现这个复杂问题的求解。

它结合了决策处理、规则推导和数据挖掘技术,可以对大量复杂数据进行有效的监督处理。

为了了解决特定问题,决策树建立了一个模型,即基于特征属性值建立一颗树形结构,以表示该空间的分布情况。

通过大量的数据,模型会遍历每个可能的结果,并逐步进行归纳,从而构建出一个精准的决策树模型。

所有的结论其实都是来源于有监督学习算法所得的结果,一旦构建完成,该模型就可以用来预测新数据的结果。

3决策树的应用决策树是一种广泛应用于人工智能中构建模型的有效方法。

它把复杂的决策问题转换为一种简单易懂的模型,可以帮助不同领域的决策者有效预测结果。

特别是在面对数据量巨大,存在大量缺失值和噪声数据的情况时,决策树常常被当做精炼有效的模型。

用于分类预测的决策树常常用来构建企业管理系统,能够根据不同的特征属性,如客户背景,贷款条件,客户需求等,快速生成优化模型,用于决策和预测,以帮助企业更好地协调内部资源,实现精准营销。

4总结决策树是人工智能估计技术,运用决策处理、规则推导和数据挖掘技术,把复杂的决策问题拆解为简单易懂的模型,用于分类预测,进行企业管理和精准营销等方面,对于面对复杂问题的解决极具价值。

《机器学习(周志华)》笔记--决策树(1)--决策树模型、决策树简史、基本流程

《机器学习(周志华)》笔记--决策树(1)--决策树模型、决策树简史、基本流程⼀、决策树模型 决策树(decision tree)是⼀种常⽤的机器学习⽅法,是⼀种描述对实例进⾏分类的树形结构。

决策树是⼀种常⽤的机器学习⽅法,以⼆分类为例,假设现在我们要对是否买西⽠进⾏判断和决策,我们会问⼀些问题,根据回答,我们决断是买还是不买,或者还拿补丁主意,这时会继续问问题,直到可以确定为⽌。

决策树基于“树”结构进⾏决策: (1)内部结点:属性 (2)分⽀:属性值 (3)p叶结点:分类结果 学习过程:通过对训练样本的分析来确定“划分属性”(即内部结点所对应的属性) 预测过程:将测试⽰例从根结点开始,沿着划分属性所构成的“判定测试序列”下⾏,直到叶结点 学习的过程就是通过划分属性构建决策树的过程,预测过程就是将测试样本从根节点开始,沿着划分属性构成的“判定序列”下⾏,直到叶结点。

结构举例: 从代码⾓度来看,决策树其实可以看成是⼀堆if-else语句的集合,例如引例中的决策树完全可以看成是如下代码:if isRed:if isCold:if hasSeed:print("buy")else:print("don't buy")else:if isCheap:print("buy")else:print("don't buy")else:print("don't buy") 由决策树的根结点(root node)到叶结点(leaf node)的每⼀条路径构建⼀条规则:路径上内部结点的特征对应着规则的条件,⽽叶结点的类对应着规则的结论。

决策树的路径或其对应的if-then规则集合具有⼀个重要的性质:互斥并且完备。

这就是说,每⼀个实例都被⼀条路径或⼀条规则所覆盖,⽽且只被⼀条路径或⼀条规则所覆盖。

决策树的四个要素

决策树是一种决策支持工具,它由决策结点、方案枝、状态结点、概率枝四个构成要素组成。

1. 决策结点
决策结点表示决策的点,根据问题的不同而设定的不同,通常用圆圈表示。

在人力资源管理中,决策结点可以是招聘、离职、调岗等决策点。

2. 方案枝
方案枝是从决策结点延伸出的箭头,表示可供选择的方案,通常用直线表示。

在人力资源管理中,方案枝可以是招聘途径、离职方式、调岗方案等。

3. 状态结点
状态结点是从方案枝延伸出的箭头,表示可能出现的状态,通常用小方框表示。

在人力资源管理中,状态结点可以是招聘后的员工表现、离职后的员工反馈等。

4. 概率枝
概率枝是从状态结点延伸出的箭头,表示每个状态出现的概率,通常用小圆圈表示。

在人力资源管理中,概率枝可以是员工表现好的概率、员工反馈不满意的概率等。

项目管理常用工具-决策树

决策树预测项目期望值,做出风险决策什么是决策树决策树是一种运用树状网络图形,根据期望(损益)值决策准则进行项目战略决策分析的工具。

决策树的作用能有效地对风险型项目进行战略决策分析;运用树状网络图直观、方便、易操作;是一种定量的决策分析工具,可以有效地解决多级(序贯)决策问题。

怎么做决策树由以下四部分组成,如下图:☐决策节点 方案节点—树枝✧树梢决策树图—图11.画出决策树A 先画一决策节点“☐”;B 从决策节点引出方案分枝,分枝上注明方案名或代号;C 方案分枝的末端画上方案节点“ ”;D 从每个方案节点引出状态分枝“—”,分枝上注明状态名、代号及其出现的概率;C 树梢末画上结果节点“△”,旁边注明相应的损益值。

提示:按照从左到右的顺序画决策树,画决策树的过程本身就是一个对决策问题进一步深入探索的过程。

例:某计算机制造商为开发一种市场需要的新产品考虑筹建一个分厂。

经过调查研究取得以下有关资料:决策树---表1决策树—图22.计算各方案的期望值损益值按从右到左的顺序计算期望损益值,并将结果标注在相应的状态节点处。

点⑤:[100*0.9+(-20)*0.1]*7(年)=616点②:(-20)*0.1*7(年)=140100*0.7*3(年)+616*0.7+(-20)*0.3*3(年)+(-140)*0.3-300(建大厂投资)=281.2点⑧:(40*0.9+30*0.1)*7(年)=273点⑨:[95*0.9+(-20)*0.1]*7(年)-200(扩建投资)=384.5 因384.5>273,说明扩建方案好;划掉不扩建方案,并将点9的期望值转移到点6处.点⑦:30*1.0*7(年)=210点③:40*0.7*3(年)+384.5*0.7+30*0.3*3(年)+210*0.3-120(建小厂投资)=323.2带有期望损益值的决策树:(单位:万元)见下页图决策树—图33.确定最优方案选择收益期望值最大(或损失值最小)的方案作为最优方案,并将期望值标在决策节点处。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
课程要求
1. 完成作业要求 2. 缺课不能多于一次
参考书
数据挖掘:概念与技术(原书第3版)(美)韩家炜(Han,J.) 等著,范明 等译,机械工业出版社 数据挖掘导论(完整版) ,(美)陈封能,(美)斯坦巴赫,(美 )库玛尔 著,范明 等译,人民邮电出版社 基于Clementine的数据挖掘,薛薇 等编著,中国人民大学出版 社 数据挖掘Clementine应用实务 ,谢邦昌 主编,机械工业出版社
C4.5算法应用实例
C4.5分类算法在硕士研究生智育测评中的应用 • 采用某高校硕士研究生一年级的20名学生的期末考试成绩作为数据集,其中 的课程有英语精读、英语听说等英语类课程、自然辩证法、科学社会主义 等政治类课程,还有数据挖掘概论、数据库原理、并行计算导论等专业性课 程。 在建立决策树的过程中,我们将按以下方式分类:政治成绩(包括自然辩证法 和科学社会主义) ,英语成绩(包括英语精读、英语听说和专业外语) ,核心 专业课成绩(与本专业培养目标最紧密的课程) ,一般专业课成绩(除核心专 业课外的专业课) 。 将这四个属性作为决策属性,定义成绩大于等于85分为“优”;大于等于80, 小于85分为“良”;大于等于70,小于80为“中”。将四个属性的和作为智 育成绩,并按智育测评的标准,将训练样本中智育成绩由高到低按比例分类: 10%为优、30%为良、40%为中等、剩余为及格四个标准,并将这四个标准作 为分类属性(如表1所示) 。
C4.5算法应用实例
建立决策树 智育成绩中达到优、良、中等、及格四类标准的子集数分别为: r1 = 2、r2 = 6、r3 = 8、r4 = 4,首先计算 集合T分类的信息熵: I(r1 、r2 、r3 、r4,)=I(2,6,8,4) = - 2 log 2 2 - 6 log 2 6 - 8 log 2 8 - 4 log 2 4
C4.5算法应用实例
所以政治成绩的期望信息量为: 1 9 E (政治成绩) I(u11 , u 21 , u31 , u 41 ) I (u12 , u 22 , u32 , u 42 ) 20 20 10 I (u13 , u 23 , u33 , u 43 ) 1.387 20
1 1 4 4 4 4 - log 2 - log 2 - log 2 1 . 392 20 20 20 20 20 20
(3) 当“ 政治成绩 ” 为中时 ,
I(u13 , u23 , u33 , u43 ) I (0,2,4,4) 2 2 4 4 4 4 log2 log2 log2 1.522 20 20 20 20 20 20
Gini(t1)=1-(2/4)²-(2/4)²=0.5 单身 已婚 离异 Gini(t2)=1-(0/4)²-(4/4)²=0 4 1 否 2 Gini(t3)=1-(1/2)²-(1/2)²=0.5 0 1 是 2 Gini=4/10×0.5+4/10×0+2/10×0.5=0.3 单身或已婚 离异 Gini(t1)=1-(6/8)²-(2/8)²=0.375 6 1 Gini(t2)=1-(1/2)²-(1/2)²=0.5 否 Gini=8/10×0.375+2/10×0.5=0.4 2 1 是 单身或离异 已婚 Gini(t1)=1-(3/6)²-(3/6)²=0.5 3 4 Gini(t2)=1-(4/4)²-(0/4)²=0 否 Gini=6/10×0.5+4/10×0=0.3 3 0 是 离异或已婚 单身 Gini(t1)=1-(5/6)²-(1/6)²=0.2778 5 2 Gini(t2)=1-(2/4)²-(2/4)²=0.5 否 Gini=6/10×0.2778+4/10×0.5=0.367 1 2 是
C4.5算法应用实例
表1
编号 政治 11 77. 33 12 75. 67 13 81. 33 14 84. 33 15 82 16 79. 67 17 79 18 78. 67 19 85. 67 20 79. 33
决策树训练样本集
智育成绩 329. 50 343. 71 344. 22 342. 53 337. 93 338. 42 342. 92 330. 17 354. 57 327. 05
纯净度度量——GINI
对于一个给定的结点t:
GINI (t ) 1 [ p( j t )]
j
2
是结点t中类j的相对频率 最大值:(1 - 1/nc),记录在所有类中等分布 最小值:0,所有记录属于同一个类
CART算法实例
训 练 集
选择最佳分割点
数值型变量
对记录的值从小到大排序,计算每个值作为临界点产生的子节点的 异质性统计量。能够使异质性减小程度最大的临界值便是最佳的划分点。
英语 核心专业课 一般专业课 80. 5 85. 14 86. 53 86. 5 91. 13 90. 41 84 89. 33 89. 56 85. 67 91 81. 53 85. 5 88. 17 82. 26 85 86. 86 86. 89 86. 17 89 88. 75 83. 83 78. 29 89. 38 86. 67 94. 29 87. 94 79. 17 87. 83 80. 72
IF性别=Female AND家庭所得= 高所得THEN购买RV房车=是
IF性别=Male AND年龄<35 THEN购买RV房车=否 IF性别=Male AND年龄≧35 THEN购买RV房车=是
C4.5算法
C4.5算法也是机器学习算法中的一种分类决策树算法, 此算法用信息增益率来选择决策属性,其核心算法是 ID3算法。它继承了ID3算法的全部优点,并在ID3的基 础上增加了对连续属性的离散化、对未知属性的处理和 产生规则等功能,克服了ID3算法的不足。


C4.5算法应用实例
表1
编号 政治 1 78. 67 2 81 3 83. 33 4 81. 33 5 71. 33 6 83. 33 7 79 8 82 9 72. 67 10 81. 33
决策树训练样本集
智育成绩 336. 14 345. 97 352. 15 345. 36 326. 29 330. 14 337. 15 335. 66 324. 63 335. 23
作业一:决策树
以实例解释下列算法
ID3 C4.5 CART CHAID
决策树剪枝的一个具体实例
ID3算法
ID3 决策树建立算法 1 决定分类属性; 2 对目前的数据表,建立一个节点N; 3 如果数据库中的数据都属于同一个类,N就是树叶,在树叶上标 出所属的类; 4 如果数据表中没有其他属性可以考虑,则N也是树叶,按照少数 服从多数的原则在树叶上标出所属类别; 5 否则,根据平均信息期望值E或GAIN值选出一个最佳属性作为 节点N的测试属性 6 节点属性选定后,对于该属性中的每个值:从N生成一个分支, 并将数据表中与该分支有关的数据收集形成分支节点的数据表, 在表中删除节点属性那一栏,如果分支数据表非空,则运用以上 算法从该节点建立子树。

Gain(年龄)=0.0167


Gain(性别)=0.0972

Gain(家庭所得)=0.0177
Max:作为第一个分类依据
Example(续)
I(7,3)=-((3/7)*log2(3/7)+(4/7)*log2(4/7))=0.9852

Gain(年龄)=0.9852

Gain(家庭所得)=0.3059
政治成绩的信息增益为:
Gain(政治成绩) I(r 1, r 2, r 3 ,r 4 ) E (政治成绩) 0.559
政治成绩的信息增益率为: Gain(政治成绩) Ratio(政治成绩) 0.4029096 E(政治成绩)
C4.5算法应用实例
同理,得出决策属性“英语成绩”、“核心专业课成绩 ”、“一般专业课成绩”的信息增益率分别为:
C4.5算法应用实例
C4.5算法应用实例
由此决策树可知: (1) 英语成绩为优的情况下 ,核心专业课成绩全为优 ,一般专业课成绩 为优的概率是 71 . 4%。说明英语水平的提高对计算机专业课程的学习有很 大的帮助 ,对于出色的完成培养目标具有至关重要的作用。
(2) 核心专业课成绩为优的情况下 ,一般专业课成绩为优的概率是 66 . 7%。说明核心专业课成绩的提高对一般专业课成绩的提高是正相关的。
CART算法
CART采用一种二分递归分割的技术,将当前的样本集 分为两个子样本集,使得生成的决策树的每个非叶子节 点都有两个分支。CART算法生成的决策树是结构简洁 的二叉树。 CART与C4.5/C5.0算法最大的区别是:其在每一个节点 上都采用二分法,也就是一次只能够有两个子节点, C4.5/C5.0则在每一个节点上可产生不同数量的分枝。 另外,它与ID系列算法和C4.5的另一个不同是使用的 属性度量标准是Gini指标, Gini值越小,表明样本的 “纯净度”越高。
I(9,1)=-((1/9)*log2(1/9)+(8/9)*log2(8/9))=0.5032
7

Gain(年龄)=0.281

Gain(家庭所得)=0.5032
Example(end)ID3算法

资料

Decision Tree
分类规则=否 IF性别=Female AND家庭所得= 小康THEN购买RV房车=否
(3) 在智育成绩为“ 良 ” 以上的同学中 ,他们的核心专业课成绩都是 “ 优 ” 。说明这种课程设置方式 ,使智育成绩优异的同学 ,核心专业课成 绩也非常优秀 ,这是研究生教育管理者最希望看到的结果。 (4) 政治成绩的好坏 ,对于英语成绩、 专业课成绩的好坏没有必然的联 系。这些规则 ,可以帮助硕士研究生认清课程间的联系 ,指导他们在学习过 程中 ,做出最有利于自身发展的选择。
相关文档
最新文档