决策树(完整)

合集下载

(完整word版)管理学决策树习题及答案.docx

注意答卷要求：1．统一代号： P 为利润， C 为成本， Q为收入， EP为期望利润2．画决策树时一定按照标准的决策树图形画，不要自创图形3．决策点和状态点做好数字编号4．决策树上要标出损益值某企业似开发新产品，现在有两个可行性方案需要决策。

I 开发新产品 A ，需要追加投资 180 万元，经营期限为 5 年。

此间，产品销路好可获利 170 万元；销路一般可获利 90 万元；销路差可获利 -6 万元。

三种情况的概率分别为 30%，50%， 20%。

II.开发新产品 B，需要追加投资 60 万元，经营期限为 4 年。

此间，产品销路好可获利100 万元；销路一般可获利50 万元；销路差可获利20 万元。

三种情况的概率分别为 60%，30%， 10%。

（ 1）画出决策树销路好0.3170销路一般0.5290销路差0.1-6开发产品A1销路好0.6100开发产品B销路一般0.3350销路差0.120（ 2）计算各点的期望值，并做出最优决策求出各方案的期望值：方案 A=170×0.3 ×5+90×0.5 ×5+(-6) ×0.2×5=770(万元 ) 方案 B=100×0.6 ×4+50×0.3×4+20×0.1 ×4=308(万元 ) 求出各方案的净收益值：方案 A=770-180=590(万元 )方案 B=308-60=248(万元 )因为 590 大于 248 大于 0所以方案 A 最优。

某企业为提高其产品在市场上的竞争力，现拟定三种改革方案：（ 1）公司组织技术人员逐渐改进技术，使用期是 10 年；（ 2）购买先进技术，这样前期投入相对较大，使用期是 10 年；（3）前四年先组织技术人员逐渐改进，四年后再决定是否需要购买先进技术，四年后买入技术相对第一年便宜一些，收益与前四年一样。

管理学决策树方法

管理学决策树方法一、决策树方法的基本概念。

1.1 啥是决策树呢？简单来说，这就像是咱们在森林里找路一样。

决策树是一种树形结构，它有一个根节点，就像大树的根，从这个根节点开始，会分出好多枝干，这些枝干就是不同的决策选项。

比如说，一个企业要决定是否推出一款新产品，这就是根节点的决策。

1.2 然后每个枝干又会根据不同的情况继续分叉。

就好比这新产品推向市场，可能会遇到市场反应好和市场反应不好这两种大的情况，这就像是枝干又分叉了。

这每一个分叉点都代表着一个事件或者决策的不同结果。

二、决策树方法在管理学中的重要性。

2.1 在管理里啊，决策树可太有用了。

就像那句老话说的“三思而后行”，决策树就是帮咱们管理者好好思考的工具。

它能把复杂的决策过程清晰地展现出来。

比如说，一个公司要扩大业务，是选择开拓新市场呢，还是在现有市场深耕呢？这时候决策树就能列出各种可能的结果。

如果开拓新市场，可能会面临新的竞争对手，就像进入了一片未知的丛林，充满了风险；如果在现有市场深耕，可能会面临市场饱和的问题，就像在一块已经耕种很久的土地上，肥力可能不足了。

2.2 决策树还能让咱们量化风险。

咱们不能总是靠感觉来做决策啊，那可就成了“盲人摸象”了。

通过决策树，我们可以给不同的结果赋予概率，就像给每个岔路标上成功或者失败的可能性。

这样管理者就能清楚地看到每个决策背后的风险和收益。

比如说，一个项目有60%的成功概率，但是成功后的收益很大；另一个项目有80%的成功概率，但是收益比较小。

这时候决策树就能帮我们权衡利弊。

2.3 而且啊，决策树有助于团队沟通。

大家都能看着这个树形结构，一目了然。

就像大家一起看一张地图一样，都清楚要往哪里走。

团队成员可以针对决策树上的每个节点、每个分支进行讨论。

这样就不会出现“各说各话”的情况，大家都在同一个框架下思考问题。

三、如何构建决策树。

3.1 首先要确定决策的目标。

这就像确定大树的根一样重要。

比如说，我们的目标是提高公司的利润，那所有的决策分支都要围绕这个目标来展开。

决策树计算公式

决策树计算公式摘要：一、决策树的定义与特点1.决策树的定义2.决策树的特点二、决策树计算公式1.信息增益公式2.基尼指数公式3.剪枝策略三、决策树在实际应用中的优势与局限性1.优势2.局限性四、决策树与其他机器学习算法的比较1.对比算法2.优缺点分析五、决策树在机器学习领域的发展趋势1.发展现状2.未来趋势正文：一、决策树的定义与特点决策树是一种基本的分类和回归方法，它通过一系列的问题对数据进行分类或预测。

决策树具有以下特点：1.树形结构：以层次化的方式组织数据和规则；2.易于理解：通过颜色和图示表示不同类别的数据；3.可扩展性：可以很容易地添加新数据和规则；4.能够处理连续和离散数据。

二、决策树计算公式1.信息增益公式信息增益（IG）用于选择最佳的属性进行分割，公式为：IG(A) = H(A) - H(A|B)其中，H(A) 表示属性的熵，H(A|B) 表示在已知属性B 的情况下，属性的熵。

2.基尼指数公式基尼指数（Gini）用于度量数据集中类别的混乱程度，公式为：Gini(A) = 1 - (ΣP(Ai) * P(Ai))其中，P(Ai) 表示属于第i 个类别的概率。

3.剪枝策略为了防止过拟合，需要对决策树进行剪枝。

常见的剪枝策略有：a) 预剪枝：在构建完整决策树之前，根据验证集的表现停止树的生长；b) 后剪枝：在构建完整决策树后，根据验证集的表现修剪树的结构。

三、决策树在实际应用中的优势与局限性1.优势a) 易于理解和解释：决策树的结构直观，可以方便地解释数据分类或预测的过程；b) 计算简单：只需要计算熵和基尼指数，不需要进行复杂的矩阵运算；c) 适用于多种数据类型：可以处理连续和离散数据，同时适用于分类和回归问题。

2.局限性a) 容易过拟合：当决策树过于复杂时，可能对训练集的表现很好，但对测试集的表现较差；b) 对噪声敏感：如果数据集中存在噪声，决策树可能会选择错误的属性进行分割，导致预测结果不准确；c) 无法处理缺失值：如果数据集中存在缺失值，决策树可能无法正确处理这些数据。

(完整版)决策树决策表练习题与参考答案

1.某厂对一部分职工重新分配工作，分配原则是：⑴年龄不满20岁，文化程度是小学者脱产学习，文化程度是中学者当电工；⑵年龄满20岁但不足50岁，文化程度是小学或中学者，男性当钳工，女性当车工；文化程度是大专者，当技术员。

⑶年龄满50岁及50岁以上，文化程度是小学或中学者当材料员，文化程度是大专者当技术员。

要求：做出决策表。

123456789101112条件及行动说明年龄≤20≤20≤20≤20≤20≤20(20,50](20,50](20,50](20,50](20,50](20,50]文化程度小学小学中学中学大专大专小学小学中学中学大专大专性别男女男女男女男女男女男女脱产学习√√电工√√钳工√√车工√√材料员技术员√√131415161718条件及行动说明年龄≥50≥50≥50≥50≥50≥50文化程度小学小学中学中学大专大专性别男女男女男女脱产学习电工钳工车工材料员√√√√技术员√√优化后的决策表如下：12345789101112条件及行动说明年龄≤20≤20(20,50](20,50](20,50](20,50](20,50](20,50]≥50≥50≥50文化程度小学中学小学小学中学中学大专大专小学中学大专性别--男女男女男女---脱产学习√√电工钳工√√车工√√材料员√√技术员√√√2、试画出某企业库存量监控处理的判断树。

若库存量≤0，按缺货处理；若库存量≤库存下限，按下限报警处理；若库存量＞库存下限，而又≤储备定额，则按订货处理；若库存量＞库存下限，而又＞储备定额，则按正常处理；若库存量≥库存上限，又＞储备定额，则按上限报警处理。

3某货运站收费标准如下：若收件地点在本省，则快件6元／公斤，慢件4元／公斤；若收件地点在外省，则在25公斤以内（包括25公斤），快件8元／公斤，慢件6元／公斤；而超过25公斤时，快件10元／公斤，慢件8元／公斤；画出决策表和决策树：决策表：条件组合条件活动说明12345678地点本省本省本省本省外省外省外省外省重量25公斤以内25公斤以内25公斤以外25公斤以外25公斤以内25公斤以内25公斤以外25公斤以外邮寄方式快件慢件快件慢件快件慢件快件慢件4元/公斤√√6元/公斤√√√8元/公斤√√10元/公斤√优化后的结果如下所示：条件组合条件活动说明123456地点本省本省外省外省外省外省重量--25公斤以内25公斤以内25公斤以外25公斤以外邮寄方式快件慢件快件慢件快件慢件4元/公斤√6元/公斤√√8元/公斤√√10元/公斤√决策树：收费本省外省快件慢件快件慢件≤25斤>25斤≤25斤>25斤6元4元8元10元6元8元地点规格重量收费金额。

分类分析--决策树（经典决策树、条件推断树）

分类分析--决策树（经典决策树、条件推断树）分类分析--决策树决策树是数据挖掘领域中的常⽤模型。

其基本思想是对预测变量进⾏⼆元分离，从⽽构造⼀棵可⽤于预测新样本单元所属类别的树。

两类决策树：经典树和条件推断树。

1 经典决策树经典决策树以⼀个⼆元输出变量（对应威斯康星州乳腺癌数据集中的良性/恶性）和⼀组预测变量（对应九个细胞特征）为基础。

具体算法如下：(1) 选定⼀个最佳预测变量将全部样本单元分为两类，实现两类中的纯度最⼤化（即⼀类中良性样本单元尽可能多，另⼀类中恶性样本单元尽可能多）。

如果预测变量连续，则选定⼀个分割点进⾏分类，使得两类纯度最⼤化；如果预测变量为分类变量（本例中未体现），则对各类别进⾏合并再分类。

(2) 对每⼀个⼦类别继续执⾏步骤(1)。

(3) 重复步骤(1)~(2)，直到⼦类别中所含的样本单元数过少，或者没有分类法能将不纯度下降到⼀个给定阈值以下。

最终集中的⼦类别即终端节点（terminal node）。

根据每⼀个终端节点中样本单元的类别数众数来判别这⼀终端节点的所属类别。

(4) 对任⼀样本单元执⾏决策树，得到其终端节点，即可根据步骤3得到模型预测的所属类别。

上述算法通常会得到⼀棵过⼤的树，从⽽出现过拟合现象。

结果就是，对于训练集外单元的分类性能较差。

为解决这⼀问题，可采⽤10折交叉验证法选择预测误差最⼩的树。

这⼀剪枝后的树即可⽤于预测。

R中的rpart包⽀持rpart()函数构造决策树，prune()函数对决策树进⾏剪枝。

下⾯给出判别细胞为良性或恶性的决策树算法实现。

（1）使⽤rpart()函数创建分类决策树：#⽣成树：rpart()函数可⽤于⽣成决策树library(rpart)set.seed(1234)dtree <- rpart(class ~ ., data=df.train, method="class",parms=list(split="information"))#rpart() 返回的cptable值中包括不同⼤⼩的树对应的预测误差，因此可⽤于辅助设定最终的树的⼤⼩。

决策树的构建步骤

决策树的构建步骤决策树算法应用的完整流程应包含建树和应用。

建树是从经验数据中获取知识，进行机器学习，建立模型或者构造分类器，是决策树算法的工作重点，通常又将其分为建树和剪枝两个部分。

而应用则比较简单，利用建好的决策树模型分类或者预测新数据即可。

先介绍一下建树。

建树也就是决策树算法建模的主体过程，或者说，建树便是主要规则的产生过程。

决策树构建的基本步骤如表3-3所示。

表3-3 决策树构建的基本步骤决策树的变量可以有两种：数字型(Numeric)和名称型(Nominal)。

(1)数字型：变量类型是整数或浮点数，如前面例子中的“年龄”。

用“>”“＜”等作为分割条件（排序后，利用已有的分割情况，可以优化分割算法的时间复杂度）。

(2)名称型：类似编程语言中的枚举类型，变量只能从有限的选项中选取。

如何评估分割点的好坏？如果一个分割点可以将当前的所有节点分为两类，使得每一类都很“纯”，也就是同一类的记录较多，那么就是一个好分割点。

树的主体建好后，接下来便是对其剪枝。

所谓剪枝，就是在树的主体上删除过多的条件或者直接删除一些不必要的子树，提高树的性能，确保精确度，提高其可理解性。

同时，在剪枝过程中还要克服训练样本集的数据噪声，尽可能地消除噪声造成的影响。

决策树的剪枝一般通过极小化决策树整体的损失函数或代价函数来实现。

决策树剪枝常用的方法有两种：预剪枝(Pre-Pruning)和后剪枝(Post-Pruning)。

预剪枝是指根据一些原则尽早地停止树的增长，如树的深度达到用户所要的深度、节点中样本个数少于用户指定个数等。

预剪枝在建树的过程中决定是否需要继续划分或分裂训练样本来实现提前停止树的构造，一旦决定停止分支，就将当前节点标记为叶节点。

这样可以有效减少建立某些子树的计算代价。

运用这一策略的代表性算法有PUBLIC算法。

预剪枝的核心问题是，如何事先指定树的最大深度，如果设置的最大深度不恰当，那么将会导致过于限制树的生长，使决策树的表达式规则趋于一般，不能更好地对新数据集进行分类和预测。

决策树id3算法例题

决策树id3算法例题决策树ID3算法是一种常用的分类算法，用于根据已知的一组特征和标签数据，构建一个决策树模型来进行分类预测。

下面我将以一个示例来介绍决策树ID3算法的基本步骤和过程。

假设我们想要构建一个决策树模型来帮助我们判断一个人是否会购买一款新的智能手机。

我们已经收集了一些关于个体的特征数据和对应的购买结果数据，包括性别、年龄、收入和是否购买。

首先，我们需要计算每个特征对于分类结果的信息增益。

信息增益是指通过使用某个特征来对数据进行分类，所能获得的关于数据的新的信息量。

计算信息增益的公式如下：信息增益 = 熵(D) - ∑(Dv/D) * 熵(Dv)其中，熵(D)表示数据集D的混乱程度，熵的计算公式为：熵(D) = - ∑(pi * log2(pi))Dv表示特征A的某个取值，D表示数据集D的标签集合，pi表示标签i在数据集D中的比例。

我们首先计算整个数据集的熵D，然后计算每个特征的条件熵，最后将它们相加得到信息增益。

选择信息增益最大的特征作为当前节点的划分特征。

接下来，我们根据选择的特征将数据集划分成不同的子集。

每个子集都对应一个特征值的取值，例如性别特征可能有男和女两个取值。

我们对每个子集重复上述过程，以递归的方式构建子树。

在每个子树中，我们需要选择一个特征进行划分。

如果所有的特征都已经使用完毕，或者剩余的数据集已经完全属于同一类别，那么我们停止划分，将当前节点标记为叶节点，并将最常见的类别作为该节点的预测结果。

否则，我们选择信息增益最大的特征作为当前节点的划分特征，并继续递归构建子树。

最终，我们得到了一个完整的决策树模型。

我们可以使用该模型来对新的个体进行分类预测。

从根节点开始，根据个体的特征值选择相应的子节点，直到到达叶节点，将叶节点的预测结果作为最终的分类结果。

在本示例中，决策树模型可能会根据最佳特征先根据性别划分，接着根据年龄划分，最后根据收入划分。

我们可以根据决策树模型将一个新的个体划分到某个叶节点，并预测其是否会购买手机。

决策树(完整)

无缺失值样本中在属性上取值的样本所占比例
无缺失值样本中在属性上取值的样本所占比例
ቤተ መጻሕፍቲ ባይዱ
谢谢大家！
举例：求解划分根结点的最优划分属性
根结点的信息熵：
用“色泽”将根结点划分后获得3个分支结点的信息熵分别为：
属性“色泽”的信息增益为：
若把“编号”也作为一个候选划分属性，则属性“编号”的信息增益为：
根结点的信息熵仍为：
用“编号”将根结点划分后获得17个分支结点的信息熵均为：
则“编号”的信息增益为：
三种度量结点“纯度”的指标：信息增益增益率基尼指数
1. 信息增益
香农提出了“信息熵”的概念，解决了对信息的量化度量问题。香农用“信息熵”的概念来描述信源的不确定性。
信息熵
信息增益
一般而言，信息增益越大，则意味着使用属性a来进行划分所获得的“纯度提升”越大。决策树算法第8行选择属性
著名的ID3决策树算法
远大于其他候选属性信息增益准则对可取值数目较多的属性有所偏好
2. 增益率
增益率准则对可取值数目较少的属性有所偏好著名的C4.5决策树算法综合了信息增益准则和信息率准则的特点：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。
3. 基尼指数
基尼值
基尼指数
著名的CART决策树算法
过拟合：学习器学习能力过于强大，把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，导致泛化性能下降。欠拟合：学习器学习能力低下，对训练样本的一般性质尚未学好。
过拟合无法彻底避免，只能做到“缓解”。
不足：基于“贪心”本质禁止某些分支展开，带来了欠拟合的风险
预剪枝使得决策树的很多分支都没有“展开”优点：降低过拟合的风险减少了训练时间开销和测试时间开销

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

离散属性：脐部根蒂色泽··· 连续属性：密度含糖率···
连续属性离散化技术：二分法 C4.5决策树算法
样本集
连续属性：
，有n个不同的取值，将n个取值从小到大排序
划分点t（数值）将划分为两个子集
• 欠拟合：学习器学习能力低下，对训练样本的一般性质尚未学好。
过拟合无法彻底避免，只能做到“缓解”。
剪枝，即通过主动去掉一些分支来降低过拟合的风险。预剪枝
决策树的剪枝策略后剪枝
预剪枝：在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点
• 不确定性函数
是概率
的单调递减函数；
• 可加性：两个独立符号所产生的不确定性应等于各自不确定性之和，
即
同时满足这三个条件的函数
是负的对数函数，即
一个事件的信息量就是这个事件发生的概率的负对数。信息熵是跟所有事件的可能性有关的，是平均而言发生一个事件得到的信息量大小。所以信息熵其实是信息量的期望。
决策树
• 训练时间开销比未减枝和预剪枝决策树大得多
1. 生产完全决策树 2. 所有非叶节点逐一考察
知识回顾：
1. 四类学习任务
2. Hunt算法3种递归返回情形、第8行
3. 3种度量结点“纯度”的指标：
4. 信息增益 ID3
5. 增益率
C4.5
6. 基尼指数 CART
7. 过拟合、欠拟合
8. 决策树剪枝 9. 预剪枝 10.后剪枝
半监督学习：输入数据部分被标识，部分没有被标识，介于监督学习与非监督学习之间。
决策树（decision tree）模型常常用来解决分类和回归问题。常见的算法包括 CART (Classification And Regression Tree)、ID3、C4.5等。
二分类学习任务属性属性值
三种度量结点“纯度”的指标： 1. 信息增益 2. 增益率 3. 基尼指数
1. 信息增益信息熵
香农提出了“信息熵”的概念，解决了对信息的量化度量问题。
香农用“信息熵”的概念来描述信源的不确定性。
对于二分类任务
假设我们已经知道衡量不确定性大小的这个量已经存在了，不妨就叫做“信息量”
• 不会是负数
信息增益
一般而言，信息增益越大，则意味着使用属性a来进行划分所获得的“纯度提升”越大。
决策树算法第8行选择属性著名的ID3决策树算法
举例：求解划分根结点的最优划分属性
数据集包含17个训练样例： 8个正例（好瓜）占
9个反例（坏瓜）占
对于二分类任务
以属性“色泽”为例计算其信息增益
根结点的信息熵：
决策树(完整)
2020年5月23日星期六
第4章决策树
根据训练数据是否拥有标记信息
监督学习(supervised learning)
分类、回归
无监督学习(unsupervised learning)
聚类
学习任务
半监督学习(semi-supervised learning)
强化学习(reinforcement learning)
精度：正确分类的样本占所有样本的比例
验证集：4,5,8,9,11,12,13
1,2,3,14
4,5,13 (T,T,F)
6,7,15,17
8,9 (T,F)
10,16
11,12 (T,T)
预剪枝使得决策树的很多分支都没有“展开”
优点： • 降低过拟合的风险 • 减少了训练时间开销
和测试时间开销
不足： • 基于“贪心”本质禁止某些分支展开，带来了欠拟合的风险
后剪枝
先从训练集生成一棵完整的决策树，然后自底向上地
对非叶结点进行考察，若将该结点对应的子树替换为叶结
点能带来决策树泛化性能提升，则将该子树替换为叶结点
训练集：好瓜。坏瓜
验证集：4,5,8,9,11,12
1,2,3,6,7,10,14,15,16,17
用“色泽”将根结点划分后获得3个分支结点的信息熵分别为：属性“色泽”的信息增益为：
若把“编号”也作为一个候选划分属性，则属性“编号”的信息增益为：
根结点的信息熵仍为
：
用“编号”将根结点划分后获得 17个分支结点的信息熵均为：
则“编号”的信息增益为：
远大于其他候选属性信息增益准则对可取值数目较多的属性有所偏好
6,7,15,17
4,13 (T,F)
5 (F 6 )
7 9 (F )
6,7,15 17
7,15
15 8 (F )
11,12 (T,T)
减去结点⑥ 验证集变为：
考察结点顺序： ⑥⑤②③①
8,9 (T,F)
验证集精度：
后剪枝决策树预剪枝决策树
• 保留了更多的分支 • 欠拟合风险很小 • 泛化能力优于预剪枝
• 根结点：包含全部样本 • 叶结点：对应决策结果 “好瓜” “坏瓜” • 内部结点：对应属性测试
决策树学习的目的：为了产生一颗泛化能力强的决策树，即处理未见示例能力强。
Hunt算法：
无需划分
无法划分无法划分
不能划分不能划分
1,2,3,4,5,6,8,10,15
1,2,3,4,5 6,8,15
后剪枝：先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。留出法：将数据集D划分为两个互斥的集合：训练集S和测试集T
且
预剪枝
训,16,17
10
6
8,15
8
15
第（2）种情形：设定为该结点所含样本最多的类别利用当前结点的后验分布
第（3）种情形：设定为其父结点所含样本最多的类别把父结点的样本分布作为当前结点的先验分布
决策树学习的关键是算法的第8行：选择最优划分属性
什么样的划分属性是最优的？
我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”越来越高，可以高效地从根结点到达叶结点，得到决策结果。
2. 增益率
增益率准则对可取值数目较少的属性有所偏好著名的C4.5决策树算法综合了信息增益准则和信息率准则的特点：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。
3. 基尼指数基尼值
基尼指数
著名的CART决策树算法
• 过拟合：学习器学习能力过于强大，把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，导致泛化性能下降。