决策树例题

合集下载

多阶段决策树例题经典案例

多阶段决策树例题经典案例朋友们！今天咱们来唠唠多阶段决策树这个挺有意思的玩意儿，顺便看看一个经典案例，让你一下子就明白它到底咋回事儿。

想象一下啊，你是一个小老板，打算开一家特色小吃店。

这可就面临着一系列的决策啦，就像走在一个有好多岔路口的路上，每个选择都可能把你带到不同的地方。

这时候，多阶段决策树就派上用场了，它就像是你手里的一张超级地图，帮你看清每个选择后面可能会发生的事儿。

比如说，你首先得决定小吃店开在哪儿。

是选在热闹的商业街，那里人流量大，但租金也高得吓人；还是选在相对安静的居民区，租金便宜，可客源可能就没那么多。

这就是第一个决策阶段。

假设你选了商业街，那接着又面临新问题啦。

你得决定主打什么小吃。

是卖香喷喷的烤串，大家都爱吃，但是竞争也激烈；还是卖独具特色的章鱼小丸子，新奇一点，不过可能需要花时间让大家接受。

这就是第二个决策阶段。

咱接着往下想啊。

假如你决定卖烤串，那又得考虑烤串的口味和定价。

是走高端路线，用最好的食材，卖贵一点；还是走亲民路线，食材普通点，价格实惠，薄利多销。

这又是一个新的决策点。

我们可以把这些决策过程画成一个像树一样的图。

最开始的那个“开在哪儿”的决策就是树干，然后根据不同的选择，长出不同的树枝，每个树枝又代表着下一个决策阶段的各种可能。

比如说选商业街这个树枝，又会分出“卖烤串”“卖章鱼小丸子”等小树枝，再往下又会继续分叉。

那怎么根据这个决策树来做决定呢？这就需要考虑每个选择后面可能带来的收益和风险啦。

比如说在商业街卖烤串走高端路线，可能前期投入成本高，但是如果能吸引到那些对品质有要求的顾客，利润也会很可观；走亲民路线呢，可能一开始顾客会多一些，但是利润相对薄一点。

咱再举个具体点儿的例子算算账哈。

假设在商业街开小吃店，租金一个月1万。

如果卖烤串走高端路线，食材成本高，一串成本5块，卖15块，一天能卖100串，一个月按30天算，毛收入就是45000块，去掉成本和租金，净利润可能有2万左右。

决策树例题经典案例三个方案

决策树例题经典案例三个方案
为了适应市场的需要，某地准备扩大电视机生产。

市场预测表明：产品销路好的概率为0.7；销路差的概率为0.3。

备选方案有三个：第一个方案是建设大工厂，需要投资600万元，可使用10年；如销路好，每年可赢利200万元；如销路不好，每年会亏损40万元。

第二个方案是建设小工厂，需投资280万元；如销路好，每年可赢利80万元；如销路不好，每年也会赢利60万元。

第三个方案也是先建设小工厂，但是如销路好，3年后扩建，扩建需投资400万元，可使用7年，扩建后每年会赢利190万元。

各点期望：
点②：0.7×200×10+0.3×（-40）×10-600（投资）=680（万元）
点⑤：1.0×190×7-400=930（万元）
点⑥：1.0×80×7=560（万元）
比较决策点4的情况可以看到，由于点⑤（930万元）与点⑥（560万元）相比，点⑤的期望利润值较大，因此应采用扩建的方案，而舍弃不扩建的方案。

把点⑤的930万元移到点4来，可计算出点③的期望利润值。

点③：0.7×80×3+0.7×930+0.3×60×（3+7）-280 = 719（万元）
最后比较决策点1的情况。

由于点③（719万元）与点②（680万元）相比，点③的期望利润值较大，因此取点③而舍点②。

这样，相比之下，建设大工厂的方案不是最优方案，合理的策略应采用前3年建小工厂，如销路好，后7年进行扩建的方案。

决策树信息增益例题

决策树是一种常用的机器学习算法，用于分类和回归问题。

其中，信息增益是用来衡量在特征选择过程中一个特征对于分类结果的重要程度。

下面是一个关于信息增益的例题：
假设我们有一个数据集，其中包含以下属性和对应的分类结果：
-属性A：天气（晴天、多云、雨天）
-属性B：温度（高、中、低）
-属性C：湿度（高、中、低）
-分类结果：是否玩球（是、否）
我们的目标是利用决策树算法来构建一个分类模型，判断在给定的天气、温度和湿度条件下，是否适合玩球。

现在，我们要确定在构建决策树时，首先选择哪个属性作为根节点。

我们可以通过计算每个属性的信息增益来进行比较。

首先，计算整个数据集的经验熵（Ent(D)）：
Ent(D) = -p(yes) * log2(p(yes)) - p(no) * log2(p(no))
然后，计算属性 A 的信息增益（Gain(A)）：
Gain(A) = Ent(D) - p(sunny) * Ent(D_sunny) - p(overcast) * Ent(D_overcast) - p(rainy) * Ent(D_rainy)
其中，D_sunny、D_overcast、D_rainy 分别表示在天气为晴天、多云和雨天时的样本子集，而Ent(D_sunny)、Ent(D_overcast)、Ent(D_rainy) 分别表示这些子集的经验熵。

接着，计算属性 B 和属性 C 的信息增益，依此类推。

最后，比较不同属性的信息增益，选择信息增益最大的属性作为根节点，继续构建决策树。

通过计算每个属性的信息增益，我们可以确定构建决策树时的特征选择顺序，以及每个节点的划分规则，从而实现对新样本进行分类预测。

决策树例题经典案例280

决策树例题经典案例280决策树是一种常用的机器学习算法，它可以用于分类和回归任务。

决策树通过对数据集进行分割，构建一个树形结构，从而实现对数据的预测或分类。

在本文中，我们将通过经典案例来介绍决策树的应用和实现。

案例背景：假设我们有一个电商平台，我们希望通过用户的行为数据来预测用户是否会购买某种产品。

我们收集了一些用户的行为数据，包括浏览页面次数、点击广告次数、加入购物车次数等。

我们希望通过这些数据来构建一个决策树模型，从而预测用户的购买行为。

数据集：我们收集了1000个用户的行为数据，每个用户有以下特征：1. 浏览页面次数（0-100）。

2. 点击广告次数（0-10）。

3. 加入购物车次数（0-5）。

4. 是否购买（是/否）。

数据预处理：在构建决策树模型之前，我们需要对数据进行预处理。

首先，我们将数据集分为训练集和测试集，其中训练集占80%，测试集占20%。

然后，我们对特征进行归一化处理，将所有特征缩放到0-1之间，以便模型能够更好地学习特征之间的关系。

决策树模型构建：我们使用Python中的scikit-learn库来构建决策树模型。

首先，我们选择合适的决策树算法，比如ID3、CART等。

然后，我们通过训练集来训练模型，调整模型的参数，如最大深度、最小样本分割数等，以提高模型的准确性和泛化能力。

模型评估：在模型训练完成后，我们需要对模型进行评估。

我们使用测试集来评估模型的准确性、精确度、召回率等指标，以及绘制ROC曲线、混淆矩阵等来评估模型的性能。

模型预测：最后，我们使用训练好的决策树模型来对新的用户数据进行预测。

当有新的用户数据输入时，模型可以根据用户的行为特征来预测用户是否会购买产品，从而为电商平台提供决策支持。

总结：通过本案例的介绍，我们了解了决策树在电商平台中的应用。

决策树模型可以通过用户的行为数据来预测用户的购买行为，为电商平台提供决策支持。

同时，我们也学习了如何使用Python中的scikit-learn库来构建和评估决策树模型。

决策树例题分析

7
决策过程如下:画图，即绘制决策树
• A1的净收益值=[300×0.7+（-60）×0.3] ×5-450=510 万
• A2的净收益值=（120×0.7+30×0.3）×5-240=225万 • 选择：因为A1大于A2，所以选择A1方案。 • 剪枝：在A2方案枝上打杠，表明舍弃。
8
例题
• 为了适应市场的需要，某地提出了扩大电视机生产的两个方案。一个方案是建设大工厂，第二个方案是建设小工厂。
11
最后比较决策点1的情况： • 由于点③（719万元）与点②（680万元）
相比，点③的期望利润值较大，因此取点③而舍点②。这样，相比之下，建设大工厂的方案不是最优方案，合理的策略应采用前3年建小工厂，如销路好，后 7年进行扩建的方案。
12
3
状态节点
2 方案分枝
1 决策结点
方案分枝
3
状态节点
概率分枝 4 结果节点
概率分枝 5 结果节点
概率分枝 6
结果节点
概率分枝 7
结果节点
4
• 应用决策树来作决策的过程，是从右向左逐步后退进行分析。根据右端的损益值和概率枝的概率，计算出期望值的大小，确定方案的期望结果，然后根据不同方案的期望结果作出选择。
自然状态概率建大厂（投资25 建小厂（投资10
万元）
万元）
原料800担 0.8 原料2000担 0.2
13.5 25.5
15.0 15.0
2
补充：风险型决策方法——决策树方法
• 风险决策问题的直观表示方法的图示法。因为图的形状像树，所以被称为决策树。
• 决策树的结构如下图所示。图中的方块代表决策节点，从它引出的分枝叫方案分枝。每条分枝代表一个方案，分枝数就是可能的相当方案数。圆圈代表方案的节点，从它引出的概率分枝，每条概率分枝上标明了自然状态及其发生的概率。概率分枝数反映了该方案面对的可能的状态数。末端的三角形叫结果点，注有各方案在相应状态下的结果值。

【决策树习题练习(答案)】

【决策树习题练习（答案）】决策树习题练习答案 1.某投资者预投资兴建一工厂，建设方案有两种：①大规模投资300万元；②小规模投资160万元。

两个方案的生产期均为10年，其每年的损益值及销售状态的规律见表15。

试用决策树法选择最优方案。

表1 各年损益值及销售状态销售状态概率损益值（万元/年）大规模投资小规模投资销路好 0.7 100 60 销路差 0.3 -20 20 【解】（1）绘制决策树，见图1；100×10 -20×10 60×10 20×10 销路好0.7 销路差（0.3）销路好0.7 销路差（0.3）大规模小规模 340 340 320 2 3 1 图1 习题1决策树图（2）计算各状态点的期望收益值节点②：节点③：将各状态点的期望收益值标在圆圈上方。

（3）决策比较节点②与节点③的期望收益值可知，大规模投资方案优于小规模投资方案，故应选择大规模投资方案，用符号“//”在决策树上“剪去”被淘汰的方案。

2.某项目有两个备选方案A和B，两个方案的寿命期均为10年，生产的产品也完全相同，但投资额及年净收益均不相同。

A方案的投资额为500万元，其年净收益在产品销售好时为150万元，，销售差时为50万元；B方案的投资额为300万元，其年净收益在产品销路好时为100万元，销路差时为10万元，根据市场预测，在项目寿命期内，产品销路好时的可能性为70%,销路差的可能性为30％，试根据以上资料对方案进行比选。

已知标准折现率ic=10%。

【解】（1）首先画出决策树 150 50 100 10 销路好0.7 销路差0.3 销路好0.7 销路差0.3 -500 -300 2 3 1 图2 决策树结构图此题中有一个决策点，两个备用方案，每个方案又面临着两种状态，因此可以画出其决策树如图18。

（2）然后计算各个机会点的期望值机会点②的期望值＝150（P/A,10%,10）×0.7+(-50)（P/A,10%,10）×0.3=533(万元) 机会点③的期望值＝100（P/A,10%,10）×0.7+10（P/A,10%,10）×0.3=448.5(万元) 最后计算各个备选方案净现值的期望值。

将决策树转换为分类规则例题

将决策树转换为分类规则例题
决策树是一种常见的机器学习模型，用于分类和预测任务。

将决策树转换为分类规则是一种将决策树模型转换为人类可读形式的方法，以便更好地理解和解释模型的决策过程。

下面我将以一个简单的例子来说明如何将决策树转换为分类规则。

假设我们有一个简单的决策树模型，用于预测一个人是否会购买某种产品。

这个决策树包含以下三个节点：
1. 如果年龄小于30岁且收入大于50000，则购买产品。

2. 如果年龄大于等于30岁且收入大于70000，则购买产品。

3. 如果年龄大于等于30岁且收入小于等于70000，则不购买产品。

现在我们将这个决策树转换为分类规则：
规则1，如果年龄<30且收入>50000，则购买产品。

规则2，如果年龄>=30且收入>70000，则购买产品。

规则3，如果年龄>=30且收入<=70000，则不购买产品。

通过将决策树转换为分类规则，我们可以清晰地看到模型是如何做出预测的。

这些规则更容易理解和解释，有助于我们对模型的预测过程有更深入的理解。

需要注意的是，实际应用中的决策树可能更加复杂，包含更多的节点和分支。

将复杂的决策树转换为分类规则可能会产生大量的规则，需要仔细权衡规则的数量和可解释性之间的平衡。

总之，将决策树转换为分类规则是一种有助于理解和解释模型决策过程的方法，可以帮助我们更好地理解模型的预测行为。

c4.5决策树例题

c4.5决策树例题决策树是一种常见的机器学习算法，用于分类和预测任务。

C4.5是决策树算法的一种改进版本，可以处理具有多个特征和多个类别的数据集。

下面是一个关于购买电子产品的例题，展示C4.5决策树的具体步骤：假设我们要根据以下属性来预测一个人是否会购买电子产品：1.年龄：青年、中年、老年2.收入：低、中、高3.学历：中学、大学、研究生4.信用等级：差、一般、良好、优秀我们有一个包含以下训练数据的数据集：以下是C4.5决策树的具体步骤：步骤1：计算初始熵计算每个可能的类别的初始熵。

在这个例子中，购买电子产品的可能类别是是和否，因此初始熵为：H(D) = -((6/10) * log2(6/10) + (4/10) * log2(4/10)) ≈ 0.971步骤2：计算每个属性的信息增益计算每个属性的信息增益（即使用该属性进行划分后的熵的减少量）。

对于每个属性，计算其每个可能值的条件熵，并将其与初始熵进行比较来计算信息增益。

具体步骤如下：a) 对于属性"年龄"，计算其各个值的条件熵：•年龄=青年：购买(2是, 2否)，条件熵=-((2/4) * log2(2/4) + (2/4) * log2(2/4)) = 1.0•年龄=中年：购买(3是, 1否)，条件熵=-((3/4) * log2(3/4) + (1/4) * log2(1/4)) ≈ 0.811•年龄=老年：购买(1是, 1否)，条件熵=-((1/2) * log2(1/2) + (1/2) * log2(1/2)) = 1.0然后，计算年龄属性的信息增益：Gain(年龄) = H(D) - ((4/10) *1.0 + (4/10) * 0.811 + (2/10) * 1.0) ≈ 0.124b) 对于属性"收入"，计算其各个值的条件熵：•收入=低：购买(1是, 1否)，条件熵=-((1/2) * log2(1/2) + (1/2) * log2(1/2)) = 1.0•收入=中：购买(3是, 1否)，条件熵=-((3/4) * log2(3/4) + (1/4) * log2(1/4)) ≈ 0.811•收入=高：购买(2是, 2否)，条件熵=-((2/4) * log2(2/4) + (2/4) * log2(2/4)) = 1.0然后，计算收入属性的信息增益：Gain(收入) = H(D) - ((2/10) * 1.0 + (4/10) * 0.811 + (4/10) * 1.0) ≈ 0.291c) 对于属性"学历"，计算其各个值的条件熵：•学历=中学：购买(1是, 1否)，条件熵=-((1/2) * log2(1/2) + (1/2) * log2(1/2)) = 1.0•学历=大学：购买(3是, 2否)，条件熵=-((3/5) * log2(3/5) + (2/5) * log2(2/5)) ≈ 0.971•学历=研究生：购买(3是, 1否)，条件熵=-((3/4) * log2(3/4) + (1/4) * log2(1/4)) ≈ 0.811然后，计算学历属性的信息增益：Gain(学历) = H(D) - ((2/10) *1.0 + (5/10) * 0.971 + (3/10) * 0.811) ≈ 0.128d) 对于属性"信用等级"，计算其各个值的条件熵：•信用等级=差：购买(0是, 1否)，条件熵=0•信用等级=一般：购买(1是, 1否)，条件熵=-((1/2) * log2(1/2) + (1/2) * log2(1/2)) = 1.0•信用等级=良好：购买(2是, 1否)，条件熵=-((2/3) * log2(2/3) + (1/3) * log2(1/3)) ≈ 0.918•信用等级=优秀：购买(3是, 1否)，条件熵=-((3/4) * log2(3/4) + (1/4) * log2(1/4)) ≈ 0.811然后，计算信用等级属性的信息增益：Gain(信用等级) = H(D) - ((1/10) * 0 + (2/10) * 1.0 + (3/10) * 0.918 + (4/10) * 0.811) ≈ 0.115步骤3：选择信息增益最大的属性作为当前节点的划分属性根据信息增益，选择信息增益最大的属性作为当前节点的划分属性。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

决策树例题
简介
决策树是一种常用的机器学习算法，它通过构建树形结构
来对数据进行分类或回归分析。

它是一种基于规则的分类模型，通过对特征进行划分，不断递归地构建决策节点和叶节点，最终生成一棵树，以实现对新样本的分类预测。

决策树的应用广泛，比如在风险评估、医学诊断、金融分
析等领域都有广泛的应用。

本文将通过一个具体的例题，介绍决策树的基本原理和应用方法。

例题背景
假设我们是一家电商公司，我们想通过决策树分析购买行
为来预测用户是否会购买某个产品。

我们收集了一些样本数据，包含了用户的特征和购买行为的标签。

现在我们要基于这些数据构建一个决策树模型来预测用户的购买行为。

数据集
我们的数据集包含以下几个特征：
•年龄：年龄段（青年、中年、老年）
•收入：收入水平（低、中、高）
•学历：学历等级（小学、中学、大学）
•职业：职业类型（工人、农民、教师）
•是否购买：购买行为标签（是、否）下面是一个样本数据集的例子：
年龄收入学历职业是否购买
青年中中学工人否
中年高大学农民是
老年中小学工人是
……………
解决方案
为了构建决策树模型，我们需要进行以下几个步骤：
1. 特征选择
特征选择是决策树构建的关键一步，它决定了如何将特征进行划分。

常用的特征选择方法有信息增益、信息增益比、基尼指数等。

在本例中，我们可以使用信息增益来选择特征。

2. 构建决策树
根据选择的特征，我们可以递归地构建决策树。

每个决策节点都是一个特征值，每个叶节点都是一个购买行为标签。

我们可以使用递归算法来构建决策树。

3. 决策树的剪枝
决策树的剪枝是为了防止过拟合，提高决策树模型的泛化能力。

常用的剪枝方法有预剪枝和后剪枝两种。

预剪枝是在构建决策树的过程中进行剪枝，后剪枝是在构建完整的决策树后再进行剪枝。

具体选择哪种剪枝方法取决于实际情况。

4. 模型评估
在构建完决策树模型后，我们需要对模型进行评估。

常用的评估指标有准确率、召回率、F1值等。

我们可以使用交叉验证等方法来评估模型的性能。

总结
决策树是一种常用的分类和回归分析算法，它通过构建树形结构来对数据进行分类或预测。

本文以一个电商购买行为的例题为例，介绍了决策树的基本原理和应用方法。

通过选择特征、构建决策树并进行剪枝，我们可以建立一个准确率较高的购买行为预测模型。

在实际应用中，我们还可以通过调整决策树的参数和使用集成学习等方法来进一步提高模型的性能。

希望本文对大家理解决策树算法有所帮助，谢谢阅读！
参考文献：
1.Mitchell, T. M. (1997). Machine Learning. 以我给的
标题写文档最低1200字要求以Markdown文本格式输出
2.Dietterich, T. G. (1986). Inductive learning of tree-
based classifiers. Artificial Intelligence, 40(1-3), 201-226.。