小晨精品06-机器学习_(决策树分类算法与应用)(优秀)

合集下载

决策树例题经典案例

决策树例题经典案例1. 引言决策树是一种常见且有用的机器学习算法，在许多实际问题中都得到了广泛应用。

它是一种基于树结构的分类模型，通过对数据的特征进行判断，构建出一个树状的决策过程。

本文将通过一个经典的案例，来介绍决策树的基本原理和应用。

2. 案例背景假设我们是一家电子商务平台的运营团队，我们最近推出了一种新产品，并希望根据用户的特征来预测他们是否会购买这个产品。

为了解决这个问题，我们决定使用决策树算法来构建一个分类模型。

3. 数据集介绍我们已经收集了一些用户的相关数据，包括年龄、性别、收入和是否购买产品。

数据集如下：用户ID年龄性别收入是否购买产品125男5000元以上是230女3000-5000元是335男3000-5000元否440男3000-5000元否535男3000-5000元是645女5000元以上是750男2000-3000元否860男3000-5000元是4. 构建决策树模型在构建决策树模型之前，我们需要对数据进行预处理。

首先，将年龄、性别和收入这些特征进行编码转换，方便计算机处理。

然后，将数据集分为训练集和测试集，训练集用于构建模型，测试集用于评估模型的性能。

接下来，我们使用Python中的scikit-learn库来构建决策树模型。

首先，导入相关的库和模块：from sklearn import treeimport pandas as pd然后，读取数据并进行特征编码：data = pd.read_csv('data.csv')# 特征编码data['年龄'] = data['年龄'].map({'25': 0, '30': 1, '35': 2, '40': 3, '45': 4, '50': 5, '60': 6}) data['性别'] = data['性别'].map({'男': 0, '女': 1}) data['收入'] = data['收入'].map({'5000元以上': 0, '3000-5000元': 1, '2000-3000元': 2})# 提取特征和标签X = data[['年龄', '性别', '收入']]y = data['是否购买产品']接着，创建决策树模型并训练：# 创建决策树模型model = tree.DecisionTreeClassifier()# 训练模型model.fit(X, y)最后，使用测试集评估模型的性能：```python # 读取测试集数据 test_data =pd.read_csv(’test_data.csv’)特征编码test_data[‘年龄’] = test_data[‘年龄’].map({’25’: 0, ‘30’: 1, ‘35’: 2, ‘40’: 3, ‘45’: 4, ‘50’: 5, ‘60’: 6}) test_data[‘性别’] = test_data[‘性别’].map({’男’: 0, ‘女’: 1}) test_data[‘收入’] = test_data[‘收入’].map({’5000元以上’: 0, ‘3000-5000元’: 1, ‘2000-3000元’: 2})提取特征和标签X_test = test_data[[‘年龄’, ‘性别’, ‘收入’]] y_test = test_data[‘是否购买产品’]预测结果y_pred = model.predict(X_test)计算准确率accuracy = (y_pred == y_test).mean() print(。

机器学习精选ppt精选全文

人工神经网络
人工神经网络
1 生物神经元及人工神经元的组成2 人工神经网络的模型 2 .1 人工神经元的模型 2 .2 常用的激活转移函数 2 .3 MP模型神经元
1、生物神经元及人工神经元的组成
神经元也称神经细胞，它是生物神经系统的最基本单元，它和人体中其他细胞的关键区别在于具有产生、处理和传递信号的功能。每个神经元都包括三个主要部分：细胞体、树突和轴突，见图5（a）。
5
监督学习
决策树（简单问题）人工神经网络（大量样本）支持向量机（小样本）
决策树学习
决策树学习 1．什么是决策树决策树(decision tree)也称判定树，它是由对象的若干属性、属性值和有关决策组成的一棵树。其中的节点为属性（一般为语言变量），分枝为相应的属性值（一般为语言值）。从同一节点出发的各个分枝之间是逻辑“或”关系；根节点为对象的某一个属性；从根节点到每一个叶子节点的所有节点和边，按顺序串连成一条分枝路径，位于同一条分枝路径上的各个“属性-值”对之间是逻辑“与”关系，叶子节点为这个与关系的对应结果，即决策。例如图1就是一棵决策树。其中，A, B, C代表属性，ai, bj, ck代表属性值，dl代表对应的决策。处于同一层的属性（如图中的B, C）可能相同，也可能不相同，所有叶子节点（如图中的dl ，l=1,2,…, 6）所表示的决策中也可能有相同者。
由图1不难看出，一棵决策树上从根节点到每一个叶子节点的分枝路径上的诸“属性-值”对和对应叶子节点的决策，刚好就构成一个产生式规则：诸“属性-值”对的合取构成规则的前提，叶子节点的决策就是规则的结论。例如，图1中从根节点A到叶子节点d2的这一条分枝路径就构成规则：(A= a1)∧(B = b2) => d2而不同分枝路径所表示的规则之间为析取关系。

决策树的三种算法

决策树的三种算法一、决策树算法的简单介绍决策树算法就像是一个超级智能的树状决策指南。

你可以把它想象成一棵倒着长的树，树根在上面，树枝和树叶在下面。

它的任务呢，就是根据不同的条件来做出各种决策。

比如说，你想决定今天穿什么衣服，天气就是一个条件，如果天气冷，你可能就选择穿厚衣服；如果天气热，那薄衣服就比较合适啦。

决策树算法在很多地方都超级有用，像预测一个人会不会买某个商品，或者判断一个邮件是不是垃圾邮件之类的。

二、决策树的三种算法1. ID3算法这个算法就像是一个很会找重点的小机灵鬼。

它主要是根据信息增益来构建决策树的。

啥是信息增益呢？就是通过计算某个属性带来的信息量的增加。

比如说，在判断一个水果是苹果还是香蕉的时候，颜色这个属性可能就有很大的信息增益。

如果一个水果是红色的，那它是苹果的可能性就比较大。

ID3算法会优先选择信息增益大的属性来作为树的节点，这样就能更快更准地做出决策啦。

不过呢，这个算法也有个小缺点，就是它比较容易对噪声数据敏感，就像一个很敏感的小娃娃，稍微有点风吹草动就可能受到影响。

2. C4.5算法C4.5算法就像是ID3算法的升级版。

它在ID3算法的基础上做了一些改进。

它不仅仅考虑信息增益，还考虑了信息增益率。

这就好比是一个更加全面考虑的智者。

通过考虑信息增益率，它能够更好地处理那些属性值比较多的情况。

比如说，在一个数据集中有一个属性有很多很多不同的值，C4.5算法就能比ID3算法更好地处理这种情况，不会轻易地被这种复杂情况给弄晕。

而且C4.5算法还能够处理连续的属性值，这就像是它多了一项特殊的技能，让它在更多的情况下都能发挥作用。

3. CART算法CART算法又有自己的特点。

它使用的是基尼系数来选择属性进行划分。

基尼系数就像是一个衡量公平性的小尺子，在决策树这里，它是用来衡量数据的纯度的。

如果基尼系数越小，说明数据越纯，就越容易做出准确的决策。

CART算法既可以用于分类问题，就像前面说的判断水果是苹果还是香蕉这种，也可以用于回归问题，比如预测房价之类的。

决策树例题经典案例

决策树例题经典案例决策树是一种常用的机器学习算法，它可以用于解决分类和回归问题。

在这篇文档中，我们将探讨一个经典的决策树例题，并详细介绍如何使用决策树算法来解决这个问题。

首先，让我们来看看这个经典案例的背景。

假设我们是一个电商平台，我们希望根据用户的购买历史和个人信息，来预测用户是否会购买一款新的产品。

为了解决这个问题，我们将使用决策树算法来构建一个模型，用于预测用户购买的结果。

接下来，我们需要收集数据来训练决策树模型。

针对这个问题，我们可以收集一些用户的购买历史数据和个人信息数据，比如用户的性别、年龄、收入水平，以及之前购买的产品的种类和数量等。

在收集到足够的数据后，我们可以开始构建决策树模型了。

首先，我们需要将数据分成训练集和测试集，通常我们将数据的70%用于训练，30%用于测试。

然后，我们可以使用训练集的数据来构建决策树模型。

在构建决策树模型之前，我们需要选择一个合适的划分准则来衡量每个特征的重要性。

在这个例子中，我们可以使用基尼指数作为划分准则。

基尼指数用于度量一个数据集的不纯度，越小表示数据越纯。

接下来，我们需要选择一个最佳的特征来作为根节点。

在这个例子中，我们可以选择购买历史中最常购买的产品作为根节点。

然后，我们根据该特征的取值将数据划分成若干个子集，每个子集对应一个分支节点。

在每个分支节点中，我们需要继续选择一个最佳的特征来作为子节点。

在选择特征的过程中，我们可以使用递归的方法，不断地将数据划分为更小的子集，直到满足某个停止条件。

在构建决策树的过程中，我们需要注意一些问题。

首先，我们需要处理缺失值。

在训练集中，有些用户可能没有提供某些特征的值，我们可以使用一些方法来填补这些缺失值，比如使用平均值或中位数。

其次，我们需要处理特征的取值类型。

有些特征是离散型的，有些是连续型的。

对于离散型的特征，我们可以直接将其作为树的分支节点，而对于连续型的特征，我们需要使用一些方法将其转化为离散型的特征，比如使用二分法来分割特征的取值范围。

决策树在生活中的例子

决策树在生活中的例子决策树是一种常见的机器学习算法，它通过一系列的决策规则来对数据进行分类或预测。

这些决策规则可以用树状图形式表示，每个内部节点表示一个特征或属性，每个叶子节点表示一个类别或是一个预测的结果。

决策树的可解释性和易于理解的特点使得它在生活中有着广泛的应用。

以下是生活中常见的决策树的例子：1.疾病诊断决策树：医生在进行疾病诊断时，通常会根据患者的症状和检测结果，利用决策树来判断患者可能患有的疾病类型。

例如，医生可以通过询问患者是否有发烧、咳嗽等症状来进行初步判断，然后根据进一步的检测结果来确认疾病的类型。

2.贷款申请决策树：银行在进行贷款申请审核时，会根据申请人的个人信息（如年龄、工作年限、征信记录等）以及贷款金额等因素，利用决策树来判断该申请是否应该得到批准。

例如，银行可以根据申请人的年龄和工作年限来判断其信用等级，从而决定是否批准贷款申请。

3.产品推荐决策树：电商网站通常会根据用户的浏览历史、购买记录等信息，利用决策树来推荐相关产品给用户。

例如，当一个用户浏览了几个相似的产品时，网站可以根据用户的浏览记录和购买记录来推测该用户对其他相似产品的兴趣，从而向用户推荐相关的产品。

4.旅行路线决策树：当人们计划旅行时，他们通常会面临选择旅行目的地和路线的问题。

决策树可以帮助人们做出决策。

例如，当人们根据旅行偏好、时间和预算等因素，在一组候选目的地中进行选择时，决策树可以根据这些因素来帮助人们决定最佳的旅行目的地和路线。

5.个人理财决策树：当人们面临个人理财决策时，决策树可以作为辅助工具。

例如，当人们考虑是否购买其中一种投资产品时，决策树可以根据他们的风险偏好、投资目标和市场状况等因素来帮助他们决策。

决策树还可以帮助人们制定个人预算和理财计划。

决策树在生活中的应用不仅限于上述例子，而且还可以扩展到更多的领域，例如教育、市场营销、自然灾害预测等。

通过采用适当的特征选择和数据预处理方法，决策树能够提供准确和可解释的结果，使得人们能够更好地做出决策。

决策树(完整)

无缺失值样本中在属性上取值的样本所占比例
无缺失值样本中在属性上取值的样本所占比例
ቤተ መጻሕፍቲ ባይዱ
谢谢大家！
举例：求解划分根结点的最优划分属性
根结点的信息熵：
用“色泽”将根结点划分后获得3个分支结点的信息熵分别为：
属性“色泽”的信息增益为：
若把“编号”也作为一个候选划分属性，则属性“编号”的信息增益为：
根结点的信息熵仍为：
用“编号”将根结点划分后获得17个分支结点的信息熵均为：
则“编号”的信息增益为：
三种度量结点“纯度”的指标：信息增益增益率基尼指数
1. 信息增益
香农提出了“信息熵”的概念，解决了对信息的量化度量问题。香农用“信息熵”的概念来描述信源的不确定性。
信息熵
信息增益
一般而言，信息增益越大，则意味着使用属性a来进行划分所获得的“纯度提升”越大。决策树算法第8行选择属性
著名的ID3决策树算法
远大于其他候选属性信息增益准则对可取值数目较多的属性有所偏好
2. 增益率
增益率准则对可取值数目较少的属性有所偏好著名的C4.5决策树算法综合了信息增益准则和信息率准则的特点：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。
3. 基尼指数
基尼值
基尼指数
著名的CART决策树算法
过拟合：学习器学习能力过于强大，把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，导致泛化性能下降。欠拟合：学习器学习能力低下，对训练样本的一般性质尚未学好。
过拟合无法彻底避免，只能做到“缓解”。
不足：基于“贪心”本质禁止某些分支展开，带来了欠拟合的风险
预剪枝使得决策树的很多分支都没有“展开”优点：降低过拟合的风险减少了训练时间开销和测试时间开销

决策树例题分析及解答

各点效益值计算过程是：
点2：13.5×0.8×3＋172.9×0.8＋25.5×0.2×3＋206.5×0.2－25(投资)=202.3万元
点3：15×0.8×3＋105×0.8＋15×0.2×3＋105×0.2－10（投资）=140万元
点4：21.5×0.6×7年＋29.5×0.4×7年=172.9万元
例：某农业企业有耕地面积33.333公顷，可供灌水量6300立方米，在生产忙季可供工作日2800个，用于种植玉米、棉花和花生三种作物。预计三种作物每公顷在用水忙季用工日数、灌水量和利润见表，在完成16.5万公斤玉米生产任务的前提下，如何安排三种作物的种植面积，以获得最大的利润。
作物类别
忙季需工作日数
建设大工厂需要投资600万元，可使用10年。销路好每年赢利200万元，销路不好则亏损40万元。
建设小工厂投资280万元，如销路好，3年后扩建，扩建需要投资400万元，可使用7年，每年赢利190万元。不扩建则每年赢利80万元。如销路不好则每年赢利60万元。
试用决策树法选出合理的决策方案。经过市场调查，市场销路好的概率为0.7，销路不好的概率为0.3。
甲
乙
丙
丁
需求量较高需求量一般需求量较低需求量很低
600 400 -150 -350
800 350 -350 -700
350 220 50 -100
40求量一般
需求量较低
需求量很低
max
甲
600
400
-150
-350
600
乙
800
350
-350
-700
800
*
1
4
2
3
6
5

决策树算法例题

决策树算法例题
一、决策树基本概念与原理
决策树是一种基于树结构的分类与回归模型。

它通过一系列的问题对数据进行划分，最终得到叶子节点对应的分类结果或预测值。

决策树的构建过程通常采用自上而下、递归划分的方法。

二、决策树算法实例解析
以一个简单的决策树为例，假设我们要预测一个人是否喜欢户外运动。

已知特征：性别、年龄、是否喜欢晒太阳。

可以通过以下决策树划分：
1.根据性别划分，男性为喜欢户外运动，女性为不喜欢户外运动。

2.若性别为男性，再根据年龄划分，年龄小于30分为喜欢户外运动，大于30分为不喜欢户外运动。

3.若性别为女性，无论年龄如何，均分为喜欢户外运动。

通过这个决策树，我们可以预测一个人是否喜欢户外运动。

三、决策树算法应用场景及优缺点
1.应用场景：分类问题、回归问题、关联规则挖掘等。

2.优点：易于理解、可解释性强、泛化能力较好。

3.缺点：容易过拟合、对噪声敏感、构建过程耗时较长。

四、实战演练：构建决策树解决实际问题
假设我们要预测房价，已知特征：面积、卧室数量、卫生间数量、距市中心距离。

可以通过构建决策树进行预测：
1.选择特征：根据相关性分析，选择距市中心距离作为最佳划分特征。

2.划分数据集：将数据集划分为训练集和测试集。

3.构建决策树：采用递归划分方法，自上而下构建决策树。

4.模型评估：使用测试集评估决策树模型的预测性能。

通过以上步骤，我们可以运用决策树算法解决实际问题。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

机器学习算法day04_决策树分类算法及应用课程大纲
课程目标：
1、理解决策树算法的核心思想
2、理解决策树算法的代码实现
3、掌握决策树算法的应用步骤：数据处理、建模、运算和结果判定
1. 决策树分类算法原理
1.1 概述
决策树（decision tree）——是一种被广泛使用的分类算法。

相比贝叶斯算法，决策树的优势在于构造过程不需要任何领域知识或参数设置
在实际应用中，对于探测式的知识发现，决策树更加适用
1.2 算法思想
通俗来说，决策树分类的思想类似于找对象。

现想象一个女孩的母亲要给这个女孩介绍男朋友，于是有了下面的对话：
女儿：多大年纪了？
母亲：26。

女儿：长的帅不帅？
母亲：挺帅的。

女儿：收入高不？
母亲：不算很高，中等情况。

女儿：是公务员不？
母亲：是，在税务局上班呢。

女儿：那好，我去见见。

这个女孩的决策过程就是典型的分类树决策。

实质：通过年龄、长相、收入和是否公务员对将男人分为两个类别：见和不见
假设这个女孩对男人的要求是：30岁以下、长相中等以上并且是高收入者或中等以上收入的公务员，那么这个可以用下图表示女孩的决策逻辑
上图完整表达了这个女孩决定是否见一个约会对象的策略，其中：
◆绿色节点表示判断条件
◆橙色节点表示决策结果
◆箭头表示在一个判断条件在不同情况下的决策路径
图中红色箭头表示了上面例子中女孩的决策过程。

这幅图基本可以算是一颗决策树，说它“基本可以算”是因为图中的判定条件没有量化，如收入高中低等等，还不能算是严格意义上的决策树，如果将所有条件量化，则就变成真正的决策树了。

决策树分类算法的关键就是根据“先验数据”构造一棵最佳的决策树，用以预测未知数据的类别
决策树：是一个树结构（可以是二叉树或非二叉树）。

其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。

使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

1.3 决策树构造
1.3.1 决策树构造样例
样本中有2个属性，A0表示是否红苹果。

A1表示是否大苹果。

假如要根据这个数据样本构建一棵自动判断苹果好坏的决策树。

由于本例中的数据只有2个属性，因此，我们可以穷举所有可能构造出来的决策树，就2棵，如下图所示：
显然左边先使用A0（红色）做划分依据的决策树要优于右边用A1（大小）做划分依据的决策树。

当然这是直觉的认知。

而直觉显然不适合转化成程序的实现，所以需要有一种定量的考察来评价这两棵树的性能好坏。

决策树的评价所用的定量考察方法为计算每种划分情况的信息熵增益：
如果经过某个选定的属性进行数据划分后的信息熵下降最多，则这个划分属性是最优选择1.3.2 属性划分选择（即构造决策树）的依据
熵：信息论的奠基人香农定义的用来信息量的单位。

简单来说，熵就是“无序，混乱”的程度。

通过计算来理解：
1、原始样本数据的熵：
样例总数：4
好苹果：2
坏苹果：2
熵： -(1/2 * log(1/2) +1/2 * log(1/2)) = 1
信息熵为1表示当前处于最混乱，最无序的状态。

2、两颗决策树的划分结果熵增益计算
●树1先选A0作划分，各子节点信息熵计算如下：
0，1叶子节点有2个正例，0个负例。

信息熵为：e1 = -(2/2 * log(2/2) + 0/2 * log(0/2)) = 0。

2，3叶子节点有0个正例，2个负例。

信息熵为：e2 = -(0/2 * log(0/2) + 2/2 * log(2/2)) = 0。

因此选择A0划分后的信息熵为每个子节点的信息熵所占比重的加权和：E = e1*2/4 + e2*2/4 = 0。

选择A0做划分的信息熵增益G（S, A0）=S - E = 1 - 0 = 1.
事实上，决策树叶子节点表示已经都属于相同类别，因此信息熵一定为0。

●树2先选A1作划分，各子节点信息熵计算如下：
0，2子节点有1个正例，1个负例。

信息熵为：e1 = -(1/2 * log(1/2) + 1/2 * log(1/2)) = 1。

1，3子节点有1个正例，1个负例。

信息熵为：e2 = -(1/2 * log(1/2) + 1/2 * log(1/2)) = 1。

因此选择A1划分后的信息熵为每个子节点的信息熵所占比重的加权和：E = e1*2/4 + e2*2/4 = 1。

也就是说分了跟没分一样！
选择A1做划分的信息熵增益G（S, A1）=S - E = 1 - 1 = 0.
因此，每次划分之前，我们只需要计算出信息熵增益最大的那种划分即可。

1.4 算法要点
1.4.1、指导思想
经过决策属性的划分后，数据的无序度越来越低，也就是信息熵越来越小
1.4.2 算法实现
梳理出数据中的属性
比较按照某特定属性划分后的数据的信息熵增益，选择信息熵增益最大的那个属性作为第一划分依据，然后继续选择第二属性，以此类推
2. 决策树分类算法Python实战
2.1 案例需求
我们的任务就是训练一个决策树分类器，输入身高和体重，分类器能给出这个人是胖子还是瘦子。

所用的训练数据如下，这个数据一共有10个样本，每个样本有2个属性，分别为身高和体重，第三列为类别标签，表示“胖”或“瘦”。

该数据保存在1.txt中。

2.2 模型分析
决策树对于“是非”的二值逻辑的分枝相当自然。

而在本数据集中，身高与体重是连续值怎么办呢？
虽然麻烦一点，不过这也不是问题，只需要找到将这些连续值划分为不同区间的中间点，就转换成了二值逻辑问题。

本例决策树的任务是找到身高、体重中的一些临界值，按照大于或者小于这些临界值的逻辑
将其样本两两分类，自顶向下构建决策树。

2.3 python实现
使用python的机器学习库，实现起来相当简单和优雅
2.4 决策树的保存
一棵决策树的学习训练是非常耗费运算时间的，因此，决策树训练出来后，可进行保存，以便在预测新数据时只需要直接加载训练好的决策树即可
本案例的代码中已经决策树的结构写入了tree.dot中。

打开该文件，很容易画出决策树，还可以看到决策树的更多分类信息。

本例的tree.dot如下所示：
根据这个信息，决策树应该长的如下这个样子：。