第4章分类基本概念决策树与模型评估

合集下载

管理学决策树方法

管理学决策树方法一、决策树方法的基本概念。

1.1 啥是决策树呢？简单来说，这就像是咱们在森林里找路一样。

决策树是一种树形结构，它有一个根节点，就像大树的根，从这个根节点开始，会分出好多枝干，这些枝干就是不同的决策选项。

比如说，一个企业要决定是否推出一款新产品，这就是根节点的决策。

1.2 然后每个枝干又会根据不同的情况继续分叉。

就好比这新产品推向市场，可能会遇到市场反应好和市场反应不好这两种大的情况，这就像是枝干又分叉了。

这每一个分叉点都代表着一个事件或者决策的不同结果。

二、决策树方法在管理学中的重要性。

2.1 在管理里啊，决策树可太有用了。

就像那句老话说的“三思而后行”，决策树就是帮咱们管理者好好思考的工具。

它能把复杂的决策过程清晰地展现出来。

比如说，一个公司要扩大业务，是选择开拓新市场呢，还是在现有市场深耕呢？这时候决策树就能列出各种可能的结果。

如果开拓新市场，可能会面临新的竞争对手，就像进入了一片未知的丛林，充满了风险；如果在现有市场深耕，可能会面临市场饱和的问题，就像在一块已经耕种很久的土地上，肥力可能不足了。

2.2 决策树还能让咱们量化风险。

咱们不能总是靠感觉来做决策啊，那可就成了“盲人摸象”了。

通过决策树，我们可以给不同的结果赋予概率，就像给每个岔路标上成功或者失败的可能性。

这样管理者就能清楚地看到每个决策背后的风险和收益。

比如说，一个项目有60%的成功概率，但是成功后的收益很大；另一个项目有80%的成功概率，但是收益比较小。

这时候决策树就能帮我们权衡利弊。

2.3 而且啊，决策树有助于团队沟通。

大家都能看着这个树形结构，一目了然。

就像大家一起看一张地图一样，都清楚要往哪里走。

团队成员可以针对决策树上的每个节点、每个分支进行讨论。

这样就不会出现“各说各话”的情况，大家都在同一个框架下思考问题。

三、如何构建决策树。

3.1 首先要确定决策的目标。

这就像确定大树的根一样重要。

比如说，我们的目标是提高公司的利润，那所有的决策分支都要围绕这个目标来展开。

决策树的概念

决策树的概念
决策树是一种基于树形结构的分类和回归模型，它通过一系列的决策来对数据进行分类或预测。

在决策树中，每个节点表示一个属性或特征，每个分支表示该属性或特征的一个取值，而每个叶子节点表示一个分类或回归结果。

决策树的建立过程就是在数据集中选择最优的属性或特征，将数据集划分为更小的子集，直到所有数据都被正确分类或预测。

决策树的主要优点是易于理解和解释，可以处理多分类问题，同时也可以用于回归问题。

此外，决策树还可以处理缺失值和异常值，具有很好的鲁棒性。

决策树的主要缺点是容易过拟合，特别是当树的深度过大时，容易出现过拟合现象。

为了解决这个问题，可以采用剪枝等方法来降低模型的复杂度。

决策树的应用非常广泛，例如在金融、医疗、工业等领域中，可以用于客户信用评估、疾病诊断、产品质量控制等方面。

在机器学习领域中，决策树也是一种常用的分类和回归算法，被广泛应用于数据挖掘、自然语言处理、图像识别等领域。

决策树算法介绍

3.1 分类与决策树概述3.1。

1 分类与预测分类是一种应用非常广泛的数据挖掘技术,应用的例子也很多。

例如，根据信用卡支付历史记录,来判断具备哪些特征的用户往往具有良好的信用；根据某种病症的诊断记录，来分析哪些药物组合可以带来良好的治疗效果。

这些过程的一个共同特点是:根据数据的某些属性，来估计一个特定属性的值。

例如在信用分析案例中，根据用户的“年龄”、“性别”、“收入水平"、“职业”等属性的值，来估计该用户“信用度”属性的值应该取“好”还是“差",在这个例子中,所研究的属性“信用度"是一个离散属性，它的取值是一个类别值，这种问题在数据挖掘中被称为分类。

还有一种问题,例如根据股市交易的历史数据估计下一个交易日的大盘指数，这里所研究的属性“大盘指数”是一个连续属性，它的取值是一个实数。

那么这种问题在数据挖掘中被称为预测.总之，当估计的属性值是离散值时,这就是分类；当估计的属性值是连续值时,这就是预测.3。

1.2 决策树的基本原理1.构建决策树通过一个实际的例子，来了解一些与决策树有关的基本概念.表3—1是一个数据库表，记载着某银行的客户信用记录,属性包括“姓名”、“年龄”、“职业”、“月薪”、..。

..。

、“信用等级”，每一行是一个客户样本，每一列是一个属性(字段)。

这里把这个表记做数据集D.银行需要解决的问题是，根据数据集D,建立一个信用等级分析模型,并根据这个模型，产生一系列规则。

当银行在未来的某个时刻收到某个客户的贷款申请时,依据这些规则,可以根据该客户的年龄、职业、月薪等属性，来预测其信用等级,以确定是否提供贷款给该用户。

这里的信用等级分析模型,就可以是一棵决策树. 在这个案例中,研究的重点是“信用等级”这个属性。

给定一个信用等级未知的客户,要根据他/她的其他属性来估计“信用等级”的值是“优”、“良"还是“差”，也就是说,要把这客户划分到信用等级为“优”、“良"、“差"这3个类别的某一类别中去.这里把“信用等级”这个属性称为“类标号属性”。

决策数学知识点总结

决策数学知识点总结决策数学是运用数学方法和模型研究决策问题的一门交叉学科。

它将数学的思维方式和技巧运用到决策问题的建模、分析和解决过程中，帮助决策者做出科学、合理的决策。

本文将围绕决策数学的主要知识点进行总结，包括决策模型、决策分析、风险管理、优化理论等方面的内容。

一、决策模型1. 决策树模型决策树模型是一种常用的决策分析方法，它通过构建决策树来描述决策问题的各种可能的决策选择和结果，以及它们之间的关系。

决策树模型可以帮助决策者更直观地理解决策问题，从而做出更科学、更有效的决策。

2. 马尔可夫决策过程马尔可夫决策过程是描述在某种随机环境下，决策者为了达到某种目标而采取不同行为的一种数学模型。

它通过建立状态、决策和转移概率等要素的数学关系来描述决策问题，从而找到最优的决策策略。

3. 线性规划模型线性规划模型是一种常用的优化模型，它将决策问题转化为一个线性约束条件下的最优化问题，即通过确定决策变量的取值来最大化或最小化某种目标函数。

线性规划模型在实际应用中有着广泛的应用，包括生产调度、资源配置、运输优化等领域。

二、决策分析1. 决策目标设定决策目标设定是决策分析的第一步，它涉及到对决策问题的目标、约束条件和评价指标等方面的明确定义和量化，从而为后续的决策分析提供基础。

2. 决策风险评估在进行决策分析时，需要对决策问题的风险进行评估，包括确定风险的可能性和影响程度，从而为决策者提供科学的风险管理建议。

3. 决策方案评价决策方案评价是决策分析的核心环节，它通过对各种决策方案的优劣进行定量分析和比较，从而为决策者提供最优的决策建议。

三、风险管理1. 风险度量与分析风险度量与分析是对决策问题中各种风险因素进行量化和分析的过程，包括确定风险的可能性、影响程度和相互关联等方面的内容。

2. 风险控制与规避在面临各种风险时，决策者需要采取相应的控制和规避措施来降低风险的发生和影响，包括风险的传播路径、控制措施和应急预案等内容。

决策树名词解释

决策树名词解释决策树（DecisionTree）是一种常见的数据挖掘技术，也称为决策树分类（Decision Tree Classification）。

决策树是一种以树状结构表示数据的模型，它可以用来描述一组数据集的概念，它可以用来作出决策。

策树是一种数据挖掘的常用算法，它可以用于分类、回归任务，以及关联规则建模，它可以帮助智能系统理解数据，从而实现更好的决策。

决策树的基本原理很简单，它是一种将每个属性值与实例的关联转换成树形结构的方法。

在这种树形结构中，每个节点存储关联属性的值，从而决定一个决策。

策树通常用于研究一组已知数据，它可以用来预测未知数据的结果，也可以用来归类数据，从而发现数据的规律性。

决策树的建立有很多步骤，但是大致可以分为以下几个步骤：（1）数据集准备：首先，需要对数据集进行预处理，将数据分成训练集和测试集。

（2）决策树划分：根据训练集中的特征属性，将数据集划分为不同的分支，并且不断划分，直到达到决策树模型所需要的精度或停止条件为止。

（3）估属性：根据训练集中的数据，选择最优的划分属性，用于对训练集进行划分。

（4）决策树剪枝：新建的决策树可能过度拟合训练数据，这会使训练出来的决策树在测试数据上的表现变差，因此，需要使用剪枝算法，来减少决策树的过拟合现象。

（5）测试：根据训练好的决策树，对测试集数据进行分类，统计测试集分类正确率，从而对决策树进行评估。

决策树在实际应用中可以用于社会决策分析、企业决策分析、关联规则挖掘等应用场景，但是决策树也有若干缺点。

其一，决策树生成过程中属性之间的关系可能非线性，而决策树假设属性之间的关系是线性的，因此可能导致决策树模型的准确性不足。

其二，决策树的剪枝操作可能会过度剪枝，也影响模型的准确性。

总之，决策树是一种常用的数据挖掘技术，它可以用于推理和预测数据，它可以用来帮助智能系统理解数据，从而改善决策效率。

但是，因为决策树的局限性，仍然需要其他的数据挖掘技术来提高决策的准确性。

数据挖掘导论第四章

Learn Model
Apply Model
Deduction
数据挖掘导论
Model Decision Tree
18
决策树归纳
Many Algorithms: Hunt’s Algorithm (one of the earliest) CART ID3, C4.5 SLIQ, SPRINT
2021年5月19日星期三
数据挖掘导论
6
4.3 决策树归纳
2021年5月19日星期三
数据挖掘导论
8
决策树: 例子
T id R e fu n d M a rita l T a x a b le S ta tu s In c o m e C h e a t
1 Yes
S in g le 1 2 5 K
2021年5月19日星期三
数据挖掘导论
10
决策树分类任务: 应用模型
Tid 1 2 3 4 5 6 7 8 9 10
10
Attrib1 Attrib2
Yes
Large
No
Medium
No
Small
Yes
Medium
No
Large
No
Medium
Yes
Large
No
Small
No
Medium
No
Small
No
Married 80K
?
10
Assign Cheat to “No”
2021年5月19日星期三
数据挖掘导论
17
决策树分类任务:学习模型
Tid 1 2 3 4 5 6 7 8 9 10
10
Attrib1 Attrib2

决策树ppt课件

决策树在分类问题中应用
分类问题背景介绍
分类问题是机器学习中一类重要的问题，旨在将数据划分为不同
的类别。
在现实世界中，分类问题广泛存在，如垃圾邮件识别、疾病诊断、
信用评分等。
分类算法的目标是通过学习训练数据中的特征与类别之间的关系，从而对新的未知数据进行类别预
测。
决策树在分类问题中优势
直观易理解
决策树在处理缺失值和异常值时容易受到干扰，可能导致模型性能下降。可以通过数据预处理等方法减少缺失值和异常值对模型的影响。
CART算法实例演示
实例背景
假设有一个关于信用卡欺诈的数据集，包含多个特征（如交易金额、交易时间、交易地点等）和一个目标变量（是否欺诈）。我们将使用CART算法构建一个分类模型来预测交易是否属于欺诈行为。
构建决策树时间较长
C4.5算法在构建决策树时需要计算每个特征的信息增益比，当数据集较大或特征较多时，构建决策树的时间可能会较长。
C4.5算法实例演示
数据集介绍
以经典的鸢尾花数据集为例，该数据集包含150个样本，每个样本有4个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度）和1个标签（鸢尾花的类别）。
建造年份等特征。
选择合适的决策树算法（如CART、ID3等），
对数据进行训练。
模型评估与优化
采用均方误差等指标评估模型性能，通过调整参数、集成学习等方法
优化模型。
结果展示与解读
展示决策树图形化结果，解释每个节点含义及预
测逻辑。
08
CATALOGUE
总结与展望
决策树模型总结回顾
模型原理
决策树通过递归方式将数据集划分为若干个子集，每个子集对应一个决策结果。通过构建树形结构，实现分类或回归任务。

分类模型归纳总结

分类模型归纳总结在机器学习和数据挖掘领域，分类是一种常见的任务，它旨在根据给定的特征将数据点分为不同的类别。

分类模型是用于解决分类问题的数学模型。

本文将对一些常见的分类模型进行归纳总结，包括逻辑回归、决策树、支持向量机和随机森林等。

一、逻辑回归（Logistic Regression）逻辑回归是一种广泛应用于分类问题的线性模型。

它通过将输入特征与权重相乘，并通过一个激活函数（如sigmoid函数）将结果映射到[0, 1]的范围内，从而预测样本属于某个类别的概率。

逻辑回归具有简单、高效的特点，适用于二分类问题。

二、决策树（Decision Tree）决策树是一种基于树结构的分类模型。

它通过将特征空间划分为多个矩形区域，每个区域对应一个类别，从而实现对样本进行分类。

决策树具有易解释、易理解的特点，可处理离散和连续特征，并且具备较好的鲁棒性。

三、支持向量机（Support Vector Machine）支持向量机是一种经典的分类模型，通过在特征空间中构造最优超平面，将不同类别的样本分开。

支持向量机可处理线性可分和线性不可分的问题，在高维空间中表现出色，并具有一定的抗噪能力。

四、随机森林（Random Forest）随机森林是一种集成学习方法，由多个决策树组成。

它通过对训练集随机采样，并对每个采样子集构建一个决策树，最终通过投票或平均等方式得到分类结果。

随机森林具有较高的准确性和较好的泛化能力，对于处理高维数据和大规模数据集具有一定优势。

五、朴素贝叶斯分类器（Naive Bayes Classifier）朴素贝叶斯分类器是一种基于贝叶斯定理的概率分类模型。

它假设各个特征之间相互独立，并根据训练数据计算类别的先验概率和特征的条件概率，从而进行分类预测。

朴素贝叶斯分类器简单、高效，并在处理文本分类等领域表现突出。

六、神经网络（Neural Networks）神经网络是一类模拟人脑结构和功能的机器学习模型。

它包含输入层、隐藏层和输出层，通过不同层之间的连接权重进行信息传递和特征提取，最终实现分类任务。

分类决策树decisiontreeclassifier详解介绍

分类决策树DecisionTreeClassifier详解介绍分类决策树（Decision Tree Classifier）是机器学习中一种常见且易于理解的分类算法。

它通过树状结构来表示实例可能的分类过程，每个内部节点表示一个属性上的判断条件，每个分支代表一个可能的属性值，每个叶节点代表一个分类结果。

下面将详细介绍分类决策树的基本概念、构建过程、优缺点以及实际应用。

一、基本概念1. 决策树：决策树是一种树形结构，其中每个内部节点表示在一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。

2. 根节点：决策树的顶部节点，包含对整个数据集的第一次划分。

3. 内部节点：决策树中的节点，它根据某个属性的值将数据集划分成子集，并且还有子节点。

4. 叶节点：决策树中没有子节点的节点，它表示一个类别或者决策结果。

5. 剪枝：为了防止过拟合，通过去掉决策树的一些分支来简化模型的过程。

二、构建过程分类决策树的构建通常包括以下步骤：1. 特征选择：选择合适的特征进行数据集的划分。

常见的特征选择算法有信息增益、增益率、基尼指数等。

2. 决策树生成：根据选择的特征评估标准，递归地生成决策树。

从根节点开始，对数据集进行划分，生成子节点。

重复此过程，直到满足停止条件（如达到最大深度、节点中样本数小于预设值等）。

3. 决策树剪枝：通过去掉决策树的一些分支来简化模型，防止过拟合。

剪枝策略包括预剪枝和后剪枝。

三、优缺点1. 优点：- 易于理解和解释：决策树的结构直观，易于理解和解释，适合非专业人士使用。

- 对数据预处理要求较低：决策树算法能够处理数值型和离散型数据，不需要过多的数据预处理。

- 能够处理非线性关系：决策树能够自动捕捉特征与目标变量之间的非线性关系。

- 对异常值和缺失值不敏感：决策树算法在一定程度上对异常值和缺失值具有鲁棒性。

2. 缺点：- 容易过拟合：决策树在生成过程中可能会过于复杂，导致过拟合现象。

决策树分类方法

决策树分类方法决策树是一种常见的用于分类和回归问题的机器学习方法。

它通过构建树形结构的规则来进行预测。

本文将详细介绍决策树分类方法的原理、算法以及相关应用。

一、决策树分类方法的原理决策树分类方法遵循以下原理：1. 特征选择：通过度量特征的信息增益或信息增益比来选择最优的划分特征。

信息增益是指通过划分数据集获得的纯度提升，信息增益比则是对信息增益进行修正，避免倾向于选择取值较多的特征。

2. 决策节点：根据选择的特征创建决策节点，并将样本集划分到不同的子节点中。

3. 叶节点：当将样本划分到同一类别或达到预定的划分次数时，创建叶节点并标记为对应的类别。

4. 剪枝：为了避免过拟合，可以通过剪枝操作来简化生成的决策树。

二、决策树分类方法的算法常见的决策树分类算法包括ID3算法、C4.5算法以及CART算法。

1. ID3算法：通过计算每个特征的信息增益选择划分特征，将样本划分到信息增益最大的子节点中。

此算法对取值较多的特征有所偏好。

2. C4.5算法：在ID3算法的基础上进行改进，引入了信息增益比的概念，解决了ID3算法对取值较多的特征的偏好问题。

3. CART算法：通过计算基尼指数选择划分特征，将样本划分到基尼指数最小的子节点中。

此算法适用于分类和回归问题。

三、决策树分类方法的应用决策树分类方法广泛应用于各个领域，以下是几个常见的应用场景：1. 信用评估：通过构建决策树模型，根据客户的个人信息和历史数据预测其信用等级，用于信贷风险评估和贷款审批。

2. 疾病诊断：通过决策树模型，根据患者的病症和医学检测结果预测其患有何种疾病，用于辅助医生的诊断决策。

3. 电商推荐：通过决策树模型，根据用户的历史购买记录和个人喜好预测其对某些商品的偏好程度，从而进行个性化商品推荐。

4. 欺诈检测：通过构建决策树模型，根据用户的账户行为和交易记录预测其是否存在欺诈行为，用于金融等领域的欺诈检测。

四、决策树分类方法的优缺点决策树分类方法具有以下优点：1. 易于理解和解释：决策树模型的结果具有很好的可解释性，可以通过树形结构直观地看出预测结果的原因。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

– 假定每个元组属于一个预定义的类，由一个类标号属性确定
– 学习模型可以用分类规则、决策树或数学公式的形式提供
第4章分类基本概念决策树与模型评估
数据分类——一个两步过程 (2)
l 第二步，使用模型，对将来的或未知的对象进行分类
– 首先评估模型的预测准确率
u对每个测试样本，将已知的类标号和该样本的学习模型类预测比较 u模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比 u测试集要独立于训练样本集，否则会出现“过分适应数据 ”的情况
• NO
• Mar
• Single, Divorced St • Married
• TaxI
• NO
• < 80K
nc• > 80K
• NO
•Y
E
S
• 模型: 决策树
第4章分类基本概念决策树与模型评估
应用决策树进行分类
• Start from the root of tree.
• 测试数据
• Yes
第4章分类基本概念决策树与模型评估
决策树的另一个例子
• Married
• Mar • Single, St Divorced
• NO • Yes
• Ref und• No
• NO
• TaxI
• < 80K
nc• > 80K
• NO
•Y E S
第4章分类基本概念决策树与模型评估
用决策树归纳分类
• < 80K
c • > 80K
• NO
•Y E S
第4章分类基本概念决策树与模型评估
应用决策树进行分类
• 测试数据
• Yes
• Refu nd • No
• NO
• MarS
t • Single, Divorced
• Married
• TaxIn
• NO
• < 80K
c • > 80K
• NO
•CarType
•{Family}
•OR
•CarType
•{Family,
Luxury}
•{Sports}
•CarType
•{Family,
Sports}
•{Luxury}
第4章分类基本概念决策树与模型评估
基于序数属性的划分
l 多路划分: 划分数（输出数）取决于该属性不同属性值的个数.
•Size
第4章分类基本概念决策树与模型评估
分类模型的构造方法
l 1.机器学习方法： l 决策树法 l 规则归纳
l 2.统计方法：知识表示是判别函数和原型事例 l 贝叶斯法 l 非参数法(近邻学习或基于事例的学习)
l 3.神经网络方法： l BP算法,模型表示是前向反馈神经网络模型 l 4.粗糙集(rough set)知识表示是产生式规则
第4章分类基本概念决策树与模型评估
计算 GINI的例子
•P(C1) = 0/6 = 0 P(C2) = 6/6 = 1 •Gini = 1 – P(C1)2 – P(C2)2 = 1 – 0 – 1 = 0
•P(C1) = 1/6
P(C2) = 5/6
•Gini = 1 – (1/6)2 – (5/6)2 = 0.278
基于连续属性的划分
l 多路划分:vi≤A＜vi+1（i=1,…,k) l 二元划分: (A < v) or (A v)
– 考虑所有的划分点，选择一个最佳划分点v
第4章分类基本概念决策树与模型评估
基于连续属性的划分
第4章分类基本概念决策树与模型评估
决策树
l 决策树归纳的设计问题 – 如何分裂训练记录
•Married
•Cheat
•Don’t •Cheat
•Don’t
•Marital
•Cheat
•Status
•Single, •Divorced
•Married
•Taxable •Income
•Don’t •Cheat
•< 80K
•>= 80K
•Don’t •Cheat
•Cheat
第4章分类基本概念决策树与模型评估
l 如果准确性能被接受，则分类规则就可用来对新
数据进行分类
第4章分类基本概念决策树与模型评估
有监督的学习 VS. 无监督的学习
l 有监督的学习（用于分类） – 模型的学习在被告知每个训练样本属于哪个类的“监督”下进行 – 新数据使用训练数据集中得到的规则进行分类
l 无监督的学习（用于聚类） – 每个训练样本的类编号是未知的，要学习的类集合或数量也可能是事先未知的 – 通过一系列的度量、观察来建立数据中的类编号或进行聚类
第4章分类基本概念决策树与模型评估
决策树分类
•Decision Tree
第4章分类基本概念决策树与模型评估
决策树
l 有许多决策树算法: l Hunt算法 l 信息增益——Information gain （ID3） l 增益比率——Gain ration（C4.5） l 基尼指数——Gini index (SLIQ，SPRINT)
l 结点不纯性的度量:
•不纯性大
•不纯性小
第4章分类基本概念决策树与模型评估
怎样找到最佳划分？
•划分前:
•A?
•Yes •Node N1
•No •Node N2
•M0
•B?
•Yes •Node N3
•No •Node N4
•M1
•M1 2
•M2
•M3
•M4
•M3 •Gain = M0 – M12 vs M0 – M34 4
第4章分类基本概念决策树与模型评估
一个决策树的例子
• 训练数据
• Splitting Attributes
• Yes
• Ref und • No
• NO
• Mar
• Single, Divorced St • Married
• TaxI
• NO
• < 80K
nc• > 80K
• NO
•Y
E
S
• 模型: 决策树
• Married
• TaxIn
• NO
• < 80K
c • > 80K
• NO
•Y E S
第4章分类基本概念决策树与模型评估
应用决策树进行分类
• 测试数据
• Yes
• Refu nd • No
• NO
• MarS
t • Single, Divorced
• Married
• TaxIn
• NO
l 决策树归纳的设计问题 – 如何分裂训练记录
u怎样为不同类型的属性指定测试条件? u怎样评估每种测试条件?
– 如何停止分裂过程
第4章分类基本概念决策树与模型评估
怎样为不同类型的属性指定测试条件?
l 依赖于属性的类型 – 标称 – 序数 – 连续
l 依赖于划分的路数 – 2路划分 – 多路划分
l 决策树的使用：对未知样本进行分类 – 通过将样本的属性值与决策树相比较
第4章分类基本概念决策树与模型评估
决策树分类任务
•Decision Tree
第4章分类基本概念决策树与模型评估
一个决策树的例子
• 训练数据
• Splitting Attributes
• Yes
• Ref und • No
•Dt
•?
第4章分类基本概念决策树与模型评估
Hunt算法
•Don’t •Cheat
•Refund
•Yes
•No
•Don’t •Cheat
•Don’t •Cheat
•Refund
•Yes
•No
•Refund
•Yes
•No
•Don’t
•Marital
•Cheat
•Status
•Single, •Divorced
决策树
l Hunt算法采用贪心策略构建决策树. – 在选择划分数据的属性时，采取一系列局部最优决策来构造决策树.
l 决策树归纳的设计问题 – 如何分裂训练记录
u怎样为不同类型的属性指定测试条件? u怎样评估每种测试条件?
– 如何停止分裂过程
第4章分类基本概念决策树与模型评估
决策树
l Hunt算法采用贪心策略构建决策树. – 在选择划分数据的属性时，采取一系列局部最优决策来构造决策树.
第4章分类基本多路划分: 划分数（输出数）取决于该属性不同属性值的个数.
•CarType
•Family
•Luxury
•Sports
l 二元划分: 划分数为2，这种划分要考虑创建k个属性值的二元划分的所有2k-1-1种方法.
•{Sport s,
Luxury}
• Refu nd • No
• NO
• MarS
t • Single, Divorced
• Married
• TaxIn
• NO
• < 80K
c • > 80K
• NO
•Y E S
第4章分类基本概念决策树与模型评估
应用决策树进行分类
• 测试数据
• Yes
• Refu nd • No
• NO
• MarS
•Small
•Medium
•Large
l 二元划分: 划分数为2，需要保持序数属性值的有序性.
•{Small, Medium}