决策树分类算法与应用

合集下载

决策树算法应用

决策树算法应用决策树算法是一种常用的机器学习算法，它可以用于分类和回归问题。

决策树模型是一种基于树结构的分类模型，其主要思想是根据特征值将数据集划分成不同的子集，使得每个子集内的数据具有相同的标签值。

在本文中，我们将介绍决策树算法的应用及其优点。

1. 决策树算法的应用决策树算法可以应用于许多领域，如医疗、金融、电子商务等。

以下是一些常见的应用场景：1.1. 医疗领域在医疗领域，决策树算法可以用于疾病的诊断和治疗方案的选择。

例如，可以使用决策树算法来根据患者的症状和体征，判断患者是否患有某种疾病，或者选择最合适的治疗方案。

1.2. 金融领域在金融领域，决策树算法可以用于信用评估和风险管理。

例如，可以使用决策树算法来预测借款人的信用风险，或者确定最合适的投资组合。

1.3. 电子商务领域在电子商务领域，决策树算法可以用于商品推荐和客户分类。

例如，可以使用决策树算法来根据用户的购买历史和兴趣，推荐最合适的商品，或者将客户分为不同的分类，以便更好地进行营销和服务。

2. 决策树算法的优点与其他机器学习算法相比，决策树算法具有以下优点：2.1. 易于理解和解释决策树算法生成的模型可以直观地表示为树形结构，易于理解和解释。

决策树算法可以帮助人们更好地理解数据之间的关系，并根据这些关系进行决策。

2.2. 可处理离散和连续数据决策树算法可以处理离散和连续数据，因此在数据预处理方面具有较高的灵活性。

对于离散数据，决策树算法可以使用分类技术，对于连续数据，决策树算法可以使用回归技术。

2.3. 可处理大规模数据集决策树算法可以处理大规模数据集，并且具有较高的计算效率。

因为决策树算法可以通过剪枝等方法，减少决策树的复杂度，从而提高算法的效率。

2.4. 可以处理多分类问题决策树算法可以处理多分类问题，即将数据集分成多个类别。

决策树算法可以通过多层决策节点，将数据集分成多个子集，并且每个子集具有相同的类别标签。

3. 结论决策树算法是一种常用的机器学习算法，具有易于理解和解释、可处理离散和连续数据、可处理大规模数据集、可以处理多分类问题等优点。

决策树的优化算法与应用

决策树的优化算法与应用决策树作为一种常用的机器学习方法，已经在多个领域中得到了广泛的应用。

然而，随着数据量增加和问题复杂度提高，传统的决策树算法在效率和准确性方面面临一些挑战。

为了解决这些问题，研究者们提出了一系列的决策树优化算法，并将其应用于各个领域中。

本文将对决策树的优化算法进行介绍，并探讨其在实际应用中的效果。

一、决策树算法简介决策树是一种基于树状结构的机器学习算法，通过对数据的划分和分类来进行预测或分类任务。

决策树的每个节点表示一个属性，每条路径表示一个判定过程，而每个叶子节点表示一个类别或结果。

决策树算法通常包括特征选择、树的构建和剪枝等步骤。

特征选择是构建决策树的重要一步，目的是选择最佳的属性作为划分属性。

常用的特征选择指标有信息增益、信息增益比和基尼系数等。

树的构建过程采用递归地选择最佳属性进行划分，并生成子树。

剪枝是为了防止过拟合，对已生成的树进行裁剪。

二、决策树的优化算法尽管决策树算法在许多领域中表现良好，但在大规模数据和复杂问题上的效果有所下降。

为了优化决策树算法的性能，研究者提出了一系列的优化算法，主要包括随机森林、梯度提升决策树和XGBoost等。

1. 随机森林随机森林是一种基于集成学习的决策树优化算法，它通过构建多棵决策树并将它们集成起来来提高模型性能。

随机森林在特征选择和样本选择上引入了随机性，减少了模型的方差和过拟合的风险。

此外，随机森林还可以用于特征重要性评估和异常值检测等任务。

2. 梯度提升决策树梯度提升决策树是一种将决策树和梯度提升算法相结合的优化算法。

它通过迭代地训练弱分类器并以梯度下降的方式对残差进行拟合，进而提升模型的准确性。

梯度提升决策树在处理回归和分类问题上表现良好，并且具有较好的鲁棒性。

3. XGBoostXGBoost是一种新兴的决策树优化算法，它在梯度提升决策树的基础上进行了进一步的改进和优化。

XGBoost引入了正则化项和代价函数，通过近似优化算法提高了模型的效率。

决策树模型算法

决策树模型算法1. 引言决策树模型是一种常用的机器学习算法，它在分类和回归问题中都能够取得很好的效果。

决策树模型基于对数据集进行划分的原理，通过构建一棵树来做出决策。

本文将详细介绍决策树模型算法的原理、构建过程以及应用场景。

2. 决策树模型原理决策树模型的原理基于信息论和熵的概念。

在决策树算法中，我们希望找到一种最优的划分方式，使得划分后的子集中目标变量的不确定性减少最快。

这个减少不确定性的度量称为信息增益，用熵来表示。

2.1 熵的定义熵是信息论中度量随机变量不确定性的度量。

对于一个随机变量X，它的熵定义为：H(X)=−∑pi(x i)log(p(x i))其中，p(x i)表示随机变量X取某个特定值的概率。

2.2 信息增益在决策树模型中，我们希望通过选择最优的划分方式将数据集划分成不同的子集。

为了衡量划分的优劣，我们引入了信息增益的概念。

信息增益表示在划分之前后熵的减少程度，计算公式如下：G(D,A)=H(D)−∑|D v| |D|vH(D v)其中，G(D,A)表示通过属性A对数据集D进行划分所获得的信息增益，|D v|表示在属性A上取值为v的样本数，|D|表示总样本数，H(D)表示数据集D的熵，H(D v)表示在属性A上取值为v的子集的熵。

2.3 构建决策树决策树的构建是一个递归的过程。

在每个节点上，我们选择使得信息增益最大的特征作为划分标准，将数据集划分成不同的子集。

然后，对于每个子集，我们继续递归地构建下一级节点，直到满足终止条件为止。

3. 决策树模型算法步骤决策树模型算法的步骤主要包括：特征选择、决策树构建和决策树剪枝。

3.1 特征选择特征选择是决策树模型算法的关键步骤。

我们需要选择最优的特征作为划分标准。

常用的特征选择方法有信息增益、增益率和基尼系数等。

3.2 决策树构建决策树的构建是一个递归的过程。

我们从根节点开始依次划分数据集，直到满足终止条件。

在每个节点上，我们选择使得信息增益最大的特征进行划分。

决策树分类算法的研究及其在电力营销中的应用

决策树分类算法的研究及其在电力营销中的应用随着科技的发展，大数据时代已经来临。

在这个时代，数据被认为是新的石油，而数据挖掘和机器学习则是挖掘数据价值的利器。

决策树分类算法作为一种常用的机器学习算法，因其简单易懂、易于实现等特点，在各个领域都得到了广泛的应用。

本文将从理论和实践两个方面，对决策树分类算法进行深入研究，并探讨其在电力营销中的应用。

一、决策树分类算法的理论基础1.1 决策树的定义与构造决策树是一种监督学习算法，主要用于分类问题。

它通过递归地分割数据集，将数据集划分为不同的子集，从而构建出一个决策树。

决策树的每个内部节点表示一个特征属性上的判断条件，每个分支代表一个判断结果，最后每个叶节点代表一个类别。

1.2 决策树的优点与缺点决策树具有以下优点：(1)易于理解和解释：决策树的结构清晰，可以通过查看决策树来直观地了解数据的分布特点和分类规律。

(2)易于实现和调整：决策树的算法实现相对简单，可以通过调整参数来优化决策树的性能。

(3)适用于大规模数据：决策树可以处理大量的数据，只要内存允许，就可以构建出非常庞大的决策树。

决策树也存在一些缺点：(1)容易过拟合：当训练数据集中的特征数量较多时，决策树可能会过度关注训练数据中的噪声，导致对新数据的泛化能力较差。

(2)不适用于高维数据：当数据集的维度较高时，决策树的性能可能会下降。

(3)需要预先设定特征属性的选择策略：如何选择最佳的特征属性进行分裂是一个复杂的问题，需要根据实际情况进行调整。

二、决策树分类算法在电力营销中的应用2.1 电力需求预测电力需求预测是电力营销的重要环节。

通过对历史用电数据的分析，可以预测未来一段时间内的用电量。

决策树分类算法可以用于构建电力需求预测模型，通过对不同特征属性的综合考虑，实现对用电量的准确预测。

2.2 负荷预测负荷预测是指对未来一段时间内电网负荷的预测。

负荷预测可以帮助电力公司合理安排发电计划，提高电力系统的运行效率。

决策树分类算法c4.5的具体应用场景

一、概述决策树分类算法是数据挖掘和机器学习领域中常用的算法之一，它可以用于对数据进行分类和预测。

其中C4.5算法是决策树分类算法中的一种经典方法，它采用了信息增益作为划分属性的标准，具有较好的泛化能力和分类精度。

在实际应用中，C4.5算法被广泛应用于各种领域，本文将介绍C4.5算法的具体应用场景。

二、金融领域1. 信用评分在金融领域，银行和信用卡机构经常需要对客户的信用进行评分，以判断其是否具有偿还借款的能力。

C4.5算法可以根据客户的个人信息、贷款记录和其他相关数据构建决策树模型，用于预测客户的信用水平，帮助金融机构做出信贷决策。

2. 欺诈检测另外，C4.5算法也可以在金融领域用于欺诈检测。

金融交易中存在大量的欺诈行为，通过分析交易数据和客户行为特征，C4.5算法可以构建欺诈检测模型，帮助金融机构及时发现和防范欺诈风险。

三、医疗领域1. 疾病诊断在医疗领域，C4.5算法可以应用于疾病的诊断预测。

通过对医疗数据进行分析，包括患者的症状、体征、生化指标等信息，利用C4.5算法可以建立疾病的分类模型，帮助医生进行疾病诊断和预测，提高诊断的准确性和效率。

2. 药物治疗预测C4.5算法也可以用于预测患者对药物治疗的反应。

通过分析患者的遗传信息、生理特征和药物治疗记录等数据，C4.5算法可以构建个性化的药物治疗模型，帮助医生选择最适合患者的治疗方案，提高治疗效果。

四、市场营销领域1. 客户分类在市场营销领域，企业需要对客户进行分类，以制定针对不同客户裙体的营销策略。

C4.5算法可以根据客户的消费行为、偏好信息、地理位置等数据构建客户分类模型，帮助企业对客户进行精细化管理和营销。

2. 产品推荐C4.5算法还可以用于产品推荐。

通过分析客户的购物历史、浏览行为和偏好信息，C4.5算法可以构建产品推荐模型，帮助企业向客户推荐符合其偏好的产品，提高销售额和客户满意度。

五、交通领域1. 交通流量预测在交通领域，C4.5算法可以应用于交通流量的预测。

机器学习中的决策树原理及应用

机器学习中的决策树原理及应用近年来，随着机器学习相关技术的发展，决策树成为了非常重要的一种分类算法。

在机器学习过程中，决策树算法常用于进行数据分类和预测分析。

本文将详细介绍决策树的原理及其在机器学习中的应用。

一、决策树原理决策树是一种基于树形结构的分类算法，通常被用于解决分类和回归问题等。

决策树的节点可以是分类属性或连续属性，通过对属性的不断划分来达到分类的目的。

决策树的节点可以用于描述待分类对象的特征，叶节点则代表分类的结果。

决策树的构建可以通过使用自顶向下或自底向上方法进行。

（一）自顶向下方法自顶向下方法是常用的构建决策树的方法。

具体步骤如下：1.将所有的训练数据都放到根节点上。

2.按照某个特征属性进行节点的划分，排除不利于分类的属性。

3.将根节点按照特征属性划分为子节点，同时向下递归地进行节点分类，直到满足分类要求为止。

4.对于每一个子节点，重复步骤2和3，直到树的叶子节点全部为单一分类。

（二）自底向上方法自底向上方法又称为升级方法，其基本步骤如下：1.将所有的训练数据都放到叶子节点上。

2.通过合并相似的叶节点来完成树的逐步升级。

3.设定分类错误率的阈值，判断是否满足分类的条件，若不满足则继续合并叶节点。

二、决策树的应用决策树算法具有能力处理离散的和连续的特征，同时能够处理多分类和二分类问题，可以应用于多种分类场景，例如医学、经济和环境等领域。

以下是决策树在应用中的主要场景：（一）医学领域决策树在医学领域中被广泛应用。

例如，医生可以使用决策树来评估患者的风险因素，决定患者是否需要进一步诊断和治疗。

此外，决策树还可以用于辅助医生进行药物治疗，从而避免患者对药物的不良反应。

（二）经济领域决策树在经济领域中也是非常重要的分类算法。

例如，银行可以使用决策树来判断借款人的信用风险，从而决定是否给予贷款。

此外，决策树还可以用于预测股票价格的波动趋势，为投资者提供决策的参考。

（三）环境领域决策树在环境领域中也具有广泛的应用，例如用于预测气候变化和环境污染等。

决策树算法在物流仓储中的研究与应用

【决策树算法在物流仓储中的研究与应用】近年来，随着物流行业的快速发展，物流仓储成为了整个物流供应链中不可或缺的一环。

而在物流仓储领域，决策是至关重要的一环。

而决策树算法，作为一种常见的机器学习算法，在物流仓储中也有着广泛的研究和应用。

1. 决策树算法的基本原理决策树算法是一种基于树结构的分类算法，它通过对数据集进行划分，最终生成一颗决策树，用于分类和预测。

其基本原理是通过对已有数据的学习，构建出一系列的决策规则，从而对新的数据进行分类或预测。

而在物流仓储中，决策树算法可以通过对不同的物流数据进行学习和分析，帮助仓储管理人员做出更加科学和准确的决策。

2. 决策树算法在物流仓储中的应用在物流仓储中，决策树算法可以被广泛应用于以下几个方面：2.1 库存分析与优化通过对历史销售数据、季节性变化、市场需求等因素进行学习和分析，决策树算法可以帮助仓储管理人员进行库存分析与优化，从而实现库存的科学管理和准确预测。

2.2 订单处理与分配通过对订单量、订单类型、地理位置、配送时效等因素进行学习和分析，决策树算法可以帮助仓储管理人员进行订单处理与分配，实现订单的合理分配和高效处理。

2.3 货物存放与布局规划通过对货物属性、存放需求、货架布局等因素进行学习和分析，决策树算法可以帮助仓储管理人员进行货物存放与布局规划，实现仓库空间的最大化利用和货物存放的合理规划。

3. 决策树算法在物流仓储中的研究当前，越来越多的研究者开始关注决策树算法在物流仓储中的应用和研究。

他们希望通过对决策树算法的深入研究，进一步提高物流仓储的管理效率和准确性。

3.1 数据挖掘与决策树算法一些研究者通过对物流仓储中大量的数据进行挖掘和分析，利用决策树算法挖掘出隐藏在数据中的规律和信息，从而帮助仓储管理人员做出更加科学和有效的决策。

3.2 决策树算法与智能仓储系统另一些研究者将决策树算法应用于智能仓储系统中，通过对仓储数据的学习和分析，实现对仓储系统的智能化管理和优化，提高仓储效率和准确性。

决策树算法例题

决策树算法例题
一、决策树基本概念与原理
决策树是一种基于树结构的分类与回归模型。

它通过一系列的问题对数据进行划分，最终得到叶子节点对应的分类结果或预测值。

决策树的构建过程通常采用自上而下、递归划分的方法。

二、决策树算法实例解析
以一个简单的决策树为例，假设我们要预测一个人是否喜欢户外运动。

已知特征：性别、年龄、是否喜欢晒太阳。

可以通过以下决策树划分：
1.根据性别划分，男性为喜欢户外运动，女性为不喜欢户外运动。

2.若性别为男性，再根据年龄划分，年龄小于30分为喜欢户外运动，大于30分为不喜欢户外运动。

3.若性别为女性，无论年龄如何，均分为喜欢户外运动。

通过这个决策树，我们可以预测一个人是否喜欢户外运动。

三、决策树算法应用场景及优缺点
1.应用场景：分类问题、回归问题、关联规则挖掘等。

2.优点：易于理解、可解释性强、泛化能力较好。

3.缺点：容易过拟合、对噪声敏感、构建过程耗时较长。

四、实战演练：构建决策树解决实际问题
假设我们要预测房价，已知特征：面积、卧室数量、卫生间数量、距市中心距离。

可以通过构建决策树进行预测：
1.选择特征：根据相关性分析，选择距市中心距离作为最佳划分特征。

2.划分数据集：将数据集划分为训练集和测试集。

3.构建决策树：采用递归划分方法，自上而下构建决策树。

4.模型评估：使用测试集评估决策树模型的预测性能。

通过以上步骤，我们可以运用决策树算法解决实际问题。

决策树分类算法的研究及其在电力营销中的应用

决策树分类算法的研究及其在电力营销中的应用随着科技的发展，人工智能在各个领域都取得了显著的成果。

在这个过程中，决策树分类算法作为一种非常实用的机器学习方法，也在电力行业得到了广泛的应用。

本文将从理论和实践两个方面对决策树分类算法进行深入研究，并探讨其在电力营销中的应用。

我们来了解一下决策树分类算法的基本原理。

决策树是一种树形结构的模型，它通过一系列的判断和选择，将数据集划分为不同的子集。

在构建决策树时，我们需要选择一个特征作为划分依据，然后根据这个特征的不同取值，将数据集进一步划分。

这样，经过多次划分后，我们就可以得到一个具有多个叶子节点的决策树。

在训练过程中，决策树会根据已知的标签对每个样本进行分类，从而找到最优的划分方式。

在预测新样本的标签时，我们可以通过遍历决策树的叶子节点，根据预先设定的规则进行判断，从而得到预测结果。

接下来，我们将从理论和实践两个方面对决策树分类算法进行深入研究。

一、理论方面1.1 决策树的优点决策树具有以下优点：(1)易于理解和解释。

决策树的结构直观，可以清晰地展示数据的分布情况和分类规律。

(2)适用于多种类型的数据。

决策树不仅可以处理离散型数据，还可以处理连续型数据，甚至可以处理非线性关系的数据。

(3)容易实现和优化。

决策树的算法相对简单，容易实现和优化。

1.2 决策树的缺点决策树也存在一些缺点：(1)容易过拟合。

当数据集中的特征数量较多或者噪声较大时，决策树可能会过度关注某些特征，导致过拟合现象的发生。

(2)不适用于高维数据。

随着数据维度的增加，决策树的学习效果会逐渐降低。

(3)对缺失值敏感。

如果数据集中存在缺失值，决策树可能无法正常进行分类。

1.3 决策树的剪枝策略为了克服决策树的缺点，我们可以采用一些剪枝策略来优化决策树的结构。

常见的剪枝策略有：预剪枝、后剪枝和混合剪枝。

预剪枝是在构建决策树的过程中就提前停止分裂过程；后剪枝是在生成完整的决策树后，根据某些评价指标来选择性地删除部分叶子节点；混合剪枝则是将预剪枝和后剪枝相结合，以达到更好的优化效果。

基于决策树的算法分析与应用示例

基于决策树的算法分析与应用示例在机器学习领域，决策树是一个经典的算法，它可以在面对大量数据时进行快速且可靠的分类或回归。

本文将介绍决策树算法的原理与应用，并通过一个具体的案例来展示其实际应用价值。

一、什么是决策树算法决策树是一种树形结构的分类模型，它的构建过程就像是一次“递归”的决策过程。

假设我们有一组数据，每个数据点都有若干个特征（即不同的属性），我们要根据这些特征来决定其类别（如是/否、高/中/低等）。

而决策树的生成就是一个逐步“分治”的过程，将原始数据分成不同子集，并根据不同特征来分别处理，最终得到一棵带有判定条件的树形结构。

决策树的构建过程可以分为三个步骤：特征选择、决策树生成和决策树剪枝。

其中，特征选择是指从所有特征中选出一个最佳特征来作为当前的分类依据；决策树生成是指利用选定的特征对数据进行划分，生成一棵完整的决策树；决策树剪枝是指对已经生成的决策树进行优化，去除一些不必要的节点和分枝，以避免过拟合等问题。

除了常见的二叉树决策树外，还有多叉树、CART树、C4.5树、ID3树等多种类型的决策树算法。

它们在特征选择、剪枝等方面有所不同，但本质上都是基于“树形结构”来完成分类或回归任务的。

二、决策树算法的应用示例决策树算法有许多实际应用，如金融风险评估、医学诊断、信用卡反欺诈等。

这里我们以一个简单的基于决策树的鸢尾花分类为例来说明决策树的应用过程。

鸢尾花数据集是机器学习中常用的一个数据集，它包含了150条记录，每条记录都有四个特征：花萼长度、花萼宽度、花瓣长度、花瓣宽度。

根据这些特征，我们需要判断鸢尾花属于哪种类型：山鸢尾（Iris-setosa）、变色鸢尾（Iris-versicolor）或维吉尼亚鸢尾（Iris-virginica）。

以下是如何用Python和sklearn库来实现这一任务：```python# 引入相关库和数据集from sklearn.datasets import load_irisfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.model_selection import train_test_splitiris = load_iris()X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=42)# 构建决策树模型并进行训练clf = DecisionTreeClassifier(criterion='entropy', max_depth=10, random_state=42)clf.fit(X_train, y_train)# 预测并评估模型准确率y_pred = clf.predict(X_test)score = clf.score(X_test, y_test)print(score)```上述代码首先引入了相关的Python库和鸢尾花数据集，并将数据集分为训练集和测试集。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

机器学习算法day04_决策树分类算法及应用课程大纲
课程目标：
1、理解决策树算法的核心思想
2、理解决策树算法的代码实现
3、掌握决策树算法的应用步骤：数据处理、建模、运算和结果判定
1. 决策树分类算法原理
1.1 概述
决策树（decision tree）——是一种被广泛使用的分类算法。

相比贝叶斯算法，决策树的优势在于构造过程不需要任何领域知识或参数设置
在实际应用中，对于探测式的知识发现，决策树更加适用
1.2 算法思想
通俗来说，决策树分类的思想类似于找对象。

现想象一个女孩的母亲要给这个女孩介绍男朋友，于是有了下面的对话：
女儿：多大年纪了？
母亲：26。

女儿：长的帅不帅？
母亲：挺帅的。

女儿：收入高不？
母亲：不算很高，中等情况。

女儿：是公务员不？
母亲：是，在税务局上班呢。

女儿：那好，我去见见。

这个女孩的决策过程就是典型的分类树决策。

实质：通过年龄、长相、收入和是否公务员对将男人分为两个类别：见和不见
假设这个女孩对男人的要求是：30岁以下、长相中等以上并且是高收入者或中等以上收入的公务员，那么这个可以用下图表示女孩的决策逻辑
上图完整表达了这个女孩决定是否见一个约会对象的策略，其中：
◆绿色节点表示判断条件
◆橙色节点表示决策结果
◆箭头表示在一个判断条件在不同情况下的决策路径
图中红色箭头表示了上面例子中女孩的决策过程。

这幅图基本可以算是一颗决策树，说它“基本可以算”是因为图中的判定条件没有量化，如收入高中低等等，还不能算是严格意义上的决策树，如果将所有条件量化，则就变成真正的决策树了。

决策树分类算法的关键就是根据“先验数据”构造一棵最佳的决策树，用以预测未知数据的类别
决策树：是一个树结构（可以是二叉树或非二叉树）。

其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。

使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

1.3 决策树构造
1.3.1 决策树构造样例
样本中有2个属性，A0表示是否红苹果。

A1表示是否大苹果。

假如要根据这个数据样本构建一棵自动判断苹果好坏的决策树。

由于本例中的数据只有2个属性，因此，我们可以穷举所有可能构造出来的决策树，就2棵，如下图所示：
显然左边先使用A0（红色）做划分依据的决策树要优于右边用A1（大小）做划分依据的决策树。

当然这是直觉的认知。

而直觉显然不适合转化成程序的实现，所以需要有一种定量的考察来评价这两棵树的性能好坏。

决策树的评价所用的定量考察方法为计算每种划分情况的信息熵增益：
如果经过某个选定的属性进行数据划分后的信息熵下降最多，则这个划分属性是最优选择1.3.2 属性划分选择（即构造决策树）的依据
熵：信息论的奠基人香农定义的用来信息量的单位。

简单来说，熵就是“无序，混乱”的程度。

通过计算来理解：
1、原始样本数据的熵：
样例总数：4
好苹果：2
坏苹果：2
熵： -(1/2 * log(1/2) +1/2 * log(1/2)) = 1
信息熵为1表示当前处于最混乱，最无序的状态。

2、两颗决策树的划分结果熵增益计算
●树1先选A0作划分，各子节点信息熵计算如下：
0，1叶子节点有2个正例，0个负例。

信息熵为：e1 = -(2/2 * log(2/2) + 0/2 * log(0/2)) = 0。

2，3叶子节点有0个正例，2个负例。

信息熵为：e2 = -(0/2 * log(0/2) + 2/2 * log(2/2)) = 0。

因此选择A0划分后的信息熵为每个子节点的信息熵所占比重的加权和：E = e1*2/4 + e2*2/4 = 0。

选择A0做划分的信息熵增益G（S, A0）=S - E = 1 - 0 = 1.
事实上，决策树叶子节点表示已经都属于相同类别，因此信息熵一定为0。

●树2先选A1作划分，各子节点信息熵计算如下：
0，2子节点有1个正例，1个负例。

信息熵为：e1 = -(1/2 * log(1/2) + 1/2 * log(1/2)) = 1。

1，3子节点有1个正例，1个负例。

信息熵为：e2 = -(1/2 * log(1/2) + 1/2 * log(1/2)) = 1。

因此选择A1划分后的信息熵为每个子节点的信息熵所占比重的加权和：E = e1*2/4 + e2*2/4 = 1。

也就是说分了跟没分一样！
选择A1做划分的信息熵增益G（S, A1）=S - E = 1 - 1 = 0.
因此，每次划分之前，我们只需要计算出信息熵增益最大的那种划分即可。

1.4 算法要点
1.4.1、指导思想
经过决策属性的划分后，数据的无序度越来越低，也就是信息熵越来越小
1.4.2 算法实现
梳理出数据中的属性
比较按照某特定属性划分后的数据的信息熵增益，选择信息熵增益最大的那个属性作为第一划分依据，然后继续选择第二属性，以此类推
2. 决策树分类算法Python实战
2.1 案例需求
我们的任务就是训练一个决策树分类器，输入身高和体重，分类器能给出这个人是胖子还是瘦子。

所用的训练数据如下，这个数据一共有10个样本，每个样本有2个属性，分别为身高和体重，第三列为类别标签，表示“胖”或“瘦”。

该数据保存在1.txt中。

2.2 模型分析
决策树对于“是非”的二值逻辑的分枝相当自然。

而在本数据集中，身高与体重是连续值怎么办呢？
虽然麻烦一点，不过这也不是问题，只需要找到将这些连续值划分为不同区间的中间点，就转换成了二值逻辑问题。

本例决策树的任务是找到身高、体重中的一些临界值，按照大于或者小于这些临界值的逻辑
将其样本两两分类，自顶向下构建决策树。

2.3 python实现
使用python的机器学习库，实现起来相当简单和优雅
2.4 决策树的保存
一棵决策树的学习训练是非常耗费运算时间的，因此，决策树训练出来后，可进行保存，以便在预测新数据时只需要直接加载训练好的决策树即可
本案例的代码中已经决策树的结构写入了tree.dot中。

打开该文件，很容易画出决策树，还可以看到决策树的更多分类信息。

本例的tree.dot如下所示：
根据这个信息，决策树应该长的如下这个样子：。