082第八章机器学习决策树ID3算法的实例解析

合集下载

id3算法对天气-打球关系的决策树

ID3算法是一种用于构建决策树的经典机器学习算法，它可以根据给定的数据集，自动构建出一个决策树模型，用于对未知数据进行分类。

在实际应用中，ID3算法被广泛应用于各种领域，包括天气预测和决策制定。

本文将以天气和是否适合打球这一主题为例，具体介绍ID3算法对于天气-打球关系的决策树。

1. 背景介绍天气对于人们的日常生活有着重要的影响，尤其是对于室外活动，比如打球。

在实际生活中，人们往往会根据当天的天气情况来决定是否适合进行打球活动。

而要根据天气来进行决策，就需要建立一个天气-打球的决策模型。

而ID3算法正是用来构建这样的决策模型的利器。

2. 数据采集为了构建天气-打球的决策树模型，首先需要收集一定量的天气相关数据和打球相关数据。

可以记录每天的天气情况（如晴天、阴天、下雨）、温度、湿度等天气指标，以及当天是否适合进行打球活动（是/否）。

通过收集大量的这样的数据，就可以构建出一个合适的数据集。

3. 分析数据在收集到足够的数据后，就可以开始分析这些数据，寻找天气与打球之间的关系。

ID3算法的核心思想是选择最佳的属性来进行划分，以便对数据进行分类。

在本例中，可以将天气指标（如晴天、阴天、下雨）作为属性，将打球活动（是/否）作为分类结果，然后根据ID3算法来选择最佳的属性进行数据划分，从而构建出决策树模型。

4. 构建决策树在进行数据分析后，就可以利用ID3算法来构建天气-打球的决策树。

ID3算法通过计算信息增益来确定最佳的属性，然后进行递归地对数据进行划分，直到构建出完整的决策树模型。

在这个过程中，ID3算法会根据不同的属性值来确定最佳的决策点，从而使得对于未知天气情况的打球决策变得更加准确。

5. 评估和优化构建出决策树模型后，还需要对模型进行评估和优化。

可以利用交叉验证等方法来检验模型的准确性，并根据验证结果对模型进行调整和优化。

这一步骤是非常重要的，可以帮助进一步提高决策树模型的预测能力。

6. 应用和推广构建出决策树模型后，可以将其应用到实际的天气预测和打球决策中。

(完整版)ID3算法

23
（2）用信息增益作为属性选择量存在一个假设, 即训练例子集中的正, 反例的比例应与实际问题领域里正、反例比例相同。一般情况不能保证相同, 这样计算训练集的信息增益就有偏差。
（3）ID3在建树时, 每个节点仅含一个属性, 是一种单变元的算法, 属性间的相关性强调不够。虽然它将多个属性用一棵树连在一起, 但联系还是松散的。
该算法的计算时间是例子个数、属性个数、结点个数之积的线性函数。对有4761个关于苯的质谱例子作了试验。其中正例2361个, 反例2400个, 每个例子由500个属性描述, 每个属性取值数目为6, 得到一棵1514个结点的决策树。对正、反例各100个测试例作了测试, 正例判对82个, 反例判对 80个, 总预测正确率81%, 效果是令人满意的。
J.R.Quinlan的工作主要是引进了信息论中的信息增益, 他将其称为信息增益（information gain）, 作为属性判别能力的度量, 设计了构造决策树的递归算法。
下面通过一个例子, 说明ID3算法的基本思想。
5
一、ID3基本思想
对于气候分类问题，属性为: 天气(A1) 取值为: 晴，多云，雨气温(A2) 取值为: 冷，适中，热湿度(A3) 取值为: 高，正常风 (A4) 取值为: 有风，无风
16
Gain(S, A1) Entropy(S) v晴,多云,雨
Sv S
Entropy(Sv )
Entropy(S
)
5 14
Entropy(S晴
)
4 14
Entropy(S多云
)
5 14
Entropy(S雨
)
而
Entropy(S晴 )
2 5
log

机器学习决策树算法ID3

机器学习决策树算法ID3决策树是一种重要的机器学习算法，它能够处理分类和回归的问题，并且易于理解和解释。

其中，ID3（Iterative Dichotomiser 3）算法是决策树学习中最简单和最流行的一种算法，本文将介绍ID3算法的基本原理和实现过程。

什么是决策树决策树是一种树形结构，其中每个内部节点表示一个属性上的判断，每个叶子节点表示一种分类结果。

决策树的生成分为两个步骤：构建和剪枝。

构建过程是将数据集通过分裂形成一颗完整的决策树；剪枝过程是通过去除不必要的分支来提高模型的泛化能力。

ID3算法的基本原理ID3算法是一种贪心算法，也就是说，在每一次分裂时，它都会选择当前最优的特征进行分裂。

其基本思想是：通过计算某个特征的信息增益来确定每个节点的最优分割策略。

信息增益是指在选择某个特征进行分割后，熵的减少量。

熵的计算公式如下：$$ H(D) = -\\sum_{k=1}^{|y|}p_klog_2p_k $$其中，|y|表示类别的数量，p k表示第k个类别在所有样本中出现的概率。

信息增益的计算公式如下：$$ Gain(D,F) = H(D) - \\sum_{v\\in V(F)}\\frac{|D_v|}{|D|}H(D_v) $$其中，F表示属性，V(F)表示属性F的取值集合。

D v表示选择属性F取值为v时的样本集。

在计算信息增益时，需要选择具有最大信息增益的属性作为分裂属性。

ID3算法的实现过程ID3算法的实现过程可以分为以下几个步骤：1.选择分裂属性：选择信息增益最大的属性作为分裂属性；2.构建节点：将节点标记为分裂属性；3.分裂样本：按照分裂属性将样本集分裂为若干子集；4.递归继续分裂：对于每个子集，递归地执行步骤1到步骤3，直到构建完整个决策树。

具体实现时，可以使用递归函数来实现决策树的构建。

代码如下所示：```python def create_tree(dataset, labels):。

机器学习总结（八）决策树ID3，C4.5算法，CART算法

机器学习总结（⼋）决策树ID3，C4.5算法，CART算法本⽂主要总结决策树中的ID3,C4.5和CART算法，各种算法的特点，并对⽐了各种算法的不同点。

决策树：是⼀种基本的分类和回归⽅法。

在分类问题中，是基于特征对实例进⾏分类。

既可以认为是if-then规则的集合，也可以认为是定义在特征空间和类空间上的条件概率分布。

决策树模型：决策树由结点和有向边组成。

结点⼀般有两种类型，⼀种是内部结点，⼀种是叶节点。

内部结点⼀般表⽰⼀个特征，⽽叶节点表⽰⼀个类。

当⽤决策树进⾏分类时，先从根节点开始，对实例的某⼀特征进⾏测试，根据测试结果，将实例分配到⼦结点。

⽽⼦结点这时就对应着该特征的⼀个取值。

如此递归对实例进⾏测试分配，直⾄达到叶结点，则该实例属于该叶节点的类。

决策树分类的主要算法有ID3，C4.5。

回归算法为CART算法，该算法既可以分类也可以进⾏回归。

（⼀）特征选择与信息增益准则特征选择在于选取对训练数据具有分类能⼒的特征，⽽且是分类能⼒越强越好，这样⼦就可以提⾼决策树的效率。

如果利⽤⼀个特征进⾏分类，分类的结果与随机分类的结果没有差异，那么这个特征是没有分类能⼒的。

那么⽤什么来判别⼀个特征的分类能⼒呢？那就是信息增益准则。

何为信息增益？⾸先，介绍信息论中熵的概念。

熵度量了随机变量的不确定性，越不确定的事物，它的熵就越⼤。

具体的，随机变量X的熵定义如下：条件熵H(Y|X)表⽰在已知随机变量X的条件下随机变量Y的不确定性，随机变量X给定的条件下随机变量Y的条件熵为H(Y|X)，定义为X给定条件下Y的条件概率分布的熵对X的数学期望：信息增益表⽰在已知特征X的情况下，⽽使得Y的信息的不确定性减少的程度。

信息增益的定义式如下：g(D,A)表⽰特征A对训练集D的信息增益，其为集合D的经验熵H(D)与在特征A给定条件下D的经验条件熵H(D|A)之差。

⼀般熵与条件熵之差，称为互信息。

在决策树中，信息增益就等价于训练数据集中的类与特征的互信息。

决策树id3算法例题

决策树id3算法例题决策树ID3算法是一种常用的分类算法，用于根据已知的一组特征和标签数据，构建一个决策树模型来进行分类预测。

下面我将以一个示例来介绍决策树ID3算法的基本步骤和过程。

假设我们想要构建一个决策树模型来帮助我们判断一个人是否会购买一款新的智能手机。

我们已经收集了一些关于个体的特征数据和对应的购买结果数据，包括性别、年龄、收入和是否购买。

首先，我们需要计算每个特征对于分类结果的信息增益。

信息增益是指通过使用某个特征来对数据进行分类，所能获得的关于数据的新的信息量。

计算信息增益的公式如下：信息增益 = 熵(D) - ∑(Dv/D) * 熵(Dv)其中，熵(D)表示数据集D的混乱程度，熵的计算公式为：熵(D) = - ∑(pi * log2(pi))Dv表示特征A的某个取值，D表示数据集D的标签集合，pi表示标签i在数据集D中的比例。

我们首先计算整个数据集的熵D，然后计算每个特征的条件熵，最后将它们相加得到信息增益。

选择信息增益最大的特征作为当前节点的划分特征。

接下来，我们根据选择的特征将数据集划分成不同的子集。

每个子集都对应一个特征值的取值，例如性别特征可能有男和女两个取值。

我们对每个子集重复上述过程，以递归的方式构建子树。

在每个子树中，我们需要选择一个特征进行划分。

如果所有的特征都已经使用完毕，或者剩余的数据集已经完全属于同一类别，那么我们停止划分，将当前节点标记为叶节点，并将最常见的类别作为该节点的预测结果。

否则，我们选择信息增益最大的特征作为当前节点的划分特征，并继续递归构建子树。

最终，我们得到了一个完整的决策树模型。

我们可以使用该模型来对新的个体进行分类预测。

从根节点开始，根据个体的特征值选择相应的子节点，直到到达叶节点，将叶节点的预测结果作为最终的分类结果。

在本示例中，决策树模型可能会根据最佳特征先根据性别划分，接着根据年龄划分，最后根据收入划分。

我们可以根据决策树模型将一个新的个体划分到某个叶节点，并预测其是否会购买手机。

id3决策树算法例题

ID3决策树算法例题简介决策树是一种常见的机器学习算法，用于解决分类和回归问题。

其中，ID3（Iterative Dichotomiser 3）决策树算法是最早被提出的决策树算法之一。

本文将以一个例题为例，深入探讨ID3决策树算法的原理和应用。

例题描述假设我们要根据以下特征来判断一个水果是苹果还是橘子： 1. 颜色：红、橙 2. 直径：大、中等、小 3. 纹理：平滑、凹凸我们已经收集到了一些水果的样本数据，如下所示：编号颜色直径纹理类别1 红大平滑苹果2 红大凹凸苹果3 橙大平滑橘子4 橙小平滑橘子5 红中等平滑苹果我们希望构建一个决策树模型，通过输入颜色、直径和纹理这3个特征，能够预测水果的类别。

ID3决策树算法原理ID3决策树算法的核心思想是选择每次划分时信息增益最大的特征作为决策节点。

它采用自顶向下的贪心策略，递归地构建决策树。

下面详细介绍ID3算法的原理。

1. 计算信息熵首先，我们需要计算每个特征的信息熵，以此来衡量特征对分类结果的纯度影响。

信息熵的计算公式如下：H (D )=−∑p i Ni=1log 2p i其中，H (D )表示数据集D 的信息熵，N 表示类别的个数，p i 表示类别i 在数据集D 中的比例。

2. 计算信息增益接下来，对于每个特征A ，我们需要计算其信息增益Gain (D,A )。

信息增益是指特征A 对于数据集D 的纯度提升程度，计算公式如下：Gain (D,A )=H (D )−∑|D v ||D |Vv=1H (D v ) 其中，V 表示特征A 的取值个数，D v 表示特征A 取值为v 的样本子集。

3. 选择最佳划分特征根据计算得到的信息增益，选择信息增益最大的特征作为决策节点。

4. 递归构建决策树将选择的特征作为决策节点，以该特征的不同取值作为分支，递归地构建决策树。

计算步骤根据上面的原理，我们来逐步计算示例中的决策树。

1. 计算初始数据集的信息熵H (D )根据表格中的数据，我们可以计算出初始数据集的信息熵H (D )，其中苹果出现的概率为35，橘子出现的概率为25。

决策树ID3算法ppt课件

第6章决策树
决策树基本概念
决策树的优点
1、推理过程容易理解，决策推理过程可以表示成If Then形式；
2、推理过程完全依赖于属性变量的取值特点；
3、可自动忽略目标变量没有贡献的属性变量，也为判断属性变量的重要性，减少变量的数目提供参考。
第6章决策树在整堂课的教学中，刘教师总是让学生带着问题来学习，而问题的设置具有一定的梯度，由浅入深，所提出的问题也很明确
第6章决策树
关于分类问题
决策树基本概念
名称人类
体温恒温
表皮覆盖
毛发
胎生是
水生动物
否
飞行动物
否
有腿是
冬眠否
海龟冷血鳞片
否
半
否
是
否
鸽子恒温羽毛
否
否
是
是
否
鲸
恒温毛发
是
是
否
否
否
X
分类与回归分类目标属性y是离散的，回归目标属性y是连续的
类标号
哺乳动物
爬行类鸟类哺乳类
y
在整堂课的教学中，刘教师总是让学生带着问题来学习，而问题的设置具有一定的梯度，由浅入深，所提出的问题也很明确
第6章决策树在整堂课的教学中，刘教师总是让学生带着问题来学习，而问题的设置具有一定的梯度，由浅入深，所提出的问题也很明确
决策树基本概念
关于归纳学习(2)
归纳学习的过程就是寻找一般化描述的过程。这种一般性描述能够解释给定的输入数据，并可以用来预测新的数据。
锐角三角形内角和等于180度；钝角三角形内角和等于180度；直角三角形内角和等于180度；
1、模型构建（归纳）通过对训练集合的归纳，建立分类模型。

决策树_ID3算法

决策树_ID3算法决策树是一种用于分类和预测的机器学习算法，其中ID3（Iterative Dichotomiser 3）是一种常用的决策树算法。

ID3算法通过选择最佳特征将数据集划分为更小的子集，直到达到预定的条件或者无法进一步划分为止。

在此过程中，它使用信息增益来选择最佳划分特征。

ID3算法的核心思想是利用信息增益来判断每个特征的重要性。

信息增益是指在划分数据前后的熵的差值，熵表示数据的混乱程度。

熵越大，数据越混乱，熵越小，数据越有序。

在决策树中，我们希望选择使得熵减最大的特征作为划分依据，即信息增益最大的特征。

以下是ID3算法的具体步骤：3. 计算数据集的熵。

熵的计算公式为：E(S) = -p1*log2(p1) -p2*log2(p2) - ... - pn*log2(pn)，其中pi表示数据集中属于类别i的实例占总实例数的比例。

4.对于每个特征，计算划分后的熵和信息增益，并选择信息增益最大的特征作为划分依据。

5.根据选择的特征将数据集进行划分，形成子集。

6.递归地对每个子集应用上述步骤，生成决策树的左右子树。

7.返回决策树。

ID3算法的优点是简单易懂，效率高，在处理具有大量特征的数据集时也能取得较好的结果。

然而，由于ID3算法倾向于选择具有较多取值的特征作为划分依据，可能导致生成的决策树过于复杂，容易出现过拟合现象。

此外，ID3算法只能处理离散型特征，无法处理连续型特征。

为了解决ID3算法的缺点，后续的决策树算法如C4.5和CART进行了改进。

C4.5算法在ID3算法基础上引入了对连续型特征的处理，同时使用信息增益比来选择划分特征。

CART算法则使用基尼指数来衡量划分的质量，划分后的熵越小，基尼指数越小，表示数据越有序。

综上所述，决策树算法是一种基于特征选择的分类和预测方法，其中ID3算法通过信息增益选择最佳特征进行划分。

ID3算法简单有效，但有部分局限性。

进一步改进的决策树算法能够处理连续型特征和更好地提高划分的质量。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

信息的定量描述
衡量信息多少的物理量称为信息量。
若概率很大，受信者事先已有所估计，则该消息信息量就很小；
若概率很小，受信者感觉很突然，该消息所含信息量就很大。
信息量的定义
根据客观事实和人们的习惯概念，函数f(p) 应满足以下条件：
1. f(p)应是概率p的严格单调递减函数，即当p1>p2， f(p1)<f(p2)； 2. 当p=1时，f(p)=0； 3. 当p=0时，f(p)=∞； 4. 两个独立事件的联合信息量应等于它们分别的信息量之和。
7 集装与推进 AdaBoost
8 分类
kNN
9 分类
Naïve Bayes
10 分类
CART
得票数发表时间
作者
61
1993 Quinlan, J.R
60
1967 MacQueen, J.B
58
1995 Vapnik, V.N
52
1994 Rakesh Agrawal
48
2000 McLachlan, G
抛一枚均匀硬币，出现正面与反面的信息量是多少？
解：出现正面与反面的概率均为0. 5，它们的信息量是
I(正)= -lbp(正)= -lb0.5=1b
I(反)= -lbp(反)= -lb0.5=1b
抛一枚畸形硬币，出现正面与反面的概率分别是1/4，3/4，出现正面与反面时的信息量是多少？
I (xi | y j ) log p(xi | y j )
12
条件熵
在给定yj条件下，xi的条件自信息量为I(xi| yj), X集合的条件熵H(X|yj)为
H ( X | y j ) p(xi | y j )I (xi | y j )
i
– 在给定Y(即各个yj )条件下,X集合的条件熵H(X|Y)
对信息量的认识理解
信息量的定义
若一个消息x出现的概率为p，则这一消息所含的信息量为 I log p 其中，对数的底大于1
信息量单位
以2为底时，单位为 bit（binary unit，比特）以e为底时，单位为 nat（natural unit，奈特）以10为底时，单位为 hart（Hartley，哈特）
决策树模型
ICDM 2006会议的算法投票结果
共有145人参加了ICDM 2006 Panel (会议的专题讨论),并对18种候选算法进行投票，选出了数据挖掘10大算法
排名挖掘主题算法
1 分类
C4.5
2 聚类
k-Means
3 统计学习 SVM
4 关联分析 Apriori
5 统计学习 EM
6 链接挖掘 PageRank
已知户外时活动的条件熵
晴
阴
雨
H(活动|户外)=5/14*H(活动|户外=晴)+4/14*H(活动|户外=阴) +5/14* H(活动|户外=雨)
= (5/14)*0.971 + (4/14)*0 +(5/14)*0.971 = 0.693
平均互信息
I(活动;户外) = H(活动) - H(活动|户外) = 0.94- 0.693 = 0.246
已知户外的天气情况下活动的条件熵
进行取消晴
阴
雨
户外有三个属性值，晴，阴和雨。其熵分别为：
H(活动|户外=晴) = - (2/5)*log2(2/5) - (3/5)*log2(3/5) = 0.971 H(活动|户外=阴) = - (4/4)*log2(4/4) = 0 H(活动|户外=雨) = - (3/5)*log2(3/5)- (2/5)*log2(2/5) = 0.971
H (X | Y ) p( y j )H (X | y j )
j
条件熵H(X|Y)表示已知Y后，X的不确定度
13
是否适合打垒球的决策表来自天气晴晴阴雨雨雨阴晴晴雨晴阴阴雨
温度炎热炎热炎热适中寒冷寒冷寒冷适中寒冷适中适中适中炎热适中
湿度高高高高正常正常正常高正常正常正常高正常高
解：出现正面与反面的概率分别是1/4，3/4，它们的信息量是
I(正)= -lbp(正)= -lb1/4=2b
I(反)= -lbp(反)= -lb3/4=0.415b
信源含有的信息量是信源发出的所有可
能消息的平均不确定性，香农把信源所含有的信息量称为信息熵，是指每个符号所含信息量的统计平均值。m种符号的平均信息量为
q
H x pxi log pxi i 1
(1/ 4 log1/ 4 3 / 4 log1/ 4)
0.811b/symbol
例：气象预报
X 晴阴大雨小雨
p( x)
1/
2
1/ 4
1/8
1/
8
条件自信息量
在事件yj出现的条件下，随机事件xi发生的条件概率为p(xi | yj) ，则它的条件自信息量定义为条件概率对数的负值：
46
1998 Brin, S.
45
1997 Freund, Y.
45
1996 Hastie, T
45
2001 Hand, D.J
34
1984 L.Breiman
陈述人
Hiroshi Motoda Joydeep Ghosh QiangYang Christos Faloutsos Joydeep Ghosh Christos Faloutsos Zhi-Hua Zhou Vipin Kumar Qiang Yang Dan Steinberg
风速弱强弱弱弱强强弱弱弱强强弱强
活动取消取消进行进行进行取消进行取消进行进行进行进行进行取消
是否进行垒球活动
进行取消
晴
阴
雨
进行取消晴阴雨
活动的熵
进行取消
活动有2个属性值，进行，取消。其熵为：
H(活动) = - (9/14)*log (9/14) - (5/14)*log (5/14) = 0.94
H (X ) p(xi )I (xi ) p(xi ) log p(xi )
i
i
抛一枚均匀硬币的信息熵是多少？解：出现正面与反面的概率均为0. 5，信息熵是
q
H x pxi log pxi i 1
(0.5log 0.5 0.5log 0.5)
1b
抛一枚畸形硬币，出现正面与反面的概率分别是1/4，3/4，出现正面与反面时的信息量是多少？解：出现正面与反面的概率分别是1/4，3/4，信息熵是