08-2第八章 机器学习-决策树ID3算法的实例解析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

作者
Quinlan, J.R MacQueen, J.B Vapnik, V.N
陈述人
Hiroshi Motoda Joydeep Ghosh QiangYang
4
5 6 7 8 9 10
关联分析
统计学习 链接挖掘 集装与推进 分类 分类 分类
Apriori
EM PageRank AdaBoost kNN Naï ve Bayes CART

抛一枚均匀硬币,出现正面与反面的信息量 是多少? 解:出现正面与反面的概率均为0. 5,它们的 信息量是 I(正)= -lbp(正)= -lb0.5=1b I(反)= -lbp(反)= -lb0.5=1b

抛一枚畸形硬币,出现正面与反面的概率分 别是1/4,3/4,出现正面与反面时的信息量 是多少? 解:出现正面与反面的概率分别是1/4,3/4, 它们的信息量是 I(正)= -lbp(正)= -lb1/4=2b I(反)= -lbp(反)= -lb3/4=0.415b
条件自信息量
在事件yj出现的条件下,随机事件xi发生 的条件概率为p(xi | yj) ,则它的条件自信息量 定义为条件概率对数的负值:
I ( xi | y j ) log p ( xi | y j )
12
条件熵

在给定yj条件下,xi的条件自信息量为I(xi| yj), X集合的条件熵H(X|yj)为
H x
px log px
i i i 1
q
(0.5 log0.5 0.5 log0.5) 1b

抛一枚畸形硬币,出现正面与反面的概率分 别是1/4,3/4,出现正面与反面时的信息量 是多少? 解:出现正面与反面的概率分别是1/4,3/4, 信息熵是
H x
已知户外时活动的条件熵
晴 阴 雨
H(活动|户外)=5/14*H(活动|户外=晴)+4/14*H(活动|户外=阴) +5/14* H(活动|户外=雨) = (5/14)*0.971 + (4/14)*0 +(5/14)*0.971 = 0.693
平均互信息
I(活动;户外) = H(活动) - H(活动|户外) = 0.94- 0.693 = 0.246
H(活动|天气)=5/14*H(活动|天气=晴)+4/14*H(活动|天气=阴) +5/14* H(活动|天气=雨) = (5/14)*0.971 + (4/14)*0 +(5/14)*0.971 = 0.693
已知温度时活动的条件熵
天气 阴 阴 晴 晴 雨 雨 晴 阴 晴 雨 雨 阴 晴 雨 湿度 高 正常 高 高 高 正常 正常 高 高 高 正常 正常 正常 正常 风速 弱 弱 弱 强 弱 弱 强 强 弱 强 弱 强 弱 强 温度 炎热 炎热 炎热 炎热 适中 适中 适中 适中 适中 适中 寒冷 寒冷 寒冷 寒冷 活动 进行 进行 取消 取消 进行 进行 进行 进行 取消 取消 进行 进行 进行 取消

ID3算法生成的决策树
ID3算法
ID3(A:条件属性集合,d:决策属性,U:训练集)返回一棵决策树 { if U为空,返回一个值为Failure的单结点;//一般不会出现这种情况, 为了程序的健壮性 if U是由其值均为相同决策属性值的记录组成,返回一个带有该值的单 结点;//此分支至此结束 if A为空,则返回一个单结点,其值为在U的记录中找出的频率最高的决 策属性值;//这时对记录将出现误分类 将A中属性之间具有最大I(d;a)的属性赋给a; 将属性a的值赋给{aj|j=1,2,…,m}; 将分别由对应于a的值的aj的记录组成的U的子集赋值给{uj|j=1,2,…,m}; 返回一棵树,其根标记为a,树枝标记为a1, a2,…, am; 再分别构造以下树:ID3(A-{a},d,u1),ID3(A-{a},d,u2),…,ID3(A{a},d,um);//递归算法 }
1. 2. 3. 4.
对 信 息 量 的 认 识 理 解

信息量的定义

若一个消息x出现的概率为p,则这一消息所含的信息量为
I log p
其中,对数的底大于1

信息量单位

以2为底时,单位为 bit(binary unit,比特) 以e为底时,单位为 nat(natural unit,奈特) 以10为底时,单位为 hart(Hartley,哈特)
活动的熵
天气 阴 雨 雨 阴 晴 雨 晴 阴 阴 晴 晴 雨 晴 雨 温度 炎热 适中 寒冷 寒冷 寒冷 适中 适中 适中 炎热 炎热 炎热 寒冷 适中 适中 湿度 高 高 正常 正常 正常 正常 正常 高 正常 高 高 正常 高 高 风速 弱 弱 弱 强 弱 弱 强 强 弱 弱 强 强 弱 强 活动 进行 进行 进行 进行 进行 进行 进行 进行 进行 取消 取消 取消 取消 取消
H(活动) = - (9/14)*lb (9/14) - (5/14)*lb (5/14) = 0.94
已知天气时活动的条件熵
温度 寒冷 适中 炎热 炎热 适中 炎热 寒冷 适中 炎热 适中 寒冷 适中 寒冷 适中 湿度 正常 正常 高 高 高 高 正常 高 正常 高 正常 正常 正常 高 风速 弱 强 弱 强 弱 弱 强 强 弱 弱 弱 弱 强 强 天气 晴 晴 晴 晴 晴 阴 阴 阴 阴 雨 雨 雨 雨 雨 活动 进行 进行 取消 取消 取消 进行 进行 进行 进行 进行 进行 进行 取消 取消
H(活动|温度) = 0.911
已知湿度时活动的条件熵
天气 阴 雨 阴 晴 晴 晴 雨 雨 阴 晴 雨 晴 阴 雨 温度 炎热 适中 适中 炎热 炎热 适中 适中 寒冷 寒冷 寒冷 适中 适中 炎热 寒冷 风速 弱 弱 强 弱 强 弱 强 弱 强 弱 弱 强 弱 强 湿度 高 高 高 高 高 高 高 正常 正常 正常 正常 正常 正常 正常 活动 进行 进行 进行 取消 取消 取消 取消 进行 进行 进行 进行 进行 进行 取消
决策树模型
ICDM 2006会议的算法投票结果
共有145人参加了ICDM 2006 Panel (会议的专题讨论),并对18种 候选算法进行投票,选出了数据挖掘10大算法
排名 挖掘主题
1 2 3 分类 聚类 统计学习
算法
C4.5 k-Means SVM
得票数 发表时间
61 60 58 1993 1967 1995
52
48 46 45 45 45 34
1994
2000 1998 1997 1996 2001 1984
Rakesh Agrawal
McLachlan, G Brin, S. Freund, Y. Hastie, T Hand, D.J L.Breiman
Christos Faloutsos
Joydeep Ghosh Christos Faloutsos Zhi-Hua Zhou Vipin Kumar Qiang Yang Dan Steinberg
信息的定量描述
衡量信息多少的物理量称为信息量。


若概率很大,受信者事先已有所估计,则该消息信 息量就很小; 若概率很小,受信者感觉很突然,该消息所含信息 量就很大。
信息量的定义

根据客观事实和人们的习惯概念,函数f(p) 应满足以下条件:
f(p)应是概率p的严格单调递减函数,即当p1>p2, f(p1)<f(p2); 当p=1时,f(p)=0; 当p=0时,f(p)=∞; 两个独立事件的联合信息量应等于它们分别的信息量之和。

H(活动|户外=晴) = - (2/5)*log2(2/5) - (3/5)*log2(3/5) = 0.971 H(活动|户外=阴) = - (4/4)*log2(4/4) = 0 H(活动|户外=雨) = - (3/5)*log2(3/5)- (2/5)*log2(2/5) = 0.971
H (X | y j )
p( x
i
i
| y j )I ( xi | y j )
– 在给定Y(即各个yj )条件下,X集合的条件熵H(X|Y)
H (X | Y)
p( y )H ( X | y )
j j j
13
条件熵H(X|Y)表示已知Y后,X的不确定度
是否适合打垒球的决策表
天气 晴 晴 阴 雨 雨 雨 阴 晴 晴 雨 晴 阴 阴 雨 温度 炎热 炎热 炎热 适中 寒冷 寒冷 寒冷 适中 寒冷 适中 适中 适中 炎热 适中 湿度 高 高 高 高 正常 正常 正常 高 正常 正常 正常 高 正常 高 风速 弱 强 弱 弱 弱 强 强 弱 弱 弱 强 强 弱 强 活动 取消 取消 进行 进行 进行 取消 进行 取消 进行 进行 进行 进行 进行 取消

天气 晴 晴 阴 雨 雨 雨 阴 晴 晴 雨 晴 阴 阴 雨 温度 炎热 炎热 炎热 适中 寒冷 寒冷 寒冷 适中 寒冷 适中 适中 适中 炎热 适中 湿度 高 高 高 高 正常 正常 正常 高 正常 正常 正常 高 正常 高 风速 弱 强 弱 弱 弱 强 强 弱 弱 弱 强 强 弱 强 活动 取消 取消 进行 进行 进行 取消 进行 取消 进行 进行 进行 进行 进行 取消 天气 晴 晴 晴 晴 晴 阴 阴 阴 阴 雨 雨 雨 雨 雨 温度 寒冷 适中 炎热 炎热 适中 炎热 寒冷 适中 炎热 适中 寒冷 适中 寒冷 适中 湿度 正常 正常 高 高 高 高 正常 高 正常 高 正常 正常 正常 高 风速 弱 强 弱 强 弱 弱 强 强 弱 弱 弱 弱 强 强 活动 进行 进行 取消 取消 取消 进行 进行 进行 进行 进行 进行 进行 取消 取消
H(活动|湿度) = 0.789
已知风速时活动的条件熵
天气 阴 晴 阴 晴 雨 雨 阴 雨 雨 晴 雨 阴 晴 晴 温度 寒冷 适中 适中 炎热 寒冷 适中 炎热 适中 寒冷 寒冷 适中 炎热 炎热 适中 湿度 正常 正常 高 高 正常 高 高 高 正常 正常 正常 正常 高 高 风速 强 强 强 强 强 强 弱 弱 弱 弱 弱 弱 弱 弱 活动 进行 进行 进行 取消 取消 取消 进行 进行 进行 进行 进行 进行 取消 取消
是否进行垒球活动
进行 取消
进行 晴 阴 雨
取消



活动的熵
进行 取消
活动有2个属性值,进行,取消。其熵为:
H(活动) = - (9/14)*log (9/14) - (5/14)*log (5/14) = 0.94
已知户外的天气情 况下活动的条件熵

进行
取消


户外有三个属性值,晴,阴和雨。其熵分别为:
信源含有的信息量是信源发出的所有可 能消息的平均不确定性,香农把信源所含有 的信息量称为信息熵,是指每个符号所含信 息量的统计平均值。m种符号的平均信息量 为
H ( X ) p( xi ) I ( xi ) p( xi )Fra Baidu biblioteklog p( xi )
i i

抛一枚均匀硬币的信息熵是多少? 解:出现正面与反面的概率均为0. 5,信息熵 是
H(活动|风速) = 0.892
各互信息量

I(活动;天气) = H(活动) - H(活动|天气) = 0.94- 0.693 = 0.246 I(活动;温度) = H(活动) - H(活动|温度) = 0.94- 0.911 = 0.029 I(活动;湿度) = H(活动) - H(活动|湿度) = 0.94- 0.789 = 0.151 I(活动;风速) = H(活动) - H(活动|风速) = 0.94- 0.892 = 0.048
是否适合打垒球的决策表
天气 晴 晴 阴 雨 雨 雨 阴 晴 晴 雨 晴 阴 阴 雨 温度 炎热 炎热 炎热 适中 寒冷 寒冷 寒冷 适中 寒冷 适中 适中 适中 炎热 适中 湿度 高 高 高 高 正常 正常 正常 高 正常 正常 正常 高 正常 高 风速 弱 强 弱 弱 弱 强 强 弱 弱 弱 强 强 弱 强 活动 取消 取消 进行 进行 进行 取消 进行 取消 进行 进行 进行 进行 进行 取消
px log px
i i i 1
q
(1 / 4 log1 / 4 3 / 4 log1 / 4) 0.811b/symbol

例:气象预报
X 晴 阴 大雨 小雨 p( x) 1 / 2 1 / 4 1 / 8 1 / 8
温度 寒冷 适中 炎热 炎热 适中
湿度 正常 正常 高 高 高
风速 弱 强 弱 强 弱
活动 进行 进行 取消 取消 取消

温度 炎热 寒冷 适中 炎热 温度 适中 寒冷 适中 寒冷 适中
湿度 高 正常 高 正常 湿度 高 正常 正常 正常 高
风速 弱 强 强 弱 风速 弱 弱 弱 强 强
活动 进行 进行 进行 进行 活动 进行 进行 进行 取消 取消
相关文档
最新文档