机器学习 习题答案

合集下载

机器学习参考答案

机器学习参考答案

第7章机器学习参考答案7-6ID3解:设根节点为S,尽管它包含了所有的训练例子,但却没有包含任何分类信息,因此具有最大的信息熵。

即:H(S)= - (P(+)log 2 P(+) + P(-)log2 P(-))式中P(+)=3/6,P(-)=3/6分别是决策方案为“ +”或“-”时的概率。

因此有H(S)= - ((3/6)log 2(3/6) + (3/6)log 2(3/6))=1按照ID3算法,需要选择一个能使S的期望熵为最小的一个属性对根节点进行扩展,因此我们需要先计算S关于每个属性的条件熵:H(S|x i)= ( |S T| / |S|)* H(S T) + ( |S F| / |S|)* H(S F)其中,T和F为属性人的属性值,S T和S F分别为X j=T或X i=F时的例子集,|S、| S T|和|S F|分别为例子集S、S T和S F的大小。

下面先计算S关于属性X1的条件熵:在本题中,当x1=T时,有:S T={1,2,3}当X1=F时,有:S F={4,5, 6}其中,S T和S F中的数字均为例子集S中的各个例子的序号,且有|S|=6, | S T |=| S F |=3。

由S T可知,其决策方案为“ +”或“-”的概率分别是:P ST(+)=2/3P ST (-)=1/3因此有:H(S T)= - (P ST (+)log2 P ST (+) + P ST (-)log2 P ST (-))=-((2⑶log 2(2/3) + (1/3)log 2(1/3))=0.9183再由S F可知,其决策方案为“ +”或“-”的概率分别是:P SF (+)=1/3P SF (-)=2/3则有:H (S F)= - (P SF (+)log 2 P SF (+) + P SF (-)log 2 P SF (-))=-((1 ⑶log 2(1/3)+ (2/3)log 2(2/3))=0.9183将H(S T)和H (S F)代入条件熵公式,有:H(S|X1)=(|S T|/|S|)H(S T)+(|S F|/|S|)H(S F)=(3/6) * 0.9183 + (3/6)* 0.9183=0.9183下面再计算S关于属性X2的条件熵:在本题中,当X2=T时,有:S T={1 , 2, 5, 6}当x2=F时,有:S F={3 , 4}其中,S T和S F中的数字均为例子集S中的各个例子的序号,且有|S|=6, | S T |=4, | S F |=2。

机器学习考试题目及答案

机器学习考试题目及答案

机器学习考试题目答案1.简描述机器学习概念?TomMitCheI1:"对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习J 我们遇到的大部分事情一般包括分类问题与回归问题。

如房价的预测,股价的预测等属于分类问题。

一般的处理过程是:首先,1)获取数据;2)提取最能体现数据的特征;3)利用算法建模;4)将建立的模型用于预测。

如人脸识别系统,首先我们获取到一堆人脸照片,首先,对数据进行预处理,然后提取人脸特征,最后用算法如SVM或者NN等。

这样,我们就建立了一个人脸识别系统,当输入一张人脸,我们就知道这张面孔是否在系统中。

这就是机器学习的整个流程,其次还包括寻找最优参数等。

机器学习主要分为:监督学习:数据集是有标签的,大部分机器学习模型都属于这一类别,包括线性分类器、支持向量机等等;无监督学习:跟监督学习相反,数据集是完全没有标签的,主要的依据是相似的样本在数据空间中一般距离是相近的,这样就能通过距离的计算把样本分类,这样就完全不需要IabeI,比如著名的kmeans算法就是无监督学习应用最广泛的算法;半监督学习:半监督学习一般针对的问题是数据量超级大但是有标签数据很少或者说标签数据的获取很难很贵的情况,训练的时候有一部分是有标签的而有一部分是没有的;强化学习:一直激励学习的方式,通过激励函数来让模型不断根据遇到的情况做出调整;2.循环神经网络的基本原理?RNNS的目的是用来处理序列数据。

在传统的神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。

但是这种普通的神经网络对于很多问题却无能无力。

例如,你要预测句子的下一个单词是什么,一般需要用到前面的单词,因为一个句子中前后单词并不是独立的。

RNNS之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。

具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。

机器学习原理及应用习题答案

机器学习原理及应用习题答案

第一章的题目填空题1、常见的机器学习算法有_________、___________、___________(随意列举三个)答:逻辑回归、最大熵模型、k-近邻模型、决策树、朴素贝叶斯分类器、支持向量机、高斯混合模型、隐马尔可夫模型、降维、聚类、深度学习2、sklearn.model_selection中的train_test_split函数的常见用法为______,______,______,______ = train_test_split(data,target)(填写测试集和训练集名称,配套填写,例如x_train,x_test)答:x_train x_test y_train y_test3、根据机器学习模型是否可用于生成新数据,可以将机器学习模型分为_________和_________。

答:生成模型判别模型4、训练一个机器学习模型往往需要对大量的参数进行反复调试或者搜索,这一过程称为______。

其中在训练之前调整设置的参数,称为_________。

答:调参超参数5、根据样本集合中是否包含标签以及半包含标签的多少,可以将机器学习分为____________、____________和______________。

答:监督学习半监督学习无监督学习判断题1、根据模型预测输出的连续性,可以将机器学习算法适配的问题划分为分类问题和线性问题。

(F)(回归问题)2、决策树属于典型的生成模型。

(F)(判别模型)3、降维、聚类是无监督学习算法(T)4、当我们说模型训练结果过拟合的时候,意思是模型的泛化能力很强(F)(很差)5、训练误差和泛化误差之间的差异越小,说明模型的泛化性能越好。

(T)选择题1、以下属于典型的生成模型的是(D)A、逻辑回归B、支持向量机C、k-近邻算法D、朴素贝叶斯分类器2、以下属于解决模型欠拟合的方法的是(C)A、增加训练数据量B、对模型进行裁剪C、增加训练过程的迭代次数D、正则化3、构建一个完整的机器学习算法需要三个方面的要素,分别是数据、模型、(A)。

机器学习课后习题答案

机器学习课后习题答案

第二章 模型评估与选择1.数据集包含1000个样本,其中500个正例,500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。

一个组合问题,从500500正反例中分别选出150150正反例用于留出法评估,所以可能取法应该是(C 500150)2。

2.数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。

10折交叉检验:由于每次训练样本中正反例数目一样,所以讲结果判断为正反例的概率也是一样的,所以错误率的期望是5050%。

留一法:如果留下的是正例,训练样本中反例的数目比正例多一个,所以留出的样本会被判断是反例;同理,留出的是反例,则会被判断成正例,所以错误率是100%。

3.若学习器A 的F1值比学习器B 高,试析A 的BEP 值是否也比B 高。

4.试述真正例率(TPR )、假正例率(FPR )与查准率(P )、查全率(R )之间的联系。

查全率: 真实正例被预测为正例的比例真正例率: 真实正例被预测为正例的比例显然查全率与真正例率是相等的。

查准率:预测为正例的实例中真实正例的比例假正例率: 真实反例被预测为正例的比例两者并没有直接的数值关系。

第一章 绪论(略)机器学习(周志华)参考答案9.试述卡方检验过程。

第三章线性模型2.试证明,对于参数w,对率回归(logistics回归)的目标函数(式1)是非凸的,但其对数似然函数(式2)是凸的。

如果一个多元函数是凸的,那么它的Hessian矩阵是半正定的。

3.编程实现对率回归,并给出西瓜数据集3.0α上的结果/icefire_tyh/article/details/520688444.选择两个UCI数据集,比较10折交叉验证法和留一法所估计出的对率回归的错误率。

/icefire_tyh/article/details/520689005.编程实现线性判别分析,并给出西瓜数据集3.0α上的结果。

机器学习期末试题及答案

机器学习期末试题及答案

机器学习期末试题及答案一、选择题1. 机器学习是一种:A. 人工智能子领域B. 数据分析工具C. 算法库D. 编程语言答案:A. 人工智能子领域2. 以下哪种算法是无监督学习算法?A. 决策树B. 支持向量机C. K均值聚类D. 朴素贝叶斯答案:C. K均值聚类3. 在机器学习中,过拟合是指:A. 模型无法适应新数据B. 模型过于简单C. 模型过于复杂D. 模型的精度较低答案:C. 模型过于复杂4. 机器学习任务中的训练集通常包括:A. 特征和标签B. 标签和模型参数C. 特征和模型参数D. 特征、标签和模型参数答案:A. 特征和标签5. 在机器学习中,用于评估模型性能的常见指标是:A. 准确率B. 回归系数C. 损失函数D. 梯度下降答案:A. 准确率二、填空题1. 监督学习中,分类问题的输出是离散值,而回归问题的输出是________________。

答案:连续值/实数值2. 机器学习中的特征工程是指对原始数据进行________________。

答案:预处理3. ________________是一种常见的集成学习算法,通过构建多个弱分类器来提高整体模型的性能。

答案:随机森林4. K折交叉验证是一种常用的评估模型性能和调参的方法,其中K 代表______________。

答案:折数/交叉验证的次数5. 在机器学习中,优化算法的目标是最小化或最大化一个称为______________的函数。

答案:目标函数/损失函数三、简答题1. 请简要解释什么是过拟合,并提出至少三种防止过拟合的方法。

答:过拟合是指在训练数据上表现很好,但在新数据上表现较差的现象。

防止过拟合的方法包括:- 数据集扩充:增加更多的训练样本,从而减少模型对特定数据的过度拟合。

- 正则化:通过在损失函数中引入正则化项,约束模型的复杂度,防止模型过分拟合训练数据。

- 交叉验证:使用交叉验证方法对模型进行评估,通过评估模型在不同数据集上的性能,选择性能较好的模型。

机器学习(慕课版)习题答案全集

机器学习(慕课版)习题答案全集

机器学习(慕课版)习题答案全集机器学习(慕课版)习题答案目录第一章机器学习概述 (2)第二章机器学习基本方法 (5)第三章决策树与分类算法 (9)第四章聚类分析 (13)第五章文本分析 (17)第六章神经网络 (22)第七章贝叶斯网络 (26)第八章支持向量机 (31)第九章进化计算 (32)第十章分布式机器学习 (34)第十一章深度学习 (35)第十二章高级深度学习 (37)第十三章推荐系统 (39)第一章机器学习概述1.机器学习的发展历史上有哪些主要事件?机器学习发展分为知识推理期、知识工程期、浅层知识期和深度学习几个阶段,可从几个阶段选择主要历史事件作答。

2.机器学习有哪些主要的流派?它们分别有什么贡献?符号主义:专家系统、知识工程贝叶斯派:情感分类、自动驾驶、垃圾邮件过滤联结主义:神经网络进化主义:遗传算法行为类推主义3.讨论机器学习与人工智能的关系机器学习是人工智能的一个分支,作为人工智能核心技术和实现手段,通过机器学习的方法解决人工智能面对的问题4.讨论机器学习与数据挖掘的关系数据挖掘是从大量的业务数据中挖掘隐藏、有用的、正确的知识促进决策的执行。

数据挖掘的很多算法都来自于机器学习,并在实际应用中进行优化。

机器学习最近几年也逐渐跳出实验室,解决从实际的数据中学习模式,解决实际问题。

数据挖掘和机器学习的交集越来越大,机器学习成为数据挖掘的重要支撑技术5.讨论机器学习与数据科学、大数据分析等概念的关系数据科学主要包括两个方面:用数据的方法研究科学和用科学的方法研究数据。

前者包括生物信息学、天体信息学、数字地球等领域;后者包括统计学、机器学习、数据挖掘、数据库等领域。

大数据分析即是后者的一个部分。

一般使用机器学习这个工具做大数据的分析工作,也就是说机器学习是我们做大数据分析的一个比较好用的工具,但是大数据分析的工具并不止机器学习,机器学习也并不只能做大数据分析。

(含答案)机器学习第一阶段测试题

(含答案)机器学习第一阶段测试题

机器学习第一阶段测试题一、选择题1.以下带佩亚诺余项的泰勒展开式错误的一项是(D)A.)x (o x !x !x e x 33231211++++= B.)x (o x *x x arcsin 33321++=C.)x (o x !x !x x sin 5535131++-= D.)x (o x !x !x cos 44241211+-+=分析:)x (o x !x !x cos 44241211++-=2.以下关于凸优化的说法错误的一项是(C )A.集合C 任意两点间线段均在集合C 内,则C 为凸集B.集合C 的凸包是能够包含C 的最小凸集C.多面体不一定是凸集D.线性变换能保持原集合的凸性分析:多面体是指有限半空间和超平面的交集,多面体一定是凸集3.以下说法错误的一项是(C )A.当目标函数是凸函数时,梯度下降法的解是全局最优解B.进行PCA 降维时需要计算协方差矩阵C.沿负梯度下降的方向一定是最优的方向D.利用拉格朗日函数能解带约束的优化问题分析:沿负梯度方向是函数值下降最快的方向但不一定是最优方向4.K-means 无法聚以下哪种形状样本?()A.圆形分布B.螺旋分布C.带状分布D.凸多边形分布分析:基于距离的聚类算法不能聚非凸形状的样本,因此选B5.若X 1,X 2,...X n 独立同分布于(2σ,μ),以下说法错误的是(C )A.若前n 个随机变量的均值,对于任意整数ε,有:B.随机变量的收敛到标准正态分布C.随机变量收敛到正态分布D.样本方差其中样本均值分析:A:大数定理概念;B、C:中心极限定理概念;C 错,应该收敛到正态分布D:样本的统计量公式二、公式推理题1.请写出标准正态分布的概率密度函数、期望、以及方差分析:概率密度函数:2221x e π)x (f -=;期望:0=)x (E ;方差:1=)x (D 2.请根据表中的分类结果混淆矩阵给出查准率(准确率)P 和查全率(召回率)R 的计算公式真实情况预测结果正例反例正例TP(真正例)FN(假反例)反例FP(假正例)TN(真反例)分析:FP TP TP P +=,NF TP TP R +=三、简答题1.求函数y ln x )y ,x (f 32+=的梯度向量分析:)y)y ,x (f ,x )y ,x (f ()y ,x (f ∂∂∂∂=∇,所以答案为(2x,3/y)∑==n i i n X n Y 111=<-∞→}ε|μY {|P lim n n σn μn X Y n i i n -=∑=1∑==n i i n X Y 1)σ,μ(N 2∑=--=n i i )X X (n S 1211)σn ,μn (N 2∑==n i i X n X 112.列举你知道的无约束最优化方法(至少三个),并选一种方法进行详细介绍分析:梯度下降法,牛顿法,拟牛顿法,共轭梯度法...(介绍略)3.请简要叙述正则化项中的L1和L2方法分析:1正则化和L2正则化可以看做是损失函数的惩罚项。

(完整word版)机器学习练习题与答案

(完整word版)机器学习练习题与答案

(完整word版)机器学习练习题与答案《机器学习》练习题与解答1.小刚去应聘某互联网公司的算法工程师,面试官问他“回归和分类有什么相同点和不同点”,他说了以下言论,请逐条判断是否准确。

1)回归和分类都是有监督学习问题[单选题] [必答题]○对○错参考答案:对。

解析:这道题只有一个同学做错。

本题考察有监督学习的概念。

有监督学习是从标签化训练数据集中推断出函数的机器学习任务。

有监督学习和无监督学习的区别是:机器学习算法的图谱如下:在回归问题中,标签是连续值;在分类问题中,标签是离散值。

具体差别请看周志华《机器学习》书中的例子,一看便懂:2.背景同上题。

请判断2)回归问题和分类问题都有可能发生过拟合 [单选题] [必答题] ○对○错答案:对解析:这题有两个同学做错。

过拟合的英文名称是Over-fitting(过拟合)。

为了说清楚“过”拟合,首先说一下“拟合”【拟合的几何意义】:从几何意义上讲,拟合是给定了空间中的一些点,找到一个已知形式未知参数的连续曲线或曲面来最大限度地逼近这些点。

一个直观的例子,是下面的电阻和温度的例子。

我们知道在物理学中,电阻和温度是线性的关系,也就是R=at+b。

现在我们有一系列关于“温度”和“电阻”的测量值。

一个最简单的思路,取两组测量值,解一个线性方程组,就可以求出系数a、b了!但是理想是丰满的,现实是残酷的!由于测量误差等的存在,我们每次测量得到的温度值和电阻值都是有误差的!因此,为了提高测量精度,我们会测量多次,得到多组的值,这样就相当于得到二维平面上的多个点,我们的目标是寻找一条直线,让这条直线尽可能地接近各个测量得到的点。

拟合的数学意义:在数学的意义上,所谓拟合(fit)是指已知某函数的若干离散函数值{f1,f2,…,fn}(未必都是准确值,有个别可能是近似甚至错误值),通过调整该函数中若干待定系数f(λ1, λ2,…,λn),使得该函数与已知点集的差别(最小二乘意义)最小。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.5(题目略)(a).第一步:S0{<(Q Q Q Q ),(Q Q Q Q)>}G0{<(????),(????)>}第二步:S1{<(male brown tall US),(female black short US)>G1{<(????),(????)>}第三步:S2{<(male brown ??),(female black short US)>G2{<(????),(????)>}第四步:S3{<(male brown ??),(female black short US)>G3{<(male ???),(????)>,<????>,<???US>}第五步:S4{<(male brown ??),(female ?short ?)>G4{<(male ???),(????)>}(b).假设中的每个属性可以取两个值,所以与题目例题一致的假设数目为:(2*2*2*2)*(2*2*2*2)=256(c).这个最短序列应该为8,25628=如果只有一个训练样例,则假设空间有25628=个假设,我们针对每一个属性来设置训练样例,使每次的假设空间减半。

则经过8次训练后,可收敛到单个正确的假设。

<female,blanck,short,Portuguese>,<female,blonde,tall,Indian><male,brown,short,Portuguese>,<female,blonde,tall,Indian><male,blanck,tall,Portuguese>,<female,blonde,tall,Indian><male,blanck,short,US>,<female,blonde,tall,Indian><male,blanck,short,Portuguese>,<male,blonde,tall,Indian><male,blanck,short,Portuguese>,<female,black,tall,Indian><male,blanck,short,Portuguese>,<female,blonde,short,Indian><male,blanck,short,Portuguese>,<female,blonde,tall,US>(d).若要表达该实例语言上的所有概念,那么我们需要扩大假设空间,使得每个可能的假设都包括在内,这样假设空间就远远大于256,而且这样没法得到最终的没法收敛,因为对每一个未见过的训练样例,投票没有任何效果,因此也就没有办法对未见样例分类。

所以不存在一个最优的查询序列。

2.6完成变型空间表示定理的证明(定理2.1)定理2.1:变型空间表示定理领X 为一任意的实例集合,H 为X 上定义的布尔假设的集合。

令c :X {0,1}为X 上定义的任一目标概念,并令D 为任一训练样例的集合{<x,c(x)>}。

对所有的X ,H ,c ,D 以及良好定义的S 和G :})()((|{s h g G g S s H h VS g g HD ≥≥∈∃∈∃∈=证明:对VSH ,D 中任一h :①当h ∈S 时,取s =h ,则有h ≥gs 成立②当h ∉S 时,即(∃h1∈H )[(h>gh1)∧Consistent(h1,D)]若h1∈S ,显然h ≥gs 成立;否则有(∃h2∈H )[(h1>gh2)∧Consistent(h2,D)]同样或者h2∈S ,则h>gh1≥gs 成立;或者(∃h3∈H )[(h2>gh3)∧Consistent(h3,D)]如此下去,必存在一个序列h>gh1>gh2>g…>ghn ∈S故也有(∃s ∈S)h ≥gs同理,对VSH ,D 中任一h :①当h ∈G 时,取g =h ,则有g ≥gh 成立②当h ∉G 时,即(∃h1∈H )[(h1>gh)∧Consistent(h1,D)]若h1∈G ,显然g ≥gh 成立;否则有(∃h2∈H )[(h2>gh1)∧Consistent(h2,D)]同样或者h2∈G ,则g=h2>gh1≥gh 成立;或者(∃h3∈H )[(h3>gh2)∧Consistent(h3,D)]如此下去,必存在一个序列g=hn>g …>gh2>gh1>gh ,故也有(∃g ∈G)g ≥gh2.9(题目略)对每个属性进行如下操作:令ai=T ,遍历样例集,如果样例全部为正例,则向假设中添加ai=T ,否则,令ai=F ,遍历样例集,如果样例全部为正例,则向假设中添加ai=F,否则,舍弃ai ,不向假设中添加ai 。

时间最大复杂度:2*n*样例集大小3.215.0log 5.05.0log 5.0log )(2212=--=-=∑=ci i i p p S Entropy 01*621*641)(62)(641)(||||)()()(=--=--=-=<∑∈F T v A Values v v S Entropy S Entropy S s S S Entropy A S Gain 3.4假设u1:EnjoySport=Yes ,u2:EnjoySport=NoH(U)=-P(u1)log P(u1)–P(u2)log P(u2)=-(3/4)log(3/4)-(1/4)log(1/4)对Sky 假设v1:Sky=Sunny v2:Sky=RainyH(U|v1)=-P(u1|v1)log P(u1|v1)-P(u2|v1)log P(u2|v1)=-1*log(1)-(0)*log(0)=0H(U|v2)=-P(u1|v2)log P(u1|v2)-P(u2|v2)log P(u2|v2)=-(0)*log(0)-(1)*log(1)=0H(U|V)=P(v1)H(U|v1)+P(v2)H(U|v2)=(3/4)*0+(1/4)*0=0所以I(U,V)=H(U)-H(U|V)=H(U)此时显然信息增益最大,所以Sky 作为决策树根节点,又由于对Sky 取两个值对应的EnjoySport 值都是确定的,因此可画出决策树为:SkySunny RainyYes No使用变型空间算法得到的变型空间为<sunny,warm,?,srtong,?,?>,决策树对应变型空间为<sunny,?,?,?,?,?>,显然,决策树得到的变型空间更一般。

树等价于变型空间中的一个或多个成员。

假设u1:EnjoySport=Yes,u2:EnjoySport=NoH(U)=-P(u1)log P(u1)–P(u2)log P(u2)=-(3/5)log(3/5)-(2/5)log(2/5)=0.971①对Sky假设v1:Sky=Sunny v2:Sky=RainyH(U|v1)=-P(u1|v1)log P(u1|v1)-P(u2|v1)log P(u2|v1)=-(3/4)*log(3/4)-(1/4)*log(1/4)=0.811 H(U|v2)=-P(u1|v2)log P(u1|v2)-P(u2|v2)log P(u2|v2)=-(0)*log(0)-(1)*log(1)=0H(U|V)=P(v1)H(U|v1)+P(v2)H(U|v2)=(4/5)*0.811+(1/5)*0=0.6488I(U,V)=H(U)-H(U|V)=0.971-0.6488=0.3222②对AirTemp假设v1:AirTemp=Warm v2:AirTemp=ColdH(U|v1)=-P(u1|v1)log P(u1|v1)-P(u2|v1)log P(u2|v1)=-(3/4)*log(3/4)-(1/4)*log(1/4)=0.811 H(U|v2)=-P(u1|v2)log P(u1|v2)-P(u2|v2)log P(u2|v2)=-(0)*log(0)-(1)*log(1)=0H(U|V)=P(v1)H(U|v1)+P(v2)H(U|v2)=(4/5)*0.811+(1/5)*0=0.6488I(U,V)=H(U)-H(U|V)=0.971-0.6488=0.3222③对Humidity假设v1:Humidity=Normal v2:Humidity=HighH(U|v1)=-P(u1|v1)log P(u1|v1)-P(u2|v1)log P(u2|v1)=-(1/2)*log(1/2)-(1/2)*log(1/2)=1 H(U|v2)=-P(u1|v2)log P(u1|v2)-P(u2|v2)log P(u2|v2)=-(2/3)*log(2/3)-(1/3)*log(1/3)=0.918 H(U|V)=P(v1)H(U|v1)+P(v2)H(U|v2)=(2/5)*1+(3/5)*0.918=0.9508I(U,V)=H(U)-H(U|V)=0.971-0.9508=0.0202④对Wind假设v1:Wind=Strong v2:Wind=WeakH(U|v1)=-P(u1|v1)log P(u1|v1)-P(u2|v1)log P(u2|v1)=-(3/4)*log(3/4)-(1/4)*log(1/4)=0.811 H(U|v2)=-P(u1|v2)log P(u1|v2)-P(u2|v2)log P(u2|v2)=-(0)*log(0)-(1)*log(1)=0H(U|V)=P(v1)H(U|v1)+P(v2)H(U|v2)=(4/5)*0.811+(1/5)*0=0.6488I(U,V)=H(U)-H(U|V)=0.971-0.6488=0.3222⑤对Water假设v1:Water=Warm v2:Water=CoolH(U|v1)=-P(u1|v1)log P(u1|v1)-P(u2|v1)log P(u2|v1)=-(1/2)*log(1/2)-(1/2)*log(1/2)=1 H(U|v2)=-P(u1|v2)log P(u1|v2)-P(u2|v2)log P(u2|v2)=-(1)*log(1)-(0)*log(0)=0H(U|V)=P(v1)H(U|v1)+P(v2)H(U|v2)=(4/5)*1+(1/5)*0=0.8I(U,V)=H(U)-H(U|V)=0.971-0.8=0.171⑥对Forecast假设v1:Forecast=Same v2:Forecast=ChangeH(U|v1)=-P(u1|v1)log P(u1|v1)-P(u2|v1)log P(u2|v1)=-(2/3)*log(2/3)-(1/3)*log(1/3)=0.918 H(U|v2)=-P(u1|v2)log P(u1|v2)-P(u2|v2)log P(u2|v2)=-(1/2)*log(1/2)-(1/2)*log(1/2)=1 H(U|V)=P(v1)H(U|v1)+P(v2)H(U|v2)=(3/5)*0.918+(2/5)*1=0.9580I(U,V)=H(U)-H(U|V)=0.971-0.9580=0.013从而可画出决策树第一步为:SkySunny RainyNo对于Sky=Sunny选定后H(U)=-P(u1)log P(u1)–P(u2)log P(u2)=-(3/4)log(3/4)-(1/4)log(1/4)=0.811①对AirTemp假设v1:AirTemp=Warm v2:AirTemp=ColdH(U|v1)=-P(u1|v1)log P(u1|v1)-P(u2|v1)log P(u2|v1)=-(3/4)*log(3/4)-(1/4)*log(1/4)=0.811 H(U|v2)=-P(u1|v2)log P(u1|v2)-P(u2|v2)log P(u2|v2)=-(0)*log(0)-(0)*log(0)=0H(U|V)=P(v1)H(U|v1)+P(v2)H(U|v2)=(4/4)*0.811+(0/4)*0=0.811I(U,V)=H(U)-H(U|V)=0.811-0.811=0②对Humidity假设v1:Humidity=Normal v2:Humidity=HighH(U|v1)=-P(u1|v1)log P(u1|v1)-P(u2|v1)log P(u2|v1)=-(1/2)*log(1/2)-(1/2)*log(1/2)=1 H(U|v2)=-P(u1|v2)log P(u1|v2)-P(u2|v2)log P(u2|v2)=-(1)*log(1)-(0)*log(0)=0H(U|V)=P(v1)H(U|v1)+P(v2)H(U|v2)=(1/2)*1+(1/2)*0=0.5I(U,V)=H(U)-H(U|V)=0.811-0.5=0.311③对Wind假设v1:Wind=Strong v2:Wind=WeakH(U|v1)=-P(u1|v1)log P(u1|v1)-P(u2|v1)log P(u2|v1)=-(1)*log(1)-(0)*log(0)=0H(U|v2)=-P(u1|v2)log P(u1|v2)-P(u2|v2)log P(u2|v2)=-(0)*log(0)-(1)*log(1)=0H(U|V)=P(v1)H(U|v1)+P(v2)H(U|v2)=(3/4)*0+(1/4)*0=0I(U,V)=H(U)-H(U|V)=0.811-0=0.811④对Water假设v1:Water=Warm v2:Water=CoolH(U|v1)=-P(u1|v1)log P(u1|v1)-P(u2|v1)log P(u2|v1)=-(2/3)*log(2/3)-(1/3)*log(1/3)=0.918 H(U|v2)=-P(u1|v2)log P(u1|v2)-P(u2|v2)log P(u2|v2)=-(1)*log(1)-(0)*log(0)=0H(U|V)=P(v1)H(U|v1)+P(v2)H(U|v2)=(3/4)*0.918+(1/4)*0=0.6885I(U,V)=H(U)-H(U|V)=0.811-0.6885=0.1225⑤对Forecast假设v1:Forecast=Same v2:Forecast=ChangeH(U|v1)=-P(u1|v1)log P(u1|v1)-P(u2|v1)log P(u2|v1)=-(2/3)*log(2/3)-(1/3)*log(1/3)=0.918 H(U|v2)=-P(u1|v2)log P(u1|v2)-P(u2|v2)log P(u2|v2)=-(1)*log(1)-(0)*log(0)=0H(U|V)=P(v1)H(U|v1)+P(v2)H(U|v2)=(3/4)*0.918+(1/4)*1=0.6885I(U,V)=H(U)-H(U|V)=0.811-0.6885=0.1225从而可画出决策树第二步:SkySunny RainyWindNoStrongWeakYes No该决策树已全部画出。

相关文档
最新文档