第二版机器学习答案

第二版机器学习答案
第二版机器学习答案

一、判断题(共30分,每题2分,打√或×)

1、如果问题本身就是非线性问题,使用支持向量机(SVM)是难以取得好的预测效果的。(×)

2、只要使用的半监督学习方法合适,利用100个标记样本和1000个无标记样本的预测效果,同样可以达到利用1100个标记样本使用监督学习方法的预测效果。(×)

3、深度学习中应该尽量避免过拟合。(×)

4、在随机森林Bagging过程中,每次选取的特征个数为m,m的值过大会降低树之间的关联性和单棵树的分类能力。(×)

5、决策树学习的结果,是得到一组规则集,且其中的规则是可以解释的。(√)

6、在FCM聚类算法中交替迭代优化目标函数的方法不一定得到最优解。(√)

7、在流形学习ISOMAP中,测地距离即是欧氏距离。(×)

8、贝叶斯决策实质上是按后验概率进行决策的。(√)

9、非参数估计需要较大数量的样本才能取得较好的估计结果。(√)

10、不需要显示定义特征是深度学习的优势之一。(√)

判断题为反扣分题目;答对得2分,不答得0分,答错得-2分;

尹老师没有给出问答题的参考答案是怕限制大家的思路,我简要给出答题思路,仅供大家参考。我发现好几个问题直接百度就可以找到答案,大家不妨自己搜一下。也可以看一下机器学习十大算法那个PDF文件。Co-training 和ensemble learning两个文件大家有时间可以看一下了解了解。

二、问答题(共60分)

1、从样本集推断总体概率分布的方法可以归结为哪几种类型?请分别简要解释之。

3种方法:监督参数估计、非监督参数估计、非参数估计

这个可以参照第三章概率密度函数估计-1.ppt,写的不能再详细了。

监督参数估计:样本所属类别及类条件总体概率密度的形式已知,而表征概率密度函数的某些参数未知,需要根据样本集对总体分布中的某些参数进行估计。

非监督参数估计:已知总体概率密度函数形式,但未知样本所属类别,需要根据样本集对总体分布中的某些参数进行估计。

非参数估计:已知样本所属类别,未知总体概率密度的形式,需要依据样本集直接推断概率密度函数

2、什么是k-近邻算法?

K近邻算法,即给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是K个邻居),这K个实例的多数属于某个类,就把该输入实例分类到这个类中。

该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。

是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。

当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入

一个新样本时,该样本的K个邻居中大容量类的样本占多数。

3、决策树的C4.5算法与ID3算法相比主要有哪些方面的改进?

From ID3 to C4.5:

1、用信息增益比来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;

2、增加了后剪枝操作。

3、能够完成对连续属性的离散化处理;

4、能够处理属性存在不同损失的情况;

5、能够对不完整数据进行处理。

4、就您的理解,谈谈什么是集成学习?集成学习要想取得好的效果,应该满足的两个条件是什么?

集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。

集成学习的思路是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终的分类,以取得比单个分类器更好的性能。如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。

必要条件:

被集成的各个基学习器(分类器)性能越高(分类正确率越高)越好。

各个基学习器(分类器)具有互补性,或者说互补性越大越好。

5、就您的理解,谈谈什么是半监督学习?请简要介绍Co-training的基本思想

半监督学习是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。

Co-training是将特征x分为互相独立的两个部分,分别训练两个分类器,用learner1分类未标记的数据,选取置信度高的结果放入标记的数据中,对新生成的数据集再训练learner2,同样将learner2产生的结果放入数据集中形成新的数据集,训练learner1,重复这个过程,最终两个分类器趋于相同的分类结果。

Co-training算法假设数据属性拥有两个充分冗余的视图,称之为view1 和view2。算法基本流程是:首先在标记数据集L 的view1 和view2,分别上训练出两个分类器C1 和C2;然后从未标记数据集U 上随机的选取u 个示例放入集合U’中;分别用C1 和C2 对U’中的所有元素进行标记;接着从两个分类器标记结果中各取可信度最高的p 个正标记和n 个负标记放入L 中;最后从U 中选取2p+2n 个数据补充到U’中;重复上述过程直到满足截止条件。

6、就您的理解,请分别概述何谓代价敏感性学习、何谓类别不平衡学习。

(1)不同错误的代价或者是后果是不一样的,甚至差别很大。

(2)不追求总的错误率最小,而是尽量避免代价大的分类错误,是代价敏感性学习的基

本思想。

(3)在代价敏感性学习的思想下,要使分界面远离分类错误代价大的那一类,或者说尽量减少犯分类代价大的那类错误。

代价敏感的学习方法是机器学习领域中的一种新方法,它主要考虑在分类中,当不同的分类错误会导致不同的惩罚力度时如何训练分类器。不同的分类错误有不同的代价(cost),代价敏感学习的目标就是最小化总分类代价。

现实生活中,经常会存在这样的数据,即某一类别所包含的样本的数量远远小于其他类别所包含的样本数量,我们称这样的数据为类别不平衡数据。在这些数据集中,人们主要关注的是小类样本的信息(少数类),但是传统的分类方法由于追求总体的准确率,很容易将全部样本判别为多数类,使得分类器在少数类样本上的效果变得很差。这样误分的代价是巨大的。

类别不平衡数据的研究主要集中在两个个层面:对数据集的处理和对分类算法的改进。对数据集的处理主要是用重采样的方法对数据集重构,改变原始数据集的分布,缩减其不平衡程度,主要方法有欠取样和过取样;对分类算法的改进主要是修改传统分类算法,使之适应类别不平衡数据分类,如代价敏感学习及基于Boosting的方法等。

7、试简述流型学习方法ISOMAP的基本思想及其优缺点。

ISOMAP就是把任意两点的测地距离作为流形的几何描述,用MDS理论框架理论上保持这个点与点之间的最短距离。算法的关键在于利用样本向量之间的欧氏距离dx(i,j)计算出样本之间的测地距离dG(i,j),从而真实再现高维数据内在的非线性几何结构。然后使用经典MDS 算法构造一个新的d维欧氏空间Y(d是降维空间的维数),最大限度地保持样本之间的欧式距离dY(i,j)与dG(i,j)误差最小,从而达到降维的目的。

ISOMAP的优点:可以最大限度的保留原始数据的信息;依赖于线性代数的特征值和特征向量问题,保证了结果的稳健性和全局最优性

缺点:适用范围有限,流形必须是内部平坦的;计算每两个点的距离,时间复杂度较大。Isomap优点:

(1)能处理非线性流形之类的高维数据;

(2)全局优化;

(3)不管输入空间是高度折叠的,还是扭曲的,或者弯曲的,Isomap仍然能全局优化低维的欧式表示;

(4)Isomap能保证渐进地恢复到真实的维度。

Isomap缺点 :

(1)可能在数据拓扑空间是不稳定的,依赖的;

(2)保证渐进恢复到非线性流形的几何结构的时候:当N增加的时候,点对距离提供更加接近于测地的距离,但是花更多计算时间;假如N是小的,测地距离将会非常不精确。

8、就您的理解,请概述何谓多标记学习。

多标记学习关注于如何对具有多个不同概念标记的对象进行有效地建模,在该框架下,学习系统通过对具有一组概念标记(label set)的训练例进行学习,以尽可能正确地对训练集之外示例的概念集合进行预测。形式化地说,多标记学习的任务是从数据集{(x1,Y1), (x2,Y2),…,(xm,Ym)}中学得函数f:x→2y,其中xi∈x为一个示例而Yi y为示例xi所属的一组概念标记。

9、就您的理解,谈谈什么是聚类?请简要介绍您所熟悉的一种聚类方法。

聚类是将多个对象按照某种相似度的度量方式分成不同的组(簇)。是一种无监督的学习方法,聚类的样本中没有类别y只有特征x,聚类的目的是找到每个样本x潜在的类别y,并将同类别y的样本x放在一起。

k-means 算法是一种很常见的聚类算法,它的基本思想是:通过迭代寻找k 个聚类的一种划分方案,使得用这k 个聚类的均值来代表相应各类样本时所得的总体误差最小。 其算法描述如下:

选择K 个点作为初始质心

Repeat

将每个点指派到离它最近的质心,形成K 个簇

重新计算每个簇的质心

Until 簇不再发生变化或者达到最大迭代次数

三、计算题(共10分)

1、有如图所示的神经网络。 Squash function 为:,1()1,1x x f x x ≥?=?

21,0x x ==,输出节点为z ,第k 次学习得到的权值为:1112212212()0,()2,()2,()1,()1,()1w k w k w k w k T k T k ======。试求第k 次前向传播学习得到的输出节点值()z k ,请给出求解过程和结果。

计算如下:

第k 次训练的正向过程如下:

隐藏层结点的值

21111()()(0120)(0)1

j j j y f w x f net f f ====?+?==∑

2

)2()0112()()(22122==?+?==∑==f f net f x w f y j j j

输出层结点的值

相关主题
相关文档
最新文档