模式识别习题集答案解析

合集下载

模式识别习题参考1齐敏-教材第7章

第6章模糊模式识别法习题解答7.1 试分别说明近似性、随机性和含混性与模糊性在概念上的相同处与不同处。

解：(1) 近似性与模糊性的异同① 共同点：描述上的不精确性。

② 区别：不精确性的根源和表现形式不同。

a) 近似性：问题本身有精确解，描述时的不精确性源于认识条件的局限性和认识过程发展的不充分性。

b) 模糊性：问题本身无精确解，描述的不精确性来源于对象自身固有的性态上的不确定性。

(2) 随机性与模糊性的异同 ① 共同点：不确定性。

② 区别：模糊性和随机性所表现出的不确定性的性质不同。

a) 模糊性：表现在质的不确定性。

是由于概念外延的模糊性而呈现出的不确定性。

b) 随机性：是外在的不确定性。

是由于条件不充分，导致条件与事件之间不能出现确定的因果关系，事物本身的性态(性质、状态、特征等)和类属是确定的。

c) 排中律：即事件的发生和不发生必居且仅居其一，不存在第三种现象。

随机性遵守排中律，模糊性不遵守，它存在着多种，甚至无数种中间现象。

(3) 含混性与模糊性的异同 ① 共同点：不确定性。

② 区别：a) 含混性：由信息不充分（二义性）引起，一个含混的命题即是模糊的，又是二义的。

一个命题是否带有含混性与其应用对象或上下文有关。

b) 模糊性：是质的不确定性。

7.2 已知论域}3,2,1,0{=X ，~A 和~B 为X 中的模糊集合，分别为()()()(){}3,5.0,2,4.0,1,3.0,0,2.0~=A()()()(){}3,0,2,3.0,1,4.0,0,5.0~=B（1）求~~B A ，~~B A ，~A 和~B ；（2）求()~~~A B A 。

解：（1）由()()()⎪⎭⎫⎝⎛=x x x B A B A ~~~,max μμμ 有~~B A =()()()(){}3,5.0,2,4.0,1,4.0,0,5.0由()()()⎪⎭⎫⎝⎛=x x x B A B A ~~~,min μμμ 有~~B A ()()()(){}3,0,2,3.0,1,3.0,0,2.0=由()()x x A A ~~1μμ-=有~A ()()()(){}3,5.0,2,6.0,1,7.0,0,8.0= ~B ()()()(){}3,1,2,7.0,1,6.0,0,5.0=（2）()~~~A B A=()()()(){}3,5.0,2,4.0,1,4.0,0,5.0()()()(){}3,5.0,2,6.0,1,7.0,0,8.0()()()(){}3,5.0,2,4.0,1,4.0,0,5.0=7.3 已知两个模糊集合()(){}b a A ,8.0,,5.0~=，()(){}b a B ,2.0,,9.0~=试验证截集的两个性质：1）λλλB A B A =)~~(；2）λλλB A B A =)~~(。

模式识别习题集答案解析

模式识别习题集答案解析1、PCA和LDA的区别？PCA是⼀种⽆监督的映射⽅法，LDA是⼀种有监督的映射⽅法。

PCA只是将整组数据映射到最⽅便表⽰这组数据的坐标轴上，映射时没有利⽤任何数据部的分类信息。

因此，虽然做了PCA后，整组数据在表⽰上更加⽅便（降低了维数并将信息损失降到了最低），但在分类上也许会变得更加困难；LDA在增加了分类信息之后，将输⼊映射到了另外⼀个坐标轴上，有了这样⼀个映射，数据之间就变得更易区分了（在低纬上就可以区分，减少了很⼤的运算量），它的⽬标是使得类别的点距离越近越好，类别间的点越远越好。

2、最⼤似然估计和贝叶斯⽅法的区别？p(x|X)是概率密度函数，X是给定的训练样本的集合，在哪种情况下，贝叶斯估计接近最⼤似然估计？最⼤似然估计把待估的参数看做是确定性的量，只是其取值未知。

利⽤已知的样本结果，反推最有可能（最⼤概率）导致这样结果的参数值(模型已知，参数未知）。

贝叶斯估计则是把待估计的参数看成是符合某种先验概率分布的随机变量。

对样本进⾏观测的过程，把先验概率密度转化为后验概率密度，利⽤样本的信息修正了对参数的初始估计值。

当训练样本数量趋于⽆穷的时候，贝叶斯⽅法将接近最⼤似然估计。

如果有⾮常多的训练样本，使得p(x|X)形成⼀个⾮常显著的尖峰，⽽先验概率p(x)⼜是均匀分布，此时两者的本质是相同的。

3、为什么模拟退⽕能够逃脱局部极⼩值？在解空间随机搜索，遇到较优解就接受，遇到较差解就按⼀定的概率决定是否接受，这个概率随时间的变化⽽降低。

实际上模拟退⽕算法也是贪⼼算法，只不过它在这个基础上增加了随机因素。

这个随机因素就是：以⼀定的概率来接受⼀个⽐单前解要差的解。

通过这个随机因素使得算法有可能跳出这个局部最优解。

4、最⼩错误率和最⼩贝叶斯风险之间的关系？基于最⼩风险的贝叶斯决策就是基于最⼩错误率的贝叶斯决策，换⾔之，可以把基于最⼩错误率决策看做是基于最⼩风险决策的⼀个特例，基于最⼩风险决策本质上就是对基于最⼩错误率公式的加权处理。

模式识别习题及答案

模式识别习题及答案模式识别习题及答案【篇一：模式识别题目及答案】p> t，方差?1?（2,0）-1/2??11/2??1t，第二类均值为，方差，先验概率??（2,2）?122???1??1/21??-1/2p(?1)?p(?2)，试求基于最小错误率的贝叶斯决策分界面。

解根据后验概率公式p(?ix)?p(x?i)p(?i)p(x)，(2’)及正态密度函数p(x?i)?t(x??)?i(x??i)/2] ,i?1,2。

(2’) i?1基于最小错误率的分界面为p(x?1)p(?1)?p(x?2)p(?2)，(2’) 两边去对数，并代入密度函数，得(x??1)t?1(x??1)/2?ln?1??(x??2)t?2(x??2)/2?ln?2(1) (2’)1?14/3-2/3??4/32/3??1由已知条件可得?1??2，?1，?2??2/34/3?，(2’)-2/34/31设x?(x1,x2)t，把已知条件代入式（1），经整理得x1x2?4x2?x1?4?0，(5’)二、（15分）设两类样本的类内离散矩阵分别为s1??11/2?, ?1/21?-1/2??1tt,各类样本均值分别为?1?，?2?，试用fisher准（1,0）（3,2）s2-1/21??（2,2）的类别。

则求其决策面方程，并判断样本x?解：s?s1?s2??t20?(2’) ??02?1/20??-2??-1?*?1w?s()?投影方向为12?01/22?1? (6’) ???阈值为y0?w(?1??2)/2??-1-13 (4’)*t2?1?给定样本的投影为y?w*tx??2-1?24?y0，属于第二类(3’) ??1?三、（15分）给定如下的训练样例实例 x0 x1 x2 t(真实输出) 1 1 1 1 1 2 1 2 0 1 3 1 0 1 -1 4 1 1 2 -1用感知器训练法则求感知器的权值，设初始化权值为w0?w1?w2?0；1 第1次迭代2 第2次迭代（4’）（2’）3 第3和4次迭代四、（15分）i. 推导正态分布下的最大似然估计；ii. 根据上步的结论，假设给出如下正态分布下的样本，估计该部分的均值和方差两个参数。

大学模式识别考试题及答案详解

大学模式识别考试题及答案详解Document number：PBGCG-0857-BTDO-0089-PTT1998一、填空与选择填空（本题答案写在此试卷上，30分）1、模式识别系统的基本构成单元包括：模式采集、特征提取与选择和模式分类。

2、统计模式识别中描述模式的方法一般使用特真矢量；句法模式识别中模式描述方法一般有串、树、网。

3、聚类分析算法属于（1）；判别域代数界面方程法属于（3）。

（1）无监督分类 (2)有监督分类（3）统计模式识别方法（4）句法模式识别方法4、若描述模式的特征量为0-1二值特征量，则一般采用（4）进行相似性度量。

（1）距离测度（2）模糊测度（3）相似测度（4）匹配测度5、下列函数可以作为聚类分析中的准则函数的有（1）（3）（4）。

（1）（2） (3)(4)6、Fisher线性判别函数的求解过程是将N维特征矢量投影在（2）中进行。

（1）二维空间（2）一维空间（3）N-1维空间7、下列判别域界面方程法中只适用于线性可分情况的算法有（1）；线性可分、不可分都适用的有（3）。

（1）感知器算法（2）H-K算法（3）积累位势函数法8、下列四元组中满足文法定义的有（1）（2）（4）。

（1）({A, B}, {0, 1}, {A?01, A? 0A1 , A? 1A0 , B?BA , B? 0}, A)（2）({A}, {0, 1}, {A?0, A? 0A}, A)（3）({S}, {a, b}, {S ? 00S, S ? 11S, S ? 00, S ? 11}, S)（4）({A}, {0, 1}, {A?01, A? 0A1, A? 1A0}, A)二、(15分)简答及证明题（1）影响聚类结果的主要因素有那些？（2）证明马氏距离是平移不变的、非奇异线性变换不变的。

答：（1）分类准则，模式相似性测度，特征量的选择，量纲。

（2）证明：(2分)(2分)(1分)设，有非奇异线性变换：(1分)(4分)三、(8分)说明线性判别函数的正负和数值大小在分类中的意义并证明之。

模式识别期末试题及答案

模式识别期末试题及答案正文：模式识别期末试题及答案1. 选择题1.1 下列关于机器学习的说法中，正确的是：A. 机器学习是一种人工智能的应用领域B. 机器学习只能应用于结构化数据C. 机器学习不需要预先定义规则D. 机器学习只能处理监督学习问题答案：A1.2 在监督学习中，以下哪个选项描述了正确的训练过程？A. 通过输入特征和预期输出，训练一个模型来进行预测B. 通过输入特征和可能的输出，训练一个模型来进行预测C. 通过输入特征和无标签的数据，训练一个模型来进行预测D. 通过输入特征和已有标签的数据，训练一个模型来进行分类答案：D2. 简答题2.1 请解释什么是模式识别？模式识别是指在给定一组输入数据的情况下，通过学习和建模，识别和分类输入数据中的模式或规律。

通过模式识别算法，我们可以从数据中提取重要的特征，并根据这些特征进行分类、聚类或预测等任务。

2.2 请解释监督学习和无监督学习的区别。

监督学习是一种机器学习方法，其中训练数据包含了输入特征和对应的标签或输出。

通过给算法提供已知输入和输出的训练样本，监督学习的目标是学习一个函数，将新的输入映射到正确的输出。

而无监督学习则没有标签或输出信息。

无监督学习的目标是从未标记的数据中找到模式和结构。

这种学习方法通常用于聚类、降维和异常检测等任务。

3. 计算题3.1 请计算以下数据集的平均值：[2, 4, 6, 8, 10]答案：63.2 请计算以下数据集的标准差：[1, 3, 5, 7, 9]答案：2.834. 综合题4.1 对于一个二分类问题，我们可以使用逻辑回归模型进行预测。

请简要解释逻辑回归模型的原理，并说明它适用的场景。

逻辑回归模型是一种用于解决二分类问题的监督学习算法。

其基本原理是通过将特征的线性组合传递给一个非线性函数（称为sigmoid函数），将实数值映射到[0,1]之间的概率。

这个映射的概率可以被解释为某个样本属于正类的概率。

逻辑回归适用于需要估计二分类问题的概率的场景，例如垃圾邮件分类、欺诈检测等。

大学模式识别考试题及答案详解

大学模式识别考试题及答案详解Last revision on 21 December 2020一、填空与选择填空（本题答案写在此试卷上，30分）1、模式识别系统的基本构成单元包括：模式采集、特征提取与选择和模式分类。

2、统计模式识别中描述模式的方法一般使用特真矢量；句法模式识别中模式描述方法一般有串、树、网。

3、聚类分析算法属于（1）；判别域代数界面方程法属于（3）。

（1）距离测度（2）模糊测度（3）相似测度（4）匹配测度5、下列函数可以作为聚类分析中的准则函数的有（1）（3）（4）。

（1）（2） (3)(4)6、Fisher线性判别函数的求解过程是将N维特征矢量投影在（2）中进行。

（1）二维空间（2）一维空间（3）N-1维空间7、下列判别域界面方程法中只适用于线性可分情况的算法有（1）；线性可分、不可分都适用的有（3）。

（1）感知器算法（2）H-K算法（3）积累位势函数法8、下列四元组中满足文法定义的有（1）（2）（4）。

（1）({A, B}, {0, 1}, {A01, A 0A1 , A 1A0 , B BA , B 0}, A)（2）({A}, {0, 1}, {A0, A 0A}, A)（3）({S}, {a, b}, {S 00S, S 11S, S 00, S 11}, S)（4）({A}, {0, 1}, {A01, A 0A1, A 1A0}, A)二、(15分)简答及证明题（1）影响聚类结果的主要因素有那些（2）证明马氏距离是平移不变的、非奇异线性变换不变的。

答：（1）分类准则，模式相似性测度，特征量的选择，量纲。

（2）证明：(2分)(2分)(1分)设，有非奇异线性变换：(1分)(4分)三、(8分)说明线性判别函数的正负和数值大小在分类中的意义并证明之。

模式识别期末考试题及答案

模式识别期末考试题及答案一、选择题（每题2分，共20分）1. 以下哪项不属于模式识别的主要任务？A. 分类B. 回归C. 聚类D. 降维答案：B2. 以下哪种方法不属于模式识别的监督学习方法？A. 支持向量机B. 决策树C. 神经网络D. K-均值聚类答案：D3. 在模式识别中，特征选择和特征提取的主要目的是什么？A. 提高模型的泛化能力B. 减少模型的计算复杂度C. 提高模型的准确率D. 所有以上选项答案：D4. 以下哪种距离度量方法不适用于模式识别？A. 欧几里得距离B. 曼哈顿距离C. 余弦相似度D. 切比雪夫距离答案：C5. 以下哪种算法不属于模式识别中的分类算法？A. K-最近邻B. 支持向量机C. 线性回归D. 决策树答案：C二、填空题（每题2分，共20分）1. 模式识别的主要任务包括分类、回归、聚类和__________。

答案：降维2. 监督学习算法包括线性判别分析、__________、神经网络等。

答案：支持向量机3. 无监督学习算法包括K-均值聚类、层次聚类、__________等。

答案：DBSCAN4. 特征选择和特征提取的主要目的是降低数据的__________和__________。

答案：维度、计算复杂度5. 模式识别中常用的距离度量方法有欧几里得距离、曼哈顿距离、余弦相似度和__________。

答案：切比雪夫距离三、判断题（每题2分，共20分）1. 模式识别是人工智能领域中一个重要的分支，主要研究如何使计算机能够自动识别和处理模式。

（）答案：√2. 监督学习算法和无监督学习算法在模式识别中具有相同的作用。

（）答案：×3. 支持向量机是一种基于最大间隔的分类算法。

（）答案：√4. K-均值聚类算法是一种基于距离度量的聚类算法。

（）答案：√5. 特征选择和特征提取的主要目的是提高模型的泛化能力。

（）答案：√四、简答题（每题10分，共30分）1. 简述模式识别的基本流程。

模式识别习题答案(第一次)

−1 2 1

1
3
n ∑ t2 i =C λ i=1 i
显然，此为一超椭球面的方程，主轴长度由{λi , i = 1, · · · , n}决定，方向由变换矩阵A，也就是Σ的特征向量决定。 2.19 假定x和m是两个随机变量，并在给定m时，x的条件密度为
1 1 p(x|m) = (2π )− 2 σ −1 exp{− (x − m)2 /σ 2 } 2
c ∑ j =1 c ∫ ∑ j =1 Rj
P (x ∈ Rj |ωj )p(ωj ) =
p(x|ωj )p(ωj )dx
又因为p(e) = 1 − p(c)，所以 min p(e) ⇒ max p(c) ⇒ max
c ∫ ∑ j =1 Rj
p(x|ωj )p(ωj )dx
由上式可得到判决准则：若p(x|ωi )p(ωi ) > p(x|ωj )p(ωj ), ∀j ̸= i，则x ∈ ωi 等价于若p(ωi |x) > p(ωj |x), ∀j ̸= i，则x ∈ ωi 。 2.6 对两类问题，证明最小风险贝叶斯决策规则可表示为 ω1 p(x|ω1 ) (λ12 − λ22 )P (ω2 ) 若 ≷ 则x ∈ p(x|ω2 ) (λ21 − λ11 )P (ω1 ) ω2 证明： R(α1 |x) = λ11 p(ω1 |x) + λ12 p(ω2 |x)R(α2 |x) = λ21 p(ω1 |x) + λ22 p(ω2 |x) 若R(α1 |x) < R(α2 |x)，则x ∈ ω1 , 代入即得所求结果。 2.9 写出两类和多类情况下最小风险贝叶斯决策判别函数和决策面方程。解：两类情况下判别函数为：g (x) = R(α1 |x)−R(α2 |x)，决策面方程为：g (x) = 0；多类情况下定义一组判别函数gi (x) = R(αi |x), i = 1, · · · , c，如果对所有的j ̸= i，有：gi (x) < gj (x)，则x ∈ ωi ，其中第i类和第j 类之间的决策面为：gi (x) − gj (x) = 0。 ∑c 当然，将R(αi |x) = j =1 λ(αi , ωj )P (ωj |x), i = 1, · · · , a代入亦可。 2.15 证明多元正态分布的等密度点轨迹是一个超椭球面，且其主轴方向由Σ的特征向量决定，轴长度由Σ的特征值决定。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1、PCA和LDA的区别？PCA是一种无监督的映射方法，LDA是一种有监督的映射方法。

PCA只是将整组数据映射到最方便表示这组数据的坐标轴上，映射时没有利用任何数据部的分类信息。

因此，虽然做了PCA后，整组数据在表示上更加方便（降低了维数并将信息损失降到了最低），但在分类上也许会变得更加困难；LDA在增加了分类信息之后，将输入映射到了另外一个坐标轴上，有了这样一个映射，数据之间就变得更易区分了（在低纬上就可以区分，减少了很大的运算量），它的目标是使得类别的点距离越近越好，类别间的点越远越好。

2、最大似然估计和贝叶斯方法的区别？p(x|X)是概率密度函数，X是给定的训练样本的集合，在哪种情况下，贝叶斯估计接近最大似然估计？最大似然估计把待估的参数看做是确定性的量，只是其取值未知。

利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值(模型已知，参数未知）。

贝叶斯估计则是把待估计的参数看成是符合某种先验概率分布的随机变量。

对样本进行观测的过程，把先验概率密度转化为后验概率密度，利用样本的信息修正了对参数的初始估计值。

当训练样本数量趋于无穷的时候，贝叶斯方法将接近最大似然估计。

如果有非常多的训练样本，使得p(x|X)形成一个非常显著的尖峰，而先验概率p(x)又是均匀分布，此时两者的本质是相同的。

3、为什么模拟退火能够逃脱局部极小值？在解空间随机搜索，遇到较优解就接受，遇到较差解就按一定的概率决定是否接受，这个概率随时间的变化而降低。

实际上模拟退火算法也是贪心算法，只不过它在这个基础上增加了随机因素。

这个随机因素就是：以一定的概率来接受一个比单前解要差的解。

通过这个随机因素使得算法有可能跳出这个局部最优解。

4、最小错误率和最小贝叶斯风险之间的关系？基于最小风险的贝叶斯决策就是基于最小错误率的贝叶斯决策，换言之，可以把基于最小错误率决策看做是基于最小风险决策的一个特例，基于最小风险决策本质上就是对基于最小错误率公式的加权处理。

5、SOM的主要功能是什么？怎么实现的？是winner-all-take-all 策略吗？SOM是一种可以用于聚类的神经网络模型。

自组织映射（SOM）或自组织特征映射（SOFM）是一种使用非监督式学习来产生训练样本的输入空间的一个低维（通常是二维）离散化的表示的人工神经网络（ANN）。

自组织映射与其他人工神经网络的不同之处在于它使用一个邻近函数来保持输入控件的拓扑性质。

SOM网络中, 某个输出结点能对某一类模式作出特别的反应以代表该模式类, 输出层上相邻的结点能对实际模式分布中相近的模式类作出特别的反映,当某类数据模式输入时, 对某一输出结点产生最大刺激( 获胜结点) , 同时对获胜结点周围的一些结点产生较大刺激。

在训练的过程中, 不断对获胜结点的连接权值作调整, 同时对获胜结点的邻域结点的连接权值作调整; 随着训练的进行, 这个邻域围不断缩小, 直到最后, 只对获胜结点进行细微的连接权值调整。

不是winner-all-take-all 策略。

获胜结点产生刺激，其周围的结点也会产生一定程度的兴奋。

6、期望算法需要哪两步？请列出可能的公式并做必要的解释。

E-Step和M-Step。

E-Step叫做期望化步骤，M-Step为最大化步骤。

整体算法的步骤如下所示：1、初始化分布参数。

2、(E-Step)计算期望E，利用对隐藏变量的现有估计值，计算其最大似然估计值，以此实现期望化的过程。

3、(M-Step)最大化在E-步骤上的最大似然估计值来计算参数的值4、重复2,3步骤直到收敛。

F-step，根据之前的θ值求数据的期望M-step：求θ使期望最大化，作为下一次E-step的θ值。

7、在核密度估计（kernel density estimation）中，核独立就代表特征独立吗？朴素贝叶斯分类器的基本假设是什么？不能。

（？？？？？）The Naïve Bayes classifier makes the assumption that the features are class-conditionally independent。

8、假设数据维度（dimensionality）比给定的训练样本的个数多很多，请用PCA使计算复杂度依赖于数据的数量，而不是依赖于数据的维度。

1）计算协方差矩阵，得到协方差矩阵2）求协方差矩阵的特征值和特征向量3）选择主成分，将特征值按照从大到小的顺序排序，选择其中最大的k个，然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。

4）将样本点投影到选取的特征向量上。

9、假设一个数据集（covariance matrix）的协方差矩阵是请回答下列问题：1）这个协方差矩阵的每个元素有什么意义？协方差矩阵的每个元素是各个向量元素之间的协方差，数据集是二维的，四个元素从左到右从上到下分别是向量的第一个和第一个元素之间的协方差，12,21,222）计算这数据集两个主成分（principal components）矩阵：AH=λA，H是特征向量矩阵的特征方程的表达式为|λE-A|=0（λ-1）（λ-1）-1/4=0 λ=3/2或者1/23）为什么PCA能够移除特征之间的相关性？PCA在降维的时候要尽量保存数据集中的有效信息，映射的方法是基变换，数据集在某个基上的投影值(也是在这个基上的坐标值)越分散, 方差越大, 这个基保留的信息也就越多。

信息量保存能力最大的基向量一定是就是数据集的协方差矩阵的特征向量, 并且这个特征向量保存的信息量就是它对应的特征值。

10、一个K-class分类模型的先验概率是p（ωk）=πk，并且类概率密度是p（x|ωk）。

给定一个训练集{x n，t n} n=1,2,3……N，t n is a binary target vector of length k that uses the 1-of-k coding scheme，so that is x n is from class ωk，t nk=1，and t nj=0，for all other j，j≠k。

假设数据点的描绘是独立于这个模型的，用最大似然估计在先验概率是πk=N k/N的情况下求解，N k是数据点的数量由ωk确定。

解：11、对于下列模式：{(0,0)T，(1,1)T，(-1,-1)T，(2,2)T，(-2,-2)T，(1,-1)T，(-1,1)T}，使用K-L转换（或者说就是PCA）降低特征维数至一维，并给出详细的计算步骤。

Step1：求x和y的平均值。

然后对于所有的样例，都减去对应的均值。

X的均值是0，y的均值是0X：0 1 -1 2 -2 1 -1Y：0 1 -1 2 -2 -1 1Step2：求协方差矩阵（应该除以n-1，不是n，所以错的）Step3：求协方差矩阵的特征值和特征向量特征值：20/7 4/7特征向量：（λE-A）X=0，λ=20/7时，特征向量是[1,1]T，λ=4/7时，特征向量是[1,-1]T Step4：将特征值按照从大到小的顺序排序，选择其中最大的k个，然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。

所以选λ=20/7，特征向量矩阵是[1,1]T。

Step5：将样本点投影到选取的特征向量上。

DataAdjust就是减去均值后的样本矩阵，EigenVector就是特征向量矩阵最后的结果就是0 2 -2 4 -4 0 012、使用基本分支定界法去执行特征选择的先决条件（prerequisite）是什么？为什么它适用于降低计算代价？先决条件是假设单调性，增加特征只会增加目标函数的值。

在这样的假设条件下，增加特征的顺序对结果不会造成影响，就避免去搜索仅仅特征顺序不同的解，减少了计算代价。

13、在特征选择方面，SFS（sequential forward selection）和SBS（sequential backward selection）有什么区别？当最佳的特征子集从大量的特征中选出以后，两种方法哪一个是令人满意的？特征子集X从空集开始，每次选择一个特征x加入特征子集X，使得特征函数J( X)最优。

简单说就是，每次都选择一个使得评价函数的取值达到更优的特征加入，是一种简单的贪心算法。

从特征全集O开始，每次从特征集O中剔除一个特征x，使得剔除特征x后评价函数值达到最优。

SFS适用于最佳特征子集包含的特征个数较少的情况。

SBS适用于最佳特征子集包含特征个数较多的情况。

SFS：缺点是只能加入特征而不能去除特征。

SBS：序列后向选择与序列前向选择正好相反，它的缺点是特征只能去除不能加入。

另外，SFS与SBS都属于贪心算法，容易陷入局部最优值。

双向搜索( BDS , Bidirectional Search ）：算法描述：使用序列前向选择(SFS)从空集开始，同时使用序列后向选择(SBS)从全集开始搜索，当两者搜索到一个相同的特征子集C时停止搜索。

增L去R选择算法( LRS）：该算法有两种形式:<1>算法从空集开始，每轮先加入L个特征，然后从中去除R个特征，使得评价函数值最优。

( L> R )<2> 算法从全集开始，每轮先去除R个特征，然后加入L个特征，使得评价函数值最优。

( L< R )序列浮动选择( Sequential Floating Selection )：序列浮动选择由增L去R选择算法发展而来，该算法与增L去R选择算法的不同之处在于：序列浮动选择的L与R不是固定的，而是“浮动”的，也就是会变化的。

14、线性SVM的目标函数是什么？支持非线性SVM的基本解决思路是什么？非支持向量是可移除的吗？为什么？既然计算代价会随着样本的数量缩放，哪种方法被用来减轻（alleviate）这个负担？目标函数：min 1/2 ||ω|| subject to y i(ωx i+b)≥1,i=1,2,…，N 最大化Margin非线性SVM的基本思想是低维线性不可分，把它投影到高维空间中使线性可分。

是的，可移除，因为它对构成超平面不做贡献。

先聚类，找出中心点，对中心点用SVM进行分类，以减轻负载。

15、非线性SVM是否和径向基函数（radial basis function）具有一些相似性，如果有的话是什么？SVM和RBF超平面表达方式一样，都是将低维线性不可分的数据映射到高维。

只是优化时目标函数不同，SVM是最大化Margin，RBF是最小化错误率。

16、如果需要设计一个脸部识别系统并且在这个系统中输入的图片样本的维度和训练样本的数量相比通常非常高，都有哪些处理步骤？对于每一步，你能列出一个或者多个解决方法吗？怎么评价你设计的这个系统的错误率？图像输入：使用摄像头或者从图库中获取。