模式识别试题及总结

模式识别试题及总结
模式识别试题及总结

一、填空与选择填空(本题答案写在此试卷上,30分)

1、模式识别系统的基本构成单元包括:模式采集、特征提取与选择

和模式分类。

2、统计模式识别中描述模式的方法一般使用特真矢量;句法模式识别中模式描述方法一般有串、树、网。

3、聚类分析算法属于(1);判别域代数界面方程法属于(3)。

(1)无监督分类 (2)有监督分类(3)统计模式识别方法(4)句法模式识别方法

4、若描述模式的特征量为0-1二值特征量,则一般采用(4)进行相似性度量。

(1)距离测度(2)模糊测度(3)相似测度(4)匹配测度

5、下列函数可以作为聚类分析中的准则函数的有(1)(3)(4)。

(1)(2) (3)

(4)

6、Fisher线性判别函数的求解过程是将N维特征矢量投影在(2)中进行。

(1)二维空间(2)一维空间(3)N-1维空间

7、下列判别域界面方程法中只适用于线性可分情况的算法有(1);线性可分、不可分都适用的有(3)。

(1)感知器算法(2)H-K算法(3)积累位势函数法

8、下列四元组中满足文法定义的有(1)(2)(4)。

(1)({A, B}, {0, 1}, {A→01, A→ 0A1 , A→ 1A0 , B→BA , B→ 0}, A)

(2)({A}, {0, 1}, {A→0, A→ 0A}, A)

(3)({S}, {a, b}, {S → 00S, S → 11S, S → 00, S → 11}, S)

(4)({A}, {0, 1}, {A→01, A→ 0A1, A→ 1A0}, A)

9、影响层次聚类算法结果的主要因素有(计算模式距离的测度、(聚类准则、类间距离门限、预定的

类别数目))。

10、欧式距离具有( 1、2 );马式距离具有(1、2、3、4 )。

(1)平移不变性(2)旋转不变性(3)尺度缩放不变性(4)不受量纲影响的特性

11、线性判别函数的正负和数值大小的几何意义是(正(负)表示样本点位于判别界面法向量指向的

正(负)半空间中;绝对值正比于样本点到判别界面的距离。)。

12、感知器算法1。

(1)只适用于线性可分的情况;(2)线性可分、不可分都适用。

13、积累势函数法较之于H-K算法的优点是(该方法可用于非线性可分情况(也可用于线性可分情况));

位势函数K(x,x k)与积累位势函数K(x)的关系为(

=

X

x

x

x

K

x

K

~

k

k

k

)

,

(

)

(

α

)。

14、在统计模式分类问题中,聂曼-皮尔逊判决准则主要用于(某一种判决错误较另一种判决错误更

为重要)情况;最小最大判决准则主要用于(先验概率未知的)情况。

15、“特征个数越多越有利于分类”这种说法正确吗?(错误)。特征选择的主要目的是(从n个特征

中选出最有利于分类的的m个特征(m>n )的条件下,可以使用分支定界法以减少计算量。

16、散度Jij越大,说明ωi类模式与ωj类模式的分布(差别越大);当ωi类模式与ωj类模式的分

布相同时,Jij=(0)。

17、已知有限状态自动机Af=(∑,Q,δ,q0,F),∑={0,1};Q={q0,q1};δ:δ(q0,0)= q1,δ(q0,

1)= q1,δ(q1,0)=q0,δ(q1,1)=q0;q0=q0;F={q0}。现有输入字符串:(a) 00011101011,(b) 1100110011,

(c) 101100111000,(d)0010011,试问,用Af对上述字符串进行分类的结果为(ω1:{a,d};ω2:{b,c} )。

18、影响聚类算法结果的主要因素有(②③④)。

①已知类别的样本质量;②分类准则;③特征选取;④模式相似性测度。

19、模式识别中,马式距离较之于欧式距离的优点是(③④)。

①平移不变性;②旋转不变性;③尺度不变性;④考虑了模式的分布。

20、基于二次准则函数的H-K算法较之于感知器算法的优点是(①③)。

①可以判别问题是否线性可分;②其解完全适用于非线性可分的情况;

③其解的适应性更好;④计算量小。

21、影响基本C均值算法的主要因素有(④①②)。

①样本输入顺序;②模式相似性测度;③聚类准则;④初始类心的选取。

22、位势函数法的积累势函数K(x)的作用相当于Bayes判决中的(②④)。

①先验概率;②后验概率;③类概率密度;④类概率密度与先验概率的乘积。

23、在统计模式分类问题中,当先验概率未知时,可以使用(②④)。

①最小损失准则;②最小最大损失准则;③最小误判概率准则;④N-P判决。

24、在(①③)情况下,用分支定界法做特征选择计算量相对较少。

①C n d>>n,(n为原特征个数,d为要选出的特征个数);②样本较多;③选用的可分性判据J对特征

数目单调不减;④选用的可分性判据J具有可加性。

25、散度J D是根据(③)构造的可分性判据。

①先验概率;②后验概率;③类概率密度;④信息熵;⑤几何距离。

26、似然函数的概型已知且为单峰,则可用(①②③④⑤)估计该似然函数。

①矩估计;②最大似然估计;③Bayes估计;④Bayes学习;⑤Parzen窗法。

27、Kn近邻元法较之Parzen窗法的优点是(②)。

①所需样本数较少;②稳定性较好;③分辨率较高;④连续性较好。

28、从分类的角度讲,用DKLT做特征提取主要利用了DKLT的性质:(①③)。

①变换产生的新分量正交或不相关;②以部分新的分量表示原矢量均方误差最小;③使变换后的矢

量能量更趋集中;

29、一般,剪辑k-NN最近邻方法在(①)的情况下效果较好。

①样本数较大;②样本数较小;③样本呈团状分布;④样本呈链状分布。

30、如果以特征向量的相关系数作为模式相似性测度,则影响聚类算法结果的主要因素有(②③)。

①已知类别样本质量;②分类准则;③特征选取;④量纲。

二、(15分)简答及证明题

(1)影响聚类结果的主要因素有那些?

(2)证明马氏距离是平移不变的、非奇异线性变换不变的。

答:(1)分类准则,模式相似性测度,特征量的选择,量纲。

(2)证明:

(2分)

(2分)

(1分)

设,有非奇异线性变换:(1分)

(4分)

三、(8分)说明线性判别函数的正负和数值大小在分类中的意义并证明之。

答:(1)(4分)的绝对值正比于到超平面的距离

平面的方程可以写成

式中。于是是平面的单位法矢量,上式可写成

设是平面中的任一点,是特征空间中任一点,点到平面的距离为差矢量在上的投影的绝对值,即

(1-1)

上式中利用了在平面中,故满足方程

式(1-1)的分子为判别函数绝对值,上式表明,的值正比于到超平面的距离,一个特征矢量代入判别函数后所得值的绝对值越大表明该特征点距判别界面越远。

(2)(4分)的正(负)反映在超平面的正(负)侧

两矢量和的数积为

(2分)

显然,当和夹角小于时,即在指向的那个半空间中,>0;反之,当

和夹角大于时,即在背向的那个半空间中,<0。由于,故

和同号。所以,当在指向的半空间中时,;当在背向的半空间中,。判别函数值的正负表示出特征点位于哪个半空间中,或者换句话说,表示特征点位于界面的哪一侧。

五、(12分,每问4分)在目标识别中,假定有农田和装甲车两种类型,类型ω1和类型ω2分别代表农田和装甲车,它们的先验概率分别为0.8和0.2,损失函数如表1所示。现在做了三次试验,获得三个样本的类概率密度如下:

:0.3,0.1,0.6

:0.7,0.8,0.3

(1)试用贝叶斯最小误判概率准则判决三个样本各属于哪一个类型;

(2)假定只考虑前两种判决,试用贝叶斯最小风险准则判决三个样本各属于哪一类;

(3)把拒绝判决考虑在内,重新考核三次试验的结果。

表1

解:由题可知:,,,

(1)(4分)根据贝叶斯最小误判概率准则知:

,则可以任判;,则判为;,则判为;

(2)(4分)由题可知:

则,判为;

,判为;

,判为;

(3)(4分)对于两类问题,对于样本,假设已知,有

则对于第一个样本,

,则拒判;

,则拒判;

,拒判。

1.监督学习与非监督学习的区别:

监督学习方法用来对数据实现分类,分类规则通过训练获得。该训练集由带分类号的数据集组成,因此监督学习方法的训练过程是离线的。

非监督学习方法不需要单独的离线训练过程,也没有带分类号(标号)的训练数据集,一般用来对数据集进行分析,如聚类,确定其分布的主分量等。

(实例:道路图)就道路图像的分割而言,监督学习方法则先在训练用图像中获取道路象素与非道路象素集,

进行分类器设计,然后用所设计的分类器对道路图像进行分割。

使用非监督学习方法,则依据道路路面象素与非道路象素之间的聚类分析进行聚类运算,以实现道路图像的分割。

2.动态聚类是指对当前聚类通过迭代运算改善聚类;

分级聚类则是将样本个体,按相似度标准合并,随着相似度要求的降低实现合并。

3. 线性分类器三种最优准则:

Fisher准则:根据两类样本一般类内密集, 类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。

该种度量通过类内离散矩阵Sw和类间离散矩阵Sb实现。

感知准则函数:准则函数以使错分类样本到分界面距离之和最小为原则。

其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元网络多层感知器的基础。

支持向量机:基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大, 它的基本出发点是使期望泛化风险尽可能小。

一、试问“模式”与“模式类”的含义。如果一位姓王的先生是位老年人,试问“王先生”和“老头”谁是模式,谁是模式

类?

答:在模式识别学科中,就“模式”与“模式类”而言,模式类是一类事物的代表,概念或典型,而“模式”

则是某一事物的具体体现,如“老头”是模式类,而王先生则是“模式”,是“老头”的具体化。

二、试说明Mahalanobis距离平方的定义,到某点的Mahalanobis距离平方为常数的轨迹的几何意义,它与欧氏距

离的区别与联系。

答:Mahalanobis距离的平方定义为:

其中x,u为两个数据,是一个正定对称矩阵(一般为协方差矩阵)。根据定义,距某一点的Mahalanobis 距离相等点的轨迹是超椭球,如果是单位矩阵Σ,则Mahalanobis距离就是通常的欧氏距离。

三、试说明用监督学习与非监督学习两种方法对道路图像中道路区域的划分的基本做法,以说明这两种学习方法

的定义与它们间的区别。

答:监督学习方法用来对数据实现分类,分类规则通过训练获得。该训练集由带分类号的数据集组成,因此监督学习方法的训练过程是离线的。

非监督学习方法不需要单独的离线训练过程,也没有带分类号(标号)的训练数据集,一般用来对数据集进行分析,如聚类,确定其分布的主分量等。

就道路图像的分割而言,监督学习方法则先在训练用图像中获取道路象素与非道路象素集,进行分类器设计,然后用所设计的分类器对道路图像进行分割。

使用非监督学习方法,则依据道路路面象素与非道路象素之间的聚类分析进行聚类运算,以实现道路图像的分割。

四、试述动态聚类与分级聚类这两种方法的原理与不同。

答:动态聚类是指对当前聚类通过迭代运算改善聚类;分级聚类则是将样本个体,按相似度标准合并,随着相似度要求的降低实现合并。

五、如果观察一个时序信号时在离散时刻序列得到的观察量序列表示为,而该时序信号的内在

状态序列表示成。如果计算在给定O条件下出现S的概率,试问此概率是何种概率。如果从观察序列来估计状态序列的最大似然估计,这与Bayes决策中基于最小错误率的决策有什么关系。

答:在给定观察序列条件下分析它由某个状态序列S产生的概率似后验概率,写成P(S|O),而通过O求对状态序列的最大似然估计,与贝叶斯决策的最小错误率决策相当。

六、已知一组数据的协方差矩阵为,试问

1.协方差矩阵中各元素的含义。

2.求该数组的两个主分量。

3.主分量分析或称K-L变换,它的最佳准则是什么?

4.为什么说经主分量分析后,消除了各分量之间的相关性。

答:协方差矩阵为,则

1)对角元素是各分量的方差,非对角元素是各分量之间的协方差。

2)主分量,通过求协方差矩阵的特征值,用得,则,

相应的特征向量为:,对应特征向量为,对应。

这两个特征向量即为主分量。

3)K-L变换的最佳准则为:

对一组数据进行按一组正交基分解,在只取相同数量分量的条件下,以均方误差计算截尾误差最小。

4)在经主分量分解后,协方差矩阵成为对角矩阵,因而各主分量间相关消除。

七、试说明以下问题求解是基于监督学习或是非监督学习:

1. 求数据集的主分量

2. 汉字识别

3. 自组织特征映射

4. CT图像的分割

答:1、求数据集的主分量是非监督学习方法;

2、汉字识别对待识别字符加上相应类别号——有监督学习方法;

3、自组织特征映射——将高维数组按保留近似度向低维映射——非监督学习;

4、CT图像分割——按数据自然分布聚类——非监督学习方法;

八、试列举线性分类器中最著名的三种最佳准则以及它们各自的原理。

答:线性分类器三种最优准则:

Fisher准则:根据两类样本一般类内密集, 类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。

该种度量通过类内离散矩阵Sw和类间离散矩阵Sb实现。

感知准则函数:准则函数以使错分类样本到分界面距离之和最小为原则。

其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元网络多层感知器的基础。

支持向量机:基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大, 它的基本出发点是使期望泛化风险尽可能小。

九、在一两维特征空间,两类决策域由两条直线H1和H2分界,

其中

而包含H1与H2的锐角部分为第一类,其余为第二类。

试求:

1.用一双层感知器构造该分类器

2.用凹函数的并构造该分类器

答:按题意要求

1)H1与H2将空间划分成四个部分,按使H1与H2大于零与小于零表示成四个区域,而第一类属于(-

+)区域,为方便起见,令则第一类在(++)区域。用双层感知器,神经元用域值,则在第一类样本输入时,两隐层结点的输出均为+1,其余则分别为(+-),(――),(-+), 故可按图设置域值。

2)用凹函数的并表示:或表示成,如,则,否则

十、设有两类正态分布的样本基于最小错误率的贝叶斯决策分界面,分别为X2=0,以及X1=3,其中两类的协方

差矩阵,先验概率相等,并且有,。

试求:以及。

答:设待求,待求

由于,先验概率相等。

则基于最小错误率的Bayes决策规则,在两类决策面分界面上的样本X应满足

(1)

其中按题意,(注:为方便起见,在下面计算中先去掉系数4/3)。

按题意分界面由x1=3及x2=0两条直线构成,则分界面方程为

(2)

对(1)式进行分解有

得(3)

由(3)式第一项得

(4)

将(4)式与(2)式对比可知

a=1,c=1

又由c=1与,得b2=1/4,b有两种可能,即b=1/2或b=-1/2,

如果b=1/2,则表明,此时分界面方程应为线性,与题意不符,只有b=-1/2 则(4)式为:2X1X2(5)

将相应结果带入(3)式第二项有

(6)

则结合(5)(2)应有

,则(7)

解得,

由得

九、证明在Σ正定或半正定时,Mahalanobis距离r符合距离定义的三个条件,即

(1)r(a,b)=r(b,a)

(2)当且仅当a=b时,有r(a,b)=0

(3)r(a,c)≤r(a,b)+r(b,c)

证明:

(1) 根据定义

(2) 由于Σ为对称阵,故Σ可以分解为,其中,且所有特征值大于等于零。

可以认为

这就变为了传统意义上的欧氏距离,可以由欧氏距离满足的性质直接证明本命题。

十、对一副道路图像,希望把道路部分划分出来,可以采用以下两种方法:

1.在该图像中分别在道路部分与非道路部分画出一个窗口,把在这两个窗口中的象素数据作为训练集,用Fisher准则方法求得分类器参数,再用该分类器对整幅图进行分类。

2.将整幅图的每个象素的属性记录在一张数据表中,然后用某种方法将这些数据按它们的自然分布状况划分成两类。因此每个象素就分别得到相应的类别号,从而实现了道路图像的分割。试问以上两种方法哪一种是监督学习,哪个是非监督学习?

答:

第一种方法中标记了两类样本的标号,需要人手工干预训练过程,属于监督学习方法;

第二种方法只是依照数据的自然分布,把它们划分成两类,属于非监督学习方法。

十一、已知有两类数据,分别为

试求:该组数据的类内及类间离散矩阵及。

答:第一类的均值向量为

十二、设一个二维空间中的两类样本服从正态分布,其参数分别为:

,,

先验概率,

试证明:其基于最小错误率的贝叶斯决策分界面方程为一圆,并求其方程。

证明:先验概率相等条件下,基于最小错误率贝叶斯决策的分界面上两类条件概率密度函数相等。

因此有:

化简为,是一个圆的方程。

十三、试分析五种常用决策规则思想方法的异同。

答、五种常用决策是:

1. 基于最小错误率的贝叶斯决策,利用概率论中的贝叶斯公式,得出使得错误率最小

的分类规则。

2. 基于最小风险的贝叶斯决策,引入了损失函数,得出使决策风险最小的分类。当在

0-1损失函数条件下,基于最小风险的贝叶斯决策变成基于最小错误率的贝叶斯决策。

3. 在限定一类错误率条件下使另一类错误率最小的两类别决策。

4. 最大最小决策:类先验概率未知,考察先验概率变化对错误率的影响,找出使最小

贝叶斯奉献最大的先验概率,以这种最坏情况设计分类器。

5. 序贯分类方法,除了考虑分类造成的损失外,还考虑特征获取造成的代价,先用一

部分特征分类,然后逐步加入性特征以减少分类损失,同时平衡总的损失,以求得最有效益。

十四、假设在某个地区细胞识别中正常(w 1)和异常(w 2)两类先验概率分别为 P(w 1)=0.9,

P(w 2)=0.1,现有一待识别的细胞,其观察值为x ,从类条件概率密度分布曲线上查得2.0)(1=w x P ,4.0)(2=w x P ,并且已知011=λ,612=λ,121=λ,022=λ 试对该细胞x 用一下两种方法进行分类: 1. 基于最小错误率的贝叶斯决策; 2. 基于最小风险的贝叶斯决策; 请分析两种结果的异同及原因。 答:1.

2.

十五、既然有线性判别函数,为什么还要引进非线性判别函数?试分析由“线性判别函数”向“非线性判别函数”推广的思想和方法。

答:实际中有很多模式识别问题并不是线性可分的,这时就需要采用非线性分类器,比如当两类样本分不具有多峰性质并互相交错时,简单的线性判别函数往往会带来较大的分类错误。这时,树分类器作为一种分段线性分类器,常常能有效地应用于这种情况。

十六、1.什么是特征选择?

2. 什么是Fisher线性判别?

答:1. 特征选择就是从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的。

2. Fisher线性判别:可以考虑把d维空间的样本投影到一条直线上,形成一维空间,

即把维数压缩到一维,这在数学上容易办到,然而,即使样本在d维空间里形成若干紧凑的互相分得开的集群,如果把它们投影到一条任意的直线上,也可能使得几类样本混在一起而变得无法识别。但是在一般情况下,总可以找到某个方向,使得在这个方向的直线上,样本的投影能分开得最好。问题是如何根据实际情况找到这条最好的、最易于分类的投影线,这就是Fisher算法所要解决的基本问题。

十七、写出两类和多类情况下最小风险贝叶斯决策判别函数和决策面方程。

十八、请论述模式识别系统的主要组成部分及其设计流程,并简述各组成部分中

常用方法的主要思想。

特征空间

信息获取:通过测量、采样和量化,可以用矩阵或向量表示二维图像或以为波形。

预处理:去除噪声,加强有用的信息,并对输入测量仪器或其他因素造成的退化现象进

行复原。

特征选择和提取:为了有效地实现分类识别,就要对原始数据进行变换,得到最能反映分类本质的特征。

分类决策:在特征空间中用统计方法把识别对象归为某一类。

十九、有两类样本集

T x ]0,0,0[11=,T x ]0,0,1[21=,T x ]1,0,1[3

1=,T x ]0,1,1[41= T x ]1,0,0[12=,T x ]0,1,0[22=,T x ]1,1

,0[32=,T x ]1,1,1[42= 1. 用K-L 变换求其二维特征空间,并求出其特征空间的坐标轴; 2. 使用Fisher 线性判别方法给出这两类样本的分类面。

二十、定性说明基于参数方法和非参数方法的概率密度估计有什么区别?

答:基于参数方法:是由已知类别的样本集对总体分布的某些参数进行统计推断非参数方法:已知样本所属类别,但未知总体概率密度函数形式

二十一、

答:

二十二、简述支持向量机的基本思想。 答:

SVM 从线性可分情况下的最优分类面发展而来。

最优分类面就是要求分类线不但能将两类正确分开(训练错误率为0),且使分类间隔最大。

SVM 考虑寻找一个满足分类要求的超平面,并且使训练集中的点距离分类面尽可能的远,也就是寻找一个分类面使它两侧的空白区域(margin)最大。

过两类样本中离分类面最近的点,且平行于最优分类面的超平面上H 1,H 2的训练样本就叫支持向量。

二十三、对于两类问题,假定),(~)(i i i N w x P ∑μ,2,1=i ,x 为d 维特征向量 请给出以下三种情况下的贝叶斯判别函数,并说明各有什么特点: 1. 21∑≠∑ 2. 21∑=∑

3. I 221σ=∑=∑,I 为单位矩阵

答: 1.

21∑≠∑

2.

21∑=∑

11

()()()ln ()

2

t i i i i g x x x P μμω-=--∑-+1101

; ln ()

2

t i i i i i i w w P μμμω--=∑=-∑+0

()t i i i g x w x w =+0()0

t w x x -=1()

i j w μμ-=∑-[]

).()

()()(/)(ln )(21

1

0j i j i t j i j i j i P P x μμμμμμωωμμ--∑--+=-

模式识别试题答案

模 式 识 别 非 学 位 课 考 试 试 题 考试科目: 模式识别 考试时间 考生姓名: 考生学号 任课教师 考试成绩 一、简答题(每题6分,12题共72分): 1、 监督学习和非监督学习有什么区别? 参考答案:当训练样本的类别信息已知时进行的分类器训练称为监督学习,或者由教师示范的学习;否则称为非监督学习或者无教师监督的学习。 2、 你如何理解特征空间?表示样本有哪些常见方法? 参考答案:由利用某些特征描述的所有样本组成的集合称为特征空间或者样本空间,特征空间的维数是描述样本的特征数量。描述样本的常见方法:矢量、矩阵、列表等。 3、 什么是分类器?有哪些常见的分类器? 参考答案:将特征空中的样本以某种方式区分开来的算法、结构等。例如:贝叶斯分类器、神经网络等。 4、 进行模式识别在选择特征时应该注意哪些问题? 参考答案:特征要能反映样本的本质;特征不能太少,也不能太多;要注意量纲。 5、 聚类分析中,有哪些常见的表示样本相似性的方法? 参考答案:距离测度、相似测度和匹配测度。距离测度例如欧氏距离、绝对值距离、明氏距离、马氏距离等。相似测度有角度相似系数、相关系数、指数相似系数等。 6、 你怎么理解聚类准则? 参考答案:包括类内聚类准则、类间距离准则、类内类间距离准则、模式与类核的距离的准则函数等。准则函数就是衡量聚类效果的一种准则,当这种准则满足一定要求时,就可以说聚类达到了预期目的。不同的准则函数会有不同的聚类结果。 7、 一种类的定义是:集合S 中的元素x i 和x j 间的距离d ij 满足下面公式: ∑∑∈∈≤-S x S x ij i j h d k k )1(1 ,d ij ≤ r ,其中k 是S 中元素的个数,称S 对于阈值h ,r 组成一类。请说明, 该定义适合于解决哪一种样本分布的聚类? 参考答案:即类内所有个体之间的平均距离小于h ,单个距离最大不超过r ,显然该定义适合团簇集中分布的样本类别。 8、 贝叶斯决策理论中,参数估计和非参数估计有什么区别? 参考答案:参数估计就是已知样本分布的概型,通过训练样本确定概型中的一些参数;非参数估计就是未知样本分布概型,利用Parzen 窗等方法确定样本的概率密度分布规律。 9、 基于风险的统计贝叶斯决策理论中,计算代价[λij ]矩阵的理论依据是什么?假设这个矩阵是 M ?N ,M 和N 取决于哪些因素?

模式识别与机器学习期末考查试题及参考答案(20210221222717)

模式识别与机器学习期末考查 试卷 研究生姓名:入学年份:导师姓名:试题1:简述模式识别与机器学习研究的共同问题和各自的研究侧重点。 答:(1)模式识别是研究用计算机来实现人类的模式识别能力的一门学科,是指对表征事物或现象的各种形式的信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。主要集中在两方面,一是研究生物体(包括人)是如何感知客观事物的,二是在给定的任务下,如何用计算机实现识别的理论和方法。机器学习则是一门研究怎样用计算机来模拟或实现人类学习活动的学科,是研究如何使机器通过识别和利用现有知识来获取新知识和新技能。主要体现以下三方面:一是人类学习过程的认知模型;二是通用学习算法;三是构造面向任务的专用学习系统的方法。两者关心的很多共同问题,如:分类、聚类、特征选择、信息融合等,这两个领域的界限越来越模糊。机器学习和模式识别的理论和方法可用来解决很多机器感知和信息处理的问题,其中包括图像/ 视频分析(文本、语音、印刷、手写)文档分析、信息检索和网络搜索等。 (2)机器学习和模式识别是分别从计算机科学和工程的角度发展起来的,各自的研究侧重点也不同。模式识别的目标就是分类,为了提高分类器的性能,可能会用到机器学习算法。而机器学习的目标是通过学习提高系统性能,分类只是其最简单的要求,其研究更

侧重于理论,包括泛化效果、收敛性等。模式识别技术相对比较成熟了,而机器学习中一些方法还没有理论基础,只是实验效果比较好。许多算法他们都在研究,但是研究的目标却不同。如在模式识别中研究所关心的就是其对人类效果的提高,偏工程。而在机器学习中则更侧重于其性能上的理论证明。试题2:列出在模式识别与机器学习中的常用算法及其优缺点。答:(1)K 近邻法算法作为一种非参数的分类算法,它已经广泛应用于分类、 回归和模式识别等。在应用算法解决问题的时候,要注意的两个方面是样本权重和特征权重。 优缺点:非常有效,实现简单,分类效果好。样本小时误差难控制,存储所有样本,需要较大存储空间,对于大样本的计算量大。(2)贝叶斯决策法 贝叶斯决策法是以期望值为标准的分析法,是决策者在处理 风险型问题时常常使用的方法。 优缺点:由于在生活当中许多自然现象和生产问题都是难以完全准确预测的,因此决策者在采取相应的决策时总会带有一定的风险。贝叶斯决策法就是将各因素发生某种变动引起结果变动的概率凭统计资料或凭经验主观地假设,然后进一步对期望值进行分析,由于此概率并不能证实其客观性,故往往是主观的和人为的概率,本身带有一定的风险性和不肯定性。虽然用期望的大小进行判断有一些风险,但仍可以认为贝叶斯决策是一种兼科学性和实效性于一身的比较完善的用于解决风险型决策问题的方法,在实际中能够广泛应

模式识别复习重点总结

1.线性判别方法 (1)两类:二维及多维判别函数,判别边界,判别规则 二维情况:(a )判别函数: ( ) (b )判别边界:g(x)=0; (c n 维情况:(a )判别函数: 也可表示为: (b )判别边界:g 1(x ) =W T X =0 (c )判别规则: (2)多类:3种判别方法(函数、边界、规则) (A)第一种情况:(a)判别函数:M 类可有M 个判别函数 (b) 判别边界:ωi (i=1,2,…,n )类与其它类之间的边界由 g i (x )=0确定 (c) (B)第二种情况:(a)判别函数:有 M (M _ 1)/2个判别平面 (b) 判别边界: (c) 判别规则: (C)第三种情况:(a)判别函数: (b) 判别边界: g i (x ) =g j (x ) 或g i (x ) -g j (x ) =0 (c) 判别规则: 32211)(w x w x w x g ++=为坐标向量为参数,21,x x w 12211......)(+++++=n n n w x w x w x w x g X W x g T =)(为增值模式向量。,=为增值权向量, T n n T n n x x x x X w w w w W )1,...,,(),,...,,(21121+=+X W x g T ij ij =)(0)(=x g ij j i x g ij ≠? ??∈→<∈→>j i x 0x 0)(ωω当当权向量。 个判别函数的 为第式中i w w w w W T in in i i i ),,,...,,(121+=X W x g K k =)(???∈=小,其它最大,当i T k i x X W x g ω)(

模式识别试题

一、试问“模式”与“模式类”的含义。如果一位姓王的先生是位老年人,试问“王先生”和“老头”谁是模式,谁是模式类? 二、试说明Mahalanobis距离平方的定义,到某点的Mahalanobis距离平方为常数的轨迹的几何意义,它与欧氏距离的区别与联系。 三、试说明用监督学习与非监督学习两种方法对道路图像中道路区域的划分的基本做法,以说明这两种学习方法的定义与它们间的区别。 四、试述动态聚类与分级聚类这两种方法的原理与不同。 五、如果观察一个时序信号时在离散时刻序列得到的观察量序列表示为,而该时序信号的内在状态序列表示成。如果计算在给定O条件下出现S的概 率,试问此概率是何种概率。如果从观察序列来估计状态序列的最大似然估计,这与Bayes 决策中基于最小错误率的决策有什么关系。 六、已知一组数据的协方差矩阵为,试问 1.协方差矩阵中各元素的含义。 2.求该数组的两个主分量。 3.主分量分析或称K-L变换,它的最佳准则是什么? 4.为什么说经主分量分析后,消除了各分量之间的相关性。 七、试说明以下问题求解是基于监督学习或是非监督学习: 1. 求数据集的主分量非 2. 汉字识别有 3. 自组织特征映射非 4. CT图像的分割非 八、试列举线性分类器中最著名的三种最佳准则以及它们各自的原理。 九、在一两维特征空间,两类决策域由两条直线H1和H2分界, 其中 而包含H1与H2的锐角部分为第一类,其余为第二类。 试求: 1.用一双层感知器构造该分类器 2.用凹函数的并构造该分类器 十、设有两类正态分布的样本基于最小错误率的贝叶斯决策分界面,分别为X2=0,以及X1=3,其中两类的协方差矩阵,先验概率相等,并且有, 。 试求:以及。

中科大模式识别试题

中国科学技术大学模式识别试题 (2012年春季学期) 姓名:学号:成绩: 一、填空与选择填空(本题答案写在此试卷上,30分) 1、模式识别系统的基本构成单元包括:、 和。 2、统计模式识别中描述模式的方法一般使用;句法模式识别中模式描述方法一般 有、、。 3、聚类分析算法属于;判别域代数界面方程法属于。 (1)无监督分类 (2)有监督分类(3)统计模式识别方法(4)句法模式识别方法 4、若描述模式的特征量为0-1二值特征量,则一般采用进行相似性度量。 (1)距离测度(2)模糊测度(3)相似测度(4)匹配测度 5、下列函数可以作为聚类分析中的准则函数的有。 (1) (4) 6、Fisher线性判别函数的求解过程是将N维特征矢量投影在中进行。 (1)二维空间(2)一维空间(3)N-1维空间 7、下列判别域界面方程法中只适用于线性可分情况的算法有;线性可分、不可分都适用的 有。 (1)感知器算法(2)H-K算法(3)积累位势函数法 8、下列四元组中满足文法定义的有。 (1)({A, B}, {0, 1}, {A→01, A→ 0A1 , A→ 1A0 , B→BA , B→ 0}, A) (2)({A}, {0, 1}, {A→0, A→ 0A}, A) (3)({S}, {a, b}, {S → 00S, S → 11S, S → 00, S → 11}, S) (4)({A}, {0, 1}, {A→01, A→ 0A1, A→ 1A0}, A) 二、(15分)简答及证明题 (1)影响聚类结果的主要因素有那些? (2)证明马氏距离是平移不变的、非奇异线性变换不变的。 (3)画出对样本集 ω1:{(0,0,0)T, (1,0,0)T, (1,0,1)T, (1,1,0)T,} PDF 文件使用 "pdfFactory Pro" 试用版本创建https://www.360docs.net/doc/7a14058421.html,

模式识别复习要点和参考习题教学内容

复习要点 绪论 1、举出日常生活或技术、学术领域中应用模式识别理论解决问题的实例。 答:我的本科毕设内容和以后的研究方向为重症监护病人的状态监测与预诊断,其中的第一步就是进 行ICU病人的死亡率预测,与模式识别理论密切相关。主要的任务是分析数据库的8000名ICU病人,统计 分析死亡与非死亡的生理特征,用于分析预测新进ICU病人的病情状态。 按照模式识别的方法步骤,首先从数据库中采集数据,包括病人的固有信息,生理信息,事件信息等并分为死亡组和非死亡组,然后分别进行数据的预处理,剔除不正常数据,对数据进行插值并取中值进行第一次特征提取,然后利用非监督学习的方法即聚类分析进行第二次特征提取,得到训练样本集和测试样本集。分别利用判别分析,人工神经网络,支持向量机的方法进行训练,测试,得到分类器,实验效果比传统ICU 中采用的评价预测系统好一些。由于两组数据具有较大重叠,特征提取,即提取模式特征就变得尤为重要。语音识别,图像识别,车牌识别,文字识别,人脸识别,通信中的信号识别; ① 文字识别 汉字已有数千年的历史,也是世界上使用人数最多的文字,对于中华民族灿烂文化的形成和发展有着不可 磨灭的功勋。所以在信息技术及计算机技术日益普及的今天,如何将文字方便、快速地输入到计算机中已 成为影响人机接口效率的一个重要瓶颈,也关系到计算机能否真正在我过得到普及的应用。目前,汉字输 入主要分为人工键盘输入和机器自动识别输入两种。其中人工键入速度慢而且劳动强度大;自动输入又分 为汉字识别输入及语音识别输入。从识别技术的难度来说,手写体识别的难度高于印刷体识别,而在手写 体识别中,脱机手写体的难度又远远超过了联机手写体识别。到目前为止,除了脱机手写体数字的识别已 有实际应用外,汉字等文字的脱机手写体识别还处在实验室阶段。 ②语音识别 语音识别技术技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人 工智能等等。近年来,在生物识别技术领域中,声纹识别技术以其独特的方便性、经济性和准确性等优势 受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安验证方式。而且利用基因算法训练连续 隐马尔柯夫模型的语音识别方法现已成为语音识别的主流技术,该方法在语音识别时识别速度较快,也有 较高的识别率。 ③ 指纹识别 我们手掌及其手指、脚、脚趾内侧表面的皮肤凹凸不平产生的纹路会形成各种各样的图案。而这些皮肤的 纹路在图案、断点和交叉点上各不相同,是唯一的。依靠这种唯一性,就可以将一个人同他的指纹对应起 来,通过比较他的指纹和预先保存的指纹进行比较,便可以验证他的真实身份。一般的指纹分成有以下几 个大的类别:环型(loop),螺旋型(whorl),弓型(arch),这样就可以将每个人的指纹分别归类,进行检索。指 纹识别基本上可分成:预处理、特征选择和模式分类几个大的步骤。 ③ 遥感 遥感图像识别已广泛用于农作物估产、资源勘察、气象预报和军事侦察等。 ④医学诊断 在癌细胞检测、X射线照片分析、血液化验、染色体分析、心电图诊断和脑电图诊断等方面,模式识别已取 得了成效。

【模式识别】期末考试复习资料

题型: 1.填空题5题 填空题 2.名词解释4题 3.问答题4题 4.计算作图题3题 5.综合计算题1题 备注1:没有整理第一章和第六章,老师说不考的 备注2:非线性判别函数相关概念P69 概率相关定义、性质、公式P83以后 最小错误率贝叶斯决策公式P85 最小风险贝叶斯P86 正态贝叶斯P90 综合计算有可能是第六次作业 一、填空题 物以类聚人以群分体现的是聚类分析的基本思想。 模式识别分类:1.从实现方法来分模式识别分为监督分类和非监督分类;2.从理论上来分,有统计模式识别,统计模式识别,模糊模式识别,神经网络模式识别法 聚类分析是按照不同对象之间的差异,根据距离函数的规律做模式分类的。 模式的特性:可观察性、可区分性、相似性 模式识别的任务:一是研究生物体(包括人)是如何感知对象的,二是如何用计算机实现模式识别的理论和方法。 计算机的发展方向:1.神经网络计算机--模拟人的大脑思维;2.生物计算机--运用生物工程技术、蛋白分子作芯片; 3.光计算机--用光作为信息载体,通过对光的处理来完成对信息的处理。 训练学习方法:监督学习、无监督学习(无先验知识,甚至类别数也未知)。 统计模式识别有:1.聚类分析法(非监督);2.判决函数法/几何分类法(监督);3.基于统计决策的概率分类法 - 以模式集在特征空间中分布的类概率密度函数为基础,对总体特征进行研究,以取得分类的方法 数据的标准化目的:消除各个分量之间数值范围大小对算法的影响 模式识别系统的基本构成:书P7 聚类过程遵循的基本步骤:特征选择;近邻测度;聚类准则;聚类算法;结果验证;结果判定。 相似测度基础:以两矢量的方向是否相近作为考虑的基础,矢量长度并不重要。 确定聚类准则的两种方式:阈值准则,函数准则 基于距离阈值的聚类算法——分解聚类:近邻聚类法;最大最小距离聚类法 类间距离计算准则:1)最短距离法2)最长距离法3)中间距离法4)重心法5)类平均距离法6)离差平方和法P24 系统聚类法——合并的思想 用于随机模式分类识别的方法,通常称为贝叶斯判决。 BAYES 决策常用的准则:最小错误率;最小风险 错误率的计算或估计方法:①按理论公式计算;②计算错误率上界;③实验估计。

模式识别期末试题

一、填空与选择填空(本题答案写在此试卷上,30分) 1、模式识别系统的基本构成单元包括:模式采集、特征提取与选择 和模式分类。 2、统计模式识别中描述模式的方法一般使用特真矢量;句法模式识别中模式描述方法一般有串、树、网。 3、聚类分析算法属于(1);判别域代数界面方程法属于(3)。 (1)无监督分类 (2)有监督分类(3)统计模式识别方法(4)句法模式识别方法 4、若描述模式的特征量为0-1二值特征量,则一般采用(4)进行相似性度量。 (1)距离测度(2)模糊测度(3)相似测度(4)匹配测度 5、下列函数可以作为聚类分析中的准则函数的有(1)(3)(4)。

(1)(2) (3)

(4) 6、Fisher线性判别函数的求解过程是将N维特征矢量投影在(2)中进行。 (1)二维空间(2)一维空间(3)N-1维空间 7、下列判别域界面方程法中只适用于线性可分情况的算法有(1);线性可分、不可分都适用的有(3)。 (1)感知器算法(2)H-K算法(3)积累位势函数法 8、下列四元组中满足文法定义的有(1)(2)(4)。 (1)({A, B}, {0, 1}, {A?01, A ? 0A1 , A ? 1A0 , B ? BA , B ? 0}, A)(2)({A}, {0, 1}, {A?0, A ? 0A}, A) (3)({S}, {a, b}, {S ? 00S, S ? 11S, S ? 00, S ? 11}, S) (4)({A}, {0, 1}, {A?01, A ? 0A1, A ? 1A0}, A) 9、影响层次聚类算法结果的主要因素有(计算模式距离的测度、(聚类准则、类 间距离门限、预定的类别数目))。 10、欧式距离具有( 1、2 );马式距离具有(1、2、3、4 )。 (1)平移不变性(2)旋转不变性(3)尺度缩放不变性(4)不受量纲影响的特性11、线性判别函数的正负和数值大小的几何意义是(正(负)表示样本点位于判别 界面法向量指向的正(负)半空间中;绝对值正比于样本点到判别界面的距离。)。

模式识别复习重点总结

1.什么是模式及模式识别?模式识别的应用领域主要有哪些? 模式:存在于时间,空间中可观察的事物,具有时间或空间分布的信息; 模式识别:用计算机实现人对各种事物或现象的分析,描述,判断,识别。 模式识别的应用领域:(1)字符识别;(2) 医疗诊断;(3)遥感; (4)指纹识别 脸形识别;(5)检测污染分析,大气,水源,环境监测; (6)自动检测;(7 )语声识别,机器翻译,电话号码自动查询,侦听,机器故障判断; (8)军事应用。 2.模式识别系统的基本组成是什么? (1) 信息的获取:是通过传感器,将光或声音等信息转化为电信息; (2) 预处理:包括A\D,二值化,图象的平滑,变换,增强,恢复,滤波等, 主要指图 象处理; (3) 特征抽取和选择:在测量空间的原始数据通过变换获得在特征空间最能反映分类 本质的特征; (4) 分类器设计:分类器设计的主要功能是通过训练确定判决规则,使按此类判决规 则分类时,错误率最低。把这些判决规则建成标准库; (5) 分类决策:在特征空间中对被识别对象进行分类。 3.模式识别的基本问题有哪些? (1)模式(样本)表示方法:(a )向量表示;(b )矩阵表示;(c )几何表示;(4)基元(链码)表示; (2)模式类的紧致性:模式识别的要求:满足紧致集,才能很好地分类;如果不满足紧致集,就要采取变换的方法,满足紧致集 (3)相似与分类;(a)两个样本x i ,x j 之间的相似度量满足以下要求: ① 应为非负值 ② 样本本身相似性度量应最大 ③ 度量应满足对称性 ④ 在满足紧致性的条件下,相似性应该是点间距离的 单调函数 (b) 用各种距离表示相似性 (4)特征的生成:特征包括:(a)低层特征;(b)中层特征;(c)高层特征 (5) 数据的标准化:(a)极差标准化;(b)方差标准化 4.线性判别方法 (1)两类:二维及多维判别函数,判别边界,判别规则 二维情况:(a )判别函数: ( ) (b )判别边界:g(x)=0; (c n 维情况:(a )判别函数: 也可表示为: 32211)(w x w x w x g ++=为坐标向量为参数,21,x x w 12211......)(+++++=n n n w x w x w x w x g X W x g T =)(为增值模式向量。 ,=为增值权向量,T n n T n n x x x x X w w w w W )1,...,,(),,...,,(21121+=+

2013年模式识别考试题和答案

2013–2014 学年度 模式识别 课程期末考试试题 一、计算题 (共20分) 在目标识别中,假定类型1ω为敌方目标,类型2ω为诱饵(假目标),已知先验概率P (1ω)=0.2和P (2ω)=0.8,类概率密度函数如下: ??? ??≤≤-<≤=其它021210)(1x x x x x p ω ?? ? ??≤≤-<≤=其它0323211-)(2x x x x x p ω 1、求贝叶斯最小误判概率准则下的判决域,并判断样本x =1.5属于哪一类; 2、求总错误概率p (e ); 3、假设正确判断的损失λ11=λ22=0,误判损失分别为λ12和λ21,若采用最小损失判决准则,λ12和λ21满足怎样的关系时,会使上述对x =1.5的判断相反? 解:(1)应用贝叶斯最小误判概率准则如果 )()()(2112ωω=x p x p x l <>)() (12ωωP P 则判 ???ωω∈21 x (2分) 得 l 12(1.5)=1 < )() (12ωωP P =4,故 x=1.5属于ω2 。(2分) (2)P(e)= 212121)()()(εω+εω=P P e P ??ΩΩωω+ωω=1 2 )()()()(2211x d x p P x d x p P = dx x x x ??-+- 1.2 1 2 1.2 10.8d )2(0.2)(=0.08 (算式正确2分,计算错误扣1~2分) (3) 两类问题的最小损失准则的似然比形式的判决规则为:

如果 ) )(())(()()(111212221221λ-λωλ-λω< >ωωP P x p x p 则判 ???ωω∈21 x 带入x=1.5得到 λ12≥4λ21 二、证明题(共20分) 设p(x)~N (μ,σ),窗函数?(x)~N (0,1),试证明Parzen 窗估计1 1 ?()( )N i N i N N x x p x Nh h ?=-= ∑ 有如下性质:22 ?[()](,)N N E p x N h μσ+ 。 证明:(1)(为书写方便,以下省略了h N 的下标N ) 22 22 22 2222222222 222211()()()()]22111exp[()()]2221111exp{[()2()]}221 1111exp[()]exp{()[2222y x y x y p y dy dy h h y x y dy h x x y y dy h h h x y h h μ?σμπσσ μμπσσσσ μπσσσ∞ ∞ -∞ -∞∞ -∞∞ -∞ ∞ -∞---=----=--= -+-+++=-+-+-? ??? ?2222()]}x h y dy h σμσ++ 222222 2222222222221 1()exp[(exp()22()2 11()exp[22()1()]2()x x h y dy h h h x h x h μσμπσσσσμπσσμσ∞ +=-+--+-=-+-=-+? (1-1) 121211?[()][()](,,...,)N i N N N i x x E p x p x x x dx dx dx Nh h ?∞ =-∞ -=∑??? 因为样本独立 121211?[()][()]()()...()N i N N N i x x E p x p x p x p x dx dx dx Nh h ?∞ =-∞ -=∑???

数字图像处理期末复习资料考试要点老师整理

第一章数字图像处理概论 *图像是对客观存在对象的一种相似性的、生动性的描述或写真。 *模拟图像 空间坐标和明暗程度都是连续变化的、计算机无法直接处理的图像 *数字图像 空间坐标和灰度均不连续的、用离散的数字(一般整数)表示的图像(计算机能处理)。是图像的数字表示,像素是其最小的单位。 * 数字图像处理(Digital Image Processi ng ) 利用计算机对数字图像进行(去除噪声、增强、复原、分割、特征提取、识别等)系列操作,从而获得某种预期的结果的技术。(计算机图像处理) *数字图像处理的特点(优势) (1)处理精度高,再现性好。(2)易于控制处理效果。(3)处理的多样性。(4)图像数据量庞大。(5)图像处理技术综合性强。 *数字图像处理的目的 (1)提高图像的视感质量,以达到赏心悦目的目的 a. 去除图像中的噪声; b. 改变图像的亮度、颜色; c. 增强图像中的某些成份、抑制某些成份; d. 对图像进行几何变换等,达到艺术效果; (2)提取图像中所包含的某些特征或特殊信息。 a.模式识别、计算机视觉的预处理 (3)对图像数据进行变换、编码和压缩,以便于图像的存储和传输。? ?数字图像处理的主要研究内容 (1)图像的数字化 a. 如何将一幅光学图像表示成一组数字,既不失真又便于计算机分析处理 b. 主要包括的是图像的采样与量化 (2*)图像的增强 a.加强图像的有用信息,消弱干扰和噪声 (3)图像的恢复 a.把退化、模糊了的图像复原。模糊的原因有许多种,最常见的有运动模糊,散焦模糊等 (4*)图像的编码 a.简化图像的表示,压缩表示图像的数据,以便于存储和传输。 (5)图像的重建 a.由二维图像重建三维图像(如CT (6)图像的分析

模式识别复习题1

模式识别 复习题 1. 简单描述模式识别系统的基本构成(典型过程)? 2. 什么是监督模式识别(学习)?什么是非监督模式识别(学习)? 对一副道路图像,希望把道路部分划分出来,可以采用以下两种方法: (1). 在该图像中分别在道路部分与非道路部分画出一个窗口,把在这两个窗口中的象素数据作为训练集,用某种判别准则求得分类器参数,再用该分类器对整幅图进行分类。 (2).将整幅图的每个象素的属性记录在一张数据表中,然后用某种方法将这些数据按它们的自然分布状况划分成两类。因此每个象素就分别得到相应的类别号,从而实现了道路图像的分割。 试问以上两种方法哪一种是监督学习,哪个是非监督学习? 3. 给出一个模式识别的例子。 4. 应用贝叶斯决策的条件是什么?列出几种常用的贝叶斯决策规 则,并简单说明其规则. 5. 分别写出在以下两种情况:(1)12(|)(|)P x P x ωω=;(2)12()() P P ωω=下的最小错误率贝叶斯决策规则。 6. (教材P17 例2.1) 7. (教材P20 例2.2),并说明一下最小风险贝叶斯决策和最小错误 率贝叶斯决策的关系。 8. 设在一维特征空间中有两类服从正态分布的样本, 12122,1,3,σσμμ====两类先验概率之比12(),() P e P ωω= 试确定按照最小错误率贝叶斯决策规则的决策分界面的x 值。

9. 设12{,,...,}N x x x =X 为来自点二项分布的样本集,即 1(,),0,1,01,1x x f x P P Q x P Q P -==≤≤=-,试求参数P 的最大似然估 计量?P 。 10. 假设损失函数为二次函数2??(,)()P P P P λ=-,P 的先验密度为均匀分布,即()1,01f P P =≤≤。在这样的假设条件下,求上题中的贝叶 斯估计量?P 。 11. 设12{,,...,}N x x x =X 为来自(|)p x θ的随机样本,其中0x θ≤≤时, 1 (|)p x θθ=,否则为0。证明θ的最大似然估计是max k k x 。 12. 考虑一维正态分布的参数估计。设样本(一维)12,,...,N x x x 都是由 独立的抽样试验采集的,且概率密度函数服从正态分布,其均值μ和方差2σ未知。求均值和方差的最大似然估计。 13. 设一维样本12{,,...,}N x x x =X 是取自正态分布2(,)N μσ的样本集,其中 均值μ为未知的参数,方差2σ已知。未知参数μ是随机变量,它的先验分布也是正态分布200(,)N μσ,200,μσ为已知。求μ的贝叶斯估计 ?μ 。 14. 什么是概率密度函数的参数估计和非参数估计?分别列去两种 参数估计方法和非参数估计方法。 15. 最大似然估计和Parzen 窗法的基本原理?

模式识别v试题库.doc

《模式识别》试题库 一、基本概念题 1.1 模式识别的三大核心问题是:、、。 1.2、模式分布为团状时,选用聚类算法较好。 1.3 欧式距离具有。马式距离具有。 (1)平移不变性(2)旋转不变性(3)尺度缩放不变性(4)不受量纲影响的特性 1.4 描述模式相似的测度有:。 (1)距离测度(2)模糊测度(3)相似测度(4)匹配测度 1.5 利用两类方法处理多类问题的技术途径有:(1);(2); (3)。其中最常用的是第个技术途径。 1.6 判别函数的正负和数值大小在分类中的意义 是:, 。 1.7 感知器算法。 (1)只适用于线性可分的情况;(2)线性可分、不可分都适用。 1.8 积累位势函数法的判别界面一般为。 (1)线性界面;(2)非线性界面。 1.9 基于距离的类别可分性判据有:。 (1) 1 [] w B Tr S S - (2) B W S S (3) B W B S S S + 1.10 作为统计判别问题的模式分类,在()情况下,可使用聂曼-皮尔逊判决准则。 1.11 确定性模式非线形分类的势函数法中,位势函数K(x,x k)与积累位势函数K(x)的关系为 ()。 1.12 用作确定性模式非线形分类的势函数法,通常,两个n维向量x和x k的函数K(x,x k)若同时满足下列三个条件,都可作为势函数。 ①();

②( ); ③ K(x,x k )是光滑函数,且是x 和x k 之间距离的单调下降函数。 1.13 散度J ij 越大,说明ωi 类模式与ωj 类模式的分布( )。当ωi 类模式与ωj 类模式的分布相同时,J ij =( )。 1.14 若用Parzen 窗法估计模式的类概率密度函数,窗口尺寸h1过小可能产生的问题是( ),h1过大可能产生的问题是( )。 1.15 信息熵可以作为一种可分性判据的原因 是: 。 1.16作为统计判别问题的模式分类,在( )条件下,最小损失判决规则与最小错误判决规则是等价的。 1.17 随机变量l(x ρ)=p( x ρ|ω1)/p( x ρ|ω2),l( x ρ)又称似然比,则E {l( x ρ)|ω2}= ( )。在最小误判概率准则下,对数似然比Bayes 判决规则为( )。 1.18 影响类概率密度估计质量的最重要因素是 ( )。 1.19 基于熵的可分性判据定义为 )] |(log )|([1 x P x P E J i c i i x H ρ ρωω∑=-=,J H 越( ),说明模式的 可分性越强。当P(ωi | x ρ) =( )(i=1,2,…,c)时,J H 取极大值。 1.20 Kn 近邻元法较之于Parzen 窗法的优势在于 ( )。 上述两种算法的共同弱点主要是( )。 1.21 已知有限状态自动机Af=(∑,Q ,δ,q0,F),∑={0,1};Q={q0,q1}; δ:δ(q0,0)= q1,δ(q0,1)= q1,δ(q1,0)=q0,δ(q1,1)=q0;q0=q0;F={q0}。现有输入字符串:(a) 00011101011,(b) 1100110011,(c) 101100111000,(d)0010011,试问,用Af 对上述字符串进行分类的结果为( )。 1.22 句法模式识别中模式描述方法有: 。 (1)符号串 (2)树 (3)图 (4)特征向量

中科院-模式识别考题总结(详细答案)

1.简述模式的概念及其直观特性,模式识别的分类,有哪几种方法。(6’) 答(1):什么是模式?广义地说,存在于时间和空间中可观察的物体,如果我们可以区别它们是否相同或是否相似,都可以称之为模式。 模式所指的不是事物本身,而是从事物获得的信息,因此,模式往往表现为具有时间和空间分布的信息。 模式的直观特性:可观察性;可区分性;相似性。 答(2):模式识别的分类: 假说的两种获得方法(模式识别进行学习的两种方法): ●监督学习、概念驱动或归纳假说; ●非监督学习、数据驱动或演绎假说。 模式分类的主要方法: ●数据聚类:用某种相似性度量的方法将原始数据组织成有意义的和有用的各种数据 集。是一种非监督学习的方法,解决方案是数据驱动的。 ●统计分类:基于概率统计模型得到各类别的特征向量的分布,以取得分类的方法。 特征向量分布的获得是基于一个类别已知的训练样本集。是一种监督分类的方法, 分类器是概念驱动的。 ●结构模式识别:该方法通过考虑识别对象的各部分之间的联系来达到识别分类的目 的。(句法模式识别) ●神经网络:由一系列互相联系的、相同的单元(神经元)组成。相互间的联系可以 在不同的神经元之间传递增强或抑制信号。增强或抑制是通过调整神经元相互间联 系的权重系数来(weight)实现。神经网络可以实现监督和非监督学习条件下的分 类。 2.什么是神经网络?有什么主要特点?选择神经网络模式应该考虑什么因素? (8’) 答(1):所谓人工神经网络就是基于模仿生物大脑的结构和功能而构成的一种信息处 理系统(计算机)。由于我们建立的信息处理系统实际上是模仿生理神经网络,因此称它为人工神经网络。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。 人工神经网络的两种操作过程:训练学习、正常操作(回忆操作)。 答(2):人工神经网络的特点: ●固有的并行结构和并行处理; ●知识的分布存储; ●有较强的容错性; ●有一定的自适应性; 人工神经网络的局限性: ●人工神经网络不适于高精度的计算; ●人工神经网络不适于做类似顺序计数的工作; ●人工神经网络的学习和训练往往是一个艰难的过程; ●人工神经网络必须克服时间域顺序处理方面的困难; ●硬件限制; ●正确的训练数据的收集。 答(3):选取人工神经网络模型,要基于应用的要求和人工神经网络模型的能力间的 匹配,主要考虑因素包括:

【模式识别】期末考试试卷02

《模式识别》期末考试试题( A ) 一、填空题( 15 个空,每空 2 分,共 30 分) 1 .基于机器学习的模式识别系统通常由两个过程组成 , 即( )和分类判决。 2 .统计模式识别把观察对象表达为一个随机向量 (即特征向量 ), 将 ( ) 表达为由有穷或无穷个具有相似数值特性的 模式组成的集合。 3 .特征一般有两种表达方法 : (1)将特征表达为 ( ); (2)将特征表达为基元。 4 .特征提取是指采用变换或映射实现由模式测量空间向 ( )的转变。 5 .同一类模式类样本的分布比较集中,没有或临界样本很少,这样的模式类称为 ( )。 6 .加权空间的所有 ( )都通过坐标原点。 7.线性多类判别: 若每两个模式类间可用判别平面分开, 在这种情况下, M 类有 ( )个判别函数 ,存在有不确定 区域。 8 .当取 ( )损失函数时 , 最小风险贝叶斯判决准则等价于最大后验概率判决准则。 9.Neyman-Pearson 决策的基本思想是 ( )某一错误率,同时追求另一错误率最小。 10.聚类 /集群:用事先不知样本的类别,而利用样本的先验知识来构造分类器属于 ( )学习。 11.相似性测度、 ( )和聚类算法称为聚类分析的三要素。 12. K/C 均值算法使用的聚类准则函数是 ( )准则,通过反复迭代优化聚类结果,使所有样本到各自所属类别的中 心的距离平方和达到最小。 13.根据神经元的不同连接方式,可将神经网络分为分层网络和相互连接型网络两大类。其中分层网络可细分为前向网 络、具有反馈的前向网络和 ( )三种互连方式。 14.神经网络的特性及能力主要取决于 ( )及学习方法。 15. BP 神经网络是采用误差反向传播算法的多层前向网络,其中,神经元的传输函数为 是一种 ( )映射关系。 二、简答题( 2 题,每小题 10 分,共 20 分) S 型函数,网络的输入和输出 1.简述有监督分类方法和无监督分类方法的主要区别。 1 1/ 2 2.已知一组数据的协方差矩阵为 ,试问: 1/2 1 (1) 协方差矩阵中各元素的含义是什么? (2) K-L 变换的最佳准则是什么? (3) 为什么说经 K-L 变换后消除了各分量之间的相关性? 三、计算题(2 题,每小题 13 分,共 26 分 ) 1.设有两类样本,两类样本的类内离散度矩阵分别为 S 1 1/ 2 , S 1 1/ 2 ,各类样本均值分别为 1 1/ 2 1 2 1/ 2 1 T T μ1 2 0 和 μ2 2 2 ,试用 Fisher 准则求其决策面方程。 2.设有两类正态分布的样本集,第一类均值 μ1 T 1 1/ 2 T 20,方差 1 1/ 2 ,第二类均值 μ2 22,方差 1 1 1/ 2 p( 2 ) 。试按最小错误率 Bayes 决策求两类的分界面。 2 1/ 2 ,先验概率 p( 1 ) 1

模式识别复习重点总结

1.什么是模式及模式识别模式识别的应用领域主要有哪些 模式:存在于时间,空间中可观察的事物,具有时间或空间分布的信息; 模式识别:用计算机实现人对各种事物或现象的分析,描述,判断,识别。 模式识别的应用领域:(1)字符识别;(2)医疗诊断;(3)遥感; (4)指纹识别脸形识别;(5)检测污染分析,大气,水源,环境监测;(6)自动检测;(7 )语声识别,机器翻译,电话号码自动查询,侦听,机器故障判断; (8)军事应用。 2.模式识别系统的基本组成是什么 (1)信息的获取:是通过传感器,将光或声音等信息转化为电信息; (2)预处理:包括A\D,二值化,图象的平滑,变换,增强,恢复,滤波等, 主要指图象处理; (3)特征抽取和选择:在测量空间的原始数据通过变换获得在特征空间最能反映分类本质的特征; (4)分类器设计:分类器设计的主要功能是通过训练确定判决规则,使按此类判决规则分类时,错误率最低。把这些判决规则建成标 准库; (5)分类决策:在特征空间中对被识别对象进行分类。 3.模式识别的基本问题有哪些

(1)模式(样本)表示方法:(a )向量表示;(b )矩阵表示;(c )几何表示;(4)基元(链码)表示; (2)模式类的紧致性:模式识别的要求:满足紧致集,才能很好地分类;如果不满足紧致集,就要采取变换的方法,满足紧致集 (3)相似与分类;(a)两个样本x i ,x j 之间的相似度量满足以下要求: ① 应为非负值 ② 样本本身相似性度量应最大 ③ 度量应满足对称性 ④ 在满足紧致性的条件下,相似性应该是点间距离的 单调函数 (b) 用各种距离表示相似性 (4)特征的生成:特征包括:(a)低层特征;(b)中层特征;(c)高层特征 (5) 数据的标准化:(a)极差标准化;(b)方差标准化 4.线性判别方法 (1)两类:二维及多维判别函数,判别边界,判别规则 二 维 情 况 :(a )判别函数: ( ) (b )判别边界:g(x)=0; (c n 维情况:(a )判别函数: 也可表示为: 32211)(w x w x w x g ++=为坐标向量 为参数,21,x x w 1 2211......)(+++++=n n n w x w x w x w x g X W x g T =)(

模式识别试题2

《模式识别》试题库 一、基本概念题 1模式识别的三大核心问题是:( )、( )、( )。 2、模式分布为团状时,选用( )聚类算法较好。 3 欧式距离具有( )。马式距离具有( )。(1)平移不变性(2)旋转不 变性(3)尺度缩放不变性(4)不受量纲影响的特性 4 描述模式相似的测度有( )。(1)距离测度 (2)模糊测度 (3)相似测度 (4) 匹配测度 5 利用两类方法处理多类问题的技术途径有:(1) (2) (3) 。其中最常用的是第( )个技术途径。 6 判别函数的正负和数值大小在分类中的意义是:( )。 7 感知器算法 ( )。(1)只适用于线性可分的情况;(2)线性可分、不可分都适用。 8 积累位势函数法的判别界面一般为( )。(1)线性界面;(2)非线性界面。 9 基于距离的类别可分性判据有:( ).(1)1[]w B Tr S S - (2) B W S S (3) B W B S S S + 10 作为统计判别问题的模式分类,在( )情况下,可使用聂曼-皮尔逊判决准则。 11 确定性模式非线形分类的势函数法中,位势函数K(x,xk)与积累位势函数K(x)的关系为 ( )。 12 用作确定性模式非线形分类的势函数法,通常,两个n 维向量x 和xk 的函数K(x,xk)若 同时满足下列三个条件,都可作为势函数。①( ); ②( );③ K(x,xk)是光滑函数,且是x 和xk 之间距离的单调下降函数。 13 散度Jij 越大,说明i 类模式与j 类模式的分布( )。当i 类 模式与j 类模式的分布相同时,Jij=( )。 14 若用Parzen 窗法估计模式的类概率密度函数,窗口尺寸h1过小可能产生的问题是 ( ),h1过大可能产生的问题是( )。 15 信息熵可以作为一种可分性判据的原因是:( )。 16作为统计判别问题的模式分类,在( )条件下,最小损失判决规则与最 小错误判决规则是等价的。 17 随机变量l(x )=p(x 1)/p(x 2),l(x )又称似然比,则E l( x )2= ( )。在最小误判概率准则下,对数似然比Bayes 判决规则为 ( )。 18 影响类概率密度估计质量的最重要因素( )。 19 基于熵的可分性判据定义为)]|(log )|([1x P x P E J i c i i x H ωω∑=-=,JH 越( ),说 明模式的可分性越强。当P(i| x ) =( )(i=1,2,…,c)时,JH 取极大值。 20 Kn 近邻元法较之于Parzen 窗法的优势在于( )。上 述两种算法的共同弱点主要是( )。 21 已知有限状态自动机Af=(,Q ,,q0,F),={0,1};Q={q0,q1};:(q0, 0)= q1,(q0,1)= q1,(q1,0)=q0,(q1,1)=q0;q0=q0;F={q0}。 现有输入字符串:(a) 000,(b) 11,(c) ,(d)0010011,试问,用Af 对上述字符串进行分

认知心理学复习重点整理

认知心理学复习重点 选择题20分,5个实验,1个论述题,4个简答题。前七章 1.认知心理学的研究的内容、核心、认知心理学中的两个研究指标:反应时和正确率。 2. 复述分为两种:简单复述和精细复述 3.感觉记忆的研究是用什么方法来研究的?部分报告法 4图像记忆的容量?9到20个 保持时间300到500毫秒 5.侧向扩散 6 问题行为图包含的两个成分 7.深层转换语法包含的两个成分 8推理产生错误的原因 9 速度与正确率权衡问题 10 鸡尾酒会效应 11 自由回忆实验 12 人工代理 13 问题空间 14 模式识别 15 追随程序 16 范畴大小效应 17 Burner的人工概念的实验 18 系列位置效应的实验 19 探测刺激的实验 探测法的实验(短时记忆的遗忘) 20 注意章节:注意的选择机制 知觉选择模型和反应选择模型 中枢能量理论 计算机模拟法基本逻辑 知觉产生的理论 21 Sternberg 短时记忆信息提取方式的实验 22 Paivio 的斑马试验 23 Navon 的整体加工与局部加工实验 24 轮廓比较与命名实验(又称短时记忆视觉编码实验)

1.认知心理学的研究的内容、核心、P1 认知心理学:以信息加工观点为核心的心理学,又可称作信息加工心理学,主要研究认知或认知过程,研究范围包括感知觉,注意,表象,学习记忆,思维和言语等心理过程或认知过程。认知心理学中的两个主要研究指标:反应时和正确率(即作业成绩)。 2.复述P84 复述是一种不出声地对刺激信息进行重复默诵的内部过程。复述可以分为机械性复述或称为保持性复述(maintenance rehearsal)和精致性复述或称为整合性复述(elaborative rehearsal)。 1)简单复述即以前所说的的复述,它有助于项目在短时记忆中保持,即如复述缓冲器,现又称为保持性复述。 2)精致性复述是将要复述的材料加以组织,将它与其他信息联系起来,在更深的层次上进行加工。这种复述又称为整合性复述,可以使信息转入长时记忆。3.感觉记忆的研究是用什么方法来研究的?部分报告法P75 部分报告法:Sperling在每组的视觉刺激信息呈现之后(呈现时间50毫秒),发出一个声音,提示3行字母中的哪一行要求被试报告出来。其中上行的字母与高音相联系,中行的字母与中音相联系,下行的字母与低音相联系。要求被试在字母呈现后,根据出现的声音信号,对相应一行的字母马上做出报告(部分报告法)。 4 感觉记忆P75 当外部刺激直接作用于感觉感觉,产生感觉像后,虽然刺激的作用停止,但感觉像仍可维持极短的片刻。这种感觉滞留在视觉中最为突出。感觉滞留表明感觉信息的瞬间贮存。这种记忆就是感觉记忆或感觉登记。图像记忆的容量为9到20个;保持时间300到500毫秒;声象记忆的容量为8到9个项目,时间为4秒。 5.侧向扩散P89 侧向扩散是指在某一个水平上,或者是较浅的水平或者是较深的水平,加工在横向扩展开来。以阅读为例说明:校对阅读和要点阅读。 6 问题行为图包含的两个成分P10 问题行为图 一种分析口语记录的方法称之为问题行为图,这是Newell和Simon提出的分析方法,可以使人直观地看出问题解决过程中所进行的各种操作的序列。这种问题行为图有两个成分组成:1)知识状态,即人在某一具体时刻所知的关于改该作业或问题的全部信息;2)操作,即人每次用来改变其知识状态的手段。 7.Chomsky的生成转换语法包含的两个成分P219——222 包含短语结构语法和转换语法,而以后者最为著名。 短语结构语法认为,一个句子是有许多组成成分构成的,其中短语是最重要的结构。Chomsky认为,短语结构语法仍未能完全确切地解释语言。区分句子的两种结构:表层结构和深层结构。

相关文档
最新文档