模式识别大作业02125128(修改版)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

模式识别大作业

班级 021252 姓名 谭红光 学号 02125128

1.线性投影与Fisher 准则函数

各类在d 维特征空间里的样本均值向量:

∑∈=

i

k X x k

i

i x

n M 1

,2,1=i (1)

通过变换w 映射到一维特征空间后,各类的平均值为:

∑∈=

i

k Y y k

i

i y

n m 1,2,1=i (2)

映射后,各类样本“类内离散度”定义为:

22

()k i

i k i y Y S y m ∈=

-∑

,2,1=i (3)

显然,我们希望在映射之后,两类的平均值之间的距离越大越好,而各类的样本类内离散度越小越好。因此,定义Fisher 准则函数:

2

1222

12||()F m m J w s s -=

+ (4)

使F

J 最大的解*

w 就是最佳解向量,也就是Fisher 的线性判别式. 从

)(w J F 的表达式可知,它并非w 的显函数,必须进一步变换。

已知:

∑∈=

i

k Y y k

i

i y

n m 1,2,1=i , 依次代入上两式,有:

i T

X x k

i T

k X x T

i i M w x n w x w n m i

k i

k ===

∑∑∈∈)1

(1

,2,1=i (5) 所以:2

21221221||)(||||||||M M w M w M w m m T T T -=-=-

w S w w M M M M w b T T T =--=))((2121 (6)

其中:T

b M M M M S ))((2121--= (7)

b

S 是原d 维特征空间里的样本类内离散度矩阵,表示两类均值向量之间的离散度大

小,因此,

b S 越大越容易区分。

将(4.5-6)

i T

i M w m =和(4.5-2)

∑∈=

i

k X x k

i

i x

n M 1代入(4.5-4)2i

S 式中:

∑∈-=

i

k X x i

T k T i M w x w S 22)(

∑∈⋅--⋅

=i

k X x T

i

k i k T w M x M x w ))(( w S w i T

= (8)

其中:T i

X x k i k i M x M x S i

k ))((--=

∑=,2,1=i (9)

因此:w S w w S S w S S w T T =+=+)(212221 (10)

显然:

21S S S w += (11)

w S 称为原d 维特征空间里,样本“类内离散度”矩阵。

w S 是样本“类内总离散度”矩阵。

为了便于分类,显然

i

S 越小越好,也就是

w

S 越小越好。

将上述的所有推导结果代入)(w J F 表达式:

可以得到:

)

(211

*

M M S w w -=-λγ其中,λ

γ是一个比例因子,不影响*w 的方向,可以删

除,从而得到最后解:

)

(211

*

M M S w w -=- (12)

就使)(w J F 取得最大值,*w 可使样本由

d 维空间向一维空间映射,其投影方向最好。

)

(211

*

M M S w w -=-是一个Fisher 线性判断式.这个向量指出了相对于Fisher 准则函数

最好的投影线方向。

2.近邻法线简述

最近邻(Nearest Neighbor ,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k 个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN 算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN 方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。由于KNN 方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN 方法较其他方法更为适合。

将与测试样本最近邻样本的类别作为决策的结果。对一个C 类别问题,每类有i N 个样本,1,2,

i C =,则第i 类i ω的判别函数为:

()min ||||,1,2,,k i i i k

g x x x k N =-= (1)

因此,最近邻决策规则: 若

()min (),1,2,j i i

g x g x i c == (2)

3.设计思路

根据公式用Matlab 计算出w0,然后对测试数据进行与w0的比较进行分类。 在用欧式距离进行分类。 流程图:

相关文档
最新文档