模式识别特征选择与提取

合集下载

模式识别特征的选择和提取

1. 模式最优表示特征的提取假定有一n维向量x，希望能用m（< n）个向量的线性组合来近似x，这m个向量来自一组标准正交基{uj，j = 1，2，…，n}。即把x近似表示为前m个基的组合：
~ x
= y1u1 + y2u2 + … + ymum
式中 yj = ujT x
写成矩阵形式， ~ x = Um y ( n × m，m × 1 ) → n × 1 y = UmT x ( m × n，n × 1 ) → m × 1
模式特征的产生过程一般包括以下步骤：
1．原始特征的形成：用仪表或传感器测量出来的一些特征量，或通过计算得到的一些特征（对波形和图象），称为原始特征、原始测量或一次特征。
2．特征提取：原始特征的数量可能很大，需要通过变换（映射）把高维特征空间降到低维空间，这时的特征叫二次特征，它们一般是原始特征的某种组合。通过变换A： X Y，
下面的分析说明确实是这样。假定e是 Gi的标准特征向量，那么相应特征值λ 可以表示为 c 1 T T T ( e R e ( 1 e R k e) λ = e Gie = i
c
k 1 k i
由于λ max≤1和相关矩阵的半正定性质， ∴上式括号中每一个二次项的特征值在0～1 之间，∴ 0≤λ ≤1。而且λ 接近于1时要求eTRie→1,而 eTRke(k≠i)却→0，
和前面一样，令{uj，j = 1，2，…，n} 是观测空间的标准正交基。另x是任一观测向量,x~是它的截尾表示形式， x~ = y1u1 + y2u2 + … + ymum 对于第i类，我们选择一组uj，它能使第i类的均方误差最小， εi = Ei[|x-x~|2] =

模式识别讲义-特征提取和特征选择

完全可分：若p(x|ω1) ≠0时， p(x|ω2)＝0；
完全不可分：对任意x，都有 p(x|ω1) ＝ p(x|ω2)；
二、距离
（2）概率距离
若任何函数Jp g[ p(x | 1), p(x | 2), P1, P2]dx满足以下条件：
a、Jp 0； b、当两类完全可分时 Jp取得最大值； c、当两类完全不可分是 Jp为0；
总错误率P(e) P(x R2 1) P(x R3 1) ... P(x RM 1)P(1) P(x R1 2 ) P(x R3 2 ) ... P(x RM 2 )P(2 ) ... P(x R1 M ) P(x R2 M ) ... P(x RM 1 M )P(M )
X
p(x | j)
Xp(x | i)来自 [ p(x | i) p(x | j）]ln p(x | i) dx
X
p(x | j)
三、特征提取算法
1、使用类内类间距离进行特征提取类内类间距离
Jd=Jw+Jb＝tr（Sw＋Sb)
其中Jw是类内平均距离，Jb是类间平均距离通常给定一个训练集后，Jd是固定的，因此，在特征
模式识别第八讲特征选择与特征提取
回顾：
贝叶斯分类的原理最小错误率贝叶斯分类最小风险贝叶斯分类最大似然比贝叶斯分类正态分布情况下的贝叶斯分类
分类器的错误率
1、分类器的错误率
•错误率是评价一个分类器的重要指标 •错误率受分类决策方法、训练集、测试集和偶然因素的影响 •分类错误是一个概率事件，错误率应由概率方式表达
各特征向量之间的距离的平均值，称为类内类间距离：
c

模式识别(7-2)特征的选择与提取

5 4
,

54
试用K-L变换作一维数据压缩。
思路：1）求总体均值向量；2）求产生矩阵ψ ； 3）求产生矩阵的特征值λi 及特征向量 i ；
4）按λi排序，确定变换矩阵W； 5）利用 y W T x 求新的一维样本。
K－L变换的一些典型应用
上面我们从数学的角度分析了K-L变换的性质。归结起来，它消除了各分量之间的相关性，因而用它来描述事物时，可以减少描述量的冗余性，做到用最经济有效的方法描述事物。下面结合一些应用实例来说明如何运用K-L变换的这一性质。
但是由于它的正交基函数族是从训练样本集中计算出来的，因此并不存在一种对任何数据都适用的K-L变换基，一般的作法是先用一组训练数据计算出K-L变换基，然后用这组基来分析其它数据。
K－L变换的性质
K－L变换的性质
K－L变换的性质
K－L变换的产生矩阵
当样本所属类别未知时：
x的相关函数矩阵 x的协方差矩阵
§7.3 基于K－L展开式的特征提取
图6-3b
图6-3(b)中的向量A与B在一个二维空间定义，它们两者分别含有成分为(a1,a2)与(b1,b2)，a1与b1是两者的同一种成分，a2与b2则是另一种成分。故它们的点积定义为a1b1+a2b2，在这种条件下就不需要积分，而只是简单求和。
§7.3 基于K－L展开式的特征提取
K－L变换的一些典型应用
4．人脸图象合成
用K-L变换构造参数模型的另一种典型用途是人脸图象合成。从下面的例子中可以看出，有目的地控制各个分量的比例，也就是通过调整参数向量。可以将一幅不带表情图象改变成带各种表情的图象，称为人脸表情图象合成。
为了对复杂事物进行经济有效的描述，我们希望将其分解成相互独立的成分，譬如我们分析其快速变化的成分时，就希望它只不再混杂其它成分。

特征选择、特征提取MATLAB算法实现（模式识别）

特征选择、特征提取MATLAB算法实现（模式识别）6特征选择6.1问题对“threethreelarge.m”数据，采⽤任意⼀种特征选择算法，选择2个特征6.2思路采⽤简单特征选择法（simple feature selection approach）,⾸先计算每⼀个特征的分类能⼒值，再选择出其中最⼤分类能⼒的l个特征。

6.3结果eigs=8.92340.00000.0767SelectedFeature=13也就是说，选取x和z坐标作为特征。

6.4代码%特征选择代码，见FSthrthrlrg.m⽂件m1=[0,0,0];m2=[0,0,0];m3=[0,0,0];m=[0,0,0];for i=1:200m1(1)=m1(1)+(x1(i,1)-m1(1))/i;m1(2)=m1(2)+(x1(i,2)-m1(2))/i;m1(3)=m1(3)+(x1(i,3)-m1(3))/i;end;for i=1:190m2(1)=m2(1)+(x2(i,1)-m2(1))/i;m2(2)=m2(2)+(x2(i,2)-m2(2))/i;m2(3)=m2(3)+(x2(i,3)-m2(3))/i;end;for i=1:210m3(1)=m3(1)+(x3(i,1)-m3(1))/i;m3(2)=m3(2)+(x3(i,2)-m3(2))/i;m3(3)=m3(3)+(x3(i,3)-m3(3))/i;end;m(1)=(m1(1)+m2(1)+m3(1))/3;m(2)=(m1(2)+m2(2)+m3(2))/3;m(3)=(m1(3)+m2(3)+m3(3))/3;sw1=zeros(3,3);sw2=zeros(3,3);sw3=zeros(3,3);sw=zeros(3,3);sb=zeros(3,3);for i=1:200sw1=sw1+([x1(i,1),x1(i,2),x1(i,3)]-m1)'*([x1(i,1),x1(i,2),x1(i,3)]-m1);end;for i=1:190sw2=sw2+([x2(i,1),x2(i,2),x2(i,3)]-m2)'*([x2(i,1),x2(i,2),x2(i,3)]-m2);end;for i=1:210sw3=sw3+([x3(i,1),x3(i,2),x3(i,3)]-m3)'*([x3(i,1),x3(i,2),x3(i,3)]-m3);end;N1=200;N2=190;N3=210;N=N1+N2+N3;p1=N1/N;p2=N2/N;p3=N3/N;sw1=sw1/N1;sw2=sw2/N2;sw3=sw3/N3;sw=p1*sw1+p2*sw2+p3*sw3;sb=p1*(m1-m)'*(m1-m)+p2*(m2-m)'*(m2-m)+p3*(m3-m)'*(m3-m);s=inv(sw)*sb;j1=trace(s)eigs=eig(s)';eigsIndex=[1,2,3];%冒泡法排序，注意的是特征值顺序变化的同时要与相对应的下标同步for i=1:3for j=i:3if(eigs(i)eigstemp=eigs(i);eigs(i)=eigs(j);eigs(j)=eigstemp;eigsIndextemp=eigsIndex(i);eigsIndex(i)=eigsIndex(j);eigsIndex(j)=eigsIndextemp;end;end;end;%降序排列后的特征值，直接选取前L个特征SelectedFeature=[eigsIndex(1),eigsIndex(2)]%FSthrthrlrg.m程序结束6.5讨论从实验结果中我们可以看到y特征的分类能⼒最⼩，这⼀点可以从实验数据中得到验证——三类数据在y⽅向的分布⼏乎是相同的（见下图）。

模式识别7-特征选择和提取

为一般来说，原来的n个数据各自在不同程度上反映
了识别对象的某些特征，简单地删去某些特征可能会
丢失较多的有用信息。
• 如果将原来的特征做正交变换，获得的每个数据都是
原来n个数据的线性组合，然后从新的数据中选出少
数几个，使其尽可能多地反映各类模式之间的差异，
而这些特征间又尽可能相互独立，则比单纯的选择方
➢遗传算法
单独最优特征组合
特征
选择
计算各特征单独使用时的可分性判据J并加
以排队，取前d个作为选择结果
不一定是最优结果
当可分性判据对各特征具有(广义)可加性，
该方法可以选出一组最优的特征来，例：
➢各类具有正态分布
➢各特征统计独立
➢可分性判据基于Mahalanobis距离
d
J ij ( x1 , x2 ,..., xd ) J ij ( xk ) J D (x) (μi μ j )T 1(μi μ j )
k 1
顺序前进法
特征
选择
自下而上搜索方法。
每次从未入选的特征中选择一个特征，使得
它与已入选的特征组合在一起时所得的J值
为最大，直至特征数增加到d为止。
该方法考虑了所选特征与已入选特征之间的
相关性。
顺序后退法
特征
选择
该方法根据特征子集的分类表现来选择特征
搜索特征子集：从全体特征开始，每次剔除
➢ 当特征独立时有可加性：
k 1
➢ 单调性：
J ij ( x1 , x2 ,..., xd ) J ij ( x1 , x2 ,..., xd , xd 1 )
常见类别可分离性判据：基于距离、概率分布、熵
函数

模式识别第六讲特征提取(介绍)v1.0

0 0 2
解得特征根为 1 5.83 ， 2 2.00 ，3 0.17
0.383 U1 0.924
0.000
0 U 2 0
1
0.924 U3 0.383
0.000
第一个主成分的贡献率为5.83/（5.83+2.00+0.17）=72.875%，尽管第一个主成分的贡献率并不小，但应该取两个主成分。97.88%
u
pp

则实对称阵 A 属于不同特征根所对应的特征向量是正交的，UU UU I
PCA的一些性质
（3）均值 E(UT x) UT M （4）方差为所有特征根之和
pห้องสมุดไป่ตู้
Var(Fi ) 1 2
p
12

2 2

2 p
i 1
说明主成分分析把P个随机变量的总方差分解成为
在普通特征上MKL表现有限
结论：特征更重要（？）
特征的数量越多越好？
一般而言，特征越多，给出信息就越多，识别准确性会得到提升；但特征多，计算复杂度增加，探索的空间大，可以用来训练的数据在每个特征上就会稀疏。结论：不一定特征越多越好！需要有多少个特征，需要学习确定。
目前结论：关于训练样本的数量
PCA图形几何解释（一）
为了方便，我们在二维空间中讨论主成分的几何意义。设有n个样本，每个样本有两个观测变量xl和x2，在由变量xl和x2 所确定的二维平面中，n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性，其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显然，如果只考虑xl和x2 中的任何一个，那么包含在原始数据中的信息将会有较大的损失。

模式识别第6章特征的选择和提取

基于熵函数的可分性判据
c
Shannon熵：
J
1 c
P(i | x) log2 P(i | x)
i 1
平方熵：
J
2 c
2 1
c i1
P2 (i
|
x)
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192
‹#›
目录
6.1引言
6.2 类别可分离性判据
6.3 特征提取
6.4 特征选择(重点)
GSFS法计算量大（每步有C
L D-k
个候选
特征组需要逐个计算）。另外它也无法剔
除已入选的特征。
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192
‹#›
顺序后退法
顺序后退法（Sequential Backward Selection, SBS）是一种自上而下的方法，它从全体特征开始每次剔除一个，所剔除的特征应使仍然保留的特征组的J值最大，直到特征数减少到d为止。设已剔除了k个特征，剩下的特征组为 Xk ，将 Xk 中的各特征xj按上述J值大小排序，j=1,2,…,D-k。若 J (Xk x1) J (Xk x2 ) J (Xk xDk ) 则 Xk1 Xk x1
（1）当L>r时，L-r法是一种自下而上的算法，先执行第一步，然后执行第二步，开始时，设置k=0 ，x0=空
（2）当L<r时，L-r法是一种自上而下的算法，此时先执行第二步，然后执行第一步，开始时设置 k=0，x0={x1，…,xD}
© 李春权
模式识别
哈尔滨医科大学
生物信息科学与技术学院
200192

第七章特征的选择与提取

8
7.1 引言
优化特征空间的两种基本方法
特征选择 (selection)：从原始特征中挑选出最有代表性，分类性能最好的特征；
特征提取 (extraction)：用映射（或变换）的方法把原始特征变换为较少的新特征。
特征的选择与提取与具体问题有很大关系，目前没有理论能给出对任何问题都有效的特征选择与提取方法。
有限样本集下离散度矩阵的估计
样本类均值向量 :
mi
1 ni
ni
x(i) k
;
k 1
样本总体均值向量 :
c
m Pimi ; i 1
样本类间离散度矩阵： S b c Pi (mi m)(mi m)T ; i 1
样本类内离散度矩阵:
S w
c
Pi
i 1
1 ni
ni
(x (ki )
m i
)(x
4. 单调性：Jij (x1, x2 ,..., xd ) Jij (x1, x2 ,..., xd , xd1).
10
7.2 类别可分离性判据
类别可分离性判据：衡量不同特征及其组合对分类是否有效的定量准则；
理想准则：某组特征使分类器错误概率最小；常见类别可分离性判据：
基于距离的可分性判据；基于概率分布的判据；熵函数的可分性判据。
2
7.1 引言
第七章特征的选择与提取
2009-11-24
3
7.1 引言
特征的选择与提取是模式识别中重要而困难的一个环节：分析各种特征的有效性并选出最有代表性的特征是模式识别的关键一步；降低特征维数在很多情况下是有效设计分类器的重要课题；
三大类特征：物理、结构和数学特征物理和结构特征：易于为人的直觉感知，但有时难于定量描述，因而不易用于机器判别数学特征：易于用机器定量描述和判别，如基于统计的特征

模式识别-5--特征选择与提取

1 Cj 1 Iij = ln + tr[Ci (C−1 −Ci−1)] j 2 Ci 2
当Ci和Cj之间越相近则散度越小。
1 −1 −1 Jij = tr[ Ci −Cj )(Cj −Ci )] （ 2
散度的性质从上面的定义我们可以看出散度Jij具有如下性质： (i) Jij=Jji, (ii) 当ωi和ωj的分布不同时，Jij>0 (iii)当ωi和ωj的分布完全同时，Jij＝0 (iv) 在模式特征的各个分量都相互独立的情况下,有：
Sb2 = (m −m2 )(m −m2 )t 1 1
当三类或者更多的时候就引入先验概率作为加权 :
Sb2 = (m − m2 )(m − m2 )t 表示1和2两类模式的类间散布矩阵； 1 1
Sb1 = ∑P(ω )(m − m )(m − m )t i i 0 i 0
其中 m = E{ x} = ∑P(ωi )m为多类模式（这里共c类）分布 0 i 总体的均值向量 i=1 多类模式集散布矩阵多类的类内散布矩阵，可用各类类内散布矩阵的先验加权表示：
该式子是散度的一般表达式。注：当ωi和ωj的分布是一些特殊的表达式子，那么对数似然比函数和散度可以得到一些很简单形式。当ωi和ωj服从正态分布，散度为：
p(x | ωi ) Jij = I ji + Iij = ∫ [ p(x | ωi ) − p(x | ωj )]ln dx x p(x | ωj )
3. 特征选择和提取是构造模式识别系统的一重要课题
在很多实际问题中，往往不容易找到那些最重要的特征，或受客观条件的限制，不能对它们进行有效的测量；因此在测量时，由于人们心理上的作用，只要条件许可总希望把特征取得多一些；另外，由于客观上的需要，为了突出某些有用信息，抑制无用信息，有意加上一些比值、指数或对数等组合计算特征（在数据上作一些处理）；如果将数目很多的测量值不做分析，全部直接用作分类特征，不但耗时，而且会影响到分类的效果，产生“特征维数灾难” 问题。为了设计出效果好的分类器，通常需要对原始的测量值集合进行分析，经过选择或变换处理，组成有效的识别特征；在保证一定分类精度的前提下，减少特征维数，即进行“降维”处理，使分类器实现快速、准确和高效的分类。

模式识别之特征选择和提取

p( X | i ) 与 p( X | j ) 相差愈大， J ij 越大。
当 p( X | i ) p( X | j ) ，两类分布密度相同， Jij 0 。
（3）错误率分析中，两类概率密度曲线交叠越少，错误率越小。
p(x | i )P(i )
p(x | 2 )P(2 )
p(x | 1 )P(1 )
Jd
1 2
c i 1
P(i
)
c j 1
P(
j
)
1 ni n
j
ni k 1
nj l 1
D2
(
X
i k
,
X
j l
)
（5-8）
式中， P(ωi ) 和 P( j ) ：i 和 ω j 类先验概率；c：类别数；
X
i k
：
i
类的第
k
个样本；
X
j l
：
ω
j
类的第
l
个样本；
ni 和 n j ：i 和 ω j 类的样本数；
② 特征选择：将坐标系按逆时针方向做一旋转变化，或物体按顺时针方向变，并合适平移等。根据物体在轴上投影旳x坐2' 标值旳正负可区别两个物体。
——特征提取，一般用数学旳措施进行压缩。
5.2 类别可分性测度
类别可分性测度：衡量类别间可分性旳尺度。
类别可
分性测度
空间分布：类内距离和类间距离随机模式向量：类概率密度函数错误率与错误率有关旳距离
D2
(
X
i k
,
X
j l
)
：
X
i k
和
X
j l
间欧氏距离的平方。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

模式识别特征选择与提取中国矿业大学计算机科学与技术学院电子信息科学系班级：信科11-1班，学号：08113545，姓名：褚钰博联系方法（QQ或手机）：390345438，e-mail:****************日期：2014 年06月10日摘要实际问题中常常需要维数约简，如人脸识别、图像检索等。

而特征选择和特征提取是两种最常用的维数约简方法。

特征选择是从某些事物中提取出本质性的功能、应用、优势等，而特征提取是对特征空间进行变换，将原始特征空间映射到低维空间中。

本文是对主成分分析和线性判别分析。

关键词：特征选择，特征提取，主成分分析，线性判别分析1.引言模式识别的主要任务是利用从样本中提取的特征，并将样本划分为相应的模式类别，获得好的分类性能。

而分类方法与分类器设计，都是在d（变量统一用斜体）维特征空间已经确定的前提下进行的。

因此讨论的分类器设计问题是一个选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域的问题。

对分类器设计方法的研究固然重要，但如何确定合适的特征空间是设计模式识别系统另一个十分重要，甚至更为关键的问题。

如果所选用的特征空间能使同类物体分布具有紧致性，即各类样本能分布在该特征空间中彼此分割开的区域内，这就为分类器设计成功提供良好的基础。

反之，如果不同类别的样本在该特征空间中混杂在一起，再好的设计方法也无法提高分类器的准确性。

本文要讨论的问题就是特征空间如何设计的问题。

基于主成分分析的特征选择算法的思想是建立在这样的基础上的：主成分分析方法将原始特征通过线性变换映射到新的低维空间时，获得的主成分是去了新的物理意义，难以理解，并且主成分是所有原始特征的线性组合。

所以将主成分分析与特征选择相结合，设计多种相似性度量准则，通过找到与主成分相关的关键特征或者删除冗余、不相关以及没有意义的特征，将主成分又重新映射到原始空间，来理解成主成分的实际意义。

基于线性判别分析的高维特征选择将单个特征的Fisher准则与其他特征选择算法相结合，分层消除不相关特征与冗余特征。

不相关特征滤波器按照每个特征的Fisher评价值进行特征排序，来去除噪音和不相关特征。

通过对高维数据特征关联性的分析，冗余特征滤波器选用冗余度量方法和基于相关性的快速过滤器算法。

分别在不同情境下进行数据分类实验，验证其性能。

2.原理分析对一原始特征来说，特征选择的方案很多，从N 维特征种选择出M 个特征共有()!!!M N N C M N M =-中选法，其中哪一种方案最佳，则需要有一个原则来进行指导。

我们进行特征选择和特征提取的最终目的还是要进行识别，因此应该是以对识别最有利原则，这样的原则我们称为是类别的可分性判据。

用这样的可分性判据可以度量当前特征维数下类别样本的可分性。

可分性越大，对识别越有利，可分性越小，对识别越不利。

人们对的特征的可分性判据研究很多下面几种常用的判据，我们需要根据实际问题，从中选择出一种。

一般来说，我们希望可分性判据满足以下几个条件：1. 与识别的错误率由直接的联系，当判据取最大值时，识别的错误率最小；2. 当特征独立时有可加性，即：)(),,,(121K NK ij N ij x J x x x J ∑==ij J 是第i 类和第j 类的可分性判据，ij J 越大，两类的可分程度越大，()12,,,N x x x 为N 维特征；3. 应具有某种距离的特点：0ij J >，当i j ≠时； 0ij J =，当i j =时；ij ji J J =；4. 单调性，加入新的特征后，判据不减小：()()12121,,,,,,,ij N ij N N J x x x J x x x x +≤。

但是遗憾的是现在所经常使用的各种判据很难满足上述全部条件，只能满足一个或几个条件。

特征提取又称为特征变换，最常采用的特征变换是线性变换，即若DR x ∈是D 维原始特征，变换后的d 维新特征dR y ∈为x W y T= ，其中，W 是d ⨯D 维矩阵，称作变换阵。

特征提取就是根据训练样本求适当的W ，使得某种特征变换准则最优。

主成分分析方法的出发点是从一组特征中计算出一组按重要性从大到小排序的新特征，他们是原有特征的线性组合，并且相互之间是不相关的。

记p x x x ,,,21 为p 个原始特征，设新特征ξ，i=1, ，p 是这些原始特征的线性组合 x x T i j pj ij i ααξ==∑=1，为了统一i ξ的尺度，要求线性组合的模为1，即1=i T i αα，写成矩阵形式是 x A T=ξ，其中，ξ是由新特征i ξ组成的向量，A 是特征变换矩阵。

要求解的是最优的正交变换A ，它使新特征i ξ的方差达到极值。

3.理论证明或说明特征选择的基本框图为:一个典型的特征选择算法通常包括四个人基本步骤:1.子集产生，这是一个搜索过程，通过一定的搜索策略产生候选的特征子集。

2.子集评价，每一个候选的特征子集都根据一定的评价准则得到，并与先前的最优特征子集进行比较。

3.终止条件，算法结束所需要满足的条件，它与子集的产生过程和评价准则的选用有关。

4.结果验证，就是根据一定的先验知识或通过合成现实数据集的测试来证明所选择的特征子集的性能。

基于特征提取主成分分析变换矩阵的一般过程：训练数据全集4.实现方法或步骤流程特征选择顺序前进法每次从未入选的特征中选择一个特征，使得它与已入选的特征组合到一起所得到的可分性判据最大，直到特征数增加到M 为止。

用k X 表示在第k 步时的特征集合，搜索算法如下：1) 开始时，0X =∅，从N 个特征中选择一个()i J x 最大的特征，加入已选特征集，{}1i X x =； 2) 在第k 步，k X 中包含已经选择的k 个特征，对未入选的N k -个特征计算，{}()kjJ X x ，其中1,2,,j N k =-，并且按照由大到小排序，将可分性判据最大的特征l x 加入k X ，{}1k kl X X x +=；3) 直到所选的特征数等于M 为止。

特征抽取的方法—基于离散K-L 变换(DKLT)的特征抽取：设原始特征为N 为矢量()12,,,TN x x x =X ，均值矢量[]E =m X ，相关矩阵T E ⎡⎤=⎣⎦X R XX ，协方差矩阵()()TE ⎡⎤=--⎣⎦X C X m X m 。

我们可以对X 作如下的标准正交变换，将其变为矢量()12,,,TN y y y =Y :12T T T N ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦T T TY =T X X TY 的每个分量：T i i y =T X ，其中T 为一个N N ⨯的标准正交矩阵，i T 为其第i 个列矢量，1,0,T i j i ji j=⎧=⎨≠⎩T T 。

也就是说Y 的每个分量是X 每一个分量的线性组合。

同样X 可以表示为：()()112121NT N i i i N y y y y -=⎡⎤⎢⎥⎢⎥====⎢⎥⎢⎥⎢⎥⎣⎦∑X T Y TY T T T T我们要进行特征提取，也就是要用Y 的M 项来代替X ，这种代替必然带来误差，下面我们来对这个误差进行估计：令：1ˆMi ii y ==∑X T ，1M N ≤<，引入的均方误差为： ()()()2211N NTTi i i i M i M e M E E y E y y =+=+⎡⎤⎡⎤⎡⎤=--==⎣⎦⎣⎦⎢⎥⎣⎦∑∑X XX X 11NNTTTii ii i M i M E =+=+⎡⎤==⎣⎦∑∑XTXX T T RT这又变成一个优化问题，我们希望寻找到一个标准正交矩阵T ，使得()2e M 最小，因此可以去这样的准则函数：()111NNT T ii iiii M i M J λ=+=+=--∑∑XT RT T T第一项保证均方误差最小，第二项保证T 为标准正交矩阵，i λ为一待定常数。

()i i iJλ∂=-=∂X R I T 0T ，1,,i M N =+即：i i i λ=X R T T ，很明显i λ为相关矩阵X R 的特征值，i T 为对应于i λ的特征矢量，由于X R 是一个实对称矩阵，所以12,,.N T T T 相互正交，T 为一个正交矩阵。

均方无差：()2111NN NT T ii ii iii M i M i M e M λλ=+=+=+===∑∑∑XT RT T T根据矩阵论，有这样的结论：一个N N ⨯的正定实对称矩阵有N 个特征值和特征矢量，这些特征矢量之间是正交的。

相关矩阵X R 就是一个实对称矩阵，当训练样本足够多时，也可以满足正定性，根据上式我们知道，当要从N 维特征中提取出M 维特征时，我们只需要统计出特征相关矩阵X R ，然后计算其特征值和特征矢量，选择对应特征值最大的前M 个特征矢量作成一个N M ⨯特征变换矩阵T ，就可以完成特征提取。

步骤如下：1、利用训练样本集合估计出相关矩阵T E ⎡⎤=⎣⎦X R XX ；2、计算X R 的特征值，并由大到小排序：12N λλλ≥≥≥，以及相应的特征矢量：12,,,N T T T ；3、选择前M 个特征矢量作成一个变换矩阵[]12M =T T T T ；4、在训练和识别时，每一个输入的N 维特征矢量X 可以转换为M 维的新特征矢量：TY =T X 。

这种方法是利用相关矩阵X R 进行变换，同样也可以利用协方差矩阵X C 进行变换，还可以利用样本的散度矩阵W S ，B S ，T S 或者1W B -S S 进行变换。

过程都是一样的，需要计算特征值和特征向量，选择最大的M 个特征值对应的特征矢量作出变换矩阵。

5.实验设计和结果分析基于特征相关性的特征选择算法选择c 均值聚类算法来去除冗余。

C 均值算法的基本思想即是通过迭代寻找c 个聚类的一种划分方案，使得用这c 个聚类的均值来代表相应各类样本时所得到的总体误差最小。

C 均值算法的基础是最小误差平方和准则。

若i N 是第i 聚类i Γ中的样本数目，i m 是这些样本的均值，即∑Γ∈=iy ii y N m 1把iΓ中的各样本y 与均值i m 间的误差平方和对所有类相加后为21e ∑∑=Γ∈-=ci y i im y Je J 是误差平方和聚类准则，它是样本集y 和类别集Ω的函数。

C 均值算法的步骤：1.选择初始划分，并计算每个聚类的均值以及误差平方和；2.选择一个备选样本y ，设y i Γ∈；X1the first results of kmeansX2X 3X1X2X 31.无论在聚类时，初始均值如何选取，在程序结果中总能得到相同的分类结果，同时e J 的结果相差很小。

2．当各聚类设定的初始均值不同时，程序结果经过的步骤不同。

3.e J 是随着聚类数目的增加而单调的减少的，当聚类数目等于样本数时e J =0，即每个样本自己成一类。