特征选择与特征提取-Read

第五章特征选择与特征提取

5.1 问题的提出

前面主要介绍的是各种分类器的设计方法，实际上我们已经完全可以解决模式识别的问题了。然而在实际应用中，在分类器设计之前，往往需要对抽取出的特征进行一下处理，争取尽量减小特征的维数。在实践中我们发现，特征的维数越大，分类器设计的难度也越大，一维特征的识别问题最容易解决，我们只要找到一个阈值t ，大于t 的为一类，小于t 的为一类。同时特征维数越大，要求的训练样本数量越多，例如在一维的情况下，10个训练样本就可以比较好的代表一个类别了，而在10维空间中，10个训练样本则是远远不够的。这一章中我们就来介绍一下减小特征维数的方法。

一般来说模式识别系统的输入是传感器对实物或过程进行测量所得到的一些数据，其中有一些数据直接可以作为特征，有一些数据经过处理之后可以作为特征，这样的一组特征一般称为原始特征。在原始特征中并不一定每个特征都是有用的，比如在识别苹果和橙子的系统中，我们可以抽取出的特征很多，（体积，重量，颜色，高度，宽度，最宽处高度），同样还有可能抽取出其它更多的特征。在这些特征中对分类有用的是（颜色，高度，最宽处高度），其它特征对识别意义不大，应该去除掉。这样的过程称为是特征选择，也可以称为是特征压缩。

特征选择可以描述成这样一个过程，原始特征为N 维特征()12,,,T

N x x x =X ，从中

选择出M 个特征构成新的特征矢量(

)

11,,

i i i Y x x x =，M N <。

同时，特征矢量的每一个分量并不一定是独立的，它们之间可能具有一定的相关性，比如说高度和最宽处的高度，高度值越大，最宽处的高度值也越大，它们之间具有相关性，我们可以通过一定的变换消除掉这种相关性，比如取一个比值：最宽处的高度/高度。这样的过程称为特征提取。

特征提取可以描述为这样一个过程，对特征矢量()12,,

N x x x =X 施行变换：

()i i y h =X ，1,2,,i M =，M N <，产生出降维的特征矢量()12,,

M Y y y y =。

在一个实际系统的设计过程中，特征的选择和提取过程一般都需要进行，首先进行特征选择，去除掉无关特征，这些特征实践上根本就不需要抽取出来，这部分传感器根本不需要安装，这样也可以减小系统的的成本。然后进行特征提取，降低特征的维数。然后利用降维之后的样本特征来设计分类器。

5.2 模式类别的可分性判据

在讨论特征选择和特征压缩之前，我们先要确定一个选择和提取的原则。对一个原始特

征来说，特征选择的方案很多，从N 维特征种选择出M 个特征共有()!

N N C M N M =

-中

选法，其中哪一种方案最佳，则需要有一个原则来进行指导。同样，特征的压缩实际上是要找到M 个N 元函数，N 元函数的数量是不可数的，这也要有一个原则来指导找出M 个最佳的N 元函数。

我们进行特征选择和特征提取的最终目的还是要进行识别，因此应该是以对识别最有利原则，这样的原则我们称为是类别的可分性判据。用这样的可分性判据可以度量当前特征维数下类别样本的可分性。可分性越大，对识别越有利，可分性越小，对识别越不利。

人们对的特征的可分性判据研究很多，然而到目前为止还没有取得一个完全满意的结果，没有哪一个判据能够完全度量出类别的可分性。下面介绍几种常用的判据，我们需要根据实际问题，从中选择出一种。

一般来说，我们希望可分性判据满足以下几个条件：

1. 与识别的错误率由直接的联系，当判据取最大值时，识别的错误率最小；

2. 当特征独立时有可加性，即：

()()121

ij N ij k k J x x x J x ==∑

ij J 是第i 类和第j 类的可分性判据，ij J 越大，两类的可分程度越大，

()12,,,N x x x 为N 维特征；

3. 应具有某种距离的特点：

0ij J >，当i j ≠时； 0ij J =，当i j =时； ij ji J J =；

4. 单调性，加入新的特征后，判据不减小：

()()12121,,,,,,,ij N ij N N J x x x J x x x x +≤。

但是遗憾的是现在所经常使用的各种判据很难满足上述全部条件，只能满足一个或几个条件。

一、基于几何距离的可分性判据

在介绍这一类判据之前，先来看一下各种几何距离的定义。 1. 点与点的距离

这是我们前面已经介绍过的一种距离，可以有多种形式，如欧氏距离、街市距离、马氏距离等，特征矢量X 和Y 之间的距离可以表示为：

()()

(),T

d =--X Y X Y X Y （欧氏距离）

2. 点与类别之间的距离

这也是我们前面定义过的一种距离度量，常用的有：平均样本法、平均距离法、最

近距离法，K -近邻法等。特征矢量X 与i Ω类别之间距离的平方可以表示为：

()()()2

,,i

N i i k

k i

d d N =Ω=

∑X X X （平均距离法）

其中()

()()

12,,

i N X X X 为i Ω类中的样本，i N 为i Ω类别中的样本数。 3. 类内距离

设i Ω了由样本集()()

(){

}

12,,,i

i i i N X X X ，样本的均值矢量为()i m ，则由样本集定义的类内均方距离为：

()()()()2

,i i

N N i i i k

k l i i

d d N N ==Ω=

∑∑X X

当取欧氏距离时有：

()()

()

()()()()2

N T

i i i i

i k

k i

d N =Ω=

--∑X

X m

4. 类别之间的距离

在第二章中对类别之间的距离也做过定义，包括最短距离法，最长距离法，类平均

距离法等。i Ω类与j Ω类之间的距离可以表示为：

()()()()11

,,j

N N i j i j k

k l i j

d d N N ==ΩΩ=

∑∑X X （平均距离法）

当取欧氏距离时，可定义两类之间的均方距离：

()()

()

()()()()211

N N T

i j i j i j k

k l i j

d N N ==ΩΩ=

--∑∑X

X X X

有了距离度量之后，我们就可以在此基础上定义可分性测度了。一般来讲，当各个类别的类内距离越小时可分性越强，而类间距离越大时，可分性越强。因此可以有以各类样本之间的平均距离作为判据：

()()()()11

1,2M

d i j i j i j J P P d ===ΩΩΩΩ∑∑X

()d J X 所反映的主要还是类别之间的分离程度，对类内的聚集程度反映不够。通常我

们采用跟一般的矩阵形式来构造可分性判据。

1. 类内散度矩阵

设有M 个类别，1,,M ΩΩ，i Ω类样本集()

()()

{

}

2,,,i

i i i N X X X ，i Ω类的散度矩阵定义为：

()

()()

()

N T

i i i i i w

k i

S N ==--∑X

总的类内散度矩阵为：

()()

()

()()(

)()()

()

N M

i i

w i w

i k k i i k i S P S P N ====Ω=Ω--∑∑∑X m X m

2. 类间散度矩阵

第i 个类别和第j 个类别之间的散度矩阵定义为：

()

()()

(

)()

()

ij i j i j B S =--m m

总的类间散度矩阵可以定义为：

()()()

()()()()()()()()

1111

1122M M M M

ij i j i j B i j B i i i j i j S P P S P P =====ΩΩ=ΩΩ--∑∑∑∑m m m m

令：m 为总体均值，()()

i i

i P ==

Ω∑m m ，则有： ()()

(

)()

(

)

i i B i i S P ==Ω--∑m m m m

3. 总体散度矩阵

总体散度矩阵可以定义为：

()()1

1N T

T l l l S N ==--∑X m X m

其中N 为总的样本数，1

i N N ==

∑。可以证明：T

W B S

S S =+。

可以看出三个散度矩阵均为实对称矩阵。

上面我们所定义的判据：()d J X =()()()tr tr d T W B J S S S ==+X 。tr 表示取一个矩阵的迹，也就是主对角线元素之和，N 维方阵A 的迹为：()1

tr N

i a

=A =

∑

同样我们可以利用三个散度矩阵定义出一系列的可分性判据：

()1

1tr W B J S S -=

2B W

S J S =

()

()3tr tr B W S J S =

4T W

S J S =

其中Α表示方阵Α的行列式的值，比较常用的判据是1J 。

基于几何距离的可分性判据计算起来比较简单，只要我们已知各个类别的训练样本集，就可以计算出三个散度矩阵，同时也就可以计算出各种可分性判据。二、基于概率分布的可分性判据

基于几何距离的可分性判据计算起来比较简单，然而它没有考虑各类别的概率分布，因此与识别错误率之间的联系却不是很紧密。下面介绍一种直接基于概率分布的可分性判据。

先以最简单的一维特征、两类问题为例，下图表示了两种极端情况：

第一种情况是两类完全可分：对所有()

10p Ω≠X 的点，有()

20p Ω=X ；第二种情况是两类完全不可分：对所有的X 有()()

12p p Ω=ΩX X 。

下面我们可以定义两个类条件概率密度函数之间的距离P J 作为交叠程度的度量，P J 应该满足如下条件：

1. 非负性，0P J ≥；

2. 当两类完全重叠时P J 取最大值，即若对所有X 有()

20p Ω≠X 时，

()10p Ω=X ，则max P J =；

3. 当两类密度函数完全相同时，P J 应为零，即若()()

21p p Ω=ΩX X ，则0P J =。按照这样的要求，可以定义出多种可分性判据，这里我们只介绍其中一种—散度。

现在考虑i Ω和j Ω两类之间的可分性，取其对数似然比：

()()

()

i ij j p l p Ω=ΩX X X

则i Ω类对j Ω类的平均可分性信息可以定义为：

()()()()

()

i ij ij i j p I E l p d p Ω??==Ω??Ω?X

X X X X X X

同样j Ω类对i Ω类的平均可分性信息：

()()()()()

j ji ji j i p I E l p d p Ω??==Ω??Ω?X

X X X X X X

散度P J 定义为区分i Ω类和j Ω类的总平均信息：

()()()()

ln i P ij ji i j j p J I I p p d p Ω??=+=Ω-Ω??Ω?X

X X X X X

从P J 的定义可以看出，当两类分不完全性同()()

i j p p Ω=ΩX X 时，0P J =；当两类完全可分时，P J =+∞。

基于概率的可分性判据优点是直接与识别的错误率相联系，缺点是需要已知各个类别类概率密度函数，只有当我们预先已知各类别的概率分布时，才可以利用训练样本集合估计出概率密度函数，但是对很多实际问题来说各类别的概率分布情况我们是无法预先知道的。

5.3 特征选择

所谓特征选择，就是从一组数量为N 的特征中选择出一组数量为M 的最优特征，（N M >）这里有两个问题要解决，1、选择一种可分性判据作为最优特征选择的标准；2、找到一个好的算法，来选择出这组最优特征。下面我们就来介绍几种特征选择的算法。

一个最简单的思路是：我们假设N 个特征之间相互独立，并且使用的可分性判据满足可加性：()()1

i J J x ==

∑X ，这时候我们只要把N 个特征每个单独使用时的可分性判据

()i J x 计算出来，然后从大到小排序：()()()12N J x J x J x >>>，选择出前M 个特征

就是一组最优的特征。然而问题往往没有这么简单，这种特征独立性假设多数情况下并不成立，并且可分性判据也不一定满足可加性。

另外一个简单的思路是(穷举法)：对从N 中选择出M 个特征的所有组合情况都计算其可分性判据，然后选择出其中的最大者作为解决方案。当N 的数值比较小时，这种方法一定是可行的，然而当N 比较大时，这个组合数会非常大，比如100N =，10M =时，组合

数的数量级是3

10，当20N =，10M =时，组合数为184756。将所有的组合都计算一遍

显然是不现实的。因此我们需要有一个搜索算法来进行特征选择。一、最优搜索算法—分支定界算法

到目前为止唯一能够找到最优解的算法是“分支定界”算法。它所利用的是可分性判据

中的单调性质：()()12121,,,,,,,ij N ij N N J x x x J x x x x +≤，我们前面定义的各种判据都满

足这个性质。

1. 分支定界的思想

分支定界算法实际上是对一个特征选择的搜索树进行搜索，下面先以6N =，2M =的情况来说明一下搜索树。

在搜索树中根节点0X 代表全部特征的集合{}126,,,x x x ，每向下一级节点代表从集

合中删除一个特征，节点边上的数字表示在这一级中删除的特征，比如A 节点表示删除2x 特征，代表{}136,,

,x x x ，因为最后要保留2个特征，因此树的级数为4N M -=。每一个

叶节点代表一种组合，比如C 节点代表{}14,x x 。

由于可分性判据具有单调性，因此在搜索树中的节点具有这样的性质：每个节点代表的特征集合的可分性判据要大于其后继节点代表的特征集合的可分性判据，比如：

()()()J A J B J C ≥≥

根据这样的性质，我们就可以有如下的搜索算法。 2. 分支定界算法（不严格）

1) 搜索从右向左进行，首先设置一个界值B ，初始化为0B =；

如果当前节点没有分支，则向下搜索，直到叶节点为止，计算叶节点代表的特征集合的可分性判据，如果大于界值B ，则将B 替换为这个判据值，并记录这个特征集合，作为当前的最优选择；向上回溯，直到有节点有未搜索过的分支为止，按照从右向左的顺序搜索其子节点；

如果当前节点有分支，则计算当前节点代表的特征集合的可分性判据，如果小于界值B ，则中止该节点向下的搜索，因为其子节点的可分性判据已经不可能大于B 了。否则按照从右向左的顺序搜索其子节点。

分支定界算法的计算时间是不确定的，同最优解分支所在位置有关，如果最优解分支在最右端，并且去掉1x 或2x 的可分性判据均小于最优解，则搜索时间最短，只需计算3组可

分性判据；如果每个分支的可分性判据都大于其左端分支的可分性判据，则搜索时间最长，需计算可分性判据的次数可能15>次。二、次优搜索算法

1. 顺序前进法（Sequential Forward Selection, SFS ）

每次从未入选的特征中选择一个特征，使得它与已入选的特征组合到一起所得到的可分性判据最大，直到特征数增加到M 为止。用k X 表示在第k 步时的特征集合，搜索算法如下：

1) 开始时，0X =?，从N 个特征中选择一个()i J x 最大的特征，加入已选特征集，

{}1i X x =；

2) 在第k 步，k X 中包含已经选择的k 个特征，对未入选的N k -个特征计算，

{}()k

J X x ，其中1,2,

,j N k =-，并且按照由大到小排序，将可分性判据

最大的特征l x 加入k X ，{}1k k

l X X x +=；

3) 直到所选的特征数等于M 为止。

2. 顺序后退法 (Sequential Backward Selection, SBS)

同顺序前进法的过程刚好相反，最开始时取{}01,

,N X x x =，

每次从中剔除一个特征，使得剩余的特征可分性判据最大。 3. 增l 减r 法（l r -法）

前两种方法可以进一步改进，比如每次不是加入1个特征，而是加入l 个特征；或者每次不是剔除一个特征，而是剔除r 个特征。这样的效果要比每次加1或减1的效果好，但是计算量要增大。

另外一种改进方法是将SFS 和SBS 结合，先使用SFS 算法逐个选入l 个最佳特征，然后使用SBS 算法逐个剔除r 个最差特征，l r >，再使用SFS 算法增加l 个特征，再使用SBS 剔除r 个特征，…，直到选出M 个特征为止。

5.4 特征提取

特征抽取的方法很多，下面我们以其中的一种—基于离散K-L 变换(DKLT)的特征抽取，其它方法与此类似。

设原始特征为N 为矢量()12,,

N x x x =X ，均值矢量[]E =m X ，相关矩阵

T E ??=??X R XX ，协方差矩阵()()T E ??=--??

X C X m X m 。我们可以对X 作如下的标准正交变换，将其变为矢量()12,,,T

N y y y =Y :

12T T T N ??????=????????

T T T

Y =T X X T

Y 的每个分量：T i i y =T X ，其中T 为一个N N ?的标准正交矩阵，i T 为其第i 个列矢

量，1,0,T i j i j

i j

=?=?

≠?T T 。也就是说Y 的每个分量是X 每一个分量的线性组合。

同样X 可以表示为：

()()11

2121N

T N i i i N y y y y -=??????====????????

∑X T Y TY T T T T

我们要进行特征提取，也就是要用Y 的M 项来代替X ，这种代替必然带来误差，下面

我们来对这个误差进行估计：

令：1?M

i i

i y ==∑X

T ，1M N ≤<，引入的均方误差为：

()()(

)

211N N

i i i i M i M e M E E y E y y =+=+??????=--==???????

∑∑X X

X X 1

i i

i M i M E =+=+??=

??∑∑X T XX

T T R

这又变成一个优化问题，我们希望寻找到一个标准正交矩阵T ，使得()2

e M 最小，因

此可以去这样的准则函数：

()1

T T i

i i

i M i M J λ=+=+=

-∑∑X

T R

T T T

第一项保证均方误差最小，第二项保证T 为标准正交矩阵，i λ为一待定常数。

()i i i

λ?=-=?X R I T 0T ，1,,i M N =+

即：i i i λ=X R T T ，很明显i λ为相关矩阵X R 的特征值，i T 为对应于i λ的特征矢量，由于X R 是一个实对称矩阵，所以12,,

.N T T T 相互正交，T 为一个正交矩阵。均方无差：

()2

N N

T i

i i

i M i M i M e M λλ=+=+=+=

=∑∑∑X

T R

T T T

根据矩阵论，有这样的结论：一个N N ?的正定实对称矩阵有N 个特征值和特征矢量，这些特征矢量之间是正交的。相关矩阵X R 就是一个实对称矩阵，当训练样本足够多时，也可以满足正定性，根据上式我们知道，当要从N 维特征中提取出M 维特征时，我们只需要统计出特征相关矩阵X R ，然后计算其特征值和特征矢量，选择对应特征值最大的前M 个特征矢量作成一个N M ?特征变换矩阵T ，就可以完成特征提取。步骤如下：

1、利用训练样本集合估计出相关矩阵T

E ??=??X R XX ；

2、计算X R 的特征值，并由大到小排序：12N λλλ≥≥≥，以及相应的特征矢量：

12,,,N T T T ；

3、选择前M 个特征矢量作成一个变换矩阵[]1

M =T T T T ；

4、在训练和识别时，每一个输入的N 维特征矢量X 可以转换为M 维的新特征矢量：

T Y =T X 。

这种方法是利用相关矩阵X R 进行变换，同样也可以利用协方差矩阵X C 进行变换，还

可以利用样本的散度矩阵W S ，B S ，T S 或者1

W B -S S 进行变换。过程都是一样的，需要计算

特征值和特征向量，选择最大的M 个特征值对应的特征矢量作出变换矩阵。

例5.1

特征选择与特征提取

模式类别的可分性判据在讨论特征选择和特征压缩之前，我们先要确定一个选择和提取的原则。对一个原始特征来说，特征选择的方案很多，从N 维特征种选择出M 个特征共有()!!! M N N C M N M = -中选法，其中哪一种方案最佳，则需要有一个原则来进行指导。同样，特征的压缩实际上是要找到M 个N 元函数，N 元函数的数量是不可数的，这也要有一个原则来指导找出M 个最佳的N 元函数。我们进行特征选择和特征提取的最终目的还是要进行识别，因此应该是以对识别最有利原则，这样的原则我们称为是类别的可分性判据。用这样的可分性判据可以度量当前特征维数下类别样本的可分性。可分性越大，对识别越有利，可分性越小，对识别越不利。人们对的特征的可分性判据研究很多，然而到目前为止还没有取得一个完全满意的结果，没有哪一个判据能够完全度量出类别的可分性。下面介绍几种常用的判据，我们需要根据实际问题，从中选择出一种。一般来说，我们希望可分性判据满足以下几个条件： 1. 与识别的错误率由直接的联系，当判据取最大值时，识别的错误率最小； 2. 当特征独立时有可加性，即： ()()121 ,,,N ij N ij k k J x x x J x ==∑

ij J 是第i 类和第j 类的可分性判据，ij J 越大，两类的可分程度越大，()12,,,N x x x 为N 维特征； 3. 应具有某种距离的特点： 0ij J >，当i j ≠时； 0 ij J =，当i j =时； ij ji J J =； 4. 单调性，加入新的特征后，判据不减小： ()()12121,,,,,,,ij N ij N N J x x x J x x x x +≤ 。但是遗憾的是现在所经常使用的各种判据很难满足上述全部条件，只能满足一个或几个条件。基于矩阵形式的可分性判据 1. 类内散度矩阵设有M 个类别，1,,M ΩΩ ，i Ω类样本集()()(){}12,,,i i i i N X X X ，i Ω类的散度矩阵定义为： () ()() ( )()() ( ) 1 1i N T i i i i i w k k k i S N == --∑X m X m 总的类内散度矩阵为： ()() ()() () ()() () () 1 1 1 1 i N M M T i i i i i w i w i k k i i k i S P S P N ==== Ω= Ω--∑∑∑X m X m 2. 类间散度矩阵第i 个类别和第j 个类别之间的散度矩阵定义为： () () () ( )() () ( ) T ij i j i j B S =--m m m m 总的类间散度矩阵可以定义为：

常见的特征选择或特征降维方法

URL:https://www.360docs.net/doc/7613757349.html,/14072.html 特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能： 1.减少特征数量、降维，使模型泛化能力更强，减少过拟合 2.增强对特征和特征值之间的理解拿到数据集，一个特征选择方法，往往很难同时完成这两个目的。通常情况下，选择一种自己最熟悉或者最方便的特征选择方法（往往目的是降维，而忽略了对特征和数据理解的目的）。在许多机器学习的书里，很难找到关于特征选择的容，因为特征选择要解决的问题往往被视为机器学习的一种副作用，一般不会单独拿出来讨论。本文将介绍几种常用的特征选择方法，它们各自的优缺点和问题。 1 去掉取值变化小的特征Removing features with low variance 这应该是最简单的特征选择方法了：假设某种特征的特征值只有0和1，并且在所有输入样本中，95%的实例的该特征取值都是1，那就可以认为这个特征作用不大。如果100%都是1，那这个特征就没意义了。当特征值都是离散型变量的时候这种方法才能用，如果是连续型变量，就需要将连续变量离散化之后才能用，而且实际当中，一般不太会有95%以上都取某个值的特征存在，所以这种方法虽然简单但是不太好用。可以把它作为特征选择的预处理，先去掉那些取值变化小的特征，然后再从接下来提到的特征选择方法中选择合适的进行进一步的特征选择。

2 单变量特征选择Univariate feature selection 单变量特征选择能够对每一个特征进行测试，衡量该特征和响应变量之间的关系，根据得分扔掉不好的特征。对于回归和分类问题可以采用卡方检验等方式对特征进行测试。这种方法比较简单，易于运行，易于理解，通常对于理解数据有较好的效果（但对特征优化、提高泛化能力来说不一定有效）；这种方法有许多改进的版本、变种。 2.1 Pearson相关系数Pearson Correlation 皮尔森相关系数是一种最简单的，能帮助理解特征和响应变量之间关系的方法，该方法衡量的是变量之间的线性相关性，结果的取值区间为[-1，1]，-1表示完全的负相关(这个变量下降，那个就会上升)，+1表示完全的正相关，0表示没有线性相关。 Pearson Correlation速度快、易于计算，经常在拿到数据(经过清洗和特征提取之后的)之后第一时间就执行。 Pearson相关系数的一个明显缺陷是，作为特征排序机制，他只对线性关系敏感。如果关系是非线性的，即便两个变量具有一一对应的关系， Pearson相关性也可能会接近0。 2.2 互信息和最大信息系数Mutual information and maximal information coefficient (MIC)

模式识别特征选择与提取

模式识别特征选择与提取中国矿业大学计算机科学与技术学院电子信息科学系班级：信科11-1班，学号：08113545，姓名：褚钰博联系方法（QQ或手机）：390345438，e-mail:390345438@https://www.360docs.net/doc/7613757349.html, 日期：2014 年06月10日摘要实际问题中常常需要维数约简，如人脸识别、图像检索等。而特征选择和特征提取是两种最常用的维数约简方法。特征选择是从某些事物中提取出本质性的功能、应用、优势等，而特征提取是对特征空间进行变换，将原始特征空间映射到低维空间中。本文是对主成分分析和线性判别分析。关键词：特征选择，特征提取，主成分分析，线性判别分析 1.引言模式识别的主要任务是利用从样本中提取的特征，并将样本划分为相应的模式类别，获得好的分类性能。而分类方法与分类器设计，都是在d（变量统一用斜体）维特征空间已经确定的前提下进行的。因此讨论的分类器设计问题是一个选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域的问题。对分类器设计方法的研究固然重要，但如何确定合适的特征空间是设计模式识别系统另一个十分重要，甚至更为关键的问题。如果所选用的特征空间能使同类物体分布具有紧致性，即各类样本能分布在该特征空间中彼此分割开的区域内，这就为分类器设计成功提供良好的基础。反之，如果不同类别的样本在该特征空间中混杂在一起，再好的设计方法也无法提高分类器的准确性。本文要讨论的问题就是特征空间如何设计的问题。基于主成分分析的特征选择算法的思想是建立在这样的基础上的：主成分分析方法将原始特征通过线性变换映射到新的低维空间时，获得的主成分是去了新的物理意义，难以理解，并且主成分是所有原始特征的线性组合。所以将主成分分析与特征选择相结合，设计多种相似性度量准则，通过找到与主成分相关的关键特征或者删除冗余、不相关以及没有意义的特征，将主成分又重新映射到原始空间，来理解成主成分的实际意义。基于线性判别分析的高维特征选择将单个特征的Fisher准则与其他特征选择算法相结合，分层消除不相关特征与冗余特征。不相关特征滤波器按照每个特征的Fisher评价值进行特征排序，来去除噪音和不相关特征。通过对高维数据特征关联性的分析，冗余特征滤波器选用冗余度量方法和基于相关性的快速过滤器算法。分别在不同情境下进行数据分类实验，验证其性能。

特征选择与特征提取-Read

第五章特征选择与特征提取 5.1 问题的提出前面主要介绍的是各种分类器的设计方法，实际上我们已经完全可以解决模式识别的问题了。然而在实际应用中，在分类器设计之前，往往需要对抽取出的特征进行一下处理，争取尽量减小特征的维数。在实践中我们发现，特征的维数越大，分类器设计的难度也越大，一维特征的识别问题最容易解决，我们只要找到一个阈值t ，大于t 的为一类，小于t 的为一类。同时特征维数越大，要求的训练样本数量越多，例如在一维的情况下，10个训练样本就可以比较好的代表一个类别了，而在10维空间中，10个训练样本则是远远不够的。这一章中我们就来介绍一下减小特征维数的方法。一般来说模式识别系统的输入是传感器对实物或过程进行测量所得到的一些数据，其中有一些数据直接可以作为特征，有一些数据经过处理之后可以作为特征，这样的一组特征一般称为原始特征。在原始特征中并不一定每个特征都是有用的，比如在识别苹果和橙子的系统中，我们可以抽取出的特征很多，（体积，重量，颜色，高度，宽度，最宽处高度），同样还有可能抽取出其它更多的特征。在这些特征中对分类有用的是（颜色，高度，最宽处高度），其它特征对识别意义不大，应该去除掉。这样的过程称为是特征选择，也可以称为是特征压缩。特征选择可以描述成这样一个过程，原始特征为N 维特征()12,,,T N x x x =X ，从中选择出M 个特征构成新的特征矢量( ) 11,, ,M T i i i Y x x x =，M N <。同时，特征矢量的每一个分量并不一定是独立的，它们之间可能具有一定的相关性，比如说高度和最宽处的高度，高度值越大，最宽处的高度值也越大，它们之间具有相关性，我们可以通过一定的变换消除掉这种相关性，比如取一个比值：最宽处的高度/高度。这样的过程称为特征提取。特征提取可以描述为这样一个过程，对特征矢量()12,, ,T N x x x =X 施行变换： ()i i y h =X ，1,2,,i M =，M N <，产生出降维的特征矢量()12,, ,T M Y y y y =。在一个实际系统的设计过程中，特征的选择和提取过程一般都需要进行，首先进行特征选择，去除掉无关特征，这些特征实践上根本就不需要抽取出来，这部分传感器根本不需要安装，这样也可以减小系统的的成本。然后进行特征提取，降低特征的维数。然后利用降维之后的样本特征来设计分类器。 5.2 模式类别的可分性判据在讨论特征选择和特征压缩之前，我们先要确定一个选择和提取的原则。对一个原始特

特征提取与选择总结

第七章特征提取与选择_总结 7.6 特征选择中的直接挑选法特征的选择除了我们前面学习的变换法外, 也可以在原坐标系中依据某些原则直接选择特征, 即我们这节课要学的直接挑选法。 7.6.1次优搜索法 (一)单独最优的特征选择单独选优法的基本思路是计算各特征单独使用时的判据值并以递减排序，选取前d个分类效果最好的特征。一般地讲，即使各特征是统计独立的，这种方法选出的d个特征也不一定是最优的特征组合，只有可分性判据J是可分的，即这种方法才能选出一组最优特征。 (二)增添特征法该方法也称为顺序前进法（SFS）这是最简单的自下而上搜索方法，每次从未选入的特征中选择一个特征，使它与已选入的特征组合在一起时J值最大，直到选入特征数目达到指定的维数d为止。设已选入了k个特征，它们记为X k，把未选入的n-k个特征x j（j=1,2,…,n-k)逐个与已选入的特征X k组合计算J 值，若：则x1选入，下一步的特征组合为X k+1=X k+x1。开始时，k=0，X0=F，该过程一直进行到k=d为止。该方法比“单独最优的特征选择法”要好，但其缺点也是明显的：即某特征一旦选入，即使后边的n-k特征中的某个从组合讲比它好，也无法把它剔除。 (三)剔减特征法该方法也称为顺序后退法(SBS)。这是一种自上而下的搜索方法，从全部特征开始每次剔除一个特征，所剔除的特征应使尚保留的特征组合的值最大。设已剔除了k个特征，剩下的特征组记为，将中的各特征x j （j=1,2,…,n-k)分别逐个剔除，并同时计算值，若：则在这轮中x1应该剔除。

这里初值，过程直到k=n-d为止。 (四) 增l 减r 法（l-r 法）为了克服前面方法（二）、（三）中的一旦某特征选入或剔除就不能再剔除或选入的缺点，可在选择过程中加入局部回溯，例如在第k步可先用方法（二）。，对已选入的k个特征再一个个地加入新的特征到k+1个特征，然后用方法(三) 一个个地剔除r个特征，称这种方法为l减r法（l-r法）。 7.6.2最优搜索法 (一)分支定界法(BAB算法) 寻求全局最优的特征选择的搜索过程可用一个树结构来描述，称其为搜索树或解树。总的搜索方案是沿着树自上而下、从右至左进行，由于树的每个节点代表一种特征组合，于是所有可能的组合都可以被考虑。利用可分性判据的单调性采用分支定界策略和值左小右大的树结构，使得在实际上并不计算某些特征组合而又不影响全局寻优。这种具有上述特点的快速搜索方法，称为分支定界算法。 6选2的特征选择问题 (a)搜索树 (b)搜索回溯示意图树的每个节点表示一种特征组合，树的每一级各节点表示从其父节点的特征组合中再去掉一个特征后的特征组合，其标号k表示去掉的特征是。由于每一级只舍弃一个特征，因此整个搜索树除根节点的0级外，还需要n-d级，即全树有n-d级。6个特征中选2个，故整个搜索树需4级，第n-d级是叶节点，有

第八讲特征提取和特征选择(讲义)

第八讲特征提取和特征选择一、基本概念 1、特征的生成（1）原始特征的采集和转换通过对原始特征的信号采集，获得样本的原始表达数据，从原始数据中选择或计算出对分类任务有用的原始特征，并转换成可用的形式原始数据：像素点RGB值矩阵可用的原始特征：轮廓特征颜色特征纹理特征数学特征（2）有效特征的生成目的：降低特征维数，减少信息冗余提升特征的有效性方法：特征提取：提高特征对类别的分辨能力

特征选择：寻找对分类最重要的特征 2、特征提取通过某种变换，将原始特征从高维空间映射到低维空间。 A ：X →Y ； A 为特征提取器，通常是某种正交变换。最优特征提取：J(A*)=max J(A)， J 是准则函数 3、特征选择从一组特征中挑选出一些最有效的特征，以达到降低特征空间维数的目的。 D d d i S y y y y F x x x S i d D <=∈→;,...,2,1,} ,......,,{:},......,,{:2121 原始特征集合S 中包含D 个特征，目标特征集合F 中包含d 个特征；最优特征选择：J(F*)=max J(F)， J 是准则函数 4、准则函数的选取（1）准则函数的选取原则分类正确率是最佳的特征提取和特征选择准则函数，但难以计算。实用的类别可分性准则函数应满足以下要求：与分类正确率有单调递增关系当特征独立时具有可加性：∑==d k k ij d ij x J x x x J 1 )()...21，，，（具有标量测度特性：?? ? ??===≠>ji ij ij ij J J j i J j i J 时，当时，当00

特征选择、特征提取MATLAB算法实现(模式识别)

6特征选择 6.1问题对“threethreelarge.m”数据，采用任意一种特征选择算法，选择2个特征 6.2思路采用简单特征选择法（simple feature selection approach）,首先计算每一个特征的分类能力值，再选择出其中最大分类能力的l个特征。 6.3结果 eigs=8.92340.00000.0767 SelectedFeature=13 也就是说，选取x和z坐标作为特征。 6.4代码 %特征选择代码，见FSthrthrlrg.m文件 m1=[0,0,0];m2=[0,0,0];m3=[0,0,0];m=[0,0,0]; for i=1:200 m1(1)=m1(1)+(x1(i,1)-m1(1))/i; m1(2)=m1(2)+(x1(i,2)-m1(2))/i; m1(3)=m1(3)+(x1(i,3)-m1(3))/i; end; for i=1:190 m2(1)=m2(1)+(x2(i,1)-m2(1))/i; m2(2)=m2(2)+(x2(i,2)-m2(2))/i; m2(3)=m2(3)+(x2(i,3)-m2(3))/i; end; for i=1:210 m3(1)=m3(1)+(x3(i,1)-m3(1))/i; m3(2)=m3(2)+(x3(i,2)-m3(2))/i; m3(3)=m3(3)+(x3(i,3)-m3(3))/i; end; m(1)=(m1(1)+m2(1)+m3(1))/3; m(2)=(m1(2)+m2(2)+m3(2))/3; m(3)=(m1(3)+m2(3)+m3(3))/3; sw1=zeros(3,3);sw2=zeros(3,3);sw3=zeros(3,3);sw=zeros(3,3);sb=zeros(3,3); for i=1:200 sw1=sw1+([x1(i,1),x1(i,2),x1(i,3)]-m1)'*([x1(i,1),x1(i,2),x1(i,3)]-m1); end; for i=1:190 sw2=sw2+([x2(i,1),x2(i,2),x2(i,3)]-m2)'*([x2(i,1),x2(i,2),x2(i,3)]-m2); end; for i=1:210 sw3=sw3+([x3(i,1),x3(i,2),x3(i,3)]-m3)'*([x3(i,1),x3(i,2),x3(i,3)]-m3); end; N1=200;N2=190;N3=210;N=N1+N2+N3;

特征选择、特征提取matlab算法实现(模式识别)

6 特征选择 6.1 问题对“threethreelarge.m”数据，采用任意一种特征选择算法，选择2个特征 6.2 思路采用简单特征选择法（simple feature selection approach）,首先计算每一个特征的分类能力值，再选择出其中最大分类能力的l个特征。 6.3 结果 eigs = 8.9234 0.0000 0.0767 SelectedFeature = 1 3 也就是说，选取x和z坐标作为特征。 6.4 代码 % 特征选择代码，见FSthrthrlrg.m文件 m1=[0,0,0]; m2=[0,0,0]; m3=[0,0,0]; m=[0,0,0]; for i=1:200 m1(1)=m1(1)+(x1(i,1)-m1(1))/i; m1(2)=m1(2)+(x1(i,2)-m1(2))/i; m1(3)=m1(3)+(x1(i,3)-m1(3))/i; end; for i=1:190 m2(1)=m2(1)+(x2(i,1)-m2(1))/i; m2(2)=m2(2)+(x2(i,2)-m2(2))/i; m2(3)=m2(3)+(x2(i,3)-m2(3))/i; end; for i=1:210 m3(1)=m3(1)+(x3(i,1)-m3(1))/i; m3(2)=m3(2)+(x3(i,2)-m3(2))/i; m3(3)=m3(3)+(x3(i,3)-m3(3))/i; end; m(1)=(m1(1)+m2(1)+m3(1))/3; m(2)=(m1(2)+m2(2)+m3(2))/3; m(3)=(m1(3)+m2(3)+m3(3))/3; sw1=zeros(3,3); sw2=zeros(3,3); sw3=zeros(3,3); sw=zeros(3,3); sb=zeros(3,3); for i=1:200 sw1=sw1+([x1(i,1),x1(i,2),x1(i,3)]-m1)'*([x1(i,1),x1(i,2),x1(i,3)]-m1); end; for i=1:190 sw2=sw2+([x2(i,1),x2(i,2),x2(i,3)]-m2)'*([x2(i,1),x2(i,2),x2(i,3)]-m2); end; for i=1:210 sw3=sw3+([x3(i,1),x3(i,2),x3(i,3)]-m3)'*([x3(i,1),x3(i,2),x3(i,3)]-m3); end; N1=200; N2=190; N3=210; N=N1+N2+N3;

模式识别第5章特征选择和提取

第五章特征选择和提取特征选择和提取是模式识别中的一个关键问题前面讨论分类器设计的时候，一直假定已给出了特征向量维数确定的样本集，其中各样本的每一维都是该样本的一个特征；这些特征的选择是很重要的，它强烈地影响到分类器的设计及其性能；假若对不同的类别，这些特征的差别很大，则比较容易设计出具有较好性能的分类器。特征选择和提取是构造模式识别系统时的一个重要课题在很多实际问题中，往往不容易找到那些最重要的特征，或受客观条件的限制，不能对它们进行有效的测量；因此在测量时，由于人们心理上的作用，只要条件许可总希望把特征取得多一些；另外，由于客观上的需要，为了突出某些有用信息，抑制无用信息，有意加上一些比值、指数或对数等组合计算特征；如果将数目很多的测量值不做分析，全部直接用作分类特征，不但耗时，而且会影响到分类的效果，产生“特征维数灾难”问题。为了设计出效果好的分类器，通常需要对原始的测量值集合进行分析，经过选择或变换处理，组成有效的识别特征；在保证一定分类精度的前提下，减少特征维数，即进行“降维”处理，使分类器实现快速、准确和高效的分类。为达到上述目的，关键是所提供的识别特征应具有很好的可分性，使分类器容易判别。为此，需对特征进行选择。应去掉模棱两可、不易判别的特征；所提供的特征不要重复，即去掉那些相关性强且没有增加更多分类信息的特征。说明：实际上，特征选择和提取这一任务应在设计分类器之前进行；从通常的模式识别教学经验看，在讨论分类器设计之后讲述特征选择和提取，更有利于加深对该问题的理解。所谓特征选择，就是从n 个度量值集合{x1, x2,…, xn}中，按某一准则选取出供分类用的子集，作为降维（m 维，m

电子鼻数据的特征选择

电子鼻数据的数据处理方法报告：电子鼻是模仿生物鼻工作原理的一种电子系统，其工作过程可以简单的归纳为：气敏传感器阵列对待测气体进行信号采集，经信号预处理单元整理采集的数据，然后送入模式识别单元进行训练学习，学习完成后即可实现对待测气体成分的定性或定量的识别。典型的电子鼻系统结构如下图所示：信号预处理模块主要是对传感器采集的数据进行一些预处理，减少各种各样的干扰措施，并对处理之后的信号进行特征采集，采集的特征应用于模式识别模块。模式识别模块是整个系统的核心。用于电子鼻系统的常见的模式识别方法有统计模式识别方法和人工神经网络方法。前者主要有Bayes、线性判别函数、非线性判别函数、SVM、K-近邻法等；后者主要有感知器算法、BP网络、径向基函数RBF神经网络等。下面就信号的预处理和数据的特征提取进行相关的总结。数据的预处理对同一种样品，传感器对其需要测量多次。在测量中，很难保证每次测量的条件是一致的。因此，为了采集正确的特征，并消除影响，需要对数据进行相应的预处理，常见的预处理方法主要有： 1、标准化处理方法标准化方法的思想是将样本数据的样本方差归一，这样处理可以便于对特征进行提取并对特征进行降维，这样的处理方法对信号的线性漂移（平移和比例漂移）具有很好的适应性。处理过程为：设为样本i的第k个测量数据，则其中，。 2、差分法差分法的思想是补偿传感器的温度效应，其形式为

X(i)=x(i)-x(min) 3、相对差分：X(i)=x(i)/x(min) 4、分式差分：X(i)={x(i)-x(min)}/x(min) 5、归一化：X(i)={x(i)-x(min)}/{x(max)-x(min)} 6、采取信号变换方法可以对采样信号进行DFT变换，得到变换后的数据，并进行特征提取。这种方法少见于文献，应用的较少。数据的特征提取对于原始数据，信息保持最完整的特征是原始特征。但是，原始特征的数量很大，会造成“维数灾难”，在这种情况下，为提高计算效率，需要在尽量不丢失有用信息的前提下，对原始特征进行合理的选择，产生出对分类识别最有效、数目最少的特征，以降低维数，这也就是特征提取的基本任务。 1、PCA降维法主成分分析法在保持数据大部分信息的情况下，对原有具有信息重叠的多个指标进行线性组合，这样使得得到后的综合指标间即互不相关，又尽可能反应原来指标的信息。不过PCA法有一些缺点。首先，PCA算法要求样本数据的相应时间是一样的，也就是说传感器从开始响应到结束响应的时间是一样的，但是在实际中，传感器对不同样本的响应时间是不同的；其次，PCA算法对样本的依赖较大，当对待测样本进行判别的时候，容易出现误判。 2、数据的重采样对样本数据进行重采样，如隔t0时刻采样一个数据点，这样在保持原有数据变化形状的情况下，可以适量减少特征的维数。而且这样还可以减少对样本的依赖性。设样本数据为x0，x1，x2，……，x1000，如果隔5个点采样，那么特征为（x0，x5，x10，……，x995，x1000）。 3、提取样本数据的统计量作为特征常见的特征提取方法是采用样本数据的某些统计量作为样本特征。常见的统计量有：（1）响应曲线的最大响应值（2）响应曲线的均值

特征选择与特征提取-Read

特征选择与特征提取

常见的特征选择或特征降维方法

模式识别特征选择与提取

特征选择与特征提取-Read

特征提取与选择 总结

第八讲 特征提取和特征选择(讲义)

特征选择、特征提取MATLAB算法实现(模式识别)

特征选择、特征提取matlab算法实现(模式识别)

模式识别第5章特征选择和提取

电子鼻数据的特征选择

特征提取与选择总结

第八讲特征提取和特征选择(讲义)