第七章 特征提取与选择
模式识别特征的选择和提取

1. 模式最优表示特征的提取 假定有一n维向量x,希望能用m(< n) 个向量的线性组合来近似x,这m个向量来自 一组标准正交基{uj,j = 1,2,…,n}。 即把x近似表示为前m个基的组合:
~ x
= y1u1 + y2u2 + … + ymum
式中 yj = ujT x
写成矩阵形式, ~ x = Um y ( n × m,m × 1 ) → n × 1 y = UmT x ( m × n,n × 1 ) → m × 1
模式特征的产生过程一般包括以下步骤:
1.原始特征的形成:用仪表或传感器测量 出来的一些特征量,或通过计算得到的一些 特征(对波形和图象),称为原始特征、原 始测量或一次特征。
2.特征提取:原始特征的数量可能很 大,需要通过变换(映射)把高维特征空间 降到低维空间,这时的特征叫二次特征,它 们一般是原始特征的某种组合。 通过变换A: X Y,
下面的分析说明确实是这样。假定e是 Gi的标准特征向量,那么相应特征值λ 可以 表示为 c 1 T T T ( e R e ( 1 e R k e) λ = e Gie = i
c
k 1 k i
由于λ max≤1和相关矩阵的半正定性质, ∴上式括号中每一个二次项的特征值在0~1 之间,∴ 0≤λ ≤1。 而且λ 接近于1时要求eTRie→1,而 eTRke(k≠i)却→0,
和前面一样,令{uj,j = 1,2,…,n} 是观测空间的标准正交基。另x是任一观测 向量,x~是它的截尾表示形式, x~ = y1u1 + y2u2 + … + ymum 对于第i类,我们选择一组uj,它能使 第i类的均方误差最小, εi = Ei[|x-x~|2] =
模式识别(7-2)特征的选择与提取

5 4
,
54
试用K-L变换作一维数据压缩。
思路:1)求总体均值向量;2)求产生矩阵ψ ; 3)求产生矩阵的特征值λi 及特征向量 i ;
4)按λi排序,确定变换矩阵W; 5)利用 y W T x 求新的一维样本。
K-L变换的一些典型应用
上面我们从数学的角度分析了K-L变换的 性质。归结起来,它消除了各分量之间的 相关性,因而用它来描述事物时,可以减 少描述量的冗余性,做到用最经济有效的 方法描述事物。下面结合一些应用实例来 说明如何运用K-L变换的这一性质。
但是由于它的正交基函数族是从训练样本集中计算出 来的,因此并不存在一种对任何数据都适用的K-L变 换基,一般的作法是先用一组训练数据计算出K-L变 换基,然后用这组基来分析其它数据。
K-L变换的性质
K-L变换的性质
K-L变换的性质
K-L变换的产生矩阵
当样本所属类别未知时:
x的相关函数矩阵 x的协方差矩阵
§7.3 基于K-L展开式的特征提取
图6-3b
图6-3(b)中的向量A与B在一个二维空间定义,它们两者分别含有成 分为(a1,a2)与(b1,b2),a1与b1是两者的同一种成分,a2与b2则是 另一种成分。故它们的点积定义为a1b1+a2b2,在这种条件下就不 需要积分,而只是简单求和。
§7.3 基于K-L展开式的特征提取
K-L变换的一些典型应用
4.人脸图象合成
用K-L变换构造参数模型的另一种典型用途是人 脸图象合成。从下面的例子中可以看出,有目 的地控制各个分量的比例,也就是通过调整参 数向量。可以将一幅不带表情图象改变成带各 种表情的图象,称为人脸表情图象合成。
为了对复杂事物进行经济有效的描述,我们希望将其分解 成相互独立的成分,譬如我们分析其快速变化的成分时, 就希望它只不再混杂其它成分。
特征的提取和选择

特征的提取和选择
特征提取和选择是机器学习中非常重要的环节,它既可以减少计算量,又可以提高模型的性能。
选择较好的特征可以让模型更加简单,更加容易
和快速的训练出最佳参数,从而使得模型更加精确、效果更好。
一般来说,特征提取和选择有以下几步:
1.特征提取。
特征提取关注的是利用现有特征生成新的特征。
它可以
是特征融合(如结合多个特征生成更强大的特征),也可以是特征变换
(如离散特征变换成连续特征)。
2.无关特征删除。
把没有帮助的特征删除,有助于减少模型的运行时间,提高模型的效果。
3.有关特征选择。
把与目标值有很强关联的特征选择出来,这些特征
被称为有关特征,它们可以帮助模型训练出更好的结果。
4.特征降维。
为了减少特征之间的相关性,减少计算量,与有关特征
相关性比较低的特征可以被删除。
5.特征加权。
调整特征的权重,使得有关特征拥有更大的影响力,从
而帮助模型更好的进行预测。
通过这种特征提取和选择的过程,可以把训练集中拥有相关性比较高
的有用特征保留下来,把没用的特征抛弃,有效的提高模型的性能。
特征提取与特征选择的区别与联系(七)

特征提取与特征选择的区别与联系特征提取和特征选择是机器学习和模式识别领域中常用的两种特征处理方法。
它们都是在原始特征空间中对特征进行加工和处理,以便更好地应用于后续的分类、聚类或回归任务。
虽然它们都是对特征进行处理,但是它们的目的和方法却有很大的不同。
下面我们将详细探讨特征提取与特征选择的区别与联系。
特征提取是指从原始特征中抽取出新的特征表示。
在实际应用中,原始特征往往具有冗余和噪声,通过特征提取可以将原始特征进行变换,得到更具有辨识度和可分性的特征表示。
常见的特征提取方法包括主成分分析(PCA)、线性判别分析(LDA)、独立成分分析(ICA)等。
这些方法通过线性或非线性的变换,将原始特征映射到一个新的特征空间中,以便更好地进行后续的分类或聚类任务。
特征选择则是从原始特征中选择出子集,以降低维度、提高模型的泛化能力和减少计算复杂度。
特征选择方法包括过滤式、包裹式和嵌入式三种。
过滤式方法通过对特征进行打分或排序,然后选择得分高的特征作为子集;包裹式方法则是将特征选择看作一个搜索问题,针对具体的学习算法进行搜索;嵌入式方法则是将特征选择融入到学习器的训练过程中。
这些方法都是通过评估特征子集的质量,选择对模型性能影响最大的特征子集。
特征提取和特征选择在目的和方法上存在着很大的不同。
特征提取的目的是通过变换原始特征,得到更具有可分性和辨识度的新特征表示,从而提高模型的性能;而特征选择的目的则是通过选择出对模型性能影响最大的特征子集,降低维度、提高泛化能力和减少计算复杂度。
从方法上看,特征提取是通过线性或非线性的变换,将原始特征映射到一个新的特征空间中;而特征选择则是在原始特征空间中进行子集选择,保留对模型性能影响最大的特征子集。
特征提取和特征选择虽然在目的和方法上有很大的不同,但是它们之间也存在着联系。
首先,特征提取可以看作是一种特殊的特征选择,它通过对原始特征进行变换和映射,得到一个新的特征表示,实质上也是在选择对模型性能影响最大的特征子集。
遥感技术应用课件:特征提取与选择

知识点
• 在多光谱图像中,邻近波段之间往往具有 高度的相关性,存在着大量冗余和重复的 信息,需从这些数据中提取那些无冗余的 有效信息来识别目标地物。
知识点
知识点
• 西北部为植被稀少区 • 东部为植被密集区
知识点
• 空间特征属于局部统计变量,反映 图像局部的灰度变化、像元组合及 其与周边的关系。
知识点
用于遥感图像分类的属性特征可能非常多,如果不加选择地 将所有属性都作为分类特征,那么分析特征、训练模型所需的时 间就会很长,模型也会变得复杂,其推广能力(泛化能力)就会 下降;此外,特征变量过多会引起“维数灾难”,使得识别精度 不增反降。
知识点
知识点
知识点
• 光谱特征提取的基本思想就是对多 种属性进行某种线性或非线性组合 得到综合指标。
知识点
先验知识往往受限于所识 别的地物类别及其所处的环境。
知识点
知识点
知识点
知识点
知识点
知识点
课程小结
特征的概念 特征提取 特征选择 特征组合
谢谢观看
知识点
知识点
• 根据影像信息的不同合 理选择空间特征提取的 算法,以达最优的特征 显示效果与提取效果。
知识点
知识点
知识点
原始 属性集
子集 产生
属性 子集
否
子集 评价
终止 条件
是研究区地物及其属性比较熟 悉,已经知道某些属性可以很好地区分待分 类的地物,可以根据这些先验知识直接选择 这些可以区分特定地物的属性。
特征提取与选择
课程导入
特征的概念 特征提取 特征选择 特征组合
知识点
• 在两个或多个目标物之间具有差异的属性就是 物体的特征,可以被用来区分目标物的属性。
模式识别7-特征选择和提取

了识别对象的某些特征,简单地删去某些特征可能会
丢失较多的有用信息。
• 如果将原来的特征做正交变换,获得的每个数据都是
原来n个数据的线性组合,然后从新的数据中选出少
数几个,使其尽可能多地反映各类模式之间的差异,
而这些特征间又尽可能相互独立,则比单纯的选择方
➢遗传算法
单独最优特征组合
特征
选择
计算各特征单独使用时的可分性判据J并加
以排队,取前d个作为选择结果
不一定是最优结果
当可分性判据对各特征具有(广义)可加性,
该方法可以选出一组最优的特征来,例:
➢各类具有正态分布
➢各特征统计独立
➢可分性判据基于Mahalanobis距离
d
J ij ( x1 , x2 ,..., xd ) J ij ( xk ) J D (x) (μi μ j )T 1(μi μ j )
k 1
顺序前进法
特征
选择
自下而上搜索方法。
每次从未入选的特征中选择一个特征,使得
它与已入选的特征组合在一起时所得的J值
为最大,直至特征数增加到d为止。
该方法考虑了所选特征与已入选特征之间的
相关性。
顺序后退法
特征
选择
该方法根据特征子集的分类表现来选择特征
搜索特征子集:从全体特征开始,每次剔除
➢ 当特征独立时有可加性:
k 1
➢ 单调性:
J ij ( x1 , x2 ,..., xd ) J ij ( x1 , x2 ,..., xd , xd 1 )
常见类别可分离性判据:基于距离、概率分布、熵
函数
特征提取与选择

7.7.1 次优搜索法 (一)单独最优的特征选择 基本思路: 基本思路:
计算各特征单独使用时的判据值J并以递减排序, 计算各特征单独使用时的判据值J并以递减排序, 选取前d个分类效果最好的特征。 选取前d个分类效果最好的特征。 一般地讲,即使各特征是统计独立的,这种方 一般地讲,即使各特征是统计独立的, 法选出的个特征也不一定是最优的特征组合; 法选出的个特征也不一定是最优的特征组合; 只有可分性判据J是可分的, 只有可分性判据J是可分的,即
k
步可先用方法
k 个特征再一个个地加入新的特征
个特征, 到 k + l 个特征,然后用方法 征,称这种方法为增
( 三 ) 一个个地剔除
r
个特
l 减 r 法( l − r 法) 。
7.7.2 最优搜索法 s=00 i= s=1 i =1
i =2 s=2
2 1 2 3
BAB算法 算法
X0 = Ψ0 = Xn
∑J
ij
(W )
但是求得使 J (W ) 最大的解析解是非常困难的,一 种可行的办法是先求出一个候选向量集 {v} ,采 用搜索算法从中选出使得 J (W ) 最大的d个向量来 构成特征抽取矩阵。
6.3.2基于离散 基于离散K-L变换的特征抽取方法 基于离散 变换的特征抽取方法 (主成分分析) 主成分分析) 6.3.3特征的模糊化与特征的模糊评价 特征的模糊化与特征的模糊评价
BAB算法效率高的原因: BAB算法效率高的原因: 算法效率高的原因
(1)在构造搜索树时, (1)在构造搜索树时,同一父节点的各子树的右边的 在构造搜索树时 边要比左边的少,即树的结构右边比左边简单; 边要比左边的少,即树的结构右边比左边简单; (2)在同一级中按最小的J (2)在同一级中按最小的J值从左到右挑选舍弃的特 在同一级中按最小的 左小右大, 即节点的J值是左小右大 征,即节点的J值是左小右大,而搜索过程是从 右至左进行的; 右至左进行的; (3)因 单调性,若树上某节点A (3)因J的单调性,若树上某节点A的可分性判据值 子树上各节点的J值都不会大于B JA≤B ,则A子树上各节点的J值都不会大于B,因 此不需要搜索A子树。 此不需要搜索A子树。 从上可知, 从上可知,有很多特征组合不需计算仍能求得全局 最优解。 最优解。
模式识别(7-1)特征的选择与提取

原始测量:(正常与异常)细胞的数字图像
原始特征(特征的形成,找到一组代表细胞性质的 特征):细胞面积,胞核面积,形状系数,光密度, 核内纹理,和浆比
压缩特征:原始特征的维数仍很高,需压缩以便于 分类
特征选择:挑选最有分类信息的特征 特征提取:数学变换
傅立叶变换或小波变换 用PCA方法作特征压缩
基于距离的可分性判据
计算所有样本平均距离作为判据 Jd (x) tr(Sw Sb )
其中“tr”表示矩阵的迹(对角线元素的和)。
各类特征向量之间的平均距离可写成:
1
Jd (x) 2
c
Pi
i 1
c
Pj
j 1
1 nin j
ni n j
(xk(i) , xl( j) )
k 1 l 1
其中Pi、Pj 分别表示各类的先验概率,ni、nj分别是第i与j
基于距离的可分性判据
如果推广至c类别情况,同时考虑各类的先验概率Pi 不等,则可将上列各式表示成:
c
Sb = Pi(mi m)(mi m)T i 1 c
Sw = PiEi[(mi m)(mi m)T ] i 1
其中, m 为总均值向量,Pi表示各类别的先验
概率,Ei表示i类的期望符号。
基于距离的可分性判据
Fisher准则时曾用过两个描述离散度的矩阵。一个 是类间离散矩阵Sb
Sb = (m1 - m2 )(m1 - m2 )T
另一个是类内离散度矩阵SW
Si = (x - mi )(x - mi )T , xX i
Sw = S1 + S2
i 1, 2
以上式子是针对两类别情况的,如果推广至c 类别情况?
)T (x(ki)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
设Ni 个模xrk(式i), k分属1,c2类,L,,则N各i 类的i均 1值, 2矢,L量,分c 别为
所有各类模式的总体均值矢量为 mr c Pi mr (i)
mr (i)
1 Ni
Ni
r (i) xk
k 1
(i 1, 2,L , c)
i 1
式中Pi为相应类的先验概率。
当用统计量代替先验概率时,有
(3)当参数s和(1-s)互调时,才有对称性,即
JC (1,2 , s) JC (2 ,1,1 s)
(二)Chernoff判据(JC)
性质:r (4)当 x各分量x1,x2,…,xn相互独立时,
JC (1,2 , s) JC (2 ,1,1 s)
(5)当 xr各分量x1,x2,…,xn相互独立时,
d 2 (i , j )
1 Ni N j
Ni k 1
N j (xrk (i)
l 1
xrl( j) ) '(xrk(i)
xrl( j) )
(七)各类模式之间的总的均方距离
d 2(xr)
1 2
c
Pi
i 1
c
Pj
j 1
1 Ni N j
Ni k 1
N j d 2 (xrk(i) , xrl( j) )
d 2(i ) Tr[Swi ]
类内离差矩阵表示各类模式在类的均值矢量周围的散
布情况。
(六)两类之间的距离
d
2
(i , j )
1 Ni N j
Ni k 1
Nj
d
2
(
r xk
(i)
,
r xl
(
j
)
)
l 1
当式中的距离取欧氏距离时,有
i j
r xk
(i
)
,
k
1, 2,L
, Ni
xrl( j) ,l 1, 2,L , N j
7.7.2 最优搜索法
BAB算法
树的每个节点表示一种特征组合, 树的每一级各节点表示从其父节点的特征组合中 去掉一个特征后的特征组合,其标号k表示去掉的 特征是xk 。
由于每一级只舍弃一个特征,因此整个搜索树除 根节点0级外,还需要n-d级,即全树有n-d级。 例如,6个特征中选2个,整个搜索树有4级。
7 .2 类别可分性判据
(Class Separability Measures)
准则—类别可分性判据:刻划特征对分类的贡献。 构造的可分性判据Jij应满足下列要求: (1)与误分概率P(e)(或误分概率的上界、下界)有
单调关系, Jij最大值时, P(e)最小。
(2)当特征相互独立时,判据有可加性,即
计算J (Xk xj ) 值,若:
J ( X k x1) J ( X k x2 ) L J ( X k xnk )
则在这轮中x1应Leabharlann 剔除:X k 1 X k x1
这里初值 k 0, X 0 {x1, x2 ,L , xn} ,
过程直到k=n-d为止。
7.7.1 次优搜索法
(四) 增l 减r 法(l-r 法)
0 s 1
(三)散度JD (Divergence)
对I1i类j (xr的) 平 E均i 可ln分pp性((xrxr信||息ij))为
p(xr
| i ) ln
p( xr p(xr
| |
i j
) )
dxr
对I2ji类(xr的) 平Ej均l可n pp分((xrxr性||信ij))息 为 p(xr
| j ) ln
(二)Chernoff判据(JC)
JC ln p(xr 1)s p(xr 2 )1s dxr JC (1,2; s)
JC (s; x1, x2 ,L , xn ) JC (s)
0<s<1
(比JB更广义的判据
)
1 JC (2)
JB
性质:
(1)对一切0<s<1,Jc0; (2)对一切0<s<1,JC 0 p(xr | 1) ; p(xr | 2)
一般地讲,即使各特征是统计独立的,这种方 法选出的个特征也不一定是最优的特征组合; 只有可分性判据J是可分的,即
J (xr ) n J (xi ) 或 J (xr ) J (xi ) i 1
这种方法才能选出一组最优特征。
7.7.1 次优搜索法
(二)增添特征法
Sequential Forward Selection
第n-d级是叶节点,共有Cnd个叶节点。
7.7.2 最优搜索法
BAB算法
Xl 表示特征数目为l 的特征集合。 Xs 表示舍弃s 个特征后余下的特征集合。
s 表示第s 级当前节点上用来作为下一级可舍
弃特征的特征集合。
rs 表示集合s中元素的数目。
qs 表示当前节点的子节点数。
7.7.2 最优搜索法
该方法也称为顺序前进法(SFS)。这是最简 单的自下而上搜索方法,每次从未选入的特征中 选择一个特征,使它与已选入的特征组合在一起 时 J 值最大,直到选入特征数目达到指定的维 数 d 为止。
7.7.1 次优搜索法
(三)剔减特征法
设已剔除了k个特征,剩下的特征组记为
X
,将
k
X k中的各特征xj(j=1,2,…,n-k)分别逐个剔除,并同时
7.7 特征选择中的直接挑选法
特征的选择可以在原坐标系中依据某些原则直接 选择特征,:从n个特征中挑选出d个使其Jd最大。
7.7.1 次优搜索法 7.7.2 最优搜索法
7.7.1 次优搜索法 (一)单独最优的特征选择
基本思路:
计算各特征单独使用时的判据值J并以递减排序, 选取前d个分类效果最好的特征。
p(xr p(xr
| |
j i
) )
dxr
对于1和2两类总的平均可分性信息称为散度,其定
义为两类平均可分性信息之和,即
r
r
JD Ii j (x) I ji (x)
[ p(xr
| i )
p( xr
| j )]ln
p(xr p(xr
| |
i j
) )
d
xr
JD (i , j ) JD (x1,L , xn )
1 Ni (Ni
1)
Ni k 1
Ni l 1
d 2 (ark(i) ,arl(i) )
(五)类内离差(散布)矩阵(Scatter)
类内离差矩阵定义为
Swi
1 Ni
Ni (xrk(i) mr (i) )(xrk(i) mr (i) )'
k 1
i
xrk(i) , k 1, 2,L , Ni
类内离差矩阵SWi的迹等于类内的均方欧氏距离,即
(二)Chernoff判据(JC)
JC ln p(xr 1)s p(xr 2 )1s dxr JC (1,2; s), 0<s<1
(三)散度JD
JD
Ii
r j (x)
r I ji(x)
[ p(xr | i )
p(xr | j )]ln
p( xr p( xr
| |
i j
) )
d
xr
第七章 特征提取与选择
Tr ST
mr ) '
SW
SB
易导出
Pi
Ni N
mr (i)
1 Ni
Ni
r (i) xk
k 1
mr
1 N
N xrl
l 1
可分性判据
(类内紧,类间开)
J1 Tr SW1SB
J2
SB SW
J3
Tr
Tr
SB SW
J4
|
SW SB | SW |
|
| ST | SW
| |
可以证明J1、J2与J4在任何非奇异线性变换下 是不变的, J3与坐标系有关。
BAB算法
由于从根节点要经历n-d级才能到达叶节点,s级某 节点后继的每一个子节点分别舍弃s中互不相同的一 个特征,从而考虑在s+1级可以舍弃的特征方案数 (即子节点数)qs时,必须使这一级舍弃了特征后的 Xs+1还剩(n-d)-(s+1)个特征。除了从树的纵向上 每一级舍弃一个特征,实际上从树的横向上,一个分 支也轮换舍弃一个特征。因此后继子节点数
p(xr | 1) p(xr | 2 )
p(xr | 2 )
(a)
(b)
(一)Bhattacharyya判据(JB) (受相关定义与应用的启发,构造B-判据)
JB ln
p(
xr
|
1
)
p(
xr
|
2
1/
)
2
dxr
在最小误分概率准则下,误分概率
P0 (e) P(1)P(2 ) 1/2 expJB
7.7.2 最优搜索法
BAB算法
s=i 00 s=i 11
si=22
X0 0 X n
1
23
2
3 4 A3 4 4
s=3 i 3 3 4 5 4 5 5 4 5 5 5
s=4 i 4 4 5 6 5 6 6 5 6 6 6 5 6 6 6 6
(a)
X0 (b)
6选2的特征选择问题 (a)搜索树 (b)搜索回溯示意图
n
JC (s, x1, x2 ,L , xn ) JC (s, xl ) l 1
(JC不具有三点距 离不等式的性质。)
(6)最小误分概率
JC (s, x1, x2 ,L , xn ) JC (s, x1, x2,L , xn , xn1), k n
P0(e) P(1)s P(2)1s expJC (1,2; s)