模式特征的提取与选择

合集下载

模式识别特征选择与提取

模式识别特征选择与提取

模式识别特征选择与提取(总8页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--模式识别特征选择与提取中国矿业大学计算机科学与技术学院电子信息科学系班级:信科11-1班,学号:08113545,姓名:褚钰博联系方法(QQ或手机):8,日期:2014 年 06月 10日摘要实际问题中常常需要维数约简,如人脸识别、图像检索等。

而特征选择和特征提取是两种最常用的维数约简方法。

特征选择是从某些事物中提取出本质性的功能、应用、优势等,而特征提取是对特征空间进行变换,将原始特征空间映射到低维空间中。

本文是对主成分分析和线性判别分析。

关键词:特征选择,特征提取,主成分分析,线性判别分析1.引言模式识别的主要任务是利用从样本中提取的特征,并将样本划分为相应的模式类别,获得好的分类性能。

而分类方法与分类器设计,都是在d(变量统一用斜体)维特征空间已经确定的前提下进行的。

因此讨论的分类器设计问题是一个选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域的问题。

对分类器设计方法的研究固然重要,但如何确定合适的特征空间是设计模式识别系统另一个十分重要,甚至更为关键的问题。

如果所选用的特征空间能使同类物体分布具有紧致性,即各类样本能分布在该特征空间中彼此分割开的区域内,这就为分类器设计成功提供良好的基础。

反之,如果不同类别的样本在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性。

本文要讨论的问题就是特征空间如何设计的问题。

基于主成分分析的特征选择算法的思想是建立在这样的基础上的:主成分分析方法将原始特征通过线性变换映射到新的低维空间时,获得的主成分是去了新的物理意义,难以理解,并且主成分是所有原始特征的线性组合。

所以将主成分分析与特征选择相结合,设计多种相似性度量准则,通过找到与主成分相关的关键特征或者删除冗余、不相关以及没有意义的特征,将主成分又重新映射到原始空间,来理解成主成分的实际意义。

模式识别特征的选择和提取

模式识别特征的选择和提取

1. 模式最优表示特征的提取 假定有一n维向量x,希望能用m(< n) 个向量的线性组合来近似x,这m个向量来自 一组标准正交基{uj,j = 1,2,…,n}。 即把x近似表示为前m个基的组合:
~ x
= y1u1 + y2u2 + … + ymum
式中 yj = ujT x
写成矩阵形式, ~ x = Um y ( n × m,m × 1 ) → n × 1 y = UmT x ( m × n,n × 1 ) → m × 1
模式特征的产生过程一般包括以下步骤:
1.原始特征的形成:用仪表或传感器测量 出来的一些特征量,或通过计算得到的一些 特征(对波形和图象),称为原始特征、原 始测量或一次特征。
2.特征提取:原始特征的数量可能很 大,需要通过变换(映射)把高维特征空间 降到低维空间,这时的特征叫二次特征,它 们一般是原始特征的某种组合。 通过变换A: X Y,
下面的分析说明确实是这样。假定e是 Gi的标准特征向量,那么相应特征值λ 可以 表示为 c 1 T T T ( e R e ( 1 e R k e) λ = e Gie = i
c
k 1 k i
由于λ max≤1和相关矩阵的半正定性质, ∴上式括号中每一个二次项的特征值在0~1 之间,∴ 0≤λ ≤1。 而且λ 接近于1时要求eTRie→1,而 eTRke(k≠i)却→0,
和前面一样,令{uj,j = 1,2,…,n} 是观测空间的标准正交基。另x是任一观测 向量,x~是它的截尾表示形式, x~ = y1u1 + y2u2 + … + ymum 对于第i类,我们选择一组uj,它能使 第i类的均方误差最小, εi = Ei[|x-x~|2] =

模式识别讲义-特征提取和特征选择

模式识别讲义-特征提取和特征选择

完全可分:若p(x|ω1) ≠0时, p(x|ω2)=0;
完全不可分:对任意x,都有 p(x|ω1) = p(x|ω2);
二、距离
(2)概率距离
若任何函数Jp g[ p(x | 1), p(x | 2), P1, P2]dx满足以下条件:
a、Jp 0; b、当两类完全可分时 Jp取得最大值; c、当两类完全不可分是 Jp为0;
总错误率P(e) P(x R2 1) P(x R3 1) ... P(x RM 1)P(1) P(x R1 2 ) P(x R3 2 ) ... P(x RM 2 )P(2 ) ... P(x R1 M ) P(x R2 M ) ... P(x RM 1 M )P(M )
X
p(x | j)
Xp(x | i)来自 [ p(x | i) p(x | j)]ln p(x | i) dx
X
p(x | j)
三、特征提取算法
1、使用类内类间距离进行特征提取类内类间距离
Jd=Jw+Jb=tr(Sw+Sb)
其中Jw是类内平均距离,Jb是类间平均距离 通常给定一个训练集后,Jd是固定的,因此,在特征
模式识别 第八讲 特征选择与特征提取
回顾:
贝叶斯分类的原理 最小错误率贝叶斯分类 最小风险贝叶斯分类 最大似然比贝叶斯分类 正态分布情况下的贝叶斯分类
分类器的错误率
1、分类器的错误率
•错误率是评价一个分类器的重要指标 •错误率受分类决策方法、训练集、测试集和偶然因 素的影响 •分类错误是一个概率事件,错误率应由概率方式表 达
各特征向量之间的距离 的平均值,称为类内类 间距离:
c

模式识别(7-2)特征的选择与提取

模式识别(7-2)特征的选择与提取


5 4
,

54
试用K-L变换作一维数据压缩。
思路:1)求总体均值向量;2)求产生矩阵ψ ; 3)求产生矩阵的特征值λi 及特征向量 i ;
4)按λi排序,确定变换矩阵W; 5)利用 y W T x 求新的一维样本。
K-L变换的一些典型应用
上面我们从数学的角度分析了K-L变换的 性质。归结起来,它消除了各分量之间的 相关性,因而用它来描述事物时,可以减 少描述量的冗余性,做到用最经济有效的 方法描述事物。下面结合一些应用实例来 说明如何运用K-L变换的这一性质。
但是由于它的正交基函数族是从训练样本集中计算出 来的,因此并不存在一种对任何数据都适用的K-L变 换基,一般的作法是先用一组训练数据计算出K-L变 换基,然后用这组基来分析其它数据。
K-L变换的性质
K-L变换的性质
K-L变换的性质
K-L变换的产生矩阵
当样本所属类别未知时:
x的相关函数矩阵 x的协方差矩阵
§7.3 基于K-L展开式的特征提取
图6-3b
图6-3(b)中的向量A与B在一个二维空间定义,它们两者分别含有成 分为(a1,a2)与(b1,b2),a1与b1是两者的同一种成分,a2与b2则是 另一种成分。故它们的点积定义为a1b1+a2b2,在这种条件下就不 需要积分,而只是简单求和。
§7.3 基于K-L展开式的特征提取
K-L变换的一些典型应用
4.人脸图象合成
用K-L变换构造参数模型的另一种典型用途是人 脸图象合成。从下面的例子中可以看出,有目 的地控制各个分量的比例,也就是通过调整参 数向量。可以将一幅不带表情图象改变成带各 种表情的图象,称为人脸表情图象合成。
为了对复杂事物进行经济有效的描述,我们希望将其分解 成相互独立的成分,譬如我们分析其快速变化的成分时, 就希望它只不再混杂其它成分。

特征的提取和选择

特征的提取和选择

特征的提取和选择
特征提取和选择是机器学习中非常重要的环节,它既可以减少计算量,又可以提高模型的性能。

选择较好的特征可以让模型更加简单,更加容易
和快速的训练出最佳参数,从而使得模型更加精确、效果更好。

一般来说,特征提取和选择有以下几步:
1.特征提取。

特征提取关注的是利用现有特征生成新的特征。

它可以
是特征融合(如结合多个特征生成更强大的特征),也可以是特征变换
(如离散特征变换成连续特征)。

2.无关特征删除。

把没有帮助的特征删除,有助于减少模型的运行时间,提高模型的效果。

3.有关特征选择。

把与目标值有很强关联的特征选择出来,这些特征
被称为有关特征,它们可以帮助模型训练出更好的结果。

4.特征降维。

为了减少特征之间的相关性,减少计算量,与有关特征
相关性比较低的特征可以被删除。

5.特征加权。

调整特征的权重,使得有关特征拥有更大的影响力,从
而帮助模型更好的进行预测。

通过这种特征提取和选择的过程,可以把训练集中拥有相关性比较高
的有用特征保留下来,把没用的特征抛弃,有效的提高模型的性能。

特征选择和特征提取

特征选择和特征提取
细胞自动识别:
原始测量:(正常与异常)细胞的数字图像 原始特征(特征的形成,找到一组代表细胞性质
的特征):细胞面积,胞核面积,形状系数,光 密度,核内纹理,核浆比
压缩特征:原始特征的维数仍很高,需压缩以便 于分类
• 特征选择:挑选最有分类信息的特征 • 特征提取:数学变换
– 傅立叶变换或小波变换 – 用PCA方法作特征压缩
– 特征值
对于一个N N的矩阵A,有N个标量k,k 1, N,满足 A k I 0 k 称为矩阵的一组特征值。
如果给定的矩阵是奇异的,那么N个特征值中至
少有一个为0。
矩阵的秩
定义为矩阵非零特征值的个数。
矩阵的条件数 定义为最大特征值与最小特征值
的比值的绝对值。
病态矩阵
条件数很大。
jd1
jd1

因为uj是确定性向量,所以有


u T jE x xT uj u T jR uj
j d 1
j d 1
R r ij E (x ix j) E x x T
求解最小均方误差正交基
特征 提取
用Lagrange乘子法,可以求出满足正交条件下的ε 取极值时 的坐标系统:
特征形成 (acquisition): 信号获取或测量→原始测量 原始特征
实例: 数字图象中的各像素灰度值 人体的各种生理指标
原始特征分析: 原始测量很大程度上不能反映对象本质
高维原始特征不利于分类器设计:计算量大, 冗余,样本分布十分稀疏。
二、特征的选择与提取
两类提取有效信息、压缩特征空间的方法: 特征提取和特征选择
PCA的求解:特征向量常被叫做“主分量”,每个样 本被它在前几个主分量上的投影近似表示,U张成的空 间称为原空间的子空间,PCA实际上就是在子空间上的 投影.

模式识别7-特征选择和提取

模式识别7-特征选择和提取
为一般来说,原来的n个数据各自在不同程度上反映
了识别对象的某些特征,简单地删去某些特征可能会
丢失较多的有用信息。
• 如果将原来的特征做正交变换,获得的每个数据都是
原来n个数据的线性组合,然后从新的数据中选出少
数几个,使其尽可能多地反映各类模式之间的差异,
而这些特征间又尽可能相互独立,则比单纯的选择方
➢遗传算法
单独最优特征组合
特征
选择
计算各特征单独使用时的可分性判据J并加
以排队,取前d个作为选择结果
不一定是最优结果
当可分性判据对各特征具有(广义)可加性,
该方法可以选出一组最优的特征来,例:
➢各类具有正态分布
➢各特征统计独立
➢可分性判据基于Mahalanobis距离
d
J ij ( x1 , x2 ,..., xd ) J ij ( xk ) J D (x) (μi μ j )T 1(μi μ j )
k 1
顺序前进法
特征
选择
自下而上搜索方法。
每次从未入选的特征中选择一个特征,使得
它与已入选的特征组合在一起时所得的J值
为最大,直至特征数增加到d为止。
该方法考虑了所选特征与已入选特征之间的
相关性。
顺序后退法
特征
选择
该方法根据特征子集的分类表现来选择特征
搜索特征子集:从全体特征开始,每次剔除
➢ 当特征独立时有可加性:
k 1
➢ 单调性:
J ij ( x1 , x2 ,..., xd ) J ij ( x1 , x2 ,..., xd , xd 1 )
常见类别可分离性判据:基于距离、概率分布、熵
函数

模式识别(7-1)特征的选择与提取

模式识别(7-1)特征的选择与提取
细胞自动识别:
原始测量:(正常与异常)细胞的数字图像
原始特征(特征的形成,找到一组代表细胞性质的 特征):细胞面积,胞核面积,形状系数,光密度, 核内纹理,和浆比
压缩特征:原始特征的维数仍很高,需压缩以便于 分类
特征选择:挑选最有分类信息的特征 特征提取:数学变换
傅立叶变换或小波变换 用PCA方法作特征压缩
基于距离的可分性判据
计算所有样本平均距离作为判据 Jd (x) tr(Sw Sb )
其中“tr”表示矩阵的迹(对角线元素的和)。
各类特征向量之间的平均距离可写成:
1
Jd (x) 2
c
Pi
i 1
c
Pj
j 1
1 nin j
ni n j
(xk(i) , xl( j) )
k 1 l 1
其中Pi、Pj 分别表示各类的先验概率,ni、nj分别是第i与j
基于距离的可分性判据
如果推广至c类别情况,同时考虑各类的先验概率Pi 不等,则可将上列各式表示成:
c
Sb = Pi(mi m)(mi m)T i 1 c
Sw = PiEi[(mi m)(mi m)T ] i 1
其中, m 为总均值向量,Pi表示各类别的先验
概率,Ei表示i类的期望符号。
基于距离的可分性判据
Fisher准则时曾用过两个描述离散度的矩阵。一个 是类间离散矩阵Sb
Sb = (m1 - m2 )(m1 - m2 )T
另一个是类内离散度矩阵SW
Si = (x - mi )(x - mi )T , xX i
Sw = S1 + S2
i 1, 2
以上式子是针对两类别情况的,如果推广至c 类别情况?
)T (x(ki)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(1)用一定数量的样本估计出来的参数 设计Bayes分类器时,随着维数的增加 要求样本数急剧增加,这样才能保证一 定的错误率.
可编辑ppt
6
1 概述
模式特征的提取与选择
(2)在用线性判别函数来划分模式空间 时,一般要用一组样本来决定划分区域 的超平面.当增加维数时,样本数应有更 多的增加才能保持原有的超平面容度.
基于几何距离的可分性判据
J1=Tr[Sw-1SB] J2=Tr[SB]/Tr[Sw] J3=Tr[Sw-1ST] J4=|ST|/|SW|=|Sw-1ST|
上述各种判据存在关联性,其中一些 判据如J1,J4具有非奇异线性变换不变 性.它们本质相似,但性能可能不同.
可编辑ppt
15
2 类别可分性判据
可编辑ppt
10
1 概述
几个基本概念
模式特征的提取与选择
特征选择:
从一组特征中挑选出一些最有效的特 征以达到降低特征空间维数的目的,这 个过程叫特征选择.
有时特征提取和选择并不是截然分开 的,在具体的模式识别问题中也可以 结合使用。
可编辑ppt
11
2 类别可分性判据
模式特征的提取与选择
把一个高维空间变换为低维空间的映 射有很多,哪种映射对分类最有利, 需要一个比较标准,即类别可分性判 据,这些判据应能反映各类在特征空 间中的分布情况,应能刻画各特征分 量在分类识别中的重要性或贡献。
形或数字图像时),也可以是用仪表或
传感器测量出来的(当识别对象是实物
或某过程时),这样产生出来的特征叫
做原始测量(一次测量),原始测量的直
接结果或间接结果称为原始特征.
可编辑ppt
9
1 概述
几个基本概念
模式特征的提取与选择
特征提取:
原始特征的数量可能很大,或者说样本 是处于一个高维空间中,通过映射(或 变换)的方法可以用低维空间来表示样 本,这个过程叫特征提取.映射后的特 征叫二次特征,它们是原始特征的某种 组合.变换A:Y→X称为特征提取器.
Sw*=WTSwW SB*=WTSBW
3
1 概述
模式特征的提取与选择
虽然特征的提取和选择在模式识别中 占有重要地位,但迄今没有一般方法,大 多数的方法都是面向问题的.对于不同 的模式识别问题可以 有不同的特征提
取和选择方法,而且即使对于同一模式 识别问题往往也可能用不同方法,所以 要对这些方法作一般的评价是困难的.
可编辑ppt
4
1 概述
以分类器的错误概率做为标准有难度.
可编辑ppt
12
2 类别可分性判据
模式特征的提取与选择
类别可分性判据应满足的几个要求:
与错误概率(或其界限)有单调关系, 使判据取最值时,错误概率也较小.
当特征相互独立时,判据具有可加性. 判据须有度量特性(非负性,对称性). 自身有单调性(加入新特征时,判据不 减小).
模式特征的提取与选择
模式特征并非提取得越多越好.在实际 工作中,往往会发现当特征的数目达到 某个限度后,不但不能改善分类器的性 能,反而会使它的工作恶化.其原因在于 用以设计分类器的样本数目是有限的. 为了使模式识别的结果满意,在增加特 征的同时,必须增加供学习的样本数量.
可编辑ppt
5
1 概述
模式特征的提取与选择
2
1 概述
模式特征的提取与选择
在实际问题中,常常不容易找到那些 最重要的特征,或受条件限制不能对 它们进行测量,这就使特征选择和提 取的任务复杂化而成为构造模式识别 系统最困难的任务之一。
特征提取和选择的基本任务是如何从
许多特征中找出那些最易得且有效的
特征,从而实现特征空间维数的压缩.
可编辑ppt
可编辑ppt
13
2 类别可分性判据
模式特征的提取与选择
基于几何距离的可分性判据
点与点的距离
点到点集的距离
类内距离(类内均方欧氏距离d2)
类内离差矩阵Sw(d2=Tr[Sw]) 两类之间的距离
各类间的总均方距离
总的类内类间及总体离差矩阵
ST=Sw+ ST
可编辑ppt
14
2 类别可分性判据
模式特征的提取与选择
可编辑ppt
7
1 概述
模式特征的提取与选择
(3)在邻近法与集群分析中,经常应用的 是群内离散度矩阵Sw,为了使用行列式 准则,离散度矩阵必须是非奇异的,这 就 要求样本数与群数之差应远大于维数.
可编辑ppt
8
1 概述
几个基本概念
模式特征的提取与选择
特征形成:
根据被识别的对象产生一组基本特征,
它可以是计算出来的(当识别对象是波
判据举例
Bhattacharyya判据
JB=-lnS[p(x|w1)p(x|w2)]1/2dx Chernoff判据
JC=-lnSp(x|w1)sp(x|w2)1-sdx 散度(总的平均可分性信息)
JD=I12(x)+I21(x)
可编辑ppt
17
2 类别可分性判据
模式特征的提取与选择
基于类概率密度函数的可分性判据
JHs=Ex[Hs(p1,p2,…,pc)]
Hs=(21-s-1)[S(pis)-1] pi=p(wi|x)
可编辑ppt
19
模式特征的提取与选择
3 基于可分性判据进行变换的特征提取
基于离差矩阵的特征提取
Sw和SB分别为原始特征空间中类内和类 间离差矩阵,Sw*和SB*分别为变换特征空 间中类内与类间离差矩阵
模式特征的提取与选择可编辑ppt源自1模式特征的提取与选择
在一个较完善的模式识别系统中,或 者明显地或者隐含地要有特征提取与 选择技术环节,通常其处于对象特征 数据采集和分类识别两个环节之间, 特征提取与选择方法(或质量)的优 劣极大地影响着分类器的设计和性能, 它是模式识别的核心问题之一。
可编辑ppt
I12(x)=E1{ln[p(x|w1)/p(x|w2)]} I21(x)=E2{ln[p(x|w2)/p(x|w1)]}
可编辑ppt
18
2 类别可分性判据
模式特征的提取与选择
基于后验概率的可分性判据
原理:选择使后验熵最小的那些特征 用于分类识别。
JH=Ex[-Sp(wi|x)logp(wi|x)]
模式特征的提取与选择
基于类概率密度函数的可分性判据
基本原则 Jp非负. 当 两 类 概 率 密 度 函 数 完 全 不 重 叠 时,Jp趋于无穷大. 当两类概率密度函数完全重合时,Jp 为零. 相对于两个概率密度具有对称性.
可编辑ppt
16
2 类别可分性判据
模式特征的提取与选择
基于类概率密度函数的可分性判据
相关文档
最新文档