模式识别课件--特征提取_KL变换

合集下载

模式识别51主成分分析和KL变换

模式识别51主成分分析和KL变换

4
7
8
X12, X22, X38, X44
1
13
1
5
计算样本均值M和协方差矩阵S以及
S的特征值和特征向量.
M

1 n
n i 1
Xi
S 1 BBT n 1
SXX
Syntax C = cov(X) AlgorithmThe algorithm for cov is [n,p] = size(X); X = X - ones(n,1) * mean(X); Y = X'*X/(n-1); See Also
-4
-2
0
2
4
-4
-2
0
2
4
二维数据
4
2
0
-2
-4
-4
-2
0
2
4
进一步解释PCA
• 当坐标轴和椭圆的长短轴平行,那么代表长轴 的变量就描述了数据的主要变化,而代表短轴 的变量就描述了数据的次要变化。
• 但是,坐标轴通常并不和椭圆的长短轴平行。 因此,需要寻找椭圆的长短轴,并进行变换, 使得新变量和椭圆的长短轴平行。
3.1 PCA: 二维数据分析
• 例中的的数据点是六维的;也就是说,每个观测值 是6维空间中的一个点。我们希望把6维空间用低维 空间表示。
单科平均 成绩
74.1
74
平均成绩
73.7 69.8 61.3 72.5 77.2 72.3 63 72.3 70
70 66.4 73.6 63.3
100
data
= [ a1,a2……an] T [λ 1a1, λ2a2……λnan]
=
为对角矩阵,对角线元素为λ 1, λ2……λn

模式识别 基于K-L变换的特征提取

模式识别 基于K-L变换的特征提取
试用K-L变换作一维的数据降维。 解:1、求样本总体均值向量
1 ⎡⎛ −5 ⎞ ⎛ −5 ⎞ m = ⎢⎜ ⎟ + ⎜ ⎟ + 10 ⎣⎝ −5 ⎠ ⎝ −4 ⎠
⎛ 4 ⎞⎤ ⎛ 0 ⎞ + ⎜ ⎟⎥ = ⎜ ⎟ ⎝ 5 ⎠⎦ ⎝ 0 ⎠
无需作坐标系平移。 2、求自相关矩阵
1 ⎡⎛ −5 ⎞ R = ⎢ ⎜ ⎟ ( −5 − 5 ) + 10 ⎣⎝ −5 ⎠
二、离散K-L展开式
x 假设 x 为 n 维的随机向量, 可以用 n 个正交基向量的加权和来
表示:
x = ∑ α iϕi
i =1
n
α ϕ 式中,i 为加权系数;i 为正交基向量,满足
⎧1 当 i = j ϕ ϕj = ⎨ ⎩0 当 i ≠ j
T i
将 x 用矩阵形式表示为
x = (ϕ1 ,ϕ 2 ,
3、求出 R的本征值λ1 , λ2 , , λn及其对应的本征向 量 ; λ1 ≥ λ2 ≥ ≥ λm ≥ ≥ λn 4、将本征值按从大到小排序,如
ϕ1 ,ϕ2 , ,ϕ n

取前 m 个大的本征值所对应的本征向量构成变换矩阵
A = (ϕ1 ,ϕ 2 ,
,ϕm )

5、将 n 维的原向量变换成 m 维的新向量
所以
b j = E{α j }
如果在K-L变换前,将模式总体的均值向量作为新坐标系的 原点,即在新坐标系中 E[ x] = 0 则有
b j = E[α j ] = E[ϕ T x] = ϕ T E[ x] = 0 j j
此时均方误差变为
ε =
2
j = m +1

n
n
E[α ] =

《模式识别》实验报告K-L变换特征提取

《模式识别》实验报告K-L变换特征提取

《模式识别》实验报告K-L变换特征提取基于K-L 变换的iris 数据分类⼀、实验原理K-L 变换是⼀种基于⽬标统计特性的最佳正交变换。

它具有⼀些优良的性质:即变换后产⽣的新的分量正交或者不相关;以部分新的分量表⽰原⽮量均⽅误差最⼩;变换后的⽮量更趋确定,能量更集中。

这⼀⽅法的⽬的是寻找任意统计分布的数据集合之主要分量的⼦集。

设n 维⽮量12,,,Tn x x x =x ,其均值⽮量E=µx ,协⽅差阵()T x E=--C x u)(x u ,此协⽅差阵为对称正定阵,则经过正交分解克表⽰为x =TC U ΛU ,其中12,,,[]n diag λλλ=Λ,12,,,n u u u =U 为对应特征值的特征向量组成的变换阵,且满⾜1T-=UU。

变换阵TU 为旋转矩阵,再此变换阵下x 变换为()T -=x u y U ,在新的正交基空间中,相应的协⽅差阵12[,,,]xn diag λλλ==x U C U C。

通过略去对应于若⼲较⼩特征值的特征向量来给y 降维然后进⾏处理。

通常情况下特征值幅度差别很⼤,忽略⼀些较⼩的值并不会引起⼤的误差。

对经过K-L 变换后的特征向量按最⼩错误率bayes 决策和BP 神经⽹络⽅法进⾏分类。

⼆、实验步骤(1)计算样本向量的均值E =µx 和协⽅差阵()T xE ??=--C x u)(x u5.8433 3.0573 3.7580 1.1993??=µ,0.68570.0424 1.27430.51630.04240.189980.32970.12161.27430.3297 3.1163 1.29560.51630.12161.29560.5810x----=--C (2)计算协⽅差阵xC 的特征值和特征向量,则4.2282 , 0.24267 , 0.07821 , 0.023835[]diag =Λ-0.3614 -0.6566 0.5820 0.3155 0.0845 -0.7302 -0.5979 -0.3197 -0.8567 0.1734 -0.0762 -0.4798 -0.3583 0.0755 -0.5458 0.7537??=U从上⾯的计算可以看到协⽅差阵特征值0.023835和0.07821相对于0.24267和4.2282很⼩,并经计算个特征值对误差影响所占⽐重分别为92.462%、5.3066%、1.7103%和0.52122%,因此可以去掉k=1~2个最⼩的特征值,得到新的变换阵12,,,newn k u u u -=U。

第九章 基于K-L展开式的特征提取ppt课件

第九章 基于K-L展开式的特征提取ppt课件
第九章 基于K-L展开式的特征提 取
回顾:

两类提取有效信息、压缩特征空间的方法:


特征提取 (extraction):用映射(或变换)的方法把 原始特征变换为较少的新特征 特征选择(selection) :从原始特征中挑选出一些最 有代表性,分类性能最好的特征

常见类别可分离性判据:
- 基于距离的可分性判据 - 基于概率密度分布的判据
9.3 基于K-L展开式的特征提取

K-L变换,是一种常用的正交变换,K-L变换 常用来作为数据压缩,这里我们用它作降维。
学习这一节主要要掌握以下几个问题:



1.什么是正交变换; 2.K-L变换是一种最佳的正交变换,要弄清是 什么意义的最佳,也就是说它最佳的定义; 3.K-L变换的性质; 4.K-L变换的重要应用。
§9.3 基于K-L展开式的特征提取

正交变换概念

变换是一种工具,它的用途归根结底是用来描述事物, 特别是描述信号用的。例如我们看到一个复杂的时序信 号,希望能够对它进行描述。描述事物的基本方法之一 是将复杂的事物化成简单事物的组合, 或对其进行分解, 分析其组成的成分。 例如对一波形,我们希望知道它是快速变化的(高频), 还是缓慢变化的(低频),或是一成不变的(常量)。如果它 既有快速变化的成分,又有缓慢变化的成分,又有常量 部分,那么我们往往希望将它的成分析取出来。这时我 们就要用到变换。
§9.3 基于K-L展开式的特征提取
图6-3b
图6-3(b)中的向量A与B在一个二维空间定义,它们两者分别含有成 分为(a1,a2)与(b1,b2),a1与b1是两者的同一种成分,a2与b2则是 另一种成分。故它们的点积定义为a1b1+a2b2,在这种条件下就不 需要积分,而只是简单求和。

4-模式识别原理-第5章--特征选择与提取PPT课件

4-模式识别原理-第5章--特征选择与提取PPT课件

(3)错误率分析中,两类概率密度曲线交叠越少,错误率越小。
p(x | i )P(i )
p(x | 2 )P(2 )
p(x | 1 )P(1 )
1 P(2 )P2 (e)
2 P(1 )P1 (e)
0 R1
x R2
由散度的定义式 JijIijIjiX [p (Xi)p (Xj)l]n p p ((X Xij))d X
-
1
第5章 特征选择与特征提取
5.1 基本概念 5.2 类别可分性测度 5.3 基于类内散布矩阵的单类模式特征提取 5.4 基于K-L变换的多类模式特征提取
-
2
5.1 基本概念
1.两种数据测量情况
① 由于测量上可实现性的限制或经济上的考虑,所获得的测量 值为数不多。 ② 能获得的性质测量值很多。如果全部直接作为分类特征,耗 费机时,且分类效果不一定好。有人称之为“特征维数灾难”。
的一个非零解。
Cuk k uk
uk 是 n 维向量,可表示为 uk [uk1, uk 2 ,, ukn]T 。
若 uk 为归一化特征向量,根据实对称矩阵的性质,有
uiTuj
1, 0,
j i j i
—— n个特征向量相互正交。
若选n个归一化特征向量作为A的行,则A为归一化正交矩阵:
A
u u
T 1
(5)可加性表明,加入新的特征,不会使散度减小。即 J i( j x 1 ,x 2 , ,x n ) J i( j x 1 ,x 2 , ,x n ,x n 1 )
3)两个正态分布模式类的散度
设ωi类和ωj 类的概率密度函数分别为
p(Xi)~N(Mi,C)
p(Xj)~N(M - j,C)
18

基于KL展开式的特征提取(精选)PPT21页

基于KL展开式的特征提取(精选)PPT21页
44、卓越的人一大优点是:在不利与艰 难的遭遇里百折不饶。——基于KL展开式的特征提取(精选)
56、极端的法规,就是极端的不公。 ——西 塞罗 57、法律一旦成为人们的需要,人们 就不再 配享受 自由了 。—— 毕达哥 拉斯 58、法律规定的惩罚不是为了私人的 利益, 而是为 了公共 的利益 ;一部 分靠有 害的强 制,一 部分靠 榜样的 效力。 ——格 老秀斯 59、假如没有法律他们会更快乐的话 ,那么 法律作 为一件 无用之 物自己 就会消 灭。— —洛克
60、人民的幸福是至高无个的法。— —西塞 罗
41、学问是异常珍贵的东西,从任何源泉吸 收都不可耻。——阿卜·日·法拉兹
42、只有在人群中间,才能认识自 己。——德国
43、重复别人所说的话,只需要教育; 而要挑战别人所说的话,则需要头脑。—— 玛丽·佩蒂博恩·普尔

9模式识别第-第九章 K-L变换特征提取

9模式识别第-第九章 K-L变换特征提取

(4)协方差矩阵已知
2、每次使用一个类别样本集合来建立K-L坐 标系,
该K-L变换常用于信息压缩,很少用于分类。
一组具有零均值的样本: 例:
x 1 (1,1) T , x 2 ( 2 , 2 ) T , x 3 ( 1, 1) T , x 4 ( 2 , 2 ) T
n 1
为x(t)的 K-L 展开,其逆过程为K-L变换。 其中n是为使得自相关系数单位化引入的实或 复的系数

计算相关函数
* * * R (, ts ) Ext [ () x( s ) ] E x () t s ) n n n kx k k( k n
9.4 K-L坐标系的生成
数据集合{x}的K-L坐标系是由二阶统计量来 确定的。可以使用以下几种方法来生成 K-L 坐标系: 样本所属类别未知时: 1、可以使用样本的自相关矩阵 Ψ E[xxT ] 2、对于无类别标签的样本集,均值向量无意 义,也常使用协方差矩阵 T Σ E [ ( x μ ) ( x μ )]
反 之 , 为 了 使 xn和 xm互 不 相 关 , 随 机 过 程 必 须 是 周 期 性 的 。
9.2 K-L展开
非周期随机过程: 正弦函数族不能使其傅立叶系数不相关,但是 可以寻找一个新的正交函数族ϕn(t),使得其变 换系数互不相关 。 K-L变换定义

假设一个非周期随机过程,在区间[a, b]展开式为
第9章 基于K-L变换特征提取
线性变换法特征提取
9.1 傅立叶级数展开式

周期随机过程的傅立叶级数(三角级数)
x (t )
n


x n exp( jn 0 t )

KL变换

KL变换
模拟退火法 Tabu搜索法 遗传算法
单独最优特征组合
计算各特征单独使用时的可分性判据J并加 以排队,取前d个作为选择结果 不一定是最优结果 当可分性判据对各特征具有(广义)可加性, 该方法可以选出一组最优的特征来,例:
各类具有正态分布 各特征统计独立 可分性判据基于Mahalanobis距离
特征 选择
j
E y y = E U x x U T = U RU = Λ
T T T
K-L变换的性质 变换的性质
特征 提取
K-L坐标系把矩阵R对角化,即通过K-L R 变换消除原有向量x的各分量间的相关 性,从而有可能去掉那些带有较少信息 的分量以达到降低特征维数的目的
λ1 Λ = 0
ε =
j = d +1


u Tj E x x T u
j
=
j= d +1


u Tj R u
j
求解最小均方误差正交基
用Lagrange乘子法:
if R u
j ∞
特征 提取
= λ ju
j
th e n ε =
j= d +1

u Tj R u j 取 得 极 值
结论:以相关矩阵R的d个本征向量为 R 基向量来展开x时,其均方误差为: x
顺序后退法Sequential backw. 顺序后退法 selection
特征 选择
该方法根据特征子集的分类表现来选择特征 搜索特征子集:从全体特征开始,每次剔除 一个特征,使得所保留的特征集合有最大的 分类识别率 依次迭代,直至识别率开始下降为止 用“leave-one-out”方法估计平均识别率:用 N-1个样本判断余下一个的类别,N次取平均。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


求稳定点:
L 2Ru 2u 0 u
Ru u
稳定点有很多个,但都是R的特征向量。 uT Ru uT u 最小,则u 要使得 必须为R最小特征根对应的特征向量。


if Ru j j u j then

j d 1

uT Ru j取得极值 j
对新样本也作变换,看与哪个y最接近。 与实际比较确定是否识别正确,统计识别率。

Matlab相关的函数
读取图像的函数:I=imread(‘D:\a.jpg’); 提供自定义函数读取整个目录的图像: com_ReadDB。 求特征向量与特征根:[V,D] = eig(R);

作 业

需要利用奇异值分解定理。
1 St N
( xi m)( xi m)T
i 1
N
1 t t T , t ( x1 m, , xN m) N
根据奇异值分解定理(SVD) d N 维的矩阵 t 存在两个正交 , 矩阵 U 和 V ,使得 t U V T ,其中 U 和 V 的列向量分别是 t t T ( d d 维)和 t T t ( N N 维)的特征向量, 是相应的特征值


把新样本的类别归为距离最近的那个已知样本的类别。
可以拿每个人的前几幅图像作为已知的样本数据,后几 幅图像作为未知样本,统计识别率。
用PCA进行数据压缩

PCA (Principle Component Analysis)方法: 进行特征降维变换,不能完全地表示原有的对象,
能量总会有损失。希望找到一种能量最为集中的变
第9章 特征提取
— KL变换
人脸数据库 -- ORL

ORL数据库共有400幅人脸图像(40人,每人10幅, 大小为92*112象素)。 这个数据库比较规范,大多数图像的光照方向和强 度都差不多。 但有少许表情、姿势、伸缩的变化,眼睛对得不是 很准,尺度差异在10%左右。 并不是每个人都有所有的这些变化的图像,即有些 人姿势变化多一点,有些人表情变化多一点,有些 还戴有眼镜,但这些变化都并不大 。
Sw Pi i , i E (x μi )( x μi )T , x i
i 1 c

未知类别样本的K-L变换

用总体样本的协方差矩阵C=E[(x-μ) (x-μ)T] 进行K-L变换,K-L坐标系U=[u1,u2,...,ud]按照C的本征值的 下降次序选择。
1 组成的对角矩阵,并且有 U tV 。因为 St t t T d d , N
1 2
1 2
1 T t t N N 的特 N 征向量组成的矩阵 V 和相应的特征值 ,然后就可以根据 SVD 定理
而一般 d N , 所以我们就可以先求出矩阵 R
那些带有较少信息的分量以达到降低特征维数的目
的.
1 Λ 0 0 d
2

K-L变换图解
u2 x2 u1 x1
f ( x1 , x2 ,, xn ) rij xi x j
i , j 1 n
二次 曲线方程
x ' Rx y '(U ' RU) y y ' Λy y 2 y2 n yn


Yale第一个人的8幅图像
人脸数据库-FERET

Feret数据库比较庞大,原来的数据库共有7256幅人 脸图像(699人,每人若干幅,256*348)。 有较多背景,有些甚至是半身像,姿势光照也变化 得很厉害。 每个人都有不同的姿势,甚至是侧脸。 可以选取其中72个人,每人6幅的正脸图像,并截取 了脸部(92*112),对准眼睛,使得基本没有姿势 和伸缩变化,但是光照变化比较大,还有一些有表 情变化和遮掩。


ቤተ መጻሕፍቲ ባይዱ

其均方误差为:

j d 1

j

K-L变换:当取矩阵 R 的 d 个最大本征值对应的本 征向量来展开 x 时,其截断均方误差最小。 这 d 个本征向量组成的正交坐标系称作 x 所在的 D 维空间的 d 维 K-L 变换坐标系, x 在 K-L坐标系上

的展开系数向量 y 称作 x 的 K-L 变换。
计算 St 的特征向量 U ,这样就大大减少了计算量。
基于PCA的人脸识别方法
读取每个人的前5幅图像,构造矩阵 t 计算: R T t t 计算:[V,D] = eig(R); 1 计算: U VD 2 t


按特征值从大到小排序,选择前几个最大的特征值对 应的Ui作为变换矩阵W。 把所有训练样本做变换 y=Wtx,保留系数 y。
j 1

uT u j ij i
xy
yj u x
T j
离散K-L变换的均方误差

ˆ 用有限项估计x : x y j u j
j 1
d
y j uT x j
ˆ ˆ 该估计的均方误差: E (x x)T (x x)
2 T T E y j E u j xx u j j d 1 j d 1
变换矩阵,以及变换的公式。
实验:K-L变换实验

实验指导
9.5 7.5
19.5 例:设一样本集的协方差矩阵是:C 9.5
求最优2x1特征提取器U。
解:计算特征值及特征向量[V, D]=eig(C); 特征值D=[24.736, 2.263]T,特征向量: V 0.875 0.482 0.482 0.875 由于λ 1>λ 2,故最优2x1特征提取器 0.875
设正态分布的均值和协方差的估计为:
ˆ 1 ˆ ˆ ( xk k )( xk k )T n k 1
2 x3 6
4
1 n ˆ xk n k 1
2

n
3 ,现有四个二维的样本: x 3 , x 8 , 4
1
4 , x 6 ,现在要用 PCA 方法将其降为一维,求其
换方法使损失最小。

K-L (Karhunen-Loeve)变换:最优正交线性变换, 相应的特征提取方法被称为PCA方法。 一幅图像可以对其灰度值按行对成一列向量x。现在 设法用比较少的数据表示x。

K-L变换

离散 K-L 变换:对向量 x 用确定的完备正交归一向量系 uj 展开。
x y ju j
2 1 1 2
标准二次 曲线方程
x U y
2
Eigenface
K-L变换的产生矩阵

数据集 KN = {xi} 的K-L变换的产生矩阵:由数据的二阶统计 量决定,即K-L坐标系的基向量为某种基于数据 x 的二阶 统计量的产生矩阵的本征向量. K-L变换的产生矩阵可以有多种选择:
– x的相关函数矩阵 R=E[xxT] – x的协方差矩阵 C=E[(x-μ) (x-μ)T] – 样本总类内离散度矩阵:


FERET的原图像
FERET前两个人截取的正脸图像
人脸数据库-MIT
MIT数据库有960幅人脸图像(62人,每人 15幅,128*128)。 每个人都有15种姿势,基本没有光照变换。

MIT第一个人的图像
基于最近邻的识别方法

已有一些已知类别的样本(每个人都有若干幅图像)。 一般每个人像眼睛对齐,大小相同。 对一个新样本,对齐眼睛,裁减好大小,然后和数据库 中的每一个样本进行比较,比如计算每一个对应像素的灰 度值之差的平方和。



ORL第一个人的8幅图像
ORL第二个人的8幅图像
人脸数据库-Yale

Yale数据库比较小,共有165幅人脸图像(15 人,每人11幅,大小为128*128象素)。 都是正脸图像,每个人都由相同的若干种表 情,如高兴,悲伤,惊奇,胜利,闭眼,戴 眼镜等。
每个人都有两幅图像有光照变化,分别为左 侧光和右侧光。
U u1 0.482

此时的K-L变换式为:
x1 y U x u x 0.875 0.482 x2
T T
实验中遇到的问题

x的相关函数矩阵R=E[xxT]和协方差矩阵C=E[(x-μ)
(x-μ)T]都非常巨大。如果是128*128的图像,每个x 有16384维,那么R就有16384*16384那么大,如果一 个数据用8个字节,那么有这个R有20G!在Matlab 中无法表达。
R rij E( xi x j ) E xxT

j d 1


u E xx u j
T j T
j d 1


uTj Ru j


在约束条件:
u 1
uT u 1 0
求以下函数的最小值:
uT Ru
作Lagrange函数: L uT Ru (uT u 1)
K-L变换的表示

K-L变换的向量展开表示:
x y ju j
j 1 d
yj u x
T j

K-L变换的矩阵表示:
x [u1 , u2 ,..., ud ]y Uy
yU x
T
K-L变换的性质

K-L坐标系把矩阵 R 对角化,即通过 K-L 变换消除
原有向量 x 的各分量间的相关性,从而有可能去掉
相关文档
最新文档