第12章核主成分分析

合集下载

主成分分析

主成分分析

第十二章 主成分分析主成分分分析也称作主分量分析,是霍特林(Hotelling)在1933年首先提出。

主成分分析是利用降维的思想,在损失较少信息的前提下把多个指标转化为较少的综合指标。

转化生成的综合指标即称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分互不相关。

Stata 对主成分分析的主要内容包括:主成分估计、主成分分析的恰当性(包括负偏协方差矩阵和负偏相关系数矩阵、KMO(Kaiser-Meyer-Olkin)抽样充分性、复相关系数、共同度等指标测度)、主成分的旋转、预测、各种检验、碎石图、得分图、载荷图等。

p j ni b a y ij j i ij ,,2,1,,2,1,' ==+=ε主成分的模型表达式为:pp j i i i i diag v v v v i pV V C λλλλλλλ≥≥≥=∧=''==∧=∑ 2121),,,,(01其中,a 称为得分,b 称为载荷。

主成分分析主要的分析方法是对相关系数矩阵(或协方差矩阵)进行特征值分析。

Stata 中可以通过负偏相关系数矩阵、负相关系数平方和KMO 值对主成分分析的恰当性进行分析。

负偏相关系数矩阵即变量之间两两偏相关系数的负数。

非对角线元素则为负的偏相关系数。

如果变量之间存在较强的共性,则偏相关系数比较低。

因此,如果矩阵中偏相关系数较高的个数比较多,说明某一些变量与另外一些变量的相关性比较低,主成分模型可能不适用。

这时,主成分分析不能得到很好的数据约化效果。

Kaiser-Meyer-Olkin 抽样充分性测度也是用于测量变量之间相关关系的强弱的重要指标,是通过比较两个变量的相关系数与偏相关系数得到的。

KMO 介于0于1之间。

KMO 越高,表明变量的共性越强。

如果偏相关系数相对于相关系数比较高,则KMO 比较低,主成分分析不能起到很好的数据约化效果。

根据Kaiser (1974),一般的判断标准如下:0.00-0.49,不能接受(unacceptable );0.50-0.59,非常差(miserable );0.60-0.69,勉强接受(mediocre );0.70-0.79,可以接受(middling );0.80-0.89,比较好(meritorious );0.90-1.00,非常好(marvelous )。

主成分分析法及其应用PPT课件

主成分分析法及其应用PPT课件

x4 -0.34 0.644 0.07 1 0.383 0.069 -0.05 -0.031 0.073
x5 0.309 0.42 -0.74 0.383 1
0.734 0.672 0.098 0.747
x6 0.408 0.255 -0.755 0.069 0.734
1 0.658 0.222 0.707
演讲人:XXXXXX 时 间:XX年XX月XX日
荷的平方
三个主成分的
占方差的百分数
“占方差的百分
z1
z2
z3
(%)
数:各个主成分提 取了第i个指标的
x1
0.739
-0.532 -0.0061
82.918
“效率”之和, 它等于各个主成
x2
0.123
0.887 -0.0028
x3
-0.964 0.0096 0.0095
80.191 92.948
分在第i个指标上 的载荷的平方之
x 2:人 均耕地 面积
(ha)
0.352
2 141.5 1.684
3 100.7 1.067
4 143.74 1.336
5 131.41 1.623
x 3:森 林覆盖 率(%)
16.101
x 4:农 民人均 纯收入 (元/人)
192.11
x 5:人 均粮食 产量 (kg/
人)
295.34
x 6:经济 作物占农 作物播面 比例(%)
表3.5.1 相关系数矩阵
x1
x2
x3
x4
x5
x6
x7
x8
x9
x1
1 -0.327 -0.714 -0.336 0.309 0.408 0.79 0.156 0.744

现代统计分析方法与应用(人大何晓群)第12章主成分分析PPT课件

现代统计分析方法与应用(人大何晓群)第12章主成分分析PPT课件
第十二章 主成分分析
•§12.1 主成分分析的基本思想 •§12.2 主成分分析的几何意义 •§12.3 总体主成分及其性质 •§12.4 样本主成分的导出 •§12.5 主成分分析步骤及框图 •§12.6 主成分分析的应用
2020/9/29
中国人民大学六西格玛质量管理研究中心
11
目录 上页 下页 返回 结束
2020/9/29
中国人民大学六西格玛质量管理研究中心
44
目录 上页 下页 返回 结束

§12.1 主成分分析的基本思想
二、主成分分析的基本理论
X1,X2, ,XP
X1,X2, ,XP
2020/9/29
中国人民大学六西格玛质量管理研究中心
55
目录 上页 下页 返回 结束
§12.1 主成分分析的基本思想
中国人民大学六西格玛质量管理研究中心
1133
目录 上页 下页 返回 结束
§12.2 主成分分析的意义
2020/9/29
中国人民大学六西格玛质量管理研究中心
1144
目录 上页 下页 返回 结束
§12.2 主成分分析的意义
2020/9/29
中国人民大学六西格玛质量管理研究中心
1155
目录 上页 下页 返回 结束
2020/9/29
中国人民大学六西格玛质量管理研究中心
66
目录 上页 下页 返回 结束
§12.1 主成分分析的基本思想
X1,X2, ,XP X1,X2, ,XP
X1,X2, ,XP
2020/9/29
中国人民大学六西格玛质量管理研究中心
77
目录 上页 下页 返回 结束
§12.2 主成分分析的几何意义

(完整版)主成分分析法的步骤和原理.doc

(完整版)主成分分析法的步骤和原理.doc

(一)主成分分析法的基本思想主成分分析( Principal Component Analysis )是利用降 的思想,将多个 量 化 少数几个 合 量(即主成分) ,其中每个主成分都是原始 量的 性 合,各主成分之 互不相关, 从而 些主成分能 反映始 量的 大部分信息,且所含的信息互不重叠。

[2]采用 种方法可以克服 一的 指 不能真 反映公司的 情况的缺点,引 多方面的 指 , 但又将复 因素 几个主成分, 使得复 得以 化,同 得到更 科学、准确的 信息。

(二)主成分分析法代数模型假 用 p 个 量来描述研究 象,分 用 X 1, X 2⋯X p 来表示, p 个 量构成的 p 随机向量 X=(X 1,X 2⋯X p )t 。

随机向量 X 的均 μ, 方差矩 Σ。

X 行 性 化,考 原始 量的 性 合:Z 1=μ11 X 1+μ12 X 2+⋯μ 1p X p Z 2=μ21 X 1+μ22 X 2+⋯μ 2p X p ⋯⋯ ⋯⋯ ⋯⋯Z p =μp1 X 1+μp2 X 2+⋯μ pp X p主成分是不相关的 性 合 Z 1,Z 2⋯⋯ Z p ,并且 Z 1 是 X 1,X 2 ⋯X p 的 性 合中方差最大者, Z 2 是与 Z 1 不相关的 性 合中方差最大者,⋯, Z p 是与 Z 1, Z 2 ⋯⋯ Z p-1 都不相关的 性 合中方差最大者。

(三)主成分分析法基本步第一步: 估 本数 n , 取的 指 数 p , 由估 本的原始数据可得矩 X=(x ij ) m ×p ,其中 x ij 表示第 i 家上市公司的第 j 指 数据。

第二步: 了消除各 指 之 在量 化和数量 上的差 , 指 数据 行 准化,得到 准化矩 (系 自 生成) 。

第三步:根据 准化数据矩 建立 方差矩 R ,是反映 准化后的数据之 相关关系密切程度的 指 , 越大, 明有必要 数据 行主成分分析。

主成分分析法的原理应用及计算步骤-11页文档资料

主成分分析法的原理应用及计算步骤-11页文档资料

一、概述在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。

而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。

为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。

为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。

主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。

主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点:主成分个数远远少于原有变量的个数原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。

主成分能够反映原有变量的绝大部分信息因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。

主成分之间应该互不相关通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。

主成分具有命名解释性总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。

二、基本原理主成分分析是数学上对数据降维的一种方法。

其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP (比如p 个指标),重新组合成一组较少个数的互不相关的综合指标Fm 来代替原来指标。

那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp 所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。

主成分分析(principal component analysis)

主成分分析(principal component analysis)

一、主成分分析的思想主成分分析是数据处理中常用的降维方法。

我们需要处理的数据往往是高维数据,把它看成是由某个高维分布产生。

高维分布的不同维之间可能具有较强的相关性,这也就为数据降维提供了可能。

为了叙述清楚主成分分析的思想,我们通过二维数据进行叙述,即数据是由随机向量 (X_1,X_2) 产生,并假设X_1=X_2 。

通过该分布得到的样本点如图下所示:如果我们把每个数据点用 (x_1,x_2) 表示,那么,每个数据是二维的。

实际上,容易发现,我们只需要将坐标系进行旋转,旋转到红色坐标系位置,此时,每个数据点在新坐标系下的表示形式为为 (x_1^{'},0) ,由于每个数据点的第二维坐标都是 0 ,所以每个数据点只需要用一个数表示就行了,这样就把数据的维数从二维降到了一维。

接下来考虑不是完全线性关系,但是具有强相关性的情况,如下图所示:在这种情况下,我们不可能通过坐标系的平移与旋转,使所有点都落在一根轴上,即不可能精确地把数据用一维表示。

但是注意到 (X_1,X_2) 仍然有强相关性,我们仍然将坐标轴旋转到红色位置,可以看出,将数据在 x_1^{'} 上的投影近似代表原数据,几乎可以完全反映出原数据的分布。

直观看,如果要将数据投影到某根轴,并用投影来表示原数据,将数据压缩成一维,那么投影到 x_1^{'} 是最好的选择。

因为投影到这跟轴,相比于投影到其他轴,对原数据保留的信息量最多,损失最小。

如何衡量保留的信息量呢?在主成分分析中,我们用数据在该轴的投影的方差大小来衡量,即投影后方差越大(即投影点越分散),我们认为投影到该轴信息保留量最多。

从这种观点看,投影到 x_1^{'} 确实是最好的选择,因为投影到这根轴,可使得投影点最分散。

我们将数据的中心平移到原点(即新坐标轴的原点在数据的中心位置),为了消除单位的影响,我们将数据的方差归一化。

进一步考虑如下数据分布:根据上述,如果要将数据压缩为一维的,那么应该选择 F_1 轴进行投影,如果用该投影表示原数据的损失过大,我们可以再选择第二根轴进行投影,第二根轴应该与 F_1 垂直(保证在两根轴上的投影是不相关的)并且使得数据在该轴上投影方差最大,即图中的 F_2 轴(如果是二维情况,第一根轴确定后,第二根轴就确定了。

第十二章-matlab--因子分析

第十二章因子分析(大学虎统计)1, 引出因子分析的定义:作个比喻,对面来了一群女生,我们一眼就能够分辨出孰美孰丑,这是判别分析;并且我们的脑海中会迅速的将这群女生分为两类;美的一类,丑的一类,这是聚类分析。

我们之所以认为某个女孩漂亮,是因为她具有漂亮女孩所具有的一些共同点,比如漂亮的脸蛋,高挑的身材,白皙的皮肤,等等。

其实这种从研究对象中寻找公共因子的方法就是因子分析(Factor Analysis )。

因子分析也是利用降维的思想,把每一个原始变量分解成两部分,一部分是少数几个公共因子的线性组合,另一部分是该变量所独有的特殊因子,其中公共因子和特殊因子都是不可观测的隐变量,我们需要对公共因子作出具有实际意义的合理解释。

因子分析的思想源于1904年查尔斯,斯皮曼(charles spearman )对学生考试成绩的研究,目前因子分析已经在很多领域得到广泛应用。

本章主要容包括:因子分析的理论简介,因子分析的matlab 实现,因子分析具体案例。

12.1因子分析简介 12.11 基本因子分析模型设P 维总体'(,,...,)p x x x x =的均值为'12(,,...,)p μμμμ=协方差矩阵为()ij p pσ⨯=∑,相关系数矩阵为()ij p pR ρ⨯=。

因子分析的一般模型为111111221122211222221122.........m m m m p p p p pm m p x a f a f a f x a f a f a f x a f a f a f μεμεμε=+++++⎧⎪=+++++⎪⎨⎪⎪=+++++⎩(12.1)其中,12,,...,mf f f 为m 个公共因子,i ε是变量(1,2,...)i x i p =所独有的特殊因子他们都是不可观测的隐变量。

称(1,2,...;1,2,...,)ij a i p j m ==为变量ix 在公共公共因子jf 上的截荷,它反映了公共因子对变量的重要程度,对解释公共因子具有重要的作用。

主成分分析

第八章 主成分分析与因子分析一、 学习目的与要求主成分分析也称为主分量分析,是由霍特林于1933年首先提出的.主成分分析是利用降维的思想,在尽量少损失信息的前提下将多个指标转化为几个综合指标的应用统计方法.通常把转化生成的几个综合指标称为主成分,其中每个主成分都是原始变量的线性组合,它们不仅能综合反映原有指标的信息,而且使各个主成分之间互不相关,因此使得每个主成分比原始变量具有某些更优越的性能.这样在研究复杂问题时就可以只考虑少数几个主成分而不致于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量间的规律性,同时使问题得以简化,提高分析效率.本章主要讨论主成分分析及因子分析的基本思想和方法.学习本章要密切联系实际,着重理解主成分分析及因子分析的基本思想方法,了解主成分的性质,了解主成分分析和因子分析的求解方法、实现步骤及其异同.二、 内 容 提 要(一)主成分分析1.主成分分析的基本思想日常生活和科学研究中,人们为了更全面、准确地反映出事物的特征及其变化规律,往往需要考虑与其有关的多个指标,这些指标在应用统计中也称为变量.这样就产生了如下的问题:一方面为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性.同时由于各指标均是对同一事物的反映,不可避免的造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律.因此有必要在尽可能少丢失信息的前提下减少指标的个数(降维),即从所研究的多个指标中,求出几个新指标,它们能综合原有指标的信息,用这几个新指标进行分析仍应用统计方法学习指导能达到我们的目的.主成分分析正是研究如何通过原始变量的少数几个线性组合来解释原来变量绝大多数信息的一种统计方法.既然所研究问题涉及各个变量之间存在一定的相关性,就必然存在着起主导作用的共同因素.据此可通过对原始变量相关矩阵或协方差矩阵内部结构关系研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与化简问题的作用,使得在研究复杂问题时更容易抓住主要矛盾.总之,利用主成分分析得到的主成分与原始变量之间有如下基本关系:(1)每一个主成分都是某些原始变量的线性组合. (2)主成分的数目大大少于原始变量的数目. (3)主成分保留了原始变量绝大多数信息. (4)各主成分之间互不相关.通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系及统计规律.2.主成分分析的基本理论设某研究涉及个指标,分别用表示,这个指标构成的随机向量为.设随机向量m m x x x ,,,21"m ),,,(′=x x x X 21m "X 的均值为µ,协方差阵为.Σ对X 进行线性变换,可以形成新的综合变量,用Y 表示,即新的综合变量可以由原始变量线性表示如下:(8-1) ⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=mmm m m m mm mm x l x l x l y x l x l x l y x l x l x l y """""22112222121212121111由于可以任意地对原始变量进行线性变换,由不同的线性变换得到的新的综合变量Y 的统计特性也不尽相同.因此为了取得较好的效果,我们总是希望的方差尽可能的大且各之间不相关,由于X l i i y ′=i y i i i i D Dy l l X l Σ′=′=)(而对任意的常数,有c第八章 主成分分析与因子分析i i i i i c c c c D l l l l X l ΣΣ′=′=′2)(因此对不加限制时,可使任意增大,问题将变得没有意义.我们将线性变换约束在下面的原则下:i l i Dy (1),即 (2); 1=′i i l l 122221=+++im i i l l l "(2)与不相关,(i y j y m j i j i ,,2,1,;"=≠); (3)是的一切满足(1)的线性组合1y m x x x ,,,21"X l ′=y 中方差达最大者;是与不相关的的所有线性组合中方差达最大者;以此类推,是与均不相关的的所有线性组合中方差达最大者;2y 1y m x x x ,,,21"m y 121,,,−m y y y "m x x x ,,,21"基于以上三条原则决定的综合变量分别为原始变量的第一、第二、"、第m 个主成分.其中,各综合变量在总方差中占的比重依次递减.在实际应用中通常只挑选前几个方差较大的主成分,从而达到简化系统结构、抓住问题实质的目的.m y y y ,,,21"3.主成分分析的几何意义我们以两个指标为例说明主成分的直观意义.设有个样品,每个样品有两个指标,,其平面n 1x x 2数据散点图如图8-1所示,显然两指标存在相关关系.这n 个样品无论沿轴方向还是沿1x 2x 轴方向均有较大的分散性, 其分散程度可分别用变量的 1x 方差和的方差定量的表示,2x 显然,若只考虑和中的任 1x 2x 何一个,原始数据中的信息均会有较大的损失.我们的目的是考虑和的线性组合,使原始样品数据可有新的变量和来刻画.在几何上表示就是将坐标轴按逆时针方向旋转1x 2x 1y 2y θ角度,得到新坐标轴和,坐标旋转公式如下:1y 2y应用统计方法学习指导112212cos sin sin cos y x x y x x θθθθ=+⎧⎨=−+⎩其矩阵形式为:1122cos sin sin cos y x y x θθθθ⎡⎤⎡⎤⎡⎤==⎢⎥⎢⎥⎢⎥−⎣⎦⎣⎦⎣⎦UX 式中,U 为旋转变换矩阵,由上式可知它是正交的,即满足,1−′=U U ′=U U I 经过这样的旋转之后,n 个样品点在轴上的分散程度最大,变量代表了原始数据绝大部分信息,这样,即使不考虑变量也无损大局.因此,经过上述旋转变换就可以把原始数据的信息集中到轴上,对数据中包含的信息起到了浓缩的作用.进行主成分分析的目的就是找出旋转矩阵U ,进而求的新的综合指标,即可依据实际问题的具体情况选择主成分.1y 1y 2y 1y 4.主成分及其性质设为维随机向量,则),,,(21′=m x x x "X m X 的第1,2,…,主成分定义为m X l i i y ′=,1=′i i l l (m i ,,2,1"=), 它们满足(1)第一主成分是一切形如1y X l ′=y ,1=′l l 使的方差达极大者; y (2)第二主成分是一切形如2y X l ′=y ,1=′l l 且与不相关使的方差达极大者;1y y (3)第i 主成分是一切形如)(m i y i ≤X l ′=y ,1=′l l 且与不相关使的方差达极大者;121,,,−i y y y "y 由协方差矩阵求解主成分:设),,,(21′=m x x x "X 为m 维随机向量,协方差阵为,Σ的m 个特征值为Σ021≥≥≥≥m λλλ",相应的标准正交化特征向量为,则m l l l ,,",21X 的第i 主成分X l i ′=i y ,且i λ=i Dy (). m i ,,2,1"=充要条件:设Y 为维随机向量,m Y 的分量依此是m y y y ,,,21"X 的第一、第二、…、第主成分的充分必要条件为m第八章 主成分分析与因子分析(1)X T Y ′=,为正交阵;),,,(21m l l l T "=(2)Y 的协方差矩阵为对角阵),,,(21m diag λλλ"=Λ; (3)m λλλ≥≥≥"21.主成分的目的是为了减少变量的个数,因此一般不用个主成分,而是用个主成分,在应用中我们自然要考虑k 应取多大.为此,我们引入累计贡献率.m m k <累计贡献率:称为主成分的贡献率,为主成分的累计贡献率.∑=mj j i 1/λλi y ∑∑==mj j ki i 11/λλk y y y ,,,21"通常取使累计贡献率达70%~80%以上.累计贡献率表达了个主成分提取原来指标的多少信息,这需要用到下面的概念.k k m x x x ,,,21"因子负荷量:称jkj k j k Dx Dy x y x y ),(Cov ),(=ρ为因子负荷量;而称为主成分对原变量的贡献率.∑==ki j i j x y 12),(ρνk y y y ,,,21"j x 主成分具有如下性质:(1),其中∑∑===mi ii mi i 11σλm m ij ×=)(σΣ .(2)jj jk k j k t x y σλρ/),(=,其m m ×中ij t =)(T 阵.(3) .(4).(5)2=∑为充要条件中的正交jj jk ki i j t σλν/21∑==∑==mi k i k ii x y 12),(λρσ1),(1=mx y ρ.指出的是:为了消除不同量纲可能带来的影响,通常将变量标准化. k i k 需要令iii Dx Ex x x −=* ),,2,1(m i "=,应用统计方法学习指导这时的协方差阵就是),,,(**2*1*′=m x x x "X X 的相关阵,由相关阵出发去求主成分.R R 5.样本主成分上面讨论的主成分是在Σ(或R )已知的情况下,但在实际问题中(或)往往是未知的,这就需要用样本去估计.ΣR 设总体的组观察值为,.令),,,(21′=m x x x "X N ),,,(21′=im i i i x x x "X ),,2,1(N i "= ∑=−−−=Nl j lj i li ij x x x x N 1))((11σ, (8-2)jjii ij ij r σσσ=, (8-3)其中∑==Nl li i x Nx 11.则有样本协方差阵 m m ij ×=)(σS , (8-4) 样本相关阵 , (8-5) m m ij r ×=)(R 它们分别为总体协方差阵和总体相关阵的估计.有(或S R )出发求得的个标准正交化的特征向量,则S m m l l l ,,,21"X l i ′=i y ),,2,1(m i "=,称为个样本主成分.将m X 的观察值代入,可得样本主成分数据j ji y X l i ′=),,2,1;,,2,1(m i N j ""==.(二)因子分析在科学研究中,往往需要从多个角度对反映事物现象进行观测,也就设计出多个观测变量,从多个变量收集大量数据以便进行分析寻找规律.多变量大样本虽然会为我们的科学研究提供丰富的信息,但确增加了数据采集和处理的难度.更重要的是在大多数情况下,许多变量之间存在一定的相关关系,从而增加了问题分析的复杂性.因子分析就是将大量的彼此可能存在相第八章 主成分分析与因子分析关关系的变量转换成较少的,彼此不相关的综合指标的一种多元统计方法.因子分析最初是从心理学和教育学发展起来的,它也是多元统计分析中数据降维的一种.1. 因子分析模型设X 为维向量,其均值为m µ,协方差阵为Σ.如果X 可以表示为U Λf X ++=µ, (8-6) 其中()ij m k λ×=Λ为常数矩阵,为维向量,可以是随机的,也可以是非随机的,U 为维向量;则称f k m X 有k 个因子的模型,称为公共因子,U 称为特殊因子,称为因子载荷矩阵. f Λ 当为随机向量时,通常假定 f 0=f E ,k I f =)(Cov ,,, (8-7)0=U E ψU ==ˆ),,()(Cov 221m diag ψψ" ,0),(Cov =U f 满足(8-9),(8-10)的因子模型称为正交因子模型,此时的分量是相互正交的.f 由上述假设,可得))(()(Cov ′−−==µµX X X ΣE )()(′++=U Λf U Λf EΛf f Λ′′=E =′+U U E ΛΛ′ψ+, (8-8) 上式等价于212i kj ij ij ψλσ+=∑= , (8-9) 22i i h ψ+=),,2,1(m i "=式中,∑==kj ij i h 122λ应用统计方法学习指导它反应了公共因子对的影响,称为共性方差.i x 需要指出的是:对于一个给定的协方差阵Σ和均值向量µ,如果可分解为(8-8)式,那么即可得到因子模型(8-6).因子分析的目的就是由样本出发给出和ΣΣµ的估计,然后确定分解式(8-8),并给公共因子以实际背景解释,最后得到因子模型.2.建立因子模型——主因子法因为ΛΛψ′=−Σ为非负定阵,秩为,故存在一个正交矩阵,使得 k P ΦΣ==−′ˆ)0,,0,,,,()(21""k diag ϕϕϕP ψP ,且),,2,1(0k i i "=>ϕ.设为的前k 列,1P P ),,,(211k diag ϕϕϕ"=Φ,,则有),,,(2/12/122/112/11k diag ϕϕϕ"=Φ ,)(2/1112/111′=′=−ΦΦΦΣP P P P ψ故为一个解.如果我们能给出ψ的一个合适的估计,则我们可用的前个标准正交化的特征向量来得到的一个估计,这种估计称为主因子法.2/111Φ=P Λ1ˆψ1ˆˆψ−Σk Λ2/111ˆˆˆΦ=P Λ设为来自总体N X X X ,,,21"X 的长度为N 的样本.µ、的估计分别采用Σ ∑===Ni i N11ˆX X µ, (8-10)()(11ˆ1′−−−=∑=X X X X i Ni i N Σ, (8-11) 估计ψ的方法很多,常用的方法如下:, (8-12))ˆ,,ˆ(ˆ221m diag ψψ"=ψ其中, , (8-16)ii i σψ/1ˆ2=m m ij ×−=)(ˆ1σΣ 主因子法的关键是的选择.尽管k ψ−Σ的特征值都是非负的,但的ψˆˆ−Σ第八章 主成分分析与因子分析特征值有可能是负的.这时选择满足:k (1)使k ϕϕϕˆˆˆ21+++"与m ϕϕϕˆˆˆ21+++"比较接近,这里m ϕϕϕˆˆˆ21≥≥≥"为的特征值; ψˆˆ−Σ (2)不超过正特征值k j ϕˆ的个数. 主因子法的具体步骤如下:(1)计算Σ的估计、的初始估计,公式有(8-11)、(8-12)给出;Σˆψψˆ (2)求的个特征值ψˆˆ−Σm m ϕϕϕˆˆˆ21≥≥≥"及相应的为的标准正交化的特征向量;选择使ψˆˆ−Σm 21l ,,l ,l "k k ϕϕϕˆˆˆ21+++"与m ϕϕϕˆˆˆ21+++"很接近,同时不超过正特征值k j ϕˆ的个数,令 , ,)(ˆk l ,,l ,l P 21"=1)ˆ,,ˆ,ˆ(ˆ2/12/122/112/11k diag ϕϕϕ"=Φ则的初始估计为; Λ2/111ˆˆˆΦ=P Λ (3)令, )ˆˆˆ(ˆΛΛ′−=Σdiag ψ要求ψˆ的元素非负(负值取为零);以ψˆ代替(2)的ψˆ,重复步骤(2)的计算,直到、ΛˆΦˆ稳定为止. 由于,所以由(8-13)估计等价于估计共性方差:22i i ii h ψσ+=2i ψ2i h 22ˆˆˆi ii i h ψσ−=iiii σσ1ˆ−=. (48-1) 在实际问题中,有时需要由相关阵出发讨论,这时只要将代替作上述分析即可.共性方差常用下面的估计:R R Σ ijij i r h ≠=max ˆ2. (8-15) 此时. (8-16) 22ˆ1ˆii h −=ψ应用统计方法学习指导三、 问 题 与 思 考1.主成分分析的基本思想是什么?如何选择主成分?2.什么是主因子法?四、 例 题 析 解例8-1设),,(321′=x x x X 的协方差阵为,试求: ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−−−−=Σ220242022 (1)第一、二主成分贡献率和累计贡献率,并计算的第一、二主成分.21,y y )1,2,1(′=X (2)第一、二主成分对原变量的因子负荷量和贡献率. 21,y y 2x 解: (1)求特征值,由0)6)(2(2224222=−−=−−−−−−−λλλλλλ解得三个特征值分别为61=λ,22=λ,03=λ.(2) 求特征向量,由 022242022=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−−−−−−−ζηξλλλi ii将61=λ代入上式得 0420222024=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−−−−−−−ζηξ解得1=ξ, 2−=η,1=ζ,即得相应的标准化特征向量为⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−≈⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−++=4082.08165.04082.01216112114111l 同理解得22=λ相应的特征向量(标准化)为第八章 主成分分析与因子分析⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−≈⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−=7071.007071.0101212l 得第一主成分的贡献率为%75)026/(6=++ 第二主成分的贡献率为%25)026/(2=++ )1,2,1(′=X 的第一、二主成分分别为()8166.01214082.0,8165.0,4082.011−=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−=′=X l y()01217071.0,000.0,7071.022=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−=′=X l y (2)由jj jk k j k t x y σλρ/),(=∑==ki j i j x y 12),(ρν得第一、二主成分对原变量的因子负荷量和贡献率为:21,y y 2x 141626/),(2221121−=×−×==σλρt x y0/),(2222222==σλρt x y ,1),(2122==∑=i j i x y ρν五、自 测 练 习1.设的协方差阵为),,(321′=x x x X ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=Σ14/14/14/114/14/14/11应用统计方法学习指导(1)试讨论主成分对原变量的贡献率和累计贡献率,并计算的第一、二主成分;321,,y y y )3,2,1(′=X (2))3,1,21(′−==EX µ,试利用主因子法建立因子模型.2. 下表中是10名男中学生的身高(1x )、胸围(2x )、体重(3x )、的数据,试进行主成分分析.身高(1x ) 胸围(2x )体重(3x )149.5 162.5 162.7 162.2 156.5 156.1 172.0 173.2 159.5 157.769.5 77.0 78.5 87.5 74.5 74.5 76.5 81.5 74.5 79.038.5 55.5 50.8 65.5 49.0 45.5 51.0 59.5 43.5 53.53.举一个应用因子分析方法的实例.。

聚类分析 主成分分析和典型相关分析 含matlab程序


∑ ∑ E(βˆ1)
=
E⎜⎛ ⎝
n i=1
ki
yi
⎟⎞ ⎠
=
n
ki E( yi )
i=1
n
n
n
∑ ∑ ∑ = ki E(β0 + β1xi ) = β0 ki + β1 ki xi
i=1
i=1
i=1
所以
∑ ∑ n
n
ki =
xi − x
n
=0
i=1
∑ i=1 (xi − x)2
i=1
n
∑ ∑ n
n
ki xi =
同样可以证明
∑ Var(βˆ0
)
=
σ
2[
1 n
+
x2 ]
n
(xi − x)2
i =1
(8)
-231-
且 βˆ0 是 β0 的线性无偏的最小方差估计量。
2.2.3 其它性质 用最小二乘法拟合的回归方程还有一些值得注意的性质:
1.残差和为零。 残差
ei = yi − yˆi , i = 1,2,L, n

n
∑ Q(βˆ0 , βˆ1)
=
min
β0 ,β1
Q(
β
0
,
β1
)
=
i=1
( yi
− βˆ0
− βˆ1xi )2
显然 Q(β0 , β1) ≥ 0 ,且关于 β0 , β1 可微,则由多元函数存在极值的必要条件得
∑ ∂Q
∂β 0
n
= −2 ( yi
i=1
− β0
− β1xi ) = 0
∑ ∂Q
∂β 1
d

主成分分析方法PPT课件


X
x21
x22
x2
p
xn1
xn 2
xnp
❖ 当p较大时,在p维空间中考察问题比较麻烦。 为了克服这一困难,就需要进行降维处理. 要求:较少的几个综合指标尽量多地反映原来较 多变量指标所反映的信息,同时它们之间又是彼 此独立的
例,成绩数据
❖ 100个学生的数学、物理、化学、语文、历 史、英语的成绩如下表(部分)。
p
lk2j 1, (k 1,2,, m)
j 1
Rlk lk (R E)lk 0
计算主成分贡献率及累计贡献率
▲贡献率:
k
p
i
(k 1,2,, p)
i 1
▲累计贡献率:
k
p
j1 j / i1 i
一般取累计贡献率达85—95%的特征值 1, 2 ,, m 所对应的第一、第二、…、第m(m≤p)个主成分
6
6
样方
1
物种X1 1
物种X2 5
2 3 4 5 6 总和 2 0 2 -4 -1 0 2 1 0 -4 -4 0
种X2
X2
12
10
8
6
4
2
0
0
1
2
3
4
5
6
7
种X1
6 5 4 3 2 1 0 -5 -4 -3 -2 -1-1 0 1 2 3 4 5 6 -2 -3 -4 -5
X1
中心化后的原始数据矩阵
X
1 5
2 2
0 1
2 0
4 4
1 4
❖ 把坐标轴X1、 X2刚性地旋转 一个角度,得
到图中新坐标
轴Y1和Y2
X2
6
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

本文提出了一种新的用于物体识别算法—两个方向两维核主成分分析方法(K2D PC A plus 2D PC A),这种方法主要是两维主成分变换空间上对物体进行分析。

其基本思想是:首先,利用标准的K2DPCA方法在图像的行方向去相关性,然后,在K2DPCA空间下在图像的列方向利用2DFLD方法对图像进一步去相关性。

为了克服2DPCA和2D-FPCA方法需要大量存储空间的缺点,本文提出的K2D P C A plus 2D P C A方法需要较小的存储空间以及具有高的识别率,且计算效率高于KPCA /K2DPCA/2(2D)FPCA算法。

最后,在手指静脉数据库中对该方法进行了验证。

主成分分析(PCA)[3-5]是一种经典的线性特征提取和数据表示方法,它们已广泛的应用于模式识别和机器视觉领域。

在一般情况下使用这种方法处理二维图像时,图像矩阵必须首先转化一维的行向量或者列向量。

然而,在转换为一维的向量后,通常会导致向量空间的维数非常高。

由于维数非常高,且训练的样本数相对较少,所以那很难精确的估计协方差矩阵,而且计算高维的协方差矩阵的特征向量是相当费时。

为解决这些问题,近年来,两维特征提取方法,如两维PCA(2DPCA)已经引起广泛的关注。

Yang [6]最先提出了2DPCA方法,Yang的主要工作是直接用原始二维图像构造图像的协方差矩阵。

然而,我们可以看出,无论是在图像的行方向进行的2DPCA [9]方法还是在列方向进行的2DPCA [10]方法,与标准的PCA方法相比他们在对图像信息的表达上需要更多的系数来表达图像信息。

为了见一步克服这个问题,文献[10]提出了2(2D)PC A的思想应用于人脸的识别。

但遗憾的是,2DPCA and 2(2D)PC A都是线性投影方法,他们只考虑到图像数据中的二阶统计信息,未能利用数据中的高阶统计信息,忽略了多个像素间的非线性相关性。

然而,现实中的许多问题是非线性可分的,例如由于图像的光照、姿态等不同引起的差异是非线性和复杂的,故利用2DPCA 和2(2D)PC A来分类时不能得到令人满意的结果。

为了避免这些缺陷,通过对PCA的改进提出了一种新处理非线性的方法。

文献[14]提出了一种新的非线性提取方法-核主成分分析方法(KPCA)。

各个领域的应用中,KPCA都优于PCA方法([11]; [12];[13];[14])。

近年来,一些研究者提出了二维核主成分分析方法(K2DPCA) [1]。

该方法在用于人脸识别时,在处理图像的非线性相关性特征方面都优于KPCA 2DPCA andB2DPCA方法[1]。

但是,和2DPCA遇到的一个相同的问题是,仅仅在图像的行方向或者列方向使用K2DPCA方法时,与标准的KPCA方法相比他们在对图像信息的表达上需要更多的系数来表达图像信息。

为了提高识别精度和降低计算复杂度与减少存储空间,本文提出了一种新的用于物体识别算法—两个方向两维核主成分分析方法(K2D PC A plus 2D PC A)其基本思想是:首先,利用标准的K2DPCA 方法在图像的行方向去相关性,然后,在K2DPCA 空间下在图像的列方向利用2DFLD 方法对图像进一步去相关性。

在手指静脉数据库对该方法进行了验证。

实验结果表明:与K2DPCA 方法相比,它可以在实现高识别率,同时需要的存储空间更少且计算效率较高。

2.2DPCA 方法假设有c 个模式类,M 是总的训练样本的个数,i M 是i 类训练样本的数目,m n ⨯的矩阵()i j A 是第i 类第j 个训练样本。

()i A 是第i 类训练样本的均值,A 为总体训练样本的均值。

首先假设A 是m n ⨯的随机图像矩阵,n d Y R⨯∈是一个列向量标准正交的矩阵,n r ≥,把A 投影到V 产生一个m d ⨯矩阵Y AV =。

在子空间2DPCA ,投影样本的总体散度矩阵可以通过投影矩阵V 得到。

它满足:(){[()()]}{[(())(())]}{[()()]}TTTTJ V trace E Y EY Y EY trace E Y E AV Y E AV trace V E A EA A EA V =--=--=-- (1)其中对任意的两个矩阵[1],等式满足trace(AB)= trace(BA)。

图像的协方差矩阵定义为n n ⨯非负定矩阵[()()]T t S E A E A A E A =--,假设m n ⨯的矩阵(1,2,,)k A k M = 为M个训练图像, t S 可以通过下式计算:11()()MTt kk k S AA A A M==--∑ (2)那么t S 前d 个最大的特征值所对应的正交特征向量1,,d x x 组成了投影矩阵的最佳投影opt X 。

例如:1[,,]r V v v = ,Y AV= (3)其中,1[,,]r V v v =图像A 就可以用矩阵Y 来描述并可以利用它来对图像进行分类。

3.两维核主成分分析3.1 2DPCA让(1)(2)()[()()()]T T m T T k k k k A A A A = ,(1)(2)()[()()()]m T T T Tk k kA A A A =其中()i k A 和 ()i k A 分别表示k A 和A ,第i 行向量。

那么等式(2)就可以写成如下表达式:()()()()111()()Mmi i i T i kkk i G A AA AM===--∑∑(4)从等式(4)可以看出,协方差矩阵G 可以表示为图像的行向量的内积。

如果训练图像的均值为0,如(0)m n A ⨯=,那么, G 可以用归一化后的训练样本行向量估计得到。

因此,2DPCA 算法的实质是在图像的每一行上进行PCA 分析。

3.2K2DPCA与线性的PCA,相比,KPCA[2][14]是一种非线性特征提取方法,思想是通过一个非线性影射:N R F Φ→,把原始输入空间的数据映射到一个高维或者甚至无穷维的特征空间F ,然后在特征空间F 中执行PCA 算法。

KPCA 已广泛的应用于人脸识别中,与PCA 相比有更好的识别结果。

与此同时,K2DPCA 在提取数据的非线性特征方面有更大的优势。

与KPCA 相似,不需要直接知道这个非线性映射函数而完成非线性映射。

与KPCA 不同的是把图像矩阵的每一列映射到特征空间F ,例如非线性影射为:N R F Φ→。

然后在这个特征空间中再进行PCA 分析。

因为F 空间的维数很高,进行通常的运算不可能,所以为了能够在F 空间中实现PCA ,可以利用内积核函数来隐含的计算。

通过核函数K 计算输入数据i A 和j A 被映射到空间F 中的内积。

其表达式如下:(,)()()i j i j K A A A A =ΦΦ (5) 其中, 表示在空间F 的内积。

假设所有数据都被文献[14]方法中心化(可能不恰当),()i A ∧Φ表示映射空间中第i 幅映射图像,()ji A ∧Φ表示第i 幅映射图像的第j 列中心化向量。

那么可得到空间F中的协方差矩阵C Φ:11()()MTii i CA A M∧∧Φ==ΦΦ∑(6)其中12()[(),(),,()]ni i i i A A A A ∧∧∧∧Φ=ΦΦΦm 表示列数。

直接计算该矩阵的特征值i λ是相当困难的,而且其特征向量i v 必须满足i i i v C v λΦ= (7) 然而,通过以下定理我们能利用KPCA 来实现K2DPCA 算法,从而避免直接计算的困难。

定理1,假设每个列向量作为一个计算实体,K2DPCA 算法是通过对训练图像矩阵的每一列执行KPCA 算法来实现的。

其证明过程类似于参考文献[1]中的定理1的证明。

为了提取每个类向量的主成分,我们需要把每个()j i A ∧Φ头型到空间 F 的特征向量k x 上..,投影表达式如下:11(())(()())Mnjp q qj Tk i lp i p q x A A A α∧∧∧⨯==Φ=ΦΦ∑∑ (1,,)l M n d M n =⨯-+⨯ (8)由(8)式,得第i 幅映射图像()i A ∧Φ的投影i Y 为(())()()T Ti k i i Y x A A α∧∧Φ=Φ=ψΦ(9) 其中12(,,,)M n d M n d M n αααα⨯-+⨯-+⨯=1212111[[(),(),,()],,[(),(),,()]]nnM M M A A A A A A ∧∧∧∧∧∧Φψ=ΦΦΦΦΦΦ通过把所有训练图像和测试图像的列向量投影到特征空间的前d 个特征向量上,从而得到每个图像的投影矩阵,其大小为d n ⨯。

4. K 2D PC A plus 2D PC A 4.1. K 2D PC A plus 2D PC A 思想K2DPCA可以有效的克服2DPCA算法在提取图像非线性特征的不足。

而且其效果优于2DPCA 和KPCA算法[1]。

然而,需要更多的系数对图像进行表示。

这就导致降低识别速度,而且需要大量的存储空间。

该段将给出一种新的方法来克服K2DPCA存在的弱点。

其大体思想是:首先在行方向进行K2DPCA变换,然后再K2DPCA子空间进的列方向进行2DPCA变换。

对给定特定的图像矩阵A,在经过K2DPCA变换时,我们可以得到它的特征矩阵Y。

然后进行转置得到T Y,并把转置矩阵进行2DPCA 变换,确定变换矩阵V。

最后,把T Y投影V,从而得到T TC Y V=,特征矩阵即为TC V Y=。

整个变换过程如图1所示:K2D P C A p l u s2D图 1.K2D PC A plus 2D PC A变换过程在整个变换过程中,首先通过执行K2DPCA变换()()T TY Aα∧Φ=ψΦ在垂直方向上对二维图像进行压缩,从而使得区分信息被压缩在少数行上。

然后,再通过2DPCA变换C YV=把二位数据在水平方向进行压缩,从而去掉图像Y各行之间的相关性且使区分信息进一步被压缩到少数列上。

最后,整个图像的分类信息被压缩到图像的左上角。

整个过程表示如下:K2D PC A plus 2D PC A⇔21211:;2:;K D P C Am n d nD P C Ad n d rphase R Fphase F F⨯⨯⨯⨯−−−−→−−−→4.2.变换下面进一步详述K2D PC A plus 2D PC A的执行过程。

首先经过K2DPCA在垂直方向上变换后,我们通过式(9)得到样本A的特征矩阵Y。

然后重建图像的协方差矩阵并得到该协方差矩阵的前r个最大特征值所对应的特征向量1,,rv v ,让12(,,,)r V v v v = ,那么,通过式(10)得到Y 经过2DPCA 变换后的特征矩阵()()TTC YV A Vα∧Φ==ψΦ. (10)特征矩阵C 的大小为d r ⨯,由于d 和r 的值总是远小于m 和n ,C 远小于K 2DPCA 的特征矩阵Y 和原始图像矩阵A 。

相关文档
最新文档