第16章 主成分分析
主成分分析法PPT课件

6
3.832E-16
2.017E-15 100.000
7
3.351E-16
1.764E-15 100.000
8
2.595E-16
1.366E-15 100.000
000
10
1.683E-16
8.860E-16 100.000
11
7.026E-17
3.698E-16 100.000
• 因子分析是要利用少数几个公共因子去解释较多个要观测 变量中存在的复杂关系,它不是对原始变量的重新组合,而 是对原始变量进行分解,分解为公共因子与特殊因子两部分. 公共因子是由所有变量共同具有的少数几个因子;特殊因 子是每个原始变量独自具有的因子.
3、应用中的优缺点比较
• 主成分分析 优点:首先它利用降维技术用少数几个综合变量来代替 原始多个变量,这些综合变量集中了原始变量的大部分信 息.其次它通过计算综合主成分函数得分,对客观经济现象 进行科学评价.再次它在应用上侧重于信息贡献影响力综 合评价. 缺点:当主成分的因子负荷的符号有正有负时,综合评价 函数意义就不明确.命名清晰性低.
12
2.750E-19
1.447E-18 100.000
13
-7.503E-17 -3.949E-16 100.000
14
-1.291E-16 -6.794E-16 100.000
15
-1.742E-16 -9.168E-16 100.000
16
-2.417E-16 -1.272E-15 100.000
四、主成分分析法的步骤
1数据归一化处理:数据标准化Z 2计算相关系数矩阵R: 3计算特征值;
特征值越大说明重要程度越大.
4计算主成分贡献率及方差的累计贡献率; 5计算主成分载荷与特征向量:
主成分分析讲解

a1m fm 1 a2m fm 2
因子分析(m<p)
xp ap1 f1 ap2 f2 apm fm p
f1 11x1 12 x2 1p xp f2 21x1 22 x2 2 p xp
因子得分
fm m1x1 m2 x2 mp xp
20
因子分析的数学
• 因子分析需要许多假定才能够解. 具体来说.
10
主成分之选取
• 正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变 量,就有几个主成分。
• 选择越少的主成分,降维就越好。什么是标准呢?那就是这些被 选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。 有些文献建议,所选的主轴总长度占所有主轴长度之和的大约 85%即可,其实,这只是一个大体的说法;具体选几个,要看实 际情况而定。
11
主成分分析的数学
• 要寻找方差最大的方向。即使得向量X的线性组合a’X的方差
最大的方向a. • 而Var(a’X)=a’Cov(X)a;由于Cov(X)未知;于是用X的样本相关
阵R来近似.因此,要寻找向量a使得a’Ra最大(注意相关阵和协 方差阵差一个常数 • 记得相关阵和特征值问题吗?回顾一下吧! • 选择几个主成分呢?要看“贡献率.”
• 本章就介绍两种把变量维数降低以便于描述、理解和分析的方法:主成
分 分 析 ( principal component analysis ) 和 因 子 分 析 ( factor
analysis)。实际上主成分分析可以说是因子分析的一个特例。在引进
主成分分析之前,先看下面的例子。
3
成绩数据(student.sav)
0
2
4
9
主轴和主成分
主成分分析

主成分分析主成分分析、因子分析等在多元统计分析中属于协方差逼近技术。
主要是从协方差矩阵出发,实现一种正交变换,从而将高维系统表示为低维系统,在此过程中可以揭示研究对象的许多性质和特征。
主成分分析的结果可以用于回归分析、聚类分析、神经网络分析等等。
只要懂得线性代数中二次型化为标准型的原理,就很容易掌握主成分分析的原理,进而掌握因子分析的原理。
在理解正交变换数学原理的基础上,我们可以借助Excel 开展主成分分析。
为了清楚地说明主成分的计算过程,不妨给出一个简单的计算实例。
【例】2000 年中国各地区的城、乡人口的主成分分析。
这个例子只有两个变量(m=2):城镇人口和乡村人口;31 个样品:即中国的31 个省、自治区和直辖市(n=31)。
资料来自2001 年《中国统计年鉴》,为2000 年全国人口普查快速汇总的11 月1 日零时数。
由于变量太少,这个例子仅仅具有教学意义——简单的实例更容易清楚地展示计算过程的细节。
计算步骤5.1.1 详细的计算过程首先,录入数据,并对数据进行适当处理(图5-1-1)。
计算的详细过程如下。
第一步,将原始数据绘成散点图主成分分析原则上要求部分变量之间具有线性相关趋势。
如果所有变量彼此之间不相关(即正交),则没有必要进行主成分分析,因为主成分分析的目的就是用正交的变量代替原来非正交的变量。
如果原始变量之间为非线性关系,则有必要对数据进行线性转换,否则效果不佳。
从图5-1-2 可见,原始数据具有非线性相关趋势,可以近似匹配幂指数函数,且测定系数R2=0.5157,相应地,相关系数R=0.7181(图5-1-2a);取对数之后,点列具有明显的线性趋势(图5-1-2b)。
第二步,对数据进行标准化标准化的数学公式为我们将对对数变换后的数据开展主成分分析,因此只对取对数后的数据标准化。
根据图5-1-1所示的数据排列,应该按列标准化,用xij 代表取对数之后的数据,则下式分别为第j 列数据的均值和标准差,xij 为第i 行(即第i 个样本)、第j 列(即第j 个变量)的数据,xij*为相应于xij 的标准化数据,n=31 为样品数目(参见图5-1-1)。
(完整版)主成分分析法的步骤和原理

(一)主成分分析法的基本思想主成分分析(Principal Component Analysis )是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。
[2]采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。
(二)主成分分析法代数模型假设用p 个变量来描述研究对象,分别用X 1,X 2…X p 来表示,这p 个变量构成的p 维随机向量为X=(X 1,X 2…X p )t 。
设随机向量X 的均值为μ,协方差矩阵为Σ。
对X 进行线性变化,考虑原始变量的线性组合: Z 1=μ11X 1+μ12X 2+…μ1p X pZ 2=μ21X 1+μ22X 2+…μ2p X p…… …… ……Z p =μp1X 1+μp2X 2+…μpp X p主成分是不相关的线性组合Z 1,Z 2……Z p ,并且Z 1是X 1,X 2…X p 的线性组合中方差最大者,Z 2是与Z 1不相关的线性组合中方差最大者,…,Z p 是与Z 1,Z 2 ……Z p-1都不相关的线性组合中方差最大者。
(三)主成分分析法基本步骤第一步:设估计样本数为n ,选取的财务指标数为p ,则由估计样本的原始数据可得矩阵X=(x ij )m ×p ,其中x ij 表示第i 家上市公司的第j 项财务指标数据。
第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。
第三步:根据标准化数据矩阵建立协方差矩阵R ,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分析。
其中,R ij (i ,j=1,2,…,p )为原始变量X i 与X j 的相关系数。
主成分分析法

主成分分析法1. 主成份分析:主成份分析是最经典的基于线性分类的分类系统。
这个分类系统的最⼤特点就是利⽤线性拟合的思路把分布在多个维度的⾼维数据投射到⼏个轴上。
如果每个样本只有两个数据变量,这种拟合就是其中和分别是样本的两个变量,⽽和则被称为loading,计算出的P值就被称为主成份。
实际上,当⼀个样本只有两个变量的时候,主成份分析本质上就是做⼀个线性回归。
公式本质上就是⼀条直线。
插⼊⼀幅图(主成份坐标旋转图,来⾃:PLS⼯具箱参考⼿册)如果⼀个样本有n个变量,那主成份就变为:其中PC1 称为第⼀主成份,⽽且,我们还可以获得⼀系列与PC这个直线正交的其它轴,如:被称为第⼆主成份以此类推,若令,此时向量A称为主成份的载荷(loading),计算出的主成份的值PC称为得分(score)。
1. 主成份分析举例作为⼀个典型的降维⽅法,主成份分析在数据降维⽅⾯⾮常有⽤,⽽且也是所有线性降维⽅法的基础。
很多时候,如果我们拿着⼀个⾮常复杂的数据不知所措的话,可以先考虑⽤主成份分析的⽅法对其进⾏分解,找出数据当中的种种趋势。
在这⾥,我们利⽤数据挖掘研究当中⾮常常见的⼀个数据集对主成份分析的使⽤举例如下:1996年,美国时代周刊(Times)发表了⼀篇关于酒类消费,⼼脏病发病率和平均预期寿命之间关系的科普⽂章,当中提到了10个国家的烈酒,葡萄酒和啤酒的⼈均消费量(升/年)与⼈均预期寿命(年)⼀级⼼脏病发病率(百万⼈/年)的数据,这些数据单位不⼀,⽽且数据与数据之间仅有间接关系。
因此直接相关分析不能获得重要且有趣的结果。
另外⼀⽅⾯,总共只有10个国家作为样本,各种常见的抽样和假设检验在这⽅⾯也没有⽤武之地,我们看看⽤何种⽅法能够从这个简单的数据表中获得重要知识作为数据挖掘的第⼀步,⾸先应该观察数据的总体分布情况。
⽆论是EXCEL软件,还是R语⾔,我们都能够很⽅便的从下表中获得表征数据分布的条形图。
从图中可以看出,总共10个国家,有5类数据,由于各类数据性质各不相同,因此数值上⼤⼩也很不相同。
主成分分析与因子分析

∴
( yk ,xi )
k ii
tik
4. m个主成分对原始变量的贡献率
用xi 与 y1 , …, ym 的复相关系数的平方,作为
度量主成分y1 , …, ym包含有 xi 的信息多少的指标
称为m个主成分y1 , …, ym对原始变量xi的贡献率,
记为νi( i21 m)。
m
m
ቤተ መጻሕፍቲ ባይዱ
i 2 ( xi ,y j ) jti2j / ii
载荷矩阵
∵ X=T y 其中 T = ( tij )
x1 x2
t11 t21
t12 t22
x p
t p1
t p2
t1 p t2 p
y1 y2
t
pp
y
p
选取前m个主成分,记
xˆ 1
一般地,第 i 主成分为:
y i tiT x
var yi i ,
i 1, p
主成分的性质
1.主成分的协方差矩阵
Y
y1
,
1
0
y p
0
p
由于 Y T T X X TY
var(Y ) var( T T x ) T T var( x )T T T T TTTTTT
标准化主成分 f 的载荷矩阵
先对m个主成分 的方差标准化,再求出主 成分的载荷矩阵。令:
主成分分析方法
主成分分析方法在经济问题的研究中,我们常常会遇到影响此问题的很多变量,这些变量多且又有一定的相关性,因此我们希望从中综合出一些主要的指标,这些指标所包含的信息量又很多。
这些特点,使我们在研究复杂的问题时,容易抓住主要矛盾。
那么怎样找综合指标?主成分分析是将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标的统计方法,也是数学上处理降维的一种方法. 一. 主成分分析法简介主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析。
在实际问题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。
但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。
人们自然希望变量个数较少而得到的信息较多。
在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。
主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映问题的信息方面尽可能保持原有的信息。
信息的大小通常用离差平方和或方差来衡量。
主成分分析的基础思想是将数据原来的p 个指标作线性组合,作为新的综合指标(P F F F ,,,21 )。
其中1F 是“信息最多”的指标,即原指标所有线性组合中使)var(1F 最大的组合对应的指标,称为第一主成分;2F 为除1F 外信息最多的指标,即0),cov(21 F F 且)var(2F 最大,称为第二主成分;依次类推。
易知P F F F ,,,21 互不相关且方差递减。
实际处理中一般只选取前几个最大的主成分(总贡献率达到85%),达到了降维的目的。
主成分的几何意义:设有n 个样品,每个样品有两个观测变量,,21X X 二维平面的散点图。
n 个样本点,无论沿着1X 轴方向还是2X 轴方向,都有较大的离散性,其离散程度可以用1X 或2X 的方差表示。
主成分分析
语言表达就是要求Cov(F1,F2)=0,称F2为第二主成分, 依此类推可以造出第三,四,…,第p个主成分。不难 想像这些主成分之间不仅不相关,而且它们的方差依次 递减。因此在实际工作中,就挑选前几个最大主成分, 虽然这样做会损失一部分信息,但是由于它使我们抓住 了主要矛盾,并从原始数据中进一步提取了某些新的信 息,因而在某些实际问题的研究中得益比损失大,这种 既减少了变量的数目又抓住了主要矛盾的做法有利于问 题的分析和处理。
第p个特征值所对应特征向量处达到。
这里要说明两点:一个是数学模型中为什么作线性组合? 基于两种原因:①数学上容易处理;②在实践中效果很好。 另一个要说明的是每次主成分的选取使Var(Fi)最大,如果 不加限制就可使Var(Fi) 则就无意义了,而常用的 限制是要求 (2 )主成分的几何意义 从代数学观点看主成分就是p个变量X1…,Xp的 一些特殊的线性组合,而在几何上这些线性组合正是把 X1,…,Xp构成的坐标系旋转产生的新坐标系,新坐标 轴使之通过样品变差最大的方向(或说具有最大的样品 方差 )。下面以最简单的二元正态变量来说明主成分的 9 2015/12/16 几何意义。
我们看到F1,F2是原变量 X1 和 X2 的线性组合,用矩阵表 示是
显然
且是正交矩阵,即
从上图还容易看出二维平面上的n个点的波动(可用方 差表示)大部分可以归结为在 F1 轴上的波动,而在F2轴上 的波动是较小的。如果上图的椭园是相当扁平的,那么我 们可以只考虑F1方向上的波动,忽略F2方向的波动。这样 一来,二维可以降为一维了,只取第一个综合变量 F1即可。 2015/12/16 11 而F1是椭园的长轴。
2、主成分分析的数学模型及几何解释
(1 )、 数学模型
设有 n 个样品,每个样品观测p项指标(变量), X1, X2, …,Xp,得到原始数据资料阵: 2015/12/16 5
第16 章 主成分分析和因子分析
qˆij = l 1qjij,i =1,L,n.
(2.11.2)
应该注意,向量 ci 和 qi (除坐标平移之外)可以从奇异值分解(singular value
decomposition, SVD)
XI 1ee = l1c1d1 +L+ l pcpd p n
(2.12)
( ) 一步得出。其中具有关系式 l1d1 :L:l pd p =(q1:L:qn)。
本文将提供某些最新理论成果和实际应用以全面考察 PCA 和 FA。
2.主成分
2.1.一般问题
主成分问题可以用如下非常一般的步骤进行阐述。令 x 是一个 p 维向量, y 是一个q 维 向量,其中 x 和 y 的一些分量可能是相同的。我们要用z = Ay代替 y ,其中 A是一个r×q
矩阵且r < q ,使得用z 代替 y 预测x 的损失尽可能小。如果
2.3.主成分解释
为了用原始测量指标的影响解释主成分,需要表 1 中列出的计算。
表1 原始变量
与主成分的相关系数
z1
K
zp
xi 对 z1,L,zr
的复相关系数
x1
cˆ11 / s11 L
cˆp1 / s11
s11
r 1
c
ˆ2
j1
=
R1
2
j=1
M
M
M
M
M
xp
cˆ1p / spp L
cˆpp / spp
2
p×n 矩阵表示
X =(x1 :L: xn)
11的估计量是
S =(n 1) 1XI e1eX
n
(2.7)
其中e是n 维 1 向量。 i 的估计l i 和Ci 的估计量ci 可以从谱分解中得出
主成分分析(第1节_主成分分析及其基本思想)
本章主要内容第一节主成分分析的基本思想第二节主成分分析的数学模型与推导主成分的性质第三节第四节主成分分析应用中注意的问题第五节实例分析和SAS程序◆问题引入在实际问题中,研究多指标的问题是经常遇到的。
多元统计分析就是处理多变量(多指标)问题的理论和工具。
在多元统计分析中,随机向量的观测值是对一个个体从多个指标进行测量的结果,它们从不同侧面反映了个体的特征。
多元统计分析中常会遇到以下问题:⑴(相关性):从表面上看,p个指标变量处于同等地位,但事实上各变量所包含的信息量参差不齐,变量之间不一定相互独立,而常具有相关性。
因而使得所观测到的数据反映的信息有时有所重叠。
⑵(降维)当变量个数较多时,在高维空间中研究样本的分布规律比较复杂,势必增加分析问题的难度。
而考虑到变量间的相关性意味着信息的交叉和重叠,人们自然考虑能否用较少的综合指标(变量)去代替原来较多的变量,这就是多元统计分析中的“降维问题”。
⑶(抓住主要矛盾,提炼主要信息)如何对这些变量进行综合,即根据这些变量,给出少数几个综合指标,以反映多个指标所提供的信息呢?这需要解决如下几个问题:想①把原来的指标重新组合成一组互相独立的综合指标,并要求各个新指标所包含的信息不重叠和交叉;②所用综合指标个数要少于原来指标的个数p(达到降维之目的);③新指标(即少数几个综合指标)所反应的信息量(几乎)和原来诸变量所反映的信息一样多。
(即用新的指标刻画研究个体的特性使其性质不变。
)思想◆主成分分析的主要目的⑴降维:可用于其他多元统计分析方法的辅助性工具,或中间过渡过程等,譬如在聚类分析、多重多元回归分析之前,可先做主成分分析,降低问题的复杂性或克服回归分析中多重共线性带来的问题等。
⑵用于对数据作进一步解释:用少数几个综合指标反映原来由p个指标描述的个体特性,必然损失一部分信息,但由于它使我们抓住了主要矛盾,并从原始数据中进一步提炼出某些新的信息,所以从综合分析的层面上讲,解释数据内在特征有时更具有针对性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一主成分,即新坐标系的 y1轴,那么等价于将数据投影 在椭圆长轴上, 用这个主轴 表示数据,将二维空间的数 据压缩到一维空间中。
例
• 假设有两个变量x1和x2,三个样本点A、B、C,样本分布在由x1和 x2轴组成的坐标系中
• 对坐标系进行旋转变换,得到新的
坐标轴y1,表示新的变量y1
• 新坐标系的第一坐标轴、第二坐标轴等分别表示第一主成分、 第二主成分等
• 数据在每一轴上的坐标值的平方表示相应变量的方差 • 这个坐标系是在所有可能的新的坐标系中,坐标轴上的方差的和最大的
例
• 数据由线性相关的两个变量x1和x2表示
• 主成分分析对数据进行
正交变换,对原坐标系进行 旋转变换,并将数据在 新坐标系表示
素,所以 •即
• 因为 时,
最大
,能找到 使得
主成分的个数
• 而当
时,有
满足
• 所以,当
时,
达到最大值
• 定理16.2表明,当x的线性变换y在
的迹
取得最大值
,其协方差矩阵
• 这就是说,当取A的前q列取x的前q个主成分时,能够最大限度地 保留原有变量方差的信息。
主成分的个数
• 当舍弃A的后p列,即舍弃变量x的后p个主成分时,原有变量的方 差的信息损失最少。
• 假设 是 的最大特征值 对应的单位特征向量,显然 与 是最优化问题的解
• 所以, 构成第一主成分,其方差等于协方差矩阵的最大特征 值
主要性质
• 接着求x的第二主成分
,且
与
中使方差
。第二主成分的 是在 不相关的条件下,x的所有线性变换
达到最大的
• 求第二主成分需要求解约束最优化问题
• 注意到
以及
• (5)计算k个主成分 yj 与原变量 xi 的相关系数 个主成分对原变量 xi 的贡献率vi。
,以及k
相关矩阵的特征值分解算法
• (6)计算n个样本的k个主成分值 • 将规范化样本数据代入k个主成分式 • 得到n个样本的主成分值
• 第j个 样本
的第i主成分值是
例
• 假设有n个学生参加四门课程的考试,将学生们的考试成绩看作 随机 变量的取值,对考试成绩数据进行标准化处理,得到样本 相关矩阵R
主成分的个数
• 主成分分析的主要目的是降维,所以一般选择k (k << m)个主成 分(线性无关变量)来代替m个原有变量(线性相关变量),使 问题得以简化,并能保留原有变量的大部分信息。
主成分的个数
• 证明:
• 令 是B的第k列,由于正交矩阵A的列构成m维空间的基,所以 可以由A的列表示,即
• 等价地 • 其中C是 m x q 矩阵,其第j行第k列元素为Cjk
• 首先求x的第一主成分, 义16.1知,第一主成分的
有线性变换中使方差
,即求系数向量
。由定
是在
条件下,x的所
达到最大的
• 求第一主成分就是求解约束最优化问题:
主要性质
• 定义拉格朗日函数
• 其中 是拉格朗日乘子。将拉格朗日函数对 为0,得
求导,并令其
• 因此, 是 的特征值, 是对应的单位特征向量。于是,目 标函数
主要性质
• 定义拉格朗日函数
• 其中
是拉格朗日乘子。对 求导,并令其为0,得
• 将方程左乘以 有 • 此式前两项为0,且
16.10
,导出 ,因此式(16.10)成为
• 由此, 是 的特征值, 是对应的单位特征向量。于是, 目标函数
主要性质
• 假设 是 的第二大特征值 对应的单位特征向量,显然 与 是以上最优化问题的解
• 为了消除这个影响,常常对各个随机变量实施规范化,使其均值 为0,方差为1.
规范化变量的总体主成分
•设
为m维随机变量,xi为第i个随机变量,令
• 其中,
分别是随机变量xi的均值和方差,这时
xi的规范化随机变量
• 规范化随机变量的协方差矩阵就是相关矩阵R
就是
规范化变量的总体主成分
• 规范化随机变量的总体主成分有以下性质: • (1) 规范化变量主成分的协方差矩阵是
• 可以用主分成近似地表示原始数据,发现数据的基本结构 • 也可以把数据由少数主成分表示,对数据降维
基本想法
• 数据集合中的样本由实数空间(正交坐标系) 中的点表示,空间的一个坐标轴表 示一个变量,规范化处理后得到的数据分布在原点附近。
• 对原坐标系中的数据进行主成分分析等价于进行坐标系旋转变换,将数据投影到新 坐标系的坐标轴上
• 样本点A、B、C在y1轴上投影,
得到y1轴的坐标值A'、B'、 C'
例
• 坐标值的平方和OA'2 + OB'2 + OC'2表示样本在变量y1上的方差和
• 主成分分析旨在选取正交变换中方差最大的
变量,作为第一主成分,也就是旋转变换中坐标值 的平方和最大的轴
• OA'2 + OB'2 + OC'2最大等价于样本点到
的任意一个线性变换
• 其中yi是m维向量y的第i个变量,相应于容量为n的样本
,
yi的样本均值 为
• 其中 是随机向量x的样本均值
样本主成分的定义和性质
• yi的样本方差
为
• 对任意两个线性变换 yi, yk的样本协方差为
,相应于容量为n的样本
样本主成分的定义和性质
• 样本主成分与总体主成分具有同样的性质 • 总体主成分的定理16.2及定理16.3对样本主成分依然成立
• 第一步,在x的所有线性变换
˙中,在
条
件下,求方差最大的,得到x的第一主成分
定义和导出
• 第二步,在与 中,在
不相关的x的所有线性变换
条件下,求方差最大的,得到x的第二主成分
• 第k步,在与 中,在
不相关的x的所有线性变换 条件下,求方差最大的,得到x的第k主成分
主要性质
主要性质
• 证明:采用拉格朗日乘子法求出主成分
主成分的个数
• 首先
• 其中 是C的第j行。因此
主成分的个数
• 其次,由
及A的正交性知
• 由于A是正交的,B的列是正交的,所以
• 即C的列也是正交的。于是
• 这样,矩阵C可以认为是某个m阶正交矩阵D的前q列
主成分的个数
• 正交矩阵D的行也正交,所以满足 • 其中 是D的第j行。由于矩阵D的行包括矩阵C的行的前q个元
• (2) 协方差矩阵的特征值之和为m
规范化变量的总体主成分
• (3) 规范化随机变量 与主成分 的相关系数(因子负荷量)为
向量
其中
为矩阵R对应于特征值 的单位特征
• (4)所有规范化随机变量 与主成分 的相关系数的平方和等于
ቤተ መጻሕፍቲ ባይዱ
• (5)规范化随机变量 与所有主成分
的相关系数的平方和等于1
样本主成分分析
• 总体主成分分析,是定义在样本总体上的。
• 在实际问题中,需要在观测数据上进行主成分分析,这就是样本 主成分分析。
• 样本主成分也和总体主成分具有相同的性质。
样本主成分的定义和性质
• 假设对m维随机变量
进行n次独立观测
•
表示观测样本
•
表示第j个观测样本
•
表示第j个观测样本的第i个变量,j=1,2,… ,n
• 总体主成分分析是样本主成分分析的基础
定义和导出
• 假设
是m维随机变量,其均值向量是
• 协方差矩阵是
• 考虑由m维随机变量x到m维随机变量
的线性变换
• 其中
定义和导出
• 由随机变量性质可知
定义和导出
定义和导出
• 定义中的条件(1)表明线性变换是正交变换, 组标准正交基
是其一
• 条件(2)(3)给出了一个求主成分的方法:
• 主成分分析主要用于发现数据中的基本结构, 即数据中变量之间的关 系。
基本想法
• 主成分分析中,首先对给定数据进行规范化,使得数据每一变量的平均值为 0,方差为1。
• 之后对数据进行正交变换,原来由线性相关变量表示的数据,通过正交变换 变成由若干个线性无关的新变量表示的数据。
• 新变量是可能的正交变换中变量的方差的和(信息保存)最大的,方差表示 在新变量上信息的大小。
• 于是 征值
构成第二主成分,其方差等于协方差矩阵的第二大特
• 一般地,x的第k主成分是
,并且
,这里
是 的第k个特征值并且 是对应的单位特征向量。
主要性质
• 按照上述方法求得第一、第二、直到第m主成分,其系数向量
分别是 的第一个、第二个、直到第m个单位特
征向量,
分别是对应的特征值。
• 第k主成分的方差等于 的第k个特征值,
计。
相关矩阵的特征值分解算法
• 给定样本矩阵X,利用数据的样本协方差矩阵或者样本相关矩阵 的特征值分解进行主成分分析。具体步骤如下:
• (1)对观测数据按式(16.48)进行规范化处理,得到规范化数据 矩阵,仍以X表示
相关矩阵的特征值分解算法
• (2)依据规范化数据矩阵,计算样本相关矩阵R
• 其中
的性质
得到式
(16.20)
总体主成分的性质
• (4)第k个主成分 与m个变量的因子负荷量满足
• 由式(16.20)有
总体主成分的性质
• (5)m个主成分与第i个变量 的因子负荷量满足
• 由于
16.22
互不相关
故
• 又因 可以表为
的线性组合,所以 与
的相关系数的平方为1,即
• 故得式(16.22)