主成分分析与因子分析(第20章)

合集下载

主成分与因子分析

主成份分析与因子分析转载自网站/teachers/lidf/docs/statsoft/html/statsoft.html作者：北京大学概率统计系李东风现实中的统计对象经常用多个指标来表示，比如人口普查，就可以有姓名、性别、出生年月日、籍贯、婚姻状况、民族、政治面貌、地区等，企业调查，可以有净资产、负债、盈利、职工人数、还贷情况等等。

多个指标（变量）可以分别进行分析，但是，我们往往希望综合使用这些指标，这时，有主成份分析、因子分析等方法可以把数据的维数降低，同时又尽量不损失数据中的信息。

I. 主成份分析一、理论介绍主成份分析的目的是从原始的多个变量取若干线性组合，能尽可能多地保留原始变量中的信息。

从原始变量到新变量是一个正交变换（坐标变换）。

设有是一个维随机变量，有二阶矩，记，。

考虑它的线性变换易见如果要用尽可能多地保留原始的的信息，经典的办法是使的方差尽可能大，这需要对线性变换的系数加限制，一般要求它是单位向量，即。

其它的各也希望尽可能多地保留的信息，但前面的已保留的信息就不再保留，即要求，同时对也有的要求，在这样的条件下使最大。

设协方差阵的特征值为，相应的单位特征向量分别为（当特征根有重根时单位特征向量不唯一）。

这时的第个主成分为，，且。

记，，，则为正交阵，，，且，其中为的主对角线元素。

主成份与原始变量的相关系数称为因子负荷量（factor loading），可以证明，，。

为了减少变量的个数，希望前几个就可以代表的大部分信息。

定义为主成份的贡献率，称为主成份的累计贡献率。

一般取使得累计贡献率达到70%－80%以上。

累计贡献率表示个主成份从中提取了多少信息，但没有表达用它来恢复每一个能恢复多少，为此定义个主成份对原始变量的贡献率，为对的复相关系数平方，可以用公式计算（注意时）。

前个主成份在的个线性组合中能对最好地线性逼近。

在上面的主成份计算方法中，方差越大的变量越被优先保留信息，实际中为了消除这种影响经常把变量标准化，即令这时的协方差阵就是的相关阵。

主成分分析与因子分析

multivariate
什么是主成分分析？
将彼此相关的指标变量转化为彼此不相关的指标变量；将个数较多的指标变量转化为个数较少的指标变量。将意义单一的指标变量转化为意义综合的指标变量。
第一节主成分分析的基本原理
最简情形：相关数据的散点图：序号胸围体重 Id x1 x2 ……
基本原理
原坐标系：。x1,x2相关。x1,x2变异均匀新坐标系：。Z1,Z2不相关。Z1,Z2变异不均匀 var(Z1)>var(Z2)
坐标变换公式： z1= cosθx1 + sinθx2 + c1 z2=-sinθx1 + cosθx2 + c2
坐标变换
忽略不计
分析难度增加
multivariate
儿童生长发育指标
身高，腿长，臂长长度肩宽，胸宽，臀骨宽宽度胸围，臂围，大腿围围度如果分别用每一个指标对儿童的生长发育做评价，评价孤立，非综合。如果仅选用其中的几个独立的指标，失去了许多有用的信息，容易得出片面结论。
Error Sign
问题
寻找一种合理的综合性方法，使得：减少指标变量的个数。尽量不损失或者稍损失原指标变量中所包含的信息。(用方差衡量) 使得原本相关的指标转化为彼此不相关（用相关系数阵衡量）
多元统计分析中存在的问题和解决方法
主要存在问题多指标问题
主要解决方法主成分分析因子分析结构方程模型
例1的相关系数表
心象性别年龄身高体重胸围 y x1 x2 x3 x4 x5 性别年龄身高体重胸围
Multicollinearity !!
例1 的回归分析结果：
模型总体检验：，参数估计和检验 Var DF Est SE t Prob > |T| Int 1 54.58 124.3 0.439 X1 1 -7.76 8.07 -0.962 X2 1 0.12 0.18 0.672 X3 1 0.29 0.42 0.693 X4 1 1.12 2.26 0.497 X5 1 -0.94 2.33 -0.404

因子分析、主成分分析

通过主成分分析，可以研究多个变量之间的相关性，揭示变量
之间的内在联系。
多元回归分析
03
在多元回归分析中，主成分分析可以用来消除变量间的多重共
线性，提高回归分析的准确性和稳定性。
金融数据分析
风险评估
在金融数据分析中，主成分分析可以用来评估投资组合的风险，通过提取主要因子来反映市场的整体波动。
市场趋势分析
主成分分析案例：金融数据分析
总结词
主成分分析用于金融数据分析中，能够降低数据维度并揭示主要经济趋势。
VS
详细描述
在金融领域，主成分分析被广泛应用于股票、债券等资产组合的风险评估和优化。通过对大量金融数据进行主成分分析，可以提取出几个关键主成分，这些主成分代表了市场的主要经济趋势。投资者可以利用这些信息进行资产配置和风险管理。
特征提取
主成分分析能够提取出数据中的主要特征，突出数据中的主要变化方向，有助于揭示数据的内在规律。
数据可视化
降低数据维度后，数据的可视化变得更加容易，有助于直观地理解和分析数据。
多元统计
多元数据描述
01
主成分分析可以用来描述多元数据的总体特征，提供对多元数
据分布的整体理解。
多元相关分析
02
目的
通过找出影响观测变量的潜在结构，更好地理解数据的意义，简化复杂数据的分析，并解决诸如多重共线性等问题。
因子分析的原理
1 2 3
基于相关性
因子分析基于观测变量之间的相关性，通过找出这些相关性背后的公因子来解释变量之间的依赖关系。
降维
通过提取公因子，将多个观测变量的复杂关系简化为少数几个潜在因子的线性组合，实现数据的降维。

主成分分析与因子分析

∴
( yk ,xi )
k ii
tik
4. m个主成分对原始变量的贡献率
用xi 与 y1 , …, ym 的复相关系数的平方，作为
度量主成分y1 , …, ym包含有 xi 的信息多少的指标
称为m个主成分y1 , …, ym对原始变量xi的贡献率，
记为νi（ i21 m）。
m
m
ቤተ መጻሕፍቲ ባይዱ
i 2 ( xi ,y j ) jti2j / ii
载荷矩阵
∵ X=T y 其中 T = ( tij )

x1 x2

t11 t21
t12 t22
x p
t p1
t p2
t1 p t2 p

y1 y2

t
pp

y
p

选取前m个主成分，记

xˆ 1

一般地，第 i 主成分为：
y i tiT x
var yi i ,
i 1, p
主成分的性质
1.主成分的协方差矩阵
Y

y1

,

1
0
y p
0
p
由于 Y T T X X TY
var(Y ) var( T T x ) T T var( x )T T T T TTTTTT
标准化主成分 f 的载荷矩阵
先对m个主成分的方差标准化，再求出主成分的载荷矩阵。令：

主成分分析和因子分析(朱艳科)

主成分分析和因子分析法一、主成分分析概论主成分分析的工作对象是样本点×定量变量类型的数据表。

它的工作目标，就是要对这种多变量的平面数据表进行最佳综合简化。

也就是说，要在力保数据信息丢失最少的原则下，对高维变量空间进行降维处理。

很显然，识辨系统在一个低维空间要比一个高维空间容易得多。

英国统计学家斯格特（M.Scott ）在1961年对157个英国城镇发展水平进行调查时，原始测量的变量有57个。

而通过主成分分析发现，只需5个新的综合变量（它们是原变量的线性组合），就可以95%的精度表示原数据的变异情况，这样，对问题的研究一下子从57维降到5维。

可以想象，在5维空间中对系统进行任何分析，都比在57维中更加快捷、有效。

另一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。

他曾利用美国1929～1938年各年的数据，得到了17个反映国民收入与支出的变量要素，例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息和外贸平衡等等。

在进行主成分分析后，竟以97.4%的精度，用三个新变量就取代了原17个变量。

根据经济学知识，斯通给这三个新变量要别命名为总收入1F 、总收入变化率2F 和经济发展或衰退的趋势3F （是时间t 的线性项）。

更有意思的是，这三个变量其实都是可以直接测量的。

二、主成分分析的基本思想与理论1、主成分分析的基本思想在对某一事物进行实证研究中，为了更全面、准确地反映出事物的特征及其发展规律，人们往往要考虑与其有关系的多个指标，这些指标在多元统计中也称为变量。

这样就产生了如下问题：一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标，而另一方面随着考虑指标的增多增加了问题的复杂性，同时也由于各指标均是对同一事物的反映，不可避免地造成信息的大量重叠，这种信息有时甚至会抹杀事物的真正特征与内在规律。

基于上述问题，人们就希望在定量研究中涉及的变量较少，而得到的信息量又较多。

主成分分析和因子分析

x1-100元固定资产原值实现产值, X2-100元固定资产原值实现利税, X3-100元资金实现利税, X4-100元工业总产值实现利税, X5-100元销售收入实现利税, X6-每吨标准煤实现工业产值, X7-每千瓦时电力实现工业产值, X8-全员劳动生产率, X9-100元流动资金实现产值
SPSS操作：分析——描述统计——描述
第4题
朗莱曾分析美国联邦政府雇员人数（Y）与国民总产出隐含平减指数（X1），国民总产出（X2），失业人数（ X3），武装力量人数（X4），14岁及以上非慈善机构人口数（X5），时间变量（X6）等的关系，数据如下。他利用了美国47—62年数据（如下）做多元线性回归。现请你重新做下朗莱的工作，判断有无多重共线性，如有，试用主成分法回归分析消除多重共线性。
计算各企业经济效益的综合得分
由综合得分可排出企业经济效益的名次。
九章第2题
在企业经济效益的评价中,涉及的指标往往很多.为了简化系统结构,抓住经济效益评价中的主要问题,可利用主成分分析法进行综合评价。在对我国部分省,市,自治区独立核算的工业企业的经济效益评价中,涉及到9项指标,用主成分分析进行综合评价。
第一主成分的方差为3.686，第二主成分的方差为1.237 根据成分矩阵得到两个主成分的线性方程：
计算两个主成分对应的值：
两个主成分对应值如下表：
做标准化的因变量与主成分的线性回归：
原始变量均值和标准差如下表：
第5题
经济工作者希望通过国内总产值x1，存储量x2，消费总量x3,去预测进口总额y,为此收集了某地区共计十一年的有关数据，利用主成分估计建立回归方程。
第一主成分得分
2.858915 3.756416 -0.54939 -1.73507 -3.08695 0.320264

主成分分析和因子分析案例分析PPT课件

主成分分析和因子分析
+姓名
主成分分析
基础概念：主要成分分析就是考虑各指标之间的相互关系，利用降维方法将多个指标转换为少数几个互不相关的指标，从而使进一步研究变得简单的一种统计方法。
分析步骤：（1）原始数据标准化处理（2）计算相关数矩阵（3）计算特征值及单位特征向量（4）计算主成分的方差贡献率和累积方差贡献率（5）计算主成分
试分析一个国家参与经济全球化的过程主要受哪些因素影响?
从数据来看，一共15个因素，但有些因素是存在相关性的，同时各因素对全球化影响程度也不一样，故可采用主成分分析。
确定变量及相关步骤
因子分析结果
（1）特征值和方差贡献值
从表中可看前3个主成分已经解释了总方差的近86.7%，故可以选择前3个主成分进行分析。
谢谢大家
荣幸这一路，与你同行
It'S An Honor To Walk With You All The Way
演讲人：XXXXXX 时间：XX年XX月XX日
表明因子提取方法是主成分分析，旋转的方法是方差极大法。
得出结论：北京受x1-x15因素的影响排在第一位。山东排在最后一位。
结束语
当你尽了自己的最大努力时，失败也是伟大的，所以不要放弃，坚持就是正确的。
When You Do Your Best, Failure Is Great, So Don'T Give Up, Stick To The End
旋转后的因子载荷矩阵
是按照前面设定的“方差极大法”对因子载荷矩阵旋转的结果。在旋转前的的矩阵中，因子变量在许多变量上均有较高的载荷，从旋转后的因子可以看出，因子1在1、3、6、7、12、13、 14上有较大载荷，反映科技投入与产出情况，可以命名为创新水平因子：因子2在指标5、8、 15上较大载荷，反映地区经济发展及财政科技投入水平，可以命名为创新因子；因子3在指标9和10上有较大载荷，可以命民为高科技产业发展因子。

主成分分析与因子分析

在实际工作中，为了全面的分析问题，往往会收集很多变量，这些变量之间通常都会存在大量重复信息，如果直接用来分析，不但计算繁琐，模型复杂，而且还有一个更严重的问题就是共线性问题，前面提到过共线性问题会导致模型误差增大，失去意义。

当面对变量过多时，通常的处理方法是降维，即设法将原来众多具有一定相关性的变量，重新组合成一组新的互相无关的综合变量，这些综合变量要尽可能多的反映原有变量的信息。

降维的方法有很多，其中最常用的就是主成分分析和因子分析一、主成分分析(Principal Component Analysis，PCA)1.基本思路设有n个原始变量，如果将它们都用散点图表示，会发现一些变量是存在某种线性关系的，这就是共线性，我们可以利用这个特点，创建一个变量Yi，使它成为某些原始变量的线性组合结果Yi =β+β1x1+...βnxn，这样处理之后，n个原始变量就转化为i个新变量，这i个新变量不同程度的反映了原始变量的信息，并且互不相关，这就解决了共线性问题。

那么接下来的问题是，n个变量的线性组合有很多种，我们取哪种结果作为新变量呢？经典的方法就是根据方差来判断，方差越大，变异越大，而我们的目的并不是消除变异，而是用尽可能少的新变量表示大部分原始变量，因此变异信息也必须尽量完整的反映。

我们将新变量按照方差大小排序，最大者也就是包含变异最多的为第一主成分，以此类推，通常只取前面几个最大的主成分，这样虽然损失部分信息，但是抓住了主要变异，如果全都取的话是没有意义的，因为原则上有多少个原始变量，就可以提取多少个主成分，但是这样做违背了降维的目的，多数情况下，取钱2-3个主成分就可以代表90%以上的变异信息，其余的可以忽略不计。

2.计算过程前面讲了PCA的基本思路，现在用具体数学算法来加以实现<1>数据标准化由于每个变量都有自己的数量级和量纲，首先要对变量进行标准化处理以消除这方面的差异<2>计算协方差矩阵或相关系数矩阵对于一维数据，也就是一个变量的数据，我们可以用均值、方差、标准差来描述，而协方差用于衡量两个变量的总体误差，如果多于两个变量，那就要用协方差矩阵来表示。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

X=
X11
X21
X n1
X12 X22
Xn2
X1m
X2m
Xnm
2021-2-8
xx
17
2. 求出X1 , X2 , … , Xm 的相关矩阵R
r11
R=Cov(X)
=
r21
rm1
r12 r1m
r22 r2m
rm2
rmm
2021-2-8
xx
18
(X X)(X X) n1
还必须能充分反映个体间的变异，一
项指标在个体间的变异越大，提供的信息
量越多。
2021-2-8
xx
7
二、数学模型及几何意义
Z1 a11X1 a12X2 a1mXm Z2 a21X1 a22X2 a2mXm
Zm am1X1 am2X2 amm Xm
2021-2-8
xx
8
Z=AX
样品号
1 2
观测指
X1
X2
X11
X12
X21
X22
标 Xm X1m X2m
n
2021-2-8
Xn1
Xn2
xx
Xnm
15
（一）主成分的求法 1. 对各原始指标值进行标准化
X'ij
Xij Xj Sj
j 1, 2 ,, m
为了方便，仍用Xij表示Xij’。
2021-2-8
xx
16
标准化后的数据矩阵
第20章
主成分分析与因子分析
Principal Components Analysis & Factor Analysis
第二军医大学卫生统计学教研室张罗漫
2021-2-8
xx
1
讲课内容：
第一节主成分分析第二节因子分析
2021-2-8
xx
2
第一节主成分分析
Principal Components Analysis
2021-2-8
xx
3
一、基本思想
➢数据的降维、数据的解释将原来众多具有一定相关性的指标，组合成一组新的相互无关的综合指标。从中选取几个较少的综合指标尽可能多的反映原来众多指标的信息。
➢这种既减少了指标的数目又抓住了主要矛盾的做法有利于问题的分析和处理。
2021-2-8
xx
4
某地 208 名 14 岁男中学生 15 项形态指标测试结果
r21 ai1+ (r22－ i) ai2+ + r2m aim=0
rm1 ai1+ rm2 ai2+ + (rmm－ i) aim =0
i为矩阵R的第i个特征值，共有m个非负特征值，由大到小的顺序排列为：
1≥ 2≥ ≥ m≥0
i=Var(Zi)
2021-2-8
xx
21
4. 由以上方程组，求出相应于特征值 i 的特征向量(eigenvector)
2021-2-8
xx
11
相关变异
-2
2021-2-8
X2 2
1
-1
0
1
-1
-2
xx
2
X1
12
Z2 2
X2 2
1
1
1
2
Z1
-2
-1
1
2
0
X1
-1
-1
-1
-2
-2
-2
2021-2-8
xx
13
相关
变异
Z2 2
1
2
Z1
1
0
-1
-1
-2
2021-2-8
xx
-2
14
三、主成分的求法及性质
表 20－1 主成分分析的原始数据表
Z1
a11 a12 … a1m
X1
Z2 =
a21 a22 … a2m
X2
┇
┇
┇
…┇
┇
Zm
am1 am2 … amm
Xm
2021-2-8
xx
9
第一主成分
Z1 a11X1 a12X2 a1mXm a121 a122 a12m 1
Var (Z1 ) 在所有Zi中最大
2021-2-8
xx
(XX)(Y Y) lXY Pearson 相关系数 (X X)2 (Y Y)2 lXXlYY
r (X X) (Y Y) (X X)2 (Y Y)2
r 1 n1
2021-2-8
XX SX
YSYYxx
标准化后的协方差
19
3. 求出矩阵R的全部特征值(eigenvalue) i, 第i个主成分的组合系数ai1, ai2, , aim满
➢ 利用所有指标：各指标评价的结论可能不一致，使综合
评价困难；
工作量大。
2021-2-8
xx
6
➢ 找出几个综合指标(长度、围度、特体)，这些综合指标是原始指标的线性组合，既保留了原始指标的信息，且互不相关。
➢ 各综合指标提供的“信息”量大小用其方差来衡量。
➢ 衡量一个指标的好坏除了正确性与精确性外，
1 140.0 76.0 36.3 32.0 23.0 16.1 61.1 38.7 32.4 23.1 71.3 41.8 31.6 22.3 20.5 xx
例
2 141.6 76.2 31.4 29.0 22..0 15.6 60.6 38.8 32.5 21.8 65.7 41.7 29.0 19.8 17.5
足方程组:
(r11－ i) ai1+ r12 ai2+ + r1m aim =0 r21 ai1+ (r22－ i) ai2+ + r2m aim=0
rm1 ai1+ rm2 ai2+ + (rmm－ i) aim =0
2021-2-8
xx
20
(r11－ i) ai1+ r12 ai2+ + r1m aim =0
号
…… …… …… …… …… …… …… …… …… …… …… …… …… …… …… ……
208
176.6
89.7
57.7
37.0
26.5
19.0
75.8
48.8
42.0
26.6
79.0
49.0
35.5
24.0
22.0
5
如何利用这些指标对每一儿童的生长发育作出正确评价？
➢ 仅用单一指标：结论片面；没有充分利用原有数据信息。
指标、单位
身高 (X1) cm 坐高 (X2) cm 体重 (X3) kg 肩宽 (X4) cm 骨盆宽 (X5) cm 手长 (X6) cm 上肢长 (X7) cm 小腿加足高 (X8) cm 小腿长 (X9) cm 足长 (X10) cm 胸围 (X11) cm 大腿围 (X12) cm 小腿围 (X13) cm 上臂紧张围 (X14) cm 上臂2放02松1-2围-8 (X15) cm
10
第二主成分
Z2 a21X1 a22X2 a2m Xm
a
2 21
a
2 22
a
2 2m
1
Z1与Z
无关，互相垂直：
2
a a 21 11 a a 22 12 a a 2m 1m 0
Var (Z2 )在所有Zi中为第2大。
……
理论上主成分个数最多为m个(指标个数)
实际工作中确定的主成分个数总是小于m个
(ai1 , ai2 , , aim)’