主成分分析课件北京大学公共卫生学院郑迎东多元统计

合集下载

因子分析北京大学公共卫生学院郑迎东多元统计优秀PPT文档

因子分析北京大学公共卫生学院郑迎东多元统计优秀PPT文档

外显变量和潜变量
外显变量 上课迟到早退 按时完成作业 自觉复习功课 坚持朗诵课文 作文 词汇 口语
潜变量 学习态度
言语表达才干
因子分析
➢ 因子分析可以看成是主成份分析的一种推 行。它的根本目的是用少数几个因子F1、 F2、…去描画许多变量之间的关系。被描 画的变量X1、X2…是可以观测的随机变量, 即显在变量,而这些因子F1、F2、…是不 可观测的潜在变量。
本来自多维正态总体,那么能给出关于模 型的假设检验,如回答公因子能否“显著 〞的问题。
因子个数确实定原那么
➢ 不大于〔实践上远远少于〕原变量的个数
➢ 研讨者事先确定
➢ 从R*的特征值出发

看累积比例

看特征值大小〔大于1准那么〕

看特征值的变化速率〔碎石图〕
➢ 假设检验〔仅适用ML估计〕
碎石图
因子旋转
常用的因子正交旋转方法
主成C分法o:m 用R替p代T Ro*〔o n% 默许e ta 的n方o l法tf〕 VaC ria un mcuelativeT% o% tao l f VaC ria un mcuelative
A的1元素aij是xi与1 fj之.间7的相2关0 系数34.390 34.3901.700 33.997 33.997
R*的特征值
Total Variance Explained
Initial Eigenvalues Extraction Sums of Squared Loadin
ComponeT ntotal% of VarianCcuemulative %Total% of VarianCcuemulative %
➢ 因子负荷矩阵不是独一的
➢ 普通要求因子满足“简单构造原理〞

主成分分析完整版ppt课件

主成分分析完整版ppt课件
差最大。
问对的题应方的的差答 单 。案 位特是征:向X的量协即方为差矩a11阵, aS21的。最并大且特征就根1是1F所1
10
同样,F2可以表示为 F2 a12 (x1 x1) a22 (x2 x2 )
寻找合适的单位向量 (a12, a22 ),使F2与F1独立,且 使F2的方差(除F1之外)最大。
,
解得 k (a1k , a2k ,..., a pk )
4. 写出主成分的表达式
Байду номын сангаасFk a1k ( x1 x1 ) a2k ( x2 x2 ) ... apk ( xp xp ) 或Fk a1k x1 a2k x2 ... a pk x p
19
主成分个数的选取原则
根据累积贡献率的大小取前面m 个(m<p)主成分
问题的答案是:X的协方差矩阵S 的第二大特征根 2
所对应的单位特征向量即为
的方差。
a12, a22。并且
就2 是F2
11
F1 a11(x1 x1) a21(x2 x2 ) F2 a12 (x1 x1) a22 (x2 x2 )
其中,aij称为因子载荷量 因子载荷量:主成分与变量间的相关系数, 即:因子载荷量的大小和它前面的正负号直接反映了 主成分与相应变量之间关系的密切程度和方向。从而可以说 明各主成分的意义
Fp a1 p X1 a2 p X 2 a pp X p
满足如下的条件:
➢每个主成分的系数平方和为1。即
a12i
a22i
a
2 pi
1
➢主成分之间相互独立,即无重叠的信息。即
Cov(Fi,F)j 0,i j,i,j 1, 2, ,p
➢主成分的方差依次递减,重要性依次递减,即 Var(F1) Var(F2 ) Var(Fp )

第11章(1)主成分分析 ppt课件

第11章(1)主成分分析  ppt课件
假定有n个样本,每个样本共有p个变量, 构成一个n×p阶的地理数据矩阵
x11
X
x21
xn1
x12 x1 p
x22
x2
p
xn 2
xnp
(1)
ppt课件
20
当p较大时,在p维空间中考察问题比较麻烦。 为了克服这一困难,就需要进行降维处理,即用 较少的几个综合指标代替原来较多的变量指标, 而且使这些较少的综合指标既能尽量多地反映原 来较多变量指标所反映的信息,同时它们之间又 是彼此独立的。
2 141.503 1.684 24.301 1752.35 452.26 32.314
14.464 1.455 27.066
3 100.695 1.067 65.601 1181.54 270.12 18.266
0.162
7.474 12.489
4 143.739 1.336 33.205 1436.12 354.26 17.486
k1
k1
ppt课件
(4)
25
(二)计算特征值与特征向量:
① 解特征方程 I R 0 ,常用雅可比法 (Jacobi)求出特征值,并使其按大小顺序排
列 12 ,p0;

分别求出对应于特征值
的特征向量
i
ei(i1 ,2, ,p),要求 e i =1,即

p
其中 e表i2j 示1向量 的e i第j j个分量。e i
ppt课件
23
从以上的分析可以看出,主成分分析的
实质就是确定原来变量xj(j=1,2 ,…, p) 在诸主成分zi(i=1,2,…,m)上的荷载 lij ( i=1,2,…,m; j=1,2 ,…,p)。
从数学上容易知道,从数学上可以证明,

主成分分析方法PPT课件

主成分分析方法PPT课件

二维状况
❖ 如令
A
a1 1 a2 1

cos sin 则 Tsin cos
a1 2
a2
2
1tg1 2a12
2 a11a22
T A a 1 T c 1 2o 2 a 1 s s 0 2c in o a 2 s 2 s 2 ia 1 n s 1 2 i 2 n a 1 s 2 0 c in o a 2 c 2 s 2 o
数) P ( Z k ,x i) k l k ( i , i 1 , 2 , ,p ; k 1 , 2 , ,m )
L(lki)
1l11 1l12
1l1P
2l21 2l22
2l2P
m mllm m12
mlm P
❖ 各主成分的得分:
z1 l11x1* l12x2* l1px*p z2 l21x1* l22x2* l2px*p
6
6
6
6
y1 2j
j1
y2 2j
j1
x1 2j
j1
j1x2 2 ?j??
❖ 每个平方和都是6个点在相应坐标轴上方差的〔6-1〕

S2 1 n n1i1
2
xi x
V ( Y 1 a ) V r ( Y 2 a ) V r( X a 1 ) V r( X a 2 ) r
❖由
6
X
x21
x22
x2
p
xn1
xn2
xnp
❖ 当p较大时,在p维空间中考察问题比较麻烦。 为了抑制这一困难,就需要进展降维处理.
❖ 要求:较少的几个综合指标尽量多地反映原来 较多变量指标所反映的信息,同时它们之间又是 彼此独立的
例,成绩数据

第五章主成分分析 (2)PPT课件

第五章主成分分析 (2)PPT课件
(3)如何解释主成分所包含的实际意义。
12
第二节 总体主成分
主成分分析也称主分量分析,是由Hotelling于 1933年首先提出的。由于多个变量之间往往存在着 一定程度的相关性。人们自然希望通过线性组合的 方式,从这些指标中尽可能快地提取信息。当第一 个线性组合不能提取更多的信息时,再考虑用第二 个线性组合继续这个快速提取的过程,……,直到 所提取的信息与原指标相差不多时为止。这就是主 成分分析的思想。一般说来,在主成分分析适用的 场合,用较少的主成分就可以得到较多的信息量。 以各个主成分为分量,就得到一个更低维的随机向 量;因此,通过主成分既可以降低数据“维数”又 保留了原数据的大部分信息。
假定有n个样本每个样本共有p个变量构成一个np阶的数据矩阵2221121151假设我们所讨论的实际问题中有p个指标我们把这p个指标看作p个随机变量记为x主成分分析就是要把这p个指标的问题转变为讨论p个指标的线性组合的问题而这些新的指标ykp按照保留主要信息量的原则充分反映原指标的信息并且相互不相关
主成分分析
• • •

• • •• •

• •
• •
•• •

•• • • • • •




• ••
• • ••

•• • •

•• •
•• •

x1


••
• •

23
为了方便,我们在二维空间中讨论主成分的几何意义。 设有n个样品,每个样品有两个观测变量xl和x2,在由变 量xl和x2 所确定的二维平面中,n个样本点所散布的情况 如椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方 向或x2轴方向都具有较大的离散性,其离散的程度可以分 别用观测变量xl 的方差和x2 的方差定量地表示。显然,如 果只考虑xl和x2 中的任何一个,那么包含在原始数据中的 经济信息将会有较大的损失。

北京大学统计学经典课件第七章——主成分分析和因子分析

北京大学统计学经典课件第七章——主成分分析和因子分析

• 对于我们的数据,SPSS输出为
Total Varianc e Explai ned Initial Eigenvalues Component Total % of Variance Cumulative % 1 3.735 62.254 62.254 2 1.133 18.887 81.142 3 .457 7.619 88.761 4 .323 5.376 94.137 5 .199 3.320 97.457 6 .153 2.543 100.000 Extraction Method: Principal Component Analysis. Extraction Sums of Squared Loadings Total % of Variance Cumulative % 3.735 62.254 62.254 1.133 18.887 81.142
R o t a t e d C o m p o n e n t M a t r ia x Component 1 2 MATH -.387 .790 PHYS -.172 .841 CHEM -.184 .827 LITERAT .879 -.343 HISTORY .911 -.201 ENGLISH .913 -.216 Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 3 iterations.
• 主成分分析与因子分析的公式上的区别
y1 a11 x1 + a12 x2 + + a1 p x p y2 a21 x1 + a22 x2 + + a2 p x p y p a p1 x1 + a p 2 x2 + + a pp x p

第三章第5节主成分分析PPT课件

❖ 100个学生的数学、物理、化学、语文、历史、英 语的成绩如下表(部分)。
4
从本例可能提出的问题
❖ 目前的问题是,能不能把这个数据的6个变量用 一两个综合变量来表示呢?
❖ 这一两个综合变量包含有多少原来的信息呢? ❖ 能不能利用找到的综合变量来对学生排序呢?
这一类数据所涉及的问题可以推广到对企业, 对学校进行分析、排序、判别和分类等问题。
第5节 主成分分析
❖主成分分析的基本原理 ❖主成分分析的解法 ❖主成分分析方法应用实例
1
整体概述
概况一
点击此处输入相关文本内容 点击此处输入相关文本内容
概况二
点击此处输入相关文本内容 点击此处输入相关文本内容
概况三
点击此处输入相关文本内容 点击此处输入相关文本内容
2
问题的提出
❖ 地理系统是多要素的复杂系统。在地理学研究中,多变量 问题是经常会遇到的。变量太多,无疑会增加分析问题的 难度与复杂性,而且在许多实际问题中,多个变量之间是 具有一定的相关关系的。
9
❖ 正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有 几个变量,就有几个主成分。
❖ 选择越少的主成分,降维就越好。什么是标准呢?那就是 这些被选的主成分所代表的主轴的长度之和占了主轴长度 总和的大部分。有些文献建议,所选的主轴总长度占所有 主轴长度之和的大约85%即可,其实,这只是一个大体的 说法;具体选几个,要看实际情况而定。
X2的方差定量地表示,显然,若只
考虑X1和X2中的任何一个,原始数
据中的信息均会有较大的损失。
θ
X1
z z1 2jj x x1 1jj(cso i sn )x2 jx s2jic no s j1,2, ,n
14
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

20
实例主成分分析结果— 特征值(方差)及其比例
Total Variance Explained
Component
1 2 3 4 5 6
Extraction Sums of Squared Loadings
Total % of Variance Cumulativ e %
3.173
52.885
52.885
4 -.164 -.252 .296 .323 -.302 .217
Extraction Method: Principal Component Analysis. a. 6 components extracted.
5 .079 .106 .121 .088 -.109 -.264
6 .130 -.119 -.003 .002 .016 -.016
(ai1 ai2 … aip)’则是相关矩阵R的第i个特征值对应的特征向量。
i是第i个主成分的方差
2021/4/23
Dept. of Epidemio & Biostat, SPH
15
主成分的计算 2
• 记主成分C=(C1 C2 … Cp)’,则 C=A’x 即
C1 C2
a11 a21
a12 a22
100.000
Extraction Method: Principal Component Analysis.
2021/4/23
Dept. of Epidemio & Biostat, SPH
11
主成分的概念 1
• 设x1,x2,…xp为 p 维随机变量 X1,X2,…,Xp
的标准化变换 xi ( X i X i ) / Si
1
主成分分析
Principal Component Analysis
协方差矩阵
样本的方差-协方差矩阵(variance-covariance matrix)
如果有p个观测变量 x1, x2 ,, x p , 则样本
的协方差矩阵记为
s11 s12 s1 p
S
s21
s p1
s22
sp2
4
矩阵的特征值和特征向量
• 对于方阵A,如存在常数λ及非零向量x, 使
Ax= λx 则λ为A的一个特征值,x为与λ对应的矩 阵A的特征向量。
n介方阵有n对特征值和特征向量
2021/4/23
Dept. of Epidemio & Biostat, SPH
5
正交向量(阵)、单位向量
• 正交向量: a=(a1,…,ap)’, b=(b1,…,bp)’ 如果a’b=a1b1+…+apbp=0,则称a、b正交
13
主成分的性质
• 主成分 C1,C2,…,Cp 具有以下性质:
(1)主成分间互不相关Corr(Ci,Cj)=0 i j
(2)向组量合系数(ai1,ai2,…,aip)构成的向量为单位
(3)各主成分的方ቤተ መጻሕፍቲ ባይዱ是依次递减的, 即
Var(C1)≥Var(C2)≥…≥Var(Cp) (4) 总方差不增不减, 即
• 单位向量:向量a=(a1,…,ap)’,如果
则称a为单位向量
a12 a22 ... a2p 1
• 正交阵:n阶方阵A,如果
AA’=A’A=I,则称A为n阶正交阵,其中
A的列向量(或行向量)为正交向量,A’=A-1
2021/4/23
Dept. of Epidemio & Biostat, SPH
21
主成分分析结果—L矩阵
Component Matrixa
Component
身高 坐高 胸围 肩宽 骨盆宽 体重
1 .930 .936 .616 .336 .330 .911
2 -.225 -.092 -.054 .753 .802 -.209
3 -.184 -.162 .718 -.455 .379 -.101
AΛA R 即
a11 a12
... a1p
a21
a22
... a2 p
...
...
... ...
a p1
ap2
... a pp
1
0
...
0
p
A
1
r21 ... rp1
r12 1
... rp 2
... ...
r1 p r2 p
... ... ... 1
其中i为相关矩阵R的第i个特征值(eigenvalue)
2 -.225 -.092 -.054 .753 .802 -.209
3 -.184 -.162 .718 -.455 .379 -.101
4 -.164 -.252 .296 .323 -.302 .217
Extraction Method: Principal Component Analysis.
s2 p
s pp
sii
si2
1 n 1
j
( xij xi )2 , i 1,2,, p
sik
i
ski
1 n 1
k; i 1,2,,
( xij xi )(xkj
j
p; k
1,2,,
p
xk
)
2021/4/23
Dept. of Epidemio & Biostat, SPH
3
相关矩阵
注意L矩阵的下标,是列在前,行在后
2021/4/23
Dept. of Epidemio & Biostat, SPH
22
主成分分析结果—L矩阵
Component Matrixa
Component
身x高1
坐x高2
胸x围3 肩x宽4
骨x盆5 宽
体x重6
1 .930 .936 .616 .336 .330 .911
6
190
180
170
160
HEIGHT
150
60
62
64
66
68
70
72
74
WEIGHT
2021/4/23
Dept. of Epidemio & Biostat, SPH
7
2021/4/23
Dept. of Epidemio & Biostat, SPH
8
2021/4/23
Dept. of Epidemio & Biostat, SPH
如果其线性组合
C1 a11x1 a12 x2 ... a1p xp
满足
a121 a122 ... a12p 1,且使Var(C1)最大, 则称C1为第一主成分。
2021/4/23
Dept. of Epidemio & Biostat, SPH
12
主成分的概念 2
• 若 C2 a21x1 a22 x2 ... a2 p xp
a. 6 components extracted.
5 .079 .106 .121 .088 -.109 -.264
6 .130 -.119 -.003 .002 .016 -.016
c1
c2
c3
c4
c5
c6
注意L矩阵的下标,是列在前,行在后
2021/4/23
Dept. of Epidemio & Biostat, SPH
28城 市 男 生 形 态 指 标 平 均 数a
身高 坐高 胸围
1
173.28 93.62 86.72
2
172.09 92.83 87.39
3
171.46 92.78 85.59
4
170.08 92.25 85.92
5
170.61 92.36 87.46
6
171.69 92.85 87.45
7
171.46 92.93 87.06
23
主成分和原变量的关系
• 观察L矩阵,由相关系数做出解释 • 主成分未必一定有明确的解释 • 选取有明确解释的主成分做综合指标,
主成分得分就是“综合指数”。
2021/4/23
Dept. of Epidemio & Biostat, SPH
24
实例的标准化第一主成分得分
2021/4/23
Dept. of Epidemio & Biostat, SPH
a1 p a2 p
x1 x2
... Cp
a p1
ap2
...
a
pp
... xp
2021/4/23
Dept. of Epidemio & Biostat, SPH
16
主成分的计算 3
• 因子模型(全分量模型)表达形式
x=AC

x1 x2
a11 a12
a21 a22
a p1 ap2
C1 C2
a12
1
xp
a1
p
1
a21 2 a22 2
a2 p 2
ap1 p C1 / 1
...
ap2
p
C2
/ ...
2
app p C p / p
2021/4/23
Dept. of Epidemio & Biostat, SPH
18
x1 l11
x2 ...
l12
x p l1p
9
2021/4/23
Dept. of Epidemio & Biostat, SPH
10
Total Variance Explained
相关文档
最新文档