spss课件主成分分析与因子分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

总体主成分

易知有 Var (Yi ) Var (liT X ) liT li , i 1, 2,, p,
Cov(Yi , Y j ) Cov(liT X , l T X ) liT l j , j 1, 2,, p. j
我们希望用Y1 代替原来 p 个变量 X 1 , X 2 , , X p ,这就要 求 Y1 尽可能地反映原来 p 个变量的信息。这里用方 Var (Y1 ) l1T l1 达到最大。 差来度量。即要求 l kl1 , 对任意常数 k ,若取 1 T 则 Var (l1 X ) k 2Var (l1T X ) k 2l1T l1 。
由此可得 Yi 与X j 的相关系数为
Y , X
i j
Cov(Yi , X j ) Var (Yi ) Var ( X j )

i eij i jj

i jj
eij .
注意:此公式的记忆,应根据实际含义,即第i个主成分的标准差除以第j个原变量 的标准差,然后乘以第i个特征向量的第j个分量
T T T Var (Y2 ) l2 l2 z2 PT Pz2 z2 z2
从而 z 2 z 2 z 2 1 21 2 22 p 2p
T T 2 z2 z2 2l2 l2 2 ,
z2 (0,1,, 0)T ,即 l2 Pz2 e时, 2 并且当 Var (Y2 由此知,当 ) 2 时,满足 l2 e2, T l2 l2 1 Cov(Y2 , Y1 ) 0 Var (Y2 ) 2 使
Yi (e ) X e
* * T i *
* i1
X 1 1
11
* i
e
p
* i2
X 2 2
22
p
e
* ip
X p p
pp
, i 1, 2, , p.
(4.6)
并且
Var (Y
i 1
p
) i* Var ( X i* ) p,
由此得主成分的方差为
Var (Yi ) i tr ( PT P) tr (PPT ) tr () Var ( X i )
i 1 i 1 i 1 p p p
总体主成分的性质
Var (Y ) Var ( X )
i 1 i i 1 i p p
Var (Yk ) k
其中 i E ( X i ), ii Var ( X i ) 。
标准化变量的主成分

* X * ( X 1* , X 2 , , X * )T 的协方差矩阵便是 这时, p X ( X 1 , X 2 ,, X p )T 的相关矩阵 ( ij ) p p ,其中
如果我们只取第一主成分,则贡献率为
5.83 73% 5.83 2.00 0.17
若取前两个主成分,则累计贡献率为
5.83 2.00 98% 5.83 2.00 0.17

进一步可求得前两个主成分与各原始变量的相关系 数 5.38 0.383 0.925,
总体主成分
因此,必须对l1 加以限制,否则Var (Y1 )无 界。最方便的限制是要求 l1 具有单位长度, l1 即我们在约束条件 l1T l1 1 之下,求 l1 使 Var (Y1 ) 达到最大,因此 所确定的随机变量 Y1 l1T X 称为 X 1 , X 2 , , X p 的第一主成分。
m i 1 * i
* i * j
例11.2

设X ( X 1 , X 2 )T 的协方差矩阵为 相应的相关矩阵为
1
1 4 4 100
0.4 0.4 1
分别从 和 出发,作主成分分析。
例11.2

解 如果从 出发作主成分分析,易求得其特征值 和相应的正交单位化特征向量为
。 且
总体主成分的性质

主成分的协方差矩阵及总方差 Y (Y1 , Y2 ,, Yp )T 为主成分向量,则 Y PT X ,其 记 P 中 (e1 , e2 ,, e p ) ,且 Cov(Y ) Cov( PT X ) PT P Diag (1 , , p )
ij E ( X X )
* i * j
Cov( X i , X j )
ii jj
.
利用X 的相关矩阵 作主成分分析,可以得到如下 结论:
标准化变量的主成分

* 设X * ( X 1* , X 2 ,, X * )T 为标准化的随机向量,其协方差 p 矩阵(即 X 的相关矩阵)为 ,则X * 的第 个主成分 i 为
i 1 i 1
* * * * ei 其中 1 2 p 0 为 的特征值, (ei*1 , ei*2 ,, eip )T 为相 ( 应于特征值 i 的正交单位化特征向量i 1, 2,, p) 。这时, * i,前 个主成分的累计 p i 第 个主成分的贡献率为 * m * * Xj Y , X i* eij Yi的相关系数为 贡献率为 , p 与

X ( X 1 , X 2 , X 3 )T 设随机变量
的协方差矩阵为
1 2 0 2 5 0 0 0 2
求X 的各主成分。 解 易求得 的特征值及相应的正交单位化特征向 量分别为 1 5.83, e1T (0.383, 0.924, 0),
Y1 , X1
例4.1
Y , X
1
2
5.38 (0.924) 0.958, 5 5.38 0 0. 2
Y , X
1 3
Y , X 0, Y , X 0, Y , X 1,
同理,可求得
2 1 2 2 2 3
Y 即 Y1与 X 1,X 2 高度相关而与 X 3不相关; 2 与 X 3,以 概率1呈完全线性关系。
T T Cov(Y2 , Y1 ) l2 e1 1l2 e1 0
即有
T l2 l2 1
T l2 e1 0 且
总体主成分的求法


Z 2 ( z21 , z22 , , z2 p )T PT l2 ,
T T T T l2 e1 z2 PT e1 z21e1 e1 z22e2 e1 z2 p eT e1 z21 0, p 则有
标准化变量的主成分

在实际问题中,不同的变量往往有不同的量纲,由 于不同的量纲会引起各变量取值的分散程度差异较 大,这时总体方差则主要受方差较大的变量的控制。 若用
求主成分,则优先照顾了方差大的变量,有时会造 成很不合理的结果。为了消除由于量纲的不同带来 的影响,常采用变量标准化的方法,即令 X i i * Xi , i 1, 2, , p, (4.4) ii
总体主成分


如果第一主成分 Y1 还不足以反映原变量的信息, 进一步求 Y2 。 在约束条件 Cov(Y1 , Y2 ) l1T l2 0
T l2 l2 1
T 求使 Y2 l2 X 达到最大。
T 第二主成分:Y2 l2 X 依次类推……
P
总体主成分的求法

设是 的协方差矩阵, 的特征值 及相应的正交单位化特征向量分别为1 2 p 0 及 e1 , e2 , , e p ,则 X 的第 i 个主成分为
Cov (Yi , Yk ) eiT ek k eiT ek 0, i k .
事实上,令 P (e1 , e2 ,, e p ) ,则 P 为一正交矩阵, T P P Diag (1 , 2 ,, p ) 且
总体主成分ቤተ መጻሕፍቲ ባይዱ求法

Y1 l1T X 为X的第一主成分,其中 l1T l1 1 。令 设 Z1 ( z11 , z12 ,, z1 p )T PT l1 ,
各主成分与原始变量间的相关系 数 原
主 成 分 变 量
X1
1 e11 11
X2
1 e12 22 2 e22 22

Xp
1 e1 p pp
Y1

Y2
2 11
e21

2 e2 p pp


p 11
e p1

p 22
ep2

Yp

p pp
e pp
例11.1
T 2 2.00, e2 (0, 0,1), T 3 0.17, e3 (0.924, 0.383, 0).
例11.1

因此 X 的主成分为
T Y1 e1 X 0.383 X 1 0.924 X 2 , T Y2 e2 X X 3 , T Y3 e3 X 0.924 X 1 0.383 X 2 .

用为数较少的互不相关的新变量来反映原变量所提供 的绝大部分信息
引言
Y1 X 1 cos X 2 sin Y2 X 1 sin X 2 cos
总体主成分

X 设 1 , X 2 , , X p为某实际问题所涉及的 p 个随机变量。 X ( X 1 , X 2 , , X p )T 记 ,其协方差矩阵为
X ( X 1 , X 2 , , X p )T
Yi eiT X ei1 X 1 ei 2 X 2 eip X p , i 1, 2,, p,
ei (ei1 , ei 2 ,, eip )T 。易见: 其中 Var (Yi ) eiT ei i eiT ei i , i 1, 2, , p,

第 k 个主成分 Yk 的贡献率: k

i 1
p
i

前 m个主成分的累计贡献率:

i 1 i i 1
m
p
i
总体主成分的性质

主成分 Yi 与变量X j 的相关系数 由于Y PT X ,故X PY ,从而
Cov(Yi , X j ) i eij .
X j e1 jY1 e2 jY2 e pjYp ,
总体主成分的求法

Var l1T l1 1 下,当 l1 e1时, (Y1 ) 达到最大, 在约束条件

T T max{Var (Y1 )} Var (e1 X ) e1 e1 1. T l1 l1 1
T Y2 l2 X为X的第二主成分,则有 设
T l2 l2 1
( ij ) p p E ( X E ( X ))( X E ( X ))T
它是一个 p 阶负定矩阵。设 l (l , l ,, l ) 为 p 个常数向量,考虑如下线性组合:
i i1 i2 ip
T
(i 1, 2,, p)
Y1 l1T X l11 X 1 l12 X 2 l1 p X p , T Y2 l2 X l21 X 1 l22 X 2 l2 p X p , Y l T X l X l X l X . p1 1 p2 2 pp p p p
管理统计学
第十一章
Statistics for management 数据获取、统计原理 SPSS工具、管理应用
综合得分:
综合得分i (1 * y1i 2 * y2i m * ymi ) / j
j 1
m
引言

变量太多会增加计算的复杂性 变量太多给分析问题和解释问题带来困难 变量提供的信息在一定程度上会有所重叠
则 Var (Y ) l T l z T PT Pz z 2 z 2 z 2 1 1 1 1 1 1 11 2 12 p 1p
T 1 z1 z1 1l1T PPT l1 `1 ,
并且当 z1 (1, 0,, 0)T 时,等号成立。这时 l1 Pz1 e1.
相关文档
最新文档