第8章-主成分分析与因子分析-1

合集下载

主成分分析与因子分析

主成分分析与因子分析
主成分分析与因子分析
汇报人:张 强 组员:林培鸿 曾志成 邦锦阳 郝 超 蔡凌峰 杨 辉 张 强
一、主成分分析
一、主成分分析基本思想
通过原来变量的少数几个线性组合来解释原来变量绝大 多数信息的一种多元统计方法。
该方法主要基于众多变量之间有一定的相关性,则必然 存在着起支配作用的共同因素这一想法,通过对原始变量相 关矩阵或协方差矩阵内部结构关系进行研究,利用原始变量 的线性组合形成几个综合指标,即主成分。
有时为了使公共因子的实际意义更容易解释,往往需要放 弃公共因子之间不相关的约束而进行斜交旋转。最常用的 斜交旋转方法为Promax方法。
参数设置
结果分析
由模式矩阵可知,变量X2,X3,X4在第一公共因子上的载荷 均较大,尤其X3的载荷最大,因此第一公共因子主要反映 水泥企业的规模;变量X6,X7在第二公共因子上的载荷较大, 则第二公共因子主要反映水泥企业的营业能力。总之,两 个公共因子均较未旋转前更容易解释。
主成分分析与因子分析的区别
二者的本质不同主要体现在以下几个方面:
(1) 因子分析把诸多变量看成是对每一个变量都有作用的一 些公共因子和一些仅对某一个变量有作用的特殊因子的线 性组合。因此,其目的就是要从数据中探查能对变量起解 释作用的公共因子和特殊因子,以及公共因子和特殊因子 的组合系数。主成分分析则简单一些,它只是从空间生成 的角度寻找能解释诸多变量绝大部分变异的几组彼此不相 关的新变量(主成分),它是一种可逆的数据变换。
相关性检验结果
由表可知,除了变量X7,原始各变量之间存在较强的相关性。 KMO统计量的值为0.785,在0.01的显著性水平下,球形检 验拒绝相关阵为单位阵的原假设,说明适合做因子分析, 并且因子分析的效果较好。

主成份分析和因子分析

主成份分析和因子分析

27
用SPSS计算的主成分得分


1、把原始变量标准化;按照主成分的计算 公式可以计算出主成分得分。 注:SAS、S-plus、R等软件可以直接给出 主成分的系数表和主成分得分。
中央财经大学统计学院
28
主成分分析案例2

100个学生的六门成绩(数学、物理、化学、 语文、历史、英语)见STUDENT.SAV。 根据数据进行主成分分析。
志向抱负 理解能力 潜能
.704
.842 .721 .672
.698
.758 .883 .777
.280
.215 .386 .416
.815
.860 .782 .754
.337
.195 .299 .348
求职渴望 度
适应力
.482
.250
.527
.416
.448
.003
.563
.558
.215
.693
一项十分著名的工作是美国的统计学家斯通 (Stone)在1947年关于国民经济的研究。他 曾利用美国1929一1938年各年的数据,得到 了17个反映国民收入与支出的变量要素,例 如雇主补贴、消费资料和生产资料、纯公共 支出、净增库存、股息、利息外贸平衡等等。 在进行主成分分析后,竟以97.4%的精度, 用三个新变量就取代了原17个变量。
简历格式 自信心 .092 洞察力 .228 诚信度 -.107 推销能力 .271 工作经验 .548

相关系 数表中 有较大 的相关 系数, 主成分 分析可 能有效。
外貌
研究能力 兴趣爱好 自信心
.431
.001 .302 1.000
.371
.077 .483 .808

spss第8章主成分分析与因子分析

spss第8章主成分分析与因子分析
意的 i, j (1 ≤ i ≤ m,1 ≤ j ≤ n) , Cov(xi , x j ) 都存在,则称矩阵
, yn ) 是 n 维随机向量. 若对任
⎛ Cov(x1, y1) Cov(x1, y2 )
⎜ ⎜
Cov(
x2
,
y1
)
Cov(x2 , y2 )

⎜ ⎝ Cov(xm , y1) Cov( xm , y2 )
⎟ ⎟

xpn ⎟⎟⎠
(σ ij ) p× p
, F = AX
Cov(F) = Cov(AX, AX) = ACov(X)A′ V (F)
由于 Cov(X) 是非负定对称矩阵,所以存在正交矩阵 U ,使得
⎡λ1 0
0⎤
U−1Cov(X)U
=
⎢ ⎢ ⎢
0
λ2
0
⎥ ⎥

⎢ ⎣
0
0
λ
p
⎥ ⎦
其中 λ1, λ2, ,λp 为 Cov(X) 的特征根,不妨假设 λ1 ≥ λ2 ≥
(5)若 X 是随机向量, Cov(X) 存在,则 Cov(X) 是非负定矩阵.
后面的推导过程中用到两个线性代数中的 2 个重要结论. 定理 7-2 (1)若 A 是 p 阶实对称阵,则一定可以找到正交阵 U ,使
⎡λ1 0
0⎤
U−1AU
=
⎢ ⎢ ⎢
0
λ2
0
⎥ ⎥

⎢ ⎣
0
0
λp
⎥ ⎦
其中 λi ,i = 1.2. p 是 A 的特征根.
(3)对任何向量 a = (a1, a2 , , am )′ , b = (b1,b2 , , bn )′ ,有 Cov(a′X, b′Y) = a′Cov(X, Y)b . (4)对任何 p × m 阶矩阵 A , q × n 阶矩阵 B ,有 Cov(AX, BY) = ACov(X, Y)B′

SPSS主成分分析与因子分析

SPSS主成分分析与因子分析

参考文献
6、甘肃省区域综合经济实力变动分析 作者:魏奋子《开发研究》2003年第3期P43~45 7、江苏省区域经济实力的综合评价与实证分析 作者:门可佩《江苏统计》2001年第12期P15~17 8、数理统计方法在河南经济发展水平和分区研究中
的应用 作者:刘钦普《数理统计与管理》 2002年第3期
X1
cos2 sin2 1
(
sin
)
2
cos2
1
cos ( sin ) sin cos 0
Y1 Y2
cos sin
s in cos
X1 X2
U
X
§8.1.2主成分分析的基本概念
主成分分析(Principle Component Analysis) 也称主分量分析,是一种将多个指标化为少数几个综合指 标的统计分析方法。
2.Y1是X1、X2、…、X p的一切线性组合中方差最大的; Y2是与Y1不相关的X1、X2、…、X p的一切线性组合 中方差最大的;( Y2的方差小于Y1的方差); Y p是与Y1、Y2、…、Yp-1都不相关的X1、X2、…、X p的一切线性组合中方差最大的( Y p的方差小于 Y1 、Y2 、 … 、 Yp-1的方差)。 这样确定的综合指标就称为原变量的第一主成分, 第二主成分,第p主成分。
二、几个重要的概念
1.因子载荷
在因子分析模型中,a i j称为因子载荷,它反应了第i个原始 变量Xi在第j个公因子F j上的相对重要性。可以证明原始 变量Xi与公因子F j之间的相关系数等于a i j ,即
rYk ,Xi aij k eki
k, i 1,2,, p
a i j的绝对值越大,表示原始变量Xi与公因子F j之间 关系越密切。

卫生统计学:主成分分析与因子分析

卫生统计学:主成分分析与因子分析
〔factor loading〕矩阵
通常先对x作标准化处理,使其均值为 零,方差为1.这样就有
x i a i1 f1 a i2 f2 a im fm e i
假定〔1〕fi的均数为 i22 0,方差为1; 〔2〕ei的均数为0,方差为δi; 〔3〕 fi与ei相互独立.
那么称x为具有m个公共因子的因子模型
〔2〕δi称为特殊方差〔specific variance〕,是不能由公共因子解 释的局部
▪ 因子载荷〔负荷〕aij是随机变量xi与 公共因子fj的相关系数。
▪设
p
g
2 j
a
2 ij
i1
j 1, 2 ,..., m
▪ 称gj2为公共因子fj对x的“奉献〞, 是衡量公共因子fj重要性的一个指标。
根本思想:使公共因子的相对负荷 〔lij/hi2〕的方差之和最大,且保持 原公共因子的正交性和公共方差总和 不变。
可使每个因子上的具有最大载荷的变量 数最小,因此可以简化对因子的解释。
〔2〕斜交旋转〔oblique rotation〕
因子斜交旋转后,各因子负荷发生 了较大变化,出现了两极分化。各 因子间不再相互独立,而彼此相关。 各因子对各变量的奉献的总和也发 生了改变。
ai2j
g
2 j
i1
▪ 极大似然法〔maximum likelihood factor〕
▪ 假定原变量服从正态分布, 公共因子和特殊因子也服从正态分 布,构造因子负荷和特殊方差的似 然函数,求其极大,得 factor〕
▪ 设原变量的相关矩阵为 R=(rij),其逆矩阵为R-1=(rij)。 各变量特征方差的初始值取为逆 相关矩阵对角线元素的倒数, δi’=1/rii。那么共同度的初始值 为(hi’) 。

主成分分析和因子分析-回归分析和相关分析的区别

主成分分析和因子分析-回归分析和相关分析的区别

主成分分析和因子分析的区别通过主成分分析所得来的新变量是原始变量的线性组合,每个主成分都是由原有P个变量线组合得到,在诸多主成分z中,Z1在总方差中占的比重最大,说明它综合原有变量的能力最强,其余主成分在总方差中占的比重依次递减,说明越往后的主成分综合原信息的能力越弱。

以后的分析可以用前面几个方差最大的主成分来进行,一般情况下,要求前几个z所包含的信息不少于原始信息的85%,这样既减少了变量的数目,又能够用较少的主成分反映原有变量的绝大部分信息。

如利用主成分来消除多元回归方程的多重共线性,利用主成分来筛选多元线性回归方程中的变量等。

通过因子分析得来的新变量是对每一个原始变量进行内部剖析。

打比喻来说,原始变量就如成千上万的糕点,每一种糕点的原料都有面粉、油、糖及相应的不同原料,这其中,面粉、油、糖是所有糕点的共同材料,这正好象是因子分析中的新变量即因子变量。

正确选择因子变量后,如果想考虑成千上万糕点的物价变动,只需重点考虑面粉、油、糖等公共因子的物价变动即可。

所以因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。

即因子分析就是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它把原始变量分解为两部分因素,一部分是由所有变量共同具有的少数几个公共因子构成的,另一部分是每个原始变量独自具有的因素,即特殊因子。

1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各个变量的线性组合。

在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1,x2,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。

在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。

2、主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。

主成分分析与因子分析

主成分分析与因子分析


( yk ,xi )
k ii
tik
4. m个主成分对原始变量的贡献率
用xi 与 y1 , …, ym 的复相关系数的平方,作为
度量主成分y1 , …, ym包含有 xi 的信息多少的指标
称为m个主成分y1 , …, ym对原始变量xi的贡献率,
记为νi( i21 m)。
m
m
ቤተ መጻሕፍቲ ባይዱ
i 2 ( xi ,y j ) jti2j / ii
载荷矩阵
∵ X=T y 其中 T = ( tij )



x1 x2







t11 t21
t12 t22
x p
t p1
t p2
t1 p t2 p

y1 y2



t
pp


y
p

选取前m个主成分,记


xˆ 1

一般地,第 i 主成分为:
y i tiT x
var yi i ,
i 1, p
主成分的性质
1.主成分的协方差矩阵
Y



y1


,




1
0
y p
0
p
由于 Y T T X X TY
var(Y ) var( T T x ) T T var( x )T T T T TTTTTT
标准化主成分 f 的载荷矩阵
先对m个主成分 的方差标准化,再求出主 成分的载荷矩阵。令:

主成分分析和因子分析(朱艳科)

主成分分析和因子分析(朱艳科)

主成分分析和因子分析法一、主成分分析概论主成分分析的工作对象是样本点×定量变量类型的数据表。

它的工作目标,就是要对这种多变量的平面数据表进行最佳综合简化。

也就是说,要在力保数据信息丢失最少的原则下,对高维变量空间进行降维处理。

很显然,识辨系统在一个低维空间要比一个高维空间容易得多。

英国统计学家斯格特(M.Scott )在1961年对157个英国城镇发展水平进行调查时,原始测量的变量有57个。

而通过主成分分析发现,只需5个新的综合变量(它们是原变量的线性组合),就可以95%的精度表示原数据的变异情况,这样,对问题的研究一下子从57维降到5维。

可以想象,在5维空间中对系统进行任何分析,都比在57维中更加快捷、有效。

另一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。

他曾利用美国1929~1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息和外贸平衡等等。

在进行主成分分析后,竟以97.4%的精度,用三个新变量就取代了原17个变量。

根据经济学知识,斯通给这三个新变量要别命名为总收入1F 、总收入变化率2F 和经济发展或衰退的趋势3F (是时间t 的线性项)。

更有意思的是,这三个变量其实都是可以直接测量的。

二、主成分分析的基本思想与理论1、主成分分析的基本思想在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。

这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性,同时也由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息有时甚至会抹杀事物的真正特征与内在规律。

基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
X , eX ) u1 e 1u1 e 1u1i COV (Y1 , X i ) COV (u1
(Y1 , X i )
1 cov(Y1 , X i ) u1i D(Y1 ) D( X i ) ii
m个主成分对原始指标 X i 的贡献
vi 2 (Yk , X i )
主成分分析的基本思想
(以两个变量为例)


多维变量的情形类似,只不过是一个高维椭球,无法 直观地观察 每个变量都有一个坐标轴,所以有几个变量就有几主 轴。首先把椭球的各个主轴都找出来,再用代表大多 数数据信息的最长的几个轴作为新变量,这样,降维 过程也就完成了
找出的这些新变量 是原来变量的线性 组合,叫做主成分
第1步 选 择 【Analyze】 下 拉 菜 单 , 并 选 择 【Data ReductionFactor】,进入主对话框 第2步 在主对话框中将所有原始变量选入【Variables】 第3步 点击【Descriptives】,在【correlation Matrix】下 选择 【Coefficirnts】,点击【Continue】回到主对话框 第4步 点击【Extraction】,在【Display】下选择【Scree Plot】,点击【Continue】回到主对话框 第5步 点击【Rotation】,在【Display】下选择 【Loading Plot】,点击【Continue】回到主对话框 点击【OK】 用SPSS进行主成分分析
CO V( Y1 ,Y2 ) 0 D(Y1 ) D(Y2 )
主成分分析的数学模型
数学上的处理是将原始的p个变量作线性组合,作为新的 变量 ,x p ,新的变量(即主成分) 设p个原始变量为 x1,x2, 为 y1,y2, ,y p ,主成分和原始变量之间的关系表示为
y1 u11x1 u12 x2 u1 p x p y2 u21x1 u22 x2 u2 p x p y u x u x u x p1 1 p2 2 pp p p
k 1
m
1
ii k 1
2 u k ki
m
vi的信息 前m个主成分提取了 X中 i
由相关阵求主成分
指标标准化
cov(Z , Z ) R X
标准化变量的协 方差阵为原始变 量的相关系数阵
Zi
X i i
ii
求相关系数阵的特征值: 1 2 p 和对应的单位特征向量:

常被用来寻找判断事物或现象的综合指标,并对综 合指标所包含的信息进行适当的解释
主成分分析的基本思想
(以两个变量为例)
对这两个相关变量所携带的信息(在统计上信息往往是 指数据的变异)进行浓缩处理 假定只有两个变量 x1 和 x2 ,从散点图可见两个变量存 在相关关系,这意味着两个变量提供的信息有重叠
Y UX
满足(1) D(Y1 ) D(Y2 ) D(Yp ) (2) cov(Yi ,Yj ) 0 i , j 1,2,, p
u1 , u2 ,, u p正交或U为正交阵
主成分分析的基本问题
每一个主成分的系数如何确定 如何保留主成分
如何解释主成分
主成分系数的确定
Y2 u21
X 1 1
11
X 1 1
u12
u22
X 2 2
22
X 2 2
u1 p
u2 p
X p p
pp
X p p
11
22
pp
X p p

Y p u p1 X 1 1
11
u p2
X 2 2
u11 u21 u p1 u12 u22 u p2 u1 , u2 , , u p u u u 1 p 2 p pp 主成分的系数
SPSS的输出结果
各变量之间的相关系数矩阵
变量之间的存在较强的相关关系,适合作主成分分析
2008年8月
SPSS的输出结果
(选择主成分)
各主成分所解释的原始变量的方差
该表是选则主成分的主要依据
2008年8月
根据什么选择主成分?
“Initial Eigenvalues”(初始特征根)





前提假设
E( X ) 0
cov(X , X )
第一主成分的系数满足:
X Y1 u11 X1 u12 X 2 u1 p X p u1
u1 maxD(Y1 ) maxcov(Y1 , Y1 ) maxu1
系数的求解
max uu
u u 1

如果把两个变量用 一个变量来表示, 同时这一个新的变 量又尽可能包含原 来的两个变量的信 息,这就是降维的 过程
主成分分析的基本思想
(以两个变量为例)



椭圆中有一个长轴和一个短轴,称为主轴。在长轴方向,数据 的变化明显较大,而短轴方向变化则较小 如果沿着长轴方向设定一个新的坐标系,则新产生的两个变量 和原始变量间存在一定的数学换算关系,同时这两个新变量之 间彼此不相关,而且长轴变量携带了大部分的数据变化信息,而 短轴变量只携带了一小 部分变化的信息(变异) 此时,只需要用长轴方 向的变量就可以代表原 来两个变量的信息。这 样也就把原来的两个变 量降维成了一个变量 。 长短轴相差越大,降维 也就越合理

什么是主成分分析?
(principal component analysis)
主成分的概念由Karl Pearson在1901年提出 考察多个变量间相关性的一种多元统计方法 研 究 如 何 通 过 少 数 几 个 主 成 分 (principal component)来解释多个变量间的内部结构。即从 原始变量中导出少数几个主分量,使它们尽可能 多地保留原始变量的信息,且彼此间互不相关 主成分分析的目的:数据的压缩;数据的解释

坐标的旋转变换
Y1 X 1 cos X 2 sin Y2 X 1 sin X 2 cos
正交阵
Y1 cos sin Y 2
sin X 1 X cos 2
降维依据
数模讲座—— 主成分分析与因子分析
songyue25@ 宋 月
主成分分析与因子分析
1 主成分分析
2 因子分析
3 主成分分析和因子分析的区别
主成分和因子分析的作用
① 能降低所研究的数据空间的维数; ② 可以用于分析筛选回归变量,构造回归 模型; ③ 可以用于综合评价; ④ 可以对变量进行分类
m 1 m 1 1
则保留m个主成分
主成分的解释
原始指标 X i对各个主成分的贡献 相关系数:
(Yk , X i )
保留的m个主成分对每个X 的贡献 i
2 (Yk , X i ) k 1 m
主成分与原指标间的相关系数
X Y1 u11 X1 u12 X 2 u1 p X p u1
根据什么选择主成分?
根据主成分贡献率

X X 1 Y1 u11 X 1 u12 X 2 u1 p X p u1 X 2 Y2 u21 X 1 u22 X 2 u2 p X p u 2X X X Y u X u X u X u X p1 1 p2 2 pp p p p p

X1 , X 2 ,, X p
是样本均值, s1 , s2 ,, s p 是样本标准差
主成分分析 (实例分析)
【例】根据我国 31 个省市自治区 2006 年的 6 项主 要经济指标数据,进行主成分分析,找出主成 分并进行适当的解释
31个地区的6项经济指标
用SPSS进行主成分分析

且(1)D(Yi ) i , i 1,2,. p (2) cov(Y ,Y ) U cov(X , X )U 或 U U
主成分的保留
主成分总方差=原变量的总方差
tr(U U ) tr( )
D(Y ) D( X )
i 1 i i 1 i
p
p

P个主成分分别是:
Y1 u11 X 1 u12 X 2 u1 p X p Y u X u X u X 2 21 1 22 2 2p p 或 Y p u p1 X 1 u p 2 X 2 u pp X p
Y U X
主成分分析的数学模型
ij 为第 i 个主成分 yi 和原
来的第 j 个变量 xj 之间的 线性相关系数,称为载 11 荷 (loading) 。 比 如 , 表示第1主成分和原来的 第1个变量之间的相关系 表示第2主成分和 数, 21 原来的第1个变量之间的 相关系数
主成分分析的数学模型限制条件
标准化数据
写出p个主成分的表达式:
Xp Xp X1 X1 X2 X2 Y1 u11 u12 u1 p s1 s2 sp
Xp Xp X1 X1 X2 X2 Y2 u21 u22 u2 p s1 s2 sp
Y p u p1 Xp Xp X1 X1 X2 X2 u p2 u pp s1 s2 sp
L uu (uu 1)
结论

的特征值为
1 2 p
对应的单位特征向量为:
u11 u12 , u 1p
u21 u22 , u 2p
相关文档
最新文档