第六讲因子分析

合集下载

因子分析 PPT课件

同时假定随机向量 X 满足以下模型： X 1 a11F1 a12 F2 a1m Fm 1 X a F a F a F 2 12 1 22 2 2m m 2 X p a p1 F1 a p 2 F2 a pm Fm P 则称模型(3.1)为正交因子模型。
设 X ( X1 , X 2 ,
E( F ) 0 ， Cov( F ) I m （即 F 的各分量方差为 1，且互不相关）。又设 (1, 2 , , p ) 与 F 互不相关，且
2 E ( ) 0 ， Cov( ) diag(12 ,2 , 2 , p )。
之因子分析
SPSS软件
• 因子分析（Factor Analysis）是多元统计分析中处理降维问题的一种重要方法。变量的共线性很多是都对分析结果具有显著的影响。所谓降维，就是独钓共线性，剩下的，或者合并的都是线性无关的，或者正交的，或者垂直的。
一、什么是主成分分析和因子分析？
• 主成分分析（Principal Components Analysis）也是多元统计分析中简化数据结构（降维问题）的一种重要方法。简化数据结构是指将某些较复杂的数据结构通过变量变换等方法使相互依赖的变量变成互不相关的；或把高维空间的数据投影到低维空间，使问题得到简化而损失的信息市的实证设施建设情况。
案例1
• 中国统计年鉴，2005，各地区城市市政设施数据。变量有： • City—城市名称； • X1—年末实有道路长度（公里）； • X2—年末实有道路面积（万平方公里）； • X3—城市桥梁（座）； • X4—城市排水管道长度（公里）； • X5—城市污水日处理能力（万立方米）； • X6—城市路灯（盏）；

(优选)第六讲因子分析

表示的形式不同。
因子分析的统计意
义
假定因子模型中，准化处理
因子载荷矩阵的统计意义
变量共同度的统计意义
公因子方差贡献的统计意义
因子载荷矩阵的估计方
法
方法一：主成分方法方法二：根据定义进行
因子旋转
含义：
因子旋转是根据因子载荷矩阵的不唯一性，用一个正交矩阵右乘因子载荷矩阵，实行旋转（由线性代数，一次正交变换，对应坐标系的一次旋转），使旋转后的因子载荷矩阵结构简化，以便对公共因子进行合理的解释。
（优选）第六讲因子分析
什么叫因子分
析
定义解释
因子分析是主成分分析的推广和发展，它是把具有复杂关系的多个变量（或样品）综合为少数几个因子，并给出原始变量与综合因子之间的相关关系的多元统计分析方法
种类
R型因子分析（对变量进行因子分析） Q型因子分析（对样品进行因子分析）
应用意义
应用范围应用类型
基本思想数学模型
因子分析的模
型
主成分分析与因子分析的区
别
主成分分析是一种数学变换（正交变换）不能称为一种数学模型；而因子分析需要构造数学模型。
主成分的个数与原始数据个数相等，是把原始变量变换成为相互独立的新的变量；而因子个数一般要求小于原始数据个数，目的在于得到一个结构简单的因子模型。
所谓结构简化就是使得每个变量仅在一个公共因子上有较大的载荷，而在其他的公共因子上的载荷比较小。
常用的方法有：
正交旋转、斜交旋转等。最常用的是方差最大正交旋转。
方差最大正交旋转
方差最大正交旋转：
是使因子载荷矩阵中，各因子载荷值的总方差达到最大作为因子载荷矩阵结构简化的准则。其中。总方差最大，而不是某个因子方差极大。即如果第个变量在第个公共因子上的载荷经过“方差极大”旋转后，其值增大或减少，意味着这个变量在另一些公共因子上的载荷要缩小或增大。所以“方差极大”旋转是使载荷值按照列向0， 1两极分化，同时也包含着按行向两极分化。

6-因子分析

上式是假定了因子模型中特殊因子是不重要的，因而从∑的分解中忽略掉特殊因子的方差如果考虑了特殊因子以后，协差阵为：
当∑未知，可用样本协差阵S去代替，要经过标准化处理，则S与相关阵R相同，仍然可作上面类似的表示。一般设则因子载荷阵的估计即为样本相关阵尺的特征根，设 m < p，相应的标准正交化特征向量为；
所以
也是公共因子，
ቤተ መጻሕፍቲ ባይዱ
也是因子载荷阵。
因子载荷这个不唯一性，从表面上看是不利的，但后面将会看到当因子载荷阵A的结构不够简化时，可对A实行变换以达到简化目的，使新的因子更具有鲜明的实际意义。从因子分析的数学模型上看，它与多变量回归分析也有类似之处，但本质的区别是因子分析模型作为“自变量”的 F是不可观测的。 2 因子模型中公共因子、因子载荷和变量共同度的统计意义为了便于对因子分析计算结果做解释，将因子分析数学模型中各个量的统计意义加以说明是十分必要的，假定因子模型中，各个变量以及公共因子、特殊因子都已经是标准化(均值为0，方差为1)的变量。 (1)因子载荷的统计意义已知模型：
为了说明它的统计意义，将下式两边求方差，即
由于
已标准化了，所以有
此式说明变量的方差由两部分组成：第一部分为共度它刻划全部公共因子对变量的总方差所作的贡献，越接近1，说明该变量的几乎全部原始信息都被所选取的公共因子说明了，如则说明的 97%的信息被m个公共因子说明了，也就是说由原始变量空间转为因子空间转化的性质越好，保留原来信息量
A经过Tk j ，旋转(变换)后，矩阵A＝A T k j ，其元素为
其中旋转角度
仍按下面公式求得：
m个因子，每次取两个全部配对进行旋转，共需旋转

第六章因子分析

由EOF分解可知，每个原变量都可以用各主成分来线性表示： x1 l11 l12 l11 y1 l12 y2 l y l y y y = x 1 1 2 2 l 1 l 2 l y l y 2 21 22 21 1 22 2
2
4
6
8
10 t
12
14
16
18
20
主因子的概念
如果对m个原变量(x1, x2,…, xm)进行n次观测，则各主成分的时间序列可表示为：
x11 x Y LT X LT 21 xm1 x12 ... x1n y11 y x22 ... x2 n = 21 xm 2 ... xmn ym1 y12 ... y1n y22 ... y2 n ym 2 ... ymn
第1主成分y1 第2主成分y2 第m主成分ym
主成分的方差，即X的协方差阵的特征值，按照y1、y2、…、ym的顺序从大到小进行排列。为了分析各主成分对原变量的作用、研究原变量与各主成分的关系:
对各主成分进行标准化，使它们的方差都等于1，这时的主成分称为“主因子”。
第i个主因子就是第i个主成分yi的标准化，记为fi, 有：
为了提高因子的利用率，需要将公共信息与独立信息尽可能地分离开来，以
便采取公共信息作为新的因子变量(少于原变量的个数m)建立预报方程，从而达到减少误差，提高预报准确率的效果。简言之，从数量较多的因子变量中分离出数量较少的新因子，并分析原变量与各个新因子之间的关系，这称为“因子分析”。
例： x1和x2两个变量，存在相关性，寻找它们的共同信息和独立信息，并分离。对x1和x2做了20次观测，如右图所示20个散点，两样本的相关系数为0.92。可见，第一主成分y1可以表征x1和x2的共同的成分；所以因子分析与主成分分析(或经验正交函数分解)有密切联系。

因子分析ppt课件

（2）因子提取研究如何在样本数据的基础上提取综合因子。
（3）因子旋转
通过正交旋转或斜交旋转使提取出的因子具有可解释性。
（4）计算因子得分
通过各种方法求解各样本在各因子上的得分，为进一步分析奠定基础。
❖ 2、因子分析前提条件——相关性分析：
分析方法主要有：
（1）计算相关系数矩阵(correlation coefficients matrix)
1 2 为p的特0 征根，
标准化特征向量，则
为u对1 , 应u2 的,, up
1
Σ = U
2
U AA + D
p
u1 u2
up
1
0
1u1u1 2u2u2
0
u1 u2
p
up
mumum m1um1um1
1u1
2u2
pu p
1u1
2
u2
p
因子分析的基本理论 ❖ 3、因子分析的目的：
因子分析的目的之一，简化变量维数。即要使因素结构简单化，希望以最少的共同因素（公共因子），能对总变异量作最大的解释，因而抽取得因子愈少愈好，但抽取因子的累积解释的变异量愈大愈好。
在因子分析的公共因子抽取中，应最先抽取特征值最大的公共因子，其次是次大者，最后抽取公共因子的特征值最小，通常会接近0。
（3）因子分析中因子载荷的不唯一性有利于对公因子进行有效解释；而主成分分析对提取的主成分的解释能力有限。
因子分析的基本理论
❖ 5、因子分析模型：设 Xi (i 1,2,个,变p)量p，如果表示为
X i i ai1F1 aimFm i (m p)
X1 1 11 12
或
X
2

第六章因子分析

第六章因子分析第六章因子分析§6.1因子分析的基本原理与模型一、因子分析的基本思想基本思想：根据相关性的大小将变量分组，使得同组内变量间的相关性较高，不同组间的相关性较低。

每组变量代表一个基本结构，并用一个不可观测的综合变量形式表示，这个基本结构成为公共因子。

此时的原始变量就可以分解成两部分之和的形式，一部分是少数几个不可测的所谓公共因子的线性函数，另一部分是与公共因子无关的特殊因子。

目的：从一些有错综复杂的问题中找出几个主要因子，每个主要因子代表原始变量间相互依赖的一种作用。

二、因子分析的基本模型常用的因子分析模型：R型因子分析和Q 型因子分析（一）R型因子分析模型R型因子分析是对变量作因子分析。

R型因子分析中的公共因子是不可直接观测但又客观存在的共同影响因素，每一个变量都可以表示成公共因子的线性函数与特殊因子之和，即:其中：称为公共因子，称为的特殊因子矩阵表达式：且满足：（1）（2），即公共因子与特殊因子是不相关的（3），即各公共因子不相关且方差为1（4），即各个特殊因子不相关，方差不要求相等模型中称为因子载荷，是第个变量在第个因子上的负荷，如果把变量看成维空间中的一个点，则表示它在坐标轴上的投影，因此矩阵称为因子载荷矩阵。

（二）Q型因子分析Q型因子分析是对样品作因子分析。

模型同上注：主成分分析与因子分析的区别主成分分析的数学模型本质上是一种线性变换，是将原始坐标变换到变异程度大的方向上去，相当于从空间上转换观看数据的的角度，突出数据变异的方向，归纳重要信息。

因子分析与主成分分析一样都属降低变量维数的方法。

但因子分析的本质是从显在变量去“提炼”潜在因子的过程。

模型中应注意的问题：（1）变量的协方差阵的分解式为即（2）因子载荷不是唯一的。

三、因子载荷阵的统计意义（一）因子载荷的统计意义对于因子模型可知的协方差若对作标准化处理，的标准差为1，且的标准差为1则（相关系数）综上可知：对于标准化后的，是的相关系数，一方面表示的依赖程度，绝对值越大，密切程度越高；另一方面也反映了变量对公共因子的相对重要性。

7.因子分析

1 0.32 1 0.33 0.24 1 0.18 0.34 0.24 1 0.01 0.02 0.17 0.02 1
38
变量
F1
0.691 0.789 0.702 0.674 0.62 0.687 0.621 0.538 0.434 0.147
的含义不清，则不便于进行实际背景的解释。由于因
子载荷阵是不惟一的，所以应该对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化，使载荷矩阵每列或行的元素平方值向0和1两极分化。有三种主要的正交旋转法：四次方最大法、方差
最大法和等量最大法。
36
例：奥运会十项全能运动项目得分数据的因子分析
百米跑成绩 X 1 跳远成绩 X 2 铅球成绩 X 3 跳高成绩 X 4 400米跑成绩 X 5 百米跨栏 X 6 铁饼成绩 X 7 撑杆跳远成绩 X 8 标枪成绩 X9 1500米跑成绩 X
1 u1
2 u 2
1 u1 2 u2 ˆ ˆ ˆ ˆ m u m D AA D p um 因子载荷矩阵
注：残差矩阵
17
主成分法中，原变量可用公因子表示为：
上式有一个假定，模型中的特殊因子是不重要的，因而从的分解中忽略了特殊因子的方差。
第六章因子分析
1
主要内容
§1 §2 §3 §4 §5 §6 什么是因子分析因子分析模型因子载荷矩阵的估计方法因子旋转（正交变换）因子得分因子分析的步骤、展望和建议
2
§1 什么是因子分析
因子分析(factor analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量，而假想变量是不可观测的潜在变量，称为因子。

因子分析(研究生课程)

⑤ Reproduced 再生相关阵，选择此项给出因子分析后的相关阵，还给出残差，即原软关与再生相关之间的差值。 ⑥ Anti-image 反映像相关阵。包括偏相关系数的负数；反映像协方差阵，包括偏协方差的负数；在一个好的因子模型中除对角线上的系数较大外，远离对角线的元素应该比较小。 ⑦ KMO and Bartlett's test of sphericity KMO和球形 Bartlett检验。选择此项给出对采样充足度的Kaisex-Meyer-Olkin测度。检验变量间的偏相关是否很小。Bartlett球形检验，检验的书相关阵是否是单位阵。它表明因子模型是否是不合适宜的。
因子分析
暨南大学管理学院企业管理系
陈晓曦
历史

1947年，美国统计学家Stone关于国民经济的研究。

1927-1938年的数据，得到了17个反映国民收入与支出的变量，后来通过因子分析发现，只需要用3个新的综合变量，就可以解释95%的原始信息。

总收入总收入率积极发展或衰退趋势
案例

在企业形象或品牌形象的研究中，消费者可以通过一个有24个指标构成的评价体系，评价百货商场的24个方面的优劣。
但消费者主要关心的是三个方面，即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量，找出反映商店环境、商店服务水平和商品价格的三个潜在的因子，对商店进行综合评价。而这三个公共因子可以表示为：
F3
-0.58 -0.193 0.047 0.139 -0.084 -0.161 0.109 0.411 0.372 0.658
F4
-0.206 0.092 -0.175 0.396 -0.419 0.345 -0.234 0.44 -0.235 -0.279

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第五讲因子分析在许多实际问题中，涉及的变量众多，各变量间还存在错综复杂的相关关系，这时最好能从中提取少数综合变量，这些综合变量彼此不相关，而且包含原变量提供的大部分信息。

因子分析就是为解决这一问题提供的统计分析方法。

以后，如无特别说明，都假定总体是一个p 维变量：),...,,(21'=p X X X x它的均值向量μ=)(x E ，协方差矩阵V =(σij )p ⨯p 都存在。

第一节正交因子模型1．1 公共因子与特殊因子从总体中提取的综合变量：F 1, F 2, … , F m (m <p )称为（总体的）公共因子。

一般来说，公共因子不可能包含总体的所有信息，每个变量X i 除了可以由公共因子解释的那部分外，总还有一些公共因子解释不了的部分，称这部分为变量X i 的特殊因子，记为：εi 。

于是，我们有：变量X i 的信息＝公共因子可以表达部分+公共因子不可表达部分这就是所谓因子模型。

目前，公共因子可以表达的部分由公共因子的线性组合表示。

即上面的因子模型可以写成以下的形式：p i F a F a F a X i m im i i i i ,...,2,1,2211=++++=-εμ1．2 正交因子模型设总体),...,,(21'=pX X X x ，均值向量μ=)(x E ，协方差矩阵p p V x Va r⨯=)(。

因子模型有形式：其中m<p ，F 1,F 2,…,F m 称为所有变量的公共因子；εi 称为变量X i 的特殊因子。

如果引入以下向量与矩阵：),...,,(,),...,,(2121'='=p m F F F F εεεε⎪⎪⎪⎪⎪⎭⎫⎝⎛=pm p p m m a a a a a a a a a A212222111211则因子模型的矩阵形式为：εμ+=-F A x 对于正交的因子模型，还要进一步要求：z 1. m m I F Var F E ⨯==)(,0)(。

即有：j i F F Cov F Var F E j i i i ≠===0),(,1)(,0)(公共因子是互相不相关的。

z 2. 0),(,],...,[)(,0)(221===F Cov diag Var E pεοσεε。

即：mj p i F Cov Var E j i i i i ,...,2,1;,...,2,10),(,)(,0)(2=====，εοεε特殊因子和公共因子不相关。

1．3 因子载荷矩阵1．矩阵A 称为因子载荷矩阵(component matrix)，系数a ij 称为变量X i 在因子F j 上的载荷(loading)。

由于∑=+=mk j i k ik j i F F a Cov F X Cov 1),(),(ε⎪⎪⎩⎪⎪⎨⎧++++=-++++=-++++=-pm pm p p p p m m m m F a F a F a X F a F a F a X F a F a F a X εμεμεμ 221122222121221121211111ij mk j i j k ik a F Cov F F Cov a =+=∑=1),(),(ε特别，如果总体是标准化的，则有Var (X i )=1，从而有：),()()(),(),(j i j i j i j i F X Cov F Var X Var F X Cov F X =＝ρ于是：),(j i ij F X a ρ=即变量X i 在公共因子F j 上的载荷a ij 就是X i 与F j 的相关系数。

2．载荷矩阵的估计：主成分法。

主成分法是估计载荷矩阵的一种方法，由于其估计结果和变量的主成分仅相差一个常数倍，因此就冠以主成分法的名称。

在学到这里的时候，不要和主成分分析混为一谈。

主成分法是SPSS 系统默认的方法，在一般情况下，这是比较好的方法。

以数据“应征人员”为例，按特征值大于1提取公共因子。

在用不同方法获得因子载荷时，公共因子对总体方差的贡献率以主成分法为最高：关于主成分法的内容可参看任何一本多元统计分析书，例如：《应用多元统计分析》，高惠璇著，北京大学出版社，p301。

1．4 因子模型的不唯一性设T 是一个正交矩阵，由I T T ='，因子模型εμ+=-F A x与模型 εμ+'=-))((F T AT x 等价。

后者载荷矩阵为AT ，新的公共因子为F T G'=。

第二节变量的共同度与因子的方差贡献率3．1 变量的共同度定义载荷矩阵A 的第i 行元素的平方和：p i a h mj ij i,...,2,1,122==∑=称为变量X i 的共同度(communality)。

共同度表示公共因子F能在多大的程度上解释变量X i 。

关于这一点，可从分析变量X i 的方差入手：)()()()(121i mk k ik mk i k ik i Var F Var a F a Var X Var εε+=+=∑∑==注意到正交因子模型的假设：Var (F k )=1，k =1,…,m ；另外，记Var (εi )=σi 2。

于是得：22212)(i i i mk ik i h a X Var σσ+=+=∑=这就是把变量X i 的方差分解为两部分：一部分是2i h ，它是由公共因子产生的；另一部分是2i σ，是由特殊因子产生的。

所以共同度被理解为公共因子能够解释原有变量的程度。

对于标准化的变量，Var (X i )=1，因此有：122=+i i h σ2．2 公共因子的方差贡献率定义载荷矩阵A 第j 列的平方和：m j a q pi ij j ,...,2,1,122==∑=称为因子F j 对总体x的贡献(initial eigenvalues)。

第三节方差最大正交旋转3．1 因子旋转的意义1．正交因子模型只是一个数学模型，所得的因子在专业上不一定能反映问题的实质，或者说：因子作为一个综合变量，其专业意义在许多情况下不容易解释。

因子旋转就是针对这一问题，提出的一种改进的方法。

2．因子旋转的依据：因子模型的不唯一性。

正是由于因子模型的不唯一性，如果模型ε+=F A x不适合专业解释，那么作一个正交变换T ，模型改变为：εε+=+'=G B TF T A x ))(( 在新模型中再去寻找因子的专业解释。

3．2 方差最大正交旋转 *1．因子载荷的离散程度因子F j 在总体),...,,(21'=p X X X x上载荷的分散程度可以通过以下一组“标准化”的载荷平方值表示：m j ha ha ha ppj jj,...,2,1,,,,2222222121=令m j d pd ha d p i ijj iijij ,...,2,1,1,1222===∑=于是因子F j 的载荷离散平方和：m j d d D pi j ij j ,...,2,1,)(12=-=∑=全部公共因子载荷的离散总平方和：∑==m j j D D 12．方差最大化正交旋转(Varimax)选择正交变换（矩阵）T ，使得经变换后的因子模型：εε+=+'=G B F T AT x ))(( 的公共因子G具有最大的载荷离散总平方和D 。

由此确定的因子载荷矩阵B ，对每个公共因子来说，载荷最为分散，因此比较容易对因子的专业意义作出解释。

第四节因子得分4．1 因子得分函数因子模型将总体中的原有变量分解为公共因子与特殊因子的线性组合：p i F a F a F a X i m im i i i ,...,2,1,2211=++++=ε按照这个思路，也可以把每个公共因子表示成原变量的线性组合：m j X b X b X b F p jp j j j ,...,2,1,2211=+++=称这个线性表达式为因子得分函数。

用它可以计算出每个观察值在各公共因子上的取值，从而在一定程度上解决了公共因子不可观察的问题。

获得因子得分函数的关键问题是怎样估计参数b j1,b j2,…,b jp 。

*4．2 因子得分函数的估计(Thompson 方法)根据回归分析中最小二乘估计的方法，应有：j j F X X X b ''=-1)(ˆ其中：),...,,(,)ˆ,...,ˆ,ˆ(ˆ2121'='=jn j j j jpj j j F F F F b b b b⎪⎪⎪⎪⎪⎭⎫⎝⎛=np n n p p X X X X X X X X X X212222111211但是，j F是不可观察的。

因此上述公式尚不能给出因子得分函数的系数估计。

在总体变量标准化的条件下，根据正交因子模型的假设j F X'是总体x与因子j F 的样本相关系数，所以可以用因子载荷矩阵A 的第j 列),...,,(21'=pj j j j a a a a代替。

同样道理，在标准化的条件下，矩阵X X '是总体x的相关矩阵，即：X X R '=所以有：j j a R b 1ˆ-=从而得到：m j x R a x b F j j j ,...,2,1,ˆ1='='=-第五节 KMO 检验与Bartlett 球形检验5．1 因子分析对样本的要求和任何统计分析问题一样，因子分析也要求样本具有一定的容量。

这从两个方面来说：从变量个数p 考量，则样本容量n应有n>5p；即使这样，样本容量也不能太少，一般应在100以上。

以上要求在实际问题中往往都达不到。

这时可以适当放宽要求，结合检验来判断结果的可靠性。

5．2 因子分析可行性与效果检验1．Bartlett球形检验检验各变量是否独立，通过相关阵是否单位阵来判断。

只有在原假设：各变量相互独立被拒绝，因子分析才能进行。

2．KMO检验检查各变量间的偏相关性，用来判断因子分析效果：0≤KMO≤1。

通常使用的标准是：当KMO>0.7，因子分析效果较好，越大越好；当KMO<0.5，此时不适合用因子分析法。

5．3 关于因子的解释因子分析得到的公共因子应该可以解释，即有实际意义。

否则，就应该重新设计原始变量集合。

第六节因子分析应用举例例数据data09，此文件收录了15个企业的7个主要经济指标。

试对这7个指标提取2个公共因子，作因子分析。

选择命令菜单：Data Reduction \ Factor，在Factor Analysis 对话框中，将变量固定资产率、固定资产利率、资金利率、资金利税率、流动资金周转天数、销售收入利税率和全员劳动生产率输入Variables，打开Number of factors中键入2（因子个数）。

返回，打开Varimax。

返回，打开选择Save as variables中的Regression和Dis-play factor score coefficient matrix这是一张方差解释表，Initial Eigenvalues一栏中的Total便是每个公共因子的方差贡献值，系统计算出全部7个因子的方差贡献值，并按降序排列。

第六讲 因子分析

因子分析 PPT课件

(优选)第六讲因子分析

6-因子分析

第六章 因子分析

因子分析ppt课件

第六章因子分析

7.因子分析

因子分析(研究生课程)

第六讲因子分析

第六章因子分析