应用多元统计分析习题解答因子分析
应用多元统计分析习题解答因子分析
公司内部档案编码:[OPPTR-OPPT28-OPPTL98-OPPNN08]
第七章因子分析
试述因子分析与主成分分析的联系与区别。
答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。
因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。
因子分析主要可应用于哪些方面
答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就
用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。
简述因子模型中载荷矩阵A 的统计意义。
答:对于因子模型
1122i i i ij j im m i X a F a F a F a F ε=++
++
++ 1,2,
,i p =
因子载荷阵为11
12121
22212
1
2
(,,
,)m m m p p pm a a a a a a A A A a a a ?????
?==????????
A
i X 与j F 的协方差为:
1Cov(,)Cov(,)m
i j ik k i j k X F a F F ε==+∑
=1
Cov(,)Cov(,)m
ik k j i j k a F F F ε=+∑
=ij a
若对i X 作标准化处理,=ij a ,因此 ij a 一方面表示i X 对j F 的依赖程度;另一方面也反映了变量i X 对公共因子
j
F 的相对重要性。
变量共同度22
11,2,,m
i
ij
j h a i p ===∑
2221122()()()()()i i i im m i D X a D F a D F a D F D ε=++++22i i h σ=+ 说明变量i X 的方
差由两部分组成:第一部分为共同度2i h ,它描述了全部公共因子对变量
i X 的总方差所作的贡献,反映了公共因子对变量i X 的影响程度。第二部
分为特殊因子i ε对变量i X 的方差的贡献,通常称为个性方差。
而公共因子j F 对X 的贡献22
11,2,,p
j
ij
i g a j m ===∑
表示同一公共因子
j
F对各变量所提供的方差贡献之总和,它是衡量每一个公共因子相对重要性的一个尺度。
在进行因子分析时,为什么要进行因子旋转最大方差因子旋转的基本思路是什么
答:因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合理解释。但有时直接根据特征根、特征向量求得的因子载荷阵难以看出公共因子的含义。这种因子模型反而是不利于突出主要矛盾和矛盾的主要方面的,也很难对因子的实际背景进行合理的解释。这时需要通过因子旋转的方法,使每个变量仅在一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比较小。
最大方差旋转法是一种正交旋转的方法,其基本思路为:
①
A
其中令***
(),/
ij p m ij ij i
a d a h
?
===
A AΓ2
1
1p
j ij
i
d d
p=
=∑
*
A的第j列元素平方的相对方差可定义为22
1
1
()
p
j ij j
i
V d d
p=
=-
∑
②
12m
V V V V
=+++
最大方差旋转法就是选择正交矩阵Γ,使得矩阵*A所有m个列元素平方的相对方差之和达到最大。
试分析因子分析模型与线性回归模型的区别与联系。
答:因子分析模型是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法的模型。而线性回归模型回归分析的目的是设法找出变量间的依存
(数量)关系, 用函数关系式表达出来。
因子分析模型中每一个变量都可以表示成公共因子的线性函数与特殊因子之和。即
1122
i i i im m i
X a F a F a Fε
=++++,(1,2,,
i p
=)该模型可用矩阵表示为:
=+
X AFε而回归分析模型中多元线性回归方程模型为:
其中是常数项,是偏回归系数,是残差。
因子模型满足:
(1)m p
≤;(2)(,)0
Cov=
Fε,即公共因子与特殊因子是不相关的;
(3)
10
1
()
01
F m
D
??
??
??
===
??
??
??
D F I,即各个公共因子不相关且方差为1;
(4)
2
1
2
2
2
()
p
D
ε
σ
σ
σ
??
??
??
==
??
??
??
??
Dε,即各个特殊因子不相关,方差不要求相等。
而回归分析模型满足(1)正态性:随机误差(即残差)e服从均值为
0,方差为?2的正态分布;(2)等方差:对于所有的自变量x,残差e的
条件方差为?2,且?为常数;(3)独立性:在给定自变量x的条件下,
残差e的条件期望值为0(本假设又称零均值假设);(4)无自相关性:各随机误差项e互不相关。
两种模型的联系在于都是线性的。因子分析的过程就是一种线性变换。
设某客观现象可用X=()’来描述,在因子分析时,从约相关阵出发计算出特征值为由于,所以找前两个特征值所对应的公共因子即可,又知对应的正则化特征向量分别为,,’及(0,,)’,要求:
(1)计算因子载荷矩阵A,并建立因子模型。
(2)计算共同度。
(3)计算第一公因子对X的“贡献”。
解:(1)根据题意,
A=
=
建立因子模型为
(2)
(3)因为是从约相关阵计算的特征值,所以公共因子对X的“贡献”为
。
利用因子分析方法分析下列30个学生成绩的因子构成,并分析各个学序号数学物理化学语文历史英语1656172848179 2777776647055 3676349656757 4806975747463 5747080848174 6788475627164 7667167526557 8777157728671 98310079416750 10869497516355 11748088647366 12678453586656 13816269566652 14716494526152 15789681808976 16695667759480 17779080686660 18846775607063 19626783718577 20746575729073 21917497627166 22728772798376 23827083687785 24637060918582 25747995597459 26666177627364
27908298477160 28779085687376 29918284546260 307884100516060
解:令数学成绩为X
1,物理为X
2
,化学为X
3
,语文为X
4
,历史为X
5
,
英语为X
1
,用spss分析学生成绩的因子构成的步骤如下:
1. 在SPSS窗口中选择Analyze→Data Reduction→Factor,调出因子分析主界面,并将六个变量移入Variables框中。
图因子分析主界面
2. 点击Descriptives按钮,展开相应对话框,见图。选择Initial solution复选项。这个选项给出各因子的特征值、各因子特征值占总方差的百分比以及累计百分比。单击Continue按钮,返回主界面。
图 Descriptives子对话框
3. 点击Extraction按钮,设置因子提取的选项,见图。在Method 下拉列表中选择因子提取的方法,SPSS提供了七种提取方法可供选择,一般选择默认选项,即“主成分法”。在Analyze栏中指定用于提取因子的分析矩阵,分别为相关矩阵和协方差矩阵。在Display栏中指定与因子提取有关的输出项,如未旋转的因子载荷阵和因子的碎石图。在Extract栏中指定因子提取的数目,有两种设置方法:一种是在Eigenvalues over后的框中设置提取的因子对应的特征值的范围,系统默认值为1,即要求提取那些特征值大于1的因子;第二种设置方法是直接在Number of factors后的矩形框中输入要求提取的公因子的数目。这里我们均选择系统默认选项,单击Continue按钮,返回主界面。
图 Extraction子对话框
4.点击Rotation按钮,设置因子旋转的方法。这里选择Varimax(方差最大旋转),并选择Display栏中的Rotated solution复选框,在输出窗口中显示旋转后的因子载荷阵。单击Continue按钮,返回主界面。
图 Rotation子对话框
5.点击Scores按钮,设置因子得分的选项。选中Save as variables复选框,将因子得分作为新变量保存在数据文件中。选中Display factor score coefficient matrix复选框,这样在结果输出窗口中会给出因子得分系数矩阵。单击Continue按钮返回主界面。
图 Scores子对话框
6. 单击OK按钮,运行因子分析过程。
结果分析:
表旋转前因子载荷阵表旋转后因子载荷阵
从表中
可以看出,每个因
子在不同原
始变量
上的载荷没
有明显的差别,为
了便于对因子进行命名,需要对因子载荷阵进行旋转,得表。经过旋转后的载荷系数已经明显地两极分化了。第一个公共因子在后三个指标上有较大载荷,说明这三个指标有较强的相关性,可以归为一类,属于文科学习能力的指标;第二个公共因子在前三个指标上有较大载荷,同样可以归为一类,这三个指标同属于理科学习能力的指标。根据表易得:
6432.05378.04332.03137.02085.01064.01X X X X X X F +++++=
6169.05073.04014.03484.02400.01439.02X X X X X X F +++++=
表 因子得分系数矩阵
将每个学生的六门成绩分别代入F1、F2,比较两者的大小,F1大的适合学文,F2大的适合学理。
计算结果为学号是1、16、24的学生适合学文,其余均适合学理。
成份矩阵a
成份
1
2 x1 .50
3 x2 .478 x3
.605 x4 .900 .233 x5 .857 .357
x6
.816
.498 提取方法 :主成分分析
法。
旋转成份矩阵a
成份
1
2
x1 .795 x2 .698
x3
.815 x4 .867 x5
.904
x6 .953
某汽车组织欲根据一系列指标来预测汽车的销售情况,为了避免有些指标间的相关关系影响预测结果,需首先进行因子分析来简化指标系统。下表是抽查欧洲某汽车市场7个品牌不同型号的汽车的各种指标数据,
解:令价格为X1,发动机为X2,功率为X3,轴距为X4,宽为X5,长为
X6,轴距为X7,燃料容量为X8,燃料效率为X9,用SPSS找简化的指标
系统的具体步骤同。
此时在系统默认情况下提取因子,结果是只抽取了一个成分,从方差
贡献来看,前三个成分贡献了%,因此重复因子分析过程,并在第三步
Extraction子对话框中的Number of factors后的矩形框中输入3,即
为要提取的公因子的数目。因子分析结果如下:
表旋转后的因子得分系数矩阵
其简化了指标体系为1
F,从旋转后的因子得分系数矩阵得:
F、2
F、3
X
X
X
X
X
399
1
X
.0
1X
X
+
-
-
-
=
+
+
-
+
.0
F-
X
036
7
.0
6
599
.0
186
9 015
.0
8
.0
071
3
060
2
5
.0
.0
.0
354
4
305
X
X
X
X
.0
.0
X
289
2X
X
-
+
+
=
525
-
+
X
F+
-
-
X
1
7
291
.0
6
.0
221
2
082
.0
8
100
9
.0
3
700
.0
344
.0
5
4
195
.0
X
X
X
X
1
X
342
.0
3X
X
-
-
-
=
.0
+
-
X
F-
-
+
X
241
7
494
.0
6
278
651
9
239
.0
8
332
.0
3
409
.0
2
.0
4
5
338
.0
.0
根据人均 GDP、第三产业从业人员占全部从业人员的比重、第三产业增加值占GDP的比重、人均铺装道路面积、万人拥有公共汽电车、万人拥有医生、百人拥有电话机数、万人拥有高等学校在校学生人数、人均居住面积、百人拥有公共图书馆藏书、人均绿地面积等十一项指标对目前我国省会城市和计划单列市的城市化进行因子分析,并利用因子得分对其进行排序和评价。(数据可从《中国统计年鉴》查获)
(略)
根据习题中2003年我国省会城市和计划单列市的主要经济指标数据,利用因子分析法对其进行排序和分类,并与聚类分析的结果进行比较。解:对其进行因子分析的步骤与相同,结果如下:
表特征根与方差解释分析表
由表可知,提取的两个因子方差贡献达到了%。
表 旋转后的因子得分系数矩阵
由上面的因子得分矩阵可知:
9233.08086.07057.06248.05219.04258.03167.02100.01093.01X X X X X X X X X F ++-++++--= 9
008.08169.07282.06022.05017.04097.03103.02316.01315.02X X X X X X X X X F -++-+--+=与主成分分析中计算综合得分同理,用2121F F F ∑∑+=λ
λ
λλ进行加权,得排序:
F1
F2 F 深圳 上海 厦门 广州 杭州
根据F的最终数值进行分类,由于没有给出具体的分类标准,分类具有一定的主观性,只要合理即可。聚类分析的结果见,可将两者进行比较。