管理研究方法论 第五节 因子分析

管理研究方法论 第五节  因子分析
管理研究方法论 第五节  因子分析

第五节 因子分析

一、因子分析的基本原理

因子分析是用少数几个因子去研究多个原始指标之间关系的一种多元统计方法。它的基本思想是找出决定原始指标的内在的主要的因素,以简化人们的认识,找出决定事物特性的主要原因,对比较复杂的事物进行比较研究。 1.因子模型

设有p 个指标,x1,x2………xp ,每个指标已经标准化,设每个指标可以表示为以下形式:

x 1=a 11F 1+a 12F 2+………………+a 1m F m +ε1 x 2= a 21F 1+a 22F 2+………………+a 2m F m +ε2 …………………………………………… x p =a P1F 1+a P2F 2+………………+a Pm F m +εP

式中的Fj (j=1,2,3,………m )称为公共因子,(每个变量都与它们有关)。它们是不可观测的,其意义要根据具体问题来解释。εi 称为特殊因子,它们与公共因子彼此独立。a ij 是第i 个指标在第j 个公共因子上的系数,称为因子荷载。 A=( a ij )p ×m 称为荷载因子矩阵。

因子分析的主要任务之一就是根据一组原始数据,确定变量的荷载矩阵。 2.因子荷载矩阵A 的统计意义

(1)aij 是第i 个指标xi 与第j 个公共因子Fj 的相关系数。

A 中第i 行的各个元素(因子荷载)说明了第i 个指标xi 依赖于各个公共因子的程度;第j 列元素说明第j 个公共因子Fj 与各个指标的联系程度。因此常根据该列绝对值较大的因子荷载所对应的指标来解释这个公因子的意义。即这个因子是决定哪个指标的。 (2)A 中第i 行元素的平方和

称为指标x 的共同度。

由于各特殊因子与所有的公共因子之间是独立的,而且各个指标和公共因子均已经标准化,所以有

该式说明,指标xi 的方差由两部分组成:第一部分为共同度h i 2,它刻划全部公共因子对指标x I 的总方差的贡献,它越大,说明该指标的全部原始信息被m 个公共因子概括程度越高,m 个公共因子对该指标的描述就越有效。第二部分是单个指标所特有的方差。

(3)A 中第j 列元素的平方和

表示第j 个公共因子Fj 对原始指标所提供的方差贡献之和。它是衡量各个公共因子相

∑==m

j ij

i

a

h 1

22∑=+=m

j i

j

ij

i

F a x 1

2

)

var()var()var(ε)

var(12i

i

h ε+=∑==p

i ij j a

g 1

2

对重要性的一个尺度。

由于各个原始指标都已经标准化,所以原始指标提供的总方差

为第j 个公共因子的方差贡献率。方差贡献率αj 越大,说明第j 个公共因子Fj 越重要。 若前m 个公共因子的方差贡献率占到总方差的相当大的比例(如80%以上),那末就可以认为这m 个公共因子较好的概括了原指标。即原指标的信息可用这m 个因子的信息近似代替。

3.因子荷载矩阵A 的估计

给定p 个指标的n 组观察值X=(x ij )n ×p

如何从X 出发,确定较少的m 个公共因子,估计出因子荷载,建立因子模型是因子分析首先要解决的问题。

估计因子荷载的方法常用的有主成份分析法,主因子方法和最大似然函数法。 根据主成份分析原理,根据p 个指标的n 组观察值可以通过转换变为p 个主成份:

Y=U ’X U 为正交矩阵。

y 1=u 11x 1+u 21x 2+……+u p1x p y 2=u 12x 1+u 22x 2+……+u p2x p …………………………… y 2=u 1m x 1+u 2m x 2+……+u pm x p …………………………… y p =u 1p x 1+u 2p x 2+……+u pp x p

取前面m 个主成份。(这m 个主成分的方差贡献率占了很大比重,如80%以上) 由上式 X=UY

x 1=u 11y 1+u 12y 2+……+u 1p y p x 2=u 21y 1+u 22y 2+……+u 2p y p …………………………… x m =u m1y 1+u m2y 2+……+u mp y p …………………………… x p =u p1y 1+u p2y 2+……+u pp y p

∑==

p

i i p

x 1

)var(∑===p i ij j j a

p

p g 1

21

α()22112

121,Y U Y U Y

Y

U U UY X +=???

? ?

?==

式中U 1 是与前m 个主成份对应的U 的那一部分。

x 1=u 11y 1+u 12y 2+……+u 1m y m +u 1m+1y m+1+…+u 1p y p x 2=u 21y 1+u 22y 2+……+u 2m y m + u 2m+1y m+1+…+u 2p y p ……………………………

X p =u p1y 1+u p2y 2+……+u pm y m + u pm+1y m+1+…+u pp y p

记上式右边的第二部分为ε 则上式就可以写成

X=U 1Y 1+ε

则上式已经符合因子分析模型的形式,即Y=(y 1.y 2,……y m )’可以看作是m 个公共因子,但是yi 没有标准化,其方差为λi ,均值为0。

为使得Y 标准化,作变换

i

i i F y λ=

u 1=(u 11,u 21,……u p1)’ u 2=(u 12,u 22,……u p2)’

u m =(u 1m ,u 2m ……u pm )’

λ11/2u 11, λ21/2u 12 …+λm 1/2u 1m λ11/2u 21, λ21/2u 22,……λm 1/2u 2m A= …………………………………… λ11/2u p1, λ21/2u p2……λm 1/2u pm

则有X=AF +ε

x1=λ11/2u 11,F1+λ21/2u 12 F2…+λm 1/2u 1m Fm x2=λ11/2u 21F1+λ21/2u 22,F2……+λm 1/2u 2m Fm ……………………………………………… xp=λ11/2u p1F1+λ21/2u p2F2……+λm 1/2u pm Fm

i i

i y

F λ

=

)

,......,(2211m m u u u A λλλ=

满足因子分析模型的要求。

确定公共因子的个数有两种方式:一是有前m 个公共因子的累计方差贡献率不低于某一阈值(如85%)来确定,或只取特征根大于或等于1的公共因子。 4.因子旋转

符合因子模型要求的因子荷载矩阵A 不是唯一的,公共因子也不是唯一的。 事实上设Γ为任意一个正交矩阵(ΓΓ’=I )则

X=A ΓΓ’F=(A Γ)(Γ’F )

则A Γ也满足因子荷载矩阵的要求,Γ’F 的各个份量也可以作为公共因子。

利用这一特性,当公共因子和因子荷载矩阵不便于解决实际问题时,可以设法找一个矩阵Γ,使得变换后的荷载矩阵A Γ与公共因子Γ’F 有比较鲜明的意义。这种方法叫作因子旋转。为了达到这个目的,一般要设法使得旋转变换后,因子荷载矩阵的元素的绝对值向两极分化(行向和列向)。这样便于解释因子的意义。常用的方法叫作“方差最大正交旋转”。 如果正交旋转后公共因子的意义仍不明显,可以作斜交旋转。

5.因子得分

由于公共因子能够充分反映原始指标内部的依赖关系,因子用公共因子代替原始指标更能反映研究对象的性质。因此有时需要反过来将m 个公共因子表示为原来的p 个原始指标的线性组合,即

来计算各个样本的公共因子得分,从而便于对各个样本进行综合评价。 估计因子得分的方法常用的是Thomson 因子得分。

二、利用SPSS 或SAS 进行因子分析 1.用SPSS 进行因子分析

多孩率 节育率 初中以上人口比率 人均国民收入 城镇人口比率 1 .94 89.89 64.51 3577 73.08 2 2.58 92.32 55.41 2981 68.65 3 13.46 90.71 38.20 1148 19.08 4 12.46 90.04 45.12 1124 27.68 5 8.94 90.46 41.83 1080 36.12 6 2.80 90.17 50.64 2011 50.86 7 8.91 91.43 46.32 1383 42.65 8 8.82 90.78 47.33 1628 47.17 9 .80 91.47 62.36 4822 66.23 10 5.94 90.31 40.85 1696 21.24 11 2.60 92.42 35.14 1717 32.81 12 7.07 87.97 29.51 933 17.90 13 14.44 88.71 29.04 1313 21.36 14 15.24 89.43 31.05 943 20.40 15 3.16 91.21 37.85 1372 27.34 16 9.04 88.76 39.71 880 15.52 17 12.02 87.28 38.76 1248 28.91

p

jp j j j x

x x F βββ+++= (2211)

18 11.15 89.13 36.33 976 18.23

19 22.46 87.72 38.38 1845 36.77

20 24.34 84.86 31.07 798 15.10

21 33.21 83.79 39.44 1193 24.05

22 4.78 90.57 31.26 903 20.25

23 21.56 86.00 22.38 654 18.93

24 14.09 80.96 21.49 956 14.72

25 32.31 87.60 7.70 865 12.59

26 11.18 89.71 41.01 930 21.49

27 13.80 86.33 29.69 938 22.04

28 25.34 81.56 31.30 1100 27.35

29 20.84 81.45 34.59 1024 25.72

30 39.60 64.90 38.47 1374 31.91

Factor Analysis initial(最初的) extraction(提取的)共同度表:给出了各个变量的共同度。

期望方差表:

碎石图:

E i g e n v a l u e

成份矩阵

成份)

旋转后成份矩阵

转化)

因子1代表社会经济发展水平,因子2代表计划生育

X1多孩率 x2节育率 x3初中以上人口比率 x4人均国民收入 x5城镇人口比率

因子的旋转转化矩阵

因子得分

即:

F1=0.041X1-0.185X2+0.343X3+0.378X4+0.393X5

F2=-0.510X1+0.627X2-0.032X3-0.100X4-0.113X5

可以算出各省市的因子得分。

估计回归因子分数的协方差矩阵

score(得分) covariance 协方差

2.用SAS进行因子分析

data d1;

input id x1-x5;

cards;

1 .94 89.89 64.51 3577 73.08

2 2.58 92.32 55.41 2981 68.65

3 13.46 90.71 38.20 1148 19.08

4 12.46 90.04 45.12 1124 27.68

5 8.94 90.4

6 41.83 1080 36.12

6 2.80 90.1

7 50.64 2011 50.86

7 8.91 91.43 46.32 1383 42.65

8 8.82 90.78 47.33 1628 47.17

9 .80 91.47 62.36 4822 66.23

10 5.94 90.31 40.85 1696 21.24

11 2.60 92.42 35.14 1717 32.81

12 7.07 87.97 29.51 933 17.90

13 14.44 88.71 29.04 1313 21.36

14 15.24 89.43 31.05 943 20.40

15 3.16 91.21 37.85 1372 27.34

16 9.04 88.76 39.71 880 15.52

17 12.02 87.28 38.76 1248 28.91

18 11.15 89.13 36.33 976 18.23

19 22.46 87.72 38.38 1845 36.77

20 24.34 84.86 31.07 798 15.10

21 33.21 83.79 39.44 1193 24.05

22 4.78 90.57 31.26 903 20.25

23 21.56 86.00 22.38 654 18.93

24 14.09 80.96 21.49 956 14.72

25 32.31 87.60 7.70 865 12.59

26 11.18 89.71 41.01 930 21.49

27 13.80 86.33 29.69 938 22.04

28 25.34 81.56 31.30 1100 27.35

29 20.84 81.45 34.59 1024 25.72

30 39.60 64.90 38.47 1374 31.91

proc factor data=d1 method=prin priors=one p=0.8 simple;

proc factor data=d1 rotate=v n=2 score out=o1;

var X1-x5;

proc print data=o1;

var factor1 factor2;

run;

三、利用因子分析的输出进行主成份分析:

根据主成份分析原理,根据p个指标的n组观察值可以通过转换变为p个主成份:

Y=U’X

U为正交矩阵。

y1=u11x1+u21x2+……+u p1x p

y2=u12x1+u22x2+……+u p2x p

……………………………

y2=u1m x1+u2m x2+……+u pm x p

……………………………

y p=u1p x1+u2p x2+……+u pp x p

取前面m个主成份。(这m个主成分的方差贡献率占了很大比重,如80%以上)

由上式X=UY

x1=u11y1+u12y2+……+u1p y p

x2=u21y1+u22y2+……+u2p y p

……………………………

x m=u m1y1+u m2y2+……+u mp y p

……………………………

x p=u p1y1+u p2y2+……+u pp y p

如果取P个主成分,则上述式子就是主成分分析的P个主成分。

剩下的问题是知道上述各个系数就可以了。因子分析输出的系数是此时。应设主成分的个数是P:

λ11/2u11, λ21/2u12…λp1/2u1p

λ11/2u21, λ21/2u22,……λp1/2u2p

A= ………………………………

λ11/2u p1, λ21/2u p2……λp1/2u pp

所以上述系数除以相应的λi1/2

就可以得到各个u ij

y1=u11x1+u21x2+……+u p1x p

y2=u12x1+u22x2+……+u p2x p

……………………………

y2=u1m x1+u2m x2+……+u pm x p

……………………………

y p=u1p x1+u2p x2+……+u pp x p

注意下标,在由因子分析系数转变为主成分分析的系数时,因子分析的系数是“竖”着用的:

Compone

nt

1 2 3 4

X1 .935 -.304 -.127 .130

X2 .968 .118 -.130 -.178

X3 .905 .406 4.936E-02 .119

X4 .954 -.206 .210 -5.974E-0

2 实力:主成份分析中的学生数据:

Total Variance Explained

Initial Eigenvalu

es

Extraction Sums of Squared Loadings

Compone nt Total % of Variance Cumulativ e % Total % of Variance Cumulativ

e % 1 3.541 88.527 88.527 3.541 88.527 88.527 2 .313 7.835 96.362 .313 7.835 96.362 3 7.941E-02 1.985 98.347 7.941E-02 1.985 98.347 4 6.611E-02 1.653 100.000 6.611E-02 1.653 100.000

Extraction Method: Principal Component Analysis.

y 1=u 11x 1+u 21x 2+……+u p1x p y 2=u 12x 1+u 22x 2+……+u p2x p …………………………… y 2=u 1m x 1+u 2m x 2+……+u pm x p …………………………… y p =u 1p x 1+u 2p x 2+……+u pp x p

式中的u 就是要求的主成份系数。

Component Matrix

C ompone

nt

1 2 3 4

X1 .935 -.304 -.127 .130

X2 .968 .118 -.130 -.178

X3 .905 .406 4.936E-02 .119

X4 .954 -.206 .210 -5.974E-0

2

Extraction Method: Principal Component Analysis.

a 4 components extracted.

表中给出的是因子分析法中的因子系数:

λ11/2u11, λ21/2u12…+λm1/2u1m

λ11/2u21, λ21/2u22,……λm1/2u2m

A= ………………………………

λ11/2u m1, λ21/2u m2……λm1/2u mm

将其中的第一列除以λ11/2,第二列除以λ21/2,就可以得到第一、第二主成份的系数:y1=u11x1+u21x2+……+u p1x p

y2=u12x1+u22x2+……+u p2x p

λ11/2=3.5411/2=1.88175

λ21/2=0.3131/2=0.55946

0.935/1.88175= 0.4969 -0.304/0.55946=-0.5433

0.968/1.88175=0.5144 0.118/0.55946=0.2109

0.905/1.88175=0.4809 0.406/0.55946=0.7257

0.954/1.88175=0.5070 -0.206/0.55946=-0.3682

.935 -.304

.968 .118

.905 .406

.954 -.206

与用SAS计算出的下列结果相同:

Z1=0.496966X1+0.514571X2+0.480901X3+0.506928X4

Z2=-.543213X1+0.210246X2+0.724621X3-0.368294X4

也可以取前两个因子。系数“竖”着用,结果一样:

SPSS还可以给出因子得分。根据得分,对各因子排序,可以得到各事件在各因子上的排列顺序;用特征值的归一化值给各因子得分加权,可以得出综合评分及排序。

可以用SPSS中的转换中的排序功能进行此时。

因子综合得分。也可以用产生新变量的功能进行。

SAS学习系列34.-因子分析

SAS学习系列34.-因子分析

34.因子分析 (一)基本原理 一、概述 因子分析,是用少数起根本作用、相互独立、易于解释通常又是不可观察的因子来概括和描述数据,表达一组相互关联的变量。通常情况下,这些相关因素并不能直观观测。 因子分析是从研究相关系数矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。简言之,即用少数不可观测的隐变量来解释原始变量之间的相关性或协方差关系。 因子分析的作用是减少变量个数,根据原始变量的信息进行重组,能反映原有变量大部分的信息;原始部分变量之间多存在较显著的相关关系,重组变量(因子变量)之间相互独立;因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 主成分分析是因子分析的特例。主成份分析的目标是降维,而因子分析的目标是找出公共因素及特有因素,即公共因子与特殊因子。 因子分析模型在形式上与线性回归模型相似,但两者有着本质的区别:回归模型中的自变量是可观测到的,而因子模型中的各公因子是不可观测的隐变量,而且两个模型的参数意义也不相同。 二、原理

假设样品检测p 个指标(变量)X 1, …, X p ,得到观测矩阵X ,这p 个指标变量可能受m (m

第6章 因子分析

第六章 因子分析 一、填空题 1.因子分析常用的两种类型为 和 。 2.因子分析是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现_____________与____________之间的相互关系。 3.因子分析就是通过寻找众多变量的 来简化变量中存在的复杂关系的一种方法。 4.因子分析是把每个原始变量分解成两个部分即 、 。 5.变量共同度是指因子载荷矩阵中_______________________。 6.公共因子方差与特殊因子方差之和为_______。 7.求解因子载荷矩阵常用的方法有 和 。 8.常用的因子旋转方法有 和 。 9.Spss 中因子分析采用 命令过程。 10.变量i X 的方差由两部分组成,一部分为 ,另一部分为 。 二、判断题 1.在因子分析中,因子载荷阵不是唯一的。 ( ) 2.因子载荷阵经过正交旋转后,各变量的共性方差和各个因子的贡献都发生了变化。 ( ) 3.因子分析和主成分分析的核心思想都是降维。 ( ) 4.因子分析有两大类,R 型因子分析和Q 型因子分析;其中R 型因子分析是从变量的相似矩阵出发,而Q 型因子分析是从样品的相关矩阵出发。( ) 5.特殊因子与公共因子之间是相互独立的。( ) 6.变量共同度是因子载荷矩阵列元素的平方和。( ) 7.公共因子的方差贡献是衡量公共因子相对重要性指标。( ) 8.对因子载荷阵进行旋转的目的是使结构简化。( ) 三、简答题 1. 因子分析的基本思想是什么,它与主成分分析有什么区别和联系? 2.因子模型的矩阵形式ε+=X UF ,其中:

() () () u F F ij m p P m U F ?=' =' =εεε,,,,1 1 请解释式中F 、 ε、U 的统计意义。 3.因子旋转的意义何在?如何进行最大方差因子旋转? 4.因子分析主要应用在哪几个方面? 四、计算题 4.假设某地固定资产投资率1x , 通货膨胀率2x 和失业率3x 的约相关矩阵为: ??????? ????? ????----=525 25 152******** 51* R 并且已知该相关矩阵的各特征根和相应的非零特征根的单位特征向量分别为: 9123.01=λ ()' -=657.0657.0369 .01α 0877.02=λ ()'-=261.0261 .0929 .02α 03=λ 要求求解因子分析模型,计算各变量的共同度和各公共因子的方差贡献并解释它们的统计意义。 2.设变量x 1,x 2和x 3已标准化,其样本相关系数矩阵为: ?? ?? ??????=135.045.035.0163.045.063.01 R (1)对变量进行因子分析。 (2)取q=2进行正交因子旋转。 3.已知我国某年各地区的国有及非国有规模以上的工业企业经济效益资料,现做因子分析,结果如下,请说明每一个输出结果的含义及目的,并回答以下问题: (1)什么是方差贡献率? 计算方差贡献率的目的何在? (2) 如何利用因子分析结果进行综合评价? 结合本例写出计算综合评价结果的公式。

因子分析与主成分分析

主成分分析 一、主成分分析的基本思想 主成分分析(principal component analysis)是Hotelling 于1933年首先提出来的。它是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。 在实际问题的研究中,为了全面分析问题,我们往往选择许多个变量去观测,而这些变量甚至会多到十几个或几十个,因为每个变量都在不同程度上反映所研究的问题的信息。但变量个数太多常常会增加对问题分析的复杂性,而且也给合理地分析和解释问题带来困难,所以人们自然希望选取的变量个数较少且得到的信息没有减少。 一般来说,虽然每个变量都提供了一定的信息,但实际上,众多变量间有一定的相关关系,当两个变量有一定的相关关系时,可以解释为这两个变量反映的信息有一定的重迭。于是,从数学上考虑,就是要求有这样一种数学方法:将原来提出的所有p个变量综合成尽可能少的q 个变量,并且要求这q个综合变量既能充分反映原来的p个变量所反映的信息,又能使这q个综合变量间互不相关。 如加工一件上衣,要测量身长、袖长、领围、胸围、腰围、肩宽、背宽等十几项指标,但事实上,加工厂仅根据衣长、型号几项综合指标变能加工出适合大多数人的衣服。 如n个样本,p个变量Y=UX,此处,y1、y2…yp互不相关 二、主成分分析的几何意义 为了方便我们在二维空间里讨论主成分的几何意义,设有n个被试,每个被试有两个观测变量x1和x2,样本点所散布的情况如图,无论是沿着x1轴方向或x2轴方向都有较大的离散性,其离散的程度可以分别用变量x1的方差和变量x2的方差定量地表示。显然,如果只考虑其中任何一个损失的信息都较大。(回归) 如果我们将坐标轴同时按逆时针方向旋转一个角度得到新坐标轴y1和y2, 即Y=UX 由于n个点在y1轴上的方差最大,因此将二维空间上点用y1这个综合变量来代替,损失的信息最小,称其为第一主成分,起到降维的效果,这样简化了结构,抓住了主要矛盾。

因子分析的一般原理概述

因子分析的一般原理概述 简才永 因子分析是处理多变量数据的一种统计方法,它可以揭示多变量之间的关系,其主要目的是从众多的可观测得变量中概括和综合出少数几个因子,用较少的因子变量来最大程度地概括和解释原有的观测信息,从而建立起简洁的概念系统,揭示出事物之间本质的联系。 一、因子分析的种类 (一)、R型因子分析与Q型因子分析 这是最常用的两种因子分析类型。R型因子分析,是针对变量所做的因子分析,其基本思想是通过对变量的相关系数矩阵内部结构的研究,找出能够控制所有变量的少数几个随机变量去描述多个随机变量之间的相关关系。然后再根据相关性的大小把变量分组,使同组内的变量之间的相关性较高,不同组变量之间的相关性较低。Q型因子分析,是针对样品所做的因子分析。它的思路与R因子分析相同,只是出发点不同而已。它在计算中是从样品的相似系数矩阵出发,而R型因子分析在计算中是从样品的相关系数矩阵出发的。 (二)、探索性因子分析与验证性因子分析 探索性因子分析(EFA),主要适用于在没有任何前提预设假定下,研究者用它来对观察变量因子结构的寻找、对因子的内容以及变量的分类。通过共变关系的分解,进而找出最低限度的主要成分,让你后进一步探讨这些主成分或共同因子与个别变量之间的关系,找出观察变量与其对应因子之间的强度,即所谓的因子负荷值,以说明因

子与所属的观察变量的关系,决定因子的内容,为因子取一个合适的名字。 验证性因子分析(CFA),要求研究者对研究对象潜在变量的内容与性质,在测量之初就必须有非常明确的说明,或有具体的理论基础,并已先期决定相对应的观测变量的组成模式,进行因子分析的目的是为了检验这一先前提出的因子结构的适合性。这种方法也可以应用于理论框架的检验,它在结构方程模型中占据相当重要的地位,有着重要的应用价值,也是近年来心理测量中相当重要的内容。 二、因子分析基本思想、模型与条件 (一)、因子与共变结构 因子分析的基本假设是那些不可观测的“因子”隐含在许多现实可观察的事物背后,虽然难以直接测量,但是可以从复杂的外在现象中计算、估计或抽取得到。它的数学原理是共变抽取。也就是说,受到同一个因子影响的测量分数,共同相关的部分就是因子所在的部分,这可以用“因子”的共变相关部分来表示。 (二)、因子分析的条件 第一、因子分析以变量之间的共变关系作为分析的依据,凡影响共变的因子都要先行确认无误。首先,因子分析的变量都必须是连续变量,符合线性关系的假设。其他顺序与类别型的数据不能用因子分析简化结构。 第二、抽样过程必须随机,并具有一定规模。一般样本量不得低于100,原则上是越大越好。此外,一般还要求样本量与变量数之间

因子分析模型的建立

基于因子分析模型的居民消费价格指数影响因素分 析 摘要:由于目前对居民消费价格变动原因的分析指标很多,且指标体系中各指标之间存在着多重共线性,从而影响了分析模型的稳定性,使所得模型中出现了不符合经济学原理的现象。本文采用多元统计分析方法,以2010年居民消费物价水平为例,建立了关于居民消费价格分类指数变动的因子分析模型,研究发现影响居民消费价格指数的主要因素为食品、衣着和家用设备等生活必需品的价格水平,其次为健身等娱乐设施价格和房价水平。 关键词:消费价格指数;影响因素;因子分析 一、研究背景 随着社会主义市场经济体制的确立和逐步完善,我国经济总量和综合实力迅速上升,居民的生活水平显着提高,经济和社会都有了较大的发展。相对于过去而言,居民食品方面的消费支出比重在逐渐下降,而在文化娱乐等方面的消费支出比重越来越大。国家发改委在全国物价局长会议上指出,明年要围绕促进经济平稳较快发展这一主线,积极稳妥地推进价格改革,切实改进价格监管,保持价格总水平基本稳定。同时由于影响价格变动的因素日益复杂,价格异常波动的可能性增加。分析影响居民消费价格指数的主要影响因素,改进价格监管,保持价格总水平基本稳定有着重要意义;同时也为产业政策的制定和宏观经济的调控提供了参考。 居民消费价格指数(CPI)是反映与居民生活有关的产品及劳务价格统计出来的物价变动指标,通常作为观察通货膨胀水平的重要指标,在一定程度上也反映出我国居民消费结构的变化。本文通过对2010年全国居民消费价格指数的变化进行因子分析,从而确定出影响全国居民消费物价水平和消费结构变化的主导因素。 二、因子分析模型的建立 因子分析最初是由英国心理学家C.Spearman提出的,是多元统计分析的一个重要分支,其主要目的是浓缩数据。通过对诸多变量的相关性研究,来表示原来变量的主要信息。假设有n个样本,对于多指标问题X=(X1,X2,...Xk),形成的背景原因是多种多样的,其中共同原因称为公共因子,假设用Fj表示,它们之间是两两正交的;每一个分量Xi又有其特定的原因,称为特殊因子,假设用ei表示,其两两之间互不相关,且只对相应的Xi起作用。同时,F与e相互独立。于是因子分析的数学模型可表示为: Fi叫做公共因子(也称主因子),它们是在各个原观测变量的表达式中都共同出现的因子,是相互独立的不可观测的理论变量。

主成分分析、聚类分析、因子分析的基本思想及优缺点

主成分分析:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),用综合指标来解释多变量的方差- 协方差结构,即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的综合指标即为主成分。 求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计) 注意事项:1. 由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法; 2. 对于度量单位或是取值范围在同量级的数据,可直接求协方差阵;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分; 3.主成分分析不要求数据来源于正态分布; 4. 在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零,说明存在多重共线性问题)。 优点:首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。再次它在应用上侧重于信息贡献影响力综合评价。 缺点:当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。命名清晰性低。 聚类分析:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。 。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。 常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。 注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;2. K-均值法要求分析人员事先知道样品分为多少类;

基于因子分析的影响专业选择因素的分析研究

基于因子分析的影响专业选择因素的分析研究

摘要:随着大学专业开设的种类日趋繁多,以及当今就业形势严峻,高考志愿填报时,专业 的选择将会对每个人未来的发展产生深远的影响,而本文的目的在于研究影响高考志愿填报 的因素和因素所造成的影响。根据搜集的可能影响专业填报的因素设计调查问卷,在天津师 范大学管理学院进行问卷调查并得到相应数据,运用spss数理统计软件,采用因子分析的 方法,综合的分析了高考志愿填报中影响专业选择的因素。并把分析出来的结果进行更进一 步的剖析和解释,从而为以后即将踏入大学的学生们提供一些专业选择的相关信息和方法。 一引言 随着大学专业的开设日趋繁多,以及当今就业的严峻形势,高考志愿填报时,专业的选择将会对个人的发展产生深远的影响,通过在天津师范大学管理学院进行问卷调查,搜集相关数据。对所得到的数据进行科学的、系统的分析,得出影响高考志愿填报时专业选择的主要因素,为以后即将踏入大学的学生们提供一些专业选择的信息和方法,让他们能够选择出更适合自己的专业,并在这个方面有更好的发展。同时,通过对数据的分析,了解绝大多数人的思考方式和所存在的误区,从而让他们避免误区,更加理性和客观的选择自己的专业。 二分析调查研究的基本思路及其个影响因素和所涉及的概念 (一)此次调查问卷的设计思路及其影响因素 首先,在设计调查问卷之前,我通过和他人交流和查看相关专业选择的信息,总结出影响高考填报志愿时,专业选择的因素,并把这些因素进行筛选分类。然后,根据因素的性质和考察方面,对调查问卷的问题进行合理的排序,从而设计出调查问卷。 下面是影响高考志愿填报时影响专业选择的因素。 了解程度:对于所选择的专业的学习内容和就业方向等方面的了解程度。 兴趣程度:结合自身的条件和喜好程度,对于所选择的专业要学习内容的兴趣程度。 高考成绩:高考的成绩对专业选择的影响 学校选择:学校的选择对专业选择的影响程度 收入水平:毕业后,所从事的工作和所学专业相对口所能够得到的工资水平对专业 选择的影响程度 专业的冷热程度:当时专业的就业前景对于人们选择专业的影响程度。 未来发展潜力:结合自己对专业的预判,专业未来发展潜力对专业选择的影响程度。 他人建议:他人所提供专业方面的相关信息对专业选择的影响。 家人职业:家庭成员所从事的职业(即能够在您毕业后为您的就业提供相对应的资 源)对专业选择的影响程度 (二)所涉及的概念 信度分析: 即一组测量分数的真变异数与总变异数(实得变异数)的比率,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。信度指标多以相关系数表示, 大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内 在一致性系数(跨项目的一致性)。【1】

因子分析

因子分析 判别分析和因子分析的区别,什么是聚类分析,多向测量的定义,广州专业广告市场调查。在市场调查中,对问题的分析和评论往往涉及众多的评测变量。因子分析,就是将多项评测变量归结为尽可能少的几个评测因素。如对咖啡的评测内容有很多,专业性的调查报告结构上分为哪些部分: (1)闻着令人愉快; (2)喝起来感到解乏; (3)口感适宜; (4)价格便宜; (5)喝起来提神; (6)味道浓重有特色; (7)保持原料的味道。 通过因子分析,将7个评测项目减少到4个,广播委员会的任务是什么: 享受感——闻着令人愉快、口感适宜 浓厚感——味道浓重有特色 货真感——喝起来感到解乏、提神,价格便宜 新鲜感——保持原料的味道 判别分析和因子分析实质上都是分类的方法。聚类分析则是一种更简单、直观的分类方法,广泛地应用在市场调查中,如实验市场的选择、市场细分、市场范围的划分、产品的定位、消费者分类,等等,什么是创意广告。 多向测量,是指用多维空间定位图模拟市场或消费者对产品的心理评价的方法。它能够形象地反映某一个市场的结构,即它是判别分析、因子分析和聚类分析的图形化。 主成分分析和因子分析的区别 1,因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。 2,主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3,主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4,主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不到的因子。 5,在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。

因素分析法

因素分析法 要指根据价值工程对象选择应考虑的各种因素,凭借分析人员的知识和经验集体研究确定选择对象。该方法简单易行,要求价值工程人员对产品熟悉,经验丰富,在研究对象彼此相差较大或时间紧迫的情况下比较适用,缺点是无定量分析、主观影响大。 [1] 因素分析法是利用统计指数体系分析现象总变动中各个因素影响程度的一种统计分析方法,包括连环替代法、差额分析法、指标分解法等。因素分析法是现代统计学中一种重要而实用的方法,它是多元统计分析的一个分支。使用这种方法能够使研究者把一组反映事物性质、状态、特点等的变量简化为少数几个能够反映出事物内在联系的、固有的、决定事物本质特征的因素。 方法功用 因素分析法的最大功用,就是运用数学方法对可观测的事物在发展中所表现出的外部特征和联系进行由表及里、由此及彼、去粗取精、去伪存真的处理,从而得出客观事物普遍本质的概括。其次,使用因素分析法可以使复杂的研究课题大为简化,并保持其基本的信息量。应用范围 因素 通过分析期货商品的供求状况及其影响因素,来解释和预测期货

价格变化趋势的方法。期货交易是以现货交易为基础的。期货价格与现货价格之间有着十分紧密的联系。商品供求状况及影响其供求的众多因素对现货市场商品价格产生重要影响,因而也必然会对期货价格重要影响。所以,通过分析商品供求状况及其影响因素的变化,可以帮助期货交易者预测和把握商品期货价格变化的基本趋势。在现实市场中,期货价格不仅受商品供求状况的影响,而且还受其他许多非供求因素的影响。这些非供求因素包括:金融货币因素,政治因素、政策因素、投机因素、心理预期等。因此,期货价格走势基本因素分析需要综合地考虑这些因素的影响。 [2] 经济 商品供求状况对商品期货价格具有重要的影响。基本因素分析法主要分析的就是供求关系。商品供求状况的变化与价格的变动是互相影响、互相制约的。商品价格与供给成反比,供给增加,价格下降;供给减少,价格上升。商品价格与需求成正比,需求增加,价格上升;需求减少,价格下降。在其他因素不变的条件下,供给和需求的任何变化,都可能影响商品价格变化,一方面,商品价格的变化受供给和需求变动的影响;另一方面,商品价格的变化又反过来对供给和需求产生影响:价格上升,供给增加,需求减少;价格下降,供给减少,需求增加。这种供求与价格互相影响、互为因果的关系,使商品供求分析更加复杂化,即不仅要考虑供求变动对价格的影响,还要考虑价格变化对供求的反作用。 运用程序

SPSS因子分析法

因子分析 ? 因子分析(Factor analysis ):用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。 主成分分析(Principal component analysis ):是因子分析一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。 两者关系:主成分分析(PCA )和因子分析(FA )是两种把变量维数降低以便于描述、理解和分析的方法。 ? 特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。 ? 类型 根据研究对象的不同,把因子分析分为R 型和Q 型两种。 当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。 但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。 ? 分析原理 假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 : 当p 较大时,在p 维空间中考察问题比较麻烦。这就需要进行降维处理,即用较少几个综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信息,同时它们之间又是彼此独立的。 线性组合:记x1,x2,…,xP 为原变量指标,z1,z2,…,zm (m ≤p )为??????????????=np n n p p x x x x x x x x x X 212222111211

因子分析法影响增长的经济因素(可打印修改)

影响中国增长的经济因素分析 ??: ???? ??: ??? ??: 201628005 ???:???

目录 1.序言 (3) 2.因子分析 (3) 1概念及作用 (3) 2因子分析的模型 (4) 3因子旋转 (4) 3.中国经济影增长响因素的实证分析 (5) 1变量的选取 (5) 2模型的运用 (5) 2.1初始特征值 (5) 2.2因子模型 (6) 2.3旋转因子模式 (7) 2.3因子得分 (9)

影响中国经济增长因素分析 摘要:改革开放以来,我国的社会主义经济取得了突飞猛进的发展,经济增长速度更 是举世瞩目。经济增长影响因素和经济增长预测方面的研究,国内外学者对经济增长影响 因素进行了大量理论与实证研究。本文通过在次贷危机前后的2004年和2014年中国31个省、直辖市和自治区的14个与经济增长有关的指标进行因子分析。建立计量模型,寻求这些变量对国内生产总值的影响,进行定量分析,对模型进行检验。对比观察两年的数据在 次贷危机前后,影响中国经济增长的因素有哪些变化。 1序言 (一)经济增长理论 经济增长是指一个国家生产商品和劳务能力的扩大。在实际核算中,常以一国生产的 商品和劳务总量的增加来表示,即以国民生产总值和国内生产总值的(GDP)的增长来计算。经济增长是经济学研究的永恒主题。 古典经济增长理论以社会财富的增长为中心,指出生产劳动是财富增长的源泉。现代 经济增长理论认为知识、人力资本、技术进步是经济增长的主要因素。 (二)影响因素的分析 从古典增长理论到新增长理论,都重视物质资本和劳动的贡献。物质资本是指经济系 统运行中实际投入的资本数量.然而,由于资本服务流量难以测度,在这里我们用全社会固定资产投资总额(亿元)来衡量物质资本。中国拥有全世界近1/4 的人口,为经济增长提 供了丰富的劳动力资源。因此本文用总就业人数(万人)来衡量劳动力。居民消费需求也 是经济增长的主导因素。 经济增长问题既受各国政府和居民的关注,也是经济学理论研究的一个重要方面。在1978—2008年的31中,我国经济年均增长率高达9.6%,综合国力大大增强,居民收入水平与生活水平不断提高,居民的消费需求的数量和质量有了很大的提高。但是,我国目前仍然面 临消费需求不足问题。因此,研究消费需求对经济增长的影响,并对我国消费需求对经济增 长的影响程度进行实证分析,可以更好的理解消费对我国经济增长的作用。 2因子分析 1概念及作用 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相 关比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反 映原资料的大部分信息。 因子分析主要用于:减少分析变量个数和通过对变量间相关关系探测,将原始变量进 行分类。即将相关性高的变量分为一组,用共性因子代替该组变量。 因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量 归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图

(完整版)因子分析法基本原理

1.因子分析法基本原理 在对某一个问题进行论证分析时,采集大量多变量的数据能为我们的研究分析提供更为丰富的信息和增加分析的精确度。然而,这种方法不仅需要巨大的工作量,并且可能会因为变量之间存在相关性而增加了我们研究问题的复杂性。因子分析法就是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。这样我们就可以对原始的数据进行分类归并,将相关比较密切的变量分别归类,归出多个综合指标,这些综合指标互不相关,即它们所综合的信息互相不重叠。这些综合指标就称为因子或公共因子。 因子分析法的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。这样,就能相对容易地以较少的几个因子反映原资料的大部分信息,从而达到浓缩数据,以小见大,抓住问题本质和核心的目的。 因子分析法的核心是对若干综合指标进行因子分析并提取公共因子,再以每个因子的方差贡献率作为权数与该因子的得分乘数之和构造得分函数。因子分析法的数学表示为矩阵:B AF X +=,即: ????? ?? ??++++=++++=++++=++++=p k pk p p p p k k k k k k f f f f x f f f f x f f f f x f f f f x βααααβααααβααααβααααΛΛΛΛΛΛ332211333332321313223232221212113132121111 (k ≤p)………………(1式) 模型中,向量X ()p x x x x ,,,,321Λ是可观测随机向量,即原始观测变量。F ()k f f f f ,,,,321Λ是X ()p x x x x ,,,,321Λ的公共因子,即各个原观测变量的表达式中共同出现的因子,是相互独立的不可观测的理论变量。公共因子的具体含义必须结合实际研究问题来界定。A ()ij α是公共因子F ()k f f f f ,,,,321Λ的系数,称为因子载荷矩阵,ij α(i=1,2,.....,p;j=1,2,....,k)称为因子载荷,是第i 个原有变量在第j 个因子上的负荷,或可将ij α看作第i 个变量在第j 公共因子上的权重。ij α是x i 与f j

主成分分析与因子分析的优缺点讲课稿

主成分分析与因子分析的优缺点

主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构.综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关. 因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子 变量具有较强的可解释性的一种多元统计分析方法. 聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程.其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似. 三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的 联系,以期为更好地利用这些高级统计方法为研究所用有所裨益. 二、基本思想的异同 (一) 共同点 主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息, 变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.并且新的变量彼此间互不相关,消除了多重共线性.这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量.在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到.在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分.公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子.对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量 比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度.

(完整版)因子分析法基本原理.docx

1.因子分析法基本原理 在 某一个 行 分析 , 采集大量多 量的数据能 我 的研究分析提供更 丰富的信息和增加分析的精确度。 然而, 种方法不 需要巨大的工 作量,并且可能会因 量之 存在相关性而增加了我 研究 的复 性。 因子分析法就是从研究 量内部相关的依 关系出 , 把一些具有 复 关系的 量 少数几个 合因子的一种多 量 分析方法。 我 就可以 原始的数据 行分 并,将相关比 密切的 量分 , 出多个 合指 , 些 合指 互不相关, 即它 所 合的信息互相不重叠。 些 合指 就称 因子或公共因子。 因子分析法的基本思想是将 量 行分 , 将相关性 高, 即 系比 密的分在同一 中, 而不同 量之 的相关性 低, 那么每一 量 上就代表了一个基本 构, 即公共因子。 于所研究的 就是 用最少个数的不可 的所 公共因子的 性函数与特殊因子之和来描述原来 的每一分 量。 ,就能相 容易地以 少的几个因子反映原 料的大部分信息, 从而达到 数据,以小 大,抓住 本 和核心的目的。 因子分析法的核心是 若干 合指 行因子分析并提取公共因子, 再以每个因子的方差 献率作 数与 因子的得分乘数之和构造得分函数。 因子分析法的数学表示 矩 : X AF B ,即 : x 1 11 f 1 1 2 f 2 1 3 f 3 1k f k 1 x 2 21 f 1 22 f 2 23 f 3 2 k f k 2 x 3 31 f 1 32 f 2 33 f 3 3k f k 3 (k ≤p)?????? (1 式) x p p1 f 1 p 2 f 2 p 3 f 3 pk f k p 模型中,向量 X x 1, x 2 , x 3 , , x p 是可 随机向量,即原始 量。 F f 1 , f 2, f 3 , , f k 是X x 1, x 2 , x 3, , x p 的公共因子,即各个原 量的表达式中 共同出 的因子, 是相互独立的不可 的理 量。 公共因子的具体含 必 合 研究 来 界定。 A ij 是公共因子 F f 1, f 2 , f 3, , f k 的系数,称 因子 荷矩 , ij (i=1,2,.....,p;j=1,2,....,k)称 因子 荷,是第 i 个原有 量在第 j 个 因子上的 荷,或可将 ij 看作第 i 个 量在第 j 公共因子上的 重。 ij 是 x i 与 f j

因子分析法(自己整理)

因子分析法 1.因子分析法简介: 1)因子分析法的提出 “因子分析”的名称于1931年由Thurstone 首次提出,但它的概念起源于二十世纪初Karl Pearson 和Charles Spearmen 等人关于智力测验的统计分析。近年来,随着电子计算机的高速发展,人们将因子分析方法成功地应用于各个领域,使得因子分析的理论和方法更加丰富。 2)因子分析的定义 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。因子分析法(Factor Analysis)就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。 运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。 3)与主成分分析的联系 主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。 2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。 5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变

浅谈主成分分析与因子分析,基本思想,主要性质,应用举例,计算步骤,主要区别

浅谈主成分分析与因子分析 1、主成分分析 主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析,也是数学上处理降维的一种方法。主成分分析的一般目的是:(1)变量的降维;(2)主成分的解释。 1.1基本思想 主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。这些主成分不仅不相关,而且他们的方差依次递减。 1.2计算步骤 设有n个样品,每个样品观测P个指标,将原始数据写成矩阵。 (1)将原始数据标准化,即将每个指标的原始数据减去这个指标的均值后,再除以这个指标的标准差。 (2)建立变量的相关系数阵:。 (3)求R的特征根及相应的单位特征向量。 在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前k个,称第一主成分的贡献率为,这个值越大,表明第一主成分综合 信息的能力越强。前k个主成分的累计贡献率达到85%,表明取前k个主成分基本包含了全部测量指标所具有的信息。

因子分析例题

因子分析例题 公司内部编号:(GOOD-TMMT-MMUT-UUPTY-UUYY-DTTI-

因子分析 因子分析(Factor Analysis )是主成分分析的推广,它也是从研究相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合变量的一种多变量统计分析方法。 第一节 因子分析的基本思想 首先我们看下面两个实际例子: 例1. 例1. 某企业招聘人才,对每位应聘者进行外貌、申请书的形式、专业能力、 讨人喜欢的能力、自信心、洞察力、诚实、推销本领、经验、积极性、抱负、理解能力、潜在能力、实际能力、适应性等15个方面的考核。这15个方面可归结为应聘者的外露能力、讨人喜欢的能力、经验、专业能力4个方面,每一方面称之为一个公共因子。企业可根据这4个公共因子的情况来衡量应聘者的综合水平。 例2. 例2. 在企业经济效益的评价中,有经济效益的指标体系。通常这个指标体系 有八项指标:固定资产利税率、资金利税率、销售收入利税率、资金利税率、固定资产产值率、流动资金周转天数、万元产值能耗、全员劳动生产率等。这八项指标可概括为盈利能力、资金和人力利用、产值能耗三个方面。这三个方面在企业的生产经营活动中为主要因子,起着支配作用,企业要提高经济效益就要在这三个公共因子方面下功夫。 因子分析的基本思想:是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。 因子分析分为两类,即R 型因子分析(对变量作因子分析),Q 型因子分析(对样品作因子分析)。 第二节 第二节 因子分析的数学模型 1.1. 模型(R 型) 设),,,(21p x x x X =为观察到的随机向量,),,,(21m F F F F =是不可观测的向量。 有 即 其中)',,(1p εεε =称作误差或特殊因子。 满足假设: 1)p m ≤ 2)0),cov(=εF , 3)m I F =)var(,),,()var(2 21p diag σσε =。 称i F 为第i 个公共因子,ij a 为因子载荷。 因子分析与主成分的关系:

(完整版)主成分分析与因子分析的优缺点

主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差-协方差结构.综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关.因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法. 聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程.其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似. 三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益. 二、基本思想的异同 (一) 共同点 主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.并且新的变量彼此间互不相关,消除了多重共线性.这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量.在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到.在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分.公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子.对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度. 聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的

相关文档
最新文档