(整理)实验六主成分分析.

(整理)实验六主成分分析.
(整理)实验六主成分分析.

实验课:主成分分析

实验目的

理解主成分(因子)分析的基本原理,熟悉并掌握SPSS中的主成分(因子)分析方法及其主要应用。

一、相关知识

1 概念

因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。

主成分分析(Principal component analysis):是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。

两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。

2 特点

(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。

(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。

(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。

(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。

在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。

3 类型

根据研究对象的不同,把因子分析分为R型和Q型两种。

当研究对象是变量时,属于R型因子分析;

当研究对象是样品时,属于Q型因子分析。

但有的因子分析方法兼有R型和Q型因子分析的一些特点,如因子分析中的对应分析

方法,有的学者称之为双重型因子分析,以示与其他两类的区别。

4分析原理

假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 :

当p 较大时,在p 维空间中考察问题比较麻烦。这就需要进行降维处理,即用较少几个

综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信息,同时它们之间又是彼此独立的。

线性组合:记x1,x2,…,xP 为原变量指标,z1,z2,…,zm (m ≤p )为新变量指标(主成分),则其线性组合为:

Lij 是原变量在各主成分上的载荷

无论是哪一种因子分析方法,其相应的因子解都不是唯一的,主因子解仅仅是无数因子解中之一。

Z 为因子变量或公共因子,可以理解为在高维空间中互相垂直的m 个坐标轴。 zi 与zj 相互无关;

z1是x1,x2,…,xp 的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…的所有线性组合中方差最大者。则,新变量指标z1,z2,…分别称为原变量指标的第一,第二,…主成分。

主成分分析实质就是确定原来变量xj (j=1,2 ,…,p )在各主成分zi (i=1,2,…,m )上的荷载 lij 。

从数学上容易知道,从数学上也可以证明,它们分别是相关矩阵的m 个较大的特征值所对应的特征向量。

5分析步骤

5.1 确定待分析的原有若干变量是否适合进行因子分析(第一步)

因子分析是从众多的原始变量中重构少数几个具有代表意义的因子变量的过程。其潜在??

?

???

?

????

???=np n n p p x x x x x x x x x X 2122221

11211??

?

??

?

?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111??

?

??

?

?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111

的要求:原有变量之间要具有比较强的相关性。因此,因子分析需要先进行相关分析,计算原始变量之间的相关系数矩阵。如果相关系数矩阵在进行统计检验时,大部分相关系数均小于0.3且未通过检验,则这些原始变量就不太适合进行因子分析。

进行原始变量的相关分析之前,需要对输入的原始数据进行标准化计算(一般采用标准差标准化方法,标准化后的数据均值为0,方差为1)。

SPSS 在因子分析中还提供了几种判定是否适合因子分析的检验方法。主要有以下3种: 巴特利特球形检验(Bartlett Test of Sphericity )

反映象相关矩阵检验(Anti-image correlation matrix ) KMO (Kaiser-Meyer-Olkin )检验 (1)巴特利特球形检验

该检验以变量的相关系数矩阵作为出发点,它的零假设H0为相关系数矩阵是一个单位阵,即相关系数矩阵对角线上的所有元素都为1,而所有非对角线上的元素都为0,也即原始变量两两之间不相关。

巴特利特球形检验的统计量是根据相关系数矩阵的行列式得到。如果该值较大,且其对应的相伴概率值小于用户指定的显著性水平,那么就应拒绝零假设H0,认为相关系数不可能是单位阵,也即原始变量间存在相关性。

(2)反映象相关矩阵检验

该检验以变量的偏相关系数矩阵作为出发点,将偏相关系数矩阵的每个元素取反,得到反映象相关矩阵。

偏相关系数是在控制了其他变量影响的条件下计算出来的相关系数,如果变量之间存在较多的重叠影响,那么偏相关系数就会较小,这些变量越适合进行因子分析。

(3)KMO (Kaiser-Meyer-Olkin )检验

该检验的统计量用于比较变量之间的简单相关和偏相关系数。

KMO 值介于0-1,越接近1,表明所有变量之间简单相关系数平方和远大于偏相关系数平方和,越适合因子分析。

其中,Kaiser 给出一个KMO 检验标准:KMO>0.9,非常适合;0.8

??????

?????

???=pp p p p p r r r r r r r r r R

2

1

22221

112

11∑∑∑===----=

n

k n

k j

kj i ki n

k j kj i ki

ij x x

x x

x x x x

r 1

1

22

1

)()

()

)((

5.2 构造因子变量

因子分析中有很多确定因子变量的方法,如基于主成分模型的主成分分析和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。前者应用最为广泛。

主成分分析法(Principal component analysis ):

该方法通过坐标变换,将原有变量作线性变化,转换为另外一组不相关的变量Zi (主成分)。求相关系数矩阵的特征根λi (λ1,λ2,…,λp>0)和相应的标准正交的特征向量li ;根据相关系数矩阵的特征根,即公共因子Zj 的方差贡献(等于因子载荷矩阵L 中第j 列各元素的平方和),计算公共因子Zj 的方差贡献率与累积贡献率。

主成分分析是在一个多维坐标轴中,将原始变量组成的坐标系进行平移变换,使得新的坐标原点和数据群点的重心重合。新坐标第一轴与数据变化最大方向对应。通过计算特征根(方差贡献)和方差贡献率与累积方差贡献率等指标,来判断选取公共因子的数量和公共因子(主成分)所能代表的原始变量信息。

公共因子个数的确定准则:1)根据特征值的大小来确定,一般取大于1的特征值对应的几个公共因子/主成分。2)根据因子的累积方差贡献率来确定,一般取累计贡献率达85-95%的特征值所对应的第一、第二、…、第m (m ≤p )个主成分。也有学者认为累积方差贡献率应在80%以上。

5.3 因子变量的命名解释

因子变量的命名解释是因子分析的另一个核心问题。经过主成分分析得到的公共因子/主成分Z1,Z2,…,Zm 是对原有变量的综合。原有变量是有物理含义的变量,对它们进行线性变换后,得到的新的综合变量的物理含义到底是什么?

在实际的应用分析中,主要通过对载荷矩阵进行分析,得到因子变量和原有变量之间的关系,从而对新的因子变量进行命名。利用因子旋转方法能使因子变量更具有可解释性。

计算主成分载荷,构建载荷矩阵A 。

)

,,2,1(1

p i p

k k

i

=∑=λλ)

,,2,1(11p i p

k k

i

k k

=∑∑==λ

λ),,2,1,(p j i l a ij i ij ==λ??????????????=??????????????m pm p p m m m m pm p p m m l l l l l l l l l a a a a a a a a a A λλλλλλλλλ (211122)

211211212111112212111211=??

?+++=+++=p p p p z a z a z a x z a z a z a x 2222121212121111??

?+++=+++=p p p

p x l x l x l z x l x l x l z 2222121212121111

计算主成分载荷,构建载荷矩阵A 。载荷矩阵A 中某一行表示原有变量 Xi 与公共因子/因子变量的相关关系。载荷矩阵A 中某一列表示某一个公共因子/因子变量能够解释的原有变量 Xi 的信息量。有时因子载荷矩阵的解释性不太好,通常需要进行因子旋转,使原有因子变量更具有可解释性。因子旋转的主要方法:正交旋转、斜交旋转。

正交旋转和斜交旋转是因子旋转的两类方法。前者由于保持了坐标轴的正交性,因此使用最多。正交旋转的方法很多,其中以方差最大化法最为常用。

方差最大正交旋转(varimax orthogonal rotation )——基本思想:使公共因子的相对负荷的方差之和最大,且保持原公共因子的正交性和公共方差总和不变。可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的解释。

斜交旋转(oblique rotation )——因子斜交旋转后,各因子负荷发生了变化,出现了两极分化。各因子间不再相互独立,而是彼此相关。各因子对各变量的贡献的总和也发生了改变。

斜交旋转因为因子间的相关性而不受欢迎。但如果总体中各因子间存在明显的相关关系则应该考虑斜交旋转。适用于大数据集的因子分析。

无论是正交旋转还是斜交旋转,因子旋转的目的:是使因子负荷两极分化,要么接近于0,要么接近于1。从而使原有因子变量更具有可解释性。

5.4 计算因子变量得分

因子变量确定以后,对于每一个样本数据,我们希望得到它们在不同因子上的具体数据值,即因子得分。估计因子得分的方法主要有:回归法、Bartlette 法等。计算因子得分应首先将因子变量表示为原始变量的线性组合。即:

回归法,即Thomson 法:得分是由贝叶斯Bayes 思想导出的,得到的因子得分是有偏的,但计算结果误差较小。贝叶斯(BAYES )判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。

Bartlett 法:Bartlett 因子得分是极大似然估计,也是加权最小二乘回归,得到的因子得分是无偏的,但计算结果误差较大。 ???

???

????????=???????????

???m pm p p m m m m pm p p m m l l l l l l l l l a a a a a a a a a A λλλλλλλλλ (211122)

211211212111112212111211=??

???

??+++=+++=+++=p

mp m m m p

p p

p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111

因子得分可用于模型诊断,也可用作进一步分析如聚类分析、回归分析等的原始资料。关于因子得分的进一步应用将在案例介绍一节分析。

5.5 结果的分析解释

此部分详细见案例分析

二、案例分析

1 研究问题

20名大学生关于价值观的9项测试结果,包括合作性、对分配的看法、行为出发点、工作投入程度、对发展机会的看法、社会地位的看法、权力距离、职位升迁和领导风格的偏好。

要求根据这9项内容进行主成分分析,得到维度较少的几个因子。

2 实现步骤

【1】在“Analyze”菜单“Data Reduction”中选择“Factor”命令,如下图所示。

中选择这9个变量,使之添加到Variables框中。

如图所示。

Statistics框用于选择哪些相关的统计量,其中:

Univariate descriptives(变量描述):输出变量均值、标准差;

Initial solution (初始结果)

Correlation Matrix框中提供了几种检验变量是否适合做引子分析的检验方法,其中:

Coefficients (相关系数矩阵)

Significance leves (显著性水平)

Determinant (相关系数矩阵的行列式)

Inverse (相关系数矩阵的逆矩阵)

Reproduced (再生相关矩阵,原始相关与再生相关的差值)

Anti-image (反影像相关矩阵检验)

KMO and Bartlett’s test of sphericity (KMO检验和巴特利特球形检验)本例中,选中该对话框中所Coefficients、KMO and Bartlett’s test of sphericity选项,单击Continue按钮返回Factor Analysis对话框。

【4】单击“Extraction”按钮,弹出“Factor Analysis:Extraction”对话框,选择因子提取方法,如下图所示:

因子提取方法在Method下拉框中选取,SPSS共提供了7种方法:Principle Components Analysis (主成分分析)

Unweighted least squares(未加权最小平方法)

Generalized least squares (综合最小平方法)

Maximum likelihood (最大似然估价法)

Principal axis factoring (主轴因子法)

Alpha factoring (α因子)

Image factoring (影像因子)

Analyze框中用于选择因子提取变量依据,其中:

Correlation matrix (相关系数矩阵)

Covariance matrix (协方差矩阵)

Extract框用于指定因子个数的标准,其中:

Eigenvaluse over (大于给定的特征值)

Number of factors (因子个数)

Display框用于选择输出哪些与因子提取有关的信息,其中:

Unrotated factor solution (未经旋转的因子载荷矩阵)

Screen plot (特征值排列图)

Maximun interations for Convergence框用于指定因子分析收敛的最大迭代次数,系统默认的最大迭代次数为25。

本例选用Principal components方法,选择Correlation matrix相关系数矩阵作为提取因子变量的依据,选中Unrotated factor solution项,输出未经过旋转的因子载荷矩阵;选择Eigenvaluse over项,在该选项后面可以输入1,指定提取特征值大于1的因子。单击Continue按钮返回Factor Analysis对话框。

【5】单击Factor Analysis对话框中的Rotation按钮,弹出Factor Analysis: Rotation 对话框,如下图所示:

该对话框用于选择因子载荷矩阵的旋转方法。旋转目的是为了简化结构,以帮助我们解释因子。SPSS默认不进行旋转(None)。

Method框用于选择因子旋转方法,其中:

None(不旋转)

Varimax(正交旋转)

Direct Oblimin(直接斜交旋转)

Quanlimax(四分最大正交旋转)

Equamax(平均正交旋转)

Promax(斜交旋转)

Display框用于选择输出哪些与因子旋转有关的信息,其中:

Rotated solution(输出旋转后的因子载荷矩阵)

Loading plots(输出载荷散点图)

本例选择正交旋转Varimax,并选中Rotated solution项,表示输出旋转后的因子载荷矩阵,单击Continue按钮返回Factor Analysis对话框。

【6】单击Factor Analysis对话框中的Scores按钮,弹出Factor Analysis: Scores 对话框,如下图所示:

该对话框用以选择对因子得分进行设置,其中:

Regression(回归法):因子得分均值为0,采用多元相关平方;

Bartlett (巴特利法):因子得分均值为0,采用超出变量范围各因子平方和被最小化;

Anderson-Rubin (安德森-洛宾法):因子得分均值为0,标准差1,彼此不相关;

Display factor score coefficient matrix:选择此项将在输出窗口中显示因子得分系数矩阵。

【7】单击Factor Analysis对话框中的Options按钮,弹出Factor Analysis: Options 对话框,如下图所示:

该对话框可以指定其他因子分析的结果,并选择对缺失数据的处理方法,其中:

Missing Values框用于选择缺失值处理方法:

Exclude cases listwise:去除所有缺失值的个案

Exclude cases pairwise:含有缺失值的变量,去掉该案例

Replace with mean:用平均值代替缺失值

Cofficient Display Format框用于选择载荷系数的显示格式:

Sorted by size:载荷系数按照数值大小排列

Suppress absolute values less than:不显示绝对值小于指定值的载荷量

本例选中Exclude cases listwise 、Sorted by size项,单击Continue按钮返回Factor Analysis对话框,完成设置。单击OK,完成计算。

3 结果与讨论

(1)SPSS输出的第一部分如下:

第一个表格中列出了9个原始变量的统计结果,包括平均值、标准差和分析的个案数。这个是步骤3中选中Univariate descriptives项的输出结果。

Descriptive Statistics

Mean Std. Deviation Analysis N

quan 16.90 1.651 20

she 17.45 1.761 20

fen 16.50 1.933 20

chu 15.50 2.065 20

he 16.45 2.328 20

gong 16.35 1.725 20

fa 16.75 1.517 20

zhi 16.60 1.698 20

ling 16.95 2.012 20

(2)SPSS输出结果的第二部分如下:

KMO and Bartlett's Test

Kaiser-Meyer-Olkin Measure of Sampling Adequacy. .585

Bartlett's Test of Sphericity Approx. Chi-Square 74.733

df 36

Sig. .000

该部分给出了KMO检验和Bartlett球度检验结果。其中KMO值为0.585,根据统计学家Kaiser给出的标准,KMO取值小于0.6,不太适合因子分析。Bartlett球度检验给出的相伴概率为0.00,小于显著性水平0.05,因此拒绝Bartlett 球度检验的零假设,认为适合于因子分析。

(3)SPSS输出结果文件中的第三部分如下:

Communalities

Initial Extraction

quan

1.000

.799

she

1.000 .871

fen

.848

1.000

chu

.708

1.000

he 1.000 .722

gong 1.000 .504

fa 1.000 .863

zhi 1.000 .681

ling 1.000 .486

Extraction Method: Principal Component

Analysis.

这是因子分析初始结果,该表格的第一列列出了9个原始变量名;第二列是根据因子分析初始解计算出的变量共同度。利用主成分分析方法得到9个特征值,它们是因子分析的初始解,可利用这9个初始解和对应的特征向量计算出因子载荷矩阵。由于每个原始变量的所有方差都能被因子变量解释掉,因此每个变量的共同度为1;

第三列是根据因子分析最终解计算出的变量共同度。根据最终提取的m个特征值和对应的特征向量计算出因子载荷矩阵。(此处由于软件的原因有点小问题)这时由于因子变量个数少于原始变量的个数,因此每个变量的共同度必然小于1。

(4)输出结果第四部分为Total Variance Explained表格

Total Variance Explained

Component

Initial Eigenvalues Extraction Sums of Squared Loadings

Rotation Sums of Squared

Loadings

Total % of Variance

Cumulative

% Total

% of

Variance

Cumulative

% Total

% of

Varianc

e

Cumulative

%

1 3.576 39.730 39.730 3.576 39.730 39.730 3.196 35.513 35.513

2 1.886 20.952 60.682 1.886 20.952 60.682 2.029 22.540 58.053

3 1.022 1

1

.

3

5

72.032 1.022 11.350 72.032 1.258 13.979 72.032

4 .84

5 9.385 81.417

5 .638 7.085 88.502

6 .518 5.753 94.255

7 .250 2.774 97.030

8 .186 2.069 99.099

9 .081 .901 100.000

Extraction Method: Principal Component Analysis.

该表格是因子分析后因子提取和因子旋转的结果。其中,Component列和Initial Eigenvalues列(第一列到第四列)描述了因子分析初始解对原有变量总体描述情况。第一列是因子分析9个初始解序号。第二列是因子变量的方差贡献(特征值),它是衡量因子重要程度的指标,例如第一行的特征值为3.576,后面描述因子的方差依次减少。第三列是各因子变量的方差贡献率(% of Variance),表示该因子描述的方差占原有变量总方差的比例。第四列是因子变量的累计方差贡献率,表示前m个因子描述的总方差占原有变量的总方差的比例。

第五列和第七列则是从初始解中按照一定标准(在前面的分析中是设定了提取因子的标准是特征值大于1)提取了3个公共因子后对原变量总体的描述情况。各列数据的含义和前面第二列到第四列相同,可见提取了3个因子后,它们反映了原变量的大部分信息。

第八列到第十列是旋转以后得到的因子对原变量总体的刻画情况。各列的含义和第五列到第七列是一样的。

(5)SPSS输出的该部分的结果如下:--因子变量

Component Matrix a

Component

1 2 3

quan .763 .248 -.394

she .133 .558 .737

fen .596 -.701 -.029

chu .823 -.130 -.120

he .493 -.626 .295

gong -.222 .537 -.407

fa .787 .479 .122

zhi .781 .239 .117

ling .650 .194 -.162

Extraction Method: Principal Component Analysis.

a. 3 components extracted.

该表格是最终的因子载荷矩阵A,对应前面的因子分析的数学模型部分。根据该表格可以得到如下因子模型:

X=AF+aε

权利x1=0.763F1+0.248F2-0.394F3

……

(6) SPSS输出的该部分的结果如下

Rotated Component Matrix a

Component

1 2 3

quan .879 -.045 -.154

she .100 -.071 .925

fen .314 .799 -.333

chu .733 .400 -.105

he .157 .835 -.024

gong .090 -.698 -.095

fa .834 .004 .409

zhi .752 .191 .282

ling .695 .051 .010

Extraction Method: Principal Component Analysis.

Rotation Method: Varimax with Kaiser Normalization.

Rotated Component Matrix a

Component

1 2 3

quan .879 -.045 -.154

she .100 -.071 .925

fen .314 .799 -.333

chu .733 .400 -.105

he .157 .835 -.024

gong .090 -.698 -.095

fa .834 .004 .409

zhi .752 .191 .282

ling .695 .051 .010

Extraction Method: Principal Component Analysis.

Rotation Method: Varimax with Kaiser Normalization.

a. Rotation converged in 5 iterations.

这是前面设定的方差极大法(正交旋转法)对因子载荷矩阵旋转后的结果,未经旋转的载荷矩阵中,因子变量在许多变量上都有较高的载荷,这样的话,涵义就比较模糊,经过旋转后因子载荷就比较清晰,载荷大的越大,载荷小的越小。第一个因子基本上反映了权力距离、发展机会、职位升迁。第二个因子基本上反映了团队合作和分配的看法。第三个因子反映了社会地位。

(7)SPSS输出的该部分的结果如下:

该部分输出的是因子转换矩阵,表明了因子提取的方法是主成分分析,旋转的方法是方法极大法。

Component Transformation Matrix

Compone

nt 1 2 3

1 .90

2 .424 .078

2 .330 -.797 .506

3 -.276 .431 .859

Extraction Method: Principal Component Analysis.

Rotation Method: Varimax with Kaiser Normalization.

(8)SPSS输出的该部分的结果如下:

Component Score Coefficient Matrix

Component

1 2 3

quan .343 -.181 -.248

she -.068 .091 .772

fen .035 .355 -.199

chu .217 .102 -.118

he -.065 .447 .091

gong .148 -.425 -.203

fa .249 -.058 .249

zhi .207 .041 .180

ling .242 -.073 -.070

Extraction Method: Principal Component Analysis.

Rotation Method: Varimax with Kaiser Normalization.

Component Scores.

该表格是因子得分矩阵。这是根据回归算法计算出来的因子得分函数的系数,根据这个表格可以看出下面的因子得分函数。

F1=0.343x1-0.068x2+0.35x3+0.217x4-0.065x5+0.148x6+0249x7+0.207x8+0.242x9

……

(9)数据库----SPSS根据这9个因子的得分函数,自动计算20个样本的3个引子得分,并且将3个引子得分作为新变量,保存在SPSS数据编辑窗口中(分别为FAC1_1、FAC2_1、FAC3_1)

(10)SPSS输出的该部分的结果如下:

Component Score Covariance Matrix

Compone

nt 1 2 3

1 1.000 .000 .000

2 .000 1.000 .000

3 .000 .000 1.000

Extraction Method: Principal Component Analysis.

Rotation Method: Varimax with Kaiser Normalization.

Component Scores.

该输出部分是因子变量的协方差矩阵。在前面已经说明,所得到的因子变量应该是正交、不相关的。从协方差矩阵看,不同因子之间的相关性都为0,因而也证实了3个主成分之间是不相关的。

主成分分析实验报告

项目名称实验4―主成分分析 所属课程名称多元统计分析(英)项目类型综合性实验 实验(实训)日期2012年 4 月15 日

实验报告4 主成分分析(综合性实验) (Principal component analysis) 实验原理:主成分分析利用指标之间的相关性,将多个指标转化为少数几个综合指标,从而达到降维和数据结构简化的目的。这些综合指标反映了原始指标的绝大部分信息,通常表示为原始指标的某种线性组合,且综合指标间不相关。利用矩阵代数的知识可求解主成分。

实验题目:下表中给出了不同国家及地区的男子径赛记录:(t8a6) Country 100m (s) 200m (s) 400m (s) 800m (min) 1500m (min) 5000m (min) 10,000m (min) Marathon (mins) Argentina 10.39 20.81 46.84 1.81 3.7 14.04 29.36 137.72 Australia 10.31 20.06 44.84 1.74 3.57 13.28 27.66 128.3 Austria 10.44 20.81 46.82 1.79 3.6 13.26 27.72 135.9 Belgium 10.34 20.68 45.04 1.73 3.6 13.22 27.45 129.95 Bermuda 10.28 20.58 45.91 1.8 3.75 14.68 30.55 146.62 Brazil 10.22 20.43 45.21 1.73 3.66 13.62 28.62 133.13 Burma 10.64 21.52 48.3 1.8 3.85 14.45 30.28 139.95 Canada 10.17 20.22 45.68 1.76 3.63 13.55 28.09 130.15 Chile 10.34 20.8 46.2 1.79 3.71 13.61 29.3 134.03 China 10.51 21.04 47.3 1.81 3.73 13.9 29.13 133.53 Columbia 10.43 21.05 46.1 1.82 3.74 13.49 27.88 131.35 Cook Islands 12.18 23.2 52.94 2.02 4.24 16.7 35.38 164.7 Costa Rica 10.94 21.9 48.66 1.87 3.84 14.03 28.81 136.58 Czechoslovakia 10.35 20.65 45.64 1.76 3.58 13.42 28.19 134.32 Denmark 10.56 20.52 45.89 1.78 3.61 13.5 28.11 130.78 Dominican Republic 10.14 20.65 46.8 1.82 3.82 14.91 31.45 154.12 Finland 10.43 20.69 45.49 1.74 3.61 13.27 27.52 130.87 France 10.11 20.38 45.28 1.73 3.57 13.34 27.97 132.3 German (D.R.) 10.12 20.33 44.87 1.73 3.56 13.17 27.42 129.92 German (F.R.) 10.16 20.37 44.5 1.73 3.53 13.21 27.61 132.23 Great Brit.& N. Ireland 10.11 20.21 44.93 1.7 3.51 13.01 27.51 129.13 Greece 10.22 20.71 46.56 1.78 3.64 14.59 28.45 134.6 Guatemala 10.98 21.82 48.4 1.89 3.8 14.16 30.11 139.33 Hungary 10.26 20.62 46.02 1.77 3.62 13.49 28.44 132.58 India 10.6 21.42 45.73 1.76 3.73 13.77 28.81 131.98

实验六主成分分析报告

实验六 主成分分析 一、实验目的 通过本次实验,掌握SPSS 及ENVI 的主成分分析方法。 二、有关概念 1. 主成分分析的概念 主成分分析(又称因子分析),是将多个实测变量转换为少数几个不相关的 综合指标的多元统计分析方法。代表各类信息的综合指标就称为因子或主成份。 主成分分析的数学模型可写为: m m x a x a x a x a z 131********++++= m m x a x a x a x a z 23232221212++++= m m x a x a x a x a z 33332321313++++= ……… m nm n n n n x a x a x a x a z ++++= 332211 其中,x 1、x 2、 x 3、 x 4 …x m 为原始变量;z 1、 z 2、 z 3、 z 4 …z n 为主成份,且有m ≥n 。 写成矩阵形式为:Z=AX 。Z 为主成份向量,A 为主成份变换矩阵,X 为原始变 量向量。主成份分析的目的是把系数矩阵A 求出,主成份Z1、Z2、Z3…在总方差中所占比重依次递减。 从理论上讲m=n 即有多少原始变量就有多少主成份,但实际上前面几个主成 份集中了大部分方差,因此取主成份数目远远小于原始变量的数目,但信息损失很小。 因子分析的一个重要目的还在于对原始变量进行分门别类的综合评价。如果 因子分析结果保证了因子之间的正交性(不相关)但对因子不易命名,还可以通过对因子模型的旋转变换使公因子负荷系数向更大(向1)或更小(向0)方向变化,使得对公因子的命名和解释变得更加容易。进行正交变换可以保证变换后各因子仍正交,这是比较理想的情况。如果经过正交变换后对公因子仍然不易解释,也可进行斜交旋转。 2. 因子提取方法 SPSS 提供的因子提取方法有: ①Principal components 主成份法。该方法假设变量是因子的纯线性组合。

主成分分析、因子分析实验报告--SPSS

对2009年我国88个房地产上市公司的因子分析 分析结果: 表1 KMO 和 Bartlett 的检验 取样足够度的 Kaiser-Meyer-Olkin 度量。.637 Bartlett 的球形度检验近似卡方398.287 df 45 Sig. .000 由表1可知,巴特利特球度检验统计量的观测值为398.287,相应的概率p值接近0,小于显著性水平 (取0.05),所以应拒绝原假设,认为相关系数矩阵与单位矩阵有显著差异。同时,KMO值为0.637,根据Kaiser给出的KMO度量标准(0.9以上表示非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合)可知原有变量不算特别适合进行因子分析。 表2 公因子方差 初始提取市盈率 1.000 .706 净资产收益率 1.000 .609 总资产报酬率 1.000 .822 毛利率 1.000 .280 资产现金率 1.000 .731 应收应付比 1.000 .561 营业利润占比 1.000 .782 流通市值 1.000 .957 总市值 1.000 .928 成交量(手) 1.000 .858 提取方法:主成份分析。 表2为公因子方差,即因子分析的初始解,显示了所有变量的共同度数据。第一列是因子分析初始解下的变量共同度,它表明,对原有10个变量如果采用主成分分析方法提取所有特征根(10个),那么原有变量的所有方差都可被解释,变量的共同度均为1(原有变量标准化后的方差为1)。事实上,因子个数小于原有变量的个数才是因子分析的目标,所以不可提取全部特征根;第二列是在按指定提取条件(这里为特征根大于1)提取特征根时的共同度。可以看到,总资产报酬率、成交量、流

最新实验六主成分分析

实验六主成分分析

实验课:主成分分析 实验目的 理解主成分(因子)分析的基本原理,熟悉并掌握SPSS中的主成分(因子)分析方法及其主要应用。 一、相关知识 1 概念 因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。 主成分分析(Principal component analysis):是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。 两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。

2 特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。 3 类型 根据研究对象的不同,把因子分析分为R型和Q型两种。 当研究对象是变量时,属于R型因子分析; 当研究对象是样品时,属于Q型因子分析。 但有的因子分析方法兼有R型和Q型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。

第6章 因子分析

第六章 因子分析 一、填空题 1.因子分析常用的两种类型为 和 。 2.因子分析是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现_____________与____________之间的相互关系。 3.因子分析就是通过寻找众多变量的 来简化变量中存在的复杂关系的一种方法。 4.因子分析是把每个原始变量分解成两个部分即 、 。 5.变量共同度是指因子载荷矩阵中_______________________。 6.公共因子方差与特殊因子方差之和为_______。 7.求解因子载荷矩阵常用的方法有 和 。 8.常用的因子旋转方法有 和 。 9.Spss 中因子分析采用 命令过程。 10.变量i X 的方差由两部分组成,一部分为 ,另一部分为 。 二、判断题 1.在因子分析中,因子载荷阵不是唯一的。 ( ) 2.因子载荷阵经过正交旋转后,各变量的共性方差和各个因子的贡献都发生了变化。 ( ) 3.因子分析和主成分分析的核心思想都是降维。 ( ) 4.因子分析有两大类,R 型因子分析和Q 型因子分析;其中R 型因子分析是从变量的相似矩阵出发,而Q 型因子分析是从样品的相关矩阵出发。( ) 5.特殊因子与公共因子之间是相互独立的。( ) 6.变量共同度是因子载荷矩阵列元素的平方和。( ) 7.公共因子的方差贡献是衡量公共因子相对重要性指标。( ) 8.对因子载荷阵进行旋转的目的是使结构简化。( ) 三、简答题 1. 因子分析的基本思想是什么,它与主成分分析有什么区别和联系? 2.因子模型的矩阵形式ε+=X UF ,其中:

() () () u F F ij m p P m U F ?=' =' =εεε,,,,1 1 请解释式中F 、 ε、U 的统计意义。 3.因子旋转的意义何在?如何进行最大方差因子旋转? 4.因子分析主要应用在哪几个方面? 四、计算题 4.假设某地固定资产投资率1x , 通货膨胀率2x 和失业率3x 的约相关矩阵为: ??????? ????? ????----=525 25 152******** 51* R 并且已知该相关矩阵的各特征根和相应的非零特征根的单位特征向量分别为: 9123.01=λ ()' -=657.0657.0369 .01α 0877.02=λ ()'-=261.0261 .0929 .02α 03=λ 要求求解因子分析模型,计算各变量的共同度和各公共因子的方差贡献并解释它们的统计意义。 2.设变量x 1,x 2和x 3已标准化,其样本相关系数矩阵为: ?? ?? ??????=135.045.035.0163.045.063.01 R (1)对变量进行因子分析。 (2)取q=2进行正交因子旋转。 3.已知我国某年各地区的国有及非国有规模以上的工业企业经济效益资料,现做因子分析,结果如下,请说明每一个输出结果的含义及目的,并回答以下问题: (1)什么是方差贡献率? 计算方差贡献率的目的何在? (2) 如何利用因子分析结果进行综合评价? 结合本例写出计算综合评价结果的公式。

主成分分析实验报告

项目名称实验4—主成分分析 所属课程名称多元统计分析(英) 项目类型综合性实验_____________ 实验(实训)日期2012年4 月15日

二、实验(实训)容: 【项目容】 主成分分析。 【方案设计】 题目: 由原始数据求主成分。 【实验(实训)过程】(步骤、记录、数据、程序等)附后 【结论】(结果、分析) 附后 三、指导教师评语及成绩: 评语: 成绩:指导教师签名: 批阅日期: 实验报告4 主成分分析(综合性实验) (Prin cipal comp onent an alysis) 实验原理:主成分分析利用指标之间的相关性,将多个指标转化为少数几个综合指标,从而达到降维和数据结构简化的目的。这些综合指标反映了原始指标的绝

大部分信息,通常表示为原始指标的某种线性组合,且综合指标间不相关。利用矩阵代数的知识可求解主成分 实验题目:下表中给出了不同国家及地区的男子径赛记录:(t8a6) Country 100m 200m 400m 800m 1500m 5000m 10,000m Marathon (s) (s) (s) (min) (min) (min) (min) (mins) Argentina 10.39 20.81 46.84 1.81 3.7 14.04 29.36 137.72 Australia 10.31 20.06 44.84 1.74 3.57 13.28 27.66 128.3 Austria 10.44 20.81 46.82 1.79 3.6 13.26 27.72 135.9 Belgium 10.34 20.68 45.04 1.73 3.6 13.22 27.45 129.95 Bermuda 10.28 20.58 45.91 1.8 3.75 14.68 30.55 146.62 Brazil 10.22 20.43 45.21 1.73 3.66 13.62 28.62 133.13 Burma 10.64 21.52 48.3 1.8 3.85 14.45 30.28 139.95 Canada 10.17 20.22 45.68 1.76 3.63 13.55 28.09 130.15 Chile 10.34 20.8 46.2 1.79 3.71 13.61 29.3 134.03 China 10.51 21.04 47.3 1.81 3.73 13.9 29.13 133.53 Columbia 10.43 21.05 46.1 1.82 3.74 13.49 27.88 131.35 Cook Islands 12.18 23.2 52.94 2.02 4.24 16.7 35.38 164.7 Costa Rica 10.94 21.9 48.66 1.87 3.84 14.03 28.81 136.58 Czechoslovakia 10.35 20.65 45.64 1.76 3.58 13.42 28.19 134.32 Denmark 10.56 20.52 45.89 1.78 3.61 13.5 28.11 130.78 Dominican Republic 10.14 20.65 46.8 1.82 3.82 14.91 31.45 154.12 Finland 10.43 20.69 45.49 1.74 3.61 13.27 27.52 130.87 France 10.11 20.38 45.28 1.73 3.57 13.34 27.97 132.3 German (D.R.) 10.12 20.33 44.87 1.73 3.56 13.17 27.42 129.92 German (F.R.) 10.16 20.37 44.5 1.73 3.53 13.21 27.61 132.23 Great Brit.& N. Ireland 10.11 20.21 44.93 1.7 3.51 13.01 27.51 129.13

教育信息处理(实验九因子分析与主成分分析)实验报告-示例

1、对北京18个区县中等职业教育发展水平进行聚类。X1:每万人中职在校生数;X2:每万人中职招生数;X3:每万人中职毕业生数;X4:每万人中职专任教师数;X5:本科以上学校教师占专任教师的比例;X6:高级教师占专任教师的比例;X7:学校平均在校生人数;X8:国家财政预算中职经费占国内生产总值的比例;X9:生均教育经费。 具体步骤如下: 1、导入数据,建立数据文件(data.sav) 2、选择聚类分析(分析—分类—系统聚类分析),选择变量,分群选择个 案方式 3、聚类分析描述统计(统计量—合并进程表;聚类成员—单一方案—聚类 数3) 4、聚类分析绘制(树状图;冰柱—所有聚类,方向—垂直) 5、聚类分析方法(聚类方法—组间联接,度量标准—区间—平方Euclidean

距离) 6、聚类分析保存(聚类成员—单一方案—聚类数3) 7、保存实验结果,并分析结果 结果与分析: (1)输出结果文件中的第一部分如下图1所示。 图1中可以看出18个样本都进入了聚类分析,但有效样本为14个,缺失14个。 (2)输出结果文件中的第二部分为系统聚类分析的凝聚状态表如图2所示。

第一列表示聚类分析的步骤,可以看出本例中共进行了17个步骤的分析; 第二列和第三列表示某步聚类分析中,哪两个样本或类聚成了一类; 第四列表示两个样本或类间的距离,从表格中可以看出,距离小的样本之间先聚类; 第五列和第六列表示某步聚类分析中,参与聚类的是样本还是类。0表示样本,数字n(非零)表示第n步聚类产生的类参与了本步聚类; 第七列表示本步聚类结果在下面聚类的第几步中用到。 图2给中第一行表示,第二个样本和第四个样本最先进行了聚类,样本间的距离为4803.026,这个聚类的结果将在后面的第六步

实验六-主成分分析

实验六主成分分析 一、实验目的 通过本次实验,掌握SPSS及ENVI的主成分分析方法。 二、有关概念 1.主成分分析的概念 主成分分析(又称因子分析),是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法。代表各类信息的综合指标就称为因子或主成份。 主成分分析的数学模型可写为: =绚內 + a n x2 + 5x3 + …+ a lm x m S = "21X] + Cl22X2 + Cl23X3 + ??? + a2m X m Z3 =勺內+5小+如勺+??? + %〃 S = + a n2x2 + 心3X3 + ??? + 其中,X1.X2. x3. x4— x B为原始变量;Zi. z2. z3, z4—z n为主成份,且有mNn。写成矩阵形式为:Z=AX O Z为主成份向量,A为主成份变换矩阵,X为原始变量向量。主成份分析的目的是把系数矩阵A求出,主成份Zl、Z2、Z3…在总方差中所占比重依次递减。 从理论上讲呼n即有多少原始变量就有多少主成份,但实际上前面几个主成份集中了大部分方差,因此取主成份数目远远小于原始变量的数目,但信息损失很小。 因子分析的一个重要目的还在于对原始变量进行分门别类的综合评价。如果因子分析结果保证了因子之间的正交性(不相关)但对因子不易命名,还可以通过对因子模型的旋转变换使公因子负荷系数向更大(向1)或更小(向0)方向变化,使得对公因子的命名和解释变得更加容易。进行正交变换可以保证变换后各因子仍正交,这是比较理想的情况。如果经过正交变换后对公因子仍然不易解释,也可进行斜交旋转。 2.因子提取方法 SPSS提供的因子提取方法有: ①Principal components主成份法。该方法假设变量是因子的纯线性组合。这是SPSS 最通用的因子提取方法,故因子分析有时又称为主成份分析。 ?Unweighted least square不加权最小平方法。该方法使观测的和再生的相关阵之差的平方最小。 ?Generalized least square用变量的单值加权,使观测的和再生的相关阵之差的平方

主成分分析计算方法和步骤

在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异, 研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但由于各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映个体之间的差异,成为研究者关心的问题。而主成分分析法可以很好地解决这一问题。 主成分分析的应用目的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻找和判断某种事物或现象的综合指标,并且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。 主成分分析的基本步骤分为: ①对原始指标进行标准化,以消除变量在数量极或量纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征根和特征向量; ④确定主成分,结合专业知识对各主成分所蕴含的信息给予适当的解释;⑤合成主成分,得到综合评价值。 结合数据进行分析 本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。 表5-6 相关系数矩阵 本科院校 数招生人数教育经费投入 相关性师生比 重点高校数 教工人数 本科院校数 招生人数 教育经费投 入

师生比重点高校数教工人数 相关性师生比 重点高校数 教工人数 本科院校数 招生人数 教育经费投 入(元) 表5-7给出的是各主成分的方差贡献率和累计贡献率,我们选取主成分的标准有两个:第一,特征根大于1,因为,如果特征根小于1,说明该主成分的解释力度太弱,还比不上直接引入一个原始变量的平均解释力度大;第二,方差贡献率大于85%,如果这两个标准不能同时符合要求,则往往是因为选择的指标不合理或者样本容量太小,应继续调整。表5-7还显示,只有前2个特征根大于1,因此SPSS只提取了前两个主成分,而这两个主成分的方差贡献率达到了%,因此选取前两个主成分已经能够很好地描述我国高等教育地区现状。

主成分分析实验报告

主成分分析 地信0901班陈任翔010******* 【实验目的及要求】 掌握主成分分析与因子分析的思想和具体步骤。掌握SPSS实现主成分分析与因子分析的具体操作。 【实验原理】 1.主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。由此可见,主成分分析实际上是一种降维方法。 2.因子分析研究相关矩阵或协方差矩阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系。 【实验步骤】 1.数据准备 ●1)首先在Excel中打开“水样元素成分分析数据”,删除表名“水样元素成分分析数据”, 保存数据。 ●3)数据格式转换。 2.数据描述分析操作 1)Descriptives过程 点击Analyze下的Descriptive Statistics选项,选择该选项下的Descriptives ●选中待处理的变量(左侧的As…..Hg等);

●点击使变量As…..Hg 移至Variable(s)中; ●选中Save standrdized values as variables; ●点击Options 2)数据标准化 标准化处理后的结果

2.主成分分析 1)点击Analyze下的Data Reduction选项,选择该选项下的Factor过程。选中待处理的变量,移至Variables 2)点击Descriptives判断是否有进行因子分析的必要 Coefficients(计算相关系数矩阵) Significance levels(显著水平) KMO and Bartlett’s test of sphericity (对相关系数矩阵进行统计学检验) Inverse(倒数模式):求出相关矩阵的反矩阵; Reproduced(重制的):显示重制相关矩阵,上三角形矩阵代表残差值,而主对角线及下三角形代表相关系数; Determinant(行列式):求出前述相关矩阵的行列式值; Anti-image(反映像):求出反映像的共同量及相关矩阵。 Univariate descriptive单变量描述统计量(输出被选中的各变量的均数与标准差) Initial solution未转轴之统计量(显示因素分析未转轴前之共同性、特征值、变异数百分比及累积百分比) 3)点击Extraction : ●选择主成分分析方法 ●输出未旋转的因子载荷矩阵

(整理)实验六主成分分析.

实验课:主成分分析 实验目的 理解主成分(因子)分析的基本原理,熟悉并掌握SPSS中的主成分(因子)分析方法及其主要应用。 一、相关知识 1 概念 因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。 主成分分析(Principal component analysis):是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。 两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。 2 特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。 3 类型 根据研究对象的不同,把因子分析分为R型和Q型两种。 当研究对象是变量时,属于R型因子分析; 当研究对象是样品时,属于Q型因子分析。 但有的因子分析方法兼有R型和Q型因子分析的一些特点,如因子分析中的对应分析

主成分分析和因子分析实验报告

主成分分析实验报告 一、实验数据 2013年,在国内外形势错综复杂的情况下,我国经济实现了平稳较快发展。全年国内生产总值568845亿元,比上年增长7.7%。其中第三产业增加值262204亿元,增长8.3%,其在国内生产总值中的占比达到了46.1%,首次超过第二产业。经济的快速发展也带来了就业的持续增加,年末全国就业人员76977万人,其中城镇就业人员38240万人,全年城镇新增就业1310万人。随着我国城镇化进程的不断加快,加之农业用地量的不断衰减,工业不断的转型升级,使得劳动力就业压力的缓解需要更多的依靠服务业的发展。 (一)指标选择 根据指标选择的可行性、针对性、科学性等原则,选择13个指标来衡量服务业的发展水平,指标体系如表1所示: 表1 服务业发展水平指标体系

(二)指标数据 本次实验采用的数据是我国31个省(市、自治区)2012年的数据,原数据均来自《2013中国统计年鉴》以及2013年各省(市、自治区)统计年鉴,不能直接获得的指标数据是通过对相关原始数据的换算求得。原始数据如表2所示:

表2(续) 二、实验步骤 本次实验是在SPSS中实现主成分分析,具体步骤如下: (一)数据标准化,单击主菜单“Analyze”(分析)展开下拉菜单,在下拉菜单中寻找“Descriptive Statistics”,在小菜单中寻找“Descriptives”(描述),展开Descriptives对话框,将左面的矩形框中的变量X1、X2、…、X13,通过单击向右的箭头按钮,调入到右面的“Variables”(变量)框中。选中Save

standardized values as variables(对变量进行标准化)复选框,点击OK按(二)单击主菜单“Analyze”(分析)展开下拉菜单,在下拉菜单中寻找“Data Reduction”弹出小菜单,在小菜单中寻找“Factor”(因子),展开“Factor Analysis”(因子分析)主对话框。 (三)选择分析变量。将左面的矩形框中参与分析的标准化后的变量ZX1、ZX2、…、ZX13,通过单击向右的箭头按钮,调入到右面的“Variables”(变量)框中。 (四)因子分析过程选项,主对话框选择项中共有5个功能按钮: 1.单击【Descriptives】(描述统计量)按钮,展开“Descriptives”对话框,在Statistics中选中Univariate descriptive(单变量描述统计量)和Initial solution(初始因子分析结果),在Correlation Matrix中选择coefficients(相关系数矩阵)、Significance levels(显著性P值),KMO and Bartlett’s test of sphericity,点击Continue按钮。 2.在主对话框中,单击【Extraction】(因子提取)按钮,展开“Extraction”对话框,在Method中选择Principal components(主成分法),其他均为系统默认,点击Continue按钮。 3.在主对话框中,单击【Scores】(因子得分)按钮,展开“Scores”对话框,选中Save as variables(将因子得分作为新变量保存在数据文件中)复选框,单击Continue按钮。 (五)在主对话框中,单击【OK】按钮执行运算。 三、实验结果 (一)利用SPSS进行因子分析 输出结果表3至表4所示。

第5章 主成分分析

第五章 主成分分析 一、填空题 1.主成分分析就是设法将原来众多 的指标,重新组合成一组新的 的综合指标来代替原来指标。 2.主成分分析的数学模型可简写为 ,该模型的系数要求 。 3.主成分分析中,利用 的大小来寻找主成分。 4.第k 个主成分k y 的贡献率为 ,前k 个主成分的累积贡献率为 。 5.确定主成分个数时,累积贡献率一般应达到 ,在spss 中,系统默认为 。 6.主成分的协方差矩阵为_________矩阵。 7.原始变量协方差矩阵的特征根的统计含义是________________。 8.原始数据经过标准化处理,转化为均值为__ __,方差为__ __的标准值,且其________矩阵与相关系数矩阵相等。 9.在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为________。 10.SPSS 中主成分分析采用______________命令过程。 二、判断题 1.主成分分析就是设法将原来众多具有一定相关性的指标,重新组合成一组新的相互无关的综合指标来代替原来指标。 ( ) 2.主成分y 的协差阵为对角矩阵。 ( ) 3.p x x x ,,,21 的主成分就是以∑的特征向量为系数的一个组合,它们互不相关,其方差为 ∑的特征根。 ( ) 4.原始变量i x 的信息提取率()m i V 表示这m 个主成分所能够解释第i 个原始变量变动的程度。 ( ) 5.在spss 中,可以直接进行主成分分析。 ( ) 6.主成分分析可用于筛选回归变量。 ( ) 7.SPSS 中选取主成分的方法有两个:一种是根据特征根≥1来选取; 另一种是按照累积贡献率≥85%来选取。 ( ) 8.主成分方差的大小说明了该综合指标反映p 个原始观测变量综合变动程度的能力的大小。 ( ) 9.主成分表达式的系数向量是协方差矩阵∑的特征向量。 ( ) 10.主成分k y 与原始变量i x 的相关系数()i k x y ,ρ反映了第k 个公共因子对第i 个原始变量的解释程度。 ( ) 三、简答题 1.简述主成分的概念及几何意义。 2.主成分分析的基本思想是什么? 3.简述主成分分析的计算步骤。 4.主成分有哪些性质? 5.主成分主要应用在哪些方面? 四、计算题 1.假设3个变量1x 、2x 和3x 的协方差矩阵为: ???? ??????--=∑20 05 3 032 要求用此协差阵和相应的相关阵对这3个变量进行主成分分析,根据计算结果说明应选取多 少个主成分以代表原来的3个变量,并说明理由。 2.在一项研究中,测量了376只鸡的骨骼,并利用相关系数矩阵进行主成分分析,见下表:

主成分分析原理

第七章主成分分析 (一)教学目的 通过本章的学习,对主成分分析从总体上有一个清晰地认识,理解主成分分析的基本思想和数学模型,掌握用主成分分析方法解决实际问题的能力。 (二)基本要求 了解主成分分析的基本思想,几何解释,理解主成分分析的数学模型,掌握主成分分析方法的主要步骤。 (三)教学要点 1、主成分分析基本思想,数学模型,几何解释 2、主成分分析的计算步骤及应用 (四)教学时数 3课时 (五)教学内容 1、主成分分析的原理及模型 2、主成分的导出及主成分分析步骤 在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。 第一节主成分分析的原理及模型 一、主成分分析的基本思想与数学模型 (一)主成分分析的基本思想 主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。

主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求0),(21=F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。 (二)主成分分析的数学模型 对于一个样本资料,观测p 个变量p x x x ,,21,n 个样品的数据资料阵为: ??????? ??=np n n p p x x x x x x x x x X 21 222 21112 11()p x x x ,,21= 其中:p j x x x x nj j j j ,2,1,21=?????? ? ??= 主成分分析就是将p 个观测变量综合成为p 个新的变量(综合变量),即 ???????+++=+++=+++=p pp p p p p p p p x a x a x a F x a x a x a F x a x a x a F 22112222121212121111 简写为: p jp j j j x x x F ααα+++= 2211 p j ,,2,1 = 要求模型满足以下条件:

主成分分析法概念及例题

主成分分析法 主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法 目录 [显示] 1 什么是主成分分析法 2 主成分分析的基本思想 3 主成分分析法的基本原理 4 主成分分析的主要作用 5 主成分分析法的计算步骤 6 主成分分析法的应用分析 o案例一:主成分分析法在啤酒风味评价分析中的应用[1] 1 材料与方法 2 主成分分析法的基本原理 3 主成分分析法在啤酒质量一致性评价中的应用 4 结论 7 参考文献 [编辑] 什么是主成分分析法 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 [编辑] 主成分分析的基本思想

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [编辑] 主成分分析的主要作用

应用多元统计分析习题解答_朱建平_第七章

Abbo无私奉献,只收1个金币,BS收5个金币的… 何老师考简单点啊……

第七章 因子分析 7.1 试述因子分析与主成分分析的联系与区别。 答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。 因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。 7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。 7.3 简述因子模型中载荷矩阵A 的统计意义。 答:对于因子模型 1122i i i ij j im m i X a F a F a F a F ε=++++++ 1,2,,i p = 因子载荷阵为1112 121 2221212 (,,,)m m m p p pm a a a a a a A A A a a a ????? ?==?? ?? ?? ? ? A i X 与j F 的协方差为: 1Cov(,)Cov(,)m i j ik k i j k X F a F F ε==+∑ =1 Cov( ,)Cov(,)m ik k j i j k a F F F ε=+∑ =ij a 若对i X 作标准化处理,=ij a ,因此 ij a 一方面表示i X 对j F 的依赖程度;另一方面也反映了

相关文档
最新文档