第7章统计实验(主成分分析)

第7章统计实验(主成分分析)
第7章统计实验(主成分分析)

实验三主成分分析

1.实验目的:

本实验讨论利用主成分分析从众多具有一定相关性的指标中,综合出少量的、而又能反映大部分信息的、不相关的新指标。通过该实验,能够起到如下的效果:(1) 理解主成分分析的作用、思想、数学基础、方法和步骤;(2) 熟悉如何利用主成分分析,提出问题、分析问题、解决问题、得出结论;(3)会调用SAS软件实现主成分分析的各个步骤,根据计算的结果进行分析,得出正确的结论,解决实际的问题。

2.知识准备:

主成分分析是从众多具有一定相关性的指标中,综合出少量的、而又能反映大部分信息的、不相关的新指标。其思想是:将指标看成多维空间的坐标轴,每个样品看成该空间中的点,然后选用适当的正交变换将原有的坐标轴进行旋转,使主要信息集中于维数较少的子空间中(使所有样品点到子空间的距离的和最小),该子空间的坐标轴即是我们需要综合的新指标(主成分)。主成分分析的步骤大体分为:首先正向化、标准化指标;然后计算样本相关阵的特征值、单位特征向量和累计贡献率,根据累计贡率献选取适当数量的主成分;再计算出各个主成分的得分;然后根据与主成分相关性强的指标的实际意义把主成分正向化;最后结合主成分对应的特征值得到综合得分。

3.实验内容:

表1的数据是安徽省各地市经济发展的基本数据,其中X1-城镇单位在岗职工平均工资(元),X2-各市固定资产投资(万元),X3-各市进口总额(万美元),X4-社会消费品零售总额(万元),X5-各市工业增加值(亿元),X6-财政收入(亿元),数据来源于安徽统计信息网站2004年各月度数据资料。

表1 安徽省各地市经济发展的基本数据

序号城市X1 X2 X3 X4 X5 X6

1 合肥市16369 3504887 66047 2397739 198.46 1043955

2 淮北市13379 566257 4744 456100 76.96 202637

3 亳州市9707 397183 1303 88703

4 18.88 105948

4 宿州市10572 414932 1753 751984 27.67 128261

5 蚌埠市12284 876667 18269 1015669 60.09 332700

6 阜阳市9738 604935 5822 1307908 30.54 222799

7 淮南市16970 778830 2438 630014 76.64 272203

8 滁州市10006 617436 13543 866013 58.59 222794

9 六安市10217 636760 9967 996912 34.55 161025

10 马鞍山20946 1380781 16406 526527 150.15 426937

11 巢湖市11469 720416 7141 853778 43.41 157274

12 芜湖市14165 1504005 29413 1025363 149.17 568899

13 宣城市12795 966188 11580 723278 45.13 165319

14 铜陵市12762 584696 13583 343107 65.31 166454

15 池州市12008 501780 4986 278310 15.04 86575

16 安庆市11208 981367 13364 1295189 79.8 337947

17 黄山市12719 716491 4448 408796 15.68 99949 (1)利用主成分分析综合出适当的主成分及相应的主成分得分;

(2)利用上面的主成分得分对样品进行聚类分析,并给出适当的结论。【4】

4.实验步骤:

(1)利用主成分分析综合出适当的主成分及相应的主成分得分:

1.读入数据;

SAS程序:

Data economy;

input X1-X6;

cards;

16369 3504887 66047 2397739 198.46 1043955

13379 566257 4744 456100 76.96 202637

9707 397183 1303 887034 18.88 105948

10572 414932 1753 751984 27.67 128261

12284 876667 18269 1015669 60.09 332700

9738 604935 5822 1307908 30.54 222799

16970 778830 2438 630014 76.64 272203

10006 617436 13543 866013 58.59 222794

10217 636760 9967 996912 34.55 161025

20946 1380781 16406 526527 150.15 426937

11469 720416 7141 853778 43.41 157274

14165 1504005 29413 1025363 149.17 568899

12795 966188 11580 723278 45.13 165319

12762 584696 13583 343107 65.31 166454

12008 501780 4986 278310 15.04 86575

11208 981367 13364 1295189 79.8 337947

12719 716491 4448 408796 15.68 99949

;

run;

2. 调用主成分分析程序,计算样本相关阵的特征值、单位特征向量和累计贡献率,并根据累计贡献率选取适当数量的主成分;

SAS程序:

Proc princomp data=economy out=result1 prefix=Z;

var X1-X6;

run;

语句解释:

“Proc princomp”指调用主成分分析程序;

“out=result1”指将包括原始数据和主成分得分的数据输出到文件“result1”中;“prefix=Z”指定主成分名字的前缀为“Z”;

“var X1-X6;”指需要分析的变量是“X1-X6”,其它更多的语句参见书【2】。

运行结果及解释:

图1简单的统计量描述

图1中数据“Observations”指“样品个数”,“Variables”指“变量个数”,“Mean”指均值,“StD”指标准差;

图2变量的相关系数矩阵

图3相关阵的特征值、累计贡献率

图3中数据“Eigenvalue”指相

关系数阵特征值;“Difference”

指本行特征值与下行特征值之

差;“Proportion”指本行特征

值对应初始因子的方差贡献率;

“Cumulative”指本行及上面各

行特征值对应初始因子的累积

贡献率;

图4原始变量对于各主成分的因子载荷阵

实验结论:

图2中数据显示:X1与X5、 X2与X3、X3与X5、X3与X6等相关性很大,所以有必要进行主成分分析减少变量的个数和相关性;

图3中数据显示:前两个主成分的累计贡献率已经达到95.7%,含括了绝大部分信息,因此可以只选用前2个主成分Z1、Z2;

图4中数据显示:2个主成分Z1、Z2得分分别为:

Z1=0.269X1+0.455X2+0.444X3+0.354X4+0.431X5+0.461X6;

Z2=0.758X1-0.047X2-0.16X3-0.572X4+0.26X5-0.047X6;

第一个主成分Z1与X1-城镇单位在岗职工平均工资, X2-各市固定资产投资,X3-各市进口总额,X4-社会消费品零售总额,X5-各市工业增加值,X6-财政收入十分显著的正相关,故

称Z1为生产总量成分,且正向化Z1取正号;第二个主成分Z2与X1-城镇单位在岗职工平均工资显著正相关,与X4-社会消费品零售总额显著负相关,故称Z2为工资与消费成分。又因为X1-城镇单位在岗职工平均工资是社会生产发展的动因之一,社会消费总体上为量入为出,所以正向化Z2也取正号。

以图3中的方差贡献为权构造综合得分:

Z综=(4.6412Z1+1.1007Z2)/6 = 0.347X1+0.343X2+0.314X3+0.168X4+0.381X5+0.348X6;

(2)利用上面的主成分得分对样品进行聚类分析,并给出适当的结论:

SAS程序:

Data result2;

set result1;

Z=(4.6412*Z1+1.1007*Z2)/6;

run;

Proc cluster data=result2 method=average nonorm ccc pseudo out=tree;

var Z1 Z2;

Proc tree data=tree horizontal spaces=1;

run;

运行结果:

图5 聚类过程

图6 聚类图

实验结论:

⑴取分类阈值为1.5时较为合适,此时分成五类:

第一类:合肥市;

第二类:马鞍山市;

第三类:芜湖市;

第四类:淮南市,淮北市,宣城市,铜陵市,黄山市和池州市;

第五类:蚌埠市,安庆市,滁州市,巢湖市,六安市,阜阳市,宿州市和亳州市。

⑵根据上面的数据容易得到安徽省17个市的主成分得分和综合得分及排序,见表2;

表2 主成分得分、综合得分的样品值及排序

城市Z1 排名Z2 排名Z综排名

合肥市7.113 1 -1.058 16 5.308 1

马鞍山 1.844 3 2.785 1 1.937 2

芜湖市 2.306 2 0.314 7 1.841 3

淮南市-0.126 6 1.506 2 0.179 4

安庆市0.42 4 -0.845 13 0.17 5

蚌埠市0.223 5 -0.392 10 0.101 6

宣城市-0.526 7 0.095 8 -0.389 7

淮北市-0.773 9 0.797 3 -0.452 8

铜陵市-0.809 11 0.626 4 -0.511 9

滁州市-0.614 8 -0.72 12 -0.607 10

巢湖市-0.864 12 -0.336 9 -0.73 11

阜阳市-0.786 10 -1.352 17 -0.856 12

六安市-0.912 13 -0.887 15 -0.868 13

黄山市-1.486 14 0.393 5 -1.077 14

宿州市-1.548 15 -0.444 11 -1.279 15

池州市-1.792 17 0.37 6 -1.319 16

亳州市-1.671 16 -0.852 14 -1.449 17

从表2知道:

第一类的合肥市综合主成分Z综值排第1(5.307)。其Z1-生产总量成分得分值排第

1(7.113),优势相当明显,可Z2-工资与消费成分排在倒数第2(-1.058)。原因及问题:Z1-生产总量成分中X4-社会消费品零售总额为2397739万元列第1, Z2-工资与消费成分中

X1-城镇单位在岗职工平均工资为162369元列第3,即合肥市是生产总量高、消费高但平均工资不是太高的城市。综合函数值中, Z1-生产总量成分综合值为5.502,而Z2-工资与消费成分有综合抵减值0.194(抵减率3.526%),带来了不良影响。

建议:合肥市在保持Z1-生产总量成分中X5-各市工业增加值(第1), X4-社会消费品零售总额(第1), X2-各市固定资产投资(第1),X3-各市进口总额(第1),X6-财政收入(第1)优势的同时,如果能够进一步结合劳动生产率、成本费用利润率,重点协调Z2-工资与消费成分中X1-城镇单位在岗职工平均工资与X4-社会消费品零售总额的良性关系,将对经济有更大的促进作用。

第二类的马鞍山市、第三类的芜湖市综合评价、建议方法与第一类的合肥市类似,此略。

第四类城市淮南市、宣城市、淮北市、铜陵市、黄山市和池州市综合主成分Z综值排名依次是4、7、8、9、14和16。它们的Z1-生产总量成分排名依次是6、7、9、11、14、17,均低于平均水平,Z2-工资与消费成分排名依次是2、8、3、4、5、6,均高于平均水平。共

性原因为该类城市Z2-工资与消费成分中X1-城镇单位在岗职工平均工资列前10名、 Z1-生产总量成分中X4-社会消费品零售总额列第10之后,即该类城市是工资较高、生产总量水平低、消费不足的城市。个性原因及问题:如淮北市Z2-工资与消费成分中X1-城镇单位在岗职工平均工资(第4:13379元)、X4-社会消费品零售总额(第14:456100万元),Z1-生产总量成分排名差异大(第9),其中X2-各市固定资产投资为(第14:566257万元)、X3-各市进口总额为(第13:4744万美元)、X6-财政收入为(第9:202637亿元)等。

建议:共性方面,淮南市,宣城市,淮北市,铜陵市,黄山市和池州市应根据工资较高情况适度促进生产总量与社会消费;个性方面,如淮北市在保持Z1-生产总量成分中X5-各市工业增加值第5、 Z2-工资与消费成分中X1-城镇单位在岗职工平均工资第4已有优势的同时,如果能够进一步协调Z1-生产总量成分中X2-各市固定资产投资、 X4-社会消费品零售总额、 X3-各市进口总额与X6-财政收入的良性增长,必将对经济有很大的促进作用。

第五类城市综合评价、建议方法与第四类城市类似,此略。

5. 思考与练习:

⑴选用适当的房地产指标,进行主成分分析。

⑵运用主成分分析对我国城市居民生活费支出进行分析。

⑶尝试利用《统计年鉴》中关于经济发展状况的数据,运用主成分分析综合出几个可以描述经济发展状况的主成分。

参考文献

【1】于秀林、任雪松(1999):《多元统计分析》,中国统计出版社。

【2】汪远征、徐雅静(2007):《SAS软件与统计应用教程》,机械工业出版社。

【3】林海明:《因子分析模型的改进和应用》,数理统计与管理,28,2009,998-1012。【4】林海明:《对主成分分析法运用中十个问题的解析》,统计与决策,16,2007,16-18。

主成分分析实验报告

项目名称实验4―主成分分析 所属课程名称多元统计分析(英)项目类型综合性实验 实验(实训)日期2012年 4 月15 日

实验报告4 主成分分析(综合性实验) (Principal component analysis) 实验原理:主成分分析利用指标之间的相关性,将多个指标转化为少数几个综合指标,从而达到降维和数据结构简化的目的。这些综合指标反映了原始指标的绝大部分信息,通常表示为原始指标的某种线性组合,且综合指标间不相关。利用矩阵代数的知识可求解主成分。

实验题目:下表中给出了不同国家及地区的男子径赛记录:(t8a6) Country 100m (s) 200m (s) 400m (s) 800m (min) 1500m (min) 5000m (min) 10,000m (min) Marathon (mins) Argentina 10.39 20.81 46.84 1.81 3.7 14.04 29.36 137.72 Australia 10.31 20.06 44.84 1.74 3.57 13.28 27.66 128.3 Austria 10.44 20.81 46.82 1.79 3.6 13.26 27.72 135.9 Belgium 10.34 20.68 45.04 1.73 3.6 13.22 27.45 129.95 Bermuda 10.28 20.58 45.91 1.8 3.75 14.68 30.55 146.62 Brazil 10.22 20.43 45.21 1.73 3.66 13.62 28.62 133.13 Burma 10.64 21.52 48.3 1.8 3.85 14.45 30.28 139.95 Canada 10.17 20.22 45.68 1.76 3.63 13.55 28.09 130.15 Chile 10.34 20.8 46.2 1.79 3.71 13.61 29.3 134.03 China 10.51 21.04 47.3 1.81 3.73 13.9 29.13 133.53 Columbia 10.43 21.05 46.1 1.82 3.74 13.49 27.88 131.35 Cook Islands 12.18 23.2 52.94 2.02 4.24 16.7 35.38 164.7 Costa Rica 10.94 21.9 48.66 1.87 3.84 14.03 28.81 136.58 Czechoslovakia 10.35 20.65 45.64 1.76 3.58 13.42 28.19 134.32 Denmark 10.56 20.52 45.89 1.78 3.61 13.5 28.11 130.78 Dominican Republic 10.14 20.65 46.8 1.82 3.82 14.91 31.45 154.12 Finland 10.43 20.69 45.49 1.74 3.61 13.27 27.52 130.87 France 10.11 20.38 45.28 1.73 3.57 13.34 27.97 132.3 German (D.R.) 10.12 20.33 44.87 1.73 3.56 13.17 27.42 129.92 German (F.R.) 10.16 20.37 44.5 1.73 3.53 13.21 27.61 132.23 Great Brit.& N. Ireland 10.11 20.21 44.93 1.7 3.51 13.01 27.51 129.13 Greece 10.22 20.71 46.56 1.78 3.64 14.59 28.45 134.6 Guatemala 10.98 21.82 48.4 1.89 3.8 14.16 30.11 139.33 Hungary 10.26 20.62 46.02 1.77 3.62 13.49 28.44 132.58 India 10.6 21.42 45.73 1.76 3.73 13.77 28.81 131.98

实验六主成分分析报告

实验六 主成分分析 一、实验目的 通过本次实验,掌握SPSS 及ENVI 的主成分分析方法。 二、有关概念 1. 主成分分析的概念 主成分分析(又称因子分析),是将多个实测变量转换为少数几个不相关的 综合指标的多元统计分析方法。代表各类信息的综合指标就称为因子或主成份。 主成分分析的数学模型可写为: m m x a x a x a x a z 131********++++= m m x a x a x a x a z 23232221212++++= m m x a x a x a x a z 33332321313++++= ……… m nm n n n n x a x a x a x a z ++++= 332211 其中,x 1、x 2、 x 3、 x 4 …x m 为原始变量;z 1、 z 2、 z 3、 z 4 …z n 为主成份,且有m ≥n 。 写成矩阵形式为:Z=AX 。Z 为主成份向量,A 为主成份变换矩阵,X 为原始变 量向量。主成份分析的目的是把系数矩阵A 求出,主成份Z1、Z2、Z3…在总方差中所占比重依次递减。 从理论上讲m=n 即有多少原始变量就有多少主成份,但实际上前面几个主成 份集中了大部分方差,因此取主成份数目远远小于原始变量的数目,但信息损失很小。 因子分析的一个重要目的还在于对原始变量进行分门别类的综合评价。如果 因子分析结果保证了因子之间的正交性(不相关)但对因子不易命名,还可以通过对因子模型的旋转变换使公因子负荷系数向更大(向1)或更小(向0)方向变化,使得对公因子的命名和解释变得更加容易。进行正交变换可以保证变换后各因子仍正交,这是比较理想的情况。如果经过正交变换后对公因子仍然不易解释,也可进行斜交旋转。 2. 因子提取方法 SPSS 提供的因子提取方法有: ①Principal components 主成份法。该方法假设变量是因子的纯线性组合。

主成分分析、因子分析实验报告--SPSS

对2009年我国88个房地产上市公司的因子分析 分析结果: 表1 KMO 和 Bartlett 的检验 取样足够度的 Kaiser-Meyer-Olkin 度量。.637 Bartlett 的球形度检验近似卡方398.287 df 45 Sig. .000 由表1可知,巴特利特球度检验统计量的观测值为398.287,相应的概率p值接近0,小于显著性水平 (取0.05),所以应拒绝原假设,认为相关系数矩阵与单位矩阵有显著差异。同时,KMO值为0.637,根据Kaiser给出的KMO度量标准(0.9以上表示非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合)可知原有变量不算特别适合进行因子分析。 表2 公因子方差 初始提取市盈率 1.000 .706 净资产收益率 1.000 .609 总资产报酬率 1.000 .822 毛利率 1.000 .280 资产现金率 1.000 .731 应收应付比 1.000 .561 营业利润占比 1.000 .782 流通市值 1.000 .957 总市值 1.000 .928 成交量(手) 1.000 .858 提取方法:主成份分析。 表2为公因子方差,即因子分析的初始解,显示了所有变量的共同度数据。第一列是因子分析初始解下的变量共同度,它表明,对原有10个变量如果采用主成分分析方法提取所有特征根(10个),那么原有变量的所有方差都可被解释,变量的共同度均为1(原有变量标准化后的方差为1)。事实上,因子个数小于原有变量的个数才是因子分析的目标,所以不可提取全部特征根;第二列是在按指定提取条件(这里为特征根大于1)提取特征根时的共同度。可以看到,总资产报酬率、成交量、流

最新实验六主成分分析

实验六主成分分析

实验课:主成分分析 实验目的 理解主成分(因子)分析的基本原理,熟悉并掌握SPSS中的主成分(因子)分析方法及其主要应用。 一、相关知识 1 概念 因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。 主成分分析(Principal component analysis):是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。 两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。

2 特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。 3 类型 根据研究对象的不同,把因子分析分为R型和Q型两种。 当研究对象是变量时,属于R型因子分析; 当研究对象是样品时,属于Q型因子分析。 但有的因子分析方法兼有R型和Q型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。

第6章 因子分析

第六章 因子分析 一、填空题 1.因子分析常用的两种类型为 和 。 2.因子分析是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现_____________与____________之间的相互关系。 3.因子分析就是通过寻找众多变量的 来简化变量中存在的复杂关系的一种方法。 4.因子分析是把每个原始变量分解成两个部分即 、 。 5.变量共同度是指因子载荷矩阵中_______________________。 6.公共因子方差与特殊因子方差之和为_______。 7.求解因子载荷矩阵常用的方法有 和 。 8.常用的因子旋转方法有 和 。 9.Spss 中因子分析采用 命令过程。 10.变量i X 的方差由两部分组成,一部分为 ,另一部分为 。 二、判断题 1.在因子分析中,因子载荷阵不是唯一的。 ( ) 2.因子载荷阵经过正交旋转后,各变量的共性方差和各个因子的贡献都发生了变化。 ( ) 3.因子分析和主成分分析的核心思想都是降维。 ( ) 4.因子分析有两大类,R 型因子分析和Q 型因子分析;其中R 型因子分析是从变量的相似矩阵出发,而Q 型因子分析是从样品的相关矩阵出发。( ) 5.特殊因子与公共因子之间是相互独立的。( ) 6.变量共同度是因子载荷矩阵列元素的平方和。( ) 7.公共因子的方差贡献是衡量公共因子相对重要性指标。( ) 8.对因子载荷阵进行旋转的目的是使结构简化。( ) 三、简答题 1. 因子分析的基本思想是什么,它与主成分分析有什么区别和联系? 2.因子模型的矩阵形式ε+=X UF ,其中:

() () () u F F ij m p P m U F ?=' =' =εεε,,,,1 1 请解释式中F 、 ε、U 的统计意义。 3.因子旋转的意义何在?如何进行最大方差因子旋转? 4.因子分析主要应用在哪几个方面? 四、计算题 4.假设某地固定资产投资率1x , 通货膨胀率2x 和失业率3x 的约相关矩阵为: ??????? ????? ????----=525 25 152******** 51* R 并且已知该相关矩阵的各特征根和相应的非零特征根的单位特征向量分别为: 9123.01=λ ()' -=657.0657.0369 .01α 0877.02=λ ()'-=261.0261 .0929 .02α 03=λ 要求求解因子分析模型,计算各变量的共同度和各公共因子的方差贡献并解释它们的统计意义。 2.设变量x 1,x 2和x 3已标准化,其样本相关系数矩阵为: ?? ?? ??????=135.045.035.0163.045.063.01 R (1)对变量进行因子分析。 (2)取q=2进行正交因子旋转。 3.已知我国某年各地区的国有及非国有规模以上的工业企业经济效益资料,现做因子分析,结果如下,请说明每一个输出结果的含义及目的,并回答以下问题: (1)什么是方差贡献率? 计算方差贡献率的目的何在? (2) 如何利用因子分析结果进行综合评价? 结合本例写出计算综合评价结果的公式。

主成分分析实验报告

项目名称实验4—主成分分析 所属课程名称多元统计分析(英) 项目类型综合性实验_____________ 实验(实训)日期2012年4 月15日

二、实验(实训)容: 【项目容】 主成分分析。 【方案设计】 题目: 由原始数据求主成分。 【实验(实训)过程】(步骤、记录、数据、程序等)附后 【结论】(结果、分析) 附后 三、指导教师评语及成绩: 评语: 成绩:指导教师签名: 批阅日期: 实验报告4 主成分分析(综合性实验) (Prin cipal comp onent an alysis) 实验原理:主成分分析利用指标之间的相关性,将多个指标转化为少数几个综合指标,从而达到降维和数据结构简化的目的。这些综合指标反映了原始指标的绝

大部分信息,通常表示为原始指标的某种线性组合,且综合指标间不相关。利用矩阵代数的知识可求解主成分 实验题目:下表中给出了不同国家及地区的男子径赛记录:(t8a6) Country 100m 200m 400m 800m 1500m 5000m 10,000m Marathon (s) (s) (s) (min) (min) (min) (min) (mins) Argentina 10.39 20.81 46.84 1.81 3.7 14.04 29.36 137.72 Australia 10.31 20.06 44.84 1.74 3.57 13.28 27.66 128.3 Austria 10.44 20.81 46.82 1.79 3.6 13.26 27.72 135.9 Belgium 10.34 20.68 45.04 1.73 3.6 13.22 27.45 129.95 Bermuda 10.28 20.58 45.91 1.8 3.75 14.68 30.55 146.62 Brazil 10.22 20.43 45.21 1.73 3.66 13.62 28.62 133.13 Burma 10.64 21.52 48.3 1.8 3.85 14.45 30.28 139.95 Canada 10.17 20.22 45.68 1.76 3.63 13.55 28.09 130.15 Chile 10.34 20.8 46.2 1.79 3.71 13.61 29.3 134.03 China 10.51 21.04 47.3 1.81 3.73 13.9 29.13 133.53 Columbia 10.43 21.05 46.1 1.82 3.74 13.49 27.88 131.35 Cook Islands 12.18 23.2 52.94 2.02 4.24 16.7 35.38 164.7 Costa Rica 10.94 21.9 48.66 1.87 3.84 14.03 28.81 136.58 Czechoslovakia 10.35 20.65 45.64 1.76 3.58 13.42 28.19 134.32 Denmark 10.56 20.52 45.89 1.78 3.61 13.5 28.11 130.78 Dominican Republic 10.14 20.65 46.8 1.82 3.82 14.91 31.45 154.12 Finland 10.43 20.69 45.49 1.74 3.61 13.27 27.52 130.87 France 10.11 20.38 45.28 1.73 3.57 13.34 27.97 132.3 German (D.R.) 10.12 20.33 44.87 1.73 3.56 13.17 27.42 129.92 German (F.R.) 10.16 20.37 44.5 1.73 3.53 13.21 27.61 132.23 Great Brit.& N. Ireland 10.11 20.21 44.93 1.7 3.51 13.01 27.51 129.13

教育信息处理(实验九因子分析与主成分分析)实验报告-示例

1、对北京18个区县中等职业教育发展水平进行聚类。X1:每万人中职在校生数;X2:每万人中职招生数;X3:每万人中职毕业生数;X4:每万人中职专任教师数;X5:本科以上学校教师占专任教师的比例;X6:高级教师占专任教师的比例;X7:学校平均在校生人数;X8:国家财政预算中职经费占国内生产总值的比例;X9:生均教育经费。 具体步骤如下: 1、导入数据,建立数据文件(data.sav) 2、选择聚类分析(分析—分类—系统聚类分析),选择变量,分群选择个 案方式 3、聚类分析描述统计(统计量—合并进程表;聚类成员—单一方案—聚类 数3) 4、聚类分析绘制(树状图;冰柱—所有聚类,方向—垂直) 5、聚类分析方法(聚类方法—组间联接,度量标准—区间—平方Euclidean

距离) 6、聚类分析保存(聚类成员—单一方案—聚类数3) 7、保存实验结果,并分析结果 结果与分析: (1)输出结果文件中的第一部分如下图1所示。 图1中可以看出18个样本都进入了聚类分析,但有效样本为14个,缺失14个。 (2)输出结果文件中的第二部分为系统聚类分析的凝聚状态表如图2所示。

第一列表示聚类分析的步骤,可以看出本例中共进行了17个步骤的分析; 第二列和第三列表示某步聚类分析中,哪两个样本或类聚成了一类; 第四列表示两个样本或类间的距离,从表格中可以看出,距离小的样本之间先聚类; 第五列和第六列表示某步聚类分析中,参与聚类的是样本还是类。0表示样本,数字n(非零)表示第n步聚类产生的类参与了本步聚类; 第七列表示本步聚类结果在下面聚类的第几步中用到。 图2给中第一行表示,第二个样本和第四个样本最先进行了聚类,样本间的距离为4803.026,这个聚类的结果将在后面的第六步

实验六-主成分分析

实验六主成分分析 一、实验目的 通过本次实验,掌握SPSS及ENVI的主成分分析方法。 二、有关概念 1.主成分分析的概念 主成分分析(又称因子分析),是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法。代表各类信息的综合指标就称为因子或主成份。 主成分分析的数学模型可写为: =绚內 + a n x2 + 5x3 + …+ a lm x m S = "21X] + Cl22X2 + Cl23X3 + ??? + a2m X m Z3 =勺內+5小+如勺+??? + %〃 S = + a n2x2 + 心3X3 + ??? + 其中,X1.X2. x3. x4— x B为原始变量;Zi. z2. z3, z4—z n为主成份,且有mNn。写成矩阵形式为:Z=AX O Z为主成份向量,A为主成份变换矩阵,X为原始变量向量。主成份分析的目的是把系数矩阵A求出,主成份Zl、Z2、Z3…在总方差中所占比重依次递减。 从理论上讲呼n即有多少原始变量就有多少主成份,但实际上前面几个主成份集中了大部分方差,因此取主成份数目远远小于原始变量的数目,但信息损失很小。 因子分析的一个重要目的还在于对原始变量进行分门别类的综合评价。如果因子分析结果保证了因子之间的正交性(不相关)但对因子不易命名,还可以通过对因子模型的旋转变换使公因子负荷系数向更大(向1)或更小(向0)方向变化,使得对公因子的命名和解释变得更加容易。进行正交变换可以保证变换后各因子仍正交,这是比较理想的情况。如果经过正交变换后对公因子仍然不易解释,也可进行斜交旋转。 2.因子提取方法 SPSS提供的因子提取方法有: ①Principal components主成份法。该方法假设变量是因子的纯线性组合。这是SPSS 最通用的因子提取方法,故因子分析有时又称为主成份分析。 ?Unweighted least square不加权最小平方法。该方法使观测的和再生的相关阵之差的平方最小。 ?Generalized least square用变量的单值加权,使观测的和再生的相关阵之差的平方

主成分分析计算方法和步骤

在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异, 研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但由于各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映个体之间的差异,成为研究者关心的问题。而主成分分析法可以很好地解决这一问题。 主成分分析的应用目的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻找和判断某种事物或现象的综合指标,并且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。 主成分分析的基本步骤分为: ①对原始指标进行标准化,以消除变量在数量极或量纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征根和特征向量; ④确定主成分,结合专业知识对各主成分所蕴含的信息给予适当的解释;⑤合成主成分,得到综合评价值。 结合数据进行分析 本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。 表5-6 相关系数矩阵 本科院校 数招生人数教育经费投入 相关性师生比 重点高校数 教工人数 本科院校数 招生人数 教育经费投 入

师生比重点高校数教工人数 相关性师生比 重点高校数 教工人数 本科院校数 招生人数 教育经费投 入(元) 表5-7给出的是各主成分的方差贡献率和累计贡献率,我们选取主成分的标准有两个:第一,特征根大于1,因为,如果特征根小于1,说明该主成分的解释力度太弱,还比不上直接引入一个原始变量的平均解释力度大;第二,方差贡献率大于85%,如果这两个标准不能同时符合要求,则往往是因为选择的指标不合理或者样本容量太小,应继续调整。表5-7还显示,只有前2个特征根大于1,因此SPSS只提取了前两个主成分,而这两个主成分的方差贡献率达到了%,因此选取前两个主成分已经能够很好地描述我国高等教育地区现状。

主成分分析实验报告

主成分分析 地信0901班陈任翔010******* 【实验目的及要求】 掌握主成分分析与因子分析的思想和具体步骤。掌握SPSS实现主成分分析与因子分析的具体操作。 【实验原理】 1.主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。由此可见,主成分分析实际上是一种降维方法。 2.因子分析研究相关矩阵或协方差矩阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系。 【实验步骤】 1.数据准备 ●1)首先在Excel中打开“水样元素成分分析数据”,删除表名“水样元素成分分析数据”, 保存数据。 ●3)数据格式转换。 2.数据描述分析操作 1)Descriptives过程 点击Analyze下的Descriptive Statistics选项,选择该选项下的Descriptives ●选中待处理的变量(左侧的As…..Hg等);

●点击使变量As…..Hg 移至Variable(s)中; ●选中Save standrdized values as variables; ●点击Options 2)数据标准化 标准化处理后的结果

2.主成分分析 1)点击Analyze下的Data Reduction选项,选择该选项下的Factor过程。选中待处理的变量,移至Variables 2)点击Descriptives判断是否有进行因子分析的必要 Coefficients(计算相关系数矩阵) Significance levels(显著水平) KMO and Bartlett’s test of sphericity (对相关系数矩阵进行统计学检验) Inverse(倒数模式):求出相关矩阵的反矩阵; Reproduced(重制的):显示重制相关矩阵,上三角形矩阵代表残差值,而主对角线及下三角形代表相关系数; Determinant(行列式):求出前述相关矩阵的行列式值; Anti-image(反映像):求出反映像的共同量及相关矩阵。 Univariate descriptive单变量描述统计量(输出被选中的各变量的均数与标准差) Initial solution未转轴之统计量(显示因素分析未转轴前之共同性、特征值、变异数百分比及累积百分比) 3)点击Extraction : ●选择主成分分析方法 ●输出未旋转的因子载荷矩阵

(整理)实验六主成分分析.

实验课:主成分分析 实验目的 理解主成分(因子)分析的基本原理,熟悉并掌握SPSS中的主成分(因子)分析方法及其主要应用。 一、相关知识 1 概念 因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。 主成分分析(Principal component analysis):是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。 两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。 2 特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。 3 类型 根据研究对象的不同,把因子分析分为R型和Q型两种。 当研究对象是变量时,属于R型因子分析; 当研究对象是样品时,属于Q型因子分析。 但有的因子分析方法兼有R型和Q型因子分析的一些特点,如因子分析中的对应分析

主成分分析和因子分析实验报告

主成分分析实验报告 一、实验数据 2013年,在国内外形势错综复杂的情况下,我国经济实现了平稳较快发展。全年国内生产总值568845亿元,比上年增长7.7%。其中第三产业增加值262204亿元,增长8.3%,其在国内生产总值中的占比达到了46.1%,首次超过第二产业。经济的快速发展也带来了就业的持续增加,年末全国就业人员76977万人,其中城镇就业人员38240万人,全年城镇新增就业1310万人。随着我国城镇化进程的不断加快,加之农业用地量的不断衰减,工业不断的转型升级,使得劳动力就业压力的缓解需要更多的依靠服务业的发展。 (一)指标选择 根据指标选择的可行性、针对性、科学性等原则,选择13个指标来衡量服务业的发展水平,指标体系如表1所示: 表1 服务业发展水平指标体系

(二)指标数据 本次实验采用的数据是我国31个省(市、自治区)2012年的数据,原数据均来自《2013中国统计年鉴》以及2013年各省(市、自治区)统计年鉴,不能直接获得的指标数据是通过对相关原始数据的换算求得。原始数据如表2所示:

表2(续) 二、实验步骤 本次实验是在SPSS中实现主成分分析,具体步骤如下: (一)数据标准化,单击主菜单“Analyze”(分析)展开下拉菜单,在下拉菜单中寻找“Descriptive Statistics”,在小菜单中寻找“Descriptives”(描述),展开Descriptives对话框,将左面的矩形框中的变量X1、X2、…、X13,通过单击向右的箭头按钮,调入到右面的“Variables”(变量)框中。选中Save

standardized values as variables(对变量进行标准化)复选框,点击OK按(二)单击主菜单“Analyze”(分析)展开下拉菜单,在下拉菜单中寻找“Data Reduction”弹出小菜单,在小菜单中寻找“Factor”(因子),展开“Factor Analysis”(因子分析)主对话框。 (三)选择分析变量。将左面的矩形框中参与分析的标准化后的变量ZX1、ZX2、…、ZX13,通过单击向右的箭头按钮,调入到右面的“Variables”(变量)框中。 (四)因子分析过程选项,主对话框选择项中共有5个功能按钮: 1.单击【Descriptives】(描述统计量)按钮,展开“Descriptives”对话框,在Statistics中选中Univariate descriptive(单变量描述统计量)和Initial solution(初始因子分析结果),在Correlation Matrix中选择coefficients(相关系数矩阵)、Significance levels(显著性P值),KMO and Bartlett’s test of sphericity,点击Continue按钮。 2.在主对话框中,单击【Extraction】(因子提取)按钮,展开“Extraction”对话框,在Method中选择Principal components(主成分法),其他均为系统默认,点击Continue按钮。 3.在主对话框中,单击【Scores】(因子得分)按钮,展开“Scores”对话框,选中Save as variables(将因子得分作为新变量保存在数据文件中)复选框,单击Continue按钮。 (五)在主对话框中,单击【OK】按钮执行运算。 三、实验结果 (一)利用SPSS进行因子分析 输出结果表3至表4所示。

第5章 主成分分析

第五章 主成分分析 一、填空题 1.主成分分析就是设法将原来众多 的指标,重新组合成一组新的 的综合指标来代替原来指标。 2.主成分分析的数学模型可简写为 ,该模型的系数要求 。 3.主成分分析中,利用 的大小来寻找主成分。 4.第k 个主成分k y 的贡献率为 ,前k 个主成分的累积贡献率为 。 5.确定主成分个数时,累积贡献率一般应达到 ,在spss 中,系统默认为 。 6.主成分的协方差矩阵为_________矩阵。 7.原始变量协方差矩阵的特征根的统计含义是________________。 8.原始数据经过标准化处理,转化为均值为__ __,方差为__ __的标准值,且其________矩阵与相关系数矩阵相等。 9.在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为________。 10.SPSS 中主成分分析采用______________命令过程。 二、判断题 1.主成分分析就是设法将原来众多具有一定相关性的指标,重新组合成一组新的相互无关的综合指标来代替原来指标。 ( ) 2.主成分y 的协差阵为对角矩阵。 ( ) 3.p x x x ,,,21 的主成分就是以∑的特征向量为系数的一个组合,它们互不相关,其方差为 ∑的特征根。 ( ) 4.原始变量i x 的信息提取率()m i V 表示这m 个主成分所能够解释第i 个原始变量变动的程度。 ( ) 5.在spss 中,可以直接进行主成分分析。 ( ) 6.主成分分析可用于筛选回归变量。 ( ) 7.SPSS 中选取主成分的方法有两个:一种是根据特征根≥1来选取; 另一种是按照累积贡献率≥85%来选取。 ( ) 8.主成分方差的大小说明了该综合指标反映p 个原始观测变量综合变动程度的能力的大小。 ( ) 9.主成分表达式的系数向量是协方差矩阵∑的特征向量。 ( ) 10.主成分k y 与原始变量i x 的相关系数()i k x y ,ρ反映了第k 个公共因子对第i 个原始变量的解释程度。 ( ) 三、简答题 1.简述主成分的概念及几何意义。 2.主成分分析的基本思想是什么? 3.简述主成分分析的计算步骤。 4.主成分有哪些性质? 5.主成分主要应用在哪些方面? 四、计算题 1.假设3个变量1x 、2x 和3x 的协方差矩阵为: ???? ??????--=∑20 05 3 032 要求用此协差阵和相应的相关阵对这3个变量进行主成分分析,根据计算结果说明应选取多 少个主成分以代表原来的3个变量,并说明理由。 2.在一项研究中,测量了376只鸡的骨骼,并利用相关系数矩阵进行主成分分析,见下表:

主成分分析原理

第七章主成分分析 (一)教学目的 通过本章的学习,对主成分分析从总体上有一个清晰地认识,理解主成分分析的基本思想和数学模型,掌握用主成分分析方法解决实际问题的能力。 (二)基本要求 了解主成分分析的基本思想,几何解释,理解主成分分析的数学模型,掌握主成分分析方法的主要步骤。 (三)教学要点 1、主成分分析基本思想,数学模型,几何解释 2、主成分分析的计算步骤及应用 (四)教学时数 3课时 (五)教学内容 1、主成分分析的原理及模型 2、主成分的导出及主成分分析步骤 在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。 第一节主成分分析的原理及模型 一、主成分分析的基本思想与数学模型 (一)主成分分析的基本思想 主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。

主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求0),(21=F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。 (二)主成分分析的数学模型 对于一个样本资料,观测p 个变量p x x x ,,21,n 个样品的数据资料阵为: ??????? ??=np n n p p x x x x x x x x x X 21 222 21112 11()p x x x ,,21= 其中:p j x x x x nj j j j ,2,1,21=?????? ? ??= 主成分分析就是将p 个观测变量综合成为p 个新的变量(综合变量),即 ???????+++=+++=+++=p pp p p p p p p p x a x a x a F x a x a x a F x a x a x a F 22112222121212121111 简写为: p jp j j j x x x F ααα+++= 2211 p j ,,2,1 = 要求模型满足以下条件:

主成分分析法概念及例题

主成分分析法 主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法 目录 [显示] 1 什么是主成分分析法 2 主成分分析的基本思想 3 主成分分析法的基本原理 4 主成分分析的主要作用 5 主成分分析法的计算步骤 6 主成分分析法的应用分析 o案例一:主成分分析法在啤酒风味评价分析中的应用[1] 1 材料与方法 2 主成分分析法的基本原理 3 主成分分析法在啤酒质量一致性评价中的应用 4 结论 7 参考文献 [编辑] 什么是主成分分析法 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 [编辑] 主成分分析的基本思想

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [编辑] 主成分分析的主要作用

应用多元统计分析习题解答_朱建平_第七章

Abbo无私奉献,只收1个金币,BS收5个金币的… 何老师考简单点啊……

第七章 因子分析 7.1 试述因子分析与主成分分析的联系与区别。 答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。 因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。 7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。 7.3 简述因子模型中载荷矩阵A 的统计意义。 答:对于因子模型 1122i i i ij j im m i X a F a F a F a F ε=++++++ 1,2,,i p = 因子载荷阵为1112 121 2221212 (,,,)m m m p p pm a a a a a a A A A a a a ????? ?==?? ?? ?? ? ? A i X 与j F 的协方差为: 1Cov(,)Cov(,)m i j ik k i j k X F a F F ε==+∑ =1 Cov( ,)Cov(,)m ik k j i j k a F F F ε=+∑ =ij a 若对i X 作标准化处理,=ij a ,因此 ij a 一方面表示i X 对j F 的依赖程度;另一方面也反映了

相关文档
最新文档