北师大应用多元统计分析作业——主成分分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

应用多元统计分析作业(一)——主成分分析 8‐1:用主成分分析方法探讨城市工业主体结构。

解:

执行SAS程序代码:

data dxiti81;

input number x1-x8;

cards;

1 9034

2 52455 101091 19272 82 16.1 197435 0.172

2 490

3 1973 2035 10313 34.2 7.1 592077 0.003

3 6735 21139 3767 1780 36.1 8.2 726396 0.003

4 49454 36241 81557 22504 98.1 25.9 348226 0.985

5 139190 203505 215898 10609 93.2 12.

6 139572 0.628

6 12215 16219 10351 6382 62.5 8.

7 14581

8 0.066

7 2372 6572 8103 12329 184.4 22.2 20921 0.152

8 11062 23078 54935 23804 370.4 41 65486 0.263

9 17111 23907 52108 21796 221.5 21.5 63806 0.276

10 1206 3930 6126 15586 330.4 29.5 1840 0.437

11 2150 5704 6200 10870 184.2 12 8913 0.274

12 5251 6155 10383 16875 146.4 27.5 78796 0.151

13 14341 13203 19396 14691 94.6 17.8 6354 1.574

;

proc princomp data=dxiti81 out=oxiti81;

var x1-x8;

run;

proc sort data=oxiti81;

by prin1;

proc print;

id number;

var prin1;

run;

proc sort data=oxiti81;

by prin2;

proc print;

id number;

var prin2;

run;

proc sort data=oxiti81;

by prin3;

proc print;

id number;

var prin3;

run;

proc plot;

plot prin2*prin1=number;

run;

proc cluster data=oxiti81 method=ave pseudo ccc outtree=tr81;

var x1-x8;

id number;

proc tree data=tr81 horizontal graphics;

run;

结果分析:

◆我们使用原始数据的相关系数矩阵计算特征根矩阵。通过观察这8个变量之间的两两相

关系数矩阵(表1)

表1:Correlation Matrix

x1 x2 x3x4x5x6x7 x8 x1 1.0000 0.9196 0.96200.1089-.2886-.16630.0067 0.2140

x2 0.9196 1.0000 0.9468-.0550-.1973-.1709-.0149 0.1855

x3 0.9620 0.9468 1.00000.2329-.10360.0042-.0781 0.2467

x4 0.1089 -.0550 0.2329 1.00000.55990.7809-.4497 0.3009

x5 -.2886 -.1973 -.10360.5599 1.00000.8266-.6088 -.0295

x6 -.1663 -.1709 0.00420.78090.8266 1.0000-.4922 0.1742

x7 0.0067 -.0149 -.0781-.4497-.6088-.4922 1.0000 -.2999

x8 0.2140 0.1855 0.24670.3009-.02950.1742-.2999 1.0000 我们看到,和这两组的三个指标之间内部的相关系数较大,说明后面

进行主成分分析还是很有必要的。而与,与,与,与其他

所有指标之间的相关系数均较小,由此可以得到初步的分析结论:、和

应该作为三组互相较为独立的指标,并由此得知后面应该至少选取三个主成分进行分析。

◆根据分析家系统画出的碎石图和特征根的累积方差贡献率(表2)

表2 主成分 Proportion

Cumulative 1

0.3881 0.3881

2 0.3622 0.750

3 3 0.1163 0.8666

4 0.0803 0.9468

5 0.0380 0.9848

6 0.0108 0.995

7 7 0.0040 0.9997 8

0.0003

1.0000

可以看到,取三个主成分的时候累积方差贡献率已达86%,故提取三个主成分即可代表原始数据的大部分信息。

◆ 根据特征向量(表3),可以写出上述确定的三个主成分的表达式如下(均

为标准化后的变量):

◆ 下面利用特征向量的值对选取的主成分进行解释: 对第一个主成分来说,其的特征向量系数均在0.4左右,且均为正值,而

的特征向量系数均在0.3左右,且均为负值,结合和指标所

代表的实际含义,我们可以看出,第一个主成分反映出了该地区工业的“发展规模”大小;

对第二个主成分来说,只有一项指标对应的特征向量系数是负值,根据指标所代

表的实际含义是标准燃料消耗量,我们看出,第二个主成分主要反映了该地区工业的能源消耗量,而能源消耗越多越不环保,故可将第二个主成分看做“环保指数”; 对第三个主成分来说,只有一项指标对应的特征向量系数的绝对值较大,根据指标

所代表的实际含义是能源利用效果,我们看出,第三个主成分主要反映了该地区工业的“能源利用效益”(单位能源的产值)。

◆ 利用主成分得分对行业进行排序:表4

按第一主成分排序 按第二主成分排序 按第三主成分排序 number Prin1 number Prin2 number Prin3 8 ‐2.19498 3 ‐3.22553 13 ‐2.8063 10 ‐2.03186 2 ‐2.59164 4 ‐0.99768 12 ‐1.20141 6 ‐1.77361 11 ‐0.12255 7 ‐1.1025 11 ‐0.75561 6 0.03114 9 ‐0.84117 7 ‐0.31793 2 0.22831 11 ‐0.71333 12 0.03034 10 0.23105 13 ‐0.26296 13 0.46431 7 0.28183 6

0.32997

1

0.75863

12

0.28702

表3 Prin1

Prin2

Prin3

x1 0.4766500.295991 0.104190 x2 0.4728080.277894 0.162983 x3 0.4238450.377951 0.156255 x4 ‐.2128930.451408 ‐.008544 x5 ‐.3884600.330945 0.321133 x6 ‐.3524270.402737 0.145144 x7 0.214835‐.377415 0.140459 x8

0.0550340.272736 ‐.891162

相关文档
最新文档