《统计分析与SPSS的应用(第五版)》课后练习答案(第10章)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《统计分析与S P S S的应用(第五版)》(薛薇)

课后练习答案

第10章SPSS的聚类分析

1、根据“高校科研研究.sav”数据,利用层次聚类分析对各省市的高校科研情况进行层次聚类分析。要求:

1)根据凝聚状态表利用碎石图对聚类类数进行研究。

2)绘制聚类树形图,说明哪些省市聚在一起。

3)绘制各类的科研指标的均值对比图。

4)利用方差分析方法分析各类在哪些科研指标上存在显著差异。

采用欧氏距离,组间平均链锁法

利用凝聚状态表中的组间距离和对应的组数,回归散点图,得到碎石图。大约聚成4类。

步骤:分析→分类→系统聚类→按如下方式设置……

结果:

凝聚计划

阶段

组合的集群

系数

首次出现阶段集群

下一个阶段集群 1 集群 2 集群 1 集群 2

1 26 30 328.189 0 0 2

2 26 29 638.295 1 0 7

3 20 25 1053.423 0 0 5

4 4 12 1209.922 0 0 15

5 8 20 1505.035 0 3 6

6 8 16 1760.170 5 0 9

7 24 26 1831.926 0 2 10

8 7 11 1929.891 0 0 11

9 5 8 2302.024 0 6 22

10 24 31 2487.209 7 0 22

11 2 7 2709.887 0 8 16

12 22 28 2897.106 0 0 19

13 6 23 2916.551 0 0 17

14 10 19 3280.752 0 0 25

15 4 21 3491.585 4 0 21

16 2 3 4229.375 11 0 21

17 6 13 4612.423 13 0 20

18 9 18 5377.253 0 0 25

19 14 22 5622.415 0 12 24

20 6 15 5933.518 17 0 23

21 2 4 6827.276 16 15 26

22 5 24 7930.765 9 10 24

23 6 27 9475.498 20 0 26

24 5 14 14959.704 22 19 28

25 9 10 19623.050 18 14 27

26 2 6 24042.669 21 23 28

27 9 17 32829.466 25 0 29

28 2 5 48360.854 26 24 29

29 2 9 91313.530 28 27 30

30 1 2 293834.503 0 29 0 将系数复制下来后,在EXCEL中建立工作表。

选中数据列,点击“插入”菜单→拆线图……

碎石图:

由图可知,北京自成一类,江苏、广东、上海、湖南、湖北聚成一类。其他略。

接下来,添加一个变量CLU4_1,其值为类别值。(1、2、3、4),再数据→汇总→设置……→确定。

均值对比,依据聚类解,利用分类汇总,计算各个聚类变量的均值

方差分析结果:分析→比较均值→单因素ANOVA→设置……→确定

ANOVA

平方和df 均方 F 显著性

投入人年数组之间59778341.196 3 19926113.732 26.428 .000

组内20357294.159 27 753973.858

总计80135635.355 30

投入高级职称的人年数组之间16485966.820 3 5495322.273 34.553 .000

组内4294074.147 27 159039.783

总计20780040.968 30

投入科研事业费(百元)组之间132451401880.8

84 3

44150467293.

628

324.318 .000

组内

3675602946.794 27 136133442.47

4

总计136127004827.6

77

30

课题总数组之间16470536.564 3 5490178.855 32.181 .000

组内4606273.436 27 170602.720

总计21076810.000 30

专著数组之间7203690.385 3 2401230.128 61.327 .000

组内1057167.809 27 39154.363

总计8260858.194 30

论文数组之间219675698.219 3 73225232.740 17.693 .000

组内111743385.717 27 4138643.915

总计331419083.935 30

获奖数组之间169882.049 3 56627.350 3.619 .026

组内422436.790 27 15645.807

总计592318.839 30

不同组在各个聚类变量上的均值均存在显著差异。

2、试说明当变量存在数量级上的差异,进行层次聚类分析时为什么要对数据进行标准化处理?

因为数量级将对距离产生较大影响,并影响最终聚类结果。

3、试说明变量之间的高度相关性是否会对层次聚类分析结果造成影响?为什么?

会。如果所选变量之间存在较强的线性关系,能够相互替代,在计算距离时同类变量将重复“贡献”,占有较高权重,而使最终的聚类结果偏向该类变量。

4、试说明K-Mean聚类分析的基本步骤。

K-Means聚类分析步骤:

确定聚类数目K--确定K个初始类中心点--根据距离最近原则进行分类--重新确定K个类中心点--判断是否已经满足终止条件。

是一个反复迭代的分类过程。在聚类过程中,样本所属的类会不断调整,直至达到最终稳定为止。

5、收集到我国2007年各地区城镇居民家庭平均每人全年消费支出数据,数据文件名为:“消费结构.sav”,变量包括:地区、消费性支出总额、食品、衣着、居住、家庭设备用品及服务、医疗保健、交通和通信、教育文化娱

相关文档
最新文档