聚类分析实验报告 SPSS

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、实验目的及要求:

1、目的

用SPSS软件实现聚类分析及其应用。

2、内容及要求

用SPSS对实验数据运用系统聚类法和K均值聚类法进行分析。

二、仪器用具:

三、实验方法与步骤:

准备工作:把实验所用数据从Word文档复制到Excel,并进一步导入到SPSS 数据文件中。

分析:由于本实验中要对31个个案进行分类,数量比较大,用系统聚类法当然也可以得出结果,但是相比之下在数据量较大时,K均值聚类法更快速高效,而且准确性更高,因此,在以下的分析过程中,先采用系统聚类法分析,得出相应结果和碎石图(即聚合系数随分类数变化的曲线图),根据碎石图来判定分几类比较合适,然后再用K均值聚类法进行聚类分析得出结果,比较两结果的异同,以得到比较可信的结果。

四、实验结果与数据处理:

1)用系统聚类法对所有个案进行聚类:

采用Z分数对数据进行标准化处理。

以下图一为聚类方法为“组间联接”时的冰柱图,图二为聚类方法为“Ward 法”时的冰柱图,图三为聚类方法为“质心聚类法”时的冰柱图。

不难看出在分五类的情况下,(未标出的所有为一类)

图一的分类为:北京;天津;上海、浙江、广东;辽宁、四川、江苏、山东;……图二的分类为:北京;天津;上海、海南、浙江、广东;辽宁、四川、江苏、山东;……图三的分类为:北京;天津;上海、浙江、广东;辽宁、四川、江苏、山东;……

聚类方法为“组间联接”与“质心聚类法”时分五类的情况是一样的,而聚类方法为“Ward法”时与它们两个有些许差别,但总的来说在分五类时,比较可信的结论是北京、天津单独为一类,辽宁、四川、江苏、山东为一类,上海、浙江、广东为一类,在海南省的划分上有些差异,“Ward法”中将其与上海、浙江、广东分为一类,但是其余两个将海南与未列出各省划为一类。

图一

图二

图三2)系统聚类法分析时的碎石图:

聚类方法为“组间联接”时的碎石图:

聚类方法为“Ward法”时的碎石图:

聚类方法为“质心聚类法”时的碎石图:

由这三个图可以看出在聚类方法为“Ward法”时的碎石图不如另外两个图落差那么明显,但是综合这三个图来看,分五类还是相对比较合理的,这也是为什么在第一部分的分析中只看了分五类时的情况,而且在下面的K均值聚类分析中,也

将指定聚类数为5.

3)K均值聚类:

在下页表一中显示了样品的分类情况,我们看到,K均值聚类法将所分析的31个省、市、自治区分为这样的五类:

1:北京;

2:福建、海南;

3:辽宁、江苏、山东、四川;

4:天津、上海、浙江、广东;

5:剩下的20个省、市、自治区。

对比之前系统聚类法的分析结果,我们可以明显感觉到二者的聚类结果还是有较大差异的,尽管如此,仍然有相似之处,在两种方法下,都是北京单独为一类,辽宁、四川、江苏、山东为一类,上海、浙江、广东在一类中,所以综合这两种方法得到的这些省、市、自治区的分类应该还是比较可信的。

表一聚类成员

案例号省份聚类距离

1 北京 1 .000

2 天津 4 4858.518

3 河北 5 2437.069

4 山西

5 2756.057

5 内蒙古 5 1259.428

6 辽宁 3 1851.996

7 吉林 5 2383.755

8 黑龙江 5 2065.670

9 上海 4 4346.782

10 江苏 3 2020.990

11 浙江 4 2963.427

12 安徽 5 1791.589

13 福建 2 2648.765

14 江西 5 2436.133

15 山东 3 1524.880

16 河南 5 2522.320

17 湖北 5 2225.459

18 湖南 5 1700.929

19 广东 4 4382.189

20 广西 5 1714.006

21 海南 2 2648.765

22 重庆 5 2673.915

23 四川 3 2083.996

24 贵州 5 2023.430

25 云南 5 1628.781

26 西藏 5 6160.693

27 陕西 5 1786.561

28 甘肃 5 3418.506

29 青海 5 2981.479

30 宁夏 5 2131.259

31 新疆 5 1541.829

下页表二是方差分析表,这里的F值只能作为描述使用,不能根据该值判断各类均值是否有显著差异。从该表可以看出,所选择的9个变量对分类均有显著贡献。

表二 ANOVA

聚类误差

均方df 均方df

F Sig.

房屋平均销售价格34522436.534 4 261277.010 26 132.130 .000 住宅平均销售价格31815585.858 4 281908.617 26 112.858 .000 别墅、高档公寓平均销售价格76657879.137 4 2053147.885 26 37.337 .000 经济适用房平均销售价格1967643.236 4 160745.356 26 12.241 .000 办公楼平均销售价格58725137.655 4 2007948.202 26 29.246 .000 商业营业用房平均销售价格46733455.722 4 990173.537 26 47.197 .000 其他平均销售价格12044438.360 4 1270360.473 26 9.481 .000 商品房销售面积9849067.315 4 1066492.321 26 9.235 .000 住宅销售面积7958587.713 4 854039.674 26 9.319 .000 F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。

表三最终聚类中心

聚类

1 2 3 4 5

房屋平均销售价格12418 4914 3484 6606 2578

住宅平均销售价格11648 4970 3324 6395 2430

别墅、高档公寓平均销售价格19541 8196 7546 10035 4537

经济适用房平均销售价格3813 2000 1777 2723 1633

办公楼平均销售价格16554 5609 5495 10459 4532

商业营业用房平均销售价格17148 6882 5363 8256 4549

其他平均销售价格6416 3422 2823 5800 2485

商品房销售面积1335.37 999.06 4797.98 2858.95 1600.43

住宅销售面积1031.43 804.36 4325.20 2496.01 1467.77

在所分析的9个变量中,前七个为各种房屋的平均销售价格,后两个为商品房和住宅的销售面积。表三为最终聚类中心表,可以看到,第1类地区各种房屋的平均销售价格(前7个变量)最高,其次为第4类,然后是第2类、第3类、第5类。而第3类地区的商品房和住宅销售面积(后2个变量)最大,其次为第4类,然后是第5类、第1类、第2类。

4)总结和结论:

综上所述,北京地区各种房屋的平均销售价格是最高的,而商品房和住宅的销售面积相对还是比较少的,考虑到该地区的特殊性(为我国的首都),寸土寸金,

相关文档
最新文档