全国各省经济的聚类分析及判别分析

合集下载

聚类分析和判别分析实验报告

聚类分析实验报告一、实验数据2013年，在国内外形势错综复杂的情况下，我国经济实现了平稳较快发展。

全年国内生产总值568845亿元，比上年增长7.7%。

其中第三产业增加值262204亿元，增长8.3%，其在国内生产总值中的占比达到了46.1%，首次超过第二产业。

经济的快速发展也带来了就业的持续增加，年末全国就业人员76977万人，其中城镇就业人员38240万人，全年城镇新增就业1310万人。

随着我国城镇化进程的不断加快，加之农业用地量的不断衰减，工业不断的转型升级，使得劳动力就业压力的缓解需要更多的依靠服务业的发展。

（一）指标选择根据指标选择的可行性、针对性、科学性等原则，分别从服务业的发展规模、发展结构、发展效益以及发展潜力等方面选择14个指标来衡量服务业的发展水平，指标体系如表1所示：表1 服务业发展水平指标体系（二）指标数据本次实验采用的数据是我国31个省（市、自治区）2012年的数据，原数据均来自《2013中国统计年鉴》以及2013年各省（市、自治区）统计年鉴，不能直接获得的指标数据是通过对相关原始数据的换算求得。

原始数据如表2所示：表2（续）二、实验步骤本次实验是在SPSS中分别利用系统聚类法和K均值法进行聚类分析，具体步骤如下：（一）系统聚类法⒈在SPSS窗口中选择Analyze—Classify—Hierachical Cluster,调出系统聚类分析主界面，将变量X1-X14移入Variables框中。

在Cluster栏中选择Cases单选按钮，即对样品进行聚类（若选择Variables，则对变量进行聚类）。

在Display栏中选择Statistics和Plots复选框，这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。

⒉点击Statistics按钮，设置在结果输出窗口中给出的聚类分析统计量。

这里选择系统默认值，点击Continue按钮，返回主界面。

⒊点击Plots按钮，设置结果输出窗口中给出的聚类分析统计图。

经济统计学中的聚类分析方法

经济统计学中的聚类分析方法聚类分析是一种常用的数据分析方法，它在经济统计学中有着广泛的应用。

聚类分析的目标是将一组数据划分为若干个相似的子集，每个子集内的数据相似度高，而不同子集之间的数据相似度低。

这种方法可以帮助经济学家发现数据中的规律和模式，从而更好地理解经济现象。

聚类分析的基本原理是通过计算数据点之间的相似度或距离来确定数据的分组。

常用的相似度度量方法包括欧氏距离、曼哈顿距离和余弦相似度等。

欧氏距离是最常用的相似度度量方法，它计算两个数据点之间的直线距离。

曼哈顿距离则是计算两个数据点在坐标轴上的距离之和。

余弦相似度是通过计算两个向量之间的夹角来度量它们的相似度。

在经济统计学中，聚类分析可以用于多个方面的研究。

首先，它可以帮助经济学家对经济发展水平进行分类。

通过对不同国家或地区的经济指标进行聚类分析，可以将它们划分为不同的发展水平组别。

这有助于我们了解不同地区的经济特点和发展趋势，为政府制定相关政策提供参考。

其次，聚类分析可以用于市场细分。

市场细分是指将一个大市场划分为若干个小市场，每个小市场具有相似的需求和行为特征。

通过对消费者的购买行为和偏好进行聚类分析，可以将消费者划分为不同的群体，从而更好地满足他们的需求。

这对企业来说是非常重要的，可以帮助它们制定更精准的市场营销策略。

此外，聚类分析还可以用于金融风险管理。

金融市场中的数据非常庞大复杂，通过对金融市场数据进行聚类分析，可以将相似的金融资产或交易划分为同一类别。

这有助于金融机构更好地评估风险和制定风险管理策略，从而提高金融市场的稳定性和安全性。

聚类分析方法还可以与其他经济统计学方法相结合，如主成分分析和因子分析。

主成分分析可以用于降维，将高维数据转化为低维数据，而聚类分析可以在降维后的数据上进行分组。

因子分析可以用于提取数据的主要因素，而聚类分析可以将具有相似因素的数据进行分组。

这些方法的结合可以更全面地分析经济数据，提高分析的准确性和可解释性。

中国区域经济发展环境分类研究——基于聚类和判别分析

境进行分类对比研究。
关键词：区域经济；发展环境指标体系；聚类分析；判别分析中图分类号：０１５Ｆ６．文献标识码：文章编号：１０Ａ０２—３２（０８０３１２０）２—０４０７—０６
一
、
研究背景
目前，在经济发展环境指标体系的研究方面，
Ｎｏ２２ｏ８．ｏ
Ｓｒｌ．８ｅａｉＮｏ４
中国区域经济发展环境分类研究
基于聚类和判别分析
傅丽萍，孙秋碧
（州大学管理学院，福福建福州
摘
３００）５１８
要：选取一组反映经济发展环境的指标，用聚类分析和判别分析相结合的方法，中国各地区经济发展环采对
作者简介：丽萍（９３一，，建光泽人，州大学管理学院硕士研究生；傅１８）女福福孙秋碧（９８），１５一女福建福州人，州大学管理学院教授，福经济学博士。
・
４・７
维普资讯
文章的具体分析数据主要来源于／０６年中｛０２国统计年鉴》并根据分析要求进行。人口密度数，据来自第五次全国人口普查资料。中国统计年鉴上缺少２００４年重庆市的耕地面积总资源（公千
一
重叠。为了简化问题的分析，下面对变量进行降维，提炼能够反映原始变量绝大部分信息的主成分。
０２ — ０
＿
００
＿
０
Ｏ０００

聚类分析与判别分析区别

ｉｊ
表示
：
ｃｏｓ
!
ｉｊ
＝
ｐ
ａ
＝
１
!
ｘ
ｉａ
ｘ
ｊａ
ｐ
ａ
＝
１
!
ｘ
２
・
ｐ
ａ
＝
１
!
ｘ
２
"
ｉａ
ｊａ
１
≤
ｃｏｓ
!
ｉｊ
≤
１
当
ｃｏｓ
!
ｉｊ
＝１
，
说明两个样品
ｘ
ｉ
与
ｘ
ｊ
完全相似
；
ｃｏｓ
!
ｉｊ
接
近
１
，
说
明
两
个
样
品
ｘ
ｉ
与
ｘ
ｊ
相
似
密
切
；
ｃｏｓ
!
ｉｊ
＝０
，
说明
ｘ
ｉ
与
ｘ
ｊ
完全不一样
；
ｃｏｓ
!
ｉｊ
接近
０
，
说
明
ｘ
ｉ
与
ｘ
ｊ
差别大。把所有两两样品的相似系数都
通过聚类分析可以达到简化数据的目的
，
将
众多的样品先聚集成比较好处理的几个类别或子
集
，
然后再进行后续的多元分析。
比如在回归分析
中
，
有时不对原始数据进行拟合
，
而是对这些子集
的中心作拟合
，
可能会更有意义。又比如
，
为了研
究不同消费者群体的消费行为特征
，

全国30市自治区经济发展水平综合评价——基于因子分析和聚类分析

全国30市自治区经济发展水平综合评价——基于因子分析和聚类分析近年来，我国经济发展迅速，全国各地区也呈现出不同程度的经济发展水平。

为了对全国30个市自治区的经济发展水平进行综合评价，基于因子分析和聚类分析的方法被广泛应用。

首先，我们通过因子分析的方法对数据进行降维和综合评价。

因子分析将多个变量综合为少数几个因子，并可以解释这些因子与原始变量之间的关系。

我们选择了GDP总量、人均GDP、产业结构、基础设施建设、外资吸引等指标作为评价经济发展水平的变量。

通过因子分析，我们可以得到几个综合指标，用于评价各个市自治区的经济发展水平。

接着，我们可以利用聚类分析的方法进行分类。

聚类分析是将样本划分为几个相似的类别，每个类别内的样本相似度高，而类别间的相似度较低。

我们可以通过聚类分析得到若干个类别，这些类别可以代表不同的经济发展水平。

通过将市自治区进行分类，可以更加直观地展示各地区之间的差异，也可以为地方政府提供参考。

最后，我们可以将因子分析和聚类分析的结果进行综合。

通过对因子得分和聚类结果的比较，可以得到更加准确的综合评价。

在综合评价的过程中，我们可以进一步分析各个市自治区的优势和劣势，以及存在的问题和潜在的发展机会。

这些分析结果可以为地方政府提供经济发展策略和政策的参考。

在实施全国30市自治区经济发展水平综合评价的过程中，我们需要充分考虑指标的选择和权重的确定。

指标的选择应当代表经济发展的各个方面，权重的确定应当根据实际情况和专家意见综合考虑。

另外，我们需要注意数据的可靠性和准确性，以及分析方法的合理性和可操作性。

总之，基于因子分析和聚类分析的方法可以对全国30市自治区的经济发展水平进行综合评价。

这种方法能够降低数据的维度，提取出关键的因子，并对样本进行分类。

通过综合分析和评价，可以为决策者提供参考，促进经济发展水平的提高。

聚类分析方法详细介绍和举例

聚类分析⽅法详细介绍和举例聚类分析例如：下表是1999年中国省、⾃治区的城市规模结构特征的⼀些数据，可通过聚类分析将这些省、⾃治区进⾏分类，具体过程如下：省、⾃治区⾸位城市规模（万⼈）城市⾸位度四城市指数基尼系数城市规模中位值（万⼈）京津冀699.70 1.4371 0.9364 0.7804 10.880 ⼭西179.46 1.8982 1.0006 0.5870 11.780 内蒙古111.13 1.4180 0.6772 0.5158 17.775 辽宁389.60 1.9182 0.8541 0.5762 26.320 吉林211.34 1.7880 1.0798 0.4569 19.705 ⿊龙江259.00 2.3059 0.3417 0.5076 23.480⼀、聚类分析的数据处理1、地理数据的对数变换：原始数据⾃然对数变换省、⾃治区⾸位城市规模（万⼈）城市⾸位度四城市指数基尼系数城市规模中位值（万⼈）⾸位城市规模（万⼈）城市⾸位度四城市指数基尼系数城市规模中位值（万⼈）京津冀699.7 1.4371 0.9364 0.7804 10.88 6.5507 0.3626 -0.0657 -0.2479 2.3869 ⼭西179.46 1.8982 1.0006 0.587 11.78 5.1900 0.6409 0.0006 -0.5327 2.4664 内蒙古111.13 1.418 0.6772 0.5158 17.775 4.7107 0.3492 -0.3898 -0.6620 2.8778 辽宁389.6 1.9182 0.8541 0.5762 26.32 5.9651 0.6514 -0.1577 -0.5513 3.2703 吉林211.34 1.788 1.0798 0.4569 19.705 5.3535 0.5811 0.0768 -0.7833 2.9809 ⿊龙江259 2.3059 0.3417 0.5076 23.48 5.5568 0.8355 -1.0738 -0.6781 3.1561 2、地理数据标准化：⾃然对数变换标准差标准化数据⾸位城市规模（万⼈）城市⾸位度四城市指数基尼系数城市规模中位值（万⼈）⾸位城市规模（万⼈）城市⾸位度四城市指数基尼系数城市规模中位值（万⼈）6.5507 0.3626 -0.0657 -0.2479 2.3869 1.5572 -1.1123 0.4753 1.7739 -1.30255.1900 0.6409 0.0006 -0.5327 2.4664 -0.5698 0.3795 0.6309 0.2335 -1.08204.7107 0.3492 -0.3898 -0.6620 2.8778 -1.3189 -1.1841 -0.2851 -0.4660 0.05935.9651 0.6514 -0.1577 -0.5513 3.2703 0.6419 0.4356 0.2594 0.1330 1.14835.3535 0.5811 0.0768 -0.7833 2.9809 -0.3142 0.0588 0.8096 -1.1218 0.34535.5568 0.8355 -1.0738 -0.6781 3.1561 0.0037 1.4225 -1.8900 -0.5526 0.8316⼆、采⽤欧⽒距离，求出欧式距离系数欧式距离系数表d1 d2 d3 d4 d5 d6 d1 0d2 1.3561 0d3 1.7735 1.0618 0d4 1.5479 1.1484 1.2891 0d5 1.7936 0.9027 0.9235 0.8460 0d6 2.2091 1.5525 1.5312 1.1464 1.4006 0三、最短距离法进⾏聚类分析如下：第⼀步：以欧式距离作为分类统计量，得出初始距离矩阵D（0）D(0)表G1 G2 G3 G4 G5 G2 1.3561G3 1.7735 1.0618G4 1.5479 1.1484 1.2891G5 1.7936 0.9027 0.9235 0.8460G6 2.2091 1.5525 1.5312 1.1464 1.4006第⼆步：在D（0）中，最⼩元素为D54=0.846，将G5与G4合并成⼀新类G7，G7={G5，G4},然后在计算新类G7与其它各类间的距离D7，1= min(d41,d51)=min(1.5479, 1.7936)= 1.5479D7，2= min(d42,d52) = min(1.1484,0.9027)= 0.9027D7，3= min(d43,d53) = min(1.2891, 0.9235)= 0.9235D7,6= min(d64,d65) = min(1.1464, 1.4006)= 1.1464第三步:作D （1）表，先从D(0)表中删除G4，G5类所在⾏列的所有元素，然后再把新计算出来的G7与其它类间的距离D71,D72,D73填到D （0）中，得D(I)表第四步：在D （1）中，最⼩元素为D72=0.9027，将G7与G2合并成⼀新类G8，G8={G2，G7}={G2，G4,G5},然后在计算新类G8与其它各类间的距离D8,1= min(d21,d71)= min(1.3561, 1.5479)= 1.3561 D8,3= min(d23,d73) = min(1.0618, 0.9235)= 0.9235 D8,6= min(d62,d76)= min(1.5525, 1.1464)= 1.1464第五步：作D （2）表，先从D(1)表中删除G2，G7类所在⾏列的所有元素，然后再把新计算出来的G8与其它类间的距离D81,D83,D86填到D （2）中，得D(2)表D （2）表G1 G3 G6 G3 1.7735 G6 2.2091 1.5312 G81.35610.92351.1464第六步：在D （2）中，最⼩元素为D38=0.9235，将G8与G3合并成⼀新类G9，G9={G3，G8},然后在计算新类G9与其它各类间的距离D9,1= min(d13,d18) = min(1.7735, 1.3561)= 1.3561 D9,6= min(d36,d86) = min(1.5312, 1.1464)= 1.1464第七步：作D （3）表，先从D(2)表中删除G3，G8类所在⾏列的所有元素，然后再把新计算出来的G9与其它类间的距离D91 ,D96填到D （3）中，得D(3)表第⼋步：在D （3）中，最⼩元素为D69= 1.1464，将G6与G9合并成⼀新类G10，G10={G6，G9},然后在计算新类G10与其它各类间的距离D10，1= min(d16,d69) = min(2.2091, 1.1464)= 1.1464第九步：作D （4）表，先从D(3)表中删除G6，G9类所在⾏列的所有元素，然后再把新计算出来的G10与其它类间的距离D10,1填到D （4）中，得D(4)表D （1）表G1 G2 G3G6G2 1.3561 G3 1.7735 1.0618 G6 2.2091 1.5525 1.5312 G71.54790.90270.9235 1.1464D （3）表G1 G6 G6 2.2091 G9 1.3561 1.1464D（4）表G1G10 1.1464G11={G10.G1}由此表可知，G10和G1类最后合成了⼀类，计算过程结束。

中国区域经济发展环境分类研究——基于聚类和判别分析

中国区域经济发展环境分类研究——基于聚类和判别分析随着中国经济的飞速发展，中国区域经济的研究变得越来越受到重视。

本文旨在研究中国区域经济发展环境分类问题，并采用聚类和判别分析方法进行分析。

一、研究背景经济学研究领域中，区域经济发展环境的分类是一个非常重要的研究课题。

在中国，由于地理位置、自然条件以及政策环境等因素的影响，各个地区的经济发展水平差异巨大。

因此，研究中国区域经济发展环境的分类问题对于制定针对性的政策和促进区域发展具有重要的意义。

二、研究方法本文采用聚类和判别分析方法对中国不同的经济发展环境进行分类研究。

1.聚类分析聚类分析是一种无监督学习方法，它可以将数据分为多个不同的类别，每个类别内部的数据相似度较高，不同类别之间的相似度较低。

本文采用聚类分析方法，将中国不同地区的经济发展环境进行划分。

2.判别分析判别分析是一种有监督学习方法，它可以将数据根据所属类别进行分类。

其基本思想是在将数据投影到一个新的空间中时，能够在新的空间分类的同时最大化类别之间的间隔。

本文采用判别分析方法，对聚类结果进行进一步的分类研究。

三、实证分析1.数据源本文采用的数据来自国家统计局公开数据，涵盖了中国不同地区的经济发展环境的各项指标，包括GDP、人均收入、工业产值等。

2.聚类分析结果本文采用Ward 法进行聚类分析，得到了3 个不同的类别，分别为东部沿海发达地区、中部发展中地区和西部欠发达地区。

这三个类别代表了不同的经济发展环境。

具体聚类结果如下：东部沿海发达地区：包括北京、上海、广东、浙江等地，这些地区经济发达，GDP 占全国的比重较高，人均收入较高，工业产值也比较大。

中部发展中地区：包括湖南、湖北、江西等地，这些地区的经济发展水平处于中等水平，GDP 占比较少，但是发展潜力较大。

西部欠发达地区：包括西藏、青海、甘肃等地，这些地区的经济发展水平相对较低，GDP 占比较少，人均收入较低，工业产值也比较小。

3.判别分析结果本文采用线性判别分析进行分类。

聚类分析与判别分析操作及案例

北京航空航天大学研究生课程《数理统计B》论文地区生产总值的聚类分析与判别分析姓名：***学号：SY*******授课教师：***日期：2011-1-2地区生产总值的聚类分析与判别分析姓名：王青云学号：SY1001243摘要：为了了解全国各地区的经济类型，需要对地区进行分类，可以利用社会科学统计软件包(简称SPSS)对地区经济情况进行聚类分析和判别分析。

该工作依据地区生产总值、第一产业、工业、建筑业、交通运仓储及邮电通讯业、批发零售贸易及餐饮业、金融保险业、房地产业八个指标对2009年全国31个省和直辖市的经济类型进行了聚类分析，将不同地区的经济类型划分类别；并随机抽取了北京、福建、山东三省进行判别分析。

关键词：经济类型，聚类分析，判别分析，SPSS一引言人们认识事物时往往先把被认识的对象进行分类，以便寻找其中同与不同的特征，因而分类学是人们认识世界的基础科学。

统计学中常用的分类统计方法主要是聚类分析与判别分析。

聚类分析是直接比较各事物之间的性质，将性质相近的归为一类，将性质差别较大的归入不同的类。

判别分析则先根据已知类别的事物的性质，利用某种技术建立函数式，然后对未知类别的新事物进行判断以将之归入已知的类别中。

聚类分析与判别分析有很大的不同，聚类分析事先并不知道对象类别的面貌，甚至连共有几个类别也不确定；判别分析事先已知对象的类别和类别数，它正是从这样的情形下总结出分类方法，用于对新对象的分类[1]。

二分析方法问题：根据地区各行业收入对全国各地区经济类型进行分类。

方法：先进行聚类分析，再进行判别分析，采用SPSS软件进行。

2009年全国31个省市的地区总产值、第一产业、工业、建筑业、交通运仓储及邮电通讯业、批发零售贸易及餐饮业、金融保险业、房地产业、其他行业表1所示[2]。

2.1聚类分析（1）在SPSS数据编辑窗口中输入表1中数据：表1 2009年地区生产收入地区地区生第一第二产业第三产业工业建筑业交通运输和邮政业批发和零售业住宿和餐饮业金融业房地产业其他北京12153.03118.292303.08552.47556.641525.03262.511603.631062.474168.91天津7521.85128.853622.11365.73471.01836.84131.84461.2308.731195.54河北17235.482207.347983.86975.971491.921157.8247.14525.67612.42033.38山西7358.31477.593518.88474.92523.38557.86203.58361.64173.311067.15内蒙古9740.25929.64503.33610.67773.29915.89294.73291.1286.651134.99辽宁15212.491414.96925.63980.71790.561410.33318.8560.2605.272206.09吉林7278.75980.573054.6487.32341.76673.12157.73180.83200.141202.68黑龙江85871154.333549.73510.99433.55757.36211227.54301.181441.32上海15046.45113.825408.75593.03635.012183.85238.361804.281237.562831.79江苏34457.32261.8616464.942101.431423.253579.81678.361596.982025.394325.28浙江22990.351163.0810518.211390.28888.022119.39416.841899.331316.833278.36安徽10062.821495.454064.72840.5467.92733.19157.14359.6497.941446.36福建12236.531182.745106.38898.92751.421043.42235.98612.2656.611748.86江西7655.181098.663196.56722.89394.9553.89167.59165.1305.91049.69山东33896.653226.6416896.142005.691742.333106.24594.51044.91329.593950.63河南19480.462769.059900.271110.23823.571057.81526.51499.92622.982170.12湖北12961.11795.95183.68854.4642.72979.14337.81479.11546.112142.23湖南13059.691969.694819.4867.79704.831221.2304.93402.57400.112369.17广东39482.562010.2718091.561328.141595.343907.43945.762283.292470.636850.14广西7759.161458.492863.84517.7378.75551.14208336.82348.981095.45海南1654.21462.19300.63142.888.68168.7560.2265.73121.76243.45重庆6530.01606.82917.4531.37347.98524.36132.88389.97229.09850.16四川14151.282240.615678.241033.63520.71868.98405.45524.63548.142330.89贵州3912.68550.271252.67223.95399.77293.53153.41194.44136.15708.49云南6169.751067.62088.17494.36179.45571.03162.1351.74205.141050.16西藏441.3663.8833.11103.5221.1927.0614.723.1713.28141.45陕西8169.8789.643501.25735.17423.24707.39175.01336.21239.921261.97甘肃3387.56497.051203.7323.54213.64231.2188.5288.27101.37640.26青海1081.27107.4470.3310549.3266.1314.5445.6323.05199.87宁夏1353.31127.25520.38141.94114.7774.5225.5975.5447.56225.76新疆4277.05759.741555.84373.75209.095253.662.25198.87115.23748.67（2）定义聚类类型：在“Analyze”菜单“Classify”中选择Hierarchical命令，在弹出的Hierarchical Cluster Analysis 对话框中，从对话框左侧的变量列表中选择地区变量，使之添加到Lable Cases by框中，同样将指标第一产业，工业，建筑业，交通运仓储及邮电通讯业，批发零售贸易及餐饮业，金融保险业，房地产业，其他行业添加到Variable（s）框中。

主成分分析与聚类分析和判别分析

实验三主成分分析、聚类分析和判别分析学院：地理科学学院专业：自然地理学姓名：郭国洋实验内容（1）中国31个省份、直辖市、自治区（不包括港澳台）经济状况的7项指标。

（2）用主成分分析剖析出影响中国大陆经济状况的主要指标，并对中国大陆的经济综合实力进行排序。

（3）用主成分剖析出的指标，用聚类分析对中国大陆的经济状况进行评价，并对每类的经济综合状况进行评价。

（4）结合本题，谈谈聚类分析和主成分分析两种方法如何结合使用来分析问题。

实验目的（1）巩固主成分和聚类分析的基本原理和方法步骤以及在实际分析中的意义。

（2）用SPSS软件完成地理的主成分分析和聚类分析。

第一部分主成分分析1 实验数据查阅2012年中国统计年鉴，数据表示2011年的指标。

得到中国31个省份、直辖市、自治区（不含港澳台）的7项经济统计指标数据，包括：总人口/10^4人，城镇人口比例/%，第一产业总产值/10^8元，工业生产总值/10^8元，公共财政预算收入/10^8元，城乡居民储蓄余额/10^8元，城镇单位就业人员工资总额/10^8元。

样本容量：31，变量：7，如图1。

2 实验步骤及分析（1）点击“分析”—“降维”—“因子分析”，将上述的7个指标选择为变量。

SPSS中的“主成分分析”嵌入到“因子分析”中，因此在操作的过程中我们要先进行因子分析。

如2。

图2 选择因子分析变量（2）依次点击“因子分析”框中的“描述”、“抽取”、“旋转”、“得分”、“选项”，勾选相应的选项，如图3、4、5、6、7所示图3抽取图4 旋转图4描述统计图5因子得分图6选项图7旋转（3）点击“确定”，得到相应的结果并分析。

图8 KMO和Bartlett检验分析：图8中，在进行因子分析之前，需要检验变量之间是否具备进行分析的条件。

由图中可知KMO值为0.787>0.5，说明数据变量之间具有结构效度，Sig<0.05，说明可以进行因子分析。

图9 公因子方差分析：图9是指全部公共因子对于变量的总方差做所的贡献，说明了全部公共因子反映出的原变量的信息的百分比。

全国各省经济的聚类分析及判别分析

全国各省经济的聚类分析摘要 (2)引言 (2)一聚类分析 (2)二聚类分析的优点 (2)三聚类分析相比较于其他分析方法而言 (2)实验方案 (3)1.1数据统计 (3)1.2聚类分析 (3)表1 (4)2结果分析与讨论 (5)表2 (5)表3 (6)表4 (6)表5 (7)图1 (8)总结 (8)小结 (9)参考文献 (9)摘要：改革开放以来,中国各省市在经济发展方面都取得了显著的成绩。

这篇论文利用SPSS软件对全国31个省、直辖市、自治区(浙江、湖南、甘肃除外)的主要经济指标进行聚类分析，将其经济分成4种类型，并对浙江、湖南、甘肃进行类型判别分析。

通过这两个方法对全国各省进行经济分类。

本文选取了7项经济指标作为决定经济类型的影响因素，各项数据均来自2010年国家统计年鉴。

分析结果表明：北京市和上海市为第一类经济类型；江苏省和山东省为第三类型；广东省为第四类经济；其他25个省、直辖市、自治区均属于第二类型。

关键词：聚类分析、经济类型引言：一聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。

聚类分析区别于分类分析(classification analysis) ，后者是有监督的学习。

它直接比较各事物之间的性质，将性质相近的归为一类，将性质差别较大的归入不同的类。

系统聚类分析又称集群分析，是聚类分析中应用最广的一种方法，它根据样本的多指标（变量）、多个观察数据，定量地确定样品、指标之间存在的相似性或亲疏关系，并据此连结这些样品或指标，归成大小类群，构成分类树状图或冰柱图。

二聚类分析的优点:聚类分析简单、直观;主要应用于探索性的研究，其分析的结果可以提供多个可能的解，选择最终的解需要研究者的主观判断和后续的分析；不管实际数据中是否真正存在不同的类别，利用聚类分析都能得到分成若干类别的解；聚类分析的解完全依赖于研究者所选择的聚类变量，增加或删除一些变量对最终的解都可能产生实质性的影响。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

全国各省经济的聚类分析及判别分析唐鹏钧(DY1001109)摘要：利用SPSS软件对全国31个省、直辖市、自治区(浙江、湖南、甘肃除外)的主要经济指标进行聚类分析，将其经济分成4种类型，并对浙江、湖南、甘肃进行类型判别分析。

通过这两个方法对全国各省进行经济分类。

本文选取了7项经济指标作为决定经济类型的影响因素，各项数据均来自2010年国家统计年鉴。

分析结果表明：北京市和上海市为第一类经济类型；江苏省和山东省为第三类型；广东省为第四类经济；其他25个省、直辖市、自治区均属于第二类型。

关键词：聚类分析、判别分析、经济类型0引言聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。

它直接比较各事物之间的性质，将性质相近的归为一类，将性质差别较大的归入不同的类。

判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类，从而对事物进行判别分类的统计方法。

判别分析适用于已经掌握了历史上分类的每一个类别的若干样品，希望根据这些历史的经验（样品），总结出分类的规律性（判别函数）来指导未来的分类。

聚类分析与判别分析都是研究分类的，但是它们有所区别：(1)聚类分析一般寻求客观的分类方法，在进行聚类分析以前，对总体到底有几种类型并不知道。

判别分析则是在总体类型划分已知，在各总体分布或来自总体训练样本的基础上，对当前的新样本判定它们属于哪个总体。

(2)两类方法的建立的模型不一样，因此在处理某些特定的问题时，就会得出不一样的结果，就本题看来，出现了经济类型上的判别不一致的细微差异，但是作为分类方法来说，两种方法在大部分情况下都能取得一致的效果。

(3)聚类分析与判别分析也是有联系的。

如我们对研究的多元数据的特征不熟悉，当然要先进行聚类分析，才能考虑判别分析的问题。

随着改革开放的进行，我国进入了一个前所未有的经济飞速发展时期，整体经济实力与日俱增。

但是，我们也应该看到各个地区的发展不平衡，沿海地区发展较快，经济增长也较快，而中西部发展相对较慢。

因此，基于这种现状，本文对全国各地区的经济进行聚类分析。

首先对除浙江、湖南、甘肃三省的其他各省经济进行聚类，然后对浙江、湖南、甘肃三省的经济类型进行判别分析。

通过本文的分析研究，可以清楚地认识到我国经济类型构成，以及各地区的发展差异，最终对国家以及各地区的发展及政策制定实施起到指导作用。

本文采用多元统计分析方法，对全国31个省、直辖市、自治区的7项经济指标进行聚类分析和判别分析，从而能够比较客观地反映了当前各地区的经济类型。

1实验方案1.1数据统计本文根据2010年国家统计年鉴，选取了2009年31个省、直辖市、自治区的7项经济指标[1]，如表1所示。

其中包括：各省的国内生产总值X1、农业生产总值X2、工业生产总值X3、建筑业生产总值X4、进出口总值X5、批发企业销售额X6和餐饮业X7。

1.2聚类分析将表1所示的31个省、直辖市、自治区(除浙江、湖南和甘肃) 2009年的各项数据导入SPSS。

为了便于分析，在聚类分析前，先对数据进行标准差标准化处理，其过程为：“Analyze→Descriptive Statistics→Descriptives…”，然后对标准差标准化后的数据进行聚类分析(Hierarchical Cluster Analysis)。

其过程为：依次选择“Analyze→Classify→Hierarchical Cluster”，引入的变量是X1至X7。

从而对样品(个案)进行聚类，即Q型聚类分析(对研究对象本身分类)。

聚类方法使用Between-groups linkage(类间平均链锁法)，距离测量技术选择Squared Euclidean distance(Euclidean距离平方，即两观察单位间的距离为其值差的平方和，该技术用于Q型聚类)。

最终得出聚类分析结果。

值得注意的是本文选择的聚类类型共分4类。

表1 2009年我国31个省、直辖市、自治区的各项经济指标数据统计单位：亿元地区国内生产总值(X1)农业生产总值(X2)工业生产总值(X3)建筑业生产总值(X4)进出口总值(X5)批发企业销售额(X6)餐饮业(X7)北京12153.03 315.0 11039.13 34297216 5334148 22558.0 341.7 天津7521.85 281.7 13083.63 15641917 4488051 8599.5 62.6 河北17235.48 3640.9 24062.76 23328055 134**** ****.6 26.5 山西7358.31 908.7 9249.98 16501463 163150 2705.0 44.9 内蒙古9740.25 1570.6 10699.44 9129264 108694 1487.6 41.1 辽宁15212.49 2704.6 28152.73 28557785 3076882 6428.7 93.3 吉林7278.75 1734.3 10026.55 10241235 555747 1049.4 18.2 黑龙江8587.00 2251.1 7301.60 12351015 78345 2028.3 27.4 上海15046.45 283.2 24091.26 32476545 18670215 20170.8 292.6 江苏34457.30 3816.0 73200.03 89289353 25969712 15364.8 205.2 浙江22990.35 1873.4 41035.29 88614109 6929148 13888.0 166.5 安徽10062.82 2569.5 13312.59 19598071 523140 2937.0 41.2 福建12236.53 2001.2 16762.82 19415838 4377455 4617.1 80.5 江西7655.18 1733.8 9783.96 11853294 770607 1002.8 24.7 山东33896.65 6003.1 71209.42 40516317 7559835 7584.4 262.6 河南19480.46 4871.5 27708.15 32201197 376612 3083.0 98.7 湖北12961.10 2985.2 15567.02 30468409 703772 4259.0 81.4 湖南13059.69 3207.9 13507.64 23234734 182177 1643.9 65.3 广东39482.56 3337.6 68275.77 29806043 38241318 18599.1 384.4 广西7759.16 2377.2 6880.04 8758730 367765 1464.0 17.6 海南1654.21 705.0 1057.45 1366053 301396 517.5 8.4 重庆6530.01 913.1 6772.90 17524046 295047 2864.0 73.7 四川14151.28 3689.8 18071.68 29003710 936469 2570.6 94.2 贵州3912.68 875.2 3426.69 5060158 18647 825.8 9.5 云南6169.75 1706.2 5197.45 10774227 43593 2591.0 17.0 西藏441.36 93.4 51.60 910274 99 33.2 0.4 陕西8169.80 1337.2 8470.40 22052762 252626 1956.2 76.1 甘肃3387.56 876.3 3770.38 5243473 10693 1205.8 12.8 青海1081.27 157.3 1080.35 1848156 19432 184.2 2.6 宁夏1353.31 243.5 1461.58 2323586 22142 373.6 8.0 新疆4277.05 1297.6 4001.12 7258850 27362 2511.8 7.01.3判别分析选择SPSS→Analyze→Classify→Discriminant Analysis，定义分类结果为指标变量X8，采用自变量全进入模型来进行判别分析，由于在聚类分析中将全国各省、直辖市的经济类型分为四类，因此其取值范围为1～4。

2结果分析与讨论2.1聚类分析通过SPSS对数据进行标准差标准化，结果如表2所示。

从表中的方差结果可以看出，由于方差的数值很大，所以各地区的差异还是相当大的，这也说明各地区发展的不平衡。

表2 Descriptive Statistics再对标准差标准化后的数据进行聚类分析，结果如表3、4所示。

表3显示，进行聚类分析的只有28个省、直辖市、自治区。

采用的是组间聚类。

表3 Case Processing Summary(a)a Average Linkage (Between Groups)表4说明整个聚类分析过程共进行了27步，而且每一步的合并也有清楚地显示。

通过该表，可以详细地了解每一步的聚类过程。

表4 Agglomeration Schedule表5显示了28个省、直辖市、自治区在这4种类型中的分布情况。

结果为：第一类：北京市、上海市(2个)第二类：天津市、河北省、山西省、内蒙古、辽宁省、吉林省、黑龙江省、安徽省、福建省、江西省、河南省、湖北省、广西省、海南省、重庆市、四川省、贵州省、云南省、西藏、陕西省、青海省、宁夏、新疆(23个)第三类：江苏省、山东省(2个)第四类：广东省(1个)表5 Cluster MembershipCase 4 Clusters Case 4 Clusters1 1 15 22 2 16 23 2 17 44 2 18 25 2 19 26 2 20 27 2 21 28 2 22 29 1 23 210 3 24 211 2 25 212 2 26 213 2 27 214 3 28 2图1 聚类分析谱系图从图1可以直观地看出各个省、直辖市、自治区之间的相似程度，聚类的先后顺序，将表4所表达的聚类过程更直观地展现出来。

2.2判别分析首先对初始数据进行标准差标准化处理，结果如表6所示。

表6 Descriptive Statistics表7 Analysis Case Processing Summary表7显示了浙江、湖南和甘肃三省为判别分析的对象。