表是年中国省自治区的城市规模结构特征的一些数据试通过聚类

合集下载

各省份发展水平的主成分及聚类分析

各省份发展水平的主成分及聚类分析

各省份发展水平的主成分及聚类分析运用数理统计方法对全国29个省份的综合发展水平进行综合评价,建立评价指标体系,运用主成分方法对原始数据进行数学处理,得出省份综合发展水平的综合指标,再用聚类分析方法进行指标聚类分析,找出影响城市发展的主要因素,并对如何提高城市发展提出合理性建议。

标签:主成分分析;聚类分析;综合发展引言如今,一句“你幸福吗?”已是全中国老百姓最常被问到的话题,然而现在人们的幸福感已经不单单是几十年前的吃得饱、穿得暖,人们对待幸福的定义更加注重于民生,医疗、教育、经济、环境、食品等等,已成为人们判定幸福的新标准。

据统计,浙江杭州连续7年蝉联“最幸福感城市”桂冠,其次是成都、长沙,相反对于中国的顶级城市上海和北京却很少入围,近10年中仅一次入围“最幸福感城市”,因此一个城市发展得好坏已从从前单一的经济时期过渡到了如今的综合发展阶段,为全面具体地了解一个省份的发展水平,现我们将从6个方面来综合地分析全国29个省份的综合发展情况,并根据得出的客观结果提出可行性建议。

一、方法介绍(一)主成分分析主成分分析也称主分量分析,旨在利用降维的思想,是把多指标转化为少数几个综合指标的一种多元统计分析方法。

在用统计分析方法研究多变量的课题时,变量个数太多会增加课题的复杂性,因此,人们自然希望用较少的综合变量来代替。

在很多情形下,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。

主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息[1]。

主成分分析是设法将原来众多具有一定相关性的(比如p个)指标,重新组合成一组新的互相无关的综合指标来代替原来的指标。

通常数学上的处理就是将原来p个指标做线性组合,作为新的综合指标。

最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。

聚类分析MATLAB

聚类分析MATLAB

聚类分析MATLAB§8.利⽤Matlab和SPSS软件实现聚类分析1. ⽤Matlab编程实现运⽤Matlab中的⼀些基本矩阵计算⽅法,通过⾃⼰编程实现聚类算法,在此只讨论根据最短距离规则聚类的⽅法。

调⽤函数:min1.m——求矩阵最⼩值,返回最⼩值所在⾏和列以及值的⼤⼩min2.m——⽐较两数⼤⼩,返回较⼩值std1.m——⽤极差标准化法标准化矩阵ds1.m——⽤绝对值距离法求距离矩阵cluster.m——应⽤最短距离聚类法进⾏聚类分析print1.m——调⽤各⼦函数,显⽰聚类结果聚类分析算法假设距离矩阵为vector,a阶,矩阵中最⼤值为max,令矩阵上三⾓元素等于max聚类次数=a-1,以下步骤作a-1次循环:求改变后矩阵的阶数,计作c求矩阵最⼩值,返回最⼩值所在⾏e和列f以及值的⼤⼩gfor l=1:c,为vector(c+1,l)赋值,产⽣新类令第c+1列元素,第e⾏和第f⾏所有元素为,第e列和第f列所有元素为max源程序如下:%std1.m,⽤极差标准化法标准化矩阵function std=std1(vector)max=max(vector); %对列求最⼤值min=min(vector);[a,b]=size(vector); %矩阵⼤⼩,a为⾏数,b为列数for i=1:afor j=1:bstd(i,j)= (vector(i,j)-min(j))/(max(j)-min(j));endend%ds1.m,⽤绝对值法求距离function d=ds1(vector);[a,b]=size(vector);d=zeros(a);for i=1:afor j=1:afor k=1:bd(i,j)=d(i,j)+abs(vector(i,k)-vector(j,k));endendendfprintf('绝对值距离矩阵如下:\n');disp(d)%min1.m,求矩阵中最⼩值,并返回⾏列数及其值function [v1,v2,v3]=min1(vector);%v1为⾏数,v2为列数,v3为其值[v,v2]=min(min(vector'));[v,v1]=min(min(vector));v3=min(min(vector));%min2.m,⽐较两数⼤⼩,返回较⼩的值function v1=min(v2,v3);if v2>v3v1=v3;elsev1=v2;end%cluster.m,最短距离聚类法function result=cluster(vector);[a,b]=size(vector);max=max(max(vector));for i=1:afor j=i:bvector(i,j)=max;endend;for k=1:(b-1)[c,d]=size(vector);fprintf('第%g次聚类:\n',k);[e,f,g]=min1(vector);fprintf('最⼩值=%g,将第%g区和第%g区并为⼀类,记作G%g\n\n',g,e,f,c+1); for l=1:cif l<=min2(e,f)vector(c+1,l)=min2(vector(e,l),vector(f,l));elsevector(c+1,l)=min2(vector(l,e),vector(l,f));endend;vector(1:c+1,c+1)=max;vector(1:c+1,e)=max;vector(1:c+1,f)=max;vector(e,1:c+1)=max;vector(f,1:c+1)=max;end%print1,调⽤各⼦函数function print=print1(filename,a,b); %a为地区个数,b为指标数fid=fopen(filename,'r')vector=fscanf(fid,'%g',[a b]);fprintf('标准化结果如下:\n')v1=std1(vector)v2=ds1(v1);cluster(v2);%输出结果print1('fname',9,7)2.直接调⽤Matlab函数实现2.1调⽤函数层次聚类法(Hierarchical Clustering)的计算步骤:①计算n个样本两两间的距离{d ij},记D②构造n个类,每个类只包含⼀个样本;③合并距离最近的两类为⼀新类;④计算新类与当前各类的距离;若类的个数等于1,转到5);否则回3);⑤画聚类图;⑥决定类的个数和类;Matlab软件对系统聚类法的实现(调⽤函数说明):cluster 从连接输出(linkage)中创建聚类clusterdata 从数据集合(x)中创建聚类dendrogram 画系统树状图linkage 连接数据集中的⽬标为⼆元群的层次树pdist 计算数据集合中两两元素间的距离(向量) squareform 将距离的输出向量形式定格为矩阵形式zscore 对数据矩阵 X 进⾏标准化处理各种命令解释1、T = clusterdata(X, cutoff)其中X为数据矩阵,cutoff是创建聚类的临界值。

Matlab回归分析

Matlab回归分析

1、 考察温度x 对产量y 的影响,测得下列10组数据:求y 关于x 的线性回归方程,检验回归效果是否显著,并预测x=42℃时产量的估值及预测区间(置信度95%).x=[20:5:65]'; Y=[ ]'; X=[ones(10,1) x]; plot(x,Y ,'r*');[b,bint,r,rint,stats]=regress(Y ,X); b,bint,stats;rcoplot(r,rint) %残差分析,作残差图 结果: b = bint = stats =即01ˆˆ9.1212,0.2230ββ==;0ˆβ的置信区间为[8.0211,10.2214]1ˆβ的置信区间为[0.1985,0.2476]; 2r = , F=, p= ,p<, 可知回归模型 y=+ 成立.将x=42带入得到.从残差图可以看出,所有数据的残差离零点均较近,且残差的置信区间均包含零点,这说明回归模型y=+能较好的符合原始数据。

2某零件上有一段曲线,为了在程序控制机床上加工这一零件,需要求这段曲线的解析表达式,在曲线横坐标xi处测得纵坐标yi共11对数据如下:求这段曲线的纵坐标y关于横坐标x的二次多项式回归方程。

t=0:2:20;s=[ ];T=[ones(11,1) ,t',(t.^2)'];[b,bint,r,rint,stats]=regress(s',T);b,stats;Y=polyconf(p,t,S)plot(t,s,'k+',t,Y,'r') %预测及作图b =stats =+04 *2ˆ 1.01050.19710.1403 =++s t t 图形为:3混凝土的抗压强度随养护时间的延长而增加,现将一批混凝土作成12个试块,记录了养护日期x (日)及抗压强度y (kg/cm2)的数据:试求ˆln ya b x =+型回归方程。

全国30省市自治区经济发展水平综合评价——基于因子分析和聚类分析

全国30省市自治区经济发展水平综合评价——基于因子分析和聚类分析

全国30省市自治区经济发展水平综合评价——基于因子分析和聚类分析王喆[摘要] 衡量一个地区的经济发展程度,要从其生产、消费等各个方面进行综合评价。

本文基于全国30省市自治区的GDP、CPI等8个经济指标的数据,应用因子分析的方法对其经济发展水平进行了排名和聚类分析的方法将其分为一线、二线、三线地区。

根据排名及分类结果,本文对各类地区的经济发展状况进行了全面评价,并提出了相关建议。

[关键词]因子分析;聚类分析;经济发展;综合评价一、数据背景1.变量选取本文选取了国民生产总值、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品价格指数、工业总产值等8个指标进行量化评价我国30个省、市、自治区(不包括重庆、香港、澳门、台湾)的经济发展水平状况。

二、数据描述1.描述统计本文计算了各变量的极大值、极小值、均值、标准差等指标(表1),计算结果表明,各变量均不存在缺失值,数据的完整性较好。

各地区的的居民消费价格指数、商品价格指数这两个指标差异不大,但是其他指标的差异很明显,这也符合我国经济发展不平衡、地区差异显著的特点。

表1 各变量的一般统计量描述表2.相关性分析根据各变量的经济含义,许多变量之间应该存在高度相关,为了更好的看出各变量的相关关系,本文计算了各变量之间的Pearson相关系数及相关的显著性检验(表2)。

结果表明,许多变量之间存在较强的相关关系,比如国民生产总值与固定资产投资之间的相关系数高达0.951,居民消费价格指数与商品价格指数之间的相关系数高达0.763。

**表示在0.01 水平(双侧)上显著相关。

*表示在0.05 水平(双侧)上显著相关。

三、因子分析1.KMO 和 Bartlett 的检验做因子分析之前,首先要进行KMO检验或Bartlett检验,只有当检验通过之后才能进行因子分析,一般认为KMO检验的结果大于0.5或Bartlett检验通过即适合进行因子分析。

聚类分析方法详细介绍和举例

聚类分析方法详细介绍和举例

聚类分析⽅法详细介绍和举例聚类分析例如:下表是1999年中国省、⾃治区的城市规模结构特征的⼀些数据,可通过聚类分析将这些省、⾃治区进⾏分类,具体过程如下:省、⾃治区⾸位城市规模(万⼈)城市⾸位度四城市指数基尼系数城市规模中位值(万⼈)京津冀699.70 1.4371 0.9364 0.7804 10.880 ⼭西179.46 1.8982 1.0006 0.5870 11.780 内蒙古111.13 1.4180 0.6772 0.5158 17.775 辽宁389.60 1.9182 0.8541 0.5762 26.320 吉林211.34 1.7880 1.0798 0.4569 19.705 ⿊龙江259.00 2.3059 0.3417 0.5076 23.480⼀、聚类分析的数据处理1、地理数据的对数变换:原始数据⾃然对数变换省、⾃治区⾸位城市规模(万⼈)城市⾸位度四城市指数基尼系数城市规模中位值(万⼈)⾸位城市规模(万⼈)城市⾸位度四城市指数基尼系数城市规模中位值(万⼈)京津冀699.7 1.4371 0.9364 0.7804 10.88 6.5507 0.3626 -0.0657 -0.2479 2.3869 ⼭西179.46 1.8982 1.0006 0.587 11.78 5.1900 0.6409 0.0006 -0.5327 2.4664 内蒙古111.13 1.418 0.6772 0.5158 17.775 4.7107 0.3492 -0.3898 -0.6620 2.8778 辽宁389.6 1.9182 0.8541 0.5762 26.32 5.9651 0.6514 -0.1577 -0.5513 3.2703 吉林211.34 1.788 1.0798 0.4569 19.705 5.3535 0.5811 0.0768 -0.7833 2.9809 ⿊龙江259 2.3059 0.3417 0.5076 23.48 5.5568 0.8355 -1.0738 -0.6781 3.1561 2、地理数据标准化:⾃然对数变换标准差标准化数据⾸位城市规模(万⼈)城市⾸位度四城市指数基尼系数城市规模中位值(万⼈)⾸位城市规模(万⼈)城市⾸位度四城市指数基尼系数城市规模中位值(万⼈)6.5507 0.3626 -0.0657 -0.2479 2.3869 1.5572 -1.1123 0.4753 1.7739 -1.30255.1900 0.6409 0.0006 -0.5327 2.4664 -0.5698 0.3795 0.6309 0.2335 -1.08204.7107 0.3492 -0.3898 -0.6620 2.8778 -1.3189 -1.1841 -0.2851 -0.4660 0.05935.9651 0.6514 -0.1577 -0.5513 3.2703 0.6419 0.4356 0.2594 0.1330 1.14835.3535 0.5811 0.0768 -0.7833 2.9809 -0.3142 0.0588 0.8096 -1.1218 0.34535.5568 0.8355 -1.0738 -0.6781 3.1561 0.0037 1.4225 -1.8900 -0.5526 0.8316⼆、采⽤欧⽒距离,求出欧式距离系数欧式距离系数表d1 d2 d3 d4 d5 d6 d1 0d2 1.3561 0d3 1.7735 1.0618 0d4 1.5479 1.1484 1.2891 0d5 1.7936 0.9027 0.9235 0.8460 0d6 2.2091 1.5525 1.5312 1.1464 1.4006 0三、最短距离法进⾏聚类分析如下:第⼀步:以欧式距离作为分类统计量,得出初始距离矩阵D(0)D(0)表G1 G2 G3 G4 G5 G2 1.3561G3 1.7735 1.0618G4 1.5479 1.1484 1.2891G5 1.7936 0.9027 0.9235 0.8460G6 2.2091 1.5525 1.5312 1.1464 1.4006第⼆步:在D(0)中,最⼩元素为D54=0.846,将G5与G4合并成⼀新类G7,G7={G5,G4},然后在计算新类G7与其它各类间的距离D7,1= min(d41,d51)=min(1.5479, 1.7936)= 1.5479D7,2= min(d42,d52) = min(1.1484,0.9027)= 0.9027D7,3= min(d43,d53) = min(1.2891, 0.9235)= 0.9235D7,6= min(d64,d65) = min(1.1464, 1.4006)= 1.1464第三步:作D (1)表,先从D(0)表中删除G4,G5类所在⾏列的所有元素,然后再把新计算出来的G7与其它类间的距离D71,D72,D73填到D (0)中,得D(I)表第四步:在D (1)中,最⼩元素为D72=0.9027,将G7与G2合并成⼀新类G8,G8={G2,G7}={G2,G4,G5},然后在计算新类G8与其它各类间的距离D8,1= min(d21,d71)= min(1.3561, 1.5479)= 1.3561 D8,3= min(d23,d73) = min(1.0618, 0.9235)= 0.9235 D8,6= min(d62,d76)= min(1.5525, 1.1464)= 1.1464第五步:作D (2)表,先从D(1)表中删除G2,G7类所在⾏列的所有元素,然后再把新计算出来的G8与其它类间的距离D81,D83,D86填到D (2)中,得D(2)表D (2)表G1 G3 G6 G3 1.7735 G6 2.2091 1.5312 G81.35610.92351.1464第六步:在D (2)中,最⼩元素为D38=0.9235,将G8与G3合并成⼀新类G9,G9={G3,G8},然后在计算新类G9与其它各类间的距离D9,1= min(d13,d18) = min(1.7735, 1.3561)= 1.3561 D9,6= min(d36,d86) = min(1.5312, 1.1464)= 1.1464第七步:作D (3)表,先从D(2)表中删除G3,G8类所在⾏列的所有元素,然后再把新计算出来的G9与其它类间的距离D91 ,D96填到D (3)中,得D(3)表第⼋步:在D (3)中,最⼩元素为D69= 1.1464,将G6与G9合并成⼀新类G10,G10={G6,G9},然后在计算新类G10与其它各类间的距离D10,1= min(d16,d69) = min(2.2091, 1.1464)= 1.1464第九步:作D (4)表,先从D(3)表中删除G6,G9类所在⾏列的所有元素,然后再把新计算出来的G10与其它类间的距离D10,1填到D (4)中,得D(4)表D (1)表G1 G2 G3G6G2 1.3561 G3 1.7735 1.0618 G6 2.2091 1.5525 1.5312 G71.54790.90270.9235 1.1464D (3)表G1 G6 G6 2.2091 G9 1.3561 1.1464D(4)表G1G10 1.1464G11={G10.G1}由此表可知,G10和G1类最后合成了⼀类,计算过程结束。

各省市经济类型聚类分析

各省市经济类型聚类分析

各省市经济类型分析SY0906611 陆启超判别分析(Discriminate)和聚类分析(Hierarchical Cluster)是进行统计分类的两种常用方法,本文利用这两种方法对于全国几个省市的按经济类和经济状况进行分类,并制定一定的分类规则(即判别函数),以便对于新加的样品能够按照这些规则进行很快的分类。

一个省市的经济类型和地区生产总值、三种产业在国内生产总值占的比重等因素相关。

本文利用统计软件SPSS对全国各省市以上各方面2007年的统计数据进行聚类分析,得到了对各省市经济类型的分类结果,并通过验证三个特殊省份的经济类型,保证结果的正确性。

分析结果反映了这些省市的经济类型和经济特点。

关键字:聚类分析判别分析经济类型MATLAB中国经济在总体上发展迅速,但是区域发展不平衡的矛盾也日益突出,各地区由于各种因素经济类型呈现出巨大差异。

英国经济统计学家C.G.Clark在1940年发表的《经济进步的条件》中,从若干国家经济统计数据中证明了随着经济的发展,人口的就业结构亦将发生相应变化。

美国著名经济学家S.Kuznetz又对产业结构与经济发展的关系作了更深入的研究,在《现代经济增长》和《各国经济增长的数量分析》中指出经济的发展也必将引起产值结构的变化。

1聚类分析方法简介聚类分析的基本思想是,从一批样品的多个观测指标变量中,定义能度量样品间相似程度的统计量,在此基础上求出各个样品之间的相似程度的度量值,按相似程度的大小,将样品逐一归类,关系密切的聚集到一个小的分类单位,关系疏远的聚集到一个大的分类单位,直到所有的样品都聚集完毕,把不同类型一一划分出来,形成一个亲疏关系谱系图,用以更加直观的显示分类对象的差异和联系。

聚类分析的原则是同一类中的个体有较大的相似性,不同类的个体差异很大。

根据分类对象不同,聚类分析分为样本聚类和变量聚类,即统计学上的Q 型聚类和R型聚类。

常见的聚类分析方法有快速样本聚类和分层聚类。

聚类分析-全国各省经济

聚类分析-全国各省经济

全国各省经济的聚类分析聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。

它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。

系统聚类分析又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量)、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图。

判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。

判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。

聚类分析与判别分析都是研究分类的,但是它们有所区别:(1)聚类分析一般寻求客观的分类方法,在进行聚类分析以前,对总体到底有几种类型并不知道。

判别分析则是在总体类型划分已知,在各总体分布或来自总体训练样本的基础上,对当前的新样本判定它们属于哪个总体。

(2)两类方法的建立的模型不一样,因此在处理某些特定的问题时,就会得出不一样的结果,就本题看来,出现了经济类型上的判别不一致的细微差异,但是作为分类方法来说,两种方法在大部分情况下都能取得一致的效果。

(3)聚类分析与判别分析也是有联系的。

如我们对研究的多元数据的特征不熟悉,当然要先进行聚类分析,才能考虑判别分析的问题。

分析背景随着改革开放的进行,我国进入了一个前所未有的经济飞速发展时期,整体经济实力与日俱增。

但是,我们也应该看到各个地区的发展不平衡,沿海地区发展较快,经济增长也较快,而中西部发展相对较慢。

因此,基于这种现状,本文对全国各地区的经济进行聚类分析。

首先对除浙江、湖南、甘肃三省的其他各省经济进行聚类,然后对浙江、湖南、甘肃三省的经济类型进行判别分析。

通过本文的分析研究,可以清楚地认识到我国经济类型构成,以及各地区的发展差异,最终对国家以及各地区的发展及政策制定实施起到指导作用。

我国城市规模结构统计分析

我国城市规模结构统计分析

我国城市规模结构统计分析城市规模,可以用城区户籍人口(或常住人口)的数量,或城市建成区的面积来衡量。

城市规模结构,通常是指不同规模的城市数量及相互关系,是衡量一个国家或地区城镇化发展特征的重要指标之一。

为全面认识我国的城镇化发展特征,本文对31个省(自治区、直辖市)的655个城市的城市规模数据,从多个角度进行比较分析。

一、我国及其四大经济区域不同规模城市数量统计分析1.全国不同规模的城市数量总体统计按照2014年11月21日国务院印发的《关于调整城市规模划分标准的通知》规定,新的城市规模划分标准以城区常住人口为统计口径,将城市划分为五类七档。

城区常住人口50万以下的城市为小城市,其中20万以上50万以下的城市为Ⅰ型小城市,20万以下的城市为Ⅱ型小城市;城区常住人口50万以上100万以下的城市为中等城市;城区常住人口100万以上500万以下的城市为大城市,其中300万以上500万以下的城市为Ⅰ型大城市,100万以上300万以下的城市为Ⅱ型大城市;城区常住人口500万以上1000万以下的城市为特大城市;城区常住人口1000万以上的城市为超大城市。

据此,对全国2003-2012年不同规模城市的数量进行统计,结果如表1所示。

为更直观地展示2003-2012年全国不同规模城市的数量变化情况,将表1的数据反映在图1中。

结合表1和图1可知:2003-2012年,(1)我国城市数量基本保持稳定,城市总数处于653-657个的区间范围;(2)超大城市、特大城市和大城市I的数量也基本保持稳定、波动较小,区间范围分别是1-3个、4-5个和5-9个;(3)大城市II和中等城市的数量分别以2008年和2007年为界,呈现出先逐年减少再逐年增加的态势,其中大城市II 数量先从55个(2003年)减少到44个(2008年)后又增加到50个(2012年),中等城市数量先从95个(2003年)减少到84个(2007年)后又增加到91个(2012年);(4)只有小城市I的数量保持逐年增加,从196个(2003年)增加到251个(2012年);(5)小城市II的数量总体上呈减少趋势,从292个(2003年)减少到247个(2012年)。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

我国各省、自治区的城市规模结构分析
问题分析:
城市规模结构主要由城市规模、城市首位度、基尼系数构成,所以从这三个方面入手,进行聚类分析。

符号说明:
1.
x城市规模(万人)
1
2.
x城市首位度
2
3.
x城市指数
3
4.
x基尼指数
4
5.
x城市规模中位(万人)
5
模型建立及求解
聚类分析:验证城市规模、城市首位度、城市指数、基尼系数、城市规模中位数之间的相关系数,看是否存在相关性。

利用spss软件可以得到这五者的相关系数矩阵。

从上表可以看出某些指标之间确实有较强的相关性,可以选取其中的有代表性的几
个指标进行聚类分析。

将这些指标进行标准化:
可以画出以下聚类树型图:
从聚类图中可以看出,如果将5个指标分为3类,城市首位度、城市指数两个指标
之间相关性比较大,所以聚到一起,城市规模(万人)与城市规模中位(万人)也有相关性,也可以聚成一类,基尼指数单独为一类。

所以就可以将五个指标简化成三个指标进行分析。

下图为27个地区的聚类分析图。

运行结果:(1)第1类的有1 7
第2类的有2 3 4 5 6 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 26 27
第3类的有25
**********************************
划分成4类的结果如下:
第1类的有2 3 4 5 6 8 9 10 11 12 13 15 16 17 18 19 21 26 27
第2类的有14 20 22 23 24
第3类的有1 7
第4类的有25
**********************************
划分成5类的结果如下:
第1类的有1
第2类的有7
第3类的有2 3 4 5 6 8 9 10 11 12 13 15 16 17 18 19 21 26 27
第4类的有14 20 22 23 24
第5类的有25
运行结果:(2)第1类的有1 7
第2类的有2 3 4 5 6 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 26 27
第3类的有25
**********************************
划分成4类的结果如下:
第1类的有14
第2类的有2 3 4 5 6 8 9 10 11 12 13 15 16 17 18 19 20 21 22 23 24 26 27
第3类的有1 7
第4类的有25
**********************************
划分成5类的结果如下:
第1类的有1
第2类的有7
第3类的有14
第4类的有2 3 4 5 6 8 9 10 11 12 13 15 16 17 18 19 20 21 22 23 24 26 27
第5类的有25
利用matlab进行求解。

按分五类:第一类:京津冀;第二类:苏沪;第三类:湖北;第四类:青海;第五类:其他地区。

按四类分:第一类:京津冀、苏沪;第二类:湖北;第三类:青海;第四类:其他地区。

按三类分:第一类:京津冀、苏沪;第二类:青海;第三类:其他地区。

附件
程序一
load test.txt
r=corrcoef(test) %计算相关系数矩阵
d=1-r;
d=tril(d);
d=nonzeros(d);
d=d';
z=linkage(d,'average'); %按类平均法聚类dendrogram(z); %画聚类图
T=cluster(z,'maxclust',3) %把变量划分成3类
for i=1:3
tm=find(T==i);
tm=reshape(tm,1,length(tm));
fprintf('第%d 类的有%s\n',i,int2str(tm));
end
程序2
clc,clear
load test.txt%把原始数据保存在纯文本文件gj.txt中gj(:,5:5)=[];
gj(:,3:3)=[];
gj=zscore(test); %数据标准化
y=pdist(test); %求对象间的欧氏距离,每行是一个对象
z=linkage(y,'average'); %按类平均法聚类
dendrogram(z); %画聚类图
for k=3:5
fprintf('划分成%d类的结果如下:\n',k)
T=cluster(z,'maxclust',k); %把样本点划分成k类
for i=1:k
tm=find(T==i); %求第i类的对象
tm=reshape(tm,1,length(tm)); %变成行向量
fprintf('第%d类的有%s\n',i,int2str(tm)); %显示分类结果end
if k==5
break
end
fprintf('**********************************\n');
end。

相关文档
最新文档