计量地理学第7章系统聚类分析.
计量地理聚类分析实验报告

1、用最短距离聚类法对35个城市综合实力进行系统聚类分析:首先打来spss软件,导入数据,如下图。
选择Analysize---Classify---Hierarchical Cluster,打开系统聚类的分析的窗口。
然后将要分析的变量选入Variable的框内。
选择Plots,选中复选框Dendrogram,点击Continue。
选择Method按钮,在Cluster Method中选择Nearest Neighbour,即最短距离聚类,在Measure 的Interval中选择Euclidean distance, 选择Continue。
最后点击OK。
在Output的窗口中出现分析的结果,最短距离聚类谱系图如下:* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Single LinkageRescaled Distance Cluster CombineC A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+33 ⇩34 ⇩▫26 ⇩▫5 ⇩▫25 ⇩▫14 ⇩▫17 ⇩▫29 ⇩▫32 ⇩⇳⇩4 ⇩▫⇔35 ⇩⇔22 ⇩✗⇩▫30 ⇩⇔15 ⇩⇔18 ⇩▫⇔8 ⇩⇳⇩▫20 ⇩⇔31 ⇩⇩⇩▫21 ⇩⇩⇩▫3 ⇩⇩⇩⇳⇩28 ⇩⇩⇩▫⇔9 ⇩⇩⇩▫⇔7 ⇩⇩⇩⇔13 ⇩⇩⇩⇔19 ⇩⇩⇩⇳⇩▫11 ⇩⇩⇩▫⇔12 ⇩⇩⇩▫⇩⇩⇩⇩⇩⇩⇩16 ⇩⇩⇩⇩⇩▫▫⇩6 ⇩⇩⇩⇩⇩⇔⇔2 ⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩▫⇔24 ⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩▫⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩23 ⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩▫▫⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩1 ⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇔⇔27 ⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇔10 ⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩2、用最远距离聚类法对35个城市综合实力进行系统聚类分析:前面的步骤和上面一样,在Method的窗口中选择Furthest neighbour,其他不变,点击continue,最后点击OK。
第七章 地理系统的聚类分析和判别分析

讲授人:何艳芬
主要内容
§1地理系统的聚类分析 §2地理系统的判别分析
§1地理系统的聚类分析
1.1地理系统分类概述
1.1.1地理系统分类的意义 地理分区和分类是一类重要的问题。 地理学的分类从靠经验和定性的知识进行分类转向应用数学和电 子计算机的定量分析。这种定量分析方法称为“数值分类法”或 “数量分类法”,亦称“聚类分析”(Cluster Analysis)”也 被称为点群分析,或群分析,是研究多要素事物分类问题的数量 方法.。 聚类分析的职能是建立一种分类方法,它是将一批样品或变量, 按照它们在性质上的亲疏程度进行分类。这种性质上的亲疏程度 体现在特征属性值的大小上。
6.02 3.64 4.77 4.46 1.86 5.53
2.93 4.06 0.83 1.07 5.14 3.96
0.88 2.24 1.29 1.66 1.20
0.51 4.84 3.06 3.32 1.40
(1) 在9×9阶距离矩阵D中,非对角元素中最小者是d94=0.51,首先将第4区与 第9区并为一类,记为G10={G4,G9}。
可以最优值为10分,最劣值为0分,其余相应给分如下:
举例:表6.2给出了某地区9个农业区的7项指标。
6.
例2:某航空公司在国际市场上购买飞机,按照6个决策指标对不同型 号的飞机进行综合评价。有4种型号飞机可供选择。具体指标如下表: 写出决策矩阵,进行标准化处理。
解:前三个指标是正向指标,第四个指标是逆向指标,第五、六指标 是定性指标。先将第五、六指标量化,写出决策矩阵,再分别用前三 种方法归一化。
1.4.3最短距离法进行系统聚类
例题:根据下式距离矩阵,用最短距离聚类法对某地区的9个农业区进行聚类分析。
系统聚类分析

(3.3.10)
第25页/共43页
① 在9×9阶距离矩阵D中,非对角元素中最小者是d94=0.51,首先将第4区与第9区并为一类,记为即G10={G4,G9}。按照公式(3.3.10)式分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离得: d1,10=min{d14,d19}= min{2.19,2.62}=2.19d2,10=min{d24,d29}= min{1.47,1.66}=1.47
第1页/共43页
聚类分析是根据各变量的观测值予以分类的,它涉及到通过各种途径和手段所得到的有意义的地理数据。由于要素的量纲、数量级和数量变化幅度的差异,如用原始数据进行聚类分析,就是将不同性质、不同量纲、不同数量变化幅度的数值都统计在一起,这样就可能突出某些数量级特别大的变量对分类的作用,而压低甚至排除了某些数量级很小的变量对分类的作用。为了有利于分析、对比和使分类清晰,常对原始地理数据进行适当和必要的处理和变换,使其在某种共同的、相对均匀化的数值范围内。
61.0
7.6
7.018
3.728
4.111
2.028
莎车
1231.2
42.5
93.0
11.0
7.116
3.750
4.533
2.398
于田
1427.0
46.4
81.0
1.4
7.263
3.837
4.394
0.336
数据变换表
第5页/共43页
② 地理数据的标准化:标准差标准化、极差标准化标准差标准化,即把变换后的数据 减去其均值,再除以其标准差Sj
第32页/共43页
⑧ 在第六步所得的3×3阶距离矩阵中,非对角线元素中最小者为d1,15=1.32,故将G1与G15归并为一类,记为G16,即G16={G1,G15}={(G1,(G2,G8),(G3,(G4,G9))}。再按照公式(3.3.10)式计算G13与G16之间的距离,可得一个新的2×2阶距离矩阵:
7第七章地理系统的聚类分析

第七章地理系统的聚类分析与判别分析§1 地理系统的聚类分析一概述聚类分析又叫群分析,它是研究分类的一种统计方法。
这种方法与判别分析的分类方法不同,它并不要求事先知道划分的类型与数目,而是根据研究对象(标本或变量)的相似程度进行聚合分类。
分类时首先将相互间关系密切的标本(或变量)各自聚合成一个小的分类单位,然后将关系比较疏远的聚合到一个大的分类单位中去。
这样就形成一个由小到大的分类系统。
通常对标本的分类叫做Q型聚类分析。
对变量的分类叫做R型聚类分析,这二种分析的基本作法都是一样的,都是选择一个“分类统计量”来表示标本或变量的相似程度,再按相似程度的大小逐步连结,最后作成一张“分类图”,用以表示标本的亲疏关系。
二、数据的规格化在根据相似程度(相似性统计量)进行聚合分类以前,有时需要对观测数据进行规格化变换。
因为各变量的观测数据,在数值上可能相差很大,当采用不同单位时,各变量的数据可以相差几个数量级。
所以如果直接采用原始数据进行计算。
就会突出那些绝对值大的变量而降低了那些绝对值小的变量的作用。
因此一般在计算前需对变量进行变换,使数据标准化。
此外,标准化的数据也便于计算。
一般在标准化之前,先进行对数变换,以使数据变幅减少且变均匀。
常用的数据标准化方法有如下二种。
1.标准差标准化数据标准化也称做数据的标准差规格化。
设有n 个标本,每个标本观测p 个变量。
得原始数据矩阵:n p ik x X ⨯=][⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=pn p p n n x x x x x xx x x 212222111211 (1)标准化时,将数据作如下变换:='ik w iiik s x x - ………………………………………………(2) 式中:i x ∑==nk ik x n 11=i s )(111i nk ik x x n --∑= 对标准变量而言,标本的均值为零)0(=μ,标准差为一)1(=s 。
计量地理学

24
三、相关分析
将2014年的消费水平数值代入,可求取当年国内生产总值,其预测住 位于95%置信区间范围(见下图),可信水平为95%。(PRE为预测 值,LICI为95%置信区间的取值范围)
25
Thanks~~
26
17
三、相关分析
年份 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
18
消费水平金额 3632 3887 4144 4475 5032 5596 6299 7310 8430 9283 10522 12570 14110 15632
16
三、相关分析
1. 预测分析的概念 预测分析法是根据客观对象的已知信息而对事物在将来的某些特 征、发展状况的一种估计、测算活动。运用各种定性和定量的分 析理论与方法,对事物未来发展的趋势和水平进行判断和推测的 一种活动。 2. 预测分析的实质及运用领域 是根据事物的过去和现在估计未来,根据已知预测未知,从而减 少对未来事物认识的不确定性,以指导我们的决策行动,减少决 策的盲目性。预测学的出现不是孤立的、它是在人类社会生产力 和科学技术日益发达的基础上应运而生的,它与其它的学科诸如 经济学、数学、系统工程学、统计学、电子计算机技术等都有密 切的关系。 3. 分析方法运用举例
小结: (1)从上述结果可以看出,两者的相关水平为0.998,且 通过显著性检验(在0.01水平上显著相关),故而满足回 归分析的基础,可以进行回归模型的推断。 (2)为了能够更好的选择回归模型,首先做出两变量的 函数分析,直观判断变量的函数模型,为选择合适的回 归模型奠定基础。
21
三、相关分析
22
系统聚类分析的理论

1.1.3 兰氏距离
1 p | X ik X jk | d ij ( L) p k 1 X ik X jk
它仅适用于一切 X ij 0 的情况,这个距离也可以克服各个指标之间量纲的影响。这是 一个自身标准化的的量,由于它对奇异值不敏感,它特别适合用于高度偏倚的数据。虽然这 个距离有助于克服闵氏距离的第一个缺点,但它也没有考虑指标之间的关联性。
X 'k X k 2
利用 X 'k X k
1 (n p X 'k X k nq X 'k X k ) 代入上式,有 nr
2 Dkr
np nr
2 Dkp
nq nr
2 Dkq
n p nq nr2
2 D pq
2.2.5 类平均法 类平均法定义类间距离平方为这两类元素两两之间距离平方的平均数,即为
2 D pq
1 n p nq
X i G p X j Gq
2 dij
设聚类的某一步将 G p 和 Gq 合并为 Gr ,则任一类 Gk 与 Gr 的距离为
2 Dkr
1 nk nr
X i Gk X j Gr
dij (q ) ( | X ik X jk |q )1/ q
k 1
p
闵科夫斯基距离又称闵氏距离,按 q 值的不同又可分成 1)绝对距离( q 1 )
dij (1) | X ik X jk |
k 1
p
2)欧几里得距离( q 2 )
dij (2) ( | X ik X jk |2 )1/2
dij 1 | cij |
或者
2 2 dij 1 cij
用 dij 表示变量间的距离远近, dij 小则 Xi 与 X j 先聚成一类,这比较符合人们的一般思维习
聚类分析与判别分析

G1 G2 G3 G4 G5 G6 0.375 0.483 1.749 1.516 1.972 0.776 1.596 1.336 1.743 1.926 1.662 2.154 0.501 0.693 0.589 G2 G3 G4 G5
间的距离Drk。
3.将D(0)表中的第p、q行和p、q列删去,加上第r行和第r列。这 样就得到了一个新距离矩阵D(1)表。为了清楚计算,应在表下方 注明新类是由哪两类聚合成的。 4.对D(1)表,重复上面的步骤,最后绘出聚类图。
例:以我国新疆地区6个地点和4个指标 为例,用最短距离法进行聚类分析.
式中,xik代表第i个地点第k个指标的值,xjk代表第j个地点第k个 指标的值,k=1,2,…,m个指标个数。 距离系数越小,两点的相似程度越大,反之则小。
四、地理系统的聚类方法 系统聚类法中的最短距离法 距离的计算是应用欧氏距离计算方法
原理:在n×n距离矩阵的非对角元素中找出
,
d pq min{ d ij } 把分类对象 Gp和 Gq归并为一新类Gr,然后按计算公式
G1 G1 G2 0
G2
G3
G4
G5
G6
G7
1.52 0
G3
G4 G5 G6 G7
3.1
2.7
0
5.86 6.02 3.64 0 4.72 4.46 1.86 1.78 0 5.79 5.53 2.93 0.83 1.07 0 1.32 0.88 2.24 5.14 3.96 5.03 0
五、最远距离聚类法
多组判别分析; 按区分不同总体的所用的数学模型来分,有线性判 别和非线性判别; 按判别时所处理的变量方法不同,有逐步判别和序 贯判别等。 判别分析可以从不同角度提出问题,因此有不同的 判别准则,如马式距离最小准则、Fisher准则、平 均损失最小准则、最小平方准则、最大似然准则、 最大概率准则等等, 仅学习Fisher\贝叶斯两类判别。
系统聚类法

0 11.6726 13.8054 13.1278 12.7983
11.6726 0 24.6353 24.0591 23.5389
13.8054 24.6353 0 2.2033 3.5037
13.1278 24.0591 2.2033 0 2.2159
12.7983 23.5389 3.5037 2.21590
Z=linkage(Y, 'method')
T=cluster(Z,cutoff)
dendrogram(Z)
以上一组命令可同样得出分类结果(由T显示),但样品间的距离和类之间的距离计算方法可自由选择,还可由dendrogram(Z)画出聚类图。
例2草是畜牧业生产中很有价值的一种植物。欲将7种苜蓿草按叶的形态加以聚类。测量叶长和叶宽,数据如下表:
Y=pdist(X,‘euclidean')
Z=linkage(Y,‘single’)
T=cluster(Z,cutoff)
以上三组命令调用灵活,可以自由选择组合方法!
(1)Y = pdist(X)或Y = pdist(X, 'metric')
计算数据集X中两两样品间的距离,pdist产生n(n-1)/2(由组合数 计算而来)阶距离向量Y,参数‘metric’表示使用特定的方法计算样品之间的距离,常用的选择如下
Step2:样品间取欧氏距离( 时的闵可夫斯基距离)距离计算:
Step3:把距离最短的样品合并:把1、2号合并为一类{1,2},3,4号合并为一类{3,4},最后把{1,2}、{3,4}合并为一类。(用最短距离法如何计算{1,2}、{3,4}两类的距离?)
若给定的分类临界值为1.5,则上述4个样品分为2类。还可根据专业需要确定适合的分类数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i i
一个例子
某地区9个农业区的7项经济指标原始数据
区 代 号 人均 耕地X1 /(hm2 人-1) 劳均 耕地X2 /(hm2 个-1 ) 水田 比重 X3 /% 复种 指数 x4 /% 粮食 单产x5 /(kg hm -2 ) 人均粮食x6 /(kg 人-1
·
·
·
·
稻谷 占粮 ) 食比 重 x7/%
第七章 系统聚类分析
第七章 系统聚类分析模型
第一节 第二节 第三节 第四节 第五节 聚类要素的数据处理 距离的计算 直接聚类法 最短距离聚类法 最远距离聚类法
什么是聚类分析? 聚类分析(Cluster Analysis)是研究“物以类
聚”的一种方法,国内有人称它为群分析、点 群分析、簇群分析等,是研究分类问题的一种 多元统计方法。 聚类分析是根据变量(或样品或指标) 的属性 或特征的相似性或亲疏程度,用数学方法把他 们逐步地分型划类, 最后得到一个能反映样品 之间或指标之间亲疏关系的客观的分类系统, 样品或指标逐步归并最后可形成分类系统图, 即系统聚类图。
聚类要素
人均粮食x6 /(kg 人-1 稻谷 占粮 ) 食比 重 x7/% 12.2 0.85 6.49 0.92 80.38 48.17 80.17 7.8
·
·
·
·
G1 0.294 G2 0.315 G3 0.123 G4 0.179 G5 0.081 G6 0.082 G7 0.075 G8 0.293
0.527
0.212 0.211 0.181
0.39
72.04 43.78 65.15
111
217.8 179.6 194.7
4 458
12 249 8 973 10 689
632.6
791.1 636.5 634.3
0.92
80.38 48.17 80.17
② 标准差标准化,即
xij xij x j sj (i 1,2,, m; j 1,2,, n)
由这种标准化方法所得到的新数据,各要素的平 均值为0,标准差为1,即有
1 m 0 x j xij m i 1 1 m x j ) 2 1 sj ( xij m i 1
1 036.4 683.7 611.1 632.6 791.1 636.5 634.3 771.7
G9 0.167
0.414
2.9
94.8
4 231.5
574.6
1.17
要素数据 聚类对象
在聚类分析中,常用的聚类要素的 数据处理方法有如下几种: ①总和标准化。 ② 标准差标准化。
③ 极大值标准化。
加入法、动态聚类法、有序样品聚类、 有重叠聚类法和模糊聚类法等。采用k均值、k-中心点等算法的聚类分析工具 已被加入到许多著名的统计分析软件包 中,如SPSS、SAS等。
本章重点讨论系统聚类分析方法及其在
地理学中的应用问题。
第一节 聚类要素的数据处理
在聚类分析中,聚类要素的选择是十分重要 的,它直接影响分类结果的准确性和可靠性。
聚类对象与要素数据
要 聚 类 对 象 素
x1
x11 x21 xi1 xm1
x2 x j xn
x12 x22 xi 2 x1 j xij x1n xin xmn x 2 j x2 n
1 2 i m
xm 2 xmj
例如 9个农业区的7项经济指标原始数据
聚类分析的作用? 近十年来,聚类分析发展很快,在地质 勘探、天气预报、生物分类、考古学、 医学、心理学以及制定国家标准等许多 方面都取得了许多很有成效的应用。 在地理学研究方面,聚类分析是定量研 究地理事物分类问题和地理分区问题的 重要方法之一。
聚类分析有哪些方法?
聚类分析方法包括系统聚类法、分解法、
在地理分类和分区研究中,聚类对象常常是 多个要素构成的。不同要素的数据往往具有不同 的单位和量纲,其数值的变异可能是很大的,这 就会对分类结果产生影响。因此,在进行聚类分 析之前,首先要对聚类要素进行数据处理。
假设有m 个聚类的对象,每一个聚类对象 都有n个要素构成。它们所对应的要素数据可 用下表给出。
③ 极大值标准化,即
xij xij max{xij }
i
(i 1,2, , m; j 1,2,, n)
(3.4.3)
经过这种标准化所得的新数据,各要素的 极大值为1,其余各数值小于1。
④极差标准化,即 经过这种标准化所得的新数据,各要素的 极大值为1,极小值为0,其余的数值均在0与1 之间。 xij minxij i xij (i 1,2,, m; j 1,2,, n) maxxij minxij
G1 0.294
G2 0.315 G3 0.123
1.093
0.971 0.316
5.63
0.39 5.28
113.6
95.1 148.5
4 510.5
2 773.5 6 934.5
1 036.4
683.7 611.1
12.2
0.85 6.49
G4 0.179
G5 0.081 G6 0.082 G7 0.075
④ 极差标准化。
①总和标准化。分别求出各聚类要素所对应的 数据的总和,以各要素的数据除以该要素的数 据的总和,即 xij xij源自xi 1m
(i 1,2,, m; j 1,2,, n)
ij
这种标准化方法所得到的新数据满足
x
i 1
m
ij
1
( j 1,2, , n)