系统聚类分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

四(1)、直接聚类法
原理及步骤(书100面) (5)绘系统聚类树形图。
(6)选取距离临界值,根据树形图确定分类 个数和分类结构
例题:某地区的9个农业区的聚类分析。
极差标准化矩阵如下(书101面,程序 HCA_Example3.m)
0.9125 1 0.2 0.4333 0.025 0.0292 0 0.9083 0.3833 1 0.8662 0.148 0.3794 0.034 0.0329 0 0.5318 0.2555 0.073 0 0.068 0 1 0.606 0.904 0.069 0.035 0.153 0.002 0.437 0.132 1 0.689 0.812 8E-04 0 0.183 0 0.439 0.178 1 0.654 0.835 0.096 0.154 1 0.236 0.079 0.126 0.469 0.134 0.129 0.427 0 0.143 0 0.071 9E-04 1 0.595 0.997 0.087 0.004
G7
G8 G9
0
0.908 0.383
0
0.532 0.255
0.904
0.069 0.035
0.812
8E-04 0
0.835
0.096 0.154
0.129
0.427 0
0.997
0.087 0.004
三(1)“聚类对象”之间的距离及其计算
常见的“距离”有
① 绝对值距离(下面公式中的i =1应为 k=1)
(i, j 1,2,, m)
(3)
④ 切比雪夫距离。当明科夫斯基距 时,有
d ij max xik x jk
k
p
(4)
(i, j 1,2,, m)
0
实例中9个农业区之间的绝对值距离矩阵如下
0 1.52 3.10 2.19 D (d ij ) 99 5.86 4.72 5.79 1.32 2.62 0 2.70 0 0 0 0 1.47 1.23 0 6.02 3.64 4.77
(2)按新的分类结果重新计算距离矩阵 (见103面),发现d57=0.85最小,故将第 5区与第7区并为一类,得到一个新的共7 类的暂时分类结果;
(3)按上面的方法依此类推。
图3.4.1 直接聚类谱系图
聚类谱系图(树形图)说明
(1)聚类谱系图显示的是一个一般的分类结 构,不是一个特定的分类结果。 (2)用户可设定“距离临界值”并根据设定 的临界值进行分类。例如,如设定距离临界 值”在1.78-3.10之间,则9个农业区可分为 3大类,即 {G1, G2, G8}, {G3,G4,G9}, {G5,G6,G7} (3)“距离临界值”的选取没有一个严格的 标准,一般取距离跨度较大的两个值中间的 值。
假设有m 个聚类的对象,每一个聚类对象都有 n个要素构成。它们所对应的要素数据可用表 3.4.1给出。 (主要省略号的记号)
表3.4.1 聚类对象与要素数据
要 聚 类 对 象 素
x1
x11 x21 xi1 xm1
x2 x j xn
x12 x22 xi 2 x1 j xij x1n xin xmn x 2 j x2 n
95.1 148.5 111 217.8 179.6 194.7 94.9 94.8
粮食 单产x5
/(kg hm )
人均粮食x6
/(kg 人-1
-2
·
·
稻谷 占粮 ) 食比 重 x7/% 12.2
0.85 6.49 0.92 80.38 48.17 80.17 7.8 1.17
G1 0.294
G2 0.315 G3 0.123 G4 0.179 G5 0.081 G6 0.082 G7 0.075 G8 0.293 G9 0.167
第4章 系统聚类分析 (共两次课) (Hierarchical Cluster Analysis)
主要内容(参见书87面-) 聚类分析概述 聚类要素的数据处理 距离和相似系数的计算 常用系统聚类法 环境应用
一、聚类分析概述
引例1:书89面例4.1.
-问题:6个站点可否按其指标的相似性 进行分类?如何综合考虑5个指标?
例题:某地区的9个农业区的聚类分析。
绝对值距离矩阵如下(书102面,程序 HCA_Example3.m)
0 1.53 3.1 2.22 5.83 4.71 5.78 1.34 2.63 0 2.69 1.47 6.04 4.45 5.52 0.87 1.66
D=
0 1.22 3.66 1.87 2.93 2.24 1.19
引例2:可否对9个农业区进行分类?
表1 某地区9个农业区的7项经济指标数据
区 代 号 人均 耕地X1
/(hm2
劳均 耕地X2
/(hm2
·
人-1)
·
个-1

水田 比重 X3 /% 5.63
0.39 5.28 0.39 72.04 43.78 65.15 5.35 2.9
复种 指数 x4 /% 113.6
n

jk
x ji ) 2
第二次课
四(1)、直接聚类法
原理及步骤(书100面)
(1)将每个对象或样本看做1类,共m类,记为 G1, G2,„,Gm (2)定义并计算样本之间的两两“距离”,得到 第1个距离矩阵 D0
(3)合并距离最近的两类为一新类,其它的样 本暂不合并这样可得到共m-1类。
(4)对新得到的分类重复步骤(2)&(3),直 至将全部样本分为1类为止。
0 4.79 2.99 4.05 1.3 0.49
0 1.8 0 0.85 1.07 0 5.17 3.96 5.03 4.86 3.06 4.12 1.4
0 8
0
聚类分析步骤如下 (书102-104面):
(1)在距离矩阵D中,除去对角线元素 以外,d49=d94=0.49为最小者,故将第4区 与第9区并为一类,得到一个新的共8类的 暂时分类结果;
cos( ij ) cos(X i , X j )
x
k 1 n k 1 2 ik
n
ik
x jk
n 2 jk
x x
k 1
rij cov(X i , X j )
(x
k 1
n
ik
xi )(x jk x j )
(x
k 1
n
ik
xi ) 2
(x
k 1
d1,10=min{d14,d19}= min{2.19,2.62}=2.19
1 m 0 x j xij m i 1 sj 1 m 2 ( x x ) 1 ij j m i 1
③ 极大值标准化,即
xij xij max{xij }
i
(i 1,2, , m; j 1,2,, n)
(3.4.3)
经过这种标准化所得的新数据,各要素的极 大值为1,其余各数值小于1。 ④ 极差的标准化,即 xij minxij i xij (i 1,2,, m; j 1,2,, n) maxxij minxij
四(2)、最短距离聚类法
最短距离聚类法,是在原来的m×m距离矩阵找 出“距离最小”的两个分类对象Gp和Gq,并将 其归并为一新类Gr,然后按“距离最短”计算 公式 d rk min{ d pk , d qk } (k p, q) 计算原来各类与新类之间的距离,这样就得到 一个新的(m-1)阶的距离矩阵; 再从新的 距离矩阵中选出距离最小者dij,把Gi和Gj归并成 新类;再计算各类与新类的距离,这样一直下 去,直至各分类对象被归为一类为止。
ij
(3.4.1)
这种标准化方法所得到的新数据满足
x
i 1
ij
1
( j 1,2, , n)
② 标准差标准化,即
xij x j sj
xij
(i 1,2,, m; j 1,2,, n)
(3.4.2)
由这种标准化方法所得到的新数据,各要 素的平均值为0,标准差为1,即有
4.46 1.86 2.99 1.78
5.53 2.93 4.06 0.83 1.07 0 0.88 2.24 1.29 5.14 3.96 5.03
1.66 1.20 0.51 4.84 3.06 3.32 1.40
回忆前面的直接聚类法 (1) 在9×9阶距离矩阵D 中,非对角元素中最小者是d94=0.51,首先将 第4区与第9区并为一类,记为G10={G4,G9}。 按照最短距离公式分别计算G1,G2,G3,G5, G6,G7,G8与G10之间的距离得
1.093
0.971 0.316 0.527 0.212 0.211 0.181 0.666 0.414
4 510.5
2 773.5 6 934.5 4 458 12 249 8 973 10 689 3 679.5 4 231.5
1 036.4
683.7 611.1 632.6 791.1 636.5 634.3 771.7 574.6
(5)
4.46 1.86 2.99 1.78
5.53 2.93 4.06 0.83 1.07 0 0.88 2.24 1.29 5.14 3.96 5.03
1.66 1.20 0.51 4.84 3.06 3.32 1.40
三(2)变量之间Βιβλιοθήκη Baidu似系数的计算
聚类分析不仅可以对“样本”分类,也
可以对“变量分类”(例如书113面的第3 题) 。在此情况下分类的依据是“相似性 系数”而不是“距离” 。 两种常用的相似系数(书97面): (1)夹角余弦 (2)相关系数
d ij xik x jk
② 欧氏距离
d ij
i 1
2 ( x x ) ik jk k 1 n
n
(i, j 1,2,, m)
(1)
(i, j 1,2,, m)
(2)
③ 明科夫斯基距离
n d ij xik x jk k 1
1 p p
聚类分析的概念:
聚类分析就是按照事物间的相似性进行
科学的区分或分类的过程。 聚类对象:聚类所针对的对象 聚类要素:聚类所考虑的因素
二、聚类要素的数据处理
在聚类分析中,聚类要素的选择是十分重 要的,它直接影响分类结果的准确性和可靠性。
在分类和分区研究中,被聚类的对象常常 是多个要素构成的。不同要素的数据往往具有 不同的单位和量纲,其数值的变异可能是很大 的,这就会对分类结果产生影响。因此当分类 要素的对象确定之后,在进行聚类分析之前, 首先要对聚类要素进行数据处理。
例题:用最短距离聚类法对某地区的9个农业
区进行聚类分析 (注意此距离矩阵跟我们书上 计算的略有出入,估计是数据标准化后进行四 舍五入后造成的)。
0 2.70 0 0 0 0 1.47 1.23 0 6.02 3.64 4.77 0
0 1.52 3.10 2.19 D (d ij ) 99 5.86 4.72 5.79 1.32 2.62
i i
(3.4.4)
经过这种标准化所得的新数据,各要素的极 大值为1,极小值为0,其余的数值均在0与1之间。
例题:通过Excel对某地区9个农业区的7项指标进行 标准化处理(见Excel文件“聚类分析例子.xls)
极差标准化 区代号 X1 G1 G2 G3 G4 G5 G6 0.913 1 0.2 0.433 0.025 0.029 X2 1 0.866 0.148 0.379 0.034 0.033 X3 0.073 0 0.068 0 1 0.606 X4 0.153 0.002 0.437 0.132 1 0.689 X5 0.183 0 0.439 0.178 1 0.654 X6 1 0.236 0.079 0.126 0.469 0.134 X7 0.143 0 0.071 9E-04 1 0.595
1 2 i m
xm 2 xmj
在聚类分析中,常用的聚类要素(变量) 的数据处理方法有如下几种: ① 总和标准化。分别求出各聚类要素所 对应的数据的总和,以各要素的数据除以该要 素的数据的总和,即
xij xij
x
i 1
m
m
(i 1,2,, m; j 1,2,, n)
相关文档
最新文档