气候统计第三章2聚类分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2)dij≥0,
非负性
3)dij=dji
对称性
4)dij≤dik+dkj
三角不等式
常用距离
1.Minkowski距离:
d ij (q) [
m
( xki

Байду номын сангаас
xkj )q ]1/ q
k 1
m
(a) q 1, d ij
x ki x kj
k 1
绝对距离
m
(b) q 2, d ij
最长距离法、重心法等其他系统聚类法的 步骤相同,仅在计算类间距离时的定义不同。 最短距离法也可用于变量的分类,分类指标 也可用相似系数,在用相似系数时,要找相 似系数最大的两类合并,即总是最相似的两 类合并。 下面看一实例:
例 ,某地用4个因子表示气候闷热状况,分别是 x1:日平均温度 x2:14时气温 x3:14时相对湿度 x4:日最低气温
即G3,G4 和 G6,G7最为相似。 故将G3,G4 并成G9 G6,G7并为G10
删除p,q行和列,加上r行 和列
得D(1)
4、在D(1)中, D5,10=1.4是最小值, 将G5和G10并成G11 , 进一步计算
G1 G2 G5 G8 G9 G1 G2 2 G5 6.3 6 G8 8.5 6.7 6.7 G9 2.2 2 8 7.8 G10 5 4.1 1.4 5.1 6.1
Gr Gq
Gp
D10,9 min{ D3,6 , D3,7 , D4,6 , D4,7 }
D4,6 6.1
Gk
2、定义类间距离 D( p, q) min{ d jk / j G p , k q }
合并最相似两类
Gr={Gp,Gq}
在D(0)中,D3,4 D6,7 1 min
它等于 G p和Gq 中所有任意两个样品距离的平均。
§3.4 系统聚类法(逐级归并法)
系统聚类法是聚类分析中使用最多的方 法,其基本思路是:先将n个样品各自看成一 类,然后规定样品之间的距离(或相似系数) 和类与类之间的距离,开始,将每个样品各 自成一类,根据距离选择最相似的一对并成 一个新类,计算新类与其他类的距离,再将 距离最近的两类合并,依次下去,直至所有 样品并成一类,或各类之间的距离大于给定 阈值T为止。
是同一指标的m个测站的时空分布。
2.距离和相似系数
进行分类,要将特征相似的样品聚为同一类,首 先要定义样品之间亲疏程度的数量指标。
A、距离
样品看作m维空间的点,以某种形式定义点与点之 间差异大小(不完全是地理或几何距离),数学上 的距离可以有不同定义,但要满足4个条件
1)dij=0时,样品i和j 恒等(dii=0) 唯一性和单一性
d1,3 (2 4)2 (5 4)2 2.2
得距离阵:
G1 G2 G3 G4 G5 G6 G7 G8
D(0)
G1 0 G2 2 0
G3 2.2 2.2 0
G4 2.8 2 1 0
G5 6.3 6 8.1 8 0
G6 5 4.1 6.3 6.1 2.2 0
G7 5.8 5.1 7.3 7.1 1.4 1 0
G1 G2 G8 G9 G1 G2 2 G8 8.5 6.7 G9 2.2 2 7.8 G11 5 4.1 5.1 6.1
D(3)
G8 G11
G8
G11 5.1
G12 6.7 4.1
5、画聚类图
绘制各次聚类结果。
若选择T=3.0,从图 可见,1,2,3,4 合并一类,5,6,7 并成一类,8自成一 类,全部样品分成 三类为宜。
2。最长距离法: D( p, q) max{ d jk / j G p , k Gq }
即为 G p和Gq 中最远的两个样品的距离。
3.重心法:D( p, q) d xp xq
它为两个类的重心 x p 和xq 间的距离
4.类平均 法:
1
D( p, q)
lm
d jk
jGpkGq
定义1:T为一给定的阈值,如果对任意的 i, j G ,有 d ij T ,则称G为一个类。
定义2:对阈值T,如果对于每一个 i G ,有 ,则称G为一个类。
1
k 1 jG d ij T
定义3:对阈值T,如果对于每一个 i G ,一定存在 j G 使得d ij T ,则称G为一个类。
B 相似系数 1)
rij
m
x ki x kj
k 1
m
x
2 ki
k 1
m
x
2 kj
k 1

cos ij

X
i

X
j
Xi X j
将样品i、j看作m维空间的向量,常用于要素场的相似。 包括空间点的相似和时间点的相似度量。
二、类与类的特征 1,类的定义
由于客观事物的千差万别,在不同问题中,类的含义是不尽 相同的,给类下严格地定义是不容易的,有不同的定义。如:
一、最短距离法
例 对同量纲指标x1和x2进行八次观测得各样品数据如下
i12345678 x1 2 2 4 4 -4 -2 -3 -1 x2 5 3 4 3 3 2 2 -3
试以最短距离法将其分类。
解:x1和x2为同量纲,无需标准化
采用欧氏距离
2
d ij
( xki xkj )2
k 1
1、计算距离,如d1,3
包含步骤
(1)计算n个样品两两间的距离{dij} (2)构造n个类,每类只包含一个样品 (3)合并距离最近(最相似)的两类为一个新类 (4)定义类间距离,计算新类与当前各类的距离。
若类的个数等于1,转到(5)。否则回到步 骤(3)。 (5)画聚类图 (6) 决定类的个数和类
使用不同的类间距离,便得到不同的系统聚 类法。如最短距离法、最长距离法、重心法 等。
试根据下表所列相似系数将因子分类
G1 G2 G3
G2
0.93
G3
-0.74 -0.83
G4
0.69 0.5 -0.38
解:G1和G2的相似系数最大,R1,2=max,表明两者 最接近,先将它们并成G5。 计算G5与G3,G4的相似系数分别为:
R5,3 m ax{m ax rij , m ax rij }
一、相似性指标统计量
1.样品与分类指标
对与研究对象有关的m个变量作n次观测,
得样本矩阵,
x11 x1n
X






xm1 xmn
称每行为一个分类指标,每一列为一个样
品,对样品进行分类;每个样品包含m个指
标,即样品的特征用m个指标来描写,可以
是一个测站的m个指标的时间分布,也可以
iG1, jG 3 iG 2 , jG 3
m ax{R1,3 , R2,3 }
max{0.74,0.83) 0.74
R5,4 m ax{0.69,0.5} 0.69
G3 G4
G4
-0.38
G5
-0.74 0.69
R(1)中,R4,5=0.69=max,将G4,G5并成G6
( xki xkj ) 2
k 1
Euclid距离
2.Mahalanobis距离
dij (Xi X j )S 1(Xi X j )
马氏距离考虑了类型总体的内部结构,更加 合理,但计算繁琐。
在距离指标中,当样品指标不是同一变量时,
各变量对距离的影响与它们的量纲有关,如气 温为101,气压为103量级,气压变化对距离的 影响远大于气温。克服这一缺点的方法是对各 指标标准化
G8 8.5 6.7 8.6 7.8 6.7 5.1 5.4 0
3、计算新类与其他类的距离
Dr,k mind ij min{mind ij ,mindij }
iGr, jGk
iGp, jGk iGq, jGk
min{D p,k , Dq,k }
例如:
D1,9 min{ D1,3 , D1,4 } D1,3 2.2
R6,3 max{R4,3 , R5,3 } max{0.38,0.74} 0.38
G3与G6变化趋势相反,并成一类无意义,聚类结束
聚类结果中,x1,x2,x4 表示温度状态,自然成为 一类,而x3是空气湿度因 子,物理上属于另一类。
逐步聚类法

D(2)
在D(2)中,D1,2,D2,9=2是最小元 素,将G1,G2,G9合并为新类G12。 计算新类与各类的距离:
D12,8 min{D1,8 , D2,8 , D9,8 }
得D(3),其中D11,12=4.1为最小元 素,合并G11,G12 为G13
D13,8=5.1 最后G13,G8并成 一类G14
2.类的距离 由于类的形状是多种多样的,所以类与类之间的距离也有多种 计算方法,设 G p ,Gq 中分别有l和m 个样品,它们之间的距离 用D(p,q)表示,常用定义有:
1.最短距离法: D( p, q) min{ d jk / j G p , k Gq }
即为 G p 和Gq 中最邻近的两个样品的距离。
§3.3 聚类分析概要
聚类分析是研究多要素的客观分类方法, 即运用数学方法对不同的样品进行数字分类, 定量地确定样品之间的亲疏关系,并按照它 们之间的相似程度,归组并类,以便客观分 类的一种统计分析方法。它同判别分析同属 分类问题,但前提不相同,所给的样本类型 和类型数都是未知的。气象学中存在许多分 类问题,如气候分类区划、天气过程分类、 环流分类、预报因子的合并归类、相似年的 确定等。
相关文档
最新文档