系统聚类分析方法(精心整理)

五种常用系统聚类分析方法及其比较

五种常用系统聚类分析方法及其比较胡雷芳一、系统聚类分析概述聚类分析是研究如何将对象按照多个方面的特征进行综合分类的一种统计方法［１］。

然而在以往的分类学中，人们主要靠经验和专业知识作定性分类处理，许多分类不可避免地带有主观性和任意性，不能揭示客观事物内在的本质差别和联系；或者人们只根据事物单方面的特征进行分类，这些分类虽然可以反映事物某些方面的区别，但却往往难以反映各类事物之间的综合差异。

聚类分析方法有效地解决了科学研究中多因素、多指标的分类问题［２］。

在目前的实际应用中，系统聚类法和Ｋ均值聚类法是聚类分析中最常用的两种方法。

其中，Ｋ均值聚类法虽计算速度快，但需要事先根据样本空间分布指定分类的数目，而当样本的变量数超过３个时，该方法的可行性就较差。

而系统聚类法（Ｈｉｅｒａｒｃｈｉｃａｌｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｓ，也称层次聚类法）由于类与类之间的距离计算方法灵活多样，使其适应不同的要求。

该方法是目前实践中使用最多的。

这该方法的基本思想是：先将ｎ个样本各自看成一类，并规定样本与样本之间的距离和类与类之间的距离。

开始时，因每个样本自成一类，类与类之间的距离与样本之间的距离是相同的。

然后，在所有的类中，选择距离最小的两个类合并成一个新类，并计算出所得新类和其它各类的距离；接着再将距离最近的两类合并，这样每次合并两类，直至将所有的样本都合并成一类为止。

这样一种连续并类的过程可用一种类似于树状结构的图形即聚类谱系图（俗称树状图）来表示，由聚类谱系图可清楚地看出全部样本的聚集过程，从而可做出对全部样本的分类［３］。

二、五种常用系统聚类分析方法系统聚类法在进行聚类的过程中，需要计算类与类之间的距离。

根据类与类之间的距离计算方法的不同，我们可以将系统聚类法分为单连接法、完全连接法、平均连接法、组平均连接法与离差平方和法等。

１．单连接法（Ｓｉｎｇｌｅｌｉｎｋａｇｅ）单连接法又称最短距离法。

该方法首先将距离最近的样本归入一类，即合并的前两个样本是它们之间有最小距离和最大相似性；然后计算新类和单个样本间的距离作为单个样本和类中的样本间的最小距离，尚未合并的样本间的距离并未改变。

聚类分析

聚类分析聚类分析又称群分析，它是研究（样品或指标）分类问题的一种多元统计方法，所谓类，通俗地说，就是指相似元素的集合。

聚类分析内容非常丰富，按照分类对象的不同可分为样品分类（Q-型聚类分析）和指标或变量分类（R-型聚类分析）；按照分类方法可分为系统聚类法和快速聚类法。

1. 系统聚类分析先将n 个样品各自看成一类，然后规定样品之间的“距离”和类与类之间的距离。

选择距离最近的两类合并成一个新类，计算新类和其它类（各当前类）的距离，再将距离最近的两类合并。

这样，每次合并减少一类，直至所有的样品都归成一类为止。

系统聚类法直观易懂。

1.1系统聚类法的基本步骤：第一，计算n 个样品两两间的距离，记作D= 。

第二，构造n 个类，每个类只包含一个样品。

第三，合并距离最近的两类为一新类。

第四，计算新类与各当前类的距离。

第五，重复步骤3、4，合并距离最近的两类为新类，直到所有的类并为一类为止。

第六，画聚类谱系图。

第七，确定类的个数和类。

1.2 系统聚类方法：1.2.1最短距离法1.2.2最长距离法1.2.3中间距离法1.2.4重心法1.2.5类平均法1.2.6离差平方和法（Ward 法）上述6种方法归类的基本步骤一致，只是类与类之间的距离有不同的定义。

最常用的就是最短距离法。

1.3 最短距离法以下用ij d 表示样品i X 与j X 之间距离，用ij D 表示类i G 与j G 之间的距离。

定义类i G 与j G 之间的距离为两类最近样品的距离，即ij G G G G ij d D j J i i ∈∈=,min设类p G 与q G 合并成一个新类记为r G ，则任一类k G 与r G 的距离是：ij G X G X kr d D j j i i ∈∈=,min ⎭⎬⎫⎩⎨⎧=∈∈∈∈ij G X G X ij G X G X d d q j k i p j k i ,,min ,min min {}kq kp D D ,min = 最短距离法聚类的步骤如下：ij d {}ij d（1）定义样品之间距离，计算样品两两距离，得一距离阵记为)0(D ，开始每个样品自成一类，显然这时ij ij d D =。

系统聚类分析

（3.3.10）
第25页/共43页
① 在9×9阶距离矩阵D中，非对角元素中最小者是d94=0.51，首先将第4区与第9区并为一类，记为即G10=｛G4，G9｝。按照公式（3.3.10）式分别计算G1，G2，G3，G5，G6，G7，G8与G10之间的距离得： d1，10=min｛d14，d19｝= min｛2.19，2.62｝=2.19d2，10=min｛d24，d29｝= min｛1.47，1.66｝=1.47
第1页/共43页
聚类分析是根据各变量的观测值予以分类的，它涉及到通过各种途径和手段所得到的有意义的地理数据。由于要素的量纲、数量级和数量变化幅度的差异，如用原始数据进行聚类分析，就是将不同性质、不同量纲、不同数量变化幅度的数值都统计在一起，这样就可能突出某些数量级特别大的变量对分类的作用，而压低甚至排除了某些数量级很小的变量对分类的作用。为了有利于分析、对比和使分类清晰，常对原始地理数据进行适当和必要的处理和变换，使其在某种共同的、相对均匀化的数值范围内。
61.0
7.6
7.018
3.728
4.111
2.028
莎车
1231.2
42.5
93.0
11.0
7.116
3.750
4.533
2.398
于田
1427.0
46.4
81.0
1.4
7.263
3.837
4.394
0.336
数据变换表
第5页/共43页
② 地理数据的标准化：标准差标准化、极差标准化标准差标准化，即把变换后的数据减去其均值，再除以其标准差Sj
第32页/共43页
⑧ 在第六步所得的3×3阶距离矩阵中，非对角线元素中最小者为d1，15=1.32，故将G1与G15归并为一类，记为G16，即G16=｛G1，G15｝=｛（G1，（G2，G8），（G3，（G4，G9））｝。再按照公式（3.3.10）式计算G13与G16之间的距离，可得一个新的2×2阶距离矩阵：

系统工程第三部分(二) 聚类分析

3
聚类分析的统计思想
样本（或变量）间存在着相似性，根据多个观测指标，找出能度量样本之间相似程度的统计量，以其为依据，把相似程度较大的样本聚合为一类，关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个大的分类单位，直到把所有的样本都聚合完毕，把不同的类型一一划分出来，形成一个由小到大的分类系统。
iGM , jGJ
min
iGK , jGJ
dij , min dij
iGL , jGJ

min DKJ , DLJ
在D(0)中，GK和GL所在的行和列合并成一个新行新列，对应GM ，该行列上的新距离值由上式求得，其余行列上的距离值不变，这样就得到新的距离矩阵，记作D(1) 。 (4)对D(1)重复上述对D(0)的两步得D(2) ，如此下去直至所有元素合并成一类为止。
14
15
16
最短距离法的聚类步骤
(1)规定样品之间的距离，计算n个样品的距离矩阵 D(0)，它是一个对称矩阵。 (2)选择D(0)中的最小元素，设为DKL，则将GK和GL 合并成一个新类，记为GM，即GM= GK∪GL。 (3)计算新类GM与任一类GJ之间距离的递推公式为
17
DMJ min dij min
5
非层次聚类其共同特点是：先给定一个粗糙的初始分类，然后按照某种原则反复进行修正，直到分类较为合理为止。
6
聚类分析的准备工作聚类分析是以完备的数据文件为基础的，这一数据文件除观测变量比较完备之外，一般还要求各个观测变量的量纲一致，即各变量取值的数量级一致，否则各变量在描述客观事物某方面特征差异性的作用有被夸大或缩小的可能。所以，聚类分析前要检查各变量的量纲是否一致，不一致则需进行转换，如将各变量均作标准化转换就可保证量纲一致。

聚类分析的方法

聚类分析的方法一、系统聚类法系统聚类分析法就是利用一定的数学方法将样品或变量（所分析的项目）归并为若干不同的类别（以分类树形图表示），使得每一类别内的所有个体之间具有较密切的关系，而各类别之间的相互关系相对地比较疏远。

系统聚类分析最后得到一个反映个体间亲疏关系的自然谱系，它比较客观地描述了分类对象的各个体之间的差异和联系。

根据分类目的不同，系统聚类分析可分为两类：一类是对变量分类，称为R型分析；另一类是对样品分类，称为Q型分析。

系统聚类分析法基本步骤如下（许志友，1988）。

（一）数据的正规化和标准化由于监测时所得到的数值各变量之间相差较大，或因各变量所取的度量单位不同，使数值差别增大，如果不对原始数据进行变换处理，势必会突出监测数据中数值较大的一些变量的作用，而消弱数值较小的另一些变量的作用，克服这种弊病的办法是对原始数据正规化或标准化，得到的数据均与监测时所取的度量单位无关。

设原始监测数据为Xij (i＝1，2，…，n；j＝1，2，…，m；n为样品个数，m为变量个数)，正规化或标准化处理后的数据为Zij (i＝1，2，…，n；j＝1，2，…，m)。

1. 正规化计算公式如下：（7-32）（i＝1，2，…，n；j＝1，2，…，m）2. 标准化计算公式如下：（7-33）（i＝1，2，…，n；j＝1，2，…，m）其中：（二）数据分类尺度计算为了对数据Zij进行分类，须对该数据进一步处理，以便从中确定出分类的尺度，下列出分类尺度计算的四种方法。

1.相关系数R两两变量间简单相关系数定义为：（7-34）（i，j＝1，2，…，m）其中一般用于变量的分类（R型）。

有一1≤≤1且愈接近1时，则此两变量愈亲近，愈接近-1，则关系愈疏远。

2.相似系数相似系数的意义是，把每个样品看做m维空间中的一个向量，n个样品相当于m维空间中的n个向量。

第i个样品与第j个样品之间的相似系数是用两个向量之间的夹角余弦来定义，即：（7-35）（i，j＝1，2，…，m）常用于样品间的分类（Q型）。

聚类分析的基本概念与方法

聚类分析的基本概念与方法聚类分析（Cluster Analysis）是一种将数据分组或分类的统计学方法，通过将相似的对象归为同一组，使得组内的对象之间更加相似，而不同组之间的对象则差异较大。

它是数据挖掘和机器学习领域中常用的技术之一，被广泛应用于市场分析、生物信息学、图像处理等领域。

一、聚类分析的基本概念聚类分析基于相似性的概念，即认为具有相似特征的对象更有可能属于同一类别。

在聚类分析中，每个对象都被视为一个数据点，而聚类则是将这些数据点分组。

基本概念包括以下几点：1. 数据点：数据集中的每个样本或对象都被看作是一个数据点，它具有多个特征或属性。

2. 相似性度量：聚类分析的关键是如何计算数据点之间的相似性或距离。

常用的相似性度量包括欧氏距离、曼哈顿距离、闵可夫斯基距离等。

3. 簇/类别：将相似的数据点归为一组，这个组被称为簇或类别。

簇内的数据点相似度较高，而不同簇之间的数据点相似度较低。

4. 聚类算法：聚类分析依赖于具体的算法来实现数据点的分组。

常见的聚类算法有K均值聚类、层次聚类、密度聚类等。

二、聚类分析的方法1. K均值聚类（K-means Clustering）：K均值聚类是一种迭代的聚类方法，它将数据点分成K个簇，每个簇代表一个样本集。

算法的基本思想是通过最小化簇内数据点与簇中心之间的平方误差来确定最优的簇中心位置。

2. 层次聚类（Hierarchical Clustering）：层次聚类是一种基于树状结构的聚类算法，它根据数据点之间的相似性逐步合并或分割簇。

层次聚类分为凝聚型和分裂型两种方法，其中凝聚型方法从单个数据点开始，逐步合并最相似的簇；分裂型方法从所有数据点开始，逐步分割最不相似的簇。

3. 密度聚类（Density-Based Clustering）：密度聚类基于密度可达的概念，将具有足够高密度的数据点归为一簇。

核心思想是在数据空间中通过密度连通性来确定簇的边界，相对于K均值聚类和层次聚类，密度聚类能够有效处理不规则形状和噪声数据。

系统聚类分析的理论

1.1.3 兰氏距离
1 p | X ik X jk | d ij ( L) p k 1 X ik X jk
它仅适用于一切 X ij 0 的情况，这个距离也可以克服各个指标之间量纲的影响。这是一个自身标准化的的量，由于它对奇异值不敏感，它特别适合用于高度偏倚的数据。虽然这个距离有助于克服闵氏距离的第一个缺点，但它也没有考虑指标之间的关联性。
X 'k X k 2
利用 X 'k X k
1 (n p X 'k X k nq X 'k X k ) 代入上式，有 nr
2 Dkr
np nr
2 Dkp
nq nr
2 Dkq
n p nq nr2
2 D pq
2.2.5 类平均法类平均法定义类间距离平方为这两类元素两两之间距离平方的平均数，即为
2 D pq
1 n p nq
X i G p X j Gq

2 dij
设聚类的某一步将 G p 和 Gq 合并为 Gr ，则任一类 Gk 与 Gr 的距离为
2 Dkr
1 nk nr
X i Gk X j Gr
dij (q ) ( | X ik X jk |q )1/ q
k 1
p
闵科夫斯基距离又称闵氏距离，按 q 值的不同又可分成 1）绝对距离（ q 1 ）
dij (1) | X ik X jk |
k 1
p
2）欧几里得距离（ q 2 ）
dij (2) ( | X ik X jk |2 )1/2
dij 1 | cij |
或者
2 2 dij 1 cij
用 dij 表示变量间的距离远近， dij 小则 Xi 与 X j 先聚成一类，这比较符合人们的一般思维习

系统聚类分析方法

系统聚类分析方法聚类分析是研究多要素事物分类问题的数量方法。

基本原理是根据样本自身的属性，用数学方法按照某种相似性或差异性指标，定量地确定样本之间的亲疏关系，并按这种亲疏关系程度对样本进行聚类。

常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。

1. 聚类要素的数据处理假设有m 个聚类的对象，每一个聚类对象都有个要素构成。

它们所对应的要素数据可用表3.4.1给出。

（点击显示该表）在聚类分析中，常用的聚类要素的数据处理方法有如下几种。

①总和标准化②标准差标准化③极大值标准化经过这种标准化所得的新数据，各要素的极大值为1，其余各数值小于1。

④极差的标准化经过这种标准化所得的新数据，各要素的极大值为1，极小值为0，其余的数值均在0与1之间。

2. 距离的计算距离是事物之间差异性的测度，差异性越大，则相似性越小，所以距离是系统聚类分析的依据和基础。

①绝对值距离选择不同的距离，聚类结果会有所差异。

在地理分区和分类研究中，往往采用几种距离进行计算、对比，选择一种较为合适的距离进行聚类。

例：表3.4.2给出了某地区九个农业区的七项指标，它们经过极差标准化处理后，如表3.4.3所示。

对于表3.4.3中的数据，用绝对值距离公式计算可得九个农业区之间的绝对值距离矩阵：3. 直接聚类法直接聚类法是根据距离矩阵的结构一次并类得到结果。

▲ 基本步骤：①把各个分类对象单独视为一类；②根据距离最小的原则，依次选出一对分类对象，并成新类；③如果其中一个分类对象已归于一类，则把另一个也归入该类；如果一对分类对象正好属于已归的两类，则把这两类并为一类；每一次归并，都划去该对象所在的列与列序相同的行；④那么，经过m-1次就可以把全部分类对象归为一类，这样就可以根据归并的先后顺序作出聚类谱系图。

★直接聚类法虽然简便，但在归并过程中是划去行和列的，因而难免有信息损失。

因此，直接聚类法并不是最好的系统聚类方法。

[举例说明]（点击打开新窗口，显示该内容）例：已知九个农业区之间的绝对值距离矩阵，使用直接聚类法做聚类分析。

系统聚类法

ans =
0 11.6726 13.8054 13.1278 12.7983
11.6726 0 24.6353 24.0591 23.5389
13.8054 24.6353 0 2.2033 3.5037
13.1278 24.0591 2.2033 0 2.2159
12.7983 23.5389 3.5037 2.21590
Z=linkage(Y, 'method')
T=cluster(Z,cutoff)
dendrogram(Z)
以上一组命令可同样得出分类结果（由T显示），但样品间的距离和类之间的距离计算方法可自由选择，还可由dendrogram(Z)画出聚类图。
例2草是畜牧业生产中很有价值的一种植物。欲将7种苜蓿草按叶的形态加以聚类。测量叶长和叶宽，数据如下表：
Y=pdist(X,‘euclidean')
Z=linkage(Y,‘single’)
T=cluster(Z,cutoff)
以上三组命令调用灵活，可以自由选择组合方法！
（1）Y = pdist(X)或Y = pdist(X, 'metric')
计算数据集X中两两样品间的距离，pdist产生n(n-1)/2（由组合数计算而来）阶距离向量Y，参数‘metric’表示使用特定的方法计算样品之间的距离，常用的选择如下
Step2:样品间取欧氏距离（时的闵可夫斯基距离）距离计算：
Step3:把距离最短的样品合并：把1、2号合并为一类{1，2}，3，4号合并为一类{3，4}，最后把{1，2}、{3，4}合并为一类。（用最短距离法如何计算{1，2}、{3，4}两类的距离？）
若给定的分类临界值为1.5，则上述4个样品分为2类。还可根据专业需要确定适合的分类数。

聚类分析

聚类分析聚类分析又称群分析，它是研究（样品或指标）分类问题的一种多元统计方法，所谓类，通俗地说，就是指相似元素的集合。

聚类分析内容非常丰富，按照分类对象的不同可分为样品分类（Q-型聚类分析）和指标或变量分类（R-型聚类分析）；按照分类方法可分为系统聚类法和快速聚类法。

1. 系统聚类分析先将n 个样品各自看成一类，然后规定样品之间的“距离”和类与类之间的距离。

选择距离最近的两类合并成一个新类，计算新类和其它类（各当前类）的距离，再将距离最近的两类合并。

这样，每次合并减少一类，直至所有的样品都归成一类为止。

系统聚类法直观易懂。

1.1系统聚类法的基本步骤：第一，计算n 个样品两两间的距离，记作D= 。

第二，构造n 个类，每个类只包含一个样品。

第三，合并距离最近的两类为一新类。

第四，计算新类与各当前类的距离。

第五，重复步骤3、4，合并距离最近的两类为新类，直到所有的类并为一类为止。

第六，画聚类谱系图。

第七，确定类的个数和类。

1.2 系统聚类方法：1.2.1最短距离法1.2.2最长距离法1.2.3中间距离法1.2.4重心法1.2.5类平均法1.2.6离差平方和法（Ward 法）上述6种方法归类的基本步骤一致，只是类与类之间的距离有不同的定义。

最常用的就是最短距离法。

1.3 最短距离法以下用ij d 表示样品i X 与j X 之间距离，用ij D 表示类i G 与j G 之间的距离。

定义类i G 与j G 之间的距离为两类最近样品的距离，即ij G G G G ij d D j J i i ∈∈=,min设类p G 与q G 合并成一个新类记为r G ，则任一类k G 与r G 的距离是：ij G X G X kr d D j j i i ∈∈=,min⎭⎬⎫⎩⎨⎧=∈∈∈∈ij G X G X ij G X G X d d q j k i p j k i ,,min ,min min {}kq kp D D ,min = 最短距离法聚类的步骤如下：（1）定义样品之间距离，计算样品两两距离，得一距离阵记为)0(D ，开始每个ij d {}ij d样品自成一类，显然这时ij ij d D =。

系统聚类分析方法(精心整理)

五种常用系统聚类分析方法及其比较

聚类分析

系统聚类分析

系统工程 第三部分(二) 聚类分析

聚类分析的方法

聚类分析的基本概念与方法

系统聚类分析的理论

系统聚类分析方法

系统聚类法

聚类分析

系统工程第三部分(二) 聚类分析