第六章 聚类分析
六章聚类分析-PPT精选

一 它般们地之,间若的记距配离合可的 定变义量为数为m1,不配合的变量数为m2,则
故按此定义,本例中xd与12y之m间1m的2距m2离为2/3。
14
二、相似系数
变量之间的相似性度量,在一些应用中要看相似系 数的大小,而在另一些应用中要看相似系数绝对值 的大小。
2
相似性的不同定义
3
§6.2 距离和相似系数
相似性度量:距离和相似系数。 样品之间的距离和相似系数有着各种不同的定义,而这些定
义与变量的类型有着非常密切的关系。 变量的测量尺度:间隔、有序和名义尺度。 间隔变量:变量用连续的量来表示,如长度、重量、速度、
温度等。 有序变量:变量度量时不用明确的数量表示,而是用等级来
图6.3.4 最长距离法树形图
35
异常值的影响
最长距离法容易被异常值严重地扭曲。
36
例6.3.2 对305名女中学生测量八个体型指标:
表6.3.5
x1:身高
x5:体重
x2:手臂长
x6:颈围
x3:上肢长
x7:胸围
x4:下肢长
x8:胸宽
各对变量之间的相关系数
x1
x2
x3
x4
x5
x6
x7
x1
1.000
dij
iGK,jGL
图6.3.6 类平均法
39
递推公式:
1
1
DMJ
nM nJ
dij
iGM , jGJ
nM nJ
dij
iGK , jGJ
聚类分析_精品文档

1聚类分析内涵1.1聚类分析定义聚类分析(Cluste.Analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术.也叫分类分析(classificatio.analysis)或数值分类(numerica.taxonomy), 它是研究(样品或指标)分类问题的一种多元统计方法, 所谓类, 通俗地说, 就是指相似元素的集合。
聚类分析有关变量类型:定类变量,定量(离散和连续)变量聚类分析的原则是同一类中的个体有较大的相似性, 不同类中的个体差异很大。
1.2聚类分析分类聚类分析的功能是建立一种分类方法, 它将一批样品或变量, 按照它们在性质上的亲疏、相似程度进行分类.聚类分析的内容十分丰富, 按其聚类的方法可分为以下几种:(1)系统聚类法: 开始每个对象自成一类, 然后每次将最相似的两类合并, 合并后重新计算新类与其他类的距离或相近性测度. 这一过程一直继续直到所有对象归为一类为止. 并类的过程可用一张谱系聚类图描述.(2)调优法(动态聚类法): 首先对n个对象初步分类, 然后根据分类的损失函数尽可能小的原则对其进行调整, 直到分类合理为止.(3)最优分割法(有序样品聚类法): 开始将所有样品看成一类, 然后根据某种最优准则将它们分割为二类、三类, 一直分割到所需的K类为止. 这种方法适用于有序样品的分类问题, 也称为有序样品的聚类法.(4)模糊聚类法: 利用模糊集理论来处理分类问题, 它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果.(5)图论聚类法: 利用图论中最小支撑树的概念来处理分类问题, 创造了独具风格的方法.(6)聚类预报法:利用聚类方法处理预报问题, 在多元统计分析中, 可用来作预报的方法很多, 如回归分析和判别分析. 但对一些异常数据, 如气象中的灾害性天气的预报, 使用回归分析或判别分析处理的效果都不好, 而聚类预报弥补了这一不足, 这是一个值得重视的方法。
第六章 地理系统的聚类分析

G4 G5
0 0.862
0
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
3.在D(2)中,选出距离系数最小的,即d45=0.862, 将G4和G5合并成新类G8,记为G8={G4,G5},并记入 联结表中。
计算G8与其它各类之间的距离。
m
m
xi2k
x
2 jk
k 1
k 1
式个上中地一页:点i和和第j代j个表地两下点个一的地页第点k(个样地品理返)指回,目标x录值ik,x。jk分别代退表出第
第六章 地理系统的聚类分析
§1 聚类分析的基本思想
三、分类统计量-夹角余弦
相似系数矩阵
c os11 cos21
c os n1
性质:
联结表
联结顺序
1 2 3 4
新类
联结法 类别
距离系数
G6
G1、G2
0.043
G7
G3、G1、G2
0.723
G8
G4、G5
0.862
G9 G3、G1、G2、 G4、G5 1.442
第上一页步
第下二一页步
返第回三目步录
第六章 地理系统的聚类分析
第退四出步
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
三、分类统计量-夹角余弦
二维: 三维:
n 维:
cos
xi1x j1 xi2 x j2
( xi21
xi22
)(
x
2 j1
x
2 j2
)
cos
xi1x j1 xi2 x j2 xi3 x j3
《SPSS数据分析与应用》第6章聚类分析

《SPSS数据分析与应用》第6章聚类分析聚类分析是一种数据挖掘技术,用于将一组数据中的对象进行分类或分组。
其主要目标是将相似的对象放在同一组中,而将不相似的对象放在不同的组中,以便研究者能够更好地理解数据的结构和特征。
在《SPSS数据分析与应用》第6章中,聚类分析被详细地介绍了。
该章节主要包括以下内容:聚类分析的基本概念、聚类分析的步骤、聚类分析的常见算法以及聚类分析的应用。
聚类分析的基本概念是指将一组数据中的对象根据其相似性进行分组的过程。
相似性可以通过计算对象之间的距离或相似性度量来确定。
距离可以是欧氏距离、曼哈顿距离、切比雪夫距离等,而相似性度量可以是相关系数、余弦相似度等。
聚类分析的步骤包括:选择变量、选择聚类算法、设置聚类分析选项、运行聚类分析、解释和评估聚类结果。
其中,选择变量是指从原始数据中选择要参与聚类的变量;选择聚类算法是指选择适合研究问题的聚类算法,常见的有层次聚类、K均值聚类等;设置聚类分析选项是指设置聚类分析的参数,如距离度量、聚类方法等;运行聚类分析是指将设置好的聚类分析选项应用到原始数据中进行聚类分析;解释和评估聚类结果是指根据聚类分析的结果,对不同的聚类进行解释和评估。
聚类分析的常见算法有层次聚类和K均值聚类。
层次聚类是一种通过生成层次树状结构将数据分成不同的聚类的方法。
它可以分为凝聚法和分立法两种,其中凝聚法是自下而上的将对象进行合并,而分立法则是自上而下的将对象进行分割。
K均值聚类是一种迭代的聚类算法,它将数据划分为K个聚类,每个聚类中的对象与其他聚类中的对象的差异最小。
聚类分析的应用非常广泛,它可以用于市场分割、群体分析、图像分析等领域。
在市场分割中,聚类分析可以根据消费者的属性和行为将市场细分为不同的目标市场,以便企业能够更好地满足不同目标市场的需求;在群体分析中,聚类分析可以将相似的个体划分为同一个群体,以便研究者能够更好地理解不同群体的特征和行为规律;在图像分析中,聚类分析可以将图像中的像素根据其颜色和亮度进行分组,以便研究者能够更好地理解图像的结构和特征。
第六章 地系统的聚类分析

2.在D(1)中,选出距离系数最小的,即d63=0.723, 将G6和G3合并成新类G7,记为G7={G6,G3},并记入 联结表中。
计算G7与其它各类之间的距离。
上一页
下一页
返回目录
退出
第六章 地理系统的聚类分析
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
d74midn6{4,d34}mi2n.0{6,1.0 44} 21.442
dij表示地点i与j的距离; G1,G2,…表示类别。
drkmindp{k,dqk}
上一页
新类的记号
下一页
返回目录
第六章 地理系统的聚类分析
旧类的记号
退出
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
例:有一组5个 区域,2个指标 的地理资料矩阵 如表所示。试对 这5个区域用最 短距离法进行聚 类分析。
rij
m
(xik xi)(xjk xj )
k1
m
m
(xik xi)2 (xjk xj )2
k1
k1
在数据标准化后,相关系数公式简化为:
rij
1m mk1
xik
xjk
式中:i和j代表两个地点(样品),xik,xjk分别代 表第i个地点和第j个地点的第k个地理指标值。
cosn2
cos1n
cos2n
cosnn
对角线元素为1 对称方阵
取值范围:-1~1 绝对值越大,相似程度越强。
上一页
下一页
返回目录
退出
第六章 地理系统的聚类分析
§1 聚类分析的基本思想
聚类分析

算法
聚类分析是数据挖掘中的一个很活跃的研究领域,并提出了许多聚类算法。传统的聚类算法可以被分为五类: 划分方法、层次方法、基于密度方法、基于格方法和基于模型方法。
1划分方法(PAM:PArtitioning method)首先创建k个划分,k为要创建的划分个数;然后利用一个循环定位 技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括:
k-means,k-medoids,CLARA(Clustering LARge Application), CLARANS(Clustering Large Application based upon RANdomized Search). FCM 2层次方法(hierarchical method)创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解) 和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合 并经常要与其它聚类方法相结合,如循环定位。典型的这类方法包括: BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)方法,它首先利用进行优化。
主要步骤
1.数据预处理,
2.为衡量数据点间的相似度定义一个距离函数,
3.聚类或分组,
4.评估输出。
数据预处理包括选择数量,类型和特征的标度,它依靠特征选择和特征抽取,特征选择选择重要的特征,特 征抽取把输入的特征转化为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免“维数灾”进行 聚类,数据预处理还包括将孤立点移出数据,孤立点是不依附于一般数据行为或模型的数据,因此孤立点经常会 导致有偏差的聚类结果,因此为了得到正确的聚类,我们必须将它们剔除。
聚类分析法ppt课件全
8/21/2024
25
1.2.2 动态聚类分析法
1.2 聚类分析的种类
(3)分类函数
按照修改原则不同,动态聚类方法有按批修改法、逐个修改法、混合法等。 这里主要介绍逐步聚类法中按批修改法。按批修改法分类的原则是,每一步修 改都将使对应的分类函数缩小,趋于合理,并且分类函数最终趋于定值,即计 算过程是收敛的。
8/21/2024
23
1.2.2 动态聚类分析法
1.2 聚类分析的种类
(2)初始分类 有了凝聚点以后接下来就要进行初始分类,同样获得初始分类也有不同的
方法。需要说明的是,初始分类不一定非通过凝聚点确定不可,也可以依据其 他原则分类。
以下是其他几种初始分类方法: ①人为分类,凭经验进行初始分类。 ②选择一批凝聚点后,每个样品按与其距离最近的凝聚点归类。 ③选择一批凝聚点后,每个凝聚点自成一类,将样品依次归入与其距离
8/21/2024
14
1.2 聚类分析的种类
(2)系统聚类分析的一般步骤 ①对数据进行变换处理; ②计算各样品之间的距离,并将距离最近的两个样品合并成一类; ③选择并计算类与类之间的距离,并将距离最ቤተ መጻሕፍቲ ባይዱ的两类合并,如果累的个
数大于1,则继续并类,直至所有样品归为一类为止; ④最后绘制系统聚类谱系图,按不同的分类标准,得出不同的分类结果。
8/21/2024
18
1.2 聚类分析的种类
(7)可变法
1 2 D kr
2 (8)离差平方和法
(D k 2 pD k 2 q)D p 2q
D k 2 rn n ir n n p i D i2 pn n ir n n q iD i2 qn rn in iD p 2 q
8/21/2024
《SPSS数据分析与应用》第6章 聚类分析
• 当纵坐标为13时,15个样本被12个白色 间隙分隔为13类。
系统聚类的结果解读
冰柱图聚类进程(最后一步)
依次类推,直到将15个样本全部 聚为一类,在15个样本之间没有 白色间隙,表示系统聚类结束。
• 测度观测点之间“亲疏”程度的方法与K-means聚类相同。 • 观测点与小类、小类与小类之间“亲疏”程度的测度,常用的方法有以下几种:
(1)重心法 (2)最近邻元素法 (3)组间平均联接法 (4)组间平均联接法 (5)离差平方和法
系统聚类的基本操作
第一步:用SPSS打开数据文件“移动通信客户_样本15.sav”。 第二步:在菜单栏中选择【分析(A)】→【描述统计(E)】→【描述(D)】,在弹出的 “描述”对话框的左下 角勾选【将标准化值另存为变量(Z)】,将已有的 6 个连续性变量都选到【变量(V)】列表框中,单击【确定】 按钮。
第四步:在“K均值聚类分析”对话框中单击右上角的【迭代(I)】按钮,在弹出的“K-均值聚类分析:迭代” 对话框中将【最大迭代次数(M)】修改为“50”,【收敛准则(C)】暂时不做修改。单击【继续(C)】按钮, 回到“K 均值聚类分析” 对话框。
K-Means聚类的基本操作
第五步:在“K均值聚类分析”对话框中单击右上角的【保存 (S)】按钮,在弹出的“K-均值聚类:保存新 变量”对话框中勾选【聚类成员(C)】和【与聚类中心的距离(D)】。单击【继续(C)】按钮,回到“K均 值聚类分析”对话框。
第一,如何测度样本的“亲疏程度”; 第二,如何进行聚类
K-means聚类对“亲疏程度”的测度
第六章--聚类分析和判别分析
13.88
f 107.8
62.24
15.6
8.88
31
g 73.18
44.54
23.9
15.2
22.38
h 72.23
47.31
9.48
6.43
13.14
i 84.66
44.05
13.5
7.47
19.11
j
114
41.44
33.2
11.2
48.72
k 74.96
50.13
13.9
9.62
16.14
l
12.7
上海
0.74
13.1
10.0
东山
1.01
12.5
11.7
长
南京
0.87
10.9
11.5
从表中可知,判别方程为: y=-9.3+2.074X1+0.197X2+0.294X3。
计算 和
y1
y2
求均值
y1
求均值
y2
y 计算 0
y0 n1 y1 n2 y2 n1 n2
徐州 1.48 8.3 11.1 -1.33198
阜阳 1.07 8.6 10.9 -2.18202
判别归类
yc
y0
0.29362 > 1E-06
华北
0.1154 > 1E-06
华北
-0.3799 < 1E-06 长江中下游
-1.33198 < 1E-06 长江中下游
-2.18202 < 1E-06 长江中下游
第六章 聚类分析与判别分析
快速样本聚类分析
聚类分析解析课件
类间距的度量
类:一个不严格的定义
定义9.1:距离小于给定阀值的点的集合 类的特征
◦ 重心:均值 ◦ 样本散布阵和协差阵 ◦ 直径
类间距的定义
最短距离法 最长距离法 重心法 类平均法 离差平方和法 等等
最小距离法(single linkage method)
极小异常值在实际中不多出现,避免极 大值的影响
类的重心之间的距离
对异常值不敏感,结果更稳定
离差平方和法(sum of squares
method或ward method)
W代表直径,D2=WM-WK-WL
即
DK2L
nL nk nM
XK XL XK XL
Cluster K
Cluster M
Cluster L
◦ 对异常值很敏感;对较大的类倾向产生较大的距 离,从而不易合并,较符合实际需要。
如表9.2所示,每个样品有p个指标,共 有n个样品
每个样品就构成p维空间中的一个点
:第i个样品的第k个指标对应的取值
◦ i=1……n; k=1……p
:第i个样品和第j个样品之间的距离
◦ i=1……n; j=1……n
点间距离测量问题
样品间距离与指标间距离 间隔尺度、有序尺度与名义尺度 数学距离与统计距离 相似性与距离:一个硬币的两面
类图上发现相同的类
饮料数据
16种饮料的热量、咖啡因、钠及价格四种变量
SPSS实现
选择Analyze-Classify-Hierarchical Cluster, 然 后 把 calorie ( 热 量 ) 、 caffeine ( 咖 啡
因)、sodium(钠)、price(价格)选入 Variables, 在Cluster选Cases(这是Q型聚类:对观测 值聚类),如果要对变量聚类(R型聚类) 则选Variables, 为 了 画 出 树 状 图 , 选 Plots , 再 点 Dendrogram等。 可以在Method中定义点间距离和类间距 离
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二. 聚类分析的SAS书写格式
proc cluster data=数据集名称 method=方法 选项串; var 变量名称; (用于聚类分析的变量) id 变量名称; (在聚类分析中用于标识观测样本的变量) proc tree data=数据集名 out=数据集名 horizontal graphics; id 变量名称; (在聚类谱系图中用于标识观测样本的变量)
(1)计算5个样品x1,x2,x3, x1 x2 x3 x4 x5 x4,x5两两间的距离,得初始 x1 0 [ 1 ] 3.5 5 7 0 2.5 4 6 的类间距离阵D(1) x2 0 1.5 3.5 x3 (2)一开始5个样品各自构成一 0 2 x4 类,得5个类 0 x5 G(i)={X(i)} (i =1,2,3,4,5) 类的个数为k=5 X3 x4 x5 CL4 (3)由D(1)可知,首先合并x1和x2为 X3 0 [ 1.5 ] 3.5 2.5 X4 一新类,记为CL4={x1,x2},此时类 0 2 4 0 6 的个数减少一类变为k=4,故把此步 X5 CL4 0 得到的新类记为CL4. (4)按最短距离法计算新类与其他类间的距离,得新的距离矩阵 D(2)见右表二,因此时类的总个数k=4大于1类,重复并类 过程.
一. 系统聚类法的基本思想和基本步骤
1. 系统聚类法的基本思想 设有n个样品,每个样品测得p项指标.系统聚类方法的基本思 想是:首先定义样品间的距离(或相似系数)以及类与类之间距离. 一开始将n个样品各自成一类,这时样品间的距离与类间的距离 是等价的;然后将距离最近的两类合并,并计算新类与其他类的 类间距离,再按最小距离准则并类.这样每次缩小一类,直到所有 的样品并为一类为止.这个并类过程可以用谱系聚类图表达出来. 由以上系统聚类法的基本思想,即可得出它的基本步骤如下: (0)先对数据进行变换,数据变换的目的是为了比较、计算上的 方便而改变数据的结构.再选择度量样品间距离的定义(如欧 氏距离等).及度量类间距离的定义(如最短距离法,参见下面 的系统聚类分析的方法).
(1)计算n个样品两两间的距离,得样品间的距离矩阵D(0) (2)一开始(第一步:i=1)n个样品各自构成一类,类的个数k=n 此时的类为Gi={Xi} i=1,2, …n,类间的距离就是样品间的 距离(即D(1)=D(0))然后对步骤i=1,2, …n执行并类过程的步 骤(3)和(4). (3)每次合并类间距离最小的两类为一新类.此时类的总个数k 减少1类,即k=n-i-1 (4)计算新类与其他类的距离,得新的距离阵D(i),若合并后类的 总个数k 仍大于1.重复步骤(3)和(4);直到类的总个数时k=1 为止。 (5)画聚类谱系图;(6)决定分类的个数及各类的成员。 例子 设有5个产品,每个产品测得一项指标,其值如下: 1, 2 , 4.5 , 6 , 8试对这5个产品按质量指标进行分类。 解 样品间的距离取为欧氏距离(普通的距离),类间的距离取为 类间的最短距离,依以上步骤计算如下:
(1) NCL 4 3 2 1 (2) Cluster History --Clusters Joined--X1 X2 X3 X4 CL3 X5 CL4 CL2 Obs name CLUSTER 1 X1 1 2 X2 1 3 X3 2 4 X4 2 5 X5 2 Min Dist T i e
FREQ 2 1 2 1.5 3 2 5 2.5 CLUSNAME CL4 CL4 CL2 CL2 CL2
选项outtree=han2指定输出数据集的名字,该数据集包含用
于画谱系聚类图的并类过程.Var语句指出用于聚类分析的变量;
id语句指定在输出中用变量name识别观测样品.并类的历史 过程见以上输出结果的第一部分.Tree过程用于画谱系图,选项 horizontal要求画水平的聚类谱系图.选项graphics要求画高 分辨率的图形.输出的谱系图见下(输出结果的第三部分).选项 ncl=2和out=han3指出分为二类,并把分类结果放到输出数据集 han3中.Print过程输出分为二类的分类结果,见输出结果的第 二部分.
输出的基本信息: The CLUSTER Procedure Single Linkage Cluster Analysis Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative 1 8.20000000 1.0000 1.0000 Root-Mean-Square Total-Sample Standard Deviation = 2.863564
四. 类个数的确定
聚类分析中,类个数的确定是一个十分困难的问题,至今尚未找到令人满 意的方法,下面介绍几种常见的方法. 1.由适当的阈值确定 选定某种聚类方法,按系统聚类的步骤并类后,得到一张谱系聚类图.聚类图 (或简称谱系图)只反映样品(或变量间)的亲疏关系,它本身并没有给出分类,需 要规定一个临界相似性尺度,用以分割谱系聚类图,给定临界值(阈值) d,其含 义为样品间绝对距离<d 时,认为这些样品间关系密切,应归属同一类.这相当 于在距离为d 处切一刀. 2.根据统计量确定分类个数 CLUSTER过程提供如下的统计量用来选择合适的类个数. (1) R2 越大,聚类效果越好. (2) 半偏R2用于评价上一次合并的效果,某步半偏R2越大,说明上一次合并聚类 后的效果越好. (3)伪 F 统计量用于评价分为k个类的效果,伪F 的值越大表明这个 n 样品可 显著地分为k个类 (4)伪 t2 值越大说明上一次被合并的两类是很分开的,上一次的聚类效果越好.
ቤተ መጻሕፍቲ ባይዱ第六章
第一节
聚类分析
系统聚类与CLUSTER过程
第二节
第三节
变量聚类分析和VARCLUS过程
模糊聚类分析
聚类分析又称群分析,它是对样品或指标进行分类的一种多 元统计方法.在实际问题中,经常遇到分类问题,例如对某城市按 大气污染的轻重分成几类;在经济学中根据人均国民收入、人均 工农业产值、人均消费水平等多种指标对地区性的经济发展状 况进行分类等. 分类只不过是将一个观测对象指定到某一类(组)中,分类的 问题可以分成两种:一种是对当前所研究的问题已知它的类别数 目,且知道各类的特征,我们的目的是要将另一些未知类别的个 体正确归属于其中某一类,这是判别分析所要解决的问题.另一种 是事先不知道研究的问题应分为几类,更不知道观测到的个体的 具体分类情况.
data han1; input name $ x @@; cards; x1 1 x2 2 x3 4.5 x4 6 x5 8 ; proc cluster data=han1 method=single nonorm outtree=han2; var x; id name; proc tree data=han2 out=han3 ncl=2 horizontal graphics; id name; proc print data=han3; run; 说明:以上SAS程序中,引入一个字符变量name,目的是在输出中 用x1至x5来识别5个产品CLUSTER过程是用于系统聚类的过 程.选项method=single规定类距离使用最短距离法.选项 nonorm表示类间的距离不进行规格化.
Cluster History NCL-Clusters Joined- FREQ SPRSQ RSQ ERSQ CCC PSF 21 G1 G2 2 0.0002 1.00 . . 311 20 G11 G12 2 0.0011 .999 . . 82.7 19 G4 G7 2 0.0012 .998 . . 68.5 18 G13 G21 2 0.0030 .995 . . 43.2 17 G17 G20 2 0.0051 .989 . . 29.3 16 G8 CL18 3 0.0086 .981 . . 20.5 15 CL19 G18 3 0.0122 .969 . . 15.4 14 G15 G22 2 0.0096 .959 . . 14.4 13 CL21 CL14 4 0.0223 .937 . . 11.1 12 CL17 G19 3 0.0197 .917 . . 10.0 11 CL13 G6 5 0.0278 .889 . . 8.8 10 G3 G14 2 0.0258 .863 . . 8.4 9 CL11 G5 6 0.0436 .820 . . 7.4 8 CL15 CL16 6 0.0898 .730 . . 5.4 7 CL8 G9 7 0.0443 .686 . . 5.5 6 CL9 CL12 9 0.1051 .581 . . 4.4 5 CL10 CL7 9 0.0798 .501 . . 4.3 4 CL6 CL5 18 0.1692 .332 .526 -4.3 3.0 3 CL4 CL20 20 0.1336 .198 .415 -4.2 2.3 2 CL3 G16 21 0.0949 .103 .250 -3.1 2.3 1 CL2 G10 22 0.1032 .000 .000 0.00 .
(5)由D(2)可知类间距离为1.5最小,故 X5 CL4 CL3 合并x3和x4为一新类,记为 X5 0 6 [2] CL3={x3, x4};类的总个数减少一个 CL4 0 2.5 变为k=3,故把此步得到的新类记为CL3. 0 CL3 (6)按最短距离法计算新类与其他类的距离,得新的距离矩阵D(3) 因此时类的总个数大于1类,重复并类过程. (7)由D(3)可知,应合并x5和CL3为一新类,记为CL2={x5,CL3}, 此时类的总个数k减少1类变为k=2,故把此 CL4 CL2 步得到的新类记为CL2. CL4 0 [2.5] (8)按最短距离法计算新类CL2与其他类的距 CL2 0 离,得新的距离矩阵D(4)因此时总的类个数 k=2大于1,重复并类过程. (9)由D(4)可知,最后应合并CL4和CL2为一新类,记为 CL1={x1, x2, x5, x3,x4}. 此时类的总个数k=1, 故把此步得到的新类记为CL1,此时所 有样品全合并为一类,并类过程至此结束.