第二章距离分类器和聚类分析-Read

合集下载

模式识别聚类分析

模式识别聚类分析

x1 ,
(
( x1
x2旳值。可用下列递推
k ) xi ) /( N1(k ) 1)
x(k 1) 2
(k)
x2
(k)
(x2
xi
)
/(
N
(k 2
)
1)
x1 (k ) , x2 (k )是第k步对分时两类均值,
x1(k 1) , x2(k 1)是下一次对分时把xi从G1(k )
划到G2(k)时的两类均值
所以x1 Z1(1)
再继续进行第二,第三次迭代… 计算出 E(2) , E(3) , …
次数 1 2 3 4 5 6 7 8 9
10 11
G1 G2
x21 x20 x18 x14 x15 x19
x11 x13 x12 x17 x16
E值 56.6 79.16 90.90 102.61 120.11 137.15 154.10 176.15 195.26 213.07 212.01
Ni为第i类的样本数.
离差平方和增量:设样本已提成ωp,ωq两类, 若把ωp,ωq合为ωr类,则定义离差平方:
Dp2q Sr (S p Sq )
其中S p , Sq分别为 p类于q类的离差平方和, S r为 r 类的离差平方和
增量愈小,合并愈合理。
聚类准则
Jw Min
类内距离越小越好 类间距离越大越好
体积与长,宽,高有关;比重与材料,纹理,颜 色有关。这里低、中、高三层特征都有了。
措施旳有效性
特征选用不当 特征过少 特征过多 量纲问题
主要聚类分析技术
谱系法(系统聚类,层次聚类法) 基于目旳函数旳聚类法(动态聚类) 图论聚类法 模糊聚类分析法
2.2模式相同度度量

模式识别导论习题参考答案-齐敏

模式识别导论习题参考答案-齐敏
min( Di1 , Di 2 ) { 0, 2 , 8 , 4 , 5 , 2 ,0, 17 , 20 , 13}
④ max{min( D i1 , D i 2 )}
20 D 92 T
1 74 , Z 3 X 9 [7,3]T 2
⑤ 继续判断是否有新的聚类中心出现:
D10,1 65 D21 2 D11 0 74 52 D D , ,… 12 22 D10, 2 13 D13 58 D23 40 D10,3 1
G2 (0)
G 3 ( 0)
G4 ( 0 )
G5 (0)
0 1 2 18 32 0 5 13
25
G3 (0)
G4 (0)
0 10 20 0
2
G5 (0)
0
(2) 将最小距离 1 对应的类 G1 (0) 和 G2 (0) 合并为一类,得到新的分类
G12 (1) G1 (0), G2 (0) , G3 (1) G3 (0), G4 (1) G4 (0) , G5 (1) G5 (0)
2
X3 X 6 ) 3.2, 2.8
T
④ 判断: Z j ( 2) Z j (1) , j 1,2 ,故返回第②步。 ⑤ 由新的聚类中心得:
X1 : X2 :
D1 || X 1 Z 1 ( 2) || X 1 S1 ( 2 ) D2 || X 1 Z 2 ( 2) || D1 || X 2 Z1 ( 2) || X 2 S1 ( 2 ) D2 || X 2 Z 2 ( 2) ||
T
(1)第一步:任意预选 NC =1, Z1 X 1 0,0 ,K=3, N 1 , S 2 , C 4 ,L=0,I=5。 (2)第二步:按最近邻规则聚类。目前只有一类, S1 { X 1 , X 2 , , X 10 },N 1 10 。 (3)第三步:因 N 1 N ,无聚类删除。 (4)第四步:修改聚类中心

模式识别第二章ppt课件

模式识别第二章ppt课件
2.2.2 聚类准则
• 试探方法
凭直观感觉或经验,针对实际问题定义一种 相似性测度的阈值,然后按最近邻规则指定 某些模式样本属于某一个聚类类别。
– 例如对欧氏距离,它反映了样本间的近邻性,但 将一个样本分到不同类别中的哪一个时,还必须 规定一个距离测度的阈值作为聚类的判别准则。
精选ppt课件2021
• 特征选择的维数
在特征选择中往往会选择一些多余的特征,它增加了 维数,从而增加了聚类分析的复杂度,但对模式分类 却没有提供多少有用的信息。在这种情况下,需要去 掉相关程度过高的特征(进行降维处理)。
• 降维方法
– 结论:若rij->1,则表明第i维特征与第j维特征所反 映的特征规律接近,因此可以略去其中的一个特
– 距离阈值T对聚类结果的影响
精选ppt课件2021
17
2.3 基于试探的聚类搜索算法
2.3.2 最大最小距离算法
• 基本思想:以试探类间欧氏距离为最大 作为预选出聚类中心的条件。
• 病人的病程
– 名义尺度:指定性的指标,即特征度量时没有数量
关系,也没有明显的次序关系,如黑色和白色的关
系,男性和女性的关系等,都可将它们分别用“0”
和“1”来表示。
• 超过2个状态时,可精选用pp多t课个件2数021值表示。
8
2.2 模式相似性的测度和
聚类准则
2.2.1 相似Βιβλιοθήκη 测度• 目的:为了能将模式集划分成不同的类别,必须定义 一种相似性的测度,来度量同一类样本间的类似性和 不属于同一类样本间的差异性。
12
2.2 模式相似性的测度和
聚类准则
2.2.2 聚类准则
• 聚类准则函数法
– 依据:由于聚类是将样本进行分类以使类别间可 分离性为最大,因此聚类准则应是反映类别间相 似性或分离性的函数;

第二章距离分类器和聚类分析

第二章距离分类器和聚类分析

第二章 距离分类器和聚类分析2.1 距离分类器一、模式的距离度量通过特征抽取,我们以特征空间中的一个点来表示输入的模式,属于同一个类别的样本所对应的点在模式空间中聚集在一定的区域,而其它类别的样本点则聚集在其它区域,则就启发我们利用点与点之间距离远近作为设计分类器的基准。

这种思路就是我们这一章所要介绍的距离分类器的基础。

下面先看一个简单的距离分类器的例子。

例2.1作为度量两点之间相似性的距离,欧式距离只是其中的一种,当类别的样本分布情况不同时,应该采用不同的距离定义来度量。

设,X Y 为空间中的两个点,两点之间的距离(),d X Y ,更一般的称为是范数X Y -,一个矢量自身的范数X 为矢量的长度。

作为距离函数应该满足下述三个条件: a) 对称性:()(),,d d =X Y Y X ;b) 非负性:(),0d ≥X Y ,(),0d =X Y 当且仅当=X Y ; c) 三角不等式:()()(),,,d d d ≤+X Y X Z Y Z 。

满足上述条件的距离函数很多,下面介绍几种常用的距离定义: 设()12,,,Tn x x x =X ,()12,,,Tn y y y =Y 为n 维空间中的两点1、 欧几里德距离:(Eucidean Distance)()()1221,ni i i d x y =⎡⎤=-⎢⎥⎣⎦∑X Y2、 街市距离:(Manhattan Distance)()1,ni i i d x y ==-∑X Y3、 明氏距离:(Minkowski Distance)()11,mnm i i i d x y =⎡⎤=-⎢⎥⎣⎦∑X Y当2m =时为欧氏距离,当1m =时为街市距离。

4、 角度相似函数:(Angle Distance)(),T d ⋅=X YX Y X Y1nTi i i x y =⋅=∑X Y 为矢量X 和Y 之间的内积,(),d X Y 为矢量X 与Y 之间夹角的余弦。

判别分析与聚类分析的基本原理

判别分析与聚类分析的基本原理

判别分析与聚类分析的基本原理数据分析是在如今信息时代中,越来越重要的一项技能。

在数据分析的过程中,判别分析和聚类分析是两个非常重要的方法。

本文将介绍判别分析和聚类分析的基本原理,以及它们在数据分析中的应用。

一、判别分析的基本原理判别分析是一种用于分类问题的统计方法,其目的是通过学习已知类别的样本数据,来构建一个分类器,从而对未知样本进行分类。

判别分析的基本原理可以简单概括为以下几个步骤:1. 数据预处理:首先需要对数据进行预处理,包括数据清洗、缺失值处理、特征选择等,以获得更好的数据质量。

2. 特征提取:在进行判别分析之前,需要将原始数据转化为有效的特征。

特征提取的方法有很多种,常用的包括主成分分析、线性判别分析等。

3. 训练分类器:利用判别分析算法对已知类别的样本数据进行训练,建立分类模型。

常用的判别分析方法有线性判别分析、二次判别分析等。

4. 分类预测:通过训练好的分类器,对未知样本进行分类预测。

分类预测的结果可以是离散的类标签,也可以是概率值。

判别分析广泛应用于医学、金融、市场营销等领域。

例如,在医学领域,可以利用判别分析来预测疾病的状态,辅助医生做出诊断决策。

二、聚类分析的基本原理聚类分析是一种无监督学习方法,其目的是将相似的数据对象分组,使得同一组内的对象相似度较高,不同组间的相似度较低。

聚类分析的基本原理可以概括为以下几个步骤:1. 选择相似性度量:首先需要选择一个合适的相似性度量,用于评估数据对象之间的相似程度。

常用的相似性度量包括欧氏距离、曼哈顿距离等。

2. 选择聚类算法:根据具体的问题需求,选择合适的聚类算法。

常用的聚类算法有K-means、层次聚类等。

3. 确定聚类数目:根据实际问题,确定聚类的数目。

有些情况下,聚类数目事先是已知的,有些情况下需要通过评价指标进行确定。

4. 根据聚类结果进行分析:将数据对象划分到各个聚类中,并对聚类结果进行可视化和解释。

聚类分析被广泛应用于市场分析、图像处理、社交网络等领域。

机器学习基础教程课件:分类与聚类学习算法

机器学习基础教程课件:分类与聚类学习算法
如图5.6展示了二维数据的决策边界
图5.6 决策边界为直线
这样,特征空间被决策边界划分成不同的区域,每个区域对应一个类别,称为决策区域。 当我们判定待识别的样本位于某个决策区域时,就判决它可以划归到对应的类别中。需要注意的是,决策区域包含类别中样本的分布区域,但不等于类别的真实分布范围。
数据实际属于类别π1
数据实际属于类别π2
分类操作结果属于类别π1
分类操作结果属于类别π2
表5.1 分类情况表
图5.4 错误分类概率情况图
分类情况的好坏可以使用错误分类代价(简称错分代价) 来进行衡量。由于正确分类没有出现错误,因此正确分类的错分代价为0。而将本来属于类别 的数据错分为类别 的错分代价为 ;同样的,将本来属于类别 的数据错分为类别 的错分代价为 。在两分类的情况下,综合所有的因素,可以使用期望错分代价(ECM)来进行评价: 优良的分类结果应该式(5.5)的错分代价最小。对于图5.4所示的两个分类区域,应该有:对于R2有: 对于 有: 对于 有:
式中, 为两类数据的均值(期望),S为两类数据相同的协方差阵。对式(5.14)有: (5.15) 可得线性分类函数为: (5.16) 对于两类方差不同的总体,其分类域变为: (5.17) (5.18)
式中, (5.19) 可见,当两个总体的方差相同时 ,将其代入式(5.19)。式(5.17)、(5.18)就退化为式(5.12)、(5.13)。 对于多个正态总体的数据集进行分类,可以将两类数据的分类方法进行推广。对于期望错分代价函数来讲,如果有n类数据,且将第一类数据错分为各个n-1类的数据,则借鉴两个总体期望错分代价函数的情况,有:
图5.5 SigmoidБайду номын сангаас数曲线

基于机器学习的文本分类与聚类分析技术研究

基于机器学习的文本分类与聚类分析技术研究

基于机器学习的文本分类与聚类分析技术研究随着互联网时代的到来,海量的文本数据已经变得非常普遍。

如何从大量的数据中提取有用的信息,近年来成为了很多企业和机构需要面对的一个问题。

而文本分类和聚类分析技术则成为了解决这个问题的最佳选择之一。

本文将基于机器学习的文本分类与聚类分析技术进行深入研究。

一、文本分类技术浅析文本分类技术是现代信息处理技术的一个重要组成部分,其运用机器学习等算法对文本信息进行分析,然后将其归类至不同的类别中。

这种技术能够将海量的文本信息进行有效地分类,极大地提高了文本信息处理的效率。

文本分类算法的种类繁多,其中主要有基于特征的分类方法、基于概率的贝叶斯分类方法等。

其中,基于特征的分类方法是一种广泛应用的文本分类技术。

该方法会先从输入的文本中抽取出有用的特征向量,然后将这些特征向量放入到分类器中进行分类。

这种方法的特点是具有良好的扩展性和解释性,在实际应用中表现出了较高的精度。

二、文本聚类分析技术深入探究文本聚类是指将海量的文本信息按照特定的规则进行分类,然后将同一类别的文本信息放在一起。

该技术主要运用于数据挖掘、信息检索、知识管理等领域。

而机器学习和深度学习技术则是实现文本聚类的主要手段。

文本聚类的主要算法有层次聚类、K-Means聚类、SOM聚类等。

其中,层次聚类算法是一种比较流行的文本聚类算法。

该算法不依赖于先验的聚类数量,可以在不断的分裂和合并中完成文本聚类任务,但由于其计算复杂度较高,因此无法应用于大规模文本聚类。

相比之下,K-Means聚类算法的计算复杂度非常低,非常适合用于大规模文本聚类。

该算法将数据随机分配到聚类中心中,然后通过计算距离将其划分至其最近的聚类中心中,迭代若干次后,就可以得到最终的文本聚类结果。

三、机器学习在文本分类和聚类分析中的应用机器学习技术已经成为了文本分类和聚类分析的常用手段。

其中,机器学习算法能够通过样本学习,自动的构建出一个分类器,用于对输入的数据进行分类。

系统聚类距离

系统聚类距离

系统聚类距离系统聚类距离是一种用于衡量聚类结果的评估指标。

在机器学习和数据挖掘中,聚类是将相似的数据对象分组到同一个簇中的过程。

而系统聚类距离就是用来评估聚类结果的紧密程度和稳定性的指标。

系统聚类距离是通过计算聚类过程中不同簇的合并所产生的距离来衡量的。

具体而言,系统聚类距离考虑了每个簇的样本之间的距离以及不同簇之间的距离。

通过计算这些距离的和,可以得到一个系统聚类距离的值,用于评估聚类结果的质量。

系统聚类距离的计算可以使用不同的方法,常见的方法包括最小距离法、最大距离法、平均距离法等。

最小距离法将聚类结果的距离定义为簇内最近的两个样本的距离;最大距离法将聚类结果的距离定义为簇内最远的两个样本的距离;平均距离法将聚类结果的距离定义为簇内所有样本的距离的平均值。

系统聚类距离的值越小,表示聚类结果越紧密,簇内的样本越相似。

而值越大,则表示聚类结果越松散,簇内的样本差异性较大。

通过比较不同聚类算法的系统聚类距离,可以选择合适的算法来进行聚类分析。

在实际应用中,系统聚类距离常常用于确定最佳聚类数目。

通过比较不同聚类数目下的系统聚类距离,可以找到一个最合适的聚类数目,以获得最优的聚类结果。

除了系统聚类距离,还有其他常用的聚类评估指标,如轮廓系数、Davies-Bouldin指数等。

这些指标可以综合考虑聚类结果的紧密程度、分离程度等因素,用于评估聚类的质量。

总之,系统聚类距离是一种用于评估聚类结果的指标,通过考虑聚类过程中的簇内距离和簇间距离,来衡量聚类结果的紧密程度和稳定性。

在聚类分析中,系统聚类距离可以帮助选择合适的聚类算法和确定最佳聚类数目,以获得最优的聚类结果。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二章 距离分类器和聚类分析2.1 距离分类器一、模式的距离度量通过特征抽取,我们以特征空间中的一个点来表示输入的模式,属于同一个类别的样本所对应的点在模式空间中聚集在一定的区域,而其它类别的样本点则聚集在其它区域,则就启发我们利用点与点之间距离远近作为设计分类器的基准。

这种思路就是我们这一章所要介绍的距离分类器的基础。

下面先看一个简单的距离分类器的例子。

例2.1作为度量两点之间相似性的距离,欧式距离只是其中的一种,当类别的样本分布情况不同时,应该采用不同的距离定义来度量。

设,X Y 为空间中的两个点,两点之间的距离(),d X Y ,更一般的称为是范数X Y -,一个矢量自身的范数X 为矢量的长度。

作为距离函数应该满足下述三个条件: a) 对称性:()(),,d d =X Y Y X ;b) 非负性:(),0d ≥X Y ,(),0d =X Y 当且仅当=X Y ; c) 三角不等式:()()(),,,d d d ≤+X Y X Z Y Z 。

满足上述条件的距离函数很多,下面介绍几种常用的距离定义: 设()12,,,Tn x x x =X ,()12,,,Tn y y y =Y 为n 维空间中的两点1、 欧几里德距离:(Eucidean Distance)()()121,ni i i d x y =⎡⎤=-⎢⎥⎣⎦∑X Y2、 街市距离:(Manhattan Distance)()1,ni i i d x y ==-∑X Y3、 明氏距离:(Minkowski Distance)()11,mnm i i i d x y =⎡⎤=-⎢⎥⎣⎦∑X Y当2m =时为欧氏距离,当1m =时为街市距离。

4、 角度相似函数:(Angle Distance)(),T d ⋅=X YX Y X Y1nTi i i x y =⋅=∑X Y 为矢量X 和Y 之间的内积,(),d X Y 为矢量X 与Y 之间夹角的余弦。

距离函数的定义形式还有很多,我们应该根据具体问题来选择一种适合的函数定义,使其能够真正反映模式之间的相似性。

定义了范数的线性空间称为赋范线性空间。

二、单个标准样本的距离分类器设有M 个类别,12,,,M ΩΩΩ,每个类别有一个标准样本12M T ,T ,,T ,现有一待识样本X ,则X 应该属于与其距离最小的标准样本代表的那一类,即:如果()0a r g m i n ,i ii d =X T ,则判别0i ∈ΩX 。

对于两类问题来说,就相当于用一个垂直平分两个标准样本点的连线的超平面将两类分开。

三、多个标准样本的距离分类器如果每个类别只有一个训练样本,则只能以这个训练样本作为标准样本来设计距离分类器。

然而一个样本很难反映出类别的总体分布,因此在实际设计中,一般都要尽可能多的搜集各个类别的样本,样本量的增加能够跟好的反映出类别的中体分布情况,这样带来的问题就是如何利用多个样本来设计距离分类器?下面介绍几种常用的方法。

1. 平均样本法此方法中,我们还希望以一个标准样本来代表每个类别,这样就可以采用单个标准样本距离分类器的准则来进行分类。

下面的问题就是如何来确定这个标准样本,这实际上就是如何利用训练样本集来进行学习的问题。

在模式识别方法中,我们将经常遇到最优化问题,下面我们就以这个简单问题来介绍一下最优化方法的一些概念。

设有M 个类别,12,,,M ΩΩΩ,第m 类有训练样本集()()(){}12,,,mm m m K X X X ,我们希望求得一个标准样本()m T,训练样本()()()()()12,,,m m m m ii i iN x x x =X 。

我们要寻找的标准样本()m T 实际上应该是一个距离训练样本集中所有样本的平均距离最小的一点,则一点最能够代表这个训练样本集。

例如,如果类别样本的分布为一个球形的话,这一点应该是球的中心。

这一条件可以用下面的函数表示:()()()()()11m K m m mi i m f d K ==-∑T X T ,此函数称为目标函数。

我们的目标就是要寻找到一个()m T,使得()()m f T最小。

以欧氏距离为例,()()()()()122111mK Nm m m ij ji j mf x t K ==⎛⎫=- ⎪⎝⎭∑∑T ,下面对()m T 的各维元素取偏导数:()()()()()()()()()()111112102mm m m K K K m m m m ijjj ij m i i i mm kf xt t x K K t ===∂⎛⎫=-⨯-=-= ⎪∂⎝⎭∑∑∑T则:()()11m K m m jij i m t x K ==∑。

以矢量形式表示:()()11m K m m i i m K ==∑T X 。

平均样本法的特点是:1、算法简单;2、每个类别只需存储一个平均样本,存储量小;3、识别时只需计算M 次距离函数,计算量小;4、对类别样本的分布描述能力不强,效果不一定很好。

在单个样本的距离分类器中,实际上我们是定义了一个未知类别模式到某一类别的距离,这个距离就是待识模式与类别标准样本之间的距离:()(),,i i d d Ω=X X T ,然后以模式与类别的距离作为分类的判据。

实际上在多个标准样本的问题中,我们还可以定义其它形式的模式与类别的距离。

2. 平均距离法已知类别i Ω的训练样本集为:()()(){}12,,,ii i i K T T T ,定义待识模式X 与类别i Ω的距离: ()()()11,,iK i i jj id d K =Ω=∑X X T然后还是以与待识模式最近的类别作为识别结果。

在平均距离法中,需要存储所有的训练样本,而且在识别时还要计算待识模式与每个训练样本的距离,所以计算量比较大。

3. 最近邻法最近邻法以与待识样本距离最近的标准样本点的类别作为分类类别。

实际上相当于定义待识模式与类别i Ω的距离:()()()1,min ,iii j j K d d ≤≤Ω=X X T最近邻法也要存储和计算所有的训练样本,同时与平均距离法相比容易受到噪声的干扰,当与X 最近点为噪声时,就会导致误识。

最近邻法的改进:平均样本法用一点代表一个类别,过分集中;最近邻法以类内的每一点代表类别,过于分散,在通常情况下可以采用折衷的办法,首先将每个类别的训练样本划分为几个子集,在各个子集中计算平均样本,每一个类别以几个子集的平均样本代表,采用最近邻法分类。

(举例:红苹果,绿苹果),这样做的好处是,一方面可以减少存储量和计算量,同时还可以减小噪声的干扰,这是在实际系统使用比较多的方法。

4. K -近邻法K -近邻法是另外一种减小噪声干扰的改进方法,它不是根据与未知样本X 最近的一个样本的类别来分类,而是根据X 最近邻的K 各样本点中多数点的类别来分类。

方法如下:a) 计算X 与所有训练样本的距离;b) 对所有的()(),i jd X T 从小到大排序;c) 统计前K 个中各类训练样本的个数i N ,1,2,,i M =,必有1Mi i N K ==∑;d) 取01arg max i i Mi N ≤≤=作为X 的类别。

K -近邻法中,K 值得选择非常重要,太大则就会变成那一类的训练样本说多就分类到哪一类,太少则容易受到噪声的影响,当1K =时,就变为了最近邻法。

2.2 聚类分析在某些问题中,我们已知的只是一个训练样本集,而不知道样本集中每个样本的类别标号,这就需要我们首先将这些样本分成若干类,然后再用分好类的样本训练出相应的分类器。

将未知类别的一组样本分成若干类的过程称为是聚类分析,也称为是无监督学习或无教师学习。

聚类分析的思路非常直观,也是根据各个带分类模式特征的相似程度来进行分类,将在特征空间中聚集在一起的样本点划分为一类。

聚类分析的方法可以分为三类:简单聚类法、系统聚类法和动态聚类法。

一、简单聚类法(试探法) 1、 最近邻规则的简单试探法设N 个待分类的模式{}12,,,N X X X ,已知一个阈值T (每个样本到其聚类中心的最大距离),分类到12,,ΩΩ,类别中心分别为12,,Z Z 。

第一步:取任意的样本i X 作为第一个聚类中心的初始值,例如:111=∈ΩZ X ;计算:2121D =-X Z ,若,21D T >,则增加一个新类别2Ω,取其中心为22=Z X ; 否则,将2X 归入以1Z 为中心的1Ω类,重新计算1212+=X X Z 。

第二步:设已有类别12,ΩΩ,其中心为12,Z Z ,计算:3131D =-X Z ,3232D =-X Z ;若,31D T >且32D T >,则增加新类别3Ω,令33=Z X ;否则,3X 属于12,Z Z 最近的类别,即03i ∈ΩX ,0312arg min i i i D ≤≤=,并重新计算0i 类的中心。

第k 步:设已有M 个类别12,,,M ΩΩΩ,其中心为12,,M Z Z Z ,计算:11k k D =-X Z ,…,kM k M D =-X Z ; 若,ki D T >,则增加新类别1M +Ω,其中心1M k +=Z X ; 否则,k X 属于12,,M Z Z Z 最近的一类,0k i ∈ΩX ,01arg min ki i Mi D ≤≤=;重新计算第0i 类的聚类中心0i Z 。

例2.2-1这种方法的好处是计算比较简单,缺点是对初始的第一个聚类中心的选择依赖性比较强,同时聚类效果还要受到阈值T 的影响。

(图3.3-2,pp64)一般在实际问题中需要对不同的初始聚类中心和不同的阈值进行试探,直到得到一个满意的聚类结果为止。

2、 最大最小距离算法最大最小距离法的思路是:在样本集中以最大距离原则选取新的聚类中心,以最小距离原则进行模式归类。

已知N 个待分类的模式{}12,,,N X X X ,阈值比例系数θ,1) 任选样本作为第一个聚类中心1Z ;2) 从样本集中选择距离1Z 最远的样本i X 作为第二个聚类中心,2i =Z X ,设定距离阈值:12T θ=-Z Z ;3) 计算未被作为聚类中心的各样本与12,Z Z 之间的距离,以其中的最小值作为该样本的距离:,1,2ij i j d j =-=X Z ,取[]12min ,,1,,i i i d d d i N ==;4) 若:1max l i i Nd d T ≤≤=>,则相应的样本l X 作为第三个聚类中心,3l =Z X ,然后转5);否则,转6);5) 设存在k 个聚类中心,计算未被作为聚类中心的各样本到各聚类中心的最小距离:[]1min ,,i i ik d d d =,然后寻找其中的最大值:1max l i i Nd d ≤≤=,如果l d T >,则1k l +=Z X ,转5);否则,转6); 6) 按照最小距离原则,将所有样本分到个类别中。

相关文档
最新文档