五种常用系统聚类分析方法及其比较

合集下载

常见聚类方法

常见聚类方法

常见聚类方法聚类是一种无监督机器学习方法,将数据集中的样本分成若干个子集,使得每个子集内部的样本相似度尽可能高,而不同子集间的相似度尽可能低。

在现实生活中,聚类应用广泛,比如将市场上的消费者分成不同的群体,或将某个领域的文献分类。

本文将介绍常见的聚类方法。

1. K-means聚类K-means是一种基于距离的聚类方法,它将数据集分成K个簇,每个簇的中心被称为质心。

算法的核心是不断地迭代更新质心,直到质心不再发生变化或达到最大迭代次数。

K-means聚类的缺点是对初始质心的选择敏感,可能会陷入局部最优解。

2. 层次聚类层次聚类是一种基于距离的聚类方法,将数据集中的样本逐层合并成越来越大的簇。

具体来说,它分为自上而下和自下而上两种方法。

自上而下的方法从整个数据集开始,每次将最相似的两个样本合并成一个簇,直到只剩下一个簇。

自下而上的方法从每个样本开始,逐步将相似度高的样本合并成簇,直到只剩下一个簇。

层次聚类的优点是不需要预设簇的数量,缺点是计算复杂度高,难以处理大规模数据集。

3. 密度聚类密度聚类是一种基于密度的聚类方法,将样本分为若干个密度相似的区域。

具体来说,它以每个样本为中心,计算在一定距离范围内的样本个数,若该数目超过预设阈值,则将它们归为同一簇。

密度聚类的优点是能够处理任意形状的簇,缺点是对参数的设定比较敏感,容易陷入噪声区域。

4. 谱聚类谱聚类是一种基于图论的聚类方法,将样本看作图中的节点,节点之间的相似度看作边的权重,然后通过图的拉普拉斯矩阵进行谱分解得到特征向量,最后将特征向量作为新的样本空间进行聚类。

谱聚类的优点是能够处理非凸的簇,缺点是计算复杂度较高。

不同的聚类方法有各自的优缺点,需要根据具体的应用场景来选择合适的方法。

五种常用系统聚类分析方法及其比较

五种常用系统聚类分析方法及其比较

五种常用系统聚类分析方法及其比较胡雷芳一、系统聚类分析概述聚类分析是研究如何将对象按照多个方面的特征进行综合分类的一种统计方法[1]。

然而在以往的分类学中,人们主要靠经验和专业知识作定性分类处理,许多分类不可避免地带有主观性和任意性,不能揭示客观事物内在的本质差别和联系;或者人们只根据事物单方面的特征进行分类,这些分类虽然可以反映事物某些方面的区别,但却往往难以反映各类事物之间的综合差异。

聚类分析方法有效地解决了科学研究中多因素、多指标的分类问题[2]。

在目前的实际应用中,系统聚类法和K均值聚类法是聚类分析中最常用的两种方法。

其中,K均值聚类法虽计算速度快,但需要事先根据样本空间分布指定分类的数目,而当样本的变量数超过3个时,该方法的可行性就较差。

而系统聚类法(Hierarchicalclusteringmethods,也称层次聚类法)由于类与类之间的距离计算方法灵活多样,使其适应不同的要求。

该方法是目前实践中使用最多的。

这该方法的基本思想是:先将n个样本各自看成一类,并规定样本与样本之间的距离和类与类之间的距离。

开始时,因每个样本自成一类,类与类之间的距离与样本之间的距离是相同的。

然后,在所有的类中,选择距离最小的两个类合并成一个新类,并计算出所得新类和其它各类的距离;接着再将距离最近的两类合并,这样每次合并两类,直至将所有的样本都合并成一类为止。

这样一种连续并类的过程可用一种类似于树状结构的图形即聚类谱系图(俗称树状图)来表示,由聚类谱系图可清楚地看出全部样本的聚集过程,从而可做出对全部样本的分类[3]。

二、五种常用系统聚类分析方法系统聚类法在进行聚类的过程中,需要计算类与类之间的距离。

根据类与类之间的距离计算方法的不同,我们可以将系统聚类法分为单连接法、完全连接法、平均连接法、组平均连接法与离差平方和法等。

1.单连接法(Singlelinkage)单连接法又称最短距离法。

该方法首先将距离最近的样本归入一类,即合并的前两个样本是它们之间有最小距离和最大相似性;然后计算新类和单个样本间的距离作为单个样本和类中的样本间的最小距离,尚未合并的样本间的距离并未改变。

常用聚类算法介绍

常用聚类算法介绍

常用聚类算法介绍
聚类算法是一种无监督学习方法,旨在将数据集中的对象分成不同的组或簇,使得同一簇内的对象相似度较高,而不同簇的对象相似度较低。

根据不同的分类标准和应用场景,聚类算法可以分为多种类型。

1、K均值聚类:是最知名的聚类算法之一,通过将数据集划分为K个簇,并为每个簇计算一个中心点(即该簇所有成员的平均值),以此来表示每个簇的特征。

K均值算法简单易懂,但在处理非球形分布的数据集时可能会遇到问题。

2、层次聚类:包括凝聚型和分裂型两种方式。

凝聚型从单个对象开始,逐步合并最近的两个对象形成一个新的簇,直到所有对象都在同一个簇中;分裂型则是从所有对象作为一个大簇开始,逐步将其分割成更小的簇。

层次聚类适用于需要可视化簇结构或探索数据内部关系的场景。

3、基于密度的聚类:如DBSCAN算法,它通过识别数据点的密度连接来发现任意形状的簇。

这种方法不依赖于预先指定的簇数量,能够有效处理噪声和异常值。

4、基于网格的聚类:通过在特征空间中定义一个网格,然后统计每个网格单元内的数据点数量来进行聚类。

这种方法适用于数据分布较为均匀的情况。

5、基于模型的聚类:如高斯混合模型(GMM),它假设数据是由多个高斯分布混合而成的。

通过最大化数据点属于各个高斯分布的概率来估计模型参数,进而实现聚类。

6、谱聚类:利用图论中的概念,将数据点视为图中的顶点,通过构建一个拉普拉斯矩阵来反映顶点间的相似度,从而实现聚类。

7、均值漂移聚类:与K均值类似,但不需要预先指定簇的数量。

它通过迭代地寻找数据点的密度峰值来确定簇中心,适用于发现数据中的自然结构。

聚类分析方法

聚类分析方法

聚类分析方法聚类分析是一种常用的数据分析方法,它可以帮助我们将数据集中的对象按照它们的相似性进行分组。

通过聚类分析,我们可以发现数据中的内在结构和规律,从而更好地理解数据。

在本文中,我们将介绍聚类分析的基本概念、常见的聚类方法以及聚类分析的应用场景。

首先,让我们来了解一下聚类分析的基本概念。

聚类分析是一种无监督学习方法,它不需要预先标记的训练数据,而是根据数据对象之间的相似性来进行分组。

在聚类分析中,我们通常会使用距离或相似度作为衡量对象之间关系的指标。

常见的距离指标包括欧氏距离、曼哈顿距离和余弦相似度等。

通过计算对象之间的距离或相似度,我们可以将它们划分到不同的类别中,从而实现数据的聚类。

接下来,让我们来介绍一些常见的聚类方法。

最常用的聚类方法包括层次聚类、K均值聚类和密度聚类。

层次聚类是一种基于对象之间相似性构建层次结构的方法,它可以分为凝聚式层次聚类和分裂式层次聚类。

K均值聚类是一种迭代的聚类方法,它将数据对象划分为K个类别,并通过迭代优化来找到最优的聚类中心。

密度聚类是一种基于数据密度的聚类方法,它可以发现任意形状的聚类簇,并对噪声数据具有较强的鲁棒性。

最后,让我们来看一些聚类分析的应用场景。

聚类分析可以应用于各个领域,例如市场营销、生物信息学、社交网络分析等。

在市场营销中,我们可以利用聚类分析来识别不同的消费群体,并针对不同群体制定个性化的营销策略。

在生物信息学中,聚类分析可以帮助我们发现基因表达数据中的基因模式,并识别相关的生物过程。

在社交网络分析中,我们可以利用聚类分析来发现社交网络中的社区结构,并识别影响力较大的节点。

总之,聚类分析是一种非常有用的数据分析方法,它可以帮助我们发现数据中的内在结构和规律。

通过本文的介绍,相信大家对聚类分析有了更深入的了解,希望能够在实际应用中发挥其价值,为各行各业的发展提供有力支持。

各种聚类方法及举例

各种聚类方法及举例

聚类,也被称为Clustering,是一种无监督学习方法,用于将数据集分割成不同的类或簇。

每个簇内的数据对象的相似性尽可能大,而不在同一个簇中的数据对象的差异性也尽可能地大。

以下是一些常见的聚类方法及其简要描述:1. K-Means: K-Means聚类算法是最常用的聚类方法之一,它将数据点分为K个簇,每个簇的中心点是其所有成员的平均值。

例如,可以使用K-Means对顾客按照购买行为进行分组。

2. Affinity Propagation: 这是一种基于图论的聚类算法,旨在识别数据中的"exemplars" (代表点)和"clusters" (簇)。

例如,可以使用Affinity Propagation来识别新闻文章中的主题。

3. Agglomerative Clustering (凝聚层次聚类): 这是一种自底向上的聚类算法,它将每个数据点视为一个初始簇,并将它们逐步合并成更大的簇,直到达到停止条件为止。

例如,可以使用Agglomerative Clustering来对基因进行分类。

4. Mean Shift Clustering: 此算法根据数据的密度来进行聚类。

例如,可以使用Mean Shift 对天气数据进行空间分区。

5. Bisecting K-Means: 它是K-Means的衍生算法,通过不断地将当前簇一分为二来找到更好的聚类效果。

例如,可以使用Bisecting K-Means对文档进行主题分类。

6. DBSCAN: DBSCAN是一个基于密度的聚类算法,它可以识别出任意形状的簇,并且可以处理噪声数据。

例如,可以使用DBSCAN对地理空间数据进行区域划分。

数据科学中必须熟知的5种聚类算法

数据科学中必须熟知的5种聚类算法

数据科学中必须熟知的5种聚类算法聚类算法是机器学习中涉及对数据进行分组的一种算法。

在给定的数据集中,我们可以通过聚类算法将其分成一些不同的组。

在理论上,相同的组的数据之间有相同的属性或者是特征,不同组数据之间的属性或者特征相差就会比较大。

聚类算法是一种非监督学习算法,并且作为一种常用的数据分析算法在很多领域上得到应用。

在数据科学领域,我们利用聚类分析,通过将数据分组可以比较清晰的获取到数据信息。

今天我们来看看,作为数据科学家需要知道并掌握的五种比较比较流行的聚类算法。

K-means 聚类算法K-means 聚类算法可能是大家最为熟悉的聚类算法。

它在许多的工业级数据科学和机器学习课程中都有被讲解。

并且容易理解和实现相应功能的代码。

比如以下的图片:k-means聚类1.首先,我们确定要聚类的数量,并随机初始化它们各自的中心点。

为了确定要聚类的数量,最好快速查看数据并尝试识别任何不同的分组。

中心点是与每个数据点向量长度相同的向量,是上图中的“x”。

2.通过计算当前点与每个组中心之间的距离,对每个数据点进行分类,然后归到与距离最近的中心的组中。

3.基于迭代后的结果,计算每一类内,所有点的平均值,作为新簇中心。

4.迭代重复这些步骤,或者直到组中心在迭代之间变化不大。

您还可以选择随机初始化组中心几次,然后选择看起来提供最佳结果。

k-means的优点是速度非常快,因为我们真正要做的就是计算点和组中心之间的距离;计算量少!因此,它具有线性复杂性o(n)。

另一方面,k-means有两个缺点。

首先,您必须先确定聚类的簇数量。

理想情况下,对于一个聚类算法,我们希望它能帮我们解决这些问题,因为它的目的是从数据中获得一些洞察力。

k-均值也从随机选择聚类中心开始,因此它可能在算法的不同运行中产生不同的聚类结果。

因此,结果可能不可重复,缺乏一致性。

K中位数是与K均值相关的另一种聚类算法,除了不使用平均值重新计算组中心点之外,我们使用组的中位数向量。

聚类算法方法归纳

聚类算法方法归纳

聚类算法方法归纳
1. K-Means 聚类:这是一种最常见的聚类算法,它通过确定 k 个初始中心点,并将每个数据点分配给最近的中心点,然后不断更新中心点的位置,直到达到最优的聚类结果。

2. 层次聚类:这种方法通过构建一棵树来表示数据的层次结构,从而实现聚类。

它可以是凝聚的(自下而上)或分裂的(自上而下)。

3. DBSCAN 聚类:基于密度的空间聚类应用程序和噪声(DBSCAN)是一种基于密度的聚类算法,它通过计算样本点之间的距离来判断样本点的密度,将样本点分为不同的簇。

4. 高斯混合模型(GMM):GMM 是一种概率模型,它假设数据是由多个高斯分布混合而成的。

通过最大化似然函数来估计模型参数,从而实现聚类。

5. OPTICS 聚类:这是一种基于密度的聚类算法,它通过计算样本点之间的距离来判断样本点的密度,将样本点分为不同的簇。

6. Agglomerative 聚类:这种方法通过不断合并最相似的两个簇来构建聚类层次结构。

7. 模型-based 聚类:这种方法使用统计模型(如混合模型、隐马尔可夫模型等)来描述数据的分布,并通过最大化模型的对数似然来确定最佳的聚类数量和成员。

这些是聚类算法的一些常见方法,每种方法都有其优缺点,适用于不同类型的数据和应用场景。

在选择聚类算法时,需要考虑数据的特征、聚类的目标以及计算效率等因素。

聚类分析之系统聚类法

聚类分析之系统聚类法

聚类分析之系统聚类法系统聚类法是一种常用的聚类分析方法,旨在将样本集合划分为不同的簇,使得同一个簇内的样本之间相似度较高,而不同簇之间的样本相似度较低。

本文将介绍系统聚类法的基本原理、常用的聚类算法以及应用领域等内容。

系统聚类法的基本原理是通过计算样本之间的距离或相似度来判断它们之间的关系,并将相似的样本归为同一簇。

在系统聚类法中,最常用的距离度量方法有欧氏距离、曼哈顿距离和余弦相似度等。

通过选择适当的距离度量方法,可以更准确地描述样本之间的差异。

常见的系统聚类算法包括层次聚类法、BIRCH算法和DBSCAN算法等。

层次聚类法是一种自底向上的聚类算法,它从每个样本开始,逐步合并相邻的样本,直到所有样本都被合并为一个簇。

BIRCH算法是一种基于CF树的聚类算法,它通过构建一种多叉树的数据结构来实现高效的聚类计算。

DBSCAN算法则是一种基于密度的聚类算法,它通过确定样本的邻域密度来判断是否属于同一簇。

系统聚类法在许多领域中都有广泛的应用。

在生物信息学领域,系统聚类法可以用于基因表达数据的聚类分析,从而找到具有相似表达模式的基因。

在市场营销领域,系统聚类法可以用于将顾客划分为不同的群体,从而为不同群体制定个性化的营销策略。

在图像处理领域,系统聚类法可以用于图像分割,将具有相似颜色或纹理特征的像素归为同一簇。

尽管系统聚类法具有广泛的应用前景,但也存在一些挑战和限制。

首先,系统聚类法对初始样本集合的选择较为敏感,不同的初始选择可能导致不同的聚类结果。

其次,系统聚类法在处理大规模数据时计算复杂度较高,需要消耗大量的计算资源。

此外,系统聚类法还面临着噪声和异常值的影响,这些值可能会干扰正常的聚类结果。

总之,系统聚类法是一种重要的聚类分析方法,通过计算样本之间的距离或相似度,将相似的样本归为同一簇。

它在生物信息学、市场营销和图像处理等领域具有广泛的应用价值。

然而,系统聚类法仍面临一些挑战和限制,如初始样本选择、计算复杂度和噪声处理等问题。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

五种常用系统聚类分析方法及其比较胡雷芳一、系统聚类分析概述聚类分析是研究如何将对象按照多个方面的特征进行综合分类的一种统计方法[1]。

然而在以往的分类学中,人们主要靠经验和专业知识作定性分类处理,许多分类不可避免地带有主观性和任意性,不能揭示客观事物内在的本质差别和联系;或者人们只根据事物单方面的特征进行分类,这些分类虽然可以反映事物某些方面的区别,但却往往难以反映各类事物之间的综合差异。

聚类分析方法有效地解决了科学研究中多因素、多指标的分类问题[2]。

在目前的实际应用中,系统聚类法和K均值聚类法是聚类分析中最常用的两种方法。

其中,K均值聚类法虽计算速度快,但需要事先根据样本空间分布指定分类的数目,而当样本的变量数超过3个时,该方法的可行性就较差。

而系统聚类法(Hierarchicalclusteringmethods,也称层次聚类法)由于类与类之间的距离计算方法灵活多样,使其适应不同的要求。

该方法是目前实践中使用最多的。

这该方法的基本思想是:先将n个样本各自看成一类,并规定样本与样本之间的距离和类与类之间的距离。

开始时,因每个样本自成一类,类与类之间的距离与样本之间的距离是相同的。

然后,在所有的类中,选择距离最小的两个类合并成一个新类,并计算出所得新类和其它各类的距离;接着再将距离最近的两类合并,这样每次合并两类,直至将所有的样本都合并成一类为止。

这样一种连续并类的过程可用一种类似于树状结构的图形即聚类谱系图(俗称树状图)来表示,由聚类谱系图可清楚地看出全部样本的聚集过程,从而可做出对全部样本的分类[3]。

二、五种常用系统聚类分析方法系统聚类法在进行聚类的过程中,需要计算类与类之间的距离。

根据类与类之间的距离计算方法的不同,我们可以将系统聚类法分为单连接法、完全连接法、平均连接法、组平均连接法与离差平方和法等。

1.单连接法(Singlelinkage)单连接法又称最短距离法。

该方法首先将距离最近的样本归入一类,即合并的前两个样本是它们之间有最小距离和最大相似性;然后计算新类和单个样本间的距离作为单个样本和类中的样本间的最小距离,尚未合并的样本间的距离并未改变。

在每一步,两类之间的距离是它们两个最近点间的距离。

用dij表示样本i和样本j的距离,G1、G2、…表示类,在单连接法定义类Gp与类Gq之间的距离为两类最近样本间的距离,用Dpq表示Gp与Gq的距离,则有式(1):(1)由于单连接法每次并类后都是将该类与其它类中距离最近的两个样本之间的距离作为该类与其它类的距离,所以此聚类方法的逐次并类距离之间的差距一般来说可能会越来越小。

因此,该方法具有距离收缩的性质。

但是单连接方法认为,只要单个样本之间的相异度小,就认为两个组就是紧密靠拢的,而不管组间其他样本的相异度如何。

这倾向于合并由一系列本身位置(原始数据集中样本的排列)靠近的样本。

这种现象称为“链条”(chainning)[4],常常被认为●经济研究11是该方法的不足之处。

故单连接方法产生的聚类可能破坏类的“紧凑性”。

2.完全连接法(Completelinkage)完全连接法又称最长距离法。

该方法对距离的定义刚好与最短距离法相反,它是按两个最远样本间的距离进行类的归并,即两类之间的距离被计算作为它们的两个最远点间的距离。

该方法与单连接法在的并类步骤完全一样,也是将各样本先看作自成一类,然后将距离最小的两类合并,设某一步将类Gp与Gq合并为Gr,则类Gr与其它任意一类Gk的距离为:;然后再找距离最小的两类合并,直至将所有的样本合并为一类。

完全连接法由于每次并类后都是将该类与其它类中距离最远的两个样本之间的距离作为该类与其它类的距离,所以此聚类方法的逐次并类距离之间的差距一般来说可能会越来越大。

因此该方法具有并类距离扩张的性质。

对于完全连接方法,只有当两个组的并集中所有的样本都相对近似时才被认为是靠近的。

这将倾向于产生具有小直径的紧凑类。

然而,它可能产生违背“闭合性”(closeness)的类[5]。

也就是说,分配到某个类的样本距其他类成员的距离可能比距离本类中的某些成员的距离更短。

3.平均连接法(Averagelinkage)平均连接法是苟沃(Gower,1966)提出的方法。

此聚类方法在定义类与类之间的距离时,既不采用两类之间的最近距离,也不采用最远距离,而是采用介于两者之间的中间距离,故该方法也称为中间距离法。

它避免了最远距离与最短距离计算上的弊端。

设某步将Gp与Gq合并为Gr,Gr与任意一类Gk的距离可以通过图1所示:以Dkp,Dkq,Dpq为边做三角形,若按最短距离法,则。

若按最长距离法,则。

而中间距离法则是取其中线,将此中线作为两类之间的距离Dkr,由初等几何知识可知(2)4.组平均连接法(Averagegrouplinkage)组平均连接法采用的距离定义为两类之间的平均平方距离如公式(3)所示:(3)递推公式为:(4)5.离差平方和法(Ward’smethod)离差平方和的思想来自于方差分析,是由Ward于1936年提出,1967年经Orloci等人发展建立起来的一种系统聚类方法。

该方法认为,如果分类正确,同类样本的离差平方和应当较小,类与类的离差平方和应当较大。

具体做法是先将n个样本看成一类,然后每次缩小一类。

每缩小一类,离差平方和就要增大,选择使S增加最小的两类合并,直到所有的样本归为一类。

对每一类计算所有变量的均值,然后对每一样本计算到类均值的距离平方,再对所有样本求这些距离之和。

在每一步,合并的两类是使类内距离总平方和增加最小的类。

假定已经将n个样本分成了k类G1,G2,…,Gk,用Xit表示Gt中的第i个样本的变量指标值向量,nt表示类Gt中样本的个数,xt表示Gt的重心,则Gt中样本的离差平方和公式如(5)所示:(5)全部类内离差平方和公式为(6)所示:(6)当n很大时,要给出全部样本的所有可能的分类,并从中选择出使S达到极小的分类,一般是不可能的。

于是人们只好放弃寻找最优的分类。

为此,Ward提出了这种聚类方法。

此方法类似于前面描述的几种聚类方法,都是先将n个样本自成一类,此时S=0,然后将其中两类合并成一类,即每次缩小一类。

每缩小一类离差平方和S就要增大,每次都是选择使S增加最小的两类合并,直至所有的样本归为一类为止。

采用离差平方和法,样本间的距离必须采用欧氏距离。

在实际应用中,离差平方和分类效果较好,应用也比较广泛[4][5]。

三、系统聚类分析方法的比较与选择对于同一份样本,分别运用上述五种不同的系统聚类方法进行聚类,所得结果一般来说并不完全相同。

于是就产生了一个问题:我们应当选择哪一个结果为好?为了解决这个问题,需要研究系统聚类法的性质,根据这些性质对各种聚类方法进行比较。

1.单调性令Dk是系统聚类法中第k次并类时的距离,如果有D1≦●经济研究图1单连接法、完全连接法与平均连接法的几何距离示意图12D2D3…Dn-1,则称并类距离具有单调性。

由五种系统聚类方法的并类计算公式递推,可以证明单连接法、完全连接法、组平均连接法、离差平方和法都具有单调性,而平均连接法不具有单调性。

2.扭曲性设样本r和s在第k次并类时第一次属于同一类,记样本r和s第一次属于同一类时的并类距离为δ(r,s),则有δ(r,s)=Dk。

对函数δ(r,s),有δ(r,s)≤max{δ(r,s),δ(s,t)},对一切r、s、t成立。

由于当样本r和t不与其它样本合并就直接合并为一类时,必然两者之间的距离最小,有δ(r,s)<max{δ(r,s),δ(s,t)};而当样本r和t分别先与别的样本合并再合并为一类时,则有δ(r,s)=max{δ(r,s),δ(s,t)}。

这表明δ(r,s)是一个极端距离。

所以由样本的初始矩阵D(0)=(dij,经过系统聚类后可定义一个新的距离矩阵为:D*=(d*ij)。

其中,d*ij=δ(i,j),dij是样本i与j之间的真实距离,d*ij是将样本i与j并类的距离。

考虑两者之间的关系,许多人定义了各种各样的畸变度。

如可以将畸变度定义为样本间真实距离dij与并类距离d*ij之间的相似系数,如公式(7)所示:(7)显然,样本间的并类距离与其真实距离越接近,并类距离的扭曲程度就越小。

因此,用样本间真实距离和其并类距离之间的相似系数定义的畸变度r越接近于1越好。

当样本个数很少时,聚类步骤也不多,一般来说,所进行的并类距离对样本的真实距离的扭曲程度也不会很大;但是当样本个数很大时,聚类步骤也很多,并类距离对样本的真实距离的扭曲程度也会加大,同一组样本数据用不同的聚类方法计算出的畸变度也就有可能相差较大。

3.空间收缩与扩张性假设有A和B两个系统聚类法,进行了第k步并类后,所形成的各类之间的距离矩阵为和,k=0,1,2,…,n-1,若有,k=1,2,…,n-1,则称方法A比B扩张或方法B比A收缩。

记作(A)≧(B)或(B)≦(A)。

对于前述常用的五种系统聚类法,通过比较可以得到如下的结论:(单连接法)≦(组平均连接法)≦(完全连接法)(组平均连接法)≦(离差平方和法)一般来说,太收缩的方法不够灵敏,而太扩张的方法在样本量大的情况下容易失真。

组平均连接法比较适中。

它与其它方法相比,显得不太收缩也不太扩张,具有并类空间守恒的性质。

4.最优性设有n个样本,欲分成k类,记P(n,k)={Q1,Q2,…,Qk}是任意一种分类,L[P(n,k)]为分类的损失函数,若有一个分类P*(n,k),使该损失函数的值达到了最小,即有下式成立:L[P*(n,k)]=minL[P(n,k)],则称这个分类[P*(n,k)]为最优分类。

损失函数的定义可以有许多方法,由于每个类内的离差平方和给出了该类内各样本间的差异程度,其值的大小反映了所给类的划分是否适当,所以分类的损失函数常用所给定分类的全部类内离差平方和来定义。

设类Qt中有mt个样本,x(1),x(2),…,x(mt),其重心为,则该类的类内离差平均和为公式(8):(8)因此,对于某个分类P(n,k)={Q1,Q2,…,Qk},全部n个样本共分成了k类,就可定义此分类的损失函数为(9):(9)由系统聚类法中的离差平方和法可知,当样本个数n较大时,全部可能的分类相当多,要求得出全部所有可能的分类,并从中找出使上述损失函数的取值达到最小即最优的分类,一般是不可能的。

所以,用最优性来衡量各种系统聚类法的优劣还仅仅是理论上可行,而在实际应用中缺少必要的可操作性。

四、总结通过对上述五种常用系统聚类分析法的比较,我们发现单连接法、完全连接法、组平均连接法、离差平方和法都具有单调性,而平均连接法不具有单调性;扭曲性是要把各种方法放到同一批样本的聚类结果中去比较后而得出的;在空间收缩性上,组平均连接法表现较好;最优性仅仅是理论上可行,在实际应用中缺少可操作性。

相关文档
最新文档