一篇文章透彻解读聚类分析及案例实操

合集下载

聚类分析案例范文

聚类分析案例范文聚类分析是一种无监督机器学习算法，它通过将数据集中的观测值分成不同的组或簇来发现数据之间的内在结构和相似性。

这种方法可以帮助我们理解数据集，发现隐藏的模式和关联性，并且可以应用于各种领域，包括市场细分、社交网络分析、生物信息学和图像处理等。

以下是一个关于使用聚类分析方法的案例研究，该案例介绍了如何使用聚类分析来帮助一家电商企业在众多商品中挖掘潜在的市场细分。

背景介绍：电商企业销售了大量商品，这些商品拥有不同的特征和属性。

该企业希望利用这些数据来了解他们的客户，并为不同的产品类型制定个性化的推广和营销策略。

为了实现这一目标，他们决定使用聚类分析方法来将客户细分成不同的群组，并理解他们的相似性和差异性。

数据收集：该企业从其销售系统中收集了一份包含多个属性的数据集。

这些属性包括：年龄、性别、购买历史、购买频率、平均订单金额等。

这些属性可以反映客户的购买行为和偏好。

数据预处理：在进行聚类分析之前，需要对数据进行预处理。

这包括对缺失值进行处理、进行数值归一化等。

然后，根据业务需求，选择适当的聚类算法和合适的距离度量方法。

聚类分析过程：在本案例中，采用了一种常见的聚类方法--K均值聚类算法，该算法通过计算数据点之间的欧氏距离来度量它们之间的相似度。

首先，选择合适的K值（聚类簇的个数）。

然后，在初始阶段，随机选择K个点作为聚类中心。

再通过计算每个数据点与聚类中心的距离，并将其归类到最近的聚类簇。

接下来，根据已经分配到每个聚类中的数据点，重新计算新的聚类中心。

这个过程将迭代，直到达到停止准则，如聚类中心不再变化或达到最大迭代次数。

聚类结果分析：在完成聚类过程后，可以根据每个聚类中心的特征和属性，对数据集进行可视化和解释。

这将帮助企业理解各个群组的特征和差异，并从中提取有价值的洞察力。

进而，企业可以根据不同群组的特征制定个性化的营销策略，提高销售和客户满意度。

总结：通过使用聚类分析方法，该电商企业成功地将其客户细分为几个不同的群组。

聚类分析案例

聚类分析案例聚类分析是一种常见的数据分析方法，它能够将数据集中的观测值划分为若干个类别，使得同一类别内的观测值相似度较高，不同类别之间的观测值相似度较低。

聚类分析在市场细分、社交网络分析、医学图像分析等领域都有着广泛的应用。

本文将以一个实际的案例来介绍聚类分析的应用过程。

案例背景：某电商平台希望对其用户进行细分，以便更好地了解用户需求，精准推荐商品。

为此，他们收集了用户的浏览、购买、评价等行为数据，希望通过聚类分析将用户分成不同的群体。

数据准备：首先，我们需要对数据进行清洗和整理。

去除缺失值、异常值，对数据进行标准化处理，以便消除不同维度之间的量纲影响。

然后，我们可以利用主成分分析（PCA）等方法对数据进行降维，以便更好地展现数据的内在结构。

模型选择：在数据准备完成后，我们需要选择合适的聚类算法。

常见的聚类算法包括K均值聚类、层次聚类、密度聚类等。

在本案例中，我们选择了K均值聚类算法，因为该算法简单易实现，并且适用于大规模数据。

聚类分析：经过数据准备和模型选择后，我们开始进行聚类分析。

首先，我们需要确定聚类的数量K。

这里我们可以采用肘部法则、轮廓系数等方法来确定最佳的K值。

然后，我们利用K均值聚类算法对数据进行分组，得到每个用户所属的类别。

结果解释：得到聚类结果后，我们需要对每个类别进行解释和分析。

通过对每个类别的特征进行比较，我们可以揭示出不同类别用户的行为特点和偏好。

比如，某一类用户可能更倾向于购买高价值商品，而另一类用户更注重商品的品质和口碑。

应用建议：最后，我们可以根据聚类结果给出相应的应用建议。

比如，对于高价值用户群体，电商平台可以加大对其的推荐力度，提供更多的个性化服务；对于偏好品质和口碑的用户群体，可以加强品牌营销和口碑传播，以吸引更多类似用户。

总结：通过本案例的介绍，我们可以看到聚类分析在用户细分和个性化推荐方面的重要作用。

通过对用户行为数据的聚类分析，电商平台可以更好地了解用户需求，提供更精准的推荐服务，从而提升用户满意度和交易量。

聚类分析应用案例

聚类分析应用案例
简介
聚类分析是一种无监督研究方法，旨在将数据样本划分为具有相似特征的群组或类别。

在许多领域中，聚类分析被广泛应用于数据分析、模式识别和信息检索等任务。

本文将介绍聚类分析在实际应用中的一些案例。

零售行业中的市场细分
零售行业需要了解其客户群体的特征以制定有效的营销策略。

通过聚类分析，可以将顾客细分为不同的群组，例如消费惯相似的群体、购买力相近的群体等。

基于这些细分结果，零售商可以有针对性地开展宣传活动、提供个性化服务，从而提高市场竞争力。

医疗领域中的疾病分类
在医疗领域，聚类分析可以用于疾病分类和诊断。

通过对患者的症状、体征和病史等信息进行聚类，可以将患者群体划分为具有相似疾病特征的子群。

这有助于医生进行更精确的诊断和制定个性化的治疗方案。

社交媒体分析中的用户群体划分
在社交媒体分析中，聚类分析可用于划分用户群体，了解不同用户的兴趣、行为模式和需求。

以这些群体为基础，企业可以更好地理解目标用户，并设计出更精准的推广活动和产品策略。

金融领域中的风险管理
在金融领域，聚类分析可以用于风险管理。

通过对客户的财务信息、投资偏好和风险承受能力等进行聚类，可以将客户划分为不同的风险群体。

这可以帮助金融机构识别高风险客户，并采取相应的风险控制措施。

总结
聚类分析是一种强大而灵活的数据分析工具，在各个领域都有广泛的应用。

本文介绍了其在零售行业、医疗领域、社交媒体分析和金融领域中的应用案例。

聚类分析可以帮助我们理解数据的内在结构、找到相似的群体，并基于这些群体进行个性化的决策和策略制定。

聚类分析的应用案例

聚类分析的应用案例聚类分析是一种常用的数据分析方法，它可以将数据集中的对象分成不同的类别或簇，使得同一类内的对象相似度较高，而不同类别之间的对象相似度较低。

聚类分析广泛应用于市场分析、社交网络分析、生物信息学、医学诊断等领域。

本文将介绍几个聚类分析的应用案例，以便更好地理解聚类分析在实际问题中的应用。

首先，聚类分析在市场分析中的应用。

在市场营销中，企业需要了解消费者的偏好和行为，以便更好地制定营销策略。

通过对消费者数据进行聚类分析，可以将消费者分成不同的群体，从而更好地理解他们的需求和行为模式。

例如，一家零售商可以通过聚类分析将消费者分成价格敏感型、品牌忠诚型、功能导向型等不同的群体，从而有针对性地进行促销活动和产品定位。

其次，聚类分析在社交网络分析中的应用。

随着社交网络的兴起，人们在社交网络上的行为数据变得越来越丰富。

通过对社交网络数据进行聚类分析，可以发现不同的社交群体和用户行为模式。

例如，一家社交网络平台可以通过聚类分析将用户分成信息分享型、社交互动型、内容创作型等不同的群体，从而更好地满足用户需求，提高用户留存和活跃度。

再次，聚类分析在生物信息学中的应用。

生物信息学是研究生物学数据的计算机科学领域，其中大量的生物数据需要进行分析和挖掘。

通过对生物数据进行聚类分析，可以发现不同的基因型、蛋白质结构等生物特征。

例如，通过对癌症患者的基因数据进行聚类分析，可以发现不同的癌症亚型和治疗方案，为临床诊断和治疗提供重要参考。

最后，聚类分析在医学诊断中的应用。

在医学诊断中，医生需要根据患者的症状和检查数据进行疾病诊断。

通过对患者数据进行聚类分析，可以发现不同的疾病类型和临床表现。

例如，通过对心脏病患者的临床数据进行聚类分析，可以发现不同的心脏病亚型和治疗方案，为临床诊断和治疗提供重要参考。

综上所述，聚类分析在市场分析、社交网络分析、生物信息学、医学诊断等领域都有重要的应用价值。

通过对不同领域的应用案例进行分析，可以更好地理解聚类分析的原理和方法，为实际问题的解决提供重要参考。

聚类分析及其应用实例.ppt

Gp和Gq中相距最远的两个样本的距离为这两个类之间的距离。
Gp Gq
D pq ? max{ d ij | i ? G p , j ? G q }
类平均距离（ average linkage ）：
Gp和Gq中每两两样本间距离的平均值作为两个类之间的距离。
Gp Gq
?? D pq
?
1 t ptq
tp i?1
? 相似系数----常用于对变量的聚类
? Pearson相关系数：两个连续变量间呈线性相关 ? Spearman相关系数：利用两变量的秩次大小作线性相关分析 ? Kendall等级相关系数，。。。
凝聚的层次聚类示意图
C3
X4 X3
C4
X5 X2
X1
X1：Gibbon （长臂猿） X2：Symphalangus （合趾猿） X3：Human （人） X4：Gorilla （大猩猩） X5：Chimpanzee （黑猩猩）
tq
X (q) i i ?1
用Gp和Gq表示两个类，它们所包含的样本数目分别为tp和tq，类Gp和Gq之间
的距离用Dpq表示。
离差平方和法（ ward method ）：
各元素到类中心的欧式距离之和。
Gp
Cluster P
Cluster M
Cluster Q
Gq
D 2 ? WM ? W p ? Wq
凝聚的层次聚类示意图
Oh？
X4 X3
X5 X2
X1
X1：Gibbon （长臂猿） X2：Symphalangus （合趾猿） X3：Human （人） X4：Gorilla （大猩猩） X5：Chimpanzee （黑猩猩）
常用的聚类统计量

数据分析中的聚类算法与案例分析

数据分析中的聚类算法与案例分析随着互联网时代的到来，数据已经成为了我们生活中一个不可或缺的部分，数据量不断的增加，如何从这大量的数据中发现蕴含在其中的规律是数据分析中最重要的工作之一。

而聚类算法恰恰是很好的一种数据探索方法。

在这篇文章中，我们将介绍聚类算法的概念、分类、应用场景以及如何使用聚类算法进行案例分析。

一、聚类算法聚类算法是一种机器学习中非常重要的方法，它的主要作用是将相似的数据对象分配到同一个簇中。

在聚类问题中，目标是将数据分成若干个组，而每个组（称为簇）应包含类似的数据对象。

聚类算法经常用于数据挖掘与统计分析，并被广泛应用于市场分析、模式识别、图像处理和社会网络分析等领域。

二、聚类算法的分类聚类算法可以分为几种不同的方法。

根据聚类算法的输出，我们通常有两种不同类型的聚类算法：分层聚类和非分层聚类。

1. 分层聚类分层聚类通常被视为更专业的聚类方法之一，它是一种层次化的聚类方法，它基于将数据集递归地分割成更小、更小的子集。

这个过程通常被称为树形聚类或层次聚类。

我们可以从下向上或从上向下处理聚类层次。

在自底向上的聚类方式中，每一个数据点首先被视为单独的簇，然后不断地将它们相似的数据点合并，直到得到最终的多个聚类簇；而在从上向下的聚类方式中，我们首先把所有数据点视为一个整体，然后不断地将它们按照相似度分成几个小组，最终得到多个聚类簇。

分层聚类算法的主要优点是具有很强的可视化效果，可以生成树形结构来更容易地解释算法的聚类结果。

2. 非分层聚类非分层聚类算法也被称为 k-means 聚类算法，是其中最常见的一种聚类方法。

其主要思想是要将数据点分为几个簇，以使得簇内的数据点相似度尽可能高而簇间的数据点相似度尽可能低。

通俗的说，k-means 聚类算法的主要目标是将 n 个数据点分配到 k 个簇中，以使簇的数量最小化。

三、聚类算法的应用场景聚类算法应用到了许多领域，主要是因为它可以用于不同类型的数据集以及不同类型的数据挖掘任务。

聚类分析法经典案例

聚类分析法经典案例
聚类分析是一种常用的数据分析方法，它能够将相似的观察对象分为一组，并将不相似的对象分为不同的组。

下面将介绍一个经典的聚类分析案例。

在电信行业，客户流失是一个非常重要的问题。

为了降低客户流失率，一家电信公司希望通过聚类分析来识别客户流失的特征，以便进行有针对性的营销策略。

首先，该公司收集了一些客户数据，如客户的年龄、性别、月平均消费金额、通话时长等。

然后，利用聚类分析方法，将客户分为不同的组。

在这个案例中，我们可以采用k-means聚类算法。

通过聚类分析，该公司发现了三个客户群体。

第一组客户是高消费高通话客户，他们的平均消费金额和通话时长都很高。

第二组客户是低消费低通话客户，他们的平均消费金额和通话时长都很低。

第三组客户是高消费低通话客户，他们的平均消费金额很高，但通话时长很低。

利用聚类分析的结果，该公司能够采取有针对性的营销策略。

对于高消费高通话客户，他们可能是该公司的忠诚客户，可以通过提供一些优惠或奖励来保持他们的忠诚度。

对于低消费低通话客户，可以通过提供更具吸引力的套餐或增加服务内容来激发他们的消费需求。

对于高消费低通话客户，可以通过了解他们的通话行为，推出更适合他们的通话套餐，以增加他们的通话时长。

通过这个案例，我们可以看到聚类分析在客户流失预测和营销策略中的重要作用。

它可以帮助企业快速识别不同类型的客户，有针对性地制定相应的营销策略，提高客户满意度和忠诚度，降低客户流失率。

聚类分析还可以应用于其他领域，如金融、医疗等，具有广泛的应用前景。

聚类分析实例讲解

聚类分析一、分析背景Chrysler公司为了赢得市场竞争地位，决定推出新产品Viper，该种产品的目标客户是雅皮士阶层。

为了进一步了解这种人群的心理特征，定位自己的产品，吸引目标客户，Chrysler公司进行了一次市场调研。

研究者使用九点量表测量400名被试者对30项陈述的态度，从而了解这些目标客户的心理特征。

调研还询问被试者对Dodge Viper型汽车的态度来测量标准变量，标准变量的测量通过九点量表来测试消费者对“我愿意购买Chrysler公司生产的Dodge Viper型汽车”的态度。

本次分析的目的是：通过聚类分析，将原始变量分别聚成三类和四类，比较两种方法的效果。

同时，比较使用原始变量得到的聚类结果和使用因子得分得到的聚类结果，看哪一种方法能更好地解释数据。

二、分析结果1、根据原始变量进行的聚类分析首先根据原始变量进行聚类分析，由于样本数较大，采用迭代聚类法，分别将样本聚为三类和四类，下面是聚类分析的结果比较。

表 1 聚为三类后的组重心表 2 聚为四类后的组重心表 3 聚为三类的每组样本数表聚为四类的每组样本数表5 聚为三类后组重心之间的距离表 6 聚为四类后组重心之间的距离由方差分析的结果（结果略）可知，在聚为三类和四类的分析中，V8,V9,V18,V19,V20和V27的组间差异均大于0.05，结果不显著。

2、根据因子得分进行的聚类分析以下是根据因子得分，采用迭代法将样本聚为三类和四类的结果：表7 聚为三类后的组重心-.45298 .16364 .29950 .36038 -.22794 -.15239 .28739 -.32881 .00765 .25444 .70915 -.87203 .52946 -.29355 -.26021 .18363 .11953 -.28471 .00228 .20936 -.18616 .56772-.64844.01414消费因子时尚因子社会因子爱国因子期望因子偏好因子个性因子家庭因子12 3 Cluster表 8 聚为三类时的样本数 137.000 123.000 140.000 400.000 .0001 2 3ClusterValidMissing以下是根据因子得分聚为四类的结果：从以上用因子得分的结果可以看出，聚为三类和四类时八个因子的组间差异都很显著。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一篇文章透彻解读聚类分析及案例实操【数盟致力于成为最卓越的数据科学社区，聚焦于大数据、分析挖掘、数据可视化领域，业务范围：线下活动、在线课程、猎头服务、项目对接】【限时优惠福利】数据定义未来，2016年5月12日-14日DTCC2016中国数据库技术大会登陆北京！大会云集了国内外数据行业顶尖专家，设定2个主会场，24个分会场，将吸引共3000多名IT 人士参会！马上领取数盟专属购票优惠88折上折，猛戳文末“阅读原文”抢先购票！摘要：本文主要是介绍一下SAS的聚类案例，希望大家都动手做一遍，很多问题只有在亲自动手的过程中才会有发现有收获有心得。

这里重点拿常见的工具SAS+R语言+Python介绍!1 聚类分析介绍1.1 基本概念聚类就是一种寻找数据之间一种内在结构的技术。

聚类把全体数据实例组织成一些相似组，而这些相似组被称作聚类。

处于相同聚类中的数据实例彼此相同，处于不同聚类中的实例彼此不同。

聚类技术通常又被称为无监督学习，因为与监督学习不同，在聚类中那些表示数据类别的分类或者分组信息是没有的。

通过上述表述，我们可以把聚类定义为将数据集中在某些方面具有相似性的数据成员进行分类组织的过程。

因此，聚类就是一些数据实例的集合，这个集合中的元素彼此相似，但是它们都与其他聚类中的元素不同。

在聚类的相关文献中，一个数据实例有时又被称为对象，因为现实世界中的一个对象可以用数据实例来描述。

同时，它有时也被称作数据点(Data Point)，因为我们可以用r 维空间的一个点来表示数据实例，其中r 表示数据的属性个数。

下图显示了一个二维数据集聚类过程，从该图中可以清楚地看到数据聚类过程。

虽然通过目测可以十分清晰地发现隐藏在二维或者三维的数据集中的聚类，但是随着数据集维数的不断增加，就很难通过目测来观察甚至是不可能。

1.2 算法概述目前在存在大量的聚类算法，算法的选择取决于数据的类型、聚类的目的和具体应用。

大体上，主要的聚类算法分为几大类。

聚类算法的目的是将数据对象自动的归入到相应的有意义的聚类中。

追求较高的类内相似度和较低的类间相似度是聚类算法的指导原则。

一个聚类算法的优劣可以从以下几个方面来衡量：(1)可伸缩性：好的聚类算法可以处理包含大到几百万个对象的数据集;(2)处理不同类型属性的能力：许多算法是针对基于区间的数值属性而设计的，但是有些应用需要针对其它数据类型(如符号类型、二值类型等)进行处理;(3)发现任意形状的聚类：一个聚类可能是任意形状的，聚类算法不能局限于规则形状的聚类;(4)输入参数的最小化：要求用户输入重要的参数不仅加重了用户的负担，也使聚类的质量难以控制;(5)对输入顺序的不敏感：不能因为有不同的数据提交顺序而使聚类的结果不同;(6)高维性：一个数据集可能包含若干维或属性，一个好的聚类算法不能仅局限于处理二维或三维数据，而需要在高维空间中发现有意义的聚类;(7)基于约束的聚类：在实际应用中要考虑很多约束条件，设计能够满足特定约束条件且具有较好聚类质量的算法也是一项重要的任务;(8)可解释性：聚类的结果应该是可理解的、可解释的，以及可用的。

1.3 聚类应用在商业上，聚类分析被用来发现不同的客户群，并且通过购买模式刻画不同的客户群的特征。

聚类分析是细分市场的有效工具，同时也可用于研究消费者行为，寻找新的潜在市场、选择实验的市场，并作为多元分析的预处理。

在生物上，聚类分析被用来动植物分类和对基因进行分类，获取对种群固有结构的认识。

在地理上，聚类能够帮助在地球中被观察的数据库商趋于的相似性。

在保险行业上，聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组，同时根据住宅类型，价值，地理位置来鉴定一个城市的房产分组。

在因特网应用上，聚类分析被用来在网上进行文档归类来修复信息。

在电子商务上，聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面，通过分组聚类出具有相似浏览行为的客户，并分析客户的共同特征，可以更好的帮助电子商务的用户了解自己的客户，向客户提供更合适的服务。

2 kmeans 算法2.1 基本思想划分聚类算法是根据给定的n 个对象或者元组的数据集，构建k 个划分聚类的方法。

每个划分即为一个聚簇，并且k ? n。

该方法将数据划分为k 个组，每个组至少有一个对象，每个对象必须属于而且只能属于一个组。

1该方法的划分采用按照给定的k 个划分要求，先给出一个初始的划分，然后用迭代重定位技术，通过对象在划分之间的移动来改进划分。

为达到划分的全局最优，划分的聚类可能会穷举所有可能的划分。

但在实际操作中，往往采用比较流行的k-means 算法或者k-median 算法。

2.2 算法步骤k-means 算法最为简单，实现比较容易。

每个簇都是使用对象的平均值来表示。

步骤一：将所有对象随机分配到k 个非空的簇中。

步骤二：计算每个簇的平均值，并用该平均值代表相应的值。

步骤三：根据每个对象与各个簇中心的距离，分配给最近的簇。

步骤四：转到步骤二，重新计算每个簇的平均值。

这个过程不断重复直到满足某个准则函数或者终止条件。

终止(收敛)条件可以是以下任何一个：没有(或者最小数目)数据点被重新分配给不同的聚类;没有(或者最小数目)聚类中心再发生变化;误差平方和(SSE)局部最小。

其中，k 表示需要聚集的类的数目，Cj表示第j 个聚类，mj表示聚类Cj的聚类中心，dist表示数据点x 和聚类中心mj之间的距离。

利用该准则可以使所生成的簇尽可能的紧凑和独立。

SAS kmeans 实现主要是通过proc fastclus 过程实现，示例如下：proc import datafile=”E:\SAS\cars.txt” out=cars dbms=dlm replace;delimiter=’09’x;getnames=yes;run;proc print data=cars;run;proc standard data=cars out=stdcars mean=0 std=1;var Mpg Weight Drive_Ratio Horsepower Displacement;run;proc fastclus data=stdcars summary maxc=5 maxiter=99outseed=clusterseed out=clusterresult cluster=cluster least=2;id Car;var Mpg Weight Drive_Ratio Horsepower Displacement;run;2.3 算法分析k-means 算法对于大型的数据库是相对高效的，一般情况下结束于局部最优解。

但是，k-means 算法必须在平均值有意义的情况下才能使用，对分类变量不适用，事先还要给定生成聚类的数目，对异常数据和数据噪声比较敏感，不能对非凸面形状的数据进行处理。

另外，k-means 算法在聚类过程中可能有的聚类中心没有被分配任何数据而使得某些聚类变为空，这些聚类通常被称为空聚类。

为了解决空聚类问题，我们可以选择一个数据点作为替代的聚类中心。

例如，某一个含有大量数据的聚类的聚簇中心最远的数据点。

如果算法的终止条件取决于误差平方和，具有最大误差平方和的聚类可以被用来寻找另外的聚类中心。

3 层次聚类算法3.1 基本思想层次聚类主要有两种类型：合并的层次聚类和分裂的层次聚类。

前者是一种自底向上的层次聚类算法，从最底层开始，每一次通过合并最相似的聚类来形成上一层次中的聚类，整个当全部数据点都合并到一个聚类的时候停止或者达到某个终止条件而结束，大部分层次聚类都是采用这种方法处理。

后者是采用自顶向下的方法，从一个包含全部数据点的聚类开始，然后把根节点分裂为一些子聚类，每个子聚类再递归地继续往下分裂，直到出现只包含一个数据点的单节点聚类出现，即每个聚类中仅包含一个数据点。

层次聚类技术是一种无监督学习的技术，因此可能没有确定的、一致的正确答案。

正是由于这个原因，并且在聚类的特定应用的基础之上，可以设计出较少或较多数量的簇。

定义了一个聚类层次，就可以选择希望数量的簇。

在极端的情况下，所有的对象都自成一簇。

在这样的情形下，聚类的对象之间非常相似，并且不同于其他的聚类。

当然，这种聚类技术就失去了实际意义，因为聚类的目的是寻找数据集中的有意义的模式，方便用户理解，而任何聚类的数目和数据对象一样多的聚类算法都不能帮助用户更好地理解数据，挖掘数据隐藏的真实含义。

这样，关于聚类的很重要的一点就是应该比原先的数据的数目更少的簇。

到底要形成多少个聚类数目，要根据实际业务的理解，这是如何解释实际项目的事情。

层次聚类算法的好处是它可以让用户从这些簇中选择所感兴趣的簇，这样更具有灵活性。

层次聚类通常被看做成一棵树，其中最小的簇合并在一起创建下一个较高层次的簇，这一层次的簇再合并在一起就创建了再下一层次的簇。

通过这样的过程，就可以生成一系列的聚类树来完成聚类。

单点聚类处在树的最底层，在树的底层有一个根节点聚类。

根节点聚类覆盖了全部数据节点，兄弟节点聚类则划分了它们共同的父节点中的所有的数据点。

图1-5是采用统计分析软件SAS对Cars2数据集进行层次聚类的层次聚类结果图。

通过该层次聚类树，用户可以选择查看在树的各个层次上的聚类情况。

基于层次的聚类算法方法比较简单，但是缺乏伸缩性，一旦一个合并或者分裂被执行，就不能撤销。

为了改进层次聚类的效果，可以将层次聚类算法和其他聚类算法结合使用，形成多阶段的聚类算法。

3.2 算法步骤层次聚类(hierarchical clustering)算法递归的对对象进行合并或者分裂，直到满足某一终止条件为止。

层次聚类分为两种，按自底向上层次分解称为聚合的层次聚类，反之，称为分解的层次聚类。

层次聚类算法的计算复杂度为O(n2)，适合小型数据集的分类。

CURE、ROCK、BIRCH和CHAMELEON是聚合层次聚类中最具代表性的方法。

CURE(Clustering Using REpresentatives)算法采用了抽样和分区的技术，选择数据空间中固定数目的、具有代表性的一些点来代表相应的类，这样就可以识别具有复杂形状和不同大小的聚类，从而很好的过滤孤立点。

ROCK(RObust Clustering using linKs)算法是对CURE算法的改进，除了具有CURE算法的一些优良特性外，还适用于类别属性的数据。

BIRCH(Balanced Iterative Reducing and Clustering using Hierarchy)算法首次提出了通过局部聚类对数据库进行预处理的思想。

CHAMELEON是Karypis等人1999年提出的，它在聚合聚类的过程中利用了动态建模技术。