聚类分析：基本概念与算法

合集下载

聚类分析数据

聚类分析数据聚类分析是一种数据挖掘方法，用于将相似的数据点分组成簇。

它能够匡助我们发现数据中的潜在模式和结构，从而提供洞察力和指导性的决策支持。

在本文中，我们将探讨聚类分析的基本概念、常用的聚类算法以及应用案例。

一、聚类分析的基本概念聚类分析是一种无监督学习方法，它不依赖于预先标记的训练数据。

其主要目标是通过将相似的数据点分组成簇，使得簇内的数据点相似度较高，而簇间的数据点相似度较低。

聚类分析通常用于探索性数据分析和数据预处理阶段，以匡助我们理解数据的内在结构和特征。

在聚类分析中，我们需要考虑以下几个关键概念：1. 数据相似度度量：聚类算法需要一种度量方法来衡量数据点之间的相似度或者距离。

常用的度量方法包括欧氏距离、曼哈顿距离、余弦相似度等。

2. 聚类算法：聚类算法是用于将数据点分组成簇的数学模型或者算法。

常见的聚类算法包括K均值聚类、层次聚类、DBSCAN等。

3. 聚类评估指标：为了评估聚类结果的质量，我们需要一些指标来衡量聚类的密切度和分离度。

常用的评估指标有轮廓系数、Davies-Bouldin指数、Calinski-Harabasz指数等。

二、常用的聚类算法1. K均值聚类算法：K均值聚类是一种基于距离的聚类算法，它将数据点分配到K个簇中，使得簇内的数据点与簇中心的距离最小化。

它的基本思想是通过迭代优化来不断更新簇中心和数据点的分配，直到达到收敛条件。

2. 层次聚类算法：层次聚类是一种基于距离或者相似度的聚类算法，它通过逐步合并或者分割簇来构建聚类层次结构。

层次聚类可以分为凝结型层次聚类和分裂型层次聚类两种方法。

3. DBSCAN算法：DBSCAN是一种基于密度的聚类算法，它将数据点分为核心点、边界点和噪声点三类。

DBSCAN通过计算数据点的密度来确定核心点，并将密度可达的数据点分配到同一个簇中。

三、聚类分析的应用案例聚类分析在各个领域都有广泛的应用，下面是几个常见的应用案例：1. 市场细分：聚类分析可以匡助企业将客户细分为不同的市场群体，从而针对不同的群体制定个性化的营销策略。

模式识别中的聚类分析方法

模式识别中的聚类分析方法聚类分析是一种常用的机器学习方法，用于将大量数据分为不同的类别或群组，并在其中寻找共性和差异性。

在模式识别中，聚类分析可以帮助我们理解数据集中不同对象之间的关系，以及它们之间的相似性和差异性。

本文将介绍聚类分析的基本概念、算法和应用，以及一些实用的技巧和方法，以帮助读者更好地理解和应用这一方法。

一、聚类分析的基础概念在聚类分析中，我们通常会面对一个数据点集合，其特征被表示为$n$个$d$维向量$x_{i}=(x_{i1},x_{i2},…,x_{id})$。

聚类分析的目标是将这些数据点划分为$k$个不同的类别或群组$G_{1},G_{2},…,G_{k}$，并使得同一类别中的数据点相似性较高，不同类别之间的相似性较低。

为了完成这个任务，我们需要先定义一个相似性度量方法，用于计算数据点之间的距离或相似度。

常用的相似性度量方法包括欧式距离、余弦相似度、Jaccard相似度和曼哈顿距离等，具体选择哪一种方法取决于我们要研究的数据类型和应用要求。

定义了相似性度量方法后，我们可以使用聚类算法将数据点分成不同的类别。

聚类算法的主要分类包括层次聚类和基于中心点的聚类。

层次聚类是通过自下而上的方法将数据点归属到不同的类别中，以便于构建聚类树或聚类图。

基于中心点的聚类则是通过不断地计算每个数据点离其所属类别的中心点的距离来更新类别簇，直到收敛为止。

通常来说，基于中心点的聚类算法更快且更易于应用，因此被广泛应用于实际问题中。

二、聚类分析的主要算法1. K-means 聚类算法K-means 聚类算法是一种基于中心点的聚类算法，其核心思想是通过不断更新每个数据点所属的类别，同时更新该类别的中心点，直到找到最优的聚类结果。

具体而言，K-means 聚类算法首先需要预设$k$个初始的聚类中心点，然后计算每个数据点与这$k$个聚类中心的距离，并将其分配到最近的一个聚类中心点所代表的类别中。

完成初始聚类后，算法会重新计算每个类别的中心点，并根据新的中心点重新分配所有数据点，直到所有数据点都不再变换为止。

聚类分析的基本概念与方法

聚类分析的基本概念与方法聚类分析（Cluster Analysis）是一种将数据分组或分类的统计学方法，通过将相似的对象归为同一组，使得组内的对象之间更加相似，而不同组之间的对象则差异较大。

它是数据挖掘和机器学习领域中常用的技术之一，被广泛应用于市场分析、生物信息学、图像处理等领域。

一、聚类分析的基本概念聚类分析基于相似性的概念，即认为具有相似特征的对象更有可能属于同一类别。

在聚类分析中，每个对象都被视为一个数据点，而聚类则是将这些数据点分组。

基本概念包括以下几点：1. 数据点：数据集中的每个样本或对象都被看作是一个数据点，它具有多个特征或属性。

2. 相似性度量：聚类分析的关键是如何计算数据点之间的相似性或距离。

常用的相似性度量包括欧氏距离、曼哈顿距离、闵可夫斯基距离等。

3. 簇/类别：将相似的数据点归为一组，这个组被称为簇或类别。

簇内的数据点相似度较高，而不同簇之间的数据点相似度较低。

4. 聚类算法：聚类分析依赖于具体的算法来实现数据点的分组。

常见的聚类算法有K均值聚类、层次聚类、密度聚类等。

二、聚类分析的方法1. K均值聚类（K-means Clustering）：K均值聚类是一种迭代的聚类方法，它将数据点分成K个簇，每个簇代表一个样本集。

算法的基本思想是通过最小化簇内数据点与簇中心之间的平方误差来确定最优的簇中心位置。

2. 层次聚类（Hierarchical Clustering）：层次聚类是一种基于树状结构的聚类算法，它根据数据点之间的相似性逐步合并或分割簇。

层次聚类分为凝聚型和分裂型两种方法，其中凝聚型方法从单个数据点开始，逐步合并最相似的簇；分裂型方法从所有数据点开始，逐步分割最不相似的簇。

3. 密度聚类（Density-Based Clustering）：密度聚类基于密度可达的概念，将具有足够高密度的数据点归为一簇。

核心思想是在数据空间中通过密度连通性来确定簇的边界，相对于K均值聚类和层次聚类，密度聚类能够有效处理不规则形状和噪声数据。

数据挖掘导论--第8章-聚类-2017-v3

8.2 K-均值聚类算法 K-means Clustering
K-means Clustering
K均值是基于原型的、划分的聚类技术。典型的基于原型的、划分的聚类算法： K均值、 K中心点。
K均值用质心定义原型，其中质心是一组点的均值。 K均值聚类用于n维连续空间中的对象。它试图发现用户指定个数（K）的簇（由质心代表）。
分裂式的层次聚类，其层次过程的方向是自顶向下的，最初先将有关对象放到一个簇中，然后将这个簇分裂，分裂的原则是使两个子簇之间的聚类尽可能的远，分裂的过程也反复进行，直到某个终止条件被满足时结束。不论是合并还是分解的过程，都会产生树状结构，树的叶子节点对应各个独立的对象，顶点对应一个包含了所有对象的簇。
不同的簇类型
明显分离的簇 :
簇是对象的集合，不同组中的任意两点之间的距离都大于组内任意两点之间的距离。
基于原型的簇（基于中心的簇）
簇是对象的集合，其中每个对象到定义该簇的原型的距离比到其他簇的原型的距离更近（或更加相似）。对于具有连续属性的数据，簇的原型通常是质心，即簇中所有点的平均值。当质心没有意义是，原型通常是中心点，即簇中最有代表性的点。这种簇倾向于呈球状。
8.3.1 基本的凝聚层次聚类算法 8.3.2 如何计算簇之间的邻近性 8.3.4 层次聚类的主要问题
8.4 DBSCAN
聚类算法的分类
大体上，主要的聚类算法可以划分为如下几类：划分方法层次方法基于密度的方tion method）给定一个有N个元组或者记录的数据集，划分方法将构造K个分组，每一个分组就代表一个聚类，K<N。而且这K分组满足下列条件： 1）每一个分组至少包含一个数据记录； 2）每一个数据记录隶属于且仅属于一个分组；对于给定的K，算法首先给出一个初始的分组方法，以后通过反复迭代的方法改变分组，使得每一次改进之后分组方案都较前一次好，所谓的“好”的标准就是同一分组的记录越相似越好，而不同分组中的记录则越相异越好。最著名与最常用的划分方法是k-均值方法和k-中心点方法。

聚类分析数据

聚类分析数据聚类分析是一种数据分析方法，用于将相似的数据点归为一类。

它是无监督学习的一种常见技术，可以匡助我们发现数据中隐藏的模式和结构。

在本文中，我们将介绍聚类分析的基本概念、常用的聚类算法以及如何应用聚类分析来解决实际问题。

一、聚类分析的基本概念聚类分析的目标是将数据点划分为若干个互相之间相似度较高的簇，使得同一簇内的数据点相似度较高，而不同簇之间的数据点相似度较低。

在进行聚类分析之前，我们需要选择适当的相似度度量方法和聚类算法。

1. 相似度度量方法相似度度量方法用于衡量两个数据点之间的相似程度。

常用的相似度度量方法包括欧氏距离、曼哈顿距离、余弦相似度等。

选择合适的相似度度量方法对于聚类分析的结果具有重要影响。

2. 聚类算法聚类算法用于将数据点划分为不同的簇。

常用的聚类算法包括K均值聚类、层次聚类、DBSCAN等。

不同的聚类算法适合于不同类型的数据和问题，选择合适的聚类算法可以提高聚类分析的效果。

二、常用的聚类算法1. K均值聚类K均值聚类是一种基于距离的聚类算法，它将数据点划分为K个簇，其中K是用户预先指定的参数。

该算法的基本思想是通过迭代优化的方式，将数据点分配到离其最近的簇中，然后更新簇的中心点，直到达到收敛条件。

2. 层次聚类层次聚类是一种将数据点组织成树状结构的聚类算法。

它的基本思想是通过计算数据点之间的相似度，逐步合并相似度最高的数据点或者簇，直到所有数据点都被合并到一个簇中或者达到预定的聚类数目。

3. DBSCANDBSCAN是一种基于密度的聚类算法，它将数据点划分为核心点、边界点和噪声点三类。

该算法的基本思想是通过计算数据点的密度，将密度达到一定阈值的核心点连接在一起形成簇，而边界点则被分配到与其相邻的核心点所在的簇中。

三、聚类分析的应用1. 市场细分聚类分析可以匡助企业将市场细分为不同的消费者群体。

通过分析消费者的购买行为、偏好等数据，可以将消费者划分为具有相似特征的簇，从而有针对性地制定营销策略。

聚类分析与异常检测方法应用

聚类分析与异常检测方法应用聚类分析和异常检测是数据分析领域中常用的方法，能够对大量数据进行有效的分类和异常检测。

本文将介绍聚类分析和异常检测的基本概念、应用场景以及常用的算法方法。

一、聚类分析1.基本概念聚类分析是指将一组数据按照某种规则或相似性度量分成若干类的方法。

聚类分析通过度量数据点之间的相似性或距离来确定数据点之间的分组关系。

聚类分析是无监督学习的一种方法，不需要预先定义类别或标签，而是通过数据本身的内部结构来确定分类。

2.应用场景聚类分析可以应用在许多领域，例如市场分析、用户行为分析、图像处理和生物信息学等。

在市场分析中，聚类分析可以帮助确定不同消费者群体的行为模式和偏好；在生物信息学中，聚类分析可以根据基因表达数据将样本分类为不同的亚型。

3.算法方法常用的聚类算法包括K均值算法、层次聚类算法和密度聚类算法等。

K均值算法是聚类分析中最常用的方法之一，它通过迭代计算数据点与类中心之间的距离，并将数据点划分到最近的类中心。

层次聚类算法将数据点逐步合并成聚类簇，形成一个层次结构，可以根据需要选择合适的聚类簇个数。

密度聚类算法根据数据点的密度来确定聚类簇，能够发现任意形状的聚类簇。

二、异常检测1.基本概念异常检测是指识别数据集中与大多数样本不符的样本或事件的方法。

异常检测可以用于检测数据中的异常值、异常行为或异常模式，有助于发现潜在的问题、欺诈行为或系统故障。

2.应用场景异常检测可以应用在金融风控、网络安全、工业质量控制和医学诊断等领域。

在金融风控中，异常检测可以识别异常的交易行为，帮助预防欺诈和风险；在网络安全中，异常检测可以检测到网络攻击和入侵行为。

3.算法方法常用的异常检测算法包括基于统计方法的箱线图和3σ原则、基于距离的聚类方法和基于模型的方法等。

箱线图和3σ原则是最简单直观的异常检测方法，通过计算数据点与平均值之间的距离来判断是否为异常值。

基于距离的聚类方法通过计算数据点与聚类中心之间的距离来确定异常点。

chap8_聚类分析

-1.5
-1
-0.5
0
0.5
1
1.5
2
x
3
3
2.5
2.5
2
2
1.5
1.5
y
1
y
1 0.5 0.5 0 0 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2
-1.5
-1
-0.5
0
0.5
1
1.5
2
x
x
最优（全局最优）
次最优（局部最优）
初始质心选取是重要性的例1
Iteration 6 1 2 3 4 5
核心点是稠密区域内部的点
–
边界点：该点不是核心点（即在指定半径Eps内的点的个数小于MinPts），但它落在某个核心点的邻域内噪声或背景点：既非核心点，也非边界点的任何点。
–
核心点，边界点，噪声点
DBSCAN 算法
思想：任意两个足够靠近（相互距离在Eps之内的）的核心点将放入一个簇中步骤：
piCluster i p jClusterj
|Cluster i ||Cluster j|
P324 例 8.6
5 2 5 2
4
1
0.25 0.2 0.15
3
1 4 3
6
0.1 0.05 0
3
6
4
1
2
5
邻近簇
树状图
层次聚类比较
5
1 3 5 2 4 4 2 3 1
4
1
2
5 MIN 6 3 MAX 2 3 1 6
簇
•具有一定的抗噪声能力 •能处理任意形状和大小的簇
聚类算法的不足

聚类分析法

聚类分析法聚类分析是一种常用的数据分析方法，主要用于将相似的样本归类到同一类别中。

它是数据挖掘和机器学习领域中非常重要的一项技术，被广泛应用于各个领域，如市场研究、医学诊断、社交网络分析等。

本文将介绍聚类分析的基本概念、方法和应用，并分析其优势和局限性。

聚类分析是一种无监督学习方法，它不依赖于事先标定好的训练数据集。

通过对给定的数据进行聚类，我们可以发现数据中隐藏的模式、结构和规律。

聚类分析的基本思想是通过计算样本之间的相似度或距离，将相似的样本归为一类，从而实现对数据的分类。

在聚类分析中，相似度或距离的度量是一个关键问题，常用的度量方法包括欧氏距离、曼哈顿距离、余弦相似度等。

聚类分析的方法主要有层次聚类和划分聚类两种。

层次聚类是将样本逐步合并或分割成不同的类别，形成层次化的分类结果。

划分聚类是将所有的样本划分为K个不相交的类别，每个类别之间是互不重叠的。

这两种方法各有优劣，选择何种方法取决于具体的问题和数据特点。

聚类分析的应用非常广泛。

在市场研究中，聚类分析可以将消费者按照其购买行为、兴趣偏好等特征划分为不同的群体，为企业提供有针对性的营销策略。

在医学诊断中，聚类分析可以将病人按照其病情特征进行分类，帮助医生进行准确的诊断和治疗。

在社交网络分析中，聚类分析可以将社交网络中的用户划分为不同的社区，研究社交网络的结构和特征。

然而，聚类分析也存在一些局限性和挑战。

首先，聚类算法的结果很大程度上依赖于选择的相似度或距离度量方法，不同的度量方法可能导致不同的聚类结果。

其次，聚类算法对初始的聚类中心的选择非常敏感，不同的初始选择可能会得到不同的聚类结果。

此外，聚类算法还面临维度灾难的问题，当数据的维度很大时，聚类算法的计算复杂度会急剧增加。

在实际应用中，我们还可以将聚类分析与其他数据挖掘方法相结合，以获得更好的分析结果。

比如，我们可以将聚类分析与关联规则挖掘结合起来，通过挖掘不同类别之间的关联规则，深入分析不同类别之间的关系。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

25
选择了较差的初始质心的结果演示
Iteration 5
3
3
26
Iteration 4 1 2 3
2.5
2.5
2
2
1.5
1.5
y
y
1
1
0.5
0.5
0
0
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
-2
-1.5
-1
-0.5
0
x 0.5
1
1.5
2
x
选择了较差的初始质心的结果分解演示
Iteration 1
选择初始的质心
• 随机选择 • 从层次聚类中提取K个簇，并用这些簇的质心作为初始质心 • 随机选择第一个点，或取所有点的质心作为第一个点。然后，对于每个后继初始质心，选择离已经选取过的初始质心最远的点 • 局限：需多次运行，每次使用不同的随机初始质心，然后选取具有最小SSE（误差的平方和）的簇集。方法简单，但是效果不佳，取决于数据集和寻找簇的个数。
1
聚类分析：基本概念和算法
蔡赛凤 141030008 王希鹃 141030014 王书一 142030045
目录
1. 概述 2. K均值 3. 凝聚层次聚类
2
4. DBSCAN
5. 簇评估
3
思考：如何对移动公司客户进行管理？
什么是聚类分析?
1. 含义
4
“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题。所谓类，通俗地说，就是指相似元素的集合。聚类是根据“物以类聚”的原理，将本身没有类
部分聚类（partial clustering）
– 部分聚类中数据集某些对象可能不属于明确定义的组。如：一些对象可能是离群点、噪声。
完全聚类（complete clustering）
– 完全聚类将每个对象指派到一个簇。
不同的簇类型明显分离的（Well-Separated）基于原型的基于图的基于密度的概念簇
33
凝聚的层次聚类
第3 步
分裂的层次聚类
第0 步
a
第4 步
凝聚的（AGENS）
基本凝聚层次聚类方法
• 凝聚层次聚类算法：
1. 2. 3. 4. 5. 6. 计算临近度矩阵让每个点作为一个簇重复第一步和第二步合并最近的两个簇更新临近度矩阵，以反映新的簇与原来的簇之间的临近性直到仅剩下一个簇为止
C1 C3 C4 C2 C3 C4 C5 C1
37
邻近度矩阵
C5
C2
...
p1 p2 p3 p4 p9 p10 p11 p12
基本凝聚层次聚类方法
• 合并簇
C1 C2 U C1 C5 C3
38
C4
C2 UC5
C3 C4 C3 C4
邻近度矩阵
C1
C2 U C5
...
p1 p2 p3 p4 p9 p10 p11 p12
0.5
0
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
-1.5
-1
-0.5
0
0.5
1
1.5
2
x
x
x
Iteration 4
3 2.5
Iteration 5
3 3 2.5 2.5
Iteration 6
2
2
2
1.5
1.5
1.5
y
y
1
1
y
1 0.5 0.5 0 0 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2
p1 p3 p2 p4
p2
p3 p4
Traditional Dendrogram
p1 p2
p3 p4
Non-traditional Hierarchical Clustering
Non-traditional Dendrogram
11
互斥聚类（exclusive clustering）
— 每个对象都指派到单个簇。
定义簇之间的邻近性
p1 p2 相似性? p1 p3 p4 p5
...
39
p2
p3 p4
p5

单链全链组平均质心间的距离 Ward方法
. . .
邻近度矩阵
特殊技术—样本数据
40
定义簇间的邻近性
41

单链全链组平均质心间的距离 Ward方法
• 两个簇的邻近度定义为基于这两个簇中最大相似度（最短距离） • 由一对最近邻点决定
30
优点与缺点
优点： • 算法简单 • 适用于球形簇 • 二分k均值等变种算法运行良好，不受初始化问题的影响。缺点： • 不能处理非球形簇、不同尺寸和不同密度的簇 • 对离群点、噪声敏感
31
层次聚类的定义及其分类
• 层次聚类按数据分层建立簇，形成一棵以簇为节点的树，即聚类图。
32
• 按自底向上层次分解，则称为凝聚的层次聚类。
1.5
1
1
0.5
0.5
0.5
0
0
0
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
x
x
x
二分k均值
• 二分k均值算法是基本k均值算法的直接扩充。它将所有点的集合分裂成两个簇，从这些簇中选取一个继续分裂，如此下去，直到产生k个簇。
④计算均值可得m1=2.5 和 m2=16。
⑤重新对类中的成员进行分配，不断重复上述过程，直至均值不再变化。
23
• 具体过程如表：
m1 2 2.5 3 m2 4 16 18 {2,3} {2,3,4} {2,3,4,10} K1 K2 {4,10,12,20,30,11,2 5} {10,12,20,30,11,25} {12,20,30,11,25}
• 经过部分融合之后，我们得到一些簇
p1 p2
p1 p2 C3 C4
36
p3
p4 p5
...
p3
p4 p5
.
C1
.
邻近度矩阵
C2
C5
.
...
p1 p2 p3 p4 p9 p10 p11 p12
基本凝聚层次聚类方法
• 我们希望合并两个最邻近的簇 (C2 和 C5) 并更新临近度矩阵 C1 C2 C3 C4 C5
特殊技术—单链
min(0.15,0.25,0.28,0.39) 0.15
5 1 3 5
0.2
42
dist({3,6}, {2,5}) min(dist(3,2), dist(6,2), dist(3,5), dist(6,5))
2 2
4 4
单链聚类
1 3 6
0.15
0.1
0.05
0
3
6
1.5
y
y
1
1
0.5
0.5
0
0
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
x
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x
算法分解演示
Iteration 1
3 3 2.5 2.5
21
Iteration 2
3 2.5
Iteration 3
2
2
2
1.5
1.5
1.5
y
y
1
1
y
1 0.5 0.5 0 0 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2
别的样本聚集成不同的组，这样的一组数据对象的
集合叫做簇，并且对每一个这样的簇进行描述的过
程。
5
聚类分析将数据划分成有意义或有用的组（簇）。
聚类分析仅根据在数据中发现的描述对象及其关系
的信息，将数据对象分组。
其目标是，组内的对象相互之间是相似的，而不同
组中的对象是不同的。
聚类分析的典型应用
2
5
4
1
单链树状图
34
•
关键的操作是两组簇的邻近度计算 – 不同的邻近度的定义区分了各种不同的凝聚层次技术
基本凝聚层次聚类方法
• 起始于单独的点及邻近度矩阵
p1 p2 p1 p2 p3 p4 p3 p4 p5
...
35
p5
. . .
p1 p2 p3 p4
邻近度矩阵
...
p9 p10 p11 p12
基本凝聚层次聚类方法
非互斥（重叠）聚类（non-exclusive）
— 聚类用来反映一个对象，同时属于多个组（类）这一事实。例如：在大学里，一个人可能既是学生，又是雇员例如：在蛋白质网络里，一个蛋白质，可能具有多个不同功能，分别属于多个功能模块
12
模糊聚类（Fuzzy clustering）
– 每个对象以一个0（绝对不属于）和1（绝对属于）之间的隶属权值属于每个簇。簇被视为模糊集。
8
划分聚类（Partitional Clustering）
划分成不重叠的子集，使得每个数据对象恰在一个子集。
9
原来的点
划分聚类
层次聚类（Hierarchical Clustering）