最全的聚类知识课件

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

聚类分析
聚类(clustering)就是将数据对象分组成为多个类或簇(cluster)，在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。

相异度是基于描述对象的属性值来计算的。

距离是经常采用的度量方式。

聚类分析源于许多研究领域，包括数据挖掘，统计学，生物学，以及机器学习。

将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。

由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。

在许多应用中，一个簇中的数据对象可以被作为一个整体来对待
“聚类的典型应用是什么？”在商业上，聚类能帮助市场分析人员从客户基本库中发现不同的客户群，并且用购买模式来刻画不同的客户群的特征。

聚类也能用于对Web 上的文档进行分类，以发现信息。

作为一个数据挖掘的功能，聚类分析能作为一个独立的工具来获得数据分布的情况，观察每个簇的特点，集中对特定的某些簇作进一步的分析。

此外，聚类分析可以作为其他算法（如分类等）的预处理步骤，这些算法再在生成的簇上进行处理
作为统计学的一个分支，聚类分析已经被广泛地研究了许多年，主要集中在基于距离的聚类分析。

基于k-means(k-平均值)，k-medoids(k-中心)和其他一些方法的聚类分析工具已经被加入到许多统计分析软件包或系统中，例如S-Plus，SPSS，以及SAS。

在机器学习领域，聚类是无指导学习(unsupervised learning)的一个例子。

与分类不同，聚类和无指导学习不依赖预先定义的类和训练样本。

由于这个原因，聚类是通过观察学习，而不是通过例子学习。

在概念聚类（conceptual clustering）中，一组对象只有当它们可以被一个概念描述时才形成一个簇。

这不同于基于几何距离来度量相似度的传统聚类。

概念聚类由两个部分组成：（1）发现合适的簇；（2）形成对每个簇的描述。

在这里，追求较高类内相似度和较低类间相似度的指导原则仍然适用。

活跃的研究主题集中在聚类方法的可伸缩性，方法对聚类复杂形状和类型的数据的有效性，高维聚类分析技术，以及针对大的数据库中混合数值和分类数据的聚类方法。

数据挖掘对聚类的典型要求如下：
⏹ 可伸缩性：许多聚类算法在小于200 个数据对象的小数据集合上工作得很好；但是，一个大规模数据库可能包含几百万个对象，在这样的大数据集合样本上进行聚类可能会导致有偏的结果。

我们需要具有高度可伸缩性的聚类算法。

处理不同类型属性的能力：许多算法被设计用来聚类数值类型的数据。

但是，应用可能要求聚类其他类型的数据，如二元类型(binary)，分类/标称类型（categorical/nominal），
序数型（ordinal）数据，或者这些数据类型的混合。

⏹ 发现任意形状的聚类：许多聚类算法基于欧几里得或者曼哈顿距离度量来决定聚类。

基于这样的距离度量的算法趋向于发现具有相近尺度和密度的球状簇。

但是，一个簇可能是任意形状的。

提出能发现任意形状簇的算法是很重要的。

⏹ 用于决定输入参数的领域知识最小化：许多聚类算法在聚类分析中要求用户输入一定的参数，例如希望产生的簇的数目。

聚类结果对于输入参数十分敏感。

参数通常很难确定，特
别是对于包含高维对象的数据集来说。

这样不仅加重了用户的负担，也使得聚类的质量难以控制。

⏹ 处理“噪声”数据的能力：绝大多数现实中的数据库都包含了孤立点，缺失，或者错误的数据。

一些聚类算法对于这样的数据敏感，可能导致低质量的聚类结果。

⏹ 对于输入记录的顺序不敏感：一些聚类算法对于输入数据的顺序是敏感的。

例如，同一个数据集合，当以不同的顺序交给同一个算法时，可能生成差别很大的聚类结果。

开发对数据输入顺序不敏感的算法具有重要的意义。

⏹ 高维度（high dimensionality）：一个数据库或者数据仓库可能包含若干维或者属性。

许多聚类算法擅长处理低维的数据，可能只涉及两到三维。

人类的眼睛在最多三维的情况下能够很好地判断聚类的质量。

在高维空间中聚类数据对象是非常有挑战性的，特别是考虑到这样的数据可能分布非常稀疏，而且高度偏斜。

⏹ 基于约束的聚类：现实世界的应用可能需要在各种约束条件下进行聚类。

假设你的工作是在一个城市中为给定数目的自动提款机选择安放位置，为了作出决定，你可以对住宅区进行聚类，同时考虑如城市的河流和公路网，每个地区的客户要求等情况。

要找到既满足特定的约束，又具有良好聚类特性的数据分组是一项具有挑战性的任务。

⏹ 可解释性和可用性：用户希望聚类结果是可解释的，可理解的，和可用的。

也就是说，聚类可能需要和特定的语义解释和应用相联系。

应用目标如何影响聚类方法的选择也是一个重要的研究课题。

聚类分析中的数据类型
假设要聚类的数据集合包含n 个数据对象，许多基于内存的聚类算法选择如下两种有代表性的数据结构：
数据矩阵（Data matrix，或称为对象属性结构）：它用p 个变量（也称为属性）来表现n 个对象，例如用年龄，身高，性别，种族等属性来表现对象“人”。

这种数据结构是关系表的形式，或者看为n*p 维（n 个对象*p 个属性）的矩阵。

相异度矩阵（dissimilarity matrix，或称为对象-对象结构）：存储n 个对象两两之间的近似性，表现形式是一个n*n 维的矩阵。

d(i,j)是对象i 和对象j 之间相异性的量化表示，通常它是一个非负的数值，当对象i 和
j 越相似，其值越接近0；两个对象越不同，其值越大
d(i,j) = d(j,i)，而且d(i,i)=0
数据矩阵经常被称为二模（two-mode）矩阵，而相异度矩阵被称为单模（one-mode）矩阵。

这是因为前者的行和列代表不同的实体，而后者的行和列代表相同的实体。

许多聚类算法以相异度矩阵为基础。

如果数据是用数据矩阵的形式表现的，在使用该类算法之前要将其转化为相异度矩阵。

区间标度（Interval-Scaled）变量
距离度量，它通常用于计算用该类变量描述的对象的相异性。

距离的度量包括欧几里得距离，曼哈顿距离，以及明考斯基距离。

“什么是区间标度变量？”区间标度变量是一个线性标度的连续度量。

典型的例子包括重量和高度，经度和纬度坐标，以及大气温度。

选用的度量单位将直接影响聚类分析的结果。

一般而言，所用的度量单位越小，变量可能的值域就越大，这样对聚类结果的影响也越大。

为了避免对度量单位选择的依赖，数据应当标准化。

标准化度量值试图给所有的变量相等的权重。

“怎样将一个变量的数据标准化？”为了实现度量值的标准化，一种方法是将原来的度量值转。

换为无单位的值。

最常用的距离度量方法是欧几里得距离；这里的i=（xi1，xi2，…,xip）和j=(xj1,xj2,…xjp)是两个p 维的数据对象。

2．d（i，i）=0：一个对象与自身的距离是0。

3．d（i，j）= d（j，i）：距离函数具有对称性。

4．d（i，j）≤ d（i，h）+d（h，j）：从对象I到对象j的直接距离不会大于途径任何其他对象的距离。

当q=1 时，它表示曼哈顿距离；当a=2 表示欧几里得距离。

如果对每个变量根据其重要性赋予一个权重，加权的欧几里得距离。

计算用二元变量描述的对象间的相似度
一个二元变量只有两个状态：0 或1，0 表示该变量为空，1 表示该变量存在
“对称的二元变量和不对称的二元变量之间的区别是什么？”如果它的两个状态有相同的权重, 那么该二元变量是对称的，也就是两个取值0 或1 没有优先权。

如果假设所有的二元变量有相同的权重，我们得到一个两行两列的可能性表8.1。

在表中，q 是对对象i 和j 值都为1 的变量的数目，r 是在对象i 中值为1，在对象j 中值为0 的变量的数目，s 是在对象i 中值为0，在对象j 中值为1 的变量的数目，t 是在对象i 和j 中值都为0 的变量的数目。

变量的总数是p，
p=q+r+s+t。

基于对称二元变量的相似度称为恒定的相似度，即当一些
或者全部二元变量编码改变时，计算结果不会发生变化。

对恒定的相似度来说，评价两个对象i 和j 之间相异度的最著名的系数是简单匹配系数，其定义如下：d(I,j) = (r+s) / (q+r+s+t)
如果两个状态的输出不是同样重要，那么该二元变量是不对称的。

对非恒定的相似度，最著名的评价系数是Jaccard 系数，在它的计算中，负匹配的数目被认为是不重要的，因此被忽略。

D(I,j) = (r+s) / (q+r+s)
标称型、序数型和比例标度型变量
标称变量
标称变量是二元变量的推广，它可以具有多于两个的状态值。

例如，map_color 是一个标称变量，它可能有五个值：红色,黄色，绿色，粉红色，和蓝色。

假设一个标称变量的状态数目是M。

这些状态可以用字母，符号，或者一组整数（如1，2，…,M）
来表示。

要注意这些整数只是用于数据处理，并不代表任何特定的顺序。

“如何计算标称变量所描述的对象之间的相异度？”两个对象i 和j 之间的相异度可以用简单匹配方法来计算：
d(I,j) = (p-m)/p
m 是匹配的数目，即对i 和j 取值相同的变量的数目；而p 是全部变量的数目。

我们可以通过赋权重来增加m 的影响，或者赋给有较多状态的变量的匹配更大的权重。

通过为每个状态创建一个二元变量，可以用二元变量来表示标称变量。

对一个有特定状态值的对象，对应该状态值的二元变量值置为1，而其余的二元变量值置为0。

序数型变量
一个离散的序数型变量类似于标称变量，除了序数型变量的M 个状态是以有意义的序列排序的。

序数型变量对记录那些难以客观度量的主观评价是非常有用的
将区间标度变量的值域划分为有限个区间，从而将其值离散化，也可以得到序数型变量。

一个序数型变量的值可以映射为排序。

例如，假设一个变量f 有Mf 个状态，这些有序的状态定义了一个序列1，…,Mf。

假设f 是用于描述n 个对象的一组序数型变量之一，关于f 的相异度计算包括如下步骤：
第i 个对象的f 值为xif，变量f 有Mf 个有序的状态，对应于序列1，…，Mf。

用对应的rif 代替xif，rif∈{1,…,Mf}。

既然每个序数型变量可以有不同数目的状态，我们经常必须将每个变量的值域映射到[0 .0, 1.0]上，以便每个变量都有相同的权重。

这一点可以通过用zif 代替rif 来实现。

Zif = (rif –1) / (Mf-1)
比例标度型变量
比例标度型变量在非线性的刻度取正的度量值，例如指数
主要聚类方法的分类
算法的选择取决于数据的类型，聚类的目的和应用
大体上，主要的聚类算法可以划分为如下几类：
划分方法（partitioning methods）：给定一个n 个对象或元组的数据库，一个划分方法构建数据的k个划分，每个划分表示一个聚类，并且k<=n。

也就是说，它将数据划分为k 个组，同时满足如下的要求：（1）每个组至少包含一个对象；（2）每个对象必须属于且只属于一个组。

注意在某些模糊划分技术中第二个要求可以放宽。

给定k，即要构建的划分的数目，划分方法首先创建一个初始划分。

然后采用一种迭代的重定位技术，尝试通过对象在划分间移动来改进划分。

一个好的划分的一般准则是：在同一个类中的对象之间的距离尽可能小，而不同类中的对象之间的距离尽可能大。

为了达到全局最优，基于划分的聚类会要求穷举所有可能的划分。

实际上，绝大多数应用采用了以下两个比较流行的启发式方法：（1）k-means 算法，在该算法中，每个簇用该簇中对象的平均值来表示。

（2）k-medoids 算法，在该算法中，每个簇用接近聚类中心的一个对象来表示。

这些启发式聚类方法对在中小规模的数据库中发现球状簇很适用。

为了对大规模的数据集进行聚类，以及处理复杂形状的聚类，基于划分的方法需要进一步的扩展。

层次的方法（hierarchical methods）：层次的方法对给定数据集合进行层次的分解。

根据层次的分解。

如何形成，层次的方法可以被分为凝聚的或分裂的方法。

凝聚的方法，也称为自底向上的方法，一开始将每个对象作为单独的一个组，然后继续地合并相近的对象或组，直到所有的组合并为一个（层次的最上层），或者达到一个终止条件。

分裂的方法，也称为自顶向下的方法，一开始将所有的对象置于一个簇中。

在迭代的每一步中，一个簇被分裂为更小的簇，直到最终每个对象在单独的一个簇中，或者达到一个终止条件。

层次的方法的缺陷在于，一旦一个步骤（合并或分裂）完成，它就不能被撤消。

这个严格规定是有用的，由于不用担心组合数目的不同选择，计算代价会较小。

但是，该技术的一个主要问题是它不能更正错误的决定。

有两种方法可以改进层次聚类的结果：（1）在每层划分中，仔细分析对象间的联接，例如CURE 和Chameleon 中的做法。

（2）综合层次凝聚和迭代的重定位方法。

首先用自底向上的层次算法，然后用迭代的重定位来改进结果。

基于密度的方法：绝大多数划分方法基于对象之间的距离进行聚类。

这样的方法只能发现球状的簇，而在发现任意形状的簇上遇到了困难。

随之提出了基于密度的另一类聚类方法，其主要思想是：只要临近区域的密度（对象或数据点的数目）超过某个阈值，就继续聚类。

也就是说，对给定类中的每个数据点，在一个给定范围的区域中必须包含至少某个数目的点。

这样的方法可以用来过滤“噪音”数据，发现任意形状的簇。

DBSCAN 是一个有代表性的基于密度的方法，它根据一个密度阈值来控制簇的增长。

OPTICS是另一个基于密度的方法，它为自动的，交互的聚类分析计算一个聚类顺序。

基于网格的方法（grid-based methods）：基于网格的方法把对象空间量化为有限数目的单元，形成了一个网格结构。

所有的聚类操作都在这个网格结构（即量化的空间）上进行。

这种方法的主要优点是它的处理速度很快，其处理时间独立于数据对象的数目，只与量化空间中每一维的单元数目有关。

STING 是基于网格方法的一个典型例子。

CLIQUE 和WaveCluster 这两种算法既是基于网格的，又是基于密度的
基于模型的方法（model-based methods）：基于模型的方法为每个簇假定了一个模型，寻找数据对给定模型的最佳匹配。

一个基于模型的算法可能通过构建反映
数据点空间分布的密度函数来定位聚类。

它也基于标准的统计数字自动决定聚类的数目，考虑“噪音”数据和孤立点，从而产生健壮的聚类方法。

划分方法（partitioning methods）
给定一个包含n 个数据对象的数据库，以及要生成的簇的数目k，一个划分类的算法将数据对象组织为k 个划分（k≤n），其中每个划分代表一个簇。

通常会采用一个划分准则（经常称为相似度函数，similarity function），例如距离，以便在同一个簇中的对象是“相似的”，而不同簇中的对象是“相异的”。

算法：k-means。

输入：簇的数目k 和包含n 个对象的数据库。

输出：k 个簇，使平方误差最小。

方法：
（1）任意选择k 个对象作为初始的簇中心；
（2）repeat
（3）根据与每个中心的距离，将每个对象赋给“最近”的簇；
（4）重新计算每个簇的平均值；
（5）until 不再发生变化
基于质心（centroid）的技术：k-Means 方法
k-means 算法以k 为参数，把n 个对象分为k 个簇，以使类内具有较高的相似度，而类间的相似度最低。

相似度的计算根据一个簇中对象的平均值（被看作簇的重心）来进行。

“k-means 算法是怎样工作的？”k-means 算法的处理流程如下。

首先，随机地选择k 个对象，每个对象初始地代表了一个簇中心。

对剩余的每个对象，根据其与各个簇中心的距离，将它赋给最近的簇。

然后重新计算每个簇的平均值。

这个过程不断重复，直到准则函数收敛。

这个算法尝试找出使平方误差函数值最小的k 个划分。

当结果簇是密集的，而簇与簇之间区别明显时，它的效果较好。

对处理大数据集，该算法是相对可伸缩的和高效率的，因为它的复杂度是O（nkt），n 是所有对象的数目，k 是簇的数目，t 是迭代的次数。

通常地，k<<n，且t<<n。

这个算法经常以局部最优结束。

但是，k-means方法只有在簇的平均值被定义的情况下才能使用。

这可能不适用于某些应用，例如涉及有分类属性的数据。

要求用户必须事先给出k（要生成的簇的数目）可以算是该方法的一个缺点。

K-means方法不适合于发现非凸面形状的簇，或者大小差别很大的簇。

而且，它对于“噪音”和孤立点数据是敏感的，少量的该类数据能够对平均值产生极大的影响。

“k-medoids 算法在大数据集合上的效率如何？”典型的k-medoids 算法，如PAM，对小的数据集合非常有效，但对大的数据集合没有良好的可伸缩性。

为
了处理较大的数据集合，可以采用一个基于样本的方法CLARA（Clustering LARge Applications）。

CLARA 的主要思想是：不考虑整个数据集合，选择实际数据的一小部分作为数据的样本。

然后用PAM 方法从样本中选择代表对象。

如果样本是以非常随机的方式选取的，它应当足以代表原来的数据集合。

从中选出的代表对象很可能与从整个数据集合中选出的非常近似。

CLARA 抽取数据集合的多个样本，对每个样本应用PAM 算法，返回最好的聚类结果作为输出。

层次方法
一个层次的聚类方法将数据对象组成一棵聚类的树。

根据层次分解是自底向上，还是自顶向下形成，层次的聚类方法可以进一步分为凝聚（agglomerative）和分裂(divisive)层次聚类。

一个纯粹的层次聚类方法的聚类质量受限于如下特点：一旦一个合并或分裂被执行，就不能修正。

最近的研究集中于凝聚层次聚类和迭代重定位方法的集成。

一般来说，有两种类型的层次聚类方法：
凝聚的层次聚类：这种自底向上的策略首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有的对象都在一个簇中，或者某个终结条件被满足。

绝大多数层次聚类方法属于这一类，它们只是在簇间相似度的定义上有所不同。

分裂的层次聚类：这种自顶向下的策略与凝聚的层次聚类不同，它首先将所有对象置于一个簇中，然后逐渐细分为越来越小的簇，直到每个对象自成一簇，或者达到了某个终结条件，例如达到了某个希望的簇数目，或者两个最近的簇之间的距离超过了某个阈值。

在凝聚或者分裂的层次聚类方法中，用户能定义希望得到的簇数目作为一个结束条件。

四个广泛采用的簇间距离度量方法如下：
最小距离：d min(C i,C j) = min p∈Ci,p’∈Cj |p-p’|
最大距离：d max(C i,C j) = max p∈Ci,p’∈Cj |p-p’|
平均值的距离：d mean(C i,C j) = | m I - m j |
平均距离：d avg(C i,C j) =Σp∈Ci Σp’∈Cj |p-p’|
这里|p-p’|是两个对象p 和p’之间的距离，m I 是簇C i 的平均值，而n I 是簇Cj 中对象的数目。

基于密度的方法
为了发现任意形状的聚类结果，提出了基于密度的聚类方法。

这类方法将簇看作是数据空间中由低密度区域分割开的高密度对象区域。

DBSCAN:一个基于密度和高密度的连结区域的聚类算法
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个基于密度的聚类算法。

该算法将具有足够高密度的区域划分为簇，并可以在带有“噪音”的空间数据库中发现任意形状的聚类。

它定义簇为密度相连的点的最大集合。

基于密度的聚类的基本想法涉及一些新的定义。

我们先给出这些定义，然后用一个例子加以说明。

⏹ 一个给定对象周围半径ε内的区域称为该对象的ε –邻域。

⏹ 如果一个对象的ε–邻域至少包含最小数目MinPts 的对象，那么该对象称为核心对象。

⏹ 给定一个对象集合D，如果p 是在q 的ε–邻域内，而q 是一个核心对象，我们说对象p 从对象q 出发是直接密度可达的，。

⏹ 如果存在一个对象链p1,p2,…,p n，p1=q，p n=p，对p i∈D，1≤i≤n，p i+1 是从p i 关于ε和MinPts直接密度可达的，则对象p 是从对象q 关于ε和MinPts 密度可达的(density-reachable)。

⏹ 如果对象集合D 中存在一个对象o，使得对象p 和q 是从o 关于ε和MinPts 密度可达的，那么对象p 和q 是关于ε和MinPts 密度相连的（density-connected）。

密度可达性是直接密度可达性的传递闭包，这种关系是非对称的。

只有核心对象之间是相互密度可达的。

不过，密度相连性是一个对称的关系。

基于网格的方法
基于网格的聚类方法采用一个多分辨率的网格数据结构。

它将空间量化为有限数目的单元，这些单元形成了网格结构，所有的聚类操作都在网格上进行。

这种方法的主要优点是处理速度快，其处理时间独立于数据对象的数目，仅依赖于量化空间中每一维上的单元数目。

基于网格方法的有代表性的例子包括STING，它利用了存储在网格单元中的统计信息；
WaveCluster，它用一种小波转换方法来聚类对象；CLIQUE，它是在高维数据空间中基于网格和密度的聚类方法。

STING：统计信息网格(STatistical INformation Grid)
STING 是一个基于网格的多分辨率聚类技术，它将空间区域划分为矩形单元。

针对不同级别的分辨率，通常存在多个级别的矩形单元，这些单元形成了一个层次结构：高层的每个单元被划分为多个低一层的单元。

关于每个网格单元属性的统计信息（例如平均值，最大值，和最小值）被预先计算和存储。

这些统计变量可以方便下面描述的查询处理使用。

“这些统计信息怎样用于回答查询？”统计变量的使用可以以自顶向下的基于网格的方法。

首先，在层次结构中选定一层作为查询处理的开始点。

通常，该层包含少量的单元。

对当前层次的每个单元，我们计算置信度区间（或者估算其概率），用以反映该单元与给定查询的关联程度。

不相关的单元就不再考虑。

低一层的处理就只检查剩余的相关单元。

这个处理过程反复进行，直到达到最底层。

此时，如果查询要求被满足，那么返回相关单元的区域。

否则，检索和进一步的处理落在相关单元中的数据，直到它们满足查询要求。