各种密度聚类算法

一，什么是聚类？

聚类： - 将一个对象的集合分割成几个类，每个类内的对象之间是相似的，但与其他类的对象是不相似的。评判聚类好坏的标准： 1 ，能够适用于大数据量。 2 ，能应付不同的数据类型。 3 ，能够发现不同类型的聚类。 4 ，使对专业知识的要求降到最低。 5 ，能应付脏数据。 6 ，对于数据不同的顺序不敏感。 7 ，能应付很多类型的数据。 8 ，模型可解释，可使用。

二，聚类所基于的数据类型。

聚类算法通常基于“数据矩阵”和“ Dissimilarity

矩阵”。

怎么样计算不同对象之间的距离？

1 ，数值连续的变量（体重，身高等）：度量单位的选取对于聚类的结果的很重要的。例如将身高的单位从米变为尺，将体重的单位从公斤变为磅将对聚类的结果产生很大的影响。为了避免出现这种情况，我们必须将数据标准化：将数据中的单位“去掉”。

A, 计算绝对背离度。 B, 计算标准量度。

下面我们考虑怎样来计算两个对象之间的差异。 1 ，欧几里得距离。 2 ，曼哈顿距离。这两种算法有共同之处： d(i,j)>=0,d(i,i)=0,

d(i,j)=d(j,i),d(i,j)=

2 ，二元数据变量：如果还是用上面的方法来计算的话，肯定会出现错误。这儿分

两种情况，对称的与非对称的。

3 ， Nominal 变量： ( 例如红，黄，绿，蓝….)

4 ， ordinal 变量（例如科长，处长，局长…. ）

5 ， ratio-scaled 变量：

6, 以上几种混合的变量（多数情况是这样的）：

三，分割的的方法。

1，K 均值算法：给定类的个数 K ，将 n 个对象分到 K 个类中去，使得类内对象之间的相似性最大，而类之间的相似性最小。

缺点：产生类的大小相差不会很大，对于脏数据很敏感。

改进的算法： k—medoids 方法。这儿选取一个对象叫做 mediod 来代替上面的中心

的作用，这样的一个 medoid 就标识了这

个类。步骤：

1，任意选取 K 个对象作为 medoids （O1,O2,…Oi…Ok ）。

以下是循环的：

2，将余下的对象分到各个类中去（根据与 medoid 最相近的原则）；

3，对于每个类（ Oi ）中，顺序选取一个 Or ，计算用 Or 代替 Oi 后的

消耗— E （ Or ）。选择 E 最小的那个 Or 来代替 Oi 。这样 K 个 medoids

就改变了，下面就再转到 2 。

4，这样循环直到 K 个 medoids 固定下来。

这种算法对于脏数据和异常数据不敏感，但计算量显然要比 K 均值要大，一般只适合小数据量。

2 ， C lara 算法。

上次课提到 K-medoids 算法不适合于大数据量的计算。这次课我们介绍 Clara 算法，这是一种基于采用的方法，它能够处理大量的数据。

Clara 算法的思想就是用实际数据的抽样来代替整个数据，然后再在这些抽样的数据上利用 K-medoids 算法得到最佳的 medoids 。 Clara 算法从实际数据中抽取多个采样，在每个采样上都用 K-medoids 算法得到相应的

（O1,O2…Oi…Ok ），然后在这当中选取 E 最小的一个作为最终的结果。

Clara 算法的效率取决于采样的大小，一般不太可能得到最佳的结果。

在 Clara 算法的基础上，我们提出了 Clarans 的算法，与 Clara 算法不同的是：在 Clara 算法寻找最佳的 medoids 的过程中，采样都是不变的。而Clarans 算法在每一次循环的过程中所采用的采样都是不一样的。与上次课所讲的寻找最佳 medoids 的过程不同的是，必须人为地来限定循环的次数。

四，层次聚类

层次聚类，就是把所有的记录层次聚类可以分为两种：凝聚的方式和分割的方式，取决于聚类层次结构的形成是自顶向下的还是自底向上的。

凝聚的方式：这是一种至底向上的方法，将每一条记录看作一个类，然后根据一些规则将他们聚合成越来越大的类，直到满足一些预先设定的条件。大多数的层次聚类方法属于这一类。

分割的方式：这种自顶向下的方法是一个与凝聚的方式相反的过程，将整个数据库作为一个大的类，然后按照一些规则将这个类分成小的类，直到满足一些预定的条件，例如类的数目到了预定值，最近的两个类之间的最小距离大于设定值。

例 3 ：图 5 给出了对于集合 {a,b,c,d,e} 层次聚类两种方式的聚类过程。从这个图我们可以看出，凝聚的方式是将每一个记录看作一个类，再按照一定的规则逐步将这些类合并。举个例子，如果类 C1 和类 C2 之间的距离小于预定的最小距离，那么他们就会被合并为一个类，这儿两个类的距离是由两个类中距离最近的一对记录来确定的。

分割的方式则是先将所有的记录作为一个大的类，然后再根据一些规则将它进行分割，例如最近的两个记录之间的距离。

无论凝聚的方式还是分割方式，用户都可以根据自己的要求来设定所得类的个数。

层次聚类虽然比较简单，但是在选择凝聚或者分割点的时候经常会遇到一些困难，这个是非常关键的，因为一旦记录被凝聚或者分割以后，下一步的工作是建立在新形成的类的基础之上的。因此，如果其中任何一步没有做好的话，就会影响最终聚类的结果。这个方法并不是太好，因为要牵涉到很大数量的类和记录。

一个比较有前途的能够提高聚类质量的方向是将层次聚类和其它的聚类结合起来进行，下面我们会介绍一些这样的方法：1，叫做“Birth”,它首先把层次聚类的形成过程到结果看作一棵树，然后再用其他的聚类方法来进行修剪。 2 ，叫做“ Cure ”，他用一定数量的记录来代表一个类，然后将他们缩为类的中心。 3 ，叫做“ Rock ” , 它是基于类之间的联系将类合并。 4 ，叫做“ Chameleon ”，在层次聚类中寻找自动的模式。

1， Birch: 这是一种综合的层次聚类的方法，它介绍了两个概念，聚类特征和聚类特征树，它们是用来表示聚类的。这些结构能够帮助聚类方法能运行得更快，能够处理大数据量。

下面我们来看一下上面提到的结构，一个聚类特征是由关于记录子集的三重总概变量组成。假设在一个子类中有 N 个记录，那么这个子类的聚类特征就是

CF=(N,LS,SS), 其中 LS 是 N 个点（记录）的直线相加， SS 是 N 个点的平方和相加。

一个聚类特征本质上是对于给定的子类的统计和，它记录了衡量一个子类的

最关键的部分，用存储统计值代替了存储整个类的记录，提高了存储的效率。

一个聚类特征树是一个垂直平衡树，它为一个层次聚类存了各个步骤的聚类特征。图 8.6 给出了一个例子，我们约定一个“非叶子节点”是有“孩子”的 , 这个“非叶子节点”记录了它的孩子的聚类特征。一个聚类特征有两个变量—

—“分枝要素 B ”和“门限 T ”， B 限定了每个“非叶子节点”最多含有的孩子的个数， T 限定了存在叶节点的子类的最大半径，这两个参数影响了最后产生的树的大小。

那么“ Birch ”是怎样工作的呢？ 1 ，它扫描整个数据库一次，建立一个

初始化的聚类特征树。 2 ，它用一个聚类算法来聚合这些叶节点。

在第一阶段，聚类特征树随着记录一个一个的加入而自动形成的：一个记录被放入那个离它最近的叶节点（类）中去。如果放入以后这个子类的半径大于门限值 T 的话，那么这个叶节点就会被分割。这个放入的信息也会传递到根节点中去。聚类特征树的大小可以通过调节参数来改变，如果要存储的树需要的内存超过了主内存，那就要减小门限值重新建立一棵树，这个重建过程并不需要将整个记录扫描一次。而是建立在老的树的叶节点的基础之上的。因此，建立一个树记录需要被扫描一次，此外还有一些方法进一步扫描记录以提高聚类特征树的质量，当树建好以后，我们可以在第二阶段用其他的聚类算法了。

Birch 算法用可利用的资源产生最好的聚类，给定一限定的主内存，一个很重要的考虑是尽量减少从 I/O 请求所需要的时间。 Birch 算法用了多种聚类的技术，对数据库的一次扫描产生一个基本好的聚类，一次或者更多的附加扫描能够提高聚类的质量。

Birch 的效果怎么样？由于每一个节点只能有一定数量的“孩子”，实际产生的聚类特征树并不是自然生成的聚类。而且，如果聚类生成的类不成球形的话，这种算法就运用得很好，因为它用半径或者直径来控制类的边界。

2， Cure:

大多数的算法或者只能用于球状类和有相似大小的类上面，或者无法解决特

例的问题。 Cure 算法则能够解决这些问题。

Cure 采用一种很新颖的层次聚类算法，这种方法是介于“基于中心”和“基于记录”的方法之间的。一定数量的记录被选中，而不是用中心或者一个记录来代替整个类。那些能代表这个类的几个记录 , 首先在一个类中选择几个较为分散的记录作为代表整个类的记录，然后用一个特别的 Fraction 将他们压缩到类的中心。在每一步，那些有最大相似度的类就会被合并。

由于用了多个记录来代表类，使得这种算法能够很好地对付非球状的的类以及一些例外的情况结构。那么，在大数据量的情况下能够在不牺牲聚类质量的情况下，对付大数据量进行得很好。

为了对付大数据量， Cure 用了随机抽取和分割的方法 :

1，选取有 s 个记录的采样。

2，将这 s 个采样分割成 p 个部分，每个有 s/p 个记录。

3，将 s 个记录分成 s/pq 个类。

4，通过随机采样去除那些特例的情况。

5，将这些类进行聚类，

五，基于密度的方法 :

1,DBSCAN:

这个方法将密度足够大的那部分记录组成类，这儿定义了几个新的名词：

1，对于给定的记录，我们称在其半径 e 范围内

的一个记录为这个记录的 e- 邻居。

2，如果一个记录的 e- 邻居个数超过一个最小值， MinPts 那么我们就将这个记录称做中心记录。

3，一个记录的集合 D, 我们说一个记录 p 是记录 q 的“ Directly density-reachable ”记录，如果 p 是 q 的 e- 邻居， ` 并且 q 是个中心记录。

4，对于这样的一个链p1,p2,…pn ，如果， p1=q,pn=p, 且 Pi+1 是 pi 的“ Directly density-reachable ”，那么我们就将 p 称做 q 的

“ density-reachable ”。

5, 如果 p,q 都是一个记录 o 的“ density-reachable ”，那么就称 p,q “ density-connected ”。

根据上面的定义，我们怎样来发现类呢？首先扫描一下数据库，计算每一个点（记

录）的 e- 邻居的个数，如果一个记录的 e- 邻居的个数大于一个门限值，那么就将

这个记录叫做中心记录，这样一个新的以这个记录为中心的类就产生了。接着，就

寻找这个记录的所有的“ density-reachable ”记录，这个过程可能会将一些类也合

并过，这个过程直到没有新的记录假如为止。

2,OPTICS:

虽然 DBSCAN 算法能够根据给定的参数 e 和 MinPts 来对记录进

行聚类，但是这

仍然由用户主观来选择参数，参数就影响了最终产生的类，实际上

这也是很多聚

集算法面临的问题。这些参数都是根据经验来取的，因此很难决定该选哪个，特

别是对实际的，多属性的数据。大多数的算法对这些参数都是很敏

感的，很小的

一些差别就有可能导致大不相同的聚类结果。聚类结果。

为了解决这些问题，一个顺序聚类的方法“ OPTICS ”就被提出来了。再来看看 DBSCAN, 我们很容易就可以发现，对于给定的一个 Min Pts 值，那些参数 e 的值小的所得到的类一定完全包含在 e 值大的类当中了。注意一点这儿的 e 是一个距离（它是邻居半径）。因此，为了得到类的集合，我们设定了提供了距离参数的集合。为了同时建立不同的类，这些记录应该以一种顺序形式组织起来。这样我们就可以将 e 从小开始产生类了。基于这些理念，对于每一个记录都应该存储 2 个值—— core-distance 和

reachability-distance: core-distance ：一个记录的 core-distance 是能使这个记录 p 成为中心记录的最小的e’ 值。如果 p 不是个中心记录，那么这个值就是未被定义。 reachability-distance （ p,q ）：如果中心记录 p 和一个记录之间的距离小于e’, 那么这个距离就是e’, 其他的就是真实的距离。如果 p 不是中心记录，它就没有被定义。对于在数据库中的每一个记录，首先将它们编号，然后计算每个记录的这两个距离值。这就使得我们有足够的信息来在 e 小于等于e’ 的范围内得到很多的聚类结果了。

3， DENCLUE.

这个聚类方法主要基于下面的一些思想：

a, 一个记录的影响力可以用一个数学函数来表示，叫做“影响函数”，这表

明了一个记录对于其邻居记录的影响。 b, 整个数据空间的密度可以用所有

的记录的“影响函数”的总和来模化。 c, 类可以通过确定“ density attrator ”来得到，这儿的“ density attrator ”是指在某个区域的最高峰。

基于模型的聚集方法

1，统计的方法：

概念聚类是在机器学习中聚类的一种形式，与其他通常的聚类方法（定

义相似的记录为一个类）不同的是，概念聚类则更进一步来找出每一个类的

特征描述。这样，概念聚类就有两步组成，首先，进行聚类，然后找出特征。这样聚类的质量就不仅仅是单个记录的一个函数，它还综合了一些得出的类的描述。

大多数的概念聚类采用了一个统计的方法——在决定一个类的时候，用可能性的描述语句。 COBWEB 是一个通用且简单的概念聚类的方法，它用分类树的形式来表现层次聚类。

一个分类树与决策树是不同的，分类树的每一个节点表示了一个概念，和对于这个概念（这个概念总概了这个节点下的记录）的可能性的描述。这个可能性的描述包括形成这个类的可能，以及在某个条件下类中记录的可能性，它可以表示为 P(Ai=Vij|Ck) ，这儿的 Ai=Vij 是个“属性—值”对， Ck 就是类。这与决策树不同，它是用逻辑而非可能性描述。为了将一个记录进行分类，就需要一个匹配函数来将阿嚏分到做适合的类中去。

COBWEB 用了一种启发式的评估衡量标准（category utility ）来引导树的建立。

CU 的定义：

这儿的 n 是节点的个数，也就是类的个数。从另外一种意义上来说， CU 的 P(Ai=Vij|) 表示了在条件 Ck 和没有条件 Ck 之下的偏差。

下面我们来看看 COBWEB 的工作过程：它以增入的方式将记录加入到分类树中去，就象 Leader 算法一样，它对于一个新的记录计算它与以分好的类的匹配度，选择最好的节点将这个新的记录放进去。这个方法先将新记录暂时放到每一个已经形成的类中，然后计算放入后的每次放入后的 CU 值，值最大的就是我们要找的最匹配的类。

那么，假如这个新记录不属于任何一个以形成的类时怎么办？实际上，COBWEB 也计算将这个新的记录作为一个新的节点时 CU 的值，如果这个值比上述过程所得到的都要大的话，就建立一个新类。值得注意的是， COBWEB 能够自己调整类的数目的大小，而不向其他算法那样自己设定类的个数。

但上述的操作对于的记录的顺序很敏感， COBWEB 利用两个操作来将这种敏感性降到最低，这就是 merging 和 splitting 的方法，当对一个新的记录进行分类的时候，两个最好的类就可能被合并，当然这些决定必须根据CU 值来。

COBWEB 的缺点：这个方法假定根据统计得到的对于单个属性的概率分布函数与其他的属性之间是独立的，实际上在两个属性之间通常会存在一些联系。

2，神经网络的方法

神经网络用于聚类的方法是将每一个类看作一个标本，它是这个类的“典型”，但不需和某个具体的记录或例子相对应。根据新记录和这个标本之间的距离，就可以将这个记录进行分类了。

在这篇中，我们介绍 2 个神经网络用做聚类的方法，分别是

“ competitive learning ”和“ self-organizing feature maps ”。

异常情况分析

很多时候，会有一些记录与通常的行为不一样，对于那些跟数据库中其他的记录不相符合的记录，我们称之为outliers 。

Outliers 可能在聚类运行或者检测的时候被发现，比如一个人的年龄是999 ，这个在对数据库进行检测的时候就会被发现。还有，就是 outliers 可能是本身就固有的，而不是一个错误，比如部门经理的工资就比一般员工的工资高出很多。

很多数据挖掘技术都力图将 outliers 的影响降到最小，直至完全没有。但是，这有可能失去一些重要的隐藏的信息，因为对于一方来讲是“坏”的东西而对于另外的一方来讲很可能是重要的东西。换句话说，这个“异常”可能有特别的作用，例如发现诈骗行为。因此，发现和分析“诈骗行为”是一相很有意义的数据挖掘任务，我称为“ outlier mining ”。

outlier mining 的应用是很广泛的，除了上面说的“欺骗发现”以外，它还能够发现收入特别低或者特别高的顾客的购买行为。 outlier mining 可以这么来描述：给定 n 个个记录，和 k （我们期望得到的 outlier 的个数）；发现 k 个与其他的记录最不相象的记录。这个过程可以看成 2 个子过程：1 ，首先定义什么样的记录被称为“异常”； 2 ，根据上面的定义，找到一个很有效的方法来发现这些异常。

在这篇文章里，我们介绍了三种方法来发现

outlier ：

1，基于统计的方法：

统计的方法先假定在训练集中有一个分布模式存在，并且用一个“discordancy test ”的方法来定义和发现 outliers 。这个方法的应用首先要设定一些参数——假定的分布模式，分布的参数，期望得到的 outlier 的的个数等等。

工作过程：首先检测 2 个假说，一个working hypothesis 和alternative hypothesis 。working hypothesis ， H, 是说所有的记录的数据都应该遵从一个分布模式， F ，然后用一个“discordancy test ”来检测记录 Oi 是

否与 F 的关系很大。这儿的“discordancy test ”是根据对于数据的了解以及 F 的选择得出的。这儿，通过 T 计算出 Oi 对应的值 vi, 如果

SP(vi)=prob(T>vi) 的值很小的话，我们就可以考虑 Oi 是个 outlier 。

2，基于距离的方法：

如果一个记录的距离大于 d 的邻居的个数大于一个设定值 p 的话，就可以认为这个记录是个 outlier 。换句话说，就是这个记录没有足够的邻居数目，这儿的邻居是根据距离来确定的。

Index-based algorithm: 给定一个数据集，这个算法检查每一个记录 o 的 d 半径的邻居个数，定义 M 为一个 outlier 的最大 d- 邻居个数，那么一旦

一个记录 o 有 M+1 个 d- 邻居，显然这个记录不是个 outlier 。

Nest-loop algorithm: 与上一个方法相比，它优点在于减少输入、出个数，提高储存效率。

Cell-based algorithm: 这种方法是将数据集分成 c 个 cells, 每一个

cell 有两层，第一层有 1 个 cell 的厚度，第二层有 2*sqrt(k) 个 cell 的厚度。这个算法是一个 cell 一个 cell 地来找 outlier 。对于一个 cell, 我们计算三个量：在这个 cell 内的记录个数，在第一层的记录个数，在第

二层的记录的个数，分别用 cell_count ， cell_+_1_layer-count,

cell_+_2_layer-count 。

那么这个方法是怎样来计算 outlier 的呢？首先计算

cell_+_1_layer-count ，如果它的值大于 M, 那么这个 cell 内的所有的记录都不是 outlier ，如果它的值小于后者等于 M, 那么接着计算

cell_+_2_layer-count ，如果它的值小于后者等于 M, 那么 cell 中所有的记录都可以认为是 outlier 。否则我们按照 d- 邻居的方法来一个一个地检查这层中的记录。

3，基于背离度的方法：

这种方法是根据一个数据集中的主要特征来判定 outlier 的，那些与这个主要特征背离很大的记录就被认为是一个 outlier 。

Sequential exception technique: 给定一个有 n 个记录的数据集 S ，首

先建立它的一个记录子集序列，{S1,S2,S3,…Sm} ，这儿的 Sj 包含 Sj-1 。

在这个序列中我们可以计算子集间的不相象性，下面介绍几个关键的概念。

Eeception set: 它定义为 outlier 的集合。

Dissimilarity functuion: 这个函数计算在一个集合中记录的不相象性，如果各个记录之间越象，那么这个值就越小，而记录之间背离读越大，则这个值就越大。

Cardinality function: 它计算在给定的一个集合中记录的个数。

Smoothing factor: 这个函数计算了从原集合 S 中去除一个子集后Dissimilarity 的减少值，那个减少的值最多的子集就是 outlier 。

聚类的方法小节：

这篇文章很全面的介绍了聚类：包括聚类的定义，聚类的应用，聚类的几种常用的算法, ，最后还介绍了异常的检测。

聚类的算法包括分割的聚类方法，层次聚类，基于密度的方法，和基于模型的方法。

最近邻居和聚集（Nearest Neighbor and Clustering）

距离近：在一些重要的属性上比较相似

聚集（clustering）：是把相似的记录放在一起。

用途

聚集

让用户在较高的层次上观察数据库。常被用来做商业上的顾

客分片（segmentation）。

找到不能与其他记录集合在一起的记录，做例外分析。

聚类分析K-means算法综述

聚类分析K-means算法综述摘要：介绍K-means聚类算法的概念，初步了解算法的基本步骤，通过对算法缺点的分析，对算法已有的优化方法进行简单分析，以及对算法的应用领域、算法未来的研究方向及应用发展趋势作恰当的介绍。关键词：K-means聚类算法基本步骤优化方法应用领域研究方向应用发展趋势算法概述 K-means聚类算法是一种基于质心的划分方法，输入聚类个数k，以及包含n个数据对象的数据库，输出满足方差最小标准的k个聚类。评定标准：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算。解释：基于质心的划分方法就是将簇中的所有对象的平均值看做簇的质心，然后根据一个数据对象与簇质心的距离，再将该对象赋予最近的簇。 k-means 算法基本步骤（1）从n个数据对象任意选择k 个对象作为初始聚类中心（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分（3）重新计算每个（有变化）聚类的均值（中心对象）（4）计算标准测度函数，当满足一定条件，如函数收敛时，则算法终止；如果条件不满足则回到步骤（2）形式化描述输入：数据集D，划分簇的个数k 输出：k个簇的集合（1）从数据集D中任意选择k个对象作为初始簇的中心；（2）Repeat （3）For数据集D中每个对象P do （4）计算对象P到k个簇中心的距离（5）将对象P指派到与其最近（距离最短）的簇；

（6）End For （7）计算每个簇中对象的均值，作为新的簇的中心；（8）Until k个簇的簇中心不再发生变化对算法已有优化方法的分析 (1)K-means算法中聚类个数K需要预先给定这个K值的选定是非常难以估计的，很多时候,我们事先并不知道给定的数据集应该分成多少个类别才最合适，这也是K一means算法的一个不足"有的算法是通过类的自动合并和分裂得到较为合理的类型数目k，例如Is0DAIA算法"关于K一means算法中聚类数目K 值的确定，在文献中，根据了方差分析理论，应用混合F统计量来确定最佳分类数，并应用了模糊划分嫡来验证最佳分类数的正确性。在文献中，使用了一种结合全协方差矩阵RPCL算法，并逐步删除那些只包含少量训练数据的类。文献中针对“聚类的有效性问题”提出武汉理工大学硕士学位论文了一种新的有效性指标：V(k km) = Intra(k) + Inter(k) / Inter(k max)，其中k max是可聚类的最大数目,目的是选择最佳聚类个数使得有效性指标达到最小。文献中使用的是一种称为次胜者受罚的竞争学习规则来自动决定类的适当数目"它的思想是：对每个输入而言不仅竞争获胜单元的权值被修正以适应输入值，而且对次胜单元采用惩罚的方法使之远离输入值。 (2)算法对初始值的选取依赖性极大以及算法常陷入局部极小解不同的初始值，结果往往不同。K-means算法首先随机地选取k个点作为初始聚类种子，再利用迭代的重定位技术直到算法收敛。因此，初值的不同可能导致算法聚类效果的不稳定，并且，K-means算法常采用误差平方和准则函数作为聚类准则函数(目标函数)。目标函数往往存在很多个局部极小值，只有一个属于全局最小，由于算法每次开始选取的初始聚类中心落入非凸函数曲面的“位置”往往偏离全局最优解的搜索范围，因此通过迭代运算，目标函数常常达到局部最小，得不到全局最小。对于这个问题的解决，许多算法采用遗传算法(GA)，例如文献中采用遗传算法GA进行初始化，以内部聚类准则作为评价指标。 (3)从K-means算法框架可以看出，该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时,算法的时间开销是非常大所以需要对算法的时间复杂度进行分析，改进提高算法应用范围。在文献中从该算法的时间复杂度进行分析考虑，通过一定的相似性准则来去掉聚类中心的候选集，而在文献中，使用的K-meanS算法是对样本数据进行聚类。无论是初始点的选择还是一次迭代完成时对数据的调整，都是建立在随机选取的样本数据的基础之上，这样可以提高算法的收敛速度。

基于密度的最佳聚类数确定方法.

基于密度的最佳聚类数确定方法 [关键字]聚类评估，聚类数，聚类有效性指标 0 引言聚类是数据挖掘研究中重要的分析手段，其目的是将数据集中对象聚集成类，使得同一类中的对象是相似的，而不同类中的对象是不同的。迄今研究者已经提出了为数众多的聚类算法，并已经在商务智能、图形分析、生物信息等领域得到了广泛应用。作为一种非监督学习的方法，对学习得到的聚类结果进行评估是非常有必要的。因为许多聚类算法需要用户给定数据集的聚类数量，而在实际应用中这通常是事先不知道的。确定数据集的聚类数问题目前仍是聚类分析研究中的基础性难题之一 [1][2]。聚类评估用于评价聚类结果的质量，这被认为是影响聚类分析成功与否的重要因素之一[3]。它在聚类分析过程中的位置如图1所示。聚类评估的一些重要问题包括确定数据集的聚类趋势、确定正确的类个数、将聚类分析结果与已知的客观结果比较等，本文主要研究其中的最佳聚类数的确定。通常最佳聚类数的确定是通过以下计算过程来确定的。在给定的数据集上，通过使用不同的输入参数（如聚类数）运行特定的聚类算法，对数据集进行不同的划分，计算每种划分的聚类有效性指标，最后比较各个指标值的大小或变化情况，符合预定条件的指标值所对应的算法参数被认为是最佳的聚类数 [4]。迄今为止，已有各种类型的度量指标从不同角度来评估数据集划分的有效性，这些指标称为聚类有效性指标（Clustering Validation Indices）。一般地，用于评估聚类的各方面的评估度量指标可分成以下两类[5]。 1）外部指标（External index）：指聚类分析的评价函数是针对基准问题的，其簇的个数及每个数据对象的正确分类均为已知。代表性外部指标有熵、纯度、F-measure等。 2）内部指标（Internal index）：指数据集结构未知的情况下，聚类结果的评价只依靠数据集自身的特征和量值。在这种情况下，聚类分析的度量追求两个目标：类内紧密度和类间分离度。这也是本文的主要研究领域，代表性内部指标有DB，CH，XB，SD等。从其他不同角度，聚类有效性指标又可分为分割指标与层次指标，模糊指标与非模糊指标，统计指标与几何指标。用内部指标来评估聚类有效性，获取数据集最佳划分或最佳聚类数的过程一般分为以下4步[6]：

蚁群聚类算法综述

计算机工程与应用2006.16 引言聚类分析是数据挖掘领域中的一个重要分支[1],是人们认和探索事物之间内在联系的有效手段,它既可以用作独立的据挖掘工具,来发现数据库中数据分布的一些深入信息,也以作为其他数据挖掘算法的预处理步骤。所谓聚类(clus- ring)就是将数据对象分组成为多个类或簇(cluster),在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别大。传统的聚类算法主要分为四类[2,3]:划分方法,层次方法, 于密度方法和基于网格方法。受生物进化机理的启发,科学家提出许多用以解决复杂优问题的新方法,如遗传算法、进化策略等。1991年意大利学A.Dorigo等提出蚁群算法,它是一种新型的优化方法[4]。该算不依赖于具体问题的数学描述,具有全局优化能力。随后他其他学者[5～7]提出一系列有关蚁群的算法并应用于复杂的组优化问题的求解中,如旅行商问题(TSP)、调度问题等,取得著的成效。后来其他科学家根据自然界真实蚂蚁群堆积尸体分工行为,提出基于蚂蚁的聚类算法[8,9],利用简单的智能体仿蚂蚁在给定的环境中随意移动。这些算法的基本原理简单懂[10],已经应用到电路设计、文本挖掘等领域。本文详细地讨现有蚁群聚类算法的基本原理与性能,在归纳总结的基础上出需要完善的地方,以推动蚁群聚类算法在更广阔的领域内到应用。 2聚类概念及蚁群聚类算法一个簇是一组数据对象的集合,在同一个簇中的对象彼此类似,而不同簇中的对象彼此相异。将一组物理或抽象对象分组为类似对象组成的多个簇的过程被称为聚类。它根据数据的内在特性将数据对象划分到不同组(或簇)中。聚类的质量是基于对象相异度来评估的,相异度是根据描述对象的属性值来计算的,距离是经常采用的度量方式。聚类可用数学形式化描述为:设给定数据集X={x 1 ,x 2 ,…,x n },!i∈{1,2,…,n},x i ={x i1 ,x i2 , …,x

K-means-聚类算法研究综述

K-means聚类算法研究综述摘要:总结评述了K-means聚类算法的研究现状，指出K-means聚类算法是一个NP难优化问题，无法获得全局最优。介绍了K-means聚类算法的目标函数，算法流程，并列举了一个实例，指出了数据子集的数目K，初始聚类中心选取，相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚类算法存在的问题及其改进算法，指出了K-means 聚类的进一步研究方向。关键词：K-means聚类算法；NP难优化问题；数据子集的数目K；初始聚类中心选取；相似性度量和距离矩阵 Review of K-means clustering algorithm Abstract: K-means clustering algorithm is reviewed. K-means clustering algorithm is a NP hard optimal problem and global optimal result cannot be reached. The goal，main steps and example of K-means clustering algorithm are introduced. K-means algorithm requires three user-specified parameters: number of clusters K，cluster initialization，and distance metric. Problems and improvement of K-means clustering algorithm are summarized then. Further study directions of K-means clustering algorithm are pointed at last. Key words: K-means clustering algorithm; NP hard optimal problem; number of clusters K; cluster initialization; distance metric K-means聚类算法是由Steinhaus1955年、Lloyed1957年、Ball & Hall1965年、McQueen1967年分别在各自的不同的科学研究领域独立的提出。K-means聚类算法被提出来后，在不同的学科领域被广泛研究和应用，并发展出大量不同的改进算法。虽然K-means聚类算法被提出已经超过50年了，但目前仍然是应用最广泛的划分聚类算法之一[1]。容易实施、简单、高效、成功的应用案例和经验是其仍然流行的主要原因。文中总结评述了K-means聚类算法的研究现状，指出K-means聚类算法是一个NP难优化问题，无法获得全局最优。介绍了K-means聚类算法的目标函数、算法流程，并列举了一个实例，指出了数据子集的数目K、初始聚类中心选取、相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚类算法存在的问题及其改进算法，指出了K-means聚类的进一步研究方向。 1经典K-means聚类算法简介 1.1K-means聚类算法的目标函数对于给定的一个包含n个d维数据点的数据集 12 {x,x,,x,,x} i n X=??????，其中d i x R ∈，以及要生成的数据子集的数目K，K-means聚类算法将数据对象组织为 K个划分{c,i1,2,} k C K ==???。每个划分代表一个类c k，每个类c k有一个类别中心iμ。选取欧氏距离作为相似性和距离判断准则，计算该类内各点到聚类中心 i μ的距离平方和 2 (c) i i k i k x C J xμ ∈ =- ∑（1）聚类目标是使各类总的距离平方和 1 (C)(c) K k k J J = =∑最小。 22 1111 (C)(c) i i K K K n k i k ki i k k k x C k i J J x d x μμ ==∈== ==-=- ∑∑∑∑∑ （2）其中， 1 i i ki i i x c d x c ∈ ? =? ? ? 若若，显然，根据最小二乘法和拉格朗日原理，聚类中心 k μ应该取为类别 k c类各数据点的平均值。 K-means聚类算法从一个初始的K类别划分开始，然

各种密度聚类算法

一，什么是聚类？聚类： - 将一个对象的集合分割成几个类，每个类内的对象之间是相似的，但与其他类的对象是不相似的。评判聚类好坏的标准： 1 ，能够适用于大数据量。 2 ，能应付不同的数据类型。 3 ，能够发现不同类型的聚类。 4 ，使对专业知识的要求降到最低。 5 ，能应付脏数据。 6 ，对于数据不同的顺序不敏感。 7 ，能应付很多类型的数据。 8 ，模型可解释，可使用。二，聚类所基于的数据类型。聚类算法通常基于“数据矩阵”和“ Dissimilarity 矩阵”。怎么样计算不同对象之间的距离？ 1 ，数值连续的变量（体重，身高等）：度量单位的选取对于聚类的结果的很重要的。例如将身高的单位从米变为尺，将体重的单位从公斤变为磅将对聚类的结果产生很大的影响。为了避免出现这种情况，我们必须将数据标准化：将数据中的单位“去掉”。 A, 计算绝对背离度。 B, 计算标准量度。下面我们考虑怎样来计算两个对象之间的差异。 1 ，欧几里得距离。 2 ，曼哈顿距离。这两种算法有共同之处： d(i,j)>=0,d(i,i)=0, d(i,j)=d(j,i),d(i,j)=

基于聚类的图像分割方法综述

信息疼术2018年第6期文章编号=1009 -2552 (2018)06 -0092 -03 DOI：10.13274/https://www.360docs.net/doc/3c5945747.html,ki.hdzj.2018. 06.019 基于聚类的图像分割方法综述赵祥宇\陈沫涵2 (1.上海理工大学光电信息与计算机学院，上海200093; 2.上海西南位育中学，上海200093) 摘要：图像分割是图像识别和机器视觉领域中关键的预处理操作。分割理论算法众多，文中具体介绍基于聚类的分割算法的思想和原理，并将包含的典型算法的优缺点进行介绍和分析。经过比较后，归纳了在具体应用中如何对图像分割算法的抉择问题。近年来传统分割算法不断被科研工作者优化和组合，相信会有更多的分割新算法井喷而出。关键词：聚类算法；图像分割；分类中图分类号：TP391.41 文献标识码：A A survey of image segmentation based on clustering ZHAO Xiang-yu1，CHEN Mo-han2 (1.School of Optical Electrical and Computer Engineering，University of Shanghai for Science and Technology，Shanghai200093，China；2.Shanghai Southwest Weiyu Middle School，Shanghai200093，China) Abstract:Image segmentation is a key preprocessing operation in image recognition and machine vision. There are many existing theoretical methods,and this paper introduces the working principle ol image segmentation algorithm based on clustering.Firstly,the advantages and disadvantages ol several typical algorithms are introduced and analyzed.Alter comparison,the paper summarizes the problem ol the selection ol image segmentation algorithm in practical work.In recent years,the traditional segmentation algorithms were improved and combined by the researchers,it believes that more new algorithms are blown out. Key words:clustering algorithm；image segmentation；classilication 0引百近年来科学技术的不断发展，计算机视觉和图像识别发挥着至关重要的作用。在实际应用和科学研究中图像处理必不可少,进行图像处理必然用到图像分割方法,根据检测图像中像素不重叠子区域，将感兴趣目标区域分离出来。传统的图像分割方法:阈值法[1]、区域法[2]、边缘法[3]等。近年来传统分割算法不断被研究人员改进和结合，出现了基于超像素的分割方法[4]，本文主要介绍超像素方法中基于聚类的经典方法，如Mean Shift算法、K-m eans 算法、Fuzzy C-mean算法、Medoidshilt算法、Turbopixels算法和 SLIC 算法。简要分析各算法的基本思想和分割效果。 1聚类算法 1.1 Mean Shil't算法 1975年,Fukunaga[5]提出一种快速统计迭代算法，即Mean Shilt算法（均值漂移算法）。直到1995 年,Cheng[6]对其进行改进，定义了核函数和权值系数，在全局优化和聚类等方面的应用，扩大了 Mean shil't算法适用范围。1997至2003年间，Co-maniciu[7-9]提出了基于核密度梯度估计的迭代式搜索算法,并将该方法应用在图像平滑、分割和视频跟踪等领域。均值漂移算法的基本思想是通过反复迭代计算当前点的偏移均值，并挪动被计算点，经过反复迭代计算和多次挪动，循环判断是否满足条件, 达到后则终止迭代过程[10]。Mean shil't的基本形式为：收稿日期：2017-06 -13 基金项目：国家自然科学基金资助项目（81101116) 作者简介：赵祥宇（1992-)，男，硕士研究生，研究方向为数字图像处理。 —92 —

数据挖掘中的聚类算法综述

收稿日期:2006201204;修返日期:2006203219基金项目:国家自然科学基金资助项目(60473117) 数据挖掘中的聚类算法综述 3 贺　玲,吴玲达,蔡益朝 (国防科学技术大学信息系统与管理学院,湖南长沙410073) 摘　要:聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术。全面总结了数据挖掘中聚类算法的研究现状,分析比较了它们的性能差异和各自存在的优点及问题,并结合多媒体领域的应用需求指出了其今后的发展趋势。关键词:数据挖掘;聚类;聚类算法中图法分类号:TP391 文献标识码:A 文章编号:100123695(2007)0120010204 Survey of Clustering A lgorith m s in Data M ining HE L ing,WU L ing 2da,CA I Yi 2chao (College of Infor m ation Syste m &M anage m ent,N ational U niversity of D efense Technology,Changsha Hunan 410073,China ) Abstract:Clustering is an i m portant technique in Data M ining (DM )f or the discovery of data distributi on and latent data pattern .This paper p r ovides a detailed survey of current clustering algorith m s in DM at first,then it makes a comparis on a mong the m,illustrates the merits existing in the m,and identifies the p r oblem s t o be s olved and the ne w directi ons in the fu 2ture according t o the app licati on require ments in multi m edia domain .Key works:Data M ining;Clustering;Clustering A lgorith m 1　引言随着信息技术和计算机技术的迅猛发展,人们面临着越来越多的文本、图像、视频以及音频数据,为帮助用户从这些大量数据中分析出其间所蕴涵的有价值的知识,数据挖掘(Data M ining,DM )技术应运而生。所谓数据挖掘,就是从大量无序的数据中发现隐含的、有效的、有价值的、可理解的模式,进而发现有用的知识,并得出时间的趋向和关联,为用户提供问题求解层次的决策支持能力。与此同时,聚类作为数据挖掘的主要方法之一,也越来越引起人们的关注。本文比较了数据挖掘中现有聚类算法的性能,分析了它们各自的优缺点并指出了其今后的发展趋势。 2　DM 中现有的聚类算法聚类是一种常见的数据分析工具,其目的是把大量数据点的集合分成若干类,使得每个类中的数据之间最大程度地相似,而不同类中的数据最大程度地不同。在多媒体信息检索及数据挖掘的过程中,聚类处理对于建立高效的数据库索引、实现快速准确的信息检索具有重要的理论和现实意义。本文以聚类算法所采用的基本思想为依据将它们分为五类,即层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法以及用于高维数据的聚类算法,如图1所示。聚类层次聚类算法聚合聚类:Single 2L ink,Comp lete 2L ink,Average 2L ink 分解聚类分割聚类算法基于密度的聚类基于网格的聚类基于图论的聚类基于平方误差的迭代重分配聚类:概率聚类、最近邻聚类、K 2medoids 、K 2means 基于约束的聚类算法机器学习中的聚类算法人工神经网络方法基于进化理论的方法:模拟退火、遗传算法用于高维数据的聚类算法子空间聚类联合聚类图1　聚类算法分类示意图 211　层次聚类算法层次聚类算法通过将数据组织成若干组并形成一个相应的树状图来进行聚类,它又可以分为两类,即自底向上的聚合层次聚类和自顶向下的分解层次聚类。聚合聚类的策略是先将每个对象各自作为一个原子聚类,然后对这些原子聚类逐层进行聚合,直至满足一定的终止条件;后者则与前者相反,它先将所有的对象都看成一个聚类,然后将其不断分解直至满足终止条件。对于聚合聚类算法来讲,根据度量两个子类的相似度时所依据的距离不同,又可将其分为基于Single 2L ink,Comp lete 2L ink 和Average 2L ink 的聚合聚类。Single 2L ink 在这三者中应用最为广泛,它根据两个聚类中相隔最近的两个点之间的距离来评价这两个类之间的相似程度,而后两者则分别依据两类中数据点之间的最远距离和平均距离来进行相似度评价。 CURE,ROCK 和CHAME LE ON 算法是聚合聚类中最具代表性的三个方法。 Guha 等人在1998年提出了C URE 算法 [1] 。该方法不用单个中心或对象来代表一个聚类,而是选择数据空间中固定数目的、具有代表性的一些点共同来代表相应的类,这样就可以

一种基于密度的快速聚类算法

第37卷第11期 2000年11月计算机研究与发展JOU RNAL O F COM PU T ER R ESEA RCH &D EV ELO PM EN T V o l 137,N o 111N ov .2000 原稿收到日期:1999209220;修改稿收到日期:1999212209.本课题得到国家自然科学基金项目(项目编号69743001)和国家教委博士点教育基金的资助.周水庚,男,1966年生,博士研究生,高级工程师,主要从事数据库、数据仓库和数据挖掘以及信息检索等的研究.周傲英,男,1965年生,教授,博士生导师,主要从事数据库、数据挖掘和W eb 信息管理等研究.曹晶,女,1976年生,硕士研究生,主要从事数据库、数据挖掘等研究.胡运发,男,1940年生,教授,博士生导师,主要从事知识工程、数字图书馆、信息检索等研究. 一种基于密度的快速聚类算法周水庚　周傲英　曹　晶　胡运发 (复旦大学计算机科学系　上海　200433) 摘　要　聚类是数据挖掘领域中的一个重要研究方向.聚类技术在统计数据分析、模式识别、图像处理等领域有广泛应用.迄今为止人们提出了许多用于大规模数据库的聚类算法.基于密度的聚类算法DBSCAN 就是一个典型代表.以DBSCAN 为基础,提出了一种基于密度的快速聚类算法.新算法以核心对象邻域中所有对象的代表对象为种子对象来扩展类,从而减少区域查询次数,降低I O 开销,实现快速聚类.对二维空间数据测试表明:快速算法能够有效地对大规模数据库进行聚类,速度上数倍于已有DBSCAN 算法. 关键词　空间数据库,数据挖掘,聚类,密度,快速算法,代表对象中图法分类号　T P 311.13;T P 391 A FAST D ENSIT Y -BASED CL USTER ING AL G OR ITH M ZHOU Shu i 2Geng ,ZHOU A o 2Y ing ,CAO J ing ,and HU Yun 2Fa (D ep a rt m en t of Co mp u ter S cience ,F ud an U n iversity ,S hang ha i 200433) Abstract C lu stering is a p rom ising app licati on area fo r m any fields including data m in ing ,statistical data analysis ,p attern recogn iti on ,i m age p rocessing ,etc .In th is paper ,a fast den sity 2based clu stering algo rithm is developed ,w h ich con siderab ly speeds up the o riginal DB SCAN algo rithm .U n like DB SCAN ,the new DB SCAN u ses on ly a s m all num ber of rep resen tative ob jects in a co re ob ject’s neighbo rhood as seeds to exp and the clu ster so that the execu ti on frequency of regi on query can be decreased ,and con sequen tly the I O co st is reduced .Experi m en tal resu lts show that the new algo rithm is effective and efficien t in clu stering large 2scale databases ,and it is faster than the o riginal DB SCAN by several ti m es . Key words spatial database ,data m in ing ,clu stering ,den sity ,fast algo rithm ,rep resen tative ob jects 1　概述近10多年来,数据挖掘逐渐成为数据库研究领域的一个热点[1].其中,聚类分析就是广为研究的问题之一.所谓聚类,就是将数据库中的数据进行分组,使得每一组内的数据尽可能相似而不同组内的数据尽可能不同.聚类技术在统计数据分析、模式识别、图像处理等领域都有广泛的应用前景.迄今为止,人们已经提出了许多聚类算法[2～7].所有这些算法都试图解决大规模数据的聚类问题.以基于密度的聚类算法DB SCAN [4]为基础,本文提出一种基于密度的快速聚类算法.通过选用核心对象附近区域包含的所有对象的代表对象作为种子对象来扩展类,快速算法减少了区域查询的次数,从而减低了聚类时间和I O 开销 .本文内容安排如下:首先在第2节中介绍基于密度的聚类算法DB SCAN 的基本思想,并分析它的局限

聚类中K-means算法综述讲解

攻读硕士学位研究生试卷（作业）封面（2015 至2016 学年度第一学期）题目论文选读科目聚类分析中K-means算法综述姓名王苑茹专业计算机技术入学年月2015年8月简短评语成绩：授课教师签字：

聚类分析中K-means算法综述摘要:聚类分析是数据挖掘中一个极其重要的研究方向，是一个将数据划分成簇的方法或手段。聚类分析可广泛利用在商务智能，Web搜索，生物学以及图像模式识别等众多方面。本文主要叙述聚类分析中的K-means聚类算法，总结了K-means聚类算法的研究现状，并针对K-means算法的相关改进做了综述。关键词：K-means聚类算法；数据子集；聚类中心；相似性度量和距离矩阵 Overview of K-means algorithm in clustering analysis Abstract:Clustering is major field in data mining which also is an important method of data partition or grouping. Clustering now has been applied into various ways in business intelligence,Web classification,biology,market and so on.In this paper, we introduce the spatial clustering rules,At the same time, the classical K-means algorithm is describe,And some related improvements to K-means algorithm are summarized. Key words: K-means clustering algorithm; number of clusters K; cluster initialization; distance metric

聚类算法研究综述(1)

电脑知识与技术本栏目责任编辑：闻翔军数据库及信息管理１引言数据挖掘是指从从大量无序的数据中提取隐含的、有效的、可理解的、对决策有潜在价值的知识和规则，为用户提供问题求解层次的决策支持能力。数据挖掘主要的算法有分类模式、关联规则、决策树、序列模式、聚类模式分析、神经网络算法等等。聚类算法是一种有效的非监督机器学习算法，是数据挖掘中的一个非常重要的研究课题。当人们使用数据挖掘工具对数据中的模型和关系进行辨识的时候，通常第一个步骤就是聚类，其目的就是将集中的数据人为地划分成若干类，使簇内相似度尽可能大、簇间相似度尽可能小，以揭示这些数据分布的真实情况。但任何聚类算法都对数据集本身有一定的预先假设，根据文献［１］的理论，如果数据集本身的分布并不符合预先的假设，则算法的结果将毫无意义。因此，面对特定的应用问题，如何选择合适的聚类算法是聚类分析研究中的一个重要课题。本文比较了数据挖掘中现有聚类算法的性能，分析了它们各自的优缺点，并指出了其今后的发展趋势。２聚类算法分类研究聚类的目的是把大量数据点的集合分成若干类，使得每个类中的数据之间最大程度地相似，而不同类中的数据最大程度地不同。通常聚类算法可以分为层次聚类、分割聚类、密度型聚类、网格型聚类和其他聚类等几种。２．１层次聚类层次聚类算法通过将数据组织成若干组并形成一个相应的树状图来进行聚类，它又可以分为两类，即自底向上的聚合层次聚类和自顶向下的分裂层次聚类。聚结型算法采用自底向上的策略，首先把每个对象单独作为一个聚类，然后根据一定的规则合并成为越来越大的聚类，直到最后所有的对象都归入到一个聚类中。大多数层次聚类算法都属于聚结型算法，它们之间的区别在于类间相似度的定义不同。与聚结型算法相反，分裂型算法采用自顶向下的方法，它先将所有的对象都看成一个聚类，然后将其不断分解直至每个对象都独自归入一个聚类。一般情况下不使用分裂型方法，因为在较高的层次很难进行正确的拆分。纯粹的层次聚类算法的缺点在于一旦进行合并或分裂之后，就无法再进行调整。现在的一些研究侧重于层次聚类算法与循环的重新分配方法的结合。主要的层次聚类算法有ＢＩＲＣＨ，ＣＵＲＥ，ＲＯＣＫ，ＣＨＡＭＥＬＥＯＮ，ＡＭＯＥＢＡ，ＣＯＢＷＥＢ，ＣｌｕｓｔｅｒｉｎｇｗｉｔｈＲａｎｄｏｍＷａｌｋｓ算法等。ＣＵＲＥ算法［２］不用单个中心或对象来代表一个聚类，而是选择数据空间中固定数目的、具有代表性的一些点共同来代表相应的类，这样就可以识别具有复杂形状和不同大小的聚类，从而能很好地过滤孤立点。ＲＯＣＫ算法［３］是对ＣＵＲＥ的改进，除了具有ＣＵＲＥ算法的一些优良特性之外，它还适用于类别属性的数据。ＣＨＡＭＥＬＥＯＮ算法［４］是Ｋａｒｙｐｉｓ等人于１９９９年提出来的，它在聚合聚类的过程中利用了动态建模的技术。２．２分割聚类分割聚类算法是另外一种重要的聚类方法。它先将数据点集分为ｋ个划分，每个划分作为一个聚类，然后从这ｋ个初始划分开始，通过重复的控制策略，使某个准则最优化，而每个聚类由其质心来代表（ｋ－ｍｅａｎｓ算法），或者由该聚类中最靠近中心的一个对象来代表（ｋ－ｍｅｄｏｉｄｓ算法），以达到最终的结果。分割聚类算法收敛速度快，缺点在于它倾向于识别凸形分布大小相近、密度相近的聚类，不能发现分布形状比较复杂的聚类，它要求类别数目ｋ可以合理地估计，并且初始中心的选择和噪声会对聚类结果产生很大影响。这类方法又可分为基于密度的聚类、基于网格的聚类等。很多算法中都使用距离来描述数据之间的相似性，但是，对于非凸数据集，只用距离来描述是不够的。对于这种情况，要用密度来取代相似性，这就是基于密度的聚类算法。基于密度的算法从数据对象的分布密度出发，把密度足够大的区域连接起来，从而可以发现任意形状的类。此类算法除了可以发现任意形状的类，还能够有效去除噪声。基于网格的聚类算法，把空间量化为有限个单元（即长方体或超长方体），然后对量化后的空间进行聚类。此类算法具有很快的处理速度。缺点是只能发现边界是水平或垂直的聚类，而不能检测到斜边界。此类算法具有很快的处理速度。时间复杂度一般由网格单元的数目决定，而与数据集的大小无关。此外，聚类的精度取决于网格单元的大小。此类算法不适用于高维情况，因为网格单元的数目随着维数的增加而呈指数增长。所有基于网格的聚类算法都存在下列问题：一是如何选择合适的单元大小和数目；二是怎样对每个单元中对象的信息进行汇总。主要的分割聚类算法有ｋ－ｍｅａｎｓ，ＥＭ，ｋ－ｍｅｄｏｉｄｓ，收稿日期：２００７－０６－１０作者简介：项冰冰（１９８０－），女，安徽合肥人，安徽大学助教，工学学士，研究方向：数据挖掘，人工智能；钱光超（１９８２－），男，安徽安徽无为人，安徽大学计算机科学与技术学院０５级研究生，工学学士。聚类算法研究综述项冰冰１，钱光超２（１．安徽大学数学与计算科学学院安徽合肥２３０３９；２．安徽大学计算机科学与技术学院安徽合肥２３００３９）摘要：聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术。阐述了聚类算法基本原理，总结了聚类算法的研究现状，按照聚类算法的分类，分析比较了几种典型聚类的性能差异和各自存在的优点及问题，并结合应用需求指出了其今后的发展趋势。关键词：数据挖掘；聚类分析；聚类算法中图分类号：ＴＰ３０１．６文献标识码：Ａ文章编号：１００９－３０４４（２００７）１２－２１５００－０２ＴｈｅＲｅｓｅａｒｃｈｏｆＣｌｕｓｔｅｒｉｎｇＡｌｇｏｒｉｔｈｍｓＸＩＡＮＧＢｉｎｇ－ｂｉｎｇ１，ＱＩＡＮＧｕａｎｇ－ｃｈａｏ２（１．ＳｃｈｏｏｌｏｆＭａｔｈｅｍａｔｉｃｓａｎｄＣｏｍｐｕｔａｔｉｏｎａｌＳｃｉｅｎｃｅ，ＡｎｈｕｉＵｎｉｖｅｒｓｉｔｙ，Ｈｅｆｅｉ，ＡｎｈｕｉＰｒｏｖｉｎｃｅ２３００３９，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＡｎｈｕｉＵｎｉｖｅｒｓｉｔｙ，Ｈｅｆｅｉ，ＡｎｈｕｉＰｒｏｖｉｎｃｅ２３００３９，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｃｌｕｓｔｅｒｉｎｇｉｓａｎｉｍｐｏｒｔａｎｔｔｅｃｈｎｉｑｕｅｉｎｄａｔａｍｉｎｉｎｇ．Ｉｔ’ ｓｕｓｅｄｔｏｄｉｓｃｏｖｅｒｔｈｅｄａｔａｄｉｓｔｒｉｂｕｔｉｏｎａｎｄｃｏｎｃｅａｌｅｄｐａｔｔｅｒｎｓ．Ｔｈｅｐａｐｅｒｅｌｕｃｉｄａｔｅｔｈｅｂａｓｉｃｐｒｉｎｃｉｐｌｅｏｆｔｈｅｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓａｎｄｓｕｍｕｐｔｈｅｃｏｎｔｅｍｐｏｒａｒｙｒｅｓｅａｒｃｈｏｆｔｈｅｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓ．Ｉｔａｌｓｏａｎａｌｙｚｅａｆｅｗｒｅｐｒｅｓｅｎｔａｔｉｖｅｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓａｎｄｃｏｍｐａｒｅｔｈｅｉｒｄｉｆｆｅｒｅｎｃｅｓ，ａｄｖａｎｔａｇｅｓａｎｄｄｉｓａｄｖａｎｔａｇｅｓ．Ａｔｌａｓｔ，ｔｈｅｐａｐｅｒｉｎｄｉｃａｔｅｔｈｅｄｅｖｅｌｏｐｍｅｎｔｔｒｅｎｄｏｆｃｌｕｓｔｅｒｉｎｇｉｎｔｅｇｒａｔｉｎｇｔｈｅａｐｐｌｉｃａｔｉｏｎｄｅｍａｎｄ．Ｋｅｙｗｏｒｄ：Ｄａｔａｍｉｎｉｎｇ；ＣｌｕｓｔｅｒｉｎｇＡｎａｌｙｓｉｓ；ＣｌｕｓｔｅｒｉｎｇＡｌｇｏｒｉｔｈｍｓ１５００

密度聚类算法 DENCLUE 2.0

DENCLUE2.0:Fast Clustering based on Kernel Density Estimation Alexander Hinneburg1and Hans-Henning Gabriel2 1Institute of Computer Science Martin-Luther-University Halle-Wittenberg,Germany hinneburg@informatik.uni-halle.de 2Otto-von-Guericke-University Magdeburg,Germany Hans-Henning.Gabriel@web.de Abstract.The Denclue algorithm employs a cluster model based on kernel density estimation.A cluster is de?ned by a local maximum of the estimated density function.Data points are assigned to clusters by hill climbing,i.e.points going to the same local maximum are put into the same cluster.A disadvantage of Denclue1.0is,that the used hill climbing may make unnecessary small steps in the beginning and never converges exactly to the maximum,it just comes close. We introduce a new hill climbing procedure for Gaussian kernels,which adjusts the step size automatically at no extra costs.We prove that the procedure converges exactly towards a local maximum by reducing it to a special case of the expectation maximization algorithm.We show experimentally that the new procedure needs much less iterations and can be accelerated by sampling based methods with sacri?cing only a small amount of accuracy. 1Introduction Clustering can be formulated in many di?erent ways.Non-parametric methods are well suited for exploring clusters,because no generative model of the data is assumed.Instead,the probability density in the data space is directly estimated from data instances.Kernel density estimation[15,14]is a principled way of doing that task.There are several clustering algorithms,which exploit the adaptive nature of a kernel density estimate.Examples are the algorithms by Schnell [13]and Fukunaga[5]which use the gradient of the estimated density function. The algorithms are also described in the books by Bock[3]and Fukunaga[4] respectively.The Denclue framework for clustering[7,8]builds upon Schnells algorithm.There,clusters are de?ned by local maxima of the density estimate. Data points are assigned to local maxima by hill climbing.Those points which are assigned to the same local maximum are put into a single cluster. However,the algorithms use directional information of the gradient only. The step size remains?xed throughout the hill climbing.This implies certain disadvantages,namely the hill climbing does not converges towards the local maximum,it just comes close,and the number of iteration steps may be large