聚类算法研究综述

电脑知识与技术

本栏目责任编辑：闻翔军

数据库及信息管理

１引言

数据挖掘是指从从大量无序的数据中提取隐含的、有效的、可理解的、对决策有潜在价值的知识和规则，为用户提供问题求解层次的决策支持能力。数据挖掘主要的算法有分类模式、关联规则、决策树、序列模式、聚类模式分析、神经网络算法等等。聚类算法是一种有效的非监督机器学习算法，是数据挖掘中的一个非常重要的研究课题。当人们使用数据挖掘工具对数据中的模型和关系进行辨识的时候，通常第一个步骤就是聚类，其目的就是将集中的数据人为地划分成若干类，使簇内相似度尽可能大、簇间相似度尽可能小，以揭示这些数据分布的真实情况。但任何聚类算法都对数据集本身有一定的预先假设，根据文献［１］的理论，如果数据集本身的分布并不符合预先的假设，则算法的结果将毫无意义。因此，面对特定的应用问题，如何选择合适的聚类算法是聚类分析研究中的一个重要课题。本文比较了数据挖掘中现有聚类算法的性能，分析了它们各自的优缺点，并指出了其今后的发展趋势。

２聚类算法分类研究

聚类的目的是把大量数据点的集合分成若干类，使得每个类中的数据之间最大程度地相似，而不同类中的数据最大程度地不同。通常聚类算法可以分为层次聚类、分割聚类、密度型聚类、网格型聚类和其他聚类等几种。

２．１层次聚类

层次聚类算法通过将数据组织成若干组并形成一个相应的树状图来进行聚类，它又可以分为两类，即自底向上的聚合层次聚类和自顶向下的分裂层次聚类。聚结型算法采用自底向上的策略，首先把每个对象单独作为一个聚类，然后根据一定的规则合并成为越来越大的聚类，直到最后所有的对象都归入到一个聚类中。大多数层次聚类算法都属于聚结型算法，它们之间的区别在于类间相似度的定义不同。与聚结型算法相反，分裂型算法采用自顶向下的方法，它先将所有的对象都看成一个聚类，然后将其不断分解直至每个对象都独自归入一个聚类。一般情况下不使用分裂型方法，因为在较高的层次很难进行正确的拆分。纯粹的层次聚类算法的缺点在于一旦进行合并或分裂之后，就无法再进行调整。现在的一些研究侧重于层次聚类算法与循环的重新分配方法的结合。

主要的层次聚类算法有ＢＩＲＣＨ，ＣＵＲＥ，ＲＯＣＫ，

ＣＨＡＭＥＬＥＯＮ，ＡＭＯＥＢＡ，ＣＯＢＷＥＢ，ＣｌｕｓｔｅｒｉｎｇｗｉｔｈＲａｎｄｏｍＷａｌｋｓ算法等。ＣＵＲＥ算法［２］不用单个中心或对象来代表一个聚

类，而是选择数据空间中固定数目的、

具有代表性的一些点共同来代表相应的类，这样就可以识别具有复杂形状和不同大小的聚类，从而能很好地过滤孤立点。ＲＯＣＫ算法［３］是对ＣＵＲＥ的改进，除了具有ＣＵＲＥ算法的一些优良特性之外，它还适用于类别属性的数据。ＣＨＡＭＥＬＥＯＮ算法［４］是Ｋａｒｙｐｉｓ等人于１９９９年提出来的，它在聚合聚类的过程中利用了动态建模的技术。

２．２分割聚类

分割聚类算法是另外一种重要的聚类方法。它先将数据点集分为ｋ个划分，每个划分作为一个聚类，然后从这ｋ个初始划分开始，通过重复的控制策略，使某个准则最优化，而每个聚类由其质心来代表（ｋ－ｍｅａｎｓ算法），或者由该聚类中最靠近中心的一

个对象来代表（ｋ－ｍｅｄｏｉｄｓ算法），以达到最终的结果。

分割聚类算法收敛速度快，缺点在于它倾向于识别凸形分布大小相近、密度相近的聚类，不能发现分布形状比较复杂的聚类，它要求类别数目ｋ可以合理地估计，并且初始中心的选择和噪声会对聚类结果产生很大影响。这类方法又可分为基于密度的聚类、基于网格的聚类等。

很多算法中都使用距离来描述数据之间的相似性，但是，对于非凸数据集，只用距离来描述是不够的。对于这种情况，要用密度来取代相似性，这就是基于密度的聚类算法。基于密度的算法从数据对象的分布密度出发，把密度足够大的区域连接起来，从而可以发现任意形状的类。此类算法除了可以发现任意形状的类，还能够有效去除噪声。

基于网格的聚类算法，把空间量化为有限个单元（即长方体或超长方体），然后对量化后的空间进行聚类。此类算法具有很快的处理速度。缺点是只能发现边界是水平或垂直的聚类，而不能检测到斜边界。此类算法具有很快的处理速度。时间复杂度一般由网格单元的数目决定，而与数据集的大小无关。此外，聚类的精度取决于网格单元的大小。此类算法不适用于高维情况，因为网格单元的数目随着维数的增加而呈指数增长。所有基于网格的聚类算法都存在下列问题：一是如何选择合适的单元大小和数目；二是怎样对每个单元中对象的信息进行汇总。

主要的分割聚类算法有ｋ－ｍｅａｎｓ，ＥＭ，ｋ－ｍｅｄｏｉｄｓ，

收稿日期：２００７－０６－１０

作者简介：项冰冰（１９８０－），女，安徽合肥人，安徽大学助教，工学学士，研究方向：数据挖掘，人工智能；钱光超（１９８２－），男，安徽安徽无为人，安徽大学计算机科学与技术学院０５级研究生，工学学士。

聚类算法研究综述

项冰冰１，钱光超２

（１．安徽大学数学与计算科学学院安徽合肥２３０３９；２．安徽大学计算机科学与技术学院安徽合肥２３００３９）

摘要：聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术。阐述了聚类算法基本原理，总结了聚类算法的研究现状，按照聚类算法的分类，分析比较了几种典型聚类的性能差异和各自存在的优点及问题，并结合应用需求指出了其今后的发展趋势。

关键词：数据挖掘；聚类分析；聚类算法

中图分类号：ＴＰ３０１．６

文献标识码：Ａ文章编号：１００９－３０４４（２００７）１２－２１５００－０２ＴｈｅＲｅｓｅａｒｃｈｏｆＣｌｕｓｔｅｒｉｎｇＡｌｇｏｒｉｔｈｍｓ

ＸＩＡＮＧＢｉｎｇ－ｂｉｎｇ１，ＱＩＡＮＧｕａｎｇ－ｃｈａｏ２

（１．ＳｃｈｏｏｌｏｆＭａｔｈｅｍａｔｉｃｓａｎｄＣｏｍｐｕｔａｔｉｏｎａｌＳｃｉｅｎｃｅ，ＡｎｈｕｉＵｎｉｖｅｒｓｉｔｙ，Ｈｅｆｅｉ，ＡｎｈｕｉＰｒｏｖｉｎｃｅ２３００３９，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ

ａｎｄＴｅｃｈｎｏｌｏｇｙ，ＡｎｈｕｉＵｎｉｖｅｒｓｉｔｙ，Ｈｅｆｅｉ，ＡｎｈｕｉＰｒｏｖｉｎｃｅ２３００３９，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｃｌｕｓｔｅｒｉｎｇｉｓａｎｉｍｐｏｒｔａｎｔｔｅｃｈｎｉｑｕｅｉｎｄａｔａｍｉｎｉｎｇ．Ｉｔ’

ｓｕｓｅｄｔｏｄｉｓｃｏｖｅｒｔｈｅｄａｔａｄｉｓｔｒｉｂｕｔｉｏｎａｎｄｃｏｎｃｅａｌｅｄｐａｔｔｅｒｎｓ．Ｔｈｅｐａｐｅｒｅｌｕｃｉｄａｔｅｔｈｅｂａｓｉｃｐｒｉｎｃｉｐｌｅｏｆｔｈｅｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓａｎｄｓｕｍｕｐｔｈｅｃｏｎｔｅｍｐｏｒａｒｙｒｅｓｅａｒｃｈｏｆｔｈｅｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓ．Ｉｔａｌｓｏａｎａｌｙｚｅａｆｅｗｒｅｐｒｅｓｅｎｔａｔｉｖｅｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓａｎｄｃｏｍｐａｒｅｔｈｅｉｒｄｉｆｆｅｒｅｎｃｅｓ，ａｄｖａｎｔａｇｅｓａｎｄｄｉｓａｄｖａｎｔａｇｅｓ．Ａｔｌａｓｔ，ｔｈｅｐａｐｅｒｉｎｄｉｃａｔｅｔｈｅｄｅｖｅｌｏｐｍｅｎｔｔｒｅｎｄｏｆｃｌｕｓｔｅｒｉｎｇｉｎｔｅｇｒａｔｉｎｇｔｈｅａｐｐｌｉｃａｔｉｏｎｄｅｍａｎｄ．

Ｋｅｙｗｏｒｄ：Ｄａｔａｍｉｎｉｎｇ；ＣｌｕｓｔｅｒｉｎｇＡｎａｌｙｓｉｓ；ＣｌｕｓｔｅｒｉｎｇＡｌｇｏｒｉｔｈｍｓ

１５００

本栏目责任编辑：闻翔军数据库及信息管理

ＣＬＡＲＡ，ＣＬＡＲＡＮＳ等。常见的ｋ－ｍｅｄｏｉｄｓ算法有ＰＡＭ算法、ＣＬＡＲＡ算法、ＣＬＡＲＡＮＳ算法。

２．３其他聚类

主要有：基于约束的聚类算法、机器学习中的聚类算法、用于高维数据的聚类算法等。

基于约束的聚类算法，其约束可以是对个体对象的约束，也可以是对聚类参数的约束，它们均来自相关领域的经验知识。该方法的一个重要应用在于对存在障碍数据的二维空间数据进行聚类。ＣＯＤ（ＣｌｕｓｔｅｒｉｎｇｗｉｔｈＯｂｓｔｒｕｃｔｅｄＤｉｓｔａｎｃｅ）［５］就是处理这类问题的典型算法，其主要思想是用两点之间的障碍距离取代了一般的欧氏距离来计算其间的最小距离。

机器学习中的聚类算法是指与机器学习相关、采用了某些机器学习理论的聚类方法，它主要包括人工神经网络方法以及基于进化理论的方法。如自组织特征映射（ＳＯＭ）网络是利用人工神经网络进行聚类的较早尝试，它也是向量量化方法的典型代表之一。在基于进化理论的聚类方法中，模拟退火的应用较为广泛，ＳＮＩＣＣ算法［６］就是其中之一。遗传算法也可以用于聚类处理，它主要通过选择、交叉和变异这三种遗传算子的运算以不断优化可选方案从而得到最终的聚类结果。

高维数据聚类是目前多媒体数据挖掘领域面临的重大挑战之一，除了降维这一最直接的方法之外，对高维数据的聚类处理还包括子空间聚类以及联合聚类技术等。子空间聚类算法，认为在高维数据集中，聚类往往不是存在于整个空间中，而是存在于某些子空间中。它们针对高维空间数据，寻找子空间中的聚类。主要子空间聚类算法有ＣＬＩＱＵＥ，ＰＲＯＣＬＵＳ等。

３典型聚类算法性能比较

３．１ＣＬＡＲＡＮＳ算法

ＣＬＡＲＡＮＳ通过利用多次不同抽样改进了ＣＬＡＲＡ算法，是一种ｋ－中心点聚类方法。它首先随机选择一个点作为当前点，然后随机检查它周围不超过参数Ｍａｘｅｉｇｈｂａｒ个的一些邻接点。假如找到一个比它更好的邻接点，则把它移入该邻接点，否则把该点作为局部最小量。然后再随机选择一个点来寻找另一个局部最小量，直至所找到的局部最小量数目达到用户要求为止。该算法要求聚类的对象必须预先调入内存，并且需多次扫描数据集，其时空复杂度都相当大，虽通过引入Ｒ＊—树结构对其性能进行改善，但构造和维护代价太大。该算法对脏数据和异常数据不敏感，但对数据输入顺序异常敏感，且只能处理凸形或球形边界聚类，效率较高。

３．２ＢＩＲＣＨ算法

ＢＩＲＣＨ是一个综合性的层次聚类方法，它利用层次方法的平衡迭代进行归约和聚类。其核心是用一个聚类特征三元组表示一个簇的有关信息，从而使一簇点的表示可用对应的聚类特征。它通过构造满足分支因子和簇直径限制的聚类特征树来求聚类。该算法通过聚类特征可以方便地进行中心、半径、直径及类内、类间距离的运算。算法具有对象数目的线性易伸缩性，及良好的聚类质量。一次扫描就可以进行较好的聚类，其计算复杂度为Ｏ（ｎ）。ＢＩＲＣＨ算法只适用于类的分布呈凸形及球形的情况，对不可视的高维数据则是不可行的。

３．３ＤＢＳＣＡＮ算法

ＤＢＳＣＡＮ是基于密度的聚类算法，可以将足够高密度的区域划分为簇，并可以在带有“噪声”的空间数据库中发现任意形状的聚类。该算法利用类的密度连通性可以快速发现任意形状的类。其基本思想是：对于一个类中的每个对象，在其给定半径的领域中包含的对象不能少于某一给定的最小数目。ＤＢＳＣＡＮ算法不进行任何的预处理而直接对整个数据集进行聚类操作。当数据量非常大时，就必须有大量内存支持，Ｉ／Ｏ消耗也非常大。其时间复杂度为Ｏ（ｎｌｏｇｎ），聚类过程的大部分时间用在区域查询操作上。ＤＢＳＣＡＮ算法能够发现空间数据库中任意形状的密度连通集；在给定合适的参数条件下，能很好地处理噪声点；对用户领域知识要求较少；对数据的输入顺序不太敏感；适用于大型数据库。但ＤＢＳＣＡＮ算法要求事先指定领域和阈值，具体使用的参数依赖于应用的目的。

３．４ＳＴＩＮＧ算法

ＳＴＩＮＧ是一种格的多分辨率聚类技术。它将空间区域划分为矩形单元，针对不同级别的分辨率，通常存在多个级别的矩形单元，这些单元形成了一个层次结构：高层的每个单元被划分为多个低一层的单元。高层单元的统计参数可以很容易地从低层单元的计算得到。ＳＴＩＮＧ扫描数据库一次来计算单元的统计信息，因此产生聚类的时间复杂度是Ｏ（ｎ），其中ｎ是对象的数目。在层次结构建立后，查询处理时间是Ｏ（ｇ），ｇ是最低层风格单元的数目，通常远远小于ｎ。

ＳＴＩＮＧ是独立于查询的，有利于并行处理和增量更新且效率较高。但由于ＳＴＩＮＧ采用了一个多分辨率的方法来进行聚类分析，聚类的质量取决于网格结构的最低层粒度。如果数据粒度比较细，处理的代价会明显增加。并且，ＳＴＩＮＧ在构建一个父单元时没有考虑子单元和其相邻单元之间的关系，因此，尽管该技术处理速度快，但可能降低簇的质量和精确性。

４结论和展望

聚类分析是数据挖掘中一种非常有用的技术，它可作为特征和分类算法的预处理步骤，也可将聚类结果用于进一步关联分析，还可以作为一个独立的工具来获得数据分布的情况。聚类算法的研究具有广泛的应用前景，其今后的发展也面临着越来越多的挑战。首先是聚类算法的选择，建议使用者根据实际情况（例如发现聚类的形状、数据输入顺序是否敏感、适用数据库的大小或者算法效率）来选择合适的聚类算法。其次，对于特征数据本身所具备的高维性、复杂性、动态性以及容易达到大规模的特性，聚类算法的设计还应该更多地考虑融合不同的聚类思想形成新的聚类算法，从而综合利用不同聚类算法的优点。

参考文献：

［１］ＲＯＤｕｄａ，ＰＥＨａｒｔ，ＤＧＳｔｏｒｋ．ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ（２ｎｄＥｄｉｔｉｏｎ）［Ｍ］．ＮｅｗＹｏｒｋ：Ｗｉｌｅｙ，２００１．４５４２４５８．

［２］ＧｕｈａＳ，ＲａｓｔｏｇｉＲ，ＳｈｉｍＫ．ＣＵＲＥ：ＡｎＥｆｆｉｃｉｅｎｔＣｌｕｓｔｅｒｉｎｇＡｌｇｏｒｉｔｈｍｆｏｒＬａｒｇｅＤａｔａｂａｓｅｓ［Ｃ］．Ｓｅａｔｔｌｅ：ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＣＭＳＩＧＭＯＤＣｏｎｆｅｒｅｎｃｅ，１９９８．７３－８４．

［３］ＧｕｈａＳ，ＲａｓｔｏｇｉＲ，ＳｈｉｍＫ．ＲＯＣＫ：ＡＲｏｂｕｓｔＣｌｕｓｔｅｒｉｎｇＡｌ－ｇｏｒｉｔｈｍｆｏｒＣａｔｅｇｏｒｉｃａｌＡｔｔｒｉｂｕｔｅｓ［Ｃ］．Ｓｙｄｎｅｙ：Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１５ｔｈＩＣＤＥ，１９９９．５１２－５２１．

［４］ＫａｒｙｐｉｓＧ，ＨａｎＥ－Ｈ，ＫｕｍａｒＶ．ＣＨＡＭＥＬＥＯＮ：ＡＨｉｅｒａｒ－ｃｈｉｃａｌＣｌｕｓｔｅｒｉｎｇＡｌｇｏｒｉｔｈｍＵｓｉｎｇＤｙｎａｍｉｃＭｏｄｅｌｉｎｇ［Ｊ］．ＩＥＥＥＣｏｍ－ｐｕｔｅｒ，１９９９，３２（８）：６８－７５．

［５］ＴｕｎｇＡＫＨ，ＨｏｕＪ，ＨａｎＪ．ＳｐａｔｉａｌＣｌｕｓｔｅｒｉｎｇｉｎｔｈｅＰｒｅｓ－ｅｎｃｅｏｆＯｂｓｔａｃｌｅｓ［Ｃ］．Ｈｅｉｄｅｌｂｅｒｇ：Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１７ｔｈＩＣＤＥ，２００１．３５９－３６７．

［６］ＢｒｏｗｎＤ，ＨｕｎｔｌｅｙＣ．ＡＰｒａｃｔｉｃａｌＡｐｐｌｉｃａｔｉｏｎｏｆＳｉｍｕｌａｔｅｄＡｎｎｅａｌｉｎｇｔｏＣｌｕｓｔｅｒｉｎｇ［Ｒ］．ＵｎｉｖｅｒｓｉｔｙｏｆＶｉｒｇｉｎｉａ，１９９１．

１５０１

聚类分析K-means算法综述

聚类分析K-means算法综述摘要：介绍K-means聚类算法的概念，初步了解算法的基本步骤，通过对算法缺点的分析，对算法已有的优化方法进行简单分析，以及对算法的应用领域、算法未来的研究方向及应用发展趋势作恰当的介绍。关键词：K-means聚类算法基本步骤优化方法应用领域研究方向应用发展趋势算法概述 K-means聚类算法是一种基于质心的划分方法，输入聚类个数k，以及包含n个数据对象的数据库，输出满足方差最小标准的k个聚类。评定标准：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算。解释：基于质心的划分方法就是将簇中的所有对象的平均值看做簇的质心，然后根据一个数据对象与簇质心的距离，再将该对象赋予最近的簇。 k-means 算法基本步骤（1）从n个数据对象任意选择k 个对象作为初始聚类中心（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分（3）重新计算每个（有变化）聚类的均值（中心对象）（4）计算标准测度函数，当满足一定条件，如函数收敛时，则算法终止；如果条件不满足则回到步骤（2）形式化描述输入：数据集D，划分簇的个数k 输出：k个簇的集合（1）从数据集D中任意选择k个对象作为初始簇的中心；（2）Repeat （3）For数据集D中每个对象P do （4）计算对象P到k个簇中心的距离（5）将对象P指派到与其最近（距离最短）的簇；

（6）End For （7）计算每个簇中对象的均值，作为新的簇的中心；（8）Until k个簇的簇中心不再发生变化对算法已有优化方法的分析 (1)K-means算法中聚类个数K需要预先给定这个K值的选定是非常难以估计的，很多时候,我们事先并不知道给定的数据集应该分成多少个类别才最合适，这也是K一means算法的一个不足"有的算法是通过类的自动合并和分裂得到较为合理的类型数目k，例如Is0DAIA算法"关于K一means算法中聚类数目K 值的确定，在文献中，根据了方差分析理论，应用混合F统计量来确定最佳分类数，并应用了模糊划分嫡来验证最佳分类数的正确性。在文献中，使用了一种结合全协方差矩阵RPCL算法，并逐步删除那些只包含少量训练数据的类。文献中针对“聚类的有效性问题”提出武汉理工大学硕士学位论文了一种新的有效性指标：V(k km) = Intra(k) + Inter(k) / Inter(k max)，其中k max是可聚类的最大数目,目的是选择最佳聚类个数使得有效性指标达到最小。文献中使用的是一种称为次胜者受罚的竞争学习规则来自动决定类的适当数目"它的思想是：对每个输入而言不仅竞争获胜单元的权值被修正以适应输入值，而且对次胜单元采用惩罚的方法使之远离输入值。 (2)算法对初始值的选取依赖性极大以及算法常陷入局部极小解不同的初始值，结果往往不同。K-means算法首先随机地选取k个点作为初始聚类种子，再利用迭代的重定位技术直到算法收敛。因此，初值的不同可能导致算法聚类效果的不稳定，并且，K-means算法常采用误差平方和准则函数作为聚类准则函数(目标函数)。目标函数往往存在很多个局部极小值，只有一个属于全局最小，由于算法每次开始选取的初始聚类中心落入非凸函数曲面的“位置”往往偏离全局最优解的搜索范围，因此通过迭代运算，目标函数常常达到局部最小，得不到全局最小。对于这个问题的解决，许多算法采用遗传算法(GA)，例如文献中采用遗传算法GA进行初始化，以内部聚类准则作为评价指标。 (3)从K-means算法框架可以看出，该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时,算法的时间开销是非常大所以需要对算法的时间复杂度进行分析，改进提高算法应用范围。在文献中从该算法的时间复杂度进行分析考虑，通过一定的相似性准则来去掉聚类中心的候选集，而在文献中，使用的K-meanS算法是对样本数据进行聚类。无论是初始点的选择还是一次迭代完成时对数据的调整，都是建立在随机选取的样本数据的基础之上，这样可以提高算法的收敛速度。

蚁群聚类算法综述

计算机工程与应用2006.16 引言聚类分析是数据挖掘领域中的一个重要分支[1],是人们认和探索事物之间内在联系的有效手段,它既可以用作独立的据挖掘工具,来发现数据库中数据分布的一些深入信息,也以作为其他数据挖掘算法的预处理步骤。所谓聚类(clus- ring)就是将数据对象分组成为多个类或簇(cluster),在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别大。传统的聚类算法主要分为四类[2,3]:划分方法,层次方法, 于密度方法和基于网格方法。受生物进化机理的启发,科学家提出许多用以解决复杂优问题的新方法,如遗传算法、进化策略等。1991年意大利学A.Dorigo等提出蚁群算法,它是一种新型的优化方法[4]。该算不依赖于具体问题的数学描述,具有全局优化能力。随后他其他学者[5～7]提出一系列有关蚁群的算法并应用于复杂的组优化问题的求解中,如旅行商问题(TSP)、调度问题等,取得著的成效。后来其他科学家根据自然界真实蚂蚁群堆积尸体分工行为,提出基于蚂蚁的聚类算法[8,9],利用简单的智能体仿蚂蚁在给定的环境中随意移动。这些算法的基本原理简单懂[10],已经应用到电路设计、文本挖掘等领域。本文详细地讨现有蚁群聚类算法的基本原理与性能,在归纳总结的基础上出需要完善的地方,以推动蚁群聚类算法在更广阔的领域内到应用。 2聚类概念及蚁群聚类算法一个簇是一组数据对象的集合,在同一个簇中的对象彼此类似,而不同簇中的对象彼此相异。将一组物理或抽象对象分组为类似对象组成的多个簇的过程被称为聚类。它根据数据的内在特性将数据对象划分到不同组(或簇)中。聚类的质量是基于对象相异度来评估的,相异度是根据描述对象的属性值来计算的,距离是经常采用的度量方式。聚类可用数学形式化描述为:设给定数据集X={x 1 ,x 2 ,…,x n },!i∈{1,2,…,n},x i ={x i1 ,x i2 , …,x

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS ＆SPATIAL INFOＲMATION TECHNOLOGY Vol．37，No．7收稿日期：2014－01－22 作者简介：马宏斌（1982－），男，甘肃天水人，作战环境学专业博士研究生，主要研究方向为地理空间信息服务。大数据时代的空间数据挖掘综述马宏斌1 ，王柯1，马团学 2（1．信息工程大学地理空间信息学院，河南郑州450000；2．空降兵研究所，湖北孝感432000）摘要：随着大数据时代的到来，数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题，介绍了国内外研究中利用大数据处理工具和云计算技术，在空间数据的存储、管理和挖掘算法等方面的做法，并指出了该类研究存在的不足。最后，探讨了空间数据挖掘的发展趋势。关键词：大数据；空间数据挖掘；云计算中图分类号：P208 文献标识码：B 文章编号：1672－5867（2014）07－0019－04 Spatial Data Mining Big Data Era Ｒeview MA Hong －bin 1，WANG Ke 1，MA Tuan －xue 2 （1．Geospatial Information Institute ，Information Engineering University ，Zhengzhou 450000，China ； 2．Airborne Institute ，Xiaogan 432000，China ） Abstract ：In the era of Big Data ，more and more researchers begin to show interest in data mining techniques again．The paper review most unresolved problems left by traditional spatial data mining at first．And ，some progress made by researches using Big Data and Cloud Computing technology is introduced．Also ，their drawbacks are mentioned．Finally ，future trend of spatial data mining is dis-cussed． Key words ：big data ；spatial data mining ；cloud computing 0引言随着地理空间信息技术的飞速发展，获取数据的手段和途径都得到极大丰富，传感器的精度得到提高和时空覆盖范围得以扩大，数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子显微镜、CT 成像等各种宏观与微观传感器或设备，也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、地图数字化、统计图表等空间数据获取手段，还可能是来自计算机、网络、GPS ，ＲS 和GIS 等技术应用和分析空间数据。特别是近些年来，个人使用的、携带的各种传感器（重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等），具备定位功能电子设备的普及，如智能手机、平板电脑、可穿戴设备（GOOGLE GLASS 和智能手表等），使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息（Volunteer Geographic Information ）的出现，使这些普通民众也加入到了提供数据者的行列。以上各种获取手段和途径的汇集，就使每天获取的数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ，并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间，平均每年获取8．6万景影像，每天获取67GB 的观测数据。而2012年发射的资源三号（ZY3）卫星，每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫星、飞机等飞行平台上，未来10年，全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来，那就是大数据时代。大数据具有 “4V ”特性，即数据体量大（Volume ）、数据来源和类型繁多（Variety ）、数据的真实性难以保证（Veracity ）、数据增加和变化的速度快（Velocity ）。对地观测的系统如图1所示。在这些数据中，与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用，原因是传统的科研模型不具有普适性且支持的数据量受限，受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识，这就需要利用强有力的数据分析工具来将

基于聚类的图像分割方法综述

信息疼术2018年第6期文章编号=1009 -2552 (2018)06 -0092 -03 DOI：10.13274/https://www.360docs.net/doc/c217116427.html,ki.hdzj.2018. 06.019 基于聚类的图像分割方法综述赵祥宇\陈沫涵2 (1.上海理工大学光电信息与计算机学院，上海200093; 2.上海西南位育中学，上海200093) 摘要：图像分割是图像识别和机器视觉领域中关键的预处理操作。分割理论算法众多，文中具体介绍基于聚类的分割算法的思想和原理，并将包含的典型算法的优缺点进行介绍和分析。经过比较后，归纳了在具体应用中如何对图像分割算法的抉择问题。近年来传统分割算法不断被科研工作者优化和组合，相信会有更多的分割新算法井喷而出。关键词：聚类算法；图像分割；分类中图分类号：TP391.41 文献标识码：A A survey of image segmentation based on clustering ZHAO Xiang-yu1，CHEN Mo-han2 (1.School of Optical Electrical and Computer Engineering，University of Shanghai for Science and Technology，Shanghai200093，China；2.Shanghai Southwest Weiyu Middle School，Shanghai200093，China) Abstract:Image segmentation is a key preprocessing operation in image recognition and machine vision. There are many existing theoretical methods,and this paper introduces the working principle ol image segmentation algorithm based on clustering.Firstly,the advantages and disadvantages ol several typical algorithms are introduced and analyzed.Alter comparison,the paper summarizes the problem ol the selection ol image segmentation algorithm in practical work.In recent years,the traditional segmentation algorithms were improved and combined by the researchers,it believes that more new algorithms are blown out. Key words:clustering algorithm；image segmentation；classilication 0引百近年来科学技术的不断发展，计算机视觉和图像识别发挥着至关重要的作用。在实际应用和科学研究中图像处理必不可少,进行图像处理必然用到图像分割方法,根据检测图像中像素不重叠子区域，将感兴趣目标区域分离出来。传统的图像分割方法:阈值法[1]、区域法[2]、边缘法[3]等。近年来传统分割算法不断被研究人员改进和结合，出现了基于超像素的分割方法[4]，本文主要介绍超像素方法中基于聚类的经典方法，如Mean Shift算法、K-m eans 算法、Fuzzy C-mean算法、Medoidshilt算法、Turbopixels算法和 SLIC 算法。简要分析各算法的基本思想和分割效果。 1聚类算法 1.1 Mean Shil't算法 1975年,Fukunaga[5]提出一种快速统计迭代算法，即Mean Shilt算法（均值漂移算法）。直到1995 年,Cheng[6]对其进行改进，定义了核函数和权值系数，在全局优化和聚类等方面的应用，扩大了 Mean shil't算法适用范围。1997至2003年间，Co-maniciu[7-9]提出了基于核密度梯度估计的迭代式搜索算法,并将该方法应用在图像平滑、分割和视频跟踪等领域。均值漂移算法的基本思想是通过反复迭代计算当前点的偏移均值，并挪动被计算点，经过反复迭代计算和多次挪动，循环判断是否满足条件, 达到后则终止迭代过程[10]。Mean shil't的基本形式为：收稿日期：2017-06 -13 基金项目：国家自然科学基金资助项目（81101116) 作者简介：赵祥宇（1992-)，男，硕士研究生，研究方向为数字图像处理。 —92 —

蚁群算法综述

智能控制之蚁群算法 1引言进入21世纪以来，随着信息技术的发展，许多新方法和技术进入工程化、产品化阶段，这对自动控制技术提出新的挑战，促进了智能理论在控制技术中的应用，以解决用传统的方法难以解决的复杂系统的控制问题。随着计算机技术的飞速发展，智能计算方法的应用领域也越来越广泛。智能控制技术的主要方法有模糊控制、基于知识的专家控制、神经网络控制和集成智能控制等,以及常用优化算法有:遗传算法、蚁群算法、免疫算法等。蚁群算法是近些年来迅速发展起来的，并得到广泛应用的一种新型模拟进化优化算法。研究表明该算法具有并行性，鲁棒性等优良性质。它广泛应用于求解组合优化问题，所以本文着重介绍了这种智能计算方法，即蚁群算法，阐述了其工作原理和特点，同时对蚁群算法的前景进行了展望。 2 蚁群算法概述 1、起源蚁群算法(ant colony optimization, ACO)，又称蚂蚁算法，是一种用来在图中寻找优化路径的机率型技术。它由Marco Dorigo于1992年在他的博士论文中引入，其灵感来源于蚂蚁在寻找食物过程中发现路径的行为。 Deneubourg及其同事(Deneubourg et al.,1990; Goss et al.,1989)在可监控实验条件下研究了蚂蚁的觅食行为，实验结果显示这些蚂蚁可以通过使用一种称为信息素的化学物质来标记走过的路径，从而找出从蚁穴到食物源之间的最短路径。在蚂蚁寻找食物的实验中发现，信息素的蒸发速度相对于蚁群收敛到最短路径所需的时间来说过于缓慢，因此在模型构建时，可以忽略信息素的蒸发。然而当考虑的对象是人工蚂蚁时，情况就不同了。实验结果显示，对于双桥模型和扩展双桥模型这些简单的连接图来说，同样不需要考虑信息素的蒸发。相反，在更复杂的连接图上，对于最小成本路径问题来说，信息素的蒸发可以提高算法找到好解的性能。 2、基于蚁群算法的机制原理模拟蚂蚁群体觅食行为的蚁群算法是作为一种新的计算智能模式引入的，该算法基于如下假设：（1）蚂蚁之间通过信息素和环境进行通信。每只蚂蚁仅根据其周围的环境作出反应，也只对其周围的局部环境产生影响。（2）蚂蚁对环境的反应由其内部模式决定。因为蚂蚁是基因生物，蚂蚁的行为实际上是其基因的自适应表现，即蚂蚁是反应型适应性主体。（3）在个体水平上，每只蚂蚁仅根据环境作出独立选择；在群体水平上，单

启发式优化算法综述

启发式优化算法综述一、启发式算法简介 1、定义由于传统的优化算法如最速下降法，线性规划，动态规划，分支定界法，单纯形法，共轭梯度法，拟牛顿法等在求解复杂的大规模优化问题中无法快速有效地寻找到一个合理可靠的解，使得学者们期望探索一种算法:它不依赖问题的数学性能，如连续可微，非凸等特性; 对初始值要求不严格、不敏感，并能够高效处理髙维数多模态的复杂优化问题，在合理时间内寻找到全局最优值或靠近全局最优的值。于是基于实际应用的需求，智能优化算法应运而生。智能优化算法借助自然现象的一些特点，抽象出数学规则来求解优化问题，受大自然的启发，人们从大自然的运行规律中找到了许多解决实际问题的方法。对于那些受大自然的运行规律或者面向具体问题的经验、规则启发出来的方法，人们常常称之为启发式算法（Heuristic Algorithm）。为什么要引出启发式算法，因为NP问题，一般的经典算法是无法求解，或求解时间过长，我们无法接受。因此，采用一种相对好的求解算法，去尽可能逼近最优解，得到一个相对优解，在很多实际情况中也是可以接受的。启发式算法是一种技术，这种技术使得在可接受的计算成本内去搜寻最好的解，但不一定能保证所得的可行解和最优解，甚至在多数情况下，无法阐述所得解同最优解的近似程度。启发式算法是和问题求解及搜索相关的，也就是说,启发式算法是为了提高搜索效率才提出的。人在解决问题时所采取的一种根据经验规则进行发现的方法。其特点是在解决问题

时,利用过去的经验,选择已经行之有效的方法，而不是系统地、以确定的步骤去寻求答案，以随机或近似随机方法搜索非线性复杂空间中全局最优解的寻取。启发式解决问题的方法是与算法相对立的。算法是把各种可能性都一一进行尝试，最终能找到问题的答案，但它是在很大的问题空间内，花费大量的时间和精力才能求得答案。启发式方法则是在有限的搜索空间内，大大减少尝试的数量，能迅速地达到问题的解决。 2、发展历史启发式算法的计算量都比较大，所以启发式算法伴随着计算机技术的发展，才能取得了巨大的成就。纵观启发式算法的历史发展史： 40年代：由于实际需要，提出了启发式算法（快速有效）。 50年代：逐步繁荣，其中贪婪算法和局部搜索等到人们的关注。 60年代: 反思，发现以前提出的启发式算法速度很快，但是解得质量不能保证，而且对大规模的问题仍然无能为力（收敛速度慢）。 70年代：计算复杂性理论的提出，NP问题。许多实际问题不可能在合理的时间范围内找到全局最优解。发现贪婪算法和局部搜索算法速度快，但解不好的原因主要是他们只是在局部的区域内找解，等到的解没有全局最优性。由此必须引入新的搜索机制和策略。 Holland的遗传算法出现了（Genetic Algorithm）再次引发了人们研究启发式算法的兴趣。 80年代以后：模拟退火算法（Simulated Annealing Algorithm），人工神经网络（Artificial Neural Network），禁忌搜索（Tabu Search）相继出现。最近比较火热的：演化算法（Evolutionary Algorithm）, 蚁群算法（Ant Algorithms），拟人拟物算法，量子算法等。

K-means-聚类算法研究综述

K-means聚类算法研究综述摘要:总结评述了K-means聚类算法的研究现状，指出K-means聚类算法是一个NP难优化问题，无法获得全局最优。介绍了K-means聚类算法的目标函数，算法流程，并列举了一个实例，指出了数据子集的数目K，初始聚类中心选取，相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚类算法存在的问题及其改进算法，指出了K-means 聚类的进一步研究方向。关键词：K-means聚类算法；NP难优化问题；数据子集的数目K；初始聚类中心选取；相似性度量和距离矩阵 Review of K-means clustering algorithm Abstract: K-means clustering algorithm is reviewed. K-means clustering algorithm is a NP hard optimal problem and global optimal result cannot be reached. The goal，main steps and example of K-means clustering algorithm are introduced. K-means algorithm requires three user-specified parameters: number of clusters K，cluster initialization，and distance metric. Problems and improvement of K-means clustering algorithm are summarized then. Further study directions of K-means clustering algorithm are pointed at last. Key words: K-means clustering algorithm; NP hard optimal problem; number of clusters K; cluster initialization; distance metric K-means聚类算法是由Steinhaus1955年、Lloyed1957年、Ball & Hall1965年、McQueen1967年分别在各自的不同的科学研究领域独立的提出。K-means聚类算法被提出来后，在不同的学科领域被广泛研究和应用，并发展出大量不同的改进算法。虽然K-means聚类算法被提出已经超过50年了，但目前仍然是应用最广泛的划分聚类算法之一[1]。容易实施、简单、高效、成功的应用案例和经验是其仍然流行的主要原因。文中总结评述了K-means聚类算法的研究现状，指出K-means聚类算法是一个NP难优化问题，无法获得全局最优。介绍了K-means聚类算法的目标函数、算法流程，并列举了一个实例，指出了数据子集的数目K、初始聚类中心选取、相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚类算法存在的问题及其改进算法，指出了K-means聚类的进一步研究方向。 1经典K-means聚类算法简介 1.1K-means聚类算法的目标函数对于给定的一个包含n个d维数据点的数据集 12 {x,x,,x,,x} i n X=??????，其中d i x R ∈，以及要生成的数据子集的数目K，K-means聚类算法将数据对象组织为 K个划分{c,i1,2,} k C K ==???。每个划分代表一个类c k，每个类c k有一个类别中心iμ。选取欧氏距离作为相似性和距离判断准则，计算该类内各点到聚类中心 i μ的距离平方和 2 (c) i i k i k x C J xμ ∈ =- ∑（1）聚类目标是使各类总的距离平方和 1 (C)(c) K k k J J = =∑最小。 22 1111 (C)(c) i i K K K n k i k ki i k k k x C k i J J x d x μμ ==∈== ==-=- ∑∑∑∑∑ （2）其中， 1 i i ki i i x c d x c ∈ ? =? ? ? 若若，显然，根据最小二乘法和拉格朗日原理，聚类中心 k μ应该取为类别 k c类各数据点的平均值。 K-means聚类算法从一个初始的K类别划分开始，然

各种密度聚类算法

一，什么是聚类？聚类： - 将一个对象的集合分割成几个类，每个类内的对象之间是相似的，但与其他类的对象是不相似的。评判聚类好坏的标准： 1 ，能够适用于大数据量。 2 ，能应付不同的数据类型。 3 ，能够发现不同类型的聚类。 4 ，使对专业知识的要求降到最低。 5 ，能应付脏数据。 6 ，对于数据不同的顺序不敏感。 7 ，能应付很多类型的数据。 8 ，模型可解释，可使用。二，聚类所基于的数据类型。聚类算法通常基于“数据矩阵”和“ Dissimilarity 矩阵”。怎么样计算不同对象之间的距离？ 1 ，数值连续的变量（体重，身高等）：度量单位的选取对于聚类的结果的很重要的。例如将身高的单位从米变为尺，将体重的单位从公斤变为磅将对聚类的结果产生很大的影响。为了避免出现这种情况，我们必须将数据标准化：将数据中的单位“去掉”。 A, 计算绝对背离度。 B, 计算标准量度。下面我们考虑怎样来计算两个对象之间的差异。 1 ，欧几里得距离。 2 ，曼哈顿距离。这两种算法有共同之处： d(i,j)>=0,d(i,i)=0, d(i,j)=d(j,i),d(i,j)=

数据挖掘中的聚类算法综述

收稿日期:2006201204;修返日期:2006203219基金项目:国家自然科学基金资助项目(60473117) 数据挖掘中的聚类算法综述 3 贺　玲,吴玲达,蔡益朝 (国防科学技术大学信息系统与管理学院,湖南长沙410073) 摘　要:聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术。全面总结了数据挖掘中聚类算法的研究现状,分析比较了它们的性能差异和各自存在的优点及问题,并结合多媒体领域的应用需求指出了其今后的发展趋势。关键词:数据挖掘;聚类;聚类算法中图法分类号:TP391 文献标识码:A 文章编号:100123695(2007)0120010204 Survey of Clustering A lgorith m s in Data M ining HE L ing,WU L ing 2da,CA I Yi 2chao (College of Infor m ation Syste m &M anage m ent,N ational U niversity of D efense Technology,Changsha Hunan 410073,China ) Abstract:Clustering is an i m portant technique in Data M ining (DM )f or the discovery of data distributi on and latent data pattern .This paper p r ovides a detailed survey of current clustering algorith m s in DM at first,then it makes a comparis on a mong the m,illustrates the merits existing in the m,and identifies the p r oblem s t o be s olved and the ne w directi ons in the fu 2ture according t o the app licati on require ments in multi m edia domain .Key works:Data M ining;Clustering;Clustering A lgorith m 1　引言随着信息技术和计算机技术的迅猛发展,人们面临着越来越多的文本、图像、视频以及音频数据,为帮助用户从这些大量数据中分析出其间所蕴涵的有价值的知识,数据挖掘(Data M ining,DM )技术应运而生。所谓数据挖掘,就是从大量无序的数据中发现隐含的、有效的、有价值的、可理解的模式,进而发现有用的知识,并得出时间的趋向和关联,为用户提供问题求解层次的决策支持能力。与此同时,聚类作为数据挖掘的主要方法之一,也越来越引起人们的关注。本文比较了数据挖掘中现有聚类算法的性能,分析了它们各自的优缺点并指出了其今后的发展趋势。 2　DM 中现有的聚类算法聚类是一种常见的数据分析工具,其目的是把大量数据点的集合分成若干类,使得每个类中的数据之间最大程度地相似,而不同类中的数据最大程度地不同。在多媒体信息检索及数据挖掘的过程中,聚类处理对于建立高效的数据库索引、实现快速准确的信息检索具有重要的理论和现实意义。本文以聚类算法所采用的基本思想为依据将它们分为五类,即层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法以及用于高维数据的聚类算法,如图1所示。聚类层次聚类算法聚合聚类:Single 2L ink,Comp lete 2L ink,Average 2L ink 分解聚类分割聚类算法基于密度的聚类基于网格的聚类基于图论的聚类基于平方误差的迭代重分配聚类:概率聚类、最近邻聚类、K 2medoids 、K 2means 基于约束的聚类算法机器学习中的聚类算法人工神经网络方法基于进化理论的方法:模拟退火、遗传算法用于高维数据的聚类算法子空间聚类联合聚类图1　聚类算法分类示意图 211　层次聚类算法层次聚类算法通过将数据组织成若干组并形成一个相应的树状图来进行聚类,它又可以分为两类,即自底向上的聚合层次聚类和自顶向下的分解层次聚类。聚合聚类的策略是先将每个对象各自作为一个原子聚类,然后对这些原子聚类逐层进行聚合,直至满足一定的终止条件;后者则与前者相反,它先将所有的对象都看成一个聚类,然后将其不断分解直至满足终止条件。对于聚合聚类算法来讲,根据度量两个子类的相似度时所依据的距离不同,又可将其分为基于Single 2L ink,Comp lete 2L ink 和Average 2L ink 的聚合聚类。Single 2L ink 在这三者中应用最为广泛,它根据两个聚类中相隔最近的两个点之间的距离来评价这两个类之间的相似程度,而后两者则分别依据两类中数据点之间的最远距离和平均距离来进行相似度评价。 CURE,ROCK 和CHAME LE ON 算法是聚合聚类中最具代表性的三个方法。 Guha 等人在1998年提出了C URE 算法 [1] 。该方法不用单个中心或对象来代表一个聚类,而是选择数据空间中固定数目的、具有代表性的一些点共同来代表相应的类,这样就可以

蚁群算法研究综述

蚁群算法综述控制理论与控制工程09104046 吕坤一、蚁群算法的研究背景蚂蚁是一种最古老的社会性昆虫，数以百万亿计的蚂蚁几乎占据了地球上每一片适于居住的土地，它们的个体结构和行为虽然很简单，但由这些个体所构成的蚁群却表现出高度结构化的社会组织，作为这种组织的结果表现出它们所构成的群体能完成远远超越其单只蚂蚁能力的复杂任务。就是他们这看似简单，其实有着高度协调、分工、合作的行为，打开了仿生优化领域的新局面。从蚁群群体寻找最短路径觅食行为受到启发，根据模拟蚂蚁的觅食、任务分配和构造墓地等群体智能行为，意大利学者M.Dorigo等人1991年提出了一种模拟自然界蚁群行为的模拟进化算法——人工蚁群算法，简称蚁群算法(Ant Colony Algorithm,ACA)。二、蚁群算法的研究发展现状国内对蚁群算法的研究直到上世纪末才拉开序幕，目前国内学者对蚁群算法的研究主要是集中在算法的改进和应用上。吴庆洪和张纪会等通过向基本蚁群算法中引入变异机制，充分利用2-交换法简洁高效的特点，提出了具有变异特征的蚊群算法。吴斌和史忠植首先在蚊群算法的基础上提出了相遇算法，提高了蚂蚁一次周游的质量，然后将相遇算法与采用并行策略的分段算法相结合。提出一种基于蚁群算法的TSP问题分段求解算法。王颖和谢剑英通过自适应的改变算法的挥发度等系数，提出一种自适应的蚁群算法以克服陷于局部最小的缺点。覃刚力和杨家本根据人工蚂蚁所获得的解的情况，动态地调整路径上的信息素，提出了自适应调整信息素的蚁群算法。熊伟清和余舜杰等从改进蚂蚁路径的选择策略以及全局修正蚁群信息量入手，引入变异保持种群多样性，引入蚁群分工的思想，构成一种具有分工的自适应蚁群算法。张徐亮、张晋斌和庄昌文等将协同机制引入基本蚁群算法中，分别构成了一种基于协同学习机制的蚁群算法和一种基于协同学习机制的增强蚊群算法。随着人们对蚁群算法研究的不断深入，近年来M.Dorigo等人提出了蚁群优化元启发式(Ant-Colony optimization Meta Heuristic，简称ACO-MA)这一求解复杂问题的通用框架。ACO-MH为蚁群算法的理论研究和算法设计提供了技术上的保障。在蚁群优化的收敛性方面，W.J.Gutjahr做了开创性的工作，提出了基于图的蚂蚁系统元启发式(Graph-Based Ant System Metaheuristic)这一通用的蚁群优化的模型，该模型在一定的条件下能以任意接近l的概率收敛到最优解。T.StBtzle 和M.Dorigo对一类ACO算法的收敛性进行了证明，其结论可以直接用到两类实验上，证明是最成功的蚁群算法——MMAs和ACS。N.Meuleau和M.Dorigo研究了

聚类算法研究综述

电脑知识与技术本栏目责任编辑：闻翔军数据库及信息管理１引言数据挖掘是指从从大量无序的数据中提取隐含的、有效的、可理解的、对决策有潜在价值的知识和规则，为用户提供问题求解层次的决策支持能力。数据挖掘主要的算法有分类模式、关联规则、决策树、序列模式、聚类模式分析、神经网络算法等等。聚类算法是一种有效的非监督机器学习算法，是数据挖掘中的一个非常重要的研究课题。当人们使用数据挖掘工具对数据中的模型和关系进行辨识的时候，通常第一个步骤就是聚类，其目的就是将集中的数据人为地划分成若干类，使簇内相似度尽可能大、簇间相似度尽可能小，以揭示这些数据分布的真实情况。但任何聚类算法都对数据集本身有一定的预先假设，根据文献［１］的理论，如果数据集本身的分布并不符合预先的假设，则算法的结果将毫无意义。因此，面对特定的应用问题，如何选择合适的聚类算法是聚类分析研究中的一个重要课题。本文比较了数据挖掘中现有聚类算法的性能，分析了它们各自的优缺点，并指出了其今后的发展趋势。２聚类算法分类研究聚类的目的是把大量数据点的集合分成若干类，使得每个类中的数据之间最大程度地相似，而不同类中的数据最大程度地不同。通常聚类算法可以分为层次聚类、分割聚类、密度型聚类、网格型聚类和其他聚类等几种。２．１层次聚类层次聚类算法通过将数据组织成若干组并形成一个相应的树状图来进行聚类，它又可以分为两类，即自底向上的聚合层次聚类和自顶向下的分裂层次聚类。聚结型算法采用自底向上的策略，首先把每个对象单独作为一个聚类，然后根据一定的规则合并成为越来越大的聚类，直到最后所有的对象都归入到一个聚类中。大多数层次聚类算法都属于聚结型算法，它们之间的区别在于类间相似度的定义不同。与聚结型算法相反，分裂型算法采用自顶向下的方法，它先将所有的对象都看成一个聚类，然后将其不断分解直至每个对象都独自归入一个聚类。一般情况下不使用分裂型方法，因为在较高的层次很难进行正确的拆分。纯粹的层次聚类算法的缺点在于一旦进行合并或分裂之后，就无法再进行调整。现在的一些研究侧重于层次聚类算法与循环的重新分配方法的结合。主要的层次聚类算法有ＢＩＲＣＨ，ＣＵＲＥ，ＲＯＣＫ，ＣＨＡＭＥＬＥＯＮ，ＡＭＯＥＢＡ，ＣＯＢＷＥＢ，ＣｌｕｓｔｅｒｉｎｇｗｉｔｈＲａｎｄｏｍＷａｌｋｓ算法等。ＣＵＲＥ算法［２］不用单个中心或对象来代表一个聚类，而是选择数据空间中固定数目的、具有代表性的一些点共同来代表相应的类，这样就可以识别具有复杂形状和不同大小的聚类，从而能很好地过滤孤立点。ＲＯＣＫ算法［３］是对ＣＵＲＥ的改进，除了具有ＣＵＲＥ算法的一些优良特性之外，它还适用于类别属性的数据。ＣＨＡＭＥＬＥＯＮ算法［４］是Ｋａｒｙｐｉｓ等人于１９９９年提出来的，它在聚合聚类的过程中利用了动态建模的技术。２．２分割聚类分割聚类算法是另外一种重要的聚类方法。它先将数据点集分为ｋ个划分，每个划分作为一个聚类，然后从这ｋ个初始划分开始，通过重复的控制策略，使某个准则最优化，而每个聚类由其质心来代表（ｋ－ｍｅａｎｓ算法），或者由该聚类中最靠近中心的一个对象来代表（ｋ－ｍｅｄｏｉｄｓ算法），以达到最终的结果。分割聚类算法收敛速度快，缺点在于它倾向于识别凸形分布大小相近、密度相近的聚类，不能发现分布形状比较复杂的聚类，它要求类别数目ｋ可以合理地估计，并且初始中心的选择和噪声会对聚类结果产生很大影响。这类方法又可分为基于密度的聚类、基于网格的聚类等。很多算法中都使用距离来描述数据之间的相似性，但是，对于非凸数据集，只用距离来描述是不够的。对于这种情况，要用密度来取代相似性，这就是基于密度的聚类算法。基于密度的算法从数据对象的分布密度出发，把密度足够大的区域连接起来，从而可以发现任意形状的类。此类算法除了可以发现任意形状的类，还能够有效去除噪声。基于网格的聚类算法，把空间量化为有限个单元（即长方体或超长方体），然后对量化后的空间进行聚类。此类算法具有很快的处理速度。缺点是只能发现边界是水平或垂直的聚类，而不能检测到斜边界。此类算法具有很快的处理速度。时间复杂度一般由网格单元的数目决定，而与数据集的大小无关。此外，聚类的精度取决于网格单元的大小。此类算法不适用于高维情况，因为网格单元的数目随着维数的增加而呈指数增长。所有基于网格的聚类算法都存在下列问题：一是如何选择合适的单元大小和数目；二是怎样对每个单元中对象的信息进行汇总。主要的分割聚类算法有ｋ－ｍｅａｎｓ，ＥＭ，ｋ－ｍｅｄｏｉｄｓ，收稿日期：２００７－０６－１０作者简介：项冰冰（１９８０－），女，安徽合肥人，安徽大学助教，工学学士，研究方向：数据挖掘，人工智能；钱光超（１９８２－），男，安徽安徽无为人，安徽大学计算机科学与技术学院０５级研究生，工学学士。聚类算法研究综述项冰冰１，钱光超２（１．安徽大学数学与计算科学学院安徽合肥２３０３９；２．安徽大学计算机科学与技术学院安徽合肥２３００３９）摘要：聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术。阐述了聚类算法基本原理，总结了聚类算法的研究现状，按照聚类算法的分类，分析比较了几种典型聚类的性能差异和各自存在的优点及问题，并结合应用需求指出了其今后的发展趋势。关键词：数据挖掘；聚类分析；聚类算法中图分类号：ＴＰ３０１．６文献标识码：Ａ文章编号：１００９－３０４４（２００７）１２－２１５００－０２ＴｈｅＲｅｓｅａｒｃｈｏｆＣｌｕｓｔｅｒｉｎｇＡｌｇｏｒｉｔｈｍｓＸＩＡＮＧＢｉｎｇ－ｂｉｎｇ１，ＱＩＡＮＧｕａｎｇ－ｃｈａｏ２（１．ＳｃｈｏｏｌｏｆＭａｔｈｅｍａｔｉｃｓａｎｄＣｏｍｐｕｔａｔｉｏｎａｌＳｃｉｅｎｃｅ，ＡｎｈｕｉＵｎｉｖｅｒｓｉｔｙ，Ｈｅｆｅｉ，ＡｎｈｕｉＰｒｏｖｉｎｃｅ２３００３９，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＡｎｈｕｉＵｎｉｖｅｒｓｉｔｙ，Ｈｅｆｅｉ，ＡｎｈｕｉＰｒｏｖｉｎｃｅ２３００３９，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｃｌｕｓｔｅｒｉｎｇｉｓａｎｉｍｐｏｒｔａｎｔｔｅｃｈｎｉｑｕｅｉｎｄａｔａｍｉｎｉｎｇ．Ｉｔ’ ｓｕｓｅｄｔｏｄｉｓｃｏｖｅｒｔｈｅｄａｔａｄｉｓｔｒｉｂｕｔｉｏｎａｎｄｃｏｎｃｅａｌｅｄｐａｔｔｅｒｎｓ．Ｔｈｅｐａｐｅｒｅｌｕｃｉｄａｔｅｔｈｅｂａｓｉｃｐｒｉｎｃｉｐｌｅｏｆｔｈｅｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓａｎｄｓｕｍｕｐｔｈｅｃｏｎｔｅｍｐｏｒａｒｙｒｅｓｅａｒｃｈｏｆｔｈｅｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓ．Ｉｔａｌｓｏａｎａｌｙｚｅａｆｅｗｒｅｐｒｅｓｅｎｔａｔｉｖｅｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓａｎｄｃｏｍｐａｒｅｔｈｅｉｒｄｉｆｆｅｒｅｎｃｅｓ，ａｄｖａｎｔａｇｅｓａｎｄｄｉｓａｄｖａｎｔａｇｅｓ．Ａｔｌａｓｔ，ｔｈｅｐａｐｅｒｉｎｄｉｃａｔｅｔｈｅｄｅｖｅｌｏｐｍｅｎｔｔｒｅｎｄｏｆｃｌｕｓｔｅｒｉｎｇｉｎｔｅｇｒａｔｉｎｇｔｈｅａｐｐｌｉｃａｔｉｏｎｄｅｍａｎｄ．Ｋｅｙｗｏｒｄ：Ｄａｔａｍｉｎｉｎｇ；ＣｌｕｓｔｅｒｉｎｇＡｎａｌｙｓｉｓ；ＣｌｕｓｔｅｒｉｎｇＡｌｇｏｒｉｔｈｍｓ１５００

数据挖掘层次聚类算法研究综述

数据挖掘层次聚类算法研究综述摘要聚类问题是数据挖掘中的重要问题之一，是一种非监督的学习方法。分层聚类技术在图像处理、入侵检测和生物信息学等方面有着极为重要的应用，是数据挖掘领域的研究热点之一。本文总结了分层聚类算法技术的研究现状，分析算法性能的主要差异，并指出其今后的发展趋势。关键词层次聚类，数据挖掘，聚类算法 Review of hierarchical clustering algorithm in Data Mining Abstract Clustering problem of data mining is one of important issues, it is a kind of unsupervised learning methods. Stratified cluster technology in image processing, intrusion detection and bioinformatics has extremely important application and is data mining area of research one of the hotspots. This paper summarizes the layered clustering algorithm technology research, analyzes the main difference arithmetic performance, and pointed out the future development trend. Keywords Hierarchical clustering，Data mining，Clustering algorithm 1引言随着计算机技术的发展，信息数据越来越多，如何从海量数据中提取对人们有价值的信息已经成为一个非常迫切的问题。由此产生了数据挖掘技术，它是一门新兴的交叉学科，汇集了来自机器学习、模式识别、数据库、统计学、人工智能等各领域的研究成果。聚类分析是数据挖掘中的一个重要研究领域。它在图像处理、入侵检测和生物信息学等方面有着极为重要的应用。数据挖掘是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。其目标是从数据库中发现隐含的、有意义的知识。聚类分析作为一个独立的工具来获得数据分布的情况，是数据挖掘的一个重要研究分支。在数据挖掘领域，研究工作己经集中在为大型数据库的有效和实际的聚类分析寻找适当的方法。活跃的主题集中在聚类方法的可伸缩性，方法对聚类复杂形状和类型的数据的有效性，高维聚类分析技术，以及针对大型数据库中混合数值和分类数据的聚类方法。迄今为止，人们己经提出了很多聚类算法，它们可以分为如下几类：划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法，这些算法对于不同的研究对象各有优缺点。在聚类算法当中，划分方法和层次方法是最常见的两类聚类技术，其中划分方法具有较高的执行效率，而层次方法在算法上比较符合数据的特性，所以相对于划分方法聚类的效果比较好。[1] 层次聚类算法和基于划分的K-Means聚类算法是实际应用中聚类分析的支柱，算法简单、快速而且能有效地处理大数据集。层次聚类方法是通过将数据组织为若干组并形成一个相应的树来进行聚类的。根据层是自底而上还是自顶而下形成。一个完全层次聚类的质量由于无法对己经做的合并或分解进行调整而受到影响。但是层次聚类算法没有使用准则函数，它所潜含的对数据结构的假设更少，所以它的通用性更强。 2 基于层次的聚类算法 2.1 凝聚的和分裂的层次聚类层次聚类是聚类问题研究中一个重要的组成部分。分层聚类的基本原则可以表述为：如