k_means聚类算法的MapReduce并行化实现

第３９卷　增刊Ⅰ

２０１１年　６月　华中科技大学学报（自然科学版）

Ｊ．Ｈｕａｚｈｏｎｇ　

Ｕｎｉｖ．ｏｆ　Ｓｃｉ．＆Ｔｅｃｈ．（Ｎａｔｕｒａｌ　Ｓｃｉｅｎｃｅ　Ｅｄｉｔｉｏｎ）Ｖｏｌ．３９Ｓｕｐ

．Ⅰ　Ｊｕｎ．　２

０１１收稿日期　２０１１－０３－

１５．作者简介　江小平（１９７４－），男，博士，Ｅ－ｍａｉｌ：ｊｉａｎｇｘｐ

＠ｍａｉｌ．ｓｃｕｅｃ．ｅｄｕ．ｃｎ．基金项目　中央高校基本科研业务费专项资金资助项目（ＣＺＹ１１００２）；武汉市科技攻关项目（２０１１１０８２１２２９）

；华中科技大学暨湖北省移动通信公司ＴＤ－

ＳＣＤＭＡ联合创新实验室创新基金资助项目．ｋ－ｍｅａｎｓ聚类算法的Ｍａｐ

Ｒｅｄｕｃｅ并行化实现江小平１　李成华１　向　文２　张新访２　颜海涛３

（１中南民族大学电子信息工程学院，湖北武汉４３００７４；２华中科技大学计算机科学与技术

学院，湖北武汉４３００７４；３中国移动通信集团湖北有限公司业务支撑中心，湖北武汉４３００４０

）摘要　针对ｋ－ｍｅａｎｓ聚类算法特点，给出了ＭａｐＲｅｄｕｃｅ编程模型实现ｋ－ｍｅａｎｓ聚类算法的方法，Ｍａｐ函数完成每个记录到聚类中心距离的计算并重新标记其属于的新聚类类别，Ｒｅｄｕｃｅ函数根据Ｍａｐ函数得到的中间结果计算出新的聚类中心，供下一轮ＭａｐＲｅｄｕｃｅ　Ｊｏｂ使用．实验结果表明：ｋ－ｍｅａｎｓ算法ＭａｐＲｅｄｕｃｅ并行化后部署在Ｈａｄｏｏｐ集群上运行，

具有较好的加速比和良好的扩展性．关键词　云计算；并行计算；Ｍａｐ

Ｒｅｄｕｃｅ模型；数据挖掘；ｋ－ｍｅａｎｓ聚类算法中图分类号　ＴＰ３０１文献标志码　Ａ文章编号　１６７１－４５１２（２０１１）Ｓ１－０１２０－

０５Ｐａｒａｌｌｅｌ　ｉｍｐｌｅｍｅｎｔｉｎｇ　ｋ－ｍｅａｎｓ　ｃｌｕｓｔｅｒｉｎｇ　

ａｌｇｏｒｉｔｈｍｕｓｉｎｇ　ＭａｐＲｅｄｕｃｅ　ｐｒｏｇｒａｍｍｉｎｇ　

ｍｏｄｅＪｉａｎｇ　Ｘｉａｏｐｉｎｇ１　Ｌｉ　Ｃｈｅｎｇｈｕａ１　Ｘｉａｎｇ　Ｗｅｎ２　Ｚｈａｎｇ　Ｘｉｎｆａｎｇ２　

Ｙａｎ　Ｈａｉｔａｏ３

（１Ｃｏｌｌｅｇｅ　ｏｆ　Ｅｌｅｃｔｒｏｎｉｃｓ　ａｎｄ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ｓｏｕｔｈ－Ｃｅｎｔｒａｌ　Ｕｎｉｖｅｒｓｉｔｙ　ｆｏｒ　Ｎａｔｉｏｎａｌｉｔｉｅｓ，Ｗｕｈａｎ４３００７４，Ｃｈｉｎａ；２Ｓｃｈｏｏｌ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｈｕａｚｈｏｎｇ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｗｕｈａｎ　４３００７４，Ｃｈｉｎａ；３Ｂｕｓｉｎｅｓｓ　Ｓｕｐｐｏｒｔ　Ｃｅｎｔｅｒ，Ｃｈｉｎａ　Ｍｏｂｉｌｅ　Ｇｒｏｕｐ　

Ｈｕｂｅｉ　Ｃｏ．Ｌｔｄ．，Ｗｕｈａｎ　４３００４０，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ　Ｈｏｗ　ｔｏ　ｉｍｐｌｅｍｅｎｔ　ｔｈｅ　ｋ－ｍｅａｎｓ　ｃｌｕｓｔｅｒｉｎｇ　ａｌｇｏｒｉｔｈｍ　ｕｓｉｎｇ　ＭａｐＲｅｄｕｃｅ　ｐｒｏｇｒａｍｍｉｎｇ　ｍｏｄｅｗａｓ　ｓｔｕｄｉｅｄ．Ｔｈｅ　ｄｉｓｔａｎｃｅ　ｂｅｔｗｅｅｎ　ｅａｃｈ　ｐ

ｏｉｎｔ　ａｎｄ　ｅａｃｈ　ｃｌｕｓｔｅｒ　ｗａｓ　ｃａｌｃｕｌａｔｅｄ　ａｎｄ　ｎｅｗ　ｃｅｎｔｅｒ　ＩＤ　ｗａｓａｓｓｉｇｎｅｄ　ｔｏ　ｅａｃｈ　ｐｏｉｎｔ　ｉｎ　ｔｈｅ　Ｍａｐ　ｆｕｎｃｔｉｏｎ．Ａｌｌ　ｔｈｅ　ｐｏｉｎｔｓ　ｏｆ　ｔｈｅ　ｓａｍｅ　ｋｅｙ　ｖａｌｕｅ（ｃｕｒｒｅｎｔ　ｃｌｕｓｔｅｒ　ＩＤ）ｗｅｒｅ　ｓｅｎｔ　ｔｏ　ａ　ｓｉｎｇｌｅ　ｒｅｄｕｃｅｒ　ａｎｄ　ｇｅｔ　ｔｈｅ　ｎｅｗ　ｃｌｕｓｔｅｒ　ｃｅｎｔｒｏｉｄｓ　ｆｏｒ　ｔｈｅ　ｎｅｘｔ　ＭａｐＲｅｄｕｃｅ　Ｊｏｂ．Ｔｈｅ　ｅｘ－ｐｅｒｉｍｅｎｔｓ　ｏｎ　ｔｈｅ　Ｈａｄｏｏｐ　ｐｌａｔｆｏｒｍ　ｓｈｏｗｎｓ　ｂａｓｉｃａｌｌｙ　ｌｉｎｅａｒ　ｓｐｅｅｄｕｐ　ｗｉｔｈ　ａｎ　ｉｎｃｒｅａｓｉｎｇ　ｎｕｍｂｅｒ　ｏｆ　ｎｏｄｅｃｏｍｐｕｔｅｒｓ　ａｎｄ　ｇｏｏｄ　ｓｃａｌａｂｉｌｉｔｙ

．Ｋｅｙ　

ｗｏｒｄｓ　ｃｌｏｕｄ　ｃｏｍｐｕｔｉｎｇ；ｐａｒａｌｌｅｌ　ｃｏｍｐｕｔｉｎｇ；ＭａｐＲｅｄｕｃｅ　ｐｒｏｇｒａｍｍｉｎｇ　ｍｏｄｅ；ｄａｔａ　ｍｉｎｉｎｇ；ｋ－ｍｅａｎｓ　ｃｌｕｓｔｅｒｉｎｇ　

ａｌｇｏｒｉｔｈｍ随着信息技术的进步以及信息化社会的发

展，聚类计算任务所面临的数据规模越来越大，ｋ－ｍｅａｎｓ算法是一种常用的数据挖掘算法，其串行计算方法的时间复杂度比较高，处理能力存在局限性．

传统高性能计算中的并行编程模型（如ＰＴｈｒｅａｄ，ＭＰＩ和ＯｐｅｎＭＰ等）抽象度不高，开发人员需要熟悉底层的配置和并行实现细节．

ＭａｐＲｅｄｕｃｅ模型［１］

是Ｇｏｏｇ

ｌｅ实验室提出的分布式并行编程模型或框架，它能组织集群来处理大

规模数据集，

成为云计算平台主流的并行数据处理模型．Ａｐａｃｈｅ开源社区的Ｈａｄｏｏｐ项目［２］

用

ｊ

ａｖａ语言实现了该模型，同时Ｈａｄｏｏｐ项目还设计了开放源代码的云计算技术平台．云计算技术

国内已有研究［３－

４］，文献［５］

则对在多核集群上以ＭａｐＲｅｄｕｃｅ的方式实现机器学习算法进行了研究．本文在基于Ｈａｄｏｏｐ技术的云计算基础平台

上，研究了ｋ－ｍｅａｎｓ聚类算法的ＭａｐＲｅｄｕｃｅ并行编程实现方法，并进行了相关实验．

１　Ｍａｐ

Ｒｅｄｕｃｅ编程模型Ｍａｐ

Ｒｅｄｕｃｅ编程模型的基本思路：将大数据集分解为成百上千的小数据集ｓｐｌｉｔｓ，每个（或若干个）数据集分别由集群中的１个节点（一般就是一台普通的计算机）并行执行Ｍａｐ计算任务（

指定了映射规则）并生成中间结果，然后这些中间结果又由大量的节点并行执行Ｒｅｄｕｃｅ计算任务（指定了归约规则），形成最终结果．图１描述了ＭａｐＲｅｄｕｃｅ的运行机制．在数据输入阶段，ＪｏｂＴｒａｃｋｅｒ获得待计算数据片在ＮａｍｅＮｏｄｅ上的

存储元信息；在Ｍａｐ阶段，ＪｏｂＴｒａｃｋｅｒ指派多个ＴａｓｋＴｒａｃｋｅｒ完成Ｍａｐ运算任务并生成中间结

果；Ｓｈｕｆｆｌｅ阶段完成中间计算结果的混排交换；ＪｏｂＴｒａｃｋｅｒ指派ＴａｓｋＴｒａｃｋｅｒ完成Ｒｅｄｕｃｅ任务；Ｒｅｄｕｃｅ任务完成后通知ＪｏｂＴｒａｃｋｅｒ与Ｎａｍｅ－Ｎｏｄｅ以产生最后的输出结果

．

图１　Ｍａｐ

Ｒｅｕｄｃｅ运行机制ＭａｐＲｅｄｕｃｅ计算模型的核心是Ｍａｐ和Ｒ

ｅ－ｄｕｃｅ函数，

这２个函数由编程人员负责实现，功能是按一定的映射规则将输入的键值对〈ｋｅｙ，ｖａｌｕｅ〉转换成另一个或一批键值对〈ｋｅｙ

，ｖａｌｕｅ〉输出．Ｍａｐ函数将小数据集解析成一批〈ｋｅｙ，ｖａｌ－ｕｅ〉对，计算处理后生成中间结果一批Ｌｉｓｔ（〈ｋ２，

ｖ２〉）；Ｒｅｄｕｃｅ函数将〈ｋ２，Ｌｉｓｔ（ｖ２）〉作为输入数据，对属于同一个ｋｅｙ的ｖａｌｕｅ集进行计算处理．编程人员只需关注这２个函数具体计算任务，其他并行计算中的复杂问题诸如分布式文件系统、工作调度、容错、机器间通信等都交给ＭａｐＲｅ－ｄｕｃｅ运行系统后台处理．

２　ｋ－ｍｅａｎｓ聚类算法的Ｍａｐ

Ｒｅｄｕｃｅ模型实现方法

２．１　ｋ－ｍｅａｎｓ聚类算法的基本思路

ｋ－ｍｅａｎｓ聚类算法是一种基于样本间相似性

度量的间接聚类方法［６］

，其算法思路比较简单：首先从ｎ个数据对象中任意选择ｋ个对象作为初始

聚类中心；对于所剩下的其他对象，根据它们与这

些聚类中心的相似度（

距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（

该聚类中所有对象的均值）；不断重复这一过程直至标准测度函数开始收敛为止．图２为ｋ－ｍｅａｎｓ聚类算法的串行计算流程

．

图２　ｋ－ｍｅａｎｓ聚类算法的串行计算流程

串行实现算法的时间复杂度比较高，为ｎ×ｋ×ｔ×Ｏ，其中：ｎ为数据对象总个数；ｋ为期望得

到的聚类的个数；ｔ为算法迭代的次数；Ｏ为一次迭代中计算待分配数据到中心点距离的时间复杂

度．如果有１×１０４个数据对象需要聚成１００个类，那么１次迭代中需要完成１×１０

６次计算数据对象到中心点的距离这个基本操作，这是算法中最耗时的部分，也是容易进行并行处理的：１个数据对象在完成与ｋ个聚类中心的距离比较的同

时，其他数据对象也可以与聚类中心进行比较．２．２　ｋ－ｍｅａｎｓ聚类算法的Ｍａｐ

Ｒｅｄｕｃｅ并行化方法

ｋ－ｍｅａｎｓ聚类算法进行Ｍａｐ

Ｒｅｄｕｃｅ的基本思路：对串行算法中每１次迭代启动对应的１次ＭａｐＲｅｄｕｃｅ计算过程，完成数据记录到聚类中心的距离计算以及新的聚类中心的计算．图３描述了ｋ－ｍｅａｎｓ聚类算法ＭａｐＲｅｄｕｃｅ并行化实现方法．为了适合ＭａｐＲｅｄｕｃｅ计算模型处理，须将待处理数据记录以行形式存储，使待处理数据能按行分片，且片间数据无相关性，分片过程由Ｍａｐ

－Ｒｅｄｕｃｅ运行的环境完成，

不需要编写代码．ａ．Ｍａｐ函数的设计

Ｍａｐ函数的任务是完成每个记录到中心点

距离的计算并重新标记其属于的新聚类类别，其输入为待聚类所有记录数据和上一轮迭代（或初始聚类）的聚类中心，输入数据记录〈ｋｅｙ，ｖａｌｕｅ〉对的形式为〈行号，记录行〉；每个Ｍａｐ函数都读入聚类中心描述文件，Ｍａｐ函数对输入的每个记录点计算出距离其最近的类中心，并做新类别的

１２１·增刊Ⅰ

江小平，等：ｋ－ｍｅａｎｓ聚类算法的Ｍａｐ

Ｒｅｄｕｃｅ并行化实现

图３　ｋ－ｍｅａｎｓ聚类算法Ｍａｐ

Ｒｅｄｕｃｅ并行化标记；输出中间结果〈ｋｅｙ，ｖａｌｕｅ〉对的形式为〈聚类类别ＩＤ，记录属性向量〉．Ｍａｐ函数的伪代码如下：

ｖｏｉｄ　ｍａｐ（Ｗｒｉｔａｂｌｅ　ｋｅｙ，Ｔｅｘｔ　ｐ

ｏｉｎｔ）｛　ｍｉｎ－ｄｉｓｔａｎｃｅ＝ＭＡＸＤＩＳＴＡＮＣＥ；　ｆｏｒ（ｉ＝０；ｉ＜

ｋ；ｉ＋＋）｛　ｉｆ（ｄｉｓｔａｎｃｅ（ｐｏｉｎｔ，ｃｌｕｓｔｅｒ［ｉ］＜ｍｉｎ－

ｄｉｓｔａｎｃｅ

））｛ｍｉｎ－ｄ

ｉｓｔａｎｃｅ＝Ｄｉｓｔａｎｃｅ（ｐｏｉｎｔ，ｃｌｕｓｔｅｒ［ｉ

］）；ｃｕｒｒｅｎｔＣｌｕｓｔｅｒ－

ＩＤ＝ｉ；｝｝

Ｅｍｉｔ－Ｉｎｔｅｒｍｅｄｉａｔｅ（ｃｕｒｒｅｎｔＣｌｕｓｔｅｒ－

ＩＤ，ｐ

ｏｉｎｔ）；｝．

ｂ．Ｒｅｄｕｃｅ函数的设计

Ｒｅｄｕｃｅ函数的任务是根据Ｍａｐ函数得到的

中间结果计算出新的聚类中心，供下一轮Ｍａｐ－Ｒｅｄｕｃｅ　Ｊｏｂ使用．输入数据〈ｋｅｙ

，ｖａｌｕｅ〉对的形式为〈聚类类别ＩＤ，｛记录属性向量集｝〉；所有ｋｅｙ相同的记录（即有相同类别ＩＤ的记录）送给一个Ｒｅｄｕｃｅ任务———累加ｋｅｙ相同的点个数和各记

录分量的和，求各分量的均值，得到新的聚类中心描述文件；输出结果〈ｋｅｙ，ｖａｌｕｅ〉对的形式为〈聚类类别ＩＤ，均值向量〉．Ｒｅｄｕｃｅ函数的伪代码如下：

ｖｏｉｄ　ｒｅｄｕｃｅ（Ｗｒｉｔａｂｌｅ　ｋｅｙ

，Ｉｔｅｒａｔｏｒ〈Ｐｏｉｎｔ－Ｗｒｉｔａｂｌｅ〉ｐｏｉｎｔｓ）｛　Ｎ

ｕｍ＝０；　ｗｈｉｌｅ（ｐ

ｏｉｎｔｓ．ｈａｓＮｅｘｔ（））｛ＰｏｉｎｔＷｒｉｔａｂｌｅ　

ｃｕｒｒｅｎｔＰｏｉｎｔ＝ｐｏｉｎｔｓ．ｎｅｘｔ

（）；Ｎｕｍ＋＝ｃｕｒｒｅｎｔＰｏｉｎｔ．ｇｅｔ－Ｎ

ｕｍ（）；ｆｏｒ（ｉ＝０；ｉ＜ｄ

ｉｍｅｎｓｉｏｎ；ｉ＋＋）｛ｓｕｍ［ｉ］＋＝ｃｕｒｒｅｎｔＰｏｉｎｔ．ｐｏｉｎｔ［ｉ］；｝

ｆｏｒ（ｉ＝０；ｉ＜ｄｉｍｅｎｓｉｏｎ；ｉ＋＋）ｍ

ｅａｎ［ｉ］＝ｓｕｍ［ｉ］／Ｎｕｍ；Ｅｍｉｔ（ｋｅｙ

，ｍｅａｎ）；｝．判断该聚类是否已收敛：比较上一轮Ｍａｐ－Ｒｅｄｕｃｅ　Ｊｏｂ得到的聚类中心与本轮ＭａｐＲｅｄｕｃｅＪｏｂ聚类中心距离，若变化小于给定阈值，则算法结束；反之，则用本轮的聚类中心文件替换上一轮的中心文件，并启动新一轮的Ｍａｐ

Ｒｅｄｕｃｅ　Ｊｏｂ．图４为ｋ－ｍｅａｎｓ聚类算法ＭａｐＲｅｄｕｃｅ实现方法处理数据的过程示意图．在Ｒｅｄｕｃｅ任务开

始前，可对Ｍａｐ任务执行节点本地的中间结果以ｋｅｙ值为索引进行分组和排序，以提高Ｒｅｄｕｃｅ任务的执行效率

．

图４　数据处理示意图

２．３　算法时间复杂度分析

在Ｍａｐ

Ｒｅｄｕｃｅ并行计算模型中，待处理文件存储在Ｈａｄｏｏｐ平台的分布式文件系统中．

根据被处理文件的大小，将数据分块存储在不同的节点上，每个块的大小为６４ＭＢ，在Ｍａｐ阶段将１

个数据块相应分配１个Ｍａｐ任务完成本数据块

２２１·

华中科技大学学报（自然科学版）

第３９卷

的相关计算．这样ｋ－ｍｅａｎｓ聚类算法中原来由１个主机处理的最耗时的运算（即ｎ×ｋ×ｔ次距离计算），将分散到多个节点并行处理，如果每个节点平均完成Ｐ个Ｍａｐ任务，

那么其时间复杂度为ｎ×ｋ×ｔ×Ｏ／Ｐ．

３　实验和结果分析

３．１　实验环境

图５给出实验中云计算平台的结构：１台机器作为ＮａｍｅＮｏｄｅ和ＪｏｂＴｒａｃｋｅｒ服务节点，其他１０台机器作为ＤａｔｅＮｏｄｅ和ＴａｓｋＴｒａｃｋｅｒ服务节

点．每台节点硬件配置如下：ＣＰＵ型号为ＩｎｔｅｌＸｅｏｎ　Ｘ３３３０；内存为８ＧＢ；硬盘为２ＴＢ　ＳＡＴＡ；板载Ｉｎｔｅｌ双千兆网络控制器．根据Ｈａｄｏｏｐ项目官方网站介绍的方法配置基于Ｈａｄｏｏｐ０．２０．２版本的集群

．

图５　云计算平台结构示意图

３．２　单机处理比较实验

实验内容为比较Ｈａｄｏｏｐ集群中的１个运算节点与ｋ－ｍｅａｎｓ聚类算法的串行实现软件在处理相同规模数据以及相同硬件配置环境下，从数据读入到完成ｋ－ｍｅａｎｓ聚类所需要的时间．

实验中，ｋ－ｍｅａｎｓ聚类算法串行实现软件采用的是新西兰

怀卡托大学开源数据挖掘工具Ｗｅｋａ［７］

，它集成了数据挖掘的大部分算法，且被学术界广泛使用，但文献［８］和［９］分别指出了Ｗｅｋａ系统存在的一些缺陷，如当数据量比较大时有些算法会出现挖掘时间过长，ＣＰＵ运转１００％，内存不足等情况．对Ｗｅｋａ系统，设定其最大内存ｍａｘｈｅａｐ为１

　０００ＭＢ，对应地配置ＴａｓｋＴｒａｃｋｅｒ节点子任务的ＪＶＭ内存ｍａｐｒｅｄ．ｃｈｉｌｄ．ｊａｖａ．ｏｐｔｓ为１　０００ＭＢ．在这两者的对比实验中，被处理数据从小规模逐步增加，实验情况见表１（τ１为单机上使用Ｗｅｋａ软件所用时间；τ２为１个运算节点完成ｋ

－ｍｅａｎｓ聚类算法所用时间），其中每条记录共２０个字段，生成１０个聚类类别，

初始聚类中心随机产生．上述实验结果表明：随着输入数据的增长，运行Ｗｅｋａ的机器上内存等资源消耗增大，

致使机器性能下降，直至报告内存不足且不能完成计算任务，而Ｈａｄｏｏｐ集群能完成计算任务，这初步体现出在Ｈａｄｏｏｐ集群上实现ｋ－ｍｅａｎｓ聚类算法具有处理较大规模数据的能力；输入数据量很小时，Ｈａｄｏｏｐ集群上ｋ－ｍ

ｅａｎｓ并行化算法的处理效率远低于单机上非并行化算法的处理效率，这是因为Ｈａｄｏｏｐ集群上Ｊ

ｏｂ的启动和交互等需要消耗一定的资源且占总消耗的比例较大，而实际计算任务逻辑处理时间在总消耗中所占的比例较小．

表１　单机处理实验结果

实验次数文件大

小／ＫＢ

记录

数／１０

５

τ１／ｓτ２／ｓ１　２　６８７　０．２０５　０８　９　８８２　５　３７０　０．４１０　１６　２１　９６３　１６　１００　１．２３０　４８　４６　１１５４　４７　０４９　３．６９１　４４　１３５　１５３５　５０　７２９　３．９８１　４３报告内存不足１７８６　

７８　４１１　６．１５２　

４０报告内存不足

２２３

３．３　集群加速比性能实验

实验目的：加速比是衡量一个系统在扩展性方面优劣的主要指标，主要考察２个方面的性能，一是当计算硬件资源增加时，对于相同规模的作业，系统的处理能力；二是当计算资源和处理作业的规模保持相近比例增长时，

系统的处理能力．实验数据：利用ｋ－ｍｅａｎｓ聚类算法的Ｍａｐ－Ｒｅｄｕｃｅ实现方法对移动用户数据进行聚类实验，以得到不同特征的客户群组．实验分别采用３组用户数据集，如表２所示，每条记录由３５维数值型的数据组成，要求生成５个聚类类别，初始聚类中心随机产生．

表２　实验数据集情况

数据集原始文件

大小／ＭＢ

记录

数／１０

６

数据

块数占用ＨＤＦＳ

空间／ＭＢＡ　２　００８．２３　５．１８４　０６７　

７８　

１４　９７６Ｂ　４　０４８．７４　１０．３６９　７１５　１６２　３１　１０４Ｃ　

８　０２１．６１　２．０４９　３３２　３１３　

６０　

０９６实验１　分别选择１，３，６，８，１０个Ｔａｓｋ－

Ｔｒａｃｋｅｒ节点参与计算，考察在逐渐增加节点的情况下，系统中完成任务的时间，实验结果如图６所示．从图中可以看出：每个作业运行的时间都随着节点的增加而降低，增加节点可以显著地提高系统对同规模数据的处理能力，这说明Ｍａｐ－Ｒｅｄｕｃｅ在处理ｋ－ｍｅａｎｓ聚类算法上具有较好的

３２１·增刊Ⅰ

江小平，等：ｋ－ｍｅａｎｓ聚类算法的Ｍａｐ

Ｒｅｄｕｃｅ并行化实现

加速比

．

图６　ｋ－ｍｅａｎｓ聚类算法Ｍａｐ

Ｒｅｄｕｃｅ实现方法的加速比实验结果

实验２　分别选择３，６，９个ＴａｓｋＴｒａｃｋｅｒ节点，对应选择Ａ，Ｂ和Ｃ数据集进行计算，实验结果如图７所示．从图中可以看出：当节点数和处理数据的规模呈正比增长时，ＭａｐＲｅｄｕｃｅ在处理数据上基本保持了相同的水平，表现出了良好的扩展性

．

图７　ｋ－ｍｅａｎｓ聚类算法Ｍａｐ

Ｒｅｄｕｃｅ实现方法的扩展性实验结果

通过在Ｈａｄｏｏｐ云计算基础平台上对ｋ－ｍｅａｎｓ聚类算法的ＭａｐＲｅｄｕｃｅ并行化方法的探讨，以实现ｋ－ｍｅａｎｓ聚类算法海量数据处理能力并提高计算效率．实验结果表明：ｋ－ｍｅａｎｓ聚类算法在ＭａｐＲｅｄｕｃｅ并行化后部署在Ｈａｄｏｏｐ集群上运行，具有良好的加速比和扩展性．在摩根定理

开始失效和待处理数据爆炸性增长的背景下，在云计算平台上采用高效的ＭａｐＲｅｄｕｃｅ并行计算方法实现包括ｋ－ｍｅａｎｓ算法在内的数据挖掘算法具有现实意义．

后期将对聚类后每个类的特征刻画用Ｍａｐ

Ｒｅｄｕｃｅ方式实现的方法进行研究．参

考

文

献

［１］Ｄｅａｎ　Ｊ，Ｇｈｅｍａｗａｔ　Ｓ．ＭａｐＲｅｄｕｃｅ：ｓｉｍｐ

ｌｉｆｉｅｄ　ｄａｔａｐｒｏｃｅｓｓｉｎｇ　

ｏｎ　ｌａｒｇｅ　ｃｌｕｓｔｅｒｓ［Ｊ］．Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ　ｏｆｔｈｅ　ＡＣＭ，２００５，５１（１）：１０７－

１１３．［２］Ａｐａｃｈｅ　Ｈａｄｏｏｐ．Ｈａｄｏｏｐ［

ＥＢ／ＯＬ］．［２０１１－０２－１５］．ｈｔｔｐ：∥ｈａｄｏｏｐ．ａｐａｃｈｅ．ｏｒｇ

．［３］陈康，郑纬民．云计算：系统实例与研究现状［Ｊ］．软

件学报，２００９，２０（５）：１３３７－

１３４８．［４］邓倩妮，陈全．云计算及其关键技术［Ｊ］．高性能计算

发展与应用，２００９，２６：２－

６．［５］Ｃｈｕ　Ｃ　Ｔ，Ｋｉｍ　Ｓ　Ｋ，Ｌｉｎ　Ｙ　Ａ．Ｍａｐ

－ｒｅｄｕｃｅ　ｆｏｒ　ｍａ－ｃｈｉｎｅ　ｌｅａｒｎｉｎｇ　ｏｎ　ｍｕｌｔｉｃｏｒｅ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　Ｎｅｕ－ｒａｌ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｐｒｏｃｅｓｓｉｎｇ　Ｓｙｓｔｅｍｓ　Ｃｏｎｆｅｒｅｎｃｅ（ＮＩＰＳ）．Ｂｏｓｔｏｎ：ＭＩＴ，２００６：２８１－

２８８．［６］Ｗｉｋｉｐｅｄｉａ．ｋ－ｍｅａｎｓ　ｃｌｕｓｔｅｒｉｎｇ［

ＥＢ／ＯＬ］．［２０１１－０２－１５］．ｈｔｔｐ：∥ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／ｋ－ｍｅａｎｓ－ｃｌｕｓｔｅ－ｒｉｎｇ

．［７］Ｕｎｉｖｅｒｓｉｔｙ　

ｏｆ　Ｗａｉｋａｔｏ．Ｗａｉｋａｔｏ　ｅｎｖｉｒｏｎｍｅｎｔ　ｆｏｒｋｎｏｗｌｅｄｇｅ　ａｎａｌｙ

ｓｉｓ（ｗｅａｋ）．［ＥＢ／ＯＬ］．［２０１１－０２－１５］．ｈｔｔｐ：∥ｗｗｗ．ｃｓ．ｗａｉｋａｔｏ．ａｃ．ｎｚ／ｍｌ／ｗｅｋａ／．［８］Ｗｅｇ

ｅｎｅｒ　Ｄ，Ｍｏｃｋ　Ｍ，Ａｄｒａｎａｌｅ　Ｄ，ｅｔ　ａｌ．Ｔｏｏｌｋｉｔ－ｂａｓｅｄ　ｈｉｇｈ－ｐｅｒｆｏｒｍａｎｃｅ　ｄａｔａ　ｍｉｎｉｎｇ　ｏｆ　ｌａｒｇｅ　ｄａｔａ　ｏｎＭａｐＲｅｄｕｃｅ　ｃｌｕｓｔｅｒｓ［Ｃ］∥ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒ－ｅｎｃｅ　ｏｎ　Ｄａｔａ　Ｍｉｎｉｎｇ－ＩＣＤＭ．Ｗａｓｈｉｎｇｔｏｎ：ＩＥＥＥ，２００９：２９６－

３０１．［９］陈慧萍，林莉莉，王建东，等．ＷＥＫＡ数据挖掘平台及

其二次开发［Ｊ］．计算机工程与应用，２００８，４４（１９）：７６－

７９．·

４２１·

华中科技大学学报（自然科学版）

第３９卷

MATLAB实现FCM 聚类算法

本文在阐述聚类分析方法的基础上重点研究FCM 聚类算法。FCM 算法是一种基于划分的聚类算法，它的思想是使得被划分到同一簇的对象之间相似度最大，而不同簇之间的相似度最小。最后基于MATLAB实现了对图像信息的聚类。第 1 章概述聚类分析是数据挖掘的一项重要功能，而聚类算法是目前研究的核心，聚类分析就是使用聚类算法来发现有意义的聚类，即“物以类聚” 。虽然聚类也可起到分类的作用，但和大多数分类或预测不同。大多数分类方法都是演绎的，即人们事先确定某种事物分类的准则或各类别的标准，分类的过程就是比较分类的要素与各类别标准，然后将各要素划归于各类别中。确定事物的分类准则或各类别的标准或多或少带有主观色彩。为获得基于划分聚类分析的全局最优结果，则需要穷举所有可能的对象划分，为此大多数应用采用的常用启发方法包括：k-均值算法，算法中的每一个聚类均用相应聚类中对象的均值来表示；k-medoid 算法，算法中的每一个聚类均用相应聚类中离聚类中心最近的对象来表示。这些启发聚类方法在分析中小规模数据集以发现圆形或球状聚类时工作得很好，但当分析处理大规模数据集或复杂数据类型时效果较差，需要对其进行扩展。而模糊C均值(Fuzzy C-means, FCM)聚类方法，属于基于目标函数的模糊聚类算法的范畴。模糊C均值聚类方法是基于目标函数的模糊聚类算法理论中最为完善、应用最为广泛的一种算法。模糊c均值算法最早从硬聚类目标函数的优化中导出的。为了借助目标函数法求解聚类问题，人们利用均方逼近理论构造了带约束的非线性规划函数，以此来求解聚类问题，从此类内平方误差和WGSS(Within-Groups Sum of Squared Error)成为聚类目标函数的普遍形式。随着模糊划分概念的提出，Dunn [10] 首先将其推广到加权WGSS 函数，后来由Bezdek 扩展到加权WGSS 的无限族，形成了FCM 聚类算法的通用聚类准则。从此这类模糊聚类蓬勃发展起来，目前已经形成庞大的体系。第 2 章聚类分析方法 2-1 聚类分析聚类分析就是根据对象的相似性将其分群，聚类是一种无监督学习方法，它不需要先验的分类知识就能发现数据下的隐藏结构。它的目标是要对一个给定的数据集进行划分，这种划分应满足以下两个特性：①类内相似性：属于同一类的数据应尽可能相似。②类间相异性：属于不同类的数据应尽可能相异。图2.1是一个简单聚类分析的例子。

PAM聚类算法的分析与实现

毕业论文（设计）论文（设计）题目：PAM聚类算法的分析与实现系别：专业：学号：姓名：指导教师：时间：

毕业论文（设计）开题报告系别:计算机与信息科学系专业:网络工程学号姓名高华荣论文（设计）题目PAM聚类算法的分析与实现命题来源□√教师命题□学生自主命题□教师课题选题意义(不少于300字): 随着计算机技术、网络技术的迅猛发展与广泛应用，人们面临着日益增多的业务数据，这些数据中往往隐含了大量的不易被人们察觉的宝贵信息，为了得到这些信息，人们想尽了一切办法。数据挖掘技术就是在这种状况下应运而生了。而聚类知识发现是数据挖掘中的一项重要的内容。在日常生活、生产和科研工作中，经常要对被研究的对象经行分类。而聚类分析就是研究和处理给定对象的分类常用的数学方法。聚类就是将数据对象分组成多个簇，同一个簇中的对象之间具有较高的相似性，而不同簇中的对象具有较大的差异性。在目前的许多聚类算法中，PAM算法的优势在于：PAM算法比较健壮，对“噪声”和孤立点数据不敏感；由它发现的族与测试数据的输入顺序无关；能够处理不同类型的数据点。研究综述(前人的研究现状及进展情况，不少于600字): PAM（Partitioning Around Medoid,围绕中心点的划分）算法是是划分算法中一种很重要的算法，有时也称为k-中心点算法，是指用中心点来代表一个簇。PAM算法最早由Kaufman和Rousseevw提出，Medoid的意思就是位于中心位置的对象。PAM算法的目的是对n个数据对象给出k个划分。PAM算法的基本思想：PAM算法的目的是对成员集合D中的N个数据对象给出k个划分，形成k个簇，在每个簇中随机选取1个成员设置为中心点，然后在每一步中，对输入数据集中目前还不是中心点的成员根据其与中心点的相异度或者距离进行逐个比较，看是否可能成为中心点。用簇中的非中心点到簇的中心点的所有距离之和来度量聚类效果，其中成员总是被分配到离自身最近的簇中，以此来提高聚类的质量。由于PAM算法对小数据集非常有效，但对大的数据集合没有良好的可伸缩性，就出现了结合PAM的CLARA（Cluster LARger Application）算法。CLARA是基于k-中心点类型的算法，能处理更大的数据集合。CLARA先抽取数据集合的多个样本，然后用PAM方法在抽取的样本中寻找最佳的k个中心点，返回最好的聚类结果作为输出。后来又出现了CLARNS（Cluster Larger Application based upon RANdomized

k-means聚类算法的研究全解

k-means聚类算法的研究 1．k-means算法简介 1.1 k-means算法描述给定n个对象的数据集D和要生成的簇数目k，划分算法将对象组织划分为k个簇（k<=n），这些簇的形成旨在优化一个目标准则。例如，基于距离的差异性函数，使得根据数据集的属性，在同一个簇中的对象是“相似的”，而不同簇中的对象是“相异的”。划分聚类算法需要预先指定簇数目或簇中心，通过反复迭代运算，逐步降低目标函数的误差值，当目标函数收敛时，得到最终聚类结果。这类方法分为基于质心的（Centroid-based）划分方法和基于中心的（Medoid-based）划分方法，而基于质心的划分方法是研究最多的算法，其中k-means算法是最具代表和知名的。 k-means算法是1967年由MacQueen首次提出的一种经典算法，经常用于数据挖掘和模式识别中，是一种无监督式的学习算法，其使用目的是对几何进行等价类的划分，即对一组具有相同数据结构的记录按某种分类准则进行分类，以获取若干个同类记录集。k-means聚类是近年来数据挖掘学科的一个研究热点和重点，这主要是因为它广泛应用于地球科学、信息技术、决策科学、医学、行为学和商业智能等领域。迄今为止，很多聚类任务都选择该算法。k-means算法是应用最为广泛的聚类算法。该算法以类中各样本的加权均值（成为质心）代表该类，只用于数字属性数据的聚类，算法有很清晰的几何和统计意义，但抗干扰性较差。通常以各种样本与其质心欧几里德距离总和作为目标函数，也可将目标函数修改为各类中任意两点间欧几里德距离总和，这样既考虑了类的分散度也考虑了类的紧致度。k-means算法是聚类分析中基于原型的划分聚类的应用算法。如果将目标函数看成分布归一化混合模型的似然率对数，k-means算法就可以看成概率模型算法的推广。 k-means算法基本思想：（1）随机的选K个点作为聚类中心；（2）划分剩余的点；（3）迭代过程需要一个收敛准则，此次采用平均误差准则。（4）求质心（作为中心）；（5）不断求质心，直到不再发生变化时，就得到最终的聚类结果。 k-means聚类算法是一种广泛应用的聚类算法，计算速度快，资源消耗少，但是k-means算法与初始选择有关系，初始聚类中心选择的随机性决定了算法的有效性和聚

机器学习聚类算法实现

《人工智能与机器学习》实验报告年级__ xxxx班____________ 专业___________xxxxx____ _____ 学号____________6315070301XX___________ 姓名_____________gllh________________ 日期___________2018-5-12 __

实验五聚类算法实现一、实验目的 1、了解常用聚类算法及其优缺点 2、掌握k-means聚类算法对数据进行聚类分析的基本原理和划分方法 3、利用k-means聚类算法对已知数据集进行聚类分析实验类型：验证性计划课间：4学时二、实验内容 1、利用python的sklearn库函数对给定的数据集进行聚类分析 2、分析k-means算法的实现流程 3、根据算法描述编程实现，调试运行 4、对所给数据集进行验证，得到分析结果三、实验步骤 1、k-means算法原理 2、k-means算法流程 3、k-means算法实现 4、对已知数据集进行分析四、实验结果分析 1.利用python的sklearn库函数对给定的数据集进行聚类分析：其中数据集选取iris鸢尾花数据集 import numpy as np from sklearn.datasets import load_iris iris = load_iris() def dist(x,y):

return sum(x*y)/(sum(x**2)*sum(y**2))**0.5 def K_means(data=iris.data,k=3,ping=0,maxiter=100): n, m = data.shape centers = data[:k,:] while ping < maxiter: dis = np.zeros([n,k+1]) for i in range(n): for j in range(k): dis[i,j] = dist(data[i,:],centers[j,:]) dis[i,k] = dis[i,:k].argmax() centers_new = np.zeros([k,m]) for i in range(k): index = dis[:,k]==i centers_new[i,:] = np.mean(data[index,:],axis=0) if np.all(centers==centers_new): break centers = centers_new ping += 1 return dis if __name__ == '__main__': res = K_means() print(res) （1）、首先求出样本之间的余弦相似度： sum(x*y)/(sum(x**2)*sum(y**2))**0.5 （2）、设置k类别数为3，最大迭代次数为100 K_means(data=iris.data,k=3,ping=0,maxiter=100):

聚类分析K-means算法综述

聚类分析K-means算法综述摘要：介绍K-means聚类算法的概念，初步了解算法的基本步骤，通过对算法缺点的分析，对算法已有的优化方法进行简单分析，以及对算法的应用领域、算法未来的研究方向及应用发展趋势作恰当的介绍。关键词：K-means聚类算法基本步骤优化方法应用领域研究方向应用发展趋势算法概述 K-means聚类算法是一种基于质心的划分方法，输入聚类个数k，以及包含n个数据对象的数据库，输出满足方差最小标准的k个聚类。评定标准：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算。解释：基于质心的划分方法就是将簇中的所有对象的平均值看做簇的质心，然后根据一个数据对象与簇质心的距离，再将该对象赋予最近的簇。 k-means 算法基本步骤（1）从n个数据对象任意选择k 个对象作为初始聚类中心（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分（3）重新计算每个（有变化）聚类的均值（中心对象）（4）计算标准测度函数，当满足一定条件，如函数收敛时，则算法终止；如果条件不满足则回到步骤（2）形式化描述输入：数据集D，划分簇的个数k 输出：k个簇的集合（1）从数据集D中任意选择k个对象作为初始簇的中心；（2）Repeat （3）For数据集D中每个对象P do （4）计算对象P到k个簇中心的距离（5）将对象P指派到与其最近（距离最短）的簇；

（6）End For （7）计算每个簇中对象的均值，作为新的簇的中心；（8）Until k个簇的簇中心不再发生变化对算法已有优化方法的分析 (1)K-means算法中聚类个数K需要预先给定这个K值的选定是非常难以估计的，很多时候,我们事先并不知道给定的数据集应该分成多少个类别才最合适，这也是K一means算法的一个不足"有的算法是通过类的自动合并和分裂得到较为合理的类型数目k，例如Is0DAIA算法"关于K一means算法中聚类数目K 值的确定，在文献中，根据了方差分析理论，应用混合F统计量来确定最佳分类数，并应用了模糊划分嫡来验证最佳分类数的正确性。在文献中，使用了一种结合全协方差矩阵RPCL算法，并逐步删除那些只包含少量训练数据的类。文献中针对“聚类的有效性问题”提出武汉理工大学硕士学位论文了一种新的有效性指标：V(k km) = Intra(k) + Inter(k) / Inter(k max)，其中k max是可聚类的最大数目,目的是选择最佳聚类个数使得有效性指标达到最小。文献中使用的是一种称为次胜者受罚的竞争学习规则来自动决定类的适当数目"它的思想是：对每个输入而言不仅竞争获胜单元的权值被修正以适应输入值，而且对次胜单元采用惩罚的方法使之远离输入值。 (2)算法对初始值的选取依赖性极大以及算法常陷入局部极小解不同的初始值，结果往往不同。K-means算法首先随机地选取k个点作为初始聚类种子，再利用迭代的重定位技术直到算法收敛。因此，初值的不同可能导致算法聚类效果的不稳定，并且，K-means算法常采用误差平方和准则函数作为聚类准则函数(目标函数)。目标函数往往存在很多个局部极小值，只有一个属于全局最小，由于算法每次开始选取的初始聚类中心落入非凸函数曲面的“位置”往往偏离全局最优解的搜索范围，因此通过迭代运算，目标函数常常达到局部最小，得不到全局最小。对于这个问题的解决，许多算法采用遗传算法(GA)，例如文献中采用遗传算法GA进行初始化，以内部聚类准则作为评价指标。 (3)从K-means算法框架可以看出，该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时,算法的时间开销是非常大所以需要对算法的时间复杂度进行分析，改进提高算法应用范围。在文献中从该算法的时间复杂度进行分析考虑，通过一定的相似性准则来去掉聚类中心的候选集，而在文献中，使用的K-meanS算法是对样本数据进行聚类。无论是初始点的选择还是一次迭代完成时对数据的调整，都是建立在随机选取的样本数据的基础之上，这样可以提高算法的收敛速度。

K 均值聚类算法(原理加程序代码)

K-均值聚类算法 1.初始化：选择c 个代表点,...,,321c p p p p 2.建立c 个空间聚类表：C K K K ...,21 3.按照最小距离法则逐个对样本X 进行分类： ),(),,(min arg J i i K x add p x j ?= 4.计算J 及用各聚类列表计算聚类均值，并用来作为各聚类新的代表点（更新代表点） 5.若J 不变或代表点未发生变化，则停止。否则转2. 6.),(1∑∑=∈=c i K x i i p x J δ 具体代码如下： clear all clc x=[0 1 0 1 2 1 2 3 6 7 8 6 7 8 9 7 8 9 8 9;0 0 1 1 1 2 2 2 6 6 6 7 7 7 7 8 8 8 9 9]; figure(1) plot(x(1,:),x(2,:),'r*') %%第一步选取聚类中心，即令K=2 Z1=[x(1,1);x(2,1)]; Z2=[x(1,2);x(2,2)]; R1=[]; R2=[]; t=1; K=1;%记录迭代的次数 dif1=inf; dif2=inf; %%第二步计算各点与聚类中心的距离 while (dif1>eps&dif2>eps) for i=1:20 dist1=sqrt((x(1,i)-Z1(1)).^2+(x(2,i)-Z1(2)).^2); dist2=sqrt((x(1,i)-Z2(1)).^2+(x(2,i)-Z2(2)).^2); temp=[x(1,i),x(2,i)]'; if dist1

matlab实现Kmeans聚类算法

matlab实现Kmeans聚类算法 1.简介： Kmeans和应用于混合高斯模型的受限EM算法是一致的。高斯混合模型广泛用于数据挖掘、模式识别、机器学习、统计分析。Kmeans 的迭代步骤可以看成E步和M步，E：固定参数类别中心向量重新标记样本，M：固定均值只考虑（估计）了均值，而没有估计类别的方差，所以聚类的结构比较适合于特征协方差相等的类别。 Kmeans在某种程度也可以看成Meanshitf的特殊版本，Meanshift 是所以Meanshift可以用于寻找数据的多个模态（类别），利用的是梯度上升法。在06年的一篇CVPR文章上，证明了Meanshift方法是牛顿拉夫逊算法的变种。Kmeans和EM算法相似是指混合密度的形式已知（参数形式已知）情况下，利用迭代方法，在参数空间中搜索解。而Kmeans和Meanshift相似是指都是一种概率密度梯度估计的方法，不过是Kmean选用的是特殊的核函数（uniform kernel），而与混合概率密度形式是否已知无关，是一种梯度求解方式。 k-means是一种聚类算法，这种算法是依赖于点的邻域来决定哪些点应该分在点，也可以对高维的空间（3维，4维，等等）的点进行聚类，任意高维的空间都可以。上图中的彩色部分是一些二维空间点。上图中已经把这些点分组了，并使用了不同的颜色对各组进行了标记。这就是聚类算法要做的事情。这个算法的输入是： 1：点的数据（这里并不一定指的是坐标，其实可以说是向量）

2：K，聚类中心的个数（即要把这一堆数据分成几组）所以，在处理之前，你先要决定将要把这一堆数据分成几组，即聚成几类。但并不是在所有情况下，你都事先就能知道需要把数据聚成几类的。意味着使用k-means就不能处理这种情况，下文中会有讲解。把相应的输入数据，传入k-means算法后，当k-means算法运行完后，该算法的输出是： 1：标签（每一个点都有一个标签，因为最终任何一个点，总会被分到某个类，类的id号就是标签） 2：每个类的中心点。标签，是表示某个点是被分到哪个类了。例如，在上图中，实际上有4中“标签”，每个“标签”使用不同的颜色来表示。所有黄色点我们可以用标签以看出，有3个类离的比较远，有两个类离得比较近，几乎要混合在一起了。当然，数据集不一定是坐标，假如你要对彩色图像进行聚类，那么你的向量就可以是(b,g,r)，如果使用的是hsv颜色空间，那还可以使用(h,s,v),当然肯定可以有不同的组合例如(b*b,g*r,r*b) ，(h*b,s*g,v*v)等等。在本文中，初始的类的中心点是随机产生的。如上图的红色点所示，是本文随机产生的初始点。注意观察那两个离得比较近的类，它们几乎要混合在一起，看看算法是如何将它们分开的。类的初始中心点是随机产生的。算法会不断迭代来矫正这些中心点，并最终得到比较靠5个中心点的距离,选出一个距离最小的(例如该点与第2个中心点的距离是5个距离中最小的),那么该点就归属于该类.上图是点的归类结果示意图. 经过步骤3后,每一个中心center(i)点都有它的”管辖范围”,由于这个中心点不一定是这个管辖范围的真正中心点,所以要重新计算中心点,计算的方法有很多种,最简单的一种是,直接计算该管辖范围内所有点的均值,做为心的中心点new_center(i). 如果重新计算的中心点new_center(i)与原来的中心点center(i)的距离大于一定的阈值（该阈值可以设定），那么认为算法尚未收敛，使用new_center(i)代替center(i)（如图，中心点从红色点

K-MEANS聚类算法的实现及应用

内容摘要本文在分析和实现经典k-means算法的基础上，针对初始类中心选择问题，结合已有的工作，基于对象距离和密度对算法进行了改进。在算法实现部分使用vc6.0作为开发环境、sql sever2005作为后台数据库对算法进行了验证，实验表明，改进后的算法可以提高算法稳定性，并减少迭代次数。关键字 k-means；随机聚类；优化聚类；记录的密度 1 引言 1.1聚类相关知识介绍聚类分析是直接比较各事物之间性质，将性质相近的归为一类，将性质不同的归为一类，在医学实践中也经常需要做一些分类工作。如根据病人一系列症状、体征和生化检查的结果，将其划分成某几种方法适合用于甲类病的检查，另几种方法适合用于乙类病的检查，等等。聚类分析被广泛研究了许多年。基于聚类分析的工具已经被加入到许多统计分析软件或系统中，入s-plus,spss,以及sas。大体上，聚类算法可以划分为如下几类： 1) 划分方法。 2) 层次方法。 3) 基于密度的算法。 4) 基于网格的方法。 5) 基于模型的方法。 1.2 研究聚类算法的意义在很多情况下，研究的目标之间很难找到直接的联系，很难用理论的途径去解决。在各目标之间找不到明显的关联，所能得到的只是些模糊的认识，由长期的经验所形成的感知和由测量所积累的数据。因此，若能用计算机技术对以往的经验、观察、数据进行总结，寻找个目标间的各种联系或目标的优化区域、优化方向，则是对实际问题的解决具有指导意义和应用价值的。在无监督情况下，我们可以尝试多种方式描述问题，其中之一是将问题陈述为对数分组或聚类的处理。尽管得到的聚类算法没有明显的理论性，但它确实是模式识别研究中非常有用的一类技术。聚类是一个将数据集划分为若干聚类的过程，是同一聚类具有较高相似性，不同聚类不具相似性，相似或不相似根据数据的属性值来度量，通常使用基于距离的方法。通过聚类，可以发现数据密集和稀疏的区域，从而发现数据整体的分布模式，以及数据属性间有意义的关联。 2 k-means算法简介 2.1 k-means算法描述 k-means 算法接受输入量k，然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高，而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”来进行计算的。k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。 k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。 2.2 k-means算法实现步骤在原始的k-means算法中，由于数据对象的分类被不断地调整，因此平均误差准则函数在每次迭代过程中的值必定在不断减小。当没有数据对象被调整时，e（e指每个对象到该类中心的距离平方之和）的值不再变化，说明算法运行结果已经达到最优，同时算法运行结束。

K-means文本聚类算法

最大距离法选取初始簇中心的K-means文本聚类算法的研究的评论背景随着计算机技术和网络技术的飞速发展，人们的生活方式产生了极大的改变。计算机从一个有几个房子大小的巨无霸，已经变成了小巧的笔记本。网络设备也已经从PC端走向移动端。越来越丰富的网络设备，让人们能在网络里畅游，网络对于人们来说触手可及，同时也产生了巨大的数据流量。人们如何从海量的数据中找到有用的信息，成为了现在计算机学科的研究热点。聚类是数据挖掘中重要的一支。由于聚类具有无需先验知识的优势，可以根据数据自然分部而获取知识。聚类成为数据挖掘领域一个非常活跃的领域，而且得到了广泛的应用。聚类就是把一个数据集合分成几个簇，在同一个簇里，数据相关性最高，但是在2个不同的簇里，数据相关性最低。K-means聚类算法主要针对处理大数据集时，处理快速简单，并且算法具有高效性和可伸缩性。但是，K-means聚类算法随机的选择初始簇中心会导致以下缺点：（1）得到的聚类结果中容易出现局部最优，而不是全局最优；（2）聚类结果不具有稳定性，很大程度上依赖于初始簇中心；（3）聚类过程中的迭代次数增加使聚类过程中的总耗时增加。传统的k-means聚类算法传统的聚类算法思想：首先从N个数据对象集合中随机选择k个对象，然后计算剩余的N-k个对象与k个对象的距离（相似度），与k个对象中哪个对象的距离最小，就把分给那个对象；然后在计算每个簇中的簇中心，即是每个簇中对象的均值；不断重复这一过程步骤，直到标准测度函数E开始收敛为止。 K-means算法描述如下：输入：迭代终止条件ε，最大的迭代次数为max，簇的总数目是k，样本集有N个数据对象。输出：满足迭代终止条件的k个簇和迭代次数s。随机初始化k个簇中心：对每个数据对象，分别计算该对象与k个簇中心均值的距离，并选择距离最小的簇将该对象加个到该簇里；重新计算k个簇的中心，利用函数E计算出此时的函数值；如果带到最大迭代次数或满足：

K-means-聚类算法研究综述

K-means聚类算法研究综述摘要:总结评述了K-means聚类算法的研究现状，指出K-means聚类算法是一个NP难优化问题，无法获得全局最优。介绍了K-means聚类算法的目标函数，算法流程，并列举了一个实例，指出了数据子集的数目K，初始聚类中心选取，相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚类算法存在的问题及其改进算法，指出了K-means 聚类的进一步研究方向。关键词：K-means聚类算法；NP难优化问题；数据子集的数目K；初始聚类中心选取；相似性度量和距离矩阵 Review of K-means clustering algorithm Abstract: K-means clustering algorithm is reviewed. K-means clustering algorithm is a NP hard optimal problem and global optimal result cannot be reached. The goal，main steps and example of K-means clustering algorithm are introduced. K-means algorithm requires three user-specified parameters: number of clusters K，cluster initialization，and distance metric. Problems and improvement of K-means clustering algorithm are summarized then. Further study directions of K-means clustering algorithm are pointed at last. Key words: K-means clustering algorithm; NP hard optimal problem; number of clusters K; cluster initialization; distance metric K-means聚类算法是由Steinhaus1955年、Lloyed1957年、Ball & Hall1965年、McQueen1967年分别在各自的不同的科学研究领域独立的提出。K-means聚类算法被提出来后，在不同的学科领域被广泛研究和应用，并发展出大量不同的改进算法。虽然K-means聚类算法被提出已经超过50年了，但目前仍然是应用最广泛的划分聚类算法之一[1]。容易实施、简单、高效、成功的应用案例和经验是其仍然流行的主要原因。文中总结评述了K-means聚类算法的研究现状，指出K-means聚类算法是一个NP难优化问题，无法获得全局最优。介绍了K-means聚类算法的目标函数、算法流程，并列举了一个实例，指出了数据子集的数目K、初始聚类中心选取、相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚类算法存在的问题及其改进算法，指出了K-means聚类的进一步研究方向。 1经典K-means聚类算法简介 1.1K-means聚类算法的目标函数对于给定的一个包含n个d维数据点的数据集 12 {x,x,,x,,x} i n X=??????，其中d i x R ∈，以及要生成的数据子集的数目K，K-means聚类算法将数据对象组织为 K个划分{c,i1,2,} k C K ==???。每个划分代表一个类c k，每个类c k有一个类别中心iμ。选取欧氏距离作为相似性和距离判断准则，计算该类内各点到聚类中心 i μ的距离平方和 2 (c) i i k i k x C J xμ ∈ =- ∑（1）聚类目标是使各类总的距离平方和 1 (C)(c) K k k J J = =∑最小。 22 1111 (C)(c) i i K K K n k i k ki i k k k x C k i J J x d x μμ ==∈== ==-=- ∑∑∑∑∑ （2）其中， 1 i i ki i i x c d x c ∈ ? =? ? ? 若若，显然，根据最小二乘法和拉格朗日原理，聚类中心 k μ应该取为类别 k c类各数据点的平均值。 K-means聚类算法从一个初始的K类别划分开始，然

FCMClust(模糊c均值聚类算法MATLAB实现)

function [center, U, obj_fcn] = FCMClust(data, cluster_n, options) % FCMClust.m 采用模糊C均值对数据集data聚为cluster_n类 % 用法： % 1. [center,U,obj_fcn] = FCMClust(Data,N_cluster,options); % 2. [center,U,obj_fcn] = FCMClust(Data,N_cluster); % 输入： % data ---- nxm矩阵,表示n个样本,每个样本具有m的维特征值 % N_cluster ---- 标量,表示聚合中心数目,即类别数 % options ---- 4x1矩阵，其中 % options(1): 隶属度矩阵U的指数，>1 (缺省值: 2.0) % options(2): 最大迭代次数(缺省值: 100) % options(3): 隶属度最小变化量,迭代终止条件(缺省值: 1e-5) % options(4): 每次迭代是否输出信息标志(缺省值: 1) % 输出： % center ---- 聚类中心 % U ---- 隶属度矩阵 % obj_fcn ---- 目标函数值 % Example: % data = rand(100,2); % [center,U,obj_fcn] = FCMClust(data,2); % plot(data(:,1), data(:,2),'o'); % hold on; % maxU = max(U); % index1 = find(U(1,:) == maxU); % index2 = find(U(2,:) == maxU); % line(data(index1,1),data(index1,2),'marker','*','color','g'); % line(data(index2,1),data(index2,2),'marker','*','color','r'); % plot([center([1 2],1)],[center([1 2],2)],'*','color','k') % hold off; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%% if nargin ~= 2 & nargin ~= 3, %判断输入参数个数只能是2个或3个 error('Too many or too few input arguments!'); end data_n = size(data, 1); % 求出data的第一维(rows)数,即样本个数 in_n = size(data, 2); % 求出data的第二维(columns)数，即特征值长度 % 默认操作参数 default_options = [2; % 隶属度矩阵U的指数 100; % 最大迭代次数 1e-5; % 隶属度最小变化量,迭代终止条件

聚类算法matlab程序

clear all close all disp('The only input needed is a distance matrix file') disp('The format of this file should be: ') disp('Column 1: id of element i') disp('Column 2: id of element j') disp('Column 3: dist(i,j)') mdist=input('example_distances');%name of the distance matrix file (with single quotes)?\n disp('Reading input distance matrix') xx=load(mdist); ND=max(xx(:,2)); NL=max(xx(:,1)); if (NL>ND) ND=NL; end N=size(xx,1); for i=1:ND for j=1:ND dist(i,j)=0; end end for i=1:N ii=xx(i,1); jj=xx(i,2); dist(ii,jj)=xx(i,3); dist(jj,ii)=xx(i,3); end percent=2.0; fprintf('average percentage of neighbours (hard coded): %5.6f\n', percent); position=round(N*percent/100); sda=sort(xx(:,3)); dc=sda(position); fprintf('Computing Rho with gaussian kernel of radius: %12.6f\n', dc); for i=1:ND rho(i)=0.; end % % Gaussian kernel % for i=1:ND-1 for j=i+1:ND rho(i)=rho(i)+exp(-(dist(i,j)/dc)*(dist(i,j)/dc)); rho(j)=rho(j)+exp(-(dist(i,j)/dc)*(dist(i,j)/dc)); end end %

(完整版)X-means：一种针对聚类个数的K-means算法改进

X-means：一种针对聚类个数的K-means算法改进摘要尽管K-means很受欢迎，但是他有不可避免的三个缺点：1、它的计算规模是受限的。2、它的聚类个数K必须是由用户手动指定的。3、它的搜索是基于局部极小值的。在本文中，我们引入了前两种问题的解决办法，而针对最后一个问题，我们提出了一种局部补救的措施。根据先前有关算法改进的工作，我们引入了一种根据BIC（Bayesian Information Criterion）或者AIC（Akaike information criterion）得分机制而确定聚类个数的算法，本文的创新点包括：两种新的利用充分统计量的方式，还有一种有效地测试方法，这种方法在K-means算法中可以用来筛选最优的子集。通过这样的方式可以得到一种快速的、基于统计学的算法，这种算法可以实现输出聚类个数以及他们的参量值。实验表明，这种技术可以更科学的找出聚类个数K值，比利用不同的K值而重复使用K-means算法更快速。 1、介绍 K-means算法在处理量化数据中已经用了很长时间了，它的吸引力主要在于它很简单，并且算法是局部最小化收敛的。但是它有三点不可避免的缺点：首先，它在完成每次迭代的过程中要耗费大量的时间，并且它所能处理的数据量也是很少的。第二，聚类个数K值必须由用户自身来定义。第三，当限定了一个确定的K值时，K-means算法往往比一个动态K值的算法表现的更差。我们要提供针对这些问题的解决办法，通过嵌入树型的数据集以及将节点存储为充分统计变量的方式来大幅度提高算法的计算速度。确定中心的分析算法要考虑到泰森多边形边界的几何中心，并且在估计过程的任何地方都不能存在近似的方法。另外还有一种估计方法，“黑名单”，这个列表中将会包含那些需要在指定的区域内被考虑的图心。这种方法不仅在准确度上以及处理数据的规模上都表现的非常好，而这个快速算法在X-means 聚类算法当中充当了结构算法的作用，通过它可以很快的估计K值。这个算法在每次使用 K-means算法之后进行，来决定一个簇是否应该为了更好的适应这个数据集而被分开。决定的依据是BIC得分。在本文中，我们阐述了“黑名单”方法如何对现有的几何中心计算BIC 得分，并且这些几何中心所产生的子类花费不能比一个单纯的K-means聚类算法更高。更进一步的，我们还通过缓存状态信息以及估计是否需要重新计算的方法来改善估计方法。我们已经用X-means算法进行了实验，验证了它的确比猜K值更加科学有效。X-means 算法可以在人造的或者是真实数据中表现的更好，通过BIC得分机制。它的运行速度也是比K-means更快的。 2、定义我们首先描述简单的K-means算法应该考虑哪些因素。通过K-means可以把一定量的数据集分为K个数据子集，这K个数据子集分别围绕着K个聚类中心。这种算法保持着K个聚类中心不变，并且通过迭代不断调整这K个聚类中心。在第一次迭代开始之前，K个聚类中心都是随机选取的，算法当聚类中心不再变化的时候返回最佳的结果，在每一次迭代中，算法都要进行如下的动作： 1、对于每一个节点向量，找到距离它最近的聚类中心，归入此类。 2、重新评估每一个图心的位置，对于每一个图心，必须是簇的质心。 K-means聚类算法通过局部最小化每个向量到对应图心的距离来实现聚类。同时，它处理真实数据时是非常慢的。许多情况下，真实的数据不能直接用K-means进行聚类，而要经过二次抽样筛选之后再进行聚类。Ester曾经提出了一种可以从树形数据中获得平衡的抽样数据的方法。Ng和Han曾经提出了一种可以指导概率空间对输入向量的检索模拟模型。

CURE聚类算法的实现

CURE聚类算法的实现任务背景聚类（clustering）就是将数据对象分组成为多个类或簇（cluster），在同一簇中的对象之间具有较高的相似度，而不同的簇中对象差别较大。相异度是根据描述对象的属性值来计算的。距离是经常采用的度量方式。聚类分析源于许多研究领域，包括数据挖掘，统计学，生物学，以及机器学习。作为统计学的一个分支，聚类分析已经被广泛的研究了许多年，主要集中在基于距离的聚类分析。基于k-means（k-平均值），k-medoids（k-中心点）和其他一些方法的聚类分析工具已经被加入到许多统计分析软件包或系统中，例如 S-Plus，SPSS，以及SAS。 CURE（Clustering Using Representatives）是一种针对大型数据库的高效的聚类算法。基于划分的传统的聚类算法得到的是球状的，相等大小的聚类，对异常数据比较脆弱。CURE采用了用多个点代表一个簇的方法，可以较好的处理以上问题。并且在处理大数据量的时候采用了随机取样，分区的方法，来提高其效率，使得其可以高效的处理大量数据。基本目标聚类算法CURE的算法实现。对图形进行聚类，在时间，结果方面对其性能进行评估。算法流程 CURE的算法在开始时，每个点都是一个簇，然后将距离最近的簇结合，一直到簇的个数为要求的K。它是一种分裂的层次聚类。算法分为以下6步： 1）从源数据对象中抽取一个随机样本S。 2）将样本S分割为一组划分。 3）对划分局部的聚类。 4）通过随机取样提出孤立点。如果一个簇增长得太慢，就去掉它。

5）对局部的簇进行聚类。 6）用相应的簇标签标记数据。算法设计 (1)基本聚类算法 procedure cluster(S, k) /*将数据集S聚类成为k个簇*/ begin 1. T := build_kd_tree(S) /*对应数据集S建立一个K-DTree T*/ 2. Q := build_heap(S) /*对应数据集S建立一个堆Q*/ 3. while size(Q) > k do { /*聚类直至簇的个数为k */ 4. u := extract_min(Q) /*找到最近的两个簇u，v */ 5. v := u.cloest 6. delete(Q, v) 7. w := merge(u, v) /*将u，v合并为簇w */ 8. delete_rep(T, u);delete_rep(T, v);insert_rep(T, w) 9. w.cloest := x /* x is an arbitrary cluster in Q*/ 10. for each x∈Q do{ /*调节因合并带来的T和Q的变化*/ 11. if (dist(w,x) < dist(w,w.cloest)) 12. w.cloest := x 13. if x.cloest is either u or v { 14. if dist(x, x.cloest) < dist(x.w) 15. x.cloest := cloest_cluster(T, x, dist(x,w)) 16. else 17. x.cloest := w

K-means聚类算法以及实现

K means聚类算法以及实现一、Kmeans算法 k-means 算法接受参数 k ；然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。 K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。假设要把样本集分为c个类别，算法描述如下：（1）适当选择c个类的初始中心；（2）在第k次迭代中，对任意一个样本，求其到c个中心的距离，将该样本归到距离最短的中心所在的类；（3）利用均值等方法更新该类的中心值；（4）对于所有的c个聚类中心，如果利用（2）（3）的迭代法更新后，值保持不变，则迭代结束，否则继续迭代。该算法的最大优势在于简洁和快速。算法的关键在于初始中心的选择和距离公式二、算法流程首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。 Kmeans算法实现的步骤具体描述为：

(1)从疗个数据对象中任意选取k个对象作为初始的聚类中心。 (2)分别计算每个对象到各个聚类中心的距离，把对象分配到距离最近的聚类中。 (3)所有对象分配完成后，重新计算k个聚类的中心。 (4)与前一次计算得到的k个聚类中心比较，如果聚类中心发生变化，转(2)，否则转(5)。 (5)输出聚类结果。实现的流程框图为首先从n个数据对象中任意选择k个对象作为初始聚类中心；而对于所剩下的其它对象，则根据他们与这些聚类中心的相似度(距离)，分别将他们分配给与其最相似的(聚类中心所代表的)聚类。然后再计算每个所新聚类的聚类中心(该聚类中所有对象的均值)。不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数，具