一种基于粒子群算法的聚类算法

合集下载

基于混合粒子群优化算法的聚类分析

Ｃ均值聚类算法。新算法在基本粒子群优化的模糊Ｃ均值聚类算法的基础上结合了遗传算法的交叉、一一变异算子及混沌优化
算法，引入逃逸算子。仿真结果表明，算法有效地避免了通常聚类方法易出现的早熟现象，并该同时也具有较快的收敛速度
ＹＡＧｕｊｎ．ＤＥＮＪ－ ‘ ｉｕＮＧｕ— ｎ，ＴＮＧｉＨｉｗｅ一Ｅ．Ｚ
（．ＳｈｏｆｄａａｄＡｒ，Ｓｚ；１ｃｏｌｉｎｔｕｈｕＵｎｖｒｉｆｉｎｅａｄＴｃｎｌｇ，Ｓｚｏ０，ＣｉａｏＭｅｔＳ１５
Ａｂｔａｔｕｚｍｅｎ（Ｃ）ｃｓｒｇａｏｔｃｎｅｓｙｅｒｐｅｃｌｐｉｍｄｔｌｏｖｒｅｃｅｙｓｗｙｓｒｃ：ＦｚｙｃａＦＭ — ｌｔｉｇｒｈａｉａｐｄｉａｏａｏｔｕｅｎｌｉｍａｌｂｔｎｌｍｕａｓｃｎｅｇｎｅｒｏｌ．Ａｎｉａｏｖｌ
和较高的准确度。
关键词：粒子群优化算法；遗传算法；混沌优化；聚类分析；逃逸算子中图法分类号：Ｐ９Ｔ３１文献标识码：Ａ文章编号：００７２２０）２５２ —４１０ —０４（０８２ —８００
Ｃｌｓｅｎｌｓｓａｅｎｈｂｉａｔｌｗａｍｐｉｚｔｎａｇｒｔｍｕｔｒａａｙｉｂｓｄｏｙｒｄｐｒｉｅｓｒｏｔｃｍｉａｉｌｏｉｏｈ
２ａｕｔｆｏｕｅｎｆｒｔｎＳｉｎｅｏｔｗｅｔｉｅｓｔ，Ｃｈｎｑｎ０７５ｈｎ；．ＦｃｌｏＣｍｐｔｒｄＩｏｍａｉｃｅｃ，ＳｕｈｓＵｎｖｒｉｙａｎｏｙｏｇｉｇ４０１，Ｃｉａ

基于粒子群算法的K均值半监督聚类算法研究

第２第７期７卷
２１００年７月
计算机应用与软件
ＣｍｐｔｒＡｐｌａｉｎｎｏｔａｅｏｕｅｐｉｔｓａｄＳｆｒｃｏｗ
Ｖｏ．７Ｎｏ７１２．
Ｊ１００ｕ．２１
基于粒子群算法的Ｋ均值半监督聚类算法研究
ｏＮＥＭＩＳＳ．ＵＰＥＲＶＩＥＤＭＥＡＮＳＣＬＵＳＳＫ．ＴＥＲＩＮＧＢＡＳＥＤｏＮＰＡＲＴＩＣＬＥＳｗＡＲＭｏＰＴＩＩＡＴＩＭＳｏＮ
ＧｏＣａｇＯｕｈｎｙＨ
（￣ａｔｅｔｆＣｍｕｅＳｉｃｎｅｎｌｙＤｅＯｎｖｒｔ，ｅｈｕ２３２Ｓａｄｎ，ｈｎ）ＤｐｒｎｏｐｔｒｃｎｅａｄＴｃｏｏ，ｚＩＵｉｓｙＤｚｏ５０３，ｈｎｏｇＣｉａｍｏｅｈｇｈＬｅｉ
ｎａｃｍａａｅｎｐｕａｉｎｍｉｎｇｍｅｔｏｐｏｌｔｏｓｆ
息，以帮助聚类算法获得更好的聚类效果。在实际应用中，有监
０引言
半监督聚类是近几年提出的一种新型聚类方法，它综合了
ｏｔｓｔｎｓａｃ．ｈｅｌｏｉｍａｏｇｏｌｓｅｉｇａｃｒｃｅｎａｎｍｂｒｏＩｔｓｎａａｓｔ．ｐｉａｉｅｒｈＴｅｎｗａｇｒｈｈｓｇｔｏｄｃｕｔｒｎｃｕａｉｓｏｕｅｆＵＣｅｔｇｄｔｅｓｍｉｏｔｉＫｅｗｏｄｙｒｓＳｍｉｓｐｒｉｅｌｓｅｉｇＩｒｖｄＫ。ａｓａｇｒｔｍＣｎｒｆｍａｓｏｔｚｔｎＰｒｉｌｗｒｐｉｚｔｎＤ — ｅ ’ｕｅｖｓｄｃｕｔｒｍｐｏｅｍｅｎｌｏｈｎｉｅｔｏｓｐｉａｉａｃｅｓａｅｍｉｏｔｍｏｔｍｉａｉｙｏ

基于粒子群优化算法的交通数据流聚类分析

测，且依据密度来判断聚类。并
第一作者简介：云伟（９３）男，潘１８一，山东省聊城市人，士研究硕生。研究方向：智能交通控制。Ｅｍｉｐｎｕｗｉ９３６．ｏ。－ａｌａｙｎｅ１８＠１３ｃｉ：ｎ
该算法分为联机和脱机两个部分。联机部分将接受到的每个数据元素映射到某个网格中，脱而
进行聚类分析，并将粒子群优化算法引入聚类过程，从而对数据流聚类分析方法进行了改进，使数据聚类能够根据本身的密度极大值有序生成，强了用户对聚类过程的控制能力。通过昆明市实测交通数据流进行聚类分析，增得到了能够反映交通状
况不同特征的聚类结果和动态的控制策略，并对交通数据流的相关研究工作提供决策支持。
无限的。我们称这样的数据形态为数据流… 。数据
挖掘技术是信息技术进步的结果。数据挖掘技术的
一
法，数据聚类能够根据本身的密度极大值有序生使成，决了聚类生成顺序的不确定性问题，强了解增
用户对聚类过程的控制能力。仿真结果验证了该
２１年７月１１收到００２３昆明理工大学学术科技创新基金课题
（００Ｃ３）助２１Ｙ１１资
ＤＳｅｍ算法使用密度网格（ｅｓｙＧｉ）．ｔａｒＤｎｉｒ结ｔｄ构，一种基于密度和网格的聚类算法。它着力解是决对任意形状的数据流聚类问题、调了孤立点探强

一种基于粒子群的聚类算法

ＫｅｒｓＰｒｃｅｗａｐｉｚｔｎＰＯ）Ｋｍｅｉｓｌｏｉｍ；ｅｓｉａｚｔｎｃｓｒｇｙｗｏｄ：ａｉｒＯｔａｏ（Ｓ；－ｄａｇｒｈｄｎｉｉｔｌａｉ；ｌｔｉｔｌＳｍｍｉｉｎａｔｙｔｎｉｉｏｕｅｎ
ＣｍｕｒｎｉｅｉｄｐｌａｉｓｏｐｔｇｎｒｇａＡｐｉｔｎ计算机工程与应用ｅＥｅｎｎｃｏ
一
种基于粒子群的聚类算法
姚丽娟，可，罗孟颖Ｙｉａ，ＵＯＫ，ＮＧＹｎＡＯＬｊｎＬｅＭＥｉｇｕ
ｔｎｉｒｏｌｘｄｅｔｅｔｏｌｘｔｓｉｈｒＥｐｒｍｅｔｌｅｕｔｈｗａｉｌｏｉｍａｉｈｒｉｍｏｅｃｍｐｅｕｏｔｉｃｍｐｅｉｉｇｅ￣ｘｅｉｎａｓｌｓｏｔｔｈｓａｇｒｈｈｓｈｇｅｏｓｈｍｅｙｈｒｓｈｔｔａｃｒｃ，ｍａｌｒｉｏｌｘｔ，ｎｒｔｂｅｏｅａｌｅｆｒａｃ．ｃｕａｙｓｌｍｅｃｍｐｅｉａｄｍｏｅｓａｌｖｒｌｐｒｏｅｔｙｍｎｅ
Ｅｇｎｅｉｇａｄｐｉａｏｓ２１，８１）１０１３ｎｉｅｒｎｎＡｐｌｔｎ，０２４（３：５－５．ｃｉ
ＡｂｔａｔＡｆｒａａｙｉｇｔｅｄｓｄａｔｇｓｏｉａｉａｉｎｓｎｉｖｎｏａｘｍｕｏｅＫ－ｄａｓａｇ — ｓｒｃ：ｔｎｌｚｎｈｉａｖｎａｅｆｉｔｌｔｅｓｉｅａｄｌｃｌｅｎｉｚｏｔｍａｉｍｆｈｍｅｉｎｌｏｔ

基于粒子群的模糊聚类算法研究

第３０卷第２期
２１年Ｏ月０２３
佳木斯大学学报（自然科学版）ＪｕｎｌｆｉｓＵｉｒｔＮｔｒｌｃｎｅＥｉｏ）ｏｒａｏａｉｎｖｓｙ（ａａＳｉｃｄｔｎＪｍｕｅｉｕｅｉ
Ｖｏ．违反（）式和（）１２式给出的约束条件．以，所有必要规范位置矩阵．首先，我们使所有矩阵中的消极元素变成为零．如果在一排所有的元素矩阵为零，他们需要利用一系列在区间［，］Ｏ１的随机数重新编号，然后矩阵经过以下没有违反约束转化：
２２８
佳木斯大学学．（自然科学版）报
）：Ｋ
‘ｍ，
２１０２年
（１１）
糊矩阵肛相同．外，此每个微粒的速度用矩阵中的
／和ｃ７，描述，它们的取值范围［，］我们得到相一１１．应的基于矩阵运作的更新微粒位置和速度方程式，
０
１
２３４５６数据集（１，，，，，）ｎ＝１２３４５６
图４六种数据集的平均目函数有效值（标ｐ＝１，＝０４）２．５
３聚类问题优化处理
图２六种数据集的平均目标函数有效僵（＝Ｂ＂＝０６）ｐ，．
。
（）１
Ｃ ●
∑ ＝１ ‘ ，，ｎ ’Ｖ＝ｌ …，２
，０ｌ
（）２
・
０＜∑ ＜Ｖ＝１，ｃ（）ｎ＿， …，『２３

基于粒子群优化的高斯核函数聚类算法

１概述
聚类分析是根据数据属性的特征相似性，按照特定的准
征的。一般来说，离聚类中心越近的样本点对聚类中心周围的统计特性越有效，因此引进高斯概率分布函数作为核函数：
则作模式分类的过程。作为一种无监督的学习方法，它在数据挖掘、图像处理、模式识别、空间遥感技术和特征提取等
ａｃｒｃｌｓｅｎｙＧａｓｅｎｌｕｃｉｎｓｍｉｉｙｍｅｓｒ，ｎｐｅｐｔｅｃｕｔｒｎｒｃｓｙｔｅＩＳＥｘｅｍｅｔｌｅｕｔｈｗｈｔｅｃｕａｙｃｕｔｒｇｂｕｓｋｒｅｎｔｉｌｔａｕｅａｄｓｅｄｕｌｓｅｉｇｐｏｅｓｂＰＯ．ｐｒｉｆｏｒａｈｈｉｎａｓｌｓｏｔａｒｓｈｔｐｏｏｅｌｏｉｍａｒａｅｅｃｉｇｃｐｂｌｔｎｌｓｅｎｃｕａｙｗｈｃｓｓｐｒｏｈＭｅｎｉｎｌｓｓｏｉｅｅｕｎｙｆａｒｐｓｄａｇｒｔｈｈｓｇｅｔｒｓａｈｎａａｉｙａｄｃｕｔｒｇａｃｒｃ，ｉｈｉｕｅｒｔｔｅＣ— ａｎａａｙｉｆｖｄｏｆｑｅｃｍｅｒｉｉｉｏｒｒ
ＹＵＪｎＱＩｅｇ，ＡＮＦｎｉ
（ｅａｏａｒｆｄａｃｄＣｎｒｌｎｔｚｔｎｆｒｈｍｉａＰｏｅｓｓＭｉｉｒｆｄｃｔｎＫｙＬｂｒｔｙｏｖｎｅｏｔｄＯｐｉａｉｅｃｌｒｃｓｅ，ｎｓｙｏｕａｏ，ｏＡｏａｍｉｏｏＣｔＥｉ

基于粒子群优化的模糊聚类算法

ＡｂｔａｔｎｏｄｒｔｖｒｏｈｅｅｔｆＦｚｙＣ— ａｓＡｌｏｔｍｕｈａｈｏａｐｉｎｅｓ— ｓｒｃ：Ｉｒｅｏｏｅｃｍｅｔｅｄｆｃｓｏｕｚｍｅｎｇｒｈｓｃｓｔｅｌｃｌｏｔｍａａｄｓｎｉｉ
Ｔｈｘｅｍｅｔｈｗｓｈｔｈａｇｒｔｍｉｏｒｃ，ｅｆｃｅｔｎｆｓ，ａｄｎｒａｅｔｅｏｖｒｅｃｅｅｐｒｎｓｏｔａｔｅｌｏｈｉｉｓｃｒｅｔｆｉｎａｄａｔｎｉｃｅｓｓｈｃｎｅｇｎｅｉｓｅｄ．ｐｅＫｅｒｓ：ｄｔｎｎｙｗｏｄａａｍｉｉｇ；ｃｕｔｒａａｙｉｌｓｅｎｌｓｓ；ＰｒｃｅＳｒＯｐｉｚｔｏａｔｌｗａｍｔｍｉａｉｎｉ
聚类是数据挖掘中一种应用广泛的方法，通
确的界限，不具有非此即彼的性质，而模糊聚类算
过对数据对象的合理划分来发现数据集的结构特征，使得以某种度量为标准的相似性（般是基于一距离的）同一类的对象之间最小化，不同类的在在对象之间最大化．过聚类，们能够识别密集和通人稀疏的区域，而发现全局的分布模式，从以及数据属性问的关系… ．在传统聚类方法中，本所属的样分类都是唯一的，实际上大多数事物间没有明但
黄贤英，：于粒子群优化的模糊聚类算法等基局最优解，而限制了该算法应用＿．子群优化从２粒］（ａｔｌｓａｍｏｔｉｔｎＰＯ算法是由Ｋｎｅｙｐｒｃｗｌｐｉｚｉ，Ｓ）ｉｅ＇ｍａｏｅｎｄ和Ｅｅａｔ１９ｂｒｒ于９５年提出的，一种基于群体智ｈ是能的具有全局寻优能力的启发式搜索算法，于源对鸟群捕食行为的研究．子群优化广泛应用于粒函数优化、糊系统控制等领域．是该算法的局模但部搜索能力较弱＿．３Ｊ本研究提出了一种基于粒子群优化算法的模糊聚类算法（ａｉｅＳａ —ａｅｕｚｌｓｒｇＰｒｃｗｒｂｓｄＦｚＣｕｔｎｔｌｍｙｅｉ对模糊分类定义的目标函数为

一种采用粒子群优化的聚类算法

１引言
聚类是对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小，是一种
无监督的模式识别问题，现在已经在统计学、图像处理、机器学习、数据挖掘等领域得到了广泛的应用。从分类的形式上看聚类主要分为：基于划分的如ｋｅｎ、于层次的如Ｈｃ］基于密度的如－ａｓ基ｍＡ、ＤＳＡ基于网格的如ＣＩＵ口同时聚类主ＢＣＮ、ＬＱＥ。
２ＴｌｃｍｍｕｉａｉｎｎｉｅｒｇＩｓｉｔ，ｒＦｒｅＥｇｎｅｎｉｅｓｔ， ’ｎ７０７Ｃｈｎ．ｅｅｏｎｃｔｓＥｇｎｅｉｎｔｕｅＡｉｏｃｎｉｅｒｇＵｎｖｒｉＸｉａ７，ｉａｏｎｔｉｙ１０
ＣｍｐｔｒｇｎｅｉｇａｄＡｐｉａｉｎ，０２４（０：９３．ｏｕｅｉｅｒｎｐｌｔｓ２１，８１）２ —３Ｅｎｎｃｏ
Ａｂｔａｔｈａｉｏａｌｓｒｇａｇｒｈａｅｍａｙｓｏｔｏｎｓｓｃｓｓｎｉｖｉａａｕｎｕｎｒｓｒｃ：Ｔｅｔｄｔｎｌｕｔｉｌｏｔｍｓｈｖｎｈｒｃｍｉｇ，ｕｈａｅｓｉｅｔｉｔｌｌｅａｄｖｌｅ－ｒｉｃｅｎｉｔｏｎｉｖａｌｏａｎｍａＴｅｍｅｈｄｔｅｅｍｉｅｔｅｎｍｂｒａｄｌｃｔｎｏｌｓｅｅｔｒｉｐｏｏｅ．ｏｄｔｅｒｂｅｔ１ｃ１ｏｍｉｉ．ｈｔｏｄｔｒｎｕｅｎａｉｆｃｕｔｒｃｎｅＳｒｐｓｄＣｌｕｏｙｏｈｏｏｈ

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第35卷第1期2009年3月延边大学学报(自然科学版)Journal of Yanbian University (Natural Science )Vol.35No.1Mar.2009收稿日期:2008-10-18作者简介:姜浩(1981—),男,硕士研究生,研究方向为粒子群算法.文章编号:100424353(2009)0120064204一种基于粒子群算法的聚类算法姜浩,　崔荣一(延边大学工学院计算机科学与技术系智能信息处理研究室,吉林延吉133002)摘要:提出一种基于粒子群算法的聚类算法,该算法利用粒子群算法随机搜索解空间的能力找到最优解.首先,将样本所属类号的组合作为粒子,构成种群,同时引入极小化误差平方和来指导种群进化的方向.其次,通过对全局极值的调整,搜索到全局最优值.最后,通过仿真实验的对比,验证了该算法在有效性和稳定性上要好于K 2means 算法.关键词:粒子群;聚类;极小化误差平方和中图分类号:TP301.6 文献标识码:AA Method of ClusteringB ased onthe P article Sw arm OptimizationJ IAN G Hao ,　CU I Rong 2yi(I ntelli gent I nf ormation Processing L ab.,De partment of Com puter Science and Technolog y ,College of Engineering ,Yanbian Universit y ,Yanj i 133002,China )Abstract :A clustering method based on the particle swarm optimization is provided ,using the ability of PSO algorithm which can search all of the solution space to find the optimum solution.Firstly ,the combination of the cluster number of the samples was taken as particles to consist a swarm.Meanwhile ,the evolution trend was used to modulate with the theory of the L MS error criterion.Secondly ,according to the modulating for global best ,the algorithm researched the global optimum.Finally ,the simulation results show that the new algorithm of proposed algorithm is more efficient and stable than K 2means algorithm.K ey w ords :particle swarm optimization ;clustering ;L MS error criterion0　引言聚类分析研究具有很长的历史,其重要性及与其他研究方向的交叉特性得到人们的肯定[1].聚类是数据挖掘、模式识别等研究方向的重要研究内容之一,在识别数据的内在结构方面具有极其重要的作用.聚类技术广泛应用于语音识别、字符识别、图像分割、机器视觉、数据压缩和文献信息检索等领域.聚类的另一主要应用是数据挖据(多关系数据挖掘)、时空数据库应用(GIS 等)、序列和一类数据分析等.此外,聚类还应用于统计科学.值得一提的是,聚类分析对生物学、心理学、考古学、地质学、地理学以及市场营销等研究也都有重要应用.粒子群优化(Particle Swarm Optimization ,PSO )算法是由Eberhart 和Kennedy [2]于1995年提出的一类基于群智能的随机优化算法.该算法模拟鸟群飞行觅食的行为,通过个体之间的集体协作和竞争来实现全局搜索,是一种基于群智能的演化计算技术.同遗传算法相比,虽然同是基于迭代的进化算法,但没有交叉和变异算子,群体在解空间中根据自身经历的最好位置,以及群体最优解来进行搜索.由于PSO 算法有着参数少,　第1期姜浩,等:一种基于粒子群算法的聚类算法易于实现,算法简单,具有良好的全局搜索能力等优点,被广泛应用于各个领域,如结构设计、函数优化、网络训练、模糊系统控制、电磁场以及任务调度等工程优化问题中.目前为止,已有很多结合粒子群算法的聚类分析方法[325],其关键结合点是如何构造种群以及如何评价.比较有代表性的思想是结合K2means 算法,将初始的聚类中心作为种群,然后根据中心进行聚类,再利用聚类的结果来评价种群的质量,最后依据粒子群算法的原理更新聚类中心.这种算法改进了K2means算法对初始中心敏感的问题.在文献[4]中提出了动态的聚类方法,以解决分类数目不确定的聚类问题.本文提出的算法与上述结合K2means算法的粒子群聚类不同,采用的方法是随机地分配每个样本的类号,将这些类号的组合作为一个粒子,再利用粒子群算法进行优化.所提出的算法实现简单,实验结果正确,稳定性良好.1　基本PSO算法基本PSO[6]中,粒子群由n个粒子组成,每个粒子的位置代表优化问题在d维搜索空间中潜在的解.在一个d维的目标搜索空间中,由这n个粒子组成一个群落,其中第i个粒子的位置为d维的向量X i=(X i1,X i2,…,X i d);第i个粒子的历史最优位置为P i=(P i1,P i2,…,P i d);整个群体迄今为止搜索到的最好的位置记为P g=(P g1,P g2,…,P g d);第i个粒子的“飞翔”速度也是一个d维的向量V i=(V i1,V i2,…,V i d),它决定粒子在搜索空间单位迭代次数的位移.粒子按式(1)和(2)来调整自己的位置:V ij(t+1)=w V ij(t)+r1c1(P ij-　X ij(t))+r2c2(P g-X ij(t)),(1)X ij(t+1)=X ij(t)+V ij(t+1),　1≤i≤n,1≤j≤d.(2)其中c1和c2是非负数,称为加速度因子,通常取c1=c2=2;r1和r2为[0,1]内的随机数;w为惯性因子,一般在0.1到0.9之间取值.此外,粒子速度V i由最大速度V max所限制,即V i在[-V max, V max]内取值.PSO的基本算法步骤描述如下:Step1　初始化粒子群,即随机设定各粒子的初始位置和初始速度;Step2　计算每个粒子的适应值;Step3　对每个粒子,比较它的适应值和它经历过的最好位置的适应值;若更好,更新粒子当前最好位置P i d;Step4　对每个粒子的P i d进行比较,最好的位置如果优于P g d,则更新P g d的值为P i d;Step5　根据式(1)和式(2)更新粒子速度和位置;Step6　如果达到结束条件(一般为足够好的位置或最大迭代次数),则结束,否则转Step2.算法中的w,c1和c2是影响算法性能的重要参数.w值较大时,算法的全局搜索能力强;反之,局部搜索能力强.c1的值决定了粒子更新时受自身影响的程度,c2的值决定了整个种群对个体粒子的影响程度.2　聚类聚类是一个无监督的分类,它没有任何先验知识可用.聚类遵从的一般原则是:一个类簇内的实体是相似的,不同类簇的实体是不相似的;一个类簇是测试空间中点的会聚;同一类簇的任意两个点间的距离小于不同类簇的任意两个点间的距离;类簇可描述为一个包含密度相对高的点集的多维空间中的连通区域,它们借助包含密度相对较低的点集的区域与其他区域(类簇)相分离.聚类的形式描述如下:令U={P1,P2,…, P n}表示一个模式集合,P i表示第i个模式,i= {1,2,…,n};C tΑU,t=1,2,…,k,C t={P t1, P t2,…,P t w};proximity(P ms,P i r).其中,第1个下标表示模式所属的类,第2个下标表示某类中某一模式,函数proximity用来刻画模式的相似性距离.若诸类C t为聚类的结果,则诸C t需满足如下条件:∪k t=1C t=U,(3)对于ΠC m,C rΑU,C m≠C r,有C m∩C r= (仅限于刚性聚类);min(p roximity(P m u,P rv))>　max(pro ximity(P m x,P m y)),(4)式(4)中参数满足如下条件:ΠP mu∈C m,ΠP rv∈C r,ΠC m,C rΑU并且C m≠C r;ΠP m x,P m y∈C m,ΠC mΑU.典型的聚类过程主要包括数据(或称之为样本或模式)准备,特征选择和特征提取,接近度计算,聚类(或分组),对聚类结果进行有效性评估等步骤.56延边大学学报(自然科学版)第35卷　3　基于粒子群的聚类算法Boer DP T 等人[7]在论述有关交叉熵对聚类的影响时,提出了一种有趣的方法.他们将样本的聚类看做是一种样本的组合形式,这种组合的结果要尽可能地使一组内的样本特征一致,不同组之间的差异尽可能的大.当样本数达到一定数量时,组合的数量十分庞大,要想枚举出每一种可能,几乎是做不到的.本文基于这种组合的思想,提出粒子群聚类算法(Particle Swarm Optimization Clustering ,PSOC ),首先将样本随机地分到某一类,即分配类号,再利用粒子群算法的全局搜索能力,对样本所属类别进行更新,得到最优解.最优解代表了最好的分类.在本文算法中,粒子群中的每个粒子为一种可能的划分,粒子的维数为样本的个数,每一维的值代表样本所划分的类.粒子构造为X i =(k 1,k 2…,k m ),0<k i ≤m ,其中m 为样本个数,k i 为第i 个样本所属的类.因此,一个群代表数据集的多个候选划分.粒子的适应值采用误差平方和函数:J c =6ki =16n ij =1X ij -mi2,(5)其中X ij 是属于第i 类的第j 个样本;n i 是第i 类所包含的样本个数;m i 是第i 类的中心,m i =1n i6x ∈X ix.(6)由于粒子群算法在运行过程中依靠全局极值和个体极值指导整个种群进化,所以很容易陷入局部最优.考虑到这种情况,本文采取以下方法避免局部最优的发生:每次迭代,对全局极值进行一次调整;借鉴极小化误差平方和算法[8]的思想,移动样本.按照如下公式计算样本移动的影响:P j =n jn j +1X -m j2,j ≠i ;n in i -1X -m j2,j =i.(7)公式(7)计算的是样本从第i 类移动到第j 类所带来的影响,首先用公式(7)中的第二个公式计算出类内P j 值最大的样本,然后对其进行更新,更新时按照公式(7)中的第一个公式,计算样本移动到其它类的情况时带来的影响大小,将此样本重新划分到P j 最小值所对应的类.本文的粒子群聚类算法描述如下:Step 1　初始化粒子群,即随机设定粒子的初始位置和初始速度,给样本划分类别;Step 2　计算每个粒子的适应值;Step 3　对每个粒子,比较它的适应值和它经历过的最好位置的适应值;若更好,更新当前最好位置P i d ;Step 4　对每个粒子的P i d 进行比较,最好的位置如果优于P g d ,则更新P g d 为P i d ;Step 5　对当前P gb 所代表的最优分类进行调整,以公式(7)计算的结果作为依据,从每个类内部选取一个样本进行调整;Step 6　根据式(1)和式(2)进化粒子速度和位置;Step 7　如果达到结束条件(一般为足够好的位置或最大迭代次数),则结束,否则转Step 2.4　实验结果与分析本文采用90个二维点作为待分类的数据集进行实验.实验数据分为3类,是线性可划分的.由于只为了证明算法的有效性与稳定性,本文采用了固定的类数.算法中的参数设置为:群体规模n =20,解空间d =90维,迭代次数为30次.惯性权重w 采用线性递减策略,范围是0.9～0.4;加速因子设置为c 1=c 2=2.结束条件为最大迭代次数.图1为90个二维样本点数据集,可以看出,它们拥有各自的团体.图2为PSOC 运行过程中的最优适应值的下降曲线.为了更好地说明算法的优点,与传统的K 2means 算法的运算结果进行了比较.本文的PSOC 算法同K 2means 算法一样得到了图3显示的良好的聚类结果.图1　数据集表1所记录的是两种算法的单次所用时间.从时间上来看,K 2means 略优于PSOC.为了说明本文算法在有效性和稳定性上的优势,重复运行66　第1期姜浩,等:一种基于粒子群算法的聚类算法100次算法,记录每次得到的聚类结果是否正确,即样本被划分到正确的分类(当95%以上的样本被正确划分即为正确结果).表2所显示的结果表明,PSOC 算法在稳定性上要明显优于K 2mean 算法,可以保证每次都能够得到正确的聚类结果.图2　最优值下降曲线表1　效率算法K 2means PSOC 运行时间/s0.91.48表2　有效性算法K 2means PSOC 正确率/%73100图3　划分结果5　结束语本文提出了一种基于粒子群算法的聚类算法,该算法利用PSO 算法的全局搜索能力对数据进行聚类.在聚类过程中以极小化误差平方和算法的思想,找到对改进分类影响最大的样本,将它重新分类,以此指导全局最优值进行更新,使种群整体向全局最优进化.多次独立实验表明,与传统的K 2means 算法相比,本文算法具有很好的稳定性.本文算法虽然有很好的稳定性,但是对于有噪声点的样本集合,是否也具有稳定的性能,仍需要进一步研究.同时,也要进一步研究粒子群算法的改进策略.本算法实现时,考虑的是分类数目确定的情况,对于分类数不确定的情况,算法是否能够很好地得到聚类结果也是下一步研究的重点.参考文献:[1]　孙吉贵,刘杰,赵连宇.聚类算法研究[J ].软件学报,2008,19(1):48261.[2]　Eberhart R C ,Kennedy J.A New Optimizer UsingParticle Swarm Theory [C ]//Proceedings of the Sixth International Symposium on Micro Machine and Human Science.Piscataway ,USA :IEEE Serv 2ice Center ,1995:39243.[3]　杨勋,王汪晴.求解聚类问题的混合PSO 算法设计[J ].计算机工程与应用,2007,24(10):43245.[4]　张长胜,孙吉贵,杨凤芹,等.一种基于PSO 的动态聚类算法[J ].计算机研究与发展,2007,44(sup 2pl.):89293.[5]　陈曦,李春月,李峰,等.基于PSO 的模糊C 2均值聚类算法的图像分割[J ].计算机工程与应用,2008,44(18):1812185.[6]　杨维,李歧强.粒子群优化算法综述[J ].中国工程科学,2004,6(5):87294.[7]　Boer DPT ,Kroese DP ,Mannor S ,et al.A Tutori 2al on the Cross 2Entropy Method[J ].Annals of Op 2erations Research ,2005,134(1):19267.[8]　杨光正,吴岷,张晓莉.模式识别[M ].北京:中国科学技术大学出版社,2007.76。