一种改进的k_means聚类算法_英文_夏士雄

合集下载

K-means算法的改进

K-means算法的改进J.B.MacQueen 在1967 年提出的K-means算法到目前为止用于科学和工业应用的诸多聚类算法中一种极有影响的技术。

它是聚类方法中一个基本的划分方法，常常采用误差平方和准则函数作为聚类准则函数。

K-means 算法是一种基于划分的聚类算法，在对所给数据集进行聚类时，必须知道k值的大小，即聚类的数目。

它的思想是：首先从所给定的包含n 个数据对象的数据集中随机选取k 个数据对象作为初始聚类中心点，然后计算其余的数据对象到各个聚类中心点的距离，根据距离最近原则，把数据对象分配给离它最近的聚类中心所代表的簇中；再重新计算各个簇的聚类中心，根据选定的聚类准则函数，采用迭代的方法，不断重复以上过程直到聚类准则函数收敛或者是相邻两次的聚类中心没有变化为止。

每一次迭代，都增加了簇内紧凑性，降低了簇间相似性。

当所有数据对象被正确划分后，下一次迭代聚类中心将不会再发生变化，这时聚类结果已达到最优，算法结束。

K-means 算法的具体过程描述如下：(1) 从给定样本数据集中随机选取k 个数据点作为初始聚类中心；(2) 计算数据集中每个数据到这k 个聚类中心的距离并将每个数据点分配给离它最近的中心点所代表的簇；(3) 计算每个簇中所有数据点的平均值作为每个簇的新的中心；(4) 判断聚类准则函数是否收敛或聚类中心点和上次是否完全相同，若收敛或中心点无变化，则算法结束，输出聚类结果，否则转到步骤(2)。

下面给出一个K-means 算法的例子，以更好的说明该算法的聚类过程。

已知一个数据对象集合X =，各数据对象的值如表所示。

现在要求将数据对象集X 划分为两类，即k=2。

首先随机选择两个点作为初始聚类中心，在这里我们选择和，分别作为和两个簇的初始聚类中心。

然后计算到和的欧式距离，通过公式来计算，如下所示：根据计算可知，距离比距离更近，所以应将划分到所表示的簇中，同理将划分到簇中，将划分到簇中。

一种改进的K-Modes聚类算法

一种改进的K-Modes聚类算法
K-Modes算法是一种适用于离散属性数据的聚类算法，它将数据点分配到离散的聚类
中心。

传统的K-Modes算法存在一些缺点，例如容易陷入局部最优、对初始聚类中心的选
择敏感等。

为了改进K-Modes算法的性能，提出了一种改进的K-Modes聚类算法。

改进的K-Modes算法在传统的K-Modes算法的基础上，引入了两个改进策略：较好的
初始聚类中心选择策略和动态调整聚类中心的策略。

改进的K-Modes算法采用了较好的初始聚类中心选择策略，以提高算法的稳定性和准
确性。

传统的K-Modes算法通常使用随机选择的初始聚类中心，容易陷入局部最优。

为了
解决这个问题，改进的算法采用了一种新的策略：根据数据点之间的距离进行聚类中心的
选择。

具体来说，算法首先计算每个样本与其它样本的距离，然后选择距离最远的样本作
为初始聚类中心，以增加聚类中心之间的差异性，减少局部最优的发生。

改进的K-Modes算法引入了动态调整聚类中心的策略，以提高聚类的准确性。

传统的
K-Modes算法在每次迭代中，都会固定聚类中心的数量，并不能随着数据的变化进行自适
应调整。

而改进的算法通过计算样本点到聚类中心的距离，并根据一定的阈值动态地增加
或减少聚类中心的数量。

当样本点与当前的聚类中心之间的距离超过阈值时，会新增一个
聚类中心；当样本点与所有的聚类中心的距离都小于阈值时，会将该样本从聚类中心移除，以动态调整聚类中心的数量。

一种高效的K_means聚类改进算法

x （i j），j ∑ i =1
= 1， 2 ，…，k，返回第 1 ）步．
2
改进的 K － means 聚类算法
针对 K － means 算法关于初始质心选取的敏感性、以及迭代计算的冗余性这两方面的缺陷，提出一种高效的聚类算法（ ECA ），该算法由空间划分预聚类算法（ SDPCA ）和基于邻近簇调整的优化聚类算法（ OCANC ）两个阶段构成．在第一阶段，根据数据向量空间的分布情况，寻找相离较为分散的数据点作为质心，对空间进行初步划分，生成稳定的预聚类簇集；第二阶段，对预聚类的簇集进行优化调整，簇内的数据无需与所有质心进行差异度计算，只与其相邻且状态未稳定的簇集进行归属转移判断，减少了计算冗余，加快了聚类收敛的速度． 2． 1 空间划分预聚类 SDPCA 算法通过快速选取簇中距离较远的两个数据点 — — —距质心的最远点 K j 和平均距离点 G j ，并衡
文章编号： 1000 － 2243 （ 2014 ） 04 － 0537 － 06
一种高效的 K － means 聚类改进算法
1 2 张洁玲，白清源
（ 1．福建江夏学院电子信息科学学院，福建福州 350108 ； 2．福州大学数学与计算机科学学院，福建福州 350116 ）摘要：针对传统 K － means 算法在初始质心选取的敏感性以及迭代计算的冗余性这两方面的缺陷，提出一种高效的聚类算法（ ECA）．根据数据对象的空间分布情况，首先采用空间划分预聚类算法（ SDPCA ）对数据集实现预聚类划分，然后采用基于邻近簇调整的优化聚类算法（ OCANC ）对预聚类成果进行优化处理，最终获取聚类成果．实验证明，该改进算法能消除对初始输入的敏感性，以更高的运行效率获取较高质量的聚类结果．关键词： K － means；二分 K 均值；预聚类；邻近簇中图分类号： TP301． 6 文献标识码： A

一种改进的k—means算法

布的数据具有很好的聚类效果，该算法有其突出的局限但
值算法的优化是很有必要的。原ｋ均值算法对孤
立点很敏感，少量的这些孤立点会对聚类结果产生较大的影响，本文从减小孤立点对聚类结果的影响这一点出发对其加以改进。
随着数据挖掘研究领域技术的发展，为数据作
挖掘主要方法之一的聚类算法，也越来越受到人们
改进的ｋ均值算法，改进后的ｋ均值算法能很好地
处理数据中存在孤立点的问题。
的关注。在众多的聚类算法中，ｋ均值聚类算法的２改进的ｋｍｅｎ算法－ａｓ应用领域非常广泛，括图像及语音数据压缩，包使用ｋ均值算法进行数据聚类时，以看出结果可用径向基函数网络进行系统建模的数据预处理，以的稳定性还存在很大的问题，有时聚类的效果非常及异构神经网络结构中的任务分解，此研究ｋ均因好（当数据分布呈凸形或球形的时候聚类的效果会
～一～一～一一～一一～～一～～一一一一一一一～一
性，量的孤立点就会对聚类结果产生很大的影响，此，少因采用聚类均值点与聚类种子相分离的思想，出了基于该给思想的对ｋ均值算法的改进算法。实验表明，改进算法该比原ｋ均值算法具有更高的准确性。关键词：数据挖掘；类算法；－ａｓ算法聚ｋｍｅｎ

一种改进的K—means聚类算法

ｓｏｒａｓｈｔｇｅ．ＮｏｎｌｉｓｎｉｖＯｅｒｒｏｆｓｍｐｅｄａａｕｔｌｏｉａｍａｔｔｅｌｃｘｃｌｅｔａｄｂｅａｅｔｄｔｏｙｉｔｅｓｔｅｔｔｏｄｅａｌｔ，ｂａｓｔｍｙｋｅＯｕｏａｅｅｌｎｓｉｈｈｌｎｆｃｅ
要的作用。因此，对聚类的要求也越来越高，提出准确且又高效的聚类算法刻不容缓。人们已经提出了很多聚类算法，比如有基于划分
次迭代过程都向目函数值减少的方向进行。在每标
轮中，依据ｋ个参照点将其周围的点分别组成ｋ个类，而每个类的几何中心将被作为下一轮迭代的参照点，迭代使得选取的参照点越来越接近真实的类几何
给定类的个数ｋ，随机挑选ｋ个对象为初始聚类中心，利用距离最近的原则，将其余数据集对象分到ｋ个类中去，的结果由ｋ聚类中心来表达。聚类个算法采用迭代更新的方法，通过判定给定的聚类目函数，标每
一
之间具有很高的相似性，而簇间的对象则很不相似。聚类的应用越来越广泛【在经济学、 ” ，生物学、气象学、医药学、信息工程和工程技术等许多领域都有着十分重
ｂｔｅｏｔｅｓＧｉｅｔｅｅｈｒｇｓａｌｍｐｏｅａｇｒｈｙｈｕｌｒ．ｉｖｎｈｓｓｏｔｅ，ｌａｉｒｖｄｌｏｔｍｉｉｓｄｓｕｓｄｗｈｃｍａｅｉｒｖｍｅｔｎｉｓｅ，ｃｉｈｋｓｍｐｏｅｎｉｄｔｓａａ
ｐｅｍｃｓｉｇａｄｓｌｃｏｆｏｇｎｌｓｒｇｃｎｅ．ＣｈｃｘｅｉｎＳｄｎ，ｗｈｃｎｉａｅｅｉｒｖｄｏｅｉｒｐｅｓｎｅｅｔｎｏｒｉａｃｕｔｉｅｔｒｎｉｉｌｅｎｅｋｅｐｒｍｅｔＷａｏｅｉｈｉｄｃｔｓｔｍｐｏｅｎｈｓ

一种改进的K-means聚类算法

反复对簇进行划分和产生新的簇中心点，直到簇的成员不再变
ｄＸｃ＝ｌｑｌｌ（，）ｌ一
Ｌ＝ｉＪ
『三
，］
（）１
为了确定一个数据点的最佳匹配，方误差计算是必需ｋ平
的，中ｋ是簇的数目。在这个迭代过程中，埃德迭代把一个其劳
为了加快簇的聚类我们将修改过滤算法，修改的过滤算法被称为改进的过滤算法（Ａ）为了更加清楚地说明改进的过ＭＦ。
先把簇划分为动态组和静态组。利用算法迭代过程中的中心变
Ｋｍｅｎ类算法也就是广义劳埃德算法（ＡＧｅｅａ— — ａｓ聚ＧＬ：ｎｒｌ
ｉｄＬｙｌｏｉｍ）其中，表点表示一个簇，氏距离用ｚｌｄＡｇｒｈ，ｅｏｔ代欧来测量一个数据点Ｘ和簇中心Ｃ的误差。Ｋｍｅｎ — ａｓ聚类算法
中心集中选取候选集的方法减少了过滤算法的计算复杂度。论分析表明，算法在每一个迭代阶段能有效的减少距离计理此算数和计算时间。当数据集越大，度越高时，法的优越性越显著。维算关键词：据挖掘， — ｅｎ算法，中心，态簇，离计算数数Ｋｍａｓ簇动距
ｍｅｎｓｏｔｔｄｅｅｍｉｔｅｔｒｎｅｈｎｅｗｃｅｔｒｔｓｎｅ．ｐａｈｉｐｅｒｅｄｕｅｈｃｒｃｔｅｏｍｐｕａｉａｌｃｔｔｏｎｏｍｐｌｘｉｏｆｌｉｇｌｉｍａｃｏｄｉｔｓ — ｅｔｆｉｅｒａｇｏｒｈｙｔｎｔｃｒｎｇｏｅ

一种改进的K-Modes聚类算法

一种改进的K-Modes聚类算法1. 引言1.1 背景介绍K-Modes聚类算法是一种经典的聚类算法，它适用于处理分类数据。

随着大数据时代的到来，对于传统的K-Means算法在处理非数值型数据时表现不佳的问题变得日益突出。

针对这一问题，研究人员提出了一种改进的K-Modes聚类算法，以解决K-Means算法在处理分类数据时的不足之处。

改进的K-Modes聚类算法应运而生。

通过引入新的聚类准则或调整算法中的参数，改进后的K-Modes算法能够更好地处理分类数据，提高聚类的准确性和稳定性。

这一改进对于提高数据挖掘任务的效率和精度具有重要的意义，也为聚类算法在实际应用中的广泛推广提供了新的方向。

1.2 研究意义研究意义在于通过对K-Modes聚类算法进行改进，可以提高算法在实际应用中的准确性和效率。

传统的K-Modes聚类算法在处理非数值特征数据时存在一些问题，比如对类别型数据的处理方式较为简单，容易导致聚类结果不够准确。

通过对K-Modes算法进行改进，可以更好地适应非数值特征数据的处理需求，提高聚类结果的质量。

改进的K-Modes聚类算法可以应用于多领域的数据挖掘任务中，比如市场营销、生物信息学、社交网络分析等领域。

在这些领域中，数据通常包含大量的非数值特征，传统的K-Means算法无法准确处理这些数据。

改进的K-Modes算法可以为这些领域提供更有效的数据挖掘工具，帮助研究人员更好地理解数据，发现隐藏在数据背后的规律和价值。

研究改进的K-Modes聚类算法具有重要的理论和实际意义，可以推动数据挖掘领域的发展，促进各行各业对数据的深入分析和应用。

2. 正文2.1 K-Modes聚类算法简介K-Modes聚类算法是一种用于对离散数据进行聚类的算法，它是K-Means在处理离散数据时的推广。

与K-Means算法不同的是，K-Modes算法使用频数来计算距离，而不是使用欧氏距离。

这使得K-Modes算法更适合处理离散数据，如文本数据、分类数据等。

改进的层次K均值聚类算法

改进的层次K均值聚类算法胡伟【摘要】This paper presents an improved hierarchical K-means clustering algorithm combining hierarchical structure of space, in order to solve the problem that bad result of traditional K-means clustering method by selecting the number of categories randomly before clustering. By primary A-means clustering, it determines whether re-clustering in the more fine level by the result of initial clustering. By repeated execution, a hierarchical K-means clustering tree is produced, and the number of clusters is selected automatically on this tree structure. Simulation results on UCI datasets demonstrate that comparing with traditional AT-means clustering means, the better clustering results are obtained by the hierarchical K-means clustering model.%针对传统K均值聚类方法采用聚类前随机选择聚类个数K而导致的聚类结果不理想的问题,结合空间中的层次结构,提出一种改进的层次K均值聚类算法.该方法通过初步聚类,判断是否达到理想结果,从而决定是否继续进行更细层次的聚类,如此迭代执行,从而生成一棵层次型K均值聚类树,在该树形结构上可以自动地选择聚类的个数.标准数据集上的实验结果表明,与传统的K均值聚类方法相比,提出的改进的层次聚类方法的确能够取得较优秀的聚类效果.【期刊名称】《计算机工程与应用》【年(卷),期】2013(049)002【总页数】3页(P157-159)【关键词】K均值聚类;聚类个数;层次结构;层次K均值聚类算法;聚类树【作者】胡伟【作者单位】山西财经大学实验教学中心,太原030006【正文语种】中文【中图分类】TP18数据挖掘（DаtаM inging，DM）是指从大型数据库中提取人们感兴趣的知识，并且这些知识往往是隐含的，且包含有潜在应用的价值。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Abstract : In allu sion to the d isadvan tage of hav in g to ob tain the num ber of clu sters of data sets in advance and the sen sitiv ity to selecting in itial clustering cen ters in the k-m ean s algo rithm, an i m p roved k-m ean s clustering algorithm is propo sed. F irs, t the con cep t of a silhouette coeff icien t is in troduced, and the op ti m al clustering num berK op t of a data set w ith unknown class in fo r m ation is conf ir m ed by calcu lating the silhouette coef ficien t o f ob jects in clusters under d ifferen t K values . T hen the d istribution of the data set is ob tained th rough h ierarch ical clustering and the in itial clusterin g -cen ters are con fir m ed. F inally , the clustering is comp leted by the trad itional k-m eans c lu stering. By the theoretical analysis , it is p roved that the i m proved k-m ean s clustering algorithm has p roper com putational com p lexity. The experi m en tal resu lts o f IR IS testing data set show that the algorithm can d istingu ish d ifferen t clu sters reasonab ly and recogn ize the outliers eff icien tly , and th e en tropy generated by th e a lgorithm is low er . K ey words : clustering ; k-m ean s algo rithm; silhouette coeff icien t
Received 2007 -05 -18 . F oundation item s : The N ational N atural Science Foundation o f C hina ( N o. 50674086), Specialized R esearch Fund for theD octora l Program o f H igher Education ( N o. 20060290508 ), the Y ou th S cien tif ic R esearch Foundation of C h ina U niversity of M in ing and Techno logy ( N o. 2006A 047). B iography : X ia Sh ix iong( 1961) ), m ale, p rofessor , xiasx@ cum .t edu . cn .
A s an i m po rtant re search branch o f da ta m ining, cluster analy sis a i m s to d iv ide data ob je cts in to groups based on the ir attributes and relations . And th e ob jects have h ig h si m ilarity to one ano th er w ithin the sam e groups and have high d issi m ila rity to th e objects in [ 1] o th er g ro ups . T he m o st w ell know n and comm only used c lu ste rin g algorithm s are k-m eans , k-m edo ids and the ir varia t io ns . The com putationa l com plex ity of th e k-m eans al gorithm is low and the k-m eans a lg o rithm m ay only [ 2] f ind lo ca l opti mu m rather than th e g lo bal . C onsid er ing th e inna te li m itat io n o f the k-m eans m eth od , th is paper propo ses an i m proved k-m eansm ethod . T he i mproved m ethod can no t only effectiv ely dec ide appropriate nu m ber o f clusters , but also properly se le ct in itial po in ts fo r k-m eans . In add ition , the i m proved k-m eans algo rith m has good clustering results .
ei = w here p ij =
Ep
j= 1
L
ij
log2 p ij
( 1)
1 C riteria of C lustering
111 Entropy Entropy depicts the dispersa l of objects belong ing to the sam e class be in g m erged in to dif ferent clusters . A ccording to the distribution o f c la sses , w e can calcu [ 3] late th e entropy of each c lu ster by
Jou rna l of Southeast U n iversity ( Eng lish Ed ition)
V o.l 23, N o. 3, pp. 435 -IS SN 1003) 7985
I m proved k-m eans clustering algorithm
xI C i
E
dist(x, ci )
436
X ia Sh ix iong, L iW enchao , Zhou Yong, Zhang Le,i and N iu Q iang w If th e object is already m erged intoK op t c lu sters l in step ⑨, then this object rem a in s in the o rig ina l clus ter . x E lse ca lculate th e distances betw een th is object l and the centro id s o f ex isting K clusters . y If the distances exceed the th resho ld set by the l user , then th is object is considered as an outlier . z E lse m erge th is object into the cluster w ith the l clo sest distance and upda te th e centro id of th e c lu ster . { Until no ob ject changes in the w ho le data se. l t T he i m pro ved k-m eans clustering algorith m refers to t w o param eters : REAR andE p s. If w e directly obta in K op t clusters in step ⑤, th isw ill cause severa l centro id s o f clusters to be scattered , so w e ter m inate hierarchica l clusterin g until rem ain in g K op t + REAR clusters . T he va lue of REAR is set acco rdin g to the percentage o f hi erarchical clustering. T he goal of th resho ld E p s is to reco gn ize few outlie rs in the data set accurate ly. 21 2 Analy sis o f com putationa l com plex ity o f algo rithm The i m pro vedk-m eans clustering a lgorithm can be partit io ned in to three phases : S tep ① f inds the opti mal num ber of c lu stersK op t; steps ② to ⑨ adopt the ag g lom erate algorithm to produce initial in for m ation fo r k-m eans ; steps ⑩ to { adopt k-m eans to accom plish a l cluster . In the f irst phase, w e need to ca lculate th e sil houe tte coeff icient repeated ly to obtain K op t. So the com putatio nal com p le x ity o f this step is O ( I @ n ), w here I represents the ti m es o f calculating the silh ou [5]