数据挖掘中的聚类方法

{十算祝辩学2000V越27№.{

数据挖掘中的聚类方法

auster】ngM鞋h罐mDa糖Mtm蜡

王冀高变

(中鹭科学院计算技术研究所北京lo。080)

^甄tra£llh溉8papefw£ln㈣矗ueeebterlng搬etbd《Data醚,n‘丑g繇l懿ef掘ghasbe£ns轴dl甜veryde印1ylnthefLeld。fDqtaM{nL“g.c1LJsterlng拄facl“gthnewsnuat

L。n。Wesumrnar】zethema】orclustenngmethodsandimroducef。urk,nds。fclustenogme吐吣dthathavebeenusedbroadly}nEhtaMm‘堞一Fmailywedraw8c。nclHsl。nthattkpartmonaiclusteri“gH砖出odb8靴d。ndistanceIndatamlnL“g【satypLcaItwopbaselteratl。nprocess:】)appoIntc【uster;2)updatethecentef硝clus弛r

l(。y蝴嵋sD营酶mlBin甚,C】uster‘矗g

从空阅x中蜡定一个有限的取榉点集(或从数据糍中承癸寄隈耩予的橐台),{f拦,,鬻娄翦茜枯是将数据聚集成类,使得类间的相似性尽域小,而类内的相似性尽量大。

骨粪网题(监营)和聚粪何题根率的不同是:分类问题中.拽们知道训练倒的分类属性值.而在聚粪同题串,蓑霉要我嚣】在谢练铡孛拽曩这争势类霉毪{踅。

1数据挖掘领域中的聚樊研究

把数据库串静对象集合分割成一缀聚粪是数据挖掘的基本撮作。】,可以用于分类(无监督的)啪,聚合和势瓤oj,剡辑‘”,数攥壤藏,鬟测。聚娄方法基于一些定义好的标堆.统计黎凳方法基于相似性测量““:.而概念聚类方法基于对象具有的概念¨“。

数据库中懿聚餐对象燕铡子,每个胡子盎不蔺翁属性构成,这些属性主要分为两类:数值属性(Nume卜

lcAttr出utes。可以比较大小)和符号腿蛙(cate#o£jealAttr|bBtes,不能比较大小)。在数据挖掘领域中,由于耍处理非常大而复杂的数据第.所以对传统的聚类方法撵基秀个箍要尽堑满是的嚣衷:@裁羁对照疆数毽属{生和符号属性。②算法的效率要满足大数据熊的大数量、高复杂性、增壁的要求+在理存的聚娄方法中,搬栗麓丽对处理数值瓣性和符号属性,酃幺一般荣说,效率很低;而对那些效率高的算珐而言.它们太都只能处理数莛羼矬。

现存的糍类算{蛊一般舟为分割和分层两种。分割

疑类算法通过优化一个评价瓣数把数据集分割为k个莓癸。分星鬻类是由攀两层次的分裁聚粪纽或t疆敖之间的分割具有嵌套的关系。

,t2t

在效据挖挺中,新避提出的一瞻逻辑决繁树可以用作分层聚粪03,一十麓次上静所有节点定义了~个例子的分布.并且一个节点的所有于节皇定义了相应于掰个节点的掰寿铡予掳劳毒;

通过使用Gower的相似性象数“”和萁它一些不相似测量方法…',标准的屠次聚娄方法h“3能蟛弼时娃理数篮羼性裙符号属性,毽不髭之赶是二次方翡}}算代价,

机器学习领域中筘概念聚类冀法透过符号属梭采进行璇娄,并得出聚类的概念描遴。因为遗衙一种特性有助于懈释聚擞结果,所以非常道合于数据挖掘。与境诗蘩龚方法不瓣翡是,这整算法豢予一弹对带有鹫一或相似溉念的对象的搜索,因而其散率依赖于搜索策略。如粜数据羹具有许多概念和非常多的例子.殍幺这种基予概念的接索方法瓣不合适,

神烃网络中的s0M方法[:”通过反复的学习米浆类数据。矢量量他VQ方法中鳃b8G方潍““凳裁对数值属性进行鬻娄。这两种方法的敝率都比较低。

PAM[6”3方法可U浆类数值属性和符号属性+但效率军筒。一种将PAM和一十莱棒过程辖合趁采翡改进方法cLARA_”提高了其效率。

稷多努力技羼于提离震有算法热执{i效率班处理非常大的数据爨,如在eLARANsH”中仔生掰设计搜索方法(采用随机搜索,新的改进包括使用RL树06”J,在DBsc矗N)”串缀缓索;l(幕焉藏‘‘挺},在BIRcHⅢ咖中组织数据蚺构(采用类似R‘-讨的一种变化:CF树),以及对BIRCH的邀一步改搬鞋增进其伸缩性酌BuBBLE和BuBBLE—FM珊’(这两种算法只需对数据库扫描一次,并产生根高的聚娄质量)。涟

 万方数据

相关文档
最新文档