数据挖掘中的聚类方法

｛十算祝辩学２０００Ｖ越２７№．｛

数据挖掘中的聚类方法

ａｕｓｔｅｒ】ｎｇＭ鞋ｈ罐ｍＤａ糖Ｍｔｍ蜡

王冀高变

（中鹭科学院计算技术研究所北京ｌｏ。０８０）

＾甄ｔｒａ￡ｌｌｈ溉８ｐａｐｅｆｗ￡ｌｎ㈣矗ｕｅｅｅｂｔｅｒｌｎｇ搬ｅｔｂｄ《Ｄａｔａ醚，ｎ‘丑ｇ繇ｌ懿ｅｆ掘ｇｈａｓｂｅ￡ｎｓ轴ｄｌ甜ｖｅｒｙｄｅ印１ｙｌｎｔｈｅｆＬｅｌｄ。ｆＤｑｔａＭ｛ｎＬ“ｇ．ｃ１ＬＪｓｔｅｒｌｎｇ拄ｆａｃｌ“ｇｔｈｎｅｗｓｎｕａｔ

Ｌ。ｎ。Ｗｅｓｕｍｒｎａｒ】ｚｅｔｈｅｍａ】ｏｒｃｌｕｓｔｅｎｎｇｍｅｔｈｏｄｓａｎｄｉｍｒｏｄｕｃｅｆ。ｕｒｋ，ｎｄｓ。ｆｃｌｕｓｔｅｎｏｇｍｅ吐吣ｄｔｈａｔｈａｖｅｂｅｅｎｕｓｅｄｂｒｏａｄｌｙ｝ｎＥｈｔａＭｍ‘堞一Ｆｍａｉｌｙｗｅｄｒａｗ８ｃ。ｎｃｌＨｓｌ。ｎｔｈａｔｔｋｐａｒｔｍｏｎａｉｃｌｕｓｔｅｒｉ“ｇＨ砖出ｏｄｂ８靴ｄ。ｎｄｉｓｔａｎｃｅＩｎｄａｔａｍｌｎＬ“ｇ【ｓａｔｙｐＬｃａＩｔｗｏｐｂａｓｅｌｔｅｒａｔｌ。ｎｐｒｏｃｅｓｓ：】）ａｐｐｏＩｎｔｃ【ｕｓｔｅｒ；２）ｕｐｄａｔｅｔｈｅｃｅｎｔｅｆ硝ｃｌｕｓ弛ｒ

ｌ（。ｙ蝴嵋ｓＤ营酶ｍｌＢｉｎ甚，Ｃ】ｕｓｔｅｒ‘矗ｇ

从空阅ｘ中蜡定一个有限的取榉点集（或从数据糍中承癸寄隈耩予的橐台），｛ｆ拦，，鬻娄翦茜枯是将数据聚集成类，使得类间的相似性尽域小，而类内的相似性尽量大。

骨粪网题（监营）和聚粪何题根率的不同是：分类问题中．拽们知道训练倒的分类属性值．而在聚粪同题串，蓑霉要我嚣】在谢练铡孛拽曩这争势类霉毪｛踅。

１数据挖掘领域中的聚樊研究

把数据库串静对象集合分割成一缀聚粪是数据挖掘的基本撮作。】，可以用于分类（无监督的）啪，聚合和势瓤ｏｊ，剡辑‘”，数攥壤藏，鬟测。聚娄方法基于一些定义好的标堆．统计黎凳方法基于相似性测量““：．而概念聚类方法基于对象具有的概念¨“。

数据库中懿聚餐对象燕铡子，每个胡子盎不蔺翁属性构成，这些属性主要分为两类：数值属性（Ｎｕｍｅ卜

ｌｃＡｔｔｒ出ｕｔｅｓ。可以比较大小）和符号腿蛙（ｃａｔｅ＃ｏ￡ｊｅａｌＡｔｔｒ｜ｂＢｔｅｓ，不能比较大小）。在数据挖掘领域中，由于耍处理非常大而复杂的数据第．所以对传统的聚类方法撵基秀个箍要尽堑满是的嚣衷：＠裁羁对照疆数毽属｛生和符号属性。②算法的效率要满足大数据熊的大数量、高复杂性、增壁的要求＋在理存的聚娄方法中，搬栗麓丽对处理数值瓣性和符号属性，酃幺一般荣说，效率很低；而对那些效率高的算珐而言．它们太都只能处理数莛羼矬。

现存的糍类算｛蛊一般舟为分割和分层两种。分割

疑类算法通过优化一个评价瓣数把数据集分割为ｋ个莓癸。分星鬻类是由攀两层次的分裁聚粪纽或ｔ疆敖之间的分割具有嵌套的关系。

，ｔ２ｔ

在效据挖挺中，新避提出的一瞻逻辑决繁树可以用作分层聚粪０３，一十麓次上静所有节点定义了～个例子的分布．并且一个节点的所有于节皇定义了相应于掰个节点的掰寿铡予掳劳毒；

通过使用Ｇｏｗｅｒ的相似性象数“”和萁它一些不相似测量方法…＇，标准的屠次聚娄方法ｈ“３能蟛弼时娃理数篮羼性裙符号属性，毽不髭之赶是二次方翡｝｝算代价，

机器学习领域中筘概念聚类冀法透过符号属梭采进行璇娄，并得出聚类的概念描遴。因为遗衙一种特性有助于懈释聚擞结果，所以非常道合于数据挖掘。与境诗蘩龚方法不瓣翡是，这整算法豢予一弹对带有鹫一或相似溉念的对象的搜索，因而其散率依赖于搜索策略。如粜数据羹具有许多概念和非常多的例子．殍幺这种基予概念的接索方法瓣不合适，

神烃网络中的ｓ０Ｍ方法［：”通过反复的学习米浆类数据。矢量量他ＶＱ方法中鳃ｂ８Ｇ方潍““凳裁对数值属性进行鬻娄。这两种方法的敝率都比较低。

ＰＡＭ［６”３方法可Ｕ浆类数值属性和符号属性＋但效率军筒。一种将ＰＡＭ和一十莱棒过程辖合趁采翡改进方法ｃＬＡＲＡ＿”提高了其效率。

稷多努力技羼于提离震有算法热执｛ｉ效率班处理非常大的数据爨，如在ｅＬＡＲＡＮｓＨ”中仔生掰设计搜索方法（采用随机搜索，新的改进包括使用ＲＬ树０６”Ｊ，在ＤＢｓｃ矗Ｎ）”串缀缓索；ｌ（幕焉藏‘‘挺｝，在ＢＩＲｃＨⅢ咖中组织数据蚺构（采用类似Ｒ‘－讨的一种变化：ＣＦ树），以及对ＢＩＲＣＨ的邀一步改搬鞋增进其伸缩性酌ＢｕＢＢＬＥ和ＢｕＢＢＬＥ—ＦＭ珊’（这两种算法只需对数据库扫描一次，并产生根高的聚娄质量）。涟

　万方数据