一种基于代表点的分布式数据流聚类算法

合集下载

基于近邻传播的分布式数据流聚类算法

摘
要：针对分布式数据流聚类算法存在的聚类质量不高、通信代价大的问题，提出了密度和代表点聚类思想相
结合的分布式数据流聚类算法。该算法的局部站点采用近邻传播聚类，引入了类簇代表点的概念来描述局部分布的
概要信息，全局站点采用基于改进的密度聚类算法合并局部站点上传的概要数据结构进而获得全局模型。仿真实验

文献标志码：Ａ
Ｄｉｓｔｒｉｂｕｔｅｄｄａｔａｓｔｒｅａｍｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎａｉｎｆｉｔｙｐｒｏｐａｇａｔｉｏｎ
ｉｎｔｒｏｄｕｃｅｄｉｎｔｈｅｌｏｃａｌｓｉｔｅｓｕｓｉｎｇａｆｉｆｎｉｔｙｐｒｏｐａｇａｔｉｏｎｃｌｕｓｔｅｉｒｎｇ，ｗｈｉｌｅｔｈｅｇｌｏｂａｌｓｉｔｅｇｏｔｔｈｅｇｌｏｂａｌｍｏｄｅｌｂｙｍｅｒｇｉｎｇｔｈｅ
ＪｏｕｎａｒｌｏｆＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ
ＩＳＳＮ１００１ — ９０８１
２０１３．０９。０１
计算机应用，２０１３，３３（９）：２４７７— ２４８１
基于近邻传播的分布式数据流聚类算法
张建朋，金鑫，陈福才，陈鸿昶，侯颖

分布式密度和中心点数据流聚类算法的研究

法具有较高的数据流聚类质量，并且有效降低系统的通信代价。
１基本概念
由于实际数据流应用中大多为进化的数据流，即随着时间
ｅｆｆｅｃｔｉｖｅｆｏｒｎｏｎ — ｓｐｈｅｒｉｃａｌｃｌｕｓｔｅｒ．Ｔｈｅａｌｇｏｒｉｔｈｍａｐｐｌｉｅｓｔｈｅｄｅｎｓｉｔｙ，ｃｅｎｔｒｅｐｏｉｎｔｓａｎｄｄｅｃａｙｔｉｍｅｗｉｎｄｏｗｓｍｅｃｈｎｉａｓｍ，ｃｌｕｓｔｅｒｓｔｈｅｄａｔａ
ｃｌｕｓｔｅｉｒｎｇａｌｇｏｉｒｔｈｍｗｈｉｃｈｉｓｂａｓｅｄｏｎｄｅｎｓｉｔｙａｎｄｃｅｎｔｒｅｐｏｉｎｔｓｎａｍｅｄｔｈｅＤＤＣＳ — ｃｌｕｓｔｅｉｒｎｇａｉｍｉｎｇａｔｔｈａｔｔｈｅＣｌｕＳｔｒｅａｍａｌｇｏｉｒｔｈｍｉｓｌｅｓｓ
口，在分布式环境下对数据流进行聚类。实验结果表明，ＤＤＣＳ — Ｃｌｕｓｔｅｒｉｎｇ算法具有较高的聚类质量与较低的通信代价。关键词
中图分类号
密度中心点分布式数据流聚类
ＴＰ３９文献标识码ＡＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１０００－３８６ｘ．２０１３．１０．０５０

分布式聚类算法

分布式聚类算法分布式聚类算法是一种将数据分布在多个计算节点上进行聚类分析的算法。

随着大数据时代的到来，传统的单机聚类算法在处理大规模数据时面临着计算资源不足、运行时间过长等问题。

而分布式聚类算法通过将数据划分到多个节点上进行并行计算，不仅能够充分利用集群资源，提高计算效率，还能够处理大规模数据集。

在传统的单机聚类算法中，常用的方法有K-means、层次聚类等。

然而，在处理大规模数据集时，这些方法往往面临着运行时间过长、内存不足等问题。

因此，研究者们开始关注如何将这些方法扩展到分布式环境下。

一种常用的分布式聚类算法是基于MapReduce框架的并行K-means。

MapReduce框架是一种用于处理大规模数据集的并行计算模型，在Google提出后得到了广泛应用。

基于MapReduce框架的并行K-means将原始数据划分为多个子集，在每个子集上独立地进行K-means迭代，并通过Reduce操作来合并各个子集得到最终结果。

然而，并行K-means也存在一些问题。

首先，由于数据的划分是随机的，可能导致某些数据点被分配到不同的子集中，从而影响聚类结果。

其次，由于每次迭代只是在子集上进行，可能导致聚类中心不断变化，从而影响聚类结果的稳定性。

因此，研究者们提出了一些改进方法来解决这些问题。

一种改进方法是基于谱聚类的分布式聚类算法。

谱聚类是一种基于图论的聚类算法，在处理大规模数据时具有较好的性能。

基于谱聚类的分布式算法将原始数据划分为多个子集，在每个子集上独立地进行谱聚类，并通过合并操作来得到最终结果。

另一种改进方法是基于层次聚类的分布式算法。

层次聚类是一种自底向上或自顶向下逐步合并或划分簇的方法，在处理大规模数据时具有较好的可扩展性。

基于层次聚类的分布式算法将原始数据划分为多个子集，并在每个子集上独立地进行层次聚类，并通过合并操作来得到最终结果。

除了以上两种改进方法外，还有其他一些新颖且有效的分布式聚类算法被提出。

一种基于滑动窗口的流数据聚类算法

⼀种基于滑动窗⼝的流数据聚类算法第⼀个以流数据为分析对象的聚类算法是由Sudipto Guha 等提出的STREAM 算法。

这种算法根据分治原理，使⽤⼀个不断迭代的过程实现有限空间对数据流进⾏K-means聚类，但该算法⽆法处理演化的数据流。

Aggarwal 在总结上述⽅法本质缺陷的基础上提出了⼀个数据流聚类框架Clustream[5]，其核⼼思想是将聚类过程分为在线和离线两个阶段。

在线部分的任务是存储数据流的汇总结果，⽣成⼀种称为微聚类的信息存储结构，并按⾦字塔式时间结构将中间结果进⾏保存。

离线部分既是根据⽤户指定的观察时段及聚类数量，快速⽣成聚类结果的过程。

CluStream 不⾜之处在于需要⽤户指定聚类簇数k，要求强⾏输⼊固定的聚类簇数必然影响真实的聚类形态分布。

同时，算法是以K-means 算法为基础，对⾮凸形状聚类效果不好，⽆法发现任意形状的聚类，且当噪声数据增多时，聚类质量急骤下降。

Aggarwal 等后续提出了专门针对⾼维连续属性数据流的HPStream 算法，该算法引⼊了⼦空间聚类，并提出了具有遗忘特性的聚类结构，使⽤⾼维投影技术和衰减结构来处理⾼维数据流，HPStream 算法对⾼维数据流具有很好的健壮性。

但算法中需要⽤户来指定平均聚类维数，⽤户⼀般并不具备这种领域知识，成为该算法的瓶颈。

Cao 等⼈提出了基于密度的两阶段聚类⽅法,即DenStream 算法，该算法仍然沿⽤CluStream 算法中的双层结构，创造性的引⼊了潜在微聚类簇和孤⽴点微聚类簇结构，具备对孤⽴点的分析能⼒，即随着数据流不断进化，算法可以识别在某⼀时间段有可能演变成聚类簇的孤⽴点或“潜在聚类”，从⽽更加准确的捕获真实的聚类形态。

但由于算法中采⽤全局⼀致的绝对密度作为参数，使得聚类结果对参数⼗分敏感，⽽且它不⽀持指定的时间窗⼝内实时数据流的演化分析。

受到⼴泛关注的3 类⽅法是基于⽹格的数据流聚类技术[6-9]、⼦空间聚类技术[7-9]、混合属性数据流聚类[10]，代表了当前数据流聚类研究的主流⽅向。

一种分布式的模糊聚类方法

一种分布式的模糊聚类方法
阎俊梅
【期刊名称】《山西大同大学学报（自然科学版）》
【年(卷),期】2011(027)001
【摘要】由于FCM算法中的初始值需要随机的设定,这种随机性不能保证每次都能达到全局最优,也就是说如果初始聚类中心的设置具有全局的特点,那么聚类的结果才能达到全局最优.因此主要针对模糊c-均值(FCM)聚类算法对初始值很敏感,而且容易陷入局部最优解的这一特点,提出了一种分布式的模糊聚类方法.首先用分治法得到模糊聚类的全局的聚类中心值,然后再用FCM进行聚类,从而克服FCM算法对初始值敏感和容易陷入局部最优解的缺陷,达到全局最优.经仿真实验证明结果是很理想的.
【总页数】3页(P3-4,11)
【作者】阎俊梅
【作者单位】山西大同大学数学与计算机科学学院,山西,大同,037009
【正文语种】中文
【中图分类】TP18
【相关文献】
1.一种分布式的模糊聚类方法 [J], 阎俊梅
2.DEN-Stream:一种分布式数据流聚类方法 [J], 李长路;王劲林;郭志川;韩锐
3.一种基于密度的分布式聚类方法 [J], 王岩;彭涛;韩佳育;刘露
4.一种基于轨迹数据密度分区的分布式并行聚类方法 [J], 王佳玉;张振宇;褚征;吴晓红
5.一种新的基于分布式入侵检测的警报聚类方法 [J], 冯光升;王慧强;武俊鹏;赵倩因版权原因，仅展示原文概要，查看原文内容请购买。

基于密度的数据流聚类算法

基于密度的数据流聚类算法赵焕平;雷蕾【期刊名称】《南阳理工学院学报》【年(卷),期】2012(004)002【摘要】为了提高数据流的聚类质量与效率，提出了一种基于密度的数据流聚类算法，该算法采用双层聚类框架，对于历史数据的遗忘问题采用了消逝策略和粒度调整策略，消逝策略能够处理噪声，节约内存；粒度调整策略检测当前的内存消耗，提高了聚类质量。

基于标准数据集和仿真数据集的实验表明，此算法是可行有效的，适合处理和分析大规模的快速数据流。

%Data stream clustering algorithm was improved in terms of cluster quality and efficiency. This paper presented a new data stream clustering algorithm based on density. The algorithm uses the double-layer clustering framework. It applied the fading and the size adjustment methods to solve the issue of forgotten of historical data. Fading can deal with noise, and reduced memory; size adjustment methods can detect the current memory consumption, and improve the clustering quality. The experiments based on the standard data sets and simulation data sets show that this algorithm is feasible and effective andit suit for processing and analysis of large-scale fast data stream.【总页数】4页(P72-75)【作者】赵焕平;雷蕾【作者单位】南阳理工学院计算与信息工程学院河南南阳473004;南阳理工学院软件学院河南南阳473004【正文语种】中文【中图分类】TP391.41【相关文献】1.基于质心距离和密度网格的数据流聚类算法 [J], 万新贵;李玲娟2.分布式实时日志密度数据流聚类算法及其基于Storm的实现 [J], 张辉;王成龙;王伟3.基于近邻传播与密度相融合的进化数据流聚类算法 [J], 邢长征;刘剑4.基于Storm的分布式实时数据流密度聚类算法 [J], 牛丽媛;张桂芸5.基于改进的密度空间聚类算法的网络恶意数据流检测策略 [J], 李卫华因版权原因，仅展示原文概要，查看原文内容请购买。

一种基于可变滑动窗口的数据流分段聚类算法

一种基于可变滑动窗口的数据流分段聚类算法栗磊;周云霞;张国强【摘要】数据流的应用越来越广泛,数据流挖掘成为数据挖掘的重点研究方向之一.在分析各种数据流聚类算法的基础上,提出了一种基于可变滑动窗口的数据流分段聚类算法.算法以时间序列数据流模式表示技术为参考,以去除噪音和压缩数据为目的,实现了数据流的特征提取和概要存储.实验表明,算法具有低时空复杂度、自适应等特点.【期刊名称】《科学技术与工程》【年(卷),期】2014(014)009【总页数】5页(P211-214,226)【关键词】数据流;数据流聚类;滑动窗口【作者】栗磊;周云霞;张国强【作者单位】东北石油大学;东北石油大学;大庆普华科创信息工程有限公司,大庆163318;大庆普华科创信息工程有限公司,大庆163318【正文语种】中文【中图分类】TP311.11近年来，随着各种信息技术的不断发展和融合，数据采集手段多样且方便快捷，各种各样的数据监控系统每时每刻都在产生一系列的数据流［1］(data stream，DS)。

当前，随着数据挖掘技术的不断发展，作为数据挖掘一个分支:数据流挖掘已成为数据挖掘领域的一个新的研究热点［2］。

数据流的概念最初是由Henzinger等人在1998年提出的［3］，可描述为:若令 t 表示任一时间戳(time stamp)，st表示在t时刻到达的数据元素，则数据流可以表示为无限集合:{…，st-1，st，st+1，…}。

然而，目前仍没有对数据流进行统一的定义。

数据流与其他数据相比有很多特性，其无限、即时等特性决定了要对其进行部分处理才能使得挖掘算法得到近似结果。

根据算法处理选择的时序范围，可将数据流模型分为:快照模型、界标模型和滑动窗口模型等，而滑动窗口模型是应用最广泛的模型。

根据实际应用环境的不同，还有一些改进的模型，如可变滑动窗口模型、动态滑动窗口模型、衰减滑动窗口模型和最大频率时间窗口模型［4］等，目的都是将无限的数据流表示为有限的数据流形式便于数据挖掘处理。

分布式数据流聚类算法

ｍｏｅａａｔｒｒｂａｎｄｂＭｌｏｉｍｉｈｉｅｓｉｅｔｉａａｕ．ＤＡＭ — ｓｅｍｒｓｎｓｅｓｔａｅｌｏｔｍｄｌｒｍｅｅｓａｅｏｔｉｅｙＥａｇｒｔｗｈｃｓｎｉｖｏｉｔｌｌｅｐｈｓｔｎｉｖＤｉｔａｐｅｅｔｎｉｂｓｄａｇｒｈｔｒｄｙｉｏ
ｃｔｏｃｔｏｈｅｓｓｅ．ａｉｎｏｓｆｔｙｔｍ
Ｋｅｒｓｄｓｉｕｅａａｓｒａｓｃｕｔｒｎ；ｄｎｉ —ａｅ；ｍｏｅ— ａｅ；ｄｔｎｎｙｗｏｄ：ｉｌｂｔｄｄｔｔｍ；ｌｓｉｇｅｓｔｂｓｄｒｅｅｙｄｌｂｓｄａａｍｉｉｇ
０引言
为了适应Ｉｔｍｅｎｅｔ传感器网络、以及ＰＰ算等这些应用２计的要求，布式数据流挖掘技术尤其是聚类分析成为当前数分
部站点不能传送聚类簇的完整描述，而是传递每个簇的近似概括，即簇的充分统计量。中心站点则需要综合分析、理各处个局部站点上传的统计信息，到一个全局的聚类描述。得
ｌｗｅｏｏｒｍｍｕｉａｉｎｃｓｓＤＡＭ — ｓｅｍ，ａｌｓｒｎｌｏｔｍｏｉｉｇｄｎｉｔｏｄｍｏｅｔｏｒｐｓｄ１ｌ１ｃｎｃｔｏｔ，ｏＤｉｔａｒｕｔｉｇａｇｒｈｃｍｂｎｎｅｓｔｍｅｈｄａｄｌｃｅｉｙｎｍｅｈｄｉｐｏｏｅ．１ｅ一ｓａ

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

关键词：分布式数据流；数据挖掘；聚类；聚类演化；代表点中图分类号：Ｔ３１Ｐ１文献标志码：Ａ文章编号：１０ —６５２１）８２４ —４０１３９（０２０・８５０
ｄｉ１．９９ｊｉｎ１０・６５２１．８０１ｏ：０３６／．ｓ．０１３９．０２０．１ｓ
ｅｐｅｉｎａｅｕｔｅｌａｄｓｎｈｔｃｄｔｓｔｍｏｓｒｔｈａｈｅａｇｒｔｍａｎｄｔｌｔｒｎｄｉｅｅｔｓａｓａｄｘｒｍｅｔｌｒｓｌｓｏｎｒａｎｙｔｅｉａａｅｓｄｅｎｔａｅｔｔｔｌｏｉｈｃｎｆｈｅｃｕｓｅｓｉｆｒｎｈｐｅｎｉｆ
ＡｂｔａｔＴｎｈｌｓｒｆｄｆｒｎｈｐｓｕｄｒｔｅｄｓｂｔｄｄｔｔｅｍｓｅｖｒｎｎ，ｈｓｐｐｒｐｏｏｅｈｓｒｃ：ｏｆｄｔｅｃｕｔｓｏｉｅｅｔｓａｅｎｅｈｉｔｕｅａａｓｒａｎｉｍｅｔｔｉａｅｒｐｓｄｔｅｉｅｆｉｒｏｒｐｅｅｔｔｅｂｓｄｃｕｔｒｇａｇｒｔｍ．ｉｔｉｐｅｅｔｄｔｅｃｎｅｔｆｉｕａ — ｏｎａｅｎｔｅｒｐｅｅｔｔｅｐｉｔａｄｅｒｓｎａｉ・ａｅｌｓｅｉｌｏｈＦｒ，ｒｓｎｅｈｏｃｐｒｌｒｐｉｔｓｄｏｈｅｒｓｎａｉｏｎｓｎｖｎｉｓｔｏｃｃｂｖ
Ｓｃｎｌｔｄｓｇｅｔｅｌｏｉｍｏｅｅａｅｌｂｌｌｓｅｓｂｃｍｂｎｎｈｌｃｌｅｏｄｙｉｅｉｎｄｈａｇｒｈｔｇｎｒｔｇｏａｃｕｔｒｙｏｉｉｇｔｅｏａｍｏｅｓａｃｏｄｎｔｒｉ．Ｔｅｔｄｌｔｏｒｉａｏｓｅｈｔ
ｄｓｇｄｔｅｉｅａｉｅａｇｒｔｍｏｆｎｄｔｅｄｎｉｃｎｎｃｅｉｃｌｒｐｉｔｔｅｅｅａｅｈｏａｄｌａｈｅｒｍｏｅｓｔｅｉｎｅｈｔｒｔｖｌｏｈｔｉｉｈｅｓｔｏｅｔｄｃｒｕａ — ｏｎｓ，ｈｎｇｎｒｔｄｔｅｌｃｌｍｏｅｔｔｅｔｉｅ．ｙ—
第２９卷第８期
２１０２年８月
计算机应用研究
ＡｐｌａｉｎＲｅｅｒｈｏｏｕｅｓｐｉｔｓａｃｆＣｍｐｔｒｃｏ
Ｖ０＿９Ｎｏ８ｌ２．Ａｕ．２２ｇ０１
一
种基于代表点的分布式数据流聚类算法术
的基础上，出环点的概念以及迭代查找密度相连环点的算法，此基础上生成远程站点的局部模型；提在然后在协
调站点设计合并局部模型，生成全局聚簇的算法。通过真实数据集与仿真数据集的实验表明，算法使用代表点
能够发现不同形状的聚簇并显著降低数据传输量，同时通过测试一更新局部模ห้องสมุดไป่ตู้型算法避免了频繁发送数据。
ｓｒｔｇｔａｅＹ．
Ｋｅｒｓｙｗｏｄ：ｄｓｒｕｅａａｓｒａ；ｄｔｎｎ；ｃｕｔｒｎ；ｃｕｔｒｅｏｖｎ；ｒｐｅｅｔｔｅｐｉｔｉｉｔｄｄｔｔｅｍｔｂａａｍｉｉｇｌｓｅｉｇｌｓｖｌｉｇｅｒｓｎａｉｏｎｅｖ
高兵，张健沛，杨静
（．尔滨工程大学计算机科学与技术学院，尔滨１００；２大连东软信息学院计算机系，宁大连１哈哈５０１．辽
１６２）１０３
摘
要：为发现分布式数据流下不同形状的聚簇，出了一种基于代表点的聚类算法。算法首先在代表点定义提
ｒｄｃｈａａｔｎｍｉｓｏｙｕｉｇｒｐｅｅｔｔｅｐｉｔ，ｗｈｌａｏｄｎｒｑｅｔｅｄｎａａｔｒｕｈｔｅｔｓｕｄｔｅｕｅｔｅｄｔｒｓｓｉｎｂｓｎｅｒｓｎａｉｏｎｓａｖｉｖｉｉｇｆｕｎｌｓｎｉｇｄｔｈｏｇｈｅｔｐａｅｅｅｙ —
Ｒｅｒｓｎａｉｅｂｓｄｄｓｒｂｔａａｓｒａｃｕｔｒｎｌｏｉｈｐｅｅｔｔｖ — ａｅｉｔｉｕｅｄｔｔｅｍｌｓｅｉｇａｇｒｔｍ
ＧＡＯＢｉｇ，ＺｎＨＡＮＧｉｎｐｉＪａ — ｅ，ＹＡＮＧｉｇＪｎ
（．ｏｅｅｏｏｐｔｃｎｅ＆ＴｃｎｌｙＨｒｉｎｉｅｉｎｖｒｔ，Ｈｒｉ５０１Ｃｉａ．ｐ．ｏｏｐｔ，ａｉｎＮｕ１ＣｌｇｌｆＣｍｕｅＳｉｃｒｅｅｈｏｏ，ａｂＥｇｎｒｇＵｉｓｙａｂ１００，ｈｎ；２ＤｅｔｆＣｍｕｅＤｌｅｓｇｎｅｎｅｉｎｒａＩｏｍｔｎＣｌｇ，ｌｎＬａｎｎ１０３ｈｎ）ｎｒａｉｏｌｅＤａｉｉｏｉ１６２，Ｃｉｆｏｅａｇａ