分布式数据流聚类算法
基于近邻传播的分布式数据流聚类算法

摘
要: 针对 分布 式数据 流聚类算法存在的聚类质量 不高、 通信代价 大的 问题 , 提 出了密度和代 表点 聚类思想相
结合的分布式数据流聚类算 法。该 算法的局部站 点采用近邻传播聚 类 , 引入 了类簇代表 点的概 念来描述局 部分布 的
概 要信息 , 全局站 点采 用基 于改进的 密度聚类 算法合 并局部站 点上传 的概 要数据 结构进 而获得 全局模 型。仿真 实验
文献标志码 : A
Di s t r i b ut e d da t a s t r e a m c l us t e r i n g a l g o r i t hm b a s e d o n a i n f i t y p r o pa g a t i o n
i n t r o d u c e d i n t h e l o c a l s i t e s u s i n g a f i f n i t y p r o p a g a t i o n c l u s t e i r n g , wh i l e t h e g l o b a l s i t e g o t t h e g l o b a l mo d e l b y me r g i n g t h e
J o u na r l o f C o mp u t e r A p p l i c a t i o n s
I SS N 1 0 01 — 9 0 81
2 01 3. 09。 01
计算机应用, 2 0 1 3 , 3 3 ( 9 ) : 2 4 7 7— 2 4 8 1
基 于 近 邻 传 播 的分 布 式 数 据 流 聚 类 算 法
张 建 朋 , 金 鑫 ,陈福 才 , 陈鸿 昶 ,侯 颖
基于倾斜分布的变流速数据流聚类算法

上进行 测 试 ,结果 表 明 ,与 T D C A算 法相 比 ,该算 法在 聚类 过程 中可 以提 高 4 0 %的访 问速度 ,应 用剪 枝策 略节 省至 少一 半 的内存 使 用量 ,同 时在变 流速 的数 据流 环境 下将 聚类 结果 的平均 纯度 保持在 9 0 %以上 。 关 健词 :数据 流 ;聚类 ;时态密 度 ;倾斜 分布 ;剪 枝 ;变 流速
Ba s e d o n a n e x t e ns i o n of t he R— t r e e s t r u c t u r e a s t h e or ga ni z a t i o n of g r i d c e l l i n d e x s t r u c t ur e , i t i n t r o du c e s pr u ni ng s t r a t e g y o n t h e b a s i s o f
分布式密度和中心点数据流聚类算法的研究

法具 有较高的数据流聚类质量 , 并且有效降低系统的通信代价 。
1 基 本 概 念
由于实际数据流应用 中大多 为进化 的数据 流 , 即随着时 间
e f f e c t i v e f o r n o n — s p h e r i c a l c l u s t e r .T h e a l g o r i t h m a p p l i e s t h e d e n s i t y ,c e n t r e p o i n t s a n d d e c a y t i me w i n d o ws me c h ni a s m,c l u s t e r s t h e d a t a
c l u s t e i r n g a l g o i r t h m w h i c h i s b a s e d o n d e n s i t y a n d c e n t r e p o i n t s n a m e d t h e D D C S — c l u s t e i r n g a i m i n g a t t h a t t h e C l u S t r e a m a l g o i r t h m i s l e s s
口, 在分布 式环境 下对数据流进行聚 类。实验 结果表明 , D D C S — C l u s t e r i n g算法具有 较高的聚类质量与较低 的通信代价。 关键词
中 图分 类 号
密度 中心点 分布 式 数据流聚类
T P 3 9 文献标识码 A D O I : 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 0 - 3 8 6 x . 2 0 1 3 . 1 0 . 0 5 0
基于MapReduce的分布式网络数据聚类算法

CHE N Do n g - mi n g , LI U J i a n , W ANG Do n g - q i , XU Xi a o - we i
( 1 . S c h o o l o f S o t f wa r e , No r t h e a s t e r n Un i v e r s i t y , S h e n y a n g 1 1 0 8 1 9 , C h i n a ;
文献标识 码: A
中图 分类号: T P 3 0 1 . 6
基 于 Ma p Re d u c e的分布 式 网络 数据 聚 类算 法
陈东明 ,刘 健 ,王冬琦 , 徐晓伟
( 1 . 东 北大学软 件学 院 ,沈 阳 1 1 0 8 1 9 ;2 . 阿肯色 大学 小石 城分校 信息 科学 系 ,美 国 小 石城 7 2 2 0 4 ) 摘 要 :时空 复杂 度 较高 以及物 理机 器 内存 不 足 ,会导 致 传统 聚 类 算法 不能 有效 地 分析 处理 大 规模 数 据 网络 。针对 该 问题 ,在
n o t e f f e c t i v e l y a n a l y z e a nd d e a l wi t h l a r g e d a t a ne t wo r k .To s o l v e t hi s p r o b l e m ,t hi s p a pe r p r o p os e s a di s t r i b u t e d c l u s t e r i n g a l g o r i t h m f o r
存开销 。使 用模拟 生成 的数据 在集 群 中进行 实验 ,结 果表 明 ,当数 据规 模和集 群 规模增 大 时 , 该 算法 具 有较 好 的加速 比和扩 展性 。 关健词 :聚类算 法 ;分布 式聚类 ;Ma p R e d u c e 编程 模型 ;数据 挖掘 ;社 团结构
分布式聚类算法

分布式聚类算法分布式聚类算法是一种将数据分布在多个计算节点上进行聚类分析的算法。
随着大数据时代的到来,传统的单机聚类算法在处理大规模数据时面临着计算资源不足、运行时间过长等问题。
而分布式聚类算法通过将数据划分到多个节点上进行并行计算,不仅能够充分利用集群资源,提高计算效率,还能够处理大规模数据集。
在传统的单机聚类算法中,常用的方法有K-means、层次聚类等。
然而,在处理大规模数据集时,这些方法往往面临着运行时间过长、内存不足等问题。
因此,研究者们开始关注如何将这些方法扩展到分布式环境下。
一种常用的分布式聚类算法是基于MapReduce框架的并行K-means。
MapReduce框架是一种用于处理大规模数据集的并行计算模型,在Google提出后得到了广泛应用。
基于MapReduce框架的并行K-means将原始数据划分为多个子集,在每个子集上独立地进行K-means迭代,并通过Reduce操作来合并各个子集得到最终结果。
然而,并行K-means也存在一些问题。
首先,由于数据的划分是随机的,可能导致某些数据点被分配到不同的子集中,从而影响聚类结果。
其次,由于每次迭代只是在子集上进行,可能导致聚类中心不断变化,从而影响聚类结果的稳定性。
因此,研究者们提出了一些改进方法来解决这些问题。
一种改进方法是基于谱聚类的分布式聚类算法。
谱聚类是一种基于图论的聚类算法,在处理大规模数据时具有较好的性能。
基于谱聚类的分布式算法将原始数据划分为多个子集,在每个子集上独立地进行谱聚类,并通过合并操作来得到最终结果。
另一种改进方法是基于层次聚类的分布式算法。
层次聚类是一种自底向上或自顶向下逐步合并或划分簇的方法,在处理大规模数据时具有较好的可扩展性。
基于层次聚类的分布式算法将原始数据划分为多个子集,并在每个子集上独立地进行层次聚类,并通过合并操作来得到最终结果。
除了以上两种改进方法外,还有其他一些新颖且有效的分布式聚类算法被提出。
一种基于代表点的分布式数据流聚类算法

di1 .9 9 j i n 1 0 ・6 5 2 1 . 80 1 o:0 3 6 /.s .0 13 9 .0 2 0 . 1 s
e pei n a e u t e la d s n h tc d ts t mo sr t ha he ag rt m a nd t l tr n di e e ts a s a d x rme t lr s lson r a n y t ei a a esde n tae t tt lo ih c n f he cuse s i f r n h pe n i f
Ab t a t T n h l s r fd f r n h p s u d r t e d s b t d d t te ms e vr n n ,h s p p r p o o e h s r c : o f d t e cu t s o i e e ts a e n e h it u e aa sr a n i me t t i a e rp s d t e i e f i r o rp e e tt e b s d cu tr ga g rtm. i t i p e e td t e c n e t f i u a — o n a e n t e rp e e tt e p i t a d e r s na i ・ a e lse i lo h F r , rs ne h o c p r lrp i t s d o h e r s na i on s n v n i s t occ b v
分布式实时流数据聚类算法及其基于Storm的实现

分布式实时流数据聚类算法及其基于Storm的实现马可;李玲娟【期刊名称】《南京邮电大学学报(自然科学版)》【年(卷),期】2016(036)002【摘要】为了提高流数据聚类效率,文中基于经典流聚类算法CluStream的思想和Storm的计算架构,设计了一种分布式实时流聚类算法(distributed real time clustering algorithm for stream data,DRCluStream).该算法运用滑动时间窗口机制实现多粒度的数据存储;将流数据的在线微聚类部分拆分成局部和全局两个部分做分布式计算,第一部分由多个线程并行进行微簇的局部增量更新,第二部分合并微簇的局部增量结果来更新全局微簇.还设计了DRCluStream算法基于Storm的实现方案,通过使用消息中间件Kafka和合理部署Storm的拓扑对DRCluStream 算法进行实现.性能分析及实验结果表明:DRCluStream算法的聚类精度与K-Means相近,且随着local节点(local bolt线程)的增加聚类精度保持稳定,而计算效率呈近线性提升.【总页数】7页(P104-110)【作者】马可;李玲娟【作者单位】南京邮电大学计算机学院,江苏南京210023;南京邮电大学计算机学院,江苏南京210023【正文语种】中文【中图分类】TP391【相关文献】1.分布式实时日志密度数据流聚类算法及其基于Storm的实现 [J], 张辉;王成龙;王伟2.基于Storm的流数据KNN分类算法的研究与实现 [J], 周志阳;冯百明;杨朋霖;温向慧3.基于Storm的分布式实时信号处理系统 [J], 周明阳;闫超;郭良浩;徐鹏;任岁玲4.分布式数据流聚类算法及其基于Storm的实现 [J], 万新贵;李玲娟;马可5.基于Storm的分布式实时数据流密度聚类算法 [J], 牛丽媛;张桂芸因版权原因,仅展示原文概要,查看原文内容请购买。
分布式数据流聚类算法及其基于Storm的实现

t a n c e a n d d e n s i t y g i r d( n me a d a s CD D— S t r e m )h a a s b e e n d e s i g n e d a n d p r o p o s e d , a n d a d i s t r i b u t e d d a t a s r t e a m c l u s t e i r n g a l g o i r t h m DC D
第2 7卷 第 7期 2 0 1 7年 7月
计 算 机 技 术 与 发 展
C0MPU TER TECHNOLOGY AND DEVE LOP MENT
Vo 1 . 27 No . 7 01 7 J u l y 2
分 布 式 数 据 流 聚 类算 法及 其 基 于 S t o r m 的 实现
Ab s t r a c t : I n o r d e r t O i mp r o v e t h e e ic f i e n c y o f da t a s t r e a m c l u s t e r i n g a l g o it r hm , a d a t a s t r e a m c l u s t e in r g a l g o it r h m b a s e d o n c e n t r o i d d i s -
中 图分类 号 : T P 3 1 1 文献 标识码 : A 文章 编号 : 1 6 7 3 - 6 2 9 X( 2 0 l 7 ) 0 7 - 0 1 5 0 - 0 6
d o i : 1 0 . 3 9 6 9 / j . i s s n . 1 6 7 3 — 6 2 9 X. 2 0 1 7 . 0 7 . 0 3 4
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
mo e aa tr r ban db M loi m ihi e s iet i a au . DAM — s e m rsn s e st ae lo tm d l rmeesaeo tie yE ag rt whc sn iv oi t l le p h s t n i v Dit a pe e t n i b s dag r h t r d y i o
c to c to hes se . ai n os ft y tm
Ke r s ds iu e aasra s cu trn ; d n i —a e ; mo e— ae ; d t nn ywo d : il b tdd t t m ; ls i g e st b sd r e e y d lb s d aamiig
0 引 言
为 了 适 应 Itme ne t传 感 器 网络 、 以及 P P 算 等 这 些 应 用 2计 的 要 求 , 布 式 数 据 流 挖 掘 技 术 尤 其 是 聚 类 分 析 成 为 当前 数 分
部站 点 不 能 传 送 聚 类 簇 的 完 整 描 述 ,而 是 传 递 每 个 簇 的近 似 概括 , 即簇 的 充 分 统 计 量 。中心 站 点 则 需 要 综 合 分 析 、 理各 处 个 局 部 站 点 上 传 的统 计 信 息 , 到 一 个 全 局 的聚 类 描 述 。 得
l we o o r mmu iai nc ss DAM — s e m, a l s rn lo t m o i i gd n i t o dmo e t o r p s d 1 l 1 c n c t o t, o Dit a r u ti g ag r h c mb n n e st meh da d l c e i y n meh di p o o e . 1e 一 s a
在 一 个 地 方 , 聚 类 处 理 在 不 同机 器 上 执 行 并 存 取 同一 数 据 , 而
tr o GM M . E p rme s o t a i c ni r v t ecu tr gq ai f aa s e msi itiu e y msa dr d c h o es f x e l m h w h t t a mp o e h l s i e n u lyo d t r a t t nd s b tds  ̄e n e u et ec mmu l r n—
1 混 合 高 斯模 型 . 1
混 合 高 斯 模 型 被 定 义 为 个 高 斯 密 度 函数 的 线 性 组 合 , 它 能 够 很 好 地 刻 画 数 据 的 空 间 分 布 特 性 。混 合 高 斯 模 型 是 一
种 半 参 数 的 密 度 估 计 方 法 ,它 融 合 了参 数 估 计 法 和 非 参 数 估
率 的 分 布 式 算 法 来 降低 通 讯 负 担 、 央 存 储 和 计 算 时 间 。局 中
收稿 日 :2 1 - . ;修订 日期:2 1—1 4 期 0 0 80 0 3 0 01— 。 2 基金项目:国家 83高技术研究发展计划基金项 目 (0 8 0 10 ) 6 2 0 AA 10 1
cu tr a r a r t t a , t e r h t es i b ei i a a a tr r u sa x u emo e . S c n , EM l o t m e l se t s e msa f s, h t s os a c u t l t l r mee sf da t t i i h a n i p o Ga s inmi t r d 1 e o d ag r h i u d i s s t t r t ecu t r g a dt e h lo i oi ai e v l ei , n s n h nt eag r h t m d tr n s At a t t e e e mie . l s h mo e s l u l a e t h e ta i , d l ae p o d d ot ec n l t r s e ̄r eit g a e r a me t h t n e r t dt t n . e
moe dsem)该算 法 不 需要 事 先 设 定 簇 的个 数 , 获 得性 能 d1 ir , . ta 能 较 优 的模 型 参 数 , 具 备 跟 踪 数 据 流 聚 类 模 型变 化 的 能力 , 并 在
降 低 系 统 的通 信 代 价 的 同 时 能有 效 提 高 分 布 式 环 境 下 数 据 流
摘 要: 针对 分布式数据 流 中数据有 交 叠、 不完整 的情 况和聚类 需要 较低通信 代价的要 求 , 出了密度 和模型聚 类思想相结 提
合 的分布 式数据流 聚类算法 D M—ira 该 算法 利用混合 高斯模 型描述数据 流的分 布概 况 , 以有 效压缩数据量 并能较 好 A D sem。 t 可 的反映分 布数 据流 间的交 叠性 。 由于获得模型 参数的 E 算法对初值敏 感 , M 应用 H e dn 界 理论和基 于密度 的算 法对 数据 流 of ig 进行初聚 类, 得到 比较 准确 的初始参数 , 最后 采用合 并近似模 型策略 获得 全局模 型。仿真 实验 结果表 明, A Dsem能有 D M- ir ta 效克服 E 算法的缺点 , M 获得 的模型 参数性 能更优 , 在降低 系统的通信代价 的 同时能提 高分布 式环境 下数据 流 的聚 类质 量。
g ftm s s eGa s inmi t r d lod s r et e aas e ms o n t e o a it b t nst s o h u e u s xu emo e e c b t r a wi gi ot c l sr u i i .Ho v r i h t a t i h d t l f n h l d i o e we e,Ga s i xu e u sa mi t r n
Ex ei na s l h w a p rme tleu ts o t t r s h DAM - sra c le e t eyo e metes oto ng fh Dit m al f ci l v  ̄o rc mi s eEM lo tm n ba etr aa - e v h h o t ag r h a do ti b t rme i n ep
Ab t a t Ac o dn ec n i o a e ea es meo e lp a d mis g d t it b td d t r a s a d t e en e so sr c : c r i gt t o d t nt t h r r o v r n s i aa i d s u e a s e m , n me t e d f oh i h t a n n i r a t o h t
20 2 1,V 1 2 N . 计 算 机 工 程 与 设 计 C m ueE gneig n D s n 78 01 o. , o8 3 o pt nier d ei r na g
分布式数据流聚类算法
刘 力 雄 , 郭 云 飞 , 康 晶 , 马 宏
( 家数 字 交换 系统 工程技 术研 究 中心 , 河 南 郑 州 4 0 0 ) 国 50 2
本 文 基 于 文 献 [] 框 架 , 出 了 结合 密 度 和 模 型 聚 类 思 1中 提
想 的 分 布 式 数 据 流 聚 类 算 法 — — D M. s em (esyad A Dir t a dni n t
据 挖 掘 领 域 的一 个 研 究 热 点 “ 。 目前 主 流 的 分 布 式 数 据 流 聚 类 的基 本 框 架 是 每 个 站 点 对 各 自的 数 据 流 进 行 聚 类 分 析 ,
关键 词 : 布 式 数 据 流 ; 聚 类 ; 基 于 密度 ; 基 于 模 型 ; 数 据 挖 掘 分
中图法分 类号 :P 1 T31
文献标 识码 : A
文章编号 :0 072 2 l) 8 7 80 10-0 4(0 10 - 0 -4 2
Cl se i gag r h o e it b td d t te m u trn lo i m v rd s i u e aasr a t r
LI Lix o g GU O n f i K G i g M A n U - i n , Yu —e , AN Jn , Ho g
( a o aDi t w t ig ytm E g er gadTcncl eerh et , Z eg h u 5 0 2 C ia N t nl g a S i hn s n i ei eh i sa ne i il c S e n n n aR cC r hn z o 0 0 , hn) 4
算 法 的 模 型 应 该 具 备 跟 踪 变 化 的 能 力 , 且 应 该 有完 整 的 新 并 陈代 谢 功 能 。③ 要 聚 类 非 常 巨大 的 分 布 式 数 据 流 ,需 要 有 效
1 相 关 概 念
许 多 自然 界 和 社 会 系 统 模 型 都 表 现 出符 合 某 种 分 布 。 只
刘力雄 ,郭 云飞,康 晶,等:分 布式数据 流聚类算法
某 个 混合 高 斯 模 型 有 效 地 近 似 表 示 。
2 1, o.2 N . 2 0 0 1 V 1 , o8 7 9 3
表 1 分布 式环 境下 聚类 分 析
集中化聚类 ( C C )
集 中化 聚 类 ( c) C 分布式聚类 ( Dc) C C D. C C DC D.
后传送各个站 点间的聚类模 型, 最
后 通 过 分 析 处 理 得 到全 局 聚 类 结 果 nl 其 主 要 要 求 包 括 : ,。 1 J ①
流 数 据 可 聚 成 的簇 的个 数 是 在 不 断变 化 的 , 因此 不 能 给 定 一 个 固 定 的值 作 为参 数 。 流 数 据 的结 构 和 分 布 是 不 断 变 化 的 。 ②