分布式数据挖掘研究

合集下载

基于数据挖掘的分布式电网故障检测与分类策略

基于数据挖掘的分布式电网故障检测与分类策略
刘伟;蒙永苹;张明媚;欧睿;许懿
【期刊名称】《电气自动化》
【年(卷),期】2024(46)3
【摘要】分布式能源入网规模的日益增大对传统过流继电器的故障检测及分类产
生了重大影响。

通过新兴的图学习技术构建了能有效检测分布式电网故障的时空递归图神经网络模型。

该神经网络结构可以通过检测母线电压单元数据来提取时空特征,并根据数据的时空特征进行故障事件检测、故障类型分类、故障相位识别及故
障定位。

在IEEE 123节点系统上进行仿真模拟。

结果表明,所提的基于电压测量的故障诊断策略与已有的传统方案相比具有较高的精度。

所提策略仅需要提取电压信号而非电流信号,不受继电器安装数量的限制,因此所提策略更具有实操性与通用性。

【总页数】5页(P104-107)
【作者】刘伟;蒙永苹;张明媚;欧睿;许懿
【作者单位】国网重庆市电力公司
【正文语种】中文
【中图分类】TM727
【相关文献】
1.基于Prony算法的风光分布式高压电网故障检测技术研究
2.基于GIS的电网地
理信息分布式数据挖掘3.基于元胞自动机的分布式数据挖掘分类器4.基于判断聚
合的分布式数据挖掘分类算法研究5.基于融合深度特征的含分布式电源配电网智能故障检测
因版权原因，仅展示原文概要，查看原文内容请购买。

基于星型网络的分布式关联规则挖掘算法研究

掘算法。基于Ａｐｉｉｒ算法，ｏ首先将项目长度为１项作为候选
集，扫描数据库，找出支持度大于最小支持度ｍｉｓｐ的项集，ｎｕ称为局部大项集。然后将局部大项集发送到中心结点，断判
其是否为全局大项集。在长度为ｋ的大项集的基础上生成长度为ｋ＋１的大项集，次进行数据库扫描，再最后找出所有的大项集。该算法同ＦＤＭ的区别在于，发现一个结点中局部大项集并不是发往各个结点，而是同中心结点进行信息交换。设ｆｉ，ｉ，，）目的集合，一｛２ … ｉ项事务￡ｆ的子集。是设事务数据库ＤＢ是由事务￡组成的集合，数量为Ｄ。ＤＢ＝｛ＤＢ，，，ＤＢ， … ＤＢ）大小分别为Ｄ一｛，，，｝ＤＤｚ … ＤＩ。项
缺点，出了一种在星形结构下的分布式关联规则挖掘算法（ＤＡＭ）提Ｓ。该算法改进了ＦＭ算法，Ｄ具有通讯量低、并行性及可扩展性好等优点。关键词数据挖掘，关联规则，分布式数据库，并行计算
ＳｕｙｏｆＳａ－ａｅｓｒｂｔｓｃａｉｎＲｕｌｓＭｉｉｇｒｔｔｄｔｒｂｓｄＤｉｔｉｕｅＡｓｏｉｔｏｄｅｎｎｇＡｌｏｉｈｍ
随着Ｉｔｒｅ的发展，布式数据库是一种极其广泛的ｎｅｎｔ分应用环境。如银行的存取款数据、大型超市的客户销售记录都保存在不同的区域服务器中。因此在分布式环境下利用
Ｉｔｒｅ网络环境进行数据挖掘是目前数据挖掘领域研究的ｎｅｎｔ

基于自适应蚁群算法的分布式分类规则挖掘算法

布式挖掘代理完成分布式数据挖掘任务。由于对
２基于蚁群算法的分布式分类规则挖掘算法
２分布式分类规则挖掘系统结构．１
分布式数据库是一组数据集，辑上它们属于逻同一个系统，物理上它们却分散在用计算机网络而
形式的分类规则。另外，该算法针对的是单一数据库，其单一数据库基本挖掘思想是：条件项当作将蚂蚁的候选路径。按照由信息素和启发式函数值决定的可能性大小．定选择的条件项，加到当确添
Ｉ（ｒｌＮｒ２ＡＤＴＥ＜ａｓＦｔｍＤｔｍＮ …）ＨＮｃｓ）ｅＡｅｌ
连接的多个场地上。由于分布性，对它们的管理及
处理难以集中控制，分散与集中是主要的管理特色。在文献［］，据源只有一个，７中数蚂蚁是一个接
一
个地构建一条规则。但在分布式环境下。在多存
个数据源，因此，需采用不同的处理过程。典型的分布式数据挖掘算法的两个基本步骤是［］部数据ｓ：・局
分析，生成局部数据模型；组合不同数据站点上的局
２０年９８０６月日收到第一作者简介：志远（９１）男，族。南新蔡人，士研究生。侯１８一，汉河硕研究方向：群算法与分类规则挖掘。蚁
其中。一个条件元素是一个三元组（征属每特

分布式数据挖掘中间层

研究人员在开发数据挖掘系统的时候，常不能直接使用已通
（）数据挖掘系统读取源数据，行算法计算，通过并３进并
行编译环境交流彼此的中间运算结果。这个阶段是数据挖掘耗时最多的阶段。本文利用缓冲机制和负载平衡机制来加快
１引言
目前数据挖掘的应用日益增多。一般数据挖掘对于计算
或以数据文件方式存放。
虽然利用数据库来存放数据可以很方便地进行数据整理
和清洗的工作，足在并行数据挖掘时却会导致瓶颈。分布但
能力的需求都非常高，百兆的数据进行挖掘常常需要数小数
ＡｂｔａｔＡｎｉｔｇａｅｏｕｉｎｔｉｌｙｄｖｌｐｎｎｉｔｉｉｇｄｓｒｂｔｄｐｒｌｅａａｍｉｉｇｓｓｅｉｌｓｅｙｔｍｓｓｒｃ：ｅｒｔｄｓｌｔｏｏｓｍｐｉｅｅｏｉｇａｄｍａｎａｎｎｉｔｕｅａａｌｌｔｎｎｙｔｍｎｃｕｔｒｓｓｅｗａｎｆｉｄ
进行总和，成最后的结果。生
（）用可视化程序显示结果。５调
数据访问模块ｌ数据服务模块Ｊｌ数据访问模块ｌ数据服务模块
法只需调用笔者提供的接口来读取数据就可以很容易地应用到笔者的中间层中来。开发数据挖掘系统因此变得简单，系统的可维护性和可扩展性得到增强。
班桦，吴耿锋，吴绍春
（海大学计算机工程与科学学院，上海２０７）上００２
摘要：如何简化机群系统上分布式数据挖掘系统的开发和维护，出了一个完整的解决方案，对给并对数据挖掘系统的非算

分布式关联规则挖掘研究

的分布式关联规则挖掘算法大多都是基于Ａｒｒ算法思想的，Ｃｐｉｉｏ如Ｄ算法和ＦＭ算法就是在Ａｒｒ算Ｄｐｉｉｏ法的基础上实现的分布式关联规则挖掘算法．ＣＤ算法是最典型的Ａｒｒ算法的并行化，由于Ｃｐｉｉｏ但Ｄ算法不管候选项集是否频繁，站点之间都传递候选项集的信息，严重浪费了通讯资源的带宽，导致在候选项集过多的时候会在很大程度上影响算法的执
ａｇｒｔｍｓｓｇｏａ—ｏａｏｌｏｉｈｕｅｌｂｌｌｃｌｃｍｍｕｃｔｄｎｉａｉｍｏｅ，ｂｌｓａｆｅｅｔｍａｋｆｒｅｃａｄｉａｅｉｅｓｔｒｎｓｔｅｕｅｔｏｎｕｉｒｑｕｎｒｏａｈｃｎｄｔｔｍｅ，ｔａｍｉｓｆｑｎｄｒ
Ｖｏ．３Ｎｏ４１３．
Ｄｅ２０ｃ，０１
分布式关联规则挖掘研究
王治和，永霞，景杜辉
（北师范大学数学与信息科学学院，肃兰州７０７）西甘３００
［要］针对分布式关联规则挖掘算法ＦＭ可能造成频繁项集丢失的缺点，出了一种改进的分布式环境下摘Ｄ提关联规则挖掘算法．算法采用全局～部通信模式，过对候选项集建立对应的频繁标记，频繁标记和频繁该局
南京ｌ』‘报（Ｊ＼ｌＪＪ自然科学版）

基于Multi—agents系统的分布式数据挖掘

的设计。
由此可见，ｅｔｇＡｎ在分布式环境中的应用已经得到了发展，在解决分布式问题上产生了一些实际的效果。本文主并要讨论如何采用ａｅｔｇｎ技术来实现分布式数据挖掘［，］包１Ｕ，０
数据挖掘是用于在大规模数据集中获取感兴趣知识的过
台，构架了Ｏｅｅｔｃｉｃｕｅ（ＡＡ框架）ｐｎＡｇｎｈｔｔｒＯＡｒｅ。将每个用户功能可以抽象为一个ａｅｔ可以向系统提供服务，ｇｎ，也能向
程。传统的数据挖掘系统［设计大多是面向于集中式数据集１］合进行的。然而随着网络的发展，大块的数据分散位于不同
ｓｍｅｒｐｅｅｔｔｖｇｎ－ａｅｓｒｕｅｔｉｉｇｓｓｅｓｔｌｓ，ｔｅｆｔｒｒｆｔｅａｅ．ｏｅｒｓｎａｉｅａｅｔｂｓｄＤｉｔｉｔｄＤａａＭｎｎｙｔｍ，ａａｔｈｕｕｅｗｏｋｏｈｒａｂＫｅｗｏｄＤａａｍｉｉｇｙｒｓｔｎｎ，Ｄｉｔｉｕｅａａｍｉｉｇ，ｔｎｎａｅｎｍｕｔａｅｔｓｓｅｓｒｔｄｄｔｎｎＤａａｍｉｉｇｂｓｄｏｌｉｇｎｙｔｍｂ —
维普资讯
计算机科学２０Ｖｏ．４Ｑｔ０７１Ｎ．２３
基于Ｍｕｔａｅｔｌ—ｇｎｓ系统的分布式数据挖掘 ’ ｉ
庄艳陈继明徐丹潘金贵（南京大学计算机软件新技术国家重点实验室南京２０９）１０３

分布式环境下的序列模式发现研究

第43卷　第5期2004年10月复旦学报(自然科学版)Journal of Fudan University(Natural Science)Vol.43No.5Oct.2004 文章编号:042727104(2004)0520737205Ξ分布式环境下的序列模式发现研究邹　翔,张　巍,肖明军,蔡庆生(中国科技大学计算机系,合肥　230027)摘　要:提出一种称为DMSP(Distributed Mining of Sequential Patterns)的算法,以解决分布式环境下的序列模式挖掘问题.其主要思想是:利用前缀投影技术划分模式搜索空间,降低数据库的规模,生成局部序列模式;利用模式前缀指定选举站点降低通信开销;多线程异步运行,提高算法的并行性.实验结果显示:在具有海量数据的局域网环境中,DMSP算法的性能优于将数据集中后采用GSP算法65%以上.关键词:数据挖掘;序列模式;分布式算法中图分类号:TP18 文献标识码:A序列模式(Sequential Pattern)的发现由Agrawal和Srikant1于1995年首先提出,是数据挖掘研究的重要内容.现有算法大多处理单计算机系统上的序列模式挖掘问题,对于分布式的序列数据,在各单机系统上执行挖掘算法所得到的序列模式只是针对局部数据有效的,不是全局有效的序列模式.而如果将所有数据集中至一台计算机上执行挖掘算法,会造成巨大的通信开销.本文提出算法DMSP来解决分布式环境下的序列模式挖掘问题.1　相关研究针对序列模式挖掘,文献1,2提出了一种泛化序列模式挖掘算法GSP;文献3提出了基于前缀投影的序列模式挖掘算法Prefixspan.文献4～6提出了几种有效的序列模式维护算法,解决序列模式的增量式更新问题.文献7提出了基于树投影技术的两种不同的并行算法来解决分布内存并行计算机的序列模式发现.文献8提出了共享内存计算机上的序列模式发现问题的处理方法.文献9提出了FDM 算法解决分布式环境中的关联规则挖掘问题.文献10提出了CDM框架解决分布式环境中的分类学习问题.据我们所知,目前尚没有公开发表的关于分布式环境中序列模式挖掘问题研究的文献.2　问题定义分布式环境下的序列模式挖掘问题的形式化描述如下:设分布式环境中存在m个数据站点S1,S2,…,S m,站点S i(i=1,2,…,m)上的数据序列集合记为db i,所有站点上数据序列的集合记为DB,db1∪db2∪…∪db m=DB且db1∩db2∩…∩db m=N IL.站点上的数据序列记为(Seq-ID,Trans-List),其中Seq-ID代表序列标识,Trans-List是事务列表.Trans-List=(Trans1,Trans2,…,Trans n),Trans= (trans2time,Itemset),trans2time代表事件发生时间,Itemset是一个项目集.序列(sequence)记为<se1, se2,…,se n>,se k(k=1,2,…,n)代表项目集.设序列A=<se1,se2,…,se n>,序列B=<se’1,se’2,…,Ξ收稿日期:2004205211基金项目:国家自然科学基金资助项目(70171052,60075015)作者简介:邹　翔(1977—),博士;蔡庆生(1938—),教授,博士生导师.se ’m >,若存在i 1<i 2<…<i n 使得se 1∈se ’i 1,se 2∈se ’i 2,…,se n ∈se ’in ,则称序列A 是序列B 的子序列.若se 包含在一个数据序列中,我们称该数据序列支持se.在分布式环境中的一个序列s ,数据站点S i (1<i <m )上包含s 的数据序列总数称为s 在数据站点S i 上的局部支持计数,记为count i (s );分布式环境中包含s 的数据序列总数称为s 的全局支持计数,记为count (s )=6mi =1counti (s ).最小支持度minSupp 是一个阈值,一般由用户指定,全局最小支持计数minCount =|DB |3minSupp.满足count (s )≥minCount 称之为全局序列模式(global sequential pattern );局部序列模式(local sequential pattern )满足与全局序列模式相同的最小支持度minSupp.3　分布式序列模式挖掘的有关技术本节介绍算法DMSP 中使用的有关技术.包括采用前缀投影技术生成局部序列模式,局部序列模式与全局序列模式之间存在的特殊性质,全局序列模式生成技术.3.1　采用前缀投影技术生成局部序列模式所有的序列模式按其搜索次序形成了一棵序列树,树的根标记为N IL ,第1层为L1序列模式,第2层为L2序列模式,…,对树中处于第1层以下的任意节点,设长度为L ,其父节点是其前缀,长度为L 21;其子节点以它为前缀,长度为L +1.序列树可以根据L1序列模式划分为多个子树,我们称这些子树为L1子树(相应的,长度为k 的序列模式所对应的子树记为L k 子树).在各数据站点S i (i =1,2,…,m )上,我们采用PrefixSpan 算法6,按字典序依次生成各个L1子树.我们将各数据站点生成的子树称为局部子树(local subtree ),则各数据站点生成的L1子树称为局部L1子树.而将最终生成的全局频繁序列所构成的子树称为全局子树(global subtree ),全局子树中所有序列模式以子树根节点对应序列模式为前缀.此外,我们在生成L1投影数据库时删除了所有非频繁项,因为非频繁项在并不出现在局部序列模式和全局序列模式中,进一步降低了投影数据库规模.3.2　局部序列模式与全局序列模式之间存在的特殊性质定义1　对于站点S i (1≤i ≤m )上的一个局部序列模式se ,如果se 同时也是全局序列模式,我们称se 为S i 上的全局2本地序列模式,记为gl 2seq.引理1　对于任意一条全局序列模式se ,存在站点S i ,se 和其所有子序列都是S i 上的gl 2seq.证　假设不存在这样的站点S i ,则由问题定义知:Count i (se )<minCount i (i =1,2,…,m ).因此,DB 中包含se 的序列总数为:Count (se )=Count 1(se )+…+Count m (se )<minCount 1+…+minCount m =minsupp 3|DB|.则se 不满足最小支持度,故假设不成立.由Apriori 性质可知se 的所有子序列都是S i 上的gl 2seq.定义2　对任意一个全局L1序列模式x ,对应的全局L1子树记为{x }2seq ;如果它在站点S i 上是gl 2seq ,则在S i 上对应的局部L1子树记为{x }2seq i ,对应的L1投影数据库记为{x}2DB i .将所有局部L1子树的集合记为UL 1,UL 1=∪x ∈L1∪m i =1{x }2seq i .定理1　所有全局序列模式的集合F G 是所有局部L1子树的集合UL 1的子集.证　UL 1=∪x ∈L1∪m i =1{x }2seq i =∪m i =1∪x ∈L1{x }2seq i ,根据PrefixSpan 算法6,∪x ∈L1{x }2seq i 即为站点S i 上的所有局部L1子树集合;因此F G Α∪m i =1∪x ∈L1{x }2seq i ,即F G ΑUL 1.3.3　全局序列模式生成技术在各站点上,采用前缀投影技术生成了局部序列模式.为判断它们是否为全局序列模式,我们需要得到这些局部序列模式的全局支持计数.如果我们采用广播方式统计所有局部序列模式的全局支持度,则计算一条局部序列的全局支持度的通信次数是O (m 2).通常情况下,很少有局部序列在所有站点上均是局部频繁的.因此,在通过广播方837复旦学报(自然科学版) 第43卷式得到全局L1序列模式后,我们将每个局部L1子树{x }2seq i 拆分为多个L2子树,使用一个分配函数,如哈希散列方法,将L2子树分配到相应站点,该站点称为该子树上所有序列的选举站点,负责统计它们的全局支持计数.每个局部序列的选举站点是唯一的,计算一条局部序列的全局支持计数的通信次数是O (m ).选举站点收到所有站点发送的L2子树集合,将具有相同前缀的L2子树合并为一个L2子树.对于合并后的L2子树中的每个节点,向其支持计数未知站点发送支持计数请求.各站点接受到所有选举站点的序列计数请求,扫描局部L1投影数据库得到序列计数,将结果传回选举站点.选举站点收到所有站点传回的计数值,生成相应全局L2子树,并将其向所有其他站点广播.4　算法DMSP 的详细描述算法DMSP 在分布式环境的所有数据站点S i (i =1,2,…,m )上执行,由三个线程组成,线程Main 负责生成局部序列模式和将其发送至相应选举站点,并负责启动其他两个线程;线程Polling 负责对局部序列模式全局支持计数的统计;线程Reply 负责接收序列计数请求,扫描投影数据库,并将结果返回给选举站点.Main 线程按以下步骤运行:(1)生成全局L1序列模式并将其加入结果集F G ;(2)启动Polling 和Re 2ply 线程;(3)对S i 上的每个长为1的gl 2seq ,采用PrefixSpan 算法生成相应的局部L1子树,并根据选举站点将其划分为L2子树的集合,发送到相应的选举站点;(4)等待Polling 和Reply 线程运行结束;(5)输出F G .Polling 线程按以下步骤运行:(1)接受各站点发送的L2子树集合,将具有相同前缀的子树合并;(2)对合并生成的每个子树,以宽度优先策略遍历合并后子树的每个节点,将以它为根的子树插入对应其计数值未知站点的请求集合中;(3)向各站点发送支持计数请求;(4)接收各站点发送的计数结果;(5)删除非全局频繁序列;(6)广播当前站点S i 得到的全局频繁序列.Reply 线程按以下步骤运行:(1)接受各站点发送的计数请求;(2)扫描相应投影数据库一次,得到请求集合中每一候选序列的计数值;(3)向各站点发送应答;(4)接收Polling 线程发出的全局频繁序列广播.5　算法的性能分析和实验评估我们知道,磁盘的I/O 形成算法运行的主要时间开销.对于站点S i 上的数据序列集合db i ,仅需扫描两次;对于每个L1投影数据库,我们需要扫描三次;对于L k (k >1)投影数据库,也仅需扫描两次.从而使得算法具有较低的I/O 开销.在内存中,存放着当前处理的投影数据库,当前待扫描的L1投影数据库,Polling 线程生成的合并后L2子树集合,Reply 线程接受各站点发送的需要计数的序列集合.由于三个线程异步运行,实际运行中上述投影数据库和数据结构一般不会同时出现在内存中.因此,算法实际所占的内存要小得多.对于每条候选序列,由于采用选举站点进行计数,其通信开销为O (m ).由于各选举站点处理具有不同前缀的候选序列,因此所生成的全局频繁序列具有不同前缀,每条全局频繁序列仅广播一次,使得算法具有较低的通信开销.为验证算法的性能,我们选取了实验室几台微机组成的局域网作了测试,所有微机的运行环境为Pentium III 800/256M ,Windows 2000,网速为10Mb.实验数据采用来自IBM Almaden 实验室的Quest 项目提供的人工数据生成程序assocgen ,数据库大小为308M.采用随机抽样的方式将数据分割存放在这些微机(站点)上.我们采用算法D GSP 与DMSP 算法比较,D GSP 算法分为两步:第一步将分布在各数据站点的数据序列集中;第二步采用GSP 算法2对集中后的数据序列集合进行挖掘.因此,算法D GSP 的运行时间由两部分组成:数据集中时间和序列挖掘时间.实验结果如图1～3(见第740页)所示.图1为站点数变化时算法DMSP 和将算法D GSP 执行时间的937第5期邹　翔等:分布式环境下的序列模式发现研究比较,设置最小支持度为0.01.测试结果显示,采用算法DMSP 需要更少的运行时间,算法DMSP 的执行效率比算法D GSP 提高65%以上.图2为最小支持度变化时算法DMSP 和算法D GSP 执行时间的比较,设置站点数为5,测试结果显示,随着支持度增加,算法DMSP 的运行时间快速降低.图3为数据量变化时算法DMSP 和算法D GSP 执行时间的比较,设置站点数为5,测试结果显示,随着数据增加,算法DMSP 的运行时间的增加明显少于算法D GSP.从上面的实验结果我们得到,算法DMSP 明显优于算法D GSP ,它具有良好的可伸缩性,适用于分布式海量序列数据的挖掘.本文对在分布式环境中挖掘序列模式问题进行了研究,提出了一种称为DMSP 的分布式序列模式挖掘算法,算法具有较低的I/O 开销,内存开销和通信开销. 参考文献:1　Agrawal R ,Srikant R.Mining sequential patterns A .In :Phili p S Y ,Arbee L ,Chen P ,eds.Proceedings of the International Conference on Data Engineering C.Tai pei :IEEE Computer S ociety ,1995.3214.2　Agrawal R ,Srikant R.Mining sequential patterns :G eneralizations and performance improvements A .In :Jarke M ,ed.Proceeding of the International Conference on Extending Database Technology C .Colorado ,USA :S pringer 2Verlag ,1996.3217.3　Han J ,Pei J ,Mortazavi 2Asl B ,et al .PrefixS pan :Mining sequential patterns efficiently by Prefix 2Projectedpattern growth A .In :Alex G ,Per 2Ake L ,eds.Proceedings of the International Conference on Data Engi 2neering C.Heidelber g ,G ermany :IEEE Press ,2001.2152226.4　Parthasarathy S ,Zaki M J ,Ogihara M ,et al .Incremental and interactive sequence mining A .In :FredricG ,ed.Proceedings of the 8th International Conference on Information and Knowled ge Management C .K ansas City ,Missouri ,USA :ACM ,1999.2512258.5　Masseglia F ,Poncelet P ,Teisseire M.Incremental mining of sequential patterns in large databases EB/OL .http :///masseglia00incremental.html ,2000201210/2003212212.6　邹　翔,张　巍,蔡庆生,等.大型数据库中的高效序列模式增量式更新算法J .南京大学学报(自然科学版),2003,39(2):1652171.7　Guralnik V ,G arg N ,K arypis G.Parallel tree projection algorithm for sequence Mining J .L ecture Notes in Com puter Science ,2001,2150:3102320.8　Zaki M J.Parallel sequence mining on shared 2memory machines J .Journal of Parallel and Dist puting ,2001,61:4012426.9　Cheung D ,Han J ,Vincent T Ng ,et al .A fast distributed algorithm for mining association rules A .In :Wei S ,Naughton J ,eds.Proceedings of International Conference on Parallel and Distributed Inforamtion S ystemsC.Miami Beach ,Florida :IEEE Com puter S ociety ,1996.31244.10　K argupta H ,Park B ,Hershbereger D ,et al .Collective data mining :A new perspective toward distributed da 2ta mining A .In :K ar gupta H ,Chan P ,eds.Accepted in the Advances in Distributed Data Mining M .Cambridge MA :AAAI/MIT Press ,1999.047复旦学报(自然科学版) 第43卷The R esearch Sequential Pattern Discoveryin Distributed EnvironmentZOU X iang ,ZH ANG Wei ,XI AO Ming 2jun ,CAI Qing 2sheng(Depart ment of Com puter Science ,U niversity of Science and Technology of China ,Hef ei 230027,China )Abstract :An algorithm called DMSP (Distributed Mining of Sequential Patterns )is proposed in order to deal with mining sequential patterns in distributed environment.The main idea is that each site utilizesprefix 2projected technique which divides the pattern search space and decreases the size of the database to generate local sequential patterns ;each site utilizes polling site associated with prefix to decrease the cost of communication ;multi 2threads run asynchronously in each site to increase the concurrency of algorithm.The experiments show that algorithm DMSP is outperforming ap 2plying algorithm GSP after centralizing data by above 65percent and scaleable over LAN with huge amount of data.K eyw ords :data mining ;sequential pattern ;distributed algorithm～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～(上接第736页)R esearch on Learning B ayesian N et work andIts Application in T ext DetectionsWANG Rong 2gui ,ZH ANG Y ou 2sheng ,G AO J un ,PE NG Qing 2song ,H U Liang 2mei(College of Com puter and Inf orm ation ,Hef ei U niversity of Technology ,Hef ei 230009,China )Abstract :A learning approach is proposed to solve the problems of conditional probability assignation in large scale Bayesian network.Firstly ,a new hierarchical Bayesian Network model is defined based on class hierarchical structure ,which is used to represent large scale Bayesian network.Then ,the train data set is changed from a single table to a database composed of some database tables.And each database table corres ponds to a Bayesian network block.Based on that ,a formula of conditional probability is developed.And each conditional probabilistic table of Bayesian network block can be calculated from the database tables res pectively.Properly adjust the attribute number in each database table can assure the validity of this learning approach.Finally ,experiments in automatic detection and location of texts in images show the feasibility of this hierarchical Bayesian network and learning approach.K eyw ords :Bayesian networks ;class hierarchical structure ;hierarchical Ba yesian network ;machine learning 147第5期邹　翔等:分布式环境下的序列模式发现研究。

基于Hadoop的城市道路交通流量数据分布式存储与挖掘分析研究

市交通领域的一大难题。该文采用Ｈａｄｏｏｐ中ＨＢａｓｅ分布式数据库存储每一时段采集到的城市道路路段交通流量，采用Ｈａｄｏｏｐ高效并行计算ＭａｐＲｅｄｕｃｅ编程模型对海量的城市交通流量数据进行挖掘分析，得到每一时
安大学，２０１２．
［２］王炜，过秀成．交通工程学［Ｍ］．第２版．南京：东南大
学出版社，２０１１．
［１２］沈建武，刘学军，陈良琛．城市大型商业设施交通影响分析［Ｊ］．武汉大学学报：信息科学版，２００２，２７（４）．
廖飞，黄晟，龚德俊。，安乐
（１＿湖南省交通科学研究院交通运输工程信息化中心，湖南长沙４１００７６；
２．长沙赛视交通科技有限公司，湖南长沙
４１００７６）
摘要：面对巨大而且快速增长的城市道路交通流量数据，采用基于Ｈａｄｏｏｐ中ＨＢａｓｅ分布式
春：吉林大学，２００７．
［１３］杨健．大型超市交通影响研究［Ｄ］．成都：西南交通大
学，２００９．
［１４］宋微．交通影响范围界定理论与方法研究［Ｄ］．大连：
大连交通大学，２００８．

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

41摘要：分布式数据挖掘是一种数据挖掘技术，通过这一技术可以整合局部而获得全局知识，提高决策水平。

本文基于大量的文献资料，对分布式数据挖掘技术的定义、框架，以及现有的分布式数据挖掘系统分类进行了分析。

然后，探讨了分布式数据挖掘系统应用过程表现出来的共性问题，并提出了相应的解决措施，以提高分布式数据挖掘质量，充分挖掘网络空间内分布式数据的价值。

关键词：系统分析；共性问题；定义；框架；解决措施近年来，随着信息技术、通信技术及网络技术的不断发展，广电网、移动网、互联网等网络和相关的衍生业务快速拓展，形成了大量的基于网络空间的分布式数据。

这些数据中蕴藏着巨大的价值，可为决策提供依据。

但是受网络平台兼容性、易购性等特征的影响，集中式数据挖掘已经难以适应分布式计算环境，这种情况下诞生了分布式数据挖掘技术，用于挖掘分布式数据价值。

由于分布式数据挖掘技术刚刚兴起，很多人对这一技术的应用和系统问题了解不多，所以对分布式数据挖掘系统及其共性问题、解决方法进行分析是必要的，利于深化对分布式数据挖掘技术的应用，提高分布式数据挖掘质量。

1、分布式数据挖掘的定义与框架1.1 定义分布式数据网挖掘这一词汇出现较早，直至20世纪90年代后期才被人们所关注，并将其定义为基于网络空间的分布式计算环境的数据挖掘。

除了这一种解读外，人们还普遍认为分布式数据挖掘是利用分布式计算方式对网络空间内的分布式数据进行挖掘，通过局部知识进行整合来获得全局知识，进而挖掘分布式数据的价值，为决策提供可靠的依据，确保决策质量。

数据挖掘质量的高低，主要取决于局部知识整合方法和局部知识质量，在局部知识质量较高情况下必然可以保证数据挖掘质量。

1.2 框架通常情况下，分布式数据挖掘遵循“全局分布、局部集中”的挖掘原则，以站点间的纯粹独立挖掘方式进行，但是并不都是独立挖掘，也可以利用某些站点进行数据挖掘。

当网络空间中的分布式数据挖掘研究文／王建君某个或某些站点的计算能力、储存能力、通信能力较强时，它（它们）就可以汇集其它站点的数据，对其进行分布式数据挖掘，得到整合的局部数据挖掘结果，再借助这一结果获取全局结果。

具体情况如图1所示。

分布式数据挖掘中的数据主要来自于分布式计算环境中的数据，此外也有部分集中数据。

无论数据来源是什么，都可以将数据分散到各站点中，利用站点进行数据的分布式挖掘，获得较高质量的数据挖掘结果。

2、分布式数据挖掘系统及分类发展初期，分布式数据挖掘系统将系统内的数据集中起来，构建一个临时数据集市，然后集中的进行数据挖掘。

这种数据挖掘方式的保密性、安全性较高，但是易给网络通讯运行造成一定困扰。

而且，它采用的数据挖掘方式以集中式挖掘为主，虽然表面上是分布式数据挖掘，实质上却是集中式数据挖掘。

为实现真正的分布式数据挖掘，引进国外先进技术，构筑了分布式数据挖掘系统。

目前，国内分布式数据挖掘系统主要有基于网络的分布式数据挖掘系统、基于元学习的分布式数据挖掘系统、基于Multi-Agent的分布式数据挖掘系统。

2.1 基于网络的分布式数据挖掘系统这一种分布式数据挖掘系统以互联网等现代网络为基础，具备网络资源共享、协同工作、开放服务等特点，在分布式数据挖掘中具备较高的协同性、可靠性，对保证数据挖掘质量有积极作用。

特别是该种系统利用网络计算尽心分布式数据挖掘，使数据挖掘性能得到有效的提高，利于提高数据资源的利用率。

2.2 基于元学习的分布式数据挖掘系统这一种分布式数据挖掘系统以元学习为基础，通过元学习与分布式数据挖掘系统的融合进一步优化了分布式数据挖掘算法，可以对已有的局部知识进行多次挖掘，确保了数据挖掘质量。

在这一系统的框架研究上，已经有了一些显著成果，如Weka4GML框架。

2.3 基于Multi-Agent的分布式数据挖掘系统这一种分布式数据挖掘系统以Multi-Agent系统为基础，通过Multi-Agent的自治性充分保护了局部知识挖掘结果的私有性，利于提高数据挖掘的自动化程度。

同时，可以减少用户参与，实现多种算法协同挖掘，是一种高效的分布式数据挖掘技术。

2.4 基于CDM的分布式数据额挖掘系统这一种分布式数据挖掘系统以CDM为基础，将待学习的函数视作为一组基函数，允许各站点分布式数据源选择各自适合的学习算法，是一种数据源独立挖掘的分布式挖掘方式。

进行数据挖掘时，虽然各站点独立进行数据挖掘，但因为以全局知识正确为基本前提，可以减少网络通信量。

3、分布式数据挖掘系统的共性问题及解决3.1 共性问题以上分布式数据挖掘系统的技术水平虽然较高，实际运用中依然表现出了不少问题，主要体现在挖掘质量、挖掘效率图1 分布式数据挖掘框架42两个方面。

第一，挖掘质量问题。

进行分布式数据挖掘时，各个站点基本都是独立进行本站点分布式数据挖掘，对各个站点之间的数据内在语义联系考虑不足，形成了“分割式”挖掘方式，对全局的数据挖掘质量有一定不利影响。

为解决这一问题，应当加强各站点数据之间的语义距离研究，构建全局站点的分布式数据语义距离的复合量化体系，促使传统分布式数据挖掘方式转变，以便提高数据挖掘质量。

第二，挖掘效率问题。

受各个站点的负载、通信开销等因素影响，分布式数据挖掘效率会一定程度的降低。

对此，必须使各站点负载均衡、缩减通信开销，减少分布式数据挖掘的工作量和难度，提高挖掘效率。

3.2 解决方法3.2.1 技术路线基于以上两个方面分析，为提高分布式数据挖掘质量和效率，提出将本体理论引入分布式数据挖掘系统，以各站点数据源间的语义距离度量为突破口，构建全局站点的分布式数据语义距离的复合量化体系，形成新的分布式数据挖掘系统的求解模型，得到优化分布式数据挖掘技术的目的。

具体路线如下：第一步：利用本体对分布式数据挖掘系统中各站点间的数据源语义特征进行描述。

第二步：基于本体描述构建全局站点的分布式数据语义距离的复合量化体系。

第三步：根据体系得到度量结果，然后数据源进行分组，并建立各组的数据挖掘模型、负载均衡机制，形成层次化的数据挖掘方式。

第四步：基于以上三步，建立新的分布式数据挖掘系统。

3.2.2 相关分析（1）本体作用通过本体与分布式数据挖掘系统的融合，建立新的分布式数据挖掘系统，解决以往诸多分布式数据挖掘系统的共性问题。

在这里，本体是一种语义网，可以作为数据源语义距离度量的技术。

在分布式数据挖掘系统中使用本体，主要用于元数据本体、领域知识本体、背景知识本体等方面语义距离描述，产生了巨大作用。

主要作用包括：第一，为领域知识结构理顺提供了支持，为知识表述创造了良好条件；第二，可以作为人与组织间的通信词汇，便于实现知识共享；第三，为不同建模方法、软件工具的翻译提供了技术支持，利于实现不同系统的集成和相互操作。

（2）数据挖掘后处理方法本体与分布式数据挖掘系统融合后形成新的分布式数据挖掘系统，这一系统通过本体描述挖掘任务的领域背景知识，从海量信息中遴选出有价值的信息，并按照一定的规则进行数据挖掘，有效解决了数据挖掘后的冗余规则删除问题。

具体应用中，先利用知识库使用户知识、目标进行规范化处理，从整体上反映知识概貌。

然后，利用用户期望阐明用户对发现规则的先验知识，最后通过筛选器对规则集进行筛选，挖掘其中有价值的规则。

（3）自动构造问题新的分布式数据挖掘系统应用，有效解决了以往分布式数据挖掘系统的共性问题，提高了分布式数据挖掘质量和效率，但是工作中也表现出了一些问题。

在给定知识发现过程的输入类型与输出类型条件下，发掘知识发现工作流组成存在一定的自动构造问题，给数据挖掘造成了困扰。

为此，需要采用有效的措施解决这一问题。

解决措施：第一，利用知识发现本体重新定义知识类型和分布式数据挖掘算法的概念。

第二，通过任务本体和领域本体描述知识发现本体，使知识发现工作流组成规范化。

这种解决方法的核心思想是利用知识发现本体所提供的规范化概念解决工作流组成的构造问题，进而为决策提供依据。

4、分布式数据挖掘算法及分类目前，国内有较多的数据挖掘算法，视角不同，数据挖掘算法也会不同。

按照发现的知识种类划分，分布式数据挖掘算法有关联规则发现、数据聚类、分类模型知识发现等，其中关联规则在分布式数据挖掘中的应用比较广泛。

按照挖掘数据库种类划分，分布式数据挖掘算法有空间数据库、遗留数据库、文本数据库、关系型等；按照数据挖掘方法划分，分布式数据挖掘算法有统计分析、神经网络等，其中统计分析应用较多。

神经网络是一种新的分布式数据挖掘算法，以神经网络技术为基础，是当前分布式数据挖掘算法研究的主要方向。

由于数据挖掘算法众多，具体工作中要结合实际情况选择适合的数据挖掘算法，适应分布式数据挖掘需求。

考虑到关联规则的应用实践最多，已经形成了丰富的工作经验，建议使用这一种数据挖掘算法。

5、结论综上所述，本文首先分析了分布式数据挖掘技术的定义和框架，对现有的常用分布式数据挖掘系统及特点进行了探讨。

然后，针对分布式数据挖掘中表现出来的质量问题和效率问题，提出将本体理论应用于分布式数据挖掘系统中，构建新的分布式数据挖掘技术，解决以往问题，确保分布式数据挖掘质量和效率。

由于新建的分布式数据挖掘系统与过去相关系统不同，应用前需对它进行仿真实验，验证新系统的可行性，待确定具有较高的可靠性后才能正式的使用。

参考文献：[1] 郭建伟，李瑛，杜丽萍，赵桂芬，蒋继娅.基于hadoop平台的分布式数据挖掘系统研究[J].中国科技信息，2013,(13)：81－83.[2] 何清，庄福振，曾立，赵卫中，谭庆.PDMiner：基于云计算的并行分布式数据挖掘工具平台[J].中国科学：信息科学，2014，(07)：871－885.[3] 苏国强，刘万军.基于Web服务的分布式隐私保护数据挖掘框架研究[J].微计算机信息，2010,(240)：60－61＋208.[4] 邓勇，王汝传，邓松.基于网格服务的分布式数据挖掘[J].计算机工程与应用，2010,(28)：6－9＋60.[5] 陈磊，王鹏，董静宜，任超.基于云计算架构的分布式数据挖掘研究[J].成都信息工程学院学报，2010,(06)：577－579.[6] 陈玉哲，赵明华，李军，赵书良.基于移动agent和数据挖掘标准的分布式数据挖掘系统[J].郑州大学学报(理学版)，2011,(01)：90－94＋113.[7] 付弦，丁一.基于网格的分布式数据挖掘仿真研究[J].情报科学，2011,(05)：769－773.[8] 刘英华，杨炳儒，马楠，曹丹阳.分布式隐私保护数据挖掘研究[J].计算机应用研究，2011,(10)：3606－3610.[9] 葛新景，朱建明.基于博弈论的隐私保护分布式数据挖掘[J].计算机科学，2011,(11)：161－166.作者简介：王建君，教育硕士（现代教育技术专业），讲师，吕梁学院汾阳师范分校，信息技术专业教师。