分布式数据挖掘

合集下载

基于自适应蚁群算法的分布式分类规则挖掘算法

布式挖掘代理完成分布式数据挖掘任务。由于对
２基于蚁群算法的分布式分类规则挖掘算法
２分布式分类规则挖掘系统结构．１
分布式数据库是一组数据集，辑上它们属于逻同一个系统，物理上它们却分散在用计算机网络而
形式的分类规则。另外，该算法针对的是单一数据库，其单一数据库基本挖掘思想是：条件项当作将蚂蚁的候选路径。按照由信息素和启发式函数值决定的可能性大小．定选择的条件项，加到当确添
Ｉ（ｒｌＮｒ２ＡＤＴＥ＜ａｓＦｔｍＤｔｍＮ …）ＨＮｃｓ）ｅＡｅｌ
连接的多个场地上。由于分布性，对它们的管理及
处理难以集中控制，分散与集中是主要的管理特色。在文献［］，据源只有一个，７中数蚂蚁是一个接
一
个地构建一条规则。但在分布式环境下。在多存
个数据源，因此，需采用不同的处理过程。典型的分布式数据挖掘算法的两个基本步骤是［］部数据ｓ：・局
分析，生成局部数据模型；组合不同数据站点上的局
２０年９８０６月日收到第一作者简介：志远（９１）男，族。南新蔡人，士研究生。侯１８一，汉河硕研究方向：群算法与分类规则挖掘。蚁
其中。一个条件元素是一个三元组（征属每特

基于网格的分布式数据挖掘模型研究

第６期２００８年１２月
微
处
理
机
Ｎｏ６．
Ｄｅ，０ｅ．２０８
ＭＩＣＲ０ＰＲ０ＣＳＥＳＯＲＳ
基于网格的分布式数据挖掘模型研究
孙红梅胡明生， ’
（．１郑州师范高等专科学校软件科学研究所，郑州４０４２华中５４；０．科技大学控制科学与工程系，武汉４０）３７０４摘要：基于网格的分布式知识发现和挖掘越来越受到学术界的重视。分析了现有的分布式数据挖掘系统的不足，提出了一种基于ＯＳ．ＥＧＩＮＴ的分布式数据挖掘的框架模型，并给出了该模型
ＡｂｔａｔＭｏｅａｄｍｏｅａｔｎｉｎｉｐｉｏｔｅｄｓｉｕｅｎｗｌｄｅｄｓｏｅｙａｄｄｔｎｎｓｒｃ：ｒｎｒｔｔｓａｄｔｈｉｔｂｔｄｋｏｅｇｉｖｒｎａａｍｉｉｇｅｏｒｃｂｓｄｏｒ．ＴｈｓｐｐｒｉｔｄｃｓｔｅＯＧＩｓｅｉｃｔｎ，ｅｃｂｓｔｅｄｓｎａｄａｃｉｃｕｅｏａｅｎｇｉｄｉａｅｎｒｕｅＳｐｃｆａｉｄｓｒｅｈｅｉｎｒｈｔｔｒｆｏｈｉｏｉｇｅＯＧＩＮＥＳ．Ｔ，ｐｔｆｒａｄｓｒｉｅ — ｏｉｎｅａｃｉｃｕｅｏＤｉｒｕｅＤａａｕｓｏｗｒａｅｖｃｒｅｔｄｒｈｔｔｒｆｒｅｓｉｔｄｔｂｔＭｉｉｇａｅｏｎｎｂｓｄｎ
了大量的数据。通常这些数据是分布的，自治的，异构的，动态的，其复杂度也越来越高。很明显，在这种资源分布，用户分布的分布式环境中进行数据挖

分布式数据挖掘中间层

研究人员在开发数据挖掘系统的时候，常不能直接使用已通
（）数据挖掘系统读取源数据，行算法计算，通过并３进并
行编译环境交流彼此的中间运算结果。这个阶段是数据挖掘耗时最多的阶段。本文利用缓冲机制和负载平衡机制来加快
１引言
目前数据挖掘的应用日益增多。一般数据挖掘对于计算
或以数据文件方式存放。
虽然利用数据库来存放数据可以很方便地进行数据整理
和清洗的工作，足在并行数据挖掘时却会导致瓶颈。分布但
能力的需求都非常高，百兆的数据进行挖掘常常需要数小数
ＡｂｔａｔＡｎｉｔｇａｅｏｕｉｎｔｉｌｙｄｖｌｐｎｎｉｔｉｉｇｄｓｒｂｔｄｐｒｌｅａａｍｉｉｇｓｓｅｉｌｓｅｙｔｍｓｓｒｃ：ｅｒｔｄｓｌｔｏｏｓｍｐｉｅｅｏｉｇａｄｍａｎａｎｎｉｔｕｅａａｌｌｔｎｎｙｔｍｎｃｕｔｒｓｓｅｗａｎｆｉｄ
进行总和，成最后的结果。生
（）用可视化程序显示结果。５调
数据访问模块ｌ数据服务模块Ｊｌ数据访问模块ｌ数据服务模块
法只需调用笔者提供的接口来读取数据就可以很容易地应用到笔者的中间层中来。开发数据挖掘系统因此变得简单，系统的可维护性和可扩展性得到增强。
班桦，吴耿锋，吴绍春
（海大学计算机工程与科学学院，上海２０７）上００２
摘要：如何简化机群系统上分布式数据挖掘系统的开发和维护，出了一个完整的解决方案，对给并对数据挖掘系统的非算

分布式数据挖掘-LAMDA-南京大学

简介－分布式数据挖掘
产生背景 – 各相关学科的飞速发展，各种网络尤其是Internet的广泛使用。 – 实际应用要求数据挖掘系统具有更好的可扩展性。 – 实例
• 研究某种疾病在某地的发病情况与气候的关系（疾病控制数据库＋环境数据库） • 金融组织间通过合作防止信用卡欺诈（数据共享） • 大型跨国公司营销策略的制定（销售点分散，数据仓库构造十分耗时）
元学习的优点 –在基学习阶段，各个结点可以自主地选择合适的学习算法来生成局部的基分类器。与此同时，各结点间不存在任何通讯与同步开销，因此系统效率较高。 –在元学习阶段，由于系统可灵活采用各种集成策略，
结点的同构与异构性－CDM
异构结点间的数据挖掘 –在异构分布式数据挖掘系统中，各个结点存储的数据具有不同的属性空间，一般而言，异构分布式数据挖掘系统所要处理的数据集称为垂直分划数据集。
图2 一个典型的垂直分划数据集
CDM－续
CDM –研究结果表明，如果简单地将同构系统所采用的数据挖掘方法应用于异构分布式数据挖掘系统，那么为了得到一个精确的预测模型往往需要很大的系统开销，有时甚至是不可行的。 – 为了能够在结点异构的情况下有效地进行数据挖掘， Kargupta等人提出了CDM (Collective Data Mining) 的概念，其基本思想是任一函数f都可以由一组基函数所表示，即 f ( x) wk k 。
• 同构：结点间数据的属性空间相同 • 异构：结点间数据具有不同的属性空间
–按照数据模式的生成方式
• 集中式：先把数据集中于中心点，再生成全局数据模式（模型精度较高，但只适合于数据量较小的情况）。 • 局部式：先在各结点处生成局部数据模式，然后再将局部数据模式集中到中心结点生成全局数据模式（模型精度较低，但效率较高）。 • 数据重分布式：首先将所有数据在各个结点间重新分布，然后再按照与局部式系统相同的方法生成数据模式。

基于高性能云的分布式数据挖掘方法

储云由Ａｚｎｓ【提供，ｍａｏ３ｌ也得到了ＧｏｌＦｌＳｓｒＧＳｏｇｅｉｙｔｍ（Ｆ）ｅｅ和开源Ｈｄｏａｏｐ分布式文件系统（ＤＳ的支持。ＨＦ）ＭａＲｄｃ和Ｈｄｏ及其基本的文件系统ＧＳＨＦｐｅｕｅａｏｐＦ和ＤＳ
ｏｉｌｕｅｕｔｎｔａａｉａｌｏｐｏｅｓｆｅｕｎｌｎｏｅｐｌｃｔｏｔｍｏｉｇｉ．ｉｈｐｃａａｒｄｓｒｉｅｓｃｕ＇，ｔｉａａｆｔｓｃｏｄｒｓｌｉｈｅｄｔｓｂｅｔｒｃｓｒｑｅｔｉｎａｅｗｉｕｖｎｔＷｔｔｅｓｅｉｌｌｙｅｅｅｖｃ￣ｔｌｈｓｄｔｈｓｙｈｈｅｍｉｍｇｐｒｌｌｍａｅｓｄｏｍｉｉｇａｇｉｔｉｕｅｄｔｅｓｏｅｌｓｅｓｃｎｅｔｄｎａａｌｉｅｓｃｎｂｕｅｆｒｎｎｌｒｅｄｓｒｂｔｄａａｓｔｖｒｃｕｔｒｏｎｃｅｗｉｈｇｐｒｏａｃｗｉｅａｅｅｗｏｋ．ｔｉｈｅｆｒｎｅｈｍｄｒａｎｔｒｓ
层结构，适用于高性能广域网络连接的计算机集群所产生的大型分布式数据集的数据挖掘。实验结果表明，与Ｈｄｏａｏｐ方法相比，该方法
的性能有显著提高。
关健词：存储云；计算云；分布式数据并行处理方法；数据挖掘
ＤｉｔｉｕｅｔｉｉｇＡｐｒａｈｗｉｈＨｉｈＰｅｆｒａｃｏｄｓｒｂｔｄＤａａＭｎｎｐｏｃｔｇｒｏｍｎｅＣｌｕ
ＧＵＩＢｉｘａ，ＨＥｉｎｎｇ－ｉｎｇＪａ

面向数据特征的分布式数据挖掘研究

规模数据集进行处理时，高数据挖掘的速度。大量的研究提工作都相应地给出实验的结果，对所提出的方法的性能进行了评估。这些研究的重点大都集中在以下几个方面：据负数荷的平衡，问通讯的协调，间的同步等。将重点放在计机机并算量最为繁重的关于规则生成部分的算法并行化上。在ＳＭＤ、ＭＤ或ＳＭＤ方式下也即是数据并行方式下完成数ＩＭＩＰ据挖掘过程。应该说对这些方法与技术的研究，是数据挖掘并行化所必须解决的问题，并且更进一步地可以说是并行处理本身所要解决的问题。在并行数据挖掘过程开始之前，首先要做的一个工作是对大规模的数据集进行划分，然后从如何合理地分配与调度划分后得到的数据子集，满足并行处理要求而开始并行数据挖掘处理的。一般来说对于数据集进行
致的简约过程。由于某种或某几种属性可以去掉，个过程这
１分布式数据挖掘的应用背景
随着互联网络的迅速发展，得大规模并行数据挖掘的使方法近年来得到了广泛的重视和研究。目前关于这方面的研

基于Multi—agents系统的分布式数据挖掘

的设计。
由此可见，ｅｔｇＡｎ在分布式环境中的应用已经得到了发展，在解决分布式问题上产生了一些实际的效果。本文主并要讨论如何采用ａｅｔｇｎ技术来实现分布式数据挖掘［，］包１Ｕ，０
数据挖掘是用于在大规模数据集中获取感兴趣知识的过
台，构架了Ｏｅｅｔｃｉｃｕｅ（ＡＡ框架）ｐｎＡｇｎｈｔｔｒＯＡｒｅ。将每个用户功能可以抽象为一个ａｅｔ可以向系统提供服务，ｇｎ，也能向
程。传统的数据挖掘系统［设计大多是面向于集中式数据集１］合进行的。然而随着网络的发展，大块的数据分散位于不同
ｓｍｅｒｐｅｅｔｔｖｇｎ－ａｅｓｒｕｅｔｉｉｇｓｓｅｓｔｌｓ，ｔｅｆｔｒｒｆｔｅａｅ．ｏｅｒｓｎａｉｅａｅｔｂｓｄＤｉｔｉｔｄＤａａＭｎｎｙｔｍ，ａａｔｈｕｕｅｗｏｋｏｈｒａｂＫｅｗｏｄＤａａｍｉｉｇｙｒｓｔｎｎ，Ｄｉｔｉｕｅａａｍｉｉｇ，ｔｎｎａｅｎｍｕｔａｅｔｓｓｅｓｒｔｄｄｔｎｎＤａａｍｉｉｇｂｓｄｏｌｉｇｎｙｔｍｂ —
维普资讯
计算机科学２０Ｖｏ．４Ｑｔ０７１Ｎ．２３
基于Ｍｕｔａｅｔｌ—ｇｎｓ系统的分布式数据挖掘 ’ ｉ
庄艳陈继明徐丹潘金贵（南京大学计算机软件新技术国家重点实验室南京２０９）１０３

基于hadoop平台的分布式数据挖掘系统的设计探讨

1791 数据挖掘的简单概述Ha do o p是一个分布式系统基础架构,它实现了一个分布式文件系统,具有极高的容错性,在因特网上是最受欢迎的搜索关键字的内容分类工具,能够解决许多具有伸缩性的问题,能提高文件搜索效率[1]。

而数据挖掘系统是在Hadoop平台建立的,因此,数据挖掘系统的发展与Hadoop 平台紧密结合。

数据挖掘主要是在大量数据中寻找有价值的信息技术,主要由以下三个阶段组成,数据准备阶段,需要对大量的信息进行清理,并对数据整合,同时还对数据格式进行转换;数据挖掘阶段,根据相应的智能算法对数据进行分析,然后形成一定的数据模式;结果评估阶段,主要根据挖掘出的数据模式的运行效果进行评判,对没有任何效果的评估模式全部排除。

2 数据挖掘的主要任务与具体计算方法2.1 数据挖掘基本任务分析数据挖掘的任务是由大数据发展的方向决定的,同时为数据挖掘工作提供了方向,由于数据挖掘以寻找数据模式为主,并且数据模式也是随着数据的应用领域不同而发生变化,因此,在数据挖掘期间,其任务主要分为描述性挖掘和预测性挖掘两种。

描述性挖掘任务主要根据数据的一般特征,对数据库中的数据进行概括、总结,然后寻找数据之间的关系和类型,最终形成固定的数据模式;对于预测性挖掘主要根据接触的数据做出相应的判断,并加入与之相对应的新的数据的模式[2]。

2.2 数据挖掘的具体计算方法数据聚类算法是对数据进行拆分合并同类项计算,也就是将数据项划分为多层次的子集,对具有相似特性的数据项进行归类,然后对同一个子集中的数据进行计算,该计算方法主要根据数据自身的特性来划分。

具体如下所示:在数据库B 中,所有数据的集合为未知数X =｛X 1,X 2,X 3……X n ｝,而在许多的X 中有一部分具有相似性,因而X i (i =1,2,3……n)。

其中对于一个整体集合X,被许多具有相似的X 组合分割成m 个子集,出现了许多的C 1,C 2,C 3……C n 。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 同构：结点间数据的属性空间相同 • 异构：结点间数据具有不同的属性空间
– 按照数据模Βιβλιοθήκη 的生成方式• 集中式：先把数据集中于中心点，再生成全局数据模式（模型精度较高，但只适合于数据量较小的情况）。 • 局部式：先在各结点处生成局部数据模式，然后再将局部数据模式集中到中心结点生成全局数据模式（模型精度较低，但效率较高）。 • 数据重分布式：首先将所有数据在各个结点间重新分布，然后再按照与局部式系统相同的方法生成数据模式。
面临的问题
– 算法方面
• 数据预处理，实现各种数据挖掘算法。 • 结合系统所处的分布式计算环境。
– 系统方面
• 能在对称多处理机(SMP)、大规模并行处理机(MPP)等具体的分布式平台上实现。 • 结点间负载平衡、减少同步与通讯开销、异构数据集成等。
分布式数据挖掘
系统分类
– 根据结点间数据分布情况
– 在同构分布式数据挖掘系统中，各个结点存储的数据都具有相同的属性空间。 – 为了实现同构结点的数据挖掘，研究者们先后提出了元学习 (meta-learning)、合作学习(coactive learning)等方法，其中元学习方法最具代表性。
– 元学习的概念是由Prodromidis等人于2000年首先提出的，该方法采用集成学习 (ensemble learning) 的方式来生成最终的全局预测模型（即元分类器）。该方法的基本思想是从已经获得的知识中再进行学习，从而得到最终的数据模式。
元学习的优点
– 在基学习阶段，各个结点可以自主地选择合适的学习算法来生成局部的基分类器。与此同时，各结点间不存在任何通讯与同步开销，因此系统效率较高。 – 在元学习阶段，由于系统可灵活采用各种集成策略，因此最终生成的元分类器具有较高的预测精度。
结点的同构与异构性－CDM
异构结点间的数据挖掘
元学习
元学习的具体过程
图1 元学习的具体过程
元学习
基分类器输出的集成方式
– 投票(Voting): 绝对（相对）多数投票，加权投票。 – 决策(Arbitration): 指定特殊的“决策者”，当各基分类器的输出无法达成一致时，采用“决策者”的输出。 – 结合(Combining): 使用相关的先验与领域知识指导各输出的集成。
提纲
简介 – 数据挖掘 – 分布式数据挖掘研究现状 – 同构与异构 – 分布式数据挖掘算法 – 应用实例进一步的工作
简介－数据挖掘
什么是数据挖掘？
– 数据挖掘是指从巨量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。(From U. Fayyad et al.’s definition at KDD96) – 巨量的：对于少量数据的分析不需要使用数据挖掘。 – 有效的：所获得的模式必须是正确的。 – 新颖的：对于已知知识的投资收益不大。 – 潜在有用的：所得的模式应能提供相关的决策支持。 – 最终可理解的：所得的模式是提交给决策制定者的。
– 按系统功能、通讯与合作方式等情况划分……
研究现状
结点的同构与异构性 – 元学习(Meta-learning) – CDM(Collective data mining) 分布式数据挖掘算法 – 分布式决策树生成 – 分布式关联规则发现应用系统实例
结点的同构与异构性－元学习
同构结点间的数据挖掘
分布式数据挖掘算法－分布式决策树生成
分布式决策树生成
– 分布式数据挖掘正是在这一背景下产生的，它是数据挖掘技术与分布式计算的有机结合，主要用于分布式环境下的数据
模式发现。
分布式数据挖掘
分布式数据挖掘的优点
– 出于对安全性、容错性、商业竞争以及法律约束等多方面因素的考虑，在许多情况下，将所有数据集中在一起进行分析往往是不可行的。分布式数据挖掘系统则可以充分利用分布式计算的能力对相关的数据进行分析与综合。 – 在传统的数据挖掘系统中，如果能将数据合理地划分为若干个小模块，并由数据挖掘系统并行地处理，最后再将各个局部处理结果合成最终的输出模式，则可节省大量的时间和空间开销。
简介－分布式数据挖掘
产生背景
– 各相关学科的飞速发展，各种网络尤其是Internet的广泛使用。 – 实际应用要求数据挖掘系统具有更好的可扩展性。 – 实例
• 研究某种疾病在某地的发病情况与气候的关系（疾病控制数据库＋环境数据库） • 金融组织间通过合作防止信用卡欺诈（数据共享） • 大型跨国公司营销策略的制定（销售点分散，数据仓库构造十分耗时）
– 为了能够在结点异构的情况下有效地进行数据挖掘， Kargupta等人提出了CDM (Collective Data Mining) 的概念，其基本思想是任一函数f都可以由一组基函数所表示，即
f ( x)
k I
w
k
k
– 最近，Kargupta等人结合传统的ID3决策树学习算法以及小波变换技术，成功地将CDM技术应用于分布式决策树生成以及回归分析中，取得了令人满意的结果。
– 在异构分布式数据挖掘系统中，各个结点存储的数据具有不同的属性空间，一般而言，异构分布式数据挖掘系统所要处理的数据集称为垂直分划数据集。
图2 一个典型的垂直分划数据集
CDM
CDM
– 研究结果表明，如果简单地将同构系统所采用的数据挖掘方法应用于异构分布式数据挖掘系统，那么为了得到一个精确的预测模型往往需要很大的系统开销，有时甚至是不可行的。
数据挖掘的研究领域
– 数据挖掘是一门涉及机器学习、统计学、数据库、可视化技术、高性能计算等诸多方面的交叉学科。
数据挖掘
数据挖掘的应用范围
– – – – – – – – 描述性规则发现(Characterization) 对比性规则发现(Discrimination) 关联规则发现(Association) 分类分析(Classification) 预测（回归）分析(Prediction) 聚类分析(Clustering) 异常分析(Outlier analysis) ……