分布式数据挖掘

合集下载

基于自适应蚁群算法的分布式分类规则挖掘算法

基于自适应蚁群算法的分布式分类规则挖掘算法
布式 挖 掘 代 理 完 成 分 布 式 数 据 挖 掘 任 务 。 由 于对
2 基于蚁群算法的分布式分类规则挖掘算法
2 分布式分类规则挖掘系统结构 . 1
分 布式 数 据 库 是一 组 数 据 集 , 辑 上 它 们 属 于 逻 同一个 系 统 , 物理 上 它 们却 分 散 在 用 计算 机 网络 而
形 式 的分 类 规 则 。另 外 , 该算 法 针 对 的是 单 一 数据 库, 其单 一 数 据 库 基 本 挖 掘 思 想 是 : 条 件 项 当作 将 蚂 蚁 的候 选 路 径 。按 照 由信 息 素 和 启 发 式 函数 值 决 定 的可 能 性 大 小 . 定 选 择 的条 件 项 , 加 到 当 确 添
I( r l N r 2A D T E < as F t m D t m N …) H N c s) e A e l
连接的多个场地上 。由于分布性 , 对它们的管理及
处 理 难 以集 中控 制 ,分 散 与集 中是 主 要 的 管 理 特 色 。在 文 献 [ ] , 据 源 只 有 一个 , 7中 数 蚂蚁 是 一个 接

个地 构 建 一条 规 则 。但 在 分 布 式 环境 下 。 在 多 存
个 数据 源 , 因此 , 需采 用不 同的处 理过 程 。典 型 的分 布式 数 据挖 掘算 法 的两个 基 本 步骤是 [ ] 部 数据 s: ・局
分析, 生成局部数据模型; 组合不同数据站点上 的局
20 年 9 8 0 6 月 日收 到 第 一 作 者 简 介 : 志 远 (9 1 ) 男 , 族 。 南 新 蔡 人 , 士 研 究 生 。 侯 18 一 , 汉 河 硕 研究方 向: 群算法与分类规则挖掘 。 蚁
其 中 。 一 个 条 件 元 素是 一 个 三 元 组 ( 征 属 每 特

基于网格的分布式数据挖掘模型研究

基于网格的分布式数据挖掘模型研究
第 6期 20 0 8年 1 2月




No 6 .
D e ,0 e . 2 08
MI CR0P R0C S ES ORS
基 于 网格 的分 布式 数 据 挖 掘 模 型研 究
孙 红 梅 胡 明 生 , ’
(. 1郑州师范高等专 科学校软件科学研究所, 郑州40 42华中 5 4; 0 . 科技大学 控制科学与 工程系, 武汉4 0 ) 37 04 摘 要 : 基于网格 的分布式知识发现和挖掘越来越 受到学术 界的重视。分析 了现有的分布 式 数据挖掘系统的不足 , 提出 了一种基于 O S. E G IN T的分布式数据挖掘的框架模型, 并给 出了该模型
Ab ta t Mo e a d mo e atnin i p i o te ds iue n wld e d so ey a d d t nn sr c : r n r t t s ad t h it b td k o e g i v r n aa miig e o r c b sd o r . Ths p p r it d c s te OG Is e i c t n, ec b s te d s n a d ac i cu e o ae n gi d i a e nr u e S p cf ai d sr e h ei n rht tr f o h i o i g e OG I NE S . T, p t fr ad s rie — oine ac i cu e o Di r ue Daa us o w r a e vc re td r h t tr fr e s i td tb t Miig a e o nn b sd n
了大量的数据。通常这些数据是分布的, 自治的 , 异 构的, 动态 的, 其复杂度也越来越高。很 明显 , 在这 种资源分布 , 用户分布 的分布式环境 中进行数据挖

分布式数据挖掘中间层

分布式数据挖掘中间层
研 究 人 员 在 开 发 数 据 挖 掘 系 统 的 时候 , 常不 能 直 接 使 用 已 通
()数 据 挖 掘 系 统 读 取 源 数 据 , 行 算 法 计 算 , 通 过 并 3 进 并
行编译环境 交流彼此 的中 间运 算结果 。这个阶段 是数据挖掘 耗时最 多的阶段 。 本文 利用缓冲机 制和 负载 平衡机 制来加快
1 引 言
目前 数据挖掘 的应 用 日益增 多。 一般数据挖掘 对于计算
或 以数 据 文 件 方 式 存 放 。
虽然利用数据库 来存 放数据可 以很 方便地进行数据整理
和 清 洗 的 工 作 , 足 在 并 行 数 据 挖 掘 时 却 会 导致 瓶 颈 。 分布 但
能力的需求都非常 高, 百兆的数据 进行挖掘 常常需要数小 数
Ab ta t Anitg ae ouint i l yd v lpn n itiigdsrb tdp rle aamiigs se i lse y tm s sr c: e rtds lto osmpi e eo iga dmanann it ue a all t nn y tm ncu trs se wa n f i d
进行总和 , 成最 后的结 果。 生
() 用可 视 化 程 序 显 示 结 果 。 5调
数据访问模块 l数据服务模块 J l数据访问模块 l数据服务模块
法只需调用笔者提供 的接 口来读取数据就可 以很容 易地 应用 到笔者 的中间层中来 。开发数据挖掘 系统因此变 得简单 , 系 统的可维护性和 可扩展性得 到增强 。
班 桦 , 吴耿 锋 , 吴绍春
( 海 大学 计 算机 工程 与 科 学学 院 ,上 海 207) 上 002
摘 要 : 如何 简化 机群 系统 上分布 式数据挖 掘 系统 的开发和 维护 , 出 了一个 完整 的解决 方案 , 对 给 并对数 据挖掘 系统 的非算

分布式数据挖掘-LAMDA-南京大学

分布式数据挖掘-LAMDA-南京大学

简介-分布式数据挖掘
产生背景 – 各相关学科的飞速发展,各种网络尤其是Internet的 广泛使用。 – 实际应用要求数据挖掘系统具有更好的可扩展性。 – 实例
• 研究某种疾病在某地的发病情况与气候的关系(疾病控制 数据库+环境数据库) • 金融组织间通过合作防止信用卡欺诈(数据共享) • 大型跨国公司营销策略的制定(销售点分散,数据仓库构 造十分耗时)
元学习的优点 –在基学习阶段,各个结点可以自主地选择合适的学 习算法来生成局部的基分类器。与此同时,各结点 间不存在任何通讯与同步开销,因此系统效率较高。 –在元学习阶段,由于系统可灵活采用各种集成策略,
结点的同构与异构性-CDM
异构结点间的数据挖掘 –在异构分布式数据挖掘系统中,各个结点存储的数 据具有不同的属性空间,一般而言,异构分布式数 据挖掘系统所要处理的数据集称为垂直分划数据集。
图2 一个典型的垂直分划数据集
CDM-续
CDM –研究结果表明,如果简单地将同构系统所采用的数 据挖掘方法应用于异构分布式数据挖掘系统,那么 为了得到一个精确的预测模型往往需要很大的系统 开销,有时甚至是不可行的。 – 为了能够在结点异构的情况下有效地进行数据挖掘, Kargupta等人提出了CDM (Collective Data Mining) 的概念,其基本思想是任一函数f都可以由一组基函 数所表示,即 f ( x) wk k 。
• 同构:结点间数据的属性空间相同 • 异构:结点间数据具有不同的属性空间
–按照数据模式的生成方式
• 集中式:先把数据集中于中心点,再生成全局数据模式 (模型精度较高,但只适合于数据量较小的情况)。 • 局部式:先在各结点处生成局部数据模式,然后再将局部 数据模式集中到中心结点生成全局数据模式(模型精度较 低,但效率较高)。 • 数据重分布式 :首先将所有数据在各个结点间重新分布, 然后再按照与局部式系统相同的方法生成数据模式。

基于高性能云的分布式数据挖掘方法

基于高性能云的分布式数据挖掘方法
储云由 A z ns 【提供 , mao 3l 也得到 了 G o lFl S s r G S o ge i yt m( F ) e e 和开源 H d o ao p分布式文件系统( D S的支持 。 H F) MaR d c 和 H d o 及其基本 的文件 系统 G S H F p e ue ao p F和 DS
o i lu eut n t aa i a l o po esfe u n l n o eplc to tmo ig i. i h p ca a rd sr ies cu',ti aa ft sco d rs l i hed t s be t rc s r q e t i n a ewi u vn t W t tes e illyee evc  ̄ tl hsd t h s y h h e mimg p rl l m a e sd o miig ag itiue d t es o e lses c n e td n aal i e s c n b u e fr nn lre dsrb td aa s t v r cu tr o n ce wi hg p ro a c wie ae ewo k . t ih ef r n e h m d r a n t r s
层结构 ,适用于高性能广域网络连接 的计算机集群所产生的大型分布式数据集的数据挖掘。实验结果表 明,与 H d o ao p方法相 比,该方法
的性能有显著提高 。
关健词 :存储云 ;计算云 ;分布 式数据并行处理方法;数据挖掘
Dit i u e t i i gAp r a h wih H i h Pe f r a c o d s rb t d Da a M n n p o c t g r o m n eCl u
G UIBi x a ,H E i n ng- i ng Ja

面向数据特征的分布式数据挖掘研究

面向数据特征的分布式数据挖掘研究

规 模 数 据 集 进 行 处 理 时 , 高 数 据 挖 掘 的速 度 。大 量 的 研 究 提 工 作 都 相 应 地 给 出 实 验 的结 果 ,对 所 提 出 的 方 法 的性 能 进 行 了评 估 。 这 些 研 究 的 重 点 大 都 集 中 在 以下 几 个 方 面 : 据 负 数 荷 的平 衡 , 问 通 讯 的协 调 , 间 的 同 步 等 。 将 重 点放 在 计 机 机 并 算 量 最 为 繁 重 的 关 于 规 则 生 成 部 分 的 算 法 并 行 化 上 。 在 SMD、 MD或 S MD 方 式 下也 即 是 数 据 并 行 方 式 下 完 成 数 I MI P 据 挖 掘 过 程 。应 该 说对 这 些 方 法 与 技 术 的研 究 ,是 数 据 挖 掘 并 行 化 所 必 须 解 决 的 问 题 ,并且 更 进 一 步 地 可 以说 是 并 行 处 理 本 身所 要 解 决 的 问题 。在 并 行 数 据 挖 掘 过 程 开 始 之 前 ,首 先 要 做 的 一 个 工 作 是对 大 规 模 的 数 据 集 进 行 划 分 ,然 后 从 如 何 合 理 地 分 配 与 调 度 划 分 后 得 到 的 数 据 子 集 ,满 足 并 行 处 理 要 求 而 开 始 并 行 数 据 挖 掘 处 理 的 。一 般 来 说 对 于 数 据 集 进 行
致 的简 约 过 程 。 由 于 某 种 或 某 几 种 属 性 可 以 去 掉 , 个 过 程 这
1 分 布 式数 据 挖 掘 的应 用 背 景
随 着 互 联 网 络 的迅 速 发 展 , 得 大 规 模 并 行 数 据 挖 掘 的 使 方 法 近 年 来 得 到 了 广 泛 的重 视 和 研 究 。 目前 关 于 这 方 面 的 研

基于Multi—agents系统的分布式数据挖掘

基于Multi—agents系统的分布式数据挖掘
的设 计 。
由此 可见 , e t g A n 在分 布式 环境 中 的应 用 已经得 到 了发 展 , 在解 决分 布式 问题 上产生 了一些 实际的效 果 。本文 主 并 要讨论如何采用 a et gn 技术来 实现 分布式 数 据挖掘[ ,]包 1U , 0
数据挖掘是用 于在大规模数 据集 中获取感 兴趣知识的过
台, 构架了 O e et c i cue( AA框架 ) p nAgn ht tr O Ar e 。将 每个用 户功能可 以抽象为一 个 a e t可 以 向系 统提供 服务 , gn, 也能 向
程 。传统的数据挖掘系统[ 设计大 多是 面向于集 中式数 据集 1 ] 合进行的 。然而随着 网络 的发展 , 大块 的数据 分散 位于不 同
s me r p e e t tv g n - a e s r u e t i ig s s e s tls ,t e f t r r ft e a e . o e r s n a ie a e tb s d Di ti t d Da a M n n y t m ,a a t h u u e wo k o h r a b Ke wo d Da a mi i g y rs t n n ,Dit i u e a a mi ig, t n n a e n mu t a e ts s e s r t d d t n n Da a mi i g b s d o li g n y tm b —
维普资讯
计算机科学 20 Vo. 4 Q t 0 7 1 N. 2 3
基 于 Mut ae t l—gns系统 的 分 布 式 数 据 挖 掘 ’ i
庄 艳 陈继 明 徐 丹 潘 金贵 ( 南京 大 学计算机 软 件新技 术 国家 重 点实验 室 南京 20 9 ) 10 3

基于hadoop平台的分布式数据挖掘系统的设计探讨

基于hadoop平台的分布式数据挖掘系统的设计探讨

1791 数据挖掘的简单概述Ha do o p是一个分布式系统基础架构,它实现了一个分布式文件系统,具有极高的容错性,在因特网上是最受欢迎的搜索关键字的内容分类工具,能够解决许多具有伸缩性的问题,能提高文件搜索效率[1]。

而数据挖掘系统是在Hadoop平台建立的,因此,数据挖掘系统的发展与Hadoop 平台紧密结合。

数据挖掘主要是在大量数据中寻找有价值的信息技术,主要由以下三个阶段组成,数据准备阶段,需要对大量的信息进行清理,并对数据整合,同时还对数据格式进行转换;数据挖掘阶段,根据相应的智能算法对数据进行分析,然后形成一定的数据模式;结果评估阶段,主要根据挖掘出的数据模式的运行效果进行评判,对没有任何效果的评估模式全部排除。

2 数据挖掘的主要任务与具体计算方法2.1 数据挖掘基本任务分析数据挖掘的任务是由大数据发展的方向决定的,同时为数据挖掘工作提供了方向,由于数据挖掘以寻找数据模式为主,并且数据模式也是随着数据的应用领域不同而发生变化,因此,在数据挖掘期间,其任务主要分为描述性挖掘和预测性挖掘两种。

描述性挖掘任务主要根据数据的一般特征,对数据库中的数据进行概括、总结,然后寻找数据之间的关系和类型,最终形成固定的数据模式;对于预测性挖掘主要根据接触的数据做出相应的判断,并加入与之相对应的新的数据的模式[2]。

2.2 数据挖掘的具体计算方法数据聚类算法是对数据进行拆分合并同类项计算,也就是将数据项划分为多层次的子集,对具有相似特性的数据项进行归类,然后对同一个子集中的数据进行计算,该计算方法主要根据数据自身的特性来划分。

具体如下所示:在数据库B 中,所有数据的集合为未知数X ={X 1,X 2,X 3……X n },而在许多的X 中有一部分具有相似性,因而X i (i =1,2,3……n)。

其中对于一个整体集合X,被许多具有相似的X 组合分割成m 个子集,出现了许多的C 1,C 2,C 3……C n 。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 同构:结点间数据的属性空间相同 • 异构:结点间数据具有不同的属性空间
– 按照数据模Βιβλιοθήκη 的生成方式• 集中式:先把数据集中于中心点,再生成全局数据模式(模型精 度较高,但只适合于数据量较小的情况)。 • 局部式:先在各结点处生成局部数据模式,然后再将局部数据模 式集中到中心结点生成全局数据模式(模型精度较低,但效率较 高)。 • 数据重分布式 :首先将所有数据在各个结点间重新分布,然后 再按照与局部式系统相同的方法生成数据模式。
面临的问题
– 算法方面
• 数据预处理,实现各种数据挖掘算法。 • 结合系统所处的分布式计算环境。
– 系统方面
• 能在对称多处理机(SMP)、大规模并行处理机(MPP)等具体的分 布式平台上实现。 • 结点间负载平衡、减少同步与通讯开销、异构数据集成等 。
分布式数据挖掘
系统分类
– 根据结点间数据分布情况
– 在同构分布式数据挖掘系统中,各个结点存储的数据都具有 相同的属性空间。 – 为了实现同构结点的数据挖掘,研究者们先后提出了元学习 (meta-learning)、合作学习(coactive learning)等方法,其中元学 习方法最具代表性。
– 元学习的概念是由Prodromidis等人于2000年首先提出的,该方 法采用集成学习 (ensemble learning) 的方式来生成最终的全局 预测模型(即元分类器)。该方法的基本思想是从已经获得 的知识中再进行学习,从而得到最终的数据模式。
元学习的优点
– 在基学习阶段,各个结点可以自主地选择合适的学习算法来 生成局部的基分类器。与此同时,各结点间不存在任何通讯 与同步开销,因此系统效率较高。 – 在元学习阶段,由于系统可灵活采用各种集成策略,因此最 终生成的元分类器具有较高的预测精度。
结点的同构与异构性-CDM
异构结点间的数据挖掘
元学习
元学习的具体过程
图1 元学习的具体过程
元学习
基分类器输出的集成方式
– 投票(Voting): 绝对(相对)多数投票,加权投票。 – 决策(Arbitration): 指定特殊的“决策者”,当各基分类器的输 出无法达成一致时,采用“决策者”的输出。 – 结合(Combining): 使用相关的先验与领域知识指导各输出的集 成。
提纲
简介 – 数据挖掘 – 分布式数据挖掘 研究现状 – 同构与异构 – 分布式数据挖掘算法 – 应用实例 进一步的工作
简介-数据挖掘
什么是数据挖掘?
– 数据挖掘是指从巨量数据中获取有效的、新颖的、潜在有用 的、最终可理解的模式的非平凡过程。(From U. Fayyad et al.’s definition at KDD96) – 巨量的:对于少量数据的分析不需要使用数据挖掘。 – 有效的:所获得的模式必须是正确的。 – 新颖的:对于已知知识的投资收益不大。 – 潜在有用的:所得的模式应能提供相关的决策支持。 – 最终可理解的:所得的模式是提交给决策制定者的。
– 按系统功能、通讯与合作方式等情况划分……
研究现状
结点的同构与异构性 – 元学习(Meta-learning) – CDM(Collective data mining) 分布式数据挖掘算法 – 分布式决策树生成 – 分布式关联规则发现 应用系统实例
结点的同构与异构性-元学习
同构结点间的数据挖掘
分布式数据挖掘算法-分布式决策树 生成
分布式决策树生成
– 分布式数据挖掘正是在这一背景下产生的,它是数据挖掘技 术与分布式计算的有机结合,主要用于分布式环境下的数据
模式发现。
分布式数据挖掘
分布式数据挖掘的优点
– 出于对安全性、容错性、商业竞争以及法律约束等多方面因 素的考虑,在许多情况下,将所有数据集中在一起进行分析 往往是不可行的。分布式数据挖掘系统则可以充分利用分布 式计算的能力对相关的数据进行分析与综合。 – 在传统的数据挖掘系统中,如果能将数据合理地划分为若干 个小模块,并由数据挖掘系统并行地处理,最后再将各个局 部处理结果合成最终的输出模式,则可节省大量的时间和空 间开销。
简介-分布式数据挖掘
产生背景
– 各相关学科的飞速发展,各种网络尤其是Internet的广泛使用。 – 实际应用要求数据挖掘系统具有更好的可扩展性。 – 实例
• 研究某种疾病在某地的发病情况与气候的关系(疾病控制数据库 +环境数据库) • 金融组织间通过合作防止信用卡欺诈(数据共享) • 大型跨国公司营销策略的制定(销售点分散,数据仓库构造十分 耗时)
– 为了能够在结点异构的情况下有效地进行数据挖掘, Kargupta等人提出了CDM (Collective Data Mining) 的概念,其 基本思想是任一函数f都可以由一组基函数所表示,即
f ( x)
k I
w
k
k
– 最近,Kargupta等人结合传统的ID3决策树学习算法以及小波 变换技术,成功地将CDM技术应用于分布式决策树生成以及 回归分析中,取得了令人满意的结果。
– 在异构分布式数据挖掘系统中,各个结点存储的数据具有不 同的属性空间,一般而言,异构分布式数据挖掘系统所要处 理的数据集称为垂直分划数据集。
图2 一个典型的垂直分划数据集
CDM
CDM
– 研究结果表明,如果简单地将同构系统所采用的数据挖掘方 法应用于异构分布式数据挖掘系统,那么为了得到一个精确 的预测模型往往需要很大的系统开销,有时甚至是不可行的。
数据挖掘的研究领域
– 数据挖掘是一门涉及机器学习、统计学、数据库、可视化技 术、高性能计算等诸多方面的交叉学科。
数据挖掘
数据挖掘的应用范围
– – – – – – – – 描述性规则发现(Characterization) 对比性规则发现(Discrimination) 关联规则发现(Association) 分类分析(Classification) 预测(回归)分析(Prediction) 聚类分析(Clustering) 异常分析(Outlier analysis) ……
相关文档
最新文档