分布式数据挖掘计算过程DDCP算法研究

合集下载

分布式数据挖掘

分布式数据挖掘
• 同构:结点间数据的属性空间相同 • 异构:结点间数据具有不同的属性空间
– 按照数据模Βιβλιοθήκη 的生成方式• 集中式:先把数据集中于中心点,再生成全局数据模式(模型精 度较高,但只适合于数据量较小的情况)。 • 局部式:先在各结点处生成局部数据模式,然后再将局部数据模 式集中到中心结点生成全局数据模式(模型精度较低,但效率较 高)。 • 数据重分布式 :首先将所有数据在各个结点间重新分布,然后 再按照与局部式系统相同的方法生成数据模式。
面临的问题
– 算法方面
• 数据预处理,实现各种数据挖掘算法。 • 结合系统所处的分布式计算环境。
– 系统方面
• 能在对称多处理机(SMP)、大规模并行处理机(MPP)等具体的分 布式平台上实现。 • 结点间负载平衡、减少同步与通讯开销、异构数据集成等 。
分布式数据挖掘
系统分类
– 根据结点间数据分布情况
– 在同构分布式数据挖掘系统中,各个结点存储的数据都具有 相同的属性空间。 – 为了实现同构结点的数据挖掘,研究者们先后提出了元学习 (meta-learning)、合作学习(coactive learning)等方法,其中元学 习方法最具代表性。
– 元学习的概念是由Prodromidis等人于2000年首先提出的,该方 法采用集成学习 (ensemble learning) 的方式来生成最终的全局 预测模型(即元分类器)。该方法的基本思想是从已经获得 的知识中再进行学习,从而得到最终的数据模式。
元学习的优点
– 在基学习阶段,各个结点可以自主地选择合适的学习算法来 生成局部的基分类器。与此同时,各结点间不存在任何通讯 与同步开销,因此系统效率较高。 – 在元学习阶段,由于系统可灵活采用各种集成策略,因此最 终生成的元分类器具有较高的预测精度。

分布式关联规则挖掘算法研究

分布式关联规则挖掘算法研究

频繁项 目 集 , y X, ≠0 且规则 Y ( —y 若 ( y ( )
的可 信度 不小 于用 户 给定 的最 小 可信 度 , 构成 关 则 联规 则 Y ( —y 。 )
集, 对于给定 的事务数据库 D, 其中的每个事务都对
应一 个唯 一 的事 务 标 识 I 和 一 组 项 目集 I mst D t e e s
20 Si ehE gg 07 c . c.nn. T
分布 式关 联 规 则 挖 掘算 法 研 究
邹 丽 郭发 军 王艳娟
( 大连交通大学软件学院 , 大连 16 5 ) 10 2


在对分布 式关联规 则挖掘 的三种主要算法 : D算法 、 D算法及 F C D D算法 的原理及 实现步骤进 行详细 的阐述 的基 础 关联 规则 分布 式 支持度 可信度
平 台。
分布 式关联 规则 的挖 掘其本 质上 也是一 种并 行 的关联规 则挖 掘 只不 过 是基 于 网络 环境 下 的关联
规 则挖掘 。
( )利用频 繁项 目集 生 成关 联 规 则 : 于 每个 2 对
1 相关理论基础
关联 规 则 : 设 , {l,, , 是 一 组 物 品 假 = ,,2 … m}
维普资讯
第 7卷
第 8期
20 0 7年 4月





工 程

Vo. No 8 A r 2 0 17 . p. 0 7
17 —89 20 ) 815 -3 6 11 1 (0 7 0 — 90 7
S i n e T c n lg n n i e r g c e c e h o o y a d E gn e i n

基于多级分布式计算的数据挖掘技术研究

基于多级分布式计算的数据挖掘技术研究

基于多级分布式计算的数据挖掘技术研究随着信息化时代的不断来临,数据量的爆炸性增长已经成为了一个不争的事实。

为了应对如此大量的数据,人们开始使用数据挖掘技术对数据进行处理和分析。

多级分布式计算作为一种高效的运算方式,已经被广泛应用于数据挖掘领域。

本文将探讨基于多级分布式计算的数据挖掘技术的研究和应用。

一、多级分布式计算的基本原理多级分布式计算是一种将计算任务分解为多个层级进行处理的计算方式。

采用这种方式可以使得计算任务的处理效率得到极大地提高。

这种计算方式的基本原理是将计算任务分解为多个不同的子任务进行处理,其中每个子任务可以进一步分解为多个更小的任务,每个小任务都可以分配到不同的计算节点上进行处理。

这种方式可以大大提高计算的并行性,同时实现任务的快速处理。

二、多级分布式计算在数据挖掘中的应用多级分布式计算广泛应用于数据挖掘领域,包括文本挖掘、图像挖掘、视频挖掘等方面。

在这些应用中,多级分布式计算被用来加速计算过程,同时提高计算效率和数据处理能力。

1. 多级分布式计算在文本挖掘中的应用文本数据是一种非结构化的数据,对其进行处理和分析是一项非常复杂的任务。

多级分布式计算可以将文本数据按照一定的规则分解为更小的单元,然后分配到不同的计算节点上进行处理。

这种方式可以克服对单个计算节点的计算能力和存储容量的限制,使得文本数据的处理速度有了明显的提升。

2. 多级分布式计算在图像挖掘中的应用图像数据是一种非常庞大的数据,对其进行处理和分析是一项非常复杂的任务。

多级分布式计算可以将图像数据分解为不同的部分进行处理,然后将处理结果进行合并。

通过这种方式可以快速处理图像数据,从而提高图像数据处理的效率和速度。

3. 多级分布式计算在视频挖掘中的应用视频数据是一种非常复杂的数据,对其进行处理和分析需要耗费大量的时间和资源。

多级分布式计算可以将视频数据分解为不同的部分进行处理,然后将处理结果进行合并。

通过这种方式可以快速处理视频数据,从而提高视频数据处理的效率和速度。

基于分布式计算的大数据分析与挖掘技术研究

基于分布式计算的大数据分析与挖掘技术研究

基于分布式计算的大数据分析与挖掘技术研究随着互联网和物联网的发展,大数据应用越来越广泛,数据量也越来越大。

这时,传统的数据处理方式已经无法满足需求,于是出现了大数据分析与挖掘技术。

大数据分析与挖掘通过对大数据的分析、处理和挖掘,从中发现数据背后的价值和趋势,为决策提供支持。

基于分布式计算的大数据分析与挖掘技术是当前最重要的研究领域之一,正在得到越来越多的重视。

一、大数据分析与挖掘技术的定义及特点大数据是指规模超过传统数据处理能力的数据,它的特点包括五个V,即数据的量大(Volume)、速度快(Velocity)、来源广泛(Variety)、价值高(Value)和真实性强(Veracity)。

为了能够从大数据中发现价值和趋势,需要运用大数据分析与挖掘技术。

大数据分析与挖掘技术是将统计、机器学习、数据挖掘、人工智能等方法应用于大数据分析的一种技术,它可以帮助我们发现数据中潜在的模式、关系和趋势,为决策提供支持。

二、基于分布式计算的大数据分析与挖掘技术的原理由于大数据量的特点,传统的单机计算已经无法胜任大数据分析与挖掘的任务。

同时,由于网络的高速发展,多台计算机之间的数据传输速度也得到了大幅提升。

于是,分布式计算成为解决大数据处理难题的选择,基于分布式计算的大数据分析与挖掘技术应运而生。

分布式计算是指在多台计算机中协同处理同一任务的计算模式,每台计算机处理其特定的子任务,最终将结果合并起来得到最终结果。

基于分布式计算的大数据分析与挖掘技术将大数据划分为若干个部分,由不同的计算机处理。

具体来说,先将大数据分为若干个部分,每个部分分配至不同的计算机上进行处理。

在每个计算机进行处理时,可以选择多种算法进行数据分析和挖掘,例如k-均值聚类、关联规则挖掘、分类器等。

最后,将每个计算机处理的结果合并,得到最终的分析结果。

三、基于分布式计算的大数据分析与挖掘技术的应用大数据分析与挖掘技术已经成为各种行业的重要工具,例如金融、医疗、能源、政务等。

基于分布式计算的多层次数据挖掘技术研究

基于分布式计算的多层次数据挖掘技术研究

基于分布式计算的多层次数据挖掘技术研究近年来,随着云计算、大数据和物联网等技术的发展,数据量呈现出爆炸式的增长。

如何从这些海量、多源的数据中挖掘出有价值的信息成为了一个亟需解决的问题。

由于数据挖掘算法通常需要消耗大量的计算资源,因此传统的单机计算已经无法满足其需求。

而基于分布式计算的多层次数据挖掘技术正是应对这一挑战而应运而生的。

本文将从多个角度对基于分布式计算的多层次数据挖掘技术进行探讨。

一、分布式计算的基本概念分布式计算是指将一个计算问题分解成若干个子问题,由不同的计算机节点分别处理这些子问题,最终将结果合并成为整体解决方案。

分布式计算的优点在于可以利用多台计算机的计算资源,从而提高计算效率,降低计算成本。

二、多层次数据挖掘技术的基本思想多层次数据挖掘技术是指将数据挖掘任务分解成不同层次的子任务,由相应的计算节点分别处理各自的子任务,最终将结果汇总成为整体的挖掘结果。

多层次数据挖掘技术的核心思想是将大规模的数据处理任务分解成多个小规模的子任务,每个子任务可以单独进行计算和存储,从而达到分布式计算的目的。

三、多层次数据挖掘技术的应用场景多层次数据挖掘技术可以广泛应用于各种领域,如金融、医疗、交通、能源等。

在金融领域,多层次数据挖掘技术可以用于预测股票价格、研究市场走势等;在医疗领域,可以用于研究疾病的发病机制、诊断和治疗等;在交通领域,可以用于交通流量的预测和控制;在能源领域,可以用于研究能源消耗的规律,优化节能方案等。

四、多层次数据挖掘技术的关键技术多层次数据挖掘技术的实现涉及到多个关键技术,包括任务分解、分布式存储、计算资源管理、数据传输和汇总等。

其中,任务分解是指将一个大规模的数据挖掘任务分解成多个小规模的子任务;分布式存储是指将数据存储在多个计算节点上,以提高数据的可用性和容错能力;计算资源管理是指对分布式计算资源进行有效的管理和调度,以提高计算效率;数据传输和汇总是指将不同计算节点上的计算结果汇总到一起,形成整体的计算结果。

基于分布式计算的时空数据挖掘技术研究

基于分布式计算的时空数据挖掘技术研究

基于分布式计算的时空数据挖掘技术研究一、引言随着信息技术的发展,数据的产生和存储量不断增长,数据挖掘也成为了科技领域中的热门话题。

由于“时空数据”与传统的数据存在很大的差异,如存储方式、特征、时序性等,因此时空数据的挖掘技术也逐渐受到了广泛的重视。

本文将针对基于分布式计算的时空数据挖掘技术进行探讨和研究。

二、时空数据的特点1. 存储方式不同传统的数据是以表格的形式存储的,而时空数据常常采用三维、四维的空间坐标系进行存储。

这样,时空数据可以准确表达不同位置和时间的信息。

2. 特征不同时空数据具有时间维度和空间维度的特点,同时还存在时空相互影响,以及时空信息不确定性和动态变化等复杂特征,这就给时空数据的挖掘带来了难度。

3. 时序性强时空数据通常是随着时间的变化而不断更新的,因此具有很强的时序性和动态性。

这就使得时空数据挖掘要求具有及时处理能力,所以需要采用基于分布式计算的技术。

三、时空数据挖掘的相关工作1. 时空数据预处理由于时空数据具有复杂的特征和大量的维数,可以使用多种预处理技术对其进行处理。

例如在标准化、降维、特征选择、异常检测等方面进行预处理可以使得挖掘结果更加准确和可靠。

2. 时空数据聚类时空数据聚类是指根据时空数据的特征将其分为一定数量的簇,以便进行分析和挖掘。

在分布式计算技术中,可以采用K-means算法和DBSCAN算法进行聚类。

3. 时空数据分类进行时空数据分类可以帮助用户更好地理解数据,找到数据之间的关联。

在时间序列分类中,将时序数据分为多个离散事件是一种常见的分类方式。

此外,还可以使用支持向量机、决策树等机器学习算法进行分类。

4. 时空关联分析时空数据挖掘的关联分析研究相对较少,大多数都借鉴传统数据的关联分析方法。

时空数据的关联分析不仅需要考虑空间关系、时间关系、属性关系等因素,还应考虑时空因素之间的关联,因此需要考虑基于时空关联规则的分析方法。

四、采用分布式计算技术的时空数据挖掘系统分布式计算是指将一项任务分解成多个子任务,分配给不同的计算节点来完成,并将所有的结果合并起来形成最终结果。

基于分布式计算的数据挖掘技术研究

基于分布式计算的数据挖掘技术研究

基于分布式计算的数据挖掘技术研究引言随着互联网的普及和数据量的急剧增长,数据挖掘技术越来越成为人们处理和分析海量数据的重要工具之一。

而分布式计算技术在处理海量数据和大规模计算方面具有显著优势。

因此,本文将探讨数据挖掘技术在分布式计算环境下的研究现状和应用前景。

一、分布式计算和数据挖掘技术的介绍1. 分布式计算分布式计算是指把计算任务分散到多个计算机上,通过网络进行协作,共同完成任务的计算模式。

这种计算模式可以将大规模计算分散到多个计算节点进行处理,大大降低了计算量和计算时间。

例如,分布式计算可以用于大规模图像处理、网络爬虫、机器学习和数据挖掘等领域。

2. 数据挖掘技术数据挖掘技术是在海量数据中发现潜在的关联和规律的过程,包括分类、预测、聚类、异常检测、关联规则挖掘等。

数据挖掘技术可以从海量数据中自动发现有用的信息,帮助用户进行决策和判断,并提高决策的准确性和效率。

二、分布式数据挖掘技术的实现方法1. Hadoop平台Hadoop平台是目前最流行的分布式计算平台之一,它是一个开源的分布式计算框架,包括HDFS分布式文件系统和MapReduce计算框架。

Hadoop平台广泛应用于大数据处理和数据挖掘领域。

2. Spark平台Spark平台是另一种分布式计算框架,它比Hadoop平台更加高效和灵活,支持分布式内存计算和流式数据处理等功能。

Spark平台被广泛应用于机器学习、图像处理和数据挖掘等领域。

3. 其他分布式计算平台除了Hadoop和Spark平台,还有一些其他的分布式计算平台,如Storm平台、Flink平台、Mesos平台等。

这些平台都具有自己的特点和优势,可以根据需求选择不同的平台来进行数据处理和分析。

三、基于分布式计算的数据挖掘技术的应用案例1. 基于Hadoop平台的数据挖掘Hadoop平台广泛应用于海量数据的存储和处理,其中数据挖掘是其常见的应用之一。

例如,在银行领域,银行可以使用Hadoop平台来对大量的交易数据进行挖掘和分析,从而预测客户的风险和评估贷款的违约率。

基于分布式计算的数据挖掘技术研究

基于分布式计算的数据挖掘技术研究

基于分布式计算的数据挖掘技术研究近年来,随着信息技术的迅猛发展,数据量呈现爆炸式增长,数据处理难度和效率成为人们普遍关注的问题。

在这种情况下,基于分布式计算的数据挖掘技术成为了一种重要的研究方向。

一、分布式计算的基础知识在介绍分布式计算的数据挖掘技术之前,首先需要对分布式计算进行简单的介绍。

所谓分布式计算,指的是将计算任务分配到多台计算机上进行处理。

与传统的单台计算机相比,分布式计算具有计算能力高、存储容量大、可扩展性强等优点,可以突破单台计算机的计算和存储限制,实现大规模数据的处理和应用。

分布式计算的核心技术包括任务分配、数据传输、负载均衡、容错处理等方面。

这些技术的目的就是为了充分发挥分布式计算的优势,实现高效的计算和数据处理。

二、分布式数据挖掘技术的应用现状分布式数据挖掘技术已经开始在各个领域得到应用,并逐渐成为了数据处理领域的热门话题。

目前,分布式数据挖掘技术广泛应用于金融、医疗、物流、电商等行业。

以金融行业为例,分布式数据挖掘技术可以被用于风险控制、客户信用评估等业务场景。

通过对客户数据进行分析和挖掘,可以更加准确地评估客户的信用水平,并为风险控制提供更加合理、科学的数据支撑。

在医疗行业中,分布式数据挖掘技术也得到了广泛的应用。

通过对大量病历数据的分析,可以准确预测患者病情和疾病风险,并为医疗决策提供科学依据。

此外,分布式数据挖掘技术还可以被应用于医药研发、病毒检测等领域。

这些应用案例表明,分布式数据挖掘技术在解决大数据处理难题,提高数据处理效率和准确性等方面具有重要的作用,在未来的发展中也将得到更加广泛的应用和推广。

三、分布式数据挖掘技术的关键技术在实现分布式数据挖掘技术的过程中,需要解决一系列关键技术问题。

首先是任务分配问题。

在分布式计算中,任务需要进行分配到各个节点上进行处理。

如何根据不同的任务特点和不同的节点性能进行合理的任务分配,是提高数据处理效率的重要关键。

其次是数据传输问题。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
GfS 拢县 1 I } f F l 73 . P 15 文献标识码 A
R sac o Ds iui D t nn C l l ig cs eerh ir t e a ig c a n P oes n t b v a mi au t r
一 一 D P gr h 一 D C A oi m l t
2Te cm ui tn i en I t r Ar e i en n . a 107 r Eg e i U i X' 707) . Tl o m n ao Eg e i ni e i o n nr g v in h e e c i n n rg m . F c s
2 D P D C 算法
2 D C 算法步骤 . DP 1 基于分布式计算框架, 本文提出了D C 算法来实现框架的计算思想, DP 算法分为控制节点和分节点两
个部分。
万方数据
电子科技 大学学报
第3 2卷
控制节点的 算法包括三 个阶 段: 1 RU 初始化 进行必要的全局信息收集和 ) 的 TD 相应变量的 初始化 同时通知各个节点全局的 信息 2 T D 的事务分布。 ) U R 决定读人的每一个事务应该分配给哪一个节点进行处理, 纪录每一个节点得到 的 事务总数, 根据在初始化阶 段得到的各个节 点可以分配的事务数目 控制是否在下 一个事务的分配决策中
A s at h rc pooe a rh f a u t a ic r ue f h s oii T iaie ps a o t o t cl le het e d t asc tn bt c r s l r t d l i m h c a r t u s o e ao g e c r rlad a o t bs o t dtprtn fl ue t m rs seitsat sm t e u n ts rh ae n a ai , s h etad c l , e e e h l i m d h a i uy s i g e t o l e i n p ai t a i e h m ue cn oet as n s tn r dmy eo e dtse it dt aeT e oim s ot lr s g tna i s o ltr l t a kw h a bs. a rh i s r l o i r co a a n o v h a n a s e e h l t s g u d t ea p ad w t cr c es f il . a b ue f d tbtdt a ad s f h xm l n so s or t sad b t Icn s o ir u a b e e o e e h r h e e n n e i y t e d si e as n s a i r m sapcb fr r u cl li . ot lal o d tbt a u tn p i e i i e ao s c
n Y2 i Fn Y gu n G a pn' W Dwi Iag e o b g Wag ag w ' Za un eg i 2 h g g n u e n Ymi ZaXui 2 e l u u ' h i n
( C lg oMehn aad c i ToEi ergX' U v f ho g X ' 704; gnei , r oTcnl y i n 108 1 oee cai l Peio ol . f c n r s n n n i n . e n a o a
1 分布式计算框架
1 问 . 题描述 1 关联规则挖掘问题是在分析零售业事务数据库时提出的, 现在的发展已经超出了原来的应用范围,其
20年, o 收稿 月t日 02 。男 3岁 博士 0 研究生 主要从事月 力学与自 侧: 动控树 方面的研究
万方数据
第 1 期
方 武 等 布 数 挖 阵过 英 :分 式 据 掘i
a Dsbt Ui, B n ii e t T 表示事务数据库 d t u n) D r (aai Dta) C一C表示数据传道 T nc n a s , rst ab e , o (a T neCa e, P表示处理器( Dt r sr n l P- a f h n) , a 紧 藕合或树( c St mre ) G 表示全 ) L a eEu e tTe . o l n 卫rTEo 3; 22 Wg A) 3l 年l ] } JT C o i- h uo1f E S-n n r r rf a— a 1 l r i x V T
分布式数据挖掘计算过程
一一D C 算法研究 P D
方英武” ・ 2
张广鹏‘
包含该节点;
3I U 事务处理。 ) 的 C M 根据T D 读取数据的状态决定事务处理所处的阶段,当 RU 得知所有的事务已 经被 T D 读取结束后, RU 各个节点就得到了 它们应该处理的 全部事务, 因此可以 得到本地的大项集1 此时IM CU 处于等待状态,每当一个节点完成后就通知IM C U,同刚 将本地的大项集传递给IM , U C U IM 动态的合并 C 所有的本地大项集,最终输出全局大项集。 分节点的算法也包 括三个阶段: 1 从T D 得到全局的分布信息, ) RU 初始化自 身的变量, 包括将自 身节点同分配的 通道相绑定; 2 连续接受中央节点传递的事务, ) 同时负责清除通道的 数据为下一个 事务的 接收做 准备。 分节点根据 是否可以将全部事务放人内 存执行来决定是否放人内 存处理, 如果不可以放人内存执行则利用动态的事务 处理或者缓存到 本地的磁盘; 3 在得到J D 发送的明确的事务分发结束信号后,如果不适用动态的 ' R U ) T 集合枚举树牛成方法则开始 处 理所有得到的 事务, 处理结束后将得到的大项集传递给中央节点的 C U IM 单元 2 有序集合枚举树的动态生成 . 2
局集合枚举树(l aSt m re e Go l Eu e tT ) b e n a r 或其他 e 数据结构。 1 分布式计算流程 . 3 分布式计算框架从概念上来讲是一种层次 计算方法, 将整个数据挖掘大项集的生成算法 中涉及的各个相对独立的计算过程分离出来 利用单独的模块进行计算,因为各个模块之间 图1 分布式计算框架图 没有紧密的 祸合现象,相互之间只是事务数据 的传递和少量的指令流。 该计 算框架的核心是分布单元D ,其 U 具体的流 程可以分四 步进行:
为频繁项集;
2利 项 生 关 规 。 每 大 集 大 集 成 联 则 对 个 项 布 若 c , 0 且 u o(/p r )m c f )用 BA B . spt) pt } o , # p r s oB i n Au ( n
则有关联规则: }( B B A ) - 问题2 ) 较容易解决,已有成熟的生成算法,问 ) 题1 的解决影响大规模数据库的检索, 所以效率和准确 性是问题的关键, 讨论和算法都是集中 在不牺牲精度的 前提下提高大项集生成效率上, 本文算法和体系结 构将基于 po和 ai n对这一问题进行分析。 A rr Pri ii to t L 分布式计算框架 Z 分布式计算框架利用了Pri 数据库分片的思想,但是各个部分具体的算法不是固定的, ai n to t 在不同的 部分使用不同的算法, 该计算框架可以应用在 并行和分布式的环境里。其计算框架如图1 所 示 图中 D 表示分布单元(iru Cnoa U Ds bt otl t e r n i d
3 尸 处 己的 务, 所有事 理自 事 如果 ) 洛自 务可以 放人内 则选择高效的 存, 算法生成本 项集; 地大 否则将
事务缓存到本地磁盘, 在所有事务从T D 接受完毕后, RU 生成最后的 本地大项集; 4 IM 负责和各个节点之间的数据通信, ) U C 同时维护全局枚举树O 。 T 各节点在处理过程中或者处理完 成后都可以和 C U IM 通信, 这取决于 不同的实现策略。
Ky d amn g s ctn ; g ime d a s dt in; o ao re a e s; t a ew rs a i a ii u l t t ab e o s l r e 目 前数据挖掘的 算法很多M 这些算法都是针对特定的问题和应用领域, l但 在有些方面是高效的, 但 都存在或多 或少的缺陷。主要问题在于每一种方法都是对具体的计算方法的 研究, 在改善以往算法时却牺 牲了 些以 往算法的优点。 大规模数据库的 关联规则挖掘算法的效率瓶颈是大项集的生成过程, 这个过程 相当 耗时, 故所有的算法都针对这一点进行了 研究和分析, 提出了 各种不同技术的算法, 其目 的是尽量减 少 数据库的扫描次数。 本文通过深人分析以往算法的优缺点1 提出了一种关联规则挖掘大项集生成的并 2 1 ,
Mn ee Ui, U 示信息 制管 单 a g n n) I 表 a m t C t M 控 理
元(fm tn no ad n e et t Io ao C tl M a m n U i, nr i or n a g n) T D 表示事务读取分发单元( as tn a RU T n co R d r ai e
行 分 式 理 计 框 的 法 分 式 据 掘 算 程D t uvDt inCllnP cs 和 布 处 的 算 架 算 一 布 数 挖 计 过 (sb e m i aut re, i t a ng a g s i ri a c i o
D C) DP 算法。旨 在能够提供一个灵活的和可扩 展的计算平台, 利用现在相对廉价的单机进行网 络计算,充 分挖掘网 络计算的优势。
1TD 首先 根据处理器或者可利用的 式单机的 创建数据传输通道C-C, 各种初始化 ) U R 分布 数目 I . 负责
工作;
2 启动函数D c e e e oe , e d cv N d( 根据所使用的 ) i Re i - ) 解决数据偏度策略的不同 初始化变量, 顺序读取数 据库中的 事务块, 将每一个事务分配到不同的处理器, 做到负载均衡和解决数据偏度;
算法研究
本文即 采取这种形式化的 描述方法 深度和广度都有很大提高, 但关联规则的形式化描述有其通用意义, 关联规则的发现可以 分解为两个子间题: 为大项集或者称 1找出 在于 务 据库中 所 项 项 I 支 度s p (3 iu, 事 数 ) 存 的 有大 集。 集 的 持 u o !l n p 则称X p r) s t- m
相关文档
最新文档