大型数据库的模糊关联规则挖掘算法研究
5 数据挖掘技术-大型数据库中的关联规则

c:1
b:1 p:All frequent patterns concerning m m, fm, cm, am, fcm, fam, cam, fcam
p:2
m:1
m-conditional FP-tree
23
通过建立条件模式库得到频繁集
项 p m b a c f
19
挖掘 FP-tree的主要步骤
1) 为FP-tree中的每个节点生成条件模式库 2) 用条件模式库构造对应的条件FP-tree
3) 递归构造条件 FP-trees 同时增长其包含的频繁 集 如果条件FP-tree只包含一个路径,则直接生 成所包含的频繁集。
20
步骤1: 从 FP-tree 到条件模式库
4
关联规则
以零售业为例,体育用品商场通过对销售数 据进行关联分析通常可以发现这些数据中常 常隐含形式如下的规律—— ―购买篮球的顾客中有70%的人同时购 买篮球运动服,所有交易中有40%的 人同时购买篮球和篮球运动服” 等等。 这些规律即关联规则。
5
关联规则度量—置信度
定义: 规则XY在交易数据集D中的置信度是对关联规 则准确度的衡量。度量关联规则的强度。即在 所有出现了X的活动中出现Y的频率,即规则 XY 的必然性有多大。记为: confidence(XY) 计算方法: 包含X和Y的交易数与包含X的交易数之比: confidence(XY) = P(Y∣X)
头表 Item frequency head f 4 c 4 a 3 b 3 m 3 p 3
最小支持度 = 50%
{}
f:4
c:3 a:3 m:2 p:2 b:1 m:1 b:1
c:1
b:1 p:1
数据挖掘技术中基于关联规则算法的研究

数据挖掘技术中基于关联规则算法的研究摘要数据挖掘的主要目的在于能够从大型的数据库中挖掘出对用户有价值的信息,以便为决策者地决策提供有用的数据依据本文对数据挖掘技术的概念和内容做出了描述,同时也对基于关联规则的数据挖掘技术进行比较全面的概括和分析,并提出解决相应问题的基于关联规则挖掘算法。
关键词数据挖掘;关联规则;算法中图分类号tp392 文献标识码a 文章编号 1674-6708(2011)45-0223-031 概述1.1课题的研究背景现代计算机科学技术发展的历史,同时也是数据和信息加工手段不断更新和改善的历史。
随着计算机硬件和软件不断的发展,尤其是数据库技术与应用的广泛推广,摆在人们面前的问题出现了,这些急剧膨胀的信息数据,如何有效利用这一丰富数据海洋的宝藏为人类服务,也已成为广大信息技术工作者所重点关注的焦点之一。
传统的收集数据技术可以在一定程度上对收集来的数据信息进行统计分析,能够获得一定的数据价值,这种传统的收集数据技术具有一定的效果,但当这种方法在面对海量的数据并从中进行数据分析时,却没有一个比较好的解决方案。
无论是数据的统计、数据的查询、数据的报表等这些传统的数据处理方式都是对收集来的数据简单的进行处理,而不能对这些数据内部所隐含的价值信息进行有效的提取和分析。
在这些大量数据的背后隐藏了很多具有决策意义的信息,如何得到这些能够为我们提供决策依据的数据依据已经成为当前的一个热点的研究方向。
1.2研究目的和意义数据挖掘技术是面向应用型的。
目前,在很多重要的领域,数据挖掘都可以发挥积极促进的作用,尤其是在如保险、交通、零售、银行、电信等商业应用领域。
数据挖掘能够帮助用户解决许多典型的商业性的问题,其中包括:数据库营销、客户群体划分、背景分析、交叉销售等市场分析行为,以及客户流失性分析、客户信用评分、欺诈发现等等。
数据挖掘技术已经广泛的在企业市场的营销中得到了应用,它以市场营销学的市场细分原理为基础,通过对涉及到消费者消费行为的信息进行收集、加工和处理,得出结论以确定目标消费者地兴趣、消费倾向、习惯以及消费需求,从而能够推出目标消费者下一步的消费方向,然后以得出来的结论为基础,对目标消费者和消费群体进行定向的营销,这与传统的盲目营销的方式相比,可以在很大程度上节省因营销而产生的开支,能够提高营销的成功率,从而可以为企业带来更大的利润,也能够帮助企业树立起好的口碑。
大数据分析中的关联规则挖掘方法与工具推荐

大数据分析中的关联规则挖掘方法与工具推荐在大数据时代,数据成为了一种宝贵的资源。
然而,如何从海量的数据中提取有用的信息和洞察力,成为了许多企业和研究机构面临的挑战。
关联规则挖掘是一种广泛应用于大数据分析中的有效方法,它可以发现数据集中的潜在关联关系和模式。
本文将介绍关联规则挖掘的方法,并推荐几款常用的工具。
首先,我们来了解一下什么是关联规则挖掘。
关联规则挖掘是数据挖掘中的一种技术,它可以发现数据集中的频繁项集和强关联规则。
频繁项集指的是在数据集中经常同时出现的一组项的集合,而关联规则则是描述这些项集之间的关联关系。
通过挖掘关联规则,我们可以发现数据中隐藏的规律和关联关系,从而为决策和预测提供支持。
在关联规则挖掘中,最常用的算法是Apriori算法。
Apriori算法通过自底向上的方式逐步生成候选项集和频繁项集。
首先,通过寻找所有项的单个项集作为初始候选集,然后逐步生成更长的候选项集。
接下来,算法会扫描数据集,检查每个候选项集的支持度(即在数据集中出现的频率),并保留支持度高于阈值的项集作为频繁项集。
通过不断迭代这个过程,Apriori算法可以发现所有频繁项集和关联规则。
除了Apriori算法之外,还有其他一些关联规则挖掘算法,例如FP-growth算法和Eclat算法。
FP-growth算法通过构建一种称为FP树的数据结构来挖掘频繁项集。
它首先构建一颗完整的FP树,然后通过递归地将FP条件模式基与每个项结合起来生成更长的频繁项集。
Eclat算法是一种针对事务数据库的关联规则挖掘算法,它使用垂直数据表示来高效地挖掘频繁项集。
这些算法各有特点,在选择挖掘方法时可以根据数据集的特征和实际需求进行选择。
在实际应用中,有许多工具可以用于关联规则挖掘。
下面我将推荐几款常用的工具,供读者参考。
1. Weka:Weka是一个流行的数据挖掘工具,其中包含了各种关联规则挖掘算法。
它提供了直观的用户界面和丰富的功能,可以帮助用户进行数据预处理、建模和评估。
关联规则挖掘算法的研究

Vol.29No.1Jan.2013赤峰学院学报(自然科学版)JournalofChifengUniversity(NaturalScienceEdition)第29卷第1期(下)2013年1月关联规则挖掘算法的研究目前是数据挖掘领域的一个重要方向,其中,Apriori算法就是一个经典的挖掘关联规则算法.1993年,Agrawal等提出关联规则挖掘的相关概念,随后提出经典Apriori算法,它是一个采用两阶段挖掘思想的算法,且多次扫描事务数据库,直到寻找出给定数据集中数据项之间有趣的关联规则.1关联规则基本概念1.1关联规则关联规则是形如A圯B的蕴含式,在关联规则中,有两个重要的概念:支持度和置信度.支持度是对关联规则的重要性的衡量,置信度是对关联规则的准确度的衡量,一般情况下,用户根据实际挖掘需要,预先给定最小支持度和最小置信度,通常情况下,如果规则的置信度和支持度大于用户指定的最小置信度和支持度,那么这个规则就是一条有效规则.事实上,有效规则并不一定具有实用性,还要参照关联规则的其他指标.定义1设I={I1,I2,…,IM}是数据项的集合,D是全体事务的集合,一个事务T有一个唯一的标识TID.如果项集A哿T,则称事务T支持项集A,也称事务T包含项集A.定义2关联规则是形如A圯B的蕴含式,其中A奂I,B奂I,且A∩B=Φ.定义3事务数据库D中有N条交易事务,关联规则A圯B的支持度定义为:support(A圯B)=support(A∪B)×100%.定义4置信度定义为:confidence(A圯B)=support(A∪B)×100%.引理1在数据库中若有一事务T其长度小于K+1,则由K项频繁集生成K+1项频繁集时,事务T是没必要扫描的.1.2Apriori算法的基本思想Apriori算法是发现关联规则的经典算法.该算法分两个步骤发现关联规则:第一步通过迭代,找出事务数据库中的所有频繁项集,即支持度不低于最小支持度的项集;第二步利用频繁项集构造出满足用户最小可信度的规则.2Apriori 算法的不足之处Apriori算法最大的优点是算法思路比较简单,它以递归统计为基础,生成频繁项集,易于实现.Apriori算法虽然能够从海量数据中挖掘出关联规则,但是算法在执行速度和效率上有一定的局限性,表现如下:2.1Apriori算法会产生大量的候选项集.该算法是由候选集函数Apriori-Gen利用Lk-1项产生候选项集Ck,所产生的Ck由CkLk-1项集组成.显然k越大产生的候选项集的数目就越多.2.2I/O负载过大.Apriori算法需要多次扫描事务数据库,需要很大的I/O负载.对每次k循环,候集Ck中的每个元素都必须扫描数据库1次来决定其是否加入Ck.例如,一个频繁大项目集包含12个项,那么就至少扫描事务数据库12遍.3对Apriori 算法的改进算法改进的思路1.改变数据的存储结构,用二进制位存储各项目的事务集,矩阵的列代表频繁K-项集,矩阵的行代表事务,其中1表示该项目在某事务中出现,0表示该项目在某事务中没有出现.2.生成频繁1-项集.首先扫描源数据库,生成矩阵.统计每列中包含1的数目,得到该项目的支持事务数,如果该项的支持事务数大于最小支持事务数,则该项是频繁项集,否则是非频繁项集.从矩阵中将该列删除,并根据引理1,在矩阵中删除第9行,得出频繁1-项集.3.由频繁1-项集生成频繁2-项集.对频繁1-项集中的项两两连接得出候选2-项集,也就是对矩阵中第i列所代表的项集和第j列所代表的项集进行逻辑与操作.然后计关联规则挖掘算法的研究张丽(湖南文理学院经济与管理学院,湖南常德415000)摘要:本文介绍了数据挖掘中的关联规则经典Ap r i or i 算法.针对Ap r i or i 算法在执行速度和效率上的缺点,提出了一种改进的Ap r i or i 算法.关键词:Ap r i or i ;算法;关联规则中图分类号:TP311文献标识码:A文章编号:1673-260X(2013)01-0022-02基金项目:湖南文理学院2010年度青年启动课题(QNQD1017)22--算支持候选2-项集各项集的事务集,在矩阵中删除支持事务数小于最小支持事务数项集对应的列,根据引理1,在矩阵中删除第4、6、10行.得出频繁2-项集.4.类推,得到频繁K-项集,直到不能产生新的频繁项集为止.4改进算法举例假定最小支持数为3原始数据交易第一步生成初始矩阵第二步将支持度小于3的列删除.得到L1=(a,b,c,d)第三步将支持度小于3的列删除,且根据引理1,删除第9行,得到L2=(ac,bc,bd,cd)第四步将支持度小于3的列删除,且根据引理1,删除第4,6,10行,得到L3=(bcd)5结束语进算法通过改进数据的存储结构,利用“0”和“1”存储各项目的事务集,采用逻辑运算求得某项集的支持事务数,再根据给定的最小支持数生成频繁项集.改进后的算法与Apriori算法相比具有以下优势:(1)整个数据库只要扫描一次.(2)由频繁k-1项集直接生成频繁k项集,不需要再扫描整个数据库.3)在求k频繁项集时,删除了长度小于K的事务.节约了存储空间,算法的效率也大大提高.———————————————————参考文献:〔1〕刘军,谢康林.一种改进的关联规则提取算法[J].型微型计算机系统,2003(7).〔2〕安颖.基于关联规则的数据挖掘算法研究[D]北京:北京工业大学,2009.〔3〕杨志刚,何月顺.基于压缩事务矩阵相乘的Apriori改进算法[J].中国新技术新产品,2010,30(6):57-58..〔4〕黄建明,赵文静,王星星.基于十字链表的Apriori改进算法[J].计算机工程,2009,35(2):37-38.〔5〕李云峰,陈建文,程代杰.关联规则挖掘的研究及对Apriori 算法的改进[J].计算机工程与科学,2002,24(6):65-68.tid ac bc bd cdt11000t20100t31100t40100t50111t60100t71111t80111t101000tid bcdt10t20t30t51t71t81tid项目集t1acgt2bcgt3abct4bct5bcdet6bgt7abcdft8bcdft9at10actid a b c d e f gt11010001t20110001t31110000t40110000t50111100t60110001t71111010t80111010t91000000t101010000tid a b c dt11010t20110t31110t40110t50111t60110t71111t80111t91000t10101023--。
某机载雷达数据库关联规则挖掘算法研究

e ha c h e o n t n p o b l y o e po i v u e . p rme t lr s lss o t a e a g rt m a e t rp r o ma c h n t e ta i o l n n e t e r c g i o r ba i t ft st e r l s Ex e i i h i i n a e u t h w h t l o h h s ab t e f r n e t a h r d t na h t i e i
引入有向无环图和字节向量用以提高频繁项 目集的计算效率 , 解决挖掘时磁盘操作频繁的问题 , 并定义新 的模糊度量提高正规则的识别概
率。实验结果表明 ,该算法比传统算法具有更高的执 行效率 和准确率 。
关健词 :大型机载雷达数据库 ;Q 一 L 算子 ;字节 向量结构 ;模糊度量 ;数据挖掘
( p r n f al W ann uv i a c tl g n e Ai F reR d s tt, h n4 0 1 , hn ) De at me t r r igS r el n eI e ie c , r o c a a I tue Wu a 3 0 9 C ia oE y l n l r n i
Re e r h o s ca i n Ru eM i i gAl o i m f s a c n As o i to l n n g rt h o
On r o n d rDa a a e eAib r eRa a t b s
C in L a g W U X a UI a , I J Qin , i
第3 7卷 第 1 期 8
、o -7 ,13
・
计
算
机
大数据分析中的关联规则挖掘技术详解

大数据分析中的关联规则挖掘技术详解在大数据时代,海量的数据对于企业和组织来说是一项无可估量的宝藏。
然而,这些数据本身并没有带来价值,而是需要通过分析和挖掘才能发现其中的潜在关联和规律。
关联规则挖掘技术正是为了解决这个问题而产生的。
关联规则挖掘技术是一种用于发现数据集中项集之间的相关性的数据科学技术。
它可以帮助我们识别出频繁出现在一起的事物,并根据这些关联规则提供决策支持和业务洞察。
其应用范围广泛,包括市场分析、推荐系统、医疗诊断等领域。
关联规则挖掘的基本概念是频繁项集和关联规则。
频繁项集是指在数据集中经常同时出现的项的集合。
例如,一个超市的购物数据中,经常一起出现的商品就可以构成一个频繁项集。
而关联规则则是频繁项集中项之间的关联关系。
例如,经常购买尿布的顾客也经常购买啤酒。
这条规则可以用“尿布->啤酒”的形式表示,其中箭头表示了两者之间的依赖关系。
实际上,关联规则并不仅仅局限于两个项之间的关系,而可以包含多个项。
例如,“尿布->啤酒->零食”就是一个包含三个项的关联规则。
关联规则一般有两个重要的度量指标,即支持度和置信度。
支持度用于衡量关联规则的频繁程度,而置信度用于衡量关联规则的可信程度。
常用的挖掘算法有Apriori和FP-growth。
关联规则挖掘技术在实际应用中有着广泛的价值。
首先,它可以帮助企业进行市场分析和销售策略制定。
通过分析顾客购买记录,可以发现潜在的关联规则,从而推测出顾客的需求和购买习惯。
根据这些规则,企业可以制定相应的促销活动和营销策略,提高销售额和客户满意度。
其次,关联规则挖掘技术在推荐系统中也有着重要的应用。
通过分析用户的历史行为和购买记录,可以挖掘出用户之间的潜在关联规则。
例如,在电商网站中,如果一个用户经常购买书籍和电子产品,那么可以向该用户推荐相关的产品。
这种个性化推荐不仅可以提高用户的购物体验,还可以增加网站的用户粘性和销售额。
此外,关联规则挖掘技术还可以应用于医疗诊断领域。
数据挖掘-6大型数据库中的关联规则挖掘.
TID 2000 1000 4000 5000
购买的item A,B,C A,C A,D B,E,F
假设最小支持度为50%, 最小置信度为50%,则有 如下关联规则
A C (50%, 66.6%) C A (50%, 100%)
Apriori算法是反单调的,即一个集合如果不能通过测试,则 该集合的所有超集也不能通过相同的测试。
Apriori性质通过减少搜索空间,来提高频繁项集逐层产生的 效率
Apriori算法步骤
Apriori算法由连接和剪枝两个步骤组成。 连的集接合:,为该了候找选Lk,k项通集过记Lk为-1与Ck自。己连接产生候选k-项集
为了减少计算量,可以使用Apriori性质,即如果一个k-项集 的接(从k-C1k)删-子除集。不在Lk-1中,则该候选不可能是频繁的,可以直
Apriori算法——示例 最小支持计数:2
Database TDB
Tid Items 10 A, C, D 20 B, C, E
C1 1st scan
每个关联规则可由如下过程产生:
对于每个频繁项集l,产生l的所有非空子集;
对于每个非空子集s,如果
sup port _ count(l) min_ conf sup port _ count(s)
则输出规则“s (l s) ”
提高Apriori算法的有效性(1)
Apriori算法主要的挑战
{{A,C},{B,C},{B,E}{C,E}} = {{A,B,C},{A,C,E},{B,C,E}}
2.使用Apriori性质剪枝:频繁项集的所有子集必须是频繁的, 对候选项C3,我们可以删除其子集为非频繁的选项:
数据挖掘中的关联规则挖掘方法比较研究
数据挖掘中的关联规则挖掘方法比较研究引言:在信息时代的今天,数据的存储和积累已经变得前所未有的庞大和复杂。
为了从这些海量数据中发现有用的信息和知识,数据挖掘技术应运而生。
关联规则挖掘作为数据挖掘领域的一个重要任务,可以发现数据中隐藏的关联关系,为决策提供支持。
然而,关联规则挖掘方法众多且多样,如何选择适合的方法成为了一项具有挑战性的研究任务。
本文将对当前常见的关联规则挖掘方法进行比较研究,以期为研究人员和实践者提供参考和指导。
一、Apriori算法Apriori算法是最早被提出和广泛应用的关联规则挖掘算法之一。
该算法基于频繁项集的概念,通过多次扫描数据集的方法来发现频繁项集以及关联规则。
Apriori算法的主要优点是简单易于理解,并且对于不同领域的数据都能取得不错的效果。
然而,由于需要多次扫描数据集,算法的性能较低,尤其是对于大规模数据集来说,计算时间和空间开销较大。
二、FP-Growth算法FP-Growth算法相对于Apriori算法在性能上有较大的改进。
该算法通过构建FP树来存储频繁项集,避免了多次扫描数据集的问题,从而提升了挖掘效率。
FP-Growth算法的另一个优点是可以通过压缩FP树来减小内存占用。
相对于Apriori算法,FP-Growth算法在处理大规模数据集时具有明显的优势。
然而,FP-Growth算法的实现相对复杂,需要使用递归,对于一些非常大的数据集仍然存在性能瓶颈。
三、Eclat算法Eclat算法是另一种常用的关联规则挖掘算法。
与Apriori算法和FP-Growth算法不同,Eclat算法使用垂直数据存储结构来表示事务数据库,有效地避免了水平数据存储结构所引起的冗余问题。
Eclat算法通过递归的方式构建频繁项集,并通过自身的性质来减少计算开销。
相对于Apriori算法和FP-Growth算法,Eclat算法能够更快地发现频繁项集和关联规则。
然而,Eclat算法对于一些特定的数据集可能会产生较长的频繁项集,导致计算效率下降。
关联规则挖掘方法的研究及应用
关联规则挖掘方法的研究及应用一、本文概述本文旨在深入研究关联规则挖掘方法,探索其在不同领域的应用价值。
关联规则挖掘是一种数据挖掘技术,旨在从大型数据集中发现项之间的有趣关系,如购物篮分析中经常一起购买的商品组合。
本文首先将对关联规则挖掘的基本概念、原理和方法进行详细的介绍和梳理,为后续的应用研究提供理论基础。
接着,本文将重点探讨关联规则挖掘在多个领域的应用。
这些领域包括但不限于零售业、电子商务、医疗保健、社交网络分析等。
在这些领域中,关联规则挖掘可以帮助我们理解客户行为、优化产品组合、预测疾病趋势、分析社交网络结构等,具有重要的实际应用价值。
本文还将对关联规则挖掘方法的优化和改进进行探讨。
尽管关联规则挖掘已经取得了一些重要的成果,但在处理大规模、高维度、复杂数据集时,仍然存在一些挑战。
因此,我们需要不断探索新的算法和技术,以提高关联规则挖掘的效率和准确性。
本文将总结关联规则挖掘方法的研究现状和未来发展趋势,为相关领域的研究和实践提供参考和借鉴。
通过本文的研究,我们希望能够为关联规则挖掘的应用提供更多的思路和方法,推动其在更多领域发挥更大的作用。
二、关联规则挖掘方法理论基础关联规则挖掘是数据挖掘领域中的一种重要技术,它主要用于发现数据集中项之间的有趣关系。
这些关系通常表现为形如“如果购买了A,则很可能也会购买B”的关联规则。
关联规则挖掘方法理论基础主要涉及到频繁项集和关联规则的产生,以及它们之间的度量指标——支持度和置信度。
我们需要明确什么是频繁项集。
在给定的事务数据库中,如果某个项集出现的频率高于用户设定的最小支持度阈值,那么这个项集就被称为频繁项集。
最小支持度阈值是用户根据实际需求设定的一个参数,它决定了项集被认为是“频繁”的最低标准。
在确定了频繁项集之后,我们可以进一步生成关联规则。
关联规则是一种形如“A -> B”的蕴含关系,其中A和B都是项集。
一个关联规则是否成立,取决于它的支持度和置信度是否满足用户设定的阈值。
数据挖掘中的关联规则算法
数据挖掘中的关联规则算法在数据挖掘领域,关联规则算法被广泛应用于挖掘数据集中的关联模式和规律。
关联规则算法能够帮助我们发现数据集中的各种关联性,从而为决策制定和市场营销等领域提供重要参考。
一、概述关联规则算法是一种基于频繁项集的挖掘方法,通过发现数据集中的频繁项集和相关规则来挖掘数据中的关联性。
其主要目标是找出数据项之间的相关关系,从而帮助人们了解数据集的特征和规律。
关联规则算法主要采用两个评估指标来衡量关联规则的质量,即支持度和置信度。
二、Apriori算法Apriori算法是最经典和常用的关联规则算法之一。
该算法基于频繁项集的概念,通过逐层扫描事务数据库并利用候选集生成的方法,快速找出频繁项集。
Apriori算法的核心思想是通过剪枝策略来降低计算复杂度,从而提高算法的效率。
三、FP-growth算法FP-growth算法是一种基于FP树的关联规则挖掘算法。
与Apriori算法相比,FP-growth算法在构建频繁项集时不需要生成候选集。
它首先构建一棵FP树,然后利用该树的特殊结构来高效地挖掘频繁项集。
FP-growth算法具有较高的效率,并且能够处理大规模数据集。
四、关联规则的评估除了找出频繁项集外,关联规则算法还需要对挖掘得到的规则进行评估,以筛选出具有实际意义的关联规则。
常用的评估指标包括支持度、置信度、提升度、兴趣度等。
这些指标可以帮助我们判断关联规则的重要性和可靠性,并作为决策制定的依据。
五、应用领域关联规则算法在很多领域都有着广泛的应用。
在市场营销中,我们可以通过关联规则算法分析顾客的购买行为,从而提高产品销售和推荐服务的效果。
在医疗领域,关联规则算法可以帮助医生诊断疾病和预测患者的风险等。
此外,关联规则算法还可以应用于网络推荐、网络安全、社交网络分析等方面。
六、未来发展趋势随着大数据时代的到来,关联规则算法也面临着一些挑战和机遇。
未来的发展趋势主要集中在提高算法的效率和准确性方面。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Re e r h o uz y a s cai nr l i ngag rtm o a g aa s s a c n f z s o ito uem ni l o i h f rlr ed tba e
C a , L a g WU a UI in J I n, Qi Xi
Ab t a t T d r s ei f r t n l s n el w f c e c r b e i e r c s f n n ea s c ai n r e nt elr ed t — s r c : oa d e s h o mai sa dt t n o o h o e i n y p o l m t o e so mi i g t s o it i nh p h o ulso g aa h a
摘 要 :为 解 决 传 统 关 联 规 则 挖 掘 算 法 对 大规 模 连 续 数 据 库 进 行 挖 掘 时 所 产 生 的 信 息 损 失 和 效 率 低 下 等 问 题 ,给 出 一 种 改
进 的模糊 关联规 则挖掘 算 法 ,称为 FAR L D算 法。该 算法 利用模糊 均值 聚类 算法解 决 离散 属性 间隔之 间 出现 “ — MV Q 尖锐 边 界”的 问题 , 同时算法 引入有 向无环 图和 字节 向量用 以提 高频繁 项 目集的计 算效 率 , 并吸取 分 区算 法的优 势 , 决对该 数据 解 库挖 掘 时磁盘操 作 频繁 的问题 , 个算 法只 需扫描 两次数 据库 。 实验 结 果表 明, 整 该算 法比传 统算 法具有 更 高的执行 效率 。 关键词 : 大型数据 库 ;模糊 C 均值 聚类 算法; 连续 属性; 字 节向量 结构 ;分 区算 法 一 中图法 分类号 : P 1 T 3l 文献标 识码 : A 文章 编号 :0 07 2 2 1) 03 2 —4 10 —04(0 1 1— 40 4
32 2 1, o 3 , o 0 计 算 机 工 程 与设 计 C m u r ni e n d e g 44 01 V 1 2 N . . 1 o pt E g e i a D s n e n rgn i
大型数据库的模糊关联规则挖掘算法研究
崔 建, 李 强, 吴 瑕
( 军雷 达学 院 预 警监 视 情报 系,湖 北 武汉 4 0 1) 空 3 0 9
Me n i ,t eag r h i r v sh o uain l f ce c fr q e ttmst yito u igteDAG (ie tday l rp s a wh l h loi m e t mpo e ec mp tt a i in yo fe u n e es r d cn t o e i b n h dr ce c ci g a h ) c
( e a met f a yWann uv iac t l ec, A roc aa stt Wu a 3 0 9 hn) D pr n E r rig re l e ne i n e ifre dr ntue t o l S l n I lg R I i , h n 0 1 ,C ia 4
a dt eb t — e t r tu t r , a d d a ea v n a e f a t in ag r h f r e u i gt eI o eh a e e ae u i g t e a a a e n y e v c o r cu e h s n r ws h d a tg s p ri o l o i m d cn / v r e dg n r t dd rn tb s t o t t o r h O h d mi i g T eag rt m e d c n t ed t b s o n yt c . E p rme t l e u t s o t a eag rt m a et r e f r n e n n . h l o i h n e s o s a a a a ef r l t h o wi e x e i n a s l h w h t h l o i r s t h h s b t ro ma c a ep t a eta i o a l o i m. h nt d t n l g rt h r i a h Ke r s lr ed t b s ; F ywo d : a g a a a e CM l o i m ; c n i u u t i u e b t — e trsr c u e p ri o l o i m ag r h t o t o s t b t ; y e v co tu t r ; a t i n ag r h n ar t t
i s g e td F s u g se . CM (u z — a s i s dt ov e “h r o n ay p o lmsb t e edsrt ig atiueitr as fz y cme n ) su e s let o h s apb u d r ' rbe ewe n t icei n t b t nev l. ’ h z r
b s t ni o s tiue yh a io aagr h ae h c t u u tb ts erdt n lloi m,a po e g rh o fzy so bt t i t n m rv d loi m fu z sc t lmiig a dFAR i a t a ao r n QD