关联规则Apriori算法的改进
Apriori算法的研究与改进

建两 个支 持度 矩 阵分别 挖掘频 繁 二项集 和最 大频 繁
项集 , 其时 间和 空 间代 价 较 大 ; 献 I ]在 由频 繁 k 文 - 6 项 集 连接 生成候 选 k+ 1项 集 时效 率较 低 且会 生 成 错误 频繁 项 。 文在 减少 扫描数 据 库次数 的基 础上 , 本
Ve . 0 No 3 12 .
S p. 201 e 1
21 0 1年 9月
I I1 . 9 9ii n 1 7—6 5 2 1 . 3 0 6 N) :0 3 6 /.s . 6 26 8 . 0 1 0 . 0 s
A roi 法 的研 究 与 改 进 p ir 算
陈 宜荣
( 徐州经 贸高等职业学校 信息系 , 江苏 徐州 2 10 ) 2 0 4
摘
要 : 绍 关联规 则挖 掘 中的 经典 算 法—— Ap ir 算 法 的关键 思 想 。针 对 传 统 Ap ir 算 法 效 介 r i o r i o
率上 的不足 , 出改进 Apir 算 法 。该 算 法通 过 构 造辅 助表 , 少访 问表 中 的无 效 记 录 , 而 减 提 r i o 减 从 少每 次访 问数据 库 的次数 , 好地提 高 了效 率 。 实验 结果 表 明 , 较 改进 后 的算 法具有 较好 的有 效性 。 关 键词 : r r 算 法 ; Ap i i o 改进 ; 助表 ; 辅 仿真
t g f Ap i r a g rt m ,o r a g rt m e e a e i a l s t v i s l s a a n e u e a e o ro i l o ih u l o ih g n r t s ad t b e o a o d u e e s d t ,a d d d c s t e t s o a a a e v stn h i me fd t b s iii g,S ti o e e fce t c mp r d wih t e ta ii n lo e Ex e i O i s m r fii n o a e t h r d t a n . o p r — me trs l s o h tt en w l o i m u p ro mst e f r e n ,a d g t o d p a t ai . n e ut h ws t a h e ag r h o t e r h o m ro e n e sa g o r ci l y t f c t
基于Apriori算法改进的关联规则提取算法

②减少不可能成为频繁项 目集 的候选项 目 ; 集 ③提高数据项集频度统计速度 。
复扫描, 如果能事先判断就可以提高效率 。
收到本文时 间:05年 6月 2 20 0日
维普资讯
第 3 卷 (0 6第 4期 4 20 )
计算机与数字工 程
数据库来判断候选频繁项 目 集是否是频繁项 目 。 集 然而在这个反复扫描过程 中存在 以下问题值得思
考并 改进 :
提高 A o 算 法 的效率 , 以在 以下 三个方 面努 r i 可
力:
①压缩数据库的规模并减少对数据库扫描 的
次数 ;
①对 不 可 能成 为频 繁项 目集 的非 频 繁 项 目重
题中的一个重要研究 内容。A 耐 算法 在发现关 联规则领域具有很 大的影响力。A ff算 法使 用 po ii 种称作“ 逐层搜索 的迭代方法”它 的基本思想是 ,
一
②减少不可能成为频繁项 目集 的候选项 目 。 集
笔者针对 以上提到的不足进行研究分析 , 为了
利用 已知的 k 项集 来生成 k 一1 项集 , 再扫描一次
维普资讯
4 8
计算机 与数字工程
第 3 卷 4
基于 A r r算法 改进 的关 联规则 提取算 法 pi i o
罗 可 贺才 望
( 长沙理工大学计算机通信与工程学院 长沙 417) 1) X6 摘 要: 通过对 A rr算法的基本思想和性能的研究分ห้องสมุดไป่ตู้, po ii 认为 A rr算法存在一些不足。并且根据这些不足提出了 po ii
Ab tI i ppr f r t yadaa s fh r c l ade iec f p o l rh t u osh Ita t pii 】 s : t s ae,ae = a nl i ote i i e fc nyo rra otm, h at r tT t eA r r nh t u n ys pn p n i A i i gi e h il h c h o
关联规则挖掘中Apriori算法的一种改进

不会需要 多大 的系统开销 , 但是可 以使算法在某些情况下运行得更快些。 关键 词
中 图分 类 号 T3 1 P9
1 引言
随着信息 技术不 断 的发展 和普及 , 大量 的数据 信息从各 个行 业 中 涌现 出来 , 管信 息很 多 , 是 尽 但 由于这些 并不是 知 识 , 能 直接 使 用 , 们 需 要从 不 人 这些浩 如烟海 的信 息 中挖 掘 出有用 的知识 , 因此诞
数 据挖掘 技术经 过不 断发展 , 已经 成为 一个 涉及多 个 学科 的交叉 型综 合 学科 , 它包 括 关 联 规则 分 析 、 分类分析 、 聚类 分析 、 序列分 析和 时 间序 列 、 孤立点 分 析 、 工神经 网络等 。而 关联 规 则分 析 ( soi- 人 Asca tnR l nl i) 其 中一 个 非 常重 要 的方 向。 i ue A ay s 是 o s s 关联 规则 就是从 概 率 的角 度 来 寻找 那 些存 在频 率 较 高 的多 个 事 务 之 问 的相 联 系 , 将 其 视 之 为 规 并
Ck : [ ]候选 k 目 的集合 , 项 集 即潜在的大型项
目集 的集 合 。 A rr首 先 对 对 事 务 数 据 库 进 行 第 一 次 遍 pi i o 历 , 算 每个项 目的频 繁 度 , 算 其 相 应 的 大 型 1 计 计 项集 ; 随后 在对 其进行 遍历分 别确 定 K项 集 。求 K 项集 的过 程分 为两步 : 首先 , 使用 在 k一1次遍历 中 所得 的大项 集 L k一1 和 A r r—gn函数 产 生 [ ] pii e o
另外 的 留下来 以供 进一 步求 k+1 大项 集 。 项 其具体代 码 如下所 示 :
关联规则挖掘Apriori算法的改进

关联规则挖掘Apriori算法的改进作者:朱烨叶高英来源:《现代电子技术》2008年第18期摘要:在介绍Apriori算法原理和实现过程的基础上,针对该算法存在的两个缺陷,即多次扫描事务数据库和产生大量的候选集,提出新的算法NewApriori,该算法改变由低维频繁项目集到高维频繁项目集的多次连接运算,直接从1频繁项目集产生高维频繁项目集,克服了Apriori算法的固有缺点,从而提高了运算效率。
关键词:关联规则挖掘;Apriori算法;频繁项目集;侯选数据集中图分类号:TP311 文献标识码:B 文章编号:1004373X(2008)1807803Improvement of Apriori Algorithm in Association Rule MiningZHU Ye,YE Gaoying(Chengdu University of Information Technology,Chengdu,610225,China)Abstract:In this paper,the principle and performance of Apriori algorithm is introduced,and two defects of Apriori algorithm:scanning database too much and creating excessive candidate itemsets are analyzed.A new Apriori algorithm has been designed for finding out the highest dimension frequent itemsets from frequent 1itemset directly.A great number of linking operations in finding frequent itemsets dimension by dimension are canceled over all.The algorithm is improved efficiently.Keywords:association rule mining;Apriori algorithm;frequent itemset;candidate itemset1 引言数据挖据[1](Data Mining)是一个多学科交叉研究领域,是从大量数据中提取或“挖掘”出未知的、潜在的、有用的知识。
基于Apriori算法的改进算法

( 治学院计算机 系 山西长 治 0 6 1 ) 长 4 0 1 【 摘 要】挖 掘关联 规则是 数据挖掘 中一个 重要 的课题 , 生 频繁 项 目集 是其 中的一个 关键 步骤 。提 出 了一种 改 产
进算 法 , 将该算 法与 Ap ir 算法进行 了比较 。该算 法只需 要对 数据 库扫 描一遍 ,并且存 放辅 助信 息所 需要 的 并 r i o 空 间也少 ,结果表 明该算 法对关联规 则挖掘较 为有效 。
d t i n a a m nig.
KEYW ORDS d t n n , a s ca i n r ls lr e i ms t a a mi i g s o it u e , a g t o e e
数据 挖掘 [是 当今数据库 技术和人 工智 能研究 中 】
关 联规 则提 取 问题 可 以分 为 以下两 个 问题 : ] ① 找 到 所 有 支 持 度 大 于 等 于 最 小 支 持 度
② 使 用 第① 步找 到 的频 繁 集 中构 造 可信 度不 低 于最小 可信 度 的规 则 。
规则 —— 寻找 在 同一事 件 中出现 的不 同项 的相 关性 。 最 经典 的关联 规则提取算 法是 Apir 2 法 , 思想 r i o [算 其 是 利用 已知 的高频 数据项集推导 其他高频数 据项集 。
关联规则 的挖掘问题可形式化的描述如下 : 设 i { ,。… , } 由 个 不 同项 目组成 的集合 。 - _ i i, i 是 给定
一
1 Apir 算 法 r i o
Ap ir 算 法 是 1 9 年 由 R. rwa r i o 94 Aga l和
R. r a t 出的[ 。A r r 算法 使 用一种 称作逐 层 Si n 提 k 2 pi i ] o 搜 索 的迭代 方法 , 项集 用于搜 索 (+1 一 集 。首 先 , 一 )项
关联规则挖掘Apriori算法的改进

福建电脑2012年第12期关联规则挖掘Apriori算法的改进王琼,曹奎(河南大学计算机与信息工程学院河南开封475004)【摘要】:关联规则的提取是数据挖掘中重要的研究课题,目的在于挖掘事务数据库中有趣的关联,Apriori算法是挖掘关联规则的经典算法。
该文对Apriori算法进行研究,发现该算法存在着一些缺点,并对其进行改进,用实例说明这些改进能够正确有效的实现该算法。
【关键词】:关联规则;Apriori算法;频繁项集;事务集1、引言在信息时代,计算机内存储有大量的数据,这些数据蕴含了丰富的知识,为了获取这些知识,需要一种能够分析数据、获取有用知识的技术。
数据挖掘能够从大规模数据中集中提取隐含的人们所不知道的潜在的有用知识和信息,近年已经在许多领域得到了应用。
规则关联挖掘是数据挖掘的一个分支,用来发现大量数据中项集之间有趣的关联或相关联系。
从商务事务库发现有趣的关联关系可以有助于制定商务决策,典型的例子是购物篮分析,可以通过分析不同顾客放入购物篮的不同商品之间的联系得到顾客的购物习惯。
关联规则挖掘的核心是寻找频繁项集,Apriori算法是Rakesh Agrawal和Ramakrishnan Skfikant提出的最经典的关联规则提取算法,但是该算法存在着许多的不足,例如产生大量的候选,对一些无用的事务进行重复扫描等等,因此提高算法的效率就成了研究人员的一个重要任务。
2、关联规则的提取设I=(i1,i2,…,i n)是n个不同元素的集合,其中的元素称之为项,相当于商品不同种类的集合。
事务库T是事务(t1,t2…t m)的集合,tj(1≤j≤m)是项的集合且t j哿I,t j包含的内容可以看做每次交易的商品列表。
关联规则的形式是形如X=>Y的蕴含式(X哿I,Y哿I,X∩Y=Φ),意义为一条交易记录中包含集合X则该交易也包含集合Y。
规则的支持度是指在事务库中同时包含集合X和集合Y的事务所占的比例,记做support(X=>Y),规则的置信度是指在同时包含集合X和集合Y的事务在只包含集合X的事务所占的比例,记做confi-dence(X=>Y)。
Apriori算法介绍PPT
的业务运营和辅助业务提供商的决策制定等方面具有十分重要的参考价值。
5.在地球科学数据分析中
关联模式可以揭示海洋、陆地和大气过程之间的有意义的关系。这些信息能够帮助地球科学家更好的理解地
球系统中不同的自然力之间的相互作用。
据挖掘算法的解决方法。将关联规则的Apriori算法应用到贫困助学体系中,并且针对经典Apriori挖掘算法存
在的不足进行改进,先将事务数据库映射为一个布尔矩阵,用一种逐层递增的思想来动态的分配内存进行存
储,再利用向量求"与"运算,寻找频繁项集。实验结果表明,改进后的Apriori算法在运行效率上有了很大的
Apriori 算法背景
L1={{面包},{牛奶},{啤酒},{尿布}}
(3)根据L1自连接L1⋈L1生成候选项目集C2={{面包,牛奶},{面包,啤酒},
{面包,尿布},{牛奶,啤酒},{牛奶,尿布},{啤酒,尿布}}。
Apriori 算法背景
C2={{面包,牛奶},{面包,啤酒},{面包,尿布},{牛奶,啤酒},{牛奶,尿布},{啤酒,
的比重。
置信度(confidence):置信度表示Y数据出现后,X数据出现
的可能性,也可以说是数据的条件概率。
强关联规则:满足最小支持度和最小置信度的关联规则。
Apriori 算法背景
举例
{面包}→{牛奶}
support(面包→牛奶)=
∣面包∪牛奶∣ 3
=
4
∣D∣
3
P(面包牛奶) 4
confidence(面包→牛奶)=
70%,可得},{面包,啤酒}—>{牛奶},{牛奶,啤酒}—>{面包}为频繁关联规则。也
关联规则(Apriori算法)
关联规则(Apriori算法)关联分析直观理解 关联分析中最有名的例⼦是“尿布与啤酒”。
据报道,美国中西部的⼀家连锁店发现,男⼈们会在周四购买尿布和啤酒。
这样商店实际上可以将尿布与啤酒放在⼀块,并确保在周四全价销售从⽽获利。
当然,这家商店并没有这么做。
频繁项集是指那些经常出现在⼀起的物品集合,⽐如{葡萄酒,尿布, ⾖奶}就是频繁项集的⼀个例⼦⽀持度(support) ⼀个项集的⽀持度(support)被定义为数据集中包含该项集的记录所占的⽐例 {⾖奶}的⽀持度为4/5。
{⾖奶,尿布}的⽀持度为3/5可信度(confidence ) 可信度或置信度(confidence)是针对⼀条诸如{尿布} ➞ {葡萄酒}的关联规则来定义的。
这条规则的可信度被定义为“⽀持度({尿布, 葡萄酒})/⽀持度({尿布})”。
由于{尿布, 葡萄酒}的⽀持度为3/5,尿布的⽀持度为4/5,所以“尿布➞葡萄酒”的可信度为3/4=0.75。
这意味着对于包含“尿布”的所有记录,我们的规则对其中75%的记录都适⽤。
Apriori算法的⽬标是找到最⼤的K项频繁集⽀持度和可信度是⽤来量化关联分析是否成功的⽅法。
假设想找到⽀持度⼤于0.8的所有项集,应该如何去做?⼀个办法是⽣成⼀个物品所有可能组合的清单,然后对每⼀种组合统计它出现的频繁程度,但当物品成千上万时,⾮常慢,这时就能⽤Apriori算法关联分析中最有名的例⼦是“尿布与啤酒”。
据报道,美国中西部的⼀家连锁店发现,男⼈们会在周四购买尿布和啤酒。
这样商店实际上可以将尿布与啤酒放在⼀块,并确保在周四全价销售从⽽获利。
当然,这家商店并没有这么做。
⼀般我们使⽤三个指标来度量⼀个关联规则,这三个指标分别是:⽀持度、置信度和提升度。
Support(⽀持度):表⽰同时包含A和B的事务占所有事务的⽐例。
如果⽤P(A)表⽰使⽤A事务的⽐例,那么Support=P(A&B)Confidence(可信度):表⽰使⽤包含A的事务中同时包含B事务的⽐例,即同时包含A和B的事务占包含A事务的⽐例。
数据挖掘Apriori算法的改进
f o r c o u n t i n g me ho t d,t he r e d u c t i o n o f e x e c u t i o n t i me a n d t h e a mo u n t o f c o mp u t a t i o n . T h e p r a c t i c l a a p p l i c a t i o n s h o w t h a t , t h e i mp r o v e d Ap r i o i r a l g o r i t h m h a s t h e a d v a n t a g e s o f s i mp l e o p e r a t i o n,a c c u r a t e t e s t c h a r a c t e is r t i c s ,t o i mp r o v e t h e e ic f i e n c y o f d a t a mi n i n g a n d a c c u r a c y r e q u i r e me n t s .
改进的Apriori算法在试题关联分析中的应用
a 叶技 2 0 1 4 年 第 2 7 卷 第 2 期
El e c t r o ni c Sc i .& Te c h . /Fe b .1 5. 201 4
改进 的 A p r i o r i 算 法在 试 题 关 联 分 析 中 的应 用
栗青 霞,王换换 ,傅 苗
( 华北水利水 电大学 信 息工程学院 ,河南 郑州 摘 要 4 5 0 0 1 1 ) 针 对关联规则挖掘 中经典 A p i f o i算法 由于多次扫描数据 、产 生大量候 选集及产生候 选集 时连接次数 多等 f
An I m pr o v e d Apr i o r i Al g o r i t hm wi t h App l i c a t i o n i n As s o c i a t i o n Ana l y s i s o f Ex a mi n a t i o n
L I Q i n g x i a ,WA N G H u a n h u a n ,F U Z h e
( C o l l e g e o f I n f o r m a t i o n E n g i n e e i r n g ,N o r t h C h i n a U n i v e r s i t y o f Wa t e r R e s o u r c e s a n d E l e c t r i c P o w e r ,Z h e n g z h o u 4 5 0 0 1 1 ,C h i a) n
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关联规则Apriori算法的改进
摘要:文章提出一种改进的apriori算法。该算法通过减少对数
据库搜索的次数,从而减少数据挖掘过程中的i/o开销。实践证明,
用此算法进行关联挖掘,其效率比传统的方法要高。
关键词:数据挖掘 关联规则 频繁项集 apriori算法
improvement of apriori algorithm for association rules
li xiao-hui
(college of computer science and technology,changchun
university,changchun 130022,china)
abstract:this paper presents an improved apriori algorithm.
the new algorithm can decrease the i/o operation of the
process of mining by means of decreasing the times of database
searching. it is shown by the experimental result that the
improved algorithm is much more efficient than the
traditional algorithm in being applied to mining association
rule.
neywords:data mining,association rule,frequent itemset,
apriori algorithm
1、引言
随着数据库技术和计算机网络的发展,在海量数据里发现有价值
的知识和信息的工作受到了越来越多的重视。数据挖掘的一个重要
方向是关联规则的挖掘,而关联规则挖掘中最经典算法是apriori
算法[1]。但在实际应用中,apriori算法还存在着很多令人不尽满
意的地方。有许多文献中也针对这些缺点提出了改进的算法[2],但
算法也大多较复杂。本文在这些基础上提出了一种apriori算法新
的改进。
2、关联规则定义
设i={i1,i2,…,im}为项目集,d是全体事务记录的集合。i有一
个子集是事务t,事务集合t∈i,每个事务记录都有一个标识符tid。
关联规则实际上是一个蕴涵式,形如x=>y,其中x∈i,y∈ i 同
时x∩y=。其中x是关联规则的条件,y是关联规则的结果。关联
规则x=>y对d的支持度的定义是事务集合d中包含有x和y的百
分比。关联规则x=>y对d的置信度的定义是事务集合d中同时包
含x和y的事务占x的百分比。
3、算法的改进
3.1 改进算法的思路
第一个步骤要简单统计所有含一个元素的项目,其出现的频率,
同时找出那些大于或者等于最小支持度的那些项目集,这时就产生
了一维频繁项目集g1。接着开始用循环结构处理,一直到不再产生
维数更高的频繁项目集为止。循环过程描述如下:在第n步骤中,
用第n-1个步骤产生的n-1维频繁项目集来生成n维的候选项目集,
接着再用apriori算法来检验新的n维频繁项目集中的所有n-1维
项目集是否已经包含在已经计算出的n-1维频繁项目集中。再扫描
数据库d中的每个事务,如果该事务中至少含有候选项目集cn中
的一项,那么保留该项事务,否则把该事务与数据库末端未作删除
标记的事务进行对换,并且把那个移到数据库末端的事务加上一个
删除标记,最后把整个扫描完成的数据库保存到另一个的事务数据
库d’中。
3.2 改进后的算法
(1)g1={large1-itemset};
(2)t1=d;
(3)for(n=1; gn≠ ; n++);
(4)cn+1=apriori_gen(gn);
(5)for all transactions t∈tn do begin
(6)ct=subset(gn,t);
(7)t.count=|ct|; //记为t.count
(8)if(t.count;
(9)end;
(10)for all transaction t∈tn+1 do begin;
(11)ct=subset(cn+1,t);
(12)for all candidate c∈ct do begin;
(13)c.sup++;
(14)end;
(15)gn+1={c∈cn+1|c.sup≥min sup};
(16)end;
(17)answer=gn
4、结语
本文在深入研究apriori算法的基础上,,提出了该算法的一种
新的改进。改进后的算法在每次产生候选项目集后,删除其中无用
的项目集,这样就大大减少了下一步连接产生的项目集的数量,从
而能减少扫描数据库次数,节省了整个算法过程需要的存储空间,
减少了运算需要的时间。
参考文献
[1] chenm s,han j w and yu p s.,“datamining:an overview
from a database perspective,”ieee transactions on nnowledge
and data engineering,1996, 8 (6),pp.866-883.
[2] han jw and namberm,datamining concep ts and
techniques.beijing:higher education press,2001.
[3] agrawal r and srinant r,“fast algorithms for mining
association rules in large databases,“proc.of the 20th
intl.conf.on very large data bases,,sep.1994,pp.487-499.
作者简介
李晓辉(1977-),吉林省长春市人,主要从事数据挖掘与人工智
能研究。