一种基于关联规则Apriori算法的改进研究

合集下载

基于关联规则挖掘的一种改进Apriori算法

基于关联规则挖掘的一种改进Apriori算法
[ ’, )] :95>9 ( */ H ) 为关联规则 */H 的置信度 。
, 是目前国际上 在数据库、 数据仓库和信 息
[ ’]
决策领域前沿的 研究方向 之一 。关联规则 挖 掘则是数据挖掘的一个重要分支, 侧重于确定数 据库中不同领域间的关系, 找出满足给定支持度 和可信度的多个域之间的依赖关系 。 [$ ] D0 *;,A6A7 于 !EE$ 年提出的 *+,-.,- 算法 是目前最经典和 具有影响力的 关联规则挖掘 算 法。但是 *+,-.,- 算法本身的执行效率并不十分 理想, 特别是在对大型数据库或者数据仓库操作 时, *+,-.,- 算法的算法效率问题更加突显。本文 针对大规模数据库中影响 *+,-.,- 算法执行效 率 的主要方面, 提出一种基于关联规则挖掘的改进 *+,-.,- 算法, 从而减少扫描数据库的次数和简化 算法执行的时间复杂度, 使得算法的执行效率得 到了提高。
[ &] 则挖掘的过程就可以化为两个主要的步骤 :
( !) 找出所有频 繁项集, 频繁项集出现的 频 繁性至少和预定义的最小支持度一样; ( ’) 由频繁项集 产生强关联规则, 这些规 则 必须满足最小支持度和最小置信度。
! / 关联规则挖掘
关联规则的挖掘问题可形式化定义如下: 设 F G{ !! , !’ , …, !" } 是由 " 个不同的项组成 的集合。给定一个事务数据库 <, 其中每一个事 务 2 是 F 中一组项的集合, 即 2.F , 2 有一个唯一 的标志符 2F< 。若项集 *. F 且 *. 2,则事务 2
作者简介: 夏秀峰 ( !E() ) , 男, 山东胶南人, 教授, 博士
2 * - - - - - - - - - - - - - - - - - - - 沈阳航空工业学院学报- - - - - - - - - - - - - - -

基于数组的Apriori算法的改进研究

基于数组的Apriori算法的改进研究
( a g i do a d Te e ii n U n v r iy W u h u Hi h lv l ,W u h u 5 3 0 ) Gu n x Ra i n l vso i e s t z o g -e e z o 4 0 2
Ab ta t Th s o it d r ls i o ei o t n a t f a am i i g I r e o e f in l n a il i d f e u n e s r c e a s ca e u e s n mp r a t r t n n . n o d r t fi e t a d r p d y f r q e ts t p o d c y n o e r m h a a a e Ag i s O t ea s ca e u e p i r Al o i m o t n c s q e t n mp o e . I a e n fi ms fo t e d t b s . t a n tt h s o it d r ls a r i g rt o h b tl e k u s i s i r v d ti b s d o e o s
3 )从 候选 K一 集 中产生 频繁 K一 集 , 了计 项 项 为 算 每个 候选 项 集 的频 度 , 扫 描数 组 中 相应 的列 , 则 若值均为 1则频度加 1 , 。算 法 的计 算 过 程 如 图 1
1 )扫 描数 据 库 , 事 务相 应 的 项 转 换 为 布 尔 将
关键 词 数据 挖掘 ; 关联规则 ;A r r算法 ;频繁项 目集 ; pi i o 数组
中图分 类号 TP 0 . 316
I pr v m e nd Re e r h f rAr a - as d A s o i to m o e nta s a c o r y b e s c a i n

关联规则挖掘Apriori算法的改进

关联规则挖掘Apriori算法的改进

关联规则挖掘Apriori算法的改进作者:朱烨叶高英来源:《现代电子技术》2008年第18期摘要:在介绍Apriori算法原理和实现过程的基础上,针对该算法存在的两个缺陷,即多次扫描事务数据库和产生大量的候选集,提出新的算法NewApriori,该算法改变由低维频繁项目集到高维频繁项目集的多次连接运算,直接从1频繁项目集产生高维频繁项目集,克服了Apriori算法的固有缺点,从而提高了运算效率。

关键词:关联规则挖掘;Apriori算法;频繁项目集;侯选数据集中图分类号:TP311 文献标识码:B 文章编号:1004373X(2008)1807803Improvement of Apriori Algorithm in Association Rule MiningZHU Ye,YE Gaoying(Chengdu University of Information Technology,Chengdu,610225,China)Abstract:In this paper,the principle and performance of Apriori algorithm is introduced,and two defects of Apriori algorithm:scanning database too much and creating excessive candidate itemsets are analyzed.A new Apriori algorithm has been designed for finding out the highest dimension frequent itemsets from frequent 1itemset directly.A great number of linking operations in finding frequent itemsets dimension by dimension are canceled over all.The algorithm is improved efficiently.Keywords:association rule mining;Apriori algorithm;frequent itemset;candidate itemset1 引言数据挖据[1](Data Mining)是一个多学科交叉研究领域,是从大量数据中提取或“挖掘”出未知的、潜在的、有用的知识。

关联规则挖掘中Apriori算法的研究与改进

关联规则挖掘中Apriori算法的研究与改进
中 s p o t D 中 事 务 包 含 A U B( A 和 B二 u p r是 即
尺 寸 , 得 了令 人 满 意 的 结 果.然 而 , 获 当面 对 挖 掘
对象 具有 繁多 的频 繁模 式 或 者用 户 给定 的最 小支 持度 较低 时 , p ir 算 法 仍 然有 可能 因为 如 下 两 A r i o
p r( o t AUB) s p o tA) / u p r( .
挖 掘关 联 规 则 的 问题 就 是 找 出这 样 一 些 规
则 , 们 的支 持 度 和 置信 度 分 别 大 于用 户 指 定 的 它 最小支 持度 阈 值 ( n u ) mis p 和最 小 置信 度 阂值 ( — mi
・1 ・ 4
兰 州 工 业 高 等 专 科 学 校 学 报
第 l 7卷
算 法得 到 的频繁 卜项 集 的数 量 时 , 则根 据 Apir r i o
统 计每个 项 的支 持 事 务 数 , 除支 持 事 务 数 小 于 删 最小 支持 事务 的项 , 而得 出频 繁 1项集 . 进 一
个事务 T是项 目的集 合 , 得 r .每 一 个 事务 使
有 一个标识 符 , 作 TI 称 D.设 A 是 一 个 项集 , 务 事 T包 含 A 当且 仅 当 A 关 联规则 是 形如 A= B >
的蕴涵式 , 中 AC . BC , 且 A nB一 .规 则 其 『 , 并 A B在 事务集 D 中成立 , 有支持 度 s p ot其 具 u p r,
文 献 标 志 码 :A
中 图 分 类 号 :TP 3 1 1
关联 规 则 挖 掘 是 由 Ag a a 等 人 于 1 9 rw l 9 3年 首 先提 出 , 以 发 现 商 品 销 售 中 的 顾 客 购 买 模 用 式n .关联规 则挖 掘所 处理 的对 象 为大 型数 据库 , ] 其方 法主要针 对 事 务 数 据库 .由于 关 联 规 则 形式 简洁 、 易于解 释 和理 解 并 可 以有 效 捕 捉 数 据 问 的

关联规则挖掘Apriori算法的改进

关联规则挖掘Apriori算法的改进

福建电脑2012年第12期关联规则挖掘Apriori算法的改进王琼,曹奎(河南大学计算机与信息工程学院河南开封475004)【摘要】:关联规则的提取是数据挖掘中重要的研究课题,目的在于挖掘事务数据库中有趣的关联,Apriori算法是挖掘关联规则的经典算法。

该文对Apriori算法进行研究,发现该算法存在着一些缺点,并对其进行改进,用实例说明这些改进能够正确有效的实现该算法。

【关键词】:关联规则;Apriori算法;频繁项集;事务集1、引言在信息时代,计算机内存储有大量的数据,这些数据蕴含了丰富的知识,为了获取这些知识,需要一种能够分析数据、获取有用知识的技术。

数据挖掘能够从大规模数据中集中提取隐含的人们所不知道的潜在的有用知识和信息,近年已经在许多领域得到了应用。

规则关联挖掘是数据挖掘的一个分支,用来发现大量数据中项集之间有趣的关联或相关联系。

从商务事务库发现有趣的关联关系可以有助于制定商务决策,典型的例子是购物篮分析,可以通过分析不同顾客放入购物篮的不同商品之间的联系得到顾客的购物习惯。

关联规则挖掘的核心是寻找频繁项集,Apriori算法是Rakesh Agrawal和Ramakrishnan Skfikant提出的最经典的关联规则提取算法,但是该算法存在着许多的不足,例如产生大量的候选,对一些无用的事务进行重复扫描等等,因此提高算法的效率就成了研究人员的一个重要任务。

2、关联规则的提取设I=(i1,i2,…,i n)是n个不同元素的集合,其中的元素称之为项,相当于商品不同种类的集合。

事务库T是事务(t1,t2…t m)的集合,tj(1≤j≤m)是项的集合且t j哿I,t j包含的内容可以看做每次交易的商品列表。

关联规则的形式是形如X=>Y的蕴含式(X哿I,Y哿I,X∩Y=Φ),意义为一条交易记录中包含集合X则该交易也包含集合Y。

规则的支持度是指在事务库中同时包含集合X和集合Y的事务所占的比例,记做support(X=>Y),规则的置信度是指在同时包含集合X和集合Y的事务在只包含集合X的事务所占的比例,记做confi-dence(X=>Y)。

关联规则挖掘中Apriori算法的研究与改进_崔贯勋

关联规则挖掘中Apriori算法的研究与改进_崔贯勋

收稿日期:2010-05-17;修回日期:2010-07-17。

基金项目:教育部科学研究项目(09yj c870032);重庆市科技攻关计划项目(CSTC2008AC2126;CSTC2009AC2034);重庆市自然科学基金资助项目(CSTC2008BB2065);重庆理工大学科研青年基金资助项目(2010ZQ22)。

作者简介:崔贯勋(1978-),男,河南鄢陵人,实验师,硕士,主要研究方向:数据库; 李梁(1964-),男,重庆人,副教授,主要研究方向:软件工程; 王柯柯(1977-),女,四川南充人,讲师,硕士,主要研究方向:软件工程; 苟光磊(1980-),男,重庆人,实验师,硕士,主要研究方向:人工智能; 邹航(1979-),男,重庆人,实验师,硕士,主要研究方向:数据挖掘。

文章编号:1001-9081(2010)11-2952-04关联规则挖掘中Apri ori 算法的研究与改进崔贯勋,李 梁,王柯柯,苟光磊,邹 航(重庆理工大学计算机科学与工程学院,重庆400054)(cgxy @vi p .qq .co m )摘 要:经典的产生频繁项目集的Apr i o ri 算法存在多次扫描数据库可能产生大量候选及反复对候选项集和事务进行模式匹配的缺陷,导致了算法的效率较低。

为此,对A prior i 算法进行以下3方面的改进:改进由k 阶频繁项集生成k +1阶候选频繁项集时的连接和剪枝策略;改进对事务的处理方式,减少A pr i or i 算法中的模式匹配所需的时间开销;改进首次对数据库的处理方法,使得整个算法只扫描一次数据库,并由此提出了改进算法。

实验结果表明,改进算法在性能上得到了明显提高。

关键词:数据挖掘;关联规则;A pr i or i 算法;频繁项集;候选项集中图分类号:T P311.13 文献标志码:AR esearch and i m prove m ent on Apriori algorith m of associ ati on rule m i ni ngC U I Guan -xun ,L I L iang ,WANG Ke -ke ,GOU Guang -le,i ZOU H ang(S c h ool of C o mpu ter S cience and Eng i n e ering,Chongqing Un i v e rsit y of T ec hnolo gy,Ch ong qi ng 400054,Ch i na )Abstract :T he c lassic Apr i o ri algor it h m for discovering frequent ite m sets scans the database m any ti m es and the pa ttern m atch i ng bet w een cand i date ite m sets and transacti ons is used repea ted l y ,so a large nu m ber of candida te ite m sets w ere produced ,w hich results i n l ow e fficiency o f the a l gor ith m.The i m proved A prior i a l gor it hm i m proved it from t hree aspects :firstly ,the strategy o f the jo i n step and the prune step w as i m proved when cand i da te frequent (k +1)-i te m setsw ere generated from frequent k -ite m se ts ;second l y ,t he m ethod of dea li ng w it h transacti on w as i m proved to reduce the ti m e of pattern m atch i ng to be used i n the Apr i o ri a l gor it hm ;i n the end ,t he me t hod o f deali ng w ith da tabase w as i m proved ,wh ich lead to only once scann i ng o f t he da tabase dur i ng the w ho le course of the a l go rith m.A cco rding to these i m prove m ents ,an i m proved algor it h m was i ntroduced .The effic i ency of A pri o ri algor it h m got i m prove m ent both i n ti m e and i n space .T he experi m ental results o f the i m proved a l gor ith m show that t he i m proved a l go rith m is mo re e fficient than the orig i na.lK ey words :data m i ning ;asso ciati on ru le ;A priori a l go rith m;frequent ite m sets ;candida te i te m se t0 引言关联规则挖掘作为数据挖掘的重要研究内容之一,主要研究事务数据库、关系数据库和其他信息存储中的大量数据项之间隐藏的、有趣的规律。

Apriori算法的改进及实例

Apriori算法的改进及实例

Apriori算法的改进及实例
Apriori算法是一种数据挖掘中经典的关联规则挖掘方法。

它被广泛用于挖掘大量数据中的隐式关联,从而发现购物篮(market basket)分析中的频繁项集和关联规则。

随着数据处理能力和分析能力的不断提升,Apriori算法也不断出现改进版本,使其在实际的商业领域中有更好的应用和发挥。

1. 算法模型的改进
Apriori算法在计算复杂度方面有一定的缺陷。

若数据集是大量的,则计算费时会变得很长。

而如何加快Apriori算法的运算,也成为学习者所探讨的问题之一。

改进的Apriori算法通过层次划分处理数据,来加快其处理速度,从而增强其在实际应用中的可行性。

2. Apriori算法的改进实例
例如,若采用层次划分的Apriori算法来挖掘购物篮(market basket)分析中的频繁项集和关联规则,首先可以将数据集根据项数进行划分。

具体而言,若某个项集有n个项,则可以将其划分为n个子集,每个子集的项数均小于n。

然后,用Apriori算法计算每个子集中的支持度,再综合其结果,用Apriori算法得出最终的结果。

这样,可以大大提高Apriori算法的运算效率,从而加快关联规则的挖掘过程。

此外,其他对Apriori算法的改进还包括增加处理噪声数据等方法。

比如,人们可以使用深度学习和模式发现方法在做Apriori算法改进时,来处理杂讯和非结构型数据,以便找出更准确的频繁项集和关联规则。

如果能够成功地完成这项改进,将更加方便地挖掘大规模的市场数据,使得购买者与销售者之间的贴合度更加接近,以便更有效地挖掘出商业价值。

关联规则挖掘Apriori算法的研究

关联规则挖掘Apriori算法的研究

t mp o e g rtm smo ee iin h nt eta iin lag rt ms hei r v d a oih i r f ce tt a h r dt a lo h . l o i
关键 词 : 数据挖 掘 ; 频繁 项集 ; pi i 法; A r r算 0 关联 规则
( 肥 工业 大学南 区 , 肥 200 合 合 3 0 9)
S u h r src Hee ie st fTe h oo y, f i2 0 0 Chn o t en Ditit fiUn v ri o c n lg Hee 3 0 9, ia I y
摘要 :关联 规 则反映 了大量 数据 中项 集之 间的相 互依存 性和 关联 性 。A r r算法是 关联规 则挖 掘 中的 经典 算法 。本 丈在对 A r r算 法分析 pi i o pi i o
基于规则 中处理 变量 的类型 ,关联规则可 以分为布尔型和数值 数据挖掘( a nn ) D t Miig 是一门新兴起的交 叉学科 , a 是从 大量数 型。布尔型考虑的是项集的存在与否, 而数值 型则是量化的关联。 据 中获 取 有 效 的 、 颖 的、 在 有 用 的 、 终 可 理 解 的模 式 的 非 平 凡 新 潜 最 2 A r r挖 掘 算 法 的 改进 与 实 现 pi i o 21算 法 的 改 进 . 过程。关联规则挖掘试图从一组给定的数据项 以及事务数据库 ( 每 个事 务 是 一个 数 据 项 的集 合 ) , 中 筛选 出数 据 项 集 在事 务 数 据 库 中 出 在 扫 描 数据 库 的过 程 中 , 些 项 目或 事务 是 不 必 多 次扫 描 的 , 有 如 现 的频 度 关 系l l 规 则 挖 掘过 程 主 要 包 含 两 个 阶段 : 一 阶段 必 须 果能 避 免 这 些 不 必要 的扫 描 , 可 以提 高 A r r 算法 的效 率 笔者 l 。联 第 则 pi i o 。 先从资料集合 中找 出所有的高频项 目组( rq ettm e )第二阶 认 为在每次生成候选项集之后 , Feu n I st , e s 删除其中没有用 的项集 , 以大大减 可 段 再 由这 些高 频 项 目组 中产 生 关联 规则 ( soi i ue ) 经 典 少下一步接连生成 的项集数量 , A sc t nR ls。最 ao 从而减少数据库扫描次数, 节省算法 的关联 规则挖掘算法是 A r r 法[ 该 算法 的主 要思想是 采用逐 过程所需 的存储空间, pi 算 2 o 1 , 减少运算 时间。可 以根据 A r r pi i以下的一个 o 层迭 代 的 方 法通 过 低 维 频 繁项 集 得 到 高 维频 繁 项 集 ,本 文将 着 重 探 性质对算法进行改进。 讨 这个 算 法 。 改进 的算法如下: 1 关联 规 则 与 Apir算 法 r i o 输入 : 事务数据库 D, 最小支持度 m nu ; isp 输出 : 频繁项集 L 11关联 规 则 描 述 . ( )l f 1C =全体项l ( ) rle 2 f a ∈C1 oS C - e dfr o l ( 】<;n d o 关联规则是如下形 式的逻辑蕴涵 : — A B,其中 A, B是项集 , A∈ IB∈IAnB 中。一 般 用 两 个参 数 描 述 关 联 规则 的属 性 。 , , = ( ) r l ∈D d 3f a o lt 0 ( ) 信度( 1可 置信 度 )of ecf C ni n e} d 3 . ( c= u sttC ) 4) s b e( , 1 : t ( ) 持 度 (u pr) 2支 S pot ( ) r l ∈c d ( )Sc ut I n r 5f a o lc t 0SC = ( ) . D edf T o 12关联 规 则 的 种 类 . , 每 个项 建 立 相 应 的 TD 列 表 / 为 I
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的 活动 。在 关联 规 则 挖 掘 算 法 的研 究 中。 rwa提 出的 Aga l Apir 算 法最 为 经 典.但 该 算 法 本 身 固有 的 缺 陷 是 多 r i o 次 扫 描 数据 库 产 生庞 大 的候 选数 据 集 回 并
( )e t 9 n x
( O L f I. u t nu p r} 1 ) , c∈ cc n > misp ot o I ;
针对 该算法的两个缺 陷, 多次 扫 描 事 务 数 据 库 并 产 生 大 量 的 候 选 集 . 出一 种 0 1 阵 的 提 —矩
改进 算 法 改 变 由低 维频 繁 项 目集 到 高 维频 繁 项 目集 的 多次 连接 运 算 改 进 算 法 大 大 减 少 此
了访 问数 据 库 的 次 数 , 高 系统 的 运 行 效 率 ,同 时还 减 少 大 量 的 候 选 集 的 产 生.节 约 存 储 提
易 数 据 库 ( rna t nDaa ae T a sci tb s )中不 同 商 品 之 间 的联 o 系 规 则 通 过 关 联 规 则 发 现算 法 寻 找 形 如 “ 果 < 如 条 件 >. 么 < 论 > 的 规 则 . 种 规 则 以其 简 洁 性 已经 多 那 结 ” 这
空 间
关键 词 :Apir 法 ;频 繁 项 目集 ;侯 选 数 据 集 ; —1 阵 roi算 0 矩
0 引

生 成 的最 大 项 目集 一 生成 侯 选 项 目集 ,然后 搜 索 来
数 据 挖 据 I D £ Mi n ) 一 个 多 学 科 交 叉 研 究  ̄ a n g是 l a i ( i
掘 问题 中 的一 个 重 要 研 究 内容 其 目的是 为 了 发 现 交
( ) ks_ a dd t (  ̄t;/ 成 含k个 元 素 的侯 4 C = c c n iae C ,) / 生 选项 目集
f ) ral rna t n ∈D 5 f l t s ci st o a o
( 1n x 1 )e t
( )e ute= eute UL 1 rs l trsl t 2 s s
其 中 . 表 示 数 据 库 ; i u pr 表 示 给 定 的 最 小 D m n p ot s
支 持 度 :eL st表示 所 有 最 大 项 目集 r ̄ h e I
收 稿 日期 :0 1 3 l 2 1 —0 ~0
研 究 与 开 发

种 基 于关联
A r r 法 的改进 研 究 pi i o算
马 晓辉
( 广东 工业 大 学 计 算 机 学 院 ,广 州 510 0) 09

要 :介 # A r r 法 的 原理 和基 础 , 并对 制  ̄ A r r 法 效 率 的瓶 颈 问题 提 出一 种 改 进 策 略 . g pi i o算 pi i o 算
修 稿 日期 :0 1 )—2 2 1 一【 3 0
作 者 简介 : 晓 辉 ( 9 6 , , 南新 乡人 , 士 研 究 生 , 究 方 向 为数 据 挖 掘 、 马 1 8 一) 男 河 硕 研 数据 库
@ 现 计 机 210 代 算 o13 .
算 法 首 先 产 生 1 频 繁 项 目 ,然 后 是 2 频 繁 项 目 一 一
f )l{∈CIcu t mnu pr ; 2L=c ,. n> i p o } co  ̄ s t ( ) r (= ,¨≠ k + / 到 不 能 再 生 成 最 大 3f k 2L ,+ ) / o 直
项 目集 为止
19 年 , Aga l 人 提 出 的关 联 规 则 , 数 据 挖 9 3 R. rwa等 是
( ) ,cu tsp oFra bibliotekC ,) / 含 在 事 务 t中 的 侯 6 C= o n_ u p r( kt;/ 包 选 项 目集
( )o l c n iae 7 fral a dd tsC∈c f
f c c u t cc u t ; 8 .o n - . o n +l ,
次 成 功 应 用 到 决 策 支 持 系统 .指 导 人 们 在 各 个 领 域 中
_
算支 持 度
A r r算 法 描 述 如 下 : pi i o
掘 、分类 预测 和 聚类 分 析 等 方 法 其 中关 联 规 则 挖 掘
( sca o ueMiig Aso if nR l nn )是 数 据 挖 掘 中最 活 跃 的研 究 i
方 法之 一
( ) l{a dd t 一tm st} 1 C= c n iae 1 i es; e
集 ,直 至 不 再 能 扩 展 频 繁 项 目集 的 元 素 数 目而 算 法
综 合 前 人 的研 究 成 果 .本 文 提 出一 种 通 过 建立 0 1 — 矩 阵 的方 法 , 需 对 数 据 库 进 行 一 次 扫 描 . 可 以产 生 只 就 频 繁 项 集 的方 法 具 体 做 法 如下 :
领域 , 是从 大 量 数 据 中 提取 或 “ 掘 ” 未 知 的 、 在 的 、 挖 出 潜 有 用 的 知 识 从 现 状 来 看. 据挖 掘 的研 究 仍 然 处 于 广 数 泛 研 究 探 索 阶段 . 要 包 括 特 征 化 与 比 较 、 联 规 则 挖 主 关
数 据 库 计 算 侯 选 项 目集 C的 支持 度 。 为 了 更 快 速 地 计 算 G 中 项 目的 支 持 度 , 中使 用 函 cu t u p r k 文 o n s p ot计
1 经 典A d r 法 描 述 p oi 算
算 法 的第 一 步是 简单 统 计 所 有 含 一 个 元 素 的项 集 出 现 的频 率 。 决 定 最 大 的 一 维项 目集 在 第 k . 两 来 步 分
个 阶 段 , 先 用 一 函 数 S  ̄ qd t, 过 第 ( 一 ) 中 首 C C l iae 通 l d k 1步
相关文档
最新文档