一种基于关联规则Apriori算法的改进研究

合集下载

基于关联规则挖掘的一种改进Apriori算法

［ ’， )］ :95>9 （ */ H ）为关联规则 */H 的置信度。
，是目前国际上在数据库、数据仓库和信息
［ ’］
决策领域前沿的研究方向之一。关联规则挖掘则是数据挖掘的一个重要分支，侧重于确定数据库中不同领域间的关系，找出满足给定支持度和可信度的多个域之间的依赖关系。［$ ］ D0 *;,A6A7 于 !EE$ 年提出的 *+,-.,- 算法是目前最经典和具有影响力的关联规则挖掘算法。但是 *+,-.,- 算法本身的执行效率并不十分理想，特别是在对大型数据库或者数据仓库操作时， *+,-.,- 算法的算法效率问题更加突显。本文针对大规模数据库中影响 *+,-.,- 算法执行效率的主要方面，提出一种基于关联规则挖掘的改进 *+,-.,- 算法，从而减少扫描数据库的次数和简化算法执行的时间复杂度，使得算法的执行效率得到了提高。
［ &］则挖掘的过程就可以化为两个主要的步骤：
（ !）找出所有频繁项集，频繁项集出现的频繁性至少和预定义的最小支持度一样；（ ’）由频繁项集产生强关联规则，这些规则必须满足最小支持度和最小置信度。
! / 关联规则挖掘
关联规则的挖掘问题可形式化定义如下：设 F G｛ !! ， !’ ， …， !" ｝是由 " 个不同的项组成的集合。给定一个事务数据库 <，其中每一个事务 2 是 F 中一组项的集合，即 2.F ， 2 有一个唯一的标志符 2F< 。若项集 *. F 且 *. 2，则事务 2
作者简介：夏秀峰（ !E() ），男，山东胶南人，教授，博士
2 * - - - - - - - - - - - - - - - - - - - 沈阳航空工业学院学报- - - - - - - - - - - - - - -

基于数组的Apriori算法的改进研究

（ａｇｉｄｏａｄＴｅｅｉｉｎＵｎｖｒｉｙＷｕｈｕＨｉｈｌｖｌ，Ｗｕｈｕ５３０）ＧｕｎｘＲａｉｎｌｖｓｏｉｅｓｔｚｏｇ－ｅｅｚｏ４０２
ＡｂｔａｔＴｈｓｏｉｔｄｒｌｓｉｏｅｉｏｔｎａｔｆａａｍｉｉｇＩｒｅｏｅｆｉｎｌｎａｉｌｉｄｆｅｕｎｅｓｒｃｅａｓｃａｅｕｅｓｎｍｐｒａｔｒｔｎｎ．ｎｏｄｒｔｆｉｅｔａｄｒｐｄｙｆｒｑｅｔｓｔｐｏｄｃｙｎｏｅｒｍｈａａａｅＡｇｉｓＯｔｅａｓｃａｅｕｅｐｉｒＡｌｏｉｍｏｔｎｃｓｑｅｔｎｍｐｏｅ．Ｉａｅｎｆｉｍｓｆｏｔｅｄｔｂｓ．ｔａｎｔｔｈｓｏｉｔｄｒｌｓａｒｉｇｒｔｏｈｂｔｌｅｋｕｓｉｓｉｒｖｄｔｉｂｓｄｏｅｏｓ
３）从候选Ｋ一集中产生频繁Ｋ一集，了计项项为算每个候选项集的频度，扫描数组中相应的列，则若值均为１则频度加１，。算法的计算过程如图１
１）扫描数据库，事务相应的项转换为布尔将
关键词数据挖掘；关联规则；Ａｒｒ算法；频繁项目集；ｐｉｉｏ数组
中图分类号ＴＰ０．３１６
ＩｐｒｖｍｅｎｄＲｅｅｒｈｆｒＡｒａ－ａｓｄＡｓｏｉｔｏｍｏｅｎｔａｓａｃｏｒｙｂｅｓｃａｉｎ

关联规则挖掘Apriori算法的改进

关联规则挖掘Ａｐｒｉｏｒｉ算法的改进作者：朱烨叶高英来源：《现代电子技术》2008年第18期摘要：在介绍Apriori算法原理和实现过程的基础上，针对该算法存在的两个缺陷，即多次扫描事务数据库和产生大量的候选集，提出新的算法NewApriori，该算法改变由低维频繁项目集到高维频繁项目集的多次连接运算，直接从1频繁项目集产生高维频繁项目集，克服了Apriori算法的固有缺点，从而提高了运算效率。

关键词：关联规则挖掘；Apriori算法；频繁项目集；侯选数据集中图分类号：TP311 文献标识码：B 文章编号：1004373X(2008)1807803Improvement of Apriori Algorithm in Association Rule MiningZHU Ye,YE Gaoying(Chengdu University of Information Technology,Chengdu,610225,China)Abstract：In this paper,the principle and performance of Apriori algorithm is introduced,and two defects of Apriori algorithm:scanning database too much and creating excessive candidate itemsets are analyzed.A new Apriori algorithm has been designed for finding out the highest dimension frequent itemsets from frequent 1itemset directly.A great number of linking operations in finding frequent itemsets dimension by dimension are canceled over all.The algorithm is improved efficiently.Keywords：association rule mining;Apriori algorithm;frequent itemset;candidate itemset1 引言数据挖据［1］(Data Mining)是一个多学科交叉研究领域，是从大量数据中提取或“挖掘”出未知的、潜在的、有用的知识。

关联规则挖掘中Apriori算法的研究与改进

中ｓｐｏｔＤ中事务包含ＡＵＢ（Ａ和Ｂ二ｕｐｒ是即
尺寸，得了令人满意的结果．然而，获当面对挖掘
对象具有繁多的频繁模式或者用户给定的最小支持度较低时，ｐｉｒ算法仍然有可能因为如下两Ａｒｉｏ
ｐｒ（ｏｔＡＵＢ）ｓｐｏｔＡ）／ｕｐｒ（．
挖掘关联规则的问题就是找出这样一些规
则，们的支持度和置信度分别大于用户指定的它最小支持度阈值（ｎｕ）ｍｉｓｐ和最小置信度阂值（ — ｍｉ
・１・４
兰州工业高等专科学校学报
第ｌ７卷
算法得到的频繁卜项集的数量时，则根据Ａｐｉｒｒｉｏ
统计每个项的支持事务数，除支持事务数小于删最小支持事务的项，而得出频繁１项集．进一
个事务Ｔ是项目的集合，得ｒ．每一个事务使
有一个标识符，作ＴＩ称Ｄ．设Ａ是一个项集，务事Ｔ包含Ａ当且仅当Ａ关联规则是形如Ａ＝Ｂ＞
的蕴涵式，中ＡＣ．ＢＣ，且ＡｎＢ一．规则其『，并ＡＢ在事务集Ｄ中成立，有支持度ｓｐｏｔ其具ｕｐｒ，
文献标志码：Ａ
中图分类号：ＴＰ３１１
关联规则挖掘是由Ａｇａａ等人于１９ｒｗｌ９３年首先提出，以发现商品销售中的顾客购买模用式ｎ．关联规则挖掘所处理的对象为大型数据库，］其方法主要针对事务数据库．由于关联规则形式简洁、易于解释和理解并可以有效捕捉数据问的

关联规则挖掘Apriori算法的改进

福建电脑2012年第12期关联规则挖掘Apriori算法的改进王琼，曹奎（河南大学计算机与信息工程学院河南开封475004）【摘要】：关联规则的提取是数据挖掘中重要的研究课题，目的在于挖掘事务数据库中有趣的关联，Apriori算法是挖掘关联规则的经典算法。

该文对Apriori算法进行研究，发现该算法存在着一些缺点，并对其进行改进，用实例说明这些改进能够正确有效的实现该算法。

【关键词】：关联规则；Apriori算法；频繁项集；事务集1、引言在信息时代,计算机内存储有大量的数据,这些数据蕴含了丰富的知识，为了获取这些知识，需要一种能够分析数据、获取有用知识的技术。

数据挖掘能够从大规模数据中集中提取隐含的人们所不知道的潜在的有用知识和信息，近年已经在许多领域得到了应用。

规则关联挖掘是数据挖掘的一个分支，用来发现大量数据中项集之间有趣的关联或相关联系。

从商务事务库发现有趣的关联关系可以有助于制定商务决策，典型的例子是购物篮分析，可以通过分析不同顾客放入购物篮的不同商品之间的联系得到顾客的购物习惯。

关联规则挖掘的核心是寻找频繁项集，Apriori算法是Rakesh Agrawal和Ramakrishnan Skfikant提出的最经典的关联规则提取算法，但是该算法存在着许多的不足，例如产生大量的候选，对一些无用的事务进行重复扫描等等，因此提高算法的效率就成了研究人员的一个重要任务。

2、关联规则的提取设I=(i1,i2,…,i n)是n个不同元素的集合，其中的元素称之为项，相当于商品不同种类的集合。

事务库T是事务（t1，t2…t m）的集合,tj(1≤j≤m)是项的集合且t j哿I，t j包含的内容可以看做每次交易的商品列表。

关联规则的形式是形如X=>Y的蕴含式（X哿I,Y哿I,X∩Y=Φ）,意义为一条交易记录中包含集合X则该交易也包含集合Y。

规则的支持度是指在事务库中同时包含集合X和集合Y的事务所占的比例，记做support（X=>Y），规则的置信度是指在同时包含集合X和集合Y的事务在只包含集合X的事务所占的比例，记做confi-dence(X=>Y)。

关联规则挖掘中Apriori算法的研究与改进_崔贯勋

收稿日期:2010-05-17;修回日期:2010-07-17。

基金项目:教育部科学研究项目(09yj c870032);重庆市科技攻关计划项目(CSTC2008AC2126;CSTC2009AC2034);重庆市自然科学基金资助项目(CSTC2008BB2065);重庆理工大学科研青年基金资助项目(2010ZQ22)。

作者简介:崔贯勋(1978-),男,河南鄢陵人,实验师,硕士,主要研究方向:数据库; 李梁(1964-),男,重庆人,副教授,主要研究方向:软件工程; 王柯柯(1977-),女,四川南充人,讲师,硕士,主要研究方向:软件工程; 苟光磊(1980-),男,重庆人,实验师,硕士,主要研究方向:人工智能; 邹航(1979-),男,重庆人,实验师,硕士,主要研究方向:数据挖掘。

文章编号:1001-9081(2010)11-2952-04关联规则挖掘中Apri ori 算法的研究与改进崔贯勋,李梁,王柯柯,苟光磊,邹航(重庆理工大学计算机科学与工程学院,重庆400054)(cgxy @vi p .qq .co m )摘要:经典的产生频繁项目集的Apr i o ri 算法存在多次扫描数据库可能产生大量候选及反复对候选项集和事务进行模式匹配的缺陷,导致了算法的效率较低。

为此,对A prior i 算法进行以下3方面的改进:改进由k 阶频繁项集生成k +1阶候选频繁项集时的连接和剪枝策略;改进对事务的处理方式,减少A pr i or i 算法中的模式匹配所需的时间开销;改进首次对数据库的处理方法,使得整个算法只扫描一次数据库,并由此提出了改进算法。

实验结果表明,改进算法在性能上得到了明显提高。

关键词:数据挖掘;关联规则;A pr i or i 算法;频繁项集;候选项集中图分类号:T P311.13 文献标志码:AR esearch and i m prove m ent on Apriori algorith m of associ ati on rule m i ni ngC U I Guan -xun ,L I L iang ,WANG Ke -ke ,GOU Guang -le,i ZOU H ang(S c h ool of C o mpu ter S cience and Eng i n e ering,Chongqing Un i v e rsit y of T ec hnolo gy,Ch ong qi ng 400054,Ch i na )Abstract :T he c lassic Apr i o ri algor it h m for discovering frequent ite m sets scans the database m any ti m es and the pa ttern m atch i ng bet w een cand i date ite m sets and transacti ons is used repea ted l y ,so a large nu m ber of candida te ite m sets w ere produced ,w hich results i n l ow e fficiency o f the a l gor ith m.The i m proved A prior i a l gor it hm i m proved it from t hree aspects :firstly ,the strategy o f the jo i n step and the prune step w as i m proved when cand i da te frequent (k +1)-i te m setsw ere generated from frequent k -ite m se ts ;second l y ,t he m ethod of dea li ng w it h transacti on w as i m proved to reduce the ti m e of pattern m atch i ng to be used i n the Apr i o ri a l gor it hm ;i n the end ,t he me t hod o f deali ng w ith da tabase w as i m proved ,wh ich lead to only once scann i ng o f t he da tabase dur i ng the w ho le course of the a l go rith m.A cco rding to these i m prove m ents ,an i m proved algor it h m was i ntroduced .The effic i ency of A pri o ri algor it h m got i m prove m ent both i n ti m e and i n space .T he experi m ental results o f the i m proved a l gor ith m show that t he i m proved a l go rith m is mo re e fficient than the orig i na.lK ey words :data m i ning ;asso ciati on ru le ;A priori a l go rith m;frequent ite m sets ;candida te i te m se t0 引言关联规则挖掘作为数据挖掘的重要研究内容之一,主要研究事务数据库、关系数据库和其他信息存储中的大量数据项之间隐藏的、有趣的规律。

Apriori算法的改进及实例

Apriori算法的改进及实例
Apriori算法是一种数据挖掘中经典的关联规则挖掘方法。

它被广泛用于挖掘大量数据中的隐式关联，从而发现购物篮（market basket）分析中的频繁项集和关联规则。

随着数据处理能力和分析能力的不断提升，Apriori算法也不断出现改进版本，使其在实际的商业领域中有更好的应用和发挥。

1. 算法模型的改进
Apriori算法在计算复杂度方面有一定的缺陷。

若数据集是大量的，则计算费时会变得很长。

而如何加快Apriori算法的运算，也成为学习者所探讨的问题之一。

改进的Apriori算法通过层次划分处理数据，来加快其处理速度，从而增强其在实际应用中的可行性。

2. Apriori算法的改进实例
例如，若采用层次划分的Apriori算法来挖掘购物篮（market basket）分析中的频繁项集和关联规则，首先可以将数据集根据项数进行划分。

具体而言，若某个项集有n个项，则可以将其划分为n个子集，每个子集的项数均小于n。

然后，用Apriori算法计算每个子集中的支持度，再综合其结果，用Apriori算法得出最终的结果。

这样，可以大大提高Apriori算法的运算效率，从而加快关联规则的挖掘过程。

此外，其他对Apriori算法的改进还包括增加处理噪声数据等方法。

比如，人们可以使用深度学习和模式发现方法在做Apriori算法改进时，来处理杂讯和非结构型数据，以便找出更准确的频繁项集和关联规则。

如果能够成功地完成这项改进，将更加方便地挖掘大规模的市场数据，使得购买者与销售者之间的贴合度更加接近，以便更有效地挖掘出商业价值。

关联规则挖掘Apriori算法的研究

ｔｍｐｏｅｇｒｔｍｓｍｏｅｅｉｉｎｈｎｔｅｔａｉｉｎｌａｇｒｔｍｓｈｅｉｒｖｄａｏｉｈｉｒｆｃｅｔｔａｈｒｄｔａｌｏｈ．ｌｏｉ
关键词：数据挖掘；频繁项集；ｐｉｉ法；Ａｒｒ算０关联规则
（肥工业大学南区，肥２００合合３０９）
ＳｕｈｒｓｒｃＨｅｅｉｅｓｔｆＴｅｈｏｏｙ，ｆｉ２００ＣｈｎｏｔｅｎＤｉｔｉｔｆｉＵｎｖｒｉｏｃｎｌｇＨｅｅ３０９，ｉａＩｙ
摘要：关联规则反映了大量数据中项集之间的相互依存性和关联性。Ａｒｒ算法是关联规则挖掘中的经典算法。本丈在对Ａｒｒ算法分析ｐｉｉｏｐｉｉｏ
基于规则中处理变量的类型，关联规则可以分为布尔型和数值数据挖掘（ａｎｎ）ＤｔＭｉｉｇ是一门新兴起的交叉学科，ａ是从大量数型。布尔型考虑的是项集的存在与否，而数值型则是量化的关联。据中获取有效的、颖的、在有用的、终可理解的模式的非平凡新潜最２Ａｒｒ挖掘算法的改进与实现ｐｉｉｏ２１算法的改进．过程。关联规则挖掘试图从一组给定的数据项以及事务数据库（每个事务是一个数据项的集合），中筛选出数据项集在事务数据库中出在扫描数据库的过程中，些项目或事务是不必多次扫描的，有如现的频度关系ｌｌ规则挖掘过程主要包含两个阶段：一阶段必须果能避免这些不必要的扫描，可以提高Ａｒｒ算法的效率笔者ｌ。联第则ｐｉｉｏ。先从资料集合中找出所有的高频项目组（ｒｑｅｔｔｍｅ）第二阶认为在每次生成候选项集之后，ＦｅｕｎＩｓｔ，ｅｓ删除其中没有用的项集，以大大减可段再由这些高频项目组中产生关联规则（ｓｏｉｉｕｅ）经典少下一步接连生成的项集数量，ＡｓｃｔｎＲｌｓ。最ａｏ从而减少数据库扫描次数，节省算法的关联规则挖掘算法是Ａｒｒ法［该算法的主要思想是采用逐过程所需的存储空间，ｐｉ算２ｏ１，减少运算时间。可以根据Ａｒｒｐｉｉ以下的一个ｏ层迭代的方法通过低维频繁项集得到高维频繁项集，本文将着重探性质对算法进行改进。讨这个算法。改进的算法如下：１关联规则与Ａｐｉｒ算法ｒｉｏ输入：事务数据库Ｄ，最小支持度ｍｎｕ；ｉｓｐ输出：频繁项集Ｌ１１关联规则描述．（）ｌｆ１Ｃ＝全体项ｌ（）ｒｌｅ２ｆａ ∈Ｃ１ｏＳＣ－ｅｄｆｒｏｌ（】＜；ｎｄｏ关联规则是如下形式的逻辑蕴涵： — ＡＢ，其中Ａ，Ｂ是项集，Ａ∈ ＩＢ∈ＩＡｎＢ中。一般用两个参数描述关联规则的属性。，，＝（）ｒｌ ∈Ｄｄ３ｆａｏｌｔ０（）信度（１可置信度）ｏｆｅｃｆＣｎｉｎｅ｝ｄ３．（ｃ＝ｕｓｔｔＣ）４）ｓｂｅ（，１：ｔ（）持度（ｕｐｒ）２支Ｓｐｏｔ（）ｒｌ ∈ｃｄ（）ＳｃｕｔＩｎｒ５ｆａｏｌｃｔ０ＳＣ＝（）．ＤｅｄｆＴｏ１２关联规则的种类．，每个项建立相应的ＴＤ列表／为Ｉ

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

的活动。在关联规则挖掘算法的研究中。ｒｗａ提出的ＡｇａｌＡｐｉｒ算法最为经典．但该算法本身固有的缺陷是多ｒｉｏ次扫描数据库产生庞大的候选数据集回并
（）ｅｔ９ｎｘ
（ＯＬｆＩ．ｕｔｎｕｐｒ｝１），ｃ∈ ｃｃｎ＞ｍｉｓｐｏｔｏＩ；
针对该算法的两个缺陷，多次扫描事务数据库并产生大量的候选集．出一种０１阵的提 —矩
改进算法改变由低维频繁项目集到高维频繁项目集的多次连接运算改进算法大大减少此
了访问数据库的次数，高系统的运行效率，同时还减少大量的候选集的产生．节约存储提
易数据库（ｒｎａｔｎＤａａａｅＴａｓｃｉｔｂｓ）中不同商品之间的联ｏ系规则通过关联规则发现算法寻找形如 “ 果＜如条件＞．么＜论＞的规则．种规则以其简洁性已经多那结 ” 这
空间
关键词：Ａｐｉｒ法；频繁项目集；侯选数据集； —１阵ｒｏｉ算０矩
０引
言
生成的最大项目集一生成侯选项目集，然后搜索来
数据挖据ＩＤ￡Ｍｉｎ）一个多学科交叉研究￣ａｎｇ是ｌａｉ（ｉ
掘问题中的一个重要研究内容其目的是为了发现交
（）ｋｓ＿ａｄｄｔ（￣ｔ；／成含ｋ个元素的侯４Ｃ＝ｃｃｎｉａｅＣ，）／生选项目集
ｆ）ｒａｌｒｎａｔｎ ∈Ｄ５ｆｌｔｓｃｉｓｔｏａｏ
（１ｎｘ１）ｅｔ
（）ｅｕｔｅ＝ｅｕｔｅＵＬ１ｒｓｌｔｒｓｌｔ２ｓｓ
其中．表示数据库；ｉｕｐｒ表示给定的最小Ｄｍｎｐｏｔｓ
支持度：ｅＬｓｔ表示所有最大项目集ｒ￣ｈｅＩ
收稿日期：０１３ｌ２１ —０～０
研究与开发
一
种基于关联
Ａｒｒ法的改进研究ｐｉｉｏ算
马晓辉
（广东工业大学计算机学院，广州５１００）０９
摘
要：介＃Ａｒｒ法的原理和基础，并对制￣Ａｒｒ法效率的瓶颈问题提出一种改进策略．ｇｐｉｉｏ算ｐｉｉｏ算
修稿日期：０１）—２２１一【３０
作者简介：晓辉（９６，，南新乡人，士研究生，究方向为数据挖掘、马１８一）男河硕研数据库
＠现计机２１０代算ｏ１３．
算法首先产生１频繁项目，然后是２频繁项目一一
ｆ）ｌ｛∈ＣＩｃｕｔｍｎｕｐｒ；２Ｌ＝ｃ，．ｎ＞ｉｐｏ｝ｃｏ￣ｓｔ（）ｒ（＝，¨≠ ｋ＋／到不能再生成最大３ｆｋ２Ｌ，＋）／ｏ直
项目集为止
１９年，Ａｇａｌ人提出的关联规则，数据挖９３Ｒ．ｒｗａ等是
（），ｃｕｔｓｐｏFra bibliotekＣ，）／含在事务ｔ中的侯６Ｃ＝ｏｎ＿ｕｐｒ（ｋｔ；／包选项目集
（）ｏｌｃｎｉａｅ７ｆｒａｌａｄｄｔｓＣ∈ｃｆ
ｆｃｃｕｔｃｃｕｔ；８．ｏｎ－．ｏｎ＋ｌ，
次成功应用到决策支持系统．指导人们在各个领域中
＿
算支持度
Ａｒｒ算法描述如下：ｐｉｉｏ
掘、分类预测和聚类分析等方法其中关联规则挖掘
（ｓｃａｏｕｅＭｉｉｇＡｓｏｉｆｎＲｌｎｎ）是数据挖掘中最活跃的研究ｉ
方法之一
（）ｌ｛ａｄｄｔ一ｔｍｓｔ｝１Ｃ＝ｃｎｉａｅ１ｉｅｓ；ｅ
集，直至不再能扩展频繁项目集的元素数目而算法
综合前人的研究成果．本文提出一种通过建立０１ — 矩阵的方法，需对数据库进行一次扫描．可以产生只就频繁项集的方法具体做法如下：
领域，是从大量数据中提取或 “ 掘 ” 未知的、在的、挖出潜有用的知识从现状来看．据挖掘的研究仍然处于广数泛研究探索阶段．要包括特征化与比较、联规则挖主关
数据库计算侯选项目集Ｃ的支持度。为了更快速地计算Ｇ中项目的支持度，中使用函ｃｕｔｕｐｒｋ文ｏｎｓｐｏｔ计
１经典Ａｄｒ法描述ｐｏｉ算
算法的第一步是简单统计所有含一个元素的项集出现的频率。决定最大的一维项目集在第ｋ．两来步分
个阶段，先用一函数Ｓ￣ｑｄｔ，过第（一）中首ＣＣｌｉａｅ通ｌｄｋ１步