Apriori算法研究

合集下载

十大经典算法之Apriori算法

⼗⼤经典算法之Apriori算法关联分析关联分析是⼀种在⼤规模数据集中寻找有趣关系的任务。

这些关系可以有两种形式:频繁项集（frequent item sets）: 经常出现在⼀块的物品的集合。

关联规则（associational rules）: 暗⽰两种物品之间可能存在很强的关系。

相关术语关联分析（关联规则学习): 从⼤规模数据集中寻找物品间的隐含关系被称作关联分析(associati analysis)或者关联规则学习（association rule learning）。

下⾯是⽤⼀个杂货店例⼦来说明这两个概念，如下图所⽰:频繁项集: {葡萄酒, 尿布, ⾖奶} 就是⼀个频繁项集的例⼦。

关联规则: 尿布 -> 葡萄酒就是⼀个关联规则。

这意味着如果顾客买了尿布，那么他很可能会买葡萄酒。

那么频繁的定义是什么呢？怎么样才算频繁呢？度量它们的⽅法有很多种，这⾥我们来简单的介绍下⽀持度和可信度。

⽀持度: 数据集中包含该项集的记录所占的⽐例。

例如上图中，{⾖奶} 的⽀持度为 4/5。

{⾖奶, 尿布} 的⽀持度为 3/5。

可信度: 针对⼀条诸如 {尿布} -> {葡萄酒} 这样具体的关联规则来定义的。

这条规则的可信度被定义为⽀持度({尿布, 葡萄酒})/⽀持度({尿布})，从图中可以看出⽀持度({尿布, 葡萄酒}) = 3/5，⽀持度({尿布}) = 4/5，所以 {尿布} -> {葡萄酒} 的可信度 = 3/5 / 4/5 = 3/4 = 0.75。

⽀持度和可信度是⽤来量化关联分析是否成功的⼀个⽅法。

假设想找到⽀持度⼤于 0.8 的所有项集，应该如何去做呢？⼀个办法是⽣成⼀个物品所有可能组合的清单，然后对每⼀种组合统计它出现的频繁程度，但是当物品成千上万时，上述做法就⾮常⾮常慢了。

我们需要详细分析下这种情况并讨论下 Apriori 原理，该原理会减少关联规则学习时所需的计算量。

Apriori 原理假设我们⼀共有 4 个商品: 商品0, 商品1, 商品2, 商品3。

Apriori算法的研究与改进

最为经典的算法，它首先通过最小支持度获取事务
建两个支持度矩阵分别挖掘频繁二项集和最大频繁
项集，其时间和空间代价较大；献Ｉ］在由频繁ｋ文－６项集连接生成候选ｋ＋１项集时效率较低且会生成错误频繁项。文在减少扫描数据库次数的基础上，本
Ｖｅ．０Ｎｏ３１２．
Ｓｐ．２０１ｅ１
２１０１年９月
ＩＩ１．９９ｉｉｎ１７—６５２１．３０６Ｎ）：０３６／．ｓ．６２６８．０１０．０ｓ
Ａｒｏｉ法的研究与改进ｐｉｒ算
陈宜荣
（徐州经贸高等职业学校信息系，江苏徐州２１０）２０４
摘

要：绍关联规则挖掘中的经典算法—— Ａｐｉｒ算法的关键思想。针对传统Ａｐｉｒ算法效介ｒｉｏｒｉｏ
率上的不足，出改进Ａｐｉｒ算法。该算法通过构造辅助表，少访问表中的无效记录，而减提ｒｉｏ减从少每次访问数据库的次数，好地提高了效率。实验结果表明，较改进后的算法具有较好的有效性。关键词：ｒｒ算法；Ａｐｉｉｏ改进；助表；辅仿真
ｔｇｆＡｐｉｒａｇｒｔｍ，ｏｒａｇｒｔｍｅｅａｅｉａｌｓｔｖｉｓｌｓａａｎｅｕｅａｅｏｒｏｉｌｏｉｈｕｌｏｉｈｇｎｒｔｓａｄｔｂｅｏａｏｄｕｅｅｓｄｔ，ａｄｄｄｃｓｔｅｔｓｏａａａｅｖｓｔｎｈｉｍｅｆｄｔｂｓｉｉｉｇ，ＳｔｉｏｅｅｆｃｅｔｃｍｐｒｄｗｉｈｔｅｔａｉｉｎｌｏｅＥｘｅｉＯｉｓｍｒｆｉｉｎｏａｅｔｈｒｄｔａｎ．ｏｐｒ — ｍｅｔｒｓｌｓｏｈｔｔｅｎｗｌｏｉｍｕｐｒｏｍｓｔｅｆｒｅｎ，ａｄｇｔｏｄｐａｔａｉ．ｎｅｕｔｈｗｓｔａｈｅａｇｒｈｏｔｅｒｈｏｍｒｏｅｎｅｓａｇｏｒｃｉｌｙｔｆｃｔ

Apriori算法的改进及实例

Apriori算法的改进及实例【摘要】随着数据规模的不断增大，传统的Apriori算法在处理大规模数据集时性能较低。

为了解决这一问题，研究者们提出了多种改进策略。

本文针对Apriori算法的改进及实例进行了研究和探讨。

首先介绍了使用FP-growth算法替代Apriori算法的改进方法，其能够显著提高算法的效率。

其次讨论了剪枝策略的优化，通过精细化的剪枝方法可以减少计算时间。

对并行化处理进行了探讨，使得算法能够更好地应对大规模数据集。

通过实例分析，展示了基于FP-growth算法的关联规则挖掘和优化的剪枝策略在市场篮分析中的应用。

结论部分指出了不同场景下的改进策略对提高算法效率和精度的重要意义。

通过这些改进措施，Apriori算法在处理大规模数据集时将得到更好的应用和推广。

【关键词】关键词：Apriori算法、FP-growth算法、剪枝策略、并行化处理、关联规则挖掘、市场篮分析、大规模数据集、效率、精度1. 引言1.1 Apriori算法的改进及实例Apriori算法是一种经典的关联规则挖掘算法，它通过逐层扫描数据集来发现频繁项集，并基于频繁项集生成关联规则。

随着数据规模的不断增大，Apriori算法在处理大规模数据集时面临着一些效率和性能上的挑战。

为了克服这些挑战，研究者们提出了许多针对Apriori算法的改进方法。

一种常见的改进方法是使用FP-growth算法来替代Apriori算法。

FP-growth算法利用树结构存储数据集信息，减少了对数据集的多次扫描，从而提高了算法的效率。

剪枝策略的优化也是改进Apriori算法的一个重要方向。

通过优化剪枝策略，可以减少频繁项集的生成数量，进而提升算法的性能。

针对多核处理器的并行化处理也是一种改进Apriori算法的方法。

通过将数据集分割成更小的子集，可以实现并行处理，从而加快算法的运行速度。

在接下来的实例部分，我们将分别介绍基于FP-growth算法的关联规则挖掘实例以及优化的剪枝策略在市场篮分析中的应用实例，展示这些改进方法在实际应用中的效果和优势。

Apriori算法总结

Apriori ['eɪprɪ'ɔ:rɪ]Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。

而且算法已经被广泛的应用到商业、网络安全等各个领域。

其核心是基于两阶段频集思想的递推算法。

该关联规则在分类上属于单维、单层、布尔关联规则。

在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

经典的关联规则数据挖掘算法Apriori 算法广泛应用于各种领域，通过对数据的关联性进行了分析和挖掘，挖掘出的这些信息在决策制定过程中具有重要的参考价值。

Apriori算法广泛应用于商业中，应用于消费市场价格分析中，它能够很快的求出各种产品之间的价格关系和它们之间的影响。

通过数据挖掘，市场商人可以瞄准目标客户，采用个人股票行市、最新信息、特殊的市场推广活动或其他一些特殊的信息手段，从而极大地减少广告预算和增加收入。

百货商场、超市和一些老字型大小的零售店也在进行数据挖掘，以便猜测这些年来顾客的消费习惯。

Apriori算法应用于网络安全领域，比如网络入侵检测技术中。

早期中大型的电脑系统中都收集审计信息来建立跟踪档，这些审计跟踪的目的多是为了性能测试或计费，因此对攻击检测提供的有用信息比较少。

它通过模式的学习和训练可以发现网络用户的异常行为模式。

采用作用度的Apriori算法削弱了Apriori算法的挖掘结果规则，是网络入侵检测系统可以快速的发现用户的行为模式，能够快速的锁定攻击者，提高了基于关联规则的入侵检测系统的检测性。

Apriori算法应用于高校管理中。

随着高校贫困生人数的不断增加，学校管理部门资助工作难度也越加增大。

针对这一现象，提出一种基于数据挖掘算法的解决方法。

将关联规则的Apriori算法应用到贫困助学体系中，并且针对经典Apriori挖掘算法存在的不足进行改进，先将事务数据库映射为一个布尔矩阵，用一种逐层递增的思想来动态的分配内存进行存储，再利用向量求"与"运算，寻找频繁项集。

数据挖掘实验报告结论(3篇)

第1篇一、实验概述本次数据挖掘实验以Apriori算法为核心，通过对GutenBerg和DBLP两个数据集进行关联规则挖掘，旨在探讨数据挖掘技术在知识发现中的应用。

实验过程中，我们遵循数据挖掘的一般流程，包括数据预处理、关联规则挖掘、结果分析和可视化等步骤。

二、实验结果分析1. 数据预处理在实验开始之前，我们对GutenBerg和DBLP数据集进行了预处理，包括数据清洗、数据集成和数据变换等。

通过对数据集的分析，我们发现了以下问题：（1）数据缺失：部分数据集存在缺失值，需要通过插补或删除缺失数据的方法进行处理。

（2）数据不一致：数据集中存在不同格式的数据，需要进行统一处理。

（3）数据噪声：数据集中存在一些异常值，需要通过滤波或聚类等方法进行处理。

2. 关联规则挖掘在数据预处理完成后，我们使用Apriori算法对数据集进行关联规则挖掘。

实验中，我们设置了不同的最小支持度和最小置信度阈值，以挖掘出不同粒度的关联规则。

以下是实验结果分析：（1）GutenBerg数据集在GutenBerg数据集中，我们以句子为篮子粒度，挖掘了林肯演讲集的关联规则。

通过分析挖掘结果，我们发现：- 单词“the”和“of”在句子中频繁出现，表明这两个词在林肯演讲中具有较高的出现频率。

- “and”和“to”等连接词也具有较高的出现频率，说明林肯演讲中句子结构较为复杂。

- 部分单词组合具有较高的置信度，如“war”和“soldier”，表明在林肯演讲中提到“war”时，很可能同时提到“soldier”。

（2）DBLP数据集在DBLP数据集中，我们以作者为单位，挖掘了作者之间的合作关系。

实验结果表明：- 部分作者之间存在较强的合作关系，如同一研究领域内的作者。

- 部分作者在多个研究领域均有合作关系，表明他们在不同领域具有一定的学术影响力。

3. 结果分析和可视化为了更好地展示实验结果，我们对挖掘出的关联规则进行了可视化处理。

通过可视化，我们可以直观地看出以下信息：（1）频繁项集的分布情况：通过柱状图展示频繁项集的分布情况，便于分析不同项集的出现频率。

Apriori改进算法讲解和实现

链接和修剪
• 其中， apriori- gen 是以频繁(k- 1)- 项目序列集Lk- 1 为自变量的候选集生成函数。该函数返回包含所有频繁k- 项目集的超集，分链接和修剪两步执行：第1 步：链接(join) • Procedure apriori_gen(Lk- 1:frequent(k- 1)- itemsets; minsup) • 1) for each itemset l1∈Lk- 1 • 2) for each itemset l2∈Lk- 1 L • 3) if ((l1[1]=l2[1])(l1[2]=l2[2])∧…∧(l1[k- 2]=l2[k- 2])∧(l1[k- 1]≠l2[k- 1])then { • 4) c=l1∪l2；//连接，产生候选集 • 5) if has_infrequent_subset(c，Lk- 1) then • 6) delete c;//修剪，去掉无用的候选项 • 7) else add c to Ck; • 8) } • 9) return Ck;
定义和性质
• 根据上述定义，可以这样描述Apriori 算法：Apriori 算法使用逐层搜索的迭代方法来产生频繁项集，设有频繁k-项集L k，通过 Galois连接产生候选k + 1 项集Ck+1，再通过扫描数据集产生频繁 k + 1 项集L k+1，最后由产生的频繁项目集产生关联规则。 • 性质1 ：(Apriori 性质)频繁项目集的所有非空子集都必须也是频繁的。 • 证明(用反证法) ：略。 • 推论1 ：一个非频繁项目集的任一超集必定也是非频繁的。 • 证明：根据定义若有k-1 项集Ik -1 ，不满足最小支持度阈值minsup ，即P( Ik-1) < min-sup ，则称Ik-1 为非频繁的。若将任意一项 (集) A 添加到Ik - 1 中，则必有P( Ik - 1∪ A) < P( Ik - 1) < min- sup，即Ik - 1 的任一超集( Ik - 1 ∪A) 是非频繁的。得证。

基于Apriori算法的关联规则挖掘研究

Ｃｋ＝ａｒｏｉｇｎＬ－ｍｉ＿ｕ）ｐｉｒｅ（ｋ１，ｎｓｐ；
＿
具有不同的重要性——这些项只是简单地被视为具有等同
价值。常常会导致那些具有重要价值但是出现频率相对较这
小的项被忽略。例如，一个商场每月会售出打印机墨盒一千
维普资讯
关联规则是美国ＩＭｍａｅｅｅｒｈＣｎｅＢＡｌｄｎＲｓａｃｅｔｒ的
ｆｒａｈｃｎｉｔ ∈ ＣｔｏｃａｄｄｅＣｅａ
Ｃ．ｃｏｔ：ｎｕ＋＋
Ｒｋｓｒｗｌ等人于１９ａｅｈＡｇａａ９３年提出的ＫＤ（ｎｗｌｇＤｋｏｅｅｄ
实的数据是具有多个不同的层次的；而在多层的关联规则
Ａｒｒ使用一种称作逐层搜索的迭代算法，将ｋ项集ｐｉｉｏ．用于探索（＋）项集。ｋ１一首先，找出频繁１项集的集合，．该集合记作Ｌ。１ｌＬ用于找频繁２项集的集合Ｌ，Ｌ．２而２用于找Ｌ，３如此下去，直到不能找到频繁ｋ项集为止。找每个Ｌ．ｋ需要
的商品的关联规则，而对牛奶面包记录不感兴趣。以，所这里的电脑就是用户感兴趣的项。利用这样的用户约束，我们就可以对数据库进行 “ 缩小 ’ 一
关的数据才被作为挖掘对象。
只有那些与用户感兴趣项有
非频繁项集。
Ａｒｒ的核心思想是：ｐｉｉｏ

一种基于Apriori的关联规则的改进算法的研究

Ｒ１Ｑ取除对角元外均为零的非负定阵，Ｑ的对角元均大于＝，即
图５系统响应曲线
到不同的仿真结果，而得到最终的参数，图５中的Ｂ图所进如
示，此时的Ｑ＝１２；；］Ｒ＝［．５，［０５０００４００００，Ｏ１］Ｋ＝
ＢＣ
ＢＣＡＣＡＣＢＣ
ＡＢ
ＡＣＡＤＢＣＢＤ
２
４ｌ６３
ＡＣ
ＢＣＢＤＣＤ
４
６３３
ＢＣＤ
３
产生ｋ候选集。个方法要求多次扫描数据库从而造成很大的一这
０３
输出：繁项目集Ｌ频。
输出：繁项目集Ｌ频。１扫描一次Ｄ，将事务按照长度进行分组排序，出Ｃ１）并得；
２根据引理１和引理２，新ＤＤ１）更 — ；
３Ｃ＝１作笛卡尔积，选出Ｌ；）２Ｌ筛２
Ｋｅｗｏｄ：ｉｒａｌｉｍ．ｓｓｉｔｎｕｌｄａｙｒｓａｐｒｉｇｏｒｈａｏｃａｉｒｅ，ａｔｍｉｉｇｏｔｏｎｎ
随着数据库和人工智能技术的迅猛发展，数据整合和数据挖掘成为人们研究的一个热点。即我们需要从海量的数据中有效地抽取出有价值的数据，那么不得不使用一个高效的挖掘算法。联规则挖掘是数据挖掘研究中的一个重要分支，是数据关也挖掘的众多知识类型中最为典型的一种。而Ａｐｉｉ法在众多ｒｒ算ｏ的关联规则算法中是最经典的。１Ａｒｒ算法概述 … ｐｉｉｏ输入：据集；小支持数ｍｉｕ — ｏｎ。数最ｎｐｃｕｔｓ

基于关联规则的经典Apriori算法研究

，
｛，）ＡＦ
．
３
５３５
３３
（Ｃ一ｃｕｔｓｐｏＣｋｔ６，ｏｎ — ｕｐ￣（，））
对每个候选计数
｛，ＢＣＪ（，ＢＤ）（，ＣＤ）
｛，）ＣＥ｛，】７ｏｌａｄｄｔＣ）ａｓ
｛，）ＡＢ（，）ＡＣ
表５频繁２项集Ｌ一！项集
（ＣＡ，】｛ＤＡ，】
支持度
２４
支持度
４３
（ＤＡ，｝（，】ＡＥ
｛，｝ＡＦ｛，）ＢＣ
（，）ＢＤ｛，）ＢＥ
３２
３５
３２
扫描事务数据库
数据挖掘（ｔｎｎ）近些年比较热门的话题，ＤａＭｉｉｇ是ａ它利用数据挖掘技术从海量的数据中找出隐藏的规律建立准确的数据模型，用来预测未来的发展趋势。其中关联规则挖掘是数据挖掘中的一个重要的研究方向，９３年Ａｒｗｌ１９ｇａａ等人最早提出了关联规则，关联规则最典型的例子是购物篮分析。１关联规则的相关概念．关联规则挖掘的过程描述如下：设Ｉｉ，， … 是项的集合。设任务相关的数据Ｄ是数据库－｛ｉ … ｉ）ｌ事务的集合，中每个事务丁是项的集合，其使得丁，。每个事务有一个标识符，称作ＴＤ。设Ａ是一个项集，Ｉ事务Ｔ包含Ａ当且仅当Ａ［丁。关联规则是诸如ＡＢ的蕴涵式，中Ａ［，，其Ｂ［，，并且ＡｎＢ一。定义１关联规则Ａ≥Ｂ在事务Ｄ中成立，有支持度Ｓ其中ｓ：具，是Ｄ中事务包含ＡＵＢ的百分比，的概率Ｐ（它ＡＵＢ）。即是ｓｐｕ— ｐｒ（Ｂ－Ｐ（ｏｔＡ）ＡＵＢ）最小支持度记作ｍｎｕ。支持度定义为下式，ｉｓｐ

Apriori算法在研究生成绩中的应用

，
…
［关键词］关联规则数据挖掘Ａｒｏｉｐｉｒ算法中图分类号：Ｐ０．Ｔ３１６文献标识码：Ａ
频繁项目集文章编号：０９９４（ＯＯ１ — ２２０１０１Ｘ２Ｌ）２０７２
引言信息技术是当今最活跃、发展最迅速、影响最，、渗透力最强的科泛
２课程间的关联分析２１数据预处理由于教育信息一般以关系数据库的形式存在。对反映学生情况、学生成绩的数据库，对其进行量化和聚类处理后，可能会产生很多相同的记录。根据以上特点，文对数据进行预处理，本以达到关联规则挖掘的目的。我们将学生成绩中８分之上的分数用布尔变量ｌ５表示，８分之下的分数用布尔变量在５
事务集Ｄ中具有置信度ｃ其中ｃＤ中包含Ａ的事务同时也是包含Ｂ的百分，是比。这是条件概率Ｐ（）即Ｂ１。Ａ
ｓｓｐｏｔＡ＞）ＰＡＵＢ＝ｕｐｒ（＝Ｂ＝（）ｃｃｎｉｅｃ（＝Ｂ：ＰＢｌ）＝ｏｆｄａｅＡ＞）（Ａ项的集合称为项集。包含ｋ个项的项集称作ｋ项集。项集的出现频率是包含项集的事务数，简称为项集的频率、支持度或计数。如果项集ｉ的支持度大于或等于最小支持度（由用户或领域专家设定）则Ｉ为频繁项集。给，定一个事务集Ｄ挖掘关联规则问题就是产生同时满足最小支持度阈值（ｉ～，ｍｎｓｐ和最小置信度闽值（ｉｏｆ的关联规则（ｕ）ｍｎｃｎ）即强规则）。关联规则的挖掘可以分两个步骤完成。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Apriori算法研究 Apriori算法是一个挖掘关联规则的算法，是Agrawal等设计的一个基本算法。它采用两阶段挖掘的思想，并且基于多次扫描事务数据库来执行。

1. 关联规则

1.1. 基本概念关联规则是形如 X → Y 的蕴涵式，表示通过 X 可以推导 “ 得到 ” Y ，其中 X 和 Y 分别称为关联规则的先导 (antecedent 或 left-hand-side, LHS) 和后继 (consequent 或 right-hand-side, RHS)。关联规则 A->B 的支持度 support=P(AB) ，指的是事件 A 和事件 B 同时发生的概率。置信度 confidence=P(B|A)=P(AB)/P(A), 指的是发生事件 A 的基础上发生事件 B 的概率。同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。如果事件 A 中包含 k 个元素，那么称这个事件 A 为 k 项集，并且事件 A 满足最小支持度阈值的事件称为频繁 k 项集。

1.2. 挖掘过程第一，找出所有的频繁项集；其目标是发现满足最小支持度阈值的所有项集，这些项集称作频繁项集。第二，由频繁项集产生强规则。其目标是从上一步发现的频繁项集中提取所有高置信度的规则，这些规则称为强规则。通常，频繁项集产生的计算开销远大于产生规则所需的计算开销。

2. Apriori算法思想 Apriori 算法使用频繁项集的先验知识，使用一种称作逐层搜索的迭代方法， k 项集用于探索 (k+1) 项集。首先，通过扫描事务（交易）记录，找出所有的频繁 1 项集，该集合记做 L1 ，然后利用 L1 找频繁 2 项集的集合 L2 ， L2 找 L3 ，如此下去，直到不能再找到任何频繁 k 项集。最后再在所有的频繁集中找出强规则，即产生用户感兴趣的关联规则。其中， Apriori 算法具有这样一条性质：任一频繁项集的所有非空子集也必须是频繁的。因为假如 P(I)< 最小支持度阈值，当有元素 A 添加到 I 中时，结果项集（ A ∩ I ）不可能比 I 出现次数更多。因此 A ∩ I 也不是频繁的。该算法的基本思想是：首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递归的方法。

3. Apriori算法步骤 Apriori算法的设计可以分解为两步骤来执行挖掘： 3.1. 挖掘所有频繁项集从事务数据库（D）中挖掘出所有频繁项集。支持度大于最小支持度minSup的项集（Itemset）称为频集（Frequent Itemset)。首先需要挖掘出频繁1-项集；然后，继续采用递推的方式来挖掘频繁k-项集（k>1），具体做法是：在挖掘出候选频繁k-项集（Ck）之后，根据最小置信度minSup来筛选，得到频繁k-项集。最后合并全部的频繁k-项集（k>0）。挖掘频繁项集的算法描述如下：

算法 Apriori算法的频繁集产生 1: L1 = find_frequent_1-itemsets(D); // 挖掘频繁1-项集，比较容易 2: for (k=2;Lk-1 ≠Φ ;k++) { 3: Ck = apriori_gen(Lk-1 ,min_sup); // 调用apriori_gen方法生成候选频繁k-项集 4: for each transaction t ∈ D { // 扫描事务数据库D 5: Ct = subset(Ck,t); 6: for each candidate c ∈ Ct 7: c.count++; // 统计候选频繁k-项集的计数 8: } 9: Lk ={c ∈ Ck|c.count≥min_sup} // 满足最小支持度的k-项集即为频繁k-项集 10: } 11: return L= ∪ k Lk; // 合并频繁k-项集（k>0）

Apriori算法的频繁项集产生的部分有两个重要的特点：第一，它是一个逐层算法，即从频繁1-项集到最长的频繁项集，它每次遍历项集格中的一层；第二，它使用产生-测试策略来发现频繁项集。在每次迭代之后，新的候选项集都由前一次迭代发现的频繁项集产生，然后对每个候选的支持度进行计数，并与最小支持度阈值进行比较。该算法需要的总迭代次数是kmax+1，其中kmax是频繁项集的最大长度。

3.2. 挖掘频繁关联规则基于第1步挖掘到的频繁项集，继续挖掘出全部的频繁关联规则。置信度大于给定最小置信度minConf的关联规则称为频繁关联规则（Frequent Association Rule）。在这一步，首先需要从频繁项集入手，首先挖掘出全部的关联规则（或者称候选关联规则），然后根据minConf来得到频繁关联规则。挖掘频繁关联规则的算法描述如下：

算法挖掘频繁关联规则 1: 初始状态： L = ∪ k Lk; AR = Φ; // L是频繁项集集合，AR是频繁关联规则集合 2: for all λk （λk是L的元素，是一个k-频繁项集，大小为n）{ 1. for all αk （αk是λk 的非空真子集）{ i. if(αk → βm的置信度>= minConf) { // 这里，m + k = n，其中αk → βm是一个关联规则 a) AR = AR ∪ (αk → βm); ii. } 2. } 3: } 4: return AR;

4. Apriori算法计算复杂度 4.1. 影响因素 Apriori算法计算复杂度受如下因素影响。支持度阈值降低支持度阈值通常将导致更多的频繁项集。这给算法的计算复杂度带来不利影响，因为必须产生更多候选集并对其计数。随着支持度阈值的降低，频繁项集的最大长度将增加。而随着频繁项集最大长度的增加，算法需要扫描数据集的次数也将增多。项数（维度）随着项数的增加，需要更多的空间来存储的支持度计数。如果频繁项集的数目也随着数据维度增加而增长，则由于算法产生的候选项集更多，计算量和I/O开销将增加。事务数由于Apriori算法反复扫描数据集，因此它的运行时间随着事务数的增加而增加。事务的平均宽度对于密集数据集，事务的平均宽度可能很大，这将在两个方面影响Apriori算法的复杂度。首先，频繁项集的最大长度随事务平均宽度增加而增加，因而，在候选项产生和支持度计算时必须考察更多候选项集；其次，随着事务宽度的增加，事务中将包含更多的项集，这将增加支持度计数时Hash树的遍历次数。

4.2. 时间复杂度频繁1-项集的产生对于每个事务，需要更新事务中出现的每个项的支持度计数。假定w为事务的平均宽度，则该操作需要的时间为O(Nw)，其中N为事务的总数。候选的产生为了产生候选k-项集，需要合并一对频繁(k-1)-项集，确定它们是否至少有k-2个项相同。每次合并操作最多需要k-2次相等比较。在最好情况下，每次合并都产生一个可行的候选k-项集；在最坏的情况下，算法必须合并上次迭代发现的每对频繁(k-1)-项集。因此，合并频繁项集的总开销为：

∑(k−2)|Ck|wk=2k−1|

k=2 Hash树在候选产生时构造，以存放候选项集。由于Hash树的最大深度为k，将候选项集散列到Hash树的开销为O(∑k|Ck

k=2)。在候选项剪枝的过程中，需要检验每个候选k-项

集的k-2个子集是否频繁。由于在Hash树上查找一个候选的花费是O(k)，因此候选剪枝需要的时间是O(∑k(k−2)|Ck

k=2)。

支持度计数每个长度为|t|的事务将产生C|t|k个k-项集。这也是每个事务遍历Hash树的有效次数。支持度计数的开销为O(N∑Cwkαkk)，其中w是事务的最大宽度，αk是更新Hash树中一个候选k-项集的支持度计数的开销。

5. Apriori算法应用经典的关联规则数据挖掘算法Apriori 算法广泛应用于各种领域，通过对数据的关联性进行了分析和挖掘，挖掘出的这些信息在决策制定过程中具有重要的参考价值。 Apriori算法广泛应用于商业中，应用于消费市场价格分析中，它能够很快的求出各种产品之间的价格关系和它们之间的影响。通过数据挖掘，市场商人可以瞄准目标客户，采用个人股票行市、最新信息、特殊的市场推广活动或其他一些特殊的信息手段，从而极大地减少广告预算和增加收入。 Apriori算法应用于网络安全领域，比如时候入侵检测技术中。它通过模式的学习和训练可以发现网络用户的异常行为模式。采用作用度的Apriori算法削弱了Apriori算法的挖掘结果规则，是网络入侵检测系统可以快速的发现用户的行为模式，能够快速的锁定攻击者，提高了基于关联规则的入侵检测系统的检测性。 Apriori算法应用于高校管理中。随着高校贫困生人数的不断增加，学校管理部门资助工作难度也越加增大。针对这一现象，提出一种基于数据挖掘算法的解决方法。将关联规则的Apriori算法应用到贫困助学体系中，并且针对经典Apriori挖掘算法存在的不足进行改进。实验结果表明，改进后的Apriori算法在运行效率上有了很大的提升，挖掘出的规则也可以有效地辅助学校管理部门有针对性的开展贫困助学工作。 Apriori算法被广泛应用于移动通信领域。在关联规则数据挖掘中广泛应用的Apriori算法被很多公司应用。依托某电信运营商正在建设的增值业务Web数据仓库平台，对来自移动增值业务方面的调查数据进行了相关的挖掘处理，从而获得了关于用户行为特征和需求的间接反映市场动态的有用信息，这些信息在指导运营商的业务运营和辅助业务提供商的决策制定等方面具有十分重要的参考价值。