数据挖掘第11讲-关联算法-Apriori

合集下载

Apriori算法总结

Apriori ['eɪprɪ'ɔ:rɪ]Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。

而且算法已经被广泛的应用到商业、网络安全等各个领域。

其核心是基于两阶段频集思想的递推算法。

该关联规则在分类上属于单维、单层、布尔关联规则。

在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

经典的关联规则数据挖掘算法Apriori 算法广泛应用于各种领域，通过对数据的关联性进行了分析和挖掘，挖掘出的这些信息在决策制定过程中具有重要的参考价值。

Apriori算法广泛应用于商业中，应用于消费市场价格分析中，它能够很快的求出各种产品之间的价格关系和它们之间的影响。

通过数据挖掘，市场商人可以瞄准目标客户，采用个人股票行市、最新信息、特殊的市场推广活动或其他一些特殊的信息手段，从而极大地减少广告预算和增加收入。

百货商场、超市和一些老字型大小的零售店也在进行数据挖掘，以便猜测这些年来顾客的消费习惯。

Apriori算法应用于网络安全领域，比如网络入侵检测技术中。

早期中大型的电脑系统中都收集审计信息来建立跟踪档，这些审计跟踪的目的多是为了性能测试或计费，因此对攻击检测提供的有用信息比较少。

它通过模式的学习和训练可以发现网络用户的异常行为模式。

采用作用度的Apriori算法削弱了Apriori算法的挖掘结果规则，是网络入侵检测系统可以快速的发现用户的行为模式，能够快速的锁定攻击者，提高了基于关联规则的入侵检测系统的检测性。

Apriori算法应用于高校管理中。

随着高校贫困生人数的不断增加，学校管理部门资助工作难度也越加增大。

针对这一现象，提出一种基于数据挖掘算法的解决方法。

将关联规则的Apriori算法应用到贫困助学体系中，并且针对经典Apriori挖掘算法存在的不足进行改进，先将事务数据库映射为一个布尔矩阵，用一种逐层递增的思想来动态的分配内存进行存储，再利用向量求"与"运算，寻找频繁项集。

apriori算法原理

apriori算法原理Apriori算法原理Apriori算法是一种常用的关联规则挖掘算法，它的原理是基于频繁项集的挖掘。

频繁项集是指在数据集中经常出现的项集，而关联规则则是指项集之间的关系。

Apriori算法的主要思想是利用频繁项集的性质，从而减少搜索空间，提高算法效率。

Apriori算法的流程如下：1. 扫描数据集，统计每个项的出现次数，得到频繁1项集。

2. 根据频繁1项集，生成候选2项集。

3. 扫描数据集，统计候选2项集的出现次数，得到频繁2项集。

4. 根据频繁2项集，生成候选3项集。

5. 扫描数据集，统计候选3项集的出现次数，得到频繁3项集。

6. 重复上述步骤，直到无法生成新的频繁项集为止。

Apriori算法的核心是利用频繁项集的性质，即如果一个项集是频繁的，那么它的所有子集也一定是频繁的。

这个性质可以用来减少搜索空间，提高算法效率。

例如，在生成候选2项集时，只需要考虑频繁1项集中的项，而不需要考虑所有可能的2项集。

这样可以大大减少搜索空间，提高算法效率。

Apriori算法的优点是简单易懂，容易实现。

但是它也有一些缺点，例如需要多次扫描数据集，对于大规模数据集来说，效率较低。

此外，Apriori算法只能挖掘频繁项集，而不能挖掘其他类型的模式，例如序列模式和时间序列模式。

Apriori算法是一种常用的关联规则挖掘算法，它的原理是基于频繁项集的挖掘。

通过利用频繁项集的性质，可以减少搜索空间，提高算法效率。

虽然Apriori算法有一些缺点，但是它仍然是一种简单易懂、容易实现的算法，对于小规模数据集来说，效果还是不错的。

apriori算法的步骤

apriori算法的步骤
Apriori算法是一种常用于挖掘关联规则的数据挖掘算法。

其基本思想是利用候选项集的先验性质，减少候选项集的数量，从而加快挖掘的速度。

Apriori算法的步骤如下：
1. 频繁项集的生成。

在Apriori算法中，频繁项集是指在所有交易记录中，出现频率达到最小支持度的项集。

算法从单项开始，不断扩展项集的大小，直到无法再生成新的频繁项集为止。

2. 候选规则的生成。

在Apriori算法中，候选规则是指由频繁项集生成的规则集合。

候选规则的生成是通过将频繁项集分解成两个非空子集来实现的，其中一个子集成为规则的前件，另一个子集成为规则的后件。

3. 支持度和置信度的计算。

在Apriori算法中，支持度是指包含规则的所有交易记录的比例。

置信度是指在满足前件的条件下，也同时满足后件的交易记录的比例。

支持度和置信度的计算是用来筛选规则的重要步骤。

4. 规则的评价与筛选。

在Apriori算法中，可以通过设置最小支持度、最小置信度等参数，来筛选出具有一定意义的规则。

对于筛选出的规则，需要进行评价，确定其是否具有实际应用意义。

总的来说，Apriori算法的步骤包括频繁项集的生成、候选规则的生成、支持度和置信度的计算以及规则的评价与筛选。

该算法适用于大规模数据的关联规则挖掘，具有较高的效率和准确性。

关联规则（Apriori算法）

关联规则（Apriori算法）关联分析直观理解关联分析中最有名的例⼦是“尿布与啤酒”。

据报道，美国中西部的⼀家连锁店发现，男⼈们会在周四购买尿布和啤酒。

这样商店实际上可以将尿布与啤酒放在⼀块，并确保在周四全价销售从⽽获利。

当然，这家商店并没有这么做。

频繁项集是指那些经常出现在⼀起的物品集合，⽐如{葡萄酒，尿布, ⾖奶}就是频繁项集的⼀个例⼦⽀持度（support）　⼀个项集的⽀持度（support）被定义为数据集中包含该项集的记录所占的⽐例 {⾖奶}的⽀持度为4/5。

{⾖奶，尿布}的⽀持度为3/5可信度（confidence ）　可信度或置信度（confidence）是针对⼀条诸如{尿布} ➞ {葡萄酒}的关联规则来定义的。

这条规则的可信度被定义为“⽀持度({尿布, 葡萄酒})/⽀持度({尿布})”。

由于{尿布, 葡萄酒}的⽀持度为3/5，尿布的⽀持度为4/5，所以“尿布➞葡萄酒”的可信度为3/4=0.75。

这意味着对于包含“尿布”的所有记录，我们的规则对其中75%的记录都适⽤。

Apriori算法的⽬标是找到最⼤的K项频繁集⽀持度和可信度是⽤来量化关联分析是否成功的⽅法。

假设想找到⽀持度⼤于0.8的所有项集，应该如何去做？⼀个办法是⽣成⼀个物品所有可能组合的清单，然后对每⼀种组合统计它出现的频繁程度，但当物品成千上万时，⾮常慢，这时就能⽤Apriori算法关联分析中最有名的例⼦是“尿布与啤酒”。

据报道，美国中西部的⼀家连锁店发现，男⼈们会在周四购买尿布和啤酒。

这样商店实际上可以将尿布与啤酒放在⼀块，并确保在周四全价销售从⽽获利。

当然，这家商店并没有这么做。

⼀般我们使⽤三个指标来度量⼀个关联规则，这三个指标分别是：⽀持度、置信度和提升度。

Support（⽀持度）：表⽰同时包含A和B的事务占所有事务的⽐例。

如果⽤P(A)表⽰使⽤A事务的⽐例，那么Support=P(A&B)Confidence（可信度）：表⽰使⽤包含A的事务中同时包含B事务的⽐例，即同时包含A和B的事务占包含A事务的⽐例。

数据挖掘之Apriori算法详解和Python实现代码分享

数据挖掘之Apriori算法详解和Python实现代码分享关联规则挖掘（Association rule mining）是数据挖掘中最活跃的研究⽅法之⼀，可以⽤来发现事情之间的联系，最早是为了发现超市交易数据库中不同的商品之间的关系。

(啤酒与尿布)基本概念1、⽀持度的定义：support(X-->Y) = |X交Y|/N=集合X与集合Y中的项在⼀条记录中同时出现的次数/数据记录的个数。

例如：support({啤酒}-->{尿布}) = 啤酒和尿布同时出现的次数/数据记录数 = 3/5=60%。

2、⾃信度的定义：confidence(X-->Y) = |X交Y|/|X| = 集合X与集合Y中的项在⼀条记录中同时出现的次数/集合X出现的个数。

例如：confidence({啤酒}-->{尿布}) = 啤酒和尿布同时出现的次数/啤酒出现的次数=3/3=100%;confidence({尿布}-->{啤酒}) = 啤酒和尿布同时出现的次数/尿布出现的次数 = 3/4 = 75%同时满⾜最⼩⽀持度阈值(min_sup)和最⼩置信度阈值(min_conf)的规则称作强规则 ,如果项集满⾜最⼩⽀持度,则称它为频繁项集“如何由⼤型数据库挖掘关联规则?”关联规则的挖掘是⼀个两步的过程:1、找出所有频繁项集:根据定义,这些项集出现的频繁性⾄少和预定义的最⼩⽀持计数⼀样。

2、由频繁项集产⽣强关联规则:根据定义,这些规则必须满⾜最⼩⽀持度和最⼩置信度。

Apriori定律为了减少频繁项集的⽣成时间，我们应该尽早的消除⼀些完全不可能是频繁项集的集合，Apriori的两条定律就是⼲这事的。

Apriori定律1：如果⼀个集合是频繁项集，则它的所有⼦集都是频繁项集。

举例：假设⼀个集合{A,B}是频繁项集，即A、B同时出现在⼀条记录的次数⼤于等于最⼩⽀持度min_support，则它的⼦集{A},{B}出现次数必定⼤于等于min_support，即它的⼦集都是频繁项集。

利用Python实现数据挖掘中的Apriori算法

利用Python实现数据挖掘中的Apriori算法随着互联网发展的日益成熟以及大数据时代的到来，数据挖掘受到了越来越多的关注。

在数据挖掘的过程中，Apriori算法是一种经典的关联规则挖掘算法，它可以用来挖掘数据集中的频繁项集，同时发现不同项之间的关联规则，为企业和研究机构提供了有价值的信息。

本文将会介绍如何利用Python实现Apriori算法以及如何在实际应用中运用该算法。

一、Apriori算法的原理Apriori算法是由R. Agrawal和R. Srikant在1994年提出的一种关联规则挖掘算法，它是一种典型的候选项生成和频繁项集累加的算法。

在Apriori算法中，频繁项集是指在数据集中出现频率高于给定最小支持度阈值的项集。

在求解频繁项集的过程中，Apriori算法采用了自底向上的逐层搜索策略，每一层搜索都会基于上一层搜索的结果，同时去除不可能成为频繁项集的项，以减少搜索的时间开销。

其基本原理如下：1. 候选项集生成：首先从数据集中挖掘出单个项，然后通过组合单个项而生成包含多个项的候选项集，直到不能再产生新的候选项集为止；2. 定义阈值：在第一次扫描事务集时，需要给出一条最小支持度(min_sup)的阈值，跟踪每个候选项集在事务集中出现的次数，并只对出现次数高于阈值的候选项集保留，将它们存储起来作为频繁项集；3. 频繁项集生成：基于频繁(k-1)-项集，依据连接和剪枝操作生成频繁k项集，直到不能再产生新的频繁项集为止。

二、Python实现Apriori算法在Python中，我们可以借助第三方库来实现Apriori算法。

其中，经典的有`mlxtend`和`apyori`两个库。

下面，我们将介绍如何使用这两个库来实现Apriori算法。

1. 使用`mlxtend`库`mlxtend`库是一个Python的机器学习扩展库，提供了许多常用的机器学习算法实现。

其中就包括关联规则挖掘的Apriori算法。

(数据挖掘)关联规则挖掘——Apriori算法、fp—Tree算法

C2
{A,支E持} 度<50 25% ｛B,C｝ 50%
｛B,E｝ 75%
｛C,E｝ 50%
｛A,C｝ 50%
L2
｛B,C｝｛B,E｝
50% 75%
｛C,E｝ 50%
从K2中求可用来计算的的三项集｛A,C｝+{B,C} {A,B,C} ｛A,C｝+{B,E} 超过三项｛A,C｝+{C,E} {A,C，E} ｛B,C｝+{B,E} {B,C，E} ｛B,C｝+{C,E} {B,C，E} ｛B,E｝+{C,E} {B,C，E}
Null
I2
I2:6
I1:2
I1
I1:3
I3:2
I4:1
I3:2
I3
I4
I4:1
I5
I5:1
I3:1
I5:1
加入第九个事务(I2,I1,I3)
Item-name Node-head
Null
I2
I2:7
I1:2
I1
I1:4
I3:2
I4:1
I3:2
I3
I4
I4:1
I5
I5:1
I3:2
I5:1
第二步、FP-growth
Null
I2
I2:4
I1
I1:2
I4:1
I3:1
I3
I4
I4:1
I5
I5:1
加入第五个事务(I1,I3)
Item-name Node-head
Null
I2
I2:4
I1:1
I1
I1:2
I4:1
I3:1
I3:1
I3

大数据经典算法Apriori讲解

精品PPT
Apriori伪代码(dài mǎ)
算法：Apriori。使用逐层迭代方法基于候选产生找出频繁项集。输入： D:实物数据库； Min_sup:最小支持度计数阈值。输出：L：D中的频繁项集。方法： L1=find_frequent_1-itemsets(D); for(k=2;Lk-1 !=￠；k++){ Ck=apriori_gen(Lk-1); For each 事务(shìwù) t∈D{//扫描D用于计数 Ct=subset(Ck,t);//得到t的子集，它们是候选 for each候选c∈C; C.count++; } Lk={c∈C|c.count>=min_stp} } return L=UkLk；
模式通过牺牲精确度来减少算法开销，为了提高效率，样本大小应该以可以放在
内存中为宜，可以适当降低最小支持度来减少遗漏的频繁模式可以通过一次全局扫描来验证从样本中发现的模式可以通过第二此全局扫描来找到遗漏的模式方法5：动态项集计数在扫描的不同点添加候选项集，这样，如果一个候选项集已经满足最少支持
精品PPT
Procedure apriori_gen(Lk-1:frequent(k-1)-itemsets) for each项集l1∈Lk-1 for each项集l2∈Lk-1 If (l1[1]=l2[1]) ^ (l1[2]=l2[2]) ^… (l1[k-2]=l2[k-2]) ^ (l1[k-1]=l2[k-1]) then{ c=l1∞l2//连接步：产生候选(hòu xuǎn) if has_infrequent_subset(c,Lk-1)then delete c;//剪枝部；删除非频繁的候选(hòu xuǎn) else add c to Ck； } return Ck； procedure has_infrequent_subset (c:candidate k-itemset; Lk-1：frequent (k-1)-itemset)//使用先验知识 for each(k-1)-subset s of c If s∉ Lk-1then return TRUE; return FALSE;

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

的步骤直到找到k+1项集
Apriori实现步骤
在得到全部频繁项集L后，算法根据这些频繁项集产生关联规则： ① 对于L中的每一个频繁项集l，产生l的所有非空子集； ② 对于l中的每个非空子集A，如果满足设定的评估标准（如置信度大于等于最小置信度阀值）。
置信度
关联规则度量e
度量名称规则置信度置信度差置信度比率
闭频繁项集：频繁项集的支持度和所有包含
这个频繁项集的超项集的支持度计数不同
极大频繁项集：项集不存在超项集，并且该项集
是频繁的
项集关系
频繁项集闭频繁项集
极大频繁项集
频繁模式挖掘种类
根据完全性分类：频繁项集完全集、闭频繁项集、极大频繁项集、被约束的
频繁项集、近似的频繁项集、接近匹配的频繁项集、最频繁的k个项集…….
奶}=3/5
频繁项集满足最小支持度阀值的项集，如这里把最
小支持度阀值设置为3，则频繁2项集有{面包, 牛奶}、 {尿布, 啤酒}
记录编号 1 2 3 4 5
购物清单面包、牛奶面包、尿布、啤酒、鸡蛋牛奶、尿布、啤酒、可口可乐面包、牛奶、尿布、啤酒面包、牛奶、尿布、可口可乐
关联规则
关联规则：根据一个项集里面的物品可以推测出另一
Apriori性质图示
null
A
B
C
D
E
非频繁项集
AB
AC
AD
AE
BC
BD
BE
CD
CE
DE
ABC
ABD
ABE
ACD
ACE
ADE
BCD
BCE
BDE
CDE
ABCD
ABCE
ABDE
ACDE
BCDE
ABCDE
Apriori实现步骤
① 根据频繁k-1项集组成的集合Lk-1 产生全部候选k项集Ck; ② 对Ck进行修剪； ③ 计算Ck中每一个项集w的支持度； ④ 将支持度大于最小支持度阀值的项集添加到频繁k项集Lk中； ⑤ 只能够找到频繁k项集，并且k小于用户预先定义的最大值kmax,重复上面
① 扫描数据库，计算出每个项的计数，收集满足最小支持度的项，找出频繁1项集的集合，记为L1；
② 使用L1寻找2项频繁集的集合L2，L2又用来寻找L3，如此下去直到不能再找到频繁k项集。
找每个Lk都需要一次全库扫描
Apriori性质
Apriori性质表现
如果项集I不满足最小支持度阀值min_sup，则 I不是频繁的，即P(I)<min_sup；此时项A添加到项集I，组成一个新的项集(IUA) 也是不频繁的，即P(IUA)<min_sup
个包含不同物品的项集，如 {啤酒, 面包} {牛奶},
规则度量标准 --支持度(s)
规则中前后两个项集在整个事务集中同时出现的概率 --置信度(c)
在前项集发生的情况下，由前项推出后项的概率 --提升度(l)
在含有前项的条件下后项发生的概率，与不包含前项这个条件下后项发生的概率对比
记录编号 1 2 3 4 5
数据挖掘课程培训
关联规则
广度优先算法
• 自底向上地搜索整个空间，首先生成候选集，然后提取其中的频繁项集
• 算法代表有Apriori、AprioriTid 和AprioriHybrid
• AprioriHybrid的效率高于 Apriori和AprioriTid
深度优先算法
• 利用模式增长的方式
根据抽象层分类：单层关联规则、多层关联规则(如：{电脑}{打印机}， {台
式机}{打印机})
根据数据维度分类：一维关联规则、多维关联规则根据处理值类型分类：布尔关联规则、量化关联规则
Apriori算法
翻译： Apriori：先验的、推测的
方法：步骤：特征：
Apriori使用逐层搜索的迭代方法，k项集用于探索k+1项集
{尿布} {啤酒}, {面包, 牛奶} {鸡蛋,可口可乐}, {啤酒, 面包} {牛奶}
频繁项集
项集：项的集合，可以包含1项或多项，如{面包,
牛奶}；项集中有K项就称为K项集，如上为2项集
支持度计数（绝对支持度）项集在事务集中出现的频率，如{面包, 牛
奶}=3
支持度（相对支持度）项集在事务集中出现的概率，如{面包, 牛
• 算法代表有FP-growth、Eclat和 H-Mine
• FP-growth以分而治之的策略，在经过第一次扫描过后，把数据库中的频繁项集压缩进一颗频繁模式树
关联规则
记录编号 1 2 3 4 5
购物清单面包、牛奶面包、尿布、啤酒、鸡蛋牛奶、尿布、啤酒、可口可乐面包、牛奶、尿布、啤酒面包、牛奶、尿布、可口可乐
② 由频繁项集产生强关联规则
支持度 ≥ 最小支持度阀值置信度 ≥ 最小置信度阀值提升度 ≥ 最小提升度阀值
项集生成
null
A
B
C

E
AB
AC
AD
AE
BC
BD
BE
CD
CE
DE
ABC
ABD
ABE
ACD
ACE
ADE
BCD
BCE
BDE
CDE
ABCD
ABCE
ABDE
ACDE
BCDE
ABCDE
闭频繁项集和极大频繁项集
信息差标准化卡方
描述
公式
直接使用置信度表示，默认评估度量
前、后置信度差的绝对值
前、后置信度的比例
基于信息增益的度量方法
基于独立的离散型数据的卡方统计检验
信息差公式
购物清单面包、牛奶面包、尿布、啤酒、鸡蛋牛奶、尿布、啤酒、可口可乐面包、牛奶、尿布、啤酒面包、牛奶、尿布、可口可乐
设前项为X，后项为Y： S=P(XUY)/P(I) C=P(XUY)/P(X) L=P(XUY)/P(X)P(Y)
关联规则挖掘
① 找出所有的频繁项集
支持度(项集) ≥ 最小支持度阀值