关联规则简介与Apriori算法

合集下载

关联规则apriori算法代码

关联规则apriori算法代码Apriori算法是数据挖掘中的一种常用算法，用于挖掘数据集中的频繁项集以及关联规则。

它是由Rakesh Agrawal和Ramakrishnan Srikant在其1994年发表的论文“Fast Algorithms for Mining Association Rules”中提出的。

Apriori Algorithm的思想非常简单，基本思路是：如果一个项集是频繁项集，那么其所有的子集一定都是频繁项集。

关联规则表示属性之间的依赖与关系，可以用来进行业务决策和推荐系统服务。

下面给出Apriori算法的Python实现代码。

1. 实现项集的生成项集（itemset）是指一个或多个项（item）组成的集合。

一个项集中的项可以是物品、服务、事件、属性、特征等等。

在关联规则中，一个项集一般表示一种物品的集合，例如购买“牛奶”、“面包”、“可乐”等等。

为了实现Apriori算法，首先需要实现项集的生成。

项集的生成就是将大小为k-1的频繁项集合并成大小为k的候选项集。

具体实现如下：```def apriori_gen(freq_itemsets, k):# 合并大小为k-1的频繁项集candidates = []n = len(freq_itemsets)for i in range(n):for j in range(i+1, n):# 取出前k-2个项，检查是否相同，如果相同则合并L1 = list(freq_itemsets[i])[:k-2]L2 = list(freq_itemsets[j])[:k-2]L1.sort()L2.sort()if L1 == L2:candidates.append(freq_itemsets[i] | freq_itemsets[j])return candidates```频繁项集（frequent itemset）是指支持度达到阈值的项集。

apriori算法原理

apriori算法原理Apriori算法原理Apriori算法是一种常用的关联规则挖掘算法，它的原理是基于频繁项集的挖掘。

频繁项集是指在数据集中经常出现的项集，而关联规则则是指项集之间的关系。

Apriori算法的主要思想是利用频繁项集的性质，从而减少搜索空间，提高算法效率。

Apriori算法的流程如下：1. 扫描数据集，统计每个项的出现次数，得到频繁1项集。

2. 根据频繁1项集，生成候选2项集。

3. 扫描数据集，统计候选2项集的出现次数，得到频繁2项集。

4. 根据频繁2项集，生成候选3项集。

5. 扫描数据集，统计候选3项集的出现次数，得到频繁3项集。

6. 重复上述步骤，直到无法生成新的频繁项集为止。

Apriori算法的核心是利用频繁项集的性质，即如果一个项集是频繁的，那么它的所有子集也一定是频繁的。

这个性质可以用来减少搜索空间，提高算法效率。

例如，在生成候选2项集时，只需要考虑频繁1项集中的项，而不需要考虑所有可能的2项集。

这样可以大大减少搜索空间，提高算法效率。

Apriori算法的优点是简单易懂，容易实现。

但是它也有一些缺点，例如需要多次扫描数据集，对于大规模数据集来说，效率较低。

此外，Apriori算法只能挖掘频繁项集，而不能挖掘其他类型的模式，例如序列模式和时间序列模式。

Apriori算法是一种常用的关联规则挖掘算法，它的原理是基于频繁项集的挖掘。

通过利用频繁项集的性质，可以减少搜索空间，提高算法效率。

虽然Apriori算法有一些缺点，但是它仍然是一种简单易懂、容易实现的算法，对于小规模数据集来说，效果还是不错的。

使用apriori算法计算产生的强关联规则

使用apriori算法计算产生的强关联规则Apriori 算法是一种常用于挖掘关联规则的方法，它用于在大规模数据集中发现频繁项集。

在频繁项集的基础上，可以通过计算置信度等指标来发现强关联规则。

以下是使用 Apriori 算法计算强关联规则的基本步骤：准备数据集：将数据集整理成适合 Apriori 算法的形式，通常是一个包含多个项集的列表。

确定最小支持度：设置最小支持度阈值。

支持度是指项集在数据集中出现的频率。

项集的支持度低于设定的最小支持度阈值的将被过滤掉。

找出频繁项集：使用 Apriori 算法找出满足最小支持度要求的频繁项集。

这是通过迭代生成候选项集，然后计算它们的支持度来实现的。

生成关联规则：对于每个频繁项集，生成关联规则并计算它们的置信度。

关联规则的置信度表示规则的可信程度，即 A 出现时 B 出现的概率。

筛选强关联规则：根据设定的最小置信度阈值筛选出强关联规则。

下面是一个简单的Python 示例，使用mlxtend 库中的apriori 和 association_rules 模块来实现：# 安装 mlxtend 库# pip install mlxtendfrom mlxtend.frequent_patterns import apriorifrom mlxtend.frequent_patterns import association_rules import pandas as pd# 创建示例数据集data = {'TransactionID': [1, 2, 3, 4, 5],'Items': [['A', 'B', 'D'],['B', 'C', 'E'],['A', 'B', 'D', 'E'],['A', 'E'],['B', 'D']]}df = pd.DataFrame(data)# 使用 Apriori 算法找出频繁项集frequent_itemsets = apriori(df['Items'].apply(set), min_support=0.4, use_colnames=True)# 生成关联规则rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.7)# 输出结果print("频繁项集：")print(frequent_itemsets)print("\n关联规则：")print(rules)这个示例中，min_support 和 min_threshold 参数是可以调整的，用于设置最小支持度和最小置信度的阈值。

关联规则简介与Apriori算法课件

置信度评估
评估关联规则的置信度，以确定规则是否具有可信度。
剪枝
根据规则的置信度和支持度进行剪枝，去除低置信度和低支持度的规则。
04 Apriori算法的优化策略
基于散列的技术
散列技术
通过散列函数将数据项映射到固定大小的桶中，具有相同散列值的数据项被分配到同一个桶中。这种方法可以减少候选项集的数量，提高算法效率。
散列函数选择
选择合适的散列函数可以减少冲突，提高散列技术的效率。需要考虑散列函数的均匀分布性和稳定性。
基于排序的方法
排序技术
对数据项按照某种顺序进行排序，如按照支持度降序排序，优先处理支持度较高的数据项，减少不必要的计算和比较。
排序算法选择
选择高效的排序算法可以提高算法效率，如快速排序、归并排序等。
关联规则的分类
关联规则可以根据不同的标准进行分类。
根据不同的标准，关联规则可以分为多种类型。根据规则中涉及的项的数量，可以分为单维关联规则和多维关联规则。根据规则中项的出现顺序，可以分为无序关联规则和有序关联规则。根据规则的置信度和支持度，可以分为强关联规则和弱关联规则。
关联规则挖掘的步骤
关联规则挖掘通常包括以下步骤：数据预处理、生成频繁项集、生成关联规则。
关联规则简介与 Apriori算法课件
目录
• 关联规则简介 • Apriori算法简介 • Apriori算法的实现过程 • Apriori算法的优化策略 • 实例分析 • 总结与展望
01 关联规则简介
关联规则的定义
关联规则是数据挖掘中的一种重要技术，用于发现数据集中项之间的有趣关系。
关联规则是一种在数据集中发现项之间有趣关系的方法。这些关系通常以规则的形式表示，其中包含一个或多个项集，这些项集在数据集中同时出现的频率超过了预先设定的阈值。

机器学习中的关联规则挖掘方法简介

机器学习中的关联规则挖掘方法简介机器学习中的关联规则挖掘是一种用于发现数据集中不同属性之间的关联关系的方法。

这些关联关系可以帮助我们理解属性之间的相互作用，从而能够更好地进行数据分析和决策制定。

在本文中，我们将介绍机器学习中常用的关联规则挖掘方法，包括Apriori算法和FP-growth算法。

1. Apriori算法Apriori算法是一种用于发现频繁项集的经典算法。

频繁项集是指在数据集中经常同时出现的一组项的集合。

Apriori算法基于“先验原理”，即如果一个项集是频繁的，那么它的所有子集也是频繁的。

该算法采用一种逐层的方式，从$k$-项集生成$k+1$-项集，直到不能再生成新的项集为止。

Apriori算法的时间复杂度较高，因为需要多次扫描数据集进行计数。

2. FP-growth算法FP-growth算法是一种用于发现频繁项集的高效算法。

该算法通过构建一个称为FP树的数据结构来实现。

FP树具有压缩数据集的能力，从而减少了扫描数据集的次数。

FP-growth算法的关键步骤包括：构建FP树、挖掘频繁项集和生成条件模式基。

首先，根据事务的频率对数据集进行排序，然后构建FP树，最后通过递归遍历FP树来挖掘频繁项集。

相比于Apriori算法，FP-growth算法的时间复杂度更低。

3. 频繁项集和关联规则在关联规则挖掘中，频繁项集是指在给定最小支持度阈值下出现频率很高的项集。

而关联规则是从频繁项集中通过设置最小置信度阈值而获得的一种形式化表示。

关联规则通常具有“A ⇒ B”的形式，其中A和B都是项集。

关联规则的置信度表示当项集A出现时，项集B同时出现的概率。

4. 关联规则挖掘的应用关联规则挖掘在实际应用中有着广泛的应用。

例如，在市场篮子分析中，关联规则可以帮助商家了解购物者的购买习惯，从而进行商品定价和促销策略的制定。

此外，关联规则挖掘还可以应用于网络流量分析、医学诊断、检测新闻事件等领域。

5. 关联规则挖掘的局限性和挑战尽管关联规则挖掘是一种有用的方法，但也存在一些局限性和挑战。

(数据挖掘)关联规则挖掘——Apriori算法、fp—Tree算法

C2
{A,支E持} 度<50 25% ｛B,C｝ 50%
｛B,E｝ 75%
｛C,E｝ 50%
｛A,C｝ 50%
L2
｛B,C｝｛B,E｝
50% 75%
｛C,E｝ 50%
从K2中求可用来计算的的三项集｛A,C｝+{B,C} {A,B,C} ｛A,C｝+{B,E} 超过三项｛A,C｝+{C,E} {A,C，E} ｛B,C｝+{B,E} {B,C，E} ｛B,C｝+{C,E} {B,C，E} ｛B,E｝+{C,E} {B,C，E}
Null
I2
I2:6
I1:2
I1
I1:3
I3:2
I4:1
I3:2
I3
I4
I4:1
I5
I5:1
I3:1
I5:1
加入第九个事务(I2,I1,I3)
Item-name Node-head
Null
I2
I2:7
I1:2
I1
I1:4
I3:2
I4:1
I3:2
I3
I4
I4:1
I5
I5:1
I3:2
I5:1
第二步、FP-growth
Null
I2
I2:4
I1
I1:2
I4:1
I3:1
I3
I4
I4:1
I5
I5:1
加入第五个事务(I1,I3)
Item-name Node-head
Null
I2
I2:4
I1:1
I1
I1:2
I4:1
I3:1
I3:1
I3

Apriori算法

要对数据进行多次扫描会产生大量的候选项集对候选项集的支持度计算非常繁琐
解决思路
减少对数据的扫描次数缩小产生的候选项集改进对候选项集的支持度计算方法
三、提高Apriori算法的有效性
方法1：基于hash表的项集计数
将每个项集通过相应的hash函数映射到hash表中的不同的桶中，这样可以通过将桶中的项集计数跟最小支持计数相比较先淘汰一部分项集
3
{C}
3
{D}
1
{E}
3
Itemset
sup
{A, B}
1
{A, C}
2
{A, E}
1
{B, C}
2
{B, E}
3
{C, E}
2
Itemset
sup
L1
{A}
2
{B}
3
{C}
3
{E}
3
C2 2nd scan
Itemset {A, B} {A, C} {A, E} {B, C} {B, E}
C3 Itemset
Tid
Items
10
A, C, D
20
B, C, E
30
A, B, C, E
40
B, E
Itemset
sup
{B, C, E}
2
分别计算置信度，将满足最小置信度的关联规则保留下来例：对于 confidence(B C,E)=2/3=0.67
三、提高Apriori算法的有效性
Apriori算法主要的挑战
Apriori算法——示例
最小支持计数：2
Database TDB
Tid
Items
10
A, C, D

Apriori算法（关联规则）

Apriori算法（关联规则）⼀、关联规则 1、是数据中所蕴含的⼀类重要规律，对关联规则挖掘的⽬标是在数据项⽬中找出所有的并发关系，这种搞关系也称为关联。

eg、奶酪->啤酒[⽀持度 = 10%，置信度 = 80%] 2、关联规则的基本概念设⼀个项⽬集合I = {i1,i2,i3,……,im}，⼀个（数据库）事务集合T = {t1,t2,t3,,,tn}，其中每个事务ti是⼀个项⽬集合，并且。

⼀个关联规则是如下形式的蕴涵关系： 3、关联规则强度指标：⽀持度和置信度（1）⽀持度：规则X->Y的⽀持度是指，T中包含的事务的百分⽐。

⽀持度是⼀个很有⽤的评价指标，如果他的值过于的⼩，则表明时间可能只是偶然发⽣（2）置信度：决定了规则的可预测度，表⽰在所有发⽣了X的事务中同样发⽣了Y的概率。

⼆、Apriori算法 1、Apriori原理：Apriori算法基于演绎Apriori原理（向下封闭属性）向下封闭属性（Downward Closure Property）：如果⼀个项⽬集满⾜某个最⼩⽀持的度要求，那么这个项集的任何⾮空⼦集必需都满⾜这个最⼩⽀持度。

为了确保频繁项⽬集成的⾼效性，Apriori算法假定I中的项⽬都是排序好的。

2、描述就是对于数据集D，遍历它的每⼀条记录T，得到T的所有⼦集，然后计算每⼀个⼦集的⽀持度，最后的结果再与最⼩⽀持度⽐较。

且不论这个数据集D中有多少条记录（⼗万？百万？），就说每⼀条记录T的⼦集个数（{1,2,3}的⼦集有{1}，{2}，{3}，{1,2}，{2,3}，{1,3}，{1,2,3}，即如果记录T中含有n项，那么它的⼦集个数是2^n-1）。

计算量⾮常巨⼤，⾃然是不可取的。

所以Aprior算法提出了⼀个逐层搜索的⽅法，如何逐层搜索呢？包含两个步骤： 1.⾃连接获取候选集。

第⼀轮的候选集就是数据集D中的项，⽽其他轮次的候选集则是由前⼀轮次频繁集⾃连接得到（频繁集由候选集剪枝得到）。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Apriori算法弊端
需要多次扫描数据表
如果频繁集最多包含10个项，那么就需要扫描交易数据表10遍，这需要很大的I/O负载
产生大量频繁集
若有100个项目，可能产生候选项数目
C
1 100
C100 ... C
2
100 100
1.27*10
30
The end
Thank you~
关联规则的相关概念
定义5 关联规则关联规则(Association Rule)可以表示为一个蕴含式： R：XY 其中：XI，YI，并且XY= 。例如：R：牛奶→面包
关联规则的相关概念
定义6 关联规则的支持度对于关联规则 R ： XY ，其中 XI ， YI ，并且 XY=。规则R的的支持度 (Support) 是交易集中同时包含 X 和Y的交易数与所有交易数之比。
｛ A,C｝｛ B,C｝｛ B,E｝｛ C,E｝ 50% 50% 75% 50%
交易号 T1 T2 T3 T4
L3
L2
商品代码 A、C、D B、C、E A、B、C、E B、E
{B,C ，E} 50%
从 K2中求可用来计算的的三项集｛ A,C｝ +{B,C} ｛ A,C｝ +{B,E} ｛ A,C｝ +{C,E} ｛ B,C｝ +{B,E} ｛ B,C｝ +{C,E} ｛ B,E｝ +{C,E} {A,B,C} 超过三项 {A,C， E} {B,C， E} {B,C， E} {B,C， E}
交易号 T1 T2 T3 T4
商品代码 A、C、D B、C、E A、B、C、E B、E
Apriori算法举例_产生频繁项集
K=1
项集支持度｛ A｝ 50% ｛ B｝ 75% C1 {C} 75% 支持度<50 25% ｛ D｝｛ E｝ 75%
L2
｛ A,C｝｛ B,C｝｛ B,E｝｛ C,E｝
关联规则的相关概念
定义9 强关联规则如果规则 R:XY 满足 support(XY)supmin 且 confidence(XY)confmin ，称关联规则 XY 为强关联规则，否则称关联规则 XY 为弱关联规则。在挖掘关联规则时，产生的关联规则要经过 supmin和confmin的衡量，筛选出来的强关联规则才能用于指导商家的决策。
置信度表示了这条规则有多大程度上值得可信。设条件的项的集合为A,结果的集合为B。置信度计算在A中，同时也含有B的概率(即：if A ,then B的概率)。即 Confidence(AB)=P(B|A)。例如计算“如果Orange则 Coke”的置信度。由于在含有“橙汁”的4条交易中，仅有2条交易含有“可乐”。其置信度为0.5。
关联规则基本模型_支持度
支持度计记录有2条。则此条规则的支持度为 2/5=0.4，即Support(AB)=P(AB)。现在这条规则可表述为，如果一个顾客购买了橙汁,则有 50%(置信度)的可能购买可乐。而这样的情况（即买了橙汁会再买可乐）会有40%(支持度)的可能发生。
规则AC满足最小支持度和最小置信度，所以它是强关联规则
关联规则挖掘的步骤

关联规则挖掘是一个两步的过程：

找出所有频繁项集
大于或者等于最小支持度的项集
由频繁项集产生强关联规则，这些规则必须大于或者等于最小支持度和最小置信度
Apriori算法
Apriori算法是一种经典的生成布尔型关联规则的频繁项集挖掘算法。

性质1：频繁项集的子集必为频繁项集

性质2：非频繁项集的超集一定是非频繁的
假设项集 {D} 不是频繁项集，则 {A,D}和{C,D}也不是频繁项集
Apriori算法举例
现有 A 、 B 、 C 、 D 、 E 五种商品的交易记录表，找出所有频繁项集，假设最小支持度 >=50%, 最小置信度 >=50%
关联规则

关联规则（Association Rules）反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系，那么，其中一个事物就能够通过其他事物预测到。首先被 Agrawal, Imielinski and Swami在1993年的 SIGMOD会议上提出. 关联规则挖掘是数据挖掘中最活跃的研究方法之一。典型的关联规则发现问题是对超市中的购物篮数据（Market Basket）进行分析。通过发现顾客放入购物篮中的不同商品之间的关系来分析顾客的购买习惯。
一般来说，只有支持度和置信度均较高的关联规则才是用户感兴趣的、有用的关联规则。
关联规则的相关概念
定义8 关联规则的最小支持度和最小置信度关联规则的最小支持度也就是衡量频繁集的最小支持度(Minimum Support)，记为supmin，它用于衡量规则需要满足的最低重要性。关联规则的最小置信度(Minimum Confidence)记为 confmin ，它表示关联规则需要满足的最低可靠性。
支持度<50 25% {A,B,C}
C3
支持度 {A,C ，E} <50 25%
{B,C ， E}
50%
Apriori算法举例_产生关联规则

对于频繁项集{B,C,E},它的非空子集有{B}、{C}、{E} 、{B,C}、{B,E}、{C,E}。以下就是据此获得的关联规则及其置信度。
规则 BCE CBE EBC CEB BEC BCE 置信度Confidence 66.7% 66.7% 66.7% 1 66.7% 1 置信度≥50%(最小置信度)，都是强关联规则
案例

70%购买了牛奶的顾客将倾向于同时购买面包。
某网上书店向用户推荐相关书籍。
案例
在买了一台PC之后下一步会购买？
案例

在保险业务方面，如果出现了不常见的索赔要求组合，则可能为欺诈，需要作进一步的调查；

在医疗方面，可找出可能的治疗组合；
在银行方面，对顾客进行分析，可以推荐感兴趣的服务等等。

关联规则基本模型

什么是规则？规则形如"如果…那么…(If…Then…)",前者为条件，后者为结果。例如一个顾客，如果买了可乐，那么他也会购买果汁。如何来度量一个规则是否够好？有两个量，置信度 (Confidence)和支持度(Support)。假设有如下表的购买记录。

关联规则基本模型_置信度
案例
“尿布与啤酒”的故事。

美国的沃尔玛超市对一年多的原始交易数据进行了详细的分析，得到一个意外发现：与尿布一起被购买最多的商品竟然是啤酒。借助于数据仓库和关联规则，商家发现了这个隐藏在背后的事实：美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布，而30%～40%的丈夫在买完尿布之后又要顺便购买自己爱喝的啤酒。有了这个发现后，超市调整了货架的设置，把尿布和啤酒摆放在一起销售，从而大大增加了销售额。
Apriori算法将发现关联规则的过程分为两个步骤：通过迭代，检索出事务数据库中的所有频繁项集，即支持度不低于用户设定的阈值的项集；利用频繁项集构造出满足用户最小置信度的规则。
挖掘或识别出所有频繁项集是该算法的核心，占整个计算量的大部分。
Apriori算法的重要性质
假设项集 {A,C} 是频繁项集，则 {A}和{C}也为频繁项集
关联规则的相关概念

定义3 项集的支持度对于项集X， XI，设定 count(XT)为交易集 D中包含X的交易的数量
count(X T ) support(X) |D|

项集X的支持度support(X)就是项集X出现的概率，从而描述了X的重要性。
关联规则的相关概念
定义4 项集的最小支持度与频繁集发现关联规则要求项集必须满足的最小支持阈值，称为项集的最小支持度 (Minimum Support) ，记为 supmin。支持度大于或等于supmin的项集称为频繁项集，简称频繁集，反之则称为非频繁集。通常k-项集如果满足supmin，称为k-频繁集，记作Lk。
50% 50% 75% 50%
L1
｛A｝｛B｝ {C} ｛E｝
50% 75% 75% 75%
K=2
C2
项集支持度支持度｛ A,B ｝ <50 25% ｛ A,C｝ 50% 支持度<50 25% {A,E} ｛ B,C｝ 50% ｛ B,E｝ 75% ｛ C,E｝ 50%
Apriori算法举例_产生频繁项集
关联规则挖掘举例
交易ID 2000 1000 4000 5000

假设最小值支持度为 50% ，最小置信度为50%
频繁项集 {A} {B} {C} {A,C} 支持度 75% 50% 50% 50%
购买商品 A,B,C A,C A,D B,E,F
对于规则 AC：支持度 = support({A,C }) = 50% 置信度 = support({A,C })/support({A}) = 66.6%
count(X Y) support(X Y) |D|
关联规则的相关概念
定义7 关联规则的置信度对于关联规则 R ： XY ，其中 XI,YI ，并且 XY=。规则R的置信度(Confidence)是指包含X和Y的交易数与包含X的交易数之比
support(X Y) confidence (X Y) support(X)
关联规则的相关概念

定义2 交易每笔交易 T(Transaction) 是项集 I 上的一个子集，即TI，但通常TI。对应每一个交易有一个唯一的标识 —— 交易号，记作TID 交易的全体构成了交易数据库 D ，或称交易记录集D，简称交易集D。交易集D中包含交易的个数记为|D|。