基于关联规则的挖掘算法举例

关联规则挖掘

▪ 兴趣度I不小于0。
例
▪ 设交易集D，经过对D的分析，得到表格:
买牛奶不买牛奶
合计
买咖啡 20 70 90
不买咖啡
合计
5
25
5
75
10
100
所有可能的关联规则
Rules
S
C
1
买牛奶→买咖啡
0.2
0.8
2
买咖啡→买牛奶
0.2
0.22
3
买牛奶→不买咖啡
0.05
0.2
4
不买咖啡→买牛奶
0.05
0.5
▪ 定义2：规则的支持度。
Customer buys beer
▪ 支持度描述了A 和B 这两个物品集在所有的事务中同时出现的概率有多大。
▪ 规则AB在数据库D中具有支持度S，即概
率P(AB)，即：S(A B) P(AB) | AB |
▪
|D|
▪ 其中|D|表示事务数据库D的个数，表示A、 B两个项集同时发生的事务个数。
２关联规则挖掘
▪ 在关联规则的三个属性中，支持度和可信度能够比较直接形容关联规则的性质
▪ 事实上，人们一般只对满足一定的支持度和可信度的关联规则感兴趣。
▪ 因此，为了发现有意义的关联规则，需要由用户给定两个阈值：
最小支持度（min_sup）和最小可信度（min_conf）
频繁项集
▪ 如果项集满足最小支持度，则它称之为频繁项集（Frequent Itemset）。
▪ 更确切的说，关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响
现实中，这样的例子很多。
例如超级市场利用前端收款机收集存储了大量的售货数据，这些数据是一条条的购买事务记录，每条记录存储了

关联规则挖掘

然而Ck 中的项集可能很大，这样所涉及的计算量就很大。
为压缩，可以使用如果一个候选k-项集的(k-1)-子集不属于Lk-1，则该候选不可能成为频繁k-项集Lk是的元素, 从而可以由中删除。可以利用HASH表来保存所有频繁项集以便能快速完成这一子集测试工作。
1)计算C1并计数. 在算法的第一次迭代，每个项都是候选1-项集的集合的成员。扫描所有的事务，对每个事务出现次数计数。 2)确定L1. 假定最小事务支持计数为2（即min_sup=2/9=22%）。可以确定频繁1-项集的集合L1。它由具有最小支持度的候选1项集组成。
二、 Apriori算法
1、 Apriori算法分两步进行：
（1）找出所有频繁数据项集，即找出所有支持度超过指定阈
值的数据项集。（2）利用频繁数据项集，生成侯选的关联规则，并验证其可信度。如果可信度超过指定阈值，则该侯选关联规则为要找的关联规
则
2、Apriori的基本思想:
频繁项集的任何子集也一定是频繁的频繁项集性质的先验知识（priori）
(5．2)是一个多维关联规则，因为它涉及三个维age,，
income和buys。 age(X，“30．．．39”) ^income(X，“42K．．．48K”) buys(X，“car”)
3、根据规则集所涉及的抽象层划分：
有些挖掘关联规则的方法可以在不同的抽象层发现规则。例如，假定挖掘的关联规则集包含下面规则： age(X，“30．．．39”) buys( X, ”notebook_computer”) age(X，“30．．．39”) buys( X, ” computer”)， (5.3)
三、由频繁项集产生关联规则对于置信度，可以用下式计算，其中条件概率用项集支持度计

挖掘关联规则(算法)

<a1, …, a100>: 1
What is the set of all patterns?
!!
7
关联规则基本模型
关联规则就是支持度和信任度分别满足用户给定阈值的规则。
发现关联规则需要经历如下两个步骤：找出所有频繁项集。由频繁项集生成满足最小信任度阈值的规则。
8
Apriori算法的步骤
第5章：挖掘关联规则
关联规则挖掘事务数据库中(单维布尔)关联规则挖掘的可伸缩算法挖掘各种关联/相关规则基于限制的关联挖掘顺序模式挖掘小结
1
关联规则
关联规则反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系，那么，其中一个事物就能够通过其他事物预测到。
3
30 A, B, C, E
{D} 1
40
B, E
{E} 3
L1
Itemset sup {A} 2 {B} 3 {C} 3 {E} 3
L2 Itemset sup {A, C} 2 {B, C} 2 {B, E} 3 {C, E} 2
C2 Itemset sup
C2
{A, B} 1 第2次扫描
{A, C} 2
频繁模式: 数据库中频繁出现的项集
目的: 发现数据中的规律
超市数据中的什么产品会一起购买？— 啤酒和尿布在买了一台PC之后下一步会购买? 哪种DNA对这种药物敏感? 我们如何自动对Web文档进行分类?
3
频繁模式挖掘的重要性
许多重要数据挖掘任务的基础关联、相关性、因果性序列模式、空间模式、时间模式、多维关联分类、聚类分析
20
提高Apriori算法的方法
Hash-based itemset counting（散列项集计数） Transaction reduction（事务压缩） Partitioning（划分） Sampling（采样）

关联规则挖掘算法综述

关联规则挖掘算法综述关联规则挖掘算法是数据挖掘中常用的一种算法，用于发现数据集中项之间的相关性。

其主要应用于市场营销、购物篮分析、推荐系统、质量控制等领域，具有很高的实用价值。

本文将就关联规则挖掘算法进行综述。

一、算法概述关联规则挖掘算法是通过寻找数据集中某些项之间的关联规则来实现的，这些关联规则通常用“如果……那么……”的形式表示，如：如果用户购买了咖啡和糖，那么他们可能也会购买牛奶。

其中，“如果”部分被称为先决条件，而“那么”部分称为结果。

在关联规则挖掘算法中，常用的度量方式有支持度和置信度。

支持度表示数据集中同时包含 A 和 B 的概率，置信度表示同时购买 A 和 B 的顾客中，有多少比例购买了 B。

常见的关联规则挖掘算法有 Apriori 算法、FP-Growth 算法、ECLAT 算法等。

二、Apriori 算法Apriori 算法是最早提出的关联规则挖掘算法，其核心思想是利用先验知识，减少候选项集的数量，从而缩短生成关联规则的时间。

该算法的主要步骤如下：1. 找出所有单项集；2. 如果某项集的支持度不低于阈值，则该项集为频繁项集；3. 利用频繁项集生成新的候选项集；4. 如果所有候选项集的支持度都不低于阈值，则从中选出频繁项集；5. 重复第 3 步和第 4 步，直到找不到新的频繁项集为止。

该算法的优点是简单易懂，容易实现。

缺点是计算效率低，对于大规模数据集处理较慢。

三、FP-Growth 算法FP-Growth 算法是另一种比较常见的关联规则挖掘算法，它可以从数据集直接构建频繁项集树，避免了需要生成 candidate set 时的大量的计算。

该算法的主要步骤如下：1. 获取单项集；2. 利用这些单项集和事务数据构建FP树；3. 从FP树中抽取频繁项集；4. 对于每个频繁项集，生成相关规则。

该算法的优点是计算效率高，能够处理大规模数据集。

缺点是实现较为复杂。

四、ECLAT 算法ECLAT 算法是 Apriori 算法的优化版，其核心思想是利用数据集的交集，递归处理候选项集。

第6章数据挖掘技术2(关联规则挖掘)

求L3。比较候选支持度计数与最小支持度计数得：项集 I1，I2，I3 I1，I2，I5 支持度计数 2 2

所以 L3=C3 求C4= L3 ∞ L3={I1，I2，I3，I5} 子集{I2，I3，I5} L3,故剪去；故C4=，算法终止。结果为L=L1 U L2 U L3
24
19:40
定义5：强关联规则。同时满足最小支持度（min_sup）和最小可信度（min_conf）的规则称之为强关联规则定义6：如果项集满足最小支持度，则它称之为频繁项集（Frequent Itemset）。
19:40 9
2. 关联规则挖掘过程

关联规则的挖掘一般分为两个过程：（1）找出所有的频繁项集：找出支持度大于最小支持度的项集，即频繁项集。
由L1 产生C2
项集支持度计数 {I1} {I2} {I3} {I4} {I5} 6 7 6 2 2
19:40
19
C2
C2
比较候支持度选支持度计数 4 与最小 4 支持度 1 计数 2
4 2 2 0 1 0
L2
项集支持度
{I1，I4} {I1，I5} {I2，I3} {I2，I4} {I2，I5} {I3，I4} {I3，I5} {I4，I5}
Apriori是挖掘关联规则的一个重要方法。算法分为两个子问题：找到所有支持度大于最小支持度的项集（Itemset），这些项集称为频繁集（Frequent Itemset）。使用第1步找到的频繁集产生规则。
19:40
14

Apriori 使用一种称作逐层搜索的迭代方法， “K-项集”用于探索“K+1-项集”。 1.首先，找出频繁“1-项集”的集合。该集合记作L1。L1用于找频繁“2-项集”的集合L2，而L2用于找L3，如此下去，直到不能找到“K-项集”。找每个 LK需要一次数据库扫描。

第5讲_关联规则挖掘[1]

Apriori算法主要的挑战

要对数据进行多次扫描；会产生大量的候选项集；对候选项集的支持度计算非常繁琐；减少对数据的扫描次数；缩小产生的候选项集；改进对候选项集的支持度计算方法将每个项集通过相应的hash函数映射到hash表中的不同的桶中，这样可以通过将桶中的项集技术跟最小支持计数相比较先淘汰一部分项集。
sup port( A C ) P( A C )
Transaction ID 2000 1000 4000 5000

对规则A C，其支持度置信度
=50%
confidence( A C ) P(C | A) P( A C ) / P( A) sup port( A C ) / sup port( A) 66.6%
Apriori算法

Apriori算法利用频繁项集性质的先验知识（prior knowledge），通过逐层搜索的迭代方法，即将k-1项集用于探察k项集，来穷尽数据集中的所有频繁项集。

先找到频繁1-项集集合L1,然后用L1找到频繁2-项集集合L2，接着用L2找L3，直到找不到频繁k-项集，找每个Lk需要一次数据库扫描。

Apriori性质：频繁项集的所有非空子集也必须是频繁的。（ A B 模式不可能比A更频繁的出现）

Apriori算法是反单调的，即一个集合如果不能通过测试，则该集合的所有超集也不能通过相同的测试。
Apriori算法步骤

Apriori算法由连接和剪枝两个步骤组成。连接：为了找Lk，通过Lk-1与自己连接产生候选k-项集的集合，该候选k项集记为Ck。

解决思路

数据科学中的关联规则挖掘算法比较

数据科学中的关联规则挖掘算法比较数据科学是当今科技领域的热门话题之一，它涵盖了数据收集、处理、分析和应用等多个方面。

在数据分析中，关联规则挖掘是一种常用的技术，可以帮助我们发现数据集中的相关性和规律。

在这篇文章中，我们将比较几种常见的关联规则挖掘算法，探讨它们的优劣和适用场景。

首先，我们来介绍一下关联规则挖掘的基本概念。

关联规则是指描述数据集中的项之间的关联关系，例如“如果购买了商品A，那么很可能也会购买商品B”。

关联规则挖掘算法的目标就是从大量的数据中发现这种关联关系，并生成有用的规则。

最常见的关联规则挖掘算法之一是Apriori算法。

Apriori算法基于频繁项集的概念，即在数据集中出现频率超过预设阈值的项集。

算法首先生成所有的频繁一项集，然后通过组合这些频繁一项集生成频繁二项集，以此类推，直到无法生成更多频繁项集为止。

Apriori算法的优点是简单易懂，容易实现，适用于小规模数据集。

然而，它的缺点是需要多次扫描数据集，计算复杂度较高，在大规模数据集上效率较低。

为了解决Apriori算法的效率问题，FP-Growth算法被提出。

FP-Growth算法通过构建FP树（Frequent Pattern Tree）来挖掘频繁项集。

FP树是一种紧凑的数据结构，可以避免多次扫描数据集。

算法首先构建FP树，然后通过递归挖掘FP树来生成频繁项集。

相比于Apriori算法，FP-Growth算法的计算复杂度较低，适用于大规模数据集。

然而，FP-Growth算法的实现较为复杂，需要额外的内存空间来构建和存储FP树。

除了Apriori算法和FP-Growth算法，还有一些其他的关联规则挖掘算法。

例如，Eclat算法是一种基于垂直数据格式的算法，它将数据集转换为项集-事务矩阵的形式，通过交集操作来计算频繁项集。

Eclat算法的优点是简单高效，适用于大规模数据集。

另外，关联规则挖掘还可以结合其他的数据挖掘技术，如分类、聚类和序列模式挖掘等，来提高挖掘结果的准确性和可解释性。

关联规则挖掘的分类

关联规则挖掘的分类一、引言关联规则挖掘是数据挖掘领域中的一项重要技术，它可以从大量的数据中发现隐藏在其中的关联关系。

通过挖掘这些关联规则，可以帮助企业或机构了解客户需求、市场趋势等信息，从而制定更有效的营销策略和商业决策。

本文将介绍关联规则挖掘的基本概念和分类，并提供详细的规则。

二、基本概念1.关联规则关联规则是指在一个数据集合中，两个或多个项之间的关系。

例如，在一个购物清单中，如果经常一起购买牛奶和面包，则可以得出“牛奶→面包”的关联规则。

2.支持度和置信度支持度是指某个项集出现在所有交易记录中的比例。

例如，在100个交易记录中，有60次出现了“牛奶”，因此“牛奶”的支持度为60%。

置信度是指如果一个交易记录包含某个项集A，那么它也会包含另一个项B的概率。

例如，“牛奶→面包”的置信度为70%，表示在所有购买了“牛奶”的交易记录中，有70%也购买了“面包”。

3.频繁项集频繁项集是指在数据集中经常出现的项集。

例如，在一个购物清单中，如果“牛奶”和“面包”经常一起出现，则可以将它们组成一个频繁项集。

三、关联规则挖掘的分类1.基于Apriori算法的关联规则挖掘Apriori算法是一种基于频繁项集的关联规则挖掘算法。

其基本思想是从单个项开始，逐步扩展到更大的项集，直到不再有频繁项集为止。

具体步骤如下：（1）找出所有单个项的支持度；（2）根据支持度阈值筛选出频繁1-项集；（3）根据频繁1-项集生成候选2-项集；（4）计算候选2-项集的支持度，并根据支持度阈值筛选出频繁2-项集；（5）重复上述步骤，直到不再有频繁k-项集为止。

Apriori算法的优点是简单易懂，容易实现。

但是当数据量较大时，其计算复杂度较高。

2.基于FP-growth算法的关联规则挖掘FP-growth算法是一种基于前缀树结构的关联规则挖掘算法。

其基本思想是将数据集转化为一棵FP树，然后通过遍历FP树来挖掘频繁项集。

具体步骤如下：（1）构建FP树；（2）从FP树中挖掘频繁项集。

基于关联规则的挖掘算法举例

关联规则挖掘

关联规则挖掘

挖掘关联规则(算法)

关联规则挖掘算法综述

第6章 数据挖掘技术2(关联规则挖掘)

第5讲_关联规则挖掘[1]

数据科学中的关联规则挖掘算法比较

关联规则挖掘的分类

第6章数据挖掘技术2(关联规则挖掘)