数据挖掘研究生课件--关联规则挖掘是数据挖掘研究的基础

合集下载

数据挖掘(第2版)-课件第5章关联规则

• 如：规则{尿布}—>{啤酒}表示尿布和啤酒的销售之间存在关联—— “啤酒与尿布”的故事。
• 关联分析用以发现事物间存在的关联性，除了购物篮分析外，有广泛应用，如：辅助决策——挖掘商场销售数据、发现商品间的联系；医疗诊断—— 用于发现某些症状与某种疾病之间的关联；网页挖掘——用于发现文档集合中某些词之间的关联，发现主题词演化模式、学科发展趋势；电子商务——进行产品的关联推荐等。
频繁项集
支持度不小于最小支持度阈值的项集
强关联规则
根据用户预先定义的支持度和置信度阈值，支持度不小于最小支持度阈值并且置信度不小于最小置信度阈值的规则
5.2.1 基本概念(4)
关联分析挖掘的关联规则分类根据处理值分类
布尔关联规则量化关联规则
根据涉及维度分类
单维关联规则多维关联规则
支持度 (support)
事务数据库D中包含项A和B的事务占所有事务的百分比
可表示为：support(A,B ) P(A B ) (A B )/ N
5.2.1 基本概念(3)
置信度
事务数据库D中同时包含项A和B的事务占包含项A的事务的百分比
条件概率表示为： confindence(A,B ) P(B | A) (A B )/ (A)
根据数据抽象层次分类
单层关联规则多层关联规则
【例5-1】设有事务集合如表5-1，计算规则{bread,milk tea} 的支持度、置信度。
交易号TID
顾客购买的商品
ห้องสมุดไป่ตู้
交易号TID
T1
bread, cream, milk, tea
T6
T2
bread, cream, milk
T7

数据挖掘方法——关联规则(自己整理)PPT课件

3.多层关联规则挖掘算法
对于很多的应用来说，由于数据分布的分散性，所以很难在数据最细节的层次上发现一些强关联规则。当我们引入概念层次后，就可以在较高的层次上进行挖掘。虽然较高层次上得出的规则可能是更普通的信息，但是对于一个用户来说是普通的信息，对于另一个用户却未必如此。所以数据挖掘应该提供这样一种在多个层次上进行挖掘的功能。
(1)
如：if A then B。则它的支持度Support=P(A and B) 2. Confidence（可信度）：它是针对规则而言的。
Confidence=p(condition and result)/p(condition)。
(2)
如：If B and C then A。则它的可信度Confidence=p(B and C and A)/p(B and C)。把满足最小支持度阈值和最小置信度阈值的规则成为强规则。项的集合称
多层关联规则的分类：根据规则中涉及到的层次，多层关联规则可以分为同层关联规则和层间关联规则。
多层关联规则的挖掘基本上可以沿用“支持度-可信度”的框架。不过，在支持度设置的问题上有一些要考虑的东西。
4.多维关联规则挖掘算法
对于多维数据库而言，除维内的关联规则外，还有一类多维的关联规则。例如：年龄（X， “20…30”）职业（X，“学生”）==> 购买（X，“笔记本电脑”）在这里我们就涉及到三个维上的数据：年龄、职业、购买。
该算法的基本思想是：首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递推的方法。

《数据挖掘关联规则》PPT课件

支持度s D中包含A和 B 的事务数与总的事务数的比
值 s(A B )|{ |T D |A B T}|| ||D ||
规则 AB 在数据集D中的支持度为s, 其中s 表示
D中包含AB (即同时包含A和B)的事务的百分率.
8
度量有趣的关联规则
可信度 c D中同时包含A和B的事务数与只包含A的事务数的比值
24
加权关联规则的描述
对于项目集 X、Y， X、Y，XI ∩Y =φ ，如果有 wsup( X ∪Y )≥wminsup，且 conf(X→Y)≥minconf，则称 X→Y 是一条加权关联规则。
25
权值的设定
加权支持度 (1)、平均值： (2)、归一化：
(3)、最大值：
w'sup(x)1k(jk1wj)sup(x)
证明:设n为事务数.假设A是l个事务的子集,若 A’ A , 则A’ 为l’ (l’ l )个事务的子集.因此, l/n ≥s(最小支持度), l’/n ≥s也成立.
18
Apriori 算法
Apriori算法是一种经典的生成布尔型关联规则的频繁项集挖掘算法.算法名字是缘于算法使用了频繁项集的性质这一先验知识.
方法: 由频繁k-项集生成候选(k+1)-项集,并且在DB中测试候选项集
性能研究显示了Apriori算法是有效的和可伸缩 (scalablility)的.
21
The Apriori 算法—一个示例
Database TDB
Tid Items
10
A, C, D
20
B, C, E
C1
1st scan
threshold )
for each itemset l1 Lk-1

数据挖掘中的关联规则挖掘

数据挖掘中的关联规则挖掘数据挖掘是一种从大量数据中自动发现有用信息的过程。

将数据挖掘应用于商业领域，可以帮助企业做出更明智的决策，发现潜在客户，提高销售业绩。

而关联规则挖掘则是数据挖掘中的一个重要方法，它可以帮助我们发现数据集中项集之间的关联关系。

什么是关联规则挖掘？在数据挖掘中，关联规则挖掘是指通过挖掘数据集中的关联规则，从而发现数据集中的频繁项集之间的关联关系。

举个例子，在超市购物场景中，如果我们发现顾客购买了尿布，并伴随着啤酒的购买，那么我们就可以发现尿布和啤酒之间存在关联规则。

这个规则的意义就在于，我们一旦发现顾客购买了尿布，就有可能会购买啤酒，因此我们可以在超市中增加这两种商品的陈列位置，以提高销量。

如何进行关联规则挖掘？关联规则挖掘的过程如下：1.确定数据集和支持度阈值关联规则挖掘需要一个数据集，并且需要指定一个最小支持度阈值。

支持度是指所有包含该项集的事务数除以总事务数，即$supp(X) = \frac{count(X)}{|D|}$其中，X指数据集中的一个项集，count(X)指包含该项集的事务数，D指整个数据集。

2.寻找频繁项集频繁项集是指在数据集中出现次数超过最小支持度阈值的项集，即$\{X | supp(X) \geq minsupp\}$3.生成关联规则根据频繁项集生成关联规则，关联规则的形式为$X \rightarrow Y$其中，X和Y是项集，表示在购买X的情况下，也会购买Y。

关联规则的质量可以通过支持度和置信度来衡量。

4.衡量关联规则的质量关联规则的置信度是指在购买X的情况下，也购买了Y的概率，即$conf(X \rightarrow Y) = \frac{supp(X \cup Y)}{supp(X)}$其中，conf代表置信度，X和Y是项集，supp(X∪Y)代表同时包含X和Y的事务数，supp(X)代表X的支持度。

同时，也可以通过提升度来衡量规则的质量。

提升度是指在购买X的情况下，购买Y的概率是在没有购买X的情况下购买Y的概率的多少倍，即$lift(X \rightarrow Y) = \frac{conf(X \rightarrow Y)}{supp(Y)}$关联规则挖掘的应用场景关联规则挖掘可以被广泛应用于各种业务场景中，例如：1.零售业在零售业场景中，关联规则挖掘可以帮助零售商发现顾客之间的购买模式和趋势，从而提高销售额和客户忠诚度。

研究生课件【数据挖掘】第三章关联规则挖掘理论和算法

关联规则挖掘是数据挖掘研究的基础
关联规则挖掘（Association Rule Mining）是数据挖掘中研究较早而且至今仍活跃的研究方法之一。
最早是由Agrawal等人提出的（1993）。最初提出的动机是针对购物篮分析（Basket Analysis）问题提出的，其目的是为了发现交易数据库（Transaction Database）中不同商品之间的联系规则。
关联规则的挖掘工作成果颇丰。例如，关联规则的挖掘理论、算法设计、算法的性能以及应用推广、并行关联规则挖掘（Parallel Association Rule Mining）以及数量关联规则挖掘（Quantitive Association Rule Mining）等。
关联规则挖掘是数据挖掘的其他研究分支的基础。
定理（ Appriori 属性2）.如果项目集X 是非频繁项目集，那么它的所有超集都是非频繁项目集。
证明（略）
经典的发现频繁项目集算法
1994年，Agrawal 等人提出了著名的Apriori 算法。
算法3-1 Apriori（发现频繁项目集）
（1）（2）（3）（4）
L1 = {large 1-itemsets}; //所有1-项目频集 FOR （k=2; Lk-1; k++） DO BEGIN
可信度与关联规则
定义（关联规则与可信度）.给定一个全局项目集I 和数据库D，一个定义在I和D上的关联规则形如 I1I2，并且它的可信度或信任度或置信度（Confidence）是指包含I1和I2的事务数与包含I1的事务数之比，即
Confidence（I1I2）= support（I1∪I2）/ support（I1），
根据项目集支持数的定义，很容易知道支持X 的元组一定支持Y，所以s1 ≥s，即support（Y） ≥ support（X）。

数据挖掘——第三章关联规则挖掘)

可信度指的是在购买了一个产品之后购买另外一个产品的可能
性，如购买了A产品之后购买B产品的可信度=800/1000=80%
〖定义 4 － 2〗关联规则 XY 对事物集 D 的支持度（support）定义为D中包含有事务X和Y的百分比。关联规则XY对事务集合D的置信度（confidence）定义为D中包含有X的事务数与同时包含Y的百分比。即：
关联规则挖掘
1.1关联规则挖掘的基本概念

关联规则(Association Rule Mining)挖掘是数据挖掘中最活跃的研究方法之一

最早是由R.Agrawal等人提出的
其目的是为了发现超市交易数据库中不同商品之间的关联关系。

一个典型的关联规则的例子是： 70% 购买了牛奶的顾客将倾向于同时购买面包。
D={牛肉，鸡肉，牛奶，奶酪，靴子，衣服，…..}

t1: 牛肉、鸡肉、牛奶 t2: 牛肉、奶酪 t3: 奶酪、靴子 t4: 牛肉、鸡肉、奶酪 t5: 牛肉、鸡肉、衣服、奶酪、牛奶 t6: 鸡肉、衣服、牛奶 t7: 鸡肉、牛奶、衣服

.............. 如何从客户购物篮中找出具有关联关系的商品组合呢？

关联规则就是支持度和信任度分别满足用户给定阈值的规则。发现关联规则需要经历如下两个步骤：

找出所有频繁项集。由频繁项集生成满足最小信任度阈值的规则。
以商场超市的市场数据库为例，形式化地描述关联规则。〖定义4－1〗设 I={i1 ， i2 ， …,im} 是项的集合，表示各种商品的集合；D= {t1，t2，…,tn}为交易集，表示每笔交易的集合（是全体事务的集合）。其中每一个事务 T 都是项的集合，且有 TI 。每个事务都有一个相关的唯一标识符和它对应，也就是事务标识符或TID。设X为一个由项目构成的集合，称为项集，当且仅当XT 时我们说事务T包含X。项集 X 在在事务数据库 DB 中出现的次数占总事务的百分比叫做项集的支持度。如果项集的支持度超过用户给定的最小支持度阈值，就称该项集是频繁项集（或大项集）。

数据挖掘第3章关联规则挖掘

例题3
• Let min_ sup = 50%, min_ conf = 50%
• Freq. Pat.: {A:3, B:3, D:4, E:3, AD:3}
• Association rules: A D (60%, 100%) D A (60%, 75%)
Transaction-id
10 20
关联规则的基本概念与基础理论
关联规则的基本概念与基础理论
关联规则挖掘用来发现大量数据中项集之间有趣的关联联系。如果两项或多项属性之间存在关联，那么其中一项的属性就可以依据其他属性值进行预测。
关联规则挖掘问题两个子问题：第一步是找出事务数据库中所有大于等于用户指定的
最小支持度的数据项集；第二步是利用频繁项集生成所需要的关联规则，根据
• Support s= 3 baskets.
B1 = {m, c, b} B2 = {m, p, j}
B3 = {m, b}
B4 = {c, j}
B5 = {m, p, b} B6 = {m, c, b, j}
B7 = {c, b, j} B8 = {c, b}
• Frequent itemsets: {m}, {c}, {b}, {j}, {m, b},
一个顾客一天买的东西. • 最简单的问题：找到这个篮子里经常出现的项目集. • 项目集 I 的支持度计数= 含有 I 里所有项目的篮子数量.
• 给定一个最小支持度计数门槛s，在> s 个篮子里出现的项
目的集合，称为频繁项集
关联规则的基本概念与基础理论
购物篮分析实例
• Items={milk, coke, pepsi, beer, juice}.
基本概念

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

序号 1 2 3 4 5 6
第三章关联规则挖掘理论和算法
内容提要

基本概念与解决方法经典的频繁项目集生成算法分析 Apriori算法的性能瓶颈问题 Apriori的改进算法对项目集格空间理论的发展基于项目序列集操作的关联规则挖掘算法改善关联规则挖掘质量问题约束数据挖掘问题关联规则挖掘中的一些更深入的问题数量关联规则挖掘方法
关联规则挖掘是数据挖掘研究的基础

关联规则挖掘（Association Rule Mining）是数据挖掘中研究较早而且
至今仍活跃的研究方法之一。

最早是由Agrawal等人提出的（1993）。最初提出的动机是针对购物篮分析（Basket Analysis）问题提出的，其目的是为了发现交易数据库

关联规则挖掘基本过程

关联规则挖掘问题可以划分成两个子问题：

1. 发现频繁项目集:通过用户给定Minsupport ，寻找所有频繁项目集或者最大频繁项目集。 2．生成关联规则:通过用户给定Minconfidence ，在频繁项目集中，寻找关联规则。

第1个子问题是近年来关联规则挖掘算法研究的重点。
第三章关联规则挖掘理论和算法
内容提要

基本概念与解决方法经典的频繁项目集生成算法分析 Apriori算法的性能瓶颈问题 Apriori的改进算法对项目集格空间理论的发展基于项目序列集操作的关联规则挖掘算法改善关联规则挖掘质量问题约束数据挖掘问题关联规则挖掘中的一些更深入的问题数量关联规则挖掘方法
支持度与频繁项目集

定义（项目集的支持度）. 给定一个全局项目集I和数据库 D，一个项目集I1I在D上的支持度（Support）是包含I1的事务在D中所占的百分比：support（ I1 ）=|| {t D | I1 t}|| / || D||。定义（频繁项目集）.给定全局项目集I和数据库D ，D中所有满足用户指定的最小支持度（Minsupport）的项目集，即大于或等于minsupport的I的非空子集，称为频繁项目集（频集：Frequent Itemsets）或者大项目集（Large Iitemsets）。在频繁项目集中挑选出所有不被其他元素包含的频繁项目集称为最大频繁项目集（最大频集： Maximum Frequent Itemsets）或最大大项目集（Maximum Large Iitemsets）。
Rule-generate算法例子

Minconfidence=80%
lk 235 235 235 235 235 235 xm-1 23 2 3 25 5 35 confidence 100% 67% 67% 67% 67% 100% support 50% 50% 50% 50% 50% 50% 规则（是否是强规则） 235（是） 235（否） 325（否） 253（否） 523（否） 352（是）
（Transaction Database）中不同商品之间的联系规则。

关联规则的挖掘工作成果颇丰。例如，关联规则的挖掘理论、算法设计、算法的性能以及应用推广、并行关联规则挖掘（Parallel
Association Rule Mining）以及数量关联规则挖掘（Quantitive
Association Rule Mining）等。
{1 {1 {2 {2 {3 3} 5} 3} 5} 5}
C3 itemset
{2 3 5}
Scan D
L3 itemset sup {2 3 5} 2
关联规则的生成问题

根据上面介绍的关联规则挖掘的两个步骤，在得到了所有频繁项目集后，可以按照下面的步骤生成关联规则：

对于每一个频繁项目集l，生成其所有的非空子集；对于l 的每一个非空子集x，计算Conference（x），如果Confidence（x）≥minconfidence，那么“x（lx）”成立。
apriori-gen过程

算法apriori中调用了apriori-gen（Lk-1），是为了通过（k-1）-频集产生K-侯选集。
（1） FOR all itemset p Lk-1 DO （2） FOR all itemset qLk-1 DO （3） IF p.item1=q.item1， …， p.itemk-2=q.itemk-2， p.itemk-1 < q.itemk-1 THEN BEGIN （4） c= p∞q;//把q的第k-1个元素连到p后（5） IF has_infrequent_subset（c， Lk-1） THEN （6） delete c;//删除含有非频繁项目子集的侯选元素（7） ELSE add c to Ck; （8） END （9） Return Ck;
提高Apriori算法效率的技术

一些算法虽然仍然遵循Apriori 属性，但是由于引入了相关技术，在一定程度上改善了Apriori算法适应性和效率。主要的改进方法有：

基于数据分割（Partition）的方法：基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。基于散列（Hash）的方法：基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。基于采样（Sampling）的方法：基本原理是“通过采样技术，评估被采样的子集中，并依次来估计k-项集的全局频度”。
第三章关联规则挖掘理论和算法
内容提要

基本概念与解决方法经典的频繁项目集生成算法分析 Apriori算法的性能瓶颈问题 Apriori的改进算法对项目集格空间理论的发展基于项目序列集操作的关联规则挖掘算法改善关联规则挖掘质量问题约束数据挖掘问题关联规则挖掘中的一些更深入的问题数量关联规则挖掘方法
L1
itemset sup. {1} 2 {2} 3 {3} 3 {5} 3
L2 itemset sup
{1 3} {2 3} {2 5} {3 5} 2 2 3 2
C2
itemset sup {1 2} 1 {1 3} 2 {1 5} 1 {2 3} 2 {2 5} 3 {3 5} 2
C2 itemset {1 2} Scan D
可信度与关联规则
定义（关联规则与可信度）.给定一个全局项目集I 和数据库D，一个定义在I和D上的关联规则形如 I1I2，并且它的可信度或信任度或臵信度（Confidence）是指包含I1和I2的事务数与包含I1的事务数之比，即 Confidence（I1I2）= support（I1∪I2）/ support（I1），其中I1，I2I，I1∩I2=Ф。定义（强关联规则）. D在I上满足最小支持度和最小信任度（Minconfidence）的关联规则称为强关联规则（Strong Association Rule）。

关联规则挖掘是数据挖掘的其他研究分支的基础。
事务数据库

设I={ i1，i2，…，im }是一个项目集合，事务数据库D={ t1，t2，…，tn }是由一系列具有唯一标识 TID的事务组成，每个事务ti（i=1，2，…，n）都对应I上的一个子集。一个事务数据库可以用来刻画：

购物记录： I是全部物品集合， D是购物清单，每个元组ti是一次购买物品的集合（它当然是I的一个子集）。其它应用问题

has_infrequent_subset（c， Lk-1），判断c是否加入
到k-侯选集中。
Apriori算法例子

Minsupport=50%
Database D
TID 100 200 300 400 Items 134 235 1235 25
itemset sup. 2 C1 {1} {2} 3 Scan D {3} 3 {4} 1 {5} 3

算法3-4 从给定的频繁项目集中生成强关联规则
Rule-generate（L，minconf）（1） FOR each frequent itemset lk in L （2） genrules（ lk ， lk）;

算法3-4的核心是genrules递归过程，它实现一个频繁项目集中所有强关联规则的生成。
第三章关联规则挖掘理论和算法
内容提要

基本概念与解决方法经典的频繁项目集生成算法分析 Apriori算法的性能瓶颈问题 Apriori的改进算法对项目集格空间理论的发展基于项目序列集操作的关联规则挖掘算法改善关联规则挖掘质量问题约束数据挖掘问题关联规则挖掘中的一些更深入的问题数量关联规则挖掘方法
算法-递归测试一个频集中的关联规则
genrules（lk: frequent k-itemset， xm: frequent m-itemset）（1）X={（m-1）-itemsets xm-1 | xm-1 in xm }；（2）FOR each xm-1 in X BEGIN （3） conf = support（lk）/support（xm-1）; （4） IF （conf ≥ minconf） THEN BEGIN （5） print the rule “xm-1（ lk-xm-1），with support = support（lk）， confidence=conf”; （6） IF （m-1 > 1） THEN //generate rules with subsets of xm-1 as antecedents （7） genrules（lk， xm-1）; （8） END （9）END；
Apriori算法的性能瓶颈Apriori作为经典的频繁项目集生成算法，在数据挖掘中具有里程碑的作用。 Apriori算法有两个致命的性能瓶颈:

数据挖掘研究生课件--关联规则挖掘是数据挖掘研究的基础

数据挖掘(第2版)-课件 第5章关联规则