挖掘频繁模式关联和相关

合集下载

数据挖掘中的频繁模式与关联分析

• 哪些商品经常一同被购买？——啤酒和尿布？ • 购买电脑后会再买什么？ • 怎样的DNA对新药敏感？
应用：购物篮分析、交叉营销、网络日志分析等
频繁模式与关联规则
TID
购物篮
10
啤酒, 坚果, 尿布
20
啤酒, 咖啡, 尿布
30
啤酒, 尿布, 鸡蛋
40
坚果, 鸡蛋, 牛奶
50
坚果, 咖啡, 尿布, 鸡蛋, 牛奶
两种都买购买尿布的人的人
购买啤酒的人
购物篮分析
• 项集（itemset）：一个或多个项的集合
• k-项集X={x1,…,xk}
• 项集绝对支持度（support_count）：项集X的出现频度（即包含项集的事务数）
• 项集相对支持度（support）：包含项集X的事务所占比例（即一条事务中包含项集X的概率）
• 设最小支持度minsup=50%，最小置信度 minconf=50%
• 频繁项集：啤酒:3,坚果:3,尿布:4,鸡蛋:3,{ 啤酒,尿布}：3
• 强关联规则：
• 啤酒→尿布(60%, 100%) • 尿布→啤酒(60%, 75%)
频繁模式与关联规则
关联规则X→Y:
confidence( X →Y ) P(Y | X ) support( X Y ) support _ count(X Y ) ,( X Y )
数据挖掘中的频繁模式与关联分析
演讲人：XXX
Contents
1
数据挖掘
2
频繁模式与关联规则
3
挖掘方法
数据挖掘
数据科学
20世纪70年代
• 关系型数据库 • DBMS
2000年后

第8章频繁模式挖掘PPT课件

21.07.2020
16
8.1.1 问题描述（续）
❖ 关联规则
➢ 关联规则是形如XY的蕴含式，其中XI，YI且 XY=，则X称为规则的条件，Y称为规则的结果。
➢ 如果事务数据库D中有s%的事务包含XY，则称关联规则XY的支持度为s%。
➢ 支持度是指项集X和Y在数据库D中同时出现的概率。
21.07.2020
21.07.2020
35
1. Apriori算法描述
❖ 关联规则挖掘过程： ➢ 第一步：寻找频繁项集。根据定义，这些项集出现
的频度不小于预先定义的最小额度。---较难找出满足定义的大项目集
➢ 第二步：由频繁项集产生关联规则。根据定义，这些规则必须满足最小支持度和最小置信度。--较易从大项目集（频繁项目集）生成关联规则
的频度不小于预先定义的最小额度。---较难 ➢ 第二步：由频繁项集产生关联规则。根据定义，这
些规则必须满足最小支持度和最小置信度。--较易
21.07.2020
28
8.1.2 关联规则分类
❖ 购物篮分析只是关联规则挖掘的一种形式。 ❖ 根据不同的分类标准，关联规则有多种分类方法： ➢ 根据规则中所处理的数据类型分类 ➢ 根据规则中涉及的数据维数分类 ➢ 根据规则中数据的抽象层次分类 ➢ 其它
➢ 设I={i1，i2，…,im}是项的集合，表示各种商品的集合；D= {t1，t2，…,tn}为交易集，表示每笔交易的集合（是全体事务的集合）。其中每一个事务T 都是项的集合，且有TI。每个事务都有一个相关的唯一标识符和它对应，也就是事务标识符或TID。
21.07.2020
14
8.1.1 问题描述（续）
❖ 给定一个大小为m的项目集合，共有2m个子集，去掉

频繁模式挖掘与关联规则挖掘

一个项集X是闭模式，如果X是频繁的，且不存在超模式 Y ‫ כ‬X具有与X同样的支持度（Pasquier，ICDT’99）
一个项集X是一个最大模式，如果X是频繁的，并且不存在频繁超模式 Y ‫ כ‬X （Bayardo，SIGMOD’98）闭模式是频繁模式集的无损压缩

压缩了模式与规则的数目

为找到频繁项集 i1i2…i100

扫描遍数：100 产生的候选项集数目：C1001 + C1002 + … + C110000 = 2100-1 = 1.27*1030 !

瓶颈：候选的产生与验证能否不生成候选项集？
数据挖掘 23
2015-4-21
无候选生成的频繁模式挖掘

基于短模式，使用局部频繁项得到长模式

重新扫描数据库，找出遗漏的频繁项集
数据挖掘 21
2015-4-21
提高Apriori的有效性
ABCD ABC ABD ACD BCD

动态项集计数：减少扫描次数一旦 A 与 D 都被确定是频繁的，马上开始对 AD 的计数一旦项集 BCD 的所有长度为2的子集都被确定是频繁的，马上开始对 BCD 的计数
数据挖掘 11

2015-4-21
Apriori 方法

逐层搜索：由 K－项集到 k+1－候选项集方法：

扫描数据集一次，得到所有长度为1的频繁项集基于长度为 K 的频繁项集，生成长度为 k+1 的候选项集扫描数据集，检测候选项集是否频繁当没有频繁项集或候选项集生成时，中止算法。

由 abc 与 abd 得到 abcd

数据挖掘4第四章挖掘频繁模式、关联和相关

根据所挖掘的规则类型分类
关联规则、相关规则、强梯度联系（与父母、子女或兄
妹之间的关系）相关性和因果关系分析关联并不一定必须意味着相关性和因果性

根据所挖掘的模式类型分类
频繁项集挖掘、序列模式挖掘、结构模式挖掘
ECUST--Jing Zhang
关联规则基本模型
10
关联规则就是支持度和置信度分别满足用户给定阈值的规则。发现关联规则需要经历如下两个步骤：
3rd scan
L3
Itemset {B, C, E}
如何产生候选集
17

假设Lk-1中的项是按顺序列出的第一步: 自我连接Lk-1
Insert into Ck select p.item1, p.item2, …, p.itemk-1, q.itemk-1 from Lk-1p, Lk-1 q where p.item1=q.item1, …, p.itemk-2=q.itemk-2, p.itemk-1 < q.itemk-1
8

根据挖掘的模式的完全性分类
频繁项集的完全集、闭频繁项集、极大频繁项集
被约束的频繁项集、近似的频繁项集、接近匹配的频繁项集、
最频繁的k个项集

根据规则中所处理的值类型分类
布尔关联和量化关联
buys(x, “SQLServer”) ^ buys(x, “DMBook”) →buys(x, “DBMiner”) [0.2%, 60%] age(x, “30..39”) ^ income(x, “42..48K”) →buys(x, “PC”) [1%, 75%]

应用
* ⇒维修协议(商店应该怎样做才能提升维修协议的销售) 家电⇒*(商店应该增加其它那些产品的存储量?)

数据挖掘知识点归纳

知识点一数据仓库1.数据仓库是一个从多个数据源收集的信息存储库，存放在一致的模式下，并且通常驻留在单个站点上。

2.数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。

3.数据仓库围绕主题组织4.数据仓库基于历史数据提供消息，是汇总的。

5.数据仓库用称作数据立方体的多维数据结构建模，每一个维对应于模式中的一个或者一组属性，每一个单元存放某种聚集的度量值6.数据立方体提供数据的多维视图，并允许预计算和快速访问汇总数据7.提供提供多维数据视图和汇总数据的预计算，数据仓库非常适合联机分析处理，允许在不同的抽象层提供数据，这种操作适合不同的用户角度8.OLAP例子包括下钻和上卷，允许用户在不同的汇总级别上观察数据9.多维数据挖掘又叫做探索式多维数据挖掘OLAP风格在多维空间进行数据挖掘，允许在各种粒度进行多维组合探查，因此更有可能代表知识的有趣模式。

知识点二可以挖掘什么数据1.大量的数据挖掘功能，包括特征化和区分、频繁模式、关联和相关性分析挖掘、分类和回归、聚类分析、离群点分析2.数据挖掘功能用于指定数据挖掘任务发现的模式，分为描述性和预测性3.描述性挖掘任务刻画目标数据中数据的一般性质4.预测性挖掘任务在当前数据上进行归纳，以便做出预测5.数据可以与类或概念相关联6.用汇总、简洁、精确的表达描述类和概念，称为类/概念描述7.描述的方法有数据特征化（针对目标类）、数据区分（针对对比类）、数据特征化和区分8.数据特征化用来查询用户指定的数据，上卷操作用来执行用户控制的、沿着指定维的数据汇总。

面向属性的归纳技术可以用来进行数据的泛化和特征化，而不必与用户交互。

形式有饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。

结果描述可以用广义关系或者规则（也叫特征规则）提供。

9.用规则表示的区分描述叫做区分规则。

10.数据频繁出现的模式叫做频繁模式，类型包括频繁项集、频繁子项集（又叫频繁序列）、频繁子结构。

数据挖掘——第三章关联规则挖掘(2)

因为{ I1, I2, I4}的子集{ I1, I2,}和 { I1, I3, I4}、{ I1, I3, I5}的子集{ I1, I3,}及 { I2, I3, I4}的子集{ I2, I3}不在L2中
因此，从C3中删除{ I1, I2, I4}、{ I1, I3, I4}、{ I1, I3, I5}、 { I2, I3, I4}得：
可以改写如下所示的关联规则：
buys(X,”computer”)
buys(X,”antivirus_software”)
例5-2：闭的和极大的频繁项集。
假定事务数据库只有两个事务： { a1,a2, … ,a100 };{a1,a2, … ,a50}
最小支持度计数阀值min_sup=1。我们发现两个闭频繁项集和他们的支持度,即C={{ a1,a2, … ,a100 }:1;{a1,a2, … ,a50}:2} 只有一个极大频繁项集：M={{ a1,a2, … ,a100 }:1}
集是不是频繁项集！
return Ck;
}
Prodedure has_infrequent_subset (c:candidate k-itemset;Lk-1:frequent(k-1)-itemsets) { //从第k项侯选项集Ck中，看它的(k-1)项子集是不是
第(k-1)项频繁项集中的项；
5.2.1Apriori算法：使用侯选产生发现频繁项集；
5.2.2由频繁项集产生关联规则； 5.2.3提高Apriori算法的效率； 5.2.4不侯选产生挖掘频繁项集； 5.2.5使用垂直数据格式挖掘频繁项集；
1.2.1Apriori算法：使用侯选产生发现频繁项集
1.Apriori性质：频繁项集的所有非空子集也必须是频繁的。

数据分析知识：数据挖掘中的频繁模式挖掘

数据分析知识：数据挖掘中的频繁模式挖掘数据挖掘中的频繁模式挖掘数据挖掘是一个复杂的过程，需要从庞大的数据集中提取出有价值的信息，这些信息可以用于业务分析、决策支持、市场营销等方面。

而频繁模式挖掘，就是在大量数据中寻找频繁出现的组合，从而发现数据集中的一些结构、规律和特征，帮助人们更好地理解数据，作出可靠的决策。

本文将介绍频繁模式挖掘的概念、算法和应用，并探讨其在实践中的优势和不足之处。

一、频繁模式挖掘的概念频繁模式挖掘是数据挖掘中的一种技术，它通过数据集中的项集来寻找频繁出现的组合，从而发现数据集中的一些规律、结构和特征。

在频繁模式挖掘中，一个项集是指包含若干个属性（或特征）的集合，而频繁项集指在数据集中出现频率较高的项集。

举个例子，某超市的销售数据表格中，每一行代表一次购物，每一列代表某种商品，如果某些商品常常同时被购买，那么这些商品就组成了一个频繁项集。

对于频繁项集的挖掘，可以应用一些经典的算法，如Apriori算法、FP-growth算法等。

这些算法可以从数据集中提取出频繁项集，并进行支持度和置信度的计算，从而评估每个项集的重要性和关联性。

而支持度指项集在数据集中出现的概率，而置信度则是指在包含某项集的条件下，另一个项集出现的概率。

二、频繁模式挖掘的算法1、Apriori算法Apriori算法是频繁项集挖掘领域中的经典算法，它最早由R. Agrawal和R. Srikant于1994年提出。

该算法是基于Apriori原理的，即如果一个项集是频繁的，那么它的所有子集必须也是频繁的。

具体而言，Apriori算法的流程包括：（1）对数据集中的单个项进行扫描，统计每个项的出现次数，得到一个项集L1；（2）对于项集L1中的每一项，计算其支持度，只保留支持度大于等于设定阈值minsup的项，得到一个新的项集L2；（3）对于项集L2中的每两个项，判断它们是否能够组合成一个新的项集，如果满足条件，则进行计数，并得到一个新的项集L3；（4）重复第二步和第三步，直到无法生成新的项集为止。

数据挖掘挖掘频繁模式关联和相关

二者都买的客户买尿布的客户
买啤酒的客户
查找所有的规则 X & Y Z 具有最小支持度和可信度支持度, s, 一次交易中包含 {X 、 Y 、 Z}的可能性置信度, c, 包含{X 、 Y}的交易中也包含Z的条件概率
设最小支持度为50%, 最小可信度为 50%, 则可得到 A C (50%, 66.6%) C A (50%, 100%)
2019/2/11
数据挖掘：概念和技术
6
关联规则挖掘—一个例子
交易ID 2000 1000 4000 5000 购买商品 A,B,C A,C A,D B,E,F
最小值尺度 50% 最小可信度 50%
频繁项集 {A} {B} {C} {A,C} 支持度 75% 50% 50% 50%
对于 A C： support = support({A 、C}) = 50% confidence = support({A 、C})/support({A}) = 66.6% Apriori的基本思想: 频繁项集的任何子集也一定是频繁的
accessories also get automotive s 护理用品 (商店应该怎样提高护理用品的销售？) 家用电器 * (其他商品的库存有什么影响?)
在产品直销中使用附加邮寄
2019/2/11
数据挖掘：概念和技术
3
规则度量：支持度与可信度
8
Apriori算法

连接: 用 Lk-1自连接得到候选k-项集Ck 修剪: 一个k-项集，如果他的一个k-1项集（他的子集）不是频繁的，那他本身也不可能是频繁的。伪代码: Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = { frequent items}; for (k = 2; Lk-1 !=; k++) do begin Ck = candidates generated from Lk-1; for each transaction t in database do increment the count of all candidates in Ck that are contained in t Lk = candidates in Ck with min_support end return k Lk;

挖掘频繁模式、关联和相关性

What products were often purchased together?— Beer and diapers?! What are the subsequent purchases after buying a PC? What kinds of DNA are sensitive to this new drug?
Frequent Itemset Mining Methods Which Patterns Are Interesting?—Pattern
Evaluation Methods
Summary
3
What Is Frequent Pattern Analysis?

Frequent pattern: a pattern (a set of items, subsequences, substructures,

Customer buys beer
itemset: A set of one or more items k-itemset X = {x1, …, xk} (absolute) support, or, support count of X: Frequency or occurrence of an itemset X (relative) support, s, is the fraction of transactions that contains X (i.e., the probability that a transaction contains X) An itemset X is frequent if X’s support is no less than a minsup threshold

数据挖掘频繁模式关联规则

数据挖掘频繁模式关联规则
1. 什么是数据挖掘
数据挖掘是指从大量数据中提取出关于企业、市场、客户、社会
等方面的有用信息并进行分析的过程。

此过程通常包括数据清洗、特
征选择、数据转换、数据挖掘以及模型评估等环节。

2. 频繁模式
频繁模式是指在数据集合中出现频率较高的一组数据。

通过频繁
模式的挖掘，我们可以看出哪些数据之间有着紧密的关联，为分析提
供了有力支持。

3. 关联规则
关联规则是在频繁项集的基础上，选择两个或更多项目之间的关
联关系。

反应的是不同商品间的关系，在规则的形式化中，使用的是“如果 A 那么B”的表达方式，其中 A 和 B 均为商品或事物。

4. 频繁模式和关联规则在商业上的应用
频繁模式和关联规则的应用十分的广泛。

其中，商业领域是十分
重要的一个方面，如超市销售数据的挖掘、网站行为数据的分析等等。

在销售数据挖掘中，超市可以通过对不同商品的销售进行挖掘，发现
不同商品之间的关联度，有助于促进不同商品之间的协同销售，从而
增加销售收益。

5. 频繁模式和关联规则在社会领域的应用
在社会领域，频繁模式和关联规则也具有很高的应用价值。

比如，通过舆情分析和数据挖掘，可以挖掘出不同的舆情数据，从而及时掌
握人民群众的意见和想法。

总之，频繁模式和关联规则的应用可以更好地发掘数据的信息价值，对于实现精细化管理和预测分析等方面都将有着重要的作用。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

5.1基本概念: 频繁模式与关联规则
Transaction-id Items bought

10
20 30 40 50
Customer buys both
A, B, D
A, C, D A, D, E B, E, F B, C, D, E, F
Customer buys diaper

项集 X = {x1, …, xk} 每个事务T是项的集合关联规则是形如 X Y 的蕴涵式，满足最小支持度和置信度支持度 s, 事务中同时包含项X Y的概率置信度 c, 事务包含项 X 时也包含项Y 的条件概率
L1 = {frequent items}; for (k = 1; Lk !=; k++) do begin Ck+1 = candidates generated from Lk; for each transaction t in database do
increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support end return k Lk;
{1 3} {2 3} {2 5} {3 5} 2 2 3 2
{1 {1 {1 {2 {2 {3 2} 3} 5} 3} 5} 5} 1 2 1 2 3 2
C2 itemset {1 2} Scan D
{1 {1 {2 {2 {3 3} 5} 3} 5} 5}
C3 itemset {2 3 5}
Scan D

多次扫描数据库代价高:

挖掘频繁模式不需要候选集

将一个大型数据库压缩到一棵 Frequent-Pattern tree (FP-tree) 树的结构中

高度的压缩，但是保持完全的频繁模式挖掘避免高消耗的数据库扫描

形成一种高效，基于FP-树的频繁模式挖掘方法

一种分治策略：分解挖掘任务成一些小的挖掘任务

使用频繁 (k – 1)项集来产生候选频繁 k项集使用数据库扫描和模式匹配来对候选集计数

Apriori算法的瓶颈: 候选集的产生和检测

它可能需要产生大量候选项集:

104 个频繁 1项集将产生107 候选 2项集为发现长度为100的频繁模式，如： {a1, a2, …, a100}, 必须产生多达 2100 1030 个候选需要 (n +1 ) 次扫描, n 是最长的模式长度

4.抽样

在一个较小的随机抽样样本集内挖掘降低最小支持度阈值，以减少被遗漏的频繁项集可能需要第二次扫描数据库，以找出被遗漏的频繁项集。

5.动态项集计数

在扫描的不同点添加候选项集扫描数据库的次数比Apriori少
Apriori是否足够快? — 性能瓶颈

Apriori 算法的核心:
Min. support 50% Min. confidence 50%
Frequent Itemset Support {A} 75% {B} 50% {C} 50% {A,C} 50%
对于规则 A C:
support = support({A C}) = 50% confidence = support({A C})/support({A}) = 66.6%
避免候选项的产生：只对子数据库挖掘

无需候选集地挖掘频繁模式

根据局部频繁项，将短模式增长为长模式

―abc‖ 是频繁模式获取包含 “abc‖的全部事务集: DB|abc ―d‖ 是 DB|abc中的局部频繁项生成频繁模式

abcd
从事务数据库构造FP-树
TID 100 200 300 400 500

减少了频繁项集和规则的数量
基本概念：闭项集和极大项集

练习：DB = {<a1, …, a100>, < a1, …, a50>}

Min_sup = 1. <a1, …, a100>: 1
< a1, …, a50>: 2 <a1, …, a100>: 1

闭项集 closed itemset有哪些?
Customer buys beer
基本概念: 频繁模式与关联规则

支持度

support (A B )=P (A B ) confidence(A B )=P (B|A )

置信度

support( A B) support_ count( A B) confidence A B) P( B | A) ( support( A) support _ count( A)
Header Table
min_support = 0.5
{}
F-list=f-c-a-b-m-p
Item frequency head f 4 c 4 a 3 b 3 m 3 p 3
f:4
关联规则挖掘的一般步骤（1）找出所有的频繁项集。 support (X)≥supmin （2）由频繁项集产生强关联规则

从大型数据库中挖掘频繁项集的主要困难在于将产生大量的频繁项集频繁k项集：含k个频繁项一个长项集包含大量的频繁子项集的组合： n个频繁1项集，可能组合出的频繁项集 C1n+ C2n+…+ Cnn=2n-1
产生候选项的例子

设L3={abc, abd, acd, ace, bcd}

自连接: L3*L3

abcd from abc and abd acde from acd and ace 剪枝:删acde，因为ade不在L3中，即非频繁 C4={abcd}
Apriori 算法示例
Database D
Apriori算法怎样产生候选项?

连接步: 为找Lk ，通过将Lk-1与其自身连接产生候选k项集集合Ck。

例如，设l1和l2是Lk-1中的项集，如果它们的前（k-2）个项相同的话，则是可连接的。剪枝步: Ck是Lk的超集，即Ck中的成员

可能是频繁的，也可能不是，但所有的频繁k项集都包含在Ck中。为压缩Ck ，剪枝：任何非频繁的(k1)-项集都不是频繁k项集的子集。
p.itemk-1 < q.itemk-1

第二步: 剪枝

第二步: 剪枝
forall itemsets c in Ck do
forall (k-1)-subsets s of c do
if (s is not in Lk-1) then delete c from Ck
Challenges of 频繁模式挖掘
Steps: 1. 扫描数据库一次，找到频繁 1项集 2. 对频繁项集降序排序 3. 再次扫描数据库，构造FP树
Items bought (ordered) frequent items {f, a, c, d, g, i, m, p} {f, c, a, m, p} {a, b, c, f, l, m, o} {f, c, a, b, m} {b, f, h, j, o} {f, b} {b, c, k, s, p} {c, b, p} {a, f, c, e, l, p, m, n} {f, c, a, m, p}

极大项集有哪些?

第5章挖掘频繁模式、关联和相关

1.基本概念
2.有效的和可伸缩的频繁项集挖掘方法 3.挖掘各种类型的关联规则 4.由关联挖掘到相关分析 5.基于约束的关联挖掘
关联规则挖掘—一个例子
Transaction ID 2000 1000 4000 5000 Items Bought A,B,C A,C A,D B,E,F
L3 itemset sup {2 3 5} 2
怎样产生候选项?

假设 Lk-1 中的项集都按序排列

第一步: 自连接 Lk-1
insert into Ck select p.item1, p.item2, …, p.itemk-1, q.itemk-1 from Lk-1 p, Lk-1 q where p.item1=q.item1, …, p.itemk-2=q.itemk-2,
基本概念：闭项集和极大项集

解决办法：挖掘闭项集和极大项集

闭（频繁）项集：若不存在真超项集Y（ Y ‫כ‬ X ），使得Y与X在数据集S中有相同的支持度计数，则称项集X在S中是闭的。
极大（频繁）项集：如果X是频繁的，并且不存在频繁的超项集Y使得 Y ‫ כ‬X ，称X是极大项集。闭项集包含了频繁项集的完整信息

2.事务压缩

提高Apriori算法的效率

3.划分（只需扫描2次）阶段1：将D中事务划分成不重叠的n个部分；对每个划分，找出该划分中所有的局部频繁项集。（第1次扫描）阶段2：合并局部频繁项集，形成全局候选项集，扫描数据库D，确定全局频繁项集。（第2次扫描）
提高Apriori算法的效率

Chanllenges

多遍扫描事务数据库庞大的候选集数量

冗长乏味的工作量：统计候选集支持度计数

改进 Apriori: 通常的想法

减少数据库扫描次数
压缩候选集数量改进候选集支持度计数的统计方法