数据挖掘4第四章挖掘频繁模式、关联和相关

合集下载

数据挖掘中的频繁模式与关联分析

• 哪些商品经常一同被购买？——啤酒和尿布？ • 购买电脑后会再买什么？ • 怎样的DNA对新药敏感？
应用：购物篮分析、交叉营销、网络日志分析等
频繁模式与关联规则
TID
购物篮
10
啤酒, 坚果, 尿布
20
啤酒, 咖啡, 尿布
30
啤酒, 尿布, 鸡蛋
40
坚果, 鸡蛋, 牛奶
50
坚果, 咖啡, 尿布, 鸡蛋, 牛奶
两种都买购买尿布的人的人
购买啤酒的人
购物篮分析
• 项集（itemset）：一个或多个项的集合
• k-项集X={x1,…,xk}
• 项集绝对支持度（support_count）：项集X的出现频度（即包含项集的事务数）
• 项集相对支持度（support）：包含项集X的事务所占比例（即一条事务中包含项集X的概率）
• 设最小支持度minsup=50%，最小置信度 minconf=50%
• 频繁项集：啤酒:3,坚果:3,尿布:4,鸡蛋:3,{ 啤酒,尿布}：3
• 强关联规则：
• 啤酒→尿布(60%, 100%) • 尿布→啤酒(60%, 75%)
频繁模式与关联规则
关联规则X→Y:
confidence( X →Y ) P(Y | X ) support( X Y ) support _ count(X Y ) ,( X Y )
数据挖掘中的频繁模式与关联分析
演讲人：XXX
Contents
1
数据挖掘
2
频繁模式与关联规则
3
挖掘方法
数据挖掘
数据科学
20世纪70年代
• 关系型数据库 • DBMS
2000年后

数据挖掘中的频繁模式发现

数据挖掘中的频繁模式发现数据挖掘是一种从大量数据中发现并提取有价值信息的过程。

频繁模式发现是数据挖掘领域中的一项重要任务，它帮助我们发现数据中经常出现的模式或关联规则，从而为决策和预测提供有力支持。

本文将介绍数据挖掘中频繁模式发现的基本概念、常用方法和实际应用。

一、频繁模式发现的概念在数据挖掘中，频繁模式指的是在数据集中经常出现的模式或子集。

这些模式可以是项集、序列或子图等形式。

频繁模式发现任务的目标是寻找在数据集中出现频率高于预设阈值的模式。

二、频繁模式发现的常用方法1. Apriori算法Apriori算法是频繁模式发现中最经典的方法之一。

该算法基于一种称为Apriori原则的性质，即如果一个模式是频繁的，那么它的所有子集也必须是频繁的。

Apriori算法通过迭代地生成候选项集，并在每一次迭代中利用Apriori原则剪枝，从而减少模式发现的搜索空间，提高算法的效率。

2. FP-Growth算法FP-Growth算法是另一种常用的频繁模式发现方法。

该算法通过构建一种称为FP树的数据结构来表示数据集，然后利用树的结构和属性，高效地挖掘频繁模式。

与Apriori算法相比，FP-Growth算法不需要生成候选项集，因此在一些情况下可以提供更好的性能。

三、频繁模式发现的应用频繁模式发现在各个领域都有广泛的应用。

以下是几个例子：1. 超市销售分析超市拥有大量的交易数据，通过频繁模式发现可以找到经常同时被购买的商品，从而帮助超市制定促销策略、调整商品陈列和优化供应链。

2. 社交网络分析在社交网络中，频繁模式发现可以用于发现用户之间的关联规则，例如朋友推荐、用户相似性分析和社群发现。

3. 生物信息学频繁模式发现可以在基因表达数据中发现共同出现的基因模式，从而帮助生物学家理解基因的功能和相互作用。

4. Web点击分析通过分析用户的点击行为，可以发现用户经常访问的网页或点击的广告，从而改进网站的推荐系统和广告投放策略。

6.挖掘频繁模式、关联和相关性剖析

在事务集D中成立，并且具有支持度s和置信度c
基本概念——示例
项的集合 I={A,B,C,D,E,F} 每个事务T由事务标识符TID标识，它是项的集合
TID(2000)={A,B,C} 任务相关数据D是数据库事务的集合
TID 2000 1000 4000 5000
购买的item A,B,C A,C A,D B,E,F
繁项集
提高Apriori算法的有效性(2)
方法3：划分
挖掘频繁项集只需要两次数据扫描 D中的任何频繁项集必须作为局部频繁项集至ቤተ መጻሕፍቲ ባይዱ出现在一个部
分中。
第一次扫描：将数据划分为多个部分并找到局部频繁项集第二次扫描：评估每个候选项集的实际支持度，以确定全局频
同时满足最小支持度阈值和最小置信度阈值的规则称作强关联规则
关联规则挖掘的两步过程
一般来说，关联规则的挖掘可以看作两步的过程：
找出所有频繁项集
该项集的每一个出现的频繁性 ≥ min_sup
由频繁项集产生强关联规则即满足最小支持度和最小置信度的规则
主要挑战：会产生大量满足min_sup的项集，尤其当min_sup设置得低的时候
Apriori算法 (2)
Apriori算法利用的是Apriori性质：频繁项集的所有非空子集也必须是频繁的。
AB 模式不可能比A更频繁的出现
Apriori算法是反单调的，即一个集合如果不能通过测试，则该集合的所有超集也不能通过相同的测试。
Apriori性质通过减少搜索空间，来提高频繁项集逐层产生的效率
Chapter 6:挖掘频繁模式、关联和相关性
基本概念频繁项集挖掘方法模式评估方法小结
1
什么是频繁模式分析？

数据挖掘中的关联规则与频繁项集

数据挖掘中的关联规则与频繁项集数据挖掘是一种从数据中自动发现并提取出有用信息的过程。

在数据挖掘的实践中，关联规则和频繁项集是常用的技术手段，在挖掘数据中隐藏的关联性方面发挥着重要作用。

本文将介绍关联规则和频繁项集的概念、算法以及在实际应用中的案例。

一、关联规则的概念和算法关联规则是指在数据集中不同项之间的关系或联系。

它用条件语句表示，包含一个前件和一个后件，前件和后件之间通过“→”符号连接。

关联规则的重要性在于可以帮助我们发现数据中的隐藏模式和趋势，从而指导商业决策或其他应用。

关联规则的发现主要依靠关联规则挖掘算法，其中最经典的算法是Apriori算法。

Apriori算法的基本思想是通过迭代依次增加项集的长度来挖掘频繁项集和关联规则。

该算法的核心步骤包括候选项集生成、支持度计数和关联规则生成。

候选项集生成是指根据频繁( k-1 )项集生成候选k项集的过程。

支持度计数是指统计每个候选项集在数据集中出现的频率，以判断其是否为频繁项集。

关联规则生成则是通过计算支持度和置信度来选择满足预设阈值的关联规则。

二、频繁项集的概念和算法频繁项集是指在数据集中经常同时出现的一组项的集合。

频繁项集的挖掘是数据挖掘中的一个重要任务，它可以帮助我们了解数据集的特点、发现隐藏的关联性以及预测未来的趋势。

频繁项集的挖掘算法除了Apriori算法外，还有FP-growth算法。

FP-growth算法是一种基于前缀树结构的高效挖掘频繁项集的算法。

它通过构建频繁模式树来减少候选项集的生成和计数过程，从而提高了算法的效率。

FP-growth算法的主要步骤包括构建频繁项集树、挖掘频繁项集和生成关联规则。

其中，构建频繁项集树是通过统计每个项在数据集中的频率，并根据最小支持度对项进行排序。

挖掘频繁项集则是从频繁项集树的根节点开始，递归地向下遍历树的每一条路径，寻找满足最小支持度的频繁项集。

关联规则的生成类似于Apriori算法。

三、关联规则与频繁项集的应用案例关联规则和频繁项集的应用非常广泛，以下是几个典型的案例：1. 超市销售分析：超市可以通过分析顾客购买商品的关联规则，以优化商品摆放位置和促销策略，从而提高销售额和顾客满意度。

数据挖掘与分析学习笔记(频繁模式挖掘-项集挖掘)

深度优先
项集挖掘
频繁项集挖掘算法
2.支撑计算：
生成候选项集后，就要进一步的计算每个候选模式X的支撑，以便判断该候选模式X是否为频繁项集。计算方法如下：
BruteForce(D,I,minsup) //I为项集，D为由项集I及其子集和事务标识符集合构成的事务数据集，minsup为最小支撑阈值。
F ← ∅ //初始化频繁项集集合为空集；
规则的相对支撑为：rsup( → ) =
sup

一个项集规则的置信度是一个事务中即包含项集X，也包含项集Y的条件概率，
即 = → = =
()
()
=
sup
sup()
如果一个项集规则的支撑大于等于预先设定的阈值，即sup ≥ minsup（minsup为预定阈值），则称这个规则是频繁
的，如果一个项集规则的置信度大于等于预先设定的阈值，即 → ≥ minconf，则称这个项集规则为强规则。
5.项集和规则挖掘
项集和规则挖掘的目的就是通过枚举所有的频繁项集及其置信度，获取频繁且高置信度的规则。
项集挖掘
频繁项集挖掘算法
1.候选生成：项集I中的每个子集也被称作候选，因为每个项集都可能是一个候选的频繁模式。
子集一定也是频繁的；反之如果一个项集是不频繁的，则这个项集的所有超集集也一定是不频繁的。Apriori算法利用了项
集的这一特性，采用逐层宽度优先算法来搜索项集空间，并修剪掉所有的不频繁的候选的超集。
Apriori(D,I,minsup):
← ∅ //初始化频繁项集集合为空集
(1) ← ሼ∅ሽ //单个项集的初始化前缀树
(+1) ← ( () ) //展开前缀树

数据挖掘导论之频繁模式及关联规则挖掘技术

Transaction-id 10 20 30 40
Items bought A, B, C A, C A, D B, E, F
Customer buys both
Customer buys diaper
Customer buys beer
Let min_support = 50%, min_conf = 50%: A C (50%, 66.7%) C A (50%, 100%)
通过迭代，检索出事务数据库中的所有频繁项集，即支持度不低于用户设定的阈值的项集；
利用频繁项集构造出满足用户最小信任度的规则。
挖掘或识别出所有频繁项集是该算法的核心，占整个计算量的大部分。
频繁项集
为了避免计算所有项集的支持度（实际上频繁项集只占很少一部分），Apriori算法引入潜在频繁项集的概念。若潜在频繁k项集的集合记为Ck ，频繁k项集的集合记为Lk ，m 个项目构成的k项集的集合为，则三者之间满遵足循关的原系则Lk 是C“k 频繁。C项mk构集成的潜子C在集mk 频必繁为项频集繁所项集”。
典型的关联规则发现问题是对超市中的货篮数据（Market Basket）进行分析。通过发现顾客放入货篮中的不同商品之间的关系来分析顾客的购买习惯。
什么是关联规则挖掘
关联规则挖掘首先被Agrawal, Imielinski and Swami在1993年的SIGMOD会议上提出在事务、关系数据库中的项集和对象中发现频繁模式、关联规则、相关性或者因果结构频繁模式: 数据库中频繁出现的项集
更加广泛的用处
购物篮分析、交叉销售、直销点击流分析、DNA序列分析等等
II. 关联规则基本模型
关联规则基本模型 Apriori算法 Fp-Tree算法

挖掘频繁模式关联和相关

5.1基本概念: 频繁模式与关联规则
Transaction-id Items bought

10
20 30 40 50
Customer buys both
A, B, D
A, C, D A, D, E B, E, F B, C, D, E, F
Customer buys diaper

项集 X = {x1, …, xk} 每个事务T是项的集合关联规则是形如 X Y 的蕴涵式，满足最小支持度和置信度支持度 s, 事务中同时包含项X Y的概率置信度 c, 事务包含项 X 时也包含项Y 的条件概率
L1 = {frequent items}; for (k = 1; Lk !=; k++) do begin Ck+1 = candidates generated from Lk; for each transaction t in database do
increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support end return k Lk;
{1 3} {2 3} {2 5} {3 5} 2 2 3 2
{1 {1 {1 {2 {2 {3 2} 3} 5} 3} 5} 5} 1 2 1 2 3 2
C2 itemset {1 2} Scan D
{1 {1 {2 {2 {3 3} 5} 3} 5} 5}
C3 itemset {2 3 5}
Scan D

多次扫描数据库代价高:

数据分析知识：数据挖掘中的频繁模式挖掘

数据分析知识：数据挖掘中的频繁模式挖掘数据挖掘中的频繁模式挖掘数据挖掘是一个复杂的过程，需要从庞大的数据集中提取出有价值的信息，这些信息可以用于业务分析、决策支持、市场营销等方面。

而频繁模式挖掘，就是在大量数据中寻找频繁出现的组合，从而发现数据集中的一些结构、规律和特征，帮助人们更好地理解数据，作出可靠的决策。

本文将介绍频繁模式挖掘的概念、算法和应用，并探讨其在实践中的优势和不足之处。

一、频繁模式挖掘的概念频繁模式挖掘是数据挖掘中的一种技术，它通过数据集中的项集来寻找频繁出现的组合，从而发现数据集中的一些规律、结构和特征。

在频繁模式挖掘中，一个项集是指包含若干个属性（或特征）的集合，而频繁项集指在数据集中出现频率较高的项集。

举个例子，某超市的销售数据表格中，每一行代表一次购物，每一列代表某种商品，如果某些商品常常同时被购买，那么这些商品就组成了一个频繁项集。

对于频繁项集的挖掘，可以应用一些经典的算法，如Apriori算法、FP-growth算法等。

这些算法可以从数据集中提取出频繁项集，并进行支持度和置信度的计算，从而评估每个项集的重要性和关联性。

而支持度指项集在数据集中出现的概率，而置信度则是指在包含某项集的条件下，另一个项集出现的概率。

二、频繁模式挖掘的算法1、Apriori算法Apriori算法是频繁项集挖掘领域中的经典算法，它最早由R. Agrawal和R. Srikant于1994年提出。

该算法是基于Apriori原理的，即如果一个项集是频繁的，那么它的所有子集必须也是频繁的。

具体而言，Apriori算法的流程包括：（1）对数据集中的单个项进行扫描，统计每个项的出现次数，得到一个项集L1；（2）对于项集L1中的每一项，计算其支持度，只保留支持度大于等于设定阈值minsup的项，得到一个新的项集L2；（3）对于项集L2中的每两个项，判断它们是否能够组合成一个新的项集，如果满足条件，则进行计数，并得到一个新的项集L3；（4）重复第二步和第三步，直到无法生成新的项集为止。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

根据所挖掘的规则类型分类
关联规则、相关规则、强梯度联系（与父母、子女或兄
妹之间的关系）相关性和因果关系分析关联并不一定必须意味着相关性和因果性

根据所挖掘的模式类型分类
频繁项集挖掘、序列模式挖掘、结构模式挖掘
ECUST--Jing Zhang
关联规则基本模型
10
关联规则就是支持度和置信度分别满足用户给定阈值的规则。发现关联规则需要经历如下两个步骤：
3rd scan
L3
Itemset {B, C, E}
如何产生候选集
17

假设Lk-1中的项是按顺序列出的第一步: 自我连接Lk-1
Insert into Ck select p.item1, p.item2, …, p.itemk-1, q.itemk-1 from Lk-1p, Lk-1 q where p.item1=q.item1, …, p.itemk-2=q.itemk-2, p.itemk-1 < q.itemk-1
8

根据挖掘的模式的完全性分类
频繁项集的完全集、闭频繁项集、极大频繁项集
被约束的频繁项集、近似的频繁项集、接近匹配的频繁项集、
最频繁的k个项集

根据规则中所处理的值类型分类
布尔关联和量化关联
buys(x, “SQLServer”) ^ buys(x, “DMBook”) →buys(x, “DBMiner”) [0.2%, 60%] age(x, “30..39”) ^ income(x, “42..48K”) →buys(x, “PC”) [1%, 75%]

应用
* ⇒维修协议(商店应该怎样做才能提升维修协议的销售) 家电⇒*(商店应该增加其它那些产品的存储量?)

基本概念：关联规则
6
Tid
Items bought Beer, Nuts, Diaper Beer, Coffee, Diaper Beer, Diaper, Eggs Nuts, Eggs, Milk

频繁模式挖掘的重要性
3

频繁模式: 数据集本质的并且重要的性质很多重要数据挖掘工作的基础关联，相关以及因果分析序列的, 结构化的 (例如，子图) 模式在时空、多媒体、时间序列以及流数据上的模式分析分类：区分性，频繁模式分析聚类分析：基于频繁模式的聚类数据仓库：冰立方以及立方体聚集语义数据压缩
基本概念：关联规则
5

假设: (1) 事务数据库, (2) 每一个事务是一个项目集列表(例如：顾客一次购买的商品集) 找出：所有使目前的项集与另一个项集相关联的规则例子：
规则形式:
“Body →Η ead [支持度,置信度]”. buys(x, “diapers”) →buys(x, “beers”) [0.5%, 60%] major(x, “CS”) ^ takes(x, “DB”) →grade(x, “A”) [1%, 75%]
ECUST--Jing Zhang
主要内容
12

基本概念和路线图有效的和可伸缩的频繁项集挖掘方法挖掘各种类型的关联规则由关联挖掘到相关分析基于约束的关联挖掘小结
ECUST--Jing Zhang
Apriori算法：使用候选产生发现频繁项集
13
Apriori算法是R. Agrawal和R. Srikant于1994 年提出的为布尔关联规则挖掘频繁项集的原创性算法。算法的思想

例子

频繁项集 l {I1, I 2}，可以由l产生哪些关联规则？ L的非空子集：{I1}，{I2} 关联规则如下： I 1 I 2 I 2 I1

计算置信度，大于置信度阈值就是强关联规则
提高Apriori算法的效率
20

基于散列的技术

如果一个k-项集对应的哈希桶计数低于支持度阈值,则它不可能是频繁的
ECUST--Jing Zhang
Apriori算法
15

连接步: 通过连接产生Ck 剪枝步: 如果一个候选k-项集的(k-1)-子集不在(k-1)-的频繁项集中,则该候选项集也不可能是频繁的,从而由Ck删除伪代码 Ck: 大小为k的候选集 Lk: 大小为k的频繁项集 L1= {频繁项集};
16
Database TDB
Tid 10 20 30 40 Items A, C, D B, C, E A, B, C, E B, E
Itemset {A, C} {B, C} {B, E} {C, E}
C1 1st scan C2
Itemset {A}
sup 2
{B} {C} {D} {E}
Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E}
由acd和ace产生acde

剪枝:
删除acde因为ade不在L3 C4={abcd}
ECUST--Jing Zhang
由频繁项集产生关联规则
19

方法
对于每个频繁项集l
，产生 l 的所有非空子集。 sup port _ count (l ) 对于l 的每个非空子集S，如果 sup port _ count ( s) min_ conf 则输出规则“ s (l s) ”。其中，min_conf 是最小置信度阈值。
Nuts, Coffee, Diaper, Eggs, Milk

10 20 30 40 50
Customer buys both
Customer buys diaper

找到所有满足最小支持度和置信度阈值的规则 X Y support, s, 一个事务包含 X Y 的概率 confidence, c, 一个事务既包含X 也包含Y的条件概率令 minsup = 50%, minconf = 50% 频繁模式： Beer:3, Nuts:3, Diaper:4, Eggs:3, {Beer, Diaper}:3 关联规则: Beer Diaper (60%, 100%) Diaper Beer (60%, 75%)

Customer buys beer
项集: 一个或多个项的集合 k-itemset X = {x1, …, xk} (absolute) support, or, support count of X: 项集 X出现的频率 (relative) support, s, 事务中包含 X的部分 (即，一个事务包含 X的概率) 项集X 是频繁的（ frequent），如果X的支持度不小于支持度阈值
不包含任何频繁k-项集的事务在以后的扫描中是无用的任何项集如果在DB中是潜在频繁的,那么它至少在DB中的一个划分中是频繁的在给定数据的一个子集上进行挖掘,低支持阈值+好的策略可以得到完整的频繁项集

事务压缩

划分

抽样

动态项集计数

如果一个项集的所有子集已被确定为频繁的,则添加它作为新的候选

Customer buys beer
极大项集与频繁闭项集
7

极大项集和频繁闭项集
极大项集：频繁项集p，使得p的任何超项集都
不是频繁的。
频繁闭项集：一个频繁的闭的项集，其中项集c
是闭的，如果不存在c的真超集c‟，使得每个包
含c的事务也包含c„。
ECUST--Jing Zhang
频繁模式挖掘的分类体系

根据规则中所涉及的数据维数分类
单维关连和多维关联
ECUST--Jing Zhang
频繁模式挖掘：路线图
9

根据规则集所涉及的抽象层分类
单层关联规则和多层关联规则
age(x, “30..39”) →buys(x, “laptop computer”) age(x, “30..39”) →buys(x, “computer”)
频繁模式增长
22

把大型数据库压缩成一棵Frequent-Pattern tree (FP-tree)
高度浓缩，同时对频繁集的挖掘又完备的避免代价较高的数据库扫描

for(k= 1; Lk!=∅; k++) do begin

Ck+1= 从Lk中产生的候选集;
对于包含在t中的属于Ck+1的所有候选集的计数加一
for each transaction t∈D do

Lk+1= Ck+1中满足最小支持度的候选集
end return∪kLk;

实例（support : 50%）

找出所有频繁项集。由频繁项集生成满足最小置信度阈值的规则。
ECUST--Jing Zhang
例子
11
Transaction-id 10 20 30 40
Items bought A, B, C A, C A, D B, E, F
Min. support 50% Min. confidence 50%
3 3 1 3
sup 1 2 1 2 3 2
L1
Itemset {A} {B} {C} {E}
sup 2 3 3 3
L2
sup 2 2 3 2
C2 2nd scan
Itemset {A, B} {A, C}
{A, E} {B, C} {B, E} {C, E}
sup 2
C3