5 数据挖掘技术-大型数据库中的关联规则

合集下载

数据库中的关联规则挖掘与应用

数据库中的关联规则挖掘与应用

数据库中的关联规则挖掘与应用随着数据量的不断增加和信息化的发展,数据库技术在各行各业中得到了广泛应用。

为了从海量数据中挖掘出有用的信息,关联规则挖掘成为一种重要的数据挖掘技术。

本文将就数据库中关联规则挖掘的概念、方法和应用进行详细介绍。

一、关联规则挖掘的概念关联规则挖掘是指在大规模数据库中,根据数据项之间的相关性挖掘出频繁项集,并根据频繁项集产生关联规则的过程。

关联规则包含两个部分:前项和后项,表示两个数据项之间的条件和结果。

例如,一个超市的购物数据集包含了很多交易记录,每个交易记录由一组购买的商品集合组成。

通过关联规则挖掘,可以找到一些有意义的规则,比如“如果购买了牛奶,那么很可能也会购买面包”。

二、关联规则挖掘的方法在关联规则挖掘中,频繁项集和支持度是两个关键概念。

频繁项集是指在数据库中经常出现的数据项的集合,而支持度则表示一个频繁项集在数据库中出现的频率。

常见的关联规则挖掘算法有Apriori算法和FP-Growth算法。

1. Apriori算法Apriori算法是一种迭代算法,它通过扫描数据库多次来获得频繁项集。

首先,算法会生成单个项的频繁项集(频繁1-项集),然后通过生成候选项集和计算支持度逐步筛选,最后获得频繁k-项集。

Apriori算法的主要优势是易于理解和实现,但由于需要多次扫描数据库,对于大规模数据集来说,其运行效率较低。

2. FP-Growth算法FP-Growth算法是一种基于前缀树数据结构的关联规则挖掘算法。

它通过构建一个频繁模式树来寻找频繁项集,避免了多次扫描数据库。

FP-Growth算法通过两个步骤来构建频繁模式树:首先,利用一次扫描数据库生成频繁1-项集;然后,根据频繁1-项集构建条件模式基,再递归地构建频繁模式树。

相比于Apriori算法,FP-Growth算法具有较高的运行效率和内存利用率。

三、关联规则挖掘的应用关联规则挖掘在许多领域都有着广泛应用,以下列举几个具体的应用场景。

数据挖掘方法——关联规则(自己整理)

数据挖掘方法——关联规则(自己整理)

小结:Apriori算法可以分为频繁项集的生成和关联规则的生成两 大步骤;FP-Growth算法可以分成FP-Tree的生成,频繁项集的生成和 关联规则的生成3大步骤。
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.
9
五、关联规则挖掘的相关算法
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.
7
五、关联规则挖掘的相关算法
1.Apriori算法:使用候选项集找频繁项集 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是 基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关 联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。 该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和 预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小 支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集 合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定 义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被 留下来。为了生成所有频集,使用了递推的方法。 Apriori算法可以产生相对较小的候选项目集,扫描数据库的次数由最大频繁 项目集的项目数决定。因此,该算法适合于最大频繁项目集相对较小的数据集中 的关联规则挖掘问题。 Apriori算法的两大缺点:1.可能产生大量的候选集;2.可能需要重复扫描数据库。
关联分析的目的:找出数据库中隐藏的关联网。一般用Support(支 持度)和Confidence(可信度)两个阀值来度量关联规则的相关性,引入 lift(提高度或兴趣度)、相关性等参数,使得所挖掘的规则更符合需求。

数据挖掘中的关联规则算法

数据挖掘中的关联规则算法

数据挖掘中的关联规则算法数据挖掘是伴随着信息技术的不断发展而产生的一种新的工具和方法。

它可以从大量的数据中挖掘出有用的信息,并为实际决策提供帮助。

关联规则算法是其中的一种重要方法,它可以找到项集之间的关系,并预测未来的行为或者趋势。

接下来,我们将对关联规则算法进行详细的介绍。

一、关联规则算法的定义关联规则算法是在数据挖掘中使用频率最广泛的算法之一。

其基本思想是通过寻找数据之间的关联,提取出频繁出现的项集以及项集之间的关系。

在实际应用中,关联规则算法可以广泛应用于市场营销、电子商务、人口统计学等领域。

它可以帮助用户挖掘到有用的信息,理清数据之间的关系,从而做出更明智的决策。

二、关联规则算法的原理关联规则算法有两个基本参数:支持度和置信度。

支持度是指指定的项集在总事务中出现的频率。

置信度则是指在满足条件A的前提下,出现B的概率。

关联规则算法通过计算这两个参数来判断各个项集之间的关系。

举个例子:假设我们想要了解一个超市的销售情况。

我们首先需要确定项集,比如说可乐和糖果在同一笔订单出现的概率。

如果我们设定支持度为50%,即一笔订单至少含有一种可乐和一种糖果,那么我们就可以通过统计数据得到可乐和糖果同时出现的频率。

如果这个频率高于50%,那么我们就可以得出这两个项集之间存在关联规则。

三、关联规则算法的应用关联规则算法可以应用于很多领域,如市场营销、电子商务、人口统计学等。

在市场营销方面,关联规则算法可以帮助企业挖掘到产品之间的关联性,从而了解顾客的需求和偏好,并制定相应的定价策略。

在电子商务中,关联规则算法可以根据用户购买历史记录来推荐相似的产品,提高用户的购买率。

在人口统计学方面,关联规则算法可以帮助政府了解不同人群之间的联系,从而制定更为精准的政策。

四、关联规则算法的优缺点优点:关联规则算法具有较高的算法效率,可以处理大规模数据。

其结果易于理解,可以呈现给用户。

同时,关联规则算法可以挖掘出隐藏在数据中的规律性,帮助用户发现新的信息。

数据挖掘-6大型数据库中的关联规则挖掘.

数据挖掘-6大型数据库中的关联规则挖掘.
confidence(A B) P(B | A) P(A B) / P(A)
TID 2000 1000 4000 5000
购买的item A,B,C A,C A,D B,E,F
假设最小支持度为50%, 最小置信度为50%,则有 如下关联规则
A C (50%, 66.6%) C A (50%, 100%)
Apriori算法是反单调的,即一个集合如果不能通过测试,则 该集合的所有超集也不能通过相同的测试。
Apriori性质通过减少搜索空间,来提高频繁项集逐层产生的 效率
Apriori算法步骤
Apriori算法由连接和剪枝两个步骤组成。 连的集接合:,为该了候找选Lk,k项通集过记Lk为-1与Ck自。己连接产生候选k-项集
为了减少计算量,可以使用Apriori性质,即如果一个k-项集 的接(从k-C1k)删-子除集。不在Lk-1中,则该候选不可能是频繁的,可以直
Apriori算法——示例 最小支持计数:2
Database TDB
Tid Items 10 A, C, D 20 B, C, E
C1 1st scan
每个关联规则可由如下过程产生:
对于每个频繁项集l,产生l的所有非空子集;

对于每个非空子集s,如果
sup port _ count(l) min_ conf sup port _ count(s)
则输出规则“s (l s) ”
提高Apriori算法的有效性(1)
Apriori算法主要的挑战
{{A,C},{B,C},{B,E}{C,E}} = {{A,B,C},{A,C,E},{B,C,E}}
2.使用Apriori性质剪枝:频繁项集的所有子集必须是频繁的, 对候选项C3,我们可以删除其子集为非频繁的选项:

大数据分析中的关联规则挖掘技术介绍(十)

大数据分析中的关联规则挖掘技术介绍(十)

大数据分析中的关联规则挖掘技术介绍随着互联网和移动互联网的普及,大数据时代已经到来,海量的数据成为了我们生活和工作中的常态。

在这个背景下,大数据分析技术成为了一种不可或缺的工具,它可以帮助我们从庞大的数据中挖掘出有意义的信息和规律。

其中,关联规则挖掘技术作为大数据分析的重要组成部分,受到了广泛的关注。

本文将介绍大数据分析中的关联规则挖掘技术,包括其基本原理、应用场景和算法等方面。

概述大数据分析的目标是从庞大的数据集中找出隐藏在其中的关联规律,以便为决策提供支持。

关联规则挖掘技术就是一种用于发现数据集中项之间的频繁关联关系的数据挖掘技术。

通过挖掘数据集中的关联规则,可以帮助我们了解不同项之间的相关性,从而做出更加精准的预测和决策。

基本原理关联规则挖掘的基本原理是通过分析数据集中不同项之间的共现关系,找出项之间的频繁关联规则。

其中,最常用的指标是支持度和置信度。

支持度指的是包含某个项集的记录在总记录数中所占的比例,而置信度指的是当某个项集出现时,另一个项也出现的概率。

通过计算支持度和置信度,可以确定哪些关联规则是频繁的、有意义的。

应用场景关联规则挖掘技术在各个领域都有着广泛的应用。

在商业领域,它常常被用来进行市场篮分析,发现顾客之间的购买行为和偏好。

在医疗领域,可以用于分析不同症状之间的关联规则,帮助医生做出更准确的诊断。

此外,关联规则挖掘技术还被应用于推荐系统、网络安全、社交网络分析等多个领域。

算法关联规则挖掘有多种算法实现,其中最著名的算法包括Apriori算法和FP-Growth算法。

Apriori算法是一种基于候选项集的频繁项集挖掘算法,它通过迭代的方式生成候选项集,并利用支持度剪枝策略来寻找频繁项集。

而FP-Growth算法则是一种基于树结构的频繁项集挖掘算法,它利用FP树来高效地发现频繁项集,相对于Apriori算法有着更高的效率。

挑战与展望尽管关联规则挖掘技术已经取得了许多成果,但是仍然面临着许多挑战。

大数据挖掘中的关联规则挖掘技术

大数据挖掘中的关联规则挖掘技术

大数据挖掘中的关联规则挖掘技术随着互联网的迅速发展,大数据时代已经悄然而至。

大数据不仅代表了数据的量级,更重要的是代表着数据的价值。

了解数据中的规律和趋势,已经成为众多企业和组织所必需的重要技能之一。

而关联规则挖掘技术,正是一种常用的数据分析技术,能够帮助人们深入了解数据之间的关联关系,发掘数据中的潜在知识价值。

一、关联规则挖掘技术的概念和意义关联规则挖掘技术(Association Rule Mining)是一种数据挖掘技术,用于发现大规模数据集中的项集之间的关联关系。

其基本思想是从数据中发现频繁出现的模式或关联规则,以支持更好的决策和预测。

关联规则挖掘技术在市场营销、电子商务、医学和生物学等领域均有广泛的应用。

在市场营销中,关联规则挖掘技术可以通过研究顾客购买商品的模式,预测他们的购买行为,同时为企业创造更多的销售机会。

例如,如果我们在超市购买了面包,然后发现面包通常会与黄油、果酱和咖啡等其他商品一起销售,该超市就可以根据这种关联关系来设计其商品橱窗,更好地推销相应的商品。

在电子商务领域,关联规则挖掘技术可以帮助企业了解消费者的购买习惯,预测他们的购物兴趣和需求,以提供定制化服务。

例如,当消费者在在线商城购买电脑时,该商城就可以通过关联规则挖掘技术发现消费者通常会关注的其他商品,如键盘、鼠标和耳机等,并基于这些关联的商品推送相关的优惠券或促销信息,以增加销售量。

二、关联规则挖掘技术的算法和流程关联规则挖掘技术的算法包括Apriori算法、FP-growth算法、ECLAT算法、Partition算法等。

其中,Apriori算法是关联规则挖掘技术中最为常用的算法之一。

它基于先验知识,先找出频繁项集,然后由它们计算出满足最小支持度的关联规则。

具体而言,关联规则挖掘技术的流程包括以下几步:1. 数据预处理:对数据进行清洗、去重、转换格式等操作,以保证数据的质量和规范。

2. 选择频繁项集:根据设定的最小支持度阈值,找出频繁项集,即在数据中出现频率较高的项的组合。

大数据挖掘中的关联规则分析技术

大数据挖掘中的关联规则分析技术

大数据挖掘中的关联规则分析技术一、概述随着大数据技术的不断发展,越来越多的企业开始注重利用数据进行决策。

而在大数据中,关联规则分析技术具有非常重要的作用,可以帮助企业提高运营效率和市场竞争力。

本文将从什么是关联规则、关联规则算法、关联规则分析的应用场景以及未来的发展趋势等几个方面,来介绍大数据挖掘中的关联规则分析技术。

二、什么是关联规则在商品销售过程中,经常会发现一些消费者会同时购买某些商品,这些商品之间存在一定的规律。

比如,如果消费者购买了牛奶和麦片,那么他们很可能也会购买面包。

这种现象被称为“关联规则”,公式表述如下:A→B其中 A 和 B 均为商品集合或属性集合(也可以是两者的混合),箭头“→”的含义为“蕴含”,表示当集合 A 出现时,集合 B 也很可能出现。

三、关联规则算法Apriori 算法是经典的关联规则分析算法,主要分为以下三个过程:1、生成候选项集;2、计算支持度,得到频繁项集;3、由频繁项集,生成关联规则。

四、关联规则分析的应用场景1、商品推荐通过关联规则,可以挖掘出不同商品之间的关系,建立商品之间的联系,以此推荐相似性高的商品,提高用户购买体验。

2、用户行为分析将用户的行为转化为事务数据集,通过分析用户不同行为之间的关系,可以推测出用户的偏好,针对不同用户,推荐不同的商品和服务。

3、产品定价通过关联规则算出不同产品与价格之间的规律,以此制定合适的价格策略。

五、关联规则分析的未来发展趋势在未来,关联规则分析技术将会面临以下四个方面的发展:1、算法优化关联规则分析算法可以从多个方面进行优化,如数据采样、数据集划分、算法并行化等。

2、可视化展示可视化展示可以提高数据分析的效率,利用图表直观展示数据分析报告,更加便于用户理解和应用。

3、实时性计算与传统离线计算相比,实时计算可以在短时间内给出结果,更加符合企业实际需求。

4、结合其他技术将关联规则分析技术与其他技术结合,如自然语言处理、深度学习等,可以得出更为准确的结果,并且在应用场景上会更加广泛。

大数据分析中的关联规则挖掘技术

大数据分析中的关联规则挖掘技术

大数据分析中的关联规则挖掘技术随着信息技术的快速发展,大数据已经成为了当今社会中不可忽视的一部分。

大数据的处理与分析已经成为了许多企业和组织的重要任务。

在大数据分析中,关联规则挖掘技术扮演着重要的角色。

本文将探讨大数据分析中的关联规则挖掘技术及其应用。

首先,我们来了解一下关联规则挖掘技术是什么。

关联规则挖掘是一种数据挖掘技术,用于发现数据集中的项之间的相关性。

通过分析大量的数据,我们可以找到这些数据中的频繁项集,然后从中提取出具有关联关系的规则。

关联规则通常以“If-Then”的形式呈现,例如:“如果购买了牛奶,那么也有可能购买面包”。

关联规则挖掘技术在商业领域中有着广泛的应用。

通过挖掘关联规则,企业可以了解到顾客之间的购买习惯和偏好,从而制定更加精准的销售策略。

例如,一家超市可以通过分析购买数据,发现购买尿布的顾客也有可能购买啤酒。

于是,他们可以将尿布和啤酒放在一起销售,从而提高销售额。

这种关联规则挖掘技术的应用可以帮助企业提高销售效益,提升竞争力。

除了商业领域,关联规则挖掘技术还可以在医疗领域中发挥重要作用。

通过分析大量的医疗数据,我们可以挖掘出不同疾病之间的关联规则。

这些规则可以帮助医生更好地了解疾病之间的关系,从而提供更加精准的诊断和治疗方案。

例如,通过挖掘关联规则,我们可以发现某种疾病与遗传因素之间的关联,从而帮助患者了解自己的病情,并采取相应的预防措施。

在大数据分析中,关联规则挖掘技术也可以用于网络安全领域。

通过分析网络流量数据,我们可以挖掘出不同网络攻击之间的关联规则。

这些规则可以帮助网络管理员及时发现并阻止潜在的攻击行为。

例如,通过挖掘关联规则,我们可以发现某种网络攻击与特定的IP地址之间的关联,从而可以及时封锁该IP地址,提高网络的安全性。

关联规则挖掘技术也可以应用于社交媒体分析中。

通过分析用户在社交媒体上的行为数据,我们可以挖掘出用户之间的关联规则。

这些规则可以帮助社交媒体平台更好地推荐用户感兴趣的内容和人际关系。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

c:1
b:1 p:All frequent patterns concerning m m, fm, cm, am, fcm, fam, cam, fcam
p:2
m:1
m-conditional FP-tree
23
通过建立条件模式库得到频繁集
项 p m b a c f
19
挖掘 FP-tree的主要步骤
1) 为FP-tree中的每个节点生成条件模式库 2) 用条件模式库构造对应的条件FP-tree
3) 递归构造条件 FP-trees 同时增长其包含的频繁 集 如果条件FP-tree只包含一个路径,则直接生 成所包含的频繁集。
20
步骤1: 从 FP-tree 到条件模式库
4
关联规则
以零售业为例,体育用品商场通过对销售数 据进行关联分析通常可以发现这些数据中常 常隐含形式如下的规律—— ―购买篮球的顾客中有70%的人同时购 买篮球运动服,所有交易中有40%的 人同时购买篮球和篮球运动服” 等等。 这些规律即关联规则。
5
关联规则度量—置信度


定义: 规则XY在交易数据集D中的置信度是对关联规 则准确度的衡量。度量关联规则的强度。即在 所有出现了X的活动中出现Y的频率,即规则 XY 的必然性有多大。记为: confidence(XY) 计算方法: 包含X和Y的交易数与包含X的交易数之比: confidence(XY) = P(Y∣X)
头表 Item frequency head f 4 c 4 a 3 b 3 m 3 p 3
最小支持度 = 50%
{}
f:4
c:3 a:3 m:2 p:2 b:1 m:1 b:1
c:1
b:1 p:1
18
FP-tree 结构的好处


完备: 不会打破交易中的任何模式 包含了序列模式挖掘所需的全部信息 紧密 去除不相关信息—不包含非频繁项 支持度降序排列: 支持度高的项在FP-tree中共享 的机会也高

用频繁的(k – 1)-项集生成候选的频繁 k-项集 用数据库扫描和模式匹配计算候选集的支持度

Apriori 的瓶颈: 候选集生成

巨大的候选集:


104 个频繁1-项集要生成 107 个候选 2-项集 要找尺寸为100的频繁模式,如 {a1, a2, …, a100}, 你必须先产生2100 1030 个候选集
end return k Lk;
Lk+1 = candidates in Ck+1 with min_support
increment the count of all candidates in Ck+1 that are contained in t
13
Apriori算法 — 例子
数据库 D
c:3
a:3
b:1
b:1
p:1
m
p
fca:2, fcab:1
fcam:2, cb:1
21
FP-tree支持条件模式库构造的属性

节点裢接

任何包含ai , 的可能频繁集,都可以从FP-tree 头表中的ai 沿着ai 的节点链接得到 要计算路径P 中包含节点ai 的频繁集,只要考 察到达ai 的路径前缀即可,且其支持度等于节 点ai 的支持度
步骤: 1. 扫描数据库一次,得到频繁 1-项集 2. 把项按支持度递减排序 3. 再一次扫描数据库,建立 FP-tree
Items bought (ordered) frequent items {f, a, c, d, g, i, m, p} {f, c, a, m, p} {a, b, c, f, l, m, o} {f, c, a, b, m} {b, f, h, j, o} {f, b} {b, c, k, s, p} {c, b, p} {a, f, c, e, l, p, m, n} {f, c, a, m, p}
9
关联规则形式化定义

关联规则的挖掘是一个两步的过程: 找出所有频繁项集 由频繁项集产生强关联规则
交易号(TID) T100 项集合(Itemsets) I1,I2,I5
T200
T300 T400 T500
I2,I4
I2,I3 I1,I2,I4 I1,I3
10
关联规则挖掘:一个路线图
布尔 vs. 量化 关联 (基于 处理数据的类型) buys(x, ―SQLServer‖) ^ buys(x, ―DMBook‖) buys(x, ―DBMiner‖) [0.2%, 60%] age(x, ―30..39‖) ^ income(x, ―42..48K‖) buys(x, ―PC‖) [1%, 75%] 单维 vs. 多维 关联 (基于规则中涉及的数据维) 单层 vs. 多层 分析(基于规则集所涉及的抽象层) 各种扩展
25
为什么 频繁集增长 速度快?

我们的性能研究显示

FP-growth 比Apriori快一个数量级。

原因

不生成候选集,不用候选测试。
使用紧缩的数据结构
避免重复数据库扫描
基本操作是计数和建立 FP-tree 树
27
FP-growth vs. Apriori: 相对于支持度 的扩展性
第5章 挖掘大型数据库中的关联规则
1
基本概念
自然界中某种事物发生时其他事物也会发生 的这样一种联系称之为关联。 反映事件之间依赖或关联的知识称为关联型 知识(又称依赖关系) 关联分析目的是寻找给定数据记录集中数据 项之间隐藏的关联关系,描述数据之间的密 切度。

2
关联分析

关联分析的结果常有两种: 关联规则和序列模式。
24
第3步: 递归挖掘条件FP-tree
{} {}
―am‖的条件模式库: (fc:3)
f:3 c:3
am-条件 FP-tree
f:3 c:3 a:3
m-条件 FP-tree
{}
―cm‖的条件模式: (f:3)
f:3
cm-条件 FP-tree
{}
―cam‖条件模式库: (f:3)
f:3
cam-条件 FP-tree
TID 100 200 300 400 Items 134 235 1235 25
itemset sup. C1 {1} 2 {2} 3 扫描 D {3} 3 {4} 1 {5} 3
L1 itemset sup.
{1} {2} {3} {5} 2 3 3 3
C2 itemset sup L2 itemset sup

前缀路径

22
步骤2: 建立条件 FP-tree

对每个模式库 计算库中每个项的支持度 用模式库中的频繁项建立FP-tree
{}
m-条件模式库: fca:2, fcab:1
头表 Item frequency head f 4 c 4 a 3 b 3 m 3 p 3
f:4
c:3 a:3 m:2 b:1 b:1

多次扫描数据库:
16
挖掘频繁集 不用生成候选集

用Frequent-Pattern tree (FP-tree) 结构压缩 数据库

高度浓缩,同时对频繁集的挖掘又完备的 将提供频繁项集的数据库压缩到一颗FP-树 避免代价较高的数据库扫描
17
用交易数据库建立 FP-tree
TID 100 200 300 400 500
6
关联规则度量—支持度


定义: 规则XY在交易数据集D中的支持度是对关联规 则重要性的衡量,反映关联是否是普遍存在的规 律,说明这条规则在所有交易中有多大的代表性。 即在所有交易中X与Y同时出现的频率记为: support(XY)。 计算方法: 交易数据集中同时包含X和Y的交易数与所有交易 数之比: support(XY) = P(X∪Y)

关联规则用于寻找在同一个事件中出现的 不同项的相关性; 序列模式与此类似,但它寻找的是事件之 间时间上的相关性。
3

关联规则


关联规则发现的主要对象是交易型数据库,一 个交易一般由交易处理时间,一组顾客购买的 物品,有时也有顾客标识号(如信用卡号)组 成。 关联规则:是描述在一个交易中物品之间同时 出现的规律的知识模式,更确切的说,关联规 则是通过量化的数字描述物品X的出现对物品 Y的出现有多大的影响。
条件模式库 {(fcam:2), (cb:1)} {(fca:2), (fcab:1)} {(fca:1), (f:1), (c:1)} {(fc:3)} {(f:3)} Empty
条件FP-tree {(c:3)}|p {(f:3, c:3, a:3)}|m Empty {(f:3, c:3)}|a {(f:3)}|c Empty
{1 3} {2 3} {2 5} {3 5} 2 2 3 2
{1 {1 {1 {2 {2 {3 2} 3} 5} 3} 5} 5} 1 2 1 2 3 2
C2 itemset {1 2} 扫描 D
{1 {1 {2 {2 {3 3} 5} 3} 5} 5}
C3 itemset {2 3 5}
扫描 D

11
关联规则挖掘—一个例子
交易ID 2000 1000 4000 5000 购买商品 A,B,C A,C A,D B,E,F
最小置信度 50% 最小支持度 50%
频繁项集 {A} {B} {C} {A,C} 支持度 75% 50% 50% 50%
对于 A C: support = support({A 、C}) = 50% confidence = support({A 、C})/support({A}) = 66.6% Apriori的基本思想: 频繁项集的任何子集也一定是频繁的
相关文档
最新文档