关联规则简介与Apriori算法

合集下载

关联规则Apriori算法

关联规则Apriori算法

关联规则Apriori算法1. 算法概述在关联规则挖掘研究中,Apriori算法是目前许多串行算法中最著名的,其他大多数算法都是基于Apriori算法的不断改进。

这些算法都运用了一个共同的性质,即频繁项目集的任一子集必定也是频繁项目集。

Apriori算法通过不断增加候选项目集的长度来逐步发现最大频繁项目集。

首先搜索1-频繁项目集,然后搜索2-频繁项目集,直到不能再增加频繁项目集的长度为止。

在每次循环过程中,产生k-候选频繁项目集的集合C k,然后计算支持度来搜索k-频繁项目集L k。

Apriori算法主要有三个步骤:第一步:连接(k-1)-频繁项目集产生k-候选频繁项目集C k(k > 1)。

第二步:从C k中修剪所有(k-1)-子集不属于L k-1的项,即包含非频繁项目的候选项目集。

第三步:扫描事务数据库来计算候选项目集的支持度,获得频繁项目集。

2. 算法Apriori的挖掘过程Apriori算法用伪代码描述如下:Input: Database, D, of transaction; Minimum support threshold, min-sup;Output: L, frequent itemsets in D.(1) L1={large 1 - itemsets};(2) For (k=2; L k-1≠ ; k++) do begin(3) C k=Apriori-gen (L k-1); // C k是长度为k的候选频繁项目集的集合(4) For each transaction t∈D do begin(5) C t=subset (C k, t); //C t是transactions t包含的候选频繁项目集(6) For each candidate c∈C t do(7) c. count++;(8) End(9) L k={c∈C k| c. count ≥ min-sup}(10) End(11) Answer=∪k L k;Apriori算法调用了Apriori-gen(L k-1)是为了通过(k-1)-频繁项目集,连接产生k-候选频繁项目集。

apriori关联规则

apriori关联规则

apriori关联规则Apriori关联规则在数据挖掘领域,关联规则是一种重要的技术,用于发现数据集中不同项之间的关联关系。

而Apriori算法则是一种常用的关联规则挖掘算法,通过寻找频繁项集来发现数据中的关联规则。

Apriori算法的基本原理是利用先验知识,即如果一个项集是频繁的,那么它的所有子集也一定是频繁的。

算法首先扫描数据集,统计每个项的频数,然后根据设定的最小支持度阈值,找出频繁项集。

接着,通过连接操作和剪枝操作,逐步生成更大的频繁项集,直到不能再生成新的频繁项集为止。

通过Apriori算法可以发现数据中的一些有趣的关联规则,比如购物篮分析中的“如果顾客购买了牛奶和面包,那么他们很可能也会购买黄油”的规则。

这种关联规则可以帮助商家更好地理解顾客的购买行为,进而制定更有效的营销策略。

除了在市场营销领域,Apriori算法还可以在其他领域得到广泛应用。

比如在医疗领域,可以利用关联规则挖掘算法来发现患者之间的疾病关联关系,帮助医生更好地诊断疾病。

在社交网络中,可以利用关联规则发现用户之间的社交关系,为推荐系统提供更精准的推荐结果。

然而,虽然Apriori算法在发现频繁项集和关联规则方面表现出色,但也存在一些局限性。

由于算法需要频繁地扫描数据集和生成候选项集,对于大规模数据集来说,计算复杂度较高,效率较低。

因此,对于大规模数据集,可以考虑使用改进的关联规则挖掘算法,如FP-growth算法,来提高计算效率。

总的来说,Apriori算法作为一种经典的关联规则挖掘算法,在数据挖掘领域发挥着重要作用。

通过挖掘数据集中的关联关系,可以帮助人们更好地理解数据,发现隐藏在数据背后的规律,为决策提供有力支持。

随着数据规模不断增大和技术的不断进步,关联规则挖掘算法也将得到进一步完善和应用,为各个领域带来更多的价值和机遇。

使用apriori算法计算产生的强关联规则

使用apriori算法计算产生的强关联规则

使用apriori算法计算产生的强关联规则Apriori 算法是一种常用于挖掘关联规则的方法,它用于在大规模数据集中发现频繁项集。

在频繁项集的基础上,可以通过计算置信度等指标来发现强关联规则。

以下是使用 Apriori 算法计算强关联规则的基本步骤:准备数据集:将数据集整理成适合 Apriori 算法的形式,通常是一个包含多个项集的列表。

确定最小支持度:设置最小支持度阈值。

支持度是指项集在数据集中出现的频率。

项集的支持度低于设定的最小支持度阈值的将被过滤掉。

找出频繁项集:使用 Apriori 算法找出满足最小支持度要求的频繁项集。

这是通过迭代生成候选项集,然后计算它们的支持度来实现的。

生成关联规则:对于每个频繁项集,生成关联规则并计算它们的置信度。

关联规则的置信度表示规则的可信程度,即 A 出现时 B 出现的概率。

筛选强关联规则:根据设定的最小置信度阈值筛选出强关联规则。

下面是一个简单的Python 示例,使用mlxtend 库中的apriori 和 association_rules 模块来实现:# 安装 mlxtend 库# pip install mlxtendfrom mlxtend.frequent_patterns import apriorifrom mlxtend.frequent_patterns import association_rules import pandas as pd# 创建示例数据集data = {'TransactionID': [1, 2, 3, 4, 5],'Items': [['A', 'B', 'D'],['B', 'C', 'E'],['A', 'B', 'D', 'E'],['A', 'E'],['B', 'D']]}df = pd.DataFrame(data)# 使用 Apriori 算法找出频繁项集frequent_itemsets = apriori(df['Items'].apply(set), min_support=0.4, use_colnames=True)# 生成关联规则rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.7)# 输出结果print("频繁项集:")print(frequent_itemsets)print("\n关联规则:")print(rules)这个示例中,min_support 和 min_threshold 参数是可以调整的,用于设置最小支持度和最小置信度的阈值。

机器学习中的关联规则挖掘方法简介

机器学习中的关联规则挖掘方法简介

机器学习中的关联规则挖掘方法简介机器学习中的关联规则挖掘是一种用于发现数据集中不同属性之间的关联关系的方法。

这些关联关系可以帮助我们理解属性之间的相互作用,从而能够更好地进行数据分析和决策制定。

在本文中,我们将介绍机器学习中常用的关联规则挖掘方法,包括Apriori算法和FP-growth算法。

1. Apriori算法Apriori算法是一种用于发现频繁项集的经典算法。

频繁项集是指在数据集中经常同时出现的一组项的集合。

Apriori算法基于“先验原理”,即如果一个项集是频繁的,那么它的所有子集也是频繁的。

该算法采用一种逐层的方式,从$k$-项集生成$k+1$-项集,直到不能再生成新的项集为止。

Apriori算法的时间复杂度较高,因为需要多次扫描数据集进行计数。

2. FP-growth算法FP-growth算法是一种用于发现频繁项集的高效算法。

该算法通过构建一个称为FP树的数据结构来实现。

FP树具有压缩数据集的能力,从而减少了扫描数据集的次数。

FP-growth算法的关键步骤包括:构建FP树、挖掘频繁项集和生成条件模式基。

首先,根据事务的频率对数据集进行排序,然后构建FP树,最后通过递归遍历FP树来挖掘频繁项集。

相比于Apriori算法,FP-growth算法的时间复杂度更低。

3. 频繁项集和关联规则在关联规则挖掘中,频繁项集是指在给定最小支持度阈值下出现频率很高的项集。

而关联规则是从频繁项集中通过设置最小置信度阈值而获得的一种形式化表示。

关联规则通常具有“A ⇒ B”的形式,其中A和B都是项集。

关联规则的置信度表示当项集A出现时,项集B同时出现的概率。

4. 关联规则挖掘的应用关联规则挖掘在实际应用中有着广泛的应用。

例如,在市场篮子分析中,关联规则可以帮助商家了解购物者的购买习惯,从而进行商品定价和促销策略的制定。

此外,关联规则挖掘还可以应用于网络流量分析、医学诊断、检测新闻事件等领域。

5. 关联规则挖掘的局限性和挑战尽管关联规则挖掘是一种有用的方法,但也存在一些局限性和挑战。

(数据挖掘)关联规则挖掘——Apriori算法、fp—Tree算法

(数据挖掘)关联规则挖掘——Apriori算法、fp—Tree算法

C2
{A,支E持} 度<50 25% {B,C} 50%
{B,E} 75%
{C,E} 50%
{A,C} 50%
L2
{B,C} {B,E}
50% 75%
{C,E} 50%
从K2中求可用来计算的的三项集 {A,C}+{B,C} {A,B,C} {A,C}+{B,E} 超过三项 {A,C}+{C,E} {A,C,E} {B,C}+{B,E} {B,C,E} {B,C}+{C,E} {B,C,E} {B,E}+{C,E} {B,C,E}
Null
I2
I2:6
I1:2
I1
I1:3
I3:2
I4:1
I3:2
I3
I4
I4:1
I5
I5:1
I3:1
I5:1
加入第九个事务(I2,I1,I3)
Item-name Node-head
Null
I2
I2:7
I1:2
I1
I1:4
I3:2
I4:1
I3:2
I3
I4
I4:1
I5
I5:1
I3:2
I5:1
第二步、FP-growth
Null
I2
I2:4
I1
I1:2
I4:1
I3:1
I3
I4
I4:1
I5
I5:1
加入第五个事务(I1,I3)
Item-name Node-head
Null
I2
I2:4
I1:1
I1
I1:2
I4:1
I3:1
I3:1
I3

Apriori算法(关联规则)

Apriori算法(关联规则)

Apriori算法(关联规则)⼀、关联规则 1、是数据中所蕴含的⼀类重要规律,对关联规则挖掘的⽬标是在数据项⽬中找出所有的并发关系,这种搞关系也称为关联。

eg、奶酪->啤酒[⽀持度 = 10%,置信度 = 80%] 2、关联规则的基本概念 设⼀个项⽬集合I = {i1,i2,i3,……,im},⼀个(数据库)事务集合T = {t1,t2,t3,,,tn},其中每个事务ti是⼀个项⽬集合,并且。

⼀个关联规则是如下形式的蕴涵关系: 3、关联规则强度指标:⽀持度和置信度 (1)⽀持度:规则X->Y的⽀持度是指,T中包含的事务的百分⽐。

⽀持度是⼀个很有⽤的评价指标,如果他的值过于的⼩,则表明时间可能只是偶然发⽣ (2)置信度:决定了规则的可预测度,表⽰在所有发⽣了X的事务中同样发⽣了Y的概率。

⼆、Apriori算法 1、Apriori原理:Apriori算法基于演绎Apriori原理(向下封闭属性) 向下封闭属性(Downward Closure Property):如果⼀个项⽬集满⾜某个最⼩⽀持的度要求,那么这个项集的任何⾮空⼦集必需都满⾜这个最⼩⽀持度。

为了确保频繁项⽬集成的⾼效性,Apriori算法假定I中的项⽬都是排序好的。

2、描述 就是对于数据集D,遍历它的每⼀条记录T,得到T的所有⼦集,然后计算每⼀个⼦集的⽀持度,最后的结果再与最⼩⽀持度⽐较。

且不论这个数据集D中有多少条记录(⼗万?百万?),就说每⼀条记录T的⼦集个数({1,2,3}的⼦集有{1},{2},{3},{1,2},{2,3},{1,3},{1,2,3},即如果记录T中含有n项,那么它的⼦集个数是2^n-1)。

计算量⾮常巨⼤,⾃然是不可取的。

所以Aprior算法提出了⼀个逐层搜索的⽅法,如何逐层搜索呢?包含两个步骤: 1.⾃连接获取候选集。

第⼀轮的候选集就是数据集D中的项,⽽其他轮次的候选集则是由前⼀轮次频繁集⾃连接得到(频繁集由候选集剪枝得到)。

apriori 时序关联规则数据挖掘算法

apriori 时序关联规则数据挖掘算法

apriori 时序关联规则数据挖掘算法摘要:1.引言2.apriori 算法概述3.时序关联规则数据挖掘4.apriori 在时序关联规则数据挖掘中的应用5.结论正文:【引言】在数据挖掘领域,关联规则挖掘是一种重要的数据分析方法,它能够发现数据集中各项之间的关联关系。

在关联规则挖掘中,apriori 算法是一种经典的算法,被广泛应用于各种数据分析场景。

同时,时序关联规则数据挖掘作为一种特殊的关联规则挖掘,其在实际应用中也具有重要价值。

本文将探讨apriori 算法在时序关联规则数据挖掘中的应用。

【apriori 算法概述】apriori 算法是一种基于支持度计算的关联规则挖掘算法。

它的基本思想是:首先生成所有可能的项集,然后根据支持度(即项集在数据集中出现的频率)对项集进行排序,最后找出支持度大于设定阈值的频繁项集。

apriori 算法的主要优点是能够发现数据集中的频繁项集,从而为关联规则挖掘提供有效依据。

【时序关联规则数据挖掘】时序关联规则数据挖掘是一种特殊的关联规则挖掘,它关注的是数据集中各项之间的时序关系。

时序关联规则数据挖掘的主要任务是发现具有时序关联关系的项集,从而为数据分析和预测提供依据。

相较于传统的关联规则挖掘,时序关联规则数据挖掘更具有挑战性,因为它需要考虑数据中的时间顺序。

【apriori 在时序关联规则数据挖掘中的应用】虽然apriori 算法最初是为静态数据集设计的,但在时序关联规则数据挖掘中,它仍然具有很大的应用价值。

在时序关联规则数据挖掘中,apriori 算法可以应用于以下几个方面:1.发现时序关联规则:通过应用apriori 算法,可以发现具有时序关联关系的频繁项集,从而为时序数据分析提供依据。

2.构建时序知识库:利用apriori 算法挖掘出的频繁项集,可以构建时序知识库,为后续的数据分析和预测提供支持。

3.评估时序数据质量:通过分析apriori 算法挖掘出的频繁项集,可以评估时序数据的质量,从而为数据预处理提供参考。

【数据挖掘技术】关联规则(Apriori算法)

【数据挖掘技术】关联规则(Apriori算法)

【数据挖掘技术】关联规则(Apriori算法)⼀、关联规则中的频繁模式关联规则(Association Rule)是在数据库和数据挖掘领域中被发明并被⼴泛研究的⼀种重要模型,关联规则数据挖掘的主要⽬的是找出:【频繁模式】:Frequent Pattern,即多次重复出现的模式和并发关系(Cooccurrence Relationships),即同时出现的关系,频繁和并发关系也称为关联(Association).⼆、应⽤关联规则的经典案例:沃尔玛超市中“啤酒和尿不湿”的经典营销案例购物篮分析(Basket Analysis):通过分析顾客购物篮中商品之间的关联,可以挖掘顾客的购物习惯,从⽽帮助零售商可以更好地制定有针对性的营销策略。

以下列举⼀个最简单也最经典的关联规则的例⼦:婴⼉尿不湿—>啤酒[⽀持度=10%,置信度=70%]这个规则表明,在所有顾客中,有10%的顾客同时购买了婴⼉尿不湿和啤酒,⽽在所有购买了婴⼉尿不湿的顾客中,占70%的⼈同时还购买了啤酒。

发现这个关联规则后,超市零售商决定把婴⼉尿不湿和啤酒摆在⼀起进⾏销售,结果明显提⾼了销售额,这就是发⽣在沃尔玛超市中“啤酒和尿不湿”的经典营销案例。

三、⽀持度(Support)和置信度(Confidence)事实上,⽀持度和置信度是衡量关联规则强度的两个重要指标,他们分别反映着所发现规则有⽤性和确定性。

【⽀持度】规则X->Y的⽀持度:事物全集中包含X U Y的事物百分⽐。

Support(A B)= P(A B)⽀持度主要衡量规则的有⽤性,如果⽀持度太⼩,则说明相应规则只是偶发事件,在商业实践中,偶发事件很可能没有商业价值。

【置信度】规则X->Y的置信度:既包括X⼜包括Y的事物占所有包含了X的事物数量的百分⽐。

Confidence(A B)= P(B|A)置信度主要衡量规则的确定性(可预测性),如果置信度太低,那么从X就很难可靠的推断出Y来,置信度太低的规则在实践应⽤中也没有太⼤⽤途。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Apriori算法举例 Apriori算法举例
现有A、B、C、D、E五种商品的交易记录表,找出所 有 频 繁 项 集 , 假 设 最 小 支 持 度 >=50%, 最 小 置 信 度 >=50%
交易号 T1 T2 T3 T4
商品代码 A、C、D B、C、E A、B、C、E B、E
Apriori算法举例_ Apriori算法举例_产生频繁项集 算法举例
增量式关联规则挖掘算法
数据集不断增长,有新的数据加入后,重新挖掘很费时。增量式关联规则 挖掘算法是当数据库变化后,在原挖掘结果的基础上生成新的关联规则, 删除过时的关联规则。
多层关联规则挖掘 ……
关联规则的价值衡量
客观上,使用“支持度和置信度”框架可能会产生 一些不正确的规则。只凭支持度和置信度阈值未必 总能找出符合实际的规则。
count(X ⊆ T) support(X) = |D|
项集X的支持度support(X)就是项集X出现的概率, 从而描述了X的重要性。
关联规则的相关概念
定义4 项集的最小支持度与频繁集 发现关联规则要求项集必须满足的最小支持阈值, 称为项集的最小支持度(Minimum Support),记为 supmin。 支持度大于或等于supmin的项集称为频繁项集,简 称频繁集,反之则称为非频繁集。 通常k-项集如果满足supmin,称为k-频繁集,记作Lk。
例:歌曲A、歌曲C为小众歌曲,歌曲B为口水歌,共有10万个用户,有 200个人听过歌曲A,这200个人里面有60个听过口水歌B,有40个人听过 歌曲C。听过歌曲C的人数是300,听过口水歌B的人为50000。 貌似A和B更相关 Confidence(A→B) = 0.3,Confidence(A→C) = 0.2 听过歌曲A的 人不喜欢歌曲B
count(X ∪ Y) support(X ⇒ Y) = |D|
关联规则的相关概念
定义7 关联规则的置信度 对 于 关 联 规 则 R : X⇒Y , 其 中 X⊂I,Y⊂I , 并 且 X∩Y=Φ。 规则R的置信度(Confidence)是指包含X和Y的交易 数与包含X的交易数之比
support(X ∪ Y) confidence (X ⇒ Y) = support(X)
支持度<50 25% {A,B,C}
C3
支持度<50 25% {A,C ,E}
{B,C, {B,C , E}
50%
Apriori算法举例_ Apriori算法举例_产生关联规则 算法举例
对于频繁项集{B,C,E},它的非空子集有{B}、{C}、{E} 、{B,C}、{B,E}、{C,E}。以下就是据此获得的关联 规则及其置信度。
关联规则简介
关联规则
关联规则(Association Rules)反映一个事物与 其他事物之间的相互依存性和关联性。如果两个或 者多个事物之间存在一定的关联关系,那么,其中 一个事物就能够通过其他事物预测到。首先被 Agrawal, Imielinski and Swami在1993年的 SIGMOD会议上提出. 关联规则挖掘是数据挖掘中最活跃的研究方法之一 。典型的关联规则发现问题是对超市中的购物篮数 据(Market Basket)进行分析。通过发现顾客放 入购物篮中的不同商品之间的关系来分析顾客的购 买习惯。
Apriori算法 Apriori算法
Apriori算法是一种经典的生成布尔型关联规则的频 繁项集挖掘算法。 Apriori算法将发现关联规则的过程分为两个步骤: 通过迭代,检索出事务数据库中的所有频繁项集, 即支持度不低于用户设定的阈值的项集; 利用频繁项集构造出满足用户最小置信度的规则。 挖掘或识别出所有频繁项集是该算法的核心,占整 个计算量的大部分。
关联规则的相关概念
定义5 关联规则 关联规则(Association Rule)可以表示为一个蕴含式: R:X⇒Y 其中:X⊂I,Y⊂I,并且X∩Y=Φ 。 例如:R:牛奶→面包
关联规则的相关概念
定义6 关联规则的支持度 对 于 关 联 规 则 R : X⇒Y , 其 中 X⊂I , Y⊂I , 并 且 X∩Y=Φ。 规则R的的支持度(Support)是交易集中同时包含X 和Y的交易数与所有交易数之比。
案例
70%购买了牛奶的顾客将倾向同时购买面包。
某网上书店向用户推荐相关书籍。
案例
在买了一台PC之后下一步会购买?
案例
在保险业务方面,如果出现了不常见的索赔要求组 合,则可能为欺诈,需要作进一步的调查; 在医疗方面,可找出可能的治疗组合; 在银行方面,对顾客进行分析,可以推荐感兴趣的 服务等等。
K=1
项集 支持度 { A} 50% { B} 75% 75% C1 {C} 支持度<50 25% { D} { E} 75%
L2
{ A,C} { B,C} { B,E} { C,E}
50% 50% 75% 50%
L1
{A} {B} {C} {E}
50% 75% 75% 75%
K=2
C2
项集 支持度 支持度<50 25% { A,B} { A,C} 50% 支持度<50 25% {A,E} { B,C} 50% { B,E} 75% 50% { C,E}
关联规则基本模型
什么是规则? 规则形如"如果…那么…(If…Then…)",前者为条件,后者 为结果。例如一个顾客,如果买了可乐,那么他也会购买 果汁。 如何来度量一个规则是否够好?有两个量,置信度 (Confidence)和支持度(Support)。假设有如下表的购买 记录。
关联规则基本模型_ 关联规则基本模型_置信度
置信度表示了这条规则有多大程度上值得可信。设条件 置信度 的项的集合为A,结果的集合为B。置信度计算在A中,同 时也含有B的概率(即:if A ,then B的概率)。即 Confidence(A B)=P(B|A)。例如计算“如果Orange则 Coke”的置信度。由于在含有“橙汁”的4条交易中,仅 有2条交易含有“可乐”。其置信度为0.5。
关联规则挖掘举例
交易ID 2000 1000 4000 5000 购买商品 A,B,C A,C A,D B,E,F
假设 假 设 最小 值支 持 度 为 50% 最小置信度为50% ,最小置信度为
频繁项集 {A} {B} {C} {A,C} 支持度 75% 50% 50% 50%
对于规则 A⇒C: 支持度 = support({A,C }) = 50% 置信度 = support({A,C })/support({A}) = 66.6%
一般来说,只有支持度和置信度均较高的关联规则 才是用户感兴趣的、有用的关联规则。
关联规则的相关概念
定义8 关联规则的最小支持度和最小置信度 关联规则的最小支持度也就是衡量频繁集的最小支 持度(Minimum Support),记为supmin,它用于衡 量规则需要满足的最低重要性。 关联规则的最小置信度(Minimum Confidence)记为 confmin,它表示关联规则需要满足的最低可靠性。
•仅两次扫描数据库。
理论和实验表明该算法优于Apriori算法。
FP-growth算法 FP-growth算法
其他关联规则挖掘算法
约束性关联规则挖掘算法
仅设置支持度和置信度阈值,缺乏用户控制,可能产生过多的规则,实际 效果可能并不好。用户关心的是某些特定的关联规则,这需要把一些约束 条件引入到挖掘算法中,从而筛选出符合约束条件的有用规则,提高算法 的运行效率和用户满意度。
关联规则的相关概念
定义9 强关联规则 如 果 规 则 R:X⇒Y 满 足 support(X⇒Y)≥supmin 且 confidence(X⇒Y)≥confmin , 称 关 联 规 则 X⇒Y 为 强关联规则,否则称关联规则X⇒Y为弱关联规则。 在挖掘关联规则时,产生的关联规则要经过 supmin和confmin的衡量,筛选出来的强关联规则 才能用于指导商家的决策。
规则A⇒ 满足最小支持度和最小置信 规则 ⇒C满足最小支持度和最小置信 所以它是强关联规则 度,所以它是强关联规则
关联规则挖掘的步骤
关联规则挖掘是一个两步的过程: 关联规则挖掘是一个两步的过程: 找出所有频繁项集 找出所有频繁项集
大于或者等于最小支持度 的项集
由频繁项集产生强关联规则,这些规则必须大于 由频繁项集产生强关联规则, 强关联规则 或者等于最小支持度和最小置信度
关联规则的相关概念
定义1 项目与项集 设I={i1,i2,…,im}是m个不同项目的集合,每个 ik(k=1,2,……,m)称为一个项目(Item)。 项目的集合 I 称为项目集合(Itemset),简称为项集 。其元素个数称为项集的长度,长度为k的项集称 为k-项集(k-Itemset)。
关联规则的相关概念
产生大量频繁集
若有100个项目,可能产生候选项数目
C
1 100
+ C100 + ... + C
2
100 100
≈ 1.27 *10
30
FP-growth算法 FP-growth算法
•Jiawei
Han等人在2000年提出了一种基于FP-树的 关联规则挖掘算法FP_growth,它采取“分而治之” 的策略,将提供频繁项目集的数据库压缩成一棵频 繁模式树(FP-树)。
案例
“尿布与啤酒”的故事。
美国的沃尔玛超市对一年多的原始交易数据进行了详细的 分析,得到一个意外发现:与尿布一起被购买最多的商品 竟然是啤酒。借助于数据仓库和关联规则,商家发现了这 个隐藏在背后的事实:美国的妇女们经常会嘱咐她们的丈 夫下班以后要为孩子买尿布,而30%~40%的丈夫在买完 尿布之后又要顺便购买自己爱喝的啤酒。有了这个发现后 ,超市调整了货架的设置,把尿布和啤酒摆放在一起销售 ,从而大大增加了销售额。
相关文档
最新文档