关联规则

合集下载

数据挖掘方法——关联规则(自己整理)

6
四、关联规则的分类
按照不同情况，关联规则可以进行分类如下： 1.基于规则中处理的变量的类别，关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的，它显示了这些变量之间的关系；而数值型关联规则可以和多维关联或多层关联规则结合起来，对数值型字段进行处理，将其进行动态的分割，或者直接对原始的数据进行处理，当然数值型关联规则中也可以包含种类变量。例如：性别=“女”=>职业=“秘书” ，是布尔型关联规则；性别=“女”=>avg（收入）= 2300，涉及的收入是数值类型，所以是一个数值型关联规则。 2.基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。在单层的关联规则中，所有的变量都没有考虑到现实的数据是具有多个不同的层次的；而在多层的关联规则中，对数据的多层性已经进行了充分的考虑。例如：IBM台式机=>Sony打印机，是一个细节数据上的单层关联规则；台式机=>Sony打印机，是一个较高层次和细节层次之间的多层关联规则。 3.基于规则中涉及到的数据的维数，关联规则可以分为单维关联规则和多维关联规则。在单维的关联规则中，我们只涉及到数据的一个维，如用户购买的物品；而在多维的关联规则中，要处理的数据将会涉及多个维。换成另一句话，单维关联规则是处理单个属性中的一些关系；多维关联规则是处理各个属性之间的某些关系。例如：啤酒=>尿布，这条规则只涉及到用户的购买的物品；性别=“女”=>职业=“秘书”，这条规则就涉及到两个字段的信息，是两个维上的一条关联规则。
小结：Apriori算法可以分为频繁项集的生成和关联规则的生成两大步骤；FP-Growth算法可以分成FP-Tree的生成，频繁项集的生成和关联规则的生成3大步骤。
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.

关联规则

C3 itemset
{2 3 5}
扫描 D
L3 itemset sup
{2 3 5} 2
{2,3}->{5}
21
Apriori 够快了吗? — 性能瓶颈

Apriori算法的核心:

用频繁的(k – 1)-项集生成候选的频繁 k-项集用数据库扫描和模式匹配计算候选集的支持度巨大的候选集: 多次扫描数据库：

给定数据库D，关联规则的挖掘就是找出所有存在于数据库D中的强关联规则。因此整个关联规则挖掘过程可以分解为以下两个子问题：
找出所有的频繁项目集；根据找到的频繁项目集导出所有的强关联规则。

13
强关联规则的产生

第一个子问题的求解，需要多次扫描数据库D，这意味着关联规则挖掘算法的效率将主要取决于数据库扫描、I/O操作和频繁项目集的计算上。因此如何迅速、高效地找出所有的频繁项目集是关联规则挖掘的中心问题第二个子问题的求解比较容易，R. Agrawal等人已提出了有效的解决办法，具体过程如下：对每个频繁项目集I，产生所有的非空真子集：对I的任意非空真真子集m，若support（I）/Support（m） minconfidence，则产生强关联规则m->(l-m)。

第二步: 修剪
forall itemsets c in Ck do
forall (k-1)-subsets s of c do if (s is not in Lk-1) then delete c from Ck
19
生成候选集的例子

L3={abc, abd, acd, ace, bcd} 自连接 : L3*L3

数据挖掘方法——关联规则(自己整理)

小结：Apriori算法可以分为频繁项集的生成和关联规则的生成两大步骤；FP-Growth算法可以分成FP-Tree的生成，频繁项集的生成和关联规则的生成3大步骤。
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.
9
五、关联规则挖掘的相关算法
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.
Copyright © 2009, MANAGEMENT SCIENCE ASSOCIATES, INC.
7
五、关联规则挖掘的相关算法
1.Apriori算法：使用候选项集找频繁项集 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。该算法的基本思想是：首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递推的方法。 Apriori算法可以产生相对较小的候选项目集，扫描数据库的次数由最大频繁项目集的项目数决定。因此，该算法适合于最大频繁项目集相对较小的数据集中的关联规则挖掘问题。 Apriori算法的两大缺点:1.可能产生大量的候选集；2.可能需要重复扫描数据库。
关联分析的目的：找出数据库中隐藏的关联网。一般用Support(支持度)和Confidence(可信度)两个阀值来度量关联规则的相关性，引入 lift(提高度或兴趣度）、相关性等参数，使得所挖掘的规则更符合需求。

关联规则评价指标计算公式

关联规则评价指标计算公式关联规则评价指标通常用于衡量关联规则挖掘的质量和有效性。

以下是常见的关联规则评价指标及其计算公式：1. 支持度（Support）：支持度衡量了一个规则在所有交易中出现的频率，即规则的共同出现程度。

支持度的计算公式如下：Support(A -> B) = P(A ∩ B) = 记录中同时包含A和B的次数 / 总记录数。

2. 置信度（Confidence）：置信度衡量了当一个项集出现时另一个项集也出现的概率，即规则的准确性程度。

置信度的计算公式如下：Confidence(A -> B) = P(B|A) = P(A ∩ B) / P(A)。

3. 提升度（Lift）：提升度衡量了规则中的A出现对B的出现概率的影响程度，即规则的独立性程度。

提升度的计算公式如下：Lift(A -> B) = P(B|A) / P(B) = Confidence(A -> B) /Support(B)。

4. 确定度（Leverage）：确定度衡量了规则中的A和B同时出现的频率超过了期望的程度，即规则的关联程度。

确定度的计算公式如下：Leverage(A -> B) = Support(A ∩ B) Support(A) Support(B)。

5. 确信度（Conviction）：确信度衡量了规则中的A出现时B 不出现的概率与实际不出现的比值，即规则的可靠性程度。

确信度的计算公式如下：Conviction(A -> B) = (1 Support(B)) / (1 Confidence(A -> B))。

以上是常见的关联规则评价指标及其计算公式。

这些指标可以帮助分析关联规则挖掘结果的有效性和实用性，对于挖掘出的规则进行评估和筛选具有重要意义。

频繁项集与关联规则

频繁项集与关联规则摘要：一、频繁项集的定义与作用1.频繁项集的概念2.频繁项集的作用3.频繁项集的计算方法二、关联规则的定义与作用1.关联规则的概念2.关联规则的作用3.关联规则的计算方法三、频繁项集与关联规则的关系1.频繁项集是关联规则的基础2.关联规则是频繁项集的扩展正文：频繁项集与关联规则是数据挖掘领域中关联规则挖掘的重要概念。

频繁项集指的是在数据集中出现频率较高的项目集合，而关联规则则是指在数据集中存在一定关联关系的项目集合。

频繁项集是关联规则的基础，而关联规则则是频繁项集的扩展。

一、频繁项集的定义与作用频繁项集是数据挖掘中关联规则挖掘的一个关键概念，它表示数据集中出现频率较高的项目集合。

频繁项集的概念可以从支持度、置信度等角度进行定义。

频繁项集的作用主要体现在以下几个方面：1.描述数据集中频繁发生的模式：频繁项集能够反映数据集中用户购买、浏览等行为的规律，对于理解用户需求和行为模式具有重要作用。

2.降低数据维度：通过挖掘频繁项集，可以有效地降低数据维度，减少数据规模，提高数据挖掘和分析的效率。

3.生成关联规则：频繁项集是关联规则挖掘的基础，通过频繁项集可以进一步挖掘出关联规则，从而发现数据中隐藏的关联关系。

二、关联规则的定义与作用关联规则是数据挖掘中关联规则挖掘的另一个关键概念，它表示数据集中存在一定关联关系的项目集合。

关联规则的概念可以从支持度、置信度、提升度等角度进行定义。

关联规则的作用主要体现在以下几个方面：1.挖掘数据中的关联关系：关联规则能够发现数据中项目之间的关联关系，如“牛奶”和“面包”经常一起被购买。

2.预测用户行为：通过挖掘关联规则，可以预测用户在购买某个商品时，可能还会购买其他商品，为用户提供个性化推荐。

3.优化商品组合：关联规则可以帮助商家优化商品组合，提高销售额和利润。

三、频繁项集与关联规则的关系频繁项集和关联规则是关联规则挖掘中密切相关的两个概念。

频繁项集是关联规则的基础，因为关联规则需要基于频繁项集进行挖掘。

关联规则（Apriori算法）

关联规则（Apriori算法）关联分析直观理解关联分析中最有名的例⼦是“尿布与啤酒”。

据报道，美国中西部的⼀家连锁店发现，男⼈们会在周四购买尿布和啤酒。

这样商店实际上可以将尿布与啤酒放在⼀块，并确保在周四全价销售从⽽获利。

当然，这家商店并没有这么做。

频繁项集是指那些经常出现在⼀起的物品集合，⽐如{葡萄酒，尿布, ⾖奶}就是频繁项集的⼀个例⼦⽀持度（support）　⼀个项集的⽀持度（support）被定义为数据集中包含该项集的记录所占的⽐例 {⾖奶}的⽀持度为4/5。

{⾖奶，尿布}的⽀持度为3/5可信度（confidence ）　可信度或置信度（confidence）是针对⼀条诸如{尿布} ➞ {葡萄酒}的关联规则来定义的。

这条规则的可信度被定义为“⽀持度({尿布, 葡萄酒})/⽀持度({尿布})”。

由于{尿布, 葡萄酒}的⽀持度为3/5，尿布的⽀持度为4/5，所以“尿布➞葡萄酒”的可信度为3/4=0.75。

这意味着对于包含“尿布”的所有记录，我们的规则对其中75%的记录都适⽤。

Apriori算法的⽬标是找到最⼤的K项频繁集⽀持度和可信度是⽤来量化关联分析是否成功的⽅法。

假设想找到⽀持度⼤于0.8的所有项集，应该如何去做？⼀个办法是⽣成⼀个物品所有可能组合的清单，然后对每⼀种组合统计它出现的频繁程度，但当物品成千上万时，⾮常慢，这时就能⽤Apriori算法关联分析中最有名的例⼦是“尿布与啤酒”。

据报道，美国中西部的⼀家连锁店发现，男⼈们会在周四购买尿布和啤酒。

这样商店实际上可以将尿布与啤酒放在⼀块，并确保在周四全价销售从⽽获利。

当然，这家商店并没有这么做。

⼀般我们使⽤三个指标来度量⼀个关联规则，这三个指标分别是：⽀持度、置信度和提升度。

Support（⽀持度）：表⽰同时包含A和B的事务占所有事务的⽐例。

如果⽤P(A)表⽰使⽤A事务的⽐例，那么Support=P(A&B)Confidence（可信度）：表⽰使⽤包含A的事务中同时包含B事务的⽐例，即同时包含A和B的事务占包含A事务的⽐例。

可视化数据挖掘中的关联规则和频繁项集

可视化数据挖掘中的关联规则和频繁项集可视化数据挖掘是一种将数据挖掘的结果以可视化的方式展示出来的方法。

它通过将数据转化为图形、图表、地图等形式，帮助人们更直观地理解和分析数据。

在可视化数据挖掘中，关联规则和频繁项集是两个重要的概念。

关联规则用于发现数据中的关联关系，而频繁项集则用于发现经常同时出现在一起的项。

本文将深入研究可视化数据挖掘中的关联规则和频繁项集，并探讨它们在实际应用中的意义和方法。

一、关联规则1.1 关联规则概述在可视化数据挖掘中，关联规则是一种描述两个或多个项之间相关性强弱程度的方法。

它可以帮助人们发现事物之间隐藏的联系，并通过这些联系做出预测或者推断。

1.2 关联规则挖掘算法为了发现大量数据中隐藏的关联性，需要使用一种高效且准确率较高的算法来进行关联规则挖掘。

常见的算法有Apriori算法、FP-Growth算法等。

1.3 可视化展示通过将得到的关联规则以图表或者其他形式展示出来，可以更加直观地理解和分析数据之间的关联关系。

例如，可以使用散点图、矩阵图等方式来展示关联规则的分布情况。

1.4 实际应用关联规则在市场营销、医疗诊断、网络安全等领域都有广泛的应用。

例如，在市场营销中，可以通过发现购买某种产品的人群中还会购买其他产品的规律，来进行精准推荐。

二、频繁项集2.1 频繁项集概述频繁项集是指在数据集中经常同时出现的一组项。

通过发现频繁项集，可以了解到哪些项经常一起出现，从而为后续分析和决策提供依据。

2.2 频繁项集挖掘算法为了发现数据中频繁项集，常用的算法有Apriori算法和FP-Growth算法。

这些算法在挖掘大规模数据时具有较高的效率和准确率。

2.3 可视化展示通过将得到的频繁项集以图表或者其他形式展示出来，可以更加直观地理解数据之间经常同时出现的情况。

例如，在市场篮子分析中，可以使用词云图等方式展示经常一起购买的商品。

2.4 实际应用频繁项集在推荐系统、市场分析、网络安全等领域都有广泛的应用。

关联规则的基本概念

关联规则的基本概念
关联规则是关联分析的主要概念，用于揭示数据集中的物品之间的相关关系。

关联规则通常以if-then形式表示，其中if部
分称为前提（Antecedent），表示某些物品的组合，在此条件下，则部分称为结果（Consequent），表示其他物品的组合。

关联规则的基本概念包括以下几个要素：
1. 项（Item）：指数据集中的一个单独的物品，可以是一个商品、一种服务或其他特定的实体。

项可以是单个物品，也可以是物品的集合。

2. 项集（Itemset）：指数据集中的一个或多个项的集合。

项集可以包含单个项或多个项。

3. 支持度（Support）：指项集在数据集中出现的频率。

支持
度可以用来度量一个项集的重要性或常见程度。

4. 可信度（Confidence）：指关联规则的可信程度。

可信度可
以用来度量当前提条件出现时，结果出现的概率。

关联规则可以通过计算项集的支持度和关联规则的可信度来找出频繁项集和强关联规则。

频繁项集是指支持度高于预设阈值的项集，而强关联规则是指可信度高于预设阈值的关联规则。

通过分析频繁项集和强关联规则，可以发现物品之间的相关关系，从而用于市场篮子分析、推荐系统和数据挖掘等应用领域。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

18

注意
避免产生太多不必要的候选
不必要的候选:至少有一个子集是非频繁的
确保候选项集的集合是完全的
不遗漏任何可能的频繁项集
不重复产生候选项集
{a,
b, c, d }可能会通过多种方法产生: 合并{a, b, c}和 {d }，合并{b, d }和{a, c}，合并{c}和{a, b, d }
List of Candidates
N
M
w
时间复杂度
~ O(NMw)，这种方法的开销可能非常大。
降低产生频繁项集计算复杂度的方法

减少候选项集的数量 (M)
先验(apriori)原理

减少比较的次数 (NM)
替代将每个候选项集与每个事务相匹配，可以使用
更高级的数据结构，或存储候选项集或压缩数据集，来减少比较次数
1 2 3 4 5
Bread, Milk Bread, Diaper, Beer, Eggs Milk, Diaper, Beer, Coke Bread, Milk, Diaper, Beer Bread, Milk, Diaper, Coke

Observations: 都源于同一个项集: {Milk, Diaper, Beer} 相同的支持度，不同的置信度
关联规则挖掘问题

关联规则挖掘问题：给定事务的集合 T, 关联规则发现是指找出支持度大于等于 minsup，并且置信度大于等于minconf的所有规则（其中，minsup和minconf是对应的支持度和置信度阈值）
挖掘关联规则的一种原始方法是：Brute-force approach:

{啤酒,尿布}+{面包} {面包,尿布}+{啤酒}
候选产生项集 {啤酒，尿布，面包 } {啤酒，尿布，牛奶 } {面包，尿布，牛奶 } {面包，牛奶，啤酒 }
候选剪枝项集 {面包，尿布，牛奶}
频繁1-项集
项啤酒面包尿布牛奶
候选的产生与剪枝

Fk 1 F1方法

这种方法用其他频繁项来扩展每个频繁（k-1）-项集这种方法将产生O(| Fk 1 | | F1 |)个候选k-项集，其中|Fj|表示频繁j-项集的个数。这种方法总复杂度是 O(k k | Fk 1 || F1 |) 这种方法是完备的，因为每一个频繁k-项集都是由一个频繁（k-1）-项集和一个频繁1-项集组成的。因此，所有的频繁k-项集是这种方法所产生的候选k-项集的一部分。然而，这种方法很难避免重复地产生候选项集。如：{面包，尿布，牛奶}不仅可以由合并项集{面包，尿布}和{牛奶}得到，而且还可以由合并{面包，牛奶}和{尿布}得到，或由合并{尿布，牛奶}和{面包}得到。
定义: 频繁项集（Frequent Itemset）

项集（Itemset）

包含0个或多个项的集合例子: {Milk, Bread, Diaper} k-项集如果一个项集包含k个项包含特定项集的事务个数例如： ({Milk, Bread,Diaper}) = 2 包含项集的事务数与总事务数的比值例如： s({Milk, Bread, Diaper}) = 2/5 满足最小支持度阈值（ minsup ）的所有项集
Example:
{Milk, Diaper} Beer
s
c
– 置信度 Confidence (c)
确定Y在包含X的事
(Milk , Diaper, Beer )
|T|
务中出现的频繁程度
2 0.4 5
(Milk, Diaper, Beer ) 2 0.67 (Milk , Diaper ) 3
它使用产生-测试策略来发现频繁项集。在每次迭代，新的候选项集由前一次迭代发现的频繁项集产生，然后对每个候选的支持度进行计数，并与最小支持度阈值进行比较。

该算法需要的总迭代次数是kmax+1，其中kmax是频繁项集的最大长度
2.3候选的产生与剪枝(构造apriori-gen函数)

（1）蛮力方法
2.1先验原理（ Apriori principle）

先验原理:
如果一个项集是频繁的，则它的所有子集一定也是
频繁的

相反，如果一个项集是非频繁的，则它的所有超集也一定是非频繁的:
这种基于支持度度量修剪指数搜索空间的策略称为
基于支持度的剪枝（support-based pruning）这种剪枝策略依赖于支持度度量的一个关键性质，即一个项集的支持度决不会超过它的子集的支持度。这个性质也称为支持度度量的反单调性（antimonotone）。
关联规则: 基本概念和算法
1 定义:关联分析（association analysis）

关联分析用于发现隐藏在大型数据集中有意义的联系，所发现的模式通常用关联规则或频繁项集的形式表示。除购物篮数据以外，关联分析可以应用于生物信息学、医疗诊断、网页挖掘、科学数据分析等
Items
TID
1 2 3 4 5

计算每个可能规则的支持度和置信度这种方法计算代价过Байду номын сангаас，因为可以从数据集提取的规则的数量达指数级

从包含d个项的数据集提取的可能规则的总数
R=3d-2d+1+1，如果d等于6，则R=602
挖掘关联规则（Mining Association Rules）

大多数关联规则挖掘算法通常采用的一种策略是，将关联规则挖掘任务分解为如下两个主要的子任务:
Mining Association Rules
TID Items
Example of Rules:
{Milk,Diaper} {Beer} (s=0.4, c=0.67) {Milk,Beer} {Diaper} (s=0.4, c=1.0) {Diaper,Beer} {Milk} (s=0.4, c=0.67) {Beer} {Milk,Diaper} (s=0.4, c=0.67) {Diaper} {Milk,Beer} (s=0.4, c=0.5) {Milk} {Diaper,Beer} (s=0.4, c=0.5)
Bread, Milk Bread, Diaper, Beer, Eggs Milk, Diaper, Beer, Coke Bread, Milk, Diaper, Beer Bread, Milk, Diaper, Coke
Rules Discovered:
{Diaper} --> {Beer}
TID
Items

支持度计数（Support count ）()

1 2 3 4 5
Bread, Milk Bread, Diaper, Beer, Eggs Milk, Diaper, Beer, Coke Bread, Milk, Diaper, Beer Bread, Milk, Diaper, Coke
null
格结构（lattice structure）
A B C D E
AB
AC
AD
AE
BC
BD
BE
CD
CE
DE
ABC
ABD
ABE
ACD
ACE
ADE
BCD
BCE
BDE
CDE
ABCD
ABCE
ABDE
ACDE
BCDE
ABCDE
频繁项集产生（Frequent Itemset Generation）

原始方法（Brute-force 方法）:
19

蛮力方法: 把所有的k-项集都看作可能的候选，然后使
用候选剪枝除去不必要的候选
候选产生项集 {啤酒，面包，可乐 } {啤酒，面包，尿布 } {啤酒，面包，牛奶 } {啤酒，面包，鸡蛋 } {啤酒，可乐，尿布 } {啤酒，可乐，牛奶 } {啤酒，可乐，鸡蛋 } {啤酒，尿布，牛奶 } {啤酒，尿布，鸡蛋 } {啤酒，牛奶，鸡蛋 } {面包，可乐，尿布

支持度（Support）

频繁项集（Frequent Itemset）

定义: 关联规则（Association Rule）

关联规则 – 关联规则是形如 X Y的蕴含表达式, 其中 X 和 Y 是不相交的项集 – 例子: {Milk, Diaper} {Beer}
TID
Items
蛮力方法把所有的k-项集都看作可能的候选，然后
使用候选剪枝除去不必要的候选 k 第k层产生的候选项集的数目为 Cd
虽然候选产生是相当简单的，但是候选剪枝的开销
极大，因为必须考察的项集数量太大。设每一个候选项集所需的计算量为O(k)，这种方法的总复杂度为
k O( kCd ) O(d 2d 1 ) k 1 d
Count 3 2 3 2 3 3
Triplets (3-itemsets)
Itemset {Bread,Milk,Diaper} Count 3
Apriori 算法
Apriori 算法

Apriori算法的频繁项集产生的部分有两个重要的特点：

它是一个逐层算法。即从频繁1-项集到最长的频繁项集，它每次遍历项集格中的一层
1.
频繁项集产生（Frequent Itemset Generation）
–
其目标是发现满足最小支持度阈值的所有项集，这些项集称作频繁项集。
2.
规则的产生（Rule Generation）
–