数据分析之07.关联分析

合集下载

大数据分析中关联分析技术的使用教程

大数据分析中关联分析技术的使用教程大数据分析已经成为当今信息时代的重中之重，企业和组织通过对数据进行深入分析，能够获得有价值的洞察，为业务决策提供有力支持。

而在大数据分析中，关联分析技术被广泛用于揭示数据之间的关联关系，发现隐藏在数据背后的规律和潜在的相关性。

在本篇文章中，我们将为您介绍关联分析技术的基本概念、常用算法以及实际应用。

一、关联分析概述关联分析是一种从大规模数据集中寻找有趣关系、相互依赖的任务。

它通过发现项目集中的频繁模式来完成，频繁模式指的是在数据集中经常出现的物品组合。

关联分析被广泛应用于市场篮子分析、商品推荐、交叉销售等领域。

二、关联分析算法1. Apriori算法Apriori算法是关联分析中最常用的算法之一，它基于频繁模式的性质。

Apriori算法通过扫描数据集多次来找到频繁项集，利用逐层递加的方式来发现频繁项集的超集，直到无法找到更多频繁项集为止。

Apriori算法的核心思想是：如果一个物品组合是频繁的，那么它的子集也一定是频繁的。

2. FP-Growth算法FP-Growth算法是一种高效的关联分析算法，通过构造FP树（频繁模式树）来实现快速的频繁模式挖掘。

与Apriori算法相比，FP-Growth算法避免了多次扫描事务数据库的操作，通过构造FP树和利用后缀路径来发现频繁模式。

FP-Growth算法适合处理包含大量事务和高维度特征的数据集。

3. Eclat算法Eclat算法也是一种经典的关联分析算法，它通过交集来计算频繁模式。

Eclat算法首先构建一个频繁项集的垂直格式数据结构，然后利用递归的方式来生成频繁项集。

与Apriori算法和FP-Growth算法相比，Eclat算法更适用于处理稀疏数据集。

三、关联分析的实际应用1. 市场篮子分析市场篮子分析是关联分析的经典应用之一，它通过挖掘购物篮中的频繁模式，从而揭示商品之间的关联关系。

利用市场篮子分析，商户可以了解消费者购买习惯，进行商品陈列、促销策略的优化，提高销售额和客户满意度。

关联分析方法

关联分析方法关联分析是一种数据挖掘技术，用于发现数据集中项之间的关联规则。

在商业领域，关联分析被广泛应用于市场篮分析、交叉销售分析、购物篮分析等领域。

它可以帮助企业发现产品之间的关联性，从而制定更有效的营销策略，提高销售额和客户满意度。

关联分析的核心思想是寻找项集之间的频繁关联规则。

在一个项集中，如果某些项经常出现在一起，就可以认为它们之间存在关联性。

关联分析的常见算法包括Apriori算法和FP-growth算法，它们能够高效地发现频繁项集和关联规则。

Apriori算法是一种经典的关联分析算法，它通过逐层搜索的方式发现频繁项集。

该算法首先扫描数据集，统计每个项的支持度，然后根据最小支持度阈值生成候选项集。

接下来，通过连接和剪枝操作，逐渐生成更大的候选项集，直到不能再生成新的频繁项集为止。

最后，根据频繁项集生成关联规则，并计算它们的置信度。

FP-growth算法是一种基于前缀树的关联分析算法，它通过构建FP树来高效地发现频繁项集。

该算法首先构建FP树，然后通过递归方式挖掘频繁项集。

相比于Apriori算法，FP-growth算法不需要生成候选项集，因此在处理大规模数据集时具有更高的效率。

在实际应用中，关联分析方法需要注意以下几点：首先，选择合适的支持度和置信度阈值。

支持度和置信度是衡量关联规则重要性的指标，合理设置阈值可以过滤掉不重要的规则，提高关联分析的效率和准确性。

其次，处理大规模数据集时需要考虑算法的效率。

针对不同规模的数据集，可以选择合适的关联分析算法，以提高计算效率。

最后，关联分析结果需要结合业务实际进行解释和应用。

在发现了关联规则之后，需要进一步分析规则的意义，结合实际情况进行解释，并制定相应的营销策略或业务决策。

总之，关联分析方法是一种重要的数据挖掘技术，能够帮助企业发现数据集中的关联规则，从而指导营销策略和业务决策。

通过合理选择算法、设置阈值，并结合业务实际进行解释和应用，可以充分发挥关联分析的作用，提升企业的竞争力和盈利能力。

数据挖掘课程论文---关联分析

学生超市购买商品的关联性分析前言“啤酒与尿布”是超市商品布局的一个经典案例，它是说在美国的沃尔玛超市中，将啤酒和尿布这两个看起来毫不相关的物品摆放在相邻的位置。

其原因就是沃尔玛通过大量的数据分析，发现有非常多的年轻爸爸在购买尿布的时候会顺手购买一些啤酒，因此沃尔玛将这两样完全没有联系的商品放在了一起。

这是关联分析在商业中一个非常成功的案例。

关联分析在超市中的应用，不仅仅局限在上述的沃尔玛的对超市商品布局的改善，特别针对于我校学生超市的特点，应用关联分析能够了解学生的购物特点及习惯，从而改善超市环境，提高收益。

我校学生超市的特点：1.规模较小。

通常情况下，位于学校的超市其规模通常较小，由于这个特点，使得学生超市的布局改善的空间非常小。

2.商品相对较为单一。

作为学生超市，其服务对象基本都是学生，针对学生的特点，学生超市的商品通常以日用品为主，主要包括衣食住行中的食和住，此外有比较多的学习用品。

我校学生在学生超市消费的特点：1.购物以食物、生活用品和学习用品为主。

2.购物时间比较集中。

围绕着上课，学生在学生超市购物的时间主要集中在上午上课前、中午放学后、下午放学后以及晚自习后。

3.在超市停留时间较短。

通常情况下，我校学生在超市购物停留时间较短，更多的都是有目的性的购物。

正因为以上学生超市和学生购物的特点，我们在做关联分析的时候将商品主要集中在了食物、日用品和学习用品上。

数据来源于我校学生实验超市，采集了2012年9月21日——9月30日的数据。

数据整理我们所得到的数据主要存在的问题包括重复记录、存在退货等，因此主要使用EXCEL对存在重复记录和退货的情况处理。

删除重复记录，使得每一项小票（代表一个ID）说购买的某种商品的记录都是1次，从而避免数据重复对分析结果的干扰。

而对于退货的商品，这去除该项记录。

经过这两项的整理，最后共得到有效的商品消费记录为45006项。

关联分析数据分析主要使用的是SAS中的Enterprise Mining模块。

Excel小技巧使用数据表进行数据关联分析

Excel小技巧使用数据表进行数据关联分析Excel小技巧：使用数据表进行数据关联分析数据关联分析对于数据处理和分析来说是非常重要的环节。

然而，对于大多数人来说，处理数据关联比较困难，尤其是当涉及到多个数据表的情况。

在这里，我们将讨论使用Excel数据表进行数据关联分析的一些小技巧。

第一步：理解数据表和数据列在Excel中，一个数据表是由一系列列组成的。

每一列都有一个标题，您可以使用标题在每个列中标识数据内容。

理解您的数据表以及每列中包含的数据类型非常重要。

如果未正确地分配数据类型，您将很难对这些数据进行正确的分析。

因此，在操作任何数据之前，请确保您已正确地理解了数据表和数据列的结构。

第二步：选择正确的数据关联函数Excel中有几种不同类型的数据关联函数可以使用。

例如，使用VLOOKUP函数可以在一个数据表中查找与另一个数据表相关联的值。

如果您希望比较两个数据表中的数据，您可以使用MATCH函数。

如果您正在尝试查找数据表中匹配的值，则可以使用HLOOKUP函数。

第三步：使用条件格式化来突出显示关联数据如果您处理的数据比较复杂，则可能需要更好地可视化数据关联。

使用Excel的条件格式功能，您可以突出显示相关数据。

例如，您可以使用颜色编码将两个数据表中相关的值标记为绿色或其他颜色，而将未匹配的值标记为红色。

第四步：使用Excel提供的筛选功能Excel具有非常方便的筛选功能，可帮助您筛选数据表中的数据。

例如，如果您想要筛选某一列中的特定值，则可以使用“筛选”工具栏来完成此操作。

在使用该工具时，您可以选择您要筛选的列以及您想要隐藏的数据。

第五步：总结和清理数据最后，数据分析的重要一步就是对数据进行清理和总结。

在数据关联之后，您可能会发现您的数据表中存在重复数据或错误数据。

因此，在保存或传递数据之前，请确保正确清理数据。

总体来说，数据关联分析对于处理和分析数据来说是非常重要的。

使用Excel的数据表和上述特殊小技巧，您可以更方便，更快速地进行数据关联分析。

关联分析方法

关联分析方法关联分析是一种数据挖掘技术，用于发现数据集中项之间的关系和规律。

它主要用于市场篮分析、交叉销售分析、购物篮分析等领域。

在这篇文档中，我们将介绍关联分析的基本概念、常用算法以及其在实际应用中的一些注意事项。

首先，关联分析的核心概念是“支持度”和“置信度”。

支持度是指某个项集在数据集中出现的频率，而置信度是指包含某个项集的规则的可信度。

通过支持度和置信度，我们可以找出频繁项集，并生成关联规则。

常用的关联分析算法包括Apriori算法和FP-Growth算法。

Apriori算法是一种基于候选集生成的算法，它通过迭代的方式来发现频繁项集。

而FP-Growth算法则是一种基于树结构的算法，它通过构建FP树来高效地发现频繁项集。

在实际应用中，关联分析可以帮助企业发现潜在的市场机会和消费者行为规律。

例如，通过分析顾客购买商品的关联规则，商家可以进行精准的商品推荐和促销活动，从而提升销售额和客户满意度。

但是，在进行关联分析时，我们也需要注意一些问题。

首先，关联分析可能会受到数据的稀疏性和噪声的影响，因此需要对数据进行预处理和清洗。

其次，关联分析可能会发现一些虚假的关联规则，因此需要对规则进行评估和过滤。

最后，关联分析的结果需要结合业务知识进行解释和应用，避免盲目的决策和误导性的结论。

综上所述，关联分析是一种重要的数据挖掘技术，它可以帮助我们发现数据集中的潜在关系和规律。

通过合理选择算法、进行数据清洗和评估，以及结合业务知识进行解释和应用，我们可以充分发挥关联分析的作用，为企业决策和市场营销提供有力支持。

希望本文能够帮助读者更好地理解关联分析方法，并在实际应用中取得更好的效果。

数据分析中的关联分析方法

数据分析中的关联分析方法在当今信息爆炸的时代，海量的数据被不断产生和积累。

如何从这些数据中提取有用的信息，成为了数据分析的重要课题之一。

关联分析作为数据挖掘的一种方法，通过发现数据集中的关联规则，帮助我们揭示数据背后的隐藏规律和关系。

本文将介绍关联分析的基本概念、方法和应用。

一、关联分析的基本概念关联分析是一种基于频繁项集的数据挖掘方法，其核心思想是通过寻找频繁出现的项集之间的关联规则，来发现数据中的关联关系。

在关联分析中，项集是指数据集中的一组项目的集合，而关联规则是指形如“A→B”的条件语句，表示当某一项集A出现时，另一项集B也很可能出现。

二、关联分析的方法1. Apriori算法Apriori算法是关联分析中最经典的算法之一，它通过迭代的方式来发现频繁项集。

该算法的基本思想是利用Apriori原理，即如果一个项集是频繁的，那么它的所有子集也一定是频繁的。

Apriori算法的步骤包括：扫描数据集，生成候选项集，计算候选项集的支持度，根据最小支持度筛选频繁项集，并通过组合生成新的候选项集，不断迭代直到无法生成新的候选项集为止。

2. FP-Growth算法FP-Growth算法是一种基于前缀树的关联分析算法，相较于Apriori算法，它能够更高效地发现频繁项集。

该算法的核心是构建FP树（频繁模式树），通过压缩数据集来减少计算量。

FP-Growth算法的步骤包括：构建FP树，通过FP树挖掘频繁项集，生成条件FP树，递归挖掘频繁项集。

三、关联分析的应用关联分析在实际应用中具有广泛的应用价值，以下是几个常见的应用场景：1. 超市购物篮分析超市购物篮分析是关联分析的典型应用之一。

通过分析顾客购买商品的组合，超市可以了解到哪些商品之间存在关联关系，进而制定促销策略，提高销售额。

例如，当顾客购买了牛奶和面包时，很可能还会购买黄油，超市可以将这三种商品放在一起展示，以增加销售。

2. 网络推荐系统关联分析在网络推荐系统中也有着重要的应用。

独家｜一文读懂关联分析

独家｜一文读懂关联分析前言关联分析是数据挖掘中一项基础又重要的技术，是一种在大型数据库中发现变量之间有趣关系的方法。

说到数据挖掘的案例，相信很多人都会首先想到沃尔玛超市发现购买尿布的顾客通常也会购买啤酒，于是把啤酒和尿布放在一起销售同时提高了两者的销量的案例。

这是关联分析在商业领域应用的一个典型，通过对大量商品记录作分析，提取出能够反映顾客偏好的有用的规则。

有了这些关联规则，商家制定相应的营销策来来提高销售量。

关联技术不但在商业领域被广泛应用，在医疗，保险，电信和证券等领域也得到了有效的应用。

本文将对数据挖掘中的关联分析技术做简要的介绍。

基本概念为了更好了解关联分析的算法，我们首先要知道关联分析的一些基本概念。

事务库如同上表所示的二维数据集就是一个购物篮事务库。

该事物库记录的是顾客购买商品的行为。

这里的TID表示一次购买行为的编号，items表示顾客购买了哪些商品。

事务事务库中的每一条记录被称为一笔事务。

在上表的购物篮事务中，每一笔事务都表示一次购物行为。

项集(T)包含0个或者多个项的集合称为项集。

在购物蓝事务中，每一样商品就是一个项，一次购买行为包含了多个项，把其中的项组合起来就构成了项集。

支持度计数项集在事务中出现的次数。

例如，｛Bread，Milk｝这个项集在事务库中一共出现了3次，那么它的支持度计数就是3，。

支持度(s)包含项集的事务在所有事务中所占的比例：，这里N是所有事务的数量。

上面的例子中我们得到了{Bread，Milk}这个项集的支持度计数是3，事物库中一共有5条事务，那么{Bread，Milk}这个项集的支持度就是。

频繁项集如果我们对项目集的支持度设定一个最小阈值，那么所有支持度大于这个阈值的项集就是频繁项集。

关联规则在了解了上述基本概念之后，我们就可以引入关联分析中的关联规则了。

关联规则其实是两个项集之间的蕴涵表达式。

如果我们有两个不相交的项集X和Y，就可以有规则X→Y, 例如｛Bread，Milk｝→{Diaper}。

想要以数据挖掘为专业，那么必须得知道什么是关联分析

想要以数据挖掘为专业，那么必须得知道什么是关联分析很多人经常在相关分析和关联分析之间犯迷糊，实际上两者之间的差别很明显，相关分析是分析数据列之间同增同减的关系，而关联分析反映的是一个数据行内部的各个元素之间同时出现或者“你在、我就在”的关系。

要讲关联分析，就不得不提到数据分析中“因果关系”的弱化这一趋势。

因果关系的弱化在数据分析领域，我们都自觉不自觉地在追求和挖掘数据之间的“因果关系”，销售投入的增长是否会引起销售回款的增长，人口的流入是否一定会带来房价的上涨。

随着数据分析技术的不断改进以及分析经验的不断积累，人们开始认识到，事物之间未必完全是“有因必有果、有果必有因”的关系，很多事件之间呈现一种比较松散的、逻辑性并非很强的“关联”关系，这种关联关系在数据挖掘而非传统统计的案例中经常出现。

要分析数据之间的“关联”关系，我们要应用apriori算法，目前各种主流的数据分析和挖掘软件，都采用了这个算法。

关联分析的指标在数据中间挖掘“同时存在”或者“你在、我就在”的技术，就是关联分析。

下面看几个重要的关联分析算法的基本概念。

支持度支持度就是数据中的相应的元素同时出现的概率，置信度就是统计中的条件概率，不过条件概率到了关联分析中有了“前项”和“后项”这两个概念，例如A出现以后B出现的概率，称A为前项，B为后项，那么A到B的置信度就是：反过来，B到A的置信度为：提升度提升度的定义，以X表示前项，Y表示后项，X到Y的提升度就是：仅计算支持度和置信度是不够的，还要看支持度指标，其规则如下：什么样的数据适合做关联分析商超数据商场和超市数据是关联分析最先被应用的地方，自然也是关联规则应用的主要场所。

商超数据做关联分析的主要目的就是用来做捆绑销售，这种捆绑销售主要体现在两个方面：❑实体店中的捆绑：将相应产品的货架摆放在一起或者放在比较相近的位置。

❑网店中的搭售：根据客户消费中的关联性，进行相关礼包的组合或者销售的推荐。

关联分析方法

关联分析方法关联分析是一种数据挖掘技术，它用于发现数据集中项之间的关联关系。

在商业领域中，关联分析被广泛应用于市场篮分析、交叉销售分析、购物篮分析等领域。

通过关联分析，我们可以发现产品之间的关联性，从而制定更加精准的营销策略，提高销售额。

关联分析的核心概念是支持度和置信度。

支持度衡量了项集在数据集中出现的频率，而置信度衡量了关联规则的可靠程度。

通过支持度和置信度，我们可以筛选出频繁项集，并生成关联规则。

在关联分析中，常用的算法包括Apriori算法和FP-Growth算法。

Apriori算法是一种基于候选集的频繁项集挖掘算法，它通过迭代生成候选项集，并使用剪枝技术来减少搜索空间。

而FP-Growth算法则是一种基于树结构的频繁项集挖掘算法，它通过构建FP树来高效地发现频繁项集。

关联分析方法在实际应用中具有广泛的价值。

在电商行业中，我们可以利用关联分析来挖掘用户购物篮中的商品关联规则，从而实现个性化推荐。

在超市零售领域，我们可以通过关联分析来发现商品之间的潜在关联性，优化商品陈列和促销策略。

在医疗领域，关联分析也可以帮助医生发现疾病之间的关联规律，辅助诊断和治疗决策。

除了传统的关联分析方法，近年来，随着深度学习和神经网络技术的发展，基于神经网络的关联分析方法也逐渐受到关注。

这些方法通过构建深度神经网络模型，可以更好地挖掘数据之间的非线性关联关系，提高关联规则的准确性和可解释性。

总的来说，关联分析方法是一种强大的数据挖掘技术，它可以帮助我们发现数据集中的潜在关联规律，为决策提供支持。

随着大数据和人工智能技术的不断发展，关联分析方法将在更多领域展现出其价值，成为数据驱动决策的重要工具之一。

数据分析之关联分析

一，关联分析定义关联分析，就是从大规模数据中，发现对象之间隐含关系与规律的过程，也称为关联规则学习。

例如：购物篮分析，最早是为了发现超市销售数据库中不同的商品之间的关联关系。

用于寻找数据集中各项之间的关联关系。

根据所挖掘的关联关系，可以从一个属性的信息来推断另一个属性的信息。

当置信度达到某一阈值时，可以认为规则成立。

常用的关联分析算法二，关联规则概念1.项与项集项，指我们分析数据中的一个对象；项集，就是若干项的项构成的集合，如集合{牛奶、麦片、糖}是一个3项集2.支持度某项集在数据集中出现的概率。

即项集在记录中出现的次数，除以数据集中所有记录的数量。

支持度体现的是某项集的频繁程度，只有某项集的支持度达到一定程度，我们才有研究该项集的必要。

support(A)=count(A)/count(dataset)=P(A)3.置信度项集A发生，则项集B发生的概率。

关联规则{A->B}中，A与B同时出现的次数，除以A出现的次数。

置信度体现的是关联规则的可靠程度，如果关联规则{A->B}的置信度较高，则说明当A发生时，B有很大概率也会发生，这样就可能会带来研究价值。

4.提升度关联规则{A->B}中，提升度是指{A->B}的置信度，除以B的支持度提升度体现的是组合（应用关联规则）相对不组合(不应用关联规则)的比值，如果提升度大于1，则说明应用该关联规则是有价值的。

如果提升度小于1，说明应用该关联规则起到了负面影响。

因此，我们应该尽可能让关联规则的提升度大于1，提升度越大，则应用关联规则的效果越好。

（注：如果两个事件相互独立，P(AB)=p(A)*P(B),提升度为1）.5.频繁项集如果项集I的支持度满足预定义的最小支持度阈值，则I是频繁项集。

通常情况下，我们只会对频繁出现的项集进行研究。

如果一个频繁项集含有K个元素，我们称之为频繁K项集。

6.最小支持度用户或专家定义的衡量支持度的一个阈值，表示项集在统计意义上的最低重要性。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

3) 剪枝：
1) 因为ade不在L3中，删除acde
4) C4={abcd}
降低复杂度的方法
备选项集的计算过程
扫描数据库并计算每个备选项集的支持度减少统计的次数，可以利用哈希桶来统计
Transactions
TID Items
1 Bread, Milk
2 Bread, Diaper, Beer, Eggs
读取第一项后:
null A:1
B:1
读取第二项后: null
A:1
B:1
B:1
C:1
D:1
FP生长算法
TID Items
1
{A,B}
2 {B,C,D}
3 {A,C,D,E}
4 {A,D,E}
5 {A,B,C}
6 {A,B,C,D}
7
{B,C}
8 {A,B,C}
9 {A,B,D}
10 {B,C,E}
Item
Count (1-项集)
Bread
4
Coke
2
Milk
4
Beer
3
Diaper
4
Eggs
1
Itemset
{Bread,Milk} {Bread,Beer} {Bread,DiMilk,Diaper}
支持度阙值 = 3
{Beer,Diaper}
Count
3 2 3 2 3 3
234 567
345
12 5 45 8
15 9
356 357 689
367 368
哈希桶
哈希函数
备选项哈希桶
1,4,7 2,5,8
2, 5, 8的哈希值
3,6,9
145 124 457
13 6
234 567
345
12 5 45 8
15 9
356 357 689
367 368
哈希桶
哈希函数
备选项哈希桶
如果{A, B, C, D}是频繁项集，备选规则有： ABC D, ABD C, ACD B, BCD A,
A BCD,B ACD, C ABD, D ABC AB CD,AC BD, AD BC, BC AD, BD AC, CD AB,
如果L的项个数为K，那么可能有2k – 2 个关联规则 (忽略L 与 L)
普遍到特殊 VS 特殊到普遍
Frequent
itemset
border null
null
..
..
..
..
Frequent itemset null border
.. ..
{a1,a2,...,an}
(a) General-to-specific
{a1,a2,...,an}
Frequent itemset border
(2-项集) (3-项集)
如果考虑所有的项集计算次数, 6C1 + 6C2 + 6C3 = 41
修剪项集后计算次数, 6 + 6 + 1 = 13
Itemset
Count
{Bread,Milk,Diaper}
3
Apriori算法
令k = 1
产生长度为1的频繁项集
循环直到没有新的频繁项集产生
频繁项集
影响复杂度的因素
最小支持度阈值的选择
降低最小支持度阈值导致更多频繁项集增加备选项次数和频繁项集的长度
数据集的维数（属性数目）
需要更多的空间来存储每个项的支持计数如果频繁项的数量也随之增加，计算和I/ O的成本也可能增加
数据库的大小
由于循环多遍，数据多少可能会增加算法的运行时间
N3
4
Milk, Diaper, Beer, Coke Bread, Milk, Diaper, Beer
5 Bread, Milk, Diaper, Coke
Hash Structure
k
Buckets
哈希桶
假设有15个备选3-项集
{1 4 5}, {1 2 4}, {4 5 7}, {1 2 5}, {4 5 8}, {1 5 9}, {1 3 6}, {2 3 4}, {5 6 7}, {3 4 5}, {3 5 6}, {3 5 7}, {6 8 9}, {3 6 7}, {3 6 8}
关联分析
规则评估标准
TID Items
1
Bread, Milk
支持度
一个项集出现的频率。
置信度
一个项集在另一个项集中出现的频率。
2
Bread, Diaper, Beer, Eggs
3
Milk, Diaper, Beer, Coke
4
Bread, Milk, Diaper, Beer
支持度的评估满足
X ,Y : ( X Y ) s( X ) s(Y )
降低复杂度的方法
null
A
B
C
D
E
不频繁的项集
AB
AC
AD
AE
BC
BD
BE
CD
CE
DE
ABC
ABD
ABE
ACD
ACE
ADE
BCD
BCE
BDE
CDE
修剪超集
ABCD
ABCE
ABDE
ACDE
BCDE
ABCDE
Apriori范例
5
Bread, Milk, Diaper, Coke
范例：
{Milk, Diaper} Beer
s (Milk, Diaper,Beer) 2 0.4
|T|
5
c (Milk, Diaper,Beer) 2 0.67 (Milk, Diaper) 3
关联分析目的
支持度计算()
一个项集出现的个数。如({Milk, Bread,Diaper}) = 2
支持度
一个项集出现的频率。如s({Milk, Bread,Diaper}) = 2/5
频繁项集
满足最小支持度阙值的所有项集。
关联规则
项集之间形如X->Y的蕴涵表达式。如{Milk, Diaper} {Beer}
当计算3-项集支持度时
Hash function
1,4,7
3,6,9
2,5,8
145
124 457
125 458
234 567 136345
159
356 357 689
367 368
哈希桶
哈希函数
备选项哈希桶
1,4,7 2,5,8
1, 4, 7的哈希值
3,6,9
145 124 457
13 6
12 3 5 6 13 5 6 15 6
235 6 25 6
3 56 35 6
123 125 126
Level 3
135 136
156
235 236
Subsets of 3 items
256
356
哈希桶实现的子集
1 2 3 5 6 交易
哈希函数
1+ 2356
2+ 356
1,4,7
3,6,9
3+ 56
规则产生
如果从频繁项集中产生规则
null
A:7
B:1
B:5
C:1 D:1
C:1
C:3
D:1 D:1
D:1
频繁项集：AB, ABC
D:1
FP生长算法
TID Items
1
{A,B}
2 {B,C,D}
3 {A,C,D,E}
4 {A,D,E}
5 {A,B,C}
6 {A,B,C,D}
7
{B,C}
8 {A,B,C}
9 {A,B,D}
10 {B,C,E}
2,5,8
145
234 567
136
345
124 125 159 457 458
356 357 689
367 368
哈希桶实现的子集
1 2 3 5 6 交易
哈希函数
12+ 356 13+ 56 15+ 6
1+ 2356
2+ 356
1,4,7
3,6,9
3+ 56
2,5,8
234 567
145
136
124 125 159 457 458
玩转大数据 – 深入浅出数据挖掘技术关联分析
关联规则挖掘
给定一批交易，根据项目的出现频率找出相互之间的关联规则
购物车记录
TID Items
1
Bread, Milk
2
Bread, Diaper, Beer, Eggs
3
Milk, Diaper, Beer, Coke
4
Bread, Milk, Diaper, Beer
从长度k中的频繁项集中产生长度为k + 1的备选项集
清除备选项集中对应子集为不频繁的备选项集
计算所有备选项集的支持度
排除不频繁的备选项集
1) 例如，备选3-项集是 L3={abc, abd, acd, ace, bcd} 2) 合并备选项集L3*L3
a. 从abc和abd中提取abcd b. 从acd和ace中提取acde
AB
A
AC
AD
B
C
D
AE
BC
BD
BE
E
CD
CE
DE