关于关联规则挖掘综述

合集下载

关联规则挖掘综述

关联规则挖掘综述关联规则挖掘是数据挖掘中的一种重要技术，它可以通过分析数据集中的项之间的关系，发现其中的规律和模式。

在实际应用中，关联规则挖掘可以帮助企业和组织发现消费者的购买习惯、市场趋势、产品组合等信息，从而更好地制定营销策略和提高销售额。

关联规则挖掘的基本思想是通过计算支持度和置信度来确定项之间的关联程度。

支持度指的是在数据集中同时出现两个或多个项的频率，而置信度则是指在出现一个项的情况下，另一个项出现的概率。

通过设定支持度和置信度的阈值，可以筛选出具有一定关联程度的项集，从而发现其中的规律和模式。

关联规则挖掘的算法主要包括Apriori算法、FP-Growth算法和Eclat 算法等。

其中，Apriori算法是最早被提出的关联规则挖掘算法之一，它通过逐层扫描数据集来生成频繁项集。

FP-Growth算法则是一种基于树结构的算法，它通过构建FP树来快速发现频繁项集。

Eclat算法则是一种基于垂直数据格式的算法，它通过交换和合并项集来发现频繁项集。

除了基本的关联规则挖掘算法外，还有一些扩展算法和改进算法。

例如，基于时间序列的关联规则挖掘算法可以用于分析时间序列数据中的项之间的关系；基于多层次关联规则挖掘算法可以用于分析多个层次之间的关系；基于模糊关联规则挖掘算法可以用于处理数据集中存在模糊关系的情况。

关联规则挖掘在实际应用中有着广泛的应用。

例如，在零售业中，可以通过关联规则挖掘来发现消费者的购买习惯和偏好，从而制定更加精准的营销策略；在医疗领域中，可以通过关联规则挖掘来发现疾病之间的关联性，从而更好地预防和治疗疾病；在金融领域中，可以通过关联规则挖掘来发现不同金融产品之间的关系，从而更好地进行风险控制和资产配置。

总之，关联规则挖掘是一种重要的数据挖掘技术，它可以帮助企业和组织发现数据集中的规律和模式，从而更好地制定营销策略和提高业务效率。

随着数据量的不断增加和数据挖掘技术的不断发展，关联规则挖掘将在更多的领域中得到广泛的应用。

关联规则挖掘综述

关联规则挖掘综述1引言数据挖掘（Data Mining），又称数据库中的知识发现（Knowledge Discovery in Database），在最近几年里已被数据库界所广泛研究，其中关联规则（Association Rules）的挖掘是一个重要的问题。

关联规则是发现交易数据库中不同商品（项）之间的联系，这些规则找出顾客购买行为模式，如购买了某一商品对购买其他商品的影响。

发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式对用户进行分类。

Agrawal等于1993年[1]首先提出了挖掘顾客交易数据库中项集间的关联规则问题，以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。

他们的工作包括对原有的算法进行优化，如引入随机采样、并行的思想等，以提高算法挖掘规则的效率；对关联规则的应用进行推广。

最近也有独立于Agrawal的频集方法的工作[18,19]，以避免频集方法的一些缺陷，探索挖掘关联规则的新方法。

同时随着OLAP技术的成熟和应用，将OLAP和关联规则结合[20,21]也成了一个重要的方向。

也有一些工作[6]注重于对挖掘到的模式的价值进行评估，他们提出的模型建议了一些值得考虑的研究方向。

本文第二部分是对关联规则基本概念的介绍，提出了关联规则的分类方法；第三部分是对挖掘算法的介绍，从经典的apriori开始，然后描述了对该算法的优化拓展，接着讲述脱离apriori算法的方法，最后是多层、多维的关联规则挖掘；第四部分归纳出关联规则价值衡量方法，主要从两个方面进行考虑：系统客观层面和用户主观层面；最后展望了关联规则挖掘的未来研究方向。

2关联规则的基本概念2.1基本概念和问题描述设I={i1, i2,…, im}是二进制文字的集合，其中的元素称为项(item)。

记D为交易(transaction)T的集合，这里交易T是项的集合，并且TÍI 。

对应每一个交易有唯一的标识，如交易号，记作TID。

机器学习中的关联规则挖掘方法简介

机器学习中的关联规则挖掘方法简介机器学习中的关联规则挖掘是一种用于发现数据集中不同属性之间的关联关系的方法。

这些关联关系可以帮助我们理解属性之间的相互作用，从而能够更好地进行数据分析和决策制定。

在本文中，我们将介绍机器学习中常用的关联规则挖掘方法，包括Apriori算法和FP-growth算法。

1. Apriori算法Apriori算法是一种用于发现频繁项集的经典算法。

频繁项集是指在数据集中经常同时出现的一组项的集合。

Apriori算法基于“先验原理”，即如果一个项集是频繁的，那么它的所有子集也是频繁的。

该算法采用一种逐层的方式，从$k$-项集生成$k+1$-项集，直到不能再生成新的项集为止。

Apriori算法的时间复杂度较高，因为需要多次扫描数据集进行计数。

2. FP-growth算法FP-growth算法是一种用于发现频繁项集的高效算法。

该算法通过构建一个称为FP树的数据结构来实现。

FP树具有压缩数据集的能力，从而减少了扫描数据集的次数。

FP-growth算法的关键步骤包括：构建FP树、挖掘频繁项集和生成条件模式基。

首先，根据事务的频率对数据集进行排序，然后构建FP树，最后通过递归遍历FP树来挖掘频繁项集。

相比于Apriori算法，FP-growth算法的时间复杂度更低。

3. 频繁项集和关联规则在关联规则挖掘中，频繁项集是指在给定最小支持度阈值下出现频率很高的项集。

而关联规则是从频繁项集中通过设置最小置信度阈值而获得的一种形式化表示。

关联规则通常具有“A ⇒ B”的形式，其中A和B都是项集。

关联规则的置信度表示当项集A出现时，项集B同时出现的概率。

4. 关联规则挖掘的应用关联规则挖掘在实际应用中有着广泛的应用。

例如，在市场篮子分析中，关联规则可以帮助商家了解购物者的购买习惯，从而进行商品定价和促销策略的制定。

此外，关联规则挖掘还可以应用于网络流量分析、医学诊断、检测新闻事件等领域。

5. 关联规则挖掘的局限性和挑战尽管关联规则挖掘是一种有用的方法，但也存在一些局限性和挑战。

关联规则挖掘算法综述

关联规则挖掘算法综述关联规则挖掘算法是数据挖掘中常用的一种算法，用于发现数据集中项之间的相关性。

其主要应用于市场营销、购物篮分析、推荐系统、质量控制等领域，具有很高的实用价值。

本文将就关联规则挖掘算法进行综述。

一、算法概述关联规则挖掘算法是通过寻找数据集中某些项之间的关联规则来实现的，这些关联规则通常用“如果……那么……”的形式表示，如：如果用户购买了咖啡和糖，那么他们可能也会购买牛奶。

其中，“如果”部分被称为先决条件，而“那么”部分称为结果。

在关联规则挖掘算法中，常用的度量方式有支持度和置信度。

支持度表示数据集中同时包含 A 和 B 的概率，置信度表示同时购买 A 和 B 的顾客中，有多少比例购买了 B。

常见的关联规则挖掘算法有 Apriori 算法、FP-Growth 算法、ECLAT 算法等。

二、Apriori 算法Apriori 算法是最早提出的关联规则挖掘算法，其核心思想是利用先验知识，减少候选项集的数量，从而缩短生成关联规则的时间。

该算法的主要步骤如下：1. 找出所有单项集；2. 如果某项集的支持度不低于阈值，则该项集为频繁项集；3. 利用频繁项集生成新的候选项集；4. 如果所有候选项集的支持度都不低于阈值，则从中选出频繁项集；5. 重复第 3 步和第 4 步，直到找不到新的频繁项集为止。

该算法的优点是简单易懂，容易实现。

缺点是计算效率低，对于大规模数据集处理较慢。

三、FP-Growth 算法FP-Growth 算法是另一种比较常见的关联规则挖掘算法，它可以从数据集直接构建频繁项集树，避免了需要生成 candidate set 时的大量的计算。

该算法的主要步骤如下：1. 获取单项集；2. 利用这些单项集和事务数据构建FP树；3. 从FP树中抽取频繁项集；4. 对于每个频繁项集，生成相关规则。

该算法的优点是计算效率高，能够处理大规模数据集。

缺点是实现较为复杂。

四、ECLAT 算法ECLAT 算法是 Apriori 算法的优化版，其核心思想是利用数据集的交集，递归处理候选项集。

关联规则挖掘Apriori算法研究综述

未来的发展趋势进行了预测和展望。
关键词：关联规则；海量数据；算法优化；发展趋势中图分类号：Ｐ１Ｔ３１文献标志码：Ａ文章编号：０６８２（００ — — ３１０ — ２８２１）９１０２１
ＡｒｖｅｅｉｗｏｓｏｉｔｖｒｅｍｉｎｇＡｐｒｏｉｌｒｔｆａｓｃａｉｅｕｌｎｉｉｒａｇｏｉｈｍ
ｆｕｅｅｅｏｍｅｔａｅｆｒｃｓｅｕｔｒｄｖｌｐｎｒｏｅａｔｄ．
Ｋｅｒｓａｓｃａｉｅｒｌｓ；ｍａｓｖａａ；ｏｔｉａｉｎ；ｄｖｌｐｎａｒｎｓｙｗｏｄ：ｓｏｉｔｖｕｅｓｉｅｄｔｐｉｚｔｍｏｅｅｏｍｅｔｌｔｅｄ
Ａｂｓｒｃ：Ｔｈａｓｃａｉｌｉｉｇｅｈｉｕｅｓａｉｏｔｎｅｈｑｅｎｄａａｍｉｉｇｒｓａｃ．ＡｐｉｒｌｏｉｍｉｌｓｉａｔａｔｅｓｏｉｔｖｅｒｅｍｎｎｔｃｎｑｉｎｍｐｒａｔｔｃｎｉｕｉｔｎｎｅｅｒｈｏｒｏｉｇｒｔａｈｓａｃａｓｃｌａｇｒｔｍｏａｓｃａｉｅｕｌｓＨｏｌｏｈｉｆｓｏｉｔｒｅ．ｖｗｔｄｇｕｔｒｌｓｆｈｅｓｏｉｔｄａａｅｆｏｏｉｏｔｈｅｕｅｏｔａｓｃａｅｄｔｓｔｒｍｔｅａａａｅｎｈＩｄｖｅｏｍｅｔｈｄｔｂｓｉｔｅＴｅｌｐｎｐｏｅｓｓｍｐｒａｔｒｃｓｉｉｏｔｎｗｉｉｃｅｓｎｏｍａｓｖｄｔｃｌｅｔｏａｄｔｒｇ．ＩｔｉｐｐｅｈｐｉｃｐｅａｄｐｉｚｔｏｉｅｏｈｔｎｒａｉｇｆｓｉｅａａｏｌｃｉｎｎｓｏａｅｎｈｓａｒｔｅｒｎｉｌｓｎｏｔｍｉａｉｎｄａｆＡｐｉｒａｇｒｔｍａｅｉｃｓｅａｄｅｅａｃａｓｃｌｐｉｉａｉｎｌｏｉｍｓｒａａｙｅａｔｅａｅｉ．Ｆｉａｌｔｅｒｎｓｆｒｏｉｌｏｈｉｒｄｓｕｓｄｎｓｖｒｌｌｓｉａｏｔｚｔｏａｇｒｔｍｈａｅｎｌｚｄｔｈｓｍｔｍｅｎｌｙｈｔｅｄｏ

关联规则挖掘综述

５Ａｐｒｉｏｒｉ算法
５．１算法的基本思想：Ａｐｒｉｏｒｉ算法主要工作在于寻找频繁项集。通过先计算所有的候选１－项集的集合Ｃ１。找出所有的频繁１－项集Ｌ１。然后根据频繁１－项集Ｌ１确定候选２－项集的集合Ｃ２。从Ｃ２中找出所有的频繁２－项集Ｌ２。再根据频繁２－项集Ｌ２确定候选３－项集的集合Ｃ３。从Ｃ３中找出所有的频繁３－项集Ｌ３。如此下去直到不再有候选项集。算法Ａｐｒｉｏｒｉ：Ｌ１＝ｆｉｎｄ＿ｆｒｅｑｕｅｎｔ＿１－ｉｔｅｍｓｅｔｓ（Ｄ）；ｆｏｒ（ｋ＝２；ＬＫ－１！＝ＮＵＬＬ；Ｋ＋＋）｛Ｃｋ＝ａｐｒｏｒｉ＿ｇｅｎ（Ｌｋ－１）；／／由Ｌｋ－１经过连接和剪枝产生Ｋ候选项集ｆｏｒｅａｃｈｔｒａｎｓａｃｔｉｏｎｔ∈Ｄ／／扫描所有的事务｛Ｃｔ＝ｓｕｂｓｅｔ（Ｃｋ，ｔ）；／／从ｔ中取得是候选集的子集ｆｏｒｅａｃｈｃａｎｄｉｄａｔｅｃ∈Ｃｔｃ．ｃｏｕｎｔ＋＋；｝Ｌｋ＝｛ｃ∈Ｃｋ｜ｃ．ｃｏｕｎｔ＞＝ｍｉｎ＿ｓｕｐ｝｝ＲｅｔｕｒｎＬ＝ＵｋＬｋ；在论文中，Ａｇｒａｗａｌ等引入了修剪技术（Ｐｒｕｎｉｎｇ）来减小候选集Ｃｋ的大小，利用我们前面介绍过得性质：频繁项集的所有非空子集都必须也是频繁的。这个修剪过程可以降低计算所有的候选集的支持度的代价。在论文［１］中，还引入了杂凑树（ＨａｓｈＴｒｅｅ）方法来有效的计算每个项集的支持度。５．２算法的性能分析在ａｐｒｉｏｒｉ算法中，Ｃｋ中的每个元素需要在交易数据库中进行验证以决定是否加入Ｌｋ，它可能需要重复地扫描事务数据库，这里的验证过程是算法性能的一个瓶颈。当数据库很大的时候，就会需要很大的Ｉ／Ｏ负载。５．３算法的改进虽然ａｐｒｏｒｉ算法自身提供了一些改进，但是仍然不能令人满意，所以人们提出了很多解决的方案，旨在提高原算法的效率。涉及散列和事务压缩的变形可以用来使得过程变得更有效。其他变形涉及划分数据（在每一部分上挖掘，然后合并结果）和数据选样（在数据子集上挖掘）。这些变形可以将数据扫描次数减少到两次

关联规则挖掘研究综述

研究进行了展望．
项集ｘ的支持度ＳｐｒＸ描述了项集ｘ的ｕｐｔ）ｏ（
重性．
１１４最小支持度（．．支持度闽值）与频繁项集
最小支持度（ｉｍｍＳｐｏ）Ｍｎｕｕｐｒ表示发现关联ｉｔ
规则要求数据项必须满足的最小支持阈值，记为
维普资讯
第２卷５
第１期
成都大学学报（自然科学版）
ＪｕｎｌｆｈｎｄｎｖｒｉＮｔｒｌｃｅｃ）ｏｒａｏｅｇｕＵｉｅｓｙ（ａｕａｉｅＣｔＳｎ
Ｖ１５Ｎ．ｏ．ｏ１２
Ｍａ．ｏ６ｔ２ｏ
ｄｎｅ定义为：ｅｃ）ＣｎｄｎｅＲ＝ｕｐｒＸ）ＳｐｒＸｏｅ（）Ｓｐｏ（ＵＹ／ｕｐｔ）ｉｆｃｔｏ（规则的置信度描述了规则的可靠程度．１１７最小置信度（．．置信度阈值）
性质１任何频集的子集必定是频集．性质２任何非频繁项集的超集必定是非频
近几年里已被业界所广泛研究，其中关联规则
集Ｄ即事务数据库）（．
１１３数据项集的支持度．．
（ｓｃｔｎＲｌ）Ａｓｉｉｕｅ的挖掘就是其中一个重要的研ｏａｏｓ究热点．关联规则可以发现交易数据库中不同商
品（之间的联系，通过规则可找出顾客购买行项）为模式，如购买某一商品对购买其他商品的影响．发现这样的规则可以应用于商品货架设计、
识发现（ｎｗｅｇｉｏｅｙｉａｂｓ）ＫｏｌｅＤｓｖｒｎＤｔａｅ，在最ｄｃａ

关联规则挖掘算法综述

关联规则挖掘算法综述论文导读：一个大型数据库,其各个字段之间存在着各种各样的关系,这些关系就隐含在数据库所包含的数据中,关联规则挖掘的目的是找出这些隐藏的关联。

4）频繁项集：支持度不小于用户给定的最小支持度的项集。

Apriori性质：频繁项集的所有非空子集都必须也是频繁的。

通过实验可以发现寻找频繁集主要的计算是在生成频繁2-项集Lk上，Park等就是利用了这个性质引入hash技术来改进产生频繁2-项集的方法。

的置信度最低。

关键词：关联规则,频繁集,Apriori,FP-tree,支持度,置信度一、关联规则挖掘简介一个大型数据库,其各个字段之间存在着各种各样的关系,这些关系就隐含在数据库所包含的数据中,关联规则挖掘的目的是找出这些隐藏的关联。

1、问题描述与基本概念1）、问题描述关联规则的挖掘问题可形式化描述如下：设I={i 1 ,i 2 ,…,i m }是由m个不同的项目组成的集合,给定一个事务数据库D,其中的每一个事务T是I中一组项目的集合,即,T有唯一的标识符TID.一条关联规则就是一个形如的蕴含式,其中, 。

关联规则成立的条件是：①它具有支持度S,即事务数据库D中至少有S%的事务包含X∪Y；②它具有置信度C，即在事务数据库D所包含X的事务中,至少有C%的事务同时也包含Y，关联规则的挖掘问题就是在事务数据库D中找出具有用户给定的最小支持度和最小置信度的关联规则。

2）、基本概念：1）项集：项的集合。

2）k项集：包含k个项的项集。

3）项集的出现频率：包含项集的事务数目。

4）频繁项集：支持度不小于用户给定的最小支持度的项集。

5）频繁k项集：支持度不小于用户给定的最小支持度的k项集。

2、关联规则分类：3、关联规则价值衡量方法1）、主观兴趣度度量：用户决定规则的有效性、可行性，没有统一的标准。

2）、客观兴趣度度量：①“支持度—置信度”框架:②兴趣度：③IS度量：二、关联规则的挖掘算法挖掘关联规则可以分解为以下两个过程：①找出存在于事务数据库中的所有频繁项集。

关联规则挖掘方法的研究及应用

关联规则挖掘方法的研究及应用一、本文概述本文旨在深入研究关联规则挖掘方法，探索其在不同领域的应用价值。

关联规则挖掘是一种数据挖掘技术，旨在从大型数据集中发现项之间的有趣关系，如购物篮分析中经常一起购买的商品组合。

本文首先将对关联规则挖掘的基本概念、原理和方法进行详细的介绍和梳理，为后续的应用研究提供理论基础。

接着，本文将重点探讨关联规则挖掘在多个领域的应用。

这些领域包括但不限于零售业、电子商务、医疗保健、社交网络分析等。

在这些领域中，关联规则挖掘可以帮助我们理解客户行为、优化产品组合、预测疾病趋势、分析社交网络结构等，具有重要的实际应用价值。

本文还将对关联规则挖掘方法的优化和改进进行探讨。

尽管关联规则挖掘已经取得了一些重要的成果，但在处理大规模、高维度、复杂数据集时，仍然存在一些挑战。

因此，我们需要不断探索新的算法和技术，以提高关联规则挖掘的效率和准确性。

本文将总结关联规则挖掘方法的研究现状和未来发展趋势，为相关领域的研究和实践提供参考和借鉴。

通过本文的研究，我们希望能够为关联规则挖掘的应用提供更多的思路和方法，推动其在更多领域发挥更大的作用。

二、关联规则挖掘方法理论基础关联规则挖掘是数据挖掘领域中的一种重要技术，它主要用于发现数据集中项之间的有趣关系。

这些关系通常表现为形如“如果购买了A，则很可能也会购买B”的关联规则。

关联规则挖掘方法理论基础主要涉及到频繁项集和关联规则的产生，以及它们之间的度量指标——支持度和置信度。

我们需要明确什么是频繁项集。

在给定的事务数据库中，如果某个项集出现的频率高于用户设定的最小支持度阈值，那么这个项集就被称为频繁项集。

最小支持度阈值是用户根据实际需求设定的一个参数，它决定了项集被认为是“频繁”的最低标准。

在确定了频繁项集之后，我们可以进一步生成关联规则。

关联规则是一种形如“A -> B”的蕴含关系，其中A和B都是项集。

一个关联规则是否成立，取决于它的支持度和置信度是否满足用户设定的阈值。

基于关联规则的数据挖掘技术综述

摘要：阐述在数据挖掘领域中的四种常用的数据挖掘技术方法，以数据挖掘技术中的关联规则挖掘为基础．阐述关联规则挖掘的经典算法Ａｐｉｒ算法的基本思想。通过关联规则挖掘算法ｒｉｏ实验给出该算法的具体使用方法．结该算法存在的不足。总
收稿日期：０１３０２１ —０ —１修稿日期：０１Ｏ —２２１一３０
作者简介：刘丽（９７，，汉人，师，士研究生，究方向为数据挖掘技术１７一）女武讲硕研
现代机２１．国计算０１４０
＼＼＼
、
三
．
Hale Waihona Puke 一据项集计算每个候选数据项发生的次数．后基于并然
⑤ 为生成频繁３项集，执行Ｃ＝２Ｌ＝｛３一３Ｌｌ（ｌ｝２Ｉ，
（，，｝｛，，】ＩＩＩ，ＩＩＩ，３ｓ｛，，】根据ＩＩＩ，ＩＩＩ，１（，，）｛ＩＩ，ＩＩＩ】１２ｓｌ４｛，｝２，４Ｉ ’｝２５。ｚ４Ａｆｆ性质１可以确定后５个候选不可能是频繁的。ｐｏｉｉ，因此，用算法中的剪枝步，它们从Ｃ中删除。后利把然
掘的问题
过数据分析工具．海量数据存储中抽取模式、出数从找据变化的规律．而改变 “ 据丰富、息贫乏 ” 从数信的局面ｆｌｌ。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

关联规则挖掘综述潮娇娇摘要：关联规则挖掘是数据挖掘中的一个很重要的研究内容之一，近年来很多国内外研究人员对其进行了大量的研究。

为了更进一步的了解关联规则挖掘技术，并掌握其发展方向和目前的研究现状。

本文对关联规则挖掘技术进行了相关综述。

首先介绍了关联规则的基本概念，其次分析了近年来一些经典关联规则算法的改进，并概述了相关算法在实际中的应用。

最后对关联规则挖掘技术未来的发展趋势进行了讨论。

关键字：关联规则；算法；数据挖掘；Abstract: association rule mining is one of the important data mining research contents in this year, many domestic and foreign researchers have done a lot of research on it. In order to understand further the association rule mining technology, and grasp the development status and direction of research at present. This article of association rule mining technology related review. Firstly introduces the basic concepts of association rules, then analyzes the improvement of some classical algorithm of association rules in recent years, and summarizes the application of related algorithms in practice. At the end of the association rule mining technology development trend in the future are discussed.Key words: association rules; algorithms; data mining;引言随着计算机技术与数据库技术的飞速地发展，数据资源越来越多。

但巨大的数据，依然没有解决我们的信息需求问题，针对这种情况，产生了数据库的数据挖掘。

与传统技术相比，数据挖掘技术是一种新型的信息处理技术，能够自动和智能地把位置数据或者大量数据中潜在信息转换成人们需要的信息和知识的技术。

它可以从数据库提取有用的知识、规律以及更高层次的信息，对这些进行分析，帮助人们更有效的利用海量数据中存在的价值。

目前对数据挖掘的发展趋势及研究方向主要集中在数据挖掘的数据总结、分类、聚类、关联规则等方面。

而关联规则挖掘作为数据挖掘的核心内容之一，进来得到了很快的发展。

并已经成为当今数据挖掘的热点。

为此，对关联挖掘技术的研究具有重要的意义。

本文将重点介绍关联规则挖掘技术的相关研究。

主要对近年来关联规则挖掘技术的算法改进进行综述以及未来的发展方向。

1、关联规则基本概念1.1 相关介绍关联规则作为数据挖掘的核心研究内容之一，它是大量数据中发现信息之间可能存在的某种关联或者相关联系。

通过分析这些挖掘出的数据联系，可以在现实中帮助我们预测或决定某些事情将会发生。

有效的提高了我们制定出准确的决策。

目前，关联规则挖掘技术广泛应用于金融、互联网、医学等多个领域。

最早的关联挖掘是未来发现交易数据库中不同商品之间的联系，通过分析这种联系获得有关购买者的一般的购买模式。

从而有助于商家合理地安排进货、库存及货架设计，更好的制定发展计划和规避风险。

1.2 相关定义关联规则是通过形如X →Y 的一种蕴涵式表达的，其中X 和Y 是不相关的项集，（X，Y）∈I，并且有X ∩Y=NULL 成立。

关联规则强度可用通过支持度和置信度进行度量。

支持度确定规则可以用于给定数据集的频繁程度，而置信度确定Y 在包含X 的事物中出现的频繁程度。

支持度和置信度两个关键的相关形式定义[1]如下:（1）规则X →Y 的支持度：规则X →Y 在交易数据库D 中的支持度（support）是指交易集中包含X 和Y 的交易数与所有交易数之比，记为support(X →Y)，即：support(X →Y)=|X ∩Y|/|D|。

（2）规则X →Y 置信度（confidence）：是指规则X →Y 在交易集中的同时包含X 和Y 的交易数与只包含X 的交易数之比，记为confidence(X →Y)，即：confidence(X →Y)=|X ∩Y|/|X|。

规则的支持度和置信度是两个不同的量化标准。

2、关联规则算法2.1 典型的关联规则算法Apriori 算法是最著名的关联规则挖掘算法，它是一种以概率为基础的关联规则算法。

通过迭代检索方法找出数据库中的项集，该项集的支持度要不低于用户设定的阀值。

最后将这些项集合成得到所有数据库的频繁项集，利用这个构造出满足用户最小置信度的规则。

但随着数据的增大，对于大型数据库的挖掘，该算法仍存在一些不足。

其一，在产生大量的候选集时，需要花费大量的时间处理，降低了算法的效率。

其二，该算法在对数据库进行扫描时，由于数据库的庞大，需要相当大的I/O负载。

这两个缺点也是如今很多研究人员在改进该算需要重点研究的方向。

本文在该节中简单的介绍了关于Apriori算法的相关改进研究。

随着数据挖掘技术的发展，大量基于分布式结构的大数据系统也相继被提出。

其中以MapReduce方法作为实现自动分布式计算的方法为很多算法的并行化提供了新的思路。

也为Apriori 算法的并行化提供了一种全新的思路。

但是算法并行化后仍存在很多不完备的地方。

例如在计算频繁项集时使用的时间增加了。

为此，文献[2]针对这个问题进行了研究，通过将基于矩阵关联规则算法与MapReduce 算法结合，提出了一种基于矩阵的并行关联规则算法Apriori_MMR。

该算法结合了数据划分的思想进行并行化改进，只需要对事务数据库进行两次扫描。

第一次是产生频繁1-项集的集合；另一次是生成候选项集的局部支持度，利用局部支持度可以得出全局支持频度，最后生成所有频繁项集的集合。

该算法利用高度并行化执行频繁项集的计算过程，大幅度的减少了候选项集，有利于降低系统通信等的能量消耗。

对事物数据库减少扫描次数的同时，还通过矩阵化使事物数据库得到了进一步的压缩，从而降低了空间复杂度和时间复杂度。

最后还将该算法与Apriori_MR 算法进行了对比，实验结果表明，该文改进的算法比Apriori_MR 算法在扫描同等事务数据库时耗时更短、加速比更大。

则可以证明，改进后的Apriori算法能提高对大型数据库进行挖掘的效率。

文献[3]针对Apriori算法的两个缺陷进行了改进。

改进算法Improve_Apriori_1主要通过构建辅助表来减少访问表中的无效记录来大幅降低访问数据库的次数，从而提升运算效率．另外，将由事务中包含的项目情况生成的数据库表装入内存中，之后的扫描过程无需再访问数据库，而是直接访问内存以减少I/O开销，提高访问速度。

改进算法Improve-Apriori2是采用对项集事务列表求交集的策略减少扫描数据库的次数，使算法达到较高效率.该算法全过程只扫描一次事务数据库，而Apriori 算法则反复扫描数据库致使I/O开销较大。

经过试验证明，这个两个算法的改进能有效的压缩搜索空间，减少了不必要事务的扫描时间，提高频繁项集的生成率，其性能比传统Apriori算法更优。

2.2基于序列的关联规则挖掘算法Agrawal 和Strikant 最早提出了序列模式挖掘的概念，即从序列数据库中挖掘满足最小支持度的频繁子序列的过程。

序列模式挖掘不同于关联规则挖掘项集属性内部的联系，它主要研究项集之间的联系。

基于序列的关联规则挖掘算法，文献[4]提出了一种基于逻辑的频繁序列模式挖掘算法。

序列模式挖掘不同于关联规则挖掘项集属性内部的联系，它主要研究项集之间的联系。

传统的类Apriori 频繁序列模式挖掘算法都是基于支持度框架理论，必须预先设定一个最小支持度阈值作为判断是否为频繁模式的标准，而这通常需要较深的领域知识或大量的实践来设定，因此目前仍没有统一的评判标准。

同时，挖掘的规则数量庞大，挖掘结果对于用户来说难以理解。

该文主要针对这两个问题，首次在频繁序列模式挖掘中引入了逻辑的思想，通过逻辑规则过滤，去除大量不合逻辑的、无用的规则集，有效的解决了挖掘结果对支持度阈值的依赖性，同时压缩了规则集的规模，较大地提高了规则集的可理解性和可用性。

不同于上面的序列模式挖掘，文献[5]中提出的是带通配符约束的序列模式挖掘，是基于传统的模式挖掘问题上的提高。

他们的研究背景是，对人类的很多疾病,如细菌病毒等,都与基因中某部分的重复片段有关.然而,重复模式并不是简单地复制自己,它们在序列中每次出现的形式可能不一样,模式中相邻两个字符之间可能插入或删除较短的序列片段。

因此,带有通配符的序列模式挖掘比传统的序列模式挖掘更具有重要的研究价值。

该论文设计的带有通配符约束的序列模式挖掘问题,用户可以定义灵活的通配符约束,模式的任意两个出现都不共享序列中同一位置的字符,使得问题定义在实际应用中更加合理。

并设计了两种模式支持度的计算方法，对不同的支持度计算方法对算法的时间性能和解的完备性的影响进行了分析讨论。

结果表明，与相关的序列模式挖掘算法相比,One-Off Mining 具有更好的时间性能和解的完备性。

2.3基于约束的规则挖掘方法关联规则挖掘在实际应用中，用户的参与决定规则的有效性、可行性。

因此，根据用户信息的需求设定约束条件以达到更实用、使用户更感兴趣的规则目的。

基于约束的规则挖掘方法则满足这个需求，该方法将提前设定的约束条件与算法有机结合，增强了挖掘的实用性。

文献[6]提出了一种深度优先遍历FP-tree的约束概念格建立算法DFTFH(depth-firsttraversal FP-tree to Hasse)，进行实际应用中用户更为关心的约束关联规则挖掘问题。

DFTFH 算法旨在构造以规则后件固定为约束条件的约束概念格，提取频繁项集上的约束关联规则。

该算法只进行一次深度优先遍历FP-tree产生所有候选节点组合，解决了现有算法重复扫描FP-tree 的问题。

然后依据最小支持度阈值和规则约束条件进行节点过滤，使约束概念格中的每一节点都是满足约束条件的频繁节点。

最后只需扫描约束概念格中的父子节点便可提取出后件固定的约束关联规则。