关联规则挖掘Apriori算法综述

合集下载

关联规则Apriori算法

关联规则Apriori算法

关联规则Apriori算法1. 算法概述在关联规则挖掘研究中,Apriori算法是目前许多串行算法中最著名的,其他大多数算法都是基于Apriori算法的不断改进。

这些算法都运用了一个共同的性质,即频繁项目集的任一子集必定也是频繁项目集。

Apriori算法通过不断增加候选项目集的长度来逐步发现最大频繁项目集。

首先搜索1-频繁项目集,然后搜索2-频繁项目集,直到不能再增加频繁项目集的长度为止。

在每次循环过程中,产生k-候选频繁项目集的集合C k,然后计算支持度来搜索k-频繁项目集L k。

Apriori算法主要有三个步骤:第一步:连接(k-1)-频繁项目集产生k-候选频繁项目集C k(k > 1)。

第二步:从C k中修剪所有(k-1)-子集不属于L k-1的项,即包含非频繁项目的候选项目集。

第三步:扫描事务数据库来计算候选项目集的支持度,获得频繁项目集。

2. 算法Apriori的挖掘过程Apriori算法用伪代码描述如下:Input: Database, D, of transaction; Minimum support threshold, min-sup;Output: L, frequent itemsets in D.(1) L1={large 1 - itemsets};(2) For (k=2; L k-1≠ ; k++) do begin(3) C k=Apriori-gen (L k-1); // C k是长度为k的候选频繁项目集的集合(4) For each transaction t∈D do begin(5) C t=subset (C k, t); //C t是transactions t包含的候选频繁项目集(6) For each candidate c∈C t do(7) c. count++;(8) End(9) L k={c∈C k| c. count ≥ min-sup}(10) End(11) Answer=∪k L k;Apriori算法调用了Apriori-gen(L k-1)是为了通过(k-1)-频繁项目集,连接产生k-候选频繁项目集。

Apriori算法在关联规则挖掘中的应用

Apriori算法在关联规则挖掘中的应用

Apriori算法在关联规则挖掘中的应用随着互联网时代的到来,数据规模呈现指数级增长,为了从海量数据中挖掘出有用的信息,数据挖掘应运而生。

而关联规则挖掘作为数据挖掘中的一种常用技术,已经得到了广泛的应用。

在关联规则挖掘中,Apriori算法是一种比较典型的算法,它能够有效地从大规模的数据中挖掘出所有相关的规则。

一、Apriori算法原理Apriori算法是一种基于频繁项集的挖掘方法。

该算法的基本思想是:若一个项集是频繁项集,那么它的所有子集也都是频繁项集。

这一性质被称为Apriori原理。

Apriori算法的具体步骤如下:1. 找到数据集中所有的频繁1项集;2. 基于频繁1项集,生成所有的候选2项集,并计算它们的支持度;3. 去掉支持度低于设定阈值的候选2项集,得到所有的频繁2项集,并用它们生成候选3项集;4. 重复2、3步骤,直到所有的频繁项集都被发现为止。

二、Apriori算法在关联规则挖掘中的应用在关联规则挖掘中,Apriori算法的应用比较广泛,它可以帮助我们发现不同商品之间的相关性,从而为商家提供更好的销售策略。

例如,一个超市可以通过Apriori算法发现女性购买了某种化妆品,那么很有可能她们还会购买同品牌的其他化妆品,进而为他们提供相关的优惠策略,吸引更多的女性消费者。

在具体实践中,关联规则挖掘需要先确定最小支持度和最小置信度阈值。

最小支持度是指在数据集中出现某个项集的次数占总记录数的百分比,最小置信度是指某条规则被满足的概率。

当设定好这两个阈值后,Apriori算法就可以从数据集中发现频繁项集和关联规则。

三、Apriori算法的优缺点1. 优点:Apriori算法能够有效地挖掘出大规模数据中的相关规则,特别是在数据量较小的情况下,运行效果非常显著。

2. 缺点:Apriori算法存在一定的问题,如计算频繁项集时,需要扫描整个数据集,需要的时间和硬件资源较多,计算效率并不高。

此外,对于大规模数据集,在频繁项集的生成和搜索上,Apriori算法存在较大的局限性。

Apriori算法总结

Apriori算法总结

Apriori ['eɪprɪ'ɔ:rɪ]Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。

而且算法已经被广泛的应用到商业、网络安全等各个领域。

其核心是基于两阶段频集思想的递推算法。

该关联规则在分类上属于单维、单层、布尔关联规则。

在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。

经典的关联规则数据挖掘算法Apriori 算法广泛应用于各种领域,通过对数据的关联性进行了分析和挖掘,挖掘出的这些信息在决策制定过程中具有重要的参考价值。

Apriori算法广泛应用于商业中,应用于消费市场价格分析中,它能够很快的求出各种产品之间的价格关系和它们之间的影响。

通过数据挖掘,市场商人可以瞄准目标客户,采用个人股票行市、最新信息、特殊的市场推广活动或其他一些特殊的信息手段,从而极大地减少广告预算和增加收入。

百货商场、超市和一些老字型大小的零售店也在进行数据挖掘,以便猜测这些年来顾客的消费习惯。

Apriori算法应用于网络安全领域,比如网络入侵检测技术中。

早期中大型的电脑系统中都收集审计信息来建立跟踪档,这些审计跟踪的目的多是为了性能测试或计费,因此对攻击检测提供的有用信息比较少。

它通过模式的学习和训练可以发现网络用户的异常行为模式。

采用作用度的Apriori算法削弱了Apriori算法的挖掘结果规则,是网络入侵检测系统可以快速的发现用户的行为模式,能够快速的锁定攻击者,提高了基于关联规则的入侵检测系统的检测性。

Apriori算法应用于高校管理中。

随着高校贫困生人数的不断增加,学校管理部门资助工作难度也越加增大。

针对这一现象,提出一种基于数据挖掘算法的解决方法。

将关联规则的Apriori算法应用到贫困助学体系中,并且针对经典Apriori挖掘算法存在的不足进行改进,先将事务数据库映射为一个布尔矩阵,用一种逐层递增的思想来动态的分配内存进行存储,再利用向量求"与"运算,寻找频繁项集。

基于Apriori算法的关联规则挖掘

基于Apriori算法的关联规则挖掘

基于Apriori算法的关联规则挖掘关联规则挖掘是数据挖掘中的一项重要任务,它可以从大规模数据集中发现项集之间的关联关系。

其中,Apriori算法是最常用的关联规则挖掘算法之一,它基于频繁项集的概念,通过逐层扫描事务数据库来发现频繁项集,并进一步生成关联规则。

一、引言关联规则挖掘在实际应用中具有广泛的价值,如市场篮子分析、网络推荐系统、医疗数据分析等。

本文将重点介绍基于Apriori算法的关联规则挖掘过程,并以超市购物篮分析为例,说明其具体应用。

二、关联规则挖掘过程1. 数据预处理在进行关联规则挖掘之前,首先需要对数据进行预处理。

包括数据清洗、数据集编码、去重等步骤,以确保数据的准确性和一致性。

2. 基于Apriori算法的频繁项集发现Apriori算法通过迭代的方式来发现频繁项集。

首先,扫描数据集,统计每个项的支持度,将支持度高于设定阈值的项作为频繁项集的候选项。

然后,通过组合已发现的频繁项集,生成更高阶的候选项并计算其支持度。

最后,重复以上步骤,直到无法生成更高阶的候选项集为止。

3. 关联规则生成在得到频繁项集之后,接下来就是生成关联规则。

通过设置置信度阈值,将频繁项集分解为两个非空子集,并计算它们之间的置信度。

对于置信度高于设定阈值的关联规则,认为其是有效的关联规则。

同时,还可以通过计算支持度、提升度等指标,对关联规则进行进一步评估和筛选。

4. 关联规则评价和筛选关联规则的质量评价是关联规则挖掘的重要环节。

常用的评价指标包括支持度、置信度、提升度等。

可以根据具体的应用领域和需求,选择适合的评价指标来筛选出高质量的关联规则。

三、超市购物篮分析实例以超市购物篮分析为例,假设超市的购物数据包括多个顾客的购买记录,每条记录表示一次购买行为,包含多个商品。

使用Apriori算法进行关联规则挖掘,可以发现购买行为中的关联关系,为超市的销售策略提供参考。

首先,进行数据预处理,包括数据清洗、数据集编码、去重等步骤,以确保数据的准确性和一致性。

关联规则挖掘算法综述

关联规则挖掘算法综述

关联规则挖掘算法综述关联规则挖掘算法是数据挖掘中常用的一种算法,用于发现数据集中项之间的相关性。

其主要应用于市场营销、购物篮分析、推荐系统、质量控制等领域,具有很高的实用价值。

本文将就关联规则挖掘算法进行综述。

一、算法概述关联规则挖掘算法是通过寻找数据集中某些项之间的关联规则来实现的,这些关联规则通常用“如果……那么……”的形式表示,如:如果用户购买了咖啡和糖,那么他们可能也会购买牛奶。

其中,“如果”部分被称为先决条件,而“那么”部分称为结果。

在关联规则挖掘算法中,常用的度量方式有支持度和置信度。

支持度表示数据集中同时包含 A 和 B 的概率,置信度表示同时购买 A 和 B 的顾客中,有多少比例购买了 B。

常见的关联规则挖掘算法有 Apriori 算法、FP-Growth 算法、ECLAT 算法等。

二、Apriori 算法Apriori 算法是最早提出的关联规则挖掘算法,其核心思想是利用先验知识,减少候选项集的数量,从而缩短生成关联规则的时间。

该算法的主要步骤如下:1. 找出所有单项集;2. 如果某项集的支持度不低于阈值,则该项集为频繁项集;3. 利用频繁项集生成新的候选项集;4. 如果所有候选项集的支持度都不低于阈值,则从中选出频繁项集;5. 重复第 3 步和第 4 步,直到找不到新的频繁项集为止。

该算法的优点是简单易懂,容易实现。

缺点是计算效率低,对于大规模数据集处理较慢。

三、FP-Growth 算法FP-Growth 算法是另一种比较常见的关联规则挖掘算法,它可以从数据集直接构建频繁项集树,避免了需要生成 candidate set 时的大量的计算。

该算法的主要步骤如下:1. 获取单项集;2. 利用这些单项集和事务数据构建FP树;3. 从FP树中抽取频繁项集;4. 对于每个频繁项集,生成相关规则。

该算法的优点是计算效率高,能够处理大规模数据集。

缺点是实现较为复杂。

四、ECLAT 算法ECLAT 算法是 Apriori 算法的优化版,其核心思想是利用数据集的交集,递归处理候选项集。

关联规则挖掘Apriori算法研究综述

关联规则挖掘Apriori算法研究综述
未 来 的发 展 趋 势 进 行 了预 测 和展 望 。
关键词 :关联 规则 ;海量数据 ;算法优化 ;发展 趋势 中图分类号 : P 1 T 3 1 文献标 志码 : A 文章 编号 :0 6 8 2 (0 0 — — 3 1 0 — 2 82 1 )9 1 0 2 1
A r v e e i w o s o i tv r e m i ng Apr o i l rt f a s c a i e ul ni i r a go ihm
f u e e e o m e t a e f r c se ut r d v l p n r o e a t d.
K e r s a s caie r ls;m asv aa; o t iain; d v lp na rn s y wo d : so itv ue s ie d t pi z t m o e eo me tlte d
Abs r c : Th a s ca i l i i g e h i ue s a i o tn e h q e n daa m i i g r s a c .Ap i r l o i m i l s i a ta t e s o it ve r e m n n t c n q i n mp ra t t c ni u i t n n e e r h o ro i g rt a h s a c a sc l a g rt m o a s c a i e u l s Ho lo h i f s o i t r e . v w t d g u t r ls f h e s o i t d a a e fo o i o t he u e o t a s c a e d t s t r m t e a a a e n h I d veo m e t h d t b s i t e T e l p n p o e s s mp ra t r c s i i o t n wi i c e sn o ma sv d t c le to a d t r g . I t i p pe h p i c p e a d p i z to i e o h t n ra ig f s i e aa o lc i n n so a e n h s a r t e rn i l s n o tmi ai n d a f Ap i r a g rt m a e ic s e a d e e a c a s c l p i i ai n l o i m s r a a y e a t e a e i .Fi a l t e r n s f ro i l o h i r d s u s d n s v r l ls ia o t z to a g rt m h a e n l z d t h s m tme nl y h te d o

Apriori算法总结

Apriori算法总结

A p r i o r i算法总结(总8页) --本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--Apriori ['eɪprɪ'ɔ:rɪ]Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。

而且算法已经被广泛的应用到商业、网络安全等各个领域。

其核心是基于两阶段频集思想的递推算法。

该关联规则在分类上属于单维、单层、布尔关联规则。

在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。

经典的关联规则数据挖掘算法Apriori 算法广泛应用于各种领域,通过对数据的关联性进行了分析和挖掘,挖掘出的这些信息在决策制定过程中具有重要的参考价值。

Apriori算法广泛应用于商业中,应用于消费市场价格分析中,它能够很快的求出各种产品之间的价格关系和它们之间的影响。

通过数据挖掘,市场商人可以瞄准目标客户,采用个人股票行市、最新信息、特殊的市场推广活动或其他一些特殊的信息手段,从而极大地减少广告预算和增加收入。

百货商场、超市和一些老字型大小的零售店也在进行数据挖掘,以便猜测这些年来顾客的消费习惯。

Apriori算法应用于网络安全领域,比如网络入侵检测技术中。

早期中大型的电脑系统中都收集审计信息来建立跟踪档,这些审计跟踪的目的多是为了性能测试或计费,因此对攻击检测提供的有用信息比较少。

它通过模式的学习和训练可以发现网络用户的异常行为模式。

采用作用度的Apriori算法削弱了Apriori算法的挖掘结果规则,是网络入侵检测系统可以快速的发现用户的行为模式,能够快速的锁定攻击者,提高了基于关联规则的入侵检测系统的检测性。

Apriori算法应用于高校管理中。

随着高校贫困生人数的不断增加,学校管理部门资助工作难度也越加增大。

针对这一现象,提出一种基于数据挖掘算法的解决方法。

将关联规则的Apriori算法应用到贫困助学体系中,并且针对经典Apriori挖掘算法存在的不足进行改进,先将事务数据库映射为一个布尔矩阵,用一种逐层递增的思想来动态的分配内存进行存储,再利用向量求"与"运算,寻找频繁项集。

apriori 时序关联规则数据挖掘算法

apriori 时序关联规则数据挖掘算法

apriori 时序关联规则数据挖掘算法摘要:1.引言2.apriori 算法概述3.时序关联规则数据挖掘4.apriori 在时序关联规则数据挖掘中的应用5.结论正文:【引言】在数据挖掘领域,关联规则挖掘是一种重要的数据分析方法,它能够发现数据集中各项之间的关联关系。

在关联规则挖掘中,apriori 算法是一种经典的算法,被广泛应用于各种数据分析场景。

同时,时序关联规则数据挖掘作为一种特殊的关联规则挖掘,其在实际应用中也具有重要价值。

本文将探讨apriori 算法在时序关联规则数据挖掘中的应用。

【apriori 算法概述】apriori 算法是一种基于支持度计算的关联规则挖掘算法。

它的基本思想是:首先生成所有可能的项集,然后根据支持度(即项集在数据集中出现的频率)对项集进行排序,最后找出支持度大于设定阈值的频繁项集。

apriori 算法的主要优点是能够发现数据集中的频繁项集,从而为关联规则挖掘提供有效依据。

【时序关联规则数据挖掘】时序关联规则数据挖掘是一种特殊的关联规则挖掘,它关注的是数据集中各项之间的时序关系。

时序关联规则数据挖掘的主要任务是发现具有时序关联关系的项集,从而为数据分析和预测提供依据。

相较于传统的关联规则挖掘,时序关联规则数据挖掘更具有挑战性,因为它需要考虑数据中的时间顺序。

【apriori 在时序关联规则数据挖掘中的应用】虽然apriori 算法最初是为静态数据集设计的,但在时序关联规则数据挖掘中,它仍然具有很大的应用价值。

在时序关联规则数据挖掘中,apriori 算法可以应用于以下几个方面:1.发现时序关联规则:通过应用apriori 算法,可以发现具有时序关联关系的频繁项集,从而为时序数据分析提供依据。

2.构建时序知识库:利用apriori 算法挖掘出的频繁项集,可以构建时序知识库,为后续的数据分析和预测提供支持。

3.评估时序数据质量:通过分析apriori 算法挖掘出的频繁项集,可以评估时序数据的质量,从而为数据预处理提供参考。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

文献综述课程名称:科技写作与文献检索完成题目:关联规则挖掘Apriori算法综述专业班级:姓名:学号:完成时间:批阅时间:指导教师:*绩:关联规则挖掘Apriori算法综述摘要:关联规则挖掘是数据挖掘研究领域中的一个重要任务,随着大量数据不停的收集和存储,从数据库中挖掘关联规则变得极为重要。

关联规则挖掘Apriori 算法是关联规则挖掘中的一种经典算法。

为此,本文对国内外有关 Apriori 算法的研究现状、算法的原理、优化算法的思想进行了探讨,综述了Apriori算法的主要优化方法,并指出了Apriori算法在实际中的应用领域,提出了未Apriori 算法的研究方向和应用发展趋势。

关键词:关联规则;数据挖掘;Apriori算法;综述Abstract:The associative rule mining technique is an important technique in data mining research. Apriori algorithm is a classical algorithm of associative rules. How to dig out the rules of the associated data set from the database in the IT development process is important with increasing of massive data collection and storage. In this paper the principles and optimization idea of Apriori algorithm are discussed and several classical optimization algorithms are analyzed at the same time. Finally the trends of future development are forecasted.Key words:associative rules;massive data;optimization;developmental trends1.引言数据挖掘也称数据库中的知识发现,是指从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息,提取的知识一般可表示为概念、规则、规律、模式等形式[1]。

大家知道,如今已可以用数据库管理系统来存储数据,还可用机器学习的方法来分析数据和挖掘大量数据背后的知识,而这两者的结合就促成了数据挖掘技术的产生。

数据挖掘是一门交叉性的学科,涉及到机器学习、模式识别、归纳推理、统计学、数据库、数据可视化、高性能计算等多个领域。

关联规则挖掘是数据挖掘中最活跃的研究方向之一,其本质是要找出隐藏在数据间的相互关系。

Agrawal等于1993年设计了一个基本算法—Apriori算法[2],首先提出了挖掘顾客交易数据库中项集间的关联规则问题,其核心方法是基于频集理论的递推方法。

以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。

他们的工作包括对原有的算法进行优化,如引入随机采样、并行思想等,以提高算法挖掘规则的效率;提出各种变体模型,如泛化的关联规则、周期关联规则等,对关联规则的应用进行推广。

关联规则挖掘作为数据挖掘的重要研究内容之一,主要研究事务数据库、关系数据库和其他信息存储设施中的大量数据项之间隐藏的、有趣的规律。

关联规则挖掘最初仅限于挖掘事务数据库的布尔型关联规则[3],近年来广泛应用于关系数据库。

因此,积极开展在关系数据库中挖掘关联规则的相关研究具有重要的意义。

数据挖掘是一个在数据库领域中占比较重要地位的领域,国内外数据挖掘的发展趋势及其研究方向主要有知识发现方法的研究及其应用。

目前大部分有关数据挖掘的研究文章主要集中在数据挖掘的数据总结、分类、聚类、关联规则等方面。

关联规则挖掘作为数据挖掘的核心内容之一,近些年来得到了很快的发展,并成为了当今数据挖掘的热点。

2.Apriori 算法概述及研究现状Apriori 算法是一种最有影响力的挖掘布尔关联规则的频繁项集的算法,它是由Rakesh Agrawal和Ramakrishnan Skrikant提出的。

它使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。

首先找出频繁1-项集的集合。

该集合记作L1。

L1 用于找频繁2- 项集的集合L2,而L2 用于找L2,如此下去,直到不能找到k-项集。

每找一个Lk需要一次数据库扫描。

为提高频繁项集逐层产生的效率,一种称作Apriori性质的重要性质用于压缩搜索空间。

其运行定理在于一是频繁项集的所有非空子集都必须也是频繁的,二是非频繁项集的所有父集都是非频繁的。

Apriori算法提出以后,很多研究人员对关联规则的挖掘问题进行了大量研究,特别是对关联规则挖掘算法进行了大量的研究和优化,如Savasere等人设计了一个基于划分的算法,Park等人提出的基于散列的算法,Mannila提出的基于采样的方法,Lin和Dunham提出的反扭曲算法,Brin等提出如何减少扫描数据库发现频繁项集算法等[4]。

国内目前Apriori算法在应用方面较为成熟,也出现了很多对此算法的改进和优化,但与国外有关关联规则挖掘方法研究相比,我国对数据挖掘的研究相对较晚,有关数据挖掘的研究也只有十几年的时间,主要集中在部分实力相对较强的院校和研究机构,如中国科学院、清华大学、西安交通大学、上海交通大学及国防科技大学等。

虽然对关联规则的研究才刚刚起步,但是近几年已经取得了可喜的成果。

国内对关联规则挖掘所涉及的研究领域很多,主要集中在求关联规则频繁项集算法的研究、关联规则挖掘的实际应用以及关联规则挖掘理论方面的研究[5~6]。

有着重要意义的研究项目有:中国科学院计算机研究所的多策略数据挖掘平台MS Miner系统和复旦大学研制开发的AR Miner系统,目前这两个系统已经在实际应用上取得了一定的成就。

3.关于Apriori算法的几种优化方案虽然Apriori算法是关联规则挖掘的最经典的算法,它是采用取循序渐进的方式,一层一层地组合出侯选项目集[7],并扫描数据库计算侯选项目集支持度与规则强度。

虽然该算法已经将许多不可能成立的侯选项目集事先删除,以减少庞大的计算量,但是仍然需要不少的计算,而且需要多次扫数据库,所以对于在大型数据库系统,该算法的效率仍然不够好。

许多学者就如何减少扫描数据库的次数以及减少I/O的负载做出了研究,提出了一些优化的算法。

3.1基于划分的方法算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集[8~9],然后合并产生的频集生成所有可能的频集,最后计算这些项集的支持度。

这里分块的大小选择要使每个分块可放入主存,每个阶段只需被扫描一次。

而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。

3.2基于用户感兴趣项集重要性的方法首先从数据库中利用某些用户感兴趣的项,从数据库的所有项的集合中选择出一个子集作为挖掘对象,然后对数据库进行一次扫描[10~12],实现用事务标识号来表示项目集。

在产生项目集后,对项目集中的元素赋以权值,然后利用引入了权值的支持度函数计算项集的支持度以产生频集,最后的工作就是从这些频集中产生关联规则。

3.3基于划分的方法算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后合并产生的频集生成所有可能的频集,最后计算这些项集的支持度[13~14]。

这里分块的大小选择要使每个分块可放入主存,每个阶段只需被扫描一次。

而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的3.4基于矩阵的方法它主要是将矩阵的思想应用到Apriori算法当中,把事务数据库表示成矩阵的形式。

具体方法为:对每一成员按一序列排列,事务集也按一序列进行排列。

成员分别表示行向量,事务表示列向量,若第m个成员在第n个事务中,则矩阵的第m行,第n列的值为1,否则为0,称其为数据库的布尔矩阵。

矩阵的行向量之和为成员出现的次数,则项集的支持记数可求出[15]。

对于二项集{Mm,Nn}只需扫描第m行与第n行即可,它们同一列的值均为1的个数,即为二项集{Mm,Mn}的支持记数,依此类推。

只需扫描矩阵的第m1,m2,… ,mk行,它们同一列的值均为1的个数即为k项集{Mm1,Mm2,… ,Mmk}的支持记数。

3.5采用项编码方法该算法的主要思想是对所有的项,根据它在交易中出现的记录进行编码,在编码的同时就可以统计出项的支持度并生成频繁1-项集[16]。

然后通过对不同编码进行“与”的运算来得到频繁二项集,并根据Apriori算法的大项目集性质修改简化编码。

如此循环最终得到符合关联规则的频集。

从以上描述可以看出该算法只需要扫描一遍数据库,并且大幅减少了侯选集数量。

4.未来研究方向及应用发展趋势目前,随着信息量的不断更新变化,信息量的潜在的规则也在不断发生变化,因此,相关算法的研究十分复杂。

对于关联规则挖掘的Apriori算法的未来研究方向,笔者经过总结认为,今后一段时间内可能在以下几个方向值得深入研究:一是如何提高算法效率;二是如何对算法进一步优化;三是在关联规则挖掘的过程中,如何与用户进行交互,在挖掘的过程中结合用户的领域知识,能在可视化的环境下产生。

而对于关联规则挖掘的Apriori算法的应用趋势,可能涉及到以下几个方面的应用领域:一是挖掘父母学历的高低与子女的个数之间的关联规则,以便更好地制定计划生育政策,从而促进社会更好的发展;二是研究智能化设备,如靠识别语音的自动门等;三是工作效率与学历高低之间的关联规则挖掘;四是人的血型与成功几率之间的关联规则挖掘等。

参考文献[1] Fayyad U M , Piatetsky-shapiro G, Smyth P. Advances in knowledge discovery and data mining. California: AAAI/ MITPress, 1996.[2] Jia wei Han and Micheline Kamber著,范明,孟小峰等译.数据挖掘概念与技术[M].机械工业出版社,2006.[3] 何军,刘红岩等.多关系关联规则挖掘研究综述[J].软件学报,2007.[4] 丁一新.一种改进的关联规则挖掘技术研究[D].桂林理工大学,2010.[5] 赵洪英,蔡乐才,李先杰.关联规则挖掘的Apriori算法综述[J].四川理工学院学报(自然科学版),2011.[6] 崔贯勋,李梁等.关联规则挖掘中Apriori算法的研究与改进[J].计算机应用,2010.[7]邵峰晶,于忠清.数据挖掘原理与算法[M ].北京:中国水利水电出版社,2003.[8] AGRAWAL R, IM IELINSKI T, SWAM I A. Mining association rules between sets of items in large databases[M ].New York:ACM Press, 1993: 207-216.[9] 黄进,尹治本.关联规则挖掘的Apriori算法的改进[J].电子科技大学学报, 2003, 32(1): 76-79.[10] 徐章艳,张师超,区玉明.挖掘关联规则中的一种优化的Aprior算法[J].计算机工程, 2003, 29(19): 83-85.[11] 李绪成,王保保.挖掘关联规则中的Apriori算法的一种改进[J].计算机工程, 2002, 28(7): 104-105.[12] 蔡伟杰,张晓辉,朱建秋.关联规则挖掘综述[J].计算机工程,2001.[13] 刘君强,孙晓莹,潘云鹤.关联规则挖掘技术研究的新进展[J].计算机科学, 2004, 31(1): 110-113.[14] 张梅峰,张建伟.基于Apriori的有效关联规则挖掘算法的研究[J].计算机工程与应用, 2003, 39(19): 196-198.[15] 朱孝宇,王理东,汪光阳.一种改进的Apriori挖掘关联规则算法[J].计算机技术与发展, 2006, 16(12): 89-90.[16] AGRAWAL R, SRIKANT R. Fast Algorithm formining association rules in large database[C ]//Proc 1994 IntConf on VLDB, Santiago,Chile, 1994.。

相关文档
最新文档