多最小支持度的加权关联规则挖掘算法

多最小支持度的加权关联规则挖掘算法
多最小支持度的加权关联规则挖掘算法

颜雪松,-关联规则挖掘综述

收稿日期:2001 12 14;修返日期:2002 04 28 基金项目:湖北省自然科学基金资助项目(2001ABB006) 关联规则挖掘综述 * 颜雪松,蔡之华,蒋良孝,贺 毅 (中国地质大学信息工程学院,湖北武汉430074) 摘 要:介绍了关联规则挖掘的一般概念,并进一步导出它的一般框架;同时对一些典型算法进行了分 析和比较,介绍了关联规则的应用;最后展望了关联规则挖掘的未来研究方向。关键词:关联规则;频繁项目集;深度优先遍历;宽度优先遍历 中图法分类号:TP301 6 文献标识码:A 文章编号:1001 3695(2002)11 0001 04 Survey of Association Rule Mining YAN Xue song,CAI Zhi hua,JIANG Liang xiao,HE Yi (Colle ge o f Information Enginee ring ,China Unive rsit y o f Geosc ienc es,Wuhan Hubei 430074,China) Abstract:In this paper we explain the fundaments of association rule mining and moreover derive a general framework.At the same time compares and analyses some typical algorithms,introduces the application of the association rules.At the end,views some future directions in association rule generation. Key w ords:Association Rule;Frequent Itemsets;DFS;BFS 1 引言 面对海量的存储数据,如何从中发现有价值的信息或知识是一项非常艰巨的任务。数据挖掘就是为了满足这种要求而迅速发展起来的。数据挖掘是指从大型数据库或数据仓库中提取隐含的、先前未知的、对决策有潜在价值的知识和规则。数据挖掘是人工智能和数据库发展相结合的产物,是目前国际上数据库和信息决策系统最前沿的研究方向之一,已引起了学术界和工业界的广泛关注。目前研究的主要目标是发展有关理论、方法和工具,以支持从大量数据中提取有价化的知识和模式。在事务数据库中挖掘关联规则是数据挖掘领域中的一个非常重要的研究课题。它是由R.Agra wal 等人首先提出的。关联规则的一个典型例子就是: 90%的客户在购买面包的同时也会购买牛奶 ,其直观意义为顾客在购买某些商品的时候有多大的倾向会购买另外一些商品。 2 关联规则的基本概念 假设T 是事务的集合,在T 中的每一个事务都是项目集I 的子集。假设C 是I 的一个子集,我们定义C 的支持度如下: (C)=|{t|t !T,C t}|。 (C)表示包含在C 中的事务的数目。例如图1所示的事务集。事务的项目集I 是{Bread,Beer,Coke,Diaper,Milk}。{Diaper,Milk}的支持度是 {Diaper,M ilk}=3,而 {Diaper,Milk, Beer}=2。 TID Item s 1Bread,Coke,Mil k 2Beer,Bre ad 3Beer,Coke,Diape r,Mil k 4Beer,Bre ad,Diape r,Mil k 5 Coke,Dia pe r,Mil k 图1 Transactions from Supermarket 关联规则可描述为:!XY,X I,Y I 。关联规则X !Y 的支持度s 定义为: (X ?Y)/|T|,置信度 定义为 (X ?Y )/ (X)。例如,假设一条规则{Diaper,Milk}!{Beer},表示如果Diaper 和Milk 在一个事务中,就意味着Beer 也包含在这个事务中。这条规则的支持度是: (Di aper ,Milk,Beer)/5=40%。置信度为 (Diaper,Milk,Beer)/ (Diape r,Milk)=66%。如果一条规则的置信度很高的话,就说明这条规则很重要,因为它可以在规则中给项目关联提供精确的预测。同样的,规则的支持度也很重要,它可以暗示在事务中这条规则的出现频率有多高。支持度很低的规则通常是引不起人们的兴趣的。 这就是为什么大多数的算法[2] 忽视那些不能满足用户给定的最小支持度条件的规则的原因。这种用给定最小支持度过滤规则的方法可以减少产生的关联规则的数量,以便于管理。因为算法可能产生的规则的数量和项目集I 的子集的数量是成比例的,可能达到2|I|,因此,这种过滤在实际应用中是必需的。 发现关联规则的任务就是发现所有形如X !Y 的规则,规则的支持度大于或等于给定的最小支持度,规则的置信度大于或等于给定的最小置信度。发现关联规

关联规则挖掘算法研究

关联规则挖掘算法的研究 摘要:Apriori算法是发现频繁项目集的经典算法,但是该算法需反复扫描数据库,因此效率较低。本文介绍了Apriori算法的思想,同时对已经提出的经典的关联规则更新算法FUP和IUA算法进行分析,指出其优缺点;最后对另外的改进算法,做一个简单的叙述。 关键词数据挖掘;关联规则;Apriori算法 Keywords:data mining;relation rule;Apriori algorithm 关联规则反映了数据库中数据项目之间有趣的关联关系,而其中发现频繁项目集是关联规则挖掘应用中的关键技术和步骤。关于频繁项目集的挖掘算法研究,人们对此进行了大量的工作,其中以R. Agrawal 等人提出的Apriori 、AprioriTid 等算法最具有影响力和代表性。而这些算法的提出都是在挖掘数据库和最小支持度不变的条件下进行的。但实际中,遇到的情况可能是:随着时间的推移,挖掘数据库的规模可能不断膨胀或需要删除一部分记录,或者需要对最小支持度进行调整从而逐步聚集到我们感兴趣的频繁项目集上。因而如何从数据发生变动后的数据库中高效地对已经推导出的关联规则进行更新,具有非常重要的应用价值,这就是所谓的增量式挖掘关联规则的问题。 1关联规则 问题描述:设I={i1,i2,...,i m}是m个不同项目的集合,给定一个事务数据库D,其中D每一个事务T是I中一组项目的集合,即T I,T有一个惟一的标志符TID。如果对于I中的一个子集X,有X T,我们就说一个事务T包含X。一条关联规则(association rule)就是一个形如X =>Y的蕴涵式,其中X,Y T,而X∩Y=Φ。关联规则成立的条件是:①它具有最小支持度s,即事务数据库D中至少有s%的事务包含X∪Y;②它具有最小可信度c,即在事务数据库D中包含X的事务中至少有c%同时也包含Y。给定一个事务集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则,也就是产生强规则的问题。关联规则的挖掘问题可以分解为以下两个问题: (1) 找出事务数据库中所有具有用户最小支持度的项目集。具有用户指定最小支持度的项目集称为频繁项目集,反之称为非频繁项目集。一个项目中所含项目的个数称为该项目的长度。 (2) 利用频繁项目集生成关联规则。对于每一个频繁项目集A,若B A,B≠Φ,且support(A)/support(B)>minconf,则有关联规则B=> (A-B)。目前大多数的研究主要集中在第一个问题上面。 2 Apriori核心算法 Agrawal等人于1994年提出了一个挖掘顾客交易数据库中项集间的关联规则的重要方法Apriori算法,其核心是基于两个阶段频繁项集思想的递推算法。算法的基本思想是首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频繁项集产生强关联规则,这些规则必须满足最小支持度和最小可信度。Apriori核心算法思想简要描述如下:该算法中有两个关键步骤连接步和剪枝步。 (1) 连接步:为找出Lk(频繁k一项集),通过Lk-1与自身连接,产生候选k-项集,该候选项集记作Ck;其中Lk-1的元素是可连接的。

大数据常用的算法

大数据常用的算法(分类、回归分析、聚类、关联规则) 在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等。这些方法从不同的角度对数据进行挖掘。 (1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。 (2)回归分析。回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变。 (3)聚类。聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。(4)关联规则。关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信

数据挖掘算法综述

数据挖掘方法综述 [摘要]数据挖掘(DM,DataMining)又被称为数据库知识发现(KDD,Knowledge Discovery in Databases),它的主要挖掘方法有分类、聚类、关联规则挖掘和序列模式挖掘等。 [关键词]数据挖掘分类聚类关联规则序列模式 1、数据挖掘的基本概念 数据挖掘从技术上说是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。这个定义包括好几层含义: 数据源必须是真实的、大量的、含噪声的、发现的是用户感兴趣的知识, 发现的知识要可接受、可理解、可运用, 并不要求发现放之四海皆准的知识, 仅支持特定的发现问题, 数据挖掘技术能从中自动分析数据进行归纳性推理从中发掘出潜在的数据模式或进行预测, 建立新的业务模型帮助决策者调整策略做出正确的决策。数据挖掘是是运用统计学、人工智能、机器学习、数据库技术等方法发现数据的模型和结构、发现有价值的关系或知识的一门交叉学科。数据挖掘的主要方法有分类、聚类和关联规则挖掘等 2、分类 分类(Classification)又称监督学习(Supervised Learning)。监

督学习的定义是:给出一个数据集D,监督学习的目标是产生一个联系属性值集合A和类标(一个类属性值称为一个类标)集合C的分类/预测函数,这个函数可以用于预测新的属性集合(数据实例)的类标。这个函数就被称为分类模型(Classification Model),或者是分类器(Classifier)。分类的主要算法有:决策树算法、规则推理、朴素贝叶斯分类、支持向量机等算法。 决策树算法的核心是Divide-and-Conquer的策略,即采用自顶向下的递归方式构造决策树。在每一步中,决策树评估所有的属性然后选择一个属性把数据分为m个不相交的子集,其中m是被选中的属性的不同值的数目。一棵决策树可以被转化成一个规则集,规则集用来分类。 规则推理算法则直接产生规则集合,规则推理算法的核心是Separate-and-Conquer的策略,它评估所有的属性-值对(条件),然后选择一个。因此,在一步中,Divide-and-Conquer策略产生m条规则,而Separate-and-Conquer策略只产生1条规则,效率比决策树要高得多,但就基本的思想而言,两者是相同的。 朴素贝叶斯分类的基本思想是:分类的任务可以被看作是给定一个测试样例d后估计它的后验概率,即Pr(C=c j︱d),然后我们考察哪个类c j对应概率最大,便将那个类别赋予样例d。构造朴素贝叶斯分类器所需要的概率值可以经过一次扫描数据得到,所以算法相对训练样本的数量是线性的,效率很高,就分类的准确性而言,尽管算法做出了很强的条件独立假设,但经过实际检验证明,分类的效果还是

关于关联规则挖掘综述

关联规则挖掘综述 潮娇娇 摘要:关联规则挖掘是数据挖掘中的一个很重要的研究内容之一,近年来很多国内外研究人员对其进行了大量的研究。为了更进一步的了解关联规则挖掘技术,并掌握其发展方向和目前的研究现状。本文对关联规则挖掘技术进行了相关综述。首先介绍了关联规则的基本概念,其次分析了近年来一些经典关联规则算法的改进,并概述了相关算法在实际中的应用。最后对关联规则挖掘技术未来的发展趋势进行了讨论。 关键字:关联规则;算法;数据挖掘; Abstract: association rule mining is one of the important data mining research contents in this year, many domestic and foreign researchers have done a lot of research on it. In order to understand further the association rule mining technology, and grasp the development status and direction of research at present. This article of association rule mining technology related review. Firstly introduces the basic concepts of association rules, then analyzes the improvement of some classical algorithm of association rules in recent years, and summarizes the application of related algorithms in practice. At the end of the association rule mining technology development trend in the future are discussed. Key words: association rules; algorithms; data mining; 引言 随着计算机技术与数据库技术的飞速地发展,数据资源越来越多。但巨大的数据,依然没有解决我们的信息需求问题,针对这种情况,产生了数据库的数据挖掘。与传统技术相比,数据挖掘技术是一种新型的信息处理技术,能够自动和智能地把位置数据或者大量数据中潜在信息转换成人们需要的信息和知识的技术。它可以从数据库提取有用的知识、规律以及更高层次的信息,对这些进行分析,帮助人们更有效的利用海量数据中存在的价值。目前对数据挖掘的发展趋势及研究方向主要集中在数据挖掘的数据总结、分类、聚类、关联规则等方面。而关联规则挖掘作为数据挖掘的核心内容之一,进来得到了很快的发展。并已经成为当今数据挖掘的热点。为此,对关联挖掘技术的研究具有重要的意义。本文将重点介绍关联规则挖掘技术的相关研究。主要对近年来关联规则挖掘技术的算法改进进行综述以及未来的发展方向。 1、关联规则基本概念 1.1 相关介绍 关联规则作为数据挖掘的核心研究内容之一,它是大量数据中发现信息之间可能存在的某种关联或者相关联系。通过分析这些挖掘出的数据联系,可以在现实中帮助我们预测或决定某些事情将会发生。有效的提高了我们制定出准确的决策。目前,关联规则挖掘技术广泛应用于金融、互联网、医学等多个领域。最早的关联挖掘是未来发现交易数据库中不同商品之间的联系,通过分析这种联系获得有关购买者的一般的购买模式。从而有助于商家合理地安排进货、库存及货架设计,更好的制定发展计划和规避风险。

关联规则挖掘综述

关联规则挖掘综述 摘要:近年来国内外学者对关联规则进行了大量的研究。为了更好地了解关联规则的挖掘技术,对研究现状有更深入的了解,首先本文对数据挖掘技术进行了介绍,接着介绍了关联数据挖掘的基本原理,最后对经典的挖掘算法进行分类介绍。 关键词:数据挖掘;关联规则;算法;综述 1.引言 数据挖掘是从海量的数据里寻找有价值的信息和数据。数据挖掘中常用的算法[1]有:关联规则分析法(解决事件之间的关联问题)、决策树分类法(对数据和信息进行归纳和分类)、遗传算法(基于生物进化论及分子遗传学理论提出的)、神经网络算法(模拟人的神经元功能)等。 数据挖掘最早使用的方法是关联分析,主要应用于零售业。其中最有名的是售货篮分析,帮助售货商制定销售策略。随着信息时代的到来,数据挖掘在金融[2]、医疗[3]、通信[4]等方面得到了广泛的应用。 2.关联规则基本原理 设项的集合I = { I1 ,I2 ,...,Im },数据库事务的集合为D,我们用|D|表示事务数据库所有事务的个数,其中用T

表示每个事务,使得T I。我们用TID作为每个事务的唯一标识符。用X表示一个项集,满足X T,那么交易T包含X。根据上述相关描述,给出关联规则的相关定义。 2.1项集支持度 用X表示数据库事务D中的项集,项集X的支持度表示项集X在D中事务数所占的比例,用概率P(X)表示,那么Support(X)=P(X)=COUNT(X)/|D| (1) 2.2关联规则置信度 X Y关联规则的置信度是数据库事务D中包含X Y的事务数与包含X的事务数之比,表示方法如下: confidence(X Y)= support(X Y)/support(X)= P(Y|X)(2) 3.关联规则算法 3.1经典的Apriori挖掘算法 大多数关联规则的算法是将关联规则挖掘任务分为两个子任务完成。一是频繁项集的产生,频繁项集的目的是找到大于等于给定的最小支持度阈值的所有项集,这些项集我们称之为频繁项集。二是规则的产生,即从频繁项集中找到置信度比较高的规则,我们称之为强规则。Apriori挖掘算法是众多挖掘关联规则中比较经典的算法,它采用布尔关联规则,是一种宽度优先算法。 3.2Apriori算法优化

关联规则挖掘的Apriori算法改进综述

关联规则挖掘的Apriori算法改进综述 1引言 数据挖掘是一种半自动地从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中潜在有用的信息和知识的过程。数据挖掘从数据中提取人们感兴趣的可用信息和知识,并将提取出来的信息和知识表示成概念、规则、规律和模式。 数据挖掘,又称数据库中的知识发现(Knowledge Discovery in Database, KDD),指的是从大型数据库的数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息,换言之,数据挖掘是一个利用各种分析工具在海量数据中,发现模型和数据间关系的过程,这些模型和关系可以用来作出预测。对于数据挖掘技术的研究已引起了国际人工智能和数据库等领域专家与学者的广泛关注,这其中在事务数据库中挖掘关联规则是数据挖掘领域中的一个非常重要的研究课题。关联规则是美国IBM Almaden research center的Rabesh Agrawal等人于1993年首先提出的,最近几年在数据挖掘研究领域对关联规则挖掘的研究开展得比较积极和深入[1]。关联规则挖掘是发现大量数据中项集之间有趣的关联或相关关系。随着大量数据不停被地收集和存储,许多业界人士对于从数据库中挖掘关联规则越来越感兴趣。 2 Apriori算法 2.1关联规则挖掘问题的形式化描述 对于经常使用的数据,同一文件的不同版本之间的内容往往会有重复,因此数据冗余比较多,如果采用增量式压缩就可以大大节省磁盘空间。但是这样的数据是压缩的,一旦用户需要查询/恢复数据就需要解压过程,因此这会使系统性能降低。设I={i1,i2,…,im}是由m个不同的项目组成的集合,给定一个事务数据库D,其中的每一个事务T是I中一组项目的集合,即T?I,T有一个唯一的标识符TID。若项集X?I 且X?T,则事务T包含项集X。一条相联规则就是形如X?Y的蕴涵式,其中X?I,Y?I,x∩Y=Φ。相联规则X?Y成立的条件是: (l)它具有支持度s,即事务数据库D中至少有s%的事务包含XY ∪; (2)它具有置信度c,即在事务数据库D中包含X的事务至少有c%同时也包含Y。 关联规则的挖掘问题就是在事务数据库 D 中找出具有用户给定的最小支持度minsup 和最小置信度minconf的关联规则。 2.2 Apriori算法简介 1994 年,Rakesh AgrawalRama 和Krishnan Skrikant 首先提出了Apriori算法[2],它是一种最有影响的挖掘布尔关联规则频繁项集的算法。Apriori 算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,其核心是使用候选项集找频繁项集。Apriori算法使用一种称作逐层搜索的迭代方法k-项集用于搜索以(k+l)-项集。首先,找出频繁1-项集的集合,该集合记作L1,L1 用于找频繁2-项集的集合L2,L2 从用于找L3.如此下去,直到不能找到频繁项集。 3 Apriori算法的改进 3.1 DDApriori算法[3] 从Apriori算法可以看出, 对每一Ci均对数据库扫描一次,而这时有些事务已经对频繁项集的生成不产生作用, 减少数据库 D 内不起作用的事务对于算法来说是很有必要的,本

基于股票时间序列数据的关联规则挖掘研究

基于股票时间序列数据的关联规则挖掘研究 Study on Mining Association Rules from Stock Time Series Data 一.引言 随着计算机信息系统的日益普及,大容量存储技术的发展以及条形码等数据获取技术的广泛应用,人们在日常事务处理和科学研究中积累了大量的各种类型的数据。在这些数据中,有很大一部分是呈现时间序列(time series)类型的数据。所谓时间序列数据就是按时间先后顺序排列各个观测记录的数据集[1],如金融证券市场中每天的股票价格变化;商业零售行业中,某项商品每天的销售额;气象预报研究中,某一地区的每天气温与气压的读数;以及在生物医学中,某一症状病人在每个时刻的心跳变化等等。然而,我们应该注意到:时间序列数据不仅仅是历史事件的记录,更重要的是蕴藏这些数据其中不显现的、有趣的模式。随着时间推移和时间序列数据的大规模增长,如何对这些海量数据进行分析处理,挖掘其背后蕴藏的价值信息,对于我们揭示事物发展规律变化的内部规律,发现不同事物之间的相互关系,为人们正确认识事物和科学决策提供依据具有重要的实际意义。 时间序列数据分析按照不同的任务有各种不同的方法,一般包括趋势分析、相似性搜索、与时间有关数据的序列模式挖掘、周期模式挖掘等[2]。本综述是针对证券业中股票时间序列分析的,试图通过列举、分析有关证券业中股票时间序列数据分析的原理、方法与技术,着重探讨数据挖掘中基于股票时间序列数据的关联规则挖掘的概念、原理技术、实施过程及存在的障碍和问题,以期能有新的发现和领悟。 二.股票时间序列传统研究方法概述 随着我国市场经济建设的发展,人们的金融意识和投资意识日益增强。股票市场作为市场经济的重要组成部分,正越来越多地受到投资者的关注。目前股票投资已经是众多个人理财中的一种重要方式。不言而喻,如果投资者能正确预测股票价格、选准买卖时机,无疑会给投资者带来丰厚的收益。于是,在股票的预测和分析方面出现了大量的决策分析方法和工具,以期能有效地指导投资者的投资决策。目前,我国股市用得较多的方法概括起来有两类[3]:一类是基本分析和技术分析,另一类是经济统计分析。 1.基本分析和技术分析 在股票市场上,当投资者考虑是否投资于股票或购买什么股票时,一般可以运用基本分析的方法对股市和股票进行分析;而在买卖股票的时机把握上,一般可以运用技术分析的方法[4]。 基本分析指的是通过对影响股票市场供求关系的基本因素(如宏观政治经济形势、金融政策、行业变动、公司运营财务状况等)进行分析,来确定股票的真正价值,判断未来股市走势,是长期投资者不可或缺的有效分析手段。 技术分析是完全根据股市行情变化而加以分析的方法,它通过对历史资料(成交价和成交量)进行分析,来判断大盘和个股价格的未来变化趋势,探讨股市里投资行为的可能转折,从而给投资者买卖股票的信号,适合于投资者作短期投资。目前技术分析常用的工具是各种各样的走势图(K线图、分时图)和技术指标(MA、RSI、OBV等)。 2.经济统计学分析

关联规则挖掘

数据挖掘的其他基本功能介绍 一、关联规则挖掘 关联规则挖掘是挖掘数据库中和指标(项)之间有趣的关联规则或相关关系。关联规则挖掘具有很多应用领域,如一些研究者发现,超市交易记录中的关联规则挖掘对超市的经营决策是十分重要的。 1、 基本概念 设},,,{21m i i i I =是项组合的记录,D 为项组合的一个集合。如超市的每一张购物小票为一个项的组合(一个维数很大的记录),而超市一段时间内的购物记录就形成集合D 。我们现在关心这样一个问题,组合中项的出现之间是否存在一定的规则,如A 游泳衣,B 太阳镜,B A ?,但是A B ?得不到足够支持。 在规则挖掘中涉及到两个重要的指标: ①、支持度 支持度n B A n B A )()(?=?,显然,只有支持度较大的规则才是较有价值的规则。 ②、置信度 置信度) ()()(A n B A n B A ?=?,显然只有置信度比较高的规则才是比较可靠的规则。

因此,只有支持度与置信度均较大的规则才是比较有价值的规则。 ③、一般地,关联规则可以提供给我们许多有价值的信息,在关联规则挖掘时,往往需要事先指定最小支持度与最小置信度。关联规则挖掘实际上真正体现了数据中的知识发现。 如果一个规则满足最小支持度,则称这个规则是一个频繁规则; 如果一个规则同时满足最小支持度与最小置信度,则通常称这个规则是一个强规则。 关联规则挖掘的通常方法是:首先挖掘出所有的频繁规则,再从得到的频繁规则中挖掘强规则。 在少量数据中进行规则挖掘我们可以采用采用简单的编程方法,而在大量数据中挖掘关联规则需要使用专门的数据挖掘软件。关联规则挖掘可以使我们得到一些原来我们所不知道的知识。 应用的例子: * 日本超市对交易数据库进行关联规则挖掘,发现规则:尿片→啤酒,重新安排啤酒柜台位置,销量上升75%。 * 英国超市的例子:大额消费者与某种乳酪。 那么,证券市场上、期货市场上、或者上市公司中存在存在哪些关联规则,这些关联规则究竟说明了什么?

数据挖掘算法之关联规则

数据挖掘算法之-关联规则挖掘(Association Rule) (2009-09-20 21:59:23) 转载 标签: 分类:DM dm 在数据挖掘的知识模式中,关联规则模式是比较重要的一种。关联规则的概念由Agrawal、Imielinski、Swami 提出,是数据中一种简单但很实用的规则。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。 一、关联规则的定义和属性 考察一些涉及许多物品的事务:事务1 中出现了物品甲,事务2 中出现了物品乙,事务3 中则同时出现了物品甲和乙。那么,物品甲和乙在事务中的出现相互之间是否有规律可循呢?在数据库的知识发现中,关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。更确切的说,关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响。 现实中,这样的例子很多。例如超级市场利用前端收款机收集存储了大量的售货数据,这些数据是一条条的购买事务记录,每条记录存储了事务处理时间,顾客购买的物品、物品的数量及金额等。这些数据中常常隐含形式如下的关联规则:在购买铁锤的顾客当中,有70 %的人同时购买了铁钉。这些关联规则很有价值,商场管理人员可以根据这些关联规则更好地规划商场,如把铁锤和铁钉这样的商品摆放在一起,能够促进销售。 有些数据不像售货数据那样很容易就能看出一个事务是许多物品的集合,但稍微转换一下思考角度,仍然可以像售货数据一样处理。比如人寿保险,一份保单就是一个事务。保险公司在接受保险前,往往需要记录投保人详尽的信息,有时还要到医院做身体检查。保单上记录有投保人的年龄、性别、健康状况、工作单位、工作地址、工资水平等。这些投保人的个人信息就可以看作事务中的物品。通过分析这些数据,可以得到类似以下这样的关联规则:年龄在40 岁以上,工作在A 区的投保人当中,有45 %的人曾经向保险公司索赔过。在这条规则中,

通信网告警相关性分析中有效的关联规则挖掘算法

第34卷 增 刊 JOURNAL OF XIDIAN UNIVERSITY V ol.34 Sup. 通信网告警相关性分析中有效的关联规则挖掘算法 李彤岩, 李兴明 (电子科技大学 宽带光纤传输与通信网技术教育部重点实验室,四川 成都 610054) 摘要:关联规则挖掘算法是通信网告警相关性分析中的重要方法。在处理数量庞大的告警数据库时,算法的效率显得至关重要,而经典的FP-growth 算法会产生大量的条件模式树,使得在通信网环境下挖掘关联规则的难度非常大。针对上述问题,提出了一种基于分层频繁模式树的LFPTDP 算法,采用分层模式树的方法产生频繁项集,从而避免了产生大量的条件模式树,并用动态剪枝的方法删除大量的非频繁项。算法分析及仿真表明,LFPTDP 算法具有较好的时间和空间效率,是一种适合于通信网告警相关性分析的关联规则挖掘算法。 关键词:关联规则;告警相关性分析;条件模式树;分层频繁模式树 中图分类号:TN915.07 文献标识码:A 文章编号:1001-2400(2007)S1-0039-04 An efficient method for association rules mined in telecommunication alarm correlation analysis LI T ong-yan , LI Xing-ming (Key Laboratory of Broadband Optical Fiber Transmission and Communication Networks of Ministry of Education, UESTC, Chengdu ,610054) Abstract: The mining of association rules is one of the primary methods used in telecommunication alarm correlation analysis, in which the alarm databases are very large. The efficiency of the algorithms plays an important role in tackling large datasets. The classical FP-growth algorithm can produce a large number of conditional pattern trees which makes it difficult to mine association rules in telecommunication environment. In this paper, an algorithm LFPTDP based on the Layered Frequent Pattern Tree is proposed for mining frequent patterns and deleting infrequent items with dynamic pruning which can avoid producing conditional pattern trees. Analysis and simulation show that it is a valid method with better time and space efficiency, which is adapted to mining association rules in telecommunication alarm correlation analysis. Key words: association rules; alarm correlation analysis; conditional pattern tree; Layered Frequent Pattern Tree 关联规则挖掘是数据挖掘中的一个非常重要的研究领域,适合于通信网的告警相关性研究[1],可以通过挖掘关联规则找出告警之间的相关性,从而有效的定位故障。一个网络故障往往会在短时间内引发大量告警的产生,挖掘算法的效率直接影响到了故障的定位和网络性能的恢复,所以将研究的重点放在如何提高关联规则的挖掘效率方面。 FP-Tree (Frequent Pattern Tree )以及FP-growth (Frequent pattern growth )算法[2]避免产生大量的候选项集,是一种深度优先的挖掘算法。其算法思想是将数据库中的频繁项压缩成一棵频繁模式树(FP-Tree )的形式,FP-Tree 是一种可扩展的前缀树形压缩存储结构,树的节点包含了频繁模式的关联信息。然后将这种压缩的数据库分成若干组条件模式树分别进行挖掘,每个条件数据库和一个频繁项集的数据库相关联,当原始数据量很大的时候,也可以结合划分的方法,使一个FP-tree 可以放入主存中。FP-growth 是一种基于FP-Tree 的频繁模式挖掘算法,通过扫描FP-Tree 将发现的长频繁模式的问题转化成递归的发现一些短模式,然后连接后缀,可大大节省搜索空间。构造FP-Tree 的过程只需要两次遍历交易数据库,第一次扫描数据库生成频繁1-项集集合并计算每个频繁项的个数,按照频繁项的降序排列成列表;第二次将扫描排序后的项集并生成FP-Tree 。假设项集中的交易项数为,则转化为FP-Tree 的算法复杂度为。对比Apriori 算法n ()O n [3]可知,FP-Tree 及FP-growth 算法在效率上有了很大的提高,并对不同长度的规则都有很好的适应性。 因为FP-Tree 在存储数据结构上有了很大的改进,以后的研究主要是针对存储结构的改进。FPMAX 算法[4]基于FP-tree 结构来产生MFI-tree (maximal frequent itemsets tree ),用来挖掘存储最大频繁项集。但是MFI-tree 是一种全局数据存储结构,当项集大时产生的数量会非常庞大,因为一个项集的产生需要经过成千上万次最大化的比较, 这使得FPMAX 算法变得非常复杂。FPMAX * 算法[5]是其改进算法,它虽然使用的是MFI-tree 结构,但是在每个条件FP-Tree 中将创建局部的MFI-tree ,如果由条件FP-Tree 中产生的局部最大频繁项是全局最大的,就只需要和局部 MFI-tree 中的项集比较。对比FPMAX 算法,FPMAX * 可以降低算法复杂度和提高算法效率,并且减少了内存的占用率。 集中以上几种算法的优点,笔者提出了一种基于动态剪枝的分层频繁模式树(Layered Frequent Pattern Tree with —————————————— 收稿日期:2007-05-20 基金项目:国家自然科学基金资助项目(60572091) 作者简介:李彤岩(1980-),女,电子科技大学博士研究生。

关联规则挖掘基本概念和算法--张令杰10121084

研究生课程论文 关联规则挖掘基本概念和算法 课程名称:数据仓库与数据挖掘 学院:交通运输 专业:交通运输规划与管理 年级:硕1003班 姓名:张令杰 学号:10121084 指导教师:徐维祥

摘要 (Ⅰ) 一、引言 (1) 二、关联规则的基本描述 (1) 三、经典频繁项集挖掘的Apriori算法 (3) 四、提高Apriori算法的效率 (6) 五、由频繁项集产生关联规则 (8) 六、总结 (9) 参考文献 (9)

目前,数据挖掘已经成为一个研究热点。关联规则数据挖掘是数据挖掘的一个主要研究内容,关联规则是数据中存在的一类重要的可被发现的知识。其核心问题是如何提高挖掘算法的效率。本文介绍了经典的关联规则挖掘算法Apriori并分析了其优缺点。针对该算法的局限性,结合Apriori性质,本文对Apriori中连接的步骤进行了改进。通过该方法,可以有效地减少连接步产生的大量无用项集并减少判断项集子集是否是频繁项集的次数。 关键词:Apriori算法;关联规则;频繁项集;候选集

一、 引言 关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。如果两项或多项属性之间存在关联,那么其中一项的属性就可以依据其他属性值进行预测。它在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。 关联规则挖掘的一个典型例子是购物篮分析[1] 。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。 最著名的关联规则发现方法是R. Agrawal 提出的Apriori 算法。关联规则挖掘问题可以分为两个子问题:第一步是找出事务数据库中所有大于等于用户指定的最小支持度的数据项集;第二步是利用频繁项集生成所需要的关联规则,根据用户设定的最小置信度进行取舍,最后得到强关联规则。识别或发现所有频繁项目集市关联规则发现算法的核心。 二、关联规则的基本描述 定义1. 项与项集 数据库中不可分割的最小单位信息,称为项目,用符号i 表示。项的集合称为项集。设集合{}k i i i I ,,,21 =是项集,I 中项目的个数为k ,则集合I 称为k -项集。例如,集合{啤 酒,尿布,牛奶}是一个3-项集。 定义2. 事务 设{}k i i i I ,,,21 =是由数据库中所有项目构成的集合,一次处理所含项目的集合用T 表示,{}n t t t T ,,,21 =。每一个i t 包含的的项集都是I 子集。 例如,如果顾客在商场里同一次购买多种商品,这些购物信息在数据库中有一个唯一的标识,用以表示这些商品是同一顾客同一次购买的。我们称该用户的本次购物活动对应一个数据库事务。 定义3. 项集的频数(支持度计数) 包括项集的事务数称为项集的频数(支持度计数)。 定义4. 关联规则 关联规则是形如Y X ?的蕴含式,其中X ,Y 分别是I 的真子集,并且φ=?Y X 。 X 称为规则的前提,Y 称为规则的结果。关联规则反映X 中的项目出现时,Y 中的项目也 跟着出现的规律

并行关联规则挖掘综述

关联规则是等人首先提出的的一个重要R.Agrawal KDD 研究内容,近年来受到了数据库界的广泛关注。关联规则是寻找在同一个事件中出现的不同项的相关性,即找出事件中频繁发生的项或属性的所有子集,以及它们之间应用相互关联性。关联规则最早用于发现顾客交易数据库中不同商品间的联系,后来诸多的研究人员对关联规则的挖掘问题进行了大量的拓展和研究。他们的工作包括对原有算法的优化,如引入并行的思想,以提高算法的效率,对关联规则的应用进行扩展。关联规则挖掘具有计算量大,负载集中的特点。而I/O 且许多关联规则的实际应用涉及到海量数据。在这种情况下,即使对算法进行了优化,在单处理机上使用串行算法进行挖掘所需要的时间可能也是无法接受的。其主要原因在于单处理器本身受到内存和带宽的限制。因此,必须依靠I/O 高性能并行计算来有效地完成挖掘任务。关联规则的基本概念 1 关联规则的形式化描述如下: {}12,,...,m i i i 令为项目集,为事物数据库,其中每I = D I T ?个事物是一个项目子集,并另有一个唯一的事物标 T ( )T X ?识符。如果,则事物包含项目集。 TID T X Y X ?I Y I X ??,一个关联规则是形如的蕴涵式这里并 , ,Y X ∩Y X ?且ф。规则在交易数据库中的支持度 = D (是交易数据库中和的交易数与所有交易数之比, support)X Y Y X ?记为,即support( )Y X ?{ }D D T T Y X T /,:∈?∪support( )= Y X ?规则在交易数据库中的可信度指包 D (confidence)含和的交易数与包含的交易数之比,记为 X Y X Y X ?,即 confidence( )confidence(Y X ?{}{}D T T X T D T T Y X T ∈?∈?∪,:/,: )= 给定一个交易集,关联规则的挖掘问题就是产生支持 D 度和可信度分别大于用户给定的最小支持度和最 (minsupp)小可信度的关联规则。 (minconf)关联规则的发掘分为两个步骤:找出所有支持度大(1)于最小支持度的频集;从频集中产生期望的规则。(2)串行关联规则挖掘算法2 目前所有并行关联规则算法都是在相应的串行算法的基础上提出的。本文首先对这些串行算法进行介绍和分析。 算法2.1 Apriori-like 在各种关联规则挖掘算法中,最经典、最广泛使用的就是等Agrawal [2]设计的算法,其核心思想是基于频集理Apriori 论的递推方法。首先产生频繁项集,然后是频繁项集,1-2-直到有某个值使频繁项集为空,算法停止。这里在第次r r-k 循环中,过程先通过对两个只有一个项不同的属于的频 k-1集做连接产生候选项集的集合。然后验证候选项集 (k-2)-k-k-中的每个元素来决定是否将其加入频集,这里的验证过程k-是算法性能的一个瓶颈。这个方法要求多次扫描数据库,这就需要很大的负载。I/O 等提出了一个高效地产生频繁集的基于杂凑Park (hash)的算法:算法。通过实验Dynamic Hashing and Pruning(DHP)可以发现寻找频集的主要计算是在生成频繁项集上。2-DHP 利用一个杂凑表在计算频繁项集时先大概计算出项集的1-2-支持度,从而减少了候选项集的数量。还采用了数据2-DHP 库修剪技术,通过修剪掉那些不包含频集的事物集以减小下一次循环中数据库的大小。然而,这种修剪技术的优化并不显著。其主要原因在于只能通过过滤对数据库执行逻辑上的 并行关联规则挖掘综述 尚学群,沈均毅 西安交通大学电信工程学院软件研究所,西安( 710049 ) 摘要: 关联规则发现作为数据挖掘的重要研究内容,在许多实际领域内得到了广泛的应用。因为在挖掘过程中涉及到大量的数据和计算,高性能计算成为大规模数据挖掘应用的一个重要组成部分。该文介绍了当前并行关联规则挖掘方面的研究进展,对一些典型算法进行了分析和评价,从并行度、负载平衡以及和数据库的集成等方面展望了并行关联规则挖掘的研究方向。关键词: 数据挖掘;关联规则;并行算法 Survey of Parallel Association Rule Mining ,SHANG Xuequn SHEN Junyi (Software Institute,School of Telecom Engineering, Xi'an Jiaotong University, Xi'an 710049) 【】Abstract Due to the huge size of data and amount of computation involved in data mining, high-performance computing is an essential component for any successful large-scale data mining application. This paper provides a survey of the study in parallel association rule generation, reviews and analyses some typical algorithms, views the trend of parallel association rule mining based on the kind of parallelism exploited, the load balancing strategy used, and the integration with databases. The goal of this paper is to serve as a reference for both researchers and practitioners interested in the state-of-the-art in parallel association rule mining.【】Key words ;;Data mining Association rules Parallel algorithms 第30卷 第14期Vol.30 № 14计 算 机 工 程Computer Engineering 2004年7月 July 2004 ?发展趋势/热点技术 ? 中图分类号: TP182 文章编号:1000—3428(2004)14 —0001—03 文献标识码:A

相关文档
最新文档