4种序列模式挖掘算法的特性研究

4种序列模式挖掘算法的特性研究
4种序列模式挖掘算法的特性研究

第28卷 第2期

2006年2月武 汉 理 工 大 学 学 报JOURNA L OF WUHAN UNIVERSIT Y OF TECHN OLOG Y Vol.28 No.2 Feb.2006

4种序列模式挖掘算法的特性研究

吕 锋,张炜玮

(武汉理工大学信息工程学院,武汉430070)

摘 要: 序列模式挖掘是数据挖掘中的一个重要研究方向,对序列模式挖掘中的4种算法(AprioriAll 、GSP 、FreeSpan 、Prefixspan )的执行过程及其特点进行了研究,并对这几种算法的时空执行效率进行了定性和定量的分析比较,指出了4种算法各自的适用范围,得出的结果对序列模式挖掘系统的设计具有一定的参考价值。

关键词: 序列模式挖掘; AprioriAll ; GSP ; FreeS pan ; Prefixspan

中图分类号: TP 301.6文献标志码: A 文章编号:167124431(2006)022*******

R esearch on the Characters of Four Sequential Patterns

Mining Algorithms

L U Feng ,ZHA N G Wei 2wei

(School of Information Engineering ,Wuhan University of Technology ,Wuhan 430070,China )

Abstract : 

Sequential patterns mining was a very important data 2mining problem with board application.We researched four sequential patterns mining algorithms namely AprioriAll ,GSP ,FreeS pan ,Prefixspan ,and studied their characters.A qualita 2tive analysis had also been made on the algorithm ’s time and space efficiency.We also pointed out the conditions in which each algorithm was applied.The conclusion of the research would be beneficial to the desi gn of data mining system.

K ey w ords : sequential patterns mining ; aprioriAll ; GSP ; freespan ; prefixspan

收稿日期:2005209202.

基金项目:教育部重点实验室开放研究基金(T K LJ0203)1

作者简介:吕 锋(19572),男,教授.E 2mail :lufengwut @https://www.360docs.net/doc/d215702601.html,

序列模式挖掘即从序列数据库中发现频繁子序列以作为模式,它是一类重要的数据挖掘问题,有着非常广泛的应用前景,被应用在包括顾客购买行为的分析、网络访问模式分析、科学实验的分析、疾病治疗的早期诊断、自然灾害的预测、DNA 序列的破译等方面。

序列模式首先是由Agrawal R 和Srikant R 提出的[1,2],此后,许多这方面的研究都将注意力放在如何提高序列模式挖掘的效率上。但是到目前为止,大多数挖掘序列模式的方法都是Apriori 类方法的改进。下面就对序列模式挖掘中的4种算法进行分析和比较。

1 序列模式挖掘中的4种算法及其特点

1.1 AprioriAll 算法

AprioriAll [1]算法为Apriori 类算法,主要思想为:在每一次扫描(pass )数据库时,利用上一次扫描时产生的大序列生成候选序列,并在扫描的同时计算它们的支持度(support ),满足支持度的候选序列作为下次扫描的大序列。第1次扫描时,长度为1的频繁序列模式作为初始的大1—序列。

AprioriAll 算法的不足:1)容易生成庞大众多的候选序列;2)需要多次扫描数据库。候选序列的长度增加1,就需要扫描1次数据库;3)不易发现长序列模式,因为随着需要挖掘的序列模式长度的增加,侯选序列

85 武 汉 理 工 大 学 学 报 2006年2月

的数量会成指数级增长;4)在发现序列模式的过程中,每次扫描数据库都要在数据转换中产生很大的开销。

1.2 G SP算法

GSP[2]算法是AprioriAll算法的扩展算法,其算法的执行过程和AprioriAll类似,最大的不同就在于, GSP引入了时间约束、滑动时间窗和分类层次技术,增加了扫描的约束条件,有效地减少了需要扫描的候选序列的数量,同时还克服了基本序列模型的局限性,更切合实际,减少多余的无用模式的产生。另外GSP利用哈希树来存储候选序列,减小了需要扫描的序列数量,同时对数据序列的表示方法进行转换,这样就可以有效地发现一个侯选项是否是数据序列的子序列。

GSP算法也是一个Apriori类算法,它存在的主要问题和AprioriAll算法相似。

1.3 FreeSpan算法

FreeSpan[3],即频繁模式投影的序列模式挖掘,其基本思想为:利用频繁项递归地将序列数据库投影到更小的投影数据库集中,在每个投影数据库中生成子序列片段。这一过程对数据和待检验的频繁模式集进行了分割,并且将每一次检验限制在与其相符合的更小的投影数据库中[4]。

FreeSpan算法执行的过程可以描述为:

1)首先给定序列数据库S及最小支持度阈值ζ。扫描S,找到S中的频繁项集,并以降序排列生成

f list列表。

2)执行下面步骤:(1)第1遍扫描S,构造频繁项矩阵;(2)生成长度为2的序列模式,循环项模式的标记和投影数据库的标记;(3)再次扫描S,生成循环项模式和投影数据;(4)对生成的投影数据库递归调用矩阵投影挖掘算法挖掘更长的候选模式。

FreeSpan算法分析:它将频繁序列和频繁模式的挖掘统一起来,把挖掘工作限制在投影数据库中,还能限制序列分片的增长。它能有效地发现完整的序列模式,同时大大减少产生候选序列所需的开销,比基于Apriori的GSP算法快很多。不足之处,它可能会产生许多投影数据库,如果一个模式在数据库中的每个序列中出现,该模式的投影数据库将不会缩减;另外,一个长度为k的序列可能在任何位置增长,那么长度为k+1的候选序列必须对每个可能的组合情况进行考察,这样所需的开销是比较大的。

1.4 Pref ixspan算法

Prefixspan[5]是FreeSpan的改进算法,即通过前缀投影挖掘序列模式。其基本思想为:序列数据库投影时,并不考虑所有可能出现的频繁子序列,而只检验前缀序列,然后把相应的后缀序列投影成投影数据库。每个投影数据库中,只检查局部频繁模式,在整个过程中不需要生成候选序列。

Prefixspan算法的执行过程可以描述为[6]:1)对交易数据库扫描一次得到全部频繁项目n,它们同时也是频繁1—序列。2)将序列模式完整的集合分为n个具有不同前缀的序列模式的子集。3)通过构造相应的投影库并在其中递归地挖掘发现序列模式的子集。

PrefixSpan算法分析:1)不需要产生候选序列模式,大大缩减了检索空间;2)与原始的序列数据库相比,投影数据库的规模不断减小;3)算法的主要开销在于投影数据库的构造,如果存在大量的序列模式,并且需要为每一个序列模式建立一个投影数据库,那么开销就比较大。

2 算法的特性分析

对Apriori类方法的改进研究,主要集中在如何提高算法的效率上。所有的Apriori类算法无论在处理细节上采用何种改进技术,都不可避免地在候选序列的生成、检验和支持度的计算方面产生开销。另外一种思路就是引入FP2growth的思想,在获得的子序列基础上,将需要挖掘的序列模式进行分类,并且按照这些分类将序列数据库进行投影,这种方法就是模式增量的序列模式挖掘。

2.1 4种算法的定性比较

归纳起来改进的方法主要体现在候选序列的产生,数据存储的结构,对原始数据的扫描次数等(见表1)。

在挖掘序列模式的过程中,AprioriAll和GSP产生大量的候选序列,FreeSpan和PrefixSpan不产生候选序列。采用合适的数据结构存储频繁序列可以提高算法执行的效率,可以看到前3种算法都采用Hash tree。AprioriAll和GSP没有对原始数据库进行分割,每次扫描都是在整个原始数据库上进行的,候选序列

的长度每增加1就需要扫描1次数据库,在发

现频繁序列的过程中,需要对原始数据库进行

反复多次的扫描。FreeSpan 和PrefixSpan 将原

始数据库分割,并将其投影到较小的投影数据

库中,对频繁序列的挖掘只局限在投影数据库

中,从表1中也可以看到,后二者对原始数据库

的扫描次数不超过3次。此外,AprioriAll 和

GSP 用循环的方法挖掘频繁序列,FreeSpan 和

PrefixSpan 用递归的方法进行挖掘。

表1 算法的分类比较属性Apriori 类算法AprioriAll GSP 模式增量算法FreeSpan PrefixS pan 候选序列产生产生不产生不产生数据结构Hash tree Hash tree Hash tree WAP tree 数据库分割否否是是对原始数据库的扫描次数反复多次反复多次3次2次算法执行循环循环递归递归

2.2 算法的时间和空间执行效率比较AprioriAll 算法和GSP 算法都属于Apriori 类算法,都要产生大量的候选序列,需要有足够的存贮空间。这类算法还需要对原始数据进行反复多次的扫描来计算支持度,需要占用很多的运行时间。当支持度下降的时候,频繁序列的数量成指数上升,这样一来所花费的扫描时间也会成指数级上升,并且候选序列的数量也会随着待挖掘序列的长度呈指数增长关系,算法的执行效率将会大大下降。相对于AprioriAll ,GSP 由于采用了约束条件,减小了候选序列的数量,其执行效率比前者要高,但同时由于约束条件的使用,相应会使算法复杂一些,也会以相应的开销为代价,但总体来说效率比AprioriAll 高2~20倍。

FreeSpan 算法和PrefixSpan 算法属于模式增长方法,它们的查找更加集中和有效。算法不生成大量的候选序列,而是以某种压缩的形式保留了原数据库基本的数据分组。算法每一次迭代不是扫描完整的原数据库来匹配相应的全部候选序列,而是限定在投影数据库中,大大节省了算法执行时间。在所需存贮空间上,FreeSpan 在主存中只存储了频繁项矩阵F ,然后可以逐个对投影数据库进行计算,这样就比对原始数据库进行计算所需要的存贮空间少得多。基于序列数据库投影的算法比常用的基于Apriori 的算法要快且有效得多,特别是在支持度比较低的情况下更是明显。FreeSpan 基于任何频繁子序列对序列数据库投影,并在子序列的任何位置上增长;PrefixSpan 仅仅基于频繁前缀子序列投影,并通过在其后添加后缀来实现序列的增长,在时间和空间上的执行性能比前者更优。

2.3 Apriori 类算法和Freespan 算法的定量分析

Apriori 类算法会产生大量的候选序列,而且要反复多次的扫描数据库来计算支持度,这已经成为Apri 2ori 类算法的瓶颈。一般来说,Apriori 类算法发现一个长度为l 的序列模式,至少需要扫描数据库l 次。例如,如果要发现{(abc )(adc )(edf )(f gd )(cf d )}这一序列模式,需要扫描数据库至少15次。从理论上来讲,

如果有n 个长度为1的频繁序列,算法产生的所有候选序列的数量为

∑n

i =1n i =2n -1。对FreeSpan 中频繁项矩阵F 占用存储空间的定量分析如下:设序列数据库中有m 个频繁项,频繁项矩

阵共需要|M |=m +

32

×(m -1)×(m -2)个计数单元。例如,m =1000,|M |=1.5×106=3Mb (假设每个计数单元占用2b 的空间),目前一般的计算机就很容易满足这个要求。2.4 算法适用范围分析

通常,数据集可分为稠密数据集和稀疏数据集。稠密数据集有大量的长尺度和高支持度的频繁模式,在这样的数据集中,许多事件是相似的,例如DNA 分析或者股票序列分析。稀疏数据集主要由短模式组成,长模式也存在,但相应的支持度很小,例如超级市场的交易数据集,用户在网站中的浏览页面序列等[7]。

对于稠密型数据集Apriori 类算法就不太适合应用,因为在发现序列模式的过程中会产生大量的候选序列,Apriori 类算法在稀疏数据集的应用比较合适,如果对于有约束条件(例如相邻事务的时间间隔约束)序列模式挖掘,GSP 更适用。FreeSpan 和PrefixSpan 在稀疏和稠密数据集中都适用,而且在稠密数据集中它们的优势更加明显,可以有效地对数据进行压缩处理,不产生候选集,而且当需要加入约束条件时,可以对算法较方便地进行扩展。但相比之下,PrefixSpan 的性能更好一些。

当然,选择何种算法,除了考虑算法的执行效率,还要根据挖掘对象以及对挖掘系统的要求等因素综合95第28卷 第2期 吕 锋,等:4种序列模式挖掘算法的特性研究

06 武 汉 理 工 大 学 学 报 2006年2月

考虑。此外,Apriori类算法使用起来比较简单,FreeSpan算法和PrefixSpan算法虽然效率高,但是实现起来难度大。所以,现在大多数应用都是采用Apriori类算法的改进算法,以克服Apriori类算法执行效率不高的缺点,这些改进主要体现在缩减候选序列的数量以减少扫描时间、构造更加有效的访问路径树以减少扫描次数等。

3 结 语

Apriori类算法是序列模式挖掘算法的基础,目前大多数的算法都是对此类算法的改进,Apriori类算法有不可避免的劣势。FreeSpan和PrefixSpan属于模式增长方法,它们采用分而治之的方法,大大提高了算法的效率。但在实际应用中,在挖掘过程的不同阶段,数据集的特点,数据规模等因素可能不同,如果根据各阶段的特点,选择与之相应的算法,则序列模式挖掘能达到更好的效果。在这里,仅对4种算法特点和适用范围进行了理论上的分析,提出了在实际应用中综合应用多种算法的想法。面对一个具体的实例,例如股票序列分析中,如何根据不同阶段的数据集的特点选择合适的算法,这些数据挖掘算法的结论信息又如何链接、传输、共享和兼容等,这些问题都是我们今后工作的研究内容。

参考文献

[1] Agrawal R,Srikant R.Mining Sequential Patterns[A].Proc1995Int Conf Data Engineering(ICDE’95)[C].Taipei:IEEE

Computer S ociety,1995.3~141

[2] Agrawal R,Srikant R.Mining Sequential Patterns:G eneralizationgs and Performance Improvments[A].Proc5th Int Conf

Extending Database Technology(EDB T)[C].Avignon:Lecture Notes in Computer Science,1996.3~17.

[3] Han Jiawei,Pei Jian.FreeS pan:Frequent Pattern2projected Sequential Pattern Mining[A].Proc2000Int Conf Knowledge

Discovery and Data Mining(K DD’00)[C].Boston:MAACM Press,2000.355~3591

[4] 李招远,丁振国.一个基于投影的Web访问序列模式挖掘算法[J].情报技术,2004,(8):59~63.

[5] Pei Jian,Han Jiawei.Mining Sequential Patterns by Patter2growth:The PrefixS pan Approach[J].IEEE Transactions on

Knowledge and Data Engineering,2004,6(10):1~17.

[6] Han J,Pei J,Y in Y.Mining Frequent Patterns Without Candidate G eneration[A].Proc2000ACM2SIGMOD Int’l Conf

Management of Data(SIGMOD’00)[C].Dallas:TX ACM Press,2000.1~12.

[7] 李松辉,戚昌文,周祖德.企业的客户数据挖掘系统设计[J].武汉理工大学学报,2003,25(9):92~951

(上接第9页)

参考文献

[1] Niesz D E,Bennett R B.Structure and Properties of Agglomerates[A].In:G eorge Y O,Larry L H.Ceramic Processing Before

Firing[C].New Y ork:A Wiley2interscience Publication,1978.61~73.

[2] Lange F F.Sinterability of Agglomerated Powder[J].J Am Ceram S oc,1986,67(2):83~85.

[3] 陈昆刚,林租禳,徐孝和,等.Al2O3的粉末特征对β2Al2O3烧结性能的影响[J].无机材料学报,1997,12(3):327~330.

[4] 李 楠.团聚氧化镁粉料压块的烧结机理与动力学模型[J].硅酸盐学报,1994,22(1):77~84.

[5] 郑 勇,游 敏,刘文俊,等.原始粉末尺寸对Ti(C,N)基金属陶瓷烧结特性和组织结构的影响[J].粉末冶金技术,

2003,21(4):195~200.

[6] 李继光,孙旭东,王雅蓉,等.α2Al2O3纳米粉烧结初期的恒温实验研究[J].金属学报,1998,34(2):189~194.

[7] 黄培云.粉末冶金原理[M].北京:冶金工业出版社,1982.

[8] 马福康.等静压技术[M].北京:冶金工业出版社,1992.

[9] 李明怡,果世驹,康志君,等.不同类型金属粉末的温压行为[J].粉末冶金技术,2000,18(4):261~264.

[10] 卢秀荣,王成扬,范起明.MCMB超细粉特性及其成型工艺对烧结体性能的影响[J].新型炭材料,2004,19(2):

109~113.

数据挖掘算法综述

数据挖掘方法综述 [摘要]数据挖掘(DM,DataMining)又被称为数据库知识发现(KDD,Knowledge Discovery in Databases),它的主要挖掘方法有分类、聚类、关联规则挖掘和序列模式挖掘等。 [关键词]数据挖掘分类聚类关联规则序列模式 1、数据挖掘的基本概念 数据挖掘从技术上说是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。这个定义包括好几层含义: 数据源必须是真实的、大量的、含噪声的、发现的是用户感兴趣的知识, 发现的知识要可接受、可理解、可运用, 并不要求发现放之四海皆准的知识, 仅支持特定的发现问题, 数据挖掘技术能从中自动分析数据进行归纳性推理从中发掘出潜在的数据模式或进行预测, 建立新的业务模型帮助决策者调整策略做出正确的决策。数据挖掘是是运用统计学、人工智能、机器学习、数据库技术等方法发现数据的模型和结构、发现有价值的关系或知识的一门交叉学科。数据挖掘的主要方法有分类、聚类和关联规则挖掘等 2、分类 分类(Classification)又称监督学习(Supervised Learning)。监

督学习的定义是:给出一个数据集D,监督学习的目标是产生一个联系属性值集合A和类标(一个类属性值称为一个类标)集合C的分类/预测函数,这个函数可以用于预测新的属性集合(数据实例)的类标。这个函数就被称为分类模型(Classification Model),或者是分类器(Classifier)。分类的主要算法有:决策树算法、规则推理、朴素贝叶斯分类、支持向量机等算法。 决策树算法的核心是Divide-and-Conquer的策略,即采用自顶向下的递归方式构造决策树。在每一步中,决策树评估所有的属性然后选择一个属性把数据分为m个不相交的子集,其中m是被选中的属性的不同值的数目。一棵决策树可以被转化成一个规则集,规则集用来分类。 规则推理算法则直接产生规则集合,规则推理算法的核心是Separate-and-Conquer的策略,它评估所有的属性-值对(条件),然后选择一个。因此,在一步中,Divide-and-Conquer策略产生m条规则,而Separate-and-Conquer策略只产生1条规则,效率比决策树要高得多,但就基本的思想而言,两者是相同的。 朴素贝叶斯分类的基本思想是:分类的任务可以被看作是给定一个测试样例d后估计它的后验概率,即Pr(C=c j︱d),然后我们考察哪个类c j对应概率最大,便将那个类别赋予样例d。构造朴素贝叶斯分类器所需要的概率值可以经过一次扫描数据得到,所以算法相对训练样本的数量是线性的,效率很高,就分类的准确性而言,尽管算法做出了很强的条件独立假设,但经过实际检验证明,分类的效果还是

数据流挖掘算法研究综述

-1130- 1引言 所谓数据流就是大量连续到达的、潜在无限的数据的有序序列,这些数据或其摘要信息只能按照顺序存取并被读取一次或有限次。在网络监控、入侵检测、情报分析、金融服务、股票交易、电子商务、电信、卫星遥感(气象、环境资源监控等)、Web 页面访问和科学研究等众多领域中,数据以流的形式出现。由于数据流的特殊性,短时间内有大量数据连续到达,这些数据具有随时间动态变化的趋势,往往又是高维的,怎样对这些流数据使用有限存储空间进行快速处理以获取有用信息,为数据挖掘及其应用研究带来了新的机遇和挑战,也具有非常重要的意义。由于众多应用领域的需求,近几年数据流处理问题,特别是数据流挖掘问题已受到越来越多的研究人员关注。国外在数据流挖掘方面有两个比较有影响的研究小组:一个是Stanford 大学的R.Motwani 教授领导的研究小组,另一个是UIUC 的C.Aggarwal 和J.Han 教授领导的研究小组。前者的研究侧重在数据流管理、数据流的连续查询和数据流的聚类方面 [1-4] ,提出了不同于传统DBMS 的DSMS (Data Stream Management System )概念,他们的研究得到了美国国家自然科学基金的资助。后者的研究侧重在数据流分析方面,对于数据流的在线分析,从聚类、分类、频繁项集挖掘以 及可视化等角度做了大量研究工作[5-8],提出了倾斜时间窗口(tilted-time window )策略,采用不同时间粒度保存数据流的信息,他们的研究得到了美国军方和国家自然科学基金的资助。目前鲜见国内在数据流挖掘方面公开发表的研究文献。本文拟对数据流挖掘的研究现状进行总结,并对存在的问题和未来的研究方向提出我们的观点。 2数据流挖掘研究现状 目前数据流挖掘方面的研究成果主要集中在数据流的聚 类、分类和频繁模式挖掘方面。 2.1数据流聚类算法研究 尽管聚类问题在数据库、数据挖掘和统计等领域得到了 广泛研究,流数据的分析仍为聚类算法提出了前所未有的挑战,由于完整甚至部分地存储过去数据的方法不可行,需要能够只使用新数据就能够追踪聚类变化的算法,这就要求算法必须是增量式的,对聚类表示要简洁,对新数据的处理要快速,对噪音和异常数据是稳健的。因为数据流可看成是随时间不断变化的无限过程,其隐含的聚类可能随时间动态地变化而导致聚类质量降低。近年来,有学者提出了应用于大规模数据集的一趟聚类算法,如Squeezer 算法[9]和BIRCH [11]算法,它们可以应用于某些数据流问题,也有学者提出了针对流数 收稿日期:2004-06-12。基金项目:国家自然科学基金项目(60273075)。 作者简介:蒋盛益(1963-),男,湖南隆回人,副教授,博士生,研究方向为数据挖掘和网络安全;李庆华,教授,博士生导师,研究方向为并行计算、网格计算和网络安全;李新,硕士生,研究方向为数据挖掘和并行计算。 2005年5月计算机工程与设计 May.2005 第26卷第5期Vol.26 No.5 数据流挖掘算法研究综述 蒋盛益1,2 ,李庆华1,李 新1 (1.华中科技大学计算机学院,湖北武汉430074;2.衡阳师范学院计算机系,湖南衡阳421008) 摘 要:流数据挖掘是数据挖掘的一个新的研究方向,已逐渐成为许多领域的有用工具。在介绍数据流的基本特点以及数据流挖掘的意义的基础上,对现有数据流挖掘算法的主要思想方法进行了总结,并指出了这些方法的局限性。最后对数据流挖掘的发展方向进行了展望。 关键词:数据流;数据流挖掘;聚类;分类;频繁模式中图法分类号:TP3ll 文献标识码:A 文章编号:1000-7024(2005)05-1130-03 Survey on data stream mining JIANG Sheng-yi 1,2, LI Qing-hua 1, LI Xin 1 (https://www.360docs.net/doc/d215702601.html,puter School,Huazhong University of Science and Technology,Wuhan 430074,China;https://www.360docs.net/doc/d215702601.html,puter Department, Hengyang Normal University,Hengyang 421008,China ) Abstract :Data stream mining is a new research aspect of data mining.It has be come a useful tool for many fields.The essential characteristic of data stream and the significance of data stream mining are introduced.The main ideal of existing data stream mining algorithms is summarized,and the limitation of the algorithms is pointed out.Some research directions about data stream mining in future work are put forward. Key words :data stream;data stream mining;clustering,classification;frequent pattern Computer Engineering and Design

数据挖掘原理与实践蒋盛益版期末复习

第一章 数据挖掘定义 技术层面:数据挖掘就是从大量数据中,提取潜在有用的信息和知识的过程。 商业层面:数据挖掘就是一种商业信息处理技术,其主要特点是对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据。 数据挖掘任务 预测任务 根据其它属性的值预测特定属性的值,如分类、回归、离群点检测。 描述任务 寻找概括数据中潜在联系的模式,如聚类分析、关联分析、演化分析、序列模式挖掘。 (1) 分类(Classification)分析 分类分析,通过分析示例数据库中的数据为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用此分类规则对其它数据库中的记录进行分类。 分类分析广泛应用于用户行为分析(受众分析)、风险分析、生物科学等。 (2) 聚类(Clustering)分析 “物以类聚,人以群分”。聚类分析技术试图找出数据集中的共性和差异,并将具有共性的对象聚合在相应的类中。聚类可以帮助决定哪些组合更有意义,广泛应用于客户细分、定向营销、信息检索等等。 (3) 回归(Regression )分析 回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种分析方法。其可应用于风险分析、作文自动评分等领域。 (4) 关联(Association)分析 关联分析,发现特征之间的相互依赖关系,通常是从给定的数据集中发现频繁出现的模式知识(又称为关联规则)。关联分析广泛用于市场营销、事务分析等领域。 聚类与分类的主要区别 聚类与分类是容易混淆的两个概念,聚类是一种无指导的观察式学习,没有预先定义的类。而分类问题是有指导的示例式学习,预先定义的类。 数据挖掘过程 数据挖掘和知识发现紧密相连。知识发现是从数据中发现有用知识的整个过程 ?知识发现的主要步骤: ?数据清洗。其作用是清除数据噪声和与挖掘主题明显无关的数据。 ?数据集成。其作用是将来自多数据源中的相关数据组合到一起。 ?数据转换。其作用是将数据转换为易于进行数据挖掘的数据存储形式。 ?数据挖掘。其作用是利用智能方法挖掘数据模式或规律知识。 ?模式评估。其作用是根据一定评估标准从挖掘结果筛选出有意义的相关知识。 ?知识表示。其作用是利用可视化和知识表达技术,向用户展示所挖掘的相关知识

学习18大经典数据挖掘算法

学习18大经典数据挖掘算法 本文所有涉及到的数据挖掘代码的都放在了github上了。 地址链接: https://https://www.360docs.net/doc/d215702601.html,/linyiqun/DataMiningAlgorithm 大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面都是我自己相应算法的博文链接,希望能够帮助大家学习。 1.C4.5算法。C4.5算法与ID3算法一样,都是数学分类算法,C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决策判断,而C4.5采用的是增益率。 详细介绍链接:https://www.360docs.net/doc/d215702601.html,/androidlushangderen/article/details/42395865 2.CART算法。CART算法的全称是分类回归树算法,他是一个二元分类,采用的是类似于熵的基尼指数作为分类决策,形成决策树后之后还要进行剪枝,我自己在实现整个算法的时候采用的是代价复杂度算法, 详细介绍链接:https://www.360docs.net/doc/d215702601.html,/androidlushangderen/article/details/42558235 3.KNN(K最近邻)算法。给定一些已经训练好的数据,输入一个新的测试数据点,计算包含于此测试数据点的最近的点的分类情况,哪个分类的类型占多数,则此测试点的分类与此相同,所以在这里,有的时候可以复制不同的分类点不同的权重。近的点的权重大点,远的点自然就小点。 详细介绍链接:https://www.360docs.net/doc/d215702601.html,/androidlushangderen/article/details/42613011 4.Naive Bayes(朴素贝叶斯)算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法,用到了一个比较重要的贝叶斯定理,用一句简单的话概括就是条件概率的相互转换推导。 详细介绍链接:https://www.360docs.net/doc/d215702601.html,/androidlushangderen/article/details/42680161 5.SVM(支持向量机)算法。支持向量机算法是一种对线性和非线性数据进行分类的方法,非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。 详细介绍链接:https://www.360docs.net/doc/d215702601.html,/androidlushangderen/article/details/42780439 6.EM(期望最大化)算法。期望最大化算法,可以拆分为2个算法,1个E-Step期望化步骤,和1个M-Step最大化步骤。他是一种算法框架,在每次计算结果之后,逼近统计模型参数的最大似然或最大后验估计。

数据挖掘原理与实践-蒋盛益-答案

习题参考答案 第1 章绪论 1.1 数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。 答:数据挖掘处理的对象是某一专业领域中积累的数据,对象既可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同, 可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的 数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web 数据 信息。 实际生活的例子: ①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所 开通的服务等,据此进行客户群体划分以及客户流失性分析。 ②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文 学家发现其他未知星体。 ③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。 ④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。 1.2 给出一个例子,说明数据挖掘对商务的成功是至关重要的。该商务需要什么样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗? 答:例如,数据挖掘在电子商务中的客户关系管理起到了非常重要的作用。随着各个电子商务网站的建立,企业纷纷地从“产品导向”转向“客户导向”,如何在保持现有的客户 同时吸引更多的客户、如何在客户群中发现潜在价值,一直都是电子商务企业重要任务。但是,传统的数据分析处理,如数据查询处理或简单的统计分析,只能在数据库中进行 一些简单的数据查询和更新以及一些简单的数据计算操作,却无法从现有的大量数据中 挖掘潜在的价值。而数据挖掘技术却能使用如聚类、关联分析、决策树和神经网络等多 种方法,对数据库中庞大的数据进行挖掘分析,然后可以进行客户细分而提供个性化服务、可以利用挖掘到的历史流失客户的特征来防止客户流失、可以进行产品捆绑推荐等,从而使电子商务更好地进行客户关系管理,提高客户的忠诚度和满意度。 1.3 假定你是Big-University 的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。该数据库包括如下信息:每个学生的姓名、地址和状态(例如,本科生或研究生)、所修课程,以及他们的GPA。描述你要选取的结构,该结构的每个成分的作用是什么?答:任务目的是分析课程数据库,那么首先需要有包含信息的关系型数据库系统,以便查找、提取每个属性的值;在取得数据后,需要有特征选择模块,通过特征选择,找出要分析 的属性;接下来需要一个数据挖掘算法,或者数据挖掘软件,它应该包含像分类、聚类、关联分析这样的分析模块,对选择出来的特征值进行分析处理;在得到结果后,可以用 可视化软件进行显示。 1.4 假定你作为一个数据挖掘顾问,受雇于一家因特网搜索引擎公司。通过特定的例子说明,数据挖掘可以为公司提供哪些帮助,如何使用聚类、分类、关联规则挖掘和离群点检测 等技术为企业服务。 答: (1) 使用聚类发现互联网中的不同群体,用于网络社区发现; 第2 页共27 页 (2) 使用分类对客户进行等级划分,从而实施不同的服务; (3) 使用关联规则发现大型数据集中间存在的关系,用于推荐搜索。如大部分搜索了“广外”的人都会继续搜索“信息学院”,那么在搜索“广外”后会提示是否进进一步搜 索“信息学院”。

数据流高效用模式挖掘综述

第37卷第9期 计算机应用研究 V ol. 37 No. 9 录用定稿 Application Research of Computers Accepted Paper —————————— 收稿日期:2019-03-21;修回日期:2019-05-14 基金项目:国家自然科学基金资助项目(61563001);宁夏自然科学基金资助项目(NZ17115);北方民族大学研究生创新项目(YCX18052) 作者简介:王少峰(1993-),男,陕西西安人,硕士研究生,主要研究方向为数据挖掘;韩萌(1982-),女(通信作者),河南商丘人,副教授,硕导,博士,主要研究方向为数据挖掘(2003051@https://www.360docs.net/doc/d215702601.html,);贾涛(1993-),男,陕西韩城人,硕士研究生,主要研究方向为数据挖掘;张春砚(1995-),女,河北张家口人,硕士研究生,主要研究方向为数据挖掘;孙蕊(1993-),女,山东邹城人,硕士研究生,主要研究方向为数据挖掘. 数据流高效用模式挖掘综述 * 王少峰,韩 萌?,贾 涛,张春砚,孙 蕊 (北方民族大学 计算机科学与工程学院, 银川 750021) 摘 要:数据流高效用模式挖掘方法是以二进制的频繁模式挖掘方法为前提,引入项的内部效用和外部效用,在模式挖掘过程中可以考虑项的重要性,从而挖掘更有价值的模式。从关键窗口技术、常用方法、表示形式等角度对数据流高效用模式挖掘方法进行分析,并总结其相关算法,从而研究其特点、优势、劣势以及其关键问题所在。具体来说,说明了数据流高效用模式常用的概念;对处理数据流高效用模式的关键窗口技术进行了分析,涉及到滑动、衰减、界标和倾斜窗口模型;研究了一阶段和两阶段的数据流高效用模式挖掘方法;分析了高效用模式的表示形式,即完全高效用模式和压缩高效用模式;介绍了其他的数据流高效用模式,包括序列高效用模式、混合高效用模式以及高平均效用模式等,最后展望了数据流高效用模式挖掘的进一步研究方向。 关键词:综述;数据流挖掘;高效用模式;窗口模型 中图分类号:TP3 doi: 10.19734/j.issn.1001-3695.2019.03.0105 Survey of high utility pattern mining over data streams Wang Shaofeng, Han Meng ?, Jia Tao, Zhang Chunyan, Sun Rui (School of Computer Science & Technology , North Minzu University , Yinchuan 750021, China ) Abstract: The high utility pattern mining methods over data stream are based on the binary frequent pattern mining methods, and introduce the internal utility and external utility of the item. In the pattern mining process, it can consider the importance of the item to explore more valuable patterns. From the perspective of key window technologies, common methods and representations, this paper analyzes the high utility mining methods over data stream and summarizes the related algorithms to study its characteristics, advantages, disadvantages and key problems. Specifically, it illustrates the common concepts of high utility pattern mining over data stream; it analyzes the key window technologies for processing data flow efficient mode, involving sliding, damped, landmark and titled window model; researches one-phase and two-phase high utility pattern mining methods over data stream; analysis of representation of the high utility pattern, that is, complete high utility pattern and the compressed high utility pattern; introduces other high utility pattern mining methods over data stream, including sequence high utility pattern, hybrid high utility pattern and high average utility pattern, etc. , finally, this paper looks forward to the further research direction of high utility pattern mining methods over data stream. Key words: survey; data stream mining; high utility pattern; window models 0 引言 近年来,随着大数据的发展,数据流中存储着越来越多的有趣信息。频繁模式挖掘是挖掘数据流中有趣信息的重要方法,但传统的频繁模式挖掘算法只考虑事务中项的二进制 (0/1)值,即项存在(1)或不存在(0),但在实际应用中,还需考虑项在每条事务中出现的次数(或数值大小),以及项的权重。为了克服频繁模式挖掘的局限性,研究者提出了高效用模式挖掘方法用。该方法考虑事务的非二进制的内部效用和每个项的外部效用,与传统频繁模式挖掘方法相比,数据流高效用模式挖掘存在几个挑战: a) 内部效用与外部效用的设置。在传统的数据流中,如何对项添加内、外部效用,以及如何判定得到的模式为高效用模式,是需要解决的问题。 b) 向下闭包属性的维护。由于高效用模式的内部效用与外部效用大小是独立且不确定的,导致高效用模式无法满足 向下闭包属性。 c) 满足数据流特性的高效用模式挖掘方法。由于添加了内、外部效用,挖掘数据流中频繁模式方法,如FP-stream [1]、 FP-CDS [2],DSMRM-BLW [3]、TDMC [4]等,并不适用于高效 用模式挖掘,在数据存储以及窗口模型更新等方面需要进一步改善。 d) 高效用压缩模式的挖掘。内、外部效用的加入导致高效用模式的压缩约束产生变化,如何进行针对性的高效用压缩模式的挖掘,也是重要的挑战之一。 针对以上挑战,Yao 等人[5]首次提出高效用项集挖掘的理论基础,确定了项集的有用性(即效用约束)的数学属性。只有当项集满足给定的效用约束时,用户才对它感兴趣。并引入高效用项集挖掘算法MEU ,该方法允许用户使用效用值 来量化他们对项集有用性的偏好。Liu 等人[6, 7]提出的TWU 模型,有效维护了高效用模式的向下闭包属性。该模型先得到每条事务的效用总和TU(transaction utility),并对所求项集 存在事务的TU 相加得到项集的事务加权效用 TWU(transaction weighted utility),用于挖掘候选模式,此模型满足向下闭包属性。Ahmed [8]提出的HUPMS 算法使用了 滑动窗口模型,在模式树中存储每个项批次的加权事务效用

Web数据挖掘综述

Web数据挖掘综述 摘要:过去几十年里,Web的迅速发展使其成为世界上规模最大的公共数据源,因此如何从Web庞大的数据中提取出有价值的信息成为一大难题。Web数据挖掘正是为了解决这一难题而提出的一种数据挖掘技术。本文将从Web数据挖掘的概念、分类、处理流程、常用技术等几方面对Web数据挖掘进行介绍,并分析了Web数据挖掘的应用及发展趋势。 关键词:Web数据挖掘;分类;处理流程;常用技术;应用;发展趋势 Overview of Web Data Mining Abstract:Over the past few decades,the rapid development of Web makes it becoming the world’s largest public data sources.So how to extract valuable information from the massive data of Web has become a major problem.Web data mining is the data mining technology what is in order to solve this problem.This article introduces the Web data mining from its concept, classification,processing,and common techniques,and analyzes the application and the development tendency of Web data mining. Key words:Web Data Mining;Classification;Processing;Common Techniques;Application; Development Tendency 0.引言 近些年来,互联网技术的飞速发展,带来了网络信息生产和消费行为的快速拓展。电脑、手机、平板电脑等终端的普及,SNS、微博等Web2.0应用的快速发展,促进了互联网信息数量的急剧增长,信息资源前所未有的丰富。但同时,海量级、碎片化的信息增加了人们获取有效信息的时间和成本[1]。因此,迫切需要找到这样的工具,能够从Web上快速有效地发现资源,发现隐含的规律性内容,提高在Web上检索信息、利用信息的效率,解决数据的应用问题,Web数据挖掘正是一个很好的解决方法。 1.Web数据挖掘概念 Web数据挖掘,简称Web挖掘,是由Oren Etzioni在1996年首先提出来的[2]。Web数据挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与Web相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及数据库技术、信息获取技术、统计学、机器学习和神经网络等多个研究领域的技术[3]。 2.Web数据挖掘分类 Web上包括三种类型数据:Web页面数据、Web结构数据和Web日志文件[4]。依据在挖掘过程中使用的数据类别,Web数据挖掘可以分为Web内容挖掘,Web结构挖掘,Web 使用挖掘三类。 2.1Web内容挖掘 Web内容挖掘是从文档内容或其描述中抽取有用信息的过程。Web内容挖掘有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。根据挖掘出来的数据可以将

遗传算法的数据挖掘综述

基于遗传算法的数据挖掘综述 朱玲 (江西理工大学信息工程学院,赣州市中国 341000) 摘要:本文定义了遗传算法概念和理论的来源,介绍遗传算法的研究方向和应用领域,解释了遗传算法的相关概念、编码规则、三个主要算子和适应度函数,描述遗传算法计算过程和参数的选择的准则,并且在给出的遗传算法的基础上结合实际应用加以说明。 关键词:数据挖掘;遗传算法 Data Mining Based on Genetic Algorithm Zhu Ling (College of Information Engineering, Jiangxi University of Science and Technology, Ganzhou, China 341000) Abstract:This paper defines the concept of genetic algorithm and the source of the theory, introduces the research direction and application field of genetic algorithm, explains the related concepts, coding rules, three main operators and fitness functions of genetic algorithm, describes the genetic algorithm calculation process and Parameter selection criteria, and in the given genetic algorithm based on the combination of practical applications to be explained. Key words: data mining; genetic algorithm 前言 遗传算法(genetic algorithm,GAs)试图计算模仿自然选择的过程,并将它们运用于解决商业和研究问题。遗传算法于20世界六七十年代由John Holland[1] 发展而成。它提供了一个用于研究一些生物因素相互作用的框架,如配偶的选择、繁殖、物种突变和遗传信息的交叉。在自然界中,特定环境限制和压力迫使不同物种竞争以产生最适应于生存的后代。在遗传算法的世界里,会比较各种候选解的适合度,最适合的解被进一步改进以产生更加优化的解。 遗传算法借助了大量的基因术语。遗传算法的基本思想基于达尔文的进化论和孟德尔的遗传学说,是一类借鉴生物界自然选择和自然遗传机制的随机搜索算法。生物在自然界的生存繁殖,显示对其自然环境的优异自适应能力。受其启发,人们致力于对生物各种生存特性的机制研究和行为模拟。通过仿效生物的进化与遗传,根据“生存竞争”和“优胜劣汰”的原则,借助选择、交叉、变异等操作,使所要解决的问题从随机初始解一步步逼近最优解。现在已经广泛的应用于计算机科学、人工智能、信息技术及工程实践。[2]在工业、经济管理、交通运输、工业设计等不同领域,成功解决了许多问题。例如,可靠性优化、流水车间调度、作业车间调度、机器调度、设备布局设计、图像处理以及数据挖掘等。遗传算法作为一类自组织于自适应的人工智能技术,尤其适用于处理传统搜索方法难以解决的复杂的和非线性的问题。 1.遗传算法的应用领域和研究方向 1.1遗传算法的特点 遗传算法作为一种新型、模拟生物进化过程的随机化搜索方法,在各类结构对象的优化过程中显示出比传统优化方法更为独特的优势和良好的性能。它利用其生物进化和遗传的思想,所以它有许多传统算法不具有的特点[3]: ※搜索过程不直接作用在变量上,而是作用于由参数集进行了编码的个体上。此编码操作使遗传算法可以直接对结构对象进行操作。 ※搜索过程是从一组解迭代到另一组解,采

时间序列模式挖掘

第6章时间序列和序列模式挖掘(讲稿) 6.1时间序列及其应用 时间序列(Time Series)挖掘是从大量的时间序列数据中提取人们事先不知道的但又是潜在有用的信息和知识,是数据挖掘中的一个重要研究分支,有广泛的应用价值。 近年来,时间序列挖掘在宏观的经济预测、市场营销、客流量分析、太阳黑子数、月降水量、河流流量、股票价格变动(长期的观察,有周期性)等众多领域得到应用。事实上,社会、科学、经济、技术等领域中广泛存在着大量的时间序列数据有待进一步的分析和处理。 时间序列数据挖掘通过研究信息的时间特性,深入洞悉事物进化的机制,是获得知识的有效途径。 从统计意义上来讲,所谓时间序列就是将某一指标在不同时间上的不同数值,按照时间先后顺序排列而成的数列。它可以是观察值也可以是记录值。 这种数列由于受到各种偶然因素的影响。往往表现出某种随机性,彼此之间存在着在统计上的依赖关系。虽然每一时刻上的取值或数据点的位置具有一定的随机性,不可能完全准确地用历史值来预测将来。但前后时刻的数值或数据点的相关性往往呈现某种趋势性或周期性变化----这是时间序列挖掘的可行性之所在。 时间序列挖掘通过对过去历史行为的客观记录分析,揭示其内在规律(如波动周期,振幅,趋势),进而完成预测未来行为等决策性工作。人们希望通过对时间序列的分析,从大量的数据中发现和揭示某一现象的发展变化规律或从动态的角度刻画某一现象与其他现象之间的内在数量关系,以掌握和控制未来行为。 简言之,时间序列数据挖掘就是要从大量的时间序列数据中提取人们事先不知道的、但又是潜在有用的与时间属性相关的信息和知识,并用于短期、中期或长期预测,指导人们的社会、经济、军事和生活等行为。 从数学意义上来讲,如果我们对某一过程中的某一变量进行X(t)观察测量,在一系列时刻t1,t2,…,t n(t为自变量,且t1

数据挖掘算法

数据挖掘的10大经典算法 国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。 1. C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过程中进行剪枝; 3) 能够完成对连续属性的离散化处理; 4) 能够对不完整数据进行处理。 C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在 构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。 2. The k-means algorithm 即K-Means算法 k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。 3. Support vector machines 支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。它是一种監督式學習的方法,它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。 4. The Apriori algorithm

数据挖掘中的文本挖掘的分类算法综述

数据挖掘中的文本挖掘的分类算法综述 摘要 随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。本文首先对数据挖掘进行了概述包括数据挖掘的常用方法、功能以及存在的主要问题;其次对数据挖掘领域较为活跃的文本挖掘的历史演化、研究现状、主要内容、相关技术以及热点难点问题进行了探讨;在第三章先分析了文本分类的现状和相关问题,随后详细介绍了常用的文本分类算法,包括KNN 文本分类算法、特征选择方法、支持向量机文本分类算法和朴素贝叶斯文本分类算法;;第四章对KNN文本分类算法进行深入的研究,包括基于统计和LSA降维的KNN文本分类算法;第五章对数据挖掘、文本挖掘和文本分类的在信息领域以及商业领域的应用做了详细的预测分析;最后对全文工作进行了总结和展望。 关键词:数据挖掘,文本挖掘,文本分类算法 ABSTRACT With the development of Web 2.0, the number of documents on the Internet increases exponentially. One important research focus on how to deal with these great capacity of online documents. Text classification is one crucial part of information management. In this paper we first introduce the basic information of data mining, including the methods, contents and the main existing problems in data mining fields; then we discussed the text mining, one active field of data mining, to provide a basic foundation for text classification. And several common algorithms are analyzed in Chapter 3. In chapter 4 thorough research of KNN text classification algorithms are illustrated including the statistical and dimension reduction based on LSA and in chapter 5 we make some predictions for data mining, text mining and text classification and finally we conclude our work. KEYWORDS: data mining, text mining, text classification algorithms,KNN 目录 摘要 (1) ABSTRACT (1) 目录 (1)

4种序列模式挖掘算法的特性研究

第28卷 第2期 2006年2月武 汉 理 工 大 学 学 报JOURNA L OF WUHAN UNIVERSIT Y OF TECHN OLOG Y Vol.28 No.2 Feb.2006 4种序列模式挖掘算法的特性研究 吕 锋,张炜玮 (武汉理工大学信息工程学院,武汉430070) 摘 要: 序列模式挖掘是数据挖掘中的一个重要研究方向,对序列模式挖掘中的4种算法(AprioriAll 、GSP 、FreeSpan 、Prefixspan )的执行过程及其特点进行了研究,并对这几种算法的时空执行效率进行了定性和定量的分析比较,指出了4种算法各自的适用范围,得出的结果对序列模式挖掘系统的设计具有一定的参考价值。 关键词: 序列模式挖掘; AprioriAll ; GSP ; FreeS pan ; Prefixspan 中图分类号: TP 301.6文献标志码: A 文章编号:167124431(2006)022******* R esearch on the Characters of Four Sequential Patterns Mining Algorithms L U Feng ,ZHA N G Wei 2wei (School of Information Engineering ,Wuhan University of Technology ,Wuhan 430070,China ) Abstract :  Sequential patterns mining was a very important data 2mining problem with board application.We researched four sequential patterns mining algorithms namely AprioriAll ,GSP ,FreeS pan ,Prefixspan ,and studied their characters.A qualita 2tive analysis had also been made on the algorithm ’s time and space efficiency.We also pointed out the conditions in which each algorithm was applied.The conclusion of the research would be beneficial to the desi gn of data mining system. K ey w ords : sequential patterns mining ; aprioriAll ; GSP ; freespan ; prefixspan 收稿日期:2005209202. 基金项目:教育部重点实验室开放研究基金(T K LJ0203)1 作者简介:吕 锋(19572),男,教授.E 2mail :lufengwut @https://www.360docs.net/doc/d215702601.html, 序列模式挖掘即从序列数据库中发现频繁子序列以作为模式,它是一类重要的数据挖掘问题,有着非常广泛的应用前景,被应用在包括顾客购买行为的分析、网络访问模式分析、科学实验的分析、疾病治疗的早期诊断、自然灾害的预测、DNA 序列的破译等方面。 序列模式首先是由Agrawal R 和Srikant R 提出的[1,2],此后,许多这方面的研究都将注意力放在如何提高序列模式挖掘的效率上。但是到目前为止,大多数挖掘序列模式的方法都是Apriori 类方法的改进。下面就对序列模式挖掘中的4种算法进行分析和比较。 1 序列模式挖掘中的4种算法及其特点 1.1 AprioriAll 算法 AprioriAll [1]算法为Apriori 类算法,主要思想为:在每一次扫描(pass )数据库时,利用上一次扫描时产生的大序列生成候选序列,并在扫描的同时计算它们的支持度(support ),满足支持度的候选序列作为下次扫描的大序列。第1次扫描时,长度为1的频繁序列模式作为初始的大1—序列。 AprioriAll 算法的不足:1)容易生成庞大众多的候选序列;2)需要多次扫描数据库。候选序列的长度增加1,就需要扫描1次数据库;3)不易发现长序列模式,因为随着需要挖掘的序列模式长度的增加,侯选序列

相关文档
最新文档