序列模式挖掘综述

序列模式挖掘综述
序列模式挖掘综述

收稿日期:2007-08-24;修回日期:2007-11-17

作者简介:陈卓,博士,主要研究方向为数据挖掘(chenzhou613@https://www.360docs.net/doc/e315509015.html,);杨炳儒,教授,博导,主要研究方向为数据挖掘、推理机制与知识发现等.

序列模式挖掘综述

陈 卓,杨炳儒,宋 威,宋泽锋

(北京科技大学信息工程学院,北京100083)

摘 要:综述了序列模式挖掘的研究状况。首先介绍了序列模式挖掘背景与相关概念;其次总结了序列模式挖掘的一般方法,介绍并分析了最具代表性的序列模式挖掘算法;最后展望序列模式挖掘的研究方向。便于研究者对已有算法进行改进,提出具有更好性能的新的序列模式挖掘算法。关键词:数据挖掘;序列模式;周期模式;增量式挖掘

中图分类号:TP 311 文献标志码: A 文章编号:1001-3695(2008)07-1960-04

Sur vey of sequen tial pat ter n m inin g

CHE N Zhuo,YAN G Bing-ru,S ON G Wei,S ON G Ze-feng

(S chool of Infor mation Engineering,Beijing Univer sity of S cience &Technology,Beijing 100083,C hina)

Abst ract :This pa per prov ided a review of the res ea rch of sequential pa tt ern m ining.Firstly,introduced the ba ckground and context .S econdly,sum m a rized the genera l m et hods of sequence pa tt ern m ining,introduced and analyz ed the m os t represent ative a lg orithm to prov ide a basis for im proving old algorit hm s or developing new effect iv e ones.Fina lly,dis cussed som e future re-s ea rch t rends on t his area .

Key words:dat a m ining ;sequent ia l pat tern;periodic pa tt ern;increm enta l m ining 数据挖掘作为知识发现的核心步骤,旨在从海量数据中提取有效的、新颖的、潜在有用的、易被理解的知识。序列模式挖掘(sequent ia l pa tt ern m ining)是数据挖掘中非常重要的一个研究领域,最早是由Ra kesh Agraw al 和Ram a krishna n S rikant 在针对超市中购物篮数据的分析提出来的。序列模式挖掘是要找出序列数据库中所有超过最小支持度阈值的序列模式

[1]

。它

有着广泛的应用领域:商业组织利用序列模式挖掘去研究客户购买行为模式特征、计算生物学中序列模式挖掘用来分析不同氨基酸突变模式、用户Web 访问模式预测以及DN A 序列分析和谱分析。序列模式挖掘与关联规则挖掘在许多方面相似,但它更关心数据之间顺序的关联性。

1 序列模式挖掘任务定义

基本概念:

定义1 事务数据库(t ransaction da taba se):以超市数据为例来说明,即由顾客交易记录组成的数据库。Custom_ID 、T ra nsaction_Tim e 、It em set 分别代表顾客标志、交易时间和交易物品集合。

定义2 项集(it em s et):各个项(it em )组成的集合。定义3 序列(sequence):不同项集的有序排列。序列S 可以表示为S =〈s 1,s 2,…,s n 〉。其中:s j (1≤j ≤n )为项集,也称为序列S 的元素。

定义4 序列的元素(elem ent):表示为(x 1,x 2,…,x n )。其中:x k (1≤k ≤m )为不同的项。

定义5 序列长度:一个序列包含的所有项集的个数,长度为1的序列记为1-序列。

定义6 序列的包含:设存在两个序列α,β。其中:α=〈a 1,a 2,…,a n 〉,β=〈b 1,b 2,…,b n 〉。如果存在整数1≤j 1

定义7 支持数:序列α在序列数据库S 的支持数为序列数据库S 中包含α的序列个数。

定义8 支持度:序列的支持度是一个预先设定的阈值。定义9 频繁序列:给定最小支持度阈值,如果序列α在序列数据库中的支持数不低于该阈值,则称序列α为频繁序列。

定义10 序列模式:最大的频繁序列称为序列模式,最大序列就是不被其他任何序列所包含的序列。

Ag rawa l 等人[1]将序列模式挖掘定义为在序列数据库中挖掘那些支持数超过预先定义支持度的序列模式的过程。

2 序列模式挖掘方法

2.1 基本序列模式挖掘

大多数早期序列模式挖掘算法都是基于Agra wal 提出的关联规则挖掘算法Apriori,它的特性是频繁模式的任何子模式都是频繁的。基于这个启发,研究者提出一系列类Apriori 算法,如AprioriAll 、AprioriS om e 、Dy na m icS om e 。S rikant 等人[2]提出了GS P(generalized sequent ia l pa tt ern)方法。Zaki [3]提出了SPADE 方法。这两个方法同样是基于Apriori 的。随后学者们又提出了一系列基于数据投影的算法,它们包括韩家炜在2000年提出的F reeS pan 和Pei 在2001年提出的PrefixS pan 。Han 于2004年提出了一种结合了图模式生长和频繁计数,形成了结构模式挖掘的算法g S pa n 。L in 和Lee 于2002年提出的

第25卷第7期2008年7月 计算机应用研究

Applicat ion Research of Com puters Vol.25No.7J ul.2008

M EMIS P算法则是基于内存索引的。Garofa la kis等人通过利用正则表达式约束方法提出了S PIRIT算法。

2.1.1 类Apriori算法:AprioriAll、AprioriS om e、Dy nam icS om e

文献[1]中提出的类Apriori序列模式挖掘算法是经典的关联规则挖掘算法Apriori算法的变形。它将序列模式挖掘分为五个阶段。假定事务数据库有三个属性:顾客ID、交易时间和购买商品。第一阶段为排序阶段,原始事务数据库进行索引,顾客ID是主键,交易时间是辅助键,结果是顾客序列的集合。第二阶段为频繁项集阶段,即找出所有的频繁项集,每个大项集对应着一个频繁1-序列。第三阶段为转换阶段,将原始数据库中的顾客序列转换为它们相应的频繁项集。第四阶段找出所有的频繁序列。第五阶段为最大化阶段,是从频繁序列集合中找出最大序列集即频繁模式集。

算法AprioriAll与Apriori类似,首先遍历数据生产候选序列并利用Apriori的特性进行剪枝来得到频繁序列。每次遍历时通过连接上一次得到频繁序列来生成新的长度加1的候选序列。然后对每个候选序列进行扫描,按照最小支持度来确定哪些序列是频繁序列模式。它的主要缺点是遍历数据库次数太多,而且产生了太多的候选序列,因此它的效率并不高。

算法AprioriS ome与AprioriAll只是在序列阶段有所不同, AprioriAll是首先生成所有的频繁序列后再在最大化序列阶段删除那些非最大的序列。AprioriSom e将序列分成两个部分分别计数:前半部分只对一定长度的序列计数;后半部分跳过已经计数的序列。在实际过程中两个部分是混合在一起的,以减少候选序列占用的资源。

算法Dy nam icS om e与AprioriS om e相似,仅多了一个初始化阶段。在前半部分跳过对预先设定好的一定长度的候选序列的计数;后半部分的算法与AprioriS om e完全相同。其效率不及AprioriAll和AprioriSom e高,是由于在前半部分产生太多的候选。后两者的优点是可避免计数许多非最大序列。

2.1.2 GS P算法

文献[2]提出的GS P算法也是一个基于Apriori的频繁模式挖掘算法。它在以下三个方面进行改进:a)增加了时间约束,在序列的邻近元素之间增加了最大和最小间隔。如果邻近元素没有介于它们两者之间,则认为这两个元素不是在序列中连续的元素。b)定义了一个滑动窗口来弱化事务的定义,允许项来自不同的事务,只要这些事务在指定的滑动窗口范围内。c)对序列中的项使用了概念层次进行分层,使得挖掘过程可以在多个概念层上进行。在GS P中候选序列的数目大大减少了,而且在挖掘过程中引入了时间约束和概念分层来生成更多知识,因此GS P相对于AprioriAll有着较好的性能。

AprioriAll中所有在数据库中的序列都被表示为它们包含的子序列,所以很容易得到候选序列的支持数。由于在GS P 中引入了最大和最小时间间隔,得到候选序列的支持数相对较困难。在此GS P在计算候选序列支持数时采用了hash树来提高算法的效率。

由于GS P与AprioriAll一样都需要多次遍历数据,为了提高挖掘效率,文献[4]中提出一种基于GS P的算法MFS(m i-ning frequent sequence),它不需要多次遍历数据库。MFS提出了一个两阶段的算法,首先挖掘样本数据库来获得频繁序列的一个粗糙评价。基于这些评价,遍历数据库去检查并细化候选序列直到没有频繁序列再产生。MFS与GSP的区别是在生成候选序列的方法上:GSP每次相同长度的候选集是通过连接在前一次扫描得到的频繁序列来产生的;而MFS候选集则是通过连接不同长度的所有已知频繁序列来产生的。实验结果表明M FS与GS P产生相同的频繁序列集合,但在降低I/O消耗方面要比GS P高效。

此外,文献[5]介绍了一个通用的序列模式挖掘框架。它将不同的约束,如结构、时间、项以及概念层次等都集成到一个统一的系统中,而且也提出了相应的序列模式计算方法和阈值的设置方法。

2.1.3 Prefix Spa n算法

文献[6]提出的PrefixS pan算法是一种使用数据库投影技术的序列模式挖掘算法,其性能优于GSP与AprioriAll,且拥有能够处理非常大的序列数据库的能力。Prefix S pa n主要使用数据库投影方法来使下一次遍历的数据库变得更小,它不需要产生候选序列,只要根据它们的前缀递归地将后缀投影到投影数据库中,然后对投影数据库进行挖掘来得到频繁序列模式。为了提高算法性能,它研究了三种投影技术:逐层投影、隔层投影以及伪投影。

逐层投影第一步是扫描序列数据库来得到长度为1的序列,实际上也就是1-频繁序列。然后根据1-频繁序列将数据库分为不同的部分。每一个部分是将相应的1-频繁序列作为前缀序列数据库的投影。投影数据库仅包含这些序列的后缀,通过遍历投影数据库产生所有以1-序列模式作为前缀的2-序列模式;投影数据库再次根据2-频繁模式分成各个部分。递归地执行上述步骤直到投影数据库为空或者再没有频繁序列模式产生。

隔层投影用来减少投影数据库的大小和数目,它首先扫描序列数据库,产生所有长度为1的序列模式,再次扫描序列数据库,构造相应的下三角矩阵来得到所有长度为2的序列模式。接下来构造长度为2的序列模式所对应的投影数据库,对每个投影数据库重复上面的操作,直到没有新的序列模式产生为止。

当投影数据库能够存储在内存时可使用伪投影技术。事实上它并没有构建物理投影数据库。每一个后缀用一对指针和偏移量来表示。由于避免了复制数据库,伪投影比其他两种投影方法更加高效,然而它的限制是数据库的大小必须能存储在内存中。

文献[7]提出的FreeS pan同样是基于投影数据库的算法。其基本思想是将频繁序列的挖掘与频繁模式的挖掘结合起来,并投影序列数据库以精简搜索空间,并减少候选子序列的数目。它只需在原始数据库进行三次扫描,基于当前已经得到的频繁集,递归地将数据库投影到一系列较小的数据库上,在投影数据上进行子序列挖掘。这样产生了较少的候选序列。文献[8]中提出的g Spa n算法结合了图模式生长和频繁计数,形成了有效的结构模式挖掘算法。文献[9]中提出一种S PMDS 算法通过对投影数据库的伪投影作单项杂凑函数,检测是否存在重复的投影,避免大量重复扫描数据库。

2.1.4 S PADE算法

文献[3]提出的S PADE算法是利用格技术和简单的连接方法来挖掘频繁序列模式的一种高效算法。它仅需扫描三次数据库即可挖掘出所有的频繁序列;同时利用格技术将挖掘搜索空间分解为若干个较小的搜索空间,每个小的搜索空间可以

?

1

6

9

1

?

第7期陈卓,等:序列模式挖掘综述

存储在内存中。实验表明,S PADE 方法性能要优于AprioriAll 和GS P 。

在该算法中,序列数据库被转换为垂直数据库格式,通过扫描垂直数据库来生成1-频繁序列,第二次遍历数据库时生成新的垂直数据库以及2-序列,用生成的2-序列来构建格,使得具有相同前缀项的序列在同一格内,这样格被分解为足够小并能存入内存中。在第三次扫描数据库过程中,通过用时态连接的方法产生所有的频繁序列。同时该算法采用广度优先搜索(BFS)和深度优先搜索(DFS)策略来产生频繁序列。与GS P 生成候选过程一样利用Apriori 特性进行剪枝。2.1.5 MEMIS P 算法

在文献[10]中提出的m em ory index ing for sequent ia l pa t-tern m ining(MEMIS P)是基于内存索引的序列模式挖掘方法。M EMIS P 只需要遍历一次或最多两次数据库,并且它避免生成候选序列和投影数据库。实验结果表明,MEM IS P 比GS P 和P refixS pan 要高效,而且对于数据库大小和数据序列数目有着良好的线性可伸缩性。

对于那些能够存储在内存中的数据库,该算法首先扫描数据库并把它写到内存中形成MDB(m em ory da ta base),在这个过程中计算1-序列的支持数来得到1-频繁序列;然后再利用1-频繁序列以及构造内存索引来生产序列模式;最后用索引以及MDB 根据支持度大小找到频繁模式。循环执行直到再没有新的序列模式产生为止。

对于那些较大的不能装入内存的数据库,该算法把它分解为各个能够存储在内存中的部分,然后每个部分分别应用M EMIS P 来得到频繁模式,整个候选序列模式从各个部分集成得到。最终的频繁序列模式的确定需要根据实际的支持度再次遍历数据库。大型数据库仅需遍历两次。2.1.6 S PIRIT 算法

在文献[11]中提出的S PIRIT(s equential pat tern m ining w it h reg ular ex pression constra ints)算法是在通过正则表达式约束来挖掘用户特定序列模式的一种挖掘算法。这种方法避免了挖掘用户不感兴趣的模式的浪费,同时也避免了挖掘那些潜在的并无用处的模式。

传统的序列模式挖掘用户参与挖掘只是给定了一个最小支持度,用户参与对特定的问题作出经验判断,此外还会产生大量的无用结果。S PIRIT 算法是受用户限制的挖掘,将用户指定的正则表达式也加入到算法中,使用户参与到模式挖掘过程中,算法本身与GS P 算法非常相似,只是在其中加入了一系列能够读取和中断正则表达式限制的操作。最终形成的序列模式综合考虑了最小支持度与用户的约束条件。针对不同的约束程度,文中形成了四种不同的算法,S PIRIT[N]、S PIRIT [L]、SPIRIT[V]、S PIRIT[R],它们的约束程度依次增强。2.2 多维序列模式挖掘

单维挖掘序列模式只关心一个带有时间戳的属性,多维序列模式的挖掘目的则是寻找不同维度属性具有更多信息的有用模式。文献[12]中阐述了多维序列模式挖掘的思想,并提出了三种挖掘多维序列模式的方法,分别是S eq-Dim 、Dim -Seq 以及UniSeq 算法。U niS eq 算法将多维信息融入到序列中形成新的序列数据库,然后按照PrefixS pan 方法对新的序列数据库进行挖掘。S eq-Dim 算法首先挖掘原始序列的序列模式,然后对序列投影下的数据库多维信息的模式进行挖掘。Dim -Seq

则是首先挖掘多维信息的模式,然后再挖掘多维信息投影下的数据库序列模式。由于通常多维序列模式的长度较短,投影数据库仅包含那些带频繁序列模式的元组,多维序列模式挖掘更加高效多产。实验结果表明,多数情况下S eq-Dim 有着良好的性能;当维数较低时多维模式也较短,UniS eq 较其他两种方法高效;Dim -Seq 在挖掘过程中许多模式并未形成多维序列模式,因此效率较低。

2.3 增量式序列模式挖掘算法

现实世界中序列数据集往往是实时更新的。相应地,有趣模式在多次挖掘时也会随时间呈现出某种变化,已有的规则可能不再有效,而新的有趣模式还有待进一步发现。通常有两种维护规则的方式:第一种方法是强更新,重新进行挖掘,用新的规则来替换所有旧的规则;第二种是弱更新,仅重新计算与增量有关的数据,替换不适用的旧规则。考虑到序列模式挖掘的复杂性,更加倾向于采用弱更新的方式。增量式序列模式挖掘关注于当数据持续增加或减少时来维护序列模式。

文献[13]提出了一种基于GS P 和一种基于MFS 的增量式挖掘算法。在文献[14]提出了一种基于S PADE 的增量挖掘算法IS M 。文献[15,16]分别给出了IS E 和IU S 算法。同时文献[16]还讨论了在何时需要更新序列模式。增量式序列模式挖掘定义为:给定序列数据库,通过插入或删除序列形成新的序列数据库,在新的序列数据库中寻找所有的最大频繁序列模式。

文献[13]中提到的GS P +与MFS +算法是基于GSP 算法的增量式序列模式挖掘算法。GS P +与GPS 有着相同的结构,根据在前一次扫描中生成的频繁序列来得到候选序列;不同的是GPS+采用了不同的剪枝策略,它仅仅去遍历更新的那部分数据库来检测候选序列的支持数,同时文献给出了两个剪枝策略的定理,基于这两个定理的剪枝技术,减少了候选序列的数目。同样的剪枝策略亦用于MFS+算法中,它首先将在旧的数据库中得到频繁序列作为新数据库的频繁序列集的评价。将所有可能的1-序列看做候选序列,通过扫描新旧数据集能够得到所有这些候选序列的支持数。利用最小支持度阈值,将最大频繁序列放入集合中。在数据集上进行剪枝,并循环这个过程直到再没有生成候选或者再没有频繁序列模式产生。

文献[14]中提出一种基于S PADE 方法的增量式序列模式挖掘算法ISM 。IS M 算法在数据库更新时不仅能获得频繁模式,而且它提供一个与用户交互的接口,用于修正最小支持度与包含或不包含项等的限制。IS M 算法假定在旧的数据库所有序列模式均已计算出支持数,并且这些序列的反向边界以及支持数可用在一个格里。通过构建一个增量序列格(incre-m enta l sequence lat tice,IS L)并利用其特性,为潜在的新的序列缩小了搜索空间。使用垂直数据存储方式在建立数据结构方面的花销要比其他大多数序列模式挖掘算法在速度上有所提高。

ISM 算法仅仅考虑了增加新的序列情况,文献[15]中同时考虑了增加新序列以及在序列中增加新后缀的情况,并提出一种新算法ISE 。假定旧数据库中最大频繁模式的长度为k ,ISE 算法将挖掘过程分为两个子问题,对于那些长度大于k 的候选序列,直接应用GS P 算法。而对于那些长度小于或等于k 的序列进行如下操作:第一次遍历新增数据库,并计算每个单独项的支持数。利用先前挖掘结果,能够得到在旧数据库中并不

?

2691?计算机应用研究第25卷

频繁的频繁序列集合,定义为Ldb1。通过连接L db1生成2候选序列进行后检测它们是否存在于新增数据库中。遍历数据库从2候选序列中得到2-频繁序列。将那些按照时间顺序的L1db的序列与相应的序列关联起来。依次循环,直到再没有小于等于k+1的候选序列生成。两种剪枝技术用于优化ISE 算法,旨在利用当前信息在早期减少生成候选序列的数量。

IS E仅考虑在原始数据库中扩展频繁序列的后缀,而文献[16]中提出的IUS算法同时考虑了扩展前缀和后缀,它也像IS M算法一样应用了反向边界,但ISM中没有内存管理方法。IU S定义了反向边界的最小约束,只有那些支持度超过这个约束的序列才能被反向边界包含,因此IU S算法需要的内存空间较小。

文献[17]中提出一种IncSpa n算法,引入近似频繁序列集、逆向匹配和共享投影等新思路进行增量挖掘。在文献[18]中提出了一种可迭代的移动序列模式挖掘及增量更新方法,该方法基于投影技术,只需要对数据库进行一次扫描。文献[19]中提出了分布式序列模式挖掘的思想并给出相应的算法。文献[20]给出了序列模式图的概念,并由此来挖掘序列模式。

2.4 周期模式挖掘

周期模式挖掘可看做序列模式挖掘的延伸,它旨在时间序列数据库发现所有的再生模式。周期模式挖掘有以下三种任务:a)全周期模式挖掘,在时间序列中的每一个点都为时间序列周期模式做出贡献。b)部分周期模式挖掘,时间序列的其中部分为周期模式做出贡献。c)周期关联规则挖掘,关联规则是周期发生的事件集合。

大多数全周期模式挖掘可以用统计分析方法或者转换为序列模式挖掘。部分周期模式挖掘在现实世界中普遍发生,因此周期模式挖掘大多数有意义的问题集中在此。部分周期模式挖掘定义为时间序列在一个时期内或者在一个特定周期范围内挖掘序列所有频繁模式。文献[21~24]讨论了部分周期模式挖掘。其中文献[21]中韩家炜介绍了部分周期模式挖掘的难点,并提出了单周期与多周期模式的两种挖掘算法。

单周期模式挖掘旨在对于给定周期、支持度约束和可信度约束,在时间序列中发现所有的部分周期模式。一种方法是将序列分割成周期片断后直接应用传统的Apriori算法来进行挖掘,使用Apriori特性来进行剪枝大序列的候选,发现频繁序列的问题与在关联规则中找到频繁项集类似。在此算法中扫描的总数不多于周期的长度。在这个方法中最坏情况下需要的存储空间为2F-1,F是1-频繁模式的数目。另一种方法叫做最大子模式命中集方法。在周期片断中候选模式中的最大子模式即为命中集。整个时间序列S的命中集是所有在S中的频繁最大子模式的集合。与Apriori算法中一样在第一次扫描时产生1-频繁模式,在第二次扫描,生成每个周期片断的命中集以及支持数,并存储在树结构中。序列频繁模式从带有计数的命中集中得到。在这个算法中仅需扫描两次数据库,存储空间为m in{m,2F-1},m是时间序列的周期总和。

以单周期利用基于命中集方法为原始方法,部分周期模式的多周期模式挖掘直接将最大模式命中集方法应用到序列的每一个周期。该方法由于序列中有k个循环,k为在特定范围的周期数目,扫描次数是2×k,需要的空间为6k

j=1

m in{m j, 2Fj}。多周期模式挖掘的另外一种方法与单周期模式挖掘最大模式算法非常相似。在第一次扫描时生成所有周期的1-频繁模式和候选频繁模式;第二次扫描时生成所有周期的命中集。

实验证明在单周期与多周期模式挖掘中,用最大子模式命中集方法要优于基于Apriori算法。原因是扫描时间序列数据库的次数和所需空间存储明显减少,同时基于最大子模式命中集算法仅扫描两次数据库,而Apriori则需多次扫描数据库,对于挖掘非常大的数据库时基于Apriori算法需要很大的磁盘存储空间和I/O操作。

由于时间序列数据库随时变化,在文献[22]中提出部分周期模式的增量挖掘算法。该挖掘算法结合了两个挖掘数据库。上述周期模式的研究焦点在于挖掘同步的周期模式,但是实际上由于存在随机性和噪声干扰,有一些周期模式不能被识别。文献[23]提出时间序列数据异步周期模式挖掘,用于发现那些在子序列频繁发生但可能随干扰而变化的模式。文献[24]中介绍在噪声环境下的序列模式挖掘相关研究。MOW-CATL(m inim al occurrences w it h constra ints a nd tim e la gs)方法[25]从序列中找出周期性片段的事件相关模式,并应用于预测其他序列的类似事件。

3结束语

近些年来,序列模式挖掘取得了长足进步,但处于发展阶段,面临着不少问题:a)序列模式挖掘过程中如何让用户有效参与到挖掘过程中,与相关领域知识相结合进行有指导的挖掘,避免挖掘的盲目性。b)序列模式挖掘的评价还没有一个统一的标准和框架。c)阈值的设定还没有好的方法来评判,如可信度、支持度与感兴趣度。d)针对海量数据,序列模式挖掘在挖掘效率上还不高。

本文认为,以下几个方面是序列模式挖掘今后的发展方向:将先验知识、领域知识与计算智能算法相结合来指导挖掘过程,以缩小搜索空间,提高算法效率以及规则的兴趣度;多维序列模式挖掘,寻找不同维度属性具有更多信息的有用模式;增量式挖掘,进行规则的更新与维护;周期模式的关联规则挖掘的高效算法;分布式序列模式挖掘以及序列模式图的研究;设计面向非关系数据库(面向对象数据库、多维数据库、数据仓库)的序列模式挖掘算法。

参考文献:

[1]GRAWAL R,SRIKANT R.Mining sequential patter n[C]//Proc of

the11th International C onfer ence on Data E ngineering.Taipei:[s.

n.],1995.

[2]SR IKANT R,AGRAWAL R.M ining sequent ial patt er ns:Genera lizat ions

a nd per for ma nce impr ovement s[C]//P roc of the5th Int erna tional Con-

ference on E xtending Database Technology.Avig non:[s.n.],1996. [3]ZAKI M J.SPADE:An efficient algorithm for mining frequent se-

quences[J].Machine Learn ing,2001,41(1):31-60.

[4]ZHANG M,KAO B,YIP C,et al.A GS P-based efficient a lg orithm for

mining fr equent sequences[C]//Proc of Internationa l Conference on Artificial Intelligence.Nevada:[s.n.],2001.

[5]J OS HI M,KARYPIS G,KUMAR V.A universal for mulation of se-

quential patterns[C]//Proc of the KDD’2001Workshop on Tempor al Data M ining.San Fr ancisco:[s.n.],2001.(下转第1976页)

?

3

6

9

1

?

第7期陈卓,等:序列模式挖掘综述

对Kroa 100、L OACA 和AC A 算法的收敛特性比较如图3所示。从图中可以看出,对于基本蚁群算法,路径长度变化大(22288~38218,前五次迭代在图中未列出),收敛速度慢;而优化算法路径长度变化小(21282~21610),收敛速度快,仅用了25轮即取得已知最优解21282。

4 结束语

本文根据TS P 的特点,设计了三种局部优化算子,每一轮搜索结束后,采用该算子对结果路径进行变异,以寻求更优解。

局部优化加快了蚂蚁算法的收敛速度,避免了早熟和停滞现象的发生,增强了寻优能力。经过多个TS P 实例测试,实验结果表明:对中小规模的TSP,该算法基本上能找到最优解;对大规

模的TSP,也能明显地改善解的质量。参考文献:

[1]

ORIGO M,GAMBARDELLA L M.Ant colony system:a coopera tiv e lear ning approach to the trav eling salesma n problem[J].IE EE Tra ns on Evolu tionary Co mputatio n,1997,1(1):53-66.[2]

T ALBI H,DRAA A,B ATOUC HE M.A new quantum-inspired genetic a l-g or ithm for solv ing the tra veling salesma n problem[C]//Pr oc of IEEE Inter na tiona l Conference on Industrial Technolog y.2004:1192-1197.[3]

S ONG Chi-hua,LEE K,LEE W D.Extended simulated annealing for augmented TSP and multi-salesmen TS P [C]//Pr oc of Inter national J oint C onfer ence on Neur al Networks.2003:2340-2343.[4]

M ICH EL G,GILBE RT L,FREDE RIC S.A tabu search heuristic for the undirected selective tr aveling salesman pr oblem[J].European J of O pera tional,1998,106(1):539-545.[5]

YANG Hai-qing,YANG Hai-hong.An self-organizing neur al network with conv ex-hull expa nding proper ty for TS P [C]//Proc of Interna-tional Conference on Neural Networ ks and Bra in.2005:379-383.[6]王文峰,刘光远,温万惠.求解TSP 问题的混合离散粒子群算法[J ].西南大学学报:自然科学版,2007,29(1):85-88.

[7]黄雪梅,李涛,徐春林,等.一种基于免疫遗传的TS P 求解方法[J ].四川大学学报:工程科学版,2006,38(1):86-91.

[8]

孙力娟,王良俊,王汝传.改进的蚁群算法及其在TSP 中的应用研究[J ].通信学报,2004,25(10):111-116.

(上接第1963页)[6]

E I J ,HAN J.Pr efixSpan:mining sequential patterns efficiently by prefix-projected pattern growth [C]//Proc of the 7th Inter national C onfer ence on Data Engineering.Washington DC:IEE E Computer S o-ciety,2001:215-224.[7]

HAN J,PE I J,MORTAZVI-ASL B,et al.Fr eeSpan:frequent pa ttern-projected sequentia l pa ttern mining[C]//Pr oc of the 6th ACM SIGK-DD International Conference on Knowledge Discover y and Da ta Min-ing.New York:AC M Press,2000:355-359.[8]

HAN J ,PEI J ,YAN X.From sequential pattern mining to str uctured pattern mining:a pa ttern-g rowth approach[J].Journal of Compu ter Science and Technolog y,2004,19(3):257-279.[9]

张坤,朱杨勇.无重复投影数据库扫描的序列模式挖掘算法[J].计算机研究与发展,2007,44(1):126-132.

[10]LIN Ming-yen,LE E S Y.Fast discov ery of sequential patter ns by

m emory indexing[C]//Proc of the 4th Inter national C onfer ence on Data War ehousing and Knowledge Discov ery.London,UK:S pringer-Ver lag,2002:150-160.

[11]GAROFALAKIS M N,RASTOGI R,S HIM K.Spirit:sequential pat-tern m ining w ith reg ular expr ession constraints[C]//Proc of the 25th Inter national Confer ence on Ver y Lar ge Da ta bases.San Fr ancisco,C A:M organ Kaufmann Publisher s Inc,1999:223-234.

[12]PINTO H,HAN J ,PEI J,et al .Multi-dimensional sequential pattern

m ining[C]//Proc of the 10th International Conference on Information a nd Knowledg e Mana gement.Atlanta,New York:ACM Pr ess,2001:81-88.

[13]ZHANG Ming-hua,KAO B,CHE UNG D W,et al .Efficient algorithms

for incr emental update of frequent sequences[C]//Proc of the Paci-fic-Asia Conference on Knowledge Discovery a nd Data Mining.Lon-don,UK:Springer-Verlag,2002:186-197.

[14]PARTHAS ARATHY S,ZAKI M J,OGIHARA M,et al.Incr emental

a nd intera ctive sequence mining[C]//Proc of the 8th Inter national C onfer ence on Infor mation and Know ledge M anag ement.Kansa s City,

New Yor k:ACM Pr ess,1999:251-258.

[15]M AS SEGLIA F,PONCELET P,TEISS EIRE M.Incremental mining of

sequential patterns in lar ge databases[J ].Da ta and Kno wledge En-gineering ,2003,46(1):97-121.

[16]ZHENG Qing-guo,XU Ke,M A Shi-ling,et al .The a lgorithms of upda-ting sequentia l patterns[C]//Pr oc of the 5th Interna tional Workshop on High Perfor-mance Data M ining.Washington DC:[s.n.],2002.[17]CHE NG Hong,YAN X,HAN J .IncSpa n:incr ementa l mining of se-quential patterns in large da tabase[C]//Pr oc of the 10th Inter natio-nal Conference on Knowledge Discovery and Data M ining.New York:ACM Press,2004:527-532.

[18]牛兴雯,杨冬青,唐世渭,等.OS AF 2tr ee ———可迭代的移动序列

模式挖掘及增量更新方法[J].计算机研究与发展,2004,41(10):1761-1767.

[19]邹翔,张巍,刘洋,等.分布式序列模式发现算法的研究[J ].软件

学报,2005,16(7):1262-1269.

[20]吕静,王晓峰.序列模式图及其构造算法[J].计算机学报,2004,

27(6):782-787.

[21]HAN J ,DONG G,YIN Y.Efficient mining of pa rtial periodic pa tterns in

tim e series data base[C]//Proc of the 15th International C onference on Da ta Engineering.Washing ton DC:IE EE Computer Society,1999.[22]YANG J ,WANG Wei,YU P S.M ining asynchronous per iodic patterns

in time series data[C]//Proc of the 6th International Confer ence on Knowledg e Discov ery and Data Mining.New York:ACM Press,2000:275-279.

[23]ELFEKY M G.Incr emental mining of partial per iodic patter ns in time-ser ies databa ses [EB/OL].(2000).https://www.360docs.net/doc/e315509015.html,/421296.html.

[24]BE TTINI C,WANG X S ,J AJODIA S.M ining temporal r elationships

with multiple gra nula rities in time sequences[J ].Data Engineering B ulletin ,1998,21:32-38.

[25]HARM S S K,DEOGUN J S.Sequentia l association rule mining with

time lags[J].Journal of I ntelligent Information Systems,2004,22(1):7-22.

?

6791?计算机应用研究第25

图2各TSP 实例的最好路径

(a)Ei151

(b)Ei176

(c)Kroa100

(d)Lin318

27000260002500024000230002200021000

LOACA

ACA

6

8

14

16

1725

34

50

51

417

1000

iteration

图3LOACA 和ACA 的收敛特性对比

数据挖掘研究现状综述

数据挖掘 引言 数据挖掘是一门交叉学科,涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。 所谓的数据挖掘(Data Mining)指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息,提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说,数据挖掘是在对数据全面了解认识的基础之上进行的一次升华,是对数据的抽象和概括。如果把数据比作矿产资源,那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比,原始的数据信息可以是结构化的,数据库中的数据,也可以是半结构化的,如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。

目录 引言 (1) 第一章绪论 (3) 1.1 数据挖掘技术的任务 (3) 1.2 数据挖掘技术的研究现状及发展方向 (3) 第二章数据挖掘理论与相关技术 (5) 2.1数据挖掘的基本流程 (5) 2.2.1 关联规则挖掘 (6) 2.2.2 .Apriori算法:使用候选项集找频繁项集 (7) 2.2.3 .FP-树频集算法 (7) 2.2.4.基于划分的算法 (7) 2.3 聚类分析 (7) 2.3.1 聚类算法的任务 (7) 2.3.3 COBWEB算法 (9) 2.3.4模糊聚类算法 (9) 2.3.5 聚类分析的应用 (10) 第三章数据分析 (11) 第四章结论与心得 (14) 4.1 结果分析 (14) 4.2 问题分析 (14) 4.2.1数据挖掘面临的问题 (14) 4.2.2 实验心得及实验过程中遇到的问题分析 (14) 参考文献 (14)

数据挖掘算法综述

数据挖掘方法综述 [摘要]数据挖掘(DM,DataMining)又被称为数据库知识发现(KDD,Knowledge Discovery in Databases),它的主要挖掘方法有分类、聚类、关联规则挖掘和序列模式挖掘等。 [关键词]数据挖掘分类聚类关联规则序列模式 1、数据挖掘的基本概念 数据挖掘从技术上说是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。这个定义包括好几层含义: 数据源必须是真实的、大量的、含噪声的、发现的是用户感兴趣的知识, 发现的知识要可接受、可理解、可运用, 并不要求发现放之四海皆准的知识, 仅支持特定的发现问题, 数据挖掘技术能从中自动分析数据进行归纳性推理从中发掘出潜在的数据模式或进行预测, 建立新的业务模型帮助决策者调整策略做出正确的决策。数据挖掘是是运用统计学、人工智能、机器学习、数据库技术等方法发现数据的模型和结构、发现有价值的关系或知识的一门交叉学科。数据挖掘的主要方法有分类、聚类和关联规则挖掘等 2、分类 分类(Classification)又称监督学习(Supervised Learning)。监

督学习的定义是:给出一个数据集D,监督学习的目标是产生一个联系属性值集合A和类标(一个类属性值称为一个类标)集合C的分类/预测函数,这个函数可以用于预测新的属性集合(数据实例)的类标。这个函数就被称为分类模型(Classification Model),或者是分类器(Classifier)。分类的主要算法有:决策树算法、规则推理、朴素贝叶斯分类、支持向量机等算法。 决策树算法的核心是Divide-and-Conquer的策略,即采用自顶向下的递归方式构造决策树。在每一步中,决策树评估所有的属性然后选择一个属性把数据分为m个不相交的子集,其中m是被选中的属性的不同值的数目。一棵决策树可以被转化成一个规则集,规则集用来分类。 规则推理算法则直接产生规则集合,规则推理算法的核心是Separate-and-Conquer的策略,它评估所有的属性-值对(条件),然后选择一个。因此,在一步中,Divide-and-Conquer策略产生m条规则,而Separate-and-Conquer策略只产生1条规则,效率比决策树要高得多,但就基本的思想而言,两者是相同的。 朴素贝叶斯分类的基本思想是:分类的任务可以被看作是给定一个测试样例d后估计它的后验概率,即Pr(C=c j︱d),然后我们考察哪个类c j对应概率最大,便将那个类别赋予样例d。构造朴素贝叶斯分类器所需要的概率值可以经过一次扫描数据得到,所以算法相对训练样本的数量是线性的,效率很高,就分类的准确性而言,尽管算法做出了很强的条件独立假设,但经过实际检验证明,分类的效果还是

【文献综述】时间序列预测――在股市预测中的应用

文献综述 信息与计算科学 时间序列预测――在股市预测中的应用 时间序列是一种重要的高维数据类型, 它是由客观对象的某个物理量在不同时间点的采样值按照时间先后次序排列而组成的序列, 在经济管理以及工程领域具有广泛应用. 例如证券市场中股票的交易价格与交易量、外汇市场上的汇率、期货和黄金的交易价格以及各种类型的指数等, 这些数据都形成一个持续不断的时间序列. 利用时间序列数据挖掘, 可以 ]1[ 获得数据中蕴含的与时间相关的有用信息, 实现知识的提取. 时间序列分析方法最早起源于1927年, 数学家耶尔(Yule)提出建立自回归(AR)模型来预测市场变化的规律, 接着, 在1931年, 另一位数学家瓦尔格(Walker)在A R模型的启发下, 建立了滑动平均(MA)模型和自回归、滑动平均(ARMA)混合模型, 初步奠定了时间序列分析方法的基础, 当时主要应用在经济分析和市场预测领域. 20世纪60年代,时间序列分析理论和方法迈入了一个新的阶段, 伯格(Burg)在分析地震信号时最早提出最大熵谱(MES)估计理论, 后来有人证明AR模型的功率谱估计与最大熵谱估计是等效的, 并称之为现代谱估计. 它克服了用传统的傅里叶功率谱分析(又称经典谱分析)所带来的分辨率不高和频率漏泄严重等固有的缺点, 从而使时间序列分析方法不仅在时间域内得到应用, 而且扩展到频率域内, 得到更加广泛的应用, 特别是在各种工程领域内应用功率谱的概念更加方便和普遍. 到20世纪70年代以后, 随着信号处理技术的发展, 时间序列分析方法不仅在理论上更趋完善, 尤其是在参数估计算法、定阶方法及建模过程等方面都得到了许多改进, 进一步地迈向实用化, 各种时间序列分析软件也不断涌现, 逐渐成为分析随机数据序列不可缺少的有效工具 ]2[ 之一. 随着时间序列分析方法的日趋成熟, 其应用领域越来越广泛, 主要集中在预报预测领域, 例如气象预报、市场预测、地震预报、人口预测、汛情预报、产量预测, 等等. 另一个应用领域是精密测控, 例如精密仪器测量、精密机械制造、航空航天轨道跟踪和监控,以及遥控遥测、精细化工控制等. 再一个应用领域是安全检测和质量控制. 在工程施工和维修中经常会出现异常险情, 采用仪表监测和时间序列分析方法可以随时发现问题, 及早排除故障, 以保证生产安全和质量要求. 以上仅仅列举了某些应用领域,实际上还有许多应用, 不胜 ]4,3[ 枚举. 股票市场在中国社会经济生活中起着越来越重要的作用. 截至2006年底, 沪深两市总市值为89403.89亿元, 市值规模上升至全球第10位, 亚洲第3位. 由于中国股票市场在国民经济中的地位和作用不断提高, 无论是从政府宏观决策层面还是从具体投资者微观层面

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS &SPATIAL INFORMATION TECHNOLOGY Vol.37,No.7收稿日期:2014-01-22 作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。 大数据时代的空间数据挖掘综述 马宏斌1 ,王 柯1,马团学 2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000) 摘 要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题, 介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208 文献标识码:B 文章编号:1672-5867(2014)07-0019-04 Spatial Data Mining Big Data Era Review MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2 (1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ; 2.Airborne Institute ,Xiaogan 432000,China ) Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed. Key words :big data ;spatial data mining ;cloud computing 0引言 随着地理空间信息技术的飞速发展,获取数据的手 段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、 网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。 以上各种获取手段和途径的汇集,就使每天获取的 数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫 星、 飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有 “4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。 在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限, 受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

时间序列模式挖掘

第6章时间序列和序列模式挖掘(讲稿) 6.1时间序列及其应用 时间序列(Time Series)挖掘是从大量的时间序列数据中提取人们事先不知道的但又是潜在有用的信息和知识,是数据挖掘中的一个重要研究分支,有广泛的应用价值。 近年来,时间序列挖掘在宏观的经济预测、市场营销、客流量分析、太阳黑子数、月降水量、河流流量、股票价格变动(长期的观察,有周期性)等众多领域得到应用。事实上,社会、科学、经济、技术等领域中广泛存在着大量的时间序列数据有待进一步的分析和处理。 时间序列数据挖掘通过研究信息的时间特性,深入洞悉事物进化的机制,是获得知识的有效途径。 从统计意义上来讲,所谓时间序列就是将某一指标在不同时间上的不同数值,按照时间先后顺序排列而成的数列。它可以是观察值也可以是记录值。 这种数列由于受到各种偶然因素的影响。往往表现出某种随机性,彼此之间存在着在统计上的依赖关系。虽然每一时刻上的取值或数据点的位置具有一定的随机性,不可能完全准确地用历史值来预测将来。但前后时刻的数值或数据点的相关性往往呈现某种趋势性或周期性变化----这是时间序列挖掘的可行性之所在。 时间序列挖掘通过对过去历史行为的客观记录分析,揭示其内在规律(如波动周期,振幅,趋势),进而完成预测未来行为等决策性工作。人们希望通过对时间序列的分析,从大量的数据中发现和揭示某一现象的发展变化规律或从动态的角度刻画某一现象与其他现象之间的内在数量关系,以掌握和控制未来行为。 简言之,时间序列数据挖掘就是要从大量的时间序列数据中提取人们事先不知道的、但又是潜在有用的与时间属性相关的信息和知识,并用于短期、中期或长期预测,指导人们的社会、经济、军事和生活等行为。 从数学意义上来讲,如果我们对某一过程中的某一变量进行X(t)观察测量,在一系列时刻t1,t2,…,t n(t为自变量,且t1

数据挖掘分类算法研究综述终板

数据挖掘分类算法研究综述 程建华 (九江学院信息科学学院软件教研室九江332005 ) 摘要:随着数据库应用的不断深化,数据库的规模急剧膨胀,数据挖掘已成为当今研究的热点。特别是其中的分类问题,由于其使用的广泛性,现已引起了越来越多的关注。对数据挖掘中的核心技术分类算法的内容及其研究现状进行综述。认为分类算法大体可分为传统分类算法和基于软计算的分类法两类。通过论述以上算法优缺点和应用范围,研究者对已有算法的改进有所了解,以便在应用中选择相应的分类算法。 关键词:数据挖掘;分类;软计算;算法 1引言 1989年8月,在第11届国际人工智能联合会议的专题研讨会上,首次提出基于数据库的知识发现(KDD,Knowledge DiscoveryDatabase)技术[1]。该技术涉及机器学习、模式识别、统计学、智能数据库、知识获取、专家系统、数据可视化和高性能计算等领域,技术难度较大,一时难以应付信息爆炸的实际需求。到了1995年,在美国计算机年会(ACM)上,提出了数据挖掘[2](DM,Data Mining)的概念,由于数据挖掘是KDD过程中最为关键的步骤,在实践应用中对数据挖掘和KDD这2个术语往往不加以区分。 基于人工智能和信息系统,抽象层次上的分类是推理、学习、决策的关键,是一种基础知识。因而数据分类技术可视为数据挖掘中的基础和核心技术。其实,该技术在很多数据挖掘中被广泛使用,比如关联规则挖掘和时间序列挖掘等。因此,在数据挖掘技术的研究中,分类技术的研究应当处在首要和优先的地位。目前,数据分类技术主要分为基于传统技术和基于软计算技术两种。 2传统的数据挖掘分类方法 分类技术针对数据集构造分类器,从而对未知类别样本赋予类别标签。在其学习过程中和无监督的聚类相比,一般而言,分类技术假定存在具备环境知识和输入输出样本集知识的老师,但环境及其特性、模型参数等却是未知的。 2.1判定树的归纳分类 判定树是一个类似流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层节点是根节点。由判定树可以很容易得到“IFTHEN”形式的分类规则。方法是沿着由根节点到树叶节点的路径,路径上的每个属性-值对形成“IF”部分的一个合取项,树叶节点包含类预测,形成“THEN”部分。一条路径创建一个规则。 判定树归纳的基本算法是贪心算法,它是自顶向下递归的各个击破方式构造判定树。其中一种著名的判定树归纳算法是建立在推理系统和概念学习系统基础上的ID3算法。 2.2贝叶斯分类 贝叶斯分类是统计学的分类方法,基于贝叶斯公式即后验概率公式。朴素贝叶斯分类的分类过程是首先令每个数据样本用一个N维特征向量X={X1,X2,?X n}表示,其中X k是属性A k的值。所有的样本分为m类:C1,C2,?,C n。对于一个类别的标记未知的数据记录而言,若P(C i/X)>P(C j/X),1≤ j≤m,j≠i,也就是说,如果条件X下,数据记录属于C i类的概率大于属于其他类的概率的话,贝叶斯分类将把这条记录归类为C i类。 建立贝叶斯信念网络可以被分为两个阶段。第一阶段网络拓扑学习,即有向非循环图的——————————————————— 作者简介:程建华(1982-),女,汉族,江西九江,研究生,主要研究方向为数据挖掘、信息安全。

数据挖掘中的文本挖掘的分类算法综述

数据挖掘中的文本挖掘的分类算法综述 摘要 随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。本文首先对数据挖掘进行了概述包括数据挖掘的常用方法、功能以及存在的主要问题;其次对数据挖掘领域较为活跃的文本挖掘的历史演化、研究现状、主要内容、相关技术以及热点难点问题进行了探讨;在第三章先分析了文本分类的现状和相关问题,随后详细介绍了常用的文本分类算法,包括KNN 文本分类算法、特征选择方法、支持向量机文本分类算法和朴素贝叶斯文本分类算法;;第四章对KNN文本分类算法进行深入的研究,包括基于统计和LSA降维的KNN文本分类算法;第五章对数据挖掘、文本挖掘和文本分类的在信息领域以及商业领域的应用做了详细的预测分析;最后对全文工作进行了总结和展望。 关键词:数据挖掘,文本挖掘,文本分类算法 ABSTRACT With the development of Web 2.0, the number of documents on the Internet increases exponentially. One important research focus on how to deal with these great capacity of online documents. Text classification is one crucial part of information management. In this paper we first introduce the basic information of data mining, including the methods, contents and the main existing problems in data mining fields; then we discussed the text mining, one active field of data mining, to provide a basic foundation for text classification. And several common algorithms are analyzed in Chapter 3. In chapter 4 thorough research of KNN text classification algorithms are illustrated including the statistical and dimension reduction based on LSA and in chapter 5 we make some predictions for data mining, text mining and text classification and finally we conclude our work. KEYWORDS: data mining, text mining, text classification algorithms,KNN 目录 摘要 (1) ABSTRACT (1) 目录 (1)

数据挖掘中的软计算方法及应用综述

摘要文章对数据挖掘中软计算方法及应用作了综述。对模糊逻辑、遗传算法、神经网络、粗集等软计算方法,以及它们的混合算法的特点进行了分析,并对它们在数据挖掘中的应用进行了分类。 关键词数据挖掘;软计算;模糊逻辑;遗传算法;神经网络;粗集 1 引言 在过去的数十年中,随着计算机软件和硬件的发展,我们产生和收集数据的能力已经迅速提高。许多领域的大量数据集中或分布的存储在数据库中[1][2],这些领域包括商业、金融投资业、生产制造业、医疗卫生、科学研究,以及全球信息系统的万维网。数据存储量的增长速度是惊人的。大量的、未加工的数据很难直接产生效益。这些数据的真正价值在于从中找出有用的信息以供决策支持。在许多领域,数据分析都采用传统的手工处理方法。一些分析软件在统计技术的帮助下可将数据汇总,并生成报表。随着数据量和多维数据的进一步增加,高达109的数据库和103的多维数据库已越来越普遍。没有强有力的工具,理解它们已经远远超出了人的能力。所有这些显示我们需要智能的数据分析工具,从大量的数据中发现有用的知识。数据挖掘技术应运而生。 数据挖掘就是指从数据库中发现知识的过程。包括存储和处理数据,选择处理大量数据集的算法、解释结果、使结果可视化。整个过程中支持人机交互的模式[3]。数据挖掘从许多交叉学科中得到发展,并有很好的前景。这些学科包括数据库技术、机器学习、人工智能、模式识别、统计学、模糊推理、专家系统、数据可视化、空间数据分析和高性能计算等。数据挖掘综合以上领域的理论、算法和方法,已成功应用在超市、金融、银行[4]、生产企业 [5]和电信,并有很好的表现。 软计算是能够处理现实环境中一种或多种复杂信息的方法集合。软计算的指导原则是开发利用那些不精确性、不确定性和部分真实数据的容忍技术,以获得易处理、鲁棒性好、低求解成本和更好地与实际融合的性能。通常,软计算试图寻找对精确的或不精确表述问题的近似解[6]。它是创建计算智能系统的有效工具。软计算包括模糊集、神经网络、遗传算法和粗集理论。 2 数据挖掘中的软计算方法 目前,已有多种软计算方法被应用于数据挖掘系统中,来处理一些具有挑战性的问题。软计算方法主要包括模糊逻辑、神经网络、遗传算法和粗糙集等。这些方法各具优势,它们是互补的而非竞争的,与传统的数据分析技术相比,它能使系统更加智能化,有更好的可理解性,且成本更低。下面主要对各种软计算方法及其混合算法做系统性的阐述,并着重强调它们在数据挖掘中的应用情况。 2.1 模糊逻辑 模糊逻辑是1965年由泽德引入的,它为处理不确定和不精确的问题提供了一种数学工具。模糊逻辑是最早、应用最广泛的软计算方法,模糊集技术在数据挖掘领域也占有重要地位。从数据库中挖掘知识主要考虑的是发现有兴趣的模式并以简洁、可理解的方式描述出来。模糊集可以对系统中的数据进行约简和过滤,提供了在高抽象层处理的便利。同时,数据挖掘中的数据分析经常面对多种类型的数据,即符号数据和数字数据。nauck[7]研究了新的算法,可以从同时包含符号数据和数字数据中生成混合模糊规则。数据挖掘中模糊逻辑主要应用于以下几个方面: (1)聚类。将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。聚类分析是一种重要的人类行为,通过聚类,人能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间有趣的关系。模糊集有很强的搜索能力,它对发现的结构感兴趣,这会帮助发现定性或半定性数据的依赖度。在数据挖掘中,这种能力可以帮助

数据仓库与数据挖掘的综述

Southwest university of science and technology 数据挖掘课程报告 数据仓库与数据挖掘的综述 学院名称计算机科学与技术 专业名称计科 学生姓名 学号 指导教师吴珏 二〇一六年11月

摘要 通过对数据仓库与数据挖掘的学习和大致的了解,主要提出了一种基于数据仓库的数据挖掘系统的决策支持系统的框架。该文章把数据仓库、数据挖掘工具和知识库结合在一起,提高了数据挖掘的效率。增加了挖掘数据的效率和价值实用性! 一、概述 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,并且这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对"人们被数据淹没,人们却饥饿于知识的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)

以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 今天,越来越多的企业认识到要从以往的事务处理和决策中总结经验,利用现有的数据进行分析和推理,建立企业的决策支持系统(DSS)以提高决策的质量。企业如果不能快速精确的收集和分析信息,将无法进行科学而有效的决策。建立数据仓库(Data warehouse)将能很的解决这一问题,使企业从大量的业务信息中筛选出所需的信息,并做出正确的决策。数据仓库不是单一的产品,而是综合了多种信息技术的计算环境。它将全企业的运行数据汇集到一个精心设计的关系数据库中,并将它们转换成面向主题(Subject-oriented)的形

数据挖掘综述

数据挖掘综述 1、产生背景 随着计算机的产生和大量数字化的存储方法的出现,我们借助计算机来收集和分类各种数据资料,但是不同存储结构存放的大量数据集合很快被淹没,便导致了结构化数据库以及DBMS的产生。 但是随着信息时代的到来,信息量远远超过了我们所能处理的范围,从商业交易数据、科学资料到卫星图片、文本报告和军事情报,以及生活中各种信息,这也就是“数据爆炸但知识贫乏”的网络时代,面对巨大的数据资料,出现了新的需求,希望能够更好的利用这些数据,进行更高层次的分析,从这些巨大的数据中提取出对我们有意义的数据,这就是知识发现(KDD,Knowledge Discovery in Databases),数据挖掘应运而生。 2、数据库系统技术的演变 1)20世纪60年代和更早 这个时期是数据收集和数据库创建的过程,原始文件的处理2)20世纪70年代---80年代初期 有层次性数据库、网状数据库、关系数据库系统 3)20世纪80年代中期—现在 高级数据库系统,可以应用在空间、时间的、多媒体的、主动的、流的和传感器的、科学的和工程的。 4)20世纪80年代后期—现在

高级数据分析:数据仓库和数据挖掘 5)20世纪90年代—现在 基于web的数据库,与信息检索和数据信息的集成6)现在---将来 新一代的集成数据域信息系统 3、数据挖掘概念 数据挖掘(Data Mining),就是从大量数据中获取有效的、新颖的、潜在的有用的,最终可以理解的模式的非平凡过程。数据挖掘,又称为数据库中知识发现(KDD,Knowledge Discovery in Databases),也有人把数据挖掘作为数据库中知识发现过程的一个基本步骤。 数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库等。 4、数据挖掘特点和任务 4.1数据挖掘具有以下几个特点: 1)处理的数据规模十分庞大,达到GB,TB数量级,甚至更大2)查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求,需要靠系统本身寻找其可能感兴 趣的东西。 3)在一些应用(如商业投资等)中,由于数据变化迅速,因此

数据挖掘中的聚类算法综述

收稿日期:2006201204;修返日期:2006203219基金项目:国家自然科学基金资助项目(60473117) 数据挖掘中的聚类算法综述 3 贺 玲,吴玲达,蔡益朝 (国防科学技术大学信息系统与管理学院,湖南长沙410073) 摘 要:聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术。全面总结了数据挖掘中聚类算法的研究现状,分析比较了它们的性能差异和各自存在的优点及问题,并结合多媒体领域的应用需求指出了其今后的发展趋势。 关键词:数据挖掘;聚类;聚类算法 中图法分类号:TP391 文献标识码:A 文章编号:100123695(2007)0120010204 Survey of Clustering A lgorith m s in Data M ining HE L ing,WU L ing 2da,CA I Yi 2chao (College of Infor m ation Syste m &M anage m ent,N ational U niversity of D efense Technology,Changsha Hunan 410073,China ) Abstract:Clustering is an i m portant technique in Data M ining (DM )f or the discovery of data distributi on and latent data pattern .This paper p r ovides a detailed survey of current clustering algorith m s in DM at first,then it makes a comparis on a mong the m,illustrates the merits existing in the m,and identifies the p r oblem s t o be s olved and the ne w directi ons in the fu 2ture according t o the app licati on require ments in multi m edia domain .Key works:Data M ining;Clustering;Clustering A lgorith m 1 引言 随着信息技术和计算机技术的迅猛发展,人们面临着越来越多的文本、图像、视频以及音频数据,为帮助用户从这些大量数据中分析出其间所蕴涵的有价值的知识,数据挖掘(Data M ining,DM )技术应运而生。所谓数据挖掘,就是从大量无序 的数据中发现隐含的、有效的、有价值的、可理解的模式,进而发现有用的知识,并得出时间的趋向和关联,为用户提供问题求解层次的决策支持能力。与此同时,聚类作为数据挖掘的主要方法之一,也越来越引起人们的关注。 本文比较了数据挖掘中现有聚类算法的性能,分析了它们各自的优缺点并指出了其今后的发展趋势。 2 DM 中现有的聚类算法 聚类是一种常见的数据分析工具,其目的是把大量数据点的集合分成若干类,使得每个类中的数据之间最大程度地相似,而不同类中的数据最大程度地不同。在多媒体信息检索及数据挖掘的过程中,聚类处理对于建立高效的数据库索引、实现快速准确的信息检索具有重要的理论和现实意义。 本文以聚类算法所采用的基本思想为依据将它们分为五类,即层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法以及用于高维数据的聚类算法,如图1所示。 聚类 层次聚类算法 聚合聚类:Single 2L ink,Comp lete 2L ink,Average 2L ink 分解聚类 分割聚类算法基于密度的聚类基于网格的聚类 基于图论的聚类 基于平方误差的迭代重分配聚类:概率聚类、最近邻 聚类、K 2medoids 、K 2means 基于约束的聚类算法 机器学习中的聚类算法 人工神经网络方法 基于进化理论的方法:模拟退火、遗传算法用于高维数据的聚类算法 子空间聚类 联合聚类 图1 聚类算法分类示意图 211 层次聚类算法 层次聚类算法通过将数据组织成若干组并形成一个相应的树状图来进行聚类,它又可以分为两类,即自底向上的聚合层次聚类和自顶向下的分解层次聚类。聚合聚类的策略是先将每个对象各自作为一个原子聚类,然后对这些原子聚类逐层进行聚合,直至满足一定的终止条件;后者则与前者相反,它先将所有的对象都看成一个聚类,然后将其不断分解直至满足终止条件。 对于聚合聚类算法来讲,根据度量两个子类的相似度时所依据的距离不同,又可将其分为基于Single 2L ink,Comp lete 2L ink 和Average 2L ink 的聚合聚类。Single 2L ink 在这三者中应用最为广泛,它根据两个聚类中相隔最近的两个点之间的距离来评价这两个类之间的相似程度,而后两者则分别依据两类中数据点之间的最远距离和平均距离来进行相似度评价。 CURE,ROCK 和CHAME LE ON 算法是聚合聚类中最具代 表性的三个方法。 Guha 等人在1998年提出了C URE 算法 [1] 。该方法不用 单个中心或对象来代表一个聚类,而是选择数据空间中固定数目的、具有代表性的一些点共同来代表相应的类,这样就可以

数据挖掘噪声数据处理综述.doc

噪声数据处理综述 摘要:噪声数据是指数据中存在着错误或异常(偏离期望值)的数据,不完整数据是指感兴趣的属性没有值.不一致数据则是数据内涵出现不一致的情况。 为了更好的论述什么是噪声数据处理,给出了两种噪声数据处理的算法:在属性级别上处理噪声数据的数据清洗算法和一种改进的应用于噪声数据中的KNN算法。 关键词:噪声数据噪声数据处理数据清洗KNN算法 1.概述 噪声数据(noisy data)就是无意义的数据(meaningless data)。这个词通常作为损坏数据(corrupt data)的同义词使用。但是,现在它的意义已经扩展到包含所有难以被机器正确理解和翻译的数据,如非结构化文本。任何不可被创造它的源程序读取和运用的数据,不管是已经接收的、存储的还是改变的,都被称为噪声。 噪声数据未必增加了需要的存储空间容量,相反地,它可能会影响所有数据挖掘(data mining)分析的结果。统计分析可以运用历史数据中收集的信息来清除噪声数据从而促进数据挖掘。 引起噪声数据(noisy data)的原因可能是硬件故障、编程错误或者语音或光学字符识别程序(OCR)中的乱码。拼写错误、行业简称和俚语也会阻碍机器读取。 噪声数据处理是数据处理的一个重要环节,在对含有噪声数据进行处理的过程中,现有的方法通常是找到这些孤立于其他数据的记录并删除掉,其缺点是事实上通常只有一个属性上的数据需要删除或修正,将整条记录删除将丢失大量有用的、干净的信息。在数据仓库技术中,通常数据处理过程应用在数据仓库之前,其目的是提高数据的质量,使后继的联机处理分析(OLAP)和数据挖掘应用得到尽可能正确的结果。然而,这个过程也可以反过来,即利用数据挖掘的一些技术来进行数据处理,提高数据质量。

Web数据挖掘综述.

Web数据挖掘综述 摘要:过去几十年里,Web的迅速发展使其成为世界上规模最大的公共数据源,因此如何从Web庞大的数据中提取出有价值的信息成为一大难题。Web数据挖掘正是为了解决这一难题而提出的一种数据挖掘技术。本文将从Web数据挖掘的概念、分类、处理流程、常用技术等几方面对Web数据挖掘进行介绍,并分析了Web 数据挖掘的应用及发展趋势。 关键词:Web数据挖掘;分类;处理流程;常用技术;应用;发展趋势 Overview of Web Data Mining Abstract:Over the past few decades,the rapid development of Web makes it becoming the world’s largest public data sources.So how to extract valuable information from the massive data of Web has become a major problem.Web data mining is the data mining technology what is in order to solve this problem.This article introduces the Web data mining from its concept, classification,processing,and common techniques,and analyzes the application and the development tendency of Web data mining. Key words:Web Data Mining;Classification;Processing;Common Techniques;Application; Development Tendency 0.引言 近些年来,互联网技术的飞速发展,带来了网络信息生产和消费行为的快速拓展。电脑、手机、平板电脑等终端的普及,SNS、微博等Web2.0应用的快速发展,促进了互联网信息数量的急剧增长,信息资源前所未有的丰富。但同时,海量级、碎片化的信息增加了人们获取有效信息的时间和成本[1]。因此,迫切需要找到这样的工具,能够从Web上快速有效地发现资源,发现隐含的规律性内容,提高在Web上检索信息、利用信息的效率,解决数据的应用问题,Web数据挖掘正是一个很好的解决方法。

数据挖掘综述

数据挖掘中聚类算法的综述 摘要:数据挖掘技术在当前研究领域中算是比较热门的一项技术,从国外发展到中国,具有广阔的商业应用前景。本文主要概述了当前数据挖掘的七大方法(分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘)和十大经典算法 (C4.5,K-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,Naive Bayes,CART),以及数据挖掘的发展趋势。 关键词:数据挖掘,常用方法,经典算法 1 引言 在当今信息爆炸的时代,伴随着社会事件和自然活动的大量产生(数据的海量增长),人类正面临着“被信息所淹没,但却饥渴于知识”的困境。随着计算机软硬件技术的快速发展、企业信息化水平的不断提高和数据库技术的日臻完善,人类积累的数据量正以指数方式增长。面对海量的、杂乱无序的数据,人们迫切需要一种将传统的数据分析方法与处理海量数据的复杂算法有机结合的技术。数据挖掘技术就是在这样的背景下产生的。它可以从大量的数据中去伪存真,提取有用的信息,并将其转换成知识。 数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、模式识别、模糊数学和数理统计等最新技术的研究成果,可以用来支持商业智能应用和决策分析。例如顾客细分、交叉销售、欺诈检测、顾客流失分析、商品销量预测等等,目前广泛应用于银行、金融、医疗、工业、零售和电信等行业。数据挖掘技术的发展对于各行各业来说,都具有重要的现实意义。 2 数据挖掘的概念 2.1 什么是数据挖掘 数据挖掘(Data Mining),也叫数据开采,数据采掘等,是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程.在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理(O乙心),从而得出可供决策参考的统计分析数据.在深层次上,则从数据库中发现前所未有的、隐含的知识.OLAF'的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者是相辅相成的。 OLAP可以看作一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是便这一过程尽可能自动化。 数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、

相关文档
最新文档