基于时间序列相似性聚类的应用研究综述

计算机工程与设计ComputerEngineeringandDesign2010,31(3)577?人工智能?

基于时问序列相似性聚类的应用研究综述

陈湘涛L2,李明亮1,陈玉娟1

(1.湖南大学计算机与通信学院,湖南长沙410082;2.中南大学信息科学与工程学院,湖南长沙410083)摘要:在综合分析近年来时间序列数据挖掘相关文献的基础上从时间序列分割、相似性度量、时间序列聚类等方面对时间序列数据挖掘进行了综述,简要分析了基于时间序列相似性聚类的研究现状,对比较流行的算法进行了比较分析,对当前一些未解决的问题进行了简要介绍,并在此基础上对未来的发展趋势进行了展望,为研究者了解最新的基于时间序列相似性聚类研究动态、新技术及发展趋势提供了参考.

关键词:线性分割;滑动窗口;时间窗;小波变换;子序列聚类;全序列聚类

中图法分类号:TP31l文献标识码:A文章编号:1000.7024(2010)03-0577.05

Summalyofapplicationresearchbasedonclusteringoftimeseriessimilarity

CHENXiang—taoL2,LIMing—lian91,CHENYu-juanl

(1.SchoolofComputerandCommunication,HunanUniversity,Changsha410082,China;

2.SchoolofInformationScienceandEngineering,CentralSouthUniversity,Changsha410083,China)

Abstract:Onthebasisofacomprehensiveanalysisoftherecentyearsrelevantliteratureoftimeseriesdatamining,time-seriesdataminingsuchasthedivisionoftimeseries,similaritymeasure,clusteringarereviewed.Thecurrentstateofresearchofclusterbasedontimeseriessimilarityareanalyzedbrieflyabriefanalysis.Currentresearchtopicsalebrieflydescribed.Thepopularalgorithmshave

beenacomparativeanalysis.Basedonabriefintroductionofsomeunresolvedissues,thefuturedevelopmenttrendisoutlook.Theaimisto

putforwardreferenceforscholarswhoresearchdevelopment,newtechniquesandtrendsoftimeseriesdatamining.

Keywords:linearpartition;slidingwindow;windowoftime;wavelettransform;subsequenceclustering;sequenceclustering

0引言1时间序列分割

时间序列作为数据库中的一种数据形式,它广泛存在于各种大型的商业、医学、工程和社会科学等数据库中,形成规模庞大的时间序列数据库。与其它数据形式相比较,时序数据的特点有“1:①有明显的时间先后。每个记录都必须有时间维按时间顺序进行排列,如果按关联规则的表示方法,所得的规则应体现出时间要素,一般应是先发生的事件导致后发生的事件,体现出时间关联,而不像市场货篮数据那样没有时间先后之分。②记录的属性类型可以分为3种:~是布尔型(有或没有,0或1):二是类别型(月份差别,从事的职业类型等);三是数值型(年龄、气温等)。③反映出序列特征。不论是上述哪种类型,应该是变量在某一时间段内连续(或采样)的记录集,有一定的连贯性,一般有规律性可寻。随着数据库知识发现(knowledgediscoveryindata-base,KDD)和模式识别等计算机技术的发展,出现了基于大量甚至海量数据库的数据挖掘技术,其研究目的是从大量时间序列数据中发现未知的重要模式和知识,并据此做出具有知识驱动的决策。

为了对时间序列进行聚类,需要对时间序列进行分割,然后对分割后的子序列进行聚类啪、分类阱、异常检测Ⅲ、时间序列建模等脚。时间序列的分割是指把长度为n的时间序列S分为k段(k<<n),然后对各段进行特征描述并记为S,,使得S,与S尽可能相似脚。为什么要进行时间序列分割呢?主要原因是:(1)时间序列往往非常长,数据点的个数往往达到亿级,在理论上甚至是无限制的,并且在某个时间段它的特征是按照某种规律变化的,如果用每个数据点来描述往往会失去这些特征,并且有时也是不现实的;

(2)时间序列在演变过程中,由于各种因素的影响,会表现某种局部特征,这些局部特征可以用某种模式来描述,这样我们可以忽略一些细节上变化,把握局部特征,这对时间序列数据挖掘有时不失为一种好的办法。可以极大提高数据挖掘的效率,并且不会丢失时间序列的重要特征,可以有效改善聚类结果。

1.1时间序列线性划分

线性划分作为一种简单而实用的算法在大量的序列分段

收稿日期:2009.02.26;修订日期:2009.10-20。

基金项目:国家自然科学基金项目(60634020):

作者简介:陈湘涛(1973--),男,湖南新宁人,博士,副教授,研究方向为数据库与数据挖掘、过程建模与控制:李明亮(1982一),男,硕士研究生,研究方向为数据挖掘;陈玉娟(1984--),女,硕士研究生,研究方向为数据挖掘。E-mail:brighmess221@qq.COI口I万方数据

相关主题
相关文档
最新文档