相似性挖掘在时间序列数据中的应用研究

合集下载

时间序列数据挖掘算法的研究及应用

时间序列数据挖掘算法的研究及应用时间序列数据（Time Series Data）是指按时间顺序采样或测量得到的数据。

在现代社会中，我们所接触的各种数据普遍伴随着时间的因素，因此，对时间序列数据的处理和分析成为了一个非常重要的研究方向。

随着计算机技术的不断发展，时间序列数据挖掘的方法和算法也不断得到了优化和改进，从而推动了时间序列数据挖掘的应用范围不断扩大。

为了更好地进行时间序列数据的处理和分析，我们需要使用一些专门的算法和方法。

下面，我们将介绍几种常用的时间序列数据挖掘算法。

一、时间序列预测算法时间序列预测算法是指根据已知的时间序列数据，通过建立合适的模型，来预测未来一段时间内的时间序列趋势。

常见的时间序列预测算法包括 ARIMA 模型、神经网络模型、支持向量机模型等。

这些模型在时间序列数据的预测和预警方面有着非常广泛的应用。

例如，在股票市场中，我们可以使用时间序列预测算法来构建模型，预测未来一段时间内股票的价格走势。

在能源领域中，我们可以使用时间序列预测算法来预测未来一段时间内的能源需求量，从而为能源供应和调度提供依据。

在医疗领域中，我们可以使用时间序列预测算法来预测不同种类疾病的发病率，帮助医疗机构制定相应的疾病预防措施。

二、时间序列聚类算法时间序列聚类算法是指将时间序列数据分为若干个类别，并使得同一类别内的时间序列具有相似性，而不同类别的时间序列具有明显的差异性。

时间序列聚类算法的目的是为了在时间序列数据中发现潜在的模式和异常，并帮助我们更好地理解时间序列数据的性质和结构。

常见的时间序列聚类算法包括 K-means 算法、基于密度的 DBSCAN 算法、层次聚类算法等。

时间序列聚类算法在许多领域都有着广泛的应用。

例如，在气候领域中，我们可以使用时间序列聚类算法来将气候变化数据分为若干个类别，并发现各类别内的相似性和差异性，从而更好地理解气候变化的规律和趋势。

在智能交通领域中，我们可以使用时间序列聚类算法来将车辆轨迹数据分为不同的类别，并帮助我们更好地了解车辆运行的规律和特点。

《2024年时间序列数据分类、检索方法及应用研究》范文

《时间序列数据分类、检索方法及应用研究》篇一一、引言时间序列数据是一种常见的数据类型，在各个领域都有广泛的应用。

它以时间为序，记录了数据随时间的变化情况。

随着信息技术的飞速发展，时间序列数据的分类、检索问题逐渐成为研究的热点。

本文旨在研究时间序列数据的分类、检索方法及其应用，为相关领域的研究和应用提供参考。

二、时间序列数据分类方法时间序列数据的分类是数据挖掘和机器学习领域的重要研究方向。

常见的分类方法包括聚类分析、监督学习和无监督学习等。

1. 聚类分析聚类分析是一种无监督学习方法，用于将相似的时间序列数据划分为同一类别。

常用的聚类算法包括K-means聚类、层次聚类等。

在时间序列数据的聚类中，需要考虑到数据的时序特性和相似性度量问题。

常用的相似性度量方法包括欧氏距离、动态时间规整等。

2. 监督学习监督学习是一种通过已知标签的训练集学习模型的方法。

在时间序列数据的分类中，监督学习方法可以利用已知类别的样本训练模型，对未知类别的数据进行分类。

常用的监督学习方法包括支持向量机、神经网络等。

三、时间序列数据检索方法时间序列数据的检索是基于某种相似性度量算法在数据集中找到与查询最相似的数据的过程。

常见的检索方法包括基于相似性度量的检索、基于模式匹配的检索等。

1. 基于相似性度量的检索基于相似性度量的检索是一种常见的时间序列数据检索方法。

该方法通过计算查询与数据集中各时间序列之间的相似度，返回相似度最高的若干个结果。

常用的相似性度量方法包括欧氏距离、动态时间规整等。

2. 基于模式匹配的检索基于模式匹配的检索是一种通过匹配查询与数据集中模式的方法进行检索的方法。

该方法需要先从数据集中提取出各种模式，然后与查询进行匹配，返回匹配度最高的结果。

常见的模式匹配算法包括基于子序列的匹配算法等。

四、应用研究时间序列数据的分类和检索在各个领域都有广泛的应用，如金融、医疗、交通等。

下面以金融领域为例，介绍时间序列数据的分类和检索的应用。

时序数据上的数据挖掘

V ol.15, No.1 ©2004 Journal of Software 软件学报 1000-9825/2004/15(01)0000 时序数据上的数据挖掘∗ 黄书剑1+1(南京大学计算机科学与技术系江苏南京 210093)Data Mining on Time-series DataHUANG Shu-Jian 1+1(Department of Computer Science and technology, Nanjing University, Nanjing 210093, China)+ Corresponding author: Phn +86-**-****-****, Fax +86-**-****-****, E-mail: ****, http://****Abstract : Data mining has been developing rapidly in the recent years. Since time related data occurs frequently in various areas, there has been “an explosion” of interest in mining time-series data, which is a popular branch of data mining. In this paper we present an overview of the major research areas and tasks in mining time-series data, such as preprocessing, representation, segmentation, similarity, classification, clustering, anomaly detection, rule discovery, etc. Some solutions of several tasks are also included in this paper.Key words : data mining; time-series摘要: 近年来数据挖掘得到了蓬勃的发展。

金融数据时间序列相似性度量的应用研究

ＩＳＳＮ１００９－３０４４
Ｅ～ｍａｌｒ：ｊｓｌｔ＠ｄｎｚｓ．ｎｅｔ．ｅｎ
ｈｔｔｐ：／／ｗｗｗ．ｄｎｚｓ．ｎｅｔ．ｃａＴｅｌ：＋８６— ５５１－６５６９０９６３６５６９０９６４
Ｔｈｒｏｕｇｈｔｈｅａｎａｌｙｓｉｓｏｆｅｘｐｅｉｒｍｅｎｔａｌｒｅｓｕｌ￣ａｎｄａｃｃｏｒｄｉｎｇｔｏｔｈｅｐｉｒｎｃｉｐｌｅｏｆｅａｃｈａｌｇｏｒｉｔｈｍ，ａｐｐｌｉｃａｂｌｅｓｉｔｕａｔｉｏｎａｎｄｔｈｅｅｘｅｃｕ－ｔｉｏｎｅｆｉｃｉｅｎｃｙｏｆｅａｃｈｍｅｔｈｏｄａｒｅａｎｌａｙｚｅｄａｎｄｃｏｍｐａｒｅｄ．Ｔｈｅａｎａｌｙｓｉｓｓｈｏｗｓｔｈａｔｅａｃｈｌｇａｏｉｒｔｈｍｈａｓｉｔｓｏｗｎａｐｐｌｉｃａｂｌｅｃｏｎｄｉ－
ｍｅａｓｕｒｅｍｅｎｔａｌｇｏｒｉｔｈｍｓ，ｉｎｔｈｉｓｐａｐｅｒ，ａｒｅｉｍｐｌｅｍｅｎｔｅｄｕｓｉｎｇｐｉｅｃｅｗｉｓｅｌｉｎｅａｒｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｉｎａｆｎｃｉａｌｄａｔａｔｉｍｅｓｅｉｅｒｓ．

《2024年时间序列数据分类、检索方法及应用研究》范文

《时间序列数据分类、检索方法及应用研究》篇一一、引言时间序列数据，指按时间顺序排列的一系列数据点，常用于各种领域，如金融市场、气象观测、工业生产等。

对时间序列数据进行有效的分类和检索，是众多研究领域的热点和难点。

本文旨在研究时间序列数据的分类、检索方法，以及在各个领域的应用情况。

二、时间序列数据的分类1. 基于统计学方法的时间序列数据分类根据统计学原理，我们可以通过时间序列数据的特征参数进行分类，如均值、方差、自相关等。

例如，我们可以将金融市场中的股票价格时间序列数据分为上涨趋势、下跌趋势和稳定趋势等。

2. 基于机器学习的时间序列数据分类随着机器学习技术的发展，越来越多的研究者开始使用机器学习算法对时间序列数据进行分类。

如使用神经网络、支持向量机等算法，根据历史数据预测未来趋势，从而进行分类。

3. 基于模式识别的时序数据分类通过对时序数据进行模式识别，可以找到具有特定规律的模式。

比如对气象数据进行分析，找到风速、风向的变化模式，并据此进行时序数据的分类。

三、时间序列数据的检索方法1. 相似性检索相似性检索是时间序列数据检索的主要方法之一。

通过计算两个时间序列的相似度，找到与查询序列最相似的序列。

常用的相似度计算方法有欧氏距离、动态时间弯曲距离等。

2. 索引技术为了加快检索速度，研究者们提出了各种索引技术。

如基于分段的方法、基于树形结构的方法等。

这些方法可以在一定程度上降低计算复杂度，提高检索效率。

四、时间序列数据的应用研究1. 金融领域应用在金融领域，时间序列数据广泛应用于股票价格预测、市场趋势分析等。

通过机器学习算法对历史数据进行学习，可以预测未来股票价格的变化趋势，为投资者提供决策支持。

2. 气象领域应用在气象领域，时间序列数据用于预测天气变化、气候变化等。

通过对历史气象数据进行模式识别和特征提取，可以找到气候变化规律，为气象预报提供支持。

3. 工业生产应用在工业生产中，时间序列数据常用于设备故障诊断和预测性维护。

时间序列相似性查询的研究与应用

时间序列相似性查询的研究与应用随着大数据时代的到来，时间序列数据的重要性逐渐凸显。

时间序列数据是指按照时间顺序排列的一组数据，例如股票价格、气温变化、心电图等。

时间序列相似性查询作为一种重要的数据分析技术，旨在寻找与查询样本相似的时间序列数据，从而揭示隐藏在数据背后的规律和趋势。

在各个领域的实际应用中，时间序列相似性查询已经发挥了重要的作用。

时间序列相似性查询的研究主要包括两个方面：相似性度量和相似性查询算法。

相似性度量是衡量两个时间序列数据之间相似程度的方法，常用的度量方法包括欧氏距离、曼哈顿距离、动态时间规整等。

相似性查询算法是根据相似性度量方法，对大规模时间序列数据进行高效查询的方法，常用的算法包括基于索引的查询、基于哈希的查询、基于树结构的查询等。

这些研究成果为时间序列数据的分析和挖掘提供了基础。

时间序列相似性查询在实际应用中具有广泛的应用前景。

首先，在金融领域，通过对历史股票价格的相似性查询，可以预测未来股票价格的走势，为投资者提供决策依据。

其次，在气象领域，通过对历史气温变化的相似性查询，可以预测未来天气的变化，为气象预报提供支持。

再次，在医疗领域，通过对心电图的相似性查询，可以诊断心脏疾病，为医生提供治疗方案。

另外，在工业生产领域，通过对传感器数据的相似性查询，可以提前预测设备故障，进行维护和修复，提高生产效率。

然而，时间序列相似性查询也面临一些挑战。

首先，大规模时间序列数据的查询效率是一个问题，传统的查询算法无法满足实时查询的需求。

其次，相似性度量方法的选择也是一个难题，不同领域的数据可能需要采用不同的度量方法。

此外，在多维时间序列数据的查询中，如何考虑多个维度之间的相似性也是一个研究方向。

总之，时间序列相似性查询作为一种重要的数据分析技术，在各个领域的实际应用中发挥了重要作用。

未来，我们需要进一步研究相似性度量方法和查询算法，提高查询效率和准确性，以更好地应对大数据时代的挑战。

时间序列相似性度量方法综述

时间序列相似性度量方法综述作者：孙建乐廖清科来源：《数字化用户》2013年第27期【摘要】时间序列的相似性度量是时间序列数据挖掘的基础问题，针对时间序列相似性度量问题，综述了现有的时间序列相似性度量方法，重点介绍了各种度量方法的基本原理、优缺点，从而便于研究者对已有算法进行改进和研究新的时间序列相似性度量方法。

【关键词】时间序列数据挖掘相似性度量时间序列的相似性度量是时间序列数据挖掘的基础问题。

两条完全相同的时间序列几乎不存在，因此采用相似性（距离）度量来衡量时间序列之间的相似性。

由于时间序列数据的复杂性，经常发生振幅平移和伸缩、线性漂移、不连续性、时间轴伸缩和弯曲等形变，为了最大程度地支持上述形变，并尽量提高相似性度量的时间效率，有一系列时间序列距离度量方法被提出和引入。

一、明科夫斯基距离明科夫斯基（Minkowski）距离的优点在于简单直观，易于计算。

设两长度相等的序列和，把它们看成n维空间中的两个坐标点，则两者之间的明科夫斯基距离[2]定义为：当q=1时为曼哈顿（Manhattan）距离，当q=2时为欧几里德（Euclidean）距离，其中欧几里德距离是最常用也是应用最广泛的一种距离，其计算复杂度不高，与序列长度成线性关系，因而具有很好的伸缩性，序列长度的增加不会造成计算复杂度的迅速提高。

并且欧氏距离满足距离三角不等式，在基于索引的查询时，可以利用距离三角不等式快速过滤一些不符合条件的索引节点。

二、动态时间弯曲距离动态时间弯曲（DTW）距离在语音处理领域得到广泛的研究，Berndt和Clifford首次将DTW引入到数据挖掘领域[3]。

与欧几里德距离相比，动态时间弯曲距离不要求两条时间序列点与点之间一一对应，允许序列点自我复制在进行对齐匹配。

动态时间弯曲（DTW）距离：设时间序列和，则X和Y的DTW距离定义为：式中：表示序列点和之间的距离，可以根据情况选择不同的距离度量，通常使用明科夫斯基距离。

时间序列相似性度量方法

时间序列相似性度量方法王燕;安云杰【摘要】在时间序列相似性度量中,符号聚合近似(symbolic aggregate approximation,SAX)方法没有将符号化后的模式序列进一步处理,导致存在一定误差,为此提出将算术编码技术引用到SAX中,即将符号化序列转换为编码序列,实现时间序列在概率区间上的分析与度量;在计算序列间的相似度时采用分层欧式距离算法,综合考虑序列的统计距离和形态距离,由粗到细地进行筛选,达到序列整体趋势匹配以及细节拟合的目标.实验结果表明,该方法在不同的数据集上都有一定的可行性,具有较高的准确度和较好的鲁棒性.【期刊名称】《计算机工程与设计》【年(卷),期】2016(037)009【总页数】6页(P2520-2525)【关键词】时间序列;相似性度量;关键点对等;算术编码技术;符号化;分层欧式距离【作者】王燕;安云杰【作者单位】兰州理工大学计算机与通信学院,甘肃兰州730050;兰州理工大学计算机与通信学院,甘肃兰州730050【正文语种】中文【中图分类】TP311时间序列是对某一物理过程中的某一变量A(t)分别在时刻t1,t2,…,tn(t1<t2<…<tn)进行观察测量而得到的离散有序的数据集合，但由于时间序列数据的复杂，多种类、高维度等特性，为处理这些数据的分析带来了很大的困难，因此时间序列数据挖掘工作变得尤为重要[1]。

在整个时间序列数据挖掘过程中，相似性度量技术是许多其它工作(比如聚类、分类、关联规则等)的基础，吸引了大量学者的深入研究[2-6]。

其中，基于特征的符号聚合近似(SAX)[7]方法成为了最流行的相似性度量方法。

例如，Antonio Canelas等用SAX方法处理时间序列[8]，具有简单易用、不依赖具体实验数据、并能准确表示时间序列统计特征的优点，但该方法弱化了序列的形态变化信息；张海涛等提出基于趋势的时间序列相似性度量[9]，能够客观的描述序列形态变化，但由于选择的符号数太多，丧失了处理意义，使度量算法变的繁琐；肖瑞等提出了编码匹配算法在不确定时间序列相似性度量上的应用[10]；Yan Wang将关键点提取和序列对等技术应用到了SAX算法中[11]，为时间序列相似性度量提供了可以借鉴和参考的方向。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

相似性挖掘在时间序列数据中的应用研究摘要：针对时间序列的数据挖掘首先需要将时间序列(Time Series)数据转换为离散的符号序列(Symbol Sequence)。

在前人的基础上,将界标模型和分段线性化进行了结合，以关键点作为分段依据,以最大似然函数和最小二乘法来拟合各分段线性拟合函数；此方法的优点在于符合人体生理实验结果,考虑了时间序列中的噪声。

关键词：时间序列；相似性挖掘；线性化分段；关键点0 引言时间序列是人们工作和生活中经常遇到的一类重要的数据形式.对时间序列进行分析,可以揭示事物运动变化和发展的内在规律,对于人们正确认识事物并据此作出科学的决策具有重要的现实意义。

数据挖掘(Data Mining)也称知识发现(Knowledge iscovery)，是一种新兴的面向决策支持的数据处理手段。

针对时间序列的数据挖掘研究从大量时间序列历史数据中发掘有价值的规律性信息的算法及实现技术,也是一个新的、极具挑战性和有着重要应用前景的研究领域。

1 时间序列相似性的挖掘时间序列是指按时间变化的序列值或事件，时间序列数据库是指由随时间变化的序列值或事件组成的数据库。

这些值或事件通常是在等时间间隔测得的。

以股票每天的交易记录为例来说明上述定义，rj={600000，浦发银行，24.8,26.3,24.2,25.8,255105,62}，其中600000是股票代码，浦发银行是股票名称，接下来的分别为当天的开盘价、最高价、最低价、收盘价、成交量以及第62个交易日。

前两个特性显然与时间无关，为静态特性，而其他特性值是与时间密切相关的，是动态特性。

很显然，对于静态特性研究的意义不大。

对于时间序列的相似性测量，不同的数据表达形式相似性测量的方法也不尽相同。

常用的测量方法主要有以下3种。

(1)欧几里德距离测量方法。

对于时间序列数据的相似性分析中，经常采用欧几里德距离作为相似计算的工具。

采用欧氏距离进行测量的优点是容易计算，易于理解，可以用于索引和聚类等数据挖掘。

它的缺点是对序列中的噪声很敏感，而且欧氏距离会随着序列长度的增加而增加。

而实际的时间序列数据往往会很长，含有较多的噪声，仅仅通过简单的欧几里德距离测量方法不能正确做出两个时间序列是否相似的判定，同时由于数据量很大，相似性的计算效率也很低;欧氏距离也不允许有不同的基线，如当两支股票分别在￥20和￥80进行波动时，尽管他们的波形很相似，但是其欧氏距离会很大。

(2)相关性测量。

另一个相似性测量方法不但能够将相似性作为位置的函数，而且不必对原始数据库的时间序列产生所有的长度为n 的子序列。

一个目标时间序列{xi}和时间序列数据库中的序列{yi}之间的线性相关定义如下：C-i=∑+n-j=1x-jy-i+j[]∑+n-j=1x+2-j∑+n-j=1y+2-j(1)其中i=1,……，N+n-l.这种相关性的计算对于{xi}比较长的时间序列的计算花费是很大的，在这种情况下，傅立叶变换的卷积定理提供了一个很好的解决办法。

首先在{xi}和{yi}的末尾补充0使得两个时间序列变为长度都为1=N+n-1的新序列{xi}和{yi},然后对{xi}和{yi}进行离散傅立叶变换生成{Xi}和{Yi}，最后通过逐点相乘{Xi}和{Yi}就会得到相关系数，结果转化为如下形式：C-i=F+{-1}{X+*-jY-j}[]∑+n-{j=1}X+2-j∑+N-{j=1}Y+2-j(2)式(1)和(2)在Parseval's Theorem 1上是一致的。

如对{xi}和{yi}进行合适的规范化处理，则作为相似性测量参数的相关性因子ci，的值将在[-1, 1]的范围内，如为1则说明两个时间序列完全匹配。

当存在干扰信号时，相关因子的值一般小于1，而且序列值{ci}峰值的位置就是{xi}中与{yi}匹配的可能位置。

(3)动态时间弯曲法(DTW, Dynamic Time Warping)。

欧氏距离由于时间轴的微小变形都会被引起很大的变化，因此不再适用于时间轴有轻微变形的时间序列相似性的测量。

而动态时间弯曲距离可有效消除欧氏距离的缺陷，它允许序列在时间轴上的偏移，序列各点不要求一一对应，并且能够计算不同长度序列之间的距离。

欧氏距离和动态时间弯曲距离计算时序列两个时间序列的虽然形状相似，但是它们在时间轴上并不是完全对齐的，因此用欧氏距离计算相似性结果将会是距离很大，可能会导致产生不相似的结果。

2 分段线性化描述时间序列本文提出将界标模型和分段线性化方法相结合，用关键点(符合一定条件的一阶界标)作为直线段的端点，以关键点为边界划分成各子序列，各子序列考虑实际采样点的振幅值的分布，以最大似然函数和最小二乘法拟和线段求出各分段线性拟合函数y=a+bx。

同时以线性拟合函数式中b的值为形态相似比较的基本单元，提出了一种新的相似性测量公式，该公式对时间序列的多种变形都不敏感。

2.1 检索关键点假设一下分段函数模型能够拟合时间序列X：X=f-1(t,w-1)+e-1(t) 1≤t＜a-1f-k(t,w-k)+e-k(t) a-{k-1}≤t＜a-k=N(3)其中a=(a1,a2,…ak)是时间序列X的关键点的集合，关键点是时间序列趋势上升或下降的变化的分界点。

e1（t），e2（t），…,ek(t)是第i段的绝对误差项，ei（t）为满足均值为零的高斯白色噪声分布的函数。

f（t，w）为时间序列第i段的拟合多项式函数（1≤i≤k），wi 是系数向量，f（t，w）∈M，M为线性模型。

检索关键点的算法如下：输入：时间序列X：增幅比阙值§；输出:关键点集合cp0。

算法描述：(1)扫描时间序列数据库，找出时间序列库振幅最大值xmax，最小值xmin 。

(2)规范化预处理时间序列。

方法就是对各点的振幅xi，作如下变换：x-i=(x-i-x-{max}+x-{min}[]2)/(x-{max}-x-{min}[]2)(4)规范化处理的目的是以此将振幅xi的值限制在区间[-1,+l]之间，达到消除振幅平移和时间缩放对相似性计算所带来的影响。

(3)以时间为序计算的增幅比值并依次与给定的增幅比阂值§(§>0)进行比较，如大于等于增比阙值§，则在集合cp中记录时刻ti值和振幅值xi。

计算增幅比值的公式如下：(x-{i+1}-x-i)[]x-i（5）(4)检索出满足阙值§条件的关键点，根据实际研究需要，可适当调整§的值，重新查找时间列变化的关键点。

2.2 分段线性化描述时间序列以关键点集合cp中每一点为分界点，将时间序列分割为各段子序列，考虑时间序列实际复杂性，不能直接将各关键点的连接线代替各子序列，需要每段子序列作一元线性回归拟合，线性拟合方程如下：y-i=a+bx-i+ε-iε~N(0,δ+2)（6）式中，ε-i a，b的最大似然估计：(1)构建似然函数L=∏n[]i=1f(y-i)=∏n[]i=11[]2πδe-(y-i-1-bx-i)+2[]2δ+2=(2πδ+2)-n[]2e-∑n[]i=1(y-i-a-bx-i)+2[]2δ+2（7）（2）求a，b的最大似然估计。

令函数Q(a,b)=∑[DD(]n[]i=1[DD)](y-i-a-bx-i)+2)，要使L为最大，根据函数的极值性质，Q（a，b）对a，b偏导，即可求出Q（a，b）的最小值，联立方程组：Q[]a=-2∑n[]i-1(y-1-a-bx-i)=0Q[]b=-2∑n[]i-1(y-i-a-bx-i)x-i=0（8）用最小二乘法求a，b的最大似然估计，解方程得到：=-=∑[DD(]n[]i=1[DD)](x-i-)(y-i-)[]∑[DD(]n[]i=1[DD)](x-i-)+2（9）式中[AKx-]=[SX(]∑[DD(]n[]i=1[DD)]x-i[]n[SX)]，[AKy-]=[SX(]∑[DD(]n[]i=1[DD)]y-i[]n [SX)]，样点振幅的平均值。

将求解出的a，b代入线性拟和方程，得近似回归方程式y=a+bx。

依据上述方法可依次计算出各分段的拟和方程中的b。

2.3 相似性算法的实现本部分的软件环境是数据分析软件SAS系统。

实验任务描述如下：给定查询序列S，Q是比S长得多的序列，需要在Q上找到和S 的距离最近的子序列并返回该子序列的位置。

这里采用顺序扫描和滑动窗口技术进行子序列匹配，但是不像通常那样每次窗口只滑动一个点，由于从序列中提取了那些对序列形状影响最大的特征点，可以认为窗口只有在经过一个特征点时，匹配的子序列才会发生明显的变化，所以每次让窗口滑动到下一个特征点，以加快顺序扫描的速度。

子序列匹配的算法如下：输入：待查询时间序列数据集Q，时间序列数据集S，增幅比阈值§；输出：在Q中找到和S的距离最近的子序列并返回该子序列的位置。

算法描述：(1)规范化预处理时间序列Q, S。

对各点的振幅x，按公式(4)进行变换。

(2)检索Q, S各自的关键点，关键点集合分别为关键点数据集mp,cp,记录Q,S关键点的个数。

以时间为序计算增幅比值且依次与给定的增幅比阈值§(§>0)，如大于等于增幅比阈值8，则在关键点数据集mp,cp中记录时刻t值和振幅值x.(3)将Q, S各目分段并拟合成线性方程，求出各自分段线性拟和方程中斜率b、b’的集合。

分段依据是(2)中所得到的由关键点xi与xj构成的关键点数据集mp，cp，将分段子序列数据放入临时数据集temp中。

对每一个分段子序列计算斜率直接通过最大似然估计和最小二乘法推导得到的公式(9)来获得。

(4)利用顺序扫描和滑动窗口技术进行子序列匹配，依次计算Q 与S中子序列的相似性距离，相似性距离集合为D_qs。

窗口大小为Q关键点的个数Num_q，每次滑动到下一个特征点。

(5)从相似性距离集合D_qs中找到最短距离并返回该子序列的位置。

3 结束语本文主要完成了相似性搜索算法设计的3部分内容，包括相似性的定义、相似性度量模型的建立和算法的实现。

并在此基础上进一步研究：首先将分段线性化和界标模型技术相结合，提出一种基于关键点的时间序列分段线性表示方法;然后在前面的分段线性化表示方法的基础上提出一种相似性的计算方法；最后将相关算法在SAS系统环境中实现。

本文的研究处于一个十分基础又十分重要的地位，在此基础上进行的子序列匹配、整体序列匹配就可满足实际中一部分的需求，进一步的可在此基础上结合分类、聚类、关联规则等数据挖掘技术，这将是一个与实际应用更接近的研究领域。

参考文献：[1] 李等等,邵培基,黄亦潇.数据挖掘在中国的现状和发展研究[J].管理工程学报,2004(3).[2] 刘世元,江皓.面向相似性搜索的时间序列表示方法述评[J].计算机工程与应用,2004(27).[3] F.A TTNEA VE.Some information aspects of visual perception[J].Psychology Review,1954(3).[4] LAST,M,KLEIN,Y.Knowledge Discovery in series Databases.IEEE Trans[M].on System,Man,and Cybernetics-part b,2001(1).[5] 段立娟,高文,王伟强.时序数据库中相似序列的挖掘[J].计算机科学,2000(5).[6] 张军,陈汉武,马志民.一种时间序列相似性的快速搜索算法[J].南京师范大学学报(工程技术版),2005(3).[7] 肖辉,胡运发.基于分段时间弯曲距离的时间序列挖掘[J].计算机研究与发展,2005(1).[8] 武红江,赵军平,彭勤科,等.基于波动特征的时间序列数据挖掘[J].控制与决策,2007(2).[9] 蒋嵘,李德毅,程辉.基于形态表示的时间序列相似性搜索[J].计算机研究与发展,2000(5).[10] 郑斌祥,杜秀华,席裕庚.时序数据相似性挖掘算法研究[J].信息与控制,2002(3).。