基于符号表示的时间序列分类综述
《2024年时间序列数据分类、检索方法及应用研究》范文

《时间序列数据分类、检索方法及应用研究》篇一一、引言时间序列数据是一种常见的数据类型,在各个领域都有广泛的应用。
它以时间为序,记录了数据随时间的变化情况。
随着信息技术的飞速发展,时间序列数据的分类、检索问题逐渐成为研究的热点。
本文旨在研究时间序列数据的分类、检索方法及其应用,为相关领域的研究和应用提供参考。
二、时间序列数据分类方法时间序列数据的分类是数据挖掘和机器学习领域的重要研究方向。
常见的分类方法包括聚类分析、监督学习和无监督学习等。
1. 聚类分析聚类分析是一种无监督学习方法,用于将相似的时间序列数据划分为同一类别。
常用的聚类算法包括K-means聚类、层次聚类等。
在时间序列数据的聚类中,需要考虑到数据的时序特性和相似性度量问题。
常用的相似性度量方法包括欧氏距离、动态时间规整等。
2. 监督学习监督学习是一种通过已知标签的训练集学习模型的方法。
在时间序列数据的分类中,监督学习方法可以利用已知类别的样本训练模型,对未知类别的数据进行分类。
常用的监督学习方法包括支持向量机、神经网络等。
三、时间序列数据检索方法时间序列数据的检索是基于某种相似性度量算法在数据集中找到与查询最相似的数据的过程。
常见的检索方法包括基于相似性度量的检索、基于模式匹配的检索等。
1. 基于相似性度量的检索基于相似性度量的检索是一种常见的时间序列数据检索方法。
该方法通过计算查询与数据集中各时间序列之间的相似度,返回相似度最高的若干个结果。
常用的相似性度量方法包括欧氏距离、动态时间规整等。
2. 基于模式匹配的检索基于模式匹配的检索是一种通过匹配查询与数据集中模式的方法进行检索的方法。
该方法需要先从数据集中提取出各种模式,然后与查询进行匹配,返回匹配度最高的结果。
常见的模式匹配算法包括基于子序列的匹配算法等。
四、应用研究时间序列数据的分类和检索在各个领域都有广泛的应用,如金融、医疗、交通等。
下面以金融领域为例,介绍时间序列数据的分类和检索的应用。
一种基于符号化的时间序列预测方法

一种基于符号化的时间序列预测方法
孙杰
【期刊名称】《导航》
【年(卷),期】2008(044)002
【摘要】本文提出一种基于符号化方法对时间序列进行预测。
该方法利用矢量拟合来表达时间序列走势的形态,采用聚类算法对形态进行聚类,根据聚类结果得到符号序列,并用不完全抽取方法来抽取序列模式。
预测时,根据学习得到的模式集对新序列做出预测分析。
对导航位置误差数据实验表明,该方法可以对时间序列进行较好预测。
【总页数】5页(P63-67)
【作者】孙杰
【作者单位】中国电子科技集团公司第20研究所,西安710068
【正文语种】中文
【中图分类】O211.61
【相关文献】
1.一种基于分形和相似性查找的非平稳时间序列符号化表示法 [J], 孙梅玉;方建安;姜学波;于冬梅;周豫苹
2.一种高效的基于相似性查找时间序列的位符号化表示方法 [J], 孙梅玉;方建安
3.一种基于DTW的符号化时间序列聚类算法 [J], 李迎
4.一种基于元学习框架的时间序列预测方法 [J], 李睿峰;吴忠德;戴金玲;王树友
5.一种基于元学习框架的时间序列预测方法 [J], 李睿峰;吴忠德;戴金玲;王树友
因版权原因,仅展示原文概要,查看原文内容请购买。
时间相关的符号表示

以下是与时间相关的符号表示:
小时的符号是h,分钟是min,秒是s。
24小时制的时间表示法中,上午12点表示为12:00AM,下午1点表示为1:00PM。
在12小时制的时间表示法中,上午1点表示为1:00AM,下午1点表示为1:00PM。
“周期”这个词常常用于描述重复事件或过程,例如日夜周期、季节周期等。
“频率”是指一个事件在单位时间内发生的次数,通常用赫兹(Hz)作为单位。
“周期性”是指一个事件按照一定的规律重复出现,例如四季更迭、心跳等。
“时间序列”是指按照时间顺序排列的一系列数据或事件,例如股票价格、气温变化等。
“时序图”是一种记录时间序列数据的图表,其中横轴表示时间,纵轴表示数据值。
“日历”是一种记录日期的工具,通常按照年、月、周等时间单位进行划分。
“万年历”是一种记录未来多年日期的工具,可以查询任意一天的日期和星期几等信息。
这些是与时间相关的符号和概念的一些例子,它们在日常生活、科学研究和工程领域中都有广泛的应用。
时间序列的表示与分类算法综述

时间序列的表示与分类算法综述
原继东;王志海
【期刊名称】《计算机科学》
【年(卷),期】2015(042)003
【摘要】时间序列是按照时间排序的一组随机变量,它通常是在相等间隔的时间段内,依照给定的采样率,对某种潜在过程进行观测的结果.时间序列数据广泛地存在于商业、农业、气象、生物科学以及生态学等诸多领域,从时间序列中发现有用的知识已成为数据挖掘领域的研究热点之一.在时间序列表示方面,主要介绍了非数据适应性表示方法、数据适应性表示方法和基于模型的表示方法;针对时间序列的分类方法,着重介绍了基于时域相似性、形状相似性和变化相似性的分类算法,并对未来的研究方向进行了进一步的展望.
【总页数】7页(P1-7)
【作者】原继东;王志海
【作者单位】北京交通大学计算机与信息技术学院北京100044;交通数据分析与挖掘北京市重点实验室北京100044
【正文语种】中文
【中图分类】TP391.4
【相关文献】
1.时间序列数据挖掘中特征表示与相似性度量研究综述 [J], 李海林;郭崇慧
2.基于符号表示的时间序列分类综述 [J], 武天鸿; 翁小清; 单中南
3.基于LDA符号表示的时间序列分类算法 [J], 武天鸿; 翁小清; 单中南
4.时间序列特征表示与相似性度量研究综述 [J], 孙冬璞;曲丽
5.基于OLPP符号表示的时间序列分类算法 [J], 武天鸿;翁小清
因版权原因,仅展示原文概要,查看原文内容请购买。
时间序列数据分类、检索方法及应用研究

时间序列数据分类、检索方法及应用研究时间序列是一种按照时间顺序排列的数据集合,它在许多领域中起着重要的作用,如金融、天气预报、股票市场等。
时间序列数据分类和检索是对时间序列进行分析和应用的基础和关键。
本文将围绕时间序列数据分类、检索方法及应用进行研究和讨论。
一、时间序列数据分类方法1. 基于统计学的方法基于统计学的时间序列数据分类方法主要通过对时间序列数据的统计特性进行分析和建模来进行分类。
常见的统计特性包括均值、方差、自相关、周期性等。
通过对这些特性的分析和比较,可以将时间序列数据分为不同的类别。
2. 基于机器学习的方法机器学习是一种利用算法模型对数据进行自动化处理和分析的方法。
在时间序列数据分类中,常用的机器学习方法有支持向量机(SVM)、决策树、神经网络等。
这些方法可以通过训练样本学习时间序列数据之间的关系和规律,从而实现对新的时间序列数据进行分类。
3. 基于深度学习的方法深度学习是机器学习的一种延伸,它利用多层神经网络来模拟和分析复杂的非线性关系。
在时间序列数据分类中,深度学习方法可以从原始数据中自动提取特征,并建立起一个适合时间序列数据的深度学习模型。
常用的深度学习模型有卷积神经网络(CNN)、循环神经网络(RNN)等。
二、时间序列数据检索方法1. 基于相似度匹配的方法基于相似度匹配的时间序列数据检索方法主要是通过计算两个时间序列数据之间的相似度来进行数据检索。
常见的相似度计算方法有欧氏距离、动态时间规整(DTW)等。
这些方法可以衡量两个时间序列数据之间的相似程度,从而实现数据的检索和匹配。
2. 基于特征提取的方法基于特征提取的时间序列数据检索方法主要是通过从时间序列数据中提取关键特征来进行数据检索。
常见的特征提取方法有小波变换、奇异值分解等。
这些方法可以将时间序列数据转换为具有更好区分度和可比性的特征,并用于数据的检索和匹配。
3. 基于索引结构的方法基于索引结构的时间序列数据检索方法主要是通过建立高效的索引结构来实现数据的快速检索。
第九章 时间序列分析

3.由总量指标时间序列计算序时平均数 由时期序列计算序时平均数
a1 a 2 a3 a n a a n n
例:季度(或年)平均销售量的计算
由时点序列计算序时平均数 由连续时点序列计算平均发展水平
a a
n
或
af a f
例:某企业2012年1月份在册职工人数变动资料如表4-2所示,试计算1月份 平均在册职工人数。 表4-2 某企业2012年1月份职工在册人数情况 单位:人
a (35 37 38 42 45 54) / 6 c 0.0998 万元 人 b (395 / 2 405 405 415 425 440 455 / 2) /(7 1)
(三)增长量 1.概念
增长量是报告期水平与基期水平之差,也称为增减量或
由间断时点序列计算平均发展水平
第一种:由间隔相等的间断时点序列计算平均发展水平。 第一步,用期初和期末时点值求其平均值作为该时期的代表值,即
a n 1 a n a1 a 2 a 2 a3 a3 a 4 , , ,, 2 2 2 2
第二步:将这些代表值加以简单平均,即
a n1 a n a1 an a1 a 2 a 2 a3 a3 a 4 a 2 a3 2 2 2 2 a 2 2 n 1 n 1
解:表中职工人数时间序列属于间隔相等的间断时点序列,其计算 方法如下: 521 485 544 571 599 604 717 640 603 2 2 4781 597 .63(万人) a 9 1 8
第二种:由间隔不等的间隔时点序列计算平均发展水平
a 2 a3 a n 1 a n a1 a 2 f1 f2 f n 1 2 2 2 a f 式中f代表时间间隔
《2024年时间序列数据分类、检索方法及应用研究》范文
《时间序列数据分类、检索方法及应用研究》篇一一、引言时间序列数据是指以时间先后顺序记录的连续数据集合,在金融、气象、交通、医疗等众多领域具有广泛应用。
如何对时间序列数据进行有效的分类、检索成为当前研究的热点问题。
本文将重点研究时间序列数据的分类和检索方法,以及在具体领域的应用研究。
二、时间序列数据分类与检索方法1. 时间序列数据分类时间序列数据的分类主要是基于其特性进行的。
目前常见的分类方法包括基于聚类分析、基于模型分析和基于模式识别等方法。
其中,聚类分析是一种无监督学习方法,通过计算数据间的相似性,将具有相似特性的数据归为一类。
模型分析则是通过建立数学模型,对时间序列数据进行预测和分类。
模式识别则主要是通过提取数据的特征,利用机器学习算法进行分类。
2. 时间序列数据检索时间序列数据的检索主要是通过建立索引和查询机制实现的。
常见的检索方法包括基于关键字的检索和基于内容的检索。
基于关键字的检索主要是通过匹配数据中的关键字进行检索。
而基于内容的检索则是通过提取数据的特征,如时间、数值等,建立索引,然后根据用户的查询条件进行检索。
三、时间序列数据应用研究1. 金融领域应用在金融领域,时间序列数据主要用于股票价格、汇率、利率等数据的分析和预测。
通过采用聚类分析、模型分析等方法,可以对金融市场进行风险评估和投资决策。
同时,基于内容的检索方法可以快速找到历史数据中的相似模式,为金融决策提供有力支持。
2. 气象领域应用在气象领域,时间序列数据主要用于气象预报和气候变化研究。
通过建立气象模型,利用历史气象数据进行训练和预测,为天气预报提供支持。
同时,通过对历史气象数据的检索和分析,可以研究气候变化规律,为应对气候变化提供科学依据。
3. 医疗领域应用在医疗领域,时间序列数据主要用于病历管理和疾病预测。
通过对患者的生理指标、病史等数据进行分类和检索,可以帮助医生更好地了解患者的病情,制定合适的治疗方案。
同时,通过对大量医疗数据的分析和挖掘,可以发现疾病的发生规律和影响因素,为预防和治疗提供有力支持。
基于符号图的高维时间序列检索
针对高维数据库 索引的建立 问题 ,诸多学者提出 了各种 不 同的方法。R t e . e…,R .e[和 R 一e 等方法适用于 某 r +t e 1 }t e r 2 r
些应 用技术领 域 ,如计算机辅助设计( A ) C D 、地理信息系统
为与地面垂直 向上的方向 ;z轴与 轴、y轴垂直并遵循右
手 系 定律 。
( I) G S。这类方法支持信 息插入、删除、精确 匹配 以及空间检 索等 。但随着维度的增大( 维度大于 1 0的情况)J ,该方法的
效 率 逐 渐 降 低 。 X t e j T - e_, M— e e , Vt e J r r 6 t e J以 及 r P rmi—eh iu s] 方法适用于多媒体数据库。这类方法 ya dT c nq ei等 s 支持数据 的插入、删除、精确匹配、相似检索和信息识 别等,
第3 6卷 第 1期
VL o 36
・
计
算
机
工
程
21 0 0年 1月
Ja nua y 0 0 r 2 1
No1 .
Co pu e gi e i m t rEn ne rng
软件 技术 与数 据库 ・
文章编号:10 - 221)—o5 文献标识码:A 00 3 800 1_ 8 3 — 4 ( 0 0—
[ ywo d ] idx smb l ain hg -i nin letoy Ke r s n e ;y oi t ; ihdme s a; nrp z o o
1 概述
近年来 ,随着传感器技术 的发展 ,高维 时间序列数据在 越来越多的领 域得到应 用,如医学诊 断、气象学、航空航天、 计算机仿真。对于大容量 的高 维时间序列数据库 ,为使检索 过程的时间复杂 度低于 O 且在用户可接受 的时 间内返回检 () 索结果 , 如何建立高效的索 引结构 , 是一个亟待解 决的问题 。
数据分析中的时间序列方法综述
数据分析中的时间序列方法综述时间序列分析是在数据分析领域中一种常用的方法。
它用于处理按照时间顺序排列的数据,从中提取出随时间变化的模式、趋势和周期性等信息。
时间序列方法被广泛应用于许多领域,包括经济学、金融学、环境科学、医学等。
本文将对时间序列方法的基本概念、常见模型以及应用进行综述。
一、基本概念时间序列是指按照固定时间间隔收集的一系列数据点的集合。
在时间序列中,时间是一个重要的因素,我们需要对时间序列进行观察、分析和预测。
时间序列的特点包括趋势、季节性、循环和随机性等。
二、常见时间序列模型1. 移动平均模型(MA)移动平均模型是一种常见的时间序列模型,它基于时间序列中的均值和随机扰动项。
该模型假设观测值是过去一段时间内残差的均值与当前扰动项的加权和。
通过调整移动平均的窗口大小,我们可以捕捉到时间序列中的趋势和周期性。
2. 自回归模型(AR)自回归模型是另一种常见的时间序列模型,它基于时间序列的自相关性。
该模型假设当前观测值与过去一段时间内的观测值存在一种线性关系。
自回归模型可以通过观测值本身和过去时间点上的观测值来预测未来的观测值。
3. 自回归移动平均模型(ARMA)自回归移动平均模型是将自回归模型和移动平均模型相结合的一种时间序列模型。
该模型同时考虑了时间序列的自相关性和随机扰动项的影响,可以更准确地描述时间序列的变化。
4. 季节性模型许多时间序列数据都具有明显的季节性变化。
季节性模型用于捕捉时间序列中的季节性特征。
常见的季节性模型包括季节性自回归模型(SAR)和季节性自回归移动平均模型(SARMA)等。
三、时间序列方法的应用时间序列方法在实际的数据分析中有广泛的应用。
其中一些重要的应用包括:1. 经济学和金融学:时间序列方法可以用于预测经济指标和股票价格的变化,以及分析宏观经济和金融市场的周期性。
2. 环境科学:时间序列方法可以用于分析气候变化、污染物浓度以及自然灾害的频率和强度等。
3. 医学:时间序列方法可以用于分析疾病传播的趋势、疫情预测以及药物疗效的评估等。
基于符号时间序列直方图的高频金融波动预测
基于符号时间序列直方图的高频金融波动预测徐梅;王雨蒙【期刊名称】《系统管理学报》【年(卷),期】2014(23)3【摘要】将符号时间序列分析方法与K-NN(K-Nearest Neighbors)算法相结合,提出了一种基于符号时间序列直方图的高频金融波动整体分布的预测方法。
首先将时间序列符号化得到符号时间序列,并以符号序列直方图表示符号序列的分布,引入符号直方图时间序列的概念,采用K-NN算法得到下一个周期符号序列直方图的预测。
在K-NN算法中,针对符号序列直方图的特点,提出以欧几里得范数,χ2统计量和相对熵作为选择邻居时的符号直方图序列相似度的度量方法,利用系统自身的几何特性确定符号直方图序列的嵌入维数。
以上证综指5分时的高频数据检验了本文方法的预测能力。
结果表明,本文方法预测所得结果整体误差均在可以接受的范围内,预测所得的分布与真实分布均值相同,但是方差较小。
【总页数】8页(P331-338)【关键词】符号时间序列;直方图;金融波动;K—Nearest;Neighbors;高频;预测【作者】徐梅;王雨蒙【作者单位】天津大学管理与经济学部【正文语种】中文【中图分类】F224【相关文献】1.基于符号时间序列法的风电功率波动分析与预测 [J], 南晓强;李群湛;邱大强2.高频尺度下基于符号时间序列的金属期货价格波动预测及实证 [J], 吴丹; 黄健柏; 钟美瑞3.高频波动率预测模型在期权波动率套利中的比较分析——基于50ETF金融高频数据 [J], 吴鸿超;刘美尧;包悦妍4.高频尺度下基于符号时间序列的金属期货价格波动预测及实证 [J], 吴丹;黄健柏;钟美瑞5.高频金融时间序列预测——基于自适应过滤法改进的ARIMA模型 [J], 宋玉平;孙严坤因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于符号表示的时间序列分类综述武天鸿; 翁小清; 单中南【期刊名称】《《河北省科学院学报》》【年(卷),期】2019(036)003【总页数】10页(P11-20)【关键词】时间序列; 符号表示方法; 符号序列分类【作者】武天鸿; 翁小清; 单中南【作者单位】河北经贸大学信息技术学院河北石家庄 050061【正文语种】中文【中图分类】TP391.40 引言时间序列通常是指按时间顺序排列而成的一组数据,任何有序的实值型数据都可以当作时间序列处理[1]。
时间序列分类是数据挖掘的基本任务之一,是指根据训练集中对象所构建的分类模型判别被分类对象所属的类别[2]。
时间序列分类已经被广泛应用于模式识别、医疗诊断、工业控制、异常检测等生活的各个方面,时间序列数据维度高,分类难度大。
时间序列符号表示是指在保持和反映时间序列数据基本特征的前提下,将高维多噪声的连续实值型数据表示成低维直观的符号序列数据。
时间序列符号表示方法不仅具有简单、高效和离散化的优点,还可以有效消除噪声,使时间序列具有较强的可读性,允许研究人员利用来自文本处理、信息检索和生物信息学等领域的算法。
基于符号表示的时间序列分类方法具有更高的分类性能和效率。
本文从基于趋势、基于聚类或进化计算、基于文本、基于频率域等方面,对符号时间序列分类的研究进行了比较归类,并简要介绍了其在实际中的应用。
1 基于趋势的符号表示方法Lin等 [3~4]提出的符号聚合近似表示方法SAX (Symbolic Aggregate approXimation)是一种经典的时间序列符号表示方法。
SAX首先利用PAA方法将规范化后的时间序列(均值为0,标准差为1)分段求均值,且假设PAA值服从高斯分布,根据高斯曲线下的分段点将PAA值离散映射到相应符号空间。
SAX方法虽然简单高效,能够较好地体现时间序列的整体趋势,但是仅用分段的均值并不能很好的描述时间序列的局部特征,无法区分具有相同均值不同趋势的时间序列,完全不同的时间序列可能会得到相似的符号表示,且该方法只适于服从高斯分布的时序数据。
SAX的MINDIST距离度量认为字母表中相邻两个字母间的距离是0,这种处理方式会造成不同字符串之间的距离误判为0,且下界距离的紧性较差,容易产生误报。
针对SAX存在的缺陷,很多学者对其进行了改进。
在距离度量方面,Fuad等[5]对查找表进行改进,考虑了相邻字母之间的距离,提出了UMD距离(The Updated Minimum Distance),在下界紧性(Tightness of Lower Bound)和分类性能方面,UMD都好于SAX的MINDIST距离。
Bai等[6]提出的rSAX (Random Shifting based SAX)表示方法,通过随机小距离移动几次分段点,得到一组合适的分段点,使得彼此接近的点以更高的概率映射到相同符号,与SAX 相比,rSAX具有更好的下界紧性。
在局部特征描述方面,Lkhagva等[7]使用每个分段的均值、最大值和最小值,提出了ESAX(Extended SAX),分类效果好于SAX,但字符串长度增加为SAX的三倍,维数约简性能稍有下降。
Malinowski 等[8]提出的符号表示方法1d-SAX,将每个分段(segment)的线性回归(主要是均值和斜率)量化二进制字符串,可以近似表示每个分段的趋势,分类效果好于仅用均值描述的SAX。
针对长时间序列,Yin等[9]提出的趋势特征符号表示方法TFSA(Trend Feature Symbolic Approximation),首先使用全局关键点对长时间序列进行切割,得到若干个分段,对每个分段使用基于滑动窗口的自适应切割算法继续切割;然后依据切割后区间的趋势特征(上升、下降和水平趋势)对时间序列符号化。
TFSA方法注重保留原始时间序列大部分的趋势特征和模式,适用于知识发现和关联规则的挖掘。
Hatwar等[10]提出的符号表示方法SPTA(Symbolic Piecewise Trend Approximation),先将时间序列转化为两个相邻数据点的比率序列,ri =(xi-xi-1)/(xi-1),xi表示时间序列在时刻i的值,正负号表示局部趋势的变化方向,比率值表示局部趋势变化的幅度;然后,根据趋势将比值序列划分成长度不同的段并用相应符号表示。
SPTA方法一定程度上保留原始时间序列的整体趋势变化信息,但是对于变化特征不明显的时间序列具有一定的局限,且符号表示后的序列长度不一定相同,分类存在困难。
当分段比较短时,分段的趋势近似于线性,分段的起点和终点就可以近似确定它的趋势。
Sun等[11]使用分段的起点、终点与平均值的偏差定义趋势距离,并与Lin 等[3~4]提出的SAX距离集成(称为SAX-TD),对于均值与起点和终点相同的分段的局部趋势描述具有局限性,但是与原SAX距离相比,SAX-TD具有更紧的欧式距离的下界,显著地提高了分类的准确率。
Zan等[12]在SAX基础上添加了每个分段的标准差,用欧式距离度量每个分段标准差之间的差别,并与原SAX距离集成(称为SAX-SD),SAX-SD显著地提高了分类的准确率,但是该方法没有对分段的标准差进行符号化,是一种符号与数值混合的表示方法。
李海林等[13]将描述局部形态特征的一阶导数序列与SAX相结合,使用DTW度量一阶导数序列之间的距离,并与SAX距离集成(称为NSM),然而,经Wilcoxon秩检验,NSM的分类性能与Sun等[11]提出的SAX-TD差别不显著。
NSM没有对一阶导数序列符号化,也是一种符号与数值混合的表示方法。
Zhang等[14~15]提出FAD方法同样基于导数序列,与NSM方法不同之处在于,FAD将时间序列每个值前后相邻的两个数据之间差值的二分之一作为导数序列,使用阈值将导数序列符号化,然而,经Wilcoxon秩检验,FAD的分类性能(F值)与SAX差别不显著。
上述方法基本上都是采用最近邻算法对符号序列进行分类,Sharabiani等[16]先使用SAX将时间序列转化为符号序列,在符号序列上使用Bayesian规则和概率链规则建立模型BCM,然后用BCM对待测符号序列进行分类,然而,BCM的分类准确率与原始时间序列使用欧式距离的1NN分类的准确率差别不显著。
基于时间序列趋势(或形态特征)的符号表示方法的研究,已经取得了较好进展。
SAX-TD、SAX-SD以及NSM的分类性能显著地好于SAX,然而,这三种方法都是符号与数值混合的表示方法,无法使用文本处理、信息检索、生物信息学等领域的算法;SAX以及其改进方法假定标准化后的时间序列服从高斯分布,这个假定使问题过于简单化,在分类过程中会产生较大错误。
2 基于聚类或进化计算的符号化方法Pham等[17]将SAX与kmeans聚类算法相结合,提出了一种自适应的时间序列表示法aSAX(adaptive SAX),该方法能够找到自适应的符号分段点(breakpoints),不管数据集是否具有Gaussian分布性质,aSAX在下界度量的紧性(tightness)、剪枝能力(pruning power)和分类性能都好于传统的SAX。
Barnaghi等[18]提出的符号表示方法EN-SAX,与ESAX不同,EN-SAX将分段最大值、最小值和均值组成数值向量,用余弦相似性方法度量数值向量之间的相似性,使用K-means聚类确定符号区域,虽然EN-SAX能够保留金融时间序列数据的重要模式,但是对时间序列进行符号表示时,需要计算各分段与每个符号的距离,计算复杂度高,且经Wilcoxon秩检验,EN-SAX的分类性能与SAX差别不显著。
Passos等[19]提出基于K-means聚类的三种符号表示方法R-Kmeans、SAX-Kmeans、ESAX-Kmeans,这三种方法的主要思想是在利用PAA对时间序列分段求均值之前使用K-means聚类算法对时间序列聚类,使得每个类的时间序列在符号表示过程中具有自适应的分段点,分类性能与SAX差别不显著。
Sevcech等[20]使用增量聚类算法,先对时间序列的子序列进行聚类,如果新的序列与其它类足够远,就建立一个新的类,以类标号作为符号可将时间序列转换为符号序列,该方法对流数据(stream data)具有适用性,但是处理长时间序列时会由聚类产生无意义的簇(cluster),字母表大小不可控,且符号长度、聚类半径等参数选择困难,在实际应用中具有局限性。
SAX只使用了分段的均值,没有保留时间序列的局部斜率信息,也没有考虑符号的时态顺序。
Zalewski等[21]提出了一种能够保留时间序列特征斜率的符号表示分类方法EFVD(Equal Fixed-Values Discretization),该方法先使用PAA计算每个分段的均值,然后对相邻分段均值的一阶差分进行K均值聚类得到k个类,每个类中心与一个符号相关联,k值表示字母个数,根据聚类中心计算的斜率称为特征斜率;在参考文献[22]中,作者计算一阶差分序列滑动窗口为3的移动平均值,将移动平均值划分为k组,每组的质心与一个符号相关联,采用了三种离散方法:等固定值(EFVD)、等宽(EWD)、等频(EFD)计算质心,在20个数据集上实验结果表明,EFVD、EWD、EFD的1近邻分类性能显著地好于SAX和ESAX;Zalewski等[23]先使用EFVD方法对时间序列符号化,然后用符号出现的频率或符号转换出现的频率表示时态顺序,然而,其分类性能与SAX、EFVD差别不显著。
Fuad[24~25]提出了两种基于进化算法寻找SAX最佳分段点的符号表示方法GASAX(Genetic Algorithms-Based SAX)和DESAX(Differential Evolution-Based SAX)。
在GASAX中,每个染色体代表一种解向量,对每个染色体变量有如公式(1)的限制条件:fα<β⟹lα<lβ ∀α,β∈∑(1)式中是所用字母表的集合,lβ和lα是相邻符号区间分段点的位置。
但考虑到不同的交叉和突变过程,分段点应该在染色体可能经历的所有可能的过程中保持稳定,因此上述条件应修改成为公式(2):fα<β⟹maxlα<minlβ ∀α,β∈∑(2)条件(2)限制字母表中前一个字母所表示的最大值不会超过后一个字母所表示的最小值,相邻字母之间的分段点是在算法运行中自动确定的,使用该分段点对数据进行符号表示。
基于差分进化算法的DESAX确定分段点的机制与GASAX基本相同,但是DESAX相对于GASAX的逼近效果更加显著。
这两种方法都不用假设数据分布,相比SAX适用范围广、分类精确度高但是计算复杂度也相对较高。