数据挖掘中用于分类的时序数据特征提取方法
数据挖掘在社交网络中的应用分析

数据挖掘在社交网络中的应用分析社交网络已经成为了人们日常生活中不可或缺的一部分,越来越多的人通过社交网络与他人进行沟通交流,分享生活中的点滴。
这些大量的数据给数据分析带来了巨大的挑战和机遇。
数据挖掘技术在社交网络中的应用分析已成为研究热点,可以为社交网络的发展和应用提供有力的帮助。
一、社交网络中的数据挖掘技术社交网络中的数据主要包括用户的个人信息、发布的文本信息、图片和视频等。
数据挖掘在社交网络中的应用需要依赖于大数据技术,包括数据存储、数据预处理、数据分析和数据可视化等。
其中,数据挖掘技术主要包括关联规则挖掘、分类算法、聚类分析、时序分析、异常检测等。
1.关联规则挖掘关联规则是在一组笛卡尔积数据中发现物品间的关联关系,可以用于解释为什么某个事件会发生或某个人会购买某种商品等。
在社交网络中,关联规则挖掘常用于识别某些行为或特征之间的相互依赖性。
例如,挖掘用户的好友之间的关系、用户经常访问的网站等等。
2.分类算法分类算法是将数据集划分为不同类别的方法。
在社交网络中,分类算法应用很广泛,可以应用于用户的性别、年龄、职业、教育程度等多个方面的分类。
例如:用户的爱好细分。
3. 聚类分析聚类分析是将数据按照相似度划分到不同的类别中。
在社交网络中,聚类分析应用广泛,可以将用户分成不同的类别,如活跃用户、沉默用户、高价值用户等等。
还可以将用户的兴趣爱好等信息进行聚类分析,以便于为用户推荐相应的内容或用户。
4. 时序分析时序分析用于监测随时间变化的模式。
在社交网络中,时序分析主要用于研究用户的行为变化和趋势,如某个时间段内用户的访问量和活跃度等等。
5. 异常检测异常检测是识别与一般模型偏离的数据的过程。
在社交网络中,异常检测可以用于识别欺诈用户、识别不适当或有害的内容等。
二、社交网络中的数据挖掘应用案例社交网络中的数据挖掘应用案例主要包括用户行为分析、事件追踪、个性化推荐等等。
下面以微博为例,详细阐述在社交网络中数据挖掘技术的应用。
基于循环神经网络与时序数据挖掘的交通流量预测研究

基于循环神经网络与时序数据挖掘的交通流量预测研究交通流量预测是城市交通规划和管理中的关键问题之一。
准确预测交通流量可以帮助交通部门优化路网规划、交通信号控制以及旅行者信息提供等操作,最终提高城市交通运行效率和减少交通拥堵。
随着循环神经网络(Recurrent Neural Network, RNN)技术和时序数据挖掘方法的发展,基于RNN和时序数据挖掘的交通流量预测研究被广泛应用。
循环神经网络是一类特殊的神经网络结构,适用于处理序列数据、时间序列等具有时间依赖性的问题。
与传统的前馈神经网络(Feedforward Neural Network)相比,RNN的隐状态可以通过一个循环的连接实现信息在时序上的传递,从而对前序信息进行记忆和利用。
这使得RNN成为处理交通流量预测问题的强有力工具。
在交通流量预测中,时序数据挖掘扮演着至关重要的角色,其可以从历史交通流量数据中识别出重要的模式和趋势,从而为预测模型提供准确的输入。
常见的时序数据挖掘方法包括时间序列分析、周期性分析、自回归模型、移动平均模型等。
这些方法可以帮助我们理解交通流量数据中的季节性、周期性和趋势性,并提取出有效的特征用于交通流量预测。
基于循环神经网络和时序数据挖掘的交通流量预测方法可以分为两个主要步骤:特征提取和流量预测。
首先,通过时序数据挖掘方法,我们可以从历史交通流量数据中提取出有意义的特征。
例如,我们可以提取每天的交通流量变化模式、周末与工作日的流量差异、季节性和节假日对流量的影响等。
这些特征可以用于后续的流量预测模型。
针对特征提取之后的交通流量预测问题,循环神经网络被广泛应用。
基于RNN的交通流量预测模型能够利用历史交通数据中的时序信息和交通流量的动态特性进行预测。
这种方法能够捕获与时间相关的特征,同时还能够考虑到交通流量之间的相互影响。
常见的基于RNN的交通流量预测模型包括基本的循环神经网络(Simple RNN)、长短期记忆网络(Long Short-Term Memory, LSTM)和门控循环单元(Gated Recurrent Unit, GRU)等。
社会科学研究中的时间时序和时机

工具实现
为了支持UML时序图到UPPAAL时间自动机模型的转换,我们开发了一种转换 工具,它包括以下模块:
1、用户界面模块
用户界面允许用户通过图形界面输入UML时序图模型和UPPAAL时间自动机模 型的相关信息。用户界面包括输入表单和图形化预览区域,以方便用户输入和查 看转换结果。
2、模型解析模块
长期研究则具有较长历史周期的现象和问题,例如社会结构变迁、经济发展 趋势等。这类研究需要对数据进行长期跟踪和分析,以揭示现象的演变规律和发 展趋势。
在选择研究时机时,研究者需要考虑以下问题:
1、研究问题的性质和特点:不同的研究问题具有不同的生命周期和发展阶 段,需要选择合适的研究时机介入。
2、数据可得性和质量:选择合适的研究时机可以保证数据的质量和可得性, 避免数据缺失或失真。
感谢观看
引言
时间序列数据广泛存在于金融、交通、气候等领域,具有明显的时间关联性 和动态性。关联规则挖掘是一种有效的数据分析方法,可以用于揭示时间序列数 据中隐藏的关联和规则。时间序列时序关联规则挖掘结合了时间序列分析和关联 规则挖掘,旨在挖掘时间序列数据中同时满足一定支持度和置信度的规则,为决 策提供重要依据。然而,在实际应用中,时间序列时序关联规则挖掘面临着诸多 问题和挑战。
模型解析模块负责解析UML时序图和UPPAAL时间自动机模型的描述信息。该 模块通过分析用户输入的信息,提取出所需的模型元素、消息映射、状态转换和 时间约束等信息。
3、转换模块
转换模块是工具的核心部分,它负责将UML时序图模型转换为UPPAAL时间自 动机模型。该模块根据解析出的模型元素、消息映射、状态转换和时间约束等信 息,生成相应的UPPAAL时间自动机代码。
然而,现有的研究在处理具有复杂模式的时间序列数据时仍存在不足。首先, 许多算法在处理具有非线性关系的时间序列数据时效果不佳。其次,如何有效处 理具有噪声和异常值的时间序列数据也是一个亟待解决的问题。最后,如何将时 序关联规则挖掘技术与实际应用场景相结合,发挥其最大价值,仍需进一步探讨。
面向TLE数据的多变量时序数据分类算法研究

分类号TP391 学号******** U D C密级公开工学硕士学位论文面向TLE数据的多变量时序数据分类算法研究硕士生姓名吴俊锋学科专业管理科学与工程研究方向数据挖掘与智能决策指导教师姚莉教授国防科学技术大学研究生院二〇一六年十一月Research on classification algorithm of multivariate time series data based on TLEdatasetCandidate:Wu JunfengAdvisor:Prof. Yao LiA dissertationSubmitted in partial fulfillment of the requirements for the degree of Master of Engineeringin Management Science and Engineering Graduate School of National University of DefenseTechnologyChangsha,Hunan,P.R.ChinaOctober,2016目录摘要 (i)ABSTRACT (ii)第一章绪论 (1)1.1 研究背景及意义 (1)1.1.1 研究背景与问题 (1)1.1.2 研究意义 (4)1.2 国内外研究现状 (5)1.2.1 空间目标分类识别 (5)1.2.2 TLE数据集的相关研究 (6)1.2.3 多变量时序分类 (7)1.3 论文研究内容 (11)1.4 论文组织结构 (12)第二章相关概念和研究基础 (13)2.1 时间序列 (13)2.2 多变量时序数据基础 (15)2.2.1 多变量时序距离度量 (16)2.2.2 多变量时序特征表示方法 (17)2.2.3 多变量时序特征提取方法 (18)2.3 构建空间目标数据仓库 (19)2.3.1 TLE数据集的主要特性 (19)2.3.2 数据仓库的设计与实现 (20)2.4 空间目标数据预处理 (23)2.4.1 空间目标实验数据的筛选 (23)2.4.2 TLE数据的预处理 (23)2.5 本章小结 (24)第三章基于变化信息扩展的时序分类算法 (26)3.1 变化信息的特征提取 (26)3.2 VAE-TSC算法 (27)3.2.1 使用VAE方法扩展时间序列 (28)第I页3.2.3 CfsSubsetEval法降维处理 (32)3.2.4 基于特征矢量的分类 (34)3.3 实验分析 (35)3.3.1 单变量时序数据集 (36)3.3.2 多变量时序数据集 (38)3.3.3 TLE数据集 (41)3.4 本章小结 (42)第四章基于变化信息与局部信息扩展的时序分类算法 (43)4.1 时序数据的局部特征提取方法 (43)4.2 基于MM法的子序列提取 (44)4.3 VAEMM-TSC算法 (46)4.4 实验分析 (50)4.4.1 单变量时间序列 (50)4.4.2 多变量时间序列 (52)4.4.3 TLE数据集 (53)4.5 本章小结 (54)第五章动态特征与静态特征结合的空间目标分类算法 (55)5.1 静态特征与动态特征相结合的SDC算法 (55)5.2 实验使用的评价指标 (58)5.3 实验分析 (59)5.3.1 SDC算法、ST算法和VAEMM-TSC算法的对比实验 (60)5.3.2 SDC算法与ST算法在不同参数RF方法的对比实验 (60)5.3.3 SDC算法与ST算法在不同评价指标下的对比实验 (61)5.3.4 SDC算法结合更多静态特征的实验 (62)5.4 本章小结 (63)第六章总结与展望 (64)致谢 (66)参考文献 (67)作者在学期间取得的学术成果 (70)第II页表目录表2. 1处理前的TLE数据 (24)表2. 2处理后的TLE数据 (24)表3. 1统计量及其符号表示 (30)表3. 2单变量时序数据集的基本信息 (36)表3. 3 ODB-TSC与VAE-TSC算法在单变量数据集上的对比 (37)表3. 4 VAE-TSC算法使用不同分类算法时在单变量数据集的准确率 (37)表3. 5 VAE-TSC-RF算法与其它算法在单变量时序数据集的分类准确率比较 (38)表3. 6多变量时序数据集基本信息 (39)表3. 7 ODB-TSC与VAE-TSC算法在多变量数据集上的对比 (40)表3. 8 VAE-TSC算法使用不同分类算法时在多变量数据集的准确率 (40)表3. 9 VAE-TSC-SVM算法与各算法在多变量时序数据集的分类准确率 (41)表3. 10 VAE-TSC算法与ODB-TSC算法在TLE数据集上的对比 (41)表4. 1 VAE-TSC算法与VAEMM-TSC算法在单变量数据集上的对比 (50)表4. 2 VAEMM-TSC算法使用不同分类算法时在单变量数据集的准确率 (51)表4. 3 VAEMM-TSC-RF算法与各算法在单变量时序数据集的分类准确率. 51表4. 4 VAE-TSC算法与VAEMM-TSC算法在多变量数据集上的对比 (52)表4. 5 VAEMM-TSC算法使用不同分类算法时在单变量数据集的准确率 (53)表4. 6 VAEMM-TSC-NB算法与各算法在多变量时序数据集的分类准确率53表4. 7 VAE-TSC算法与VAEMM-TSC算法在TLE数据集上的对比 (53)表5. 1 三类算法准确率的对比结果 (60)第V页图目录图1. 1太空资源面临的窘境 (2)图2. 1典型的时间序列 (13)图2. 2 TLE数据的格式[1] (20)图2. 3空间目标数据仓库的体系结构 (21)图2. 4事实表 (22)图2. 5 卫星维度表 (22)图3. 1 VAE-TSC算法的计算过程 (28)图3. 2多变量时序数据的扩展 (29)图3. 3偏度等于0的无偏分布 (31)图3. 4偏度大于0的正偏态 (31)图3. 5偏度小于0的负偏态 (32)图4. 1 MM法选取子序列 (45)图4. 2 VAEMM-TSC算法的计算过程 (47)图4. 3扩展后的多变量时间序列表示 (48)图5. 1 SDC分类算法的计算过程 (56)图5. 2 ROC曲线示例 (59)图5. 3 SDC算法与ST算法随着树的数目变化的准确率 (61)图5. 4 ST算法的各项性能指标 (61)图5. 5 SDC算法的各项性能指标 (61)图5. 6 ST算法的混淆矩阵 (62)图5. 7 SDC算法的混淆矩阵 (62)图5. 8不同树的数目下的分类准确率 (63)第V页摘要航天器技术是当今世界高科技群体中对现代社会最有影响的科学技术之一。
数据挖掘

基于聚类分析的孤立点挖掘方法1、数据挖掘数据挖掘是应用一系列技术从大型数据库或者数据仓库的数据中提取人感兴趣的,隐含的、事先未知而潜在有用的,提取的知识表示为概念、规则、模式等形式的信息和知识。
简言之,据挖掘就是从大量的、不完全的、有噪声的、模糊的、随的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息知识的过程。
因此,数据挖掘事实上是知识发现的一个特定步骤,它是一种智能化的、综合应用各种统计分析、数据库、智能语言来分析庞大数据资料的技术,或者说是对大容量数据及数据间系进行考察和建模的方法集。
数据挖掘的目标是将大容量数据转化为有用知识和信息。
它的目的,就是拓展更加有效的利用已有数据,拓展应用。
数据开采技术的目标是从大量数据中,发现隐藏于其后的规律或数据间的关系,从而服务于决策。
因此,数据挖掘一般有以下5类主要任务:( 1 ) 数据总结:数据总结目的是对数据进行浓缩,给出它的总体综合描述。
过对数据的总结,数据挖掘能够将数据库中的有关数据从较低的个体层次抽总结到较高的总体层次上,从而实现对原始基本数据的总体把握。
( 2 ) 分类:分类即分析数据的各种属性,并找出数据的属性模型,确定哪些据属于哪些组。
这样我们就可以利用该模型来分析已有数据,并预测新数据属于哪一个组。
( 3 ) 关联分析:数据库中的数据一般都存在着关联关系,也就是说,两个或多个变量的取值之间存在某种规律性,包括关联关系有简单关联和时序关联两。
( 4 ) 聚类:聚类分析是按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合。
( 5 ) 偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。
目前,研究数据挖掘的方法有很多,这些数据挖掘工具采用的主要方法包括传统统计方法,可视化技术,决策树、相关规则、神经元网络、遗传算法等。
下面分类阐述。
( 1 ) 传统统计方法:包括:抽样技术,多元统计分析,统计预测方法等。
基于混合特征提取的流数据概念漂移处理方法

基于混合特征提取的流数据概念漂移处理方法郭虎升;刘艳杰;王文剑【期刊名称】《计算机研究与发展》【年(卷),期】2024(61)6【摘要】大数据时代,越来越多的数据以数据流的形式产生,由于其具有快速、无限、不稳定及动态变化等特性,使得概念漂移成为流数据挖掘中一个重要但困难的问题.目前多数概念漂移处理方法存在信息提取能力有限且未充分考虑流数据的时序特性等问题.针对这些问题,提出一种基于混合特征提取的流数据概念漂移处理方法(concept drift processing method of streaming data based on mixed feature extraction,MFECD).该方法首先采用不同尺度的卷积核对数据进行建模以构建拼接特征,采用门控机制将浅层输入和拼接特征融合,作为不同网络层次输入进行自适应集成,以获得能够兼顾细节信息和语义信息的数据特性.在此基础上,采用注意力机制和相似度计算评估流数据不同时刻的重要性,以增强数据流关键位点的时序特性.实验结果表明,该方法能有效提取流数据中包含的复杂数据特征和时序特征,提高了数据流中概念漂移的处理能力.【总页数】14页(P1497-1510)【作者】郭虎升;刘艳杰;王文剑【作者单位】山西大学计算机与信息技术学院;计算智能与中文信息处理教育部重点实验室(山西大学)【正文语种】中文【中图分类】TP18【相关文献】1.一种基于数据不确定性的概念漂移数据流分类算法2.基于贝叶斯混合集成的概念漂移数据流分类3.一种基于混合集成方法的数据流概念漂移检测方法4.一种基于混合模型的数据流概念漂移检测算法5.数据流概念漂移处理方法研究综述因版权原因,仅展示原文概要,查看原文内容请购买。
工业互联网中的数据挖掘技术教程

工业互联网中的数据挖掘技术教程工业互联网是将传统工业与互联网技术相结合的新兴领域,它的发展对于工业制造领域的提升和创新具有重要意义。
而在工业互联网中,数据挖掘技术被广泛应用,能够帮助企业从海量数据中发现隐藏的知识和规律,并为决策提供支持。
本文将针对工业互联网中的数据挖掘技术进行介绍和讲解。
一、数据挖掘技术概述数据挖掘是从大规模数据集中提取知识和规律的一种技术方法。
在工业领域,通过对大量数据进行分析和挖掘,可以帮助企业发现潜在的商业机会、改善工业过程、提高生产效率等。
数据挖掘技术主要包括以下几个方面的内容:1. 数据预处理:数据预处理是数据挖掘的第一步,它包括数据清洗、数据集成、数据变换和数据规约等过程。
通过数据预处理,可以提高数据的质量,减少噪声和冗余信息,以便更好地进行后续的数据挖掘工作。
2. 特征选择:特征选择是从数据集中选择出与目标变量相关性较高的特征。
在工业互联网中,选择合适的特征可以提高模型的准确性和可解释性,从而更好地支持决策和预测。
3. 数据挖掘算法:数据挖掘算法是数据挖掘的核心部分,它包括分类、聚类、关联规则挖掘、时序模式挖掘等多种算法。
在工业互联网中,需要根据具体的问题选择适合的算法,以便发现潜在的知识和规律。
4. 模型评估和优化:模型评估和优化是数据挖掘的最后一步,它可以评估模型的准确性、鲁棒性和可解释性,并通过调整模型参数来优化模型的性能。
二、工业互联网中的数据挖掘应用1. 预测和优化生产过程:通过对工业互联网中的传感器数据进行分析和挖掘,可以实现对生产过程的预测和优化。
例如,可以通过预测设备故障来避免生产线停机,减少损失;通过优化生产计划来提高生产效率和资源利用率。
2. 质量控制和异常检测:通过对工业互联网中的生产数据进行分析和挖掘,可以实现对产品质量的控制和异常检测。
例如,可以通过分析生产数据中的关键指标和特征来提前发现潜在的质量问题,减少不良品率和客户投诉。
3. 供应链管理和物流优化:通过对工业互联网中的供应链和物流数据进行分析和挖掘,可以实现对供应链管理和物流优化的支持。
基于时序数据的网络异常检测与故障诊断技术研究

基于时序数据的网络异常检测与故障诊断技术研究网络异常检测与故障诊断技术是当今信息技术领域中的重要研究方向之一。
随着网络规模不断扩大和应用场景不断增多,网络的安全性和稳定性成为了关键的问题。
时序数据是网络异常检测和故障诊断中常用的数据类型之一,它能够提供网络状态的时间序列信息,帮助系统有效地发现异常和诊断故障。
第一部分:网络异常检测技术网络异常检测技术旨在识别和定位网络中的异常行为,包括网络攻击、故障和拥塞等。
时序数据在网络异常检测中发挥重要作用,其蕴含着网络状态的演化过程和潜在的异常信号。
常用的网络异常检测技术包括以下几种:1. 基于统计方法的异常检测:统计方法通过比较观察值与预期模型之间的差异来识别异常。
常用的统计方法包括离群点检测、异常统计模型和时间序列分析等。
其中,时间序列分析方法根据历史数据的趋势和周期性来预测未来的数据,从而发现异常点。
2. 基于机器学习的异常检测:机器学习方法通过对训练数据进行学习和建模,来判定新的数据是否异常。
常用的机器学习算法包括支持向量机、随机森林和深度学习等。
这些算法能够自动发现数据中的复杂模式和异常行为。
3. 基于模型的异常检测:模型方法通过建立网络状态的数学模型,并根据模型的拟合程度来判断数据是否异常。
常用的模型方法包括贝叶斯网络、马尔可夫模型和ARIMA模型等。
这些模型能够捕捉网络状态的规律性,并识别与之偏离的异常行为。
第二部分:网络故障诊断技术网络故障诊断技术旨在快速准确地定位和修复网络中的故障,以保障网络的正常运行。
时序数据在网络故障诊断中用于分析网络行为和判断故障原因。
常用的网络故障诊断技术包括以下几种:1. 基于图论的故障诊断:图论方法将网络视为一张图,节点表示网络设备,边表示设备之间的连接。
通过分析图的拓扑结构,探测节点或链路的异常,并推断故障的位置和类型。
2. 基于监控与测量的故障诊断:监控与测量技术通过收集网络中的数据包、流量、延迟等指标来评估网络的性能和诊断故障。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计 算 机 系 统 应 用 http://www.c-s-a.org.cn 2012 年 第21卷 第 10 期 224 专论·综述Special Issue
数据挖掘中适用于分类的时序数据特征提取方法①
林 珠1, 邢 延2 1(广东省计算中心, 广州 510033)
2(广东工业大学 自动化学院, 广州 510006)
摘 要: 特征提取在提高分类的准确性中起着非常关键的作用. 对时序特征提取的方法进行归纳分类, 将有利于对特征提取整体性, 全面性的认识. 回顾现有的时间序列中特征提取的方法, 将其总结为四大类, 它们分别是基于基本统计方法的特征提取、基于模型的特征提取、基于变换的特征提取、基于分形维数的特征提取. 针对每一类的特征提取方法, 进一步研究了它相应的分类方法和它在时间序列数据中的应用邻域. 关键词: 时序数据; 分类; 特征提取
Survey of Feature Extraction Approaches for Time Series Classification LIN Zhu1, XING Yan2 1(Guangdong Computer Center, Guangzhou 510033, China)
2(Guangdong University of Technology, Guangzhou 510006, China)
Abstract: The main contributions of this paper are: 1) The main feature extraction approaches are classified into four categories; 2) The main idea of each category is analyzed, the advantages and disadvantages are pointed out; 3) The guidelines of choosing suitable feature extraction approach is suggested. Key words: time series; classification; feature extraction
1 引言 时序数据(time series data)广泛存在于现实生活中,是指同一种现象在不同时间上的相继观察值排列而成的一组数字序列, 其时间轴上的采样值通常又被称为特征[1]. 时序数据普遍存在于许多重要应用邻域, 比
如DNA序列、金融数据、传感器网络监控数据、移动对像跟踪数据、机器故障检测数据等等. 由于时序数据与时间相关联, 因而其数据量一般都是非常庞大的, 这就对时序数据挖掘技术提出了更高的要求[2]. 在时
序数据挖掘的研究与应用领域, 时序数据分类是重要任务之一[1,2]. 例如, 依据语音信号的波形识别出说话
人的性别和年龄, 依据心电图的时序波形识别出病者所患的病症, 依据地震波的历史数据, 去识别地震的类型, 依据在机器运转过程中进行故障检测和识别故障类型, 甚至在客户关系管理中根据某段时间的客户
购买信息, 识别不同的消费群体等等. 衡量分类技术优劣的核心指标是分类准确率, 而提高分类准确率途径有两种: 一是改进分类器; 二是采用特征提取技术(feature extraction). 特征提取是在分类前对数据时间采样值上进行适量的归约, 以达到减少数据量同时提高分类准确率(底线是不牺牲分类准确率)的目的. 时间序列除了具有的趋势性、季节性、周期性等一般特征之外, 不同的时序数据又存在不同的个别特征. 如金融数据, 普遍具有“高峰厚尾”和“平方序列微弱而持续的自相关”的特点; 而地震波则具有强度随时序延伸而减弱的特点; 语音信号幅度具有一定的范围, 并以零幅和近零幅的概率高, 而且长时间的语音信号会有相当多的无信号区间, 即所谓的语音寂静区间; 心电信号则具有很强的周期性, 它的主要特征是
① 基金项目:广东省科技计划项目基金(2011B060500049, 2010B090400545, 2010A040300006)收稿时间:2012-02-06;收到修改稿时间:2012-03-04 2012 年 第21卷 第 10 期 http://www.c-s-a.org.cn 计 算 机 系 统 应 用 Special Issue 专论·综述225 低电压(0.8~1mV), 小电流(12uA), 重复频率低, 每个波段具有各自的频率. 针对时序数据的这些特征, 所选择的特征提取方法应该能提取出时间序列中具有较好分类能力特征, 进行特征提取后的特征矢量能够很好地代表原有的时间序列数据, 这样才能取得良好的分类效果. 本文对分类中常用的时序特征提取方法归纳和总结, 现阶段特征提取方法主要有四类, 分别是基于基本统计方法的特征提取, 基于模型的特征提取, 基于变换的特征提取以及基于分形理论的特征提取. 针对每一类特征提取方法, 本文总结了各自适用的应用领域, 并提及相应的分类方法.
2 特征提取方法综述 特征提取的方法有很多, 总结起来可以归为四大类: 基于基本统计方法的特征提取, 基于模型的特征提取, 基于变换的特征提取, 基于分形维数的特征提取. 通过这些特征提取后的特征矢量, 能够达到较好的分类效果. 2.1 基于基本统计方法的特征提取 基本统计方法的特征提取, 就是提取数据波形的均值, 方差, 极值, 波段, 功率谱, 过零点等统计特征来代表原有的时序数据作为特征矢量. 时域的常见基本统计征有均值, 方差, 极值, 过零点, 边界点[3], 波段的长短峰值等, 而频域的基本统计方法有功率谱, 功率密度比, 中值频率, 平均功率频率等. 在肌电信号(EMG)数据中, 常采用的时序统计特征为过零点数, 积分肌电值, 方差等, 而频域中则常采用EMG功率谱的平均功率频率和中值频率[4]. ECG中则常提取它的R-R间隔均值、熵值、变化值、功率谱密度等, 而脑电信号(EEG)则常提取它的峰值, 熵值[5], 非线性能量等[6], 或是提取QRS波的峰值、波长等, QT间隔, ST间隔等统计特征[6,7]. 基于统计特征提取后的特征矢量, 可采用线性判别式构造分类器; 也可采用神经网络进行分类, 此时可达到较好效果[7,8]. 它适用于信号波形的统计特征比较明显的时间序列数据, 如EEG信号、ECG信号等医学数据. 2.2 基于模型的特征提取 基于模型的特征提取, 是指用模型去刻画时间序列数据, 然后提取模型的系数作为特征矢量去进行分类. 对于平稳时间序列, 可用通用ARMA模型(自回归滑动平均模型)及其特殊情况的自回归模型、滑动平均模型(MA)或组合-ARMA模型等来进行拟合. 对于非平稳时间序列则要先将观测到的时间序列进行差分运算, 化为平稳时间序列, 再用适当模型去拟合这个差分序列. 当然, 不同的时序数据都会有比较适合它的模型去进行特征提取. 如对于ECG数据, 通常采用AR模型进行特征提取, 而相对应的MAR模型则用于多通道的ECG数据中[9-11]. AR模型是一个线性的, 二阶矩平稳模型, 比较适合短数据分析, 不仅在ECG数据中具有优势, 在肌电信号(EMG)中也是如此. Graupe在研究用肌电信号进行动作识别时, 已证实了AR模型比ARMA模型更具优势. 近年来的研究也表明, 用AR模型进行特征提取时, 识别率是非常之高[4]. 而对于金融时序数据, 常用的多元线性回归和ARMA模型等都不再适合, 针对金融市场的价格波动聚集现象, 应采用ARCH模型(自回归条件异方差族计量模型) [12]; 而采用SVAR(结构向量自回归)模型更加适合刻画金融数据中常出现的“高峰厚尾”和“弱自相关”现象[13]. 选择合适的模型进行特征提取, 产生的模型系数作为特征矢量. 针对这类特征矢量, 往往采用简单的判别函数即可达到理想的分类效果. 最常用的当属二次判别函数(QDF)[9,10]. 有时也用到最大似然的判断规则进行分类[14].
2.3 基于变换的特征提取 通过变换的手段, 使适合分类的特性突显出来, 也是经常用到的特征提取方法. 变换包括时频变换和线性变换. 时频变换中具有代表性的方法是快速傅立叶变换、短时傅立叶变换、倒谱系数等. 而线性变换, 主要有PCA、ICA、SVD、线性判别式分析、要素分析、映射等等. 其中最有代表性的是PCA和K-L变换, 还有著名的小波变换、小波包技术. 2.3.1 基于时频变换的特征提取
时频变换是将信号从时域变换到频域的一种手段.时间序列数据在特征提取中常采用傅立叶变换、倒谱系数等时频变换方法. 傅里叶变换是将时域的信号变换成频域的信号,它是把时域的信号变换成由频率, 幅值和相位的正
弦波的组合. 将时序数据进行傅立叶变换, 然后选择它的系数作为特征矢量, 若选择前面的系数, 则代表了信号的低频特性, 选择较大的系数, 则代表了信号计 算 机 系 统 应 用 http://www.c-s-a.org.cn 2012 年 第21卷 第 10 期 226 专论·综述Special Issue
的能量特征[15]. 在心电信号QRS波识别中用DFT有效进行降维和提取特征, 然后用神经网络进行分类, 其敏感度可高达98%[16]. 在股市中应用傅立叶变换与反变换, 可以有效去除噪声和进行数据约简[17]; 亦可通过傅立叶变换求取功率谱, 来表征时序数据的统计特征[18]. 为了减少傅立叶变换的运算量, 可运用快速傅立叶变换算法, 它利用DFT系数的对称性, 周期性和可约性等性质将长序列的DFT分解为若干个短序列的DFT运算, 其中, 最常用的是FFT的表达形式是按时间抽取的基2 FFT算法, 然后提取频率系数作为特征矢量[16]. 短时傅立叶变换(Short-Time Fourier Transform, STFT)建立在传统的傅立叶变换基础之上. 其基本思想是将信号s(t)用窗函数w(t)截断, 并让该窗函数沿着信号滑动, 于是分为一个个短时信号, 并对这些短时信号分别进行快速傅立叶变换进行频谱分析, 从而能更精确地观察出信号的频谱变化情况. 窗函数的长短选择决定了时频特征体现的强弱(窗较宽时频域性较强, 时域性较弱)[19]. 特征提取还经常用到倒谱系数也作为信号的特征矢量. 倒谱分析又称为二次频谱分析, 它分为实倒频谱和复倒频谱. 其中实倒谱又为功率倒频谱, 它是先将时序信号进行离散傅立叶变换, 然后取自然对数, 再实行离散傅立叶反变换. 复倒谱是将时序信号通过 Z 变换以后取对数,再求反 Z 变换而得到的. 倒谱系数应用最广泛的领域是在语音信号中[20-23], 包含梅尔倒谱和线性预测倒谱, 其识别效果优于其它特征提取方法, 其中梅尔倒谱又要优于线性倒谱[24]. 针对倒谱提取出来的特征矢量, 语音信号常用HMM模型进行分类识别. 2.3.2 基于线性变换的特征提取 线性变换中有很多特征提取方法颇为经典, 特别是PCA和小波变换. PCA为主成分分析, 它与独立成分分析ICA, K-L变换, 奇异值分解极为相似, 有殊途同归的效果, 在数据降维中都经常用到. 研究表明, 利用 PCA变换可以在信息损失最小的前提下, 用较少的分量代替原来的高维数据, 达到降维的效果, 从而使得处理数据的时问和费用大大降低. 另一方面, 由于各主成分是相互垂直的, 所以增大了类间距, 减小了类内差异, 可提高分类精度[25,26]. 但PCA不能解决非线性特