一种基于Rough集的时间序列数据挖掘策略

合集下载

试论一种基于粗糙集的海量数据挖掘算法

• 100•ELECTRONICS WORLD ・探索与观察试论一种基于粗糙集的海量数据挖掘算法中国计量大学信息工程学院蔡丛豫引言：就传统的数据挖掘技术来说，其在数据量级方面存在着一定的局限性，影响最终的效果，所以将粗糙集理论应用其中。

对此，本文以算法的优化为切入点，对一种基于粗糙集的海量数据挖掘算法进行分析。

结合本文的分析，其目的就是优化海量数据挖掘算法，并以全新的并行算法等为基础，提高海量数据挖掘的效率，以期为相关人员提供参考。

1.基于粗糙集对Rough Set知识约简算法的改进1.1 离散化算法在Rough Set 知识获取方法中，数据离散化是其关键的构成内容之一，本文就采用属性重要性的方式，将CDL 引入到原算法之中，保证这种算法能够实现对海量数据的挖掘。

具体来说，这种算法的具体步骤为：（1）对每一个连续的条件属性，进行循环遍历，同时能够生成条件信息熵，即ICDL （{a i }）的信息熵。

（2）结合条件信息，对信息熵以降序的方式进行排序，即将所有连续的属性均进行排列。

（3）对于完成排序的DT ，并每个条件的a i 进行循环遍历，从而能够形成ICDL （C\{a i }）。

在这一条件下，可以将S zone 设置为null ，而S zone 实际上是a i 值域的子集。

（4）对（S a ，S b ）区间的额每一个断点，进行循环遍历，而S a 、S b 是a i 的连续属性值，并设S zone 的值为S zone 与S a 的和。

（5）对DT 中所有满足条件SV j （a i ）=S h 的样本，进行循环遍历，即SV j ，而其中的S h=属于S zone 。

（6）对DT 中所有满足条件SV j （a i ）=S b 的样本，进行循环遍历，即SV k ，如果样本SV k 、SV j 属于ICDL （{a i }）的同一分类中，并且使用@的符号进行连接，在需要将（S a ，S b ）的断点选择出来，并对S zone 进行重置（空）。

基于Rough集理论的增量式数据挖掘算法

有决策规则是协调的，Ｓ中Ｐ则ｐ算法是协调的，否则Ｐｐ算法是不协调的．
２２决策表最小化．
一
（）除重复的行；除属性多余的值；３删删
（）出最小约简；４求（）据最小约简，出逻辑规则．５根导
中的决策规则，和分别称为决策规则的前代和
后继．ｓ中决策规则为真时，该决策规则是ｓ当说中协调的，否则说该决策规则是ｓ中不协调的．当
一
为一个决策规则，且和分别为Ｐ基本公
式和Ｑ基本公式，Ｑ已知，决策规则一称Ｐ、则为ＰＱ基本决策规则，简称为ＰＱ规则．决策逻辑语言中任何有限决策规则集称为决策逻辑语言中的决策算法，而任何有限基本决策规则
来求近优解．
２相关理论介绍
２１有关决策逻辑语言基本概念．在逻辑语言中，义一称为知识表达语言含
数学工具 … 其主要思想是，１，在保持信息系统分类不
变的前提下，通过对知识约简，出对问题的决策或导分类规则．目前，ｏｇＲｕｈ集理论已被应用于机器学
文献标识码：Ａ
中图分类号：Ｐ９Ｔ３１
１引言
Ｒｕｈ集理论是波兰科学家ＺＰｗａｏｇ．ａｌｋ在１８９２年提出的一种处理含糊和不精确性问题的一种新型

基于粗糙集理论的股票时间序列数据的关联规则方法研究

收稿日期：2012-10-18作者简介：王耀清（19-），中国矿业大学机电与信息工程学院2010级计算机应用专业硕士研究生。

基于粗糙集理论的股票时间序列数据的关联规则方法研究王耀清（中国矿业大学（北京）机电与信息工程学院，北京100083）摘要：有效做好采煤工艺的研究，促进井下采煤技术的优化，不仅能够推进我国煤炭资源的开采工作，同时也能自根本保障我国井下采煤的安全性，改善煤炭市场的整体发展环境。

本文从采煤技术工艺发展现状着手，分析了不同条件下不同煤炭开采方法的具体运用。

关键词：煤炭生产；采煤技术；工艺选择；应用中图分类号：TD801文献标识码：A 文章编号：1008-8881（2012）04-0139-031粗糙集基本理论粗糙集理论是由波兰学者Pawlak Z 在1982年提出的。

1991年Pawlak Z 出版了专著，系统全面地阐述了粗糙集理论，奠定了严密的数学基础。

该书与1992年出版的粗糙集理论应用专集较好地总结了这一时期粗糙集理论与实践的研究成果，促进了它的进一步发展，现已成为学习和应用粗糙集理论的重要文献。

从1992年至今，每年都召开以粗糙集为主题的国际会议，推动了粗糙集理论的拓展和应用。

目前粗糙集理论已成为人工智能领域中一个较新的学术热点，引起了越来越多的科研人员的关注。

设U 为非空的论域，X 哿U ，R 是U 上的等价关系，A=（U ，R ）是一个近似空间，在A 上，如果X 是一些R 基本类的并集，则称X 是R 可定义的：否则称X 是R 不可定义的。

R 可定义集是全集U 上那样一些子集，这些子集在个体全集U 上是恰好可被定义，而R 不可定义集是子集X 上不可能恰好被定义的。

R 可定义集被称为R 一致集或R 恰当集，而R 不可定义集也被说成是R 不一致集或称R Rough 集，简称不一致集或Rough 集。

如果存在一个等价关系R ∈IND （U ），其中IND （U ）是U 上给定的所有等价关系的交集，使得X 哿U 是R 一致的，则集合X 被称作U 中一致集：如果X 哿U 对任意R ∈IND （U ）都是R Rough 的，则X 被称作U 上不一致集或Rough 集。

基于Rough集的数据库信息挖掘加权决策算法

称 -/ 为集合 / 的下近似集（<(@12 ?AA2(B.C?=.(- ）， -/ 为（)AA12 ?AA2(B.C?=.(- ）。集合 1’（集合 D 的上近似集 "-/3 2 /）（;()-9?2> ），）称为 245（ / "-/ -/ 称为 / 的 - 边界或边界区域（EFA(3.=.01 21*.(- ），（ / 的 -3正域 ’67 "#F-/ 称为 / 的 - 负 2 /）域（EF-1*?=.01 21*.(- ）。。显然有 -/"245（ %1’（ - /） 2 /）定义 G （等价关系的独立性）设 - 是全域 # 上等价关系的如果 .-9 （-）（-F5%6），则称 % 为 - 中不必要的，族集， %"-， 4.-9 否则称 % 为 - 中必要的；如果每一个 %"- 都为 - 中必要的，则否则称 - 为依赖的。称 - 为独立的，定义 H （属性的约简）设 -， 8 是全域 # 上两个等价关系的且 .-9 （8 ）（-），则称 8 为 - 的一个约简。族集，如果 8$-， 4.-9 显然， - 可以有多种约简， - 中所有约简组成的集合称为 - 的（-）。即 94:6 （-）（-）其中，（-）表示 - 的核，记作 94:6 "#:6; 94:6 所有约简。族定义 I 设 - 和 8 是全域 # 上的两个等价关系的族集，集 8 的 -3正域（EFA(3.=.01 21*.(- (J 8 ）记作 245（，定义为： - 8）
-./01 集
权重系数
决策算法文献标识码 E 中图分类号 FG#%%$%#

如何使用粗糙集理论进行时间序列分析与预测

如何使用粗糙集理论进行时间序列分析与预测粗糙集理论（rough set theory）是一种用于处理不确定性和模糊性的数学工具，它可以应用于各种领域，包括时间序列分析与预测。

本文将探讨如何使用粗糙集理论进行时间序列分析与预测。

首先，我们需要了解粗糙集理论的基本概念。

粗糙集理论是由波兰学者Pawlak 于1982年提出的，它基于信息系统的概念，将不确定性的数据集划分为精确和粗略两部分。

在时间序列分析中，我们可以将时间序列看作是一个信息系统，其中每个时间点的数据可以被视为一个属性。

在进行时间序列分析之前，我们需要对数据进行预处理。

这包括数据清洗、平滑和规范化等步骤。

数据清洗可以去除异常值和缺失值，以确保数据的完整性和准确性。

平滑可以使数据变得更加平稳，有利于后续的分析和预测。

规范化可以将不同尺度的数据转化为相同的范围，以便比较和分析。

接下来，我们可以利用粗糙集理论进行特征选择。

特征选择是指从原始数据中选择最具有代表性和相关性的特征，以减少数据的维度和复杂度。

在时间序列分析中，特征选择可以帮助我们找到最重要的时间点或时间段，并排除那些对分析和预测没有帮助的特征。

在进行特征选择之后，我们可以利用粗糙集理论进行特征约简。

特征约简是指通过删除冗余和无关的特征，使得数据集的规模和复杂度减小，同时保持数据集的信息内容。

通过特征约简，我们可以获得更简洁和高效的数据集，从而提高时间序列分析和预测的准确性和效率。

在特征约简之后，我们可以利用粗糙集理论进行规则提取。

规则提取是指从数据集中提取出一些具有潜在规律和趋势的规则，以帮助我们理解和预测时间序列的变化。

通过规则提取，我们可以发现时间序列中的一些重要特征和规律，从而为未来的预测提供参考和依据。

最后，我们可以利用粗糙集理论进行时间序列的预测。

时间序列的预测是指根据过去的数据和趋势，对未来的数据进行推测和预测。

通过粗糙集理论，我们可以建立时间序列的模型和规则，从而进行准确和可靠的预测。

基于Rough集的数据库信息挖掘加权决策算法

基于Rough集的数据库信息挖掘加权决策算法
巩建闽;王国胜;萧蓓蕾
【期刊名称】《计算机工程与应用》
【年(卷),期】2003(039)032
【摘要】利用Rough集方法进行数据库中信息挖掘时,因为相同的记录表示的是同样的决策信息,可以将它消去,但由此得到的决策规则可能是片面的.文章提出了一种带有权重的决策算法,该方法利用记录出现的频率作为权重系数,导出了带有全重的决策算法,该方法计算简便、实用,可提高最终决策算法的可靠性.
【总页数】3页(P198-200)
【作者】巩建闽;王国胜;萧蓓蕾
【作者单位】德州学院计算机系,德州,253023;德州学院计算机系,德州,253023;德州学院计算机系,德州,253023
【正文语种】中文
【中图分类】TP311.13
【相关文献】
1.一种基于粗糙集的决策算法挖掘方法 [J], 王常伟;马英红;朱颖翠
2.基于Rough集的动态信息系统的规则挖掘 [J], 牛海峰;何小卫;王基一
3.基于Rough 集的数据挖掘在高职院校就业指导决策分析中的应用 [J], 杨秀芳;陈金霞;雎力芬;
4.基于Rough Set的缺省加权规则挖掘算法 [J], 杨明;孙志挥;季小俊
5.基于加权构造链表的频繁加权项集挖掘算法 [J], 文凯;许萌萌;耿小海
因版权原因，仅展示原文概要，查看原文内容请购买。

一种基于Rough集的海量数据属性约简方法

第21卷第4期重庆邮电大学学报(自然科学版)Vol .21　No .42009年8月Journa l of Chongq i n g Un i versity of Posts and Teleco mm un i ca ti on s(Na tura l Sc i ence Ed iti on)Aug .2009一种基于Rough 集的海量数据属性约简方法收稿日期:2009203225　基金项目:国家自然科学基金(60573068);重庆市自然科学基金重点项目(2008BA2017);重庆市教育委员会科学技术研究项目(KJ090512,KJ7150080050)胡　峰,张　杰,刘　静,肖大伟(重庆邮电大学计算机科学与技术研究所,重庆400065)摘　要:海量数据属性约简的研究是数据挖掘研究中的一个难点。

已有的许多属性约简算法对于空间复杂度考虑得不够,导致了算法不能适应大数据集的约简处理。

结合分治法,在给定属性序下,提出了基于分治策略的属性约简算法。

利用该算法可以快速得到海量数据的属性约简结果。

仿真实验结果说明了该算法的高效性。

关键词:粗集;数据挖掘;分治;属性约简;属性序中图分类号:TP18 文献标识码:A文章编号:16732825X (2009)0420455206A ttr i bute reducti on a lgor ith m for huge da t a ba sed on rough set theoryHU Feng,ZHANG J ie,L IU J ing,X I A O Da 2wei(I nstitute of Computer Science and Technol ogy,Chongqing University of Posts and Telecommunicati ons,Chongqing 400065,P .R.China )Abstract:The attribute reducti on of huge data is a difficult p r oble m in the research of data m ining .A t p resent,many at 2tribute reducti on algorith m s lack considerati on on s pace comp lexity,which makes the m cannot adap t t o the reducti on of large data set .I n this paper,an attribute reducti on algorith m of ordered attributes was p r oposed based on the divide and conquer,and this algorith m can be used t o dealwith huge data reducti on .Si m ulati on results show the efficiency of the algo 2rith m.Key words:r ough set;data m ining;divide and conquer;attribute reducti on;attribute order0　引　言海量数据是指巨大的、浩瀚的数据。

drsa调度算法

drsa调度算法"DRSA" 是一种决策规则系统，全称为"Discernibility-based Rough Set Approach"，是基于粗糙集理论的一种数据挖掘和知识发现方法。

它用于从数据集中提取有意义的规则，帮助分析和决策。

在DRSA 中，主要包括一系列的步骤，包括数据预处理、决策属性的确定、属性重要性的计算、规则的生成等。

DRSA 算法的主要步骤如下：1. 数据预处理：对数据集进行预处理，包括数据清洗、数据变换和数据归一化等操作，以确保数据的准确性和一致性。

2. 决策属性的确定：选择一个或多个作为决策属性，这是需要分析和预测的属性。

3. 属性重要性计算：使用不同的方法（如信息熵、Gini系数等）计算各个属性的重要性，以找到对决策属性影响较大的属性。

4. 粗糙集构建：基于属性重要性的计算，使用粗糙集理论确定决策属性的粗糙集，即与决策属性相关的属性集合。

5. 规则生成：基于决策属性的粗糙集，从数据集中提取有意义的决策规则，以描述属性之间的关系和决策属性的可能取值。

6. 规则评估：对生成的规则进行评估，根据支持度、置信度等指标来衡量规则的可靠性和实用性。

7. 规则选择和剪枝：从生成的规则中选择最具有代表性和有意义的规则，同时进行规则的剪枝，以减少冗余和提高规则的简洁性。

8. 规则应用：使用生成的规则来预测未知样本的决策结果，从而实现对数据的分析和决策。

DRSA 算法的核心思想是基于属性之间的关系，通过提取决策规则来揭示数据集中的模式和规律。

这种方法在数据挖掘、知识发现、决策支持等领域具有重要的应用价值。

请注意，具体的算法细节和实现可能因应用环境和需求的不同而有所变化。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2001年12月系统工程理论与实践第12期　文章编号:100026788(2001)1220022208一种基于Rough集的时间序列数据挖掘策略马志锋1,邢汉承2,郑晓妹3(1.深圳中兴通讯股份有限公司上海第二研究所,上海200233;2.东南大学计算机科学与工程系,江苏南京210096;3.南京航空航天大学计算机科学与工程系,江苏南京210016)摘要:　阐述了基于Rough集的时间序列数据的挖掘策略,重点讨论了时间序列数据中的时序与非时序信息的获取问题.实践证明,Rough集理论作为一种处理模糊和不确定性问题的有效工具,对于时间序列数据的挖掘同样也是有效的.文章强调了时间序列数据中的多方面信息,包括原始数据及其变化量、变化率所提供的信息.关键词:　数据挖掘;Rough集;时间序列数据中图分类号:　T P18 文献标识码:　A αT i m e Series D ata M in ing Strategy Based on Rough Set M A Zh i2feng1,X I N G H an2cheng2,ZH EN G X iao2m ei3(1.Shangh i N o.2R esearch In stitu te,ZT E Co rpo rati on,Shanghai200233,Ch ina;2.Sou theast U n iversity,N an jing210096,Ch ina;3.N an jing U n iversity of A eronau tics and A stronau tics,N an jing 210016,Ch ina)Abstract　T h is paper p ropo ses ti m e series data m in ing strategy based on a rough set.Itm ain ly discu sses the acqu isiti on of ti m e2dependen t and ti m e2independen t info rm ati onfrom ti m e series data.P ractice p roves that rough set theo ry,as an effective too l to dealw ith vagueness and uncertain ty,is also effective to the ti m e series data m in ing.D ifferen t info rm ati on,such as info rm ati on from o riginal data,variati on and varian trati o of data,is emphasized in the m in ing p rocess of ti m e series data.Keywords　data m in ing;rough sets;ti m e series data1　引言随着当今数据采集和存储技术的不断发展,数据库中存储的数据量急剧增加,数据库的规模也因此变得越来越庞大.人们发现自己已不再是缺少信息,而是被信息海洋所淹没.如何分析数据并从中挖掘出有用的知识是一项既费时又难于进行的工作.通常,对于特定领域的数据挖掘(data m in ing)需要有一定的背景领域知识,并在此基础上采用某种有效工具从数据集中获取更多的隐含的、先前未知的并具有潜在价值的知识.这种挖掘在工业过程控制、医疗诊断、股票分析、水文气象等领域尤显重要,因为这些领域的数据有一个共同的特点,即它们都记录了某个领域的时间序列(ti m e series)信息,且信息量特别巨大,如果没有合适的挖掘手段则势必给以后的决策和新数据的预测带来困难.信息系统中时间序列数据的出现使得有必要针对这一特殊数据类型的挖掘给出相应的策略,以便发现在某段时间内连续记录的某属性序列值的变化规律,以及它的变化给其它属性值所带来的影响.2　数据挖掘新方法:Rough集理论方法Rough集(Rough Set,R S)理论是一种新型的处理不完整性和不确定性问题的数学工具,能根据人们α收稿日期:2000204214对所获取数据的已有认识,有效地分析和处理各种不完备信息,从中发现隐含的知识并揭示出其中的潜在规律.该理论是由波兰华沙理工大学著名逻辑学家Z Paw lak 于1982年首次提出的[1].此后,在Z Paw lak 本人和其他研究者们的共同努力下,对R S 理论进行了丰富和完善,于1991年出版了第一部关于R S 的专著[2],系统全面地阐述了有关概念及其应用情况,从而奠定了R S 理论的数学基础.近些年来,随着R S 理论的研究深入,它已被广泛地应用于数据库中的知识发现、智能控制、机器学习、决策分析、专家系统以及模式识别等众多领域[3～7].2.1　RS 基本概念R S 理论认为知识是一种将对象进行分类能力的体现.领域知识即是为描述论域中各对象而设置的属性的取值之间的不分明性(indiscern ib ility ),例如,在医疗诊断数据库中的“体温”属性可取值“正常”、“发烧”、“37℃”、“40℃”、“41℃”等,根据医疗常识有“正常”与“37℃”和“发烧”与“40℃”、“41℃”为不可区分.这里不分明关系可以是由相似关系(si m ilarity relati on )来描述的,与传统R S 理论中的等价关系(equ ivalencerelati on )有所不同[3],前者满足自反性(reflex ive )、对称性(symm etric ),而后者则满足自反性、对称性、传递性(tran sitive ).通过数据采集所获取的数据是关于论域中各对象的区别信息,人们对于对象的认识即表现为能够将它们划分为不同的类别,R S 理论就是采用确定的方法在无需先验知识的前提下如实地提取经验数据间的相互依赖关系,从而最终得到智能决策规则.由此可见不分明关系乃是R S 理论的最基本的概念,它体现了知识的颗粒状态.这里值得一提的是,R S 理论与目前研究较多的Fuzzy Sets 理论对于不确定事物的描述既有相似之处,又是相互补充、相互区别的.模糊性在某种程度上属于自然语言的范畴,更富有语义的可适应性,表示集合具有某种平滑的边界,粗糙性则是集合中元素的不分明性.若借用图象处理中的概念来直观地形容便是,R S 为图象象素的大小,而Fuzzy Sets 则指象素中多个灰度级别的存在.R S 方法的基本思想是从信息系统(info rm ati on system )或决策表(decisi on tab le )中的数据提取出简洁易懂且有效的决策规则,规则常被用作对未知新对象的预测和辅助决策.假设给定一个信息系统IS =〈U ,A ,V ,Θ〉,其中U ≠ 为有限的论域集合,A 为IS 中的属性集合,V =∪a ∈AV a 为属性值的集合,Θ确定了一个信息函数U ×A →V ,它将属性的值分配到信息表中各行的相应属性中.D T =〈U ,A ∪{d },V ,Θ〉为一种特殊形式的信息表,称作决策表,其中d |A 为决策属性,相应地A 为条件属性.若X ΑU 为所要分辨的概念,R 为U 上的不分明关系,则二元组(U ,R )构成了一个近似空间(app rox i m ati on space ).[x ]R 表示U 中根据R 的认识,所有与x 不分明的对象的集合,称作x 的不分明类,其中x ∈U 为U 中的一个对象.R S 理论中的模糊性事实上是一种基于边界的概念,即一个模糊的概念具有模糊的不可被明确划分的边界.为刻划这种模糊性,每个不精确概念由一对称为下近似集与上近似集的精确概念来描述.R -X ={x ∈U [x ]R ΑX }=∪{[x ]R [x ]R ΑX }称为集合X 关于R 的下近似集(low er app rox i m ati on ),R -X 包含了所有可确切分类到X 的对象.R +X ={x ∈U [x ]R ∩X ≠ }=∪{[x ]R x ∈X }定义为X 关于R 的上近似集(upper app rox i m ati on ),它包括了所有那些可能属于X 的对象.上近似与下近似的差就是概念X 的边界区域,它由不能肯定分类到X 或其补集中的所有对象组成.显然若边界非空,则集合X 就是一个模糊概念.R S 理论中还有两个极其重要的概念,这就是约简(reduct )和核(co re ).约简是IS 或D T 中,在保证正确分类的前提下去除多余属性后的最小条件属性集,计算约简是一个典型的N P 完全问题,其复杂性随对象的增多而呈指数级增长.核为影响分类的重要属性,所有不可缺少的(indispen sab le )属性构成了核,也就是说核是由所有约简的交集所组成的.2.2　基于RS 的数据挖掘数据挖掘是数据库中知识发现(know ledge discovery in databases ,KDD )的一个重要步骤[7～9],它的处理过程如图1可分为:数据选择、数据的净化和预处理、数据约简与映射、数据挖掘任务与算法选择、对发现模式的解释.R S 理论的核心是提供了一套严格的数学方法,对于具有噪声、不完全或者不精确的数据在无需任何附加信息的条件下对其进行约简以及发现数据之间的依赖关系,因此可以认为,基于R S 的KDD 系统与其它方法相对比具有其独特的优势.近些年来,随着R S 理论在国际范围内的深入研究,它在KDD 中的应用也取得了较大的进展,基于R S 32第12期一种基于Rough 集的时间序列数据挖掘策略图1　数据挖掘的处理过程理论的KDD 方法已成为主流方法之一.现已研制成功的具有代表性的基于R S 的KDD 系统有:波兰Poznan 大学开发的Rough DA S &Rough C lass 、加拿大R egina 大学开发的KDD 2R 、美国Kan sas 大学研制的L ER S 、商业软件技术公司R EDU CT &L obbe 开发的D atalogic 、挪威理工大学研制的Ro setta 及RoughEnough 等.以上系统对于时间序列数据的挖掘都没有作特别的处理.典型的基于R S 的数据挖掘方法一般包括数据采集、预处理、数据约简、规则生成、决策分类与预测等步骤[7],如图2所示.图2　基于R S 的数据挖掘数据采集将原始数据库中的数据转换成R S 所能理解的信息系统或决策表的形式,这依赖于数据库中42系统工程理论与实践2001年12月数据的存放格式,有些情况下可以完全或部分地指定数据库中的某些属性和对象来导入系统,另一些情况,譬如时间序列数据则需加上时间标志并确定采样频率.为了适应R S 对数据进一步处理的需要,预处理过程需要对不完整数据进行适当的补充,对时间序列数据作某种特殊的映射处理,同时对连续数据作离散化处理等.数据约简过程是所有步骤中最为关键的部分,它凝聚了R S 理论对数据进行分析和约简的精髓.规则生成是指根据R S 计算出的约简生成相应的规则集合,另外由于数据不确定性的存在,可能导致不一致规则(incon sisten t ru le )的出现,通常可以给每条规则赋予一定的信任测度和频率测度.决策分类是对未知新对象的分类过程,由于新对象来自于规则提取的数据之外,此时必定会遇到规则集合未曾考虑到的情形,因此如何选择一条或若干条最为接近的规则来近似分类新对象是本步骤的主要内容.对于时间序列数据,更重要的还有预测趋势问题.3　时间序列数据的挖掘很多数据是依赖于时间的,例如银行交易、股市行情、病人医疗记录、工业过程控制等数据都是与时间紧密相关的.然而这些数据既有其依赖于时间的一面,同时也存在着非时间依赖性的另一面.只有把握好各方面的信息,才能对未知新对象的分类以及数据的未来走向做到心中有数.3.1　时间序列数据表达时间序列数据是指一系列数据可依赖于时间进行排序[10,11],通常它可有两种表达形式:①事件表达(信息由某个时间点或时间区间所发生的事件来体现);②状态表达(信息主要由状态的变化来记录,事件使得对象的状态发生了改变).这两种表达形式的区别在于它们所记录信息的侧重点不同,前者为对于某时刻事件的描述,后者则以状态的演变次序为可能世界的可到达关系,需要记录的则是对于状态的描述.图3通过一个工业炉温控制数据给予了直观的说明.两种类型的时间序列数据反映到信息表决策表的处理上本质上是一致的.图3　采用事件(a )与状态(b )描述的时间序列数据定义1　事件e 是一个二元序偶(E ,t ),其中E 是事件e 的类型描述,t >0是e 发生的时间戳.定义2　状态s i =〈s i -1,t 〉表示在t >0时刻,由于某事件的发生使得状态s i -1发生了变化,其中s i -1为状态s i -1的描述.3.2　基于RS 的时间序列挖掘表1　2×5移动窗口示例t 1,1t 1,2t 1,3t 1,4t 1,5t 2,1t 2,2t 2,3t 2,4t 2,5传统R S 最初是被设计成对于关系数据库表中数据的处理,而这些表通常并未考虑数据对于时间的依赖性.事实上,序列数据可以被看成是对现实世界在某个时刻的快照.文献[11]与[12]曾对时间序列数据的挖掘作了预测分析,它们所基于的是移动窗口技术(mob ile w indow ).其主要思想是通过在数据序列中移动窗口,只有落入窗口内的数据的时间依赖性才被列入考察范围,这样经过简单计算生成新的条件与决策属性标记,便可将时间序列数据转换成R S 对象.例如,假设有一个窗口为2×5,如表1所示。