粗糙集理论论文

粗糙集理论论文
粗糙集理论论文

粗糙集理论浅析

粗糙集理论,是继概率论、模糊集、证据理论之后的又一个处理不确定性的数学工具。作为一种较新的软计算方法,粗糙集近年来越来越受到重视,其有效性已在许多科学与工程领域的成功应用中得到证实,是当前国际上人工智能理论及其应用领域中的研究热点之一。在很多实际系统中均不同程度地存在着不确定性因素,采集到的数据常常包含着噪声,不精确甚至不完整。

一、引言

粗糙集作为一种处理不精确、不确定与不完全数据的新的数学理论, 最初是由波兰数学家Z. Paw lak于1982年提出的。由于最初关于粗糙集理论的研究大部分是用波兰语发表的, 因此当时没有引起国际计算机学界和数学界的重视, 研究地域也仅局限在东欧一些国家, 直到20世纪80年代末才逐渐引起各国学者的注意。近几年来, 由于它在机器学习与知识发现、数据挖掘、决策支持与分析等方面的广泛应用, 研究逐渐趋热。1992年, 第一届关于粗糙集理论国际学术会议在波兰召开。1995年,A CM Com 2m unication 将其列为新浮现的计算机科学的研究课题。1998年, 国际信息科学杂志( Infor2m ation Sciences) 还为粗糙集理论的研究出了一期专辑。

粗糙集理论是建立在分类机制的基础上的, 它将分类理解为在特定空间上的等价关系, 而等价关系构成了对该空间的划分。粗糙集理论将知识理解为对数据的划分, 每一被划分的集合称为概念。粗糙集理论的主要思想是利用已知的知识库, 将不精确或不确定的知识用已知的知识库中的知识来(近似) 刻画。该理论与其他处理不确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息, 所以对问题的不确定性的描述或处理可以说是比较客观的, 由于这个理论未能包含处理不精确或不确定原始数据的机制, 所以这个理论与概率论, 模糊数学和证据理论等其他处理不确

定或不精确问题的理论有很强的互补性。

二、基本概念

粗糙集是一种较有前途的处理不确定性的方法,相信今后将会在更多的领域中得到应用. 但是,粗糙集理论还处在继续发展之中,正如粗糙集理论的创立人Z. Paw lak 所指出的那样,尚有一些理论上的问题需要解决,诸如用于不精确推理的粗糙逻辑(Rough logic) 方法,粗糙集理论与非标准分析(Nonstandard analysis) 和非参数化统计(Nonparametric statistics)等之间的关系等等. 将粗糙集与其它软计算方法(如模糊集,人工神经网络,遗传算法等)相综合,发挥出各自的优点,可望设计出具有较高的机器智商(M IQ) 的混合智能系统(Hybrid Intelligent System),这是一个值得努力的方向。

三、粗糙集理论中的知识表示

“知识”这个概念在不同的范畴内有多种不同的含义。在粗糙集理论中,“知识”被认为是一种分类能力。人们的行为是基于分辨现实的或抽象的对象的

能力,如在远古时代,人们为了生存必须能分辨出什么可以食用,什么不可以食用;医生给病人诊断,必须辨别出患者得的是哪一种病。这些根据事物的特征差别将其分门别类的能力均可以看作是某种“知识”。

四、不可分辨关系与基本集

分类过程中,相差不大的个体被归于同一类,它们的关系就是不可分辨关系(indiscernibility relation). 假定只用两种黑白颜色把空间中的物体分割两类,{黑色物体},{白色物体},那么同为黑色的两个物体就是不可分辨的,因为描述它们特征属性的信息相同,都是黑色.

如果再引入方,圆的属性,又可以将物体进一步分割为四类: {黑色方物体},{黑色圆物体},{白色方物体},{白色圆物体}. 这时,如果两个同为黑色方物体,则它们还是不可分辨的. 不可分辨关系是一种等效关系(equivalence relationship),两个白色圆物体间的不可分辨关系可以理解为它们在白,圆两种属性下存在等效关系.

基本集(elementary set) 定义为由论域中相互间不可分辨的对象组成的集合,是组成论域知识的颗粒. 不可分辨关系这一概念在粗糙集理论中十分重要,它深刻地揭示出知识的颗粒状结构,是定义其它概念的基础. 知识可认为是一族等效关系,它将论域分割成一系列的等效类.

五、粗糙集的计算方法

软计算(sof t compu t ing) 的概念是由模糊集创始人Zadeh[ 9 ]提出的. 软计算中的主要工具包括粗糙集,模糊逻辑(FL),神经网络(NN),概率推理(PR),信度网络(Belief Networks),遗传算法(GA) 与其它进化优化算法,混沌(Chaos) 理论等. 传统的计算方法即所谓的硬计算(hard computing),使用精确,固定和不变的算法来表达和解决问题. 而软计算的指导原则是利用所允许的不精确性,不确定性和部分真实性以得到易于处理,鲁棒性强和成本较低的解决方案,以便更好地与现实系统相协调.。

六、粗糙集理论的特点

粗糙集方法的简单实用性是令人惊奇的,它能在创立后的不长时间内得到迅速应用是因为具有以下特点:

(1) 它能处理各种数据,包括不完整(incomplete) 的数据以及拥有众多变量的数据;

(2) 它能处理数据的不精确性和模棱两可(ambiguity),包括确定性和非

确定性的情况;

(3) 它能求得知识的最小表达(reduct) 和知识的各种不同颗(granularity) 层次;

(4) 它能从数据中揭示出概念简单,易于操作的模式(pattern) ;

(5) 它能产生精确而又易于检查和证实的规则,特别适于智能控制中规则的自动生成.

七、粗糙集理论的应用

RS理论的生命力在于它具有较强的实用性,从诞生到现在虽然只有十几年的时

间,但已经在许多领域取得了令人鼓舞的成果.

1)股票数据分析.应用RS方法分析了十年间股票的历史数据,研究了股票

价格与经济指数之间的依赖关系,获得的预测规则得到了华尔街证券交易专家的认可.

2)模式识别.应用RS方法研究了手写字符识别问题,提取出了特征属性.

3)地震预报.研究了地震前的地质和气象数据与里氏地震级别的依赖关系.

4)冲突分析.应用RS方法建立了反映以色列、巴勒斯坦、约旦、埃及、叙

利亚和沙特阿拉伯等六国关于中东和平问题各自立场的谈判模型.

5)医疗诊断.RS方法根据以往的病例归纳出诊断规则,用来指导新的病例.现有的人工预测早产的准确率只有17%~38%,应用粗糙集理论则可提高到68%~90%.

6)专家系统(ES).RS抽取规则的特点,为构造ES知识库提供了一条崭新的途径

7)人工神经元网络(ANN).训练时间过于漫长的固有缺点是制约ANN实用化的因素

之一.应用RS化简神经网络训练样本数据集,在保留重要信息的前提下消除了多余的数据,使训练速度提高了4.77倍,获得了较好的效果.将RS与ANN结

合起来,充分利用RS处理不确定性的特长以增强ANN的信息处理能力.

8)决策分析. RS的决策规则是在分析以往经验数据的基础上得到的.RS允许决策对象中存在一些不太明确、不太完整的属性,弥补了常规决策方法的不足.希腊工业发展银行ETEVA应用RS理论协助制订信贷政策,是RS多准测决策方法的一个成功范例.

9)从数据库中挖掘信息

现代社会中,随着信息产业的迅速发展,大量来自金融,医疗,科研等不同领域的信息被存储在数据库中. 这些浩如烟海的数据间隐含着许多有价值的但鲜为人知的相关性,例如股票的价格和一些经济指数有什么关系;手术前病人的病理指标可能与手术是否成功存在某种联系;满足何种条件的夜空会出现彗星等天文现象等等. 由于数据库的庞大,人工处理这些数据几乎是不可能的,于是出现了一个新的研究方向—数据库中的知识发现(Knowledge Discovery in Databases,KDD),也叫做数据库(信息)发掘(Mining),它是目前国际上人工智能领域中研究较为活跃的分支. 粗糙集是其中的一种重要的研究方法,它采用的信息表与关系数据库中的关系数据模型很相似,这样就便于将基于粗糙集的算法嵌入数据库管理系统中. 粗糙集引入核(core),化简(reduct) 等有力的概念与方法,从数据中导出用IF THEN 规则形式描述的知识,这些精练的知识更便于存储和使用.美国医学工作者应用粗糙集理论对大量的病历进行分析,发现黑人妇女患乳腺癌后的死亡率比白人妇女高. 到目前为止,早产的预测在医学上还是比较困难的. 现有的人工预测方法准确率只有17à - 58à,而应用粗糙集理论则可将准确率提高到68à - 90à.

八、参考文献

张琦,韩祯祥,文福拴.一种基于粗糙集方法的电力系统故障诊断/警报处理的新

方法.中国电力,1998,31(4):32-38

王珏,苗夺谦,周育键.关于Rough Set理论与应用的综述.模式识别与人工智能,1996,9(4):337-344

曾黄麟.粗集理论及其应用.重庆:重庆大学出版社,1998

Ewa Orlowska(ed.).Incomplete information-rough set analysis.New York:PhysicaVerlag,1998

苗夺谦, 王珏. 粗糙集理论中知识粗糙性与信息熵关系的讨论[J ]. 模式识别与人工智能, 1998,11: 34- 40.

苗夺谦, 王珏. 粗糙集理论中概念与运算的信息表示[J ]. 软件学报, 1999, 10: 113- 116.

李莉. 基于可变精度粗集模型的增量式归纳学习[J ]. 计算机科学, 1999, 26: 55- 58.

张文修, 梁怡. 不确定推理原理[M ]. 西安交通大学出版社, 1996.

施恩伟. 粗糙集中不可分辨关系的某些性质[J ]. 科学通报(英文辑), 1990, 35: 338- 341.

张文修, 吴志伟. 基于随机集的粗糙集模型(é )[J ]1西安交通大学学报, 2000, 34(12): 15—191

粗糙集理论

粗糙集理论与应用研究综述 王国胤1Yiyu Yao2 于洪1,2 (1重庆邮电大学计算机科学与技术研究所重庆400065) (2Department of Computer Science, University of Regina, Regina, Canada S4S 0A2) {wanggy, yuhong}@https://www.360docs.net/doc/f1419897.html,, yyao@cs.uregina.ca 摘要本文在阐释粗糙集理论基本体系结构的基础上,从多个角度探讨粗糙集模型的研究思路,分析粗糙集理论与模糊集、证据理论、粒计算、形式概念分析、知识空间等其他理论之间的联系,介绍国内外关于粗糙集理论研究的主要方向和发展状况,讨论当前粗糙集理论研究的热点研究领域,以及将来需要重点研究的主要问题。 关键词粗糙集,模糊集,粒计算,形式概念分析,知识空间,智能信息处理 A Survey on Rough Set Theory and Its Application Wang Guo-Yin1Yao Yi-Yu2 Yu Hong1,2 1 Institute of Computer Science and Technology, Chongqing University of Posts and Telecommunications, Chongqing, 400065 2 Department of Computer Science, University of Regina, Regina, Saskatchewan, Canada, S4S 0A2 Abstract This paper introduces the basic ideas and framework of rough set theory and the different views of knowledge representation in rough set theory, and then discusses the relations between the rough set theory and the other theories, such as fuzzy set, evidence theory, granular computing, formal concept analyzing, knowledge space, etc. Furthermore, the paper reviews the recent studies for this theory and a survey on its applications is also given. The future development trend of rough set theory is also discussed. Keywords rough set, fuzzy set, granular computing, formal concept analyzing, knowledge space, intelligent information processing 1 引言 智能信息处理是当前信息科学理论和应用研究中的一个热点领域。由于计算机科学与技术的发展,特别是计算机网络的发展,每日每时为人们提供了大量的信息,信息量的不断增长,对信息分析工具的要求也越来越高,人们希望自动地从数据中获取其潜在的知识。特别是近20年间,知识发现(规则提取、数据挖掘、机器学习)受到人工智能学界的广泛重视,知识发现的各种不同方法应运而生。 粗糙集(Rough Set,有时也称Rough集、粗集)理论是Pawlak教授于1982年提出的一种能够定量分析处理不精确、不一致、不完整信息与知识的数学工具[1]。粗糙集理论最初的原型来源于比较简单的信息模型,它的基本思想是通过关系数据库分类归纳形成概念和规则,通过等价关系的分类以及分类对于目标的近似实现知识发现。 由于粗糙集理论思想新颖、方法独特,粗糙集理论已成为一种重要的智能信息处理技术[2-4],该理论已经在机器学习与知识发现、数据挖掘、决策支持与分析等方面得到广泛应用。目前,有三个有关粗糙集的系列国际会议,即:RSCTC、RSFDGrC和RSKT。中国学者在这方面也取得了很大的成果,从2001年开始每年召开中国粗糙集与软计算学术会议;RSFDGRC2003、IEEE GrC2005、RSKT2006、IFKT2008、RSKT2008、IEEE GrC2008等一系列国际学术会议在中国召开。 粗糙集理论与应用的核心基础是从近似空间导出的一对近似算子,即上近似算子和下近似算子(又称上、下近似集)。经典Pawlak模型中的不分明关系是一种等价关系,要求很高,限制了粗糙集模型的应用。因此,如何推广定义近似算子成为了粗糙集理论研究的一个重点。 目前,常见的关于推广粗糙集理论的研究方法有两种,即:构造化方法和公理化方法。构造化方法是以论域上的二元关系、划分、覆盖、邻域系统、布尔子代数等作为基本要素,进而定义粗糙近似算子,从而导出粗糙集代数系统。公理化方法的基本要素是一对满足某些公理的一元集合算子,近似算子的某些公理能保证有一些特殊类型的二元关系的存在;反过来, 由二元关系通过构造性方法导出的近似算子一定满足某些公理。 事实上,有两种形式来描述粗糙集,一个是从集

粗糙集理论及其应用综述

控制理论与应用 CONTROL THEORY & APPLICATIONS 1999年 第16卷 第2期 Vol.16 No.2 1999 粗糙集理论及其应用综述* 韩祯祥 张琦 文福拴 摘要:粗糙集理论是一种较新的软计算方法,可以有效地分析和处理不完备信息.该理论近年日益受到国际学术届的重视,已经在模式识别、机器学习、决策支持、过程控制、预测建模等许多科学与工程领域得到成功的应用.本文介绍了粗糙集理论的基本概念,对其在各领域的应用情况进行了综述. 关键词:粗糙集;不确定性;数据分析;软计算;粗糙控制 A Survey on Rough Set Theory and Its Application Han Zhenxiang, Zhang Qi and Wen Fushuan (Department of Electrical Engineering, Zhejiang University.Hangzhou,310 027,P.R.China) Abstract: Rough set theory is a relatively new soft comput ingtool to deal with vagueness and uncertainty.It has received much attention of the researchers around the world.Rough set theory has been applied to many area s successfully including pattern recognition,machine learning,decision support, process control and predictive modeling.This paper introduces the basic concepts of rough set.A survey on its applicatoins is also given. Key words: rough set; uncertainty; data analysis; soft computing; rough control 1 引言(Introduction) 粗糙集(Rougn Set,RS)理论是一种刻划不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律[1].RS理论是由波兰学者Pawlak Z在1982年[2]提出的.1991年Pawlak Z出版了专著[3],系统全面地阐述了RS理论,奠定了严密的数学基础.该书与1992年出版的RS理论应用专集[4]较好地总结了这一时期RS理论与实践的研究成果,促进了它的进一步发展,现已成为学习和应用RS理论的重要文献.从1992年至今,每年都召开以RS 为主题的国际会议,推动了RS理论的拓展和应用.国际上成立了粗糙集学术研究会,参加的成员来自波兰、美国、加拿大、日本、挪威、俄罗斯、乌克兰和印度等国家.目前RS理论已成为人工智能领域中一个较新的学术热点,引起了越来越多的科研人员的关注. 2 粗糙集理论的基本概念(Basic concepts of rough set theory) 2.1 知识与不可分辨关系(Knowledge and indiscern ibility relation) 在RS理论中,“知识”被认为一种将现实或抽象的对象进行分类的能力[3].假定

粗糙集理论介绍(对于初学者来说,很经典的滴)

粗糙集理论介绍面对日益增长的数据库,人们将如何从这些浩瀚的数据中找出有用的知识?我们如何将所学到的知识去粗取精?什么是对事物的粗线条描述什么是细线条描述?粗糙集合论回答了上面的这些问题。要想了解粗糙集合论的思想,我们先要了解一下什么叫做知识?假设有8个积木构成了一个集合A,我们记:A={x1,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色属性,按照颜色的不同,我们能够把这堆积木分成R1={红,黄,兰}三个大类,那么所有红颜色的积木构成集合X1={x1,x2,x6},黄颜色的积木构成集合X2={x3,x4},兰颜色的积木是:X3={x5,x7,x8}。 按照颜色这个属性我们就把积木集合A进行了一个划分(所谓A的划分就是指对于A中的任意一个元素必然属于且仅属于一个分类),那么我们就说颜色属性就是一种知识。在这个例子中我们不难看到,一种对集合A的划分就对应着关于A中元素的一个知识,假如还有其他的属性,比如还有形状R2={三角,方块,圆形},大小R3={大,中,小},这样加上R1属性对A构成的划分分别为:A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7,x8}} (颜色分类)A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6,x7}} (形状分类)A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4,x7}} (大小分类) 上面这些所有的分类合在一起就形成了一个基本的知识库。那么这个基本知识库能表示什么概念呢?除了红的{x1,x2,x6}、大的{x1,x2,x5}、三角形的{x1,x2}这样的概念以外还可以表达例如大的且是三角形的{x1,x2,x5}∩{x1,x2}={x1,x2},大三角{x1,x2,x5}∩{x1,x2}={x1,x2},兰色的小的圆形({x5,x7,x8}∩{x3,x4,x7}∩{x3,x4,x6,x7}={x7},兰色的或者中的积木{x5,x7,x8}∪{x6,x8}={x5,x6,x7,x8}。而类似这样的概念可以通过求交运算得到,比如X1与Y1的交就表示红色的三角。所有的这些能够用交、并表示的概念以及加上上面的三个基本知识(A/R1,A/R2.A/R3)一起就构成了一个知识系统记为R=R1∩R2∩R3,它所决定的所有知识是A/R={{x1,x2},{x3},{x4},{x5},{x6},{x7},{x8}}以及A/R中集合的并。 下面考虑近似这个概念。假设给定了一个A上的子集合X={x2,x5,x7},那么用我们的知识库中的知识应该怎样描述它呢?红色的三角?****的大圆?都不是,无论是单属性知识还是由几个知识进行交、并运算合成的知识,都不能得到这个新的集合X,于是我们只好用我们已有的知识去近似它。也就是在所有的现有知识里面找出跟他最像的两个一个作为下近似,一个作为上近似。于是我们选择了“兰色的大方块或者兰色的小圆形”这个概念:{x5,x7}作为X的下近似。选择“三角形或者兰色的”{x1,x2,x5,x7,x8}作为它的上近似,值得注意的是,下近似集是在那些所有的包含于X的知识库中的集合中求并得到的,而上近似则是将那些包含X的知识库中的集合求并得到的。一般的,我们可以用下面的图来表示上、下近似的概念。这其中曲线围的区域是X的区域,蓝色的内部方框是内部参考消息,是下近似,绿的是边界加上蓝色的部分就是上近似集。其中各个小方块可以被看成是论域上的知识系统所构成的所有划分。整个粗集理论的核心就是上面说的有关知识、集合的划分、近似集合等等概念。 下面我们讨论一下关于粗糙集在数据库中数据挖掘的应用问题。考虑一个数据库中的二维表如下:元素颜色形状大小稳定性 x1 红三角大稳定 x2 红三角大稳定 x3 黄圆小不稳定 x4 黄圆小不稳定 x5 兰方块大稳定 x6 红圆中不稳定 x7 兰圆小不稳定 x8 兰方块中不稳定 可以看出,这个表就是上面的那个例子的二维表格体现,而最后一列是我们的决策属性,也就是说评价什么样的积木稳定。这个表中的每一行表示了类似这样的信息:红色的大三角积木稳定,****的小圆形不稳定等等。我们可以把所有的记录看成是论域A={x1,x2,x3,x4,x5,x6,x7,x8},任意一个列表示一个属性构成了对论域的元素上的一个划分,在划分的每一个类中都具有相同的属性。而属性可以分成两大类,一类叫做条件属性:颜色、形状、大小都是,另一类叫做决策属性:最后一列的是否稳定? 下面我们考虑,对于决策属性来说是否所有的条件属性都是有用的呢?考虑所有决策属性是“稳定”的集合

粗糙集理论分析及其应用研究

1、前言 随着信息技术的飞速发展和广泛应用,面对信息系统中不完整、不精确或不确定的数据如何有效分析处理?如何发现隐藏在信息系统中的有用知识和潜在的规律?为了解决这些问题,学术界和研究者们采用了粗糙集理论。粗糙集理论是由波兰数学家 Z.Pawlak 在1982年提出的[1],它是一种分析处理不完整性、不精确性、不确定性知识的数学工具。该理论不需要任何初始或附加信息,直接利用已知的知识库,将知识库中的不确定或不精确的知识进行近似的划分,并对所划分的知识域确定其支持程度。 目前,该理论已成为信息科学和认识科学领域的研究热点之一,随着研究的深入,该理论得到了很大的发展和壮大,并已成功应用于人工智能、模式识别与分类、知识发现与决策分析、专家系统、数据挖掘、故障检测、金融、医学、生物学等领域。 2、粗糙集的基本理论定义 粗糙集理论是一种研究不完整、不确定性知识的数学工具[2]。在信息系统中,对知识的理解和表示是人们首先思考的问题,同时也是比较难解决的问题,从目前研究来看,对这些问题的解决,粗糙集理论和技术是比较理想的方法。 定义1:(信息系统)设一个信息系统[3]S=(U,A,V,f),这里, 粗糙集理论分析及其应用研究 覃宝灵 (佛山科学技术学院信息与教育技术中心 广东佛山 528000) 摘要:本文阐述粗糙集理论的基本概念,探讨粗糙集理论中知识约简和规则提取的重要性,通过分析、比较,把这些理论和技术应用于实际中,取得了显著的效果,对其在信息系统中的应用具有一定的研究价值。 关键词:粗糙集;知识约简;规则提取;遗传算法 ①U是对象的非空有限集合,即称为论域,记为:U={x 1,x 2,…,x n }; ②A是属性的非空有限集合,记为:A={A 1,A 2,…,A m }; ③V是属性的值域集,记为:V={V 1,V 2,…,V m },且V i 是属性A i 的值域; ④f是信息函数,即f:U×A→V,f(x i ,A j )∈V j 。在信息系统中,若属性集合A由条件属性集合C和决策属性集合D组成,且C∪D=A,C∩D=Ф,则称S为决策系统,又称决策表。 定义2:(等价关系)设知识表示系统S=(U,A ,V,f),若属性集合 时,称P的不可分辨关系Ind(P) 是U上的等价关系,其中Ind(P)={(x,y)∈U × U |,f(x,a)= f(y,a)}。由Ind(P)导出的所有等价类 集合记为U/P,它构成了论域的一个划分,含有元素x的等价类,记为[x]p 。 定义3:(下近似、上近似、边界域)设是一个集合,R是一个定义在U上的等价关系。有: ①若R一(X)=U{Y∈U/R:Y∈X},则称R一(X)为X的R下近似集; ②若R一(X)=U{Y∈U/R:Y∩X≠Ф},则称R一(X)为X的R上近似集; ③若R(X)=R一(X)一R一(X),则称R(X)为集合X的边界域。若R(X)是空集,则称集合X关于集合R是清晰的;反之,称集合X为关于集合R的粗糙集。 定义4:设R是一族等价关系,且{R}∈R,若

粗糙集理论及其应用与发展研究

Computer Knowledge And Technology电脑知识与技术2008年第4卷第1期(总第28期) 粗糙集理论及其应用与发展研究 韦良 (同济大学电子与信息工程学院,上海201804) 摘要:粗糙集理论是一种研究不精确、不确定性、处理不完备知识的数学工具,目前被广泛应用于人工智能、模式识别、机器学习、决策支持和数据挖掘等领域。该文通过介绍粗糙集理论及特点,叙述了粗糙集理论在各领域的应用发展情况,并且展望了其未来发展趋势。 关键词:粗糙集;属性约简;粗糙集应用;数据挖掘 中图分类号:TP18文献标识码:A文章编号:1009-3044(2008)28-0172-03 Rough Set Theory and Its Application Research WEI Liang (Electronics and Information School,Tongji University,Shanghai201804,China) Abstract:Rough set theory is a math theory which processes non-accurate,uncertain and incomplete knowledge.Currently,it has already been applied successfully in the area of Artificial Intelligence,Pattern Recognition,Machine Learning,Decision Analyzing and Data Mining etc.This paper introduces the rough set theory and its characteristics,reviews the development of this theory in different fields,and suggests evolutional trend in the coming future. Key words:rough set;attribute reduction;rough set application;data mining 1引言 波兰数学家Pawlak于1982年提出的粗糙集理论是一种新的处理模糊和不确定性知识的数学工具[1]。其主要思想就是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。粗糙集理论能有效地分析和处理不精确、不一致和不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。以粗糙集理论为基本框架的知识发现过程的研究,越来越引起人们的关注,特别是将粗糙集理论与机器学习、模式识别、数据库理论等相结合,并融合其它有效的数学工具与方法的研究,显示出基于粗糙集理论的多种软计算方法相结合算法在知识发现和优化过程中的强大的优越性,为知识发现的理论基础提供了一定的依据。目前粗糙集理论已成为人工智能领域中一个较新的学术热点,引起了越来越多科研人员的关注。 2粗糙集理论的基本概念 设U是非空有限论域,R是U上的二元等价关系,R称为不可分辨关系,序对A=(U,R)称为近似空间。坌(x,y)∈U×U,若(x,y)∈R,则称对象x与y在近似空间A中是不可分辨的。U/R是U上由R生成的等价类全体,它构成了U的一个划分。可以证明,U上划分可以与U上的二元等价关系之间建立一一对应。U/R中的集合称为基本集或原子集。若将U中的集合称为概念或表示知识,则A= (U,R)称为知识库,原子集表示基本概念或知识模块。任意有限的基本集的并和空集均称为可定义集,否则称为不可定义的。可定义集也称为精确集,它可以在知识库中被精确地定义或描述,可表示已知的知识。可以验证所有可定义集全体可构成U上的一个拓扑。 令知识库K=(U,R),集合X哿U,R是一个等价关系: 分别称RX为X的R下近似(Lower Approximation)和RX为X的R上近似(Upper Approximation)。称集合BN R(X)=RX-RX为X 的R边界域;POS R(X)RX为X的R正域;NEG R(X)=U-RX为X的R负域。 下近似RX包含了所有使用知识R可确切分类到概念X的元素。上近似 RX则包含了所有那些可能是属于概念X的元素。概念的边界区域BN R(X) 由不能肯定分类到这个概念X或其补集X中的所有元素组成。关系如图1 所示。 刻画粗糙集的方法有以下两种:一种是用表示近似精度的数值表示粗 糙集的数字特征;数字特征表示粗糙集边界域的相对大小,但没有说明边 界域的结构。另一种是用粗糙集的拓扑分类表示粗糙集的拓扑特征。拓扑 特征给出边界域的结构信息,但没有给出边界域大小的信息。 由等价关系R定义的集合X的近似精度如下: 收稿日期:2008-07-03 作者简介:韦良(1982-),男(朝鲜族),黑龙江牡丹江人,在读硕士研究生,研究方向:数据挖掘,人工智能,粗糙集应用。 图1概念的上近似、下近似和区域表示 ISSN1009-3044 Computer Knowledge And Technology电脑知识与技术 Vol.4,No.1,October2008,pp.172-174 E-mail:eduf@https://www.360docs.net/doc/f1419897.html, https://www.360docs.net/doc/f1419897.html, Tel:+86-551-56909635690964 172 本栏目责任编辑:唐一东人工智能及识别技术

粗糙集理论与应用发展

粗糙集理论与应用发展 1、引言 粗糙集( roughs ets,RS)理论是20世纪80年代初由波兰科学家Pawlak提出的[1]。其主思想就是在保持分类能力不变的前提下,通过知识约简,导出概念的分类规则。它从一个新的角度将知识定义为对论域的划分能力,并将其引入数学中的等价关系来进行讨论,从而为数据分析,特别是不精确、不完整数据分析提供了一套新的数学方法。同时,粗糙集理论具有无需提供除问题所需处理的数据集合之外的任何先验信息,仅根据观测数据删除冗余信息, 比较不完整知识的程度—粗糙度、属性间的依赖性与重要性,抽取分类规则等的能力。近几年,这个理论已得到空前的发展,无论在理论本身研究方面,还是在理论应用方面都取得了令人瞩目的成果。 2、粗糙集理论简介 粗糙集理论是建立在分类机制的基础之上的,不可区分关系的概念是粗糙集理论的基础。信息系统S由论域U和等价关系集A构成,表示成S=(U,A),不可区分关系ind(A)是信息系统S上的一个等价关系,它是A上全部等价关系的交集。信息系统S所表示的知识可理解为*对论域U划分的结果。不可区分关系的等价类构成了信息系统表示的知识的最小粒度,这个粒度内的对象不可区分。正是由于知识的粒度性,造成使用已有知识不能精确地表示某些概念。为此,在不可区分关系基础上定义了上下近似,使粗糙集理论能够有效地逼近这些概念。令XCU是论域上对象的一个集合,BCA是一族等价关系,CXIs表示元素x在B 下的等价类,则B( X )二 {xEU}Cxls(=X)B( X) 二

粗糙集理论及其发展

龙源期刊网 https://www.360docs.net/doc/f1419897.html, 粗糙集理论及其发展 作者:张也驰 来源:《管理观察》2010年第16期 摘要:粗糙集理论以其出色的处理模糊和不确定知识的能力,在数据挖掘领域占据了越来越重要的地位。文章首先描述了粗糙集理论的核心思想,接着介绍了粗糙集理论在不完备信息系 统领域的扩充,最后论述了粗糙集理论的应用发展以及未来的研究方向。 关键词:粗糙集机器学习不完备信息系统数据挖掘 1.引言 粗糙集理论[1]是由波兰数学家Z. Pawlak于20世纪80年代提出的一种新的处理不精确性和不确定性信息的数学方法。之后国内外许多学者对粗糙集理论及其应用进行了坚持不懈的研究。1991年,Pawlak出版了第一本关于粗糙集理论的专著,详细介绍了粗糙集的理论基础,它奠定了粗糙集理论的基础,但由于最初关于粗糙集理论的研究大部分是用波兰语发表的,当时并没有引起国际计算机学界和数学界的重视;1992年,在波兰Kiekrz召开了第一届国际粗糙集研讨会, 从此每年一次以粗糙集理论为主题的国际研讨会以及粗糙集学术研究会的成立,推动了国际上 对粗糙集理论与应用的深入研究。1995年,Z. Pawlak概括性地介绍了粗糙集理论[2]的基本概念及其具体研究进展。我国对粗糙集理论的研究起步较晚。 粗糙集理论是建立在分类机制基础上的,它将知识理解为对数据的划分,每一个被划分的集合称为概念或范畴,其主要思想是利用已有的知识库,将不精确知识用已知知识库中的知识来(近似)刻画。与其他处理不精确性和不确定性信息的理论相比,该理论的一个最主要的优点是其无需提供任何除现有知识以外的任何先验知识,从而具有相当的客观性。近年来,由于粗糙集理论在人工智能和认知科学中日益呈现出的重要性和优越性,特别是在机器学习、数据挖掘、决策 分析、数据库知识发现、专家系统、决策支持系统、归纳推理和模式识别等领域,受到越来越 多的研究人员的关注。 2.粗糙集理论的基本概念 粗糙集理论作为一种处理模糊和不确定性知识的数学工具,其主要思想是在保持分类能力 不变的前提下,经过知识约简,导出问题的决策或分类规则。即粗糙集理论是建立在不可分辨关系基础知识的,不可分辨关系构成了粗糙集理论的数学基础。 2.1 知识表达系统和决策表

粗糙集理论论文

粗糙集理论浅析 粗糙集理论,是继概率论、模糊集、证据理论之后的又一个处理不确定性的数学工具。作为一种较新的软计算方法,粗糙集近年来越来越受到重视,其有效性已在许多科学与工程领域的成功应用中得到证实,是当前国际上人工智能理论及其应用领域中的研究热点之一。在很多实际系统中均不同程度地存在着不确定性因素,采集到的数据常常包含着噪声,不精确甚至不完整。 一、引言 粗糙集作为一种处理不精确、不确定与不完全数据的新的数学理论, 最初是由波兰数学家Z. Paw lak于1982年提出的。由于最初关于粗糙集理论的研究大部分是用波兰语发表的, 因此当时没有引起国际计算机学界和数学界的重视, 研究地域也仅局限在东欧一些国家, 直到20世纪80年代末才逐渐引起各国学者的注意。近几年来, 由于它在机器学习与知识发现、数据挖掘、决策支持与分析等方面的广泛应用, 研究逐渐趋热。1992年, 第一届关于粗糙集理论国际学术会议在波兰召开。1995年,A CM Com 2m unication 将其列为新浮现的计算机科学的研究课题。1998年, 国际信息科学杂志( Infor2m ation Sciences) 还为粗糙集理论的研究出了一期专辑。 粗糙集理论是建立在分类机制的基础上的, 它将分类理解为在特定空间上的等价关系, 而等价关系构成了对该空间的划分。粗糙集理论将知识理解为对数据的划分, 每一被划分的集合称为概念。粗糙集理论的主要思想是利用已知的知识库, 将不精确或不确定的知识用已知的知识库中的知识来(近似) 刻画。该理论与其他处理不确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息, 所以对问题的不确定性的描述或处理可以说是比较客观的, 由于这个理论未能包含处理不精确或不确定原始数据的机制, 所以这个理论与概率论, 模糊数学和证据理论等其他处理不确 定或不精确问题的理论有很强的互补性。 二、基本概念 粗糙集是一种较有前途的处理不确定性的方法,相信今后将会在更多的领域中得到应用. 但是,粗糙集理论还处在继续发展之中,正如粗糙集理论的创立人Z. Paw lak 所指出的那样,尚有一些理论上的问题需要解决,诸如用于不精确推理的粗糙逻辑(Rough logic) 方法,粗糙集理论与非标准分析(Nonstandard analysis) 和非参数化统计(Nonparametric statistics)等之间的关系等等. 将粗糙集与其它软计算方法(如模糊集,人工神经网络,遗传算法等)相综合,发挥出各自的优点,可望设计出具有较高的机器智商(M IQ) 的混合智能系统(Hybrid Intelligent System),这是一个值得努力的方向。 三、粗糙集理论中的知识表示 “知识”这个概念在不同的范畴内有多种不同的含义。在粗糙集理论中,“知识”被认为是一种分类能力。人们的行为是基于分辨现实的或抽象的对象的

粗糙集理论RS

RS理论 一、定义: 粗糙集理论,是继概率论、模糊集、证据理论之后的又一个处理不确定性的数学工具。它是当前国际上人工智能理论及其应用领域中的研究热点之一。 在自然科学、社会科学和工程技术的很多领域中,都不同程度地涉及到对不确定因素和对不完备(imperfect) 信息的处理。从实际系统中采集到的数据常常包含着噪声,不够精确甚至不完整,对这些信息进行合适地处理,常常有助于相关实际系统问题的解决。 二、对比的理论: 模糊集和基于概率方法的证据理论是处理不确定信息的两种方法,已应用于一些实际领域。但这些方法有时需要一些数据的附加信息或先验知识,如模糊隶属函数、基本概率指派函数和有关统计概率分布等,而这些信息有时并不容易得到。 概率与统计、证据理论:理论上还难以令人信服,不能处理模糊和不完整的数据。 模糊集合理论:能处理模糊类数据,但要提供隶属函数(先验知识)。 RS理论与其他处理不确定和不精确问题理论的最显著的区别是:它无需提供问题所需处理的数据集合之外的任何先验信息,所以对问题的不确定性的描述或处理可以说是比较客观的。 由于这个理论未能包含处理不精确或不确定原始数据的机制,所以这个理论与概率论、模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性。 三、不足: 粗糙集理论还处在继续发展之中,尚有一些理论上的问题需要解决,诸如用于不精确推理的粗糙逻辑(Rough logic) 方法,粗糙集理论与非标准分析(Nonstandard analysis) 和非参数化统计(Nonparametric statistics)等之间的关系等。 四、由来: 1982年波兰学者Z. Paw lak 提出了粗糙集理论——它是一种刻画不完整性和不确定性的数学工具,能有效地分析不精确,不一致(inconsistent)、不完整(incomplete) 等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。 五、特点: (1) 它能处理各种数据,包括不完整(incomplete) 的数据以及拥有众多变量的数据; (2) 它能处理数据的不精确性和模棱两可(ambiguity),包括确定性和非确定性的情况; (3) 它能求得知识的最小表达(reduct) 和知识的各种不同颗粒(granularity) 层次; (4) 它能从数据中揭示出概念简单,易于操作的模式(pattern) ; (5) 它能产生精确而又易于检查和证实的规则,特别适于智能控制中规则的自动生成. 在粗糙集理论中,“知识”被认为是一种分类能力。粗糙集理论的主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来(近似)刻画。它的一个重要特点是具有很强的数据定性分析能力,可直接对不完整性和不确定性的数据进行分析处理,提取有用属性,简化知识表达式。 六、前景 将粗糙集与其它软计算方法(如模糊集,人工神经网络,遗传算法等)相综合,发挥出各自的优点,可望设计出具有较高的机器智商(MIQ) 的混合智能系统(Hybrid Intelligent System),这是一个值得努力的方向。 软计算(sof t compu t ing) 的概念是由模糊集创始人Zadeh[ 9 ]提出的. 软计算中的主要工具包括粗糙集,模糊逻辑(FL),神经网络(NN),概率推理(PR),信度网络(Belief Networks),遗传算法(GA) 与其它进化优化算法,混沌(Chaos) 理论等. 传统的计算方法即所谓的硬

相关文档
最新文档