图表示下的知识约简_苗夺谦
粒计算研究综述

第2卷第6期 智 能 系 统 学 报 V ol.2 .62007年12月 CAAI T ransactions on Intelligent Systems D ec.2007粒计算研究综述王国胤1,2,张清华1,2,胡 军1,3(1.重庆邮电大学计算机科学与技术研究所,重庆400065; 2.西南交通大学信息科学与技术学院,四川成都610031;3.西安电子科技大学电子工程学院,陕西西安710071)摘 要:粒计算(gr anular computing)是当前计算智能研究领域中模拟人类思维和解决复杂问题的新方法.它覆盖了所有有关粒度的理论、方法和技术,是复杂问题求解、海量数据挖掘、模糊信息处理的有效工具.首先回顾了粒计算研究和发展状况,介绍了粒计算的基本组成和问题,综述了粒计算的基本模型和方法,并讨论了它们之间的相互关系,最后探讨了构建统一的粒计算模型、复杂问题空间的粒化、粒层之间的转换、高效的粒计算方法、新的粒计算模型、动态粒计算模型、自主粒计算模型、粒计算方法的模糊化以及粒计算模型的应用和推广等几个方面的关键问题.关键词:粒计算;数据挖掘;智能信息处理;粗糙集;模糊集;商空间中图分类号:T P18 文献标识码:A 文章编号:1673 4785(2007)06 0008 19An overview of granular computingWAN G Guo yin 1,2,ZHANG Qing hua 1,2,HU Jun 1,3(1.Institute of Comput er Science &T echno lo gy ,Cho ng qing U niversit y of Po st s and T eleco mmunications,Chong qing 400065,China;2.Scho ol of Infor matio n Science &T echnolog y,Southwest Jiao tong U niv ersit y,Chengdu 610031,China; 3.School of Electro nic Engineer ing,Xidian U niver sity,Xi an 710071,China)Abstract:In the field of com putational intelligence,granular computing (GrC)is a new w ay to simulate hu m an thinking to help solve co mplicated problems.Gr C involv es all the theories,methodo logies and tech niques o f granularity,pr oviding a pow erful to ol for the so lution of complex problems,m assiv e data min ing,and fuzzy information pr ocessing.In this paper,first the current situation and the developm ent pros pects of GrC are introduced,then the fundamental and ex isting problem s r elated to GrC ar e presented and its basic models and metho ds summ arized.Finally,som e future research topics abo ut GrC are presented,such as,uniform granular co mputing mo del,granulation of complex pro blem space,transform ation be tw een granule spaces,efficient g ranular co mputing algor ithm,nov el g ranular co mputing model,dy namic granular co mputing m odel,data driven g ranular co mputing m odel,fuzzy gr anular co mputing method,and the applications of gr anular computing models,etc.Keywords:g ranular computing;data m ining;intelligent inform ation processing;roug h sets;fuzzy sets;quotient space收稿日期:2007 04 02.基金项目:国家自然科学基金资助项目(60573068);新世纪优秀人才支持计划;重庆市教委科学技术研究资助项目(KJ060517).自Zadeh 1979年发表论文!Fuzzy sets and in form ation granularity ∀以来[1],研究人员对信息粒度化的思想产生了浓厚的兴趣.Zadeh 认为很多领域都存在信息粒的概念,只是在不同领域中的表现形式不同.自动机与系统论中的!分解与划分∀、最优控制中的!不确定性∀、区间分析里的!区间数运算∀、以及D S 证据理论中的!证据∀都与信息粒密切相关.H obss 在1985年直接用!粒度(granularity)∀作为论文题目发表论文[2],讨论了粒的分解和合并,以及如何得到不同大小的粒,并提出了产生不同大小粒的模型.Lin 在1988年提出邻域系统并研究了邻域系统与关系数据库之间的关系[3].1996年,他在U C Berkeley 大学访问时,向Zadeh 提出作!granular computing∀的研究,Zadeh称之为!g ranular mathematics∀,Lin改称为!granular co mputing∀,并缩写成Gr C.他发表了一系列关于粒计算与邻域系统的论文[4-10],主要是研究二元关系(邻域系统、Rough集和信任函数)下的粒计算模型,论述基于邻域系统的粒计算在粒结构、粒表示和粒应用等方面的问题,讨论了粒计算中的模糊集和粗糙集方法,并将粒计算方法引入数据挖掘和机器发现.依据人们在解决问题时能从不同的粒度世界去分析和观察同一问题,并且很容易地从一个粒度世界转到另一个粒度世界,张钹和张铃在1990年针对复杂问题求解,建立了一种复杂问题求解的商结构形式化体系,给出了一套解决信息融合、启发式搜索、路径规划和推理等问题的理论和算法[11-12].1997年,Zadeh进一步指出[13],世上有3个基本概念构成人类认知的基础:粒化、组织及因果关系.其中,粒化是整体分解为部分,组织是部分结合为整体,而因果关系则涉及原因与结果间的联系.物体的粒化产生一系列的粒子,每个粒子即为一簇点(物体),这些点难以区别,或相似、或接近、或以某种功能结合在一起.一般来说,粒化在本质上是分层次的,时间可粒化为年、月、日、小时、分、秒就是大家熟悉的例子.在Lin的研究基础上,Yao结合邻域系统对粒计算进行了详细的研究[14-16],发表了一系列研究成果[17-22],并将它应用于知识挖掘等领域,建立了概念之间的if then规则与粒度集合之间的包含关系,提出利用由所有划分构成的格求解一致分类问题,为数据挖掘提供了新的方法和视角.结合粗糙集理论,Yao探讨了粒计算方法在机器学习、数据分析、数据挖掘、规则提取、智能数据处理和粒逻辑等方面的应用.Yao给出了粒计算的3种观点[22]:1)从哲学角度看,粒计算是一种结构化的思想方法;2)从应用角度看,粒计算是一个通用的结构化问题求解方法;3)从计算角度看,粒计算是一个信息处理的典型方法.随着粒计算研究的发展,近年来国内外又有很多学者加入到了粒计算研究的领域.为了探讨粗糙集理论在各种环境下的应用,Skow r on[23-27]以包含度概念来研究粒近似空间上的Rough下近似和Rough上近似.刘清[28-30]在Roug h逻辑的基础上,提出了粒-逻辑的概念(G 逻辑),构造了这种逻辑的近似推理系统,并应用于医疗诊断.近几年来,在掀起粒计算研究的热潮中,商空间理论被人们广泛认识和推广,2003年张铃和张钹将模糊概念与商空间理论结合,提出模糊商空间理论,为粒计算提供了新的数学模型和工具,并成功应用于数据挖掘等领域[31-35].2002年苗夺谦等人[36]对知识的粒计算进行探讨,引入属性的重要度,并在求最小属性约简方面得到应用.王飞跃等人[37]对词计算和语言动力学进行了探讨,以词计算为基础,对问题进行动态描述、分析和综合,提出了设计、控制和评估的语言动力学系统.王国胤等人[38-44]提出了基于容差关系的粒计算模型,利用属性值上的容差关系给出了不完备信息系统的粒表示、粒运算规则和粒分解算法,同时结合粗糙集中的属性约简问题,提出了不完备信息系统在粒表示下属性必要性的判定条件,对粒计算方法在规则提取方面进行了探索.郑征等人[45-47]提出了相容粒度空间模型,并在图像纹理识别和数据挖掘中取得了成功,他们认为,人类具有根据具体的任务特性把相关数据和知识泛化或者特化成不同程度、不同大小的粒的能力,以及进一步根据这些粒和粒之间的关系进行问题求解的能力.卜东波等人[48]从信息粒度的角度剖析聚类和分类技术,试图使用信息粒度原理的框架来统一聚类和分类,指出从信息粒度的观点来看,聚类是在一个统一的粒度下进行计算,而分类却是在不同的粒度下进行计算,并根据粒度原理设计了一种新的分类算法,大规模中文文本分类的应用实践表明,这种分类算法有较强的泛化能力.Zhang等人[49-50]对粒神经网络进行了探讨,并在高效知识发现中得到很好的应用.李道国等人[51]研究了基于粒向量空间的人工神经网络模型,在一定程度上提高了人工神经网络的时效性、知识表达的可理解性.杜伟林等人[52]根据概念格[53]与粒度划分在概念聚类的过程中都是基于不同层次的概念结构来进行分类表示,而且粒度划分本身构成一个格结构的特点,研究了概念格与粒度划分格在概念描述与概念层次转换之间的联系,通过对概念的分层递阶来进行概念的泛化与例化,使概念在递阶方面忽略不必要的冗余信息.Yager[54]探讨了基于粒计算的学习方法和应用.Lin[55]在2006年粒计算国际会议上提出了新的研究思路!infrastruc tures for AI engineering∀.同时,Bargiela和Pe dry cz[56]也从各个侧面对粒计算的根源和实质进行了详细的探讨和总结.Yag er指出,发展信息粒的操作方法是当前粒计算研究的一个重要任务[57].1 粒计算的基本组成粒计算的基本组成主要包括3部分:粒子、粒层#9#第6期 王国胤,等:粒计算研究综述和粒结构.1 1 粒 子粒子是构成粒计算模型的最基本元素[58-59],是粒计算模型的原语.一个粒可以被解释为许多小颗粒构成的一个大个体,现实生活中,粒子无处不在,如在地图上观察洲、国家、海洋、大陆和山脉等是一些粗的粒子(大的粒子),观察省、市、区等是一些中等的粒子,而观察街道、饭店、机场等是一些相对较小的粒子.一个粒子可以被同时看作是由内部属性描述的个体元素的集合,以及由它的外部属性所描述的整体.一个粒子的存在仅仅在一个特定的环境中才有意义.一个粒子的元素可以是粒子,一个粒子也可以是另外一个粒子的元素.而衡量粒子!大小∀的概念是粒度,一般来讲,对粒子进行!量化∀时用粒度来反映粒化的程度[59].1 2 粒 层按照某个实际需求的粒化准则得到的所有粒子的全体构成一个粒层,是对问题空间的一种抽象化描述.根据某种关系或算子,问题空间产生相应的粒子.同一层的粒子内部往往具有相同的某种性质或功能.由于粒化的程度不同,导致同一问题空间会产生不同的粒层.粒层的内部结构是指在该粒层上的各个粒子组成的论域的结构,即粒子之间的相互关系.在问题求解中,选择最合适的粒层对于问题求解尤为关键,因为,在不同粒层求解同一问题的复杂度往往不同.在高一级粒层上的粒子能够分解成为下一级粒层上的多个粒子(增加一些属性),在低一级粒层上的多个粒子可以合并成高一级粒层上的粒子(忽略一些属性).粒计算模型的主要目标是能够在不同粒层上进行问题求解,且不同粒层上的解能够相互转化.1 3 粒结构一个粒化准则对应一个粒层,不同的粒化准则对应多个粒层,它反应了人们从不同角度、不同侧面来观察问题、理解问题、求解问题.所有粒层之间的相互联系构成一个关系结构,称为粒结构[20].粒结构给出了一个系统或者问题的结构化描述.通过从系统思维、复杂系统理论和层次结构理论(技术)中得到的启发至少需要确定一个粒结构网[20]中3个层次的结构:粒子的内部结构、粒子集结构和粒子网的层次结构.粒子集的集体结构可以看作是全部层次结构中一个层次或者一个粒度视图中的结构.它本身可以看作是粒的内部连接网络.对于同一个系统或者同一个问题,许多解释和描述可能是同时存在的.所以,粒结构需要被模型化为多种层次结构,以及在一个层次结构中的不同层次.虽然一个粒子在某个粒层上被视为一个整体,但粒子内部元素(子粒子)的结构在问题求解时也很重要,因为它能提供粒子更为详细的特性.而在同一层上的粒子之间也具有某种特殊的结构,它们可能是相互独立,或者部分包含.如果同一粒层上的粒子之间的独立性越好,可能问题求解后合并起来越方便;反之,如果粒子之间的相关性越好,则问题求解后的合并工作相对越繁杂.粒子网的层次结构是对整个问题空间的概括,它的复杂性在一定程度上决定了问题求解的复杂程度.2 粒计算的基本问题粒计算中存在2个最基本的问题,即粒化和粒的计算.问题空间的粒化是指将问题空间分解为许多子空间,或是基于有用的信息和知识将问题空间中的个体聚集成不同的类,这些类称之为粒.粒中的元素可以理解为对应概念的实例.可以把粒计算和概念生成、知识发现和数据挖掘联系起来,因为概念生成的目的之一是对具有某些概念的粒的表示、特征化、描述和解释,而知识发现和数据挖掘就是在粒之间建立关联和因果等联系.2 1 粒 化粒化是问题求解空间的一个构造性过程,它可以简单理解为在给定粒化准则下得到一个粒层的过程,是粒计算基础单元的构建,包括粒子、粒视图、粒网和层次结构.在不同的粒化准则下就得到多个粒层,进而得到粒层的网络结构.通常的粒化方法有自顶而下通过分解粗粒子得到细粒子的方法,和自底向上将细粒子通过合并得到粗粒子的方法.粒化过程是粒计算的必要过程.问题空间的粒化过程主要涉及粒化准则、粒化算法(方法)、粒子和粒结构的表示(描述)以及粒子和粒结构的定性(定量)描述等问题[59].粒化准则主要是语义方面的问题,解决为什么2个对象能放进同一个粒子内的问题.它是根据实际问题求解的具体需求和具体精度要求得到的.粒化准则的一个基本要求是忽略掉那些无关紧要的细节,从而达到降低问题求解复杂度的目的.粒化方法面对实际问题,回答如何对问题空间进行粒化,采用什么算法或工具实现粒层的构造,它属于算法方面的问题.如在粗糙集理论中,如何对对象集进行划分产生粒层,如何高效实现属性的约简等问题.粒子的结构描述主要是用粒化方法得到的粒子,如何用形式化的语言表述出来,以便后面进行计算.例如在粗糙集理论模型中,粒子的表示可能是一个子集.而#10#智 能 系 统 学 报 第2卷在概念格理论中,粒子的表述就是一个概念,它包括概念的外延(一个对象子集)和内涵(一个属性子集) 2部分.粒结构的描述往往形式多样,在商空间理论模型中,粒结构是一种分层递阶的结构,在概念格模型中,粒结构是一种H asse图.粒子和粒结构的定性、定量描述主要指粒子和粒结构的大小(主要是指粒度的结果)和复杂性度量.当前,成功的粒化方法往往都是以将解空间形成划分空间为主要的目标,这样便于将子空间上的解合成原问题空间的解,商空间理论就是这样一个成功的实例.当然,如果用某种粒化方法形成的解空间不是划分(如覆盖),这将增加合成的复杂度.2 2 粒的计算以粒子为运算对象进行问题的求解或推理,是狭义的粒计算.粒计算可以通过系统访问粒结构来解决问题,包括在层次结构中向上和向下2个方向的交互,以及在同一层次内的移动,主要分为2种[59]:同一粒层上粒子之间相互转换和推理,不同粒层上粒子之间的转换或推理.不同粒层之间的联系可以由映射来表示,在不同粒层上同一问题以不同的粒度、不同的细节表示,粒层之间的映射就建立了同一问题的不同细节描述之间的关系.商空间理论模型就是通过自然投影建立了分层递阶的商空间链式结构.粒计算的主要特点是同一问题的解可以在不同粒层之间自由转化.正是基于这一点,人们才能用粒计算方法高效地实现复杂问题的求解.模糊商空间上的分层递阶结构可以通过模糊等价关系的截关系建立相应的转化联系;粗糙集理论中的划分粒度可以通过属性的增加或删减来控制;而概念格理论模型中的概念粒子的相互转化可以通过改变概念的内涵来实现.这些转化虽然方式不同,但一个共同的特点是在转化的过程中,问题求解的重要性质必须能在不同粒层上表现出来,这也是评价粒化方法好坏的一个重要指标.如果在粒化后粒层之间的相互转化过程中,某些重要属性不能体现出来,这不但不利于问题的求解,反而会导致问题求解过程发散,从而增加问题求解的复杂度.商空间理论模型中的!保真∀和!保假∀原理使得粒化后形成的商空间具有!保序∀性,使得问题求解的搜索空间大大减少,复杂度由相乘变为相加.粒计算的2个基本问题中,粒化是关键,它直接决定粒计算的成功与否.因此,粒化方法是人们研究的热点问题.目前,粒化方法很多,如基于等价关系的划分产生粒子[17],基于模糊集产生模糊信息粒[1],基于模糊等价关系截集产生分层递阶粒空间[35],基于概念格产生概念信息粒和概念知识粒[60],基于邻域系统产生邻域粒子[3]等等.总之,粒计算是一个多准则学科,它从许多领域中获得其基本的思想、准则和方法,是基于不同层次粒度和细节的问题求解的一般性理论.在粒计算的!大伞∀下进行统一的研究,可以发现不同学科之间原理的关联,它与具体的学科研究是相互独立的[59].一旦掌握了粒计算中的结构化思维和结构化问题求解的抽象思想,就可以很容易地在任何领域中运用.3 粒计算的主要模型与理论方法3 1 词计算模型高标准的精确表达,普遍存在于数学、化学、工程学和另外一些!硬∀科学之中,而不精确表达却普遍存在于社会、心理、政治、历史、哲学、语言、人类学、文学、文艺及相关的领域中[61].针对复杂且非明晰定义的现象,无法用精确的数学方法来描述,但可以用一些程度词语,如不很可能、十分不可能、极不可能等,来对某些模糊概念进行修饰.尽管普通的精确方法(如数学)在某些科学领域应用相当广泛,也一直尝试着应用到人文学科中,但人们在长期的实践中已经清楚地认识到精确的方法应用到人文学科有很大的局限性.面对巨大而又复杂的人文学科系统,区别于传统方法的新方法∃∃∃模糊计算方法被Zadeh提出.在人类的认识中,粒的模糊性直接源于无区别、相似性、接近性以及功能性等这些概念的模糊性.人类具有在不精确性、部分知识、部分确定以及部分真实的环境下作出合理决策这一不同寻常的能力,而模糊信息粒化正是这种能力的基础.在模糊逻辑中,模糊信息粒化是语言变量、模糊!if then∀规则以及模糊图的基础.词计算(com puting w ith w o rds)是用词语代替数进行计算及推理的方法[62].如何利用语言进行推理判断,这就要进行词计算.信息粒化为词计算提供了前提条件,词计算在信息粒度、语言变量和约束概念上产生了自己的理论与方法,意在解决模糊集合论的数值化隶属度函数表示法的局限性、表达的概念缺乏前后联系、逻辑表达和算子实现的复杂性等问题,使它们能够更符合人类的思维特点.词计算有狭义和广义2个方面的概念.狭义的模糊词计算理论是指利用通常意义下的数学概念和运算(如加、减、乘、除等)构造的带有语义的模糊数值型的词计算的理论体系;广义的词计算理论统指用词进行推理、用词构建原型系统和用词编程,前者是后者的基#11#第6期 王国胤,等:粒计算研究综述础[63].模糊逻辑在词计算中起中心作用,它可以近似地被认为与词计算相同[62].在词计算中存在2个核心问题:模糊约束的表现问题和模糊约束的繁殖问题,它们是模糊信息粒化的基本准则.信息粒化(infor mation granulation)是粒化的一种形式.在众多的信息粒化中,非模糊粒化的方法很多,如将问题求解空间形成划分空间,每个粒子都是精确的.但这种粒化方法不能解决很多现实问题,如将人的头部粒化为脸、鼻子、额头、耳朵、头盖、脖子等粒子,这些粒子之间没有明确的分界线,它们都是模糊的粒子.模糊信息粒化是传统信息粒化的一种推广.模糊信息粒化理论[64-65](theor y of fuzzy information g ranulation,TFIG)建立在模糊逻辑和信息粒化方法基础之上,是从人类利用模糊信息粒化方式中获得的启发,其方法的实质是数学.Zadeh指出[64],除模糊逻辑外,没有一种方法能提供概念框架及相关技术,它能在模糊信息粒化起主导作用.继Zadeh之后,许多学者开始了有关词计算的研究工作,Wang[66]编写了词计算一书.广义词计算理论的研究工作,中国刚刚起步,李征等人[67-68]通过研究模糊控制器的结构,认为模糊控制实际上是应用了信息粒化和词计算技术,但却只是应用了该技术的初级形式,而基于信息粒化和词计算(IGCW)的模糊控制系统,将具有更强的信息处理和推理判断能力,是对人类智能更高程度的模拟.他们指出,基于信息粒化和词计算的模糊控制系统是通过信息粒化和重组、多层次的思维决策,动态地改变下层控制器的参数和推理方法或控制规则,因而使控制器具有变结构和多模态的特性.信息太多会延误推理计算的时间,给系统带来不必要的处理任务;而信息太少,则会降低推理结果的完善性.因此,提出了合理重新组织信息的研究课题.随着近年来智能信息处理的不断深入与普及,特别是处理复杂系统分析与评估时的迫切需要,人们越来越发现排除自然语言的代价太大了.首先,从应用角度来看,人类已习惯于用自然语言描述和分析事物,特别是涉及社会、政治、经济和管理中的复杂过程.人类可以方便地利用以自然语言表示的前提进行推理和计算,并得到用自然语言表达的结果;其次,从理论角度来看,不利用自然语言,现有的理论很难甚至不能够处理感性信息,而只能处理测度信息.感性信息或知识通常只能用自然语言来描述,由于人类分辨细节和存储信息的认知能力的内在限制,感性信息在本质上是不精确的[69-72].W ang利用自然语言知识和信息,建立以词计算为基础的语言动力学系统(linguistic dynamic system s,LDS),并通过融合几个不同领域的概念和方法[37],提出基于词计算的语言动力学系统的计算理论框架,根据这个计算理论框架,利用常规或传统数值动力学系统中已有的成熟概念和方法,对语言动力学系统进行动力学分析、设计、控制和性能评估.这些研究的目的是建立连接人类的语言知识表示与计算机的数字知识表示的桥梁,成为下一代智能化人机交互的理论基础之一.总之,词计算理论和方法对于复杂信息系统的模糊推理和控制非常重要,但由于自身的局限性,它必须和其他理论体系相结合,才能更有效地处理复杂信息.3 2 粗糙集模型一个对象属于某个集合的程度随着属性粒度的不同而不同,为了更好地刻画集合边界的模糊性,波兰学者Paw lak[73]在20世纪80年代提出了粗糙集理论,其本质思想是利用不可分辨关系(等价关系)来建立论域的一个划分,得到不区分的等价类(即不同属性粒度下的概念粒),从而建立一个近似空间(由不同大小的概念粒形成).在近似空间上,用2个精确的集合(上近似集和下近似集)来逼近一个边界模糊的集合.如果近似空间的粒度较粗,被近似的集合的边界域较宽,而如果近似空间的粒度较细,被近似集合的边界域较窄.给定集合X上的一个划分等价于在X上给定一个等价关系R.X/R表示U上由R导出的所有等价类,[x]R表示包含元素x的等价类,其中x%U. Paw lak称之为在论域上给定了一个知识基(X,R),然后讨论一个一般的概念X(U中的一个子集)如何用知识基中的知识来表示.对那些无法用(X,R)中的集合的并来表示的集合,借用拓扑中的内核和闭包的概念,引入下近似和上近似的概念:R-(X)= {x%U|[x]R X}和R-(X)={x%U|[x]R&X∋ }.当R-(X)∋R-(X)时,就称X为粗糙集,从而创立了!粗糙集理论∀.粗糙集理论是一种软计算方法.软计算(soft computing)概念是由模糊集创始人Zadea提出的[61-65].传统的计算方法即所谓硬计算,使用精确、固定和不变的算法来表达和解决问题;而软计算的指导原则是利用所允许的不精确、不确定性和部分真实性得到易于处理、鲁棒性强和成本较低的解决方案,以便更好地与现实系统相协调.粗糙集理论的研究,已经经历了20多年的时间,无论是在系统理论、计算模型的建立和应用系统的研制开发上,都已经取得了很多成果,也建立了一套较为完善的粗糙集理论体系[74-75].目前粗糙集理#12#智 能 系 统 学 报 第2卷。
证据理论与熵值融合的知识约简新方法

证据理论与熵值融合的知识约简新方法吴根秀;吴恒;黄涛【摘要】求解决策表的最小约简已被证明是NP-hard问题,在粗糙集和证据理论的基础上提出了一种知识约简的启发式算法。
利用粗糙集等价划分的概念给出属性的信息熵,定义每个属性的熵值重要性并由此确定知识的核。
引入二分mass函数对每个属性建立一个证据函数,证据融合得到每个属性的证据重要性。
以核为起点,以证据重要性为启发,依次加入属性直至满足约简条件。
实例表明,该方法能够快速找到核和相对约简,并且该约简运用到分类上正确率也是较高的。
%It is proved that solving the minimal reduction of decision table is a NP-hard problem. This paper puts on a heuristic algorithm based on rough set and evidence theory. It gives attribute information entropy by using the concept of equivalence partitioning of rough set, and defines the attribute importance to get the core of the knowledge. It establishes an evidence function for each attribute by the concept of dichotomous mass functions, combining which to get the evi-dence importance of each attribute. Setthe core as the start of the algorithm and make size of attributes importance as heu-ristic information until it meets the reduction condition. Examples show that it can find the core and reduction quickly, and the reduction used in classification accuracy is higher.【期刊名称】《计算机工程与应用》【年(卷),期】2016(052)019【总页数】4页(P167-170)【关键词】粗糙集;知识约简;二分mass函数;熵;属性重要性【作者】吴根秀;吴恒;黄涛【作者单位】江西师范大学数学与信息科学学院,南昌 330022;江西师范大学数学与信息科学学院,南昌 330022;江西师范大学数学与信息科学学院,南昌330022【正文语种】中文【中图分类】TP31WU Genxiu,WU Heng,HUANG Tao.Computer Engineering and Applications,2016,52(19):167-170. Rough Set[1]是波兰数学家Pawlak于1982年提出的,该理论是一种处理不精确、不完全与不相容知识的数学方法。
基于粗糙集和模糊聚类方法的属性约简算法

{) d 表示 。 B C Y ,EU , ) 若 C , xY ,≠y 称二 元关 系ID ( ,d ) _ N = B {}=
{ ,) U U I ()d y 或者口 B,()Ⅱy } ( Y ∈ x d = ( ) ∈ 口 = ()为不可分辨
关系。
1 . 粗 糙 集 2
京 : 子 工 业 出 社 .0 8 电 2o . ( 任编 辑 : 责 王 钊)
[ ] 杜 芳 芳. 析基 于 We 1 浅 b数 据 挖 掘 的 电子 商务 网站 架构 []电子 J.
商务 .0 0 2 . 2 1( )
[ ] 苗夺谦 , 道 国. 2 李 粗糙 集理 论 、 法 与应 用 [ . 算 M] 北京 : 清华 大 学 出
性口∈A的值域
。 一 单 射 , 论 域 u中的 任一 元 素取 属 为 使
性。 V 中的某 一 唯一 值 。 在 A由条件 属性 集 合C 决策 属性 集合 和 D组 成, 和D满 足 CLD A, C J = CND d,则 称S 决策 系 统 ,用( =? 为
CuD) 示 ; 表 当决 策 属 性 集 合 只 有 一 个 元 素 时 , 常 用( 也 CU
_
方 法4算术平 均最小 法 :
负 域 ,n ( = 一 X成 为 的曰边 界 域 。 b ) B
_
公 )_宰 式 ( : , _ L
隶属 函数 。
I JN () l L IDB
称 元 集 粗 为 素对 合 的 糙
:
1 m
(I ) x+ k
e方 法 5几 何 平 均 最 小 法 :
若 I D( =N B a )a∈B,称B为 中 的 不 必 要 属 性 , N B)I D( 一{} , 。 反
基于粗糙集的规则挖掘系统设计与实现

=
P S( X) N X) O R, U B R( 。
定义 5设 B CC 决 策属 性集合 D B的属性 依赖 度 (er f : C 对 dg eo e 个较 为实 用的信 息系 统 取 得 了较好 的效果 对其在 其他行 业 的应用 d p n e c ) 为 k eedny记 也 有一定 的启发 与借 鉴意 义。 k Y ( =c r p sB D)/cr ( = B D) ad(o ( ) ad U)
值:
f U — V . XA
.
C R ( = n R D( O E A) E A)
即 A的所有 约简 的交集 构成 A的属 性约 简的核 。
即 fu a =v u ∈ U, (.) ( a∈ A, ∈ V) V
二 、核心算 法 1属 性约 简的算 法
定义 2 不可分 辨关 系 ( dse i l e t n : I i rb i Rl i ) n c n it 下面 两个 条件 :
( ) d( ) n A) 1 i B =i n d(
,
2粗 糙集 的知识 .
定 义 1 设信 息系 统 s { V f。其 中 u是一个 非空集 合 u : = u A, , } =
() 意 a∈B n () i ( 2任 :i B ≠ n B一{ ) d d a , 那 么 B 就是 A的 一个约 简 。
在 s中 ,对任 意 a∈A.对 象 u ∈U . .有 属性值 au 存 在且 不 为 (. )
获取 属性 的约简 的方 法有很 多 ,如 : o l k提 出 了用遗 传算 Wrb wsi e
苗夺谦等基于知识信息熵的概念提出了启发式的约 空 。因此 在该假 设下 ,Pwl 的粗糙 集方 法是 基于不 可分辨 关系 ( a a k 或 法寻找最小约简 . 简算 法 , 国胤 等提 出 了基于 可辨 识矩 阵 和逻辑 运算 的约 简算 法等 , 王 称等价 关 系 ) ,记 为 i ( ) n A: d
序信息系统的知识粗糙熵与粗集粗糙熵

关键词 : 粗糙集 ; 序信息 系统; 知识粗糙 熵; 粗糙度 文章编号:0 2 83 (0 7 2 — 0 2- 文献标识码 : 中图分类号 :P 8 10 — 3 l20 )7 0 6 - 4 . 0 A T 1
l 引言
粗 糙集理论l 1 . 是近年来发展起来 的一种处理不 精确性 、 不 确定性和模糊知识的软计算工具 , 已被成功地应用于人工智 它 能 、 据挖掘 、 数 模式识别与智能信息处理等领域 , 并越来越 引起 国际学 术界的关注 。经典粗糙集是 以完备信 息系统为研究 对 象, 以等价关系 ( 满足 自反性 、 对称性 、 传递性 ) 为基础 , 通过 等 价关系对论域分成互不相交的等价类 , 划分越细 , 知识越 丰富 ,
if r ai n y t ms no m to s se . . K e wor s: r u h e ; r e e i o at n y tms; n wld e o g e r p rug d g e y d o g s t o d r d nfr m i s se o k o e g r u h nto y;o h e r e
2Isi t fIfr ain a d S se S in e , ’n Ja tn iest , ’n 7 0 4 。 hn . t ue o no n t m t n ytm ce c s Xia ioo g Unv ri Xia 1 0 9 C ia o y
E— al d t n z a g io a m i: a o g h n x a y n@ 1 .o 26c n
ZHANG Xi o- a XU W e —h a En r p o k o e g a d r u h e i o d r d n o m a i n y tms. m p t r a y n. i u . t o y f n wl d e n o g s t n r e e i f r t s se o Co u e
信息系统属性增量约简算法的设计与实现

Al o ih s o n o ma i n S se g rt m n I f r t y t m o
Xi Fuc n M i Duo a a hu ao qi n Li Da g o uo ・
( eat n fC mp trS i c n nier go o  ̄ nvr t ,h n h i2 0 9 ) D p r to o ue c n e a d E g ei fT n iU i s y S a g a 0 0 2 me e n n ei
文章 编 号 1 0 — 3 1 ( 0 6 2 — 1 9 0 文 献 标 识 码 A 0 2 8 3一 20 )1 04 —4 中 图分 类 号 T 1 P8
Th sg n a ia i n 0 t i u e I c e n a d c i n e De i n a d Re l t0 f Atrb t n r me t l Re u t z o
agrh srsac ou n ices g ojc rm I.hspp ra a sste ca g grl o h o n eu t n lo tm eerh fcso nrai bet f ST i a e nl e h h ni ue fte cr a d rd c o i n s o y n e i
P S C vP S C 1 。 如 果 B C满 足 Vb∈ P S B) O ( ) s O ( —c ) B, O ( ≠
的 一 种 处 理 含 糊 和 不 精 确 问 题 【 一 种 新 型数 学 工 具 . 1 ] 的 目前 已
在 人 工 智 能 、 据 挖 掘 等领 域 得 到 广 泛 应 用 。P wa 数 al k指 出 机 器 学 习中 的 若 干 问 题都 可 以用 R uh S t理论 和方 法 来 解 释 、 og e 分
2013 年5月28 日同济大学授予博士学位名单

第 2 页/共 11 页
2013 年 5 月 28 日同济大学授予博士学位名单
(共 287 人,其中:学术型学位 282 人,职业型学位(专业学位)5 人) 一、学术型学位(282 人)
序号 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 学号 0910060009 1010060005 0910060016 0810060005 0910060021 0910103009 0910103023 0910080069 0810080048 0710080007 0810080009 0810080011 0810080012 0610080009 0910080043 0910080012 0710080022 0810080059 0910080013 0910080030 0910080050 0910080016 0710080024 0710080067 0810080062 0810080063 0910080017 0910080052 姓名 蔡文 祁红璋 魏永起 许永和 侯军伟 杜永 陈寰贝 阮玉文 张永韡 李文启 顾妍午 胡海根 李大威 宫云梅 韩冬 谭艺 钟才明 高灿 钱进 曾锦华 朱华平 张其亮 吴瀛 孔亮亮 帅春燕 欧阳城 添 陈乃金 肖杰 学科专业 材料学 材料学 材料学 材料学 纳米材料与技术 信息功能材料与 器件 信息功能材料与 器件 控制理论与控制 工程 控制理论与控制 工程 控制理论与控制 工程 控制理论与控制 工程 控制理论与控制 工程 控制理论与控制 工程 控制理论与控制 工程 控制理论与控制 工程 检测技术与自动 化装置 模式识别与智能 系统 模式识别与智能 系统 模式识别与智能 系统 模式识别与智能 系统 模式识别与智能 系统 计算机系统结构 计算机系统结构 计算机系统结构 计算机系统结构 计算机系统结构 计算机系统结构 计算机系统结构 导师 向卫东 严彪 姚武 张雄 杨修春 蔡克峰 翟继卫 刘富强 汪镭 吴启迪 吴启迪 徐立鸿 徐立鸿 赵晓群 朱芳来 王磊 苗夺谦 苗夺谦 苗夺谦 孙杳如 孙杳如 陈永生 江建慧 江建慧 江建慧 江建慧 江建慧 江建慧 论文题目 无机纳米材料及聚合物基纳米复合材料的制备 和性能研究 纳米超细材料的制备与研究 复合胶凝体系水化进程的定量表征与评价 混凝土表观活化能逆向分析理论及其力学性能 实时评估方法 模板法制备金属、半导体纳米线阵列及其表征 导电聚合物-无机纳米结构复合热电材料的制备 及其性能研究 铋层状陶瓷材料的结构与电性能调控 宽带无线通信系统中协作中继传输关键技术研 究 基于标准化评价体系的元启发算法选择及应用 研究 群体智能算法在大规模集成电路制造中的理论 与应用研究 可中断批处理多服务器系统的动态调度问题 温室环境优化与控制方法研究 智能视频监控系统中的目标检测和跟踪算法研 究 语音增强算法及说话人的定位研究 动态系统未知输入观测器设计方法研究及其应 用 基于行为预测与威胁评估技术的信息在轨调度 及管理 基于 KMST 的聚类算法研究 基于粗糙集理论的机器学习方法研究 云计算环境下知识约简算法研究 手部动作行为理解及其医疗应用的研究 基于镜像神经系统的人类动作行为认知计算研 究 作业调度模型求解列车调度问题方法研究 基于系统调用短序列的异常入侵检测技术的研 究 ARM 程序执行时间估计方法研究 合作入侵检测及警报关联研究 时序电路逻辑级可靠度评估方法研究 动态可重构时域划分方法研究 结合版图结构信息的门级电路可靠性评估方法 的研究 授予学位门类 工学 工学 工学 工学 工学 工学 工学 工学 工学 工学 工学 工学 工学 工学 工学 工学 工学 工学 工学 工学 工学 工学 工学 工学 工学 工学 工学 工学
交非空关系下信息系统的知识约简

收稿 日期 :2 1—O0 0 11-9
修 回 日期 :2 1 1.2 0l 1 2
作者 简介:苏亚娟(9 1 ,女 ,河南许 昌人.助教 ,硕士 ,研究方向 :模糊数学. - alyyl0 @ 16 o I8 一) E m i ii8 6 2 . r : cn
苏 亚娟 : 交非 空 关 系下 信 息 系统 的知 识 约 简
jd me th oe f o r iainst u g n e rm o odn t e t c o
0 引言
由 于 粗 糙 集 理 论 I固 有 的 优 点 和 广 泛 的 适 用 性 , 它 已 被 应 用 于 数 据 挖 掘 、机 器 学 习 与 I j
知 识 发 现 、 策 支 持 与 分 析 等 研 究 领 域 14 决 2 ] 息 系 统 中 的 知 识 约 简 是 粗 糙 集 理 论 的 核 心 内 - .信 容 之 一 ,通 过知 识约 简 ,可 以简化 知识表 示而 不丢 失基 本信 息.目前 ,许 多学 者 已采用 不 同的方 法 、从不
…
,
d} 有 限 目标 属性 集 ; F= : ÷ k p 是 U与 的关 系集 , 是 的有限值 域 ; G是 U与 D的关 q是 { U_ , ≤ }
是 d 的有 限值域 【. , 6 】
系集 , G= .U_ , g , : ÷ k≤ }
对 每 个属性 集 和 目标 属性 集 ,经 典 的 P wl 粗糙 集模 型下 的信 息系统决 定 了一 个二 元不可 区分 关 : a a k
缺 省值 和 集合 值 等. 么 ,我 们有 必要 讨论 信息 系统 属性 取值 为更 一 般 的集合 值时 的规 则 提取 和属 性约 简 那 问题.显 然 , 于这 种情 况经典粗 糙集 模 型的等 价关 系足过 _严 格 的.为 了能够从 数据 表 中更多地 得 到我 们 对 丁 : 感 兴趣 的 知识 .有 必要拓 展 这一 关系 .交非 空关 系 具有 自反性 和 对称性 ,但没有 传 递性 ,因此 .研 究对 象
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图表示下的知识约简苗夺谦1,陈玉明1,2,王睿智1,张红云1(1.同济大学计算机科学与技术系,上海201804;2.厦门理工学院计算机科学与技术系,福建厦门361024) 摘 要: 知识约简主要有代数表示下的知识约简和信息表示下的知识约简.本文提出图表示下的知识约简,给出图表示下求最小约简的完备递归算法.借鉴人工智能理论中的图搜索技术,提出旋转剪枝和回溯剪枝两个搜索算子求最小约简,并证明了在这种表示下求最小约简的完备性,理论分析和实验结果表明,在图表示下求最小约简是有效可行的.关键词: 粗糙集;约简;幂图;图表示中图分类号: TP18 文献标识码: A 文章编号: 0372-2112(2010)08-1952-06Kno wledge Reduction Algorithm under Graph Vie wMI AO Duo -qian 1,CHEN Yu -ming 1,2,WANG rui -zhi 1,ZHANG Hong -yun 1(1.Department of Compute r Sc ienc e and T echnology ,Tongji Unive rs ity ,Shanghai 201804,C hina ;2.Depart me nt of C omput er Science and Tec hnology ,Xiamen Unive rsit y of T echnol ogy ,Xi amen ,Fujian 361024,C hina )Abstract : Knowledge reduction is widely studied under algebra view and information view .In thi s paper ,knowledge reduc -tion under g raph view is presented .A complete recu rsive algorithm for minimal reductio n under graph view is designed .In virtue of g raph searching method s of artificial intelligence ,rotation pru ning operator and backtracki ng p r u ning operator fo r answering the min -imal reduction question are proposed .These methods 'completeness for the minimal reductio n i s proved .In order to test the efficien -cy of the algorithm ,some experi ments are made on simulative data .Theo retical analysis and experimental results show that the re -duction algorithm under g raph view i s efficient and feasible .Key words : rough sets ;reduction ;power graph ;g raph view1 引言 Pawlak Z 提出的粗糙集理论[1]中所有的概念和运算都是通过代数学的等价关系和集合运算来定义的,被称为粗糙集理论的代数表示.Sko wr on A 在这种表示下提出基于差别矩阵的知识约简[2].Kr yszkiewic z M 研究了代数表示下不一致决策系统中各种约简之间的关系[3],张文修等发展了Kryszkie wicz M 的思想,进一步研究了代数表示下各种约简的关系,提出了最大分布约简的概念[4].在代数表示下,粗糙集理论中的许多概念与运算的直观性较差,不容易使人理解其本质,并且在此表示下许多算法的效率也不高.苗夺谦等提出知识约简的信息表示[5,6],王国胤等研究代数表示下的约简和信息表示下的约简之间的关系[7].信息表示是以信息论为基础,通过信息熵来表示知识和度量知识,这种表示从更深层次上揭示了知识的本质,苗夺谦等在这种表示下提出基于信息熵的信息系统知识约简算法[5]和基于互信息的决策表知识约简算法[6],杨明提出基于条件信息熵的近似约简算法[8].代数表示下的知识约简,难于理解,算法效率不高,信息表示下的知识约简解释了约简的信息含义,提高了算法的效率,但在代数表示下和信息表示下都没有考虑约简的空间拓扑结构,求最小约简算法的完备性也有待于进一步的研究.刘少辉等[9]提出的完备算法针对约简是完备的,但针对最小约简并不完备.知识约简包括信息系统的知识约简和决策表的知识约简.本文对信息系统的知识约简进行研究,结合信息表示下约简的判定,考虑到知识约简的空间拓扑结构,构建一种新的知识表示方式—幂图和幂树,用于知识约简当中,在这种新的表示方式基础上,借鉴人工智能理论中的图搜索技术,提出旋转剪枝法和回溯剪枝法两个搜索算子求最小约简,提出求最小约简的完备递归算法,分析了算法的时间和空间复杂度,证明了图表示下求最小约简的完备性.理论分析和实验结果表明,图表示下的知识约简是有效可行的.收稿日期:2008-06-18;修回日期:2010-03-25基金项目:国家自然科学基金(No .60475019,No .60775036,No .60970061)第8期2010年8月电 子 学 报ACTA ELECTRONICA SINICA Vol .38 No .8Aug . 20102 基本概念 粗糙集理论把知识看作是对论域的划分,知识库是知识的集合.知识库可以形式地定义为序对K =(U ,R ′),其中U 为论域,R ′为U 上的等价关系簇,称等价关系R ∈R ′为知识,称R 生成的等价类[U R ]为基本知识颗粒,称商集U /R ={[U R ] u ∈U }为论域U 的R -粒划分.定义1[6] 设P 是知识库K =(U ,R ′)中的知识,U /P ={X 1,X 2,…,X n },定义知识P 的熵为H (P )=-∑ni =1p (X i )log 2p (X i )定义2[6] 设U 是论域,P 、Q 为U 上的两个等价关系,P 、Q 在U 上导出的划分为A 、B .其中A ={X 1,X 2,…,X n },B ={Y 1,Y 2,…,Y m },知识Q 相对于知识P 的条件熵为H (Q |P )=-∑ni =1p (X i )∑mj =1p (Y j |X i )log 2p (Y j |X i )定义3[6] 设信息系统I S =(U ,A ,V ,f ),令R A ,若满足:(1)H (R )=H (A );(2) a ∈R ,H (a R -a )>0.则称R 是I S 的约简.定义4 设信息系统I S =(U ,A ,V ,f ),令R A ,若满足H (R )=H (A ),则称R 为I S 的简化.定理1 是约简必为简化,是简化不一定为约简.根据约简和简化的定义可以很容易得到,证明略.定理2 不是简化则其所有子集都不存在约简.证明:反证法.已知R 不是简化,设R 的子集中存在某一约简r ,r 是约简必为简化,r R ,R 也必为简化,这与已知R 不是简化相矛盾,定理得证.定理3 设信息系统I S =(U ,A ,V ,f ),Sub (A )为属性集合A 全部子集的集合,b ∈Sub (A )是约简,若 a ∈Sub (A )且 a > b ,则a 不是最小约简.证明: 设最小约简的元素个数为k ,由b ∈Sub (A )且是约简可知, b ≥k ,已知 a > b ,则 a >k ,所以a 不是最小约简.定义5[10] 设Po wer (A )为属性集合A 的幂集,给定有向图G ,G 的顶点为Powe r (A )的元素,G 的边满足条件: P ,Q ,R ∈Powe r (A ),若Card (P )-1=Card (Q )=C ard (R )+1且(P ∩R ) Q (P ∪R ),则存在R 到Q ,Q 到P 的有向边,称此有向图G 为A 的幂图.例1 属性集A ={a ,b ,c ,d },其幂图为图1所示. 从幂图的定义可知幂图结点之间有相互的交叉,这不利于剪枝,因而可用一棵没有交叉的树来表示求解空间,这将提高剪枝的效率.称由幂图转化的树为幂树,下面给出幂树的递归定义.定义6 设属性集A有n 个属性,属性集A 的幂树是包含2n个结点的有限集PT ,PT 为空时为空幂树,否则满足以下条件:(1)有且仅有一个特定的称为根的结点,此结点有n 个属性,n 个子结点;(2)其余的结点可分为n 个互不相交的子集PT 1,PT 2,…,PT n ,其中PT 1有n -1个属性,n -1个子结点,PT 2有n -1个属性,n -2个子结点,…,PT n 有n -1个属性,0个子结点,并且每个子集本身又是一棵n -1个属性的幂树,并称为根的子幂树.定义7 设属性集A 有n 个属性,PT 为A 的幂树,幂树中基数为n 的结点构成幂树的第0层,基数为n -1的结点构成幂树的第1层,以此类推,基数为0的结点构成幂树的第n 层.为控制幂树的结构,对幂树进行标记,幂树结点属性个数标记为attnum ,子结点个数标记为child ,子结点是通过父结点顺次删除一个属性继承下来的,被删除的属性标记为delete .同时对同层每个结点的属性顺序进行属性内调整.首先,计算同层每个结点的属性个数减去子结点个数为r ,则r 为每个结点应当调整顺序的属性个数.若某结点r 为0,则该结点不用调整;若r 为n ,则该结点前面n 个兄弟被删除的属性依次后置,其它属性与父结点的顺序相同并前置.定义8 经过标记和属性内调整的幂树,称为调整的幂树,为方便计,简称为幂树.例2 属性集A ={a ,b ,c ,d },其幂树为图2所示. 图2表示调整后的幂树.单个字母表示被删除的属性,数字表示扩展的子结点数,也表示最多扩展的层数.3 旋转剪枝法和回溯剪枝法 幂树的特点是左边的树枝大,右边的树枝小.因此,尽量剪去左边的树枝,效率就高.根据定理2,不是简化则其所有子集都不存在约简,在逐步扩展过程中,1953第 8 期苗夺谦:图表示下的知识约简可以根据是否是简化来剪枝,每次扩展过程中把不是简化的树枝旋转到左边来,作为大树枝剪掉,同时调整幂树,保持幂树的结构,我们称这种剪枝法为旋转剪枝法.把旋转剪枝法运用于知识约简中,称为旋转搜索算子,记为R .例3 属性集A ={a ,b ,c ,d },依次删除一个属性扩展,若第一个子结点{b ,c ,d }不是简化,则剪去,如图3所示;若最后一个子结点{a ,b ,c }不是简化,则旋转到最左边成为第一个子结点,作为大树枝剪去并属性内调整,如图4所示. 旋转剪枝法总是剪去左边的大树枝,但右边的树枝没有很好的剪枝效率.根据定理3,找到一个约简后可以剪去不存在最小约简的部分.当深度搜索找到一个约简后,暂时作为最小约简,并计算此最小约简的属性个数为r .回溯到父结点的右边兄弟搜索下去,当前要扩展结点的属性个数为t ,要扩展的子结点个数(层数)为s ,若t -s ≥r 则不用扩展,剪去当前结点.根据找到的最小约简回溯找下一个最小约简,这种回溯剪枝是按宽度搜索剪枝的,相当于尽量剪去右边部分的树枝.这种剪枝方法我们称为回溯剪枝法.把回溯剪枝法运用于知识约简中,称为回溯搜索算子,记为B .例4 属性集A ={a ,b ,c ,d },如图5所示,设经过旋转剪枝搜索到{b ,a }是约简,把{b ,a }暂时作为最小约简,回溯到父结点的兄弟{a ,c ,d }搜索下去,父结点的其它两个兄弟{a ,b ,d }和{c ,b ,d }剪去,因为{a ,b ,d }标记子结点数为1,表示最多扩展1层,扩展1层后,属性个数是2个,与暂时找到的约简{b ,a }属性个数相同,不必扩展,同样{c ,b ,d }标记子结点数为0,也不必扩展.旋转剪枝法是尽量剪去左边部分树枝,回溯剪枝法是尽量剪去右边部分树枝,两种方法同时采用,这对求最小约简有着非常高的效率,后面的实验也验证了这点.4 图表示下的知识约简算法及完备性证明4.1 图表示下的知识约简算法信息表示下的约简是采用信息熵来判定的,我们结合信息表示下约简的判定,转化成图表示下约简的判定,下面给出图表示下约简的判定.定义9 设信息系统I S =(U ,A ,V ,f ),定义该信息系统在图表示下的知识约简系统KRS 为一6元组(U ,A ,G ,PT ,R ,B ),U 为对象集,A 为属性集,G 为IS 的幂图,PT 为IS 的幂树,R 为旋转算子,B 为回溯算子.定理4 设信息系统I S =(U ,A ,V ,f ),该信息系统图表示下的知识约简系统KRS =(U ,A ,G ,PT ,R ,B ),设t 为幂树PT 中某一叶子结点,s 为t 的父结点,在同时采用搜索算子R 和B 的条件下,产生搜索树ST ,s ,t ∈ST ,(1)若H (t )=H (A ),则t 为约简;(2)若H (t )≠H (A ),则s 为约简.证明: (1)t 为叶子结点,根据幂树的定义易知t 的子集必由t 的兄弟扩展,假设t 的某个兄弟b 是简化,则约简是b 或者存在于b 的子集中,则根据回溯算子B ,t 被剪去,即t 不是搜索树的结点,这和已知t 是搜索树中的结点相矛盾,因而t 的所有兄弟都不是简化,因而t 的子集都不是简化,因此 a ∈t ,H (a t -a )>0.若H (t )=H (A ),由 a ∈t ,H (a t -a )>0,则t 为约简.(2)假设s 不是简化,根据旋转算子R ,s 被剪去,t 是s 的子结点,则t 不是搜索树的结点,这和t 是搜索树中的结点相矛盾,因而s 为简化,即H (s )=H (A ).已知H (t )≠H (A ),则t 不是简化;前面已证明t 的所有兄弟都不是简化;所以s 的所有子结点都不是简化,因此, a ∈s ,H (a s -a )>0.由H (s )=H (A ), a ∈s ,H (a s -a )>0,故s 为约简.知识约简解空间是幂级空间,考虑到知识约简的空间拓扑结构,我们构造了幂图来表示知识约简解空间,进而把幂图转化为幂树,引入旋转剪枝法和回溯剪1954 电 子 学 报2010年枝法两个搜索算子,并给出了在图表示下约简的判定,下面给出图表示下基于幂树的知识约简算法.算法KR APT(Knowledge Reduction Algorithm based on Power Tr ee)输入:信息系统I S=(U,A,V,f)输出:最小约简M inReducta MinReduct={A},attrib={A},attnum= A,c hild=A.b Expand(attrib,attnum,child).c 输出最小约简M inRe duct.递归函数名及参数:void Expand(attrib,attnum, child)输入参数:attrib(属性集),attnum(属性个数),child (扩展的子结点数)Step1 当前结点N=attrib.Step2 判当前结点N是否为叶结点,若是,转Step3,否则,转Step5.Step3 判当前结点N是否为简化,若是,则reduct =N;否则re duct=父结点F.Step4 判reduct的属性个数是否小于M inReduct 的属性个数,若是,M inRe duct=re duct,返回;否则MinRe duc t不更新,返回.(注:MinRe duc t为全局变量, reduct为局部变量).Step5 依次删除一个属性扩展当前结点N,扩展后的结点为N1,N2,…,N chil d.Step6 判扩展的结点是否是简化,若是简化则旋转到幂树右边,不是简化则旋转到幂树左边剪去;旋转剪枝后的结点为M1,M2,…,M m,M m+1,…,M c hil d,其中M1,M2,…,M m为被剪枝的部分,M m+1,…,M c hil d为未被剪枝的部分.(即:旋转剪枝)Step7 对未被剪枝的部分M m+1,…,M c hil d进行属性内调整.Step8 对未被剪枝的部分M m+1,…,M c hil d进行递归调用,从i=m+1到child重复以下操作:若(Mi 属性个数-Mi要扩展的子结点数)<MinRe duc t的属性个数,则递归调用Expand(M i,attnum -1,c hild-i);否则,这次循环跳过,进行下次循环(即:回溯剪枝)4.2 算法的完备性证明文献[9]中的完备算法针对约简是完备的,即能保证找到约简,但是算法没有搜索整个解空间,不能保证找到最小约简,所以针对最小约简是不完备的.图表示下基于幂树的知识约简算法针对最小约简是完备的,下面给出完备性证明.定义10 设A为属性集,定义Sub(A)为A的全部子集的集合,Sub(A)即是A的幂树全部结点的集合,定义Sub-le vel(A,i)为A的全部子集中基数是A-i 的属性集集合,Sub-le vel(A,i)即是A的幂树的第i层全部结点的集合.例:若A={a1,a2},则Sub-le vel(A, 0)={{a1,a2}},Sub-le vel(A,1)={{a1},{a2}}.性质1 S ub(A)=∑ni=0Sub-le vel(A,i)定理5 算法KR APT求最小约简是完备的.证明: 全部遍历算法:检查Sub(A)中的每个元素是否是约简,找到所有约简,在所有约简中找出一个属性个数最小的约简,即为最小约简.全部遍历算法是完备的.根据定理2,在遍历过程中可以剪去不是简化的属性集;根据定理3,在找到一个约简的基础上可以剪去不存在最小约简的部分;因而可以对全部遍历算法进行改进.改进算法:(1)检查Sub-level(A,i)中的所有元素是否为简化(i=0,…,n):(a)若B∈Sub-level(A,i)且不是简化,则令Sub(A)=Sub(A)-∑n-ij=0Sub-level(B,j),(b)若B∈Sub-le vel(A,i)且是约简,则令Sub(A)=Sub(A)-∑ij=0Sub-level(A,i-j),(c)若B是约简且|B|<|Minreduc t|,则M inreduct=B.(2)全部遍历完后,M inre duct即为最小约简.改进算法在全部遍历算法的基础上,根据定理2剪去不是简化的属性集,根据定理3剪去不存在最小约简的属性集,因而与全部遍历算法是等价的,所以是完备的.算法KRAPT是改进算法的具体实现过程.改进算法(1)对应于算法KRAPT递归函数的步骤Step1,Step2, Step3;改进算法(a)对应于算法KR APT递归函数的步骤Step5,Step6,Step7;改进算法(b)对应于算法KRAPT递归函数的步骤Step8;改进算法(c)对应于算法KRAPT 递归函数的步骤Step4.已经证明改进算法是完备的,所以算法KR APT是完备的.5 实验分析 为了验证本文方法的有效性及剪枝效率,我们进行了多组实验.首先,我们预先产生所有约简来测试本文算法在约简不同分布情况下的剪枝效率;然后,通过大量随机离散数据测试本文算法的性能.本实验的硬件测试环境是:CP U为Inter Pentium42.4GHz,内存为1955第 8 期苗夺谦:图表示下的知识约简1G ,操作系统为WindowsXP ,开发工具为VC ++6.0.5.1 模拟数据集测试为了考察约简不同分布情况下的剪枝效率,我们采用实验数据如下,例如5个属性{a ,b ,c ,d ,e },解空间共32个结点,随机生成8个约简,假设预先随机产生约简{a ,b }、{a ,c }、{a ,d }、{a ,e }、{b ,c }、{b ,d }、{b ,e }和{c ,d ,e }为一组,共20组进行测试,计算平均访问结点.在实验1,属性个数逐个增长,解空间指数增长,随机产生的约简个数保持占整个解空间的25%.在实验2,属性个数逐个增长,解空间指数增长,随机产生的约简个数不变,保持20个.在实验3,属性个数为10,随机产生的约简个数指数增长.实验用平均访问结点数来表示剪枝的性能. 从表1、表2和表3可知,实验1、实验2和实验3均找到最小约简,平均访问结点数缓慢增长,表明旋转剪枝和回溯剪枝有着很好的剪枝效率.图6给出了实验1和实验2的对比结果,从中可以看出约简大量分布(占解空间的四分之一)比约简稀疏分布有着更好的剪枝性能.图7给出了实验1与实验2对比于解空间的剪枝表1 实验1属性个数解空大间大小随机产生约简个数平均访问结点数是否找到最小约简532814.3是6641624.1是71283229.6是82566440.9是951212854.8是10102425681.3是11204851286.1是表2 实验2属性个数解空大间大小随机产生约简个数平均访问结点数是否找到最小约简5322014.1是6642020.5是71282033.8是82562046.8是95122097.5是10102420113.3是11204820159.1是表3 实验3属性个数解空大间大小随机产生约简个数平均访问结点数是否找到最小约简101024456.3是1010248131.7是10102416151.3是10102432170.7是10102464157.5是101024128106.3是10102425681.3是性能,从中可以看出,解空间是随属性增加而指数增长的,而实验1与实验2中的平均访问结点数缓慢增长,结果表明本文方法有着较高的剪枝性能.图8给出了实验3的结果,从中可以看出,平均访问结点数开始随约简的增加而增加,达到峰值后,随约简的增加而减少.实验表明约简稀疏分布和约简大量分布都有较好的剪枝性能.约简稀疏分布时,则幂树中大量的结点不是简化,这有利于旋转剪枝,但不利于回溯剪枝.约简大量分布时,则幂树中大量的结点为简化,这不利于旋转剪枝,但有利于回溯剪枝.5.2 随机生成数据集测试Srarzyk J 采用扩展法则简化分明矩阵求出所有约简[11],从而可以得到最小约简,但只能处理40个属性的数据.下面实验采用Srarzyk J 的扩展法则约简算法[11]与本文的KRAPT 算法进行对比测试.实验数据采用文献[11]中的方法,设计数据产生器随机生成大量数据进行测试,数据值为0~8之间的随机整数数据.图9为扩展法则算法的测试结果,数据对象数从25,5个对象一递增,递增到40,属性数从25,5个属性一递增,递增到40.图10为KR APT 算法的测试结果,数据对象数从60,20个对象一递增,递增到120,属性数从60,20个属性一递增,递增到120.平均运行时间以秒为计算单位,并取对数.从图9与图10的对比可知,扩展法则算法能处理40个属性的数据集,而KR AP T 算法可以处理120个属性的数据集.求最小约简已被证明是NP 问题,从实验1956 电 子 学 报2010年可知,扩展法则算法和KR AP T 算法仍然是指数增长的,扩展法则算法运行时间大致按5个属性指数增长,而KR APT 算法大致按20个属性指数增长.6 结论 知识约简主要有代数表示下的知识约简和信息表示下的知识约简.代数表示下的知识约简和信息表示下的知识约简都未考虑到解的空间拓扑结构.本文考虑到解的空间拓扑结构,提出图表示下的知识约简,采用幂图和幂树表示解空间,并给出基于幂树求最小约简的完备递归算法,采用旋转剪枝法和回溯剪枝法进行有效剪枝,理论分析和实验结果表明,在图表示下求最小约简是有效可行的,这为最小约简的求解提供了一条新的途径.参考文献:[1]Pawlak Z .Rough sets [J ].International Journal of Computerand Information Science ,1982,11(5):341-356.[2]Skowron A ,Rau szer C .The discernibility matrices and func -tions in informatio n systems [A ].Intelligent Decision Support ,Handbook of Applications and Advances of the Rough Set The -ory [C ].Dordrecht :Kluwer Academic Publi shers ,1992.331-362.[3]Kryszkiewicz M .Comparative studies of alternative type ofknowledge reduction in inco nsistent sy stems [J ].InternationalJournal of Intelligent Systems ,2001,16(1):105-120.[4]张文修,米据生,吴伟志.不协调目标信息系统的知识约简[J ].计算机学报,2003,26(1):12-18.Zhang Wen -xiu ,Mi Ju -sheng ,Wu Wei -zhi .Know ledge reduc -tions in inconsistent information systems [J ].Chinese Journal of Computers ,2003,26(1):12-18.(i n Chi nese )[5]苗夺谦,王珏.粗糙集理论中概念与运算的信息表示[J ].软件学报,1999,10(2):113-116.Miao Duo -qian ,Wang Jue .An information representation of the concepts and operation s in rough set theory [J ].Jou rnal of Soft -ware ,1999,10(2):113-116.(in Chinese )[6]苗夺谦,王国胤,刘清,等.粒计算:过去、现在与展望[M ].北京:科学出版社,2007.[7]Wang Guo -yin .Rough reduction in algebra view and informa -tion view [J ].International Journal of Intelligent Systems ,2003,18(6):679-688.[8]杨明.决策表中基于条件信息熵的近似约简[J ].电子学报,2007,35(11):2156-2160.Yang Ming .Approximate reduction based on conditional infor -mation entropy in decision tables [J ],Acta Electronica Sinica ,2007,35(11):2156-2160.(in Chinese )[9]刘少辉,盛球戬,吴斌,等.Rough 集理论高效算法的研究[J ].计算机学报,2003,26(5):524-529.Liu Shao -hui ,Sheng Q iu -jian ,Wu Bin ,et al .Research on effi -cient algo rithms for rough set methods [J ].Chinese Journal ofComputers ,2003,26(5):524-529.(in Chinese )[10]陈玉明,苗夺谦.基于幂图的属性约简搜索式算法[J ].计算机学报,2009,32(8):1486-1492.Chen Yu -ming ,Miao Duo -qian .Searching algorithm for at -tribute reduction based on power graph [J ].Chinese Journal of Co mputers ,2009,32(8):1486-1492.(in Chinese )[11]Srarzyk J ,Nelson D E ,Sturtz K .Reduct generation in infor -matio n systems [J ].Bu lletin of International Roug h Set Soci -ety ,1999,3(1-2):19-22.作者简介:苗夺谦 男,1964年生于山西晋中,教授,博士生导师,研究方向为粗糙集理论、粒计算、数据挖掘与Web 智能等.E -mail :miaoquoqian @陈玉明 男,1977年生于江西吉安,博士生,研究方向为粗糙集理论与数据挖掘等.E -mail :cym0620@1957第 8 期苗夺谦:图表示下的知识约简。