一种基于Rough集的属性值约简算法

一种基于Rough集的属性值约简算法

胡斐1张峰筠1刘少辉2

1(上海体育学院体育管理系.上海200438)

2(中国科学院计算技术研究所智能信息处理重点实验室,北京100080)

E~mail:liush@itslet.ac.uil

摘要丈章特Rough集理论应用于不同类型的决簸表(一致决策表和不一致决策表)的约简,蛤出了广义决策、决策规则的一致程度、属性值重要性等定叉,在此基础上提出丁一种基于Rough集的属性值约简算法。该算法不但能得列毫为晌洁的决策规则,而且能tI芊持班策规则的一致程度不变,实例分析表明谊算法是可行昀。

关键词Rough集决策表值核值约简

文章编号1002—8331一(2003)31—0048—04文献标识码A中圈分类号。FPl8

ARoughSet-—basedAlgorithmforAttributeValueReduction

ltuFeilZhangFengyunlLiuShaohuiz

。(DepartmentofPhysicalEducationManagement,ShanghaiInstituteof

PhysiealEducation,Shanghai200438)

2(KeyLaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnology,

ChineseAcademyofSciences,Beijing100080)

Abstract:Roughsettheoryisappliedtothereduetlouofdifferenttypesofdecisiontable(consistentdecisiontableandinconsistentdecisiontable).Alotofdefinitionssuchasthegeneralizeddecision.thedegreeofadecisionrule7s

COILSstenCVandthcsignificanceofattributevalueare舀ven.Basedtillthesedefinitions,ar0“gh嘲一basedalgorithmforattributevaluereductionisproposed.NotonlycanitgetmoreconeiF,edecisionrules,butalsoitcankeepthedegreeof

consistencyunchangeable.Theaqalysis

nfanexampleshowsthatthealgorithmisfeasible

Keywords:RoushSet,Decision

q'able,CoreValue,ValueReduction

1引言

20世纪80年代初.波兰的Pawlak教授提出了Rough集理论I】I.这足一种新刊的处理含糊和不精确性知识的数学工具。经过20多年的研究和发碰,Rough集理论已经在信息系统分析、人工智能、决策支持系统、知识与数据发现、模式识别与分类、故障榆测等方面取得丁较为成功的应用”q。

日前,对Rough集理论的研究主要集中在其彀学性质、Rough集的扩展模型、与其它不确定方法的关系和互补、及有救算法等方面。Rough集有救算法方面的研究包括如何求等价类、上近似、下近似、正区域、约简和核等等”一。

由于约简是Rotlgh集理论的核心内容之一,所以许多研究者都致力于决策表约简的研究。决策表的约简是指在保持决策能力不变的条件_F,删除决策表【}】的冗余信息,包括属性约简和属性值约简。目前,大多数研究者都将研究重点放在属性约简方面,提出了多种属性约简算法,如基于正区域的属性约筒算法17。q、基下【)c=分矩阵的属性约筒算法tll,“和基于信息熵的属性约简算法旧’等等。文献【14l和文献1151虽然讨论了属性值的约筒,但是都不能很好地处理不一致决策表。

为r能处理不同类型的决策表(一致决策表和不一致决策表),该文给出,广义决策、决策规则的一致程度、属性值重要性等定义,在此基础卜提出了一种基_FRough集的属性值约筒算法(记为RSAVR)。该算法不仅能得到更为简洁的决策规则,I|li且能保持决策规则的一致程度不变。实例分析表明该算法是可行的。

全文组织如下:第2节介绍Rough集的基本概念;第3节给出相关定义,在此基础上介绍r种基于RotI曲集的属性值约简算法RSAVB.;第4节给出霉侧分析,并与相关算法进行比较;最后给出结论。

2Rough集基本概念

下面先简要回顾一下该文主要用到的Rough集基本概念详情请参考文献11~6】。

定义1一个信息系统S可以表示为:

S=(U,A,V∞

其中.u是个体的集合,即论域一是属性集合;y=UV。,

a£^V。表示属性n的值域以UxA—r足一个信息函数,它指定u中每一个对象#的属性值,即对xEU,n∈A,有,(z,曲∈V。。

如果属性集A可以分为条件属性集C和决策属性集D,即CuD刊,Cr-ID=中.则该信息系统称为决策表或决策系统,

基金项目:国家自然科学基金资助项目(编号;60073019)

作者简介:胡韭(1975一),助教.研究方向为Ro,壤h集应用、网络昔理。张峰筠(1978-).助教,研究方向为Ro,gh集应用、阿络管理。刘ff-挥(1977博士生,研究方向为数据挖掘、Rough集理论丑应用,

482003.3l计算机工程与应用

其中D一般H含有个属性。

,定义2在信息系统s中.对于每个属性子集口∈/t、可以定义一叶、下可区分戈系删D(B):

hVO(B‘)=((』,y)∈UxU:Vb∈B以z,b)可ry,6)}

显然tN,)(B)是个等价关系,对象z在属性集B卜的等价类b】Mm定义为:。

h】~岫尸fy:y∈U,ylND(B)x}

为简便起见.在不产生混淆的睛况下用B代替IND(B)。

在决策表r卜’笑系IND(c)和,ⅣD(D)对廊的等价类分别称勾条件类和决策类,

定义3在决案袁s中,对于VzEU,用d‘表示决策规『I!|l,即:

以:des(1xk)协s(扛】n)

其中des(Izlc)表示对等价类hk的描述,即等价类hk对于符条件属性值的特定取值;des(h]。)表示对等价类hk的描述、即等价娄㈨。对丁各决策属性值的特定取值;而对于V8∈CUD。dr,(o)砘(x),Ⅱ(g)为个体』关于属性n的属性值,且dr,IC、drJD分别称为缸的条什和决策。

定义4如果对于每个y#x,doIC-=r】IrJC意昧着dr:JD--dr,lD,则称决策规则dr.足一致的,胥则是不一致的;若决策表S中所有的决策规则都是一致的,则称该决策表是一敛的,否则是不致的。

3基于Rough集的属性值约简算法

3.1相关定义

为简使起她,该文主要讨论只有一个决策属性的决策表的属性值约简.即D=ld】(含多个决锥属性的央策袁的属性值约简可采用类似方法),并以ⅨI来表示集台x中的元素个数。为了能统一处理一致决策表和不一致决策表,先给出如下定义:定义5在决策表s中.决策规则啦关于条件属性集c的一致稃度斗(dL.C)定义为:刖¨)=掣

显然,0<Ix(dr.,C)s1,且¨(以,C)=1时.dL是一致的,否则是不致的。

定义6在决策表S中.对于V』EU,用a。0)表示x的广义决策.即:

Oc(X)=陋EVd:3YEU(yIND(C)x日d(y)-=,J)l

Iil定义6可“看出:决策表S是一致的,当且仪当对V』EU,la。(z)I=1.否则就是不一致的。

定义7在决策表S中,若B互C.如果F列两个条件满足:

(I)0目(z)=d。(n且it(dr,,B)=斗(啦,C);

(2)对V6∈B,aF扛)≠嵋¨(z)或斗(血.占)≠阻(以,肛㈣)。

则称dr,IB为决策规则止的属性值约简,记为RED(dr.)。

定义8在决策规则d‘所有属性值的约简巾都存往的属性值称为妣的值棱,机的所有值核构成一个集合:

CORE(啦)={dr,(c)ICEC,如(^)≠a帅l(z)或斗(机,c)≠斗(以.c-㈦)1

3.2算法描述

采用Rough集方法对决策表进行约简的一般过程是:先进行屉件约简.然后再进行属性值约筒。通过属性约简,可以删除决策表中的冗余属性,这是对决策表的整体『|1i言。通过属性值约简,uf以删除冗余的属性值,这是对决策表的每个决策规则而言。

求虽小属性约筒和所有的属性约简已经被证明是NP完全州题I”I,故一般采用启发式信息找出最忧或次忧属性约简。这些算法的共同特点是利用属件的重要性作为启发式信息,擞据对属性重要|生的度星分类,可以分为纂丁正区域的17。…、基于尻分矩阵的”1。和基于信息熵的㈣属性约简算法等等。该文则采用了文献f71中基于正区域的高效完备的属性约简算法。

在决策规则?ft,有的属性值不可缺少,有的则aT以删除,故利用Rough集方法对决策表进行属性值的约简,充分去除决策表中的冗余信息,从而得到更JJB简洁的决策规则。但每一个决策规则都可能存在多个属性值约简,同属.}牛!约简样,求最小属性值约简和所有的属性值约简也是组合爆炸问题,放在实际应用中,当数据屠很大时,其计算代价将会非常高。

基丁此,该文采用启发式方法求取状优的属性值约简:以属性值的审要性作为启发式信息,井以值核为初始候选集台,之后,选择重要性最高的碾性值掭加列候选集合中,判断当前候选集合是卉为一个值约简,如此厦复直到找到一个值约简为止。先给山属性值重要性的定义:

定义9在决策规则d^中.设n∈C一矗∽[C),其对应的属性值毗(n)的重爱性SIG(dG(a),R)定义为;

SIGq:dr(Ⅱ),R)=p(dr,RU{n1)一“(啦,R)

其中,若月=书,则令“(d‘,尺)=1。

下面给出该算法的详细描述:

算法:基于Rough集的属性值约筒算法RSAVR

输入:决策表s=<u,CU(dl,y。厂)

输出:约简后的决策规则

步骤1:得到决策表S的属性约简,设为O;

步罪2:从S中将集合E—p中属性所对应的刑全部删除;

步骤3:依扶对各决策规则dr.进行娃理:

(1)根据定义8计算机的所有值棱,即CORE(dr,),设对应的属性集为P;

(2)RED(d‘)=CORE(dr,),尺=P;

(3)若dp缸)≠m“)或斗(d‘,Q)≠斗(机.R),反复执行:

①在p—月中找出使SIG(dr,(a),矗)取最大值的属性o;

②将d加人到R的尾部,RED(dr,)=RED(dr,)U{dr,(Ⅱ)l:

(4)从月的尾部开始,从后往前对每十属性Ⅱ进行判断:著n∈P

则从n开始往前的属性对应的值都是值棱,RED(啦)就是dr,的属性值约简,跳出第(4)步

否则若%h)=d*埘(x)且IX(dr,,Q)=p(止,R一{n1),则说明属性值dr,(o)是可去除的,MRED(dr:)中把d‘(n)删除步骤4:根据各决策规则的属性值约简输出对应的简化后的决策规则。

该算法以值核为起点,步骤3的第(3)步确保一定能找到Q的某个子集R,满足d。■)=“0)且斗(机,p)=“(d‘.R);第(4)步通过一个后向删除的过程将RED(dr,)r}?可击除的属性值删除,重要性越低的属件值,越早被处理.从而确保处理后的RED(dr,)中每个属性值都是不可删除的。故最后得到的RED(血)一定是属性值约简,所以该算法对于计算决策规则的某个属性值约简来说是完备的。

4实例分析

表l为有关流感的原始诊断数据决策表旧,其中体温、干咳、头痛、肌肉酸痛为条件属性.流感为决策属性。下面将对比分析采用算法RSAVR和文献Ii4VP的算法(记为算法A)对表

计算机工程与应用2003.3149

l进行属性值约陶的结果。算法A“区分矩阵为基础.以值棱为起点,在挑选候选属性值时采用了rain—max策略.即:首先考虑在I司类中差别出现频率最小的,如果只有一个属性,则就取其对席的属性值;如果存在几个,则取这几个属性中在异类中出现频率最大的属性对应的属性值。

衰1原蟾诊断数据决策裹

体温r唛*痛肌肉醵痛漉感

正常1芜

广i兄无

正常无有尢

偏高r无有有有

偏商有无无无

偏商有.元‘有

高I无无无

高’有:尤无

高有无无右

高有7有有有

首先采用文献【7】中的苒法对表1进行属性约简.可得到如表2所示的约简后的决策衷。容易看出,表2中决策规则1、2、3、6、9是一致的,而决策规则4、5、7、8是不一致的。

裹2经过■性约筒后的决策襄

旦件砬t’峨

上正常无无无【

三I正常五有剥

L偏高+无有

4犏高【有无

巳偏高有五肯

t高l无羌尢

7岛有无

高有无冉

’一

9高有有有

然后考虑利用算法RSAVR对表2进行属性值约筒:

对于第l条决策规则(体温,正常)且(干咳.无)且(头痛.无)一(流感,无),其一致程度为1。根据定义8可得该决策规则没有值核,而:

属性值(体温,正常)的重要性为:

也且!!f1】d一1=1-1--‘0

l…I4-l

属性值(于咳,无)的重要性为:

卫b尘uj*童L-1=羔七一L

J【1】11%l44

属性值(头痛,无)的重要性为:

“!!f础}“_o一,=丁2一t=一;

故将属性值(体温,正常)加人到候选集合RED(dr.)中,由苒法RSAVR,可最终得到该决策规则的值约简为{(体温.正常)}。

对丁第7条决策规则(体温,离)且(干咳,有)且(头痛,无)一(流感,无),其一致程度为I/2。

若删除属性值(体温.高).则对应的广义决策保持不变,而决策规则(千咳,有)且(头痛,无)-+(流感,无)的一致程度也为1/2,故属性值(体温.高)不是值棱。

若删除属性值(千咳,有),则对应的广义决策保持不变,但决策规则(体温.高)且(头痛,无)一(流感,无)的一致程度为2/3,故属性值(下咳.有)是值核。

若蹦除属性值(头痛、无),赌l对应的广J义嵌策保持不变,但决策规则(体温,高)且(干咳,有)一(流感,无)的一致程度为502003.31计算机工程与应用1/3.故属性值(头痛,无)也是倩棱。

由算法RSAVR.可得该规则的值核为l(干咳,有).(头痛,无)1.通过进一步判断可最终得到该决策规则的值约简为“T咳,有).(头痛,无)l。

同理可获得其余决策规则的值约简,对应的值约简表如表3所示.最后所得的决策规则集为:

(体温,难常)_+(流感,无),一致程度为I

(体温,偏高)且(干赅,无)斗(流感,有),一致程崖为l

(体温,偏高)且(头痛,无)_(流感,无),一致程度为1/2

(体温.偏高)且(干咳.有)_+(流感,有),一致程度为1/2

(体温,高)且(干咳.无)一+(流感,无),一致程度为1

(于咳.有)且(头痛.无)_÷(流感,无).一致程度1/2

(干咳,有)且(头痛,t)己)_+(流感,有),一致程度1/2

(体温,高)且(头痛,有)_+(流感,有),一致程度为1

衰3由算法RSAVR得到的一性值鲁勺苘裹

体温十咳士痛流感

正常无

讵膏××无

3:偏高无×有

偏高无无

偏高有×有

高无X

冉无无

X有无有

——

x有有

而应用算法A对表2进行属性值约简,所得到的值约简表如表4所示.其中:

表2中的第5条央策规则(体温,偏高)且(干咳,有)且(头痛,无)。(流感,有)虽然被约简成(体温。偏高)1(流感,有),但一致程度发生了改变,从1/2变成2/3;

表2中的第7条决策规则(体温,高)日(下咳,有)且(头痛.无)一(流感,无)虽然被约简成(体温,高)月(头痛。无)_(流感,无),但一致程度发生了改变,从W2变成2/3;

表2中的第8条决策规则(体温,高)且(干咳,有)且(头痛,无)一(流感,有)虽然被约简成(体温,高)且(千咳,有)_+(流感,有),但一致程度发生了改变,从1/2变成2/3。

衰4由算法A得到的属性值约简裹

通过对算法RSAVR和算法A的实验结果的比较分析可以看出:采用算法RSAVR对决策表进行属性值的约慧,既能够得到更为简洁的决策规刚.又能够保持决策规则的一致程度不变;而采用算法A处理,则不能很好地处理_i一致决策表,不能保持决策规则的一致程度不变。

5结束语

该文给出了广艾决策、决策规则的一致程度、属性值重要性等定义,在此基础上提出了一种基于Rough集的属性值约简

箅法。该算法不仅能得到更为简洁的决策规则,而且能保持决策规则的致程度小变。实例分析验证了该算法的可行性,并能很好地处理一致决策表和小一致决策表。谤文的进一步研究将是了求更为高散的属性值约简算法。(收稿H期:2003年9月1

参考文献

IzPawlak.Roughsets[J]IntematlonalJournalf订Cmnputerandlnfor—marion‰ience,1982;11(5):34l一356

2ZPawlakRuughSets:TheoreticalAspectsof

Reasoning

ahoulDatalMlDordm【-III:KluwerAcademicPublishers1991

3史忠植‘知识发现[MI北京:清华大学}f}版社,2002

4.王国胤.Rough集理论与知识获取『嗍两安:西安变通大学出版社.2001

5却』清.Rough集及Rough推理fMl.北京:科学出版社,2001

6张文修.吴伟志.粱吉业等粗糙集理c仑与方法【M】.北京:科学出版社,2001

7刘少辉.{落秋崴,昊斌等Rough集高技算法的研究…计算机学报,

2003;26(5):524-529

8XjJHu,NCPrctmel£aming*relationaldatabases:a…ghfap-proaahlJI.InternationalJournalofComputafionalIntelligence,1995;11(2):323~338

9JJehmek,Kl(rawiec.RSfowinskiRoughsetreductionofattributes

(卜接42页)

择耗费系统资源最少、监控效果最好的信息收集Agent来完成特定的任务。这就要求中介Agent对每个信息收集Agent的功能、效率有较详细的了解,因此,在设计时要把信息收集Agent的资料放杠中介Agent的j=【1阻库内,外且t}t介Agent自身能够根据实际情况对知识库进行动态修改,根据这些资料选择最适台某任务的信息收集Agent。量化信息收集Agent干牛能是个关键问题,这里采用多维能力向屠法。

另外,对于复朵的视觉监拧问题须基于Multi—Agent的思想,为r完成共同的任务而台作的信息收集Agem的集体形成一个联盟。硅然,联盟的形成I.作仍由中介Agent来负责,因为它拥有全局知谚{库。值得一提的是,针对某个任务形成的信息收集Agent联盟并不足一成不变的,而是动态凋整的。因为,随着sE的发展,系统信息席记录的内容在不断丰富,遮就为中介Agent组织新的最优的联盟提供了依据。原先联盟的成员可能被淘汰出局。而新成员Hr能加入进来;联盟的规模可能扩大也可能缩小,甚至退化到只有一个成员。联盟的终结也由巾介Agent控制。当中介Agent做出是否人侵判断时。信息收集A—gent联盟解散,即联盟成员自动由激活状态回到待命状态。

联盟形成原则是耗费系统资源最少、监控效果最好,而具体的联盟形成机制可以采用“基于遗传算法的多Agent系统联盟机制”,该算法具有鲁棒性强、白适应性好、收敛速度快等优点。Agent联盟作为多Agent系统中一种重要的协调与合作手段,其工作机理已得到越柬越多的蕈视。

5结束语

与传统的视觉监控系统相比较.基于Multi—Agent的分布式智能视觉监拧系统具有以F优点:

(1)集体智能件、实时性、灵活性;

(2)监控单元收集只与町疑事件sF有)乏的信息,币再需要将日常数据上传,大大减小r系统的通信负载;

andtheirdonminsforneuralnetworks[J]InternationalJoumalofCorn-putationalIntelligence.1995;11(2):339-347

10JWGuau.DABellRoughcmnputatiunHlmethodsforinformationsystems[j]ArtificialIntelligences,1998;105(1/2):77-103

11ASkowron,CRauszerThediseemibilitvmatricesandfunotionsininfornmlionsyste,nIC]In:RSfowinskiedIntelligentDecisionSupportHand枞ofApplicationsandAdvancesof/'heRoughSets

neory.Dordrml_I:KluwerAcadenilePublisher8.1992:331~362

122Wang.JWang.Reductionalg.rithmsbasedOHdiscemhilitymatrix:theordereda.ributesmethod[J].JounmlofComputerScience&Teeh—nology.2001:16(6):489~504

13.苗夺谦.胡桂荣知识约简的一种启发式算{击叭计算机研究与发展,1999;36(6):681—684

14周育健“规州+例外”的学习与机器学习『D】硕士学位论文巾国科学院自动化研究所.1996

15常犁云,王国胤,吴渝一种基于Roughset理论的属性约倚及规则提取方法【JI.软件学报.1999;10(11):1206~1211

16.SKMWong,WZiarkoOnoptimaldecisionrulesindecisionta—hles[J1.BulletinofPolishAcademyofSciences,1985:33(1I—12):693—696

17JGrzymala-BusseManagingUncertaintyinExpertSystems[MI1)o卜drecht:KIuwerAeademicPublishe口.199l

(3)充分利用其各监控单元的优点,协同完成视觉监控任务,效果更好;

(4)可扩充性和容错性:Multi—Agent系统采用的是松耦合的分散结构,一个或多个监控单元的加人、删除或出错时,整个监控系统影响不大;

(5)资源共享:通过即时通信以及全局知识库实现资源共享、程序共享。

该文的研究工作已在实验室完成,为宴际应用系统的研制开发提供了理沦指导、具体方法依据。(收稿日期:2003年8月)

参考文献

1史忠植.智能主体及其应用[MI.科学出版社,20(X)

2WmldridgeMJ.JenningsNRInteUigentAgents:Th∞ryandPrac—tiee[1lKnowledgeEn#neefingReview,1995:10(2):115~152

3BruceAMaxwell.NathanielFairfiaidAreal—timevisionmodulefor

‘interactive

perceptualagent《J].MachineVisionandApplications,2003;14(I):72—82

4BemlSahlele,GerhardSagererComputeryisiansystems[J]MachineVisionandApplications.2003}14(1):3-4

5MarlinSpengler.BemtSchiale.Towardsrobustmulti—cueintegrationforvisualtraekinglJlMachineVisionandApplicatifms,2003:1411):50—58

6.CarterJonathan,BillingElijah,GhorbanlAllABeputationFormalizationfor∞Information—SharingMuhi-AgentSyskIll【"ComputationalIntel一[igenee,18(4):515-534

7.FininT.LabmuYKQML∞anAgentCommunicationLa.guage[M]MITPress.1997:291—316

8.钟求軎,谢涛,陈火旺基于遗传算法的任务分配与调度【盯.计算机研究与发展.2000:37(10):1197—1203

90nnShehory.SerifKraus.Taskallocationviacoalitionformationamongaut㈣u5

ag∞Is【c].In:ProceedingsoftheFouneenthIntemationalJointConfornnceoⅡArtificialIntelligence,Montreal.Canada.MorganKaufnm.1995—08:655—661

计算机工程与应用2003,3I5l

相关文档
最新文档