一种基于Rough集的属性值约简算法
一种基于Rough集的属性值约简算法
胡斐1张峰筠1刘少辉2
1(上海体育学院体育管理系.上海200438)
2(中国科学院计算技术研究所智能信息处理重点实验室,北京100080)
E~mail:liush@itslet.ac.uil
摘要丈章特Rough集理论应用于不同类型的决簸表(一致决策表和不一致决策表)的约简,蛤出了广义决策、决策规则的一致程度、属性值重要性等定叉,在此基础上提出丁一种基于Rough集的属性值约简算法。该算法不但能得列毫为晌洁的决策规则,而且能tI芊持班策规则的一致程度不变,实例分析表明谊算法是可行昀。
关键词Rough集决策表值核值约简
文章编号1002—8331一(2003)31—0048—04文献标识码A中圈分类号。FPl8
ARoughSet-—basedAlgorithmforAttributeValueReduction
ltuFeilZhangFengyunlLiuShaohuiz
。(DepartmentofPhysicalEducationManagement,ShanghaiInstituteof
PhysiealEducation,Shanghai200438)
2(KeyLaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnology,
ChineseAcademyofSciences,Beijing100080)
Abstract:Roughsettheoryisappliedtothereduetlouofdifferenttypesofdecisiontable(consistentdecisiontableandinconsistentdecisiontable).Alotofdefinitionssuchasthegeneralizeddecision.thedegreeofadecisionrule7s
COILSstenCVandthcsignificanceofattributevalueare舀ven.Basedtillthesedefinitions,ar0“gh嘲一basedalgorithmforattributevaluereductionisproposed.NotonlycanitgetmoreconeiF,edecisionrules,butalsoitcankeepthedegreeof
consistencyunchangeable.Theaqalysis
nfanexampleshowsthatthealgorithmisfeasible
Keywords:RoushSet,Decision
q'able,CoreValue,ValueReduction
1引言
20世纪80年代初.波兰的Pawlak教授提出了Rough集理论I】I.这足一种新刊的处理含糊和不精确性知识的数学工具。经过20多年的研究和发碰,Rough集理论已经在信息系统分析、人工智能、决策支持系统、知识与数据发现、模式识别与分类、故障榆测等方面取得丁较为成功的应用”q。
日前,对Rough集理论的研究主要集中在其彀学性质、Rough集的扩展模型、与其它不确定方法的关系和互补、及有救算法等方面。Rough集有救算法方面的研究包括如何求等价类、上近似、下近似、正区域、约简和核等等”一。
由于约简是Rotlgh集理论的核心内容之一,所以许多研究者都致力于决策表约简的研究。决策表的约简是指在保持决策能力不变的条件_F,删除决策表【}】的冗余信息,包括属性约简和属性值约简。目前,大多数研究者都将研究重点放在属性约简方面,提出了多种属性约简算法,如基于正区域的属性约筒算法17。q、基下【)c=分矩阵的属性约筒算法tll,“和基于信息熵的属性约简算法旧’等等。文献【14l和文献1151虽然讨论了属性值的约筒,但是都不能很好地处理不一致决策表。
为r能处理不同类型的决策表(一致决策表和不一致决策表),该文给出,广义决策、决策规则的一致程度、属性值重要性等定义,在此基础卜提出了一种基_FRough集的属性值约筒算法(记为RSAVR)。该算法不仅能得到更为简洁的决策规则,I|li且能保持决策规则的一致程度不变。实例分析表明该算法是可行的。
全文组织如下:第2节介绍Rough集的基本概念;第3节给出相关定义,在此基础上介绍r种基于RotI曲集的属性值约简算法RSAVB.;第4节给出霉侧分析,并与相关算法进行比较;最后给出结论。
2Rough集基本概念
下面先简要回顾一下该文主要用到的Rough集基本概念详情请参考文献11~6】。
定义1一个信息系统S可以表示为:
S=(U,A,V∞
其中.u是个体的集合,即论域一是属性集合;y=UV。,
a£^V。表示属性n的值域以UxA—r足一个信息函数,它指定u中每一个对象#的属性值,即对xEU,n∈A,有,(z,曲∈V。。
如果属性集A可以分为条件属性集C和决策属性集D,即CuD刊,Cr-ID=中.则该信息系统称为决策表或决策系统,
基金项目:国家自然科学基金资助项目(编号;60073019)
作者简介:胡韭(1975一),助教.研究方向为Ro,壤h集应用、网络昔理。张峰筠(1978-).助教,研究方向为Ro,gh集应用、阿络管理。刘ff-挥(1977博士生,研究方向为数据挖掘、Rough集理论丑应用,
482003.3l计算机工程与应用
其中D一般H含有个属性。
,定义2在信息系统s中.对于每个属性子集口∈/t、可以定义一叶、下可区分戈系删D(B):
hVO(B‘)=((』,y)∈UxU:Vb∈B以z,b)可ry,6)}
显然tN,)(B)是个等价关系,对象z在属性集B卜的等价类b】Mm定义为:。
h】~岫尸fy:y∈U,ylND(B)x}
为简便起见.在不产生混淆的睛况下用B代替IND(B)。
在决策表r卜’笑系IND(c)和,ⅣD(D)对廊的等价类分别称勾条件类和决策类,
定义3在决案袁s中,对于VzEU,用d‘表示决策规『I!|l,即:
以:des(1xk)协s(扛】n)
其中des(Izlc)表示对等价类hk的描述,即等价类hk对于符条件属性值的特定取值;des(h]。)表示对等价类hk的描述、即等价娄㈨。对丁各决策属性值的特定取值;而对于V8∈CUD。dr,(o)砘(x),Ⅱ(g)为个体』关于属性n的属性值,且dr,IC、drJD分别称为缸的条什和决策。
定义4如果对于每个y#x,doIC-=r】IrJC意昧着dr:JD--dr,lD,则称决策规则dr.足一致的,胥则是不一致的;若决策表S中所有的决策规则都是一致的,则称该决策表是一敛的,否则是不致的。
3基于Rough集的属性值约简算法
3.1相关定义
为简使起她,该文主要讨论只有一个决策属性的决策表的属性值约简.即D=ld】(含多个决锥属性的央策袁的属性值约简可采用类似方法),并以ⅨI来表示集台x中的元素个数。为了能统一处理一致决策表和不一致决策表,先给出如下定义:定义5在决策表s中.决策规则啦关于条件属性集c的一致稃度斗(dL.C)定义为:刖¨)=掣
显然,0<Ix(dr.,C)s1,且¨(以,C)=1时.dL是一致的,否则是不致的。
定义6在决策表S中.对于V』EU,用a。0)表示x的广义决策.即:
Oc(X)=陋EVd:3YEU(yIND(C)x日d(y)-=,J)l
Iil定义6可“看出:决策表S是一致的,当且仪当对V』EU,la。(z)I=1.否则就是不一致的。
定义7在决策表S中,若B互C.如果F列两个条件满足:
(I)0目(z)=d。(n且it(dr,,B)=斗(啦,C);
(2)对V6∈B,aF扛)≠嵋¨(z)或斗(血.占)≠阻(以,肛㈣)。
则称dr,IB为决策规则止的属性值约简,记为RED(dr.)。
定义8在决策规则d‘所有属性值的约简巾都存往的属性值称为妣的值棱,机的所有值核构成一个集合:
CORE(啦)={dr,(c)ICEC,如(^)≠a帅l(z)或斗(机,c)≠斗(以.c-㈦)1
3.2算法描述
采用Rough集方法对决策表进行约简的一般过程是:先进行屉件约简.然后再进行属性值约筒。通过属性约简,可以删除决策表中的冗余属性,这是对决策表的整体『|1i言。通过属性值约简,uf以删除冗余的属性值,这是对决策表的每个决策规则而言。
求虽小属性约筒和所有的属性约简已经被证明是NP完全州题I”I,故一般采用启发式信息找出最忧或次忧属性约简。这些算法的共同特点是利用属件的重要性作为启发式信息,擞据对属性重要|生的度星分类,可以分为纂丁正区域的17。…、基于尻分矩阵的”1。和基于信息熵的㈣属性约简算法等等。该文则采用了文献f71中基于正区域的高效完备的属性约简算法。
在决策规则?ft,有的属性值不可缺少,有的则aT以删除,故利用Rough集方法对决策表进行属性值的约简,充分去除决策表中的冗余信息,从而得到更JJB简洁的决策规则。但每一个决策规则都可能存在多个属性值约简,同属.}牛!约简样,求最小属性值约简和所有的属性值约简也是组合爆炸问题,放在实际应用中,当数据屠很大时,其计算代价将会非常高。
基丁此,该文采用启发式方法求取状优的属性值约简:以属性值的审要性作为启发式信息,井以值核为初始候选集台,之后,选择重要性最高的碾性值掭加列候选集合中,判断当前候选集合是卉为一个值约简,如此厦复直到找到一个值约简为止。先给山属性值重要性的定义:
定义9在决策规则d^中.设n∈C一矗∽[C),其对应的属性值毗(n)的重爱性SIG(dG(a),R)定义为;
SIGq:dr(Ⅱ),R)=p(dr,RU{n1)一“(啦,R)
其中,若月=书,则令“(d‘,尺)=1。
下面给出该算法的详细描述:
算法:基于Rough集的属性值约筒算法RSAVR
输入:决策表s=<u,CU(dl,y。厂)
输出:约简后的决策规则
步骤1:得到决策表S的属性约简,设为O;
步罪2:从S中将集合E—p中属性所对应的刑全部删除;
步骤3:依扶对各决策规则dr.进行娃理:
(1)根据定义8计算机的所有值棱,即CORE(dr,),设对应的属性集为P;
(2)RED(d‘)=CORE(dr,),尺=P;
(3)若dp缸)≠m“)或斗(d‘,Q)≠斗(机.R),反复执行:
①在p—月中找出使SIG(dr,(a),矗)取最大值的属性o;
②将d加人到R的尾部,RED(dr,)=RED(dr,)U{dr,(Ⅱ)l:
(4)从月的尾部开始,从后往前对每十属性Ⅱ进行判断:著n∈P
则从n开始往前的属性对应的值都是值棱,RED(啦)就是dr,的属性值约简,跳出第(4)步
否则若%h)=d*埘(x)且IX(dr,,Q)=p(止,R一{n1),则说明属性值dr,(o)是可去除的,MRED(dr:)中把d‘(n)删除步骤4:根据各决策规则的属性值约简输出对应的简化后的决策规则。
该算法以值核为起点,步骤3的第(3)步确保一定能找到Q的某个子集R,满足d。■)=“0)且斗(机,p)=“(d‘.R);第(4)步通过一个后向删除的过程将RED(dr,)r}?可击除的属性值删除,重要性越低的属件值,越早被处理.从而确保处理后的RED(dr,)中每个属性值都是不可删除的。故最后得到的RED(血)一定是属性值约简,所以该算法对于计算决策规则的某个属性值约简来说是完备的。
4实例分析
表l为有关流感的原始诊断数据决策表旧,其中体温、干咳、头痛、肌肉酸痛为条件属性.流感为决策属性。下面将对比分析采用算法RSAVR和文献Ii4VP的算法(记为算法A)对表
计算机工程与应用2003.3149
l进行属性值约陶的结果。算法A“区分矩阵为基础.以值棱为起点,在挑选候选属性值时采用了rain—max策略.即:首先考虑在I司类中差别出现频率最小的,如果只有一个属性,则就取其对席的属性值;如果存在几个,则取这几个属性中在异类中出现频率最大的属性对应的属性值。
衰1原蟾诊断数据决策裹
体温r唛*痛肌肉醵痛漉感
正常1芜
广i兄无
正常无有尢
偏高r无有有有
偏商有无无无
偏商有.元‘有
高I无无无
高’有:尤无
高有无无右
高有7有有有
首先采用文献【7】中的苒法对表1进行属性约简.可得到如表2所示的约简后的决策衷。容易看出,表2中决策规则1、2、3、6、9是一致的,而决策规则4、5、7、8是不一致的。
裹2经过■性约筒后的决策襄
旦件砬t’峨
上正常无无无【
三I正常五有剥
L偏高+无有
4犏高【有无
巳偏高有五肯
t高l无羌尢
7岛有无
宁
高有无冉
’一
9高有有有
然后考虑利用算法RSAVR对表2进行属性值约筒:
对于第l条决策规则(体温,正常)且(干咳.无)且(头痛.无)一(流感,无),其一致程度为1。根据定义8可得该决策规则没有值核,而:
属性值(体温,正常)的重要性为:
也且!!f1】d一1=1-1--‘0
l…I4-l
属性值(于咳,无)的重要性为:
卫b尘uj*童L-1=羔七一L
J【1】11%l44
属性值(头痛,无)的重要性为:
“!!f础}“_o一,=丁2一t=一;
故将属性值(体温,正常)加人到候选集合RED(dr.)中,由苒法RSAVR,可最终得到该决策规则的值约简为{(体温.正常)}。
对丁第7条决策规则(体温,离)且(干咳,有)且(头痛,无)一(流感,无),其一致程度为I/2。
若删除属性值(体温.高).则对应的广义决策保持不变,而决策规则(千咳,有)且(头痛,无)-+(流感,无)的一致程度也为1/2,故属性值(体温.高)不是值棱。
若删除属性值(千咳,有),则对应的广义决策保持不变,但决策规则(体温.高)且(头痛,无)一(流感,无)的一致程度为2/3,故属性值(下咳.有)是值核。
若蹦除属性值(头痛、无),赌l对应的广J义嵌策保持不变,但决策规则(体温,高)且(干咳,有)一(流感,无)的一致程度为502003.31计算机工程与应用1/3.故属性值(头痛,无)也是倩棱。
由算法RSAVR.可得该规则的值核为l(干咳,有).(头痛,无)1.通过进一步判断可最终得到该决策规则的值约简为“T咳,有).(头痛,无)l。
同理可获得其余决策规则的值约简,对应的值约简表如表3所示.最后所得的决策规则集为:
(体温,难常)_+(流感,无),一致程度为I
(体温,偏高)且(干赅,无)斗(流感,有),一致程崖为l
(体温,偏高)且(头痛,无)_(流感,无),一致程度为1/2
(体温.偏高)且(干咳.有)_+(流感,有),一致程度为1/2
(体温,高)且(干咳.无)一+(流感,无),一致程度为1
(于咳.有)且(头痛.无)_÷(流感,无).一致程度1/2
(干咳,有)且(头痛,t)己)_+(流感,有),一致程度1/2
(体温,高)且(头痛,有)_+(流感,有),一致程度为1
衰3由算法RSAVR得到的一性值鲁勺苘裹
体温十咳士痛流感
正常无
讵膏××无
3:偏高无×有
偏高无无
偏高有×有
高无X
冉无无
X有无有
矗
——
x有有
而应用算法A对表2进行属性值约简,所得到的值约简表如表4所示.其中:
表2中的第5条央策规则(体温,偏高)且(干咳,有)且(头痛,无)。(流感,有)虽然被约简成(体温。偏高)1(流感,有),但一致程度发生了改变,从1/2变成2/3;
表2中的第7条决策规则(体温,高)日(下咳,有)且(头痛.无)一(流感,无)虽然被约简成(体温,高)月(头痛。无)_(流感,无),但一致程度发生了改变,从W2变成2/3;
表2中的第8条决策规则(体温,高)且(干咳,有)且(头痛,无)一(流感,有)虽然被约简成(体温,高)且(千咳,有)_+(流感,有),但一致程度发生了改变,从1/2变成2/3。
衰4由算法A得到的属性值约简裹
通过对算法RSAVR和算法A的实验结果的比较分析可以看出:采用算法RSAVR对决策表进行属性值的约慧,既能够得到更为简洁的决策规刚.又能够保持决策规则的一致程度不变;而采用算法A处理,则不能很好地处理_i一致决策表,不能保持决策规则的一致程度不变。
5结束语
该文给出了广艾决策、决策规则的一致程度、属性值重要性等定义,在此基础上提出了一种基于Rough集的属性值约简
箅法。该算法不仅能得到更为简洁的决策规则,而且能保持决策规则的致程度小变。实例分析验证了该算法的可行性,并能很好地处理一致决策表和小一致决策表。谤文的进一步研究将是了求更为高散的属性值约简算法。(收稿H期:2003年9月1
参考文献
IzPawlak.Roughsets[J]IntematlonalJournalf订Cmnputerandlnfor—marion‰ience,1982;11(5):34l一356
2ZPawlakRuughSets:TheoreticalAspectsof
Reasoning
ahoulDatalMlDordm【-III:KluwerAcademicPublishers1991
3史忠植‘知识发现[MI北京:清华大学}f}版社,2002
4.王国胤.Rough集理论与知识获取『嗍两安:西安变通大学出版社.2001
5却』清.Rough集及Rough推理fMl.北京:科学出版社,2001
6张文修.吴伟志.粱吉业等粗糙集理c仑与方法【M】.北京:科学出版社,2001
7刘少辉.{落秋崴,昊斌等Rough集高技算法的研究…计算机学报,
2003;26(5):524-529
8XjJHu,NCPrctmel£aming*relationaldatabases:a…ghfap-proaahlJI.InternationalJournalofComputafionalIntelligence,1995;11(2):323~338
9JJehmek,Kl(rawiec.RSfowinskiRoughsetreductionofattributes
(卜接42页)
择耗费系统资源最少、监控效果最好的信息收集Agent来完成特定的任务。这就要求中介Agent对每个信息收集Agent的功能、效率有较详细的了解,因此,在设计时要把信息收集Agent的资料放杠中介Agent的j=【1阻库内,外且t}t介Agent自身能够根据实际情况对知识库进行动态修改,根据这些资料选择最适台某任务的信息收集Agent。量化信息收集Agent干牛能是个关键问题,这里采用多维能力向屠法。
另外,对于复朵的视觉监拧问题须基于Multi—Agent的思想,为r完成共同的任务而台作的信息收集Agem的集体形成一个联盟。硅然,联盟的形成I.作仍由中介Agent来负责,因为它拥有全局知谚{库。值得一提的是,针对某个任务形成的信息收集Agent联盟并不足一成不变的,而是动态凋整的。因为,随着sE的发展,系统信息席记录的内容在不断丰富,遮就为中介Agent组织新的最优的联盟提供了依据。原先联盟的成员可能被淘汰出局。而新成员Hr能加入进来;联盟的规模可能扩大也可能缩小,甚至退化到只有一个成员。联盟的终结也由巾介Agent控制。当中介Agent做出是否人侵判断时。信息收集A—gent联盟解散,即联盟成员自动由激活状态回到待命状态。
联盟形成原则是耗费系统资源最少、监控效果最好,而具体的联盟形成机制可以采用“基于遗传算法的多Agent系统联盟机制”,该算法具有鲁棒性强、白适应性好、收敛速度快等优点。Agent联盟作为多Agent系统中一种重要的协调与合作手段,其工作机理已得到越柬越多的蕈视。
5结束语
与传统的视觉监控系统相比较.基于Multi—Agent的分布式智能视觉监拧系统具有以F优点:
(1)集体智能件、实时性、灵活性;
(2)监控单元收集只与町疑事件sF有)乏的信息,币再需要将日常数据上传,大大减小r系统的通信负载;
andtheirdonminsforneuralnetworks[J]InternationalJoumalofCorn-putationalIntelligence.1995;11(2):339-347
10JWGuau.DABellRoughcmnputatiunHlmethodsforinformationsystems[j]ArtificialIntelligences,1998;105(1/2):77-103
11ASkowron,CRauszerThediseemibilitvmatricesandfunotionsininfornmlionsyste,nIC]In:RSfowinskiedIntelligentDecisionSupportHand枞ofApplicationsandAdvancesof/'heRoughSets
neory.Dordrml_I:KluwerAcadenilePublisher8.1992:331~362
122Wang.JWang.Reductionalg.rithmsbasedOHdiscemhilitymatrix:theordereda.ributesmethod[J].JounmlofComputerScience&Teeh—nology.2001:16(6):489~504
13.苗夺谦.胡桂荣知识约简的一种启发式算{击叭计算机研究与发展,1999;36(6):681—684
14周育健“规州+例外”的学习与机器学习『D】硕士学位论文巾国科学院自动化研究所.1996
15常犁云,王国胤,吴渝一种基于Roughset理论的属性约倚及规则提取方法【JI.软件学报.1999;10(11):1206~1211
16.SKMWong,WZiarkoOnoptimaldecisionrulesindecisionta—hles[J1.BulletinofPolishAcademyofSciences,1985:33(1I—12):693—696
17JGrzymala-BusseManagingUncertaintyinExpertSystems[MI1)o卜drecht:KIuwerAeademicPublishe口.199l
(3)充分利用其各监控单元的优点,协同完成视觉监控任务,效果更好;
(4)可扩充性和容错性:Multi—Agent系统采用的是松耦合的分散结构,一个或多个监控单元的加人、删除或出错时,整个监控系统影响不大;
(5)资源共享:通过即时通信以及全局知识库实现资源共享、程序共享。
该文的研究工作已在实验室完成,为宴际应用系统的研制开发提供了理沦指导、具体方法依据。(收稿日期:2003年8月)
参考文献
1史忠植.智能主体及其应用[MI.科学出版社,20(X)
2WmldridgeMJ.JenningsNRInteUigentAgents:Th∞ryandPrac—tiee[1lKnowledgeEn#neefingReview,1995:10(2):115~152
3BruceAMaxwell.NathanielFairfiaidAreal—timevisionmodulefor
‘interactive
perceptualagent《J].MachineVisionandApplications,2003;14(I):72—82
4BemlSahlele,GerhardSagererComputeryisiansystems[J]MachineVisionandApplications.2003}14(1):3-4
5MarlinSpengler.BemtSchiale.Towardsrobustmulti—cueintegrationforvisualtraekinglJlMachineVisionandApplicatifms,2003:1411):50—58
6.CarterJonathan,BillingElijah,GhorbanlAllABeputationFormalizationfor∞Information—SharingMuhi-AgentSyskIll【"ComputationalIntel一[igenee,18(4):515-534
7.FininT.LabmuYKQML∞anAgentCommunicationLa.guage[M]MITPress.1997:291—316
8.钟求軎,谢涛,陈火旺基于遗传算法的任务分配与调度【盯.计算机研究与发展.2000:37(10):1197—1203
90nnShehory.SerifKraus.Taskallocationviacoalitionformationamongaut㈣u5
ag∞Is【c].In:ProceedingsoftheFouneenthIntemationalJointConfornnceoⅡArtificialIntelligence,Montreal.Canada.MorganKaufnm.1995—08:655—661
计算机工程与应用2003,3I5l