第七章 决策表属性约简
区间值决策表的决策风险最小化属性约简

区间值决策表的决策风险最小化属性约简徐菲菲【摘要】针对目前海量数据分析较多情况下从传统的单条记录转变为一个区间对象,将决策粗糙集中风险的概念引入至区间值决策表中,给出了区间值决策表决策风险的定义,并提出了决策风险最小化的属性约简方法.该方法可以保证所得到的约简集合相对于决策属性具有较强的分类能力,同时保证约简集合的决策风险最小.区间值决策表的决策风险最小化约简使得定义的约简具有更强的理论性和可解释性.【期刊名称】《上海电力学院学报》【年(卷),期】2017(033)005【总页数】6页(P471-476)【关键词】区间值决策表;决策粗糙集;风险最小化;属性约简【作者】徐菲菲【作者单位】上海电力学院计算机科学与技术学院,上海200090【正文语种】中文【中图分类】TP18;TP273.24现实生活中获得的数据集通常复杂多样,特别对于很多测量值数据,大多表现为一定范围内的连续值.对于这类数据来说,如果需要构建某种分类模型,仅依靠某一条数据判定其类别信息,不仅物理意义难以解释,而且耗费大量的时间.处理这类数据应主要考虑时间段内的整体数据特征,将一条数据单独作为一个对象的传统数据处理方式已不适合用来处理这类数据.有学者提出采用均匀时间段内的最大值和最小值来近似替代该连续区间中的所有对象,将整个数据集转换成区间值形式.经典粗糙集理论是PAWLAK Z[1]于1982年提出的一种处理不精确、不一致、不完整数据的数学工具,已在人工智能、机器学习、模式识别等领域得到广泛应用,并获得普遍认可,成为研究热点.然而PAWLAK Z粗糙集模型所要求的条件过于严格,导致容错能力较差,并不能处理复杂的实际问题.因此,有学者将严格的等价关系变成概率包含关系,提出了概率粗糙集模型[2-6].变精度粗糙集[2](Variable Pawlak Rough Sets,VPRS)作为概率粗糙集的典型代表之一,受到了众多学者的关注.VPRS 通过调整参数,大大提高了分类精度.然而对VPRS参数的语义缺乏合理的解释.YAO Y Y引入了Bayes风险理论,通过Bayes风险理论对VPRS的参数进行了解释,并给出相应的推导方法,从而提出了决策粗糙集(Decision-Theoretic RoughSets,DTRS)模型[3].属性约简是粗糙集理论所要研究的核心内容之一.YAO Y Y等人[7]最早对DTRS的属性约简进行了探讨,得出了DTRS约简过程中正域、负域和边界域均不具备单调性的结论;JIA X Y等人[8]指出DTRS应以风险代价作为约简的启发式因子;LI H X 等人[9]定义了一种新的α-正域约简,指出约简前后的正域只需要保持非减性;MA X A等人[10]研究了决策粗糙集的多类问题;CHEBROLU S和SANJEEVI S G[11]将遗传算法引入到DTRS中,通过优化算法得到参数值;LIU J B等人[12]提出了测试代价最优下的正域属性约简算法.上述所有的研究和方法都是基于传统的数据.而在实际生活中存在大量的区间值数据,本文将DTRS理论引入至区间值决策表中,构建区间值决策表下的DTRS模型,继而给出区间值决策表中风险损失的计算方法以及约简的定义,最后以风险损失最小化作为启发式信息提出其相应的属性约简方法.对于大多数区间值数据集,类别信息通常都是离散的.因此,本文讨论的是条件属性为区间值、而决策属性为离散值的情况.定义1 设有区间值决策表[13]DT=<U,C∪D,V,f>,其中C∪D表示非空有限属性集合,包括条件属性集C={a1,a2,a3,…,am}和决策属性集D={d}两部分;V=V C∪VD,其中VC表示条件属性值集合,VD表示决策属性值集合; f:U×C→VC是区间值映射, f:U×D→VD为单值映射.表1为一张区间值决策表,其中论域U={u1,u2,u3,…,u10};条件属性集C={a1,a2,a3,a4,a5};决策属性集D={d};条件属性值是区间值,如f(a2,u3)=[7.03,8.94];决策属性值d(ui)是单值,如d(u3)=2.在区间值决策表中,如果采用经典粗糙集的严格等价关系,很难对论域形成合理的划分,完全取值相同的区间最大最小值才能形成一个等价类,由此得到的等价关系过于苛刻.因此,我们将相似度的概念引入区间值决策表中,用来度量区间之间的相似程度,从而采用相似关系替代严格的等价关系,增强模型的实际应用能力.定义2 设有区间值决策表其中如果说明对象ui在属性ak上这一时间段内的取值均为同一常数.若对任意的ui和任意的条件属性ak,均满足则该决策表即为传统的决策表.定义对象ui与uj关于属性ak的相似度[14]为:式中,card()表示区间值的长度.显然,0≤.如果则条件属性值f(ak,ui)与f(ak,uj)相离;若则条件属性值f(ak,ui)与f(ak,uj)部分相离或真包含;若则条件属性值f(ak,ui)与f(ak,uj)是完全不可分辨的.从区间值的相似度定义可以看出,该定义实际上衡量的是区间值决策表下不同区间值对象之间的等价程度.值越大,说明两个区间的等价程度越高值越小,说明两个区间相交部分越少,即两个区间等价程度越低.定义3 设有区间值决策表DT=<U,C∪D,V,f>,给定一参数水平λ∈[0,1],任意的条件属性子集A⊆C,定义U上的一个二元关系∀ak∈A},称之为关于A的λ-容差关系[14].性质1 设DT=<U,C∪D,V,f>是一区间值决策表,给定一参数水平λ∈[0,1],任意的条件属性子集A⊆C,显然是自反的和对称的,但不一定是传递的.性质2 设DT=<U,C∪D,V,f>是一区间值决策表,给定一参数水平λ∈[0,1],任意属性子集A⊆C,有记表示区间值对象ui在属性集A下的λ-相容类.以表1为例,当λ=0.7,A=a1时,根据定义2和定义3计算可得}.有了上述区间值决策表的基本概念和性质,我们可以将决策粗糙集引入至区间值决策表中,给出区间值决策表的上下近似概念.定义4 设有区间值决策表DT=<U,C∪D,V, f>,给定一参数水平λ∈[0,1],任意属性子集A⊆C,X⊆U,定义X关于A的粗糙上、下近似为:⊄};⊆X}.根据区间值决策表上下近似的概念,我们可以定义区间值对象子集X关于任意属性子集A的正域、负域、边界域.定义5 设有区间值决策表DT=<U,C∪D,V,f>,给定一参数水平λ∈[0,1],任意属性子集A⊆C,X⊆U,定义X关于A的正域⊆X},负域⊄},边界域⊄∧⊆X)}.与经典决策粗糙集相同,给定一参数水平λ∈[0,1]和任意属性子集A⊆C,当区间值对象ui∈U属于对象子集S时,λPP,λBP,λNP分别表示将一个区间值对象划分到相应的的损失函数.类似地,当区间值对象ui∈U不属于S时,λPN,λBN,λNN分别表示将一个区间值对象划分到相应的的损失函数.如果区间值对象ui∈U属于S,则将其划分到正域的风险应该最小,其次是将其划分到边界域的风险,而划分到负域的风险最大;同理,如果区间值对象ui不属于S,则其划分到S的负域的风险应该最小,划分到S的正域的风险最大.因此,我们可以假设损失函数满足:令:γ=β=由于损失函数满足式(1)的关系,根据YAO Y Y的三支决策语义规则[3],可以推导出α∈(0,1],γ∈(0,1),β∈[0,1).设有区间值决策表DT=<U,C∪D,V,f>,给定一参数水平λ∈[0,1],任意的条件属性子集A⊆C,可以得到U上的一个二元关系导出的最简覆盖为决策属性集D在U上导出的划分为:Y={Y1,Y2,Y3,…,Yj,…,Yv}.状态集合表示λ-相容类对象属于或不属于决策类Yj,由此,λ-相容类属于Yj和不属于Yj的条件概率分别为:P(|(ui))=1-P(Yj|(ui))因此,我们可以推导出如下决策规则:(1) 如果则(2) 如果则(3) 如果则).表示ui∈U在条件属性子集A上得到的λ-相容类,Yj表示决策属性集在U上导出的等价类Y.根据上述决策规则,我们可以将区间值对象ui划分到相应的区域.定义6 设有区间值决策表DT=<U,C∪D,V,f>,给定一参数水平λ∈[0,1],对属性子集A⊆C的决策风险定义为:由于正确分类的风险为零,即λPP=λNN=0,则有:式中⊆C.定义6表示区间值决策表中的决策风险应该是每个区间值对象ul在参数水平λ下根据规则划分到相应区域产生的所有风险的总和.定义7 设有区间值决策表DT=<U,C∪D,V,f>,给定一参数水平λ∈[0,1],属性子集A⊆C是C的一个决策风险最小化约简,当且仅当:(1) A=arg(minA⊆C(CostA));(2) ∀A′⊆A,CostA′>CostA.在经典粗糙集下,我们对属性约简的定义基本都保持整个决策表正域不变.实际上,保持正域不变,而负域又为空集,也就相当于保证了整个决策表的边界域不变,即3个区域均不变.而在决策粗糙集中,无论正域、边界域还是负域在属性增减过程中的变化都是非单调的.通过分析发现,决策粗糙集中,每一个对象被划分的区域应该由风险决定.划分到哪一个区域的风险最小,就将该对象划到相应的区域.因此,我们应该依据风险最小化原则进行决策.同样,在区间值决策表中研究约简问题,也应以风险最小化原则为基准,计算约简时不必关注约简前后区域的变化,而应考虑区域变化后所带来的决策风险是否减小.即添加一个属性使得整个区间值决策表的决策风险总和减少,则认为该属性属于约简子集.条件属性子集相对于决策属性的分类能力可以通过属性重要度反映,属性重要度越高,条件属性子集对决策属性的分类能力应该越强,反之亦然.已有学者基于风险最小提出了决策粗糙集的属性约简算法.如文献[8]给出了决策风险最小化的定义,并以此作为启发式算子提出了相应的约简算法,然而该定义并没有考虑所选属性的分类能力,仅考虑了决策风险因子.文献[15]在文献[8]的基础上增加了属性重要度的概念,考虑风险代价的同时考虑到所选属性的分类能力,然而该方法仅仅考虑单个属性的重要性,并没有考虑到属性之间的强相关性.两个具有强分类能力的属性在一起并不一定能增加其分类能力.文献[16]给出了联合属性重要度的定义.以上研究均是针对传统的决策粗糙集模型,无法直接用于区间值决策表.因此,本文给出区间值决策表下的属性重要度定义.设DT=<U,C∪D,V,f>是一区间值决策表,给定一参数水平λ∈[0,1],任意的条件属性子集A⊆C,可以得到U上的一个二元关系导出的最简覆盖决策属性集D在U上导出的划分为:Y={Y1,Y2,Y3,…,Yj,…,Yv}.如果u∈,则在条件属性子集A下的λ-相容类对决策属性集D下划分的等价类Yj的条件概率大小用P(u)表示:P(u)反映的是在条件属性子集A下的λ-相容类对决策属性分类能力的大小.式(6)中取最大值是希望确定性程度最大,这样取值符合概率统计的实际意义.定义8 设有区间值决策表DT=<U,C∪D,V,f>,论域U={u1,u2,u3,…,un},给定一参数水平λ∈[0,1],任意的条件属性子集A⊆C,可以得到U上的一个二元关系导出的最简覆盖决策属性集D在U上导出的划分为:Y={Y1,Y2,Y3,…,Yj,…,Yv}.如果则条件属性子集A下的重要度SGF(A)定义为:j=1,2,3,…,v,l=1,2,3,…,n定义8表明区间值决策表中的属性重要度的计算是通过求论域中所有区间值对象的λ-相容类相对于决策的分类能力总和.即考察的对象是整个论域U,因此对每个区间值对象的条件概率P(ul)求和.在现实应用中,计算约简往往采用启发式属性约简算法.相比于差别矩阵方法,虽然启发式约简只能得到一个约简结果,但可以大大地提高约简效率.启发式约简主要有前向添加,后向删除,以及两者结合3种方法.当条件属性较多时,采用后向删除法耗费大量的时间.因此,本文采用前向添加属性的方法,提出了一种区间值决策表的决策风险最小化属性约简算法(Attribute Reduction Based on Minimum Decision Cost in Interval-Valued Decision Tables).算法的主要思想是:首先根据定义8,选择属性重要度最大的一个条件属性添加到约简子集中,计算决策表的风险代价总和.在该属性基础上,计算每个属性联合该属性的整体重要度,选出重要度最大的联合属性子集,计算代价.如果添加后决策表的风险代价比未添加前的小,说明此属性可以帮助减小决策表的风险代价,同时该属性对决策具有强分类能力.反之,算法结束,得到的属性子集即为约简结果.算法描述如下.输入:区间值决策表DT=<U,C∪D,V,f>,参数α,β,λ.输出:属性约简集合A.步骤1 置A=Ø.步骤2 根据定义8和输入的λ,先计算单个条件属性ak∈C的重要度SGF({ak}),k=1,2,3,…,m,将SGF({ak})值最大的条件属性ak添加到约简集合A中(若存在多个区间值属性同时达到最大值,则选λ-相容类个数最少的属性作为ak).步骤3 计算CostA:(1) 计算论域U中的每个区间值对象ul的P(ul)值,l=1,2,3,…,n;(2) 根据决策规则以及输入的α和β值将区间值对象ul划分到正域,边界域,负域中;(3) 根据式(6)计算CostA.步骤4 对区间值条件属性集C-A重复:(1) 对每个区间值条件属性ak∈C-A,计算联合重要度SGF(A∪{ak});(2) 选择SGF(A∪{ak})值最大的条件属性ak(若存在多个条件属性同时达到最大值,则将λ-相容类个数最少的属性作为ak);(3) 令A′=A∪{ak},计算CostA′;(4) 如果CostA′≤CostA,则A=A′;否则终止.步骤5 最后得到的A就是区间值条件属性C相对于D的一个决策风险最小化约简. 该算法从空集开始,逐个添加区间值条件属性至约简集合中.在添加区间值条件属性时,同时考虑到已有的约简子集,保证每次添加的属性都是在现有约简子集条件下最重要的,并且保证添加该条件属性后该决策表的风险代价比未添加前的要小,即该属性的添加不会增加决策表的风险代价;否则算法结束,得到的条件属性子集A即为最终的约简结果.(1) 本文给出了区间值决策表下的属性重要度计算方法,通过对每个区间值对象的条件概率P(ul)求和,得到论域中所有区间值对象的λ-相容类相对于决策的分类能力总和,符合概率统计的实际意义.(2) 本文所提方法不仅可以保证所得到的约简集合相对于决策属性具有较强的分类能力,同时保证约简集合的决策风险最小.区间值决策表的决策风险最小化约简使得定义的约简具有更强的理论性和可解释性.【相关文献】[1] PAWLAK Z.Rough sets[J].International Journal of Computer & Information Sciences,1982,11(5):341-356.[2] ZIAKO W.Variable precision rough set mode[J].Journal of Computer and System Sciences,1993,46(1):39-59.[3] YAO Y Y.Decision-theoretic rough set models[C]//Proceedings of the 2th International Conference on Rough Sets and Knowledge Technology.LNAI.Heidelberg:Springrt,2007:1-12.[4] HU Q H,ZHANG L,CHEN D G,et al.Gaussian kernel based fuzzy roughsets:model,uncertainty measures and applications[J].International Journal of Approximate Reasoning,2010,51(4):453-471.[5] SLZAK D.Rough sets and bayes factor[M]//SKOWRONA P J F.Transactions on Rough Sets.Berlin:Springer,2005:202-229.[6] HERBERT J P,YAO J T.Game-theoretic risk analysis in decision-theoretic roughsets[C]//Proceedings of the 3th International Conference on Rough Sets and Knowledge Technology,Chengdu,China,2008:132-139.[7] YAO Y Y,ZHAO Y.Attribute reduction in decision-theoretic roughsetmodels[J].Information Sciences,2008,178(17):3 356-3 373.[8] JIA X Y,LIAO W H,TANG Z M,et al.Minimum cost attributereduction in decision-theoretic rough set models[J].Information Sciences,2013,219(1):151-167.[9] LI H X,ZHOU X Z,ZHAO J B,et al.Attribute reduction in decision-theoretic rough set model:a further investigation[C]//Proceedings of the 6th International Conference on Rough Sets and Knowledge Technology,Banff,Canada,2011:466-475.[10] MA X A,WANG G Y,YU H,et al.Decision region distribution preservation reduction in decision-theoretic rough set model[J].Information Sciences,2014,278(10):614-640. [11] CHEBROLU S,SANJEEVI S G.Attribute reduction in decision-theoretic rough set models using genetic algorithm[C]//Proceedings of the 2th International Conference on the Swarm Evolutionary and Memetic Computing,Visakhapatnam,India,2011:307-314. [12] LIU J B,MIN F,LIAO S J,et al.Minimal test cost feature selection with positive region constraint[C]//Proceedings of the 8thInternational Conference on Rough Sets and Current Trends in Computing,Chengdu,China,2012:259-266.[13] 徐菲菲,雷景生,毕忠勤,等.大数据环境下多决策表的区间值全局近似约简[J].软件学报,2014,25(9):2 119-2 135.[14] 郭庆,刘文军,焦贤发,等.一种基于模糊聚类的区间值属性约简算法[J].模糊系统与数学.2013,27(1):149-153.[15] 徐菲菲,毕忠勤,雷景生.基于联合属性重要度的决策风险最小化属性约简[J].计算机科学,2016,43(s1):40-43.[16] 于洪,姚园,赵军.一种有效的基于风险最小化的属性约简算法[J].南京大学学报(自科科学版),2013,49(2):133-141.。
一种非相容决策表的属性值与属性约简方法

Atrb t au n trb t e u t n meh d tiu e v le a d ati ue r d ci t o o
b s d o n o sse td c so a l s a e n i e n it n e iin tb e
D N h uh , I n 一 U N S — e , E G S a —o L ,G A uj WA a g Mi i N Fn
邓少波。 , 。 黎 敏 , 关素洁 万 , 芳
( .南 昌工程学 院 信 息工程 学院 ,南昌 3 0 9 2 1 30 9; .中国科 学院 计算技术研 究所 智能信 息处理 重点 实验 室,北 京 10 9 ;3 0 10 .中国科 学院 深圳 先进技 术研 究 院,广 东 深圳 5 8 5 ; .江 西师 范大 学 计算 机信 息工程 学 院, 10 5 4
( .Sho (  ̄r ainE gne n ,Y nh n stt o cal ) N nh n 3 09, hn ; .Kylbrt 厂neiet, ma 1 col h bm t nier g a cagI tu T h o g , acag3 0 9 C ia 2 e z ao 0Itl n , j o i n i ef e o  ̄o m lg — t nP oe i Isttf o p t gTcnl ) hns cdm Si cs Bin 0 10 hn 3 hnhnI tuefTcnl ) i rc s g,ntue Cm ui e o g ie Aa e ) o sn i n h o ,C e cne, eig10 9 ,C i e j a; .Seze n i ta eho g , st o c i Aa e >o S ec ,hnh G ag og5 8 5 C ia 4 oee C m ue / omai n i ei Jag i ord £ e i r w cdm , d ne S ez . nd n 10 5, hn ; .Clg o p t , r t nE gn r g, inx X ru r— l f r, f o e n r s
一种新的启发式粗集决策表属性约简算法

一种新的启发式粗集决策表属性约简算法沈玮;赵佳宝【摘要】粗集理论通过对原始决策表的约简从而获取规则知识,其核心部分是属性约简.经过约简后的数据更有价值,更能准确地获取知识.文中提出了一种新的启发式属性约简算法,并给出了算法的详细步骤和具体的实验示例.该算法通过不一致计数和互信息增量的计算来衡量属性的重要性,避免了对属性之间随机组合情况的搜索,可以提高求解速度.实验结果表明,相比较于动态约简算法和标准遗传算法,所提出的算法获得的约简属性集更加简洁和高效.【期刊名称】《计算机技术与发展》【年(卷),期】2010(020)010【总页数】5页(P16-20)【关键词】粗集;属性约简;启发式【作者】沈玮;赵佳宝【作者单位】南京大学,工程管理学院,控制理论与系统工程系,江苏,南京,210093;南京大学,工程管理学院,控制理论与系统工程系,江苏,南京,210093【正文语种】中文【中图分类】TP301.60 引言波兰数学家Pawlak Z提出的Rough Set是一种新的处理不精确、不完全与不相容知识的数学方法[1,2]。
其目前正被广泛应用于人工智能、模式识别与智能信息处理等领域,并取得了一定的成果[3]。
属性约简是粗糙集理论及应用研究的重要内容之一[4],也是知识获取的关键步骤。
基于粗糙集的属性约简算法备受研究者的关注并已经取得了一定的成果[5~7]。
最简单有效的方法是对于包含强相关属性的离散属性数据集进行属性核的计算,得到的约简包含一个核和另外一些弱相关的属性,从而最后得到满意的属性约简结果。
从所有的属性子集里寻找最优的属性约简集是十分困难的任务,实际上,Wong S K 和Ziarko W已证明了寻找决策表的最小属性约简是NP-hard问题[8],而属性的组合爆炸是导致NP-hard的主要原因[9]。
为了得到决策信息系统中最合适的属性约简集合,文中提出了一个新的启发式属性约简算法。
1 粗糙集相关概念简介粗糙集理论的要点是将分类和知识联系在一起,并用等价类关系形式化表示分类。
《决策形式背景属性约简及分类规则提取的方法研究》范文

《决策形式背景属性约简及分类规则提取的方法研究》篇一一、引言在大数据时代,决策形式背景属性约简及分类规则提取是数据挖掘和分析领域中一项至关重要的技术。
其目标是在保留重要信息的前提下,降低数据的复杂性和维度,进而提升数据处理和决策的效率和准确性。
本文旨在研究并分析这一过程的策略和方法,以实现对数据的更有效处理和利用。
二、决策形式背景属性约简决策形式背景属性约简主要是通过一定的算法和技术,对原始数据进行处理和筛选,以减少数据的复杂性和维度。
这一过程主要涉及到两个关键步骤:数据预处理和属性约简。
1. 数据预处理数据预处理是决策形式背景属性约简的第一步,其主要目的是清洗和整理数据,以便后续的属性约简工作。
这一步骤包括数据清洗、数据转换和数据归一化等操作。
(1)数据清洗:主要目的是去除或修正数据中的噪声和错误。
例如,对于缺失值、重复值或异常值进行处理。
(2)数据转换:将原始数据转化为更适合分析的形式。
例如,对于非数值型数据,可能需要转化为数值型数据。
(3)数据归一化:将数据的值限定在一定的范围内,以便于后续的属性约简工作。
2. 属性约简属性约简是决策形式背景属性约简的核心步骤,其主要目的是在保留重要信息的前提下,减少数据的维度。
这一步骤通常通过一些算法和技术实现,如粗糙集理论、信息熵等。
(1)粗糙集理论:基于等价类和不可分辨关系进行属性约简。
其主要思想是通过计算属性的重要性来决定其是否保留。
(2)信息熵:通过计算各个属性的信息增益或信息熵来评估其重要性,从而进行属性约简。
三、分类规则提取分类规则提取是在属性约简的基础上,进一步从数据中提取出分类规则的过程。
这一过程主要涉及到决策树、支持向量机等机器学习算法。
1. 决策树决策树是一种常用的分类算法,其通过构建树形结构来描述数据的分类规则。
在决策形式背景中,可以通过构建决策树来提取分类规则。
具体而言,通过计算各个属性的分裂准则和信息增益等指标,来决定树的构建过程。
不完备决策表属性约简的CIEARAWCC算法

18 2 0 ,3 1 ) 6 0 7 4 ( 1
C m ue neiga dA pi t n o p trE er n p lai s计 算机 工程 与应 用 n c o
不完备决策表属性 约简 的 C E R I A AWC C算 法
a l s a v x mp e a ay i h ws h t t i l o t m a n h n ma ea ie e u t n fr d c s n ma i g t b e . n i u t t e e a l n l ss s o ta h s a g r h c n f d t e mi i l r lt rd c i e ii — k n a l s l ri i i v o o o
纪 怀猛 , 可 , 罗 童小娇
J H a me g L O K ,O G X a-i I u i n ,U e T N i j o - o a
长沙 理 工 大 学 计 算 机 与通 信 工 程 学 院 , 沙 4 0 7 长 1 06
I s tt o o ue n o n t u e f C mp t r a d C mmu i a o gn e n , h n s a Un v ri f S i n e & T c n l g , h n s a 41 0 6 C i a i n c t n En i e r g C a g h i e s y o ce c i i t e h oo y C a g h 0 7 , hn
at b t s i n o l t e iin ma i g tb e a d p t fr a d a h u s c a g rt m a e n c n i o a n o a in e t p o t u e n i c mp ee i r d cso — k n a l , n u s o w r e r t l o h b s d o o d t n l i r t n o y fr i i i i f m o r r d c in o t b t n B n r d cn lt ey p st e r go i h s s le f c iey t e p o l m f r d n a t atiu i n c e e u t f a t ui . y i t u i g r a i l o i v e in,t a ov d e e t l h r b e o e u d n t b t r — o i r o o e v i v r o
一种新的决策表属性约简算法

一种新的决策表属性约简算法
刘文军
【期刊名称】《系统工程学报》
【年(卷),期】2009(24)1
【摘要】结合模糊聚类技术与粗糙集中属性重要性思想,对同时含有连续、离散、序数型条件属性的决策表,提出一种属性约简算法,并对算法的时间复杂度进行了分析.该方法首先利用聚类技术将决策表的对象按条件属性进行分类,然后对去掉某属性后的决策表采用同样的方法进行聚类,再结合粗糙集理论进行属性约简.实例说明了该方法的合理性和有效性.
【总页数】5页(P104-108)
【作者】刘文军
【作者单位】长沙理工大学数学与计算科学学院,湖南,长沙,410076
【正文语种】中文
【中图分类】O159
【相关文献】
1.不相容决策表中一种新的属性约简算法 [J], 刘海涛;翟敬梅;徐晓
2.信息量不完备决策表属性约简的一种新算法 [J], 张清国;郑雪峰;张明德;于义科
3.一种新的不一致决策表属性约简算法 [J], 汪小燕;杨思春
4.一种新的启发式粗集决策表属性约简算法 [J], 沈玮;赵佳宝
5.一种新的不一致决策表的属性约简算法 [J], 兰聪花;王逢娟
因版权原因,仅展示原文概要,查看原文内容请购买。
在Visual Basic环境下用粗糙集理论约简决策表属性

23 假 设 S U , 是 一 个 信 息 系 统 , 中 所 有 等 价 . =< R> R
本 就 代 表 一 条 基 本 的 决 策 规 则 。 为 了从 决 策 表 中抽 取 适 应 性 大 的 规 则 , 需要 对 决 策 表 进 行 属 性 约 简 。 就 使 用 粗 糙 集 理 论 对 决 策 表 进 行 约 简 比 较 出 色 在 用 辨 识 矩 阵 方 法 对 决 策 表 进 行 属 性 约 简 时 , 要 考 虑 实 需 现 约 简 的 一 些 技 术 问题 。 建 立 决 策 表 的 可辨 识 矩 阵 . 所 有 取 值 非 空 集 合 元 素 建 立 相 应 的 析 取 逻 辑 表 如 对
rER
, 样 本 属 性 值 的集 合 , , 示 属 是 表
’
贝 叶 斯 分 类 法 等 等 .决 策 树 分 类 法 就 是 一 种 简 单 而 又应 用广 泛 的分类 技术 。 决 策 树 是 一 个 预 测 模 型 .它 代 表 的 是 对 象 属 性 与 对 象 值 之 间 的 一 种 映 射 关 系 。其 结 构 为 树 型 , 由 它 的 分 支 来 对 该 类 型 的 对 象 依 靠 属 性 进 行 分 类 。每个 决 策 树可 以依靠 对 源 数 据库 的分 割 进行 数据 测试 . 个 过 程可 以递 归式 地 对 树进 行 修 剪 。 这 当 不 能 再 进 行 分 割 或 一 个 单 独 的 类 可 以 被 应 用 于 某 一 分 支 时 . 归 过 程 就 完 成 了 。但 是 当 属 性 过 多 递 的 时 候 . 的 构 造 就 会 变 得 过 于 庞 大 , 间 和 空 间 树 时 将 是 巨 大 的 . 类 任 务 就 会 变 得 很 困 难 , 以 需 要 分 所 用某 种方 法来进 行 属性 约简 。
模糊决策表的一种改进的属性约简算法

C m u r n i e n d p lai s o p t gn r g n A pi t n计பைடு நூலகம்机工程 与应用 eE e i a c o
模 糊 决策 表 的一种改进 的属性 约简 算法
林 山, 项 菲
LI S a XI N h n, ANG e F i
四川理 工学院 计算机 学院 , 四川 自贡 6 3 0 40 0
c t n .0 1 4 ( 6 :6 —6 . ai s2 ; ,7 2 ) 171 9 o 1
Absr c :Clsia o g sth s i td p o esn a a i i fz y d cso a l.u z e s c mb e t lsia ta t a sc lr u h e a a l e r c sig c p ct n u z e iin tb eF z y s ti o i d wi casc l mi y n h ru h e. tiu e e u t n lo tm o u z d cso a l i t de . w smi t d ge a d e o g st rb t rd ci ag r h At o i f fz y e iin tbe s u idNe s i l y e re n n w s lrt ae oy  ̄i i a i c tg r mi y ae e n d,n te me t , i lrt ae oy cutr whc s iie y c n i o t b t s po ie .wo te rms r r d f e i h a i smi iy c tg r lse ih i dv d d b o dt n at ue i r vd dT h oe ae i n me a i i r
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章 信息表属性约简 基于Rough集理论的知识获取,主要是通过对原始决策表的约简,在保持决策表决策属性和条件属性之间的依赖关系不发生变化的前提下对决策表进行约简(简化),包括属性约简和值约简。本章将对决策表的属性约简从代数集合观点和信息论的信息熵观点进行系统分析,并介绍几种有效的属性约简算法。
7.1决策表属性约简概述 一个决策表就是一个决策信息系统,表中包含了大量领域样本(实例)的信息。在第四章中,我们曾经对决策规则进行了讨论,决策表中的一个样本就代表一条基本决策规则,如果我们把所有这样的决策规则罗列出来,就可以得到一个决策规则集合,但是,这样的决策规则集合是没有什么用处的,因为其中的基本决策规则没有适应性,只是机械地记录了一个样本的情况,不能适应新的、其他的情况。为了从决策表中抽取得到适应度大的规则,我们需要对决策表进行约简,使得经过约简处理的决策表中的一个记录就代表一类具有相同规律特性的样本,这样得到的决策规则就具有较高的适应性。 根据定义2.1-1,我们可以进一步讨论决策表中属性的必要性和相应的约简算法。 定义7.1-1 设U是一个论域,P是定义在U上的一个等价关系簇,RP。如果IND(P-{R})=IND(P),则称关系R在P中是绝对不必要的(多余的);否则,称R在P中是绝对必要的。 绝对不必要的关系在知识库中是多余的,如果将它们从知识库中去掉,不会改变该知识库的分类能力。相反,若知识库中去掉一个绝对必要的关系,则一定改变知识库的分类能力。 定义7.1-2 设U为一个论域,P为定义在U上的一个等价关系簇,RP。如果每个关系RP在P中都是绝对必要的,则称关系簇P是独立的;否则,称P是相互依赖的。 对于相互依赖的关系簇来说,其中包含有冗余关系,可以对其约简;而对于独立的关系簇,去掉其中任何一个关系都将破坏知识库的分类能力。 定义7.1-3 设U为一个论域,P为定义在U上的一个等价关系簇,P中所有绝对必要关系组成的集合,称为关系簇P的绝对核,记作CORE(P)。 定义7.1-4 设U为一个论域,P、Q为定义在U上的两个等价关系簇,且QP。 如果 (1) IND(Q)=IND(P); (2) Q是独立的; 则称Q是P的一个绝对约简。 如果知识Q是知识P的绝对约简,那么,U中通过知识P可区分的对象,同样可以用知识Q来区分。 在讨论决策表信息系统约简的时候,一个条件属性A就对应着一个等价关系(也称不分明关系或不可分辨关系),即在条件属性A上取值的相等关系,它对论域U形成一个划分U/A。决策表的所有条件属性形成条件属性集合(P)对论域U的划分U/P,同时,决策属性集D={d}也对论域形成一个划分U/D。这两个划分形成了条件属性和决策属性在对论域样本分类上的知识。属性约简的目标就是要从条件属性集合中发现部分必要的条件属性,使得根据这部分条件属性形成的相对于决策属性的分类和所有条件属性所形成的相对于决策属性的分类一致,即和所有条件属性相对于决策属性D有相同的分类能力。这就是相对约简的概念。 定义7.1-5 设U为一个论域,P、Q为定义在U上的两个等价关系簇,Q的P正域记为POSP(Q),定义为: QUXPXQPOSP/)()(。
定义7.1-6 设U为一个论域,P、Q为定义在U上的两个等价关系簇,若POSP(Q)=POS(P-{r})(Q),则称r为P中相对于Q可省略的(不必要的),简称P中Q可省略的;否则,称r为P中相对于Q不可省略的(必要的)。 定义7.1-7 设U为一个论域,P、Q为定义在U上的两个等价关系簇,若P中的每一r都是P中Q不可省略的,则称P为(相对于)Q独立的。 定义7.1-8 设U为一个论域,P、Q为定义在U上的两个等价关系簇,若P的Q独立子集S(SP)有POSs(Q)=POSP(Q),则称S为P的Q约简。 可以记P的所有Q约简关系簇为REDQ(P)。 定义7.1-9 设U为一个论域,P、Q为定义在U上的两个等价关系簇,P的所有Q不可省略原始关系簇称为P的Q核,记为COREQ(P)。 定义7.1-10 设U为一个论域,P、Q为定义在U上的两个等价关系簇,如果POSP(Q)=U,则称论域U是P上相对于Q一致的。 定理7.1-1 设U为一个论域,P、Q为定义在U上的两个等价关系簇,REDQ(P)为P的所有Q约简关系簇,COREQ(P)为P的Q核,则COREQ(P)=REDQ(P)。 下面再给出在可变精度Rough集模型相应的属性集之间依赖、独立,以及约简的定义(定义7.1-11至定义7.1-13)。
定义7.1-11 如果),()},{(DCKDaCK,则称属性a是属性集C中相对于决策属性D是依赖的;否则称属性a是属性集C中相对于决策属性D是独立的。 定义7.1-12 如果存在条件属性集B(BC)的真子集E,使得
),(),(DBKDEK,则称B相对于决策属性D是依赖的;否则,
称B相对于决策属性D是独立的。 定义7.1-13 决策表条件属性集合C的相对约简C’是条件属性集合C相对于决策属性D的最大的对立子集。 下面通过实例对决策表的约简问题加以说明。 如表7.1-1所示的一个关于气象信息的决策表系统。
表7.1-1 关于气象信息的决策表系统 U 条件属性 决策属性(d) Outlook(a1) Temperature(a2) Humidity(a3) Windy(a4)
1 Sunny Hot High False N 2 Sunny Hot High True N 3 Overcast Hot High False P 4 Rain Mild High False P 5 Rain Cool Normal False P 6 Rain Cool Normal True N 7 Overcast Cool Normal True P 8 Sunny Mild High False N 9 Sunny Cool Normal False P 10 Rain Mild Normal False P 11 Sunny Mild Normal True P 12 Overcast Mild High True P 13 Overcast Hot Normal False P 14 Rain Mild High True N 令Q=决策属性集={d},P=条件属性全集={a1,a2,a3,a4},则 IND(P)={{1},{2},{3},{4},{5},{6},{7},{8},{9},{10},{11},{12},{13},{14}}, IND(Q)={{1,2,6,8,14},{3,4,5,7,9,10,11,12,13}}, POSP(Q)=U, 因此,论域U是P上相对于Q一致的,这说明该决策表是完全确定的决策表,决策表中不包含不一致信息(样本)。 IND(P-{a1})={{1,3},{2},{4,8},{5,9},{6,7},{10},{11},{12,14}, {13}}, IND(P-{a2})={{1,8},{2},{3},{4},{5,10},{6},{7},{9},{11},{12},{13}, {14}}, IND(P-{a3})={{1},{2},{3,13},{4,10},{5},{6},{7},{8},{9},{11},{12}, {14}}, IND(P-{a4})={{1,2},{3},{4,14},{5,6},{7},{8},{9},{10},{11},{12}, {13}}, 从而, POS(P-{a1})(Q)={2,5,9,10,11}, POS(P-{a2})(Q)=U=POSP(Q), POS(P-{a3})(Q)=U=POSP(Q), POS(P-{a4})(Q)={1,2,3,7,8,9,10,11,12,13}, 由此可知,属性a2、a3是相对于决策属性d可省略的,但不一定可以同时省略。而属性a1和a4是相对于决策属性d不可省略的, COREQ(P)={a1, a4}, 进一步, IND(P-{ a2, a3})={{1,8,9},{2,11},{3,13},{4,5,10},{6,14},{7,12}}, POS(P-{a2,a3})(Q)={3,4,5,6,7,10,12,13,14}, 故属性a2是条件属性集P-{a3}相对于决策属性d不可省略的,属性a3是也条件属性集P-{a2}相对于决策属性d不可省略的。条件属性集{a1,a3,a4}和{a1,a2,a4}为相对于决策属性集Q={d}独立的, REDQ(P)={{a1,a3,a4},{a1,a2,a4}}, COREQ(P)=REDQ(P)={a1,a3,a4}{a1,a2,a4}={a1,a4}。 去掉表7.1-1中的决策属性列,可以得到一个如表7.1-2所示的信息系统。 令P=属性全集={a1,a2,a3,a4},根据前面的计算可知 IND(P)IND(P-{ai}), i=1,2,3,4。 即,在表7.1-2所示的信息系统中,所有的属性都是绝对必要的,去掉任何属性都会改变系统中的知识。 由此,我们可以看出,要根据决策表中的数据信息分析得到条件属性对决策属性的分类(判定)规则,需要研究条件属性集合相对于决策属性的相对约简。 在智能数据分析研究中,原始的决策表信息系统中的知识(条件属性)并不是同等重要的,甚至其中某些条件属性是冗余的。冗余属性的存在,一方面是对资源的浪费(需要存储空间和处理时间);另一方面,也干扰人们作出正确而简洁的决策。所谓决策表的属性约简,就是要在保持条件属性相对于决策属性的分类能力不变的条件下,删除其中不必要的或不重要的属性。一般来讲,一个决策表的条件属性对于决策属性的相对约简不是唯一的,即对同一个决策表可能存在多个相对约简。因为属性约简的目的是导出关于决策表的决策规则,约简中属性的多少直接影响着决策规则的繁简和性能。因此,人们往往期望找到具有最少条件属性的约简,即最小约简。然而,S K M Wong和W Ziarko已经证明了找出一个决策表的最小约简是NP-hard问题。导致NP-hard问题的主要原因是属性的组合爆炸问题。
表7.1-2 关于气象信息的信息表系统 U Outlook(a1) Temperature(a2) Humidity(a3) Windy(a4) 1 Sunny Hot High False 2 Sunny Hot High True 3 Overcast Hot High False 4 Rain Mild High False 5 Rain Cool Normal False 6 Rain Cool Normal True 7 Overcast Cool Normal True 8 Sunny Mild High False 9 Sunny Cool Normal False 10 Rain Mild Normal False 11 Sunny Mild Normal True 12 Overcast Mild High True 13 Overcast Hot Normal False 14 Rain Mild High true