信息量的不完备信息系统属性约简方法

合集下载

不完备信息系统的属性约简算法-计算机工程

不完备信息系统的属性约简算法-计算机工程

决策属性集;V = ∪ Vr 是属性值集合,Vr 表示属性 R 的值域; r∈R f :U × R → V 是一个映射函数。若 D 为空,则称信息系统为
数据表,否则称之为决策表。对于具有遗漏属性值的属性子
集 B ⊆ C ,记遗漏值为“*”,则含有未知属性值的信息系统
称为不完备信息系统。Kryszkiewicz M.定义了容差关系 T。
定义 1 容差关系 T 为
( ) ∀x,
y∈U
,
⎛ ⎜ ⎜⎝
TB ( x,
∀Cj∈B
y)
C

j (x
)
=
C
jபைடு நூலகம்
(
y
)

C
j
(
y
)
=


C
j
(
x
)
=∗
⎞ ⎟ ⎟⎠
其中, TB ( x, y) 表示在属性集合 B 上满足关系个体对象 y 和
对象 x 的容差类关系。本文沿用完备信息系统中的一些相关
定义,对不完备信息系统做相同定义。
若 POSB ( D) = POS(B−{r}) ( D) ,则称 r 为 B 中相对于 D 可省略
的属性,否则称 r 为 B 中相对于 D 不可省略的属性。若对 C
中的独立子集 B ⊆ C ,有 POSB ( D) = POSC ( D) ,则称 B 为 C
的相对约简。
2.2 集合近似关系下的属性约简算法 集合近似关系下的属性约简算法描述如下:
扩展后的信息表进行属性约简。
本文考虑扩展粗糙集理论的适应范围,通过实例比较了
3 种属性约简方法的处理效果。
2 基于集合近似关系的不完备决策属性约简

基于不完备决策信息系统的知识约简算法

基于不完备决策信息系统的知识约简算法
年 5月







Vo 1 .1 3 No .1 5 Ma y 201 3
1 6 7 1 — 1 8 1 5 ( 2 01 3) 1 5 — 4 4 1 4 — 0 4
S c i e n c e T e c h n o l o g y a n d E n g i n e e r i n g
关键词 不完备决策信息 系统 中 图法分类号 T P 3 0 1 ;
知识约简 文献标志码
知识获取 A
粗糙集
粗糙 集 理 论是 波 兰科 学家 P a w l a k提 出 的 一种
究 上 。但在 扩 展模 型 和 算 法 效 率 方 面 有 待 进 一 步
研究。
处 理模糊 和不 确 定 性 数 据 的分 析 工 具 卫 J , 近年 来 它 已广 泛应用 于人 工 智 能 、 故 障诊 断 和智 能 控 制 等 诸 多领 域 j 。知 识约 简是粗 糙集理 论研 究 的重要 内容 。而 由于 现 实 世 界 的决 策 信 息 系统 往 往 存 在 信 息 获取方 面 的缺 陷 , 如 数 据采 集 成 本过 高 或 技术
2 0 1 3年 3月 5 E t 收到 国家 自然 科 学 基 金 项 目( 6 1 1 6 3 0 1 2) 、
属性 。 的值域 , : U×( C U D ) 一 是一个信息映射
函数 , 且 p 对 V 0∈ C U D, ∈ U, 有 定义 2

方法 对非完 备数据 进 行 填 充 , 对 非 完 备 数据 进 行 数 据填 充后 , 可把不 完备 决 策 信 息 系统 转 化 为完 备 决 策系 统 ; 然后 再利 用 经典 的粗糙 集 理 论 中的知 识 约 简算 法进行 不完备 决 策 信 息 系统 进 行数 据 分 析 ; 但

2集值不完备信息系统上的一种知识约简的方法

2集值不完备信息系统上的一种知识约简的方法

2007年5月 第30卷 第3期四川师范大学学报(自然科学版)Journal of Sichuan Nor mal University (Natural Science )May,2007Vol .30,No .3 收稿日期:2005-10-10基金项目:国家自然科学基金(60074014)资助项目作者简介:洪晓蕾(19812),女,硕士生;指导老师:莫智文(19632),男,教授集值不完备信息系统上的一种知识约简的方法洪晓蕾, 王 燕, 莫智文, 殷 璐(四川师范大学数学与软件科学学院,四川成都610066) 摘要:讨论了集值不完备系统上的两种基本关系:相容关系和拟序关系,论证得到了基于辨识矩阵的集值不完备系统知识约简的方法.在此基础上,讨论了知识约简的算法,并通过实例得到了证实.关键词:知识约简;相容;拟序;辨识矩阵中图分类号:O159 文献标识码:A 文章编号:100128395(2007)03202662040 引言粗糙集理论是上世纪80年代初由波兰学者Z .Pa wlak [1]提出的一种处理含糊和不精确性问题的数学工具.传统的粗糙集理论由于其定义的等价关系的严格性,已经不能满足实际工作的需要.在现实世界中由于种种原因,面临的信息系统往往是不完备的,如果能将传统粗糙集理论中的相关概念在不完备的信息系统中加以扩展,就可以直接进行处理,这样就能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律.从数据本身获取情况来看,人们得到的数据本质上都是“近似值”.既然是近似值,从实际可用性角度考虑,就难于局限于取“单个值”,常常需要多次取值.由于客观条件限制和随机因素干扰,同一对象多次取值一般来说只是“相似”而不一定“相同”.在实际应用中,这些相似值往往一时难以确定取舍.由此就可能出现对象在某个确定属性上取得“多值”即“集值”的情形.基于粗糙集理论的应用技术发展迅速,应用范围也在不断扩大和深化,不完备信息系统就是其中重要课题之一[2].在不完备信息系统下,可以用属性集合间的相交关系和包含关系来定义论域U 上的相应关系,从而讨论其知识的发现和约简.本文主要讨论了多个属性集值的不完备信息系统下的一种新的知识约简.从这两类二元关系出发,定义了基于这两种关系的粗糙近似集合,得到了一些相关性质,随后利用辨识矩阵,论证得到了一类知识约简的方法,并给出参考算法,且通过实例来阐述说明所得到的主要结论.1 集值不完备信息系统及其相关性质和定理定义1 称(U,A T,F )为集值不完备信息系统,其中论域U 为非空有限集,属性集A T 也为非空有限集,F ={f l }为对象属性值映射,其中f l :U →P 0(V l ),V l 是属性a l 的值域,P 0(V l )表示V l 的非空子集的全体,其中P 0(V l )是由两部分组成V 0和{3},V 0为精确属性值域,3表示空值,空值代表不确定或无法确定但确实存在的值,假设3取值为相应属性值域中一切值.定义2[3] 对于二元关系R A ={(x,y )∈U ×U:f l (x )∩f l (y )≠ ,Πa l ∈A },记[x ]R A ={y ∈U:(x,y )∈R A }={y ∈U:f l (x )∩f l (y )≠ ,Πa l ∈A }.显然,在不完备信息系统中,令A ΑA T,由A 决定的容错关系[4]:S I M (A )={(x,y )∈U ×U:Πa l ∈A,f l (x )=f l (y )∨f l (x )=3∨f l (y )=3}也满足定义2中的二元关系.定义3[5] 对于A ΑA T,定义二元关系P A ={(x,y )∈U ×U:f l (x )Αf l (y ),Πa l ∈A },记[x ]P A ={y ∈U:(x,y )∈P A },[x ]-1P A ={y ∈U,(y,x )∈P A }.那么,二元关系R A 和P A 有如下性质:(1)R A 是自反的,对称的,不一定是传递的,故为相容关系;P A 是自反的和传递的,不一定是对称的和反对称的,故为拟序关系.它们在一般情况下都不是等价关系.(2)当A 1ΑA 2ΑA T 时,R A T ΑR A 2ΑR A 1,P A TΑP A 2ΑP A 1.(3)当A 1ΑA 2ΑA T 时,[x ]R A T Α[x ]R A 2Α[x ]R A 1,[x ]P A T Α[x ]P A 2Α[x ]P A 1,[x ]-1P A T Α[x ]-1P A2Α[x ]-1P A 1.(4)G 1={[x ]R A :x ∈U },G 2={[x ]P A :x ∈U },G 3={[x ]-1P A:x ∈U }都是U 的覆盖.定义4 设(U,A T,F )是集值不完备信息系统,ΠA ΑA T,ΠX ΑU,记:R A (X )={x ∈U |[x ]R A ΑX },R A (X )={x ∈U |[x ]R A ∩X ≠ }.R A (X )和R A (X )分别称为X 在相容关系R 下关于属性A 的下近似和上近似.定义5[5] 设(U,A T,F )是集值不完备信息系统,ΠA ΑA T,ΠX ΑU,记:P A (X )={x |x ∈U,[x ]P A ΑX },P A (X )=∪{[x ]-1P A|x ∈X }.P A (X )和P A (X )分别称为X 在拟序关系P 下关于属性A 的下近似和上近似.定理1 设(U,A T,F )是集值不完备信息系统,ΠA ΑA T,ΠX,Y ΑU,有:(1)R A (X )=~R A (~X ),R A (X )=~R A (~X );(2)R A (U )=U,R A ( )= ;(3)R A (X ∩Y )=R A (X )∩R A (Y ),R A (X ∪Y )=R A (X )∪R A (Y );(4)X ΑY,则有:R A (X )ΑR A (Y ),R A (X )ΑR A (Y );(5)R A (X )∪R A (Y )ΑR A (X ∪Y ),R A (X ∩Y )ΑR A (X )∩R A (Y );(6)R A (X )ΑX ΑR A (X );(7)R A (X )ΒR A (R A (X )),R A (X )ΑR A (R A (X )).证明 直接由定义可得.以上7条定理,对于二元关系P A 也同样成立,限于篇幅,这里就不一一列举了.在传统的粗糙集中近似算子的定义有两种主要形式,并且两种定义等价.(i )R (X )={x ∈U |[x ]ΑX },R (X )={x ∈U |[x ]∩X ≠ };(ii )R (X )=∪{[x ]∈U |[x ]ΑX },R (X )=∪{[x ]∈U |[x ]∩X ≠ }.但在相容关系下,两者不等价,试举例说明.例 图1是一集值不完备信息系统.U a 1a 2a 3a 4x 1{0,1}{1}{1}{0,1}x 2{0}3{1}{0}x 33{2}3{0,1}x 4{1}3{0,1}{0,1}x 53{1,2}{0,1}{0,1}x 6{0}{3}{1}3图1 集值不完备信息系统F i g .1 A set 2va lued i n com plete i n for ma ti on syste mU ={x 1,x 2,x 3,x 4,x 5,x 6},A T ={a 1,a 2,a 3,a 4},取A ={a 1,a 2},则:[x 1]R A ={x 1,x 2,x 4,x 5},[x 2]R A ={x 1,x 2,x 3,x 5,x 6},[x 3]R A ={x 2,x 3,x 4,x 5},[x 4]R A ={x 1,x 3,x 4,x 5},[x 5]R A ={x 1,x 2,x 3,x 4,x 5},[x 6]R A ={x 2,x 6}.取X ={x 1,x 3,x 4,x 5,x 6},则R A (X )={x 4},∪{[x ]R A |[x ]R A ΑX }={x 1,x 3,x 4,x 5}.明显看出R A (X )=∪{[x ]∈U |[x ]ΑX }不成立,同时R A (X )≠R A (R A (X )).取X ={x 1,x 3,x 4,x 5},则R A (X )={x 1,x 2,x 3,x 4,x 5},∪{[x ]R A |[x ]R A ∩X ≠ }={x 1,x 3,x 4,x 5}.明显看出R A (X )=∪{[x ]∈U |[x ]∩X ≠}不成立,同时R A (X )≠R A (R A (X )).取B ={a 1,a 2,a 4},则:[x 1]P B ={x 1,x 5},[x 2]P B ={x 2},[x 3]P B ={x 3,x 5},[x 4]P B ={x 4},[x 5]P B ={x 5},[x 6]P B ={x 6}.2 集值不完备信息系统的知识约简定义6 设(U,A T,F )是集值不完备信息系统,A ΑA T:(1)R A =R A T , (2)ΠB ΑA,R B ≠R A T ;(1′)P A =P A T , (2′)ΠB ΑA,P B ≠P A T .分别称A 是信息系统中在相容关系R 和拟序关系P 下的约简.当所有的约简的非空交非空时,则称此非空集为信息系统在相应关系下的核.由于关系R 和P 都满足:当A 1ΑA 2ΑA T 时,R A T ΑR A 2ΑR A 1,P A T ΑP A 2ΑP A 1成立,所以定义6′为定义6的等价表述.定义6′ 设(U,A T,F )是集值不完备信息系统,ΠA ΑA T:762 第3期洪晓蕾等:集值不完备信息系统上的一种知识约简的方法 (1)RA=R A T, (2)Πa∈A,R A-{a}≠R A;(1′)P A=P A T, (2′)Πa∈A,P A-{a}≠P A.定理2[6] 对于任何信息系统(U,A T,F)约简总是存在的.由上例可知:RA =R A T,且R{a1}≠RA,R{a2}≠R A,故{a1,a2}是该信息系统在R下的一个约简;P B=P A T,且P{a1,a2}≠PB,P{a1,a4}≠PB,P{a2,a4}≠PB,故{a1,a2,a4}是该信息系统在P下的一个约简.定义7 设(U,A T,F)是集值不完备信息系统,在相容关系R下,记D(xi,x j)={a l∈A T, f l(x i)∩f l(x j)= },显然D(x i,x j)=D(x j,x i);在拟序关系P下,记D(xi,x j)={a l∈A T,f l(x i)⁄f l(x j)},它们称为集值不完备信息系统在相应关系下的辨识矩阵.记D={D(x i,x j):D(x i,x j)≠ }.定理3 设(U,A T,F)是集值不完备信息系统,ΠAΑA T,在相容关系R下(1)和(3)等价,在拟序关系P下(2)和(3)等价:(1)RA=R A T;(2)PA=P A T;(3)ΠD∈D0,A∩D≠ (其中D为相应二元关系下的辨识矩阵).证明 (1)](3):ΠD∈D,D(x i,x j)={a l∈A T,f l(x i)∩f l(x j)= }≠ ,则xj[x i]AT,由于R A=R AT,有[x i]AT=[x i]A,则xj[x i]A,即:ϖa l∈A,满足f l(x i)∩f l(x j)= ,所以A∩D≠ .(3)](1):ΠD∈D0,A∩D≠ ,任取a l∈A∩D,有:al ∈A T,且fl(xi)∩f l(x j)= ,即:xj[x i]A T,又a l∈A,同时f l(x i)∩f l(x j)= 成立,即xj[x i]A,则[x i]A TΒ[x i]A,又因为AΑA T,则[x i]A TΑ[x i]A,所以[x i]A=[x i]A T,故R A=R A T.(2)](3):ΠD∈D0,D={a l∈A T,f l(x i)⁄f l(x j)}≠ ,所以(x i,x j)PA T,由(2)P A T=P A,又有(xi ,x j)PA,即:ϖa l∈A,满足f l(x i)⁄f l(x j),故有A∩D≠ .(3)](2):ΠD∈D0,A∩D≠ ,任取a l∈A∩D,有al ∈A T,且fl(xi)⁄f l(x j),即(x i,x j)PA T.又al ∈A,同时fl(xi)⁄f l(x j)成立,即:(x i,x j)P A,所以P AΑP A T.又因为AΑA T,则P AΒP A T,故P A=P A T.证毕我们可以得到判断约简的另一类方法.定理4 设(U,A T,F)是集值不完备信息系统,ΠAΑA T,A在相容关系R下和拟序关系P下的约简,当且仅当它们满足以下条件:(1)ΠD∈D0,A∩D≠ ,(2)Πa l∈A存在D∈D0,使(A-{a l})∩D = .其中D为相应二元关系下的辨识矩阵.证明 由定理3和约简的定义直接可得.3 知识约简算法及相关实例此方法在解决实际问题上具有可操作性,从上面理论可以看出它有两个关键步骤:一是求出它的辨识矩阵,二是利用定理4的两条法则,从辨识矩阵中挖掘出相应的约简.以下为算法:输入:一个集值不完备信息系统(U,A T,F)各项数据.输出:该信息系统的一个知识约简A.(1)计算D(x i,x j),作出D0,并求出∪D0.(2)取A为D0的单元素集的并.(3)判断如下两个条件:〈1〉ΠD∈D0,A∩D≠ ;〈2〉Πa l∈A,ϖD∈D0,有(A\{a l})∩D= .(4)满足则输出A.(5)不满足,则A=A∪{a lj},遍取a lj∈(∪D0)\A,j=1,2,...,k,k为(∪D0)\A中的个数.(6)判断如下两个条件:〈1〉ΠD∈D0,A∩D≠ ;〈2〉Πa l∈A,ϖD∈D0,有(A\{a l})∩D= .(7)满足则输出A.(8)不满足,则A=A\{a lj}∪{a li},a li∈(∪D0)\A,i=1,2,...,k,且a li≠al j,转(3).此算法收敛,因为约简总是存在的[4].图2和图3分别给出了由前例产生的相容关系和拟序关系下的辨识矩阵.U x1x2x3x4x5x6x1{a2}{a2}x2{a1}x3{a2}{a2}x4{a1}{a1}x5{a2}x6{a2}{a2}{a1}{a2}图2 相容关系下的辨识矩阵F i g.2 D iscern i b ility ma tr i x ba sed on tolerance rel a ti onD0={{a1},{a2}},对于A={a1,a2}.显然A∩D≠ ,且{a1}∩{a2}= ,所以A是该系统在相容关系下的一个约简,即{a1,a2}.862 四川师范大学学报(自然科学版) 30卷 U x 1x 2x 3x 4x 5x 6x 1{a 1,a 4}{a 2}{a 1}{a 1,a 2}x 2{a 2}{a 2}{a 1}{a 2}{a 2}x 3{a 2,a 3}{a 1,a 3,a 4}{a 1}{a 1,a 2,a 3}x 4{a 2,a 3}{a 1,a 3,a 4}{a 2}{a 2}{a 1,a 2,a 3}x 5{a 2,a 3}{a 1,a 3,a 4}{a 2}{a 1}{a 1,a 2,a 3}x 6{a 2}{a 4}{a 2}{a 1}{a 2}图3 拟序关系下的辨识矩阵F i g .3 D iscern i b ility ma tr i x ba sed on preorder rel a ti onD 0={{a 1},{a 2},{a 4},{a 1,a 2},{a 2,a 3},{a 1,a 3,a 4},{a 1,a 2,a 3}},对于B ={a 1,a 2,a 4},显然B ∩D ≠ ,且{a 1,a 2}∩{a 4}= ,{a 1,a 4}∩{a 2}= ,{a 2,a 4}∩{a 1}= ,所以B 是该系统在拟序关系下的一个约简,即{a 1,a 2,a 4}.以上两项结果均与由约简定义分析的结果一致.4 结语知识库中存在的冗余的知识,不仅会造成资源的浪费,而且会干扰人们做出正确的判断,因此,知识约简一直是粗糙集理论的核心内容之一.本文从集值不完备信息系统中两类二元关系出发,依照这些关系给出了相应的近似集合,然后利用辨识矩阵给出了集值不完备信息系统的知识约简的方法.由于是将传统粗糙集模型中的等价关系推广到了相容关系和拟序关系,因而在实际工作中具有更广泛的应用价值.参考文献[1]Pa wlak Z .Rough set[J ].I nt J Computer and I nf or mati on Sci,1982(11):3412356.[2]Sl owinski R,Vander pooten D.A generalized definiti on of r ough app r oxi m ati ons based on si m ilarity [J ].I EEE Transacti on onKnowledge and Data Engineering,2000,12(2):3312336.[3]王虹,张文修,李鸿儒.集值信息系统的知识发现与约简[J ].计算机工程与应用,2005(6):37238.[4]M arzena K .Rough set app r oach t o incomp lete inf or mati on syste m [J ].J I nf or Sci,1998,112:39249.[5]吴陈,杨习贝,傅凡,等.基于属性集值不完备信息系统的Rough 集方法[J ].计算机工程与应用,2005(3):1782180.[6]张文修,梁怡,吴伟志.信息系统与知识发现[M ].北京:科学出版社,2003.A Method of Knowledge Reducti on in Set 2valued Incomp lete I nfor mati on SystemHONG Xiao 2lei, WANG Yan, MO Zhi 2wen, YI N Lu(College of M athe m atics and Soft w are Science,S ichuan N or m al U niversity,Chengdu 610066,S ichuan )Abstract:I n this paper t w o kinds of relati ons on set 2valued incomp lete infor mati on syste m are discussed:t olerance relati on and p reorder relati on .The methods of knowledge reducti on based on discernibility matrices are obtained .An algorith m of knowledge reduc 2ti on is described .Key words:Knowledge reducti on;Tolerance;Preorder;D iscernibility matrix 2000M SC:03E72(编辑 余 毅)962 第3期洪晓蕾等:集值不完备信息系统上的一种知识约简的方法。

不完备信息系统的属性约简算法研究

不完备信息系统的属性约简算法研究
(et f Cm ue / hu Ta e n e i ,X zo,hn / 3 0 0 Cz) Dp ,o op t ,X z ec r Ui r t r ho h s v sy / hu S x 0 4 0 , he h a h
Ab ta t I hs a e , a tiue eu to b sd n oea c rlt n sr c : n i p r t p tr t rd cin a e o tlrn e ea i wa su id a d n loih fr tr ue e uto b sd n %lrn e b o s tde , n a ag r m 0 a ti t rd c i t b n ae o oea c
备 信息 系统 的研 究却 没 有涉 及 。因此 ,研 究 属性 次
序下 不完 备信息 系统 的属性 约简 算法很 有必 要 。
D ={ l x∈U八 () DI x 。
定义 3 设 U为 一 个 论域 ,P、Q是 定 义 在 U 上
值 的集合 ,V 表 示属 性 r 的值 域 ,f U V是 : A

个信 息 函数 ,它指 定 U 中每 一个 对象 x的 属性值 ,
方 法 是 先将 不 完 备 信 息 系统 进 行 补 全 ,然 后 再 用
Ro g u h集 的方法 来进行 处理 。这 样导致 了原 始系统 信 息的变 化 ,得到 的 结果也 不 一定 反映 原 始 系统 的
真 实情 况 。 因此 ,对 属 性次 序 的研 究对 于面 向领 域 的数据 挖掘具 有重 要意义 。
属 性值 “ ”表示 未知 属性值 。 定 义 2 容 差 关 系 。 设 不 完 备 信 息 系 统 S= cuD _ 及 U 上定义 的二 元关 系 T( <U A= 厂>

信息系统的属性约简算法-【中文】

信息系统的属性约简算法-【中文】

基于Pawlak属性重要度的属性约简算法

2、具体步骤
( 2 ) 求属性约简算法 输入:信息系统IS (U , A, V , f )。 输出:属性集合 A 的约简 RED( A). 具体步骤: 第1步 第 2步 第3步
思想:从核开始 逐个添加,直到 满足约简条件。
依照求核算法求出信息 系统IS的核CORE( A); 令B CORE( A),如果IND(B) IND(A), 转向第 5 步; a A \ B, 计算属性重要度sig( a, B ) | IND(B {a}) | - | IND(B ) |,
对表1所示信息系统,
负类
正类
(1)设R={Outlook},X={1, 2, 6, 8, 14},计算X关于R 的下近似 R X 和上近似 R X 。 (2)设R={Outlook, Temperature},X={3, 4, 5, 7, 9, 10, 11, 12, 13},计算X关于R的下近似 R X 和上近 似 R X 。
定理
CORE A a | a A cij | cij M nn cij 1 元素组成的集合。




即信息系统的核等于该 信息系统的差别矩阵中 所有单属性
证明:当cij {a | a A}是单个属性的元素时, 去掉它一定 会改变信息系统的分类 能力,即属性 在A中是绝对必要的, a 否则不必要的。因此所 有必要属性组成的集合 即信息系统的核, 在差别矩阵表示法中转 化为所有简单属性组成 的集合。
1、删除法 2、添加法
信息系统的盲目删除属性约简算法
定义 (标记函数Mark(a) ) 设A是给定信息系统 的属性集,a A, 定义 0, a尚未被访问 Mark(a ) 1, a已被访问 为属性a的标记函数。

属性约简方法概述

属性约简方法概述

属性约简方法概述属性约简又称维规约或特征选择,从数学的角度考虑,就是有p 维数据 x =(x 1,x 2……x p ),通过某种方法,得到新的数据 x’=(x’1,x’2…… x’k ) , k ≤p , 新的数据在某种评判标准下,最大限度地保留原始数据的特征。

属性约简主要是为了解决高维数据计算的复杂性和准确性问题。

目标是消除冗余和不相关属性对计算过程和最终结果造成的影响。

对数据进行属性约简的意义,主要从以下几个方面考虑:a) 从机器学习的角度来看,通过属性约简去除噪音属性是非常有意义的; b) 对一些学习算法来说,训练或分类时间随着数据维数的增加而增加,经过属性约简可以降低计算复杂度,减少计算时间;c) 假如不进行属性约简,噪音或不相关属性和期望属性对分类的作用一样,就会对最终结果产生负面影响;d) 当用较多的特征来描述数据时,数据均值表现得更加相似,难以区分。

为了描述属性约简方法,这里假设数据集合为D ,D ={x 1,x 2….x n }, x i 表示D 中第i 个实例,1≤i≤n ,n 为总的实例个数。

每个实例包含p 个属性{|x i |=p }。

从机器学习的角度来看,属性约简方法可以分为监督的和非监督的两类。

下面是几种常用的方法。

(1) PCA 主成分分析主成分概念是Karl parson 于1901年最先引进。

1933年,Hotelling 把它推广到随机变量。

主成分分析把高维空间的问题转换到低维空间来处理,有效的降低了计算的复杂度。

通过主成分的提取,降低了部分冗余属性的影响,提高了计算的精度。

主成分分析的基本思想为:借助一个正交变换,将分量相关的原随机变量转换成分量不相关的新变量。

从代数角度,即将原变量的协方差阵转换成对角阵;从几何角度,将原变量系统变换成新的正交系统,使之指向样本点散布最开的正交方向,进而对多维变量系统进行降维处理[43]。

定义4-1[44]:设12(,,...,)'p X X X X =为p 维随机向量,它的第i 主成分分量可表示'i i Y u X =,i =1,2,…, p 。

不完备贝叶斯决策信息系统的属性约简

不完备贝叶斯决策信息系统的属性约简

不完备贝叶斯决策信息系统的属性约简韩楠;舒畅;莫智文【摘要】在不完备贝叶斯决策信息系统中,改进全局增益函数,结合二进制分辨矩阵编码方法提出一种新的不完备贝叶斯决策信息系统启发式属性约简算法,并将其应用于系统的故障状况诊断研究中,该方法提高了约简的效率.%In incomplete Bayesian decision information system,this paper improves the global gain function,and combines with the coding method of binary discernibility matrix.A new heuristic attribute reduction algorithm is proposed.The method is applied to the study of the system of the fault condition's diagnosis,and improves the efficiency of reduction.【期刊名称】《四川师范大学学报(自然科学版)》【年(卷),期】2016(039)006【总页数】4页(P825-828)【关键词】不完备贝叶斯决策信息系统;二进制分辨矩阵;全局增益函数;属性约简【作者】韩楠;舒畅;莫智文【作者单位】四川师范大学数学与软件科学学院, 四川成都 610066;四川师范大学数学与软件科学学院, 四川成都 610066;四川师范大学数学与软件科学学院, 四川成都 610066【正文语种】中文【中图分类】TP301.6经典粗糙集是处理不确定和不精确问题的有效工具[1].由于经典粗糙集以等价关系为基础,只适用于完备信息系统.对于不完备信息系统[2-3],则不再适用.目前对不完备信息系统的处理方式有2种:1)将不完备信息系统通过某种方法转化为完备信息系统;2)将经典粗糙集进行拓展.目前常见的扩展模型有变精度、容差、限制容差、优势、模糊等粗糙集模型.经典粗糙集只考虑属性值之间的可区分关系,未考虑到偏好关系,因此并不能很好地在决策过程中表达原有的偏好信息.文献[4-5]研究了优势关系下决策信息系统,文献[6]提出了可变精度粗糙集模型,在经典粗糙集的基础上引进阈值β,允许一定程度上错误分类的存在,但在实际运用中变精度粗糙集也有其局限性.文献[7]结合贝叶斯推理提出贝叶斯粗糙集模型,贝叶斯粗糙集是一种修正的变精度粗糙集模型,将变精度粗糙集中精度参数用先验概率来替代,从而避免了变精度粗糙集中参数对约简过程带来的影响,同时贝叶斯理论与统计决策相结合形成的贝叶斯决策理论,在医疗和管理中起到了重要作用,因此本文对不完备贝叶斯决策信息系统进行属性约简,在限制容差关系分类模型的基础上,利用贝叶斯粗糙集模型,通过引入全局增益函数和二进制分辨矩阵,给出了不完备贝叶斯决策信息系统的启发式属性约简算法.1.1 不完备贝叶斯决策信息系统定义 1.1[8] 称一个四元组(U,A,V,f)为信息系统,其中U为有限非空对象集;A为有限非空属性集;V为属性值值域;f为对象属性值映射,即U={x1,x2,...,xn},A={a1,a2,...,ap},V=∪a∈AVa,Va为属性a的值域,f:U×A→V,且f(x,a)∈Va.如果至少有一个属性b∈A使得Vb含有空值,用“*”表示空值,则称S是不完备信息系统,否则称为完备信息系统.A=C∪D,C∩D=∅,C称为条件属性集,D称为决策属性集.V=∪Va,a∈A,Va是属性a的值域;f表示U×A→V的信息函数,为每个对象的每个属性赋予一个信息值,即∀a∈A,x∈U,f(x,a)∈Va,称这样具有条件属性和决策属性的信息系统为决策信息系统.定义 1.2[9] 在信息系统S=(U,A,V,f)中,U为非空有限论域,A为有限非空属性集,E 为U上的等价关系,对于目标集X⊆U有:贝叶斯正域为|[x]E)>P(X)};贝叶斯负域为|[x]E)<P(X)};贝叶斯边界域为|[x]E)=P(X)},其中,P(X)=|X|/|U|,P(X|[x]E)=|X∩[x]E|/|[x]E|.贝叶斯粗糙集是一种修正过的变精度粗糙集模型[10-11],用事件的先验概率代替变精度粗糙集参数,从而避免了变精度粗糙集中参数带来的影响.贝叶斯正域定义为U/A中所有元素集的集合出现的条件下X发生的概率大于先验概率,即贝叶斯正域中的任何事件都会增加事件X确定发生的程度.贝叶斯负域定义为U/A中所有元素集的集合出现的条件下X发生的概率小于先验概率,即贝叶斯正域中的任何事件都会减少事件X确定发生的程度.贝叶斯边界域定义为U/A中所有元素集的集合出现的条件下X发生的概率等于先验概率,即贝叶斯正域中的任何事件不会影响事件X 确定发生的程度.为了描述分类的特征,文献[9]中贝叶斯决策信息系统引入了置信增益函数.定义 1.3[9] 在信息系统S中,对于E⊆C,U/D=[x]d={X1,X2...,Xp},则称...,p}-1为E相对于决策属性D的全局相对增益函数,全局增益函数可以用来度量贝叶斯决策信息系统的属性重要度.1.2 限制容差关系模型定义 1.4[12] 设S=(U,C∪D,V,f)是一个不完备决策信息系统,对于具有空值的属性子集,记空值为“*”,B⊆U,定义U上的容差关系T(B)记为a(y)∨((a(x)=*∨a(y)=*)→f(x,b)=f(y,b))}.则可记TB(x)={y∈U:(x,y)∈T(B)}为x的限制容差类.定义 1.5[12] 设S=(U,C∪D,V,f)是一个不完备决策信息系统,对于X⊆U,B⊆C,在容差关系T(B)下,X的下上近似集分别定义为⊆X},∅}.由表1可知:U/D=[x]d={X1,X2}={(x1,x2,x5,x6),(x3,x4,x7,x8)}.按定义1.4将U中对象在属性集C下进行分类可得TC(x3)={x3,x7}, TC(x4)={x1,x2,x4,x5},TC(x5)={x1,x4,x5,x7}, TC(x6)={x6},TC(x7)={x3,x5,x7}, TC(x8)={x8}.经典的属性约简算法中分辨矩阵以条件属性集合作为矩阵元素,其空间复杂度高,处理效率低,所以将其优化为二进制的分辨矩阵[13-14].本文通过限制容差关系模型对不完备决策信息系统进行分类,利用二进制分辨矩阵对所有对象进行编码组合,找出论域中各对象组合的行所在的属性值为1的属性集,从而提高了查找约简集合的效率.根据二进制分辨矩阵找出的各行可能的约简属性集,利用新定义的全局增益函数来度量属性重要度,给出不完备贝叶斯决策信息系统的启发式属性约简算法.定义 2.1 在不完备决策信息系统S=(U,C∪D,V,f)中,定义其二进制分辨矩阵为在很多预测模型[15](如股票市场、医疗领域、系统故障等)中,其最终目的都是为了提高决策的确定性程度.而传统的Slezak贝叶斯粗糙集模型中提出的全局增益函数则反映了相对于先验概率确定性增加或者减小的程度,但未能反映通过决策得到所需要的论域中的对象集合,本文改进了传统全局增益函数,改进的全局增益函数可以通过决策属性得到所需对象集合.定义 2.2 设S=(U,C∪D,V,f)是一个不完备决策信息系统,对于∀B⊆C,U/D=[x]d={X1,X2,...,Xn},定义则RC(X)=∪iRC(Xi),称RC(X)为C相对于D 的全局相对增益函数.定义 2.3 设在不完备信息系统S中,对于∀X⊆U,B⊆C,若B是信息系统S的约简集,则必须满足下列条件:1) RC(X)=RB(X);2) 不存在A⊆B,使得RC(X)=RA(X).2.1 算法输入:不完备决策信息系统S=(U,C∪D,V,f),输出:不完备贝叶斯粗糙集的R 约简.1) 根据限制容差关系,计算U中全部对象的容差类中使用到的子域;2) 根据不完备决策表S构造二进制分辨矩阵M;3) 删除二进制分辨矩阵M中全为零的行;4) 将i记为二进制分辨矩阵第i行,令i=i+1,初始化i=0,若第i行属性值为1的条件属性集合B满足RC(X)=RB(X),则得出约简集B,否则继续下一行i=i+1,直到第i 行属性值为1的条件属性集合B满足RC(X)=RB(X),结束算法.2.2 算法实例分析表1为某系统的故障信息,其中U={x1,x2,x3,x4,x5,x6,x7,x8}表示被控制的对象,系统的故障状况由3个传感器进行信息反馈,表示为A={a1,a2,a3},传感器会反馈3种信号,即值域为Vc={1,2,3},控制系统的故障d有2种状态,即{1,2},已知的历史决策表如下所示,但因种种原因有部分信息缺失,缺失信息用*代替.根据决策,确定3个传感器反馈信号的重要程度.步骤 1 根据定义1.2和1.4得到在条件属性集下论域U中全部对象的限制容差类并计算目标事件Xi发生下,出现在限制容差类中对象的条件概率.P([x3]C|X1)=0, P([x4]C|X1)=3/4,P([x5]C|X1)=2/4, P([x6]C|X1)=1/4,P([x7]C|X1)=1/4, P([x8]C|X1)=0,P([x1]C|X2)=1/4, P([x2]C|X2)=1/4,P([x3]C|X2)=2/4, P([x4]C|X2)=1/4,P([x5]C|X2)=2/4, P([x6]C|X2)=0,P([x7]C|X2)=2/4, P([x8]C|X2)=1/4.步骤 2 由不完备决策表1,构造二进制分辨矩阵M,如表2所示,M为12×3阶矩阵.表2中最后一列为各行对象组合中属性值为1的集合.步骤 3 计算属性集C相对于D的全局相对增益函数RC(X),同时依据表2中二进制分辨矩阵得出的属性值为1的集合计算相应属性集合对应的全局相对增益函数. {x1,x2,x4,x5},RC(X2)={[x]c|max P([x]c|X2)}={x1,x3,x4,x5,x7},则RC(X)=∪iRC(Xi)={x1,x2,x3,x4,x5,x7}.由二进制表2可得,论域中对象组合属性值为1的集合为(a1,a3),(a1),(a1,a2),(a3),(a2).分别计算其限制容差类及全局相对增益函数,结果如下:Ta1,a2(x2)={x1,x2,x4,x5},Ta1,a2(x3)={x3,x5,x7},Ta1,a2(x4)={x1,x2,x4,x5},Ta1,a2(x5)={x1,x2,x3,x4,x5,x7},Ta1,a2(x6)={x6},Ta1,a2(x7)={x3,x5,x7},Ta1,a2(x8)={x8};P([x1]a1,a2|X1)=3/4,P([x2]a1,a2|X1)=3/4,P([x3]a1,a2|X1)=1/4,P([x4]a1,a2|X1)=3/4,P([x5]a1,a2|X1)=3/4,P([x6]a1,a2|X1)=1/4,P([x7]a1,a2|X1)=1/4,P([x8]a1,a2|X1)=0,P([x1]a1,a2|X2)=1/4,P([x2]a1,a2|X2)=1/4,P([x3]a1,a2|X2)=2/4,P([x4]a1,a2|X2)=1/4,P([x5]a1,a2|X2)=3/4,P([x6]a1,a2|X2)=0,P([x7]a1,a2|X2)=2/4,P([x8]a1,a2|X2)=1/4;Ra1,a2(X1)={[x]a1,a2|max P([x]a1,a2|X1)}= {x1,x2,x3,x4,x5,x7},Ra1,a2(X2)={[x]a1,a2|max P([x]a1,a2|X2)}= {x1,x2,x3,x4,x5,x7},则{x1,x2,x3,x4,x5,x7}.经计算可得RC(X)=Ra1,a2(X).由定义2.3可知{a1,a2}为属性集C的约简集.所以相对于3个传感器反馈的信号,{a1,a2}应重点考虑.本文在不完备决策信息系统的基础上,利用限制容差关系和贝叶斯粗糙集决策理论相结合,引入二进制区分矩阵和改进的全局增益函数,对不完备贝叶斯决策粗糙集进行属性约简,给出新的思路和方法,从而提高了不完备决策信息系统的约简效率.【相关文献】[1] 张文修,吴伟志,梁吉业. 粗糙集理论与方法[M]. 北京:科学出版社,2001.[2] 杨柳娇,莫智文. 几类不完备信息系统的属性约简[D]. 成都:四川师范大学,2014.[3] 王国胤. Rough集理论在不完备信息系统中的扩充[J]. 计算机研究与发展,2002,39(10):1238-1243.[4] 张辉. 优势关系下区间值决策信息系统一致性度量[J]. 计算机工程与设计,2013,34(12):4336-4339.[5] 王斌,邵明文,王金鹤. 基于改进的优势关系下的不完备区间值信息系统评估模型[J]. 计算机科学,2014,41(2):253-258.[6] 华伟,祁云嵩,王芳. 不完备目标信息系统中的可变精度粗糙集模型[J]. 江苏科技大学学报,2009,23(6):531-534.[7] DOMINIK S, WOJCIECH Z. The investigation of the Bayesian rough set model[J]. Inter J Approximate Reasoning,2005(40):81-91.[8] WANG X. Incomplete decision-theoretic rough set model based on improved complete tolerance relation[C]//Computer Engineering and Networking. NewYork:Springer International Publishing, 2014:273-280.[9] 蔡娜,张雪峰. 基于贝叶斯粗糙集模型的属性约简[J]. 计算机工程,2007,33(24):45-48.[10] 陈可,张小强,徐选华. 基于改进贝叶斯粗糙集和证据理论的决策信息融合方法[J]. 计算机应用研究,2014,31(9):2625-2628.[11] 韩敏,张俊杰,彭飞,等. 一种基于多决策类的贝叶斯粗糙集模型[J]. 控制与决策,2009,24(11):1615-1619.[12] 郭嗣琮,徐丽,郑爱红. 限制容差关系的不完备可变粗糙集[J]. 辽宁工程技术大学学报,2015,33(7):988-991.[13] 赵军,陈宸. 一种基于二进制分辨矩阵的属性约简新算法[J]. 重庆邮电大学学报,2012,24(4):490-494.[14] 陈宸,赵军. 一种新的基于二进制分辨矩阵的属性约简方法[J]. 计算机应用与软件,2013,30(9):123-127.[15] 张本文. 基于贝叶斯粗糙集的大数据频繁项挖掘技术[J]. 科技通报,2015,31(6):210-213. 2010 MSC:03F03。

不完备信息系统属性约简算法研究

   不完备信息系统属性约简算法研究

不完备信息系统属性约简算法研究作者:***来源:《计算机时代》2020年第07期摘要:基于经典粗糙集,从不完备信息系统和相容类的相关概念出发,给出了不完备信息系统中相容类的算法和属性约简算法。

此算法将继续被研究以期降低其时间复杂度。

关键词:不完备信息系统;粗糙集;属性约简;相容类中图分类号:TP18 文献标识码:A 文章编号:1006-8228(2020)07-83-030引言自学者Pawlak于1982年提出粗糙集以来,粗糙集理论在机器学习、规则提取、决策支持等领域得到了广泛应用。

经典的粗糙集理论以完备的信息系统为研究对象,在处理数据时基于严格的等价关系来进行划分。

然而,在实际生产、生活和科学实践中,由于数据获取、数据保存技术等方面的限制,很多信息系统都会存在属性的缺省值,即遇到的绝大多数信息系统都是不完备的。

在文献(7)中作者为了能利用粗糙集来处理不完备的信息系统,提出以相容关系来分类,但遇到数据量比较大时,人为计算相容类耗时耗力,求属性约简更是耗时。

所以设计计算机算法来处理是十分关键的。

本文的安排如下:第一部分简要阐述不完备信息系统、完备信息系统及其约简集的相关概念;第二部分设计了计算不完备信息系统中相容类的算法;第三部分设计了计算不完备信息系统中属性约简集的算法;最后,给出了全文总结。

4结束语本文在相关定义和相容类的分类方法下,设計了处理不完备信息系统中分类和属性约简的计算机算法,极大地简化了计算量,在一定程度上能够有效地节省计算时间和研究者的精力。

本文只是在相容类情况下进行分类和属性约简算法的一个初步探索。

基于本文的结果,还可以深入研究分类和属性约简的算法,以进一步降低算法的时间复杂度。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息量的不完备信息系统属性约简方法
信息量的不完备信息系统属性约简方法
不完备信息系统是指存在一些未知或不可知的属性的系统。

约简是在保留系统重要特征的前提下,去除一些冗余的特征以降低系统的复杂性。

在不完备信息系统中,属性约简是一种重要的方法。

下面介绍一种基于信息量的不完备信息系统属性约简方法。

信息量是指某一事件的不确定性程度,用信息熵来表示。

对于一个不完备信息系统来说,我们可以通过已知的属性信息和属性取值进行估算和推测,然后计算出每个未知属性的信息熵。

如果一个属性在已知属性的条件下其信息熵较小,那这个属性就有更大的概率是有用的属性。

用这种方法求解属性约简,可以使得约简结果更具有实际意义和解释性。

具体步骤如下:
1. 将不完备信息系统分为两类:已知属性集和未知属性集。

其中已知属性集包含在一些实例中已知的属性,未知属性集包含在这些实例中未知或不可知的属性。

2. 对于每个未知属性,计算在已知属性的条件下的信息熵。

假设一个未知属性 Ai,对于系统中任意的实例 X,已知属性集为 K,未知属性集为 U,该未知属性的取值为 Vi,那么该未知属性在已知属性集 K 的条件下的信息熵为:
H(Ai|K) = -∑ (P(X|K) * log2 P(X|K))
其中,P(X|K) 是在已知属性集 K 的条件下,未知属性 Ai 的取值为 Vi 的概率,根据贝叶斯定理可得
P(X|K) = P(V1|K) * P(V2|K) * … * P(Vn|K)
V1, V2, …, Vn 分别为未知属性集 U 中的属性取值。

3. 对于每个未知属性,计算其信息增益。

信息增益表示该属性对系统的分类能力,加入该属性后能够使得不完备信息系统的熵减少的程度。

信息增益的计算公式为:
Gain(Ai|K) = H(U|K) - H(Ai|K)
其中,H(U|K) 是在已知属性集 K 的条件下未知属性集 U 的信息熵。

4. 对于所有未知属性,按照信息增益从大到小排序,选择信息增益最大的属性加入已知属性集 K。

5. 重复步骤2-4,直到未知属性集 U 为空或选择属性的信息增益很小为止。

6. 最终的属性集就是已知属性集 K。

这种基于信息量的不完备信息系统属性约简方法能够有效地筛选出有用的属性,从而减少系统的维度和复杂度,提高系统效
率和可解释性。

但是,在未知属性较多或属性之间相互依赖的情况下,可能会存在信息熵估计不准确、信息增益评价偏低等问题。

对于这些情况,需要在具体应用中结合实际情况加以改进。

相关文档
最新文档