混合信息系统属性约简
信息系统的一种启发式属性约简算法

摘
要: 针对文献 [ ] 8 中加权平 均属性重要 度中权值人 为确定 的不足 , 出改进 的属性 重要度 定义 , 以实例 提 并
说 明其应用情况 。提 出约简质 量的定义 , 属性 约简率和近似质量两方面来衡量约简效果 。基 于改进的属性 从 重要度定义 ( 准)构造 了两种 启发式属性约 简算法 , 标 , 并利用 U I C 数据库 中的一些典型算 例验证 了算法 的有 效性 ; 说明在某些情 况下 , 出的属性约简算法在一定程度上能够提高数据的约简质量 。 提
确定 。
其中,
( D) =c r ( O D) / ad U 3 R, ad P S ( ) c r ( )( )
W ( D) cr( NRD) /ad U ( ) 2 R, ad B ( ) cr( ) 4
( R) = 1一H( R lgN DI D I )o: ! () 5
作者简介 : 陈思维(9 1 , , 18 一)女 湖南临武人 , 武汉理 工大学机械工程学院博 士研究生
维普资讯
4 4
武汉理 大学学报
・
信息 与管 理工程版
20 0 6年 3月
置 s 和S l 2的权重值。为此 , 提出如下改进的属 性重要度标准 , 中权值 的确定完全 由数据本身 其
.
() 2
其中,( , ) C D 表示 D对 C的依赖度 , 0 ( , 且 ≤ C D ≤l; ( 为 D的熵 , Dl ) D相对于 C ) H D) H( 为 C
的条件熵。
在基于 S 3的属性重要度计算中, 需要人为设
收稿 日期:05—1 —1 . 20 1 8
维普资讯
第2 卷 第3 8 期
信息系统属性约简的快速算法

h na uc gi mfr ti t dc o s rvdd T e qi l rh o a r uin eut nipo ie.n1t o lx yo te rvdda o tmima { ( I ) ka o t tb o r i e i cmpei fh poie l rh s x 0 I UI me t gi AI ,0 ( { I A
LI AO — i n GUIXin c i Yiq a g , a —a
(. un dn d syT cncl ol e G a gh u 3 0 C ia . c o l f te t s n o p t inl 1 G ag o g n ut eh i l g, u n zo 1 0 , h ;2 S h o o hma c d m ua o a I r aC e 5 0 n Ma i a C t Si c , h ni g r l ol e Z aj n 2 0 8 C i ) c n e Z aj n maC l g, h ni g 44 , hn e a No e a 5 a
信息系统属性约简的快速算法
廖 毅 强 桂现 才 ,
(.广 东轻 工职 业技 术 学 院,广 东 广 州 5 0 0 ; 1 13 0
2 .湛江 师范 学院 数 学与计 算科 学学院 ,广 东 湛 江 5 4 4 ) 208
摘 要 :对 目前 已有 的信 息系统属性 约简的启发 式算法进 行 了分析 ,认 为它们 的时间复 杂度 不太理 想。 以快速 缩 小搜 索空 间为 目的, 先利用 划分 uA对 信 息系统进行化 简。 计 了一个新 的度 量属 性重要性 的计算公 式 , / 设 并给 出 了该公 式的递 归计 算 方法 。然后给 出了一个 时间复杂度 为 ma { ( 1q O II /I 的快速属 性约 简算法 , x D b 1 ) ( A) 4 ̄ , A I } U 最后 , 实例及 实验 结果表 明 了该算 法的
Pythagorean模糊信息系统属性约简的图论方法

㊀第52卷第1期郑州大学学报(理学版)Vol.52No.1㊀2020年3月J.Zhengzhou Univ.(Nat.Sci.Ed.)Mar.2020收稿日期:2019-05-21基金项目:国家自然科学基金项目(61573127);河北省自然科学基金项目(A2018210120);河北省人才工程培养资助项目(A2017002112,A201901049);河北省优秀专家出国培训项目㊂作者简介:张少谱(1980 ),男,河北石家庄人,副教授,主要从事离散数学与数据挖掘研究,E-mail:shaopuzhang@;通信作者:孙品(1995 ),女,河北石家庄人,硕士研究生,主要从事离散数学与数据挖掘研究,E-mail:sunpin_td@㊂Pythagorean 模糊信息系统属性约简的图论方法张少谱1,㊀孙㊀品1,㊀冯㊀涛2(1.石家庄铁道大学数理系㊀河北石家庄050043;2.河北科技大学理学院㊀河北石家庄050018)摘要:信息系统中,属性约简是知识发现问题的一个研究热点,能达到发掘并简化知识的目的㊂目前已有很多利用辨识矩阵来进行属性约简的研究,但是当数据维数较大时,算法复杂度往往很大㊂利用加权欧几里得距离来定义二元关系及辨识矩阵,利用信息系统的约简与生成图的最小顶点覆盖等价的关系,将辨识矩阵求解约简的问题转化为求解生成图中最小顶点覆盖的问题,并给出了Pythagorean 模糊信息系统中属性约简的算法;在此基础上,利用基于加权欧几里得距离的相似关系,定义了Pythagorean 模糊决策信息系统的辨识矩阵,并给出了用最小顶点覆盖的方法求约简算法,最后利用实例验证了算法的有效性㊂关键词:Pythagorean 模糊信息系统;属性约简;辨识矩阵;最小顶点覆盖中图分类号:O236㊀㊀㊀㊀㊀文献标志码:A㊀㊀㊀㊀㊀文章编号:1671-6841(2020)01-0079-08DOI :10.13705/j.issn.1671-6841.20191970㊀引言粗糙集[1]是一种刻画不完整性和不确定性的数学工具,主要思想是利用已知知识库来刻画不确定或不精确的知识,被广泛应用于专家系统㊁图像处理㊁模式识别㊁决策分析和风险评估等领域㊂经典的粗糙集方法有一定的局限性,在处理实值信息系统时,往往需要将数据离散化,这可能导致一些信息的丢失㊂为了解决这个问题,文献[2]提出了模糊粗糙集,用来解决数据集中存在的不确定性和模糊性,将模糊集与粗糙集结合,给出了实值数据不确定性推理的关键方法㊂文献[3]提出了直觉模糊集,考虑到了隶属度㊁非隶属度与犹豫度,可以更好地处理不确定性,具有更强的处理信息系统的能力㊂考虑到其只能描述隶属度与非隶属度小于和等于1的情况,文献[4]提出了毕达哥拉斯模糊集,要求隶属度与非隶属度的平方和小于等于1即可,可行域为半径为1的1/4圆域,是非常有现实意义的㊂目前,毕达哥拉斯模糊集主要应用于多准则(属性)决策中[5-6]㊂属性约简是粗糙集理论研究的核心内容之一,它是在保持知识库分类能力不变的条件下,删除其中不相关或不重要的属性㊂文献[7]提出的辨识矩阵是求最小约简的有力工具㊂文献[8]提出了基于辨识矩阵的属性集求核算法,减少了对象之间不必要的比较以及矩阵中的空值存储㊂文献[9]提出将形式背景中的属性约简与图论相结合,将形式背景的属性约简问题转化为图论中的最小顶点覆盖问题,并证明这种方法大大减少了算法的时间复杂度㊂因此我们考虑将辨识矩阵和最小顶点覆盖应用到Pythagorean 模糊信息系统的属性约简中㊂本文定义了Pythagorean 模糊信息系统中的辨识矩阵,将辨识矩阵的布尔推理问题转化为图论中的最小顶点覆盖问题,给出了属性约简的算法,并通过实例表明该算法的有效性,最后定义了Pythagorean 模糊决策信息系统中的属性约简算法,用实例证明算法的可行性,并进行了对比分析㊂1㊀基础概念1.1㊀基于加权欧几里得距离的相似度相似度的定义有很多种方法,应用比较广泛的是文献[10]提出的模糊相似关系㊂08郑州大学学报(理学版)定义1[10]㊀若F=(U,A,I,f)为一个模糊信息系统,U为对象集,A为属性集,I为所有模糊集的集合, f:UˑAңI为映射,∀aɪA,相似度定义为sim a(x i,x j)=1-μa(x i)-μa(x j)/μa max-μa min,其中:μa(x i)㊁μa(x j)分别为对象x i㊁x j对于属性a的隶属度;μa max㊁μa min分别为所有对象对于属性a的最大和最小隶属度㊂文献[11]定义了直觉模糊信息系统基于加权欧几里得距离的相似关系㊂定义2[11]㊀若F=(U,A,I,f)为直觉模糊信息系统,U为对象集,A为属性集,I为所有直觉模糊集的集合,f:UˑAңI为映射,∀x i,x jɪU,aɪA,两个直觉模糊集分别为f(x i,a)= μa(x i),νa(x i)⓪和f(x j,a)= μa(x j),νa(x j)⓪,基于加权欧几里得距离的相似度定义为sima(x i,x j)=1-αμa(x i)-μa(x j)2+βνa(x i)-νa(x j)2+γπa(x i)-πa(x j)2,其中α㊁β㊁γ为加权因子㊂1.2㊀Pythagorean模糊信息系统定义3[12-13]㊀设U为给定的非空论域,集合X={ x,μX(x),νX(x)⓪xɪU}称为Pythagorean模糊集,若满足0ɤμ2X(x)+ν2X(x)ɤ1,μX(x),νX(x)ɪ[0,1],其中μX(x)表示元素x对于集合X的隶属度,νX(x)表示元素x对于集合X的非隶属度,πX(x)=1-μ2X(x)-ν2X(x)称为元素x对于集合X的犹豫度㊂λ= μX(x),νX(x)⓪为Pythagorean模糊数㊂定义4[12-13]㊀设四元组S=(U,A,V PF,f)表示一个Pythagorean模糊信息系统,U={x1,x2, ,x n}为对象的集合,A={a1,a2, ,a m}为属性集合,V PF为所有的Pythagorean模糊集的集合,f:UˑAңV PF为映射,对任意的xɪU和aɪA,有f(x,a)= μa(x),νa(x)⓪,其中:μa(x)为对象x关于属性a的隶属度;νa(x)为对象x关于属性a的非隶属度,且满足0ɤμ2X(x)+ν2X(x)ɤ1,μX(x),νX(x)ɪ[0,1]㊂1.3㊀辨识矩阵的简化当数据维数较大时,辨识矩阵中逻辑运算的计算量较大,需要对辨识矩阵进行简化㊂定义5[14]㊀(1)∀(x,y)ɪUˑU,M(x,y)ʂ∅⇒M S(x,y)ʂ∅,且M S(x,y)⊆M(x,y);(2)∀(x,y)ɪUˑU,M(x,y)=∅⇒MS(x,y)=∅㊂倘若满足以上两个条件时,矩阵M S称为辨识矩阵M的简化辨识矩阵㊂元素吸收[14]指若矩阵中一元素M(xᶄ,yᶄ)ʂ∅,满足M(x,y):∅ʂM(xᶄ,yᶄ)⊂M(x,y)㊂此矩阵中M(x,y)的值被M(xᶄ,yᶄ)代替㊂矩阵吸收[14]:矩阵吸收运算的规则是,在满足∅ʂM(xᶄ,yᶄ)⊂M(x,y)的情况下,对矩阵中所有可能的元素对都进行吸收操作㊂简化后的辨识矩阵得到的约简与原辨识矩阵得到的约简相同㊂2㊀Pythagorean模糊信息系统的图表示对于一些维数较大的数据集来说,辨识矩阵的析取与合取的算法过程复杂度较大,考虑将辨识矩阵的约简转化为图的最小顶点覆盖来简化计算量㊂首先定义Pythagorean模糊信息系统中基于加权欧几里得距离的相似度和辨识矩阵㊂2.1㊀Pythagorean模糊信息系统中的加权欧几里得距离及相似关系由于Pythagorean模糊信息系统是直觉模糊信息系统的推广,因此将直觉模糊集的一些性质推广到Pythagorean模糊集中㊂首先给出Pythagorean模糊信息系统中的相似关系并讨论它的性质㊂定义6㊀设λ1= μ1,ν1⓪与λ2= μ2,ν2⓪为两个Pythagorean模糊数,则D(λ1,λ2)=αμ21-μ222+βν21-ν222+γπ21-π222称为Pythagorean模糊数的加权欧几里得距离,其中α㊁β㊁γ为加权因子,本文中规定加权因子α㊁β㊁γ满足条件:(1)0ɤα,β,γɤ1,其中α,βʂ0;(2)α+β+γ=1;(3)αȡβ>γ㊂性质1㊀设λ1= μ1,ν1⓪,λ2= μ2,ν2⓪,λ3= μ3,ν3⓪为3个Pythagorean模糊数,则D(λi,λj)为一个度量,其中i,j=1,2,3㊂对于任意的Pythagorean模糊数λ1㊁λ2㊁λ3,则(1)D(λ1,λ2)ȡ0,且D(λ1,λ2)=0,当且仅当λ1=λ2;(2)D(λ1,λ2)=D(λ2,λ1);(3)D(λ1,λ2)ɤD(λ1,λ3)+D(λ3,λ2)㊂下面定义Pythagorean模糊信息系统中两个对象的相似度㊂定义7㊀设S=(U,A,V PF,f)为Pythagorean模糊信息系统,若(x i,x j)ɪU,a kɪA,f(x i,a k)= μa k(x i),张少谱,等:Pythagorean 模糊信息系统属性约简的图论方法νa k (x i )⓪与f (x j ,a k )= μa k (x j ),νa k (x j )⓪为两个Pythagorean 模糊数,α㊁β㊁γ为加权因子㊂关于a k 的基于加权欧几里得距离的相似度sim 定义为sim a k (x i ,x j )=1-αμ2a k (x i )-μ2a k (x j )2+βν2a k (x i )-ν2a k (x j )2+γπ2a k (x i )-π2a k (x j )2㊂㊀㊀性质2㊀设S =(U ,A ,V PF ,f )为Pythagorean 模糊信息系统,对于任意x i ,x j ɪU ,a k ɪA ,关于a k 的基于加权欧几里得距离的相似度满足性质:(1)0ɤsim a k (x i ,x j )ɤ1;(2)sim a k (x i ,x j )=sim a k (x j ,x i );(3)f (x i ,a k )=f (x j ,a k )⇔sim a k (x i ,x j )=1;(4)若f (x i ,a k )= 1,0⓪,f (x j ,a k )= 0,1⓪,且α+β=1,则sim a k (x i ,x j )=0,也就是说,x i 和x j 在性质a k 上的表现完全不同㊂定义8㊀设S =(U ,A ,V PF ,f )为Pythagorean 模糊信息系统,对于任意a k ɪA ,δɪ[0,1],两个对象的δ-相似关系定义为R δ(A )={(x i ,x j )ɪU ˑU sim a k (x i ,x j )ȡδ,∀a k ɪA }㊂性质3㊀设S =(U ,A ,V PF ,f )为Pythagorean 模糊信息系统,R δ(A )为由属性A 决定的二元关系,则以下性质成立:(1)对任意x i ɪU ,R δ(A )(x i ,x i )=1;(2)对任意x i ,x j ɪU ,R δ(A )(x i ,x j )=R δ(A )(x j ,x i )㊂对任意的C ⊆A ,δɪ[0,1],有R δ(C )=ɘc k ɪC R δ(c k ),且R δ(A )⊆R δ(C )㊂参数δ往往根据数据集的分布特征进行取值,不同的δ代表对象x i 与x j 之间不同的相似度和信息系统中不同的相似关系㊂当数据集的相似程度较大时,应选择更大的δ值,反之亦然㊂定义9㊀若S =(U ,A ,V PF ,f )为Pythagorean 模糊信息系统,δɪ[0,1],R δ(A )为由属性集A 决定的二元关系,C ⊆A ,称C 为属性集A 的约简(记为red (A )),满足条件:(1)R δ(A )=R δ(C );(2)对任意元素c ɪC ,R δ(A )ʂR δ(C -{c })㊂2.2㊀基于相似关系的辨识矩阵为了得到Pythagorean 模糊信息系统的属性约简,引入基于相似关系的辨识矩阵㊂定义10㊀设S =(U ,A ,V PF ,f )为Pythagorean 模糊信息系统㊂记M S (x ,y )={a k ɪA :sim a k (x ,y )<δ}为x 与y 的辨识属性集,其中(x ,y )ɪU ˑU ,称矩阵M S =M S (x ,y )为信息系统S 的辨识矩阵㊂定义11㊀设S =(U ,A ,V PF ,f )为Pythagorean 模糊信息系统,(x ,y )ɪU ˑU ㊂M S =M S (x ,y )为信息系统S 的辨识矩阵,其中M S (x ,y )为x 与y 的辨识属性集㊂设辨识函数f S 为含有m 个分别与属性a 1,a 2, ,a m对应的布尔变量a ∗1,a ∗2, ,a ∗m 的布尔函数[6],定义为f S (a ∗1,a ∗2, ,a ∗m )=ɡ{ᶱM S (x ,y ):M S (x ,y )ɪM S }=ᶱ(ɡred ),其中ᶱM S (x ,y )为M S (x ,y )中所有属性的析取,即对象x 与y 可以被M (x ,y )中任意一个属性区分,则red 为约简㊂例1㊀设S =(U ,A ,V PF ,f )为一个Pythagorean 模糊信息系统,其中:U ={x 1,x 2,x 3,x 4}为4个病人的集合;AT ={a 1,a 2,a 3,a 4}为4个属性的集合,a 1ʒ=heat ,a 2ʒ=cough ,a 3ʒ=headache ,a 4ʒ=sorethroat ,信息如表1所示,令δ=0.8,α=0.4,β=0.4,γ=0.2㊂M S =∅{a 1,a 2,a 3}∅{a 3}A∅A {a 1,a 4}{a 3,a 4}∅æèçççççöø÷÷÷÷÷,表1㊀4个病人的信息表Table 1㊀An information table of four patientsU a 1a 2a 3a 4x 1 0.9,0.3⓪ 0.7,0.6⓪ 0.5,0.8⓪ 0.6,0.3⓪x 2 0.4,0.7⓪ 0.9,0.2⓪ 0.8,0.1⓪ 0.5,0.3⓪x 3 0.8,0.4⓪ 0.7,0.5⓪ 0.6,0.2⓪ 0.7,0.4⓪x 40.7,0.2⓪0.8,0.2⓪0.8,0.4⓪0.6,0.6⓪㊀㊀根据两对象相似度的定义可得sim a 1(x 1,x 2)=0.505,sim a 2(x 1,x 2)=0.714,sim a 3(x 1,x 2)=0.518,sim a 4(x 1,x 2)=0.916,M (x 1,x 2)={a k ɪA :sim (x 1,x 2)<0.8}={a 1,a 2,a 3}㊂同理可计算M (x 1,x 3)={a 3},M (x 1,x 4)=A ,M (x 2,x 3)=A ,M (x 2,x 4)={a 1,a 4},M (x 3,x 4)={a 3,a 4}㊂进而得到辨识矩阵M S 为red (A )=(a 1ᶱa 2ᶱa 3)ɡ(a 1ᶱa 2ᶱa 3ᶱa 4)ɡa 3ɡ(a 1ᶱa 4)ɡ(a 3ᶱa 4)=(a 3ɡa 1)ᶱ(a 3ɡa 4),即得到两个约简集{a 1,a 3}和{a 3,a 4}㊂任何一个约简集都含有的元素称为核心元素,记为core (A ),即core (A )=ɘred (A )㊂例1中core (A )={a 3}㊂定理1㊀若S =(U ,A ,V PF ,f )为一个Pythagorean 模糊信息系统,C ⊆A ,δɪ[0,1],M S 为此信息系统的18郑州大学学报(理学版)辨识矩阵,则有core (A )={a ɪA :M (x ,y )={a }}㊂即核心属性为辨识矩阵中所有单个元素的集合㊂2.3㊀辨识矩阵的图表示方法下面我们将辨识矩阵的约简与图中最小顶点覆盖联系起来㊂定义12[9,15]㊀给定一个图G = V ,E ⓪,且e ɪE ,令N (e )为连接边e 的一个顶点集㊂定义N ={N (e ):e ɪE }㊂设f G 为图G 的一个布尔函数,由m 个布尔变量v ∗0,v ∗1, ,v∗m构成,且布尔变量与顶点集v 0,v 1, ,v m 一一对应㊂f G (v ∗1,v ∗2, ,v ∗m )=ɡ{ᶱN (e ):N (e )ɪN },其中ᶱN (e )为所有布尔变量v ∗的析取,v ɪN (e )㊂由此可见,图的最小顶点覆盖也可通过布尔公式得到㊂定理2[9]㊀设G = V ,E ⓪为一个图,顶点集K ⊆V 是图G 的最小顶点覆盖,当且仅当ɡv i ɪK v ∗i 是布尔函数f G 极小析取范式中的合取式㊂若将布尔函数f G 化简,则布尔函数f G (v ∗1,v ∗2, ,v ∗m )=ɡ{ᶱN (e ):N (e )ɪN }=ᶱt i =1(ɡsi j =1v ∗j ),其中ɡsi j =i v ∗j ,i ɤt 为布尔函数f G 的极小析取范式中的所有合取式,而K i={v j :j ɤs i },i ɤt ,为图G 的所有最小顶点覆盖[9]㊂在后面的讨论中,用v i 来代替v ∗i ㊂定义13㊀设M S 为Pythagorean 模糊信息系统S =(U ,A ,V PF ,f )的辨识矩阵,令V =A ,E ={e ɪM S :e ʂ∅},称G S = V ,E ⓪为Pythagorean 模糊信息系统S 的生成图㊂图1㊀由S 生成的图G SFigure 1㊀Graph G S induced from S例2㊀以例1中的简化后的辨识矩阵为例㊂生成图中顶点集为V ={a 1,a 3,a 4},边集E ={e 1,e 2},如图1所示,e 1与a 3关联,e 2与a 1和a 4关联,关联矩阵用M G 表示㊂定理3㊀设G S = V ,E ⓪为由Pythagorean 模糊信息系统S =(U ,A ,V PF ,f )的辨识矩阵生成的图,red (S )为Pythagorean 模糊信息系统S 的约简,v (G S )为S 产生的图G S 的最小顶点覆盖,则v (G S )=red (S )㊂性质4㊀若S =(U ,A ,V PF ,f )为Pythagorean 模糊信息系统,δɪ[0,1],R δ(A )为由属性集A 决定的二元关系,M S 为辨识矩阵,若M S 中元素M S (x ,y )由A 中的单个元素a 组成,那么在生成图中,a 为一个含有环的顶点㊂2.4㊀基于相似度的属性约简算法(算法1)输入:Pythagorean 模糊信息系统S =(U ,A ,V PF ,f ),δ,加权因子α,β,γ㊂输出:S 的约简red (A )㊂1.根据相似关系的定义计算辨识矩阵M S 并简化㊂/∗删掉重复行,满行及零行∗/2.找到所有含有环的顶点,这些顶点构成的集合定义为red ㊂3.对任意顶点v ɪred ,删除所有与顶点v 关联的边㊂㊀/∗删除关联矩阵M G 中的某些行∗/4.While M G ʂ∅do5.找度最大的顶点v 0,令red =red ɣ{v 0}㊂6.删除所有与顶点v 0相关联的边㊂7.End while8.对任意v ɪred ,若与顶点v 关联的边都被点集red -{v }覆盖,则删除顶点v ㊂9.返回red ㊂此算法在最坏情况下的时间复杂度为O (U (U-1)A+U (U -1)/2+2A+U ),为多项式时间复杂度,可记为O (U 2A ),经过简化矩阵之后,矩阵运算的维度降低,使算法的效率更高㊂2.5㊀实例分析为了验证基于图论的Pythagorean 模糊信息系统的属性约简算法的可行性和有效性,在目前已有的Pythagorean 模糊集数据上,进行排列组合得到较大规模数据集,如表2所示㊂数据集中含有50个对象,7个条件属性和4个决策属性㊂data1㊁data2㊁data3分别由数据集中的前10㊁20㊁50个对象以及条件属性构成㊂用不同的数据集,不同的约简方法以及不同的参数得到的约简结果及约简时间见表3和表4㊂表3中α㊁β㊁γ分别为0.4㊁0.4㊁0.2,在表4中分别为0.5㊁0.4㊁0.1㊂通过对比可见,随着参数δ的增大,得到的约简基数2838张少谱,等:Pythagorean模糊信息系统属性约简的图论方法㊀㊀表2㊀数据集Table2㊀Data sets编号a1a2a3a4a5a6a7决策属性10.50.70.40.30.50.40.60.60.70.60.90.20.50.62233 20.40.30.50.50.60.40.80.40.40.40.70.50.70.41231 30.60.50.50.60.70.60.70.60.50.10.80.60.80.42242 40.60.70.40.30.80.50.60.40.70.30.30.70.40.31231 50.50.70.60.30.70.50.40.40.70.30.60.40.70.52333 60.40.70.60.30.40.50.50.40.80.30.70.50.60.63222 70.80.40.70.20.70.40.20.50.40.70.70.50.80.42323 80.50.30.30.40.40.60.60.60.80.40.80.30.80.22132 90.50.70.90.20.80.50.60.30.50.60.40.70.60.43113 100.60.60.70.50.70.20.60.40.70.30.80.50.90.33222 110.70.50.60.40.90.30.70.60.70.10.20.50.40.63322 120.70.20.80.20.80.40.60.60.60.60.50.40.40.31213 130.80.60.70.60.50.80.50.50.60.10.30.20.50.22233 140.50.60.90.20.80.10.50.30.40.30.70.30.60.33333 150.60.10.80.20.90.20.50.60.60.40.60.30.80.31323 160.40.70.90.20.80.10.50.30.60.40.90.30.80.12311 170.70.20.80.20.80.40.60.60.40.70.50.60.40.21111 180.80.50.60.40.60.20.80.50.40.30.90.40.80.61112 190.50.20.50.20.60.40.60.30.50.40.70.40.60.52113 200.60.30.60.50.70.20.80.30.70.50.40.70.60.52221 210.60.70.60.50.50.60.70.60.60.50.70.60.80.62243 220.50.30.60.40.40.50.50.60.50.40.80.20.60.14244 230.60.70.60.60.60.40.70.50.70.30.50.60.90.21411 240.70.40.60.30.50.80.80.50.60.20.90.20.50.71433 250.70.30.60.30.70.30.10.80.20.70.90.20.40.74422 260.60.40.50.70.40.70.60.20.60.50.70.60.90.34413 270.70.30.60.50.60.50.50.50.50.60.70.70.60.31434 280.60.30.80.30.70.10.10.80.30.70.80.20.70.23242 290.80.30.20.60.80.40.50.60.40.90.50.80.60.52142 300.50.80.60.10.30.80.40.90.40.50.50.70.80.43234 310.80.90.50.60.30.80.40.90.30.50.60.40.70.24214 320.60.40.80.90.50.60.40.90.60.40.30.90.30.84123 330.80.40.80.60.60.70.80.30.60.50.50.60.70.32243 340.40.30.30.70.70.40.40.60.50.40.60.50.80.33324 350.90.30.70.60.50.80.60.30.60.30.40.40.50.23341 360.40.70.90.20.80.10.50.30.50.30.80.30.60.11324 370.60.30.70.70.70.60.40.40.30.40.60.30.60.21143 380.80.40.70.50.60.20.70.40.70.40.40.40.30.24122 390.70.40.70.50.60.10.90.20.50.60.60.40.50.74223 400.90.20.50.60.60.20.60.10.70.40.70.30.60.53413 410.90.30.70.60.50.80.60.30.50.20.80.40.70.22434 420.80.40.70.50.60.20.70.40.80.80.80.10.30.54231 430.60.30.50.20.80.30.50.30.70.50.60.70.50.64341 440.70.40.60.30.70.30.70.30.80.20.80.40.60.63422 450.50.20.70.30.60.30.60.30.50.60.80.10.90.22242 460.60.20.60.40.60.10.80.30.50.80.70.50.70.42242 470.80.50.60.40.60.50.60.30.10.90.20.50.30.81231 480.60.30.70.30.70.40.70.40.50.30.30.50.80.53234 490.70.50.60.50.60.30.80.60.80.40.40.30.70.61334 500.70.60.30.50.80.60.70.20.30.80.60.80.40.73431郑州大学学报(理学版)表3㊀不同数据集的约简结果及约简时间对比Table 3㊀Comparison of reduction results and reduction time for different data sets数据集δ=0.90δ=0.85图论约简辨识矩阵约简约简时间/s 图论约简辨识矩阵约简约简时间/s 基数最小基数个数图论辨识矩阵基数最小基数个数图论辨识矩阵data122120.0590.2443380.0900.246data233190.07767.03243120.109 1.232data333160.10721.5706620.1590.179表4㊀不同数据集的约简结果及约简时间对比Table 4㊀Comparison of reduction results and reduction time for different data sets数据集δ=0.90δ=0.85图论约简辨识矩阵约简约简时间/s 图论约简辨识矩阵约简约简时间/s 基数最小基数个数图论辨识矩阵基数最小基数个数图论辨识矩阵data122130.0970.4943380.0940.572data233230.10534.69444140.14623.151data333130.1574.2676610.1790.168变小㊂本文的算法得到的约简包含在原始算法得到的约简中,且在一定条件下等于原始算法的最小约简,原始算法可得到所有可能的约简结果,但是图论方法可以节省算法的时间㊂在约简的过程中,若出现度数相同的顶点(条件属性),总是优先考虑角标较小的点,在实际应用中可根据决策者的偏好,优先选择相对重要的属性㊂3㊀Pythagorean 模糊决策信息系统约简的图解法3.1㊀Pythagorean 模糊决策信息系统的辨识矩阵定义14㊀Pythagorean 模糊决策信息系统是一个五元组F =(U ,A ,V ,D ,I ),A 为条件属性集,D 为决策属性集,δɪ[0,1],则Pythagorean 模糊决策信息系统中的δ-相似关系R δ(A D )定义为R δ(A D )={(x i ,x j )ɪU ˑU ∀a k ɪA ,sim a k (x i ,x j )ȡδᶱI D (x i )=I D (x j )}㊂㊀㊀定义15㊀令F =(U ,A ,V ,D ,I )为Pythagorean 模糊决策信息系统,δɪ[0,1],C ⊆A 为属性集A 关于D 的一个约简,满足条件:(1)R δ(C D )=R δ(A D );(2)∀Cᶄ⊂C ,R δ(CᶄD )ʂR δ(A D )㊂定义16㊀令F =(U ,A ,V ,D ,I )为Pythagorean 模糊决策信息系统,(x ,y )ɪU ˑU ,则称M F (x ,y )={a k ɪA :sim a k (x ,y )<δ},I D (x )ʂI D (y ),∅,otherwise㊂{为F 中x 与y 的辨识属性集,称M F ={M F (x ,y ):(x ,y )ɪU ˑU }为F 的辨识矩阵,辨识函数类似地定义为f F ( a 1, a 2, , a m )=ɡ{ᶱM F (x ,y ):M F (x ,y )ɪM F ,M F (x ,y )ʂ∅}㊂3.2㊀辨识矩阵的图表示定义17㊀令F =(U ,A ,V ,D ,I )为Pythagorean 模糊决策信息系统,M F 为辨识矩阵,G F = V ,E ⓪称为Pythagorean 模糊决策信息系统的生成图,若V =A ,E ={e ɪM F ,e ʂ∅}㊂通过定理2中信息系统的约简与生成图中顶点覆盖的关系,可以得到关于Pythagorean 模糊决策信息系统的相关结论㊂定理4㊀若G F = V ,E ⓪为Pythagorean 模糊决策信息系统F =(U ,A ,V ,D ,I )的生成图,则有red (F )=v (G F )㊂以上结果对于超图依然成立㊂例3㊀表5为一个Pythagorean 模糊决策信息系统F =(U ,A ,V ,D ,I ),其中:U ={x 1,x 2,x 3,x 4};A ={a 1,a 2,a 3,a 4};D ={d }㊂令δ=0.7,α=0.4,β=0.4,γ=0.2㊂48张少谱,等:Pythagorean 模糊信息系统属性约简的图论方法表5㊀Pythagorean 模糊决策信息系统决策表Table 5㊀Decision table of pythagorean fuzzy decision information systemU a 1a 2a 3a 4d x 1 0.9,0.3⓪ 0.7,0.6⓪ 0.5,0.8⓪ 0.6,0.3⓪1x 2 0.4,0.7⓪ 0.9,0.2⓪ 0.8,0.1⓪ 0.5,0.3⓪2x 3 0.8,0.4⓪ 0.7,0.5⓪ 0.6,0.2⓪ 0.7,0.4⓪1x 40.7,0.2⓪0.8,0.2⓪0.8,0.4⓪0.6,0.6⓪3㊀㊀根据定义10,利用辨识函数得到约简{a 1,a 3},{a 1,a 4},{a 3,a 4},{a 2,a 4}㊂通过辨识矩阵可得生成图G F = V ,E ⓪,关联矩阵如表6所示㊂得到辨识矩阵M S 为M s =∅{a 1,a 2,a 3}∅∅A∅A {a 1,a 4}{a 3,a 4}∅æèçççççöø÷÷÷÷÷,表6㊀关联矩阵M GTable 6㊀Incidence matrix M G边a 1a 2a 3a 4e 11110e 21001e 311㊀㊀生成图G F = V ,E ⓪中,V ={a 1,a 2,a 3,a 4},E ={{a 1,a 2,a 3},{a 1,a 4},{a 3,a 4}},显然red (F )=v (G F )={{a 1,a 4},{a 1,a 3},{a 2,a 4},{a 3,a 4}}㊂性质5㊀令F =(U ,A ,V ,D ,I )为Pythagorean 模糊决策信息系统,称S F (U ,A ,V )为由F 生成的Pythagorean 模糊信息系统,M S 为S F 的辨识矩阵,M F 为F 的辨识矩阵,对任意x ,y ɪU ,可得关系M F (x ,y )=M S (x ,y ),I D (x )ʂI D (y );∅,otherwise㊂{㊀㊀根据定义10和16可证上式成立,由此可见,对任意x ,y ɪU ,恒有M F (x ,y )=M S (x ,y )㊂3.3㊀Pythagorean 模糊决策信息系统的属性约简算法(算法2)输入:Pythagorean 模糊决策信息系统F =(U ,A ,V ,D ,I ),δ,加权因子α,β,γ㊂输出:F 的约简red (A )㊂1.根据算法1,找到Pythagorean 模糊信息系统S F (U ,A ,V )生成图的辨识矩阵M S ㊂2.if I D (x )=I D (y )3.M F (x ,y )=M S (x ,y )4.else M F (x ,y )=∅5.产生图的关联矩阵M G ㊂6.利用算法1中步骤3~9,得到约简red (A )㊂3.4㊀实验分析选取表2中的前10㊁20㊁50个数据以及对应的条件和决策属性作为data4㊁data5㊁data6㊂算法的约简结果及运行时间见表7(参数α㊁β㊁γ分别为0.4㊁0.4㊁0.2)和表8(参数α㊁β㊁γ分别为0.5㊁0.4㊁0.1)㊂可见在约简结果相同的条件下,本文提出的算法大大减少了算法复杂度㊂表7㊀不同数据集的约简结果及约简时间对比Table 7㊀Comparison of reduction results and reduction time for different data sets数据集δ=0.90δ=0.85图论约简辨识矩阵约简约简时间/s 图论约简辨识矩阵约简约简时间/s 基数最小基数个数图论辨识矩阵基数最小基数个数图论辨识矩阵data422120.0640.3003380.1300.265data533190.06970.61343130.149 1.526data633130.12324.2876620.1660.22658郑州大学学报(理学版)表8㊀不同数据集的约简结果及约简时间对比Table 8㊀Comparison of reduction results and reduction time for different data sets数据集δ=0.90δ=0.85图论约简辨识矩阵约简约简时间/s 图论约简辨识矩阵约简约简时间/s 基数最小基数个数图论辨识矩阵基数最小基数个数图论辨识矩阵data422130.097 1.8923380.0990.610data533230.11233.40344150.1338.112data633120.1484.0996620.1980.2044㊀结论本文主要讨论了Pythagorean 模糊信息系统和Pythagorean 模糊决策信息系统中的属性约简问题㊂利用加权欧几里得距离定义了对象之间的相似度,然后利用信息系统中的约简与图论中顶点覆盖之间的关系,将辨识矩阵转化为图论中的关联矩阵,将NP-Hard 问题简化为多项式复杂度的问题,减少了约简算法的时间复杂度,给出了Pythagorean 模糊信息系统和Pythagorean 模糊决策信息系统中属性约简的算法,最后分别用实例验证了其可行性,并进行了对比分析㊂参考文献:[1]㊀PAWLAK Z.Rough sets[J].International journal of computer and information sciences,1982,11(5):341-356.[2]㊀DUBOIS D,PRADE H.Rough fuzzy sets and fuzzy rough sets[J].International journal of general systems,1990,17(2/3):191-209.[3]㊀ATANASSOV K T.Intuitionistic fuzzy sets[J].Fuzzy sets and systems,1986,20(1):87-96.[4]㊀YAGER R R.Pythagorean membership grades in multicriteria decision making[J].IEEE transactions on fuzzy systems,2014,22(4):958-965.[5]㊀ZENG S Z,CHEN J P,LI X S.A hybrid method for Pythagorean fuzzy multiple-criteria decision making [J].Internationaljournal of information technology &decision making,2016,15(2):403-422.[6]㊀REN P J,XU Z S,GOU X J.Pythagorean fuzzy TODIM approach to multi-criteria decision making[J].Applied soft compu-ting,2016,42:246-259.[7]㊀SKOWRON A,RAUSZER C.The discernibility matrices and functions in information systems[M].Dordrecht:Springer Nether-lands,1992:331-362.[8]㊀杨涛,张贤勇,冯山.基于差别矩阵的属性集求核算法[J].郑州大学学报(理学版),2018,50(1):27-32.YANG T,ZHANG X Y,FENG S.A core algorithm of attribute sets based on the discernibility matrix[J].Journal of Zhengzhouuniversity(natural science edition),2018,50(1):27-32.[9]㊀CHEN J K,MI J S,LIN Y J.A graph approach for knowledge reduction in formal contexts[J].Knowledge-based systems,2018,148:177-188.[10]JENSEN R,SHEN putational intelligence and feature selection:rough and fuzzy approaches[J].Kybernetes,2009,38:3-4.[11]FENG Q R,LI R.Discernibility matrix based attribute reduction in intuitionistic fuzzy decision systems[M].Berlin:Springer,2013:147-156.[12]YAGER R R.Pythagorean membership grades in multicriteria decision making[J].IEEE transactions on fuzzy systems,2014,22(4):958-965.[13]QU G H,ZHANG H P,LIU Z L.Group decision making based on λ-shapley Choquet integral novel intuitionistic fuzzy TOPSISmethod[J].System engineering theory and practice,2016,36(3):726-742.[14]YAO Y Y,ZHAO Y.Discernibility matrix simplification for constructing attribute reducts [J].Information sciences,2009,179(7):867-882.[15]左孝凌,李为鑑,刘永才.离散数学[M].上海:上海科学技术文献出版社,1988.ZUO X L,LI W J,LIU Y C.Discrete mathematics [M].Shanghai:Shanghai Science and Technology Literature PublishingPress,1988.(下转第113页)68311㊀第1期曾庆山,等:点到点二阶参数优化迭代学习控制算法Point-to-point High-order Parameter Optimization IterativeLearning Control AlgorithmZENG Qingshan,XIONG Zhanlei,YIN Mingjun(School of Electrical Engineering,Zhengzhou University,Zhengzhou450001,China) Abstract:Aimed to solve the point-to-point tracking control problem of a class of discrete linear time-in-variant systems,a point-to-point high-order parameter optimization iterative learning control algorithm via fast reference trajectory updating was proposed.Firstly,when the reference trajectory was updated,the fixed learning gainλin the interpolation method was changed to an exponential variable gain eγ(k)that varied with the iteration process,which allowed the new reference trajectory to approach the system output faster.Then,the new control input was constructed by using the input and output information obtained from the current and previous iterations,and the parameters were optimized to achieve fast and efficient tracking control performance.Finally,the effectiveness of the algorithm was verified by theoretical analy-sis and simulation example.Key words:reference trajectory updating;parameter optimization;point-to-point;iterative learning con-trol(责任编辑:方惠敏)(上接第86页)A Graph Approach for Attribute Reduction of Pythagorean FuzzyInformation SystemsZHANG Shaopu1,SUN Pin1,FENG Tao2(1.Department of Mathematics and Physics,Shijiazhuang Tiedao University,Shijiazhuang050043,China;2.School of Sciences,Hebei University of Science and Technology,Shijiazhuang050018,China) Abstract:Attribute reduction was a hot spot of knowledge discovery in information systems.It helped us to discover and simplify knowledge.There were many studies on attribute reduction using discernibility matrix.However,when the data dimension increased,the complexity of the algorithm also increased. Weighted Euclidean distance was used to define the binary relation and the discernibility ing the equivalence relationship between attribute reduction of a given information system and minimum vertex cover of a graph induced from this information system,the problem of solving reduction of discernibility matrix was transformed into the calculation of minimum vertex cover of the induced graph.Then a new al-gorithm of attribute reduction in Pythagorean fuzzy information system was proposed.Reduction algorithm based on the method of minimum vertex cover of Pythagorean fuzzy decision information system was con-structed by the same way.Then,the effectiveness of the proposed algorithms was demonstrated by exam-ples.Finally,the comparative analysis was given.Key words:Pythagorean fuzzy information system;attribute reduction;discernibility matrix;minimum vertex cover(责任编辑:方惠敏)。
数据预处理的主要流程

数据预处理的主要流程随着数据科学和人工智能的发展,数据处理逐渐成为了各个领域的重要环节。
而数据预处理作为数据处理的前置环节,其重要性更是不言而喻。
数据预处理是指在数据分析中对原始数据进行整理、清洗、转换和集成等一系列处理,以提高后续分析的准确性和可信度。
本文将介绍数据预处理的主要流程,以帮助读者更好地理解和应用数据预处理技术。
一、数据获取数据获取是数据预处理的第一步,也是最基础的步骤。
数据获取的方式有很多,例如从数据库中提取数据、从网络爬虫中抓取数据、从外部系统中导入数据等。
数据获取的关键是要保证数据的完整性和准确性。
在获取数据时,需要考虑数据的来源、数据的格式、数据的结构等因素,以便更好地进行后续的处理。
二、数据清洗数据清洗是数据预处理的核心环节,也是最复杂的环节。
数据清洗的目的是消除数据中存在的噪声、异常值和缺失值等不规则数据,从而提高数据的质量和可信度。
数据清洗的流程包括以下几个步骤: 1. 去除重复数据:如果数据集中存在重复数据,需要将其去重,以避免重复计算和分析。
2. 处理缺失值:数据中可能存在一些缺失值,需要进行处理。
处理缺失值的方法包括填充缺失值、删除缺失值等。
3. 处理异常值:数据中可能存在一些异常值,需要进行处理。
处理异常值的方法包括删除异常值、替换异常值等。
4. 处理噪声数据:数据集中可能存在一些噪声数据,需要进行处理。
处理噪声数据的方法包括平滑处理、滤波处理等。
三、数据转换数据转换是数据预处理的另一个重要环节,其目的是将数据转换为更适合分析的形式。
数据转换的流程包括以下几个步骤:1. 数据规范化:数据规范化是指将数据统一到同一个尺度上。
数据规范化的方法包括最小-最大规范化、Z-Score规范化等。
2. 数据离散化:数据离散化是指将连续数据转换为离散数据。
数据离散化的方法包括等频离散化、等宽离散化等。
3. 数据变换:数据变换是指对数据进行一定的数学变换,以便更好地进行分析。
数据变换的方法包括对数变换、平方根变换等。
信息系统属性增量约简算法的设计与实现

Al o ih s o n o ma i n S se g rt m n I f r t y t m o
Xi Fuc n M i Duo a a hu ao qi n Li Da g o uo ・
( eat n fC mp trS i c n nier go o  ̄ nvr t ,h n h i2 0 9 ) D p r to o ue c n e a d E g ei fT n iU i s y S a g a 0 0 2 me e n n ei
文章 编 号 1 0 — 3 1 ( 0 6 2 — 1 9 0 文 献 标 识 码 A 0 2 8 3一 20 )1 04 —4 中 图分 类 号 T 1 P8
Th sg n a ia i n 0 t i u e I c e n a d c i n e De i n a d Re l t0 f Atrb t n r me t l Re u t z o
agrh srsac ou n ices g ojc rm I.hspp ra a sste ca g grl o h o n eu t n lo tm eerh fcso nrai bet f ST i a e nl e h h ni ue fte cr a d rd c o i n s o y n e i
P S C vP S C 1 。 如 果 B C满 足 Vb∈ P S B) O ( ) s O ( —c ) B, O ( ≠
的 一 种 处 理 含 糊 和 不 精 确 问 题 【 一 种 新 型数 学 工 具 . 1 ] 的 目前 已
在 人 工 智 能 、 据 挖 掘 等领 域 得 到 广 泛 应 用 。P wa 数 al k指 出 机 器 学 习中 的 若 干 问 题都 可 以用 R uh S t理论 和方 法 来 解 释 、 og e 分
一种基于区分度的信息系统属性约简算法

软计算方法 , 近年来 , 该理论 已在信息系统分析、识别与分
类等方面取得较为成功的应用 。 知识约简是粗糙集理论的核心内容之一。是指 在保持信息系统的分类或决策能力不变 的条件下 , 删 除其 中的冗余属性 , 文献 [ ] 4 中建立 了信息系统区分 关 系与 区分 度 的概 念 。本 文通 过 引人 区分度 的概 念 ,
f r t n s s m. o ma o y t i e
Ke r s ru hst e u t no t b ts i e iit e e y wo d :o g e;rd ci fat ue ;ds r bl d g e o i r cn i y r
…
0 引 言
2 0世 纪 8 0年 代 初 , 兰 的 pwa 授 提 出 了 波 al k教 R uh理论 , 一 种新 型 的处理 模 糊 和不 精 确 知识 的 og 是
维普资讯
20 07年第 7期
文章编号 : 0 -4 5 20 )70 0 -2 1 627 (0 7 0 -0 1 0 0
计 算 机 与 现 代 化 J U N IY I N A H A I A J U XA D IU S
总第 13期 4
pe i f hsagrtm sa aye . ial ee p r na eut h w a ti gr h c nf dterd e fac mpeei— lxt o i lo h i n lzd Fn l t x e met rslss o t t hsa o tm a n h e u to o lt y t i yh i l h l i i n
核 属性 是所 有 约简 的交集 。
混合决策信息系统的模糊效用三支决策模型

㊀第52卷第1期郑州大学学报(理学版)Vol.52No.1㊀2020年3月J.Zhengzhou Univ.(Nat.Sci.Ed.)Mar.2020收稿日期:2019-04-23基金项目:国家自然科学基金项目(61572418,61572419,11801491);山东省自然科学基金项目(ZR2018BA004)㊂作者简介:岳文琦(1995 ),女,山东泰安人,硕士研究生,主要从事三支决策模型研究,E-mail:woshiyuewenqi@;通信作者:张楠(1979 ),男,山东烟台人,讲师,主要从事粗糙集㊁粒计算与人工智能模型研究,E-mail:zhangnan0851@㊂混合决策信息系统的模糊效用三支决策模型岳文琦1,2,㊀张㊀楠1,2,㊀童向荣1,2,㊀张中喜1,2(1.烟台大学计算机与控制工程学院㊀山东烟台264005;2.烟台大学数据科学与智能技术山东省高校重点实验室㊀山东烟台264005)摘要:在混合决策系统中提出模糊效用三支决策模型和两种启发式算法㊂在模糊效用三支决策模型中提出正域分布保持属性约简算法,扩展了效用三支决策模型的属性约简算法研究㊂首先结合混合距离概念与高斯核模糊T-等价关系,构造相应的模糊条件概率,然后使用效用函数为不同决策类生成概率阈值划分论域,最后提出最大效用启发式属性约简算法和正域分布保持的启发式属性约简算法㊂关键词:混合决策信息系统;三支决策模型;效用理论;模糊集中图分类号:TP181㊀㊀㊀㊀㊀文献标志码:A㊀㊀㊀㊀㊀文章编号:1671-6841(2020)01-0024-09DOI :10.13705/j.issn.1671-6841.20191300㊀引言三支决策模型[1-2]是Yao 等基于决策粗糙集理论模型并结合实际决策情况扩展的分类决策,相对于经典的粗糙集模型[3]提高了容错率,较二支决策更符合人们日常决策行为㊂三支决策模型已得到诸多学者的完善与发展[4-13],在数据挖掘㊁集成学习和信息处理等众多研究领域[14-17]得到广泛应用㊂文献[18]提出序贯三支决策模型的代价敏感分类方法㊂文献[19]提出了基于三角范数和三角余模的半三支决策空间到三支决策空间的转换方法㊂文献[20]提出基于行动的三支决策的有效性度量㊂文献[21]和文献[22]将期望效用理论引入三支决策模型,提出效用三支决策模型㊂三支决策模型中属性约简算法主要有代价敏感近似属性约简算法[23]㊁风险最小化属性约简算法[24]㊁正域最大化属性约简算法及定性和定量属性约简算法[25]㊂混合决策信息系统中存在实值型㊁布尔型和类别型等混合类型数据,现有的三支决策模型不能处理混合类型数据㊂本文提出的模糊效用三支决策模型补充了三支决策模型在处理混合类型数据方面的空缺㊂该模型在混合决策信息系统中使用混合距离函数[26]处理混合属性,用高斯核函数定义决策表属性集的模糊T-等价关系,然后构造相应的模糊条件概率,使用效用函数构造概率阈值划分论域㊂本文在模糊效用三支决策模型中提出正域分布保持和最大效用属性约简算法㊂正域分布保持属性约简算法以保证约简前后不改变决策表正域为约简目标,可以求出不改变所有决策类正域的约简;最大效用属性约简算法以追求决策者最大满意程度为约简目标,可求出比决策表属性集更大的约简㊂近似分类质量实验表明正域分布保持启发式算法属性约简前后不改变决策表正域㊂J48正确分类率对比实验表明本文提出的两种算法高于文献[21]和文献[24]算法分类正确率;算法运行时间实验比较三种不同决策态度中两种算法的运行效率;约简效用表明最大效用启发式算法可以在混合决策信息系统中找到比决策表属性集更大效用的约简㊂1㊀基本概念1.1㊀混合决策信息系统存在多种类型数据的信息系统或决策系统,称为混合决策信息系统㊂本节主要介绍混合决策信息系统㊀第1期岳文琦,等:混合决策信息系统的模糊效用三支决策模型和混合距离函数定义㊂混合决策信息系统HIS =(U ,AT =C ɣD ,V ,f ),其中:U 表示对象的集合;AT 表示属性的集合;C 表示混合条件属性的集合;D 表示决策属性集合;V 表示属性值的集合;f :U ˑAT ңV 是一个信息函数,是对象到混合属性值关系的映射㊂定义1[26]㊀给定混合决策信息系统HIS =(U ,AT =C ɣD ,V ,f ),C ={a 1,a 2, ,a n },n =C ,∀x ,y ɪU ,a (x ),a (y )ɪV ,混合距离函数HD (x ,y )定义为HD (x ,y )=ðni =1d 2(a i(x ),a i(y )),其中:d =VDM (a (x ),a (y ))=1U /D ðX i ɪU /D (a (x )ɘX i a (x )-a (y )ɘX i a (y ))2,a 是类别型属性;VDR (a (x ),a (y ))=a (x )-a (y )4δa ,a 是实值型属性,δa 是a 下所有属性值的标准差;VDB (a (x ),a (y ))=0,a (x )=a (y )1,a (x )ʂa (y ){,a 是布尔型属性㊂ìîíïïïïïïïïï定义2[27-29]㊀给定混合决策信息系统HIS =(U ,AT =C ɣD ,V ,f ),∀x ,y ɪU ,对于∀A ⊆C ,对象x 和y 之间的模糊关系用高斯核函数定义为μA (x ,y )=exp(-HD (x ,y )22σ2),μA (x ,y )反映了论域中的对象x 和y 对于属性集A 的隶属程度,σ2的值由专家经验给定㊂1.2㊀效用三支决策模型效用是决策者在决策活动中对于决策后果的偏好[30],假定决策者对备择选项带来的效用进行预期,则决策者的最终决策目标为最大化期望效用㊂给定状态集Ω={X ,X c },X 表示对象x 属于决策类,X c 表示对象x 不属于决策类,决策方案Aᶄ={αP ,αB ,αN },αP 表示判定对象x 属于正域,αB 表示判定对象x 属于边界域,αN 表示判定对象x 属于负域㊂在不同状态下采取不同的决策方案的效用值如表1[21]所示㊂表1㊀效用函数Table 1㊀The utility functionU /AᶄαP αB αN X u (λPP )u (λBP )u (λNP )X cu (λPN )u (λBN )u (λNN )2㊀模糊效用三支决策模型本节结合模糊概念和决策者的主观效用,提出一种新的模糊效用三支决策模型,在该模型中提出两个约简目标(最大效用和正域分布保持)㊂2.1㊀期望效用决策规则期望效用决策规则以追求决策者最大满意程度为决策目标,通过贝叶斯风险决策过程,获取决策规则,选取效用值最大的决策方案进行决策㊂定义3㊀给定混合决策信息系统HIS =(U ,AT =C ɣD ,V ,f ),∀x ,y ɪU ,∀A ⊆C ,模糊隶属度函数为μA (x ,y ),包含对象x 的模糊类定义为[x ]μA =ðy ɪUμA(x ,y )/y ㊂㊀㊀定义4㊀给定混合决策信息系统HIS =(U ,AT =C ɣD ,V ,f ),∀x ,y ɪU ,∀A ⊆C ,模糊隶属度函数为μA (x ,y ),U ={x 1,x 2, ,x |U|},决策类X ɪU /D ,混合信息系统下的模糊条件概率定义为52郑州大学学报(理学版)第52卷P (X [x ]μA )=ð|U |i =1(X ɘ[x ]μA)(x i )/ð|U |i =1[x ]μA (x i )㊂㊀㊀P (X [x ]μA )表示模糊T-等价类[x ]μA 被正确分类到X 中的概率,模糊类[x ]μA 关于X 的隶属度越高,x 被划分到X 中的概率越高;反之,模糊类[x ]μA 关于X 的隶属度越低,x 被划分到X 中的概率越低㊂决策者采取决策方案Aᶄ={αP ,αB ,αN }产生的期望效用为定义5㊂定义5㊀给定混合决策信息系统HIS =(U ,AT =C ɣD ,V ,f ),∀A ⊆C ,X ɪU /D ,模糊类为[x ]μA ,采取三种决策方案αP ㊁αB 和αN 的期望效用分别为Ψ(αP [x ]μA )=u (λPP )P (X [x ]μA )+u (λPN )P (X C [x ]μA ),Ψ(αB [x ]μA )=u (λBP )P (X [x ]μA )+u (λBN )P (X C [x ]μA ),Ψ(αN [x ]μA )=u (λNP )P (X [x ]μA )+u (λNN )P (X C [x ]μA )㊂根据最大期望效用贝叶斯决策准则,定义对象x 划分到正域㊁边界域和负域的决策规则如定义6㊂定义6㊀给定混合决策信息系统HIS =(U ,AT =C ɣD ,V ,f ),∀A ⊆C ,决策类X ɪU /D ,模糊类为[x ]μA ,对于∀x ɪU 决策规则为:1)若模糊条件概率满足P (X [x ]μA )ȡα,则判定x ɪPOS A (X );2)若模糊条件概率满足β<P (X [x ]μA )<α,则判定x ɪBND A (X );3)若模糊条件概率满足P (X [x ]μA )ɤβ,则判定x ɪNEG A (X )㊂现实生活中,决策者进行决策时,所有的决策结果产生的影响并不完全一致㊂信息系统中,决策表中不同决策类也存在差异㊂针对决策表中每个决策类生成不同的概率阈值,划分论域㊁正域㊁边界域和负域及全部效用为定义7㊂定义7㊀给定混合决策信息系统HIS =(U ,AT =C ɣD ,V ,f ),决策类集合U /D ={X 1,X 2, ,X m },m =U /D ,0ɤβ<αɤ1,对于∀A ⊆C ,∀X ⊆U /D ,对象x 划分到所有决策类X 的正域㊁边界域和负域产生的正域效用㊁边界域效用和负域效用分别表示为Utility POS A=ðmi =1ðx ɪPOS (αi ,βi)A(X i )P (X i [x ]μA )㊃u (λPP )+(1-(P (X i [x ]μA ))㊃u (λPN ),Utility BND A=ðmi =1ðx ɪBND (αi ,βi)A(X i )P (X i [x ]μA )㊃u (λBP )+(1-(P (X i [x ]μA ))㊃u (λBN ),UtilityNEG A=ðmi =1ðx ɪNEG(αi ,βi)A(X i )P (X i [x ]μA )㊃u (λNP )+(1-(P (X i [x ]μA ))㊃u (λNN )㊂㊀㊀属性集A 的全部效用Utility A :Utility A =Utility POS A +Utility BND A +Utility NEG A㊂2.2㊀正域分布保持定义信息量是一个事件所带来的具体信息的量度,本节主要内容为结合条件信息量[31]和正域分布保持[32]给出模糊效用三支决策模型下混合属性条件信息量的定义㊂定义8㊀给定混合决策信息系统HIS =(U ,AT =C ɣD ,V ,f ),决策类集合U /D ={X 1,X 2, ,X m },m =U /D ,0ɤβ<αɤ1,对于∀A ⊆C ,混合属性集A 的条件信息量定义为I (R POS (α,β)CA )=ðm +1i =1POS (αi ,βi )A(X i )ɘPOS (αi ,βi )C(X i )POS (αi ,βi )A(X i )㊃(1-POS (αi ,βi )A(X i )ɘPOS (αi ,βi )C(X i )POS (αi ,βi )A(X i )),其中:POS (αm +1,βm +1)A(X m +1)=U -ɣm j =1POS (αi ,βi )A(X i );POS (αm +1,βm +1)C(X m +1)=U -ɣm j =1POS (αi ,βi )C(X i )㊂由条件信息量的定义可得1)对于∀X ⊆U /D ,∀A ⊆C ,若POS (α,β)A (X )=POS (α,β)C (X ),则称A 为混合决策信息系统的(α,β)正域分布保持集㊂2)若POS (α,β)A (X )=POS (α,β)C (X )且对于∀Aᶄ⊂A ,都有POS (α,β)Aᶄ(X )ʂPOS (α,β)C(X ),则称A 为混合系统的(α,β)正域分布保持约简㊂62㊀第1期岳文琦,等:混合决策信息系统的模糊效用三支决策模型3)当A是混合系统的正域分布保持约简时,I(R POS(α,β)C A)=0;当A不是混合系统的正域分布保持约简时,I(RPOS(α,β)CA)>0㊂3㊀混合模糊效用三支决策模型属性约简算法3.1㊀算法介绍本节中两个约简目标(最大效用和正域分布保持)均采用前向贪婪循环算法进行属性约简㊂定义9㊀给定混合决策信息系统HIS=(U,AT=CɣD,V,f),且A⊆C,当且仅当A满足以下两个条件时,A是C的一个最大效用属性约简㊂1)Utility AȡUtility C;2)对于∀Aᶄ⊂A,Utility Aᶄ<Utility A㊂定义10㊀给定混合决策信息系统HIS=(U,AT=CɣD,V,f),A⊆C,a iɪC-A,最大效用启发式属性约简算法的外部属性重要度为Sig outUtility(A,a i)=Utility Aɣ{a i}-Utility A㊂㊀㊀定义11㊀给定混合决策信息系统HIS=(U,AT=CɣD,V,f),A⊆C,0ɤβ<αɤ1,当且仅当A满足以下两个条件时,A是C的一个正域分布保持属性约简㊂1)I(R POS(α,β)C A)=0;2)对于∀Aᶄ⊂A,I(R POS(α,β)C Aᶄ)>0㊂定义12㊀给定混合决策信息系统HIS=(U,AT=CɣD,V,f),A⊆C,a iɪC-A,正域分布保持启发式属性约简算法中的外部属性重要度为Sig outPOS(A,a i)=I(R POS(α,β)C Aɣ{a i})-I(R POS(α,β)C A)㊂㊀㊀构造混合决策信息系统中的最大效用启发式属性约简算法(forward greedy algorithm of maximal utility at-tribute reduction,FG-MUAR),算法如下㊂算法1㊀最大效用属性约简算法输入:混合决策信息表HIS=(U,AT=CɣD,V,f)㊂输出:决策表的一个约简A㊂A=∅㊂计算决策表所有属性集效用Utility C㊂若Utility A<Utility C,开始循环:㊀对于∀a iɪC-A计算Sig out Utility(A,a i);㊀选择Sig out Utility(A,a i)最大的属性,记作a,A=Aɣ{a}㊂C=C-{a};㊀若不满足条件则结束循环㊂对于∀a iɪA,若满足条件Utility A-{a i}ȡUtility A,则A=A-{a i}㊂输出约简A㊂构造混合决策信息系统中的正域分布保持属性约简算法(forward greedy algorithm of positive region distri-bution preservation,FG-PRAR),算法如下㊂算法2㊀正域分布保持属性约简算法输入:混合决策信息表HIS=(U,AT=CɣD,V,f)㊂输出:决策表的一个约简A㊂Core(C)=∅㊂对于∀c iɪC若I(R POS(α,β)C C-{c i})>0,Core(C)=Core(C)ɣ{c i}㊂A=Core(C)㊂若I(RPOS(α,β)C A)ʂ0且Cʂ∅,开始循环:7282郑州大学学报(理学版)第52卷㊀对于∀a iɪC-A,计算Sig out POS(A,a i);㊀选择Sig out POS(A,a i)最大的属性,记作a㊂A=Aɣ{a},C=C-{a};㊀若不满足条件,则结束循环㊂对于∀a iɪA,若满足条件I(R POS(α,β)C A-{a i})=0,则A=A-{a i}㊂输出约简A㊂4㊀实验分析本节实验采用6个UCI数据集(取自/ml/index.php)进行实验,数据集均带有分类属性㊂所有实验均在Windows7㊁CPU Intel Core TM i5-6500㊁8.00GB内存的个人计算机上进行,所用编程环境为Python3.6㊂实验分为算法运行时间和实验对比表(近似分类质量㊁J48分类正确率㊁约简效用)两个部分㊂使用函数式u(λΔ)=d(-λΔ+c)b(Δɪ{PP,BP,NP,NN,BN,PN})[30]作为效用函数式,给定参数取值范围dɪ[1,10],cɪ[1,10],λɪ[0,10]㊂表2㊀实验数据集Table2㊀Experimental data sets序号数据集决策类属性特征属性数对象数1fertility2实值型91002liver disorders2整型,实值性73453Tic-Tac-Toe2整型99584abalone2整型,实值性841775E.coli6实值型83366contraceptive-method-choice3整型91473 4.1㊀实验对比表本文提出的FG-PRAR算法与FG-MUAR算法原始数据和属性约简后的近似分类质量[3]如表3所示㊂表3㊀近似分类质量Table3㊀Approximate classification quality数据集FG-PRAR原始数据FG-PRAR FG-MUAR原始数据FG-MUAR fertility110.6500.650liver disorders0.9820.9820.9560.926Tic-Tac-Toe0.9400.94011abalone0.4130.4130.4190.331E.coli0.8890.88900contraceptive-method-choice0.9060.9060.8770.793㊀㊀FG-PRAR原始数据表示FG-PRAR算法中决策表的近似分类质量㊂FG-MUAR原始数据表示FG-MUAR 算法中决策表的近似分类质量㊂FG-PRAR算法可以保持所有决策类的正域不变,因此FG-PRAR约简与FG-PRAR原始数据的近似分类质量数值相同㊂FG-MUAR约简与FG-MUAR原始数据对比,近似分类质量发生改变,原因是FG-MUAR约简前后会引起决策表正域的改变㊂近似分类质量数值为0是由于随机产生的概率阈值过大,因此划分出的决策表正域为空集㊂近似分类质量数值为1是由于随机产生的概率阈值过小,导致论域中所有对象均被划分到决策表正域㊂使用Weka软件中J48分类器并采用十折交叉验证法验证决策表的4种算法属性约简后的J48分类正确率㊂本次实验使用10次随机产生的概率阈值,其平均分类正确率如表4所示㊂原始数据表示决策表的J48分类正确率㊂表4中本文所提出的FG-PRAR算法属性约简结果的分类正确率在多数情况下可以大于等于原始数据的分类正确率㊂本文所提出的FG-PRAR算法的正确分类率均大92㊀第1期岳文琦,等:混合决策信息系统的模糊效用三支决策模型㊀㊀表4㊀J48分类正确率Table4㊀Classification accuracy comparision with J48数据集J48分类正确率FG-PRAR FG-MUAR MAXEU MINDC fertility0.8500.8800.8800.8800.880 liver disorders0.3930.4150.4000.3720.372 Tic-Tac-Toe0.8500.7840.7760.6530.715 abalone0.7510.7450.7540.7370.632 E.coli0.8420.8420.7940.6810.663 contraceptive-method-choice0.4120.4190.4130.3320.261于文献[21]中最大期望效用算法(maximum expect utility,MAXEU)和文献[24]中最小决策损失算法(mini-mum decision cost,MINDC)的正确分类率,存在两种原因:1)MAXEU算法和MINDC算法缺乏处理离散型数据和混合数据的能力,所以要在属性约简前对数据进行预处理,会对数据造成一定的损失,最终对数据的分类正确率造成一定的影响;2)MAXEU算法和MINDC算法均未考虑到决策表中不同决策类的差异,没有为每个决策类生成不同的概率阈值,而是统一采用一致的阈值划分论域,因此这两种算法在6个数据集上的分类正确率均低于本文提出的FG-PRAR和FG-MUAR算法分类正确率㊂FG-MUAR算法保证属性约简后不降低原始决策表的效用,约简应该具有比原始决策表更高或者相等的效用,据决策者对待风险的三种主观态度,可以将效用函数分为:当b=1时,效用函数为风险中立型(RN);当b>1时,效用函数为风险厌恶型(RA);当b<1时,效用函数为风险喜好型(RP)㊂FG-MUAR算法在三种风险态度下约简结果的效用值如表5所示㊂表5㊀约简效用Table5㊀The utility of decision table and reduct数据集RP决策表RP RN决策表RN RA决策表RA fertility67.23167.24468.49168.53480.13280.211 liver disorders283.277286.972286.915290.846285.114291.040 Tic-Tac-Toe535.227535.262549.951549.973535.220535.244 abalone1585.6631617.7311629.3821634.8041633.6211647.252 E.coli263.853269.039209.712267.125224.333285.026 contraceptive-method-choice578.634583.541556.091578.256548.727560.190㊀㊀在三种风险态度下使用的效用函数参数不同,因此三种风险态度下的决策表效用不同㊂FG-MUAR算法的目标即为使决策者的效用值最大化,由表5可以得知,FG-MUAR算法在6个数据集中约简结果的总效用值均大于原始决策表的总效用值,因此约简结果有效㊂对比三种决策态度中约简结果的效用值相差较小,表明三种不同决策态度中决策者对待决策结果的满意程度基本一致㊂4.2㊀算法运行时间不同决策者对待风险的决策态度不同,在决策过程中的决策行为也不完全相同㊂为分析两种算法在三种不同决策态度中的决策效率,比较FG-PRAR和FG-MUAP两种算法在决策者不同决策态度中随着论域变化的运行时间㊂图1和图2实验采取的方式是将每个数据集的论域数目均等分成十份,依次加入一份样本,比较加入样本后FG-PRAR算法在三种决策态度中的运行时间,x轴表示样本份数,y轴表示算法运行时间㊂由图1可知,随着样本数的增加,三种决策态度中FG-PRAR算法运行时间基本一致,图1中数据集(b)㊁(d)随着样本数的增加,风险中立型的算法运行时间没有严格单调递增,是因为不同样本下使用不同的概率阈值划分的正域可能不同,当前样本数使用的随机概率阈值划分出的正域比前一份样本数使用的概率阈值划分出的正域较小,因此算法运行时间略有下降㊂本文提出的FG-PRAR算法是保持约简结果正域与决策表正域一致㊂总体来看,不同决策态度对于FG-PRAR算法运行时间影响较小㊂对于FG-MUAR算法,三种决策态度中样本数与算法运行时间的关系如图2所示㊂由图2可知,在决策者不同决策态度中,随着论域的增加,运行时间曲线的变化并不完全一致,不同决策态度对于FG-MUAR算法运行时间略有影响㊂FG-MUAR算法计算正域㊁负域和边界域的全部效用,相对于郑州大学学报(理学版)第52卷图1㊀FG-PRAR 算法随论域数目增加运行时间的变化Figure 1㊀The running time of the FG-PRAR algorithm increases with the sizes of theuniverse图2㊀FG-MUAR 算法随论域数目增加运行时间的变化Figure 2㊀The running time of the FG-MUAR algorithm increases with the sizes of the universeFG-PRAR 算法的运行时间更长㊂图2数据集(b)㊁(c)㊁(e)中的三种不同风险态度曲线随着论域数目增加,并不是严格单调递增,这是由于随着样本数的增加,每个属性的模糊T-等价关系表也随之变化,由此计算的模糊条件概率可能增加㊁不变或减少,从而引起效用值的变化,最终影响FG-MUAR 算法的运行时间㊂在现实生活中,决策者的心理满足程度也可能随着时间的变化或者事件的改变而发生变化,图2曲线的不单调变化更贴合实际生活中决策者的决策情况㊂5㊀结束语在混合决策信息系统中,本文结合模糊和效用提出一种新的模糊效用三支决策模型,提高了三支决策模型处理混合数据的能力㊂本文在该模型中提出正域分布保持和最大效用启发式属性约简算法,实验表明了两种算法的有效性㊂然而效用函数在决策表属性约简过程中并不具有单调性,两种算法仍需遍历删除冗余属性求313㊀第1期岳文琦,等:混合决策信息系统的模糊效用三支决策模型解约简,寻找三支决策模型中主观效用与客观数据结合的单调启发式因子是后续所要研究的主要内容㊂参考文献:[1]㊀YAO Y Y.Three-way decision:an interpretation of rules in rough set theory[C]//Proceedings of the4th International Confer-ence on Rough Sets and Knowledge Technology.Golden Coast,2009:642-649.[2]㊀YAO Y Y.Three-way decisions with probabilistic rough sets[J].Information sciences,2010,180(3):341-353.[3]㊀PAWLAK Z.Rough sets[J].International journal of computer&information sciences,1982,11(5):341-356.[4]㊀米据生,吴伟志,张文修.粗糙集的构造与公理化方法[J].模式识别与人工智能,2002,15(3):280-284.MI J S,WU W Z,ZHANG W X.Constructive and axiomatic approaches of the theory of rough sets[J].Pattern recognition and artificial intelligence,2002,15(3):280-284.[5]㊀梁德翠,曹雯.三支决策模型及其研究现状分析[J].电子科技大学学报(社科版),2019,21(1):104-112.LIANG D C,CAO W.Three-way decisions:model and the state of the art[J].Journal of university of electronic science and technology of China(social sciences edition),2019,21(1):104-112.[6]㊀李言,李丽红,李爽,等.基于集对联系熵的三支决策模型及应用[J].郑州大学学报(理学版),2017,49(3):52-58.LI Y,LI L H,LI S,et al.Three-way decisions model and application based on set pair information entropy[J].Journal of Zhengzhou university(natural science edition),2017,49(3):52-58.[7]㊀张春英,乔鹏,王立亚,等.一种基于PS-粗糙集的动态三支决策算法[J].郑州大学学报(理学版),2019,51(2):72-77.ZHANG C Y,QIAO P,WANG L Y,et al.A kind of dynamic three-way decisions algorithm based on PS-rough set[J].Jour-nal of Zhengzhou university(natural science edition),2019,51(2):72-77.[8]㊀钱进.多粒度决策粗糙集模型研究[J].郑州大学学报(理学版),2018,50(1):33-38.QIAN J.Research on multigranulation decision-theoretic rough set models[J].Journal of Zhengzhou university(natural science edition),2018,50(1):33-38.[9]㊀QIAN Y H,ZHANG H,SANG Y L,et al.Multigranulation decision-theoretic rough sets[J].International journal of approxi-mate reasoning,2014,55(1):225-237.[10]李金海,邓硕.概念格与三支决策及其研究展望[J].西北大学学报(自然科学版),2017,47(3):321-329.LI J H,DENG S.Concept lattice,three-way decisions and their research outlooks[J].Journal of northwest university(natural science edition),2017,47(3):321-329.[11]LIU D,LIANG D C.Three-way decisions in ordered decision system[J].Knowledge-based systems,2017,137:182-195.[12]王莉,周献中,李华雄.模糊决策粗糙集模型及其属性约简[J].上海交通大学学报,2013,47(7):1032-1035.WANG L,ZHOU X Z,LI H X.Fuzzy decision-theoretic rough set model and its attribute reduction[J].Journal of Shanghai jiaotong university,2013,47(7):1032-1035.[13]SONG J J,TSANG E C C,CHEN D G,et al.Minimal decision cost reduct in fuzzy decision-theoretic rough set model[J].Knowledge-based systems,2017,126:104-112.[14]LUO C,LI T R,HUANG Y Y,et al.Updating three-way decisions in incomplete multi-scale information systems[J].Informa-tion sciences,2019,476:274-289.[15]QIAN J,LIU C H,YUE X D.Multigranulation sequential three-way decisions based on multiple thresholds[J].Internationaljournal of approximate reasoning,2019,105:396-416.[16]CHEN H M,LI T R,LUO C,et al.A decision-theoretic rough set approach for dynamic data mining[J].IEEE transactions onfuzzy systems,2015,23(6):1958-1970.[17]LI W W,HUANG Z Q,LI Q.Three-way decisions based software defect prediction[J].Knowledge-based systems,2016,91:263-274.[18]LI H X,ZHANG L B,HUANG B,et al.Sequential three-way decision and granulation for cost-sensitive face recognition[J].Knowledge-based systems,2016,91:241-251.[19]QIAO J S,HU B Q.On transformations from semi-three-way decision spaces to three-way decision spaces based on triangularnorms and triangular conorms[J].Information sciences,2018,432:22-51.[20]JIANG C M,YAO Y Y.Effectiveness measures in movement-based three-way decisions[J].Knowledge-based systems,2018,160:136-143.[21]张楠,姜丽丽,岳晓冬,等.效用三支决策模型[J].智能系统学报,2016,11(4):459-468.23郑州大学学报(理学版)第52卷ZHANG N,JIANG L L,YUE X D,et al.Utility-based three-way decisions model[J].CAAI transactions on intelligent sys-tems,2016,11(4):459-468.[23]FANG Y,MIN F.Cost-sensitive approximate attribute reduction with three-way decisions[J].International journal of approxi-mate reasoning,2019,104:148-165.[24]JIA X Y,LIAO W H,TANG Z M,et al.Minimum cost attribute reduction in decision-theoretic rough set models[J].Informa-tion sciences,2013,219(10):151-167.[25]ZHAO Y,WONG S K M,YAO Y Y.A note on attribute reduction in the decision-theoretic rough set model[C]//Proceedingsof the6th International Conference on Rough Sets and Current Trends in Computing.Akron,2008:61-70.[26]ZENG A P,LI T R,LIU D,et al.A fuzzy rough set approach for incremental feature selection on hybrid information systems[J].Fuzzy sets and systems,2015,258:39-60.[27]WILSON D,MARTINEZ T.Improved heterogeneous distance functions[J].Journal of artificial intelligence research,1997,6:1-34.[28]MOSER B.On representing and generating kernels by fuzzy equivalence relations[J].Journal of machine learning research,2006,7:2603-2620.[29]HU Q H,ZHANG L,CHEN D G,et al.Gaussian kernel based fuzzy rough sets:model,uncertainty measures and applications[J].International journal of approximate reasoning,2010,51(4):453-471.[30]袁捷敏.决策效用函数两类拟合方法比较[J].统计与决策,2006(1):49-50.YUAN J parison of two kinds of fitting methods for decision utility function[J].Statistics&decision,2006(1):49-50.[31]刘振华,刘三阳,王珏.基于信息量的一种属性约简算法[J].西安电子科技大学学报,2003,30(6):835-838.LIU Z H,LIU S Y,WANG J.An attribute reduction algorithm based on the information quantity[J].Journal of xidian universi-ty,2003,30(6):835-838.[32]马希骜,王国胤,于洪.决策域分布保持的启发式属性约简方法[J].软件学报,2014,25(8):1761-1780.MA X A,WANG G Y,YU H.Heuristic method to attribute reduction for decision region distribution preservation[J].Journal of software,2014,25(8):1761-1780.Fuzzy Utility Three-way Decisions Model in Hybrid DecisionInformation SystemsYUE Wenqi1,2,ZHANG Nan1,2,TONG Xiangrong1,2,ZHANG Zhongxi1,2(1.School of Computer and Control Engineering,Yantai University,Yantai264005,China;2.Key Lab for Data Science and Intelligence Technology of Shandong Higher Education Institutes,Yantai University,Yantai264005,China)Abstract:The existing utility-based three-way decisions models cannot process the hybrid data and retain preserve positive region unchanged.An attribute reduction algorithm for positive region distribution pres-ervation was proposed in a fuzzy utility three-way decisions model,which was regarded as an extension work of attribute reduction for utility three-way decisions.Firstly,based on the hybrid distance concept and Gaussian kernel fuzzy T-equivalence relation,the fuzzy conditional probability was constructed.Sec-ondly,the universe was divided by the probability threshold,which was calculated by the utility func-tion.Finally,heuristic attribute reduction algorithms for positive region distribution preservation and the maximal utility were proposed.Key words:hybrid decision information systems;three-way decisions model;utility theory;fuzzy sets(责任编辑:王浩毅)。
一种基于信息熵加权的属性约简算法

一种基于信息熵加权的属性约简算法
罗帆;蒋瑜
【期刊名称】《计算机应用研究》
【年(卷),期】2024(41)4
【摘要】针对现有邻域粗糙集模型中存在属性权重都相同,无法保证关键属性在属性约简时能够被保留的问题,提出了一种基于信息熵加权的属性约简算法。
首先,采用了类间熵、类内熵策略,以最大化类间熵最小化类内熵为原则给属性赋予权重;其次,构造了基于加权邻域关系的加权邻域粗糙集模型;最后,基于依赖关系评估属性子集的重要性,从而实现属性约简。
在基于UCI数据集上与其他三种属性约简算法进行对比实验,结果表明,该算法能够有效去除冗余,提高分类精度。
【总页数】5页(P1047-1051)
【作者】罗帆;蒋瑜
【作者单位】成都信息工程大学软件工程学院
【正文语种】中文
【中图分类】TP18
【相关文献】
1.基于距离加权模板约简和属性信息熵的增量SVM入侵检测算法
2.基于信息熵的一种属性约简算法
3.一种基于信息熵的混合数据属性加权聚类算法
4.一种基于条件信息熵的多目标代价敏感属性约简算法的研究
5.一种基于信息熵的信息系统属性约简算法
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文 章 编 号 :0 6— 44 2 1 )4— 3 3— 4 10 0 6 ( 00 0 0 9 0
混 合 信 息 系统 属 性 约 简
谢 霖 铨 , 宏 标 梅
(.江西理工大 学 理 学院 , 1 江西 赣 州 3 10 ;.北京科技 大学 经 济管理学院 , 4002 北京 10 8 ) 0 0 3
c
不 同 的方 法从 不 同 的角度 对 知识 约简 做 了深 入 的研
究 , 取得 了很 多 成果 并 。
-0 } 厂 ) (
() 1
通 过 id R)可 以将 划分 为若 干 个等 价类 , n( 等
价 类 中 的每一个 元 素在 属 性集 尺的每一 个属 性 上取 值相同。 设 R C, O id D) 是所 有包 含在 U D的 P S (n ( ) /
第 3 第 4期 4卷 21 0 0年 8月
南 昌大 学学 报 ( 科版 ) 理
Ju a o ac agU iesy N trl c ne o r l f nh n nvrt( aua Si c ) n N i e
Vo . 4 No 4 13 . Aug 2 0 . 01
摘
要: 将属性分为基 于等价关系 的离散属性及 基于优势关 系 的连续 属性 , 用 { } 利 o 划分 及正 域方法 对系 统属
性进行约 简并 提取规则 , 选用 U I C 中的 6个数据集验证 了方 法的有效性 。 关键 词 : 粗糙集 ; 混合信息系统 ; 属性约简 ; 等价关系 ; 优势关系
集理 论是 一种 处 理不 精 确 、 完备 数 据 的数 学工具 。 不 其 主要 思想 就是 在 保 持 分 类 能 力 不 变 的 前 提 下 , 通 过知 识 约简 , 出 问题 的决 策 或 规 则 u 。 已被 成 功 导 J 的应 用 于人 工智 能 、 数据 挖掘 、 式识 别 与智 能信 息 模
定 义 2 最小 约简 ) 若 P S ( ( O D)=P D) OS ( , 且对 Vr∈ R, 有 P S ( 都 O R D)≠ P S 一 l D) 称 R O /( , r
信息丢失 , 而建立基 于优 势关 系的信息 系统有助于 处 理连 续属 性 和偏 序 关 系 的 问题 , 不 少 学 者 对 这 有 问题 进行 了大 量 的研 究 J在 对 基 于 优 势 关 系 ,
识越 丰 富 , 息越 充分 。 信
知识 约简 是 数 据 挖 掘 的一 个 重 要课 题 , 是粗 也 糙集 理论 的核 心 问题 之 一 。 在信 息 系统 中 , 述 知 描 识 的属性 并不 是 同等 重要 的 , 的属 性 对 决 策 不会 有
{ 一,Ⅳ , = { 一,M , UI “ M }C c c } I =N, CI l =
经典 粗糙 集是 以完 备 信 息 系 统 为研 究 对 象 , 以等 价 关 系 ( 足 自反性 、 称性 、 递 性 ) 基 础 , 过 等 满 对 传 为 通
1 基 本 概 念
信息 系统 s可 以表 示 为 S = ( C, U, D,
=
, U
价关 系对论域分成互不相交的等价类 , 划分越细 , 知
中 图分 类 号 : 19 0 5 文 献 标 志 码 : A
由波 兰科学 家 Z P w a . a L k于 1 8 9 2年 创立 的粗 糙
是其 粒 度太 大 , 易 使核 属性 太少 , 时会 把一 些 重 容 有
要 的规则 丢失 。本 文 在 以 上研 究 的基 础 上 , 过将 通
在 Pwa alk近似 空 间下 的信 息 系 统 , 个 条 件属 每
性集 和 目标 属 性集 决 定 了 一个 二 元 不 可 区分 关 系 ,
即等 价关 系 。要定 义 论 域 上 的等 价 关 系 , 属性 值 必
须是离散的。但是 , 在实际问题 中属性 值 由于各种 原 因 ( 噪声 、 息 缺 损 等 ) 基 于 优 势 关 系 的 , 如 信 是 其
。
其 中 是 对象 的集 合 , 也称 为 论域 , 条件 属性 c是
集 合 , 是决 策属 性 集 合 , 是 属 性 值 的集合 : × D U
Cu D— 是一 个 信息 函数 , 指定 中每 一个 对象 它
在 每一 个 属性 上 的属 性值 。 先 回顾一 些基 本 概念 。 首 定 义 1 无 差别 关 系 ) 对 于信息 系统 5 ( , u D, 差别 关 系定 义为 : 无
一
是 J 一 个 约 简 , s的 所 有 约 简 为 R d. ; s的 记 e ( ) s R d5 e ( )中属 性数 目最少 的约简称 为 s的最小 约 简 。 定 义 3 核 属 性 ) s的所 有 约 简 的交 集 称 为 s ( 的核 集 , 核集 中的元 素称 为 s的核属 性 。
处理 等 领域 , 越 来 越 引 起 了 国际 学 术 界 的关 注 。 并
属性集 分 为 连续 属 性 集 及 离散 属性 集 , 等 价关 系 在 和优 势关 系下 对 属性 进行 约 简 , 提 取相应 的规划 。 并 实验证 明 , 种方 法 可 以得 出 的更 为 精确 的规 则 。 这
id )= { ,) ∈ U×U lV口 ∈R√ , ) n( ( 口 0
=Hale Waihona Puke 产生 太 大 的影 响 , 的甚 至是 冗 余 的 。把 这 些 影 响 有 不大 的或 冗余 的属 性 删 除 , 保 持 知 识 库 的分 类 不 且
受影 响 的过程 就 是 知 识 约 简 。 目前 , 多 学 者 通 过 许
中部 分具 有偏 序 关 系 , 分 具 有 等 价 关 系 。传 统粗 部 糙 集 方法 这类 信 息 系 统 时 先 将 其 离 散 化 _ , 致 6 导 一
某 等价 类 中 的 U R 的 等 价类 的并 集 , P D) / 记 OS ( , 为 表 明它是 属 于信 息 系统 s的 , P S ( 。 记 O s D)