属性约简

属性约简
属性约简

粗糙集的研究对象是一个数据集,数据集一般被保存为数据表格形式,即数据库或信息系统。信息系统的形式是由研究对象和属性值关系构成的二维数据表,类似于基础数学中的关系数据库。信息系统实现了粗糙集模型的知识表示。

定义 2.1.1[46] 设(,,,)S U A V f =为一个数据库,即信息系统,也称为知识表示系统。其中12{,}U U x x x = 为一个非空的有限对象集,12{,,}A A a a a = 是属性的有限非空集合,a V V =?,a A ∈,a V 为属性a 的值域;定义信息函数

:U V c a f A ?→ .

例如表2.1.1是一个信息系统,其中12345{,,,,}U x x x x x =,

1234{,,,}A a a a a =,123a a a V V V ==={0,1},4a V ={0,1,2}.

表2.1.1 信息系统

定义2.1.2[46] 对于a A ?∈,x U ?∈,(,)a f x a V ∈,对于P A ??≠?,定义:{(,):(,)(,),}I x y U U f x q f y q q P =∈?=?∈,

I U 称为上的不可分辨关系。

(1)若(,)x y I ∈,则称:x y 和是不可分辨的。 (2)不可分辨关系是等价关系,具有:

自反性:xIx ; 对称性:xIy yIx ?;

传递性:,xIy yIz xIz ? .

(3) I 是U 上的一个等价关系,[]{,}I x y y U xIy =∈,

12{[]}{,}I k U I x x U X X X =∈= ,12,k X X X 称为U 关于I 的一个划分。

(4)P I ?≠?,1,2I I I ∈, 112{,}k U I X X X = ,212{,}l U I Y Y Y = ,

12{,1,2,1,2}i j U I I X Y i k j l ?=?== ,()I P

ind P I P ∈== ,

则称:()ind P U 是上的一个等价关系,称为P 上的不可区分关系。

()[][]ind P I I P

x x ∈= 称为P 的基本知识。

当12()()ind I ind I ?,称1,I 比2I 细,21I I .

1.1.1粗糙集与近似

定义2.1.3[46] X U ?,I 是U 上的一个等价关系,12{,}k U I X X X = ,若存在1i X ,2i X j i X U I ∈,.st X =1

t

j

i t X

= ,称X 是关于I 的精确集。否

则称X 是I 的粗糙集。

定义 2.1.4[46] 给定一个知识系统(,,,)S U A V f =,D A ?,X U ?,

x U ∈,集合X 关于D 的下近似,上近似,负区域及边界区域分别为:

下近似:()D apr X DX ={:()}x U D x X =

∈? {,}Y U D Y X =∈? {[][],}D D x x X x U =?∈ ;

上近似: ()D apr X =DX =

{:()}x U D x X ∈?≠?

{,}Y U D Y X =∈?≠? {[][],}D D x x X x U =?≠?∈ ;

负区域:()D neg X =()D U apr X -=

{:()}x U D x X ∈?=? ;

边界区域:()D bnd X =()D apr X ()D apr X -DX =DX -.

下近似是肯定属于某一子集的对象的集合,上近似是可能属于某一子集的对象的集合。

定义 2.1.5[46]给定一个知识系统(,,,)S U A V f =令12{,}n X X X Γ= 为论域U 的知识,其中

(1,2,)i X i n = 是Γ的第i 个类别,P A ?,

则定义: 1

1

()

()()

n

P

i

i P n

P

i

i apr X apr X α==Γ=

∑∑为知识Γ的近似精度,

1

()

()n

P

i

i P apr X U

γ=Γ=

∑定义为知识Γ的近似分类质量。

()P γΓ度量了知识Γ对于属性集P 的依赖程度。当()P γΓ=0,则说明知识Γ

完全不依赖于属性集P ,即属性集P 对知识Γ完全没有影响;当0<()P γΓ<1,则说明知识Γ在()P γΓ数值的程度上依赖于属性集P ,即属性集P 对知识Γ影响是有限的,或者数据集本身具有自身矛盾性等其他缺陷;当()P γΓ=1,则说明知识Γ100%依赖于属性集P ,即知识Γ完全取决于属性集P .

在粗糙集信息系统中,设R 是一个等价关系簇,I R ∈,如果

{{}}{}ind R I ind R -=,则称I 在等价关系簇R 中是不必要的。否则称I 在等

价关系簇R 中是必要的。若R 中的每一个等价关系I 都是必要的,则称R 是独立的。知识约简就是在知识库分类能力保持不变的情况下,删除不相关的冗余属性。

定义2.1.6[46] 对于信息系统(,,,)S U A V f =,若对于属性子集B A ?中每一个属性在B 中都是必要的,则称B 是独立的;若在属性子集B A ?中,存在

某一属性在B 中是不必要的,则称B 是相依的。

定义2.1.7 若D B ?,满足下面两个条件: (1) D 是独立的。 (2) ()()ind D ind B =

则称D 是B 的一个约简。记为:()D Red B ∈。B 中所有的必要关系组成的集合,称为B 的核,记为:()Core B 。即:()()Core B Red B = 。核是信息系

统中的核心属性集,是所有约简的公共部分。

例如:(,)K U =I ,128{,}U x x x = ,

114528367{{,,},{,},{},{,}}U I x x x x x x x x =, 213562478{{,,},{},{,,,}}U I x x x x x x x x =, 315627834{{,},{},{,,},{,}}U I x x x x x x x x =,

求:123{,,}I I I 的约简和核。

解:1215428367{,}{{,},{},{,},{},{},{}}U I I x x x x x x x x =

12315628743{,,}{{,},{},{,},{},{},{}}U I I I x x x x x x x x =

因为 12123{,}{,,}U I I U I I I =, 所以

12{,}I I 是123{,,}I I I 的一个约简。

1315428367{,}{{,},{},{,},{},{},{}}U I I x x x x x x x x =123{,,}U I I I =

所以

13{,}I I 也是123{,,}I I I 的一个约简。

2315362784{,}{{,},{},{},{,,},{}}U I I x x x x x x x x =≠123{,,}U I I I

所以

23{,}I I 不是123{,,}I I I 的约简。

综上所述:1231213{,,}{{,},{,}}Red I I I I I I I =,

1231{,,}{}Core I I I I =.

定义2.1.8[46] 设P 和Q 是U 中的两个等价关系,Q 的P 正域定义为:

()P X U Q

Pos Q PX ∈=

。若I P ∈,{}()()P I P Pos Q Pos Q -=,则称等价关系I 是P

中关于Q 是不必要的,或称I 是P 中Q 不必要的,否则称I 是P 中Q 必要的;若P 中每一个等价关系都是Q 必要的,则称P 是Q 独立的,否则称P 是Q 依赖的。

记:()P Pos Q k U

=

表示Q 依赖于P 的程度。(一般01k ≤≤)。

定义2.1.9[46] 若S P ?,如果S 满足以下两个条件: (1) S 是Q 独立的

(2) 满足式子:()()S P Pos Q Pos Q = 则称S 是P 的一个Q 约简,记为:()Q S Red P ∈

()()Q Q Core P Red P = 称为P 的Q 核。

定义2.2.1[46] 信息系统(,,,)S U A V f =可以用一般表来表示,称为信息表,

例如表2.1.1。信息表中每一个属性是一个等价关系。若A C D =?,

C D φ?=,C 是条件属性集,D 是决策属性集,此时的信息表称为决策表。例如表2.2.1是

一个判断感冒信息决策表。

表2.2.1 决策表

U ︱症状 头痛 肌肉痛 体温 感冒 病人1 是 是 正常 是 病人2 是 是 高 是 病人3 否 是 很高 是 病人4

否 正常

对于一个决策表,设P 和Q 是U 中的两个等价关系,对于Q 依赖于P 的程

度k ,如果k = 1,称这样的决策表为一致决策表,如果0 k << 1,称这样的决策表为不一致决策表;如果k = 0称这样的决策表为完全不一致决策表。不一致决策表,直观的说,就是决策表中至少存在两个个体,在所有的条件属性均对应相同时,其决策属性是不同的。

决策表的属性约简,一般是针对条件属性的约简。即寻找最小的条件属性子集P ,.st P C A ??,()()P C X X γγ=.

属性约简是粗糙集理论的重要研究方向,对于分类对象在实际问题中,最终构建一系列规则下的模型具有重要的作用。在各国各领域学者的努力下,已经得知属性约简是NP 难问题,如何在较短的时间里找出最佳约简或次佳约简,是人们关注的热点之一。目前,已经有了很多行之有效的约简算法。在本小节,只是简要介绍常见的几个属性约简算法。

1.1.2快速约简算法

快速约简算法主要用于计算属性集基数最小的约简[46],其主要思想为: 从P φ=开始,在条件属性集C 中按照选择规则选择属性,逐个加入到P 中,选择规则是:取当前能够使分类质量()P X γ最大的属性。

终止条件是:使分类质量满足:()P X γ= 1,或者()()P C X X γγ=. 具体算法如下:

此算法的缺点是:得到的约简不一定是最佳约简。

1.1.3属性约简的区分矩阵算法

1991年,Skowron 提出用区分矩阵表示知识,此时区分矩阵可以用于计算属性集的约简[46]。算法的主要思想是:构建区分函数,利用区分函数的吸收律,分配律等运算规律,计算出区分函数的最小析取范式,求出属性集的约简和核。

设(,,,)S U C D V f =?,U n =,S 的区分矩阵是一个n n ?矩阵,矩阵的任一元素计算为:12(,){(,)(,)}{,,}k a x y a A f x a f y a a a a =∈≠= ;

S 的区分函数: 12(,)(,)k x y U U

a a a a x y ∈??=∨∨∨=

∑∏ .

区分函数的极小析取范式中的所有合取式是属性集A 的所有约简。 核:(){(,){},,}core A a A a x y a x y U =∈=∈。

例如:表2.3.2.1是一个知识信息系统,其区分矩阵见表2.3.2.2,求其属性约简和核。

表2.3.2.1信息系统

U a b

c

d

1 0 1

2 0 2 1 2 0 2

3 1 0 1 0 4

2

1

1

5 1 1

0 2

表2.3.2.2区分矩阵

1 2 3 4 5 1 2 a,b,c,d 3 a,b,c b,c,d 4 a,c,d a,b,d a,b,c,d 5

a,c,d

b

b,c,d

a,d

区分函数:()()()()a b c d a b c a c d a c d ?=∨∨∨∨∨∨∨∨∨

()()()b c d a b d b a b c d ?∨∨∨∨∨∨∨()()b c d a d ?∨∨∨

ab bd =∨

所以,此信息系统的约简为:{a ,b }和{b,d },约简的核为:{b }.

信息系统的约简一般有很多个,任意一个约简都可以提供关于论语U 同样的知识划分。例如:约简{a ,b }可以将原信息系统表示如表2.3.2.3所示的形式。

此算法的优点是:可以方便的解释和计算信息系统的约简和核。 缺点是:构建区分函数稍有不同,导致计算量爆炸性增加。

表2.3.2.3 约简{a ,b }对信息系统的表示

U a b

d

1 0 1 0

2 1 2 2

3 1 0 0

4 2 1 1 5

1

1

2

1.1.4属性约简的启发式算法

启发式属性约简方法[46]一般从属性集的核属性集P 开始,在条件属性集C 中按照选择规则选择属性,逐个加入到P 中,选择规则是:取当前属性重要性最大的属性。终止条件是:P 是属性集C 的一个约简。

启发式属性约简算法的一般步骤为:

第一步:运用区分矩阵,求得约简核的属性集P ; 第二步: 初始化:1P =P ;

第三步: 选择,a M M ∈是区分矩阵中的元素集合且M P ?=?,使得:

{(,)}M

a Arg

sgf a P Max =,令{}P P a =?.

重复操作,直到区分矩阵中的所有元素集合与1P 交集都非空。 第四步: 检查1P 是否为一个约简,去掉多余属性。

此算法的缺点是:必须先找到属性集的核属性集。

1.1.5 代数理论下的遗传算法属性约简

遗传算法是1969年美国Holland 教授根据生物遗传进化进程提出的一类模

拟进化算法[66]。标准形式下的遗传算法采用二进制编码,个体空间{0,1

}L

L H =,繁殖包括选择,交叉,变异三个独立的进化步骤。在各国学者的不断努力下,遗传算法有了非常丰富的发展。比如:仅编码形式就还可以是灰度编码,实数编码,符号编码,可分解可拼接编码等等。

简单遗传算法的搜索过程如下:

运用遗传算法进行粗糙集属性约简的主要设计:

(1)编码设置:采用二进制编码,对可能的条件属性子集P ?C ,编码长度为C ,编码的每一个基因染色体表示P 中的每一个属性。

例如:基因10011表示12345{,,,,}C c c c c c =时,145{,,}P c c c =的编码。

(2)适应度函数设计:属性子集P 的适应度函数:1()P f P k C

-=+

其中:k 为决策属性d 对P 的属性依赖度。

(3)选择算子设计:两极随机过程法选择出优良个体。

(4)交叉算子设计: 重组产生新的个体。交叉概率一般为:0.4~0.99.

(5)变异算子设计:选中个体独立低效率的生成新的个体。变异概率一般为:0.0001~0.1.

(6)种群规模:一般小于2C或者20~100.

(7)终止条件:大部分为设定进化代数,进化代数一般为100~500.

遗传算法符合达尔文的“优胜劣汰,适者生存”的自然生物进化理论,采用随机信息交换思想,既消除了劣质解,又很好的利用了原有解中的有利信息,从而更好更快的进行属性约简。由于遗传算法固有的并行性,因此此算法能够快速的解决巨量并行复杂问题。

数据预处理分为两大步:数据采集与变量选择,数据离散化。

我们一旦确定研究对象,紧接着就需要对研究对象进行观测,采集相关数据和进行变量选择。搜集得到的信息系统数据具有数据类型多样,结构复杂等特点。这些数据通常具有以下三大特点[47]:

1.数据类型多样化。数据简单的可分为离散型数据(整数型,名义型,有序型,

符号型等),连续性数据,集值型数据(区间值型,模糊集型,邻域型等)等类型。

2.数据信息结构多样化。数据之间存在等价关系,序结构关系,邻域关系等等。

还有的数据之间同时存在多种结构关系。

3.在计算机领域,数学领域,金融分析领域,工程领域中获得的数据,往往是

多种类型数据混杂在一起,而且经常有数据缺失现象。

本文主要涉及的问题是连续数据处理问题。

当数据是连续数据时,我们需要先对数据进行离散化,目前数据离散化的方法很多,下面简单介绍几种常见的数据离散化方法。

数据离散化本质上是选取合适的断点,将原先信息系统的信息在条件属性构成的空间系统上划分为有限个区域。数据离散化方法很多,根据划分依据的不同,既可以分为全局方法和局部方法,也可以分为静态方法和动态方法,还可以根据是否利用类信息划分为有监督和无监督两种类型。目前常见的有如下几种[47]:(1)专家离散法:专家根据必要的研究经验和知识给出相应的划分区间,或者根据领域内的某种规则,确定标准对输入的数据空间进行划分,确定合适

的离散点,进而对信息系统进行离散化。

(2)等距区间离散化:选择合适的离散间断点,使每一个小区间步长相同,即区间具有相等的宽度W:

W = (H-L)/N,其中H表示一个属性的最大值,L表示其最小值。(3)等频区间离散法:选择合适的离散间断点,使得每一个小区间个体的个数相等。

(4)Naviescaler 算法离散法:对属性值按照从小到大的顺序排列,相邻两个个体的属性值和决策值都不相等时,取其均值作为断点。

(5)Chimerge 算法离散法:在原分类精度不受影响的前提下,对已划分的相邻两个区间进行合并,从而得到新的离散间断点。

例如:决策表2.4.1离散化后的决策表2.4.2.

表2.4.1 连续数据的决策表

a b d

x0.8 2 1

1

x 1 0.5 0

2

x 1.3 3 0

3

x 1.4 1 1

4

表2.4.2 Naviescaler 算法离散化后的决策表

a b d

x0 1 1

1

x 1 0 0

2

x 1 2 0

3

x 2 1 1

4

定义3.1.1[46] 给定一个知识系统(,,,)S U A V f =,P A ?,X U ?,则:

()()()

P P P apr X X apr X α=

定义为X 的近似精度,它反映了集合X 知识的完全程度。

()1()P P X X ρα=-定义为粗糙集的粗糙度,它反映了集合X 知识的不完全程

度。

例如,在例2.1.2中111()

()6

()I I I apr X X apr X α=

= = 0 ,

222()

2

()5

()I I I apr X X apr X α==;11()1()I I X X ρα=-= 1 - 0 = 1 ,

2223()1()155

I I X X ρα=-=-

=.

定义 3.1.2[46] 给定一个知识系统(,,,)S U A V f =,I 为U 上的不可分辨关系,P A ?,Q A ?,则:

(1) 若()()I P I Q ?,则称属性集Q 依赖于属性集P ,记作:P Q ?; (2)若P Q Q P ??且,则称属性集Q 等价于属性集P ,记作:P Q ?; (3) 若P Q ?和Q P ?都不成立,则称属性集Q 和属性集P 相互独立。 例如,在表2.1.1的信息系统中,去除属性4a ,去除重复行,得到信息系统表3.1.2如下,此信息系统与原始信息系统的元素集数量是相同的,属性4a 是冗余的,所以,该信息系统的属性集是依赖的。

表3.1.2 去除属性4a 和重复行的信息系统

1.2容差关系和属性重要度

1.2.1容差关系

经典粗糙集理论是建立在精确等价关系下的分类机制基础之上的。基于现实情况,不完备信息系统对此条件要求必须放宽。所以我们在不完备信息系统中考虑的通常是容差关系,相似关系,甚至是一般的二元关系。

定义3.2.1[31] 给定一个信息表(,,,)S U C V f =,属性子集B C ?,个体对于属性子集B 具有遗漏属性值,记遗漏值为“*”,二元关系R 的满足:

{(,)(,)

B R x y x y =i y U x U c B ∈∧∈∧∈

}(()*()*()())

j j j j c x c y c x c y ?=∨=∨=

则称二元关系R 为属性子集B 所确定的U 上的容差关系。

显然,容差关系(,)B R x y 满足自反性和对称性,不具备传递性。容差关系条件要求较弱,在此类关系下的数据处理过程中,空值认为是可以和任意值相等的数据。

容差关系(,)B R x y 的性质:

性质1[46]:设()B R x 在属性子集B 下与个体x 具有容差关系的所有个体的全 体,即:{}()(,)

B B R x y U

R x y =∈,(,)(,)B c c B

R x y R x y ∈= .

性质2[46]:设B D C ????,则()()D B R x R x ?,x U ?∈.

定义3.2.2[31] 对于信息表(,,,)S U C V f =,属性子集B C ?,个体对于属

性子集B 具有遗漏属性值,记遗漏值为“*”,则当二元关系ω满足:

{(,)(,)B i x y x y c B x U y U

ω=∈∧∈∧∈

((()*()*()(

i i

i i c x c y c x c y ?≠∧≠?= }(()())()()*)

B B i i P x P y c x c y ∧?≠?∨==

其中{}()()*B i i P y c B c y =∈≠,则称二元关系ω为属性子集B 所确定的U

上的限制容差关系。

定义3.2.3[31] 对于信息表(,,,)S U C V f =,属性子集B C ?,个体对于属性子集B 具有遗漏属性值,记遗漏值为“*”,当二元关系?的满足:

{(,)(,)B x y x y x U y U ?=∈∧∈∧任意i c 满足

}(()()()*)

i i i i c B c x c y c x ∈?=∨=

则称二元关系?为属性子集B 所确定的U 上的非对称相似关系。

1.2.2属性重要度

在决策系统(,,,)S U C D V f =?中,条件属性不止一个,他们对于决策系统的重要性是不完全相同的。

从分类质量的角度,我们可以定义一个属性的重要性。

定义3.2.4[46] 对于信息系统(,,,)S U A V f =,B ?U ,a ∈P ,P ?A ,则:a 对于B 的属性重要度(,)sgf a B 定义为:(,)sgf a B = ()P B γ-{}

()P a B γ

-.

(,)sgf a B 值越大,依赖性变化就越大,说明属性a 越重要。

从属性依赖度的角度,我们可以定义一个属性的重要性:

定义3.2.5[46] 令决策信息系统(,,,)S U C D V f =?,C ∩D =?,C 为条件属性集,D 为决策属性集,B C ?≠?,c C B ∈-,定义:

(,)sgf a B =({},)(,)g B c D g B D ?-为基于依赖度的属性重要性,其中

(,)g B D =()B Pos D /()C Pos D .

从信息熵的角度,我们可以定义一个属性的重要性:

定义3.2.6[46] 设()E D B 为D 相对于B 的条件熵,B C ?≠?,c C B ∈-,定义:

(,)()({})sgf a B E D B E D B c =-?,为基于信息熵的属性重要性。

1.2.3粗糙熵理论和熵约简

熵原先是一个物理学中用来度量热力学分子运动无规则性的一个概念,在概率论中用其来度量剩余信息量,在模糊理论中用其度量模糊集合的模糊性,在粗糙集理论中用其度量粗糙集的粗糙性。

定义3.2.3.1[46] 对于决策表(,,,)S U C D V f =?,,B D 是U 上的两个等价关系, 12{,,}n U D Y Y Y = , 12{,,}m U B X X X = ,则,B D 在U 的子集组成的σ代数上的概率分布:

1212,,(,)(),(),()m m X X X X B P X P X P X ??= ??? ,1212,,(,)(),(),()n n Y Y Y Y B P Y P Y P Y ??= ??

?

(),1,2,i i X P X i m U

=

= ,(),1,2,j j Y P Y j n U

=

= ;

定义知识B 的熵()H B 为:1

()()lg ()m

i

i

i H B P X P X ==-∑.

知识D 相对于知识B 的条件熵:

1

1

()()()lg(())m n

i j i j i i j H D B P X P Y X P Y X ===-∑∑.

熵具有有界性,确定性,最大性,连续性等性质,其值具有随着信息粒

度的变小而单调增加。具体请参看文献。

定理3.2.3.1[46] 设,B D 是U 上的两个等价关系簇,

若()()ind B ind D =,则:()()H B H D =.

定理3.2.3.2[46] 设,B D 是U 上的两个等价关系簇,且B D ?,

若()()H B H D =,则: ()()ind B ind D =.

定理3.2.3.3[46] 设U 是论域,B 是U 上的一个等价关系簇,I B ∈,则:

I 是B 中不必要的({})0H I B I ?-=.

推论[46]:设U 是论域,B 是U 上的一个等价关系簇,I B ∈,则:

I 是B 中必要的({})0H I B I ?->.

定理3.2.3.4[46] 设U 是论域,B 是U 上的一个等价关系簇,D B ?则:

D 是B 的约简? (1)()()H B H D =;

(2),({})0d D H d D d ?∈->.

1.3应用粗糙模糊度度量的不完备信息系统属性约简

1.3.1模糊集和粗糙模糊集

19世纪末,数学家Cantor 首创集合论,他把一定的并且可以明确识别的对象形成的整体,叫做集合。集合具有无序性,例如:全体三角形是一个集合,全体某学校的男生是一个集合。这些集合中的对象必定是清晰的,要么属于这个集合,要么不属于这个集合。而对于生活中人们经常遇到的有些概念却是模糊的。例如,在研究水温问题时,规定自来水60摄氏度及以上是温水,那59摄氏度,58.5摄氏度,59.4摄氏度的水呢?到底算冷水还是温水,在人们的实际理解中肯定将其归类为温水。再比如:中国境内的所有小河,某班级的矮个子同学,某班级学习成绩好的学生等等,这些概念没有清晰的划分边界,却是实实在在时时刻刻存在于人们生活之中的。为了处理这种不确定问题,数学家Zadeh 将这类边界模糊的对象整体定义为模糊集(Fuzzy 集)。

粗糙集与模糊集理论都是处理不确定与不精确问题的重要方法,当知识库各知识模块都是很清晰的,但是由于输入模式的不可分辨关系或者输出模式类别的

模糊性,导致粗糙性与模糊性同时出现,基于这种状况,Dubios 引入了粗糙模糊集[70]的概念。对于信息系统(,,,)S U A V f =,A 是U 上的一个模糊集合,此时我们可以定义相关的粗糙模糊熵等概念,详细内容请参看文献[71]。

1.3.2粗糙模糊度度量和粗糙集的模糊熵

定义3.3.1 设决策表(,{},,)S U C d V f =?,决策属性d 的值域为:

12{,,}d d d

d m V v v v = ,则对于集合X U ?,定义集合X 基于信息观下的粗糙集模

糊度度量:

1

1

()ln (1)ln(1)n

S X i

i

i

i

i h F p p p p U

==-

+--∑

式中,/i i p k X =, i k 为集合X 中决策属性值为d

i v 的实例个数。

定义3.3.2 设决策表(,{},,)S U C d V f =?,对于{}c C d ?∈?,定义信息函数: :c c f U V →,{}

c c C

d V V ∈?=

。给定二元关系T ,条件属性子集P C ?,

/(){()}P U SIM P T x x U =∈,定义条件属性子集P 的T 下的模糊熵为:

()

()1

()()(1())P P S T x S T x x U

E P h F

h F U

∈=

-∑

例如:对于不完备信息表3.3.1,1123223{,,},{,},P c c c P c c == 312{,},P c c =

413{,}P c c =,516273{},{},{}P c P c P c ===,

则各属性子集在容差关系T 下的应用模糊度的模糊熵为:

1()E P = 0.11057708,2()E P = 0.11007602,

3()E P = 0.13613263,4()E P = 0.11419747,

5()E P = 0.17965757,6()E P = 0.15631609,7()E P = 0.11119817.

定义3.3.3[31] 在一个二元关系T 下,C 是一个属性子集,记:

/(){()}C U SIM C T x x U =∈式中,(){(,)}C T x y U T x y =∈是对象x U

关于属性子集C 的相似类。

定义3.3.4[31] 设决策表系统为(,{},,)S U C d V f =?,条件属性集C 的熵为

()E C ,则属性子集B C ?,B 是决策表系统S 的一个熵约简等价于()()

E B E C ≤且'

B B ??,都有'

()()E B E B .

不完备信息表3.3.1

1x 2x 3x 4x 5x 6x 7x 1c

2 2 1 2 2 1 * 2c 1 1 1 1 1 0 0 3c * 2 1 1 2

3 3 d

A

B

A

A

B

A

C

1.3.3应用粗糙模糊度的不完备信息系统属性约简算法

对于相容的不完备决策表,文献[31]中提出的IEARA 算法,在计算集合X 的信息熵时,仅考虑了集合X 内部部分元素的贡献,忽略了相对于研究对象集合U 的集合X 外部部分元素的贡献。基于这种情况,对于决策表的属性子集,我们考虑综合属于和不属于集合X 的双方面元素的特征,经研究发现,在某些时候更有利于问题的解决。在此基础上,我们提出了基于粗糙模糊度度量的不完备信息系统算法(Based on fuzzy degree of attributes reduction algorithm ),简记为*

F 算法,具体算法如下:

粗糙集属性约简matlab程序

粗糙集-属性约简-matlab程序 Data2为条件属性,decision2为决策属性 %%%my_test函数实现 clc; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取信息系统文件 file = textread('data2.txt','%s','delimiter','\n','whitespace',''); %读取文件信息,每一行为一个胞元 [m,n]=size(file); %胞元的大小 for i=1:m words=strread(file{i},'%s','delimiter',' ');%读取每个胞元中字符,即分解胞元为新的胞元 words=words';%转置 X{i}=words; end X=X'; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% [B,num,AT]=my_reduct(X); %信息系统的约简 ind_A T=ind(X); %信息系统的不可等价关系 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%显示约简信息系统 disp('约简后的条件系统为:'); [m,n]=size(B); for i=1:m disp(B{i}); end %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取决策系统文件 file = textread('decision2.txt','%s','delimiter','\n','whitespace',''); [m,n]=size(file); for i=1:m words=strread(file{i},'%s','delimiter',' '); words=words'; D{i}=words; end D=D'; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%决策系统的正域约简 X_D=X; [l,k]=size(X_D{1}); pos_d=pos(X_D,D);%正域 for i=1:m %%%%%%%%%%%%%%正域有问

属性约简(MATLAB算法)有实例有讲解

粗糙集属性约简 注:这是我学粗糙集时老师给的作业 属性约简的顺序如下:求正域、生成未经处理的区分矩阵、对区分矩阵进行化简、求核、对已经处理过的区分矩阵进行属性约简。约简后的决策表有26行,所有12个属性都是正域中的属性,核为空 程序: % main.m tic; a=[ 1,1,1,1,0,0,0,0,1,1,0,1; 0,0,0,0,0,0,0,0,0,0,0,0; 1,0,1,0,0,0,0,0,0,1,0,0; 0,0,0,1,1,1,1,0,1,0,1,1; 1,0,0,1,1,1,1,1,0,1,1,0; 0,1,0,1,1,1,1,1,1,0,0,1; 1,0,0,0,1,1,1,0,0,1,1,1; 1,1,1,1,0,0,0,0,1,1,0,1; 1,0,1,1,1,0,0,0,1,1,0,1; 1,1,1,1,0,0,0,0,1,1,0,1; 1,0,1,1,1,0,0,0,1,1,0,1; 1,0,1,1,1,0,0,0,1,1,0,1 ]; d=[1;0;0;0;0;0;0;1;1;1;1;1]; pos=posCD(a,d); dismat=dismatrix(a,d,pos); dism=disbe(dismat);

core=cor(dism); [red,row]=redu(dism); time=toc % dismatrix.m % 生成未经处理的区分矩阵dismat function dismat=dismatrix(a,d,pos) [m,n]=size(a); p=1; index1=0;index2=0;index=0; dis=-1*ones(m*(m-1)/2,n); for i=1:m for j=i+1:m if (isxbelongtopos(i,pos)&~isxbelongtopos(j,pos))... |(~isxbelongtopos(i,pos)&isxbelongtopos(j,pos))... |(isxbelongtopos(i,pos)&isxbelongtopos(j,pos)&~isxybelongtoindD(i,j,d)) index2=1; end if index2==0 continue; end for k=1:n if a(i,k)~=a(j,k) dis(p,k)=1; index1=1; else dis(p,k)=0; end end if index1==1 p=p+1;index=1; end index1=0; index2=0; end end if p<=m*(m-1)/2 if index==0 dismat=[]; return; end if dis(p,1)==-1 p=p-1; end else p=m*(m-1)/2; end

属性约简

粗糙集的几种属性约简算法分析 分类:默认栏目 2006.6.16 10:32 作者:万富| 评论:0 | 阅读:1628 陈淑珍,基于粗集的几种属性约简算法分析,武汉工业学院学报,Vol.2 4No.3,Sep .20 05 1.1 利用差别矩阵求最小约简 差别矩阵(Discernibility Matrix)是由波兰华沙大学的著名数学家Skowron[21 提出来的,利用这个工具,可以将存在于复杂的信息系统中的全部不可区分关系表达出来。利用差别矩阵求取最小约简的一个前提是:在数据表的预处理阶段要先对不相容的记录进行处理,即差别矩阵不处理不相容记录。预处理的方法如将冲突的记录数除以记录总数,得到一个粗糙度的量度,该量度可以作为数据表的一个特征。 通过差别矩阵可以很方便地求取核属性,以核属性为出发点,再求取差别函数的最小析取范式,则求析取范式的运算就可以得到很大的简化。而最后得到的每个析取分量对应着一个约简。因此,一定可以得到最小约简。 但该算法的缺陷十分明显:首先,当论域的对象与属性的规模较大时,差别矩阵将占有大量的存储空间口(n的二次方);其次,差别函数的化简本身就是一个NP一hard问题,因此只要数据集稍大一点,就不具备可操作性。 1.2 基于属性依赖度约简算法 求取所有约简是一个NP一hard问题,因此运用启发信息来简化计算以找出最优或次优约简显然是一种可取的方法。 许多启发式约简算法的基本步骤都是:由信息系统或决策表的核为起始点,然后根据属性重要性的某种测度,依次选择最重要的属性加人核中,直到满足终止条件。便得到信息系统或决策表的一个约简(更确切的说,是包含约简的一个属性集)。 一个信息系统中的所有属性对于决策来说并不是同等重要的,在粗集理论中,属性重要性可通过相依度来体现。 决策属性D对于属性R(R属于C)的相依度y(R,D)定义为[3]:显然有,O <,y(R,D), l,y(R,D)给出了决策D对属性R之间相依性的一种测度。它反映了属性R对于决策D的重要程度。在已知条件R的前提下,一个属性R对于决策D的重要度SGF(a,R,D)可以定义为如下的差值:SGF = (a ,R,D)=y(R+{a},D)一y(R,D),SG F= ( a,R,D)反映了把属性a加到R后,R 与D之间相依度的增长程度。事实上,属性对于R与之间相依性的影响越强,则SGF= (a,R,D)的值就越大。 1.3 基于条件信息嫡约简算法 基于属性依赖度的启发式约简方法在实际应用中遇到的一个重大困难是属性间不确定关系的表达。粗糙集约简表达的是属性间的确定性关系,正区域之外等价类族表达的属性间关系并不被粗糙集认可,因此除要求属性满足确定性关系外,挑选有强烈概率因果关系的属性集具有十分意义。 为了描述概率因果关系,人们在处理这类数据时,在约简算法中引人信息嫡来度量属性重要度。 事实上基于信息嫡与基于属性依赖度的启发式算法也是不完备的。 应当指出的是以上所分析的两种算法都只是搜索次优解的算法,采用属性重要性方法的约简算法并不能保证一定能够找到信息系统的最优解。出现这种情况的原因在于属性的“组合爆炸”。在信息系统中各个属性并不是孤立存在的,而是存在着互相之间的联系和影响。某些属性虽然它们的单个重要性都很小,但是当这些属性组合在一起时,却能对整个信息系统的正确分类产生很大的作用,而这一点有时仅仅凭借单个属性的重要性评价方法是很难发现的,因为那些重要性很小的属性很难被约简算法所选择。尽管采用每次属性扩张后都动态调整各属性重要性的办法能够在一定程度上克服这一问题,但还是无法从根本上解决问题。 利用启发式算法的确能够提高约简的求解速度,而且在解空间不复杂的情况下有可能得到最优解或次优解,但在解空间较复杂或属性间关系较为复杂的情况下,用这些方法找到的解极有可能陷人局部最优解,这种算法并非对所有的知识表达系统都适用。 1.4 基于遗传算法的属性约简 遗传遗传算法是一种自适应随机搜索方法,其搜索方式不是由单一的方向或结构,它将多个个体作为可能的解并考虑搜索空间全局范围内的抽样,从而导致以更大的可能性收敛到全局最优解,因此,人们把遗传算法引人粗集属性约简。 算法通过用计算机模拟生物进化过程,使群体不断优化,并在变化过程中找出最优解。在遗传算法中,适应度函数的设计是整个GA 算法的核心步骤,由于几个遗传算子都依赖于染色体的适应度值,因此适应度函数的设计目标,在很大程度上决定着迭代收敛的方向。而粗糙集的属性约简主要是为了求得最小的约简属性集。这样,在保证属性集满足一定精度的情况下,使其属性个数最小,即最终所

粗糙集属性约简matlab程序

粗糙集-属性约简-m a t l a b程序 Data2为条件属性,decision2为决策属性 %%%my_test函数实现 clc; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取信息系统文件 file=textread('data2.txt','%s','delimiter','\n','whitespace','');%读取文件信息,每一行为一个胞元 [m,n]=size(file);%胞元的大小 fori=1:m words=strread(file{i},'%s','delimiter','');%读取每个胞元中字符,即分解胞元为新的胞元 words=words';%转置 X{i}=words; end X=X'; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% [B,num,AT]=my_reduct(X);%信息系统的约简 ind_AT=ind(X);%信息系统的不可等价关系%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%显示约简信息系统 disp('约简后的条件系统为:'); [m,n]=size(B); fori=1:m disp(B{i}); end %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取决策系统文件 file=textread('decision2.txt','%s','delimiter','\n','whitespace',''); [m,n]=size(file); fori=1:m words=strread(file{i},'%s','delimiter',''); words=words'; D{i}=words; end D=D'; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%决策系统的正域约简 X_D=X; [l,k]=size(X_D{1}); pos_d=pos(X_D,D);%正域 fori=1:m%%%%%%%%%%%%%%正域有问题%%%%%%%%%%%%%%%%%%%%%%%%%%% if(~ismember(num(i),pos_d)) B{i}='';%若约简后的信息系统B{i}不在正域中则删除该行 end%因为相同的条件得到的决策不一样, end %将在正域规则下约简过的信息系统B连接决策系统D

属性约简方法概述

属性约简方法概述 属性约简又称维规约或特征选择,从数学的角度考虑,就是有p 维数据 x =(x 1,x 2……x p ),通过某种方法,得到新的数据 x’=(x’1,x’2…… x’k ) , k ≤p , 新的数据在某种评判标准下,最大限度地保留原始数据的特征。属性约简主要是为了解决高维数据计算的复杂性和准确性问题。目标是消除冗余和不相关属性对计算过程和最终结果造成的影响。 对数据进行属性约简的意义,主要从以下几个方面考虑: a) 从机器学习的角度来看,通过属性约简去除噪音属性是非常有意义的; b) 对一些学习算法来说,训练或分类时间随着数据维数的增加而增加,经过属性约简可以降低计算复杂度,减少计算时间; c) 假如不进行属性约简,噪音或不相关属性和期望属性对分类的作用一样,就会对最终结果产生负面影响; d) 当用较多的特征来描述数据时,数据均值表现得更加相似,难以区分。 为了描述属性约简方法,这里假设数据集合为D ,D ={x 1,x 2….x n }, x i 表示D 中第i 个实例,1≤i≤n ,n 为总的实例个数。每个实例包含p 个属性{|x i |=p }。从机器学习的角度来看,属性约简方法可以分为监督的和非监督的两类。下面是几种常用的方法。 (1) PCA 主成分分析 主成分概念是Karl parson 于1901年最先引进。1933年,Hotelling 把它推广到随机变量。主成分分析把高维空间的问题转换到低维空间来处理,有效的降低了计算的复杂度。通过主成分的提取,降低了部分冗余属性的影响,提高了计算的精度。 主成分分析的基本思想为:借助一个正交变换,将分量相关的原随机变量转换成分量不相关的新变量。从代数角度,即将原变量的协方差阵转换成对角阵;从几何角度,将原变量系统变换成新的正交系统,使之指向样本点散布最开的正交方向,进而对多维变量系统进行降维处理[43]。 定义4-1[44]:设12(,,...,)'p X X X X =为p 维随机向量,它的第i 主成分分量可表示'i i Y u X =,i =1,2,…, p 。其中i u 是正交阵U 的第i 列向量。并且满足: 1Y 是12,,...,p X X X 的线性组合中方差最大者; k Y 是与11,...k Y Y -不相关的12,,...,p X X X 的线性组合中方差最大。 (k =2,3,…p )。 定义4-2[45]: 设∑是随机向量12(,,...,)'p X X X X =的协方差矩阵,其特征值-特征向量对1122(,),(,),...(,)p p e e e λλλ,其中12...0p λλλ≥≥≥≥。则第i 个主成分为: 1122 '...i i i i i p p Y e X e X e X e X ==+++ i =1, 2, …p ………………….式

粗糙集属性约简matlab程序

粗糙集属性约简m a t l a b程序 (总3页) -CAL-FENGHAI.-(YICAI)-Company One1 -CAL-本页仅作为文档封面,使用请直接删除

粗糙集-属性约简-matlab程序 Data2为条件属性, decision2为决策属性 %%%my_test函数实现 clc; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取信息系统文件 file = textread('data2.txt','%s','delimiter','\n','whitespace',''); %读取文件信息,每一行为一个胞元 [m,n]=size(file); %胞元的大小 for i=1:m words=strread(file{i},'%s','delimiter',' ');%读取每个胞元中字符,即分解胞元为新的胞元 words=words';%转置 X{i}=words; end X=X'; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% [B,num,AT]=my_reduct(X); %信息系统的约简 ind_AT=ind(X); %信息系统的不可等价关系%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%显示约简信息系统 disp('约简后的条件系统为:'); [m,n]=size(B); for i=1:m disp(B{i}); end %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取决策系统文件 file = textread('decision2.txt','%s','delimiter','\n','whitespace',''); [m,n]=size(file); for i=1:m words=strread(file{i},'%s','delimiter',' '); words=words'; D{i}=words; end D=D'; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%决策系统的正域约简 X_D=X; [l,k]=size(X_D{1}); pos_d=pos(X_D,D);%正域 for i=1:m %%%%%%%%%%%%%%正域有问题%%%%%%%%%%%%%%%%%%%%%%%%%%% if(~ismember(num(i),pos_d)) B{i}=''; %若约简后的信息系统B{i}不在正域中则删除该行 end %因为相同的条件得到的决策不一样, end %将在正域规则下约简过的信息系统B连接决策系统D [m,n]=size(B);

属性约简

粗糙集的研究对象是一个数据集,数据集一般被保存为数据表格形式,即数据库或信息系统。信息系统的形式是由研究对象和属性值关系构成的二维数据表,类似于基础数学中的关系数据库。信息系统实现了粗糙集模型的知识表示。 定义 2.1.1[46] 设(,,,)S U A V f =为一个数据库,即信息系统,也称为知识表示系统。其中12{,}U U x x x = 为一个非空的有限对象集,12{,,}A A a a a = 是属性的有限非空集合,a V V =?,a A ∈,a V 为属性a 的值域;定义信息函数 :U V c a f A ?→ . 例如表2.1.1是一个信息系统,其中12345{,,,,}U x x x x x =, 1234{,,,}A a a a a =,123a a a V V V ==={0,1},4a V ={0,1,2}. 表2.1.1 信息系统 定义2.1.2[46] 对于a A ?∈,x U ?∈,(,)a f x a V ∈,对于P A ??≠?,定义:{(,):(,)(,),}I x y U U f x q f y q q P =∈?=?∈, I U 称为上的不可分辨关系。 (1)若(,)x y I ∈,则称:x y 和是不可分辨的。 (2)不可分辨关系是等价关系,具有: 自反性:xIx ; 对称性:xIy yIx ?;

传递性:,xIy yIz xIz ? . (3) I 是U 上的一个等价关系,[]{,}I x y y U xIy =∈, 12{[]}{,}I k U I x x U X X X =∈= ,12,k X X X 称为U 关于I 的一个划分。 (4)P I ?≠?,1,2I I I ∈, 112{,}k U I X X X = ,212{,}l U I Y Y Y = , 12{,1,2,1,2}i j U I I X Y i k j l ?=?== ,()I P ind P I P ∈== , 则称:()ind P U 是上的一个等价关系,称为P 上的不可区分关系。 ()[][]ind P I I P x x ∈= 称为P 的基本知识。 当12()()ind I ind I ?,称1,I 比2I 细,21I I . 1.1.1粗糙集与近似 定义2.1.3[46] X U ?,I 是U 上的一个等价关系,12{,}k U I X X X = ,若存在1i X ,2i X j i X U I ∈,.st X =1 t j i t X = ,称X 是关于I 的精确集。否 则称X 是I 的粗糙集。 定义 2.1.4[46] 给定一个知识系统(,,,)S U A V f =,D A ?,X U ?, x U ∈,集合X 关于D 的下近似,上近似,负区域及边界区域分别为: 下近似:()D apr X DX ={:()}x U D x X = ∈? {,}Y U D Y X =∈? {[][],}D D x x X x U =?∈ ; 上近似: ()D apr X =DX = {:()}x U D x X ∈?≠? {,}Y U D Y X =∈?≠? {[][],}D D x x X x U =?≠?∈ ; 负区域:()D neg X =()D U apr X -= {:()}x U D x X ∈?=? ;

属性约简方法概述

属性约简方法概述 Document number:NOCG-YUNOO-BUYTT-UU986-1986UT

属性约简方法概述 属性约简又称维规约或特征选择,从数学的角度考虑,就是有p 维数据 x =(x 1,x 2……x p ),通过某种方法,得到新的数据 x’=(x’1,x’2…… x’k ) , k ≤p , 新的数据在某种评判标准下,最大限度地保留原始数据的特征。属性约简主要是为了解决高维数据计算的复杂性和准确性问题。目标是消除冗余和不相关属性对计算过程和最终结果造成的影响。 对数据进行属性约简的意义,主要从以下几个方面考虑: a) 从机器学习的角度来看,通过属性约简去除噪音属性是非常有意义的; b) 对一些学习算法来说,训练或分类时间随着数据维数的增加而增加,经过属性约简可以降低计算复杂度,减少计算时间; c) 假如不进行属性约简,噪音或不相关属性和期望属性对分类的作用一样,就会对最终结果产生负面影响; d) 当用较多的特征来描述数据时,数据均值表现得更加相似,难以区分。 为了描述属性约简方法,这里假设数据集合为D ,D ={x 1,x 2….x n }, x i 表示D 中第i 个实例,1≤i≤n ,n 为总的实例个数。每个实例包含p 个属性{|x i |=p }。从机器学习的角度来看,属性约简方法可以分为监督的和非监督的两类。下面是几种常用的方法。 (1) PCA 主成分分析 主成分概念是Karl parson 于1901年最先引进。1933年,Hotelling 把它推广到随机变量。主成分分析把高维空间的问题转换到低维空间来处理,有效的降低了计算的复杂度。通过主成分的提取,降低了部分冗余属性的影响,提高了计算的精度。 主成分分析的基本思想为:借助一个正交变换,将分量相关的原随机变量转换成分量不相关的新变量。从代数角度,即将原变量的协方差阵转换成对角阵;从几何角度,将原变量系统变换成新的正交系统,使之指向样本点散布最开的正交方向,进而对多维变量系统进行降维处理[43]。 定义4-1[44]:设12(,,...,)'p X X X X =为p 维随机向量,它的第i 主成分分量可表示'i i Y u X =,i =1,2,…, p 。其中i u 是正交阵U 的第i 列向量。并且满足: 1Y 是12,,...,p X X X 的线性组合中方差最大者; k Y 是与11,...k Y Y -不相关的12,,...,p X X X 的线性组合中方差最大。(k =2, 3,…p )。

相关文档
最新文档