粗糙集与数据约简

合集下载

基于MapReduce的高效粗糙集属性约简算法

基于MapReduce的高效粗糙集属性约简算法

第34卷第4期 2017年4月计算机应用与软件Computer Applications and SoftwareV o L34No. 4Apr. 2017基于MapReduce的高效粗糙集属性约简算法吕洁1刘利民1胡皎月1许志伟131(内蒙古工业大学信息工程学院内蒙古呼和浩特010080)2(中国科学院计算技术研究所北京100086)摘要针对粗糙集理论中传统的基于正域的属性约简算法和基于信息熵的属性约简算法无法得到最小约简集的问题,给出基于信息熵改进的属性约简算法,即先使用条件熵识别出重要度值最大的属性,使用正域进行约 简判断。

在此基础上,设计了高效的基于M a p R e d u c e的信息熵改进属性约简算法。

以真实海量气象数据为基础, 在H a d o o p集群上实现上述算法,验证了该算法的有效性和效率。

关键词 属性约简粗糙集理论信息熵中图分类号T P311文献标识码A D O I:10. 3969/j. issn. 1000-386x. 2017. 04.046EFFICIENT ROUGH SET ATTRIBUTE REDUCTION ALGORITHMBASED ON MAPREDUCELii Jie1Liu Limin1H u Jiaoyue1X u Zhiwei1’21(College of Information Engineering, Inner Mongolia University of Technology ,Huhhot 010080, Inner Mongolia, China)2 (Institute of Computing Technology ^Chinese Academy of Sciences, Beijing 100086, China)Abstract Aiming at the problem that the traditional attribute reduction algorithm based on positive domain and the attribute reduction algorithm based on information entropy can ,t get the m i n i m u m reduction set in rough set theory,an optimized attribute reduction algorithm based on information entropy is proposed. T h e conditional entropy is used to identify the attribute with the highest significance value, and the positive domain is used to the reduction judgment. O n this basis,an efficient algorithm of information entropy improved attribute reduction based on M a p R e d u c e is designed. Based on the real meteorological data, the algorithm is implemented on H a d o o p cluster, and the effectiveness and efficiency of the algorithm are verified.Keywords Attribute reduction R o u g h set theory Information entropy熵改进属性约简算法,通过真实海量气象数据,验证了 〇弓丨言算法的有效性。

粗糙集理论介绍

粗糙集理论介绍
粗糙集理论介绍
问题的提出:知识的含糊性
术语的模糊性,如高矮 数据的不确定性,如噪声 知识自身的不确定性,如规则的前后件间的 依赖关系不完全可靠 不完备性,数据缺失
由此,提出了包括
概率与统计、证据理论:理论上还难以令人信服,
不能处理模糊和不完整的数据
模糊集合理论:能处理模糊类数据,但要提供隶属
函数(先验知识)
so
例2: (表2)
R1(颜色) R2(形状) R3(体积) class
X1

圆形

1
X2

方形

1
X3

三角形

1
X4

三角形

1
X5

圆形

2
X6

方形

2
X7

三角形

2
X8

三角形

2
等价类IND(R1)={{x1,x3,x7}, {x2,x4}, {x5,x6,x8}}
X={X1,X2,X3,X4}
Step2. 针对各个属性下的初等集合寻找下近似和上近似。
以“头疼+肌肉痛+体温”为例,设集合X为患流感的 人的集合,I为3个属性构成的一个等效关系: {p1},{p2,p5},{p3},{p4},{p6}, 则
X={P1,P2,P3,P6} I={{p1},{p2,p5},{p3},{p4},{p6}}
粗糙集在数据挖掘中的应用 基于粗糙集的数据约简
返回
1. 粗糙集在数据挖掘中的应用
粗糙集对不精确概念的描述是通过上、下近似这两 个精确概念来表示的。
粗糙集理论的的数学基础:假定所研 究的每一个对象都涉及到一些信息(数据、 知识),如果对象由相同的信息描述,那 么它们就是相似的或不可区分的。

基于粗糙集的属性约简算法

基于粗糙集的属性约简算法
中 的对 象组 成 的集合 + X) = { ∈ UI ) ( B(
} 。


的上 近似 集 B ) 根据 知识 判定 可 能属 ( , 于 的 中的对象 组成 的集合 B X)= { ∈ Ul ( X B( " X ≠ } X)I 1 。
定义 3 正域
收 稿 日期 :0 l 3 1 2 1 - —l 0 基 金项 目 : 国家 自然 科 学 基 金 资 助 项 目( 07 0 9 6543 )
D c u D =Q, = ) ( Cn D 两个不同的集合。 概念 2 完备信息系统与不完备信息系统 在决 策信息系统 D S=< , uD, , UC VP>中, 中每个对
1 2 基本 定义 .
L )= { ( Y∈ UI( Y ,)∈ L , } L = { ∈ UI ( X L ) } , L = { ∈ UJ ( X )n ≠ } 。
() 2 () 3 () 4
定义 1 不可 分辨 关 系
限制容 差关 系具 有 自反 性 和对 称性 , 是不 具 但 有 传递 性 。
步骤 有的约简属性集都包含的不可省略属性 的集合 , 记 为 C R P)=n R D( O E( E P)。
步骤 7 将 R d e 集里的属性与 c集合里剩余的
属性 分别结 合 。 步骤 8 采 用组合 属性 , 复步骤 2 ~6 重 。 步骤 9 从 R d的尾部 开 始 , 后 往前 对 每 个 e 从
2 2 知 识约 简算法 .
q }I D B 是一个等价关系。 )。 ( ) N 由这种等价关 系导
出 的对 的划 分记 为 U ID( , 中包 含样本 的 /N B)其 等价类 记 为 [ ] 。

基于遗传算法的粗糙集知识约简

基于遗传算法的粗糙集知识约简

基于遗传算法的粗糙集知识约简摘要:知识约简是粗糙集理论的核心内容之一。

本文通过知识表达系统中条件属性对决策属性的重要性,来描述由条件属性所提供的知识对整体决策的重要程度,利用遗传算法,提出一种基于遗传算法的粗糙集知识约简方法。

关键词:遗传算法;粗糙集;知识约简粗糙集理论是一种新的处理模糊和不确定性知识的数学工具。

其主要思想就是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。

目前粗糙集理论已被成功地应用于机器学习、决策分析、过程控制、模式识别与数据挖掘等领域,成为近年来的热点研究方向。

知识约简是粗糙集理论的核心内容之一。

众所周知,知识库中知识(属性)并不是同等重要的,甚至其中某些知识是冗余的。

知识约简,就是在保持知识库分类能力不变的条件下,删除其中不相关或不重要的知识,使得高维数据降为低维数据,从而有效地实现数据缩减、减少冗余信息,是知识发现中的重要步骤。

1知识约简的相关概念定义1K=(U, R)为一个知识库,其中U≠是对象的有限论域,R是U上的所有等价关系的集簇。

显然,如果P∩R,P≠,则∩P(P中所有等价关系的交集)也是一个等价关系,称为P上的不可区分关系,记为ind(P)。

定义2令R为一族等价关系,R∈R,如果ind(R)=ind(R-{R}),则称R为R中不必要的;否则R为R中必要的。

定义3如果每一个R∈R都为R中必要的,则称R为独立的;否则称R为依赖的。

定义4设Q∈P,如果Q是独立的,且ind(Q)= ind(P),则称Q为P的一个约简。

显然,P可以有多种约简。

P中所有必要关系组成的集合称为P的核,记作core(P)。

核与约简有如下关系core(P)=∩red(P)其中red(P)表示P的所有约简。

定义5令K=(U,R)为一个知识库,且P,Q∩R,当时,我们称知识Q是k(0≤k≤1)度依赖于知识P的,记作P Q 。

定义6设S=(U,A,V,f )为一个知识表达系统,A=C∪D,C∩D≠,其中C和D分别条件属性集和决策属性集,属性子集C’∩C关于D的重要性为特别当C ‘={a}时,属性a∈C关于D的重要性为传统的约简算法,主要是从粗糙集的核出发,采用启发式搜索的方法构造所含条件属性最少的约简,即最小约简。

基于粗糙集理论的概念格属性约简及算法

基于粗糙集理论的概念格属性约简及算法

A src R u hst hoyhs d a tg l n e rbe f h eu t no bet a ditns ekn n btat o g e ter a vna ens v gt o l o e d ci f jcs n e t.se igmii a i oi hp ms t r o o n
st o e me h d fc n e tltierd cina ep e e tdwhc a et ea v n a eo o hr u hs ta d fr ll e ,smen w t o so o c p at e u t r rs ne ihtk h d a tg fb t o g e n la c o oT c n e ta ay i.Th i o hsp p ri t r d c o e meh d f o c p at erd cin b h o bn t n o cp n lss eam ft i a e o p o u es men w t o so n e tlti e u t yt ec m ia i S c c o o o ou h s tt e r n o ma o cp n l ss fr g e h o y a df r lc n e ta ay i .
Ke wod F r l o c p n lss Ro ghs tte r Re u t n y rs o ma n e ta ay i, u e h oy。 d ci c o
形式概念分析是一个从对象数据表里 自然 聚类抽取信息 的数 据分析方 法。从数据集 中( 形式概念分 析中称 为 ‘ 背景 ’ ) 生成概念 格的过程 实质 上是一个概念聚类 的过程 。这种 聚类 在传统意义上 被 自然地 解释 为概念 且具 有一个 子概 念 超概

基于优势关系粗糙集的地震数据约简和规则提取

基于优势关系粗糙集的地震数据约简和规则提取

随着地 震预 报 研究 的不 断 深 入 和发 展 , 的观 新
作 为一 种处理 模糊 和不精 确知 识 的重要 的数据挖 掘
方 法 , 地震数 据挖 掘是 一种很 好 的选择 , 对 具有 以下 几 点优 势 : () 1粗糙 集 不需 要 预 先 给定 某 些 特 征或 属 性 的
测方法 和观测 数 据不 断产 生 . 面对 待 处理 的海 量 地
摘 要 : 对 现 有 的 基 于 不 可 分 辨 关 系 的 数 据 约 简 算 法 在 地 震 数 据 处 理 中 存 在 的缺 点 , 出一 个 新 的 优 势 区 分 矩 阵 针 提
的 定 义 , 在 此 基 础 上 给 出 相 应 的 具 有 更 好 约 简 效 率 的 数 据 约 简 算 法 和 规 则 提 取 算 法 . 运 用 该 算 法 对 全 国 小 震 并 在
Ab ta t sr c :Afe ic s ig t e ca sc o g e e r a e n i ds e b l y rlt n a d i e u t n tr d su sn h lsia ru h s tt oy b s d o n ic mi i t eai n t r d ci l h i o s o ag rtms o e rh u k d t , we r s n a e lo i h n at q a e aa p e t n w d fn t n f d mi a c d s e b lt mar b t ig e e i o o o n n e ic m ii i i i y tx y a n i k a v na e o h nq e c a a trsi ft xe d d mo e .Th or s o d n d c in a d r l xrcin d a tg ft e u iu h rce t o i c hee tn e d 1 e c re p n ig r u t e o n ue e ta to ag rtmsa e te ie c od n l oe h c f ce c n s e ig te rd cin t o xe t lo h l h n gv n a c r i gy t n a e e in y i e kn h e u t o s mee tn .W eu e te i n i o s h ru h s tt e r a e n d m n n e rl t n t e 7 ue t aitc me ig fo 4 81 tms i o g e h o b s d o o y i a c ai o g t2 2 r ls wi rl si a n r m 4 3 i e o he n e n a s l s to a q a e d t fC i a. ma l e fe  ̄h u k aa o h n Ke r s:e r q a e d t y wo d at u h k aa;r u h s t o n c lt n; k o e g d cin o g e ;d m a e r ai i n e o n wld e r u t e o

如何使用粗糙集理论进行数据预处理

如何使用粗糙集理论进行数据预处理

如何使用粗糙集理论进行数据预处理粗糙集理论是一种用于数据预处理的有效工具。

在现实生活中,我们经常面临着大量的数据,而这些数据中往往包含着冗余、不完整和模糊的信息。

为了更好地处理这些数据,提取有用的信息,粗糙集理论应运而生。

粗糙集理论是由波兰学者Zdzislaw Pawlak于1982年提出的,它通过对数据进行粗糙化处理,将数据集分为精确和不确定两个部分。

通过粗糙化处理,可以消除数据中的冗余信息,提取出核心和边缘的概念,从而更好地理解数据。

数据预处理是数据挖掘中的重要步骤,它包括数据清洗、数据集成、数据转换和数据规约等过程。

粗糙集理论在数据预处理中可以发挥重要作用。

首先,它可以帮助我们发现数据中的冗余信息。

冗余信息是指在数据集中存在多余的、重复的或无用的信息。

通过粗糙集理论,我们可以对数据进行粗糙化处理,去除冗余信息,从而减少数据集的大小,提高数据处理的效率。

其次,粗糙集理论可以帮助我们处理数据中的不完整信息。

不完整信息是指在数据集中存在缺失、不确定或不可靠的信息。

通过粗糙集理论,我们可以对数据进行粗糙化处理,将不完整的信息转化为精确和不确定两个部分,从而更好地处理数据中的不确定信息。

另外,粗糙集理论还可以帮助我们处理数据中的模糊信息。

模糊信息是指在数据集中存在模糊、不明确或模糊的信息。

通过粗糙集理论,我们可以将模糊信息转化为精确和不确定两个部分,从而更好地处理数据中的模糊信息。

在使用粗糙集理论进行数据预处理时,我们需要注意一些问题。

首先,我们需要选择合适的粗糙集算法。

目前,有许多粗糙集算法可供选择,如基于属性约简的粗糙集算法、基于属性约简和决策规则的粗糙集算法等。

我们需要根据具体的数据集和预处理目标选择合适的算法。

其次,我们需要考虑数据预处理的效果。

数据预处理的目的是提取有用的信息,减少冗余和不确定信息。

因此,在使用粗糙集理论进行数据预处理时,我们需要评估预处理的效果,判断是否达到了预期的目标。

基于系统熵的粗糙集属性约简新方法

基于系统熵的粗糙集属性约简新方法
性来度量各个属性的重要性,经计算得出属性重要性最大的是{milk}。而依据本文所提出的属性重要性得到的结果是{eggs},算法1所得到的属性约简结果是:Ra={feathers,milk,airborne,aquatic,backbone,breathes,fins,legs}。 依照本文算法2所得到的属性约简结果是:Rb={milk,eggs,aquatic,legs}。这是因为利用式(1)计算属性重要性的时候只考虑了属性本身的值的分布而没有考虑属性的相对信息熵,如果某一属性的相对信息熵较小会导致该属性的属性重要度较大,从而会使所选属性并不是最重要的,或者造成错选。本文从系统熵的角度出发,定义了一种新的度量属性重要性的方法,构造了相应的启发式算法。相对于原算法,本文算法优势明显,通过实例证明,在大多数情况下本文的算法所得到的属性约简个数较少。
这种新的度量方法同时兼顾了系统熵作为一种同时考虑了条件属性和决策属性的分类能力和数值大小对约简结果的影响,并充分考虑到了在属性子集R中添加属性a∈C-R后系统熵的增量(R自身的熵也被考虑在内)。这种新的属性重要性的定义有如下特点:(1)当系3 仿真实例和相关比较 为了验证上述算法的有效性,从UIC数据库中选取了三个具有离散属性的数据库实例进行验证。分别采用文中所提到的两种不同属性重要性定义的约简算法对其进行属性约简。约简结果如表1所示。其中C为该属性集合所包含的条件属性的个数,算法1和算法2分别是以系统熵增益率和本文改进的系统熵增益率为属性重要性度量方法的启发式属性约简算法。从表中可以看到本文所提出的算法在大多数情况下获得的相对约简属性个数较少。
基于系统熵的粗糙集属性约简新方法
摘 要: 在系统熵的基础上,定义了一种新的属性重要度并提出了一种基于改进系统熵的粗糙集属性约简算法,实验分析表明,该属性重要度为启发式信息进行的属性约简,取得了理想效果。关键词: 粗糙集;属性约简;系统熵
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.1 粗糙集的基本概念
正域、负域和边界域 正域: Pos(X)=R-(X),即根据知识 R,U 中能完全确定地归入集合 X 的元素的集合。 负域:Neg(X)=U-R-(X),即根据知识R,U中不能确定一定属于集合 X的元素的集,它们是属于X的补集。 边界域:Bnd(X)= R-(X) - R-(X) ,边界域是某种意义上论域的不 确定域,根据知识R,U中既不是肯定归入集合 X,又不能肯定归入 集合~X,的元素构成的集合。 边界域为集合X的上近似与下近似之差,如果Bnd(X) 是空集,则称 集合X关于R是清晰的;反之,如果Bnd(X) 不是空集,则称集合X为 关于R的粗糙集。因此,粗糙集中的“粗糙”(不确定性)主要体 现在边界域的存在。集合X的边界域越大,其确定性程度就越小。
2.1 粗糙集的基本概念
知识表达系统
一个知识表达系统或信息系统S可以表示为有序四元组 S={U,R,V,f} 其中,U={x1,x2,…,xn}为论域,它是全体样本的集合; R=C∪D 为属性集合,其中子集C是条件属性集,反映对象的特征,D为决策 属性集,反映对象的类别; V Vr 为属性值的集合,V 表示属性r的取值范围; r rR f:U×R→V 为一个信息函数,用于确定 U 中每一个对象 x 的属性值,即任一 xi∊U,r∊R,则f(xi,r)=Vr
2.1 粗糙集的基本概念
下近似集和上近似集
下近似集:根据现有知识 R,判断U 中所有肯定属于集合 X 的对象所组成的 集合,即 R-(X)={x∊U,[x]R ⊆X} 其中, [x]R 表示等价关系R下包含元素x的等价类。 上近似集:根据现有知识 R,判断U 中一定属于和可能属于集合 X的对象所 组成的集合,即 R-(X)={x∊U,[x]R ∩X≠φ} 其中, [x]R 表示等价关系R下包含元素x的等价类。 给定知识表达系统 S={U,R,V,f},对于每个样本子集 X ⊆U 和等价关系 R, 所有包含于 X 的基本集的并(逻辑和)为 R-(X);所有与 X 的交 ( 逻辑积 )不 为空集的基本集的并为R-(X)。
R X
CardR X 1 0.25 Card R X 4
体温r3 正常 高 很高 正常 高 很高 决策属 性D 流感 否 是 是 否 否 是


2.1 粗糙集的基本概念
例:右表是考生情况调查表,其中U为被调查对象,即论 域;R为高考成绩(A-优,B-良,C-中,D-差);X为 升学情况(+为上,/为未上)。 根据高考成绩和升学情况进行分类时: 按成绩:U/R={{1,6},{2},{3,5},{4}}={Y1,Y2,Y3,Y4} 按升学:U/X={{2,3,5,6},{1,4}}={X1,X2} 分别计算出下近似集、上近似集、边界域和近似精度: R-(X1)=Y2∪Y3={2,3,5} R-(X2)=Y4={4} R-(X1)=Y2∪Y3∪Y1 ={2,3,5,6,1} R-(X2)=Y1∪Y4={4,6,1} Bnd(X1)=Y1={1,6} Bnd(X2)=Y1={1,6}
0.4 0.2 0.0
0.2
0.4
0.6
0.8
1.0
粗糙集与数据约简
1
不确定性理论
2 3
4 5 6
粗糙集的基本理论与方法
知识的约简
决策表的约简
粗糙集数据约简的具体实现与应用
粗糙集的研究现状与展望
2、 粗糙集的基本理论与方法
1
粗糙集的基本概念
2
粗糙集的基本思想
3
粗糙集的基本特点
2.1 粗糙集的基本概念
U 1 2 3 4 5 6 R C B A D A C X / + + / + +
αR(X1)=Card(R-(X1))/Card(R-(X1))=3/5 αR(X2)=Card(R-(X2))/Card(R-(X2))=1/3
根据 R-(X1) R-(X2) if R 高考成绩(A,B) 高考成绩(D) Then X 一定(+)能上 一定(/)不能 上 根据 R-(X2) Bnd(X1) if R 高考成绩(C,D) 高考成绩(C) Then X 可能(/)不能上 可能(+)也可能 (/) 可能(+)也可能
2 粗糙集的基本理论与方法
ቤተ መጻሕፍቲ ባይዱ
1
粗糙集的基本概念
2
粗糙集的基本思想
3
粗糙集的基本特点
2.2 粗糙集的基本思想
RS的基本思想
RS认为知识就是将论域中的对象进行分类的能力。对对象的认知程度取决 于所拥有的知识的多少,知识越多,则分类能力越强。知识越少,则对象 间的区分越模糊。 在没有掌握所有关于对象域的知识的情况下,为了刻画模糊性,RS使用了 一对称为下近似与上近似的精确概念来表示每个不精确概念,即使用一对 逼近来描述对象域上的集合。下近似和上近似的差是一个边界集合,它包 含了所有不能确切判定是否属于给定类的对象。这种处理可以定义近似的 精确度,能够很好的近似分类,得到可以接受质量的分类。 在RS中,论域中的对象可用多种知识来描述(通常描述为属性)。当两个不 同的对象由相同的属性来描述时,这两个对象在系统中被归于同一类,它 们的关系称之为不可分辨关系或等价关系。不可分辨关系是RS理论的基石, 它反映了论域知识的颗粒性。 影响分类能力的属性很多,不同的属性重要程度不同,其中某些属性起决 定性作用;属性的取值不同对分类能力也会产生影响。RS理论提出知识的 约简方法、在保留基本知识、对对象的分类能力不变的基础上,消除重复、 冗余属性和属性值,实现了对知识的压缩和再提炼。
2.1 粗糙集的基本概念
基本集合
由论域中相互不可分辨的对象组成的集合称之为基本集合,它是组成论域 知识的颗粒。 决策属 属性 条件属性C 性D 例如:考虑条件属性:头疼和 对象 头疼r1 肌肉疼r2 体温r3 流感 肌肉疼。对于x1,x2,x3这三个 x1 是 是 正常 否 对象是不可分辨的。x4,x6在这 x2 是 是 高 是 两个属性上也是不可分辨的。 x3 是 是 很高 是 由此构成的不可分辨集{x1,x2, x4 否 是 正常 否 x3},{x4,x6},{x5}被称为基本 x5 否 否 高 否 x6 否 是 很高 是 集合。 设论域U为有限集,R是U的等价关系簇,则K={U,R}称为知识库,知识库的 知识粒度由不可分辨关系Ind(R)的等价类反映。
2.1 粗糙集的基本概念
例:以医疗信息表为例,对于属性子集 属性 条件属性C R={头疼,肌肉疼}={r1,r2},计算样本子 对象 头疼r1 肌肉疼r2 集X={x1,x2,x5}的上近似集、下近似集、 x1 是 是 正域、边界域。 x2 是 是 x3 是 是 解: x4 否 是 ①计算论域U的所有R基本集: x5 否 否 U|Ind(R)={{x1,x2,x3},{x4,x6},{x5}} x6 否 是 令R1={x1,x2,x3} R2={x4,x6} R3={x5} ②确定样本子集X与基本集的关系 X∩R1={x1,x2}≠φ X∩R2=φ X∩R3={x5}≠φ ③计算R-(X)、R-(X)、Pos(X)、Bnd(X): R-(X)=R3={x5} R-(X)=R1∪R3={x1,x2,x3,x5} Pos(X)=R-(X)={x5} Bnd(X)=R-(X)-R-(X)={x1,x2,x3} ④计算近似精确度:
粗糙集与数据约简 (基于粗集理论的数据约简)
1
2
不确定性理论
粗糙集的基本理论与方法
3
4 5 6
知识的约简
决策表的约简
粗糙集数据约简的具体实现与应用
粗糙集的研究现状与展望
1、不确定性理论
自然界和人类的社会活动的各种现象:确定性现象和不确定性现象。 确定性现象:在一定条件下必然会出现的现象。 不确定性的分类: 随机性:因为事物的因果关系不确定,从而导致事件发生的结果不 确定性。用概率来度量。概率表示事件发生可能性的大小。概率论 的运用是从随机性中去把握广义的因果律——概率规律。 模糊性:因为事件在质上没有明确的含义,在量上没有明确的界限, 导致事件呈现“亦此亦彼”的性态,是事物类属的不确定性,用隶 属度来度量。隶属度表示事物多大程度属于某个分类。模糊集合论 的运用从模糊性中去确立广义的排中律——隶属规律。 粗糙性:因为描述事件的知识(或信息)不充分、不完全,导致事 件间的不可分辨性。粗糙集把那些不可分辨的事件都归属一个边界 域。因此,粗糙集中的不确定性是基于一种边界的概念,当边界域 为一空集时,则问题变为确定性的。
1、不确定性理论
经典集合、模糊集合、粗糙集的关系
经典集合认为一个集合完全有其元素所决定,一个元素要么属于这个集合, 要么不属于这个集合。其隶属函数μX(x)∊{0,1}是二值逻辑。 模糊集合认为事物具有中介过渡性质,而非突然改变,集合中每一个元素 的隶属函数μX(x)∊[0,1],即在闭区间 [0,1] 可以任意取值,隶属函数可 以是连续光滑的,因此模糊集合对不确定信息的刻划是精细而充分的。但 隶属函数不可计算,凭人的主观经验给定。 粗糙集合把用于分类的知识引入集合。一个元素x是否属于集合X,需要根 据现有知识来判定,可分为三个情况:①x肯定不属于X;②x肯定属于X; ③x可能属于也可能不属于X。到达属于哪种情况依赖于我们所掌握的关于 论域的知识。粗糙集的隶属函数为阶梯 状,对不确定性信息的描述是粗糙的, 1.0 但粗糙隶属函数是可计算的。粗糙集主 0.8 0.6 要用于对信息系统进行约简和分类。
2.1 粗糙集的基本概念
粗糙度(近似精确度) 对于知识 R(即属性子集),样本子集 X 的不确定程度可以用粗糙 度αR(X)来表示为
R X
Card R X Card R X
αR(X)亦称近似精确度,式中Card表示集合的基数(集合中元素的 个数)。 0≤αR(X)≤1,如果 αR(X)=1,则称集合 X 相对于 R 是确定的,如 果αR(X)<1则称集合X相对于R是粗糙的,αR(X)可认为是在等价关 系R下逼近集合X的精度。
相关文档
最新文档