粗糙集理论与算法初步

合集下载

《粗糙集理论简介》课件

粗糙集理论的基本概念
1 等价关系
用于将数据分类为等价类别，从而进行分类和推理。
2 下近似集
表示数据集的最小粗糙近似。
3 上近似集
表示数据集的最大精确近似。
4 决策规则
基于等价关系和近似集提供对数据进行决策的方法。
粗糙集理论的应用领域
数据挖掘
粗糙集理论可用于特征选择、数据降维和模式发现等领域。
人工智能
粗糙集理论可应用于机器学习、模式识别和决策支持系统。
风险分析
粗糙集理论可用于风险评估和决策风险分析等领域。
粗糙集理论的基本原理
1
等价关系
通过将数据划分为等价类别来进行数据分析。
2
ห้องสมุดไป่ตู้
近似集
使用上近似集和下近似集来描述数据的精确和粗糙性。
3
决策规则
利用近似集和等价关系进行决策分析和推理。
粗糙集理论的优点和局限性
优点
适用于不完整和不确定的数据
结合领域知识进行灵活分析
局限性
计算复杂性较高，对大数据集处理困难
粗糙集理论在数据挖掘中的应用
数据预处理
粗糙集可用于数据清洗和特征选择。
模式挖掘
粗糙集可用于发现数据中的隐含模式。
决策支持
粗糙集可用于提供决策支持和分析。
结论和总结
通过本课程，我们了解了粗糙集理论的定义、起源和基本概念。我们探讨了其在不同领域的应用，并分析了其优点和局限性。最后，我们介绍了粗糙集理论在数据挖掘中的具体应用。希望本课程能够帮助大家更好地理解和应用粗糙集理论。
粗糙集理论简介
欢迎各位来到今天的演讲，本课程将介绍粗糙集理论的定义、起源以及应用领域，同时分析其基本原理和优点局限性，最后探讨其在数据挖掘中的应用。

粗糙集理论介绍

粗糙集理论介绍面对日益增长的数据库，人们将如何从这些浩瀚的数据中找出有用的学问？我们如何将所学到的学问去粗取精？什么是对事物的粗线条描述什么是细线条描述？粗糙集合论Pl答了上面的这些问题。

要想了解粗糙集合论的思想，我们先要了解一下什么叫做学问？假设有8个积木构成了一个集合A,我们记：A={xl,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色属性，根据颜色的不同,我们能够把这积累木分成Rl={红,黄,兰} 三个大类，那么全部红颜色的积木构成集合Xl = {xl,x2,x6},黄颜色的积木构成集合X2={x3,x4},兰颜色的积木是：X3={x5,x7,x8}o根据颜色这个属性我们就把积木集合A进行了一个划分(所谓A的划分就是指对于A中的任意一个元素必定属于且仅属于一个分类)，那么我们就说颜色属性就是一种学问。

在这个例子中我们不难看到，一种对集合A的划分就对应着关于A中元素的一个学问，假如还有其他的属性，比如还有外形R2={三角,方块,圆形},大小R3={大,中,小},这样加上Rl 属性对A 构成的划分分别为：A/R1={X1 ,X2,X3}={(X1 ,x2,x6},{x3,x4)4x5,x7,x8},(颜色分类) A∕R2={Yl,Y2,Y3}={{xl,x2},{x5,x8},{x3,x4,x6,x7}}(外形分类)A∕R3={Z1,Z2,Z3)={{x1,x2,x5},{x6,x8},{x3,x4,x7}}(大小分类) 上面这些全部的分类合在•起就形成了•个基本的学问库。

那么这个基本学问库能表示什么概念呢？除了红的{xl,x2,x6}、大的{xl,x2,x5}、三角形的{xl,x2)这样的概念以外还可以表达例如大的且是三角形的{xl,x2,x5}∩{xl,x2)={xl,x2}, 大三角{xl,x2,x5}∩{xl,x2}={xl,x2}，兰色的小的圆形({x5,x7,x8)∩{x3,x4,x7}∩{x3,x4,x6,x7}={x7},兰色的或者中的积木{x5,x7,x8} U {x6,x8)={×5,x6,x7,x8}β而类似这样的概念可以通过求交运算得到，比如Xl与Yl的交就表示红色的三角。

粗糙集理论的使用方法与步骤详解

粗糙集理论的使用方法与步骤详解引言：粗糙集理论是一种用来处理不确定性和模糊性问题的数学工具，它在数据分析和决策支持系统中得到了广泛的应用。

本文将详细介绍粗糙集理论的使用方法与步骤，帮助读者更好地理解和应用这一理论。

一、粗糙集理论概述粗糙集理论是由波兰学者Pawlak于1982年提出的，它是一种基于近似和粗糙程度的数学理论。

粗糙集理论的核心思想是通过对属性间的关系进行分析，识别出数据集中的重要特征和规律。

它主要包括近似集、正域、决策表等概念。

二、粗糙集理论的使用方法1. 数据预处理在使用粗糙集理论之前，首先需要对原始数据进行预处理。

这包括数据清洗、数据变换和数据归一化等步骤，以确保数据的准确性和一致性。

2. 构建决策表决策表是粗糙集理论中的重要概念，它由属性和决策构成。

构建决策表时，需要确定属性集和决策集，并将其表示为一个矩阵。

属性集包括原始数据中的各个属性，而决策集则是属性的决策结果。

3. 确定正域正域是指满足某一条件的样本集合，它是粗糙集理论中的关键概念。

通过对决策表进行分析，可以确定正域，即满足给定条件的样本集合。

正域的确定可以通过计算属性的约简度或者使用启发式算法等方法。

4. 近似集的计算近似集是粗糙集理论中的核心概念，它是指属性集在正域中的近似表示。

通过计算属性集在正域中的近似集，可以确定属性之间的关系和重要程度。

近似集的计算可以使用不同的算法，如基于粒计算、基于覆盖算法等。

5. 属性约简属性约简是粗糙集理论中的一个重要问题，它是指从属性集中选择出最小的子集，保持属性集在正域中的近似表示不变。

属性约简的目标是减少属性集的复杂性，提高数据分析和决策的效率。

属性约简可以通过计算属性的重要度、使用启发式算法或者遗传算法等方法实现。

6. 决策规则的提取决策规则是粗糙集理论中的重要结果，它是从决策表中提取出来的一组条件和决策的组合。

决策规则可以帮助我们理解数据集中的规律和特征，从而做出更好的决策。

粗糙集

粗糙集(Rough Set)理论是由波兰数学家Pawlak在1982年提出的一种数据分析理论，常用于处理模糊和不精确的问题。

RS可以从大量的数据中挖掘潜在的、有利用价值的知识，它与概率方法、模糊集方法和证据理论方法等其他处理不确定性问题理论的最显著的区别在于：它无需提供问题所需处理的数据集合之外的任何先验信息（即无需指定隶属度或隶属函数）。

粗糙集是提供了严格的数学理论方法。

它把知识理解为对对象的分类能力。

它包含了知识的一种形式模型，这种模型将知识定义为不可区分关系的一个族集。

在信息检索过程中，由于文档中存在大量的多义和近义现象，导致不确定性出现，这将影响检索的性能。

为此采用基于互信息的粗糙集理论来处理这类不确定性问题。

动态约简技术探讨：利用标准的粗糙集方法来产生约简，即直接在原决策表的基础上计算所有的约简集，然后利用这些约简计算决策规则集合来分类未知对象。

这种方法对于未知对象的分类不总是足够充分的，因为该方法没有考虑到约简集的属性部分可能是混乱、不规则的。

动态约简是来自于在决策表的众多随机采样的子表中具有最大的出现频率的约简，在此意义上来说，利用动态约简来分类位置对象是最为稳定、可靠的。

经典粗糙集理论是建立在对象空间的等价类之上，采用上近似、下近似和边界的概念来分析对象的空间中不能由等价关系定义的子集的性质，是一种利用三值逻辑处理不精确或不完全信息的形式化方法。

有“智慧”，实际上是它们将外部环境和内部状态的传感信号分类，得出可能的情况，并由此支配行动，知识直接与真实或抽象世界有关的不同分类模式联系在一起。

因此，任何一个物种都是由一些知识来描述，对物种可以产生不同的分类。

从而如何在知识库中进行本质特征提取，发现最简决策表及最简分类规则集成为知识描述的关键。

从理论上看，智能信息处理的重要任务就是要从大量观察和实验数据中获取知识、表达知识、推理决策规则，特别是对于不精确、不完整的知识。

RS是处理不精确信息的有力工具。

《粗糙集理论介绍》

Then，there are:
I*(x)={x2，x4} 回 I*(x)={x1，x3，x7，x2，x4} 回
回24
近似的示意图
假定有一个信息系统, 有两个属性. 属性一有5个值, 属性二有6个值. 现在有一个要近似的集合(X), 在图
中用红色的圆表示.
仅使用第一个属性进行划分的情形. 正区域为空. 蓝色区域为负区域.
● 基本集：由论域中相互间不可区分的对象组成的集合，是组成论域知识的颗粒。
返回
例1 一玩具积木的集合如下表描述（表1）
R1(颜色) R2(形状) R3(体积)
X1
红
圆形
小
X2
蓝
方形
大
X3
红
三角形
小
X4
蓝
三角形
小
X5
黄
圆形
小
X6
黄
方形
小
X7
红
三角形
大
X8
黄
三角形
大
取不同的属性组合,可得不同的等价关系（粒度)为： IND（R1）＝{{x1,x3,x7}, {x2,x4}, {x5,x6,x8}} IND（R1,R2）＝{{x1}, {x2}, {x3,x7}, {x4}, {x5}, {x6}, {x8}}
Step2. 针对各个属性下的初等集合寻找下近似和上近似。
以“头疼＋肌肉痛＋体温”为例，设集合X为患流感的人的集合，I为3个属性构成的一个等效关系： {p1},{p2,p5},{p3},{p4},{p6}，则
X={P1,P2,P3,P6} I={{p1},{p2,p5},{p3},{p4},{p6}}
知识判断肯定属于X的对象所组成的最大集合，有时也称为X的正区（positive region），记做POS（X）

粗糙集理论与方法

粗糙集理论与方法
粗糙集理论与方法是一种用于处理不确定性和不完全信息的数学方法。

该方法最早由波兰科学家Zdzislaw Pawlak于1982年提出，其基本思想是基于约简和分割的思想对样本空间进行建模和分析。

粗糙集理论主要包括以下几个关键概念和步骤：
1. 近似集：粗糙集理论认为，一个对象可能属于多个不同的概念或类别，且我们不能确定其准确的分类。

因此，利用近似集的概念，我们可以将对象分成精确区域和不确定区域。

精确区域是指可以准确分类的对象，而不确定区域是指不能确定分类的对象。

2. 上近似和下近似：在粗糙集理论中，上近似是指包含所有精确分类对象的集合，而下近似是指包含所有不确定分类对象的集合。

上近似和下近似的交集被称为约简。

3. 属性重要性：对于给定的属性，粗糙集理论可以通过属性重要性来判断其对分类结果的贡献程度。

属性重要性可以通过信息熵、信息增益等指标来度量。

4. 属性约简：属性约简是粗糙集理论中的一个重要步骤，它的目的是通过删除某些不重要的属性来减少样本空间的复杂性，同时保持样本分类的准确性。

属性约简可以通过贪婪算法、遗传算法等进行求解。

粗糙集理论与方法在数据挖掘、决策分析、模式识别等领域具有广泛应用。

它可以处理不完整、不确定、模糊等问题，帮助人们对复杂的数据进行分析和决策。

粗糙集理论方法及其应用ppt课件

具有相同或相似信息的对象不能被识别。
粗糙集概念示意图
粗糙集理论方法及其应用病原体侵入机体，消弱机体防御机能，破坏机体内环境的相对稳定性，且在一定部位生长繁殖，引起不同程度的病理生理过程
2 粗粗糙糙集集理理论论思思想想
粗糙集理论方法及其应用病原体侵入机体，消弱机体防御机能，破坏机体内环境的相对稳定性，且在一定部位生长繁殖，引起不同程度的病理生理过程
2.3 粗糙近似
定义给定一个知识表示系统 S (U, A,V, f ) ， P A，X U ，x U ，集合 X 关于 I 的下近似、上近似、负区及边界区分别为
apr (X ) {x U : I(x) X} p
aprP (X ) {x U : I(x) X }
neg p ( X ) {x U : I (x) X }
2.2 不可分辨关系（Indiscribility relation)
❖ 不可分辨关系是一个等价关系(自反的、对称的、传递的）。
❖ 包含对象x的等价类记为I(x)。等价类与知识粒度的表达相对应，它是粗糙集主要概念，如近似、依赖及约简等，定义的基础
粗糙集理论方法及其应用病原体侵入机体，消弱机体防御机能，破坏机体内环境的相对稳定性，且在一定部位生长繁殖，引起不同程度的病理生理过程
决策属性(D)
U
a1
a2
a3
d
n1
High
Low
Low
Low
n2
Medium
High
Low
High
n3
High
High
High
High
粗糙集理论方法及其应用病原体侵入机体，消弱机体防御机能，破坏机体内环境的相对稳定性，且在一定部位生长繁殖，引起不同程度的病理生理过程

粗糙集理论与算法初步.ppt

PQk
posPQ
U
PX
XUQ
U
第一节
粗糙集理论
3、R0.5理论
粗糙集的近似集R0.5的提出
集合的相似度 A,B是论域U上的两个子集定义从U×U→[0,1]
的映射(A,B)→s(A,B)，称s(A,B)为A，B的相似度，如果满足如下条件： 1）任意U中的集合 A，B，s(A,B)有界； 2）对称性，即s(A,B)=s(B,A)； 3）s(A,A)=1，且s(A,B)=0的充要条件是A∩B为空集。
系族PS，对于任意P中的R，若 IND(P)≠IND(P-{R})成立，称R为P中必要的。独立性
如果对每一个P中R，R都是P中必要的，称P是独立的，否则称P是依赖的。显然，若P独立，则其任何子集G都是独立的。
知识约简
知识的约简知识库K和其上的一族等价关系PS，对
任意的GP，若: 1）G是独立的 2）IND(G)=IND(P) 称G是P的一个约简，记作G∈RED(P)。
注：知识表达系统主要有两种类型，信息系统以及决策系统。
知识表达系统的知识约简
信息系统中知识约简的一般步骤 Step 1：删除表中重复对象 Step 2：删除冗余的条件属性 Step 3：删除每个对象的冗余属性值 Step 4：求出其约减
决策表中知识约简的一般步骤 Step 5：根据约简，求出决策规则
的一组或单个系统参数。U中任意的概念X 以及独立于系统参数R的划分，有
参数R的重要度 sigRXUbU nRX
划分关于系统参数R的重要度 n UbnRXi sigR(U) i1 nU
粗糙集的数值特征
知识的依赖度知识库K=(U,S)，以及任意P,QIND(K)，
定义知识Q依赖于知识P的依赖度：

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

粗糙集合论的成员关系
粗糙包含关系知识库K=(U,S)，R IND(K)的一个等价关系，对任意U中的集合X，Y定义： 1）X为R下粗包含于Y R X R YX Y R

2）X为R上粗包含于Y
R X R Y X Y R
3）X为R下粗包含于Y，且同时X为R上粗包含 Y 于Y，称X粗包含于Y，记作 XR
粗糙集理论与算法初步
2012.9.19
第零节
前言
粗糙集发展历程

1970s，Pawlak和波兰科学院、华沙大学的一些逻辑学家，在研究信息系统逻辑特性的基础上，提出了粗糙集理的思想。在最初的几年里，由于大多数研究论文是用波兰文发表的，所以未引起国际计算机界的重视，研究地域仅限于东欧各国。 1982年，Pawlak发表经典论文《Rough sets》，标志着该理论正式诞生。

近似分类质量
RU
R U U
粗糙集的数值特征
系统参数的重要度知识库K=(U,S)，RIND(K)表示描述系统特性的一组或单个系统参数。U中任意的概念 X以及独立于系统参数R的划分，有参数R的重要度 U b n RX

s ig RX
U
Ub n X

粗糙集的近似集R0.5的提出

这里定义相似度为：
s(A, B) A B A B

隶属度函数定义：非空论域U，以及等价关系R，以及U中的对象子集X，对于任意的xX，隶属度定义为： X xR R R0.5的定义 X (x) xR
粗糙集的近似集R0.5的提出

由近似度定义可以得到粗糙集的上下近似集的表达 R R xx U , x 1 X X
知识范畴并的约简知识库K和其上的子集簇 Sub(2U)=F={X1,…,Xn}，对任意的GF，若 : 1）G在∪G中是独立的 2）∪G=∪F G R E D ( F ) 称G是∪F的一个约简，记作。知识范畴的核注：知识范畴并的核是唯一的但不满足 C O R E (F ) R E D F
知识的相对约简与相对核

必要性知识库K=(U,S)和知识库中的两个等价关系族P,QS，对于任意P中的R，若 POSIND(P)(IND(Q) ≠ POSIND(P-{R}) (IND(Q) 成立，称R为P中Q必要的。独立性如果对每一个P中R，R都是P中Q必要的，称P是Q独立的，否则称P是Q依赖的。
R X R X , R X , R X U
2）R-内不可定义，若 3）R-外不可定义，若
4）R-全不可定义，若
R X R X , R X , R X U
R X R X , R X , R X U
知识范畴的相对约简与相对核
知识范畴的相对约简知识库K和其上的子集簇 Sub(2U)=F={X1,…,Xn}，和一个集合YU，且∩FY，对于任意的GF，若: 1）G在∩F中相对于Y是独立的 2）∩GY R E D ( F ) 称G是∩F的一个Y约简，记作 G 。 Y 知识范畴的核
的基础，有力地推动了国际粗糙集理论与应用的深入研究。
粗糙集理论特点

所处理的内容是复杂系统中的数据和信息无需提供所出数据之外的任何先验信息对比模糊集方法，证据理论方法和概率方法等
第一节
粗糙集理论
第一节
粗糙集理论
1、相关定义
知识表达系统

知识和概念（范畴或信息粒）设U使我们感兴趣的对象组成的非空有限集合，称作一个论域。论域U的任何一个子集 X称作论域U中的一个概念或范畴。论域U中任何一个子集簇（概念簇）称作关于U的抽象知识，简称知识。论域中的每一个概念（子集）表示他的一个信息粒。知识库给定一个论域U和U上的一簇等价关系S，称二元组K=(U,S)是关于论域U的一个知识库。
粗糙集发展历程

1991年，Pawlak的第一本关于粗糙集理论的专著《Rough sets: theoretical aspects of reasoning about data》 1992年，Slowinski主编的《Intelligence
decision support: handbook of applications and advances of rough sets theory》的出版，奠定了粗糙集理论
R R U ,0 x 1 X xx X

另外，我们也可以定义X的λ 近似集: R R Xx U ( 0 , 1 ] 以及X的强λ 近似集: R R Xx U ( 0 , 1 )
粗糙集的近似集R0.5的近似度
粗糙集合论的成员关系
粗糙相等关系知识库K=(U,S)，R IND(K)的一个等价关系，对任意U中的集合X，Y定义： 1）X和Y为R下粗相等

R X R Y X Y R
2）X和Y为R上粗相等
R XR Y X Y R 3） X和Y为R下粗相等，且同时X和Y为R上粗相等，称X和Y为R粗相等，记作 X RY

知识范畴的相对约简与相对核
知识范畴的相对必要性与相对独立性知识库K=(U,S)和知识库中的一个子集簇 Sub(2U)=F={X1,…,Xn}，和一个集合YU，且∩FY，对于任意Xi，若

( F { X } ) Y i
称范畴Xi 在∩F中相对于Y必要的，同时F在 ∩F中是相对于Y也是独立的。

C O R E ( F ) R E D F Y Y

知识约简
知识的约简知识库K和其上的一族等价关系PS，对任意的GP，若: 1）G是独立的 2）IND(G)=IND(P) 称G是P的一个约简，记作G∈RED(P)。其中RED(P)表示P的所有约简组成的集合。有此可知，约简不一定唯一。

Hale Waihona Puke 知识约简知识的核知识库K=(U,S)和知识库中的一个等价关系族PS，对于任意P中的R，若： IND(P-{R})≠IND(P)称R为P中必要的。另外，P中所有必要的知识组成的集合称为P的核，记做CORE(P)=∩RED(P)。

{ YY URY , X }
上近似： R ( X ) { x x Ux , [] } R X
{ Y Y U R , Y X }

粗糙集和精确集
若X的上近似等于X的下近似，称X为R-精确集；若X的上近似不等于X的下近似，称X为R-粗糙集
粗糙集定义
第一节

必要性与独立性知识库K=(U,S)和知识库中的一个子集簇SPOS(U)=F={X1,…,Xn}，对于任意Xi，若 ∩F≠∩ (F-{Xi})，称R为P中必要的，也是独立的。
知识范畴的约简与核
知识范畴的约简知识库K和其上的子集簇 SPOS(U)=F={X1,…,Xn}，对任意的GF，若: 1）G是独立的 2） ∩ G= ∩F R E D (F )。称G是P的一个约简，记作G 知识范畴的核
定理：设X是有限论域U上的集合，R是U上的等价关系，对任意的0.5<λ ≤1，若： X R X X RX R X X RX
第一节
粗糙集理论
4、粗糙集的拓扑特征
粗糙集的拓扑特征
定义 1）R-粗糙可定义，若

R X R X , R X , R X U
R U RXi
i 1

n
下近似
R U RXi
i 1 n
粗糙集的数值特征
论域U和一个等价关系R，以及U的一个划分
Ux { , x ,, x } U
12 n
划分独立于知识R，于是定义：近似分类精度 R U U R RU

知识的相对核知识库K=(U,S)和知识库中的两个等价关系族P,QS，对于任意P中的R，若： POSIND(P-{R})(IND(Q))≠POSIND(P)(IND(Q)) 称R为P中Q必要的。
另外，P中所有必要的知识组成的集合称为P的核，记做COREQ(P)=∩REDQ(P)。
知识范畴的约简与核
3、R0.5理论
粗糙集的近似集R0.5的提出
集合的相似度 A,B是论域U上的两个子集定义从U×U→[0,1] 的映射(A,B)→s(A,B)，称s(A,B)为A，B的相似度，如果满足如下条件： 1）任意U中的集合 A，B，s(A,B)有界； 2）对称性，即s(A,B)=s(B,A)； 3）s(A,A)=1，且s(A,B)=0的充要条件是A∩B 为空集。
R P
等价关系
两个知识库的关系设K1 =(U,S1)，K2 =(U,S2)为两个知识库。若IND(S1)=IND(S2)，则K1 ，K2 等价，记作K1 ≌ K2 若IND(S1) IND(S2)，则称K1 比K2 更精细。

粗糙集定义
集合的下近似和上近似 RX ( ) { x x U ,[ x ] X } 下近似： R
知识的相对约简与相对核
知识的相对约简知识库K和其上的两族等价关系P,QS，对任意的GP，若: 1）G是Q独立的 2）POSG(Q)=POSP(Q) 称G是P的一个Q约简，记作G∈REDQ(P)。其中REDQ(P)表示P的所有约简组成的集合。有此可知，约简不一定唯一。

知识的相对约简与相对核
当λ =0.5时，Rλ有以下性质：定理：设X是有限论域U上的集合，R是U上的等价关系，对任意的0.5≤λ 1<λ 2≤1，有： s X , R X s X , R X 1 2