第一讲 Pawlak粗糙集模型
基于粗糙集理论的数据挖掘方法(2006.10.16)

关于属性选择
许多学习算法处理高维数据有困难, 并且大量 无关属性的存在, 也使得数据分析受到干扰. 目的是找到满足特定标准的最小的属性子集. 搜索算法起着重要的作用. 搜索算法可以用搜 索方向(前向, 后向, 双向), 搜索方式(穷尽搜索, 启发式, 非确定式)及评价方式(精确度, 一致性, 依赖度, 信息熵等)等三个方面来分类. 约简的特点是可以保持分类/近似能力不变。
x5
x6 x7
MBA
MCE MSc
Low
Low Medium
Yes
Yes Yes
Neutral
Good Neutral
Reject
Reject Reject
x8
MCE
x1
Low
x2 x3
No
x4
Excellent
x5 x6
Reject
x7 x8
x1 x2 x3 x4 x5 x6 x7 x8 er der dr def de der e defr der der er def efr def defr der
例如,x1的决策函数 为f(x1)=(e r) (d e r) (d r) (d e f) 整个Accept类的决策 函数为f(Accept)=f(x1) f(x2) f(x3) f(x4) 化成析取范式后,各 项就是Accept类最小 决策规则
粗糙集和其他理论方法结合
和模糊集(Fuzzy set) ►模糊粗糙集(Fuzzy-Rough set) ► 应用:特征选择 聚类 ►Rough K-means ►应用: Web挖掘
粗糙集的问题
粗糙集理论应用于实际数据分析时, 会遇到 -离散化: - 噪音: 过拟合 - 数据缺失: 如何“不可区分” ? - 大数据量: 计算复杂度太高.
粗糙集理论与模糊集理论的比较及其优势分析

粗糙集理论与模糊集理论的比较及其优势分析引言:在现实生活中,我们经常遇到一些模糊的问题,这些问题无法用确定的数值来描述。
为了解决这类问题,数学家们提出了粗糙集理论和模糊集理论。
本文将对这两种理论进行比较,并分析它们各自的优势。
一、粗糙集理论粗糙集理论是由波兰数学家Pawlak于1982年提出的,它主要用于处理信息不完全和不确定的问题。
粗糙集理论的核心思想是通过区分属性之间的重要性,将信息进行分类和划分。
粗糙集理论的主要特点是能够处理不完全信息和不确定性,适用于处理大量数据。
粗糙集理论的优势:1. 理论简单易懂:粗糙集理论的基本概念简单明了,易于理解和应用。
它不依赖于特定的领域知识,适用于各种领域的问题分析。
2. 数据处理能力强:粗糙集理论可以处理大量的数据,通过分类和划分,可以将复杂的问题简化为易于处理的子问题。
3. 可解释性强:粗糙集理论的结果可以通过决策规则的形式进行解释,使人们能够理解和接受结果。
二、模糊集理论模糊集理论是由日本数学家庆应大学的石原教授于1965年提出的,它主要用于处理模糊和不确定的问题。
模糊集理论的核心思想是通过模糊隶属度来描述事物之间的相似性和接近程度。
模糊集理论的主要特点是能够处理不确定性和模糊性,适用于处理模糊的问题。
模糊集理论的优势:1. 能够处理模糊信息:模糊集理论可以有效地处理模糊和不确定的信息,将不确定性量化为模糊隶属度,使问题的处理更加准确和可靠。
2. 灵活性强:模糊集理论的灵活性使其适用于各种领域的问题分析。
它可以灵活地调整模糊隶属度的取值范围,以适应不同的问题需求。
3. 数学理论成熟:模糊集理论已经成为一门独立的数学理论,具有严密的数学基础和丰富的应用经验。
三、粗糙集理论与模糊集理论的比较1. 理论基础:粗糙集理论是基于信息不完全和不确定性的处理,而模糊集理论是基于模糊和不确定性的处理。
两者的理论基础有所不同。
2. 处理能力:粗糙集理论主要用于处理大量数据的分类和划分,而模糊集理论主要用于处理模糊和不确定的信息。
粗糙集算法

DUFE管理科学与工程研究方法概论学号:2013100654专业:电子商务姓名:徐麟粗糙集理论一、粗糙集的来源与发展智能信息处理是当前信息科学理论和应用研究中的一个热点领域。
由于计算机科学与技术的发展,特别是计算机网络的发展,每日每时为人们提供了大量的信息。
信息量的不断增长,对信息分析工具的要求也越来越高,人们希望自动地从数据中获取其潜在的知识。
特别是近20年间,知识发现(规则提取、数据挖掘、机器学习)受到人工智能学界的广泛重视,知识发现的各种不同方法应运而生。
粗糙集(RoughSet,也称Rough集、粗集)理论是Pawlak教授于1982年提出的一种能够定量分析处理不精确、不一致、不完整信息与知识的数学工具。
粗糙集理论最初的原型来源于比较简单的信息模型,它的基本思想是通过关系数据库分类归纳形成概念和规则,通过等价关系的分类以及分类对于目标的近似实现知识发现。
由于粗糙集理论思想新颖、方法独特,粗糙集理论已成为一种重要的智能信息处理技术,该理论已经在机器学习与知识发现、数据挖掘、决策支持与分析等方面得到广泛应用。
粗糙集理论与应用的核心基础是从近似空间导出的一对近似算子,即上近似算子和下近似算子(又称上、下近似集)。
经典Pawlak模型中的不分明关系是一种等价关系,要求很高,限制了粗糙集模型的应用。
二、粗糙集的理论基础1、概念、可定义集从经典的角度来看,每个概念都包含其内涵和外延。
为了给出概念内涵和外延的具体描述,我们考虑一个简单的知识表达系统,即信息表。
信息表就是一组可定义集的形式化定义如下:在信息表M中,如果称子集XAU是可被属性子集AAAt定义的,当且仅当在语言L(A)中存在一个公式<使得X=m(<)。
否则,X 称为不可定义的。
2、近似空间语言L(A)的所有可定义集正好构造成一个R代数R(U/E(A)),即Def(U,L(A))=R(U/E(A))。
序对apr=(U,E(A))称为一个Pawlak近似空间,简称近似空间。
粗糙集方法与应用

辽宁省物流航运管理系统工程重点实验室
2.2 不精确范畴、近似与粗糙集
上近似和下近似 X关于R的上近似(Upper Approximation)定义为: R X a U : a R X
R ( x ) 是所有与X相交非空的等价类[a]R的并集,是那些 可能属于X的对象组成的最小集合。
粗糙集(Rough Sets)理论是由波兰数学家Pawlak Z 于1982年提出的。 粗糙集方法是基于一个机构(或一组机构)关于现实的 大量数据信息,以对观察和测量所得数据进行分类的能 力为基础,从中发现、推理知识和分辨系统的某些特点、 过程、对象等的一种方法。 经过二十多年的发展以及研究的深入,粗糙集方法在理 论和实际应用上都取得了长足的发展。在知识发现、数 据挖掘、模式识别、故障检测、医疗诊断等领域得到了 广泛应用。
辽宁省物流航运管理系统工程重点实验室
2.1 知识与不可分辨关系
不可分辨关系是物种由属性集P表达时,论域U中的等价 关系。U|ind(P)表示由等价关系ind(P)划分的所有等价类, 且将其定义为与等价关系P的族相关的知识,称为P基本 知识。同时,也将U|ind(P)记为U|P,ind(P)的等价类称为 关系P的基本概念或基本范畴。
辽宁省物流航运管理系统工程重点实验室
1.2 粗糙集的应用及与其他领域的结合
三、粗糙集与其他相关理论和领域 粗糙集与模糊集、证据理论的关系 粗糙集和神经网络 粗糙集与遗传算法 粗糙集与支持向量 粗糙集与自动控制
辽宁省物流航运管理系统工程重点实验室
二、粗糙集基本理论
2.1 知识与不可分辨关系
2.2不精确范畴、近似与粗糙集
上近似和下近似 当集合X能表示成基本等价类组成的并集时,则称集合X 是R可精确定义的,称作R精确集;否则,集合X是R不可 精确定义的,称作R非精确集或R粗糙集。对于粗糙集可 近似利用两个精确集,即下近似和上近似来描述。 X关于R的下近似(Lower Approximation)定义为: R X a U : a R X R X 是由那些根据已有知识判断肯定属于X的对象所组成 的最大的集合。
粗糙集的简单应用解析

Y
Y
Y
t4
N
Y
N
N
t5
N
N
Y
N
t6
N
Y
Y
Y
t7
N
N
Y
Y
t8
N
Y
Y
Y
根据粗糙集理论,论域 U {t1,t2,t3,t4,t5,t6,t7,t8} ,条件属性
集 C {P,Q, R},决策属性集 D {S}。
粗 糙 集
数据清洗
一、利用正域约简 计算正域:
posC (D) {t1, t2 , t3, t4 , t6 , t8}
粗糙集数据挖掘
粗糙集规则提取
粗
糙
解释模型得出结论
集
数据清洗
下表是某电子商店的购物记录,P、Q、R、S代表四种商品; Customer No.为客户号;“Y”表示购买了某商品;“N”表示 没有购买某商品
粗 糙 集
数据清洗
条件属性
决策属性
Customer No.
P
Q
R
S
t1
Y
Y
N
N
t2
Y
Y
Y
Y
t3
Y
定理1 如果 A 是独立的,P A,则 P 也是独立的。 粗 糙 集
2.知识约简
定义2.3 设 S (U , A,V , f ) 为一个信息系统,P A,如果P 是 独立的,且 ind(P) ind(A),则称P 是 A 的一个约简。
定义2.4 设 S (U , A,V , f ) 为一个信息系统,A 中所有必要属 性组成的集合称为属性集 A 的核,记为 core( A) 。
粗
1.信息系统
粗糙集概述

粗糙集理论的应用
粗糙集理论是一门实用性很强的学科, 从诞 生到现在虽然只有十几年的时间, 但已经在 不少领域取得了丰硕的成果, 如近似推理、 数字逻辑分析和化简、建立预测模型、决策 支持、控制算法获取、机器学习算法和模式 识别等等.
不可分辨关系与基本集 分类过程中, 相差不大的个体被归于同一类, 它们的关系就是不可分 辨关系. 假定只用两种黑白颜色把空间中的物体分割两类, {黑色物 体},{白色物体},那么同为黑色的两个物体就是不可分辨的, 因为描 述它们特征属性的信息相同, 都是黑色. 如果再引入方,圆的属性, 又 可以将物体进一步分割为四类: {黑色方物体},{黑色圆物体},{白色 方物体},{白色圆物体}. 这时, 如果两个同为黑色方物体, 则它们还 是不可分辨的. 不可分辨关系也称为一个等效关系 , 两个白色圆物体 间的不可分辨关系可以理解为它们在白,圆两种属性下存在等效关系. 基本集定义为由论域中相互间不可分辨的对象组成的集合, 是组成论 域知识的颗粒. 它深刻地揭示出知识的颗粒状结构 , 是定义其它概念 的基础.
粗糙集理论的产生和发展
在二十世纪70年代, 波兰学者Z.Pawlak 和一些波兰科学院的逻 辑学家们,一起从事关于信息系统逻辑特性的研究. 粗糙集理论就 是在这些研究的基础上产生的. 1982年, Z. Pawlak 发表了经典 论文Rough Set s , 宣告了粗糙集理论的诞生. 此后, 粗糙集理论 引起了许多数学家,逻辑学家和计算机研究人员的兴趣, 他们在粗 糙集的理论和应用方面作了大量的研究工作.1991 年Z. Pawlak 的专著和1992 年应用专集的出版, 对这一段时期理论和实践工作 的成果作了较好的总结, 同时促进了粗糙集在各个领域的应用. 此 后召开的与粗糙集有关的国际会议进一步推动了粗糙集的发展. 越 来越多的科技人员开始了解并准备从事该领域的研究. 目前, 粗糙 集已成为人工智能领域中一个较新的学术热点, 在机器学习,知识 获取,决策分析,过程控制等许多领域得到了广泛的应用
粗糙集的知识表示

粗糙集的知识知识表示信息论的度量主要任务是:度量颗粒性只是属性特征的重要性和属性特征之间的相依性程度。
主要内容:信息论的度量:信息熵,条件熵和互信息引入粗糙集理论,揭示知识粗糙性和信息之间的关系。
1 粗糙集中的知识表示知识表示是人工智能和智能信息处理的首要问题。
基于粗糙集理论的知识表示的着眼点:知识时一种对事物的分类能力。
知识表达系统可看成关系数据库,关系表的行对应要研究的对象,关系表的列对应对象的属性,对象信息通过指定各对象的各属性值来表达。
1.1定义:知识系统称四元组F)V,A,U,KRS (=是一个知识表达系统,其中, U :对象的非空有限集合,称为论域;A :属性的非空集合V :全体属性的值域,的值域表示属性,A a V V V a a ∈= ;F:表示V A U →⨯的一个映射,称为信息函数。
信息系统常简记为:(U,A )。
知识表达系统主要有两种类型:一类是信息系统(信息表),即不含决策属性的知识表达系统;另一类是决策系统(决策表),即含有决策属性的知识表达系统。
在Pawlak模型中,关系数据库的一个属性对应一个等价关系。
一个关系数据表可以看作论域U和U上的一簇等价关系的二元序偶,即一个知识库或者近似空间。
知识约简可转化为属性约简和属性值的约简。
信息系统和决策表的举例:2知识约简原理在知识表达系统中,知识约简考察的是信息系统或决策表中给出的所有知识是否都必要。
一般而言,知识表达系统中含有冗余的知识和信息。
约简任务之一就是保持原始信息系统或者决策表的分类能力不变的前提下,删除知识表达系统中冗余知识。
对信息系统而言,这一过程为知识约简;对决策表而言,这一过程为知识的相对约简。
决策表中所有条件属性对于决策而言并非同等重要,甚至有些属性是不必要的,也就是冗余的。
通常,在信息系统和决策表中存在两种类型的冗余:1)属性从整体的角度而言存在冗余;2)从整体上讲某个属性是必要的,但某些对象在该属性上的取值可能存在冗余,即属性值的冗余。
粗糙集理论及其用于属性约简

粗糙集理论及其用于属性约简在自然科学、社会科学与工程技术的很多领域中,都不同程度地涉及到对不确定因素和不完备信息的处理。
从实际系统中采集到的数据常常包含着噪声、不精确甚至不完整,采用纯数学上的假设来消除或回避这种不确定性,效果往往不理想。
多年来,研究人员们一直在努力寻找科学地处理不完整性和不确定性的有效途径,并先后提出了众多的软计算(Soft Computing)方法。
软计算的指导原则是利用所允许的不精确性、不确定性和部分真实性得到易于处理、鲁棒性强和成本较低的解决方案,以便更好地与现实系统相协调,主要工具包括粗糙集(Rough sets)、模糊逻辑(Fuzzy Logic)、神经网络(Nerve Network)、概率推理(Probability Reasoning)、信度网络(Belief Network)、遗传算法(Genetic Arithmetic)、混沌理论(Chaos)等。
粗糙集(Rough Sets,也称粗集、Rough集)理论是由波兰华沙理工大学Pawlak 教授于20 世纪80 年代初提出的一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法。
粗糙集方法的一个特点是不需要附加信息或先验知识,而这一点是其它方法无法做到的,如模糊集方法与概率统计或证据理论方法中,往往需要模糊隶属函数、基本概率指派函数(Basic Probability Assignment, BPA)和有关统计概率分布等,而这些信息有时并不容易得到。
正是基于这一优点,粗糙集理论得以迅速兴起,并逐渐成为人工智能界以及其它处理不确定性领域的研究热点。
粗糙集的研究对象是由一个多值属性集合描述的一个对象集合,对于每个对象及其属性都有一个值作为其描述符号,对象、属性和描述符号是表达决策问题的三个基本要素。
这种表达形式也可以看成为一个二维表格,即决策表;表格的行与对象相对应,各行包含了表示相应对象信息的描述符,还有关于各个对象的类别成员的信息;列对应于对象的属性,属性分为条件属性和决策属性,对象根据条件属性的不同,被划分到具有不同决策属性的决策类。