基于粗糙集的符号与数值属性的快速约简算法

合集下载

基于分辨相似矩阵的相似粗糙集的属性约简算法

基于分辨相似矩阵的相似粗糙集的属性约简算法

基于 等价 关系的经 典粗糙集 是在保持知识系统分类能力 不变的条件下 , 通过求取核 与约简挖掘出信息系统 中潜在 的、 简洁的知识,从而为知识获取提供 了一套 全新 的方法。但对 于实际问题等价关系要求过于严格 ,如要描述一个对象通常 是通 过该对象 的一些属性 ,这些属性 中有 的是单值属性 ,而 有些则为多值属性 。单值属性对应论域 上的一个等价关系 , 而多值属性则对应论域 上的一个相似关系 ( 满足 自反性和对 称性)。另外 ,在数据收集时可能不知道某属性 的具体值 , 而只知道 它町能取几个值之 中的一个 ,即 多值粗糙 集 ,这也 是相似关系 ;还有 ,由于数据测最 的误差 、对数据理解或获 取的限制等原 因,使得在知识获取时可能存在对象 的一些属 性值未知 ,即知识 系统有空值或缺省值 ,这时面临 的是不完
d s e n b ea d sm i rma rx a e d fn d i h i l ri t r t n s tm s An a e n i t e a g rt m fa ti u er du to n o e i i lr i c r i l n i l ti r e i e t e s mi n o ma i yse . d b s d o t h l o i a n a o , h o t b t e c i n a d c r n smia r
维普资讯
第 3 卷 第 1 期 2 O
I L3 1 2 o


算 机


Байду номын сангаас
20 0 6年 5月
M ay 20 6 0

Co mp t rEn i e rn u e gn e i g
软件技术与数据库 ・

一种粗糙集属性约简算法

一种粗糙集属性约简算法
Li Ka Li s u W a g Le n u Yu h n i
( e a me to o p t cec n nier g B rn ntue o eh o g ,ej g 10 8 ) D p r n fC m u rS i ea d E gn e n , e ig Is tt fT c nl y B in 0 0 1 t e n i i o i
tru h e n io a e t p .h e tatb t rd cin s te e ih au i i nmu o v rg o ee a c ho g o dt n l nr yT e b s t iue e u t i h stwhc v le s te mii m f aea e f rlv n e l o r o l o t b tsT e x ei n s o s h t t a gt etr f cii .ial i e rd cin e ut o U f al ue h e p r i f me t h w ta i c n e b t e e t t Fn l t t e u t rs l f CI 山 hb 8 s e vy y. g o s Lne
, .
i o t n ter, e ae e t b  ̄ rd ci e y i miib ar ,n o p t rl ac t ̄ue n r i hoyt ppr gt a f u eu t n stb d f ma o -h s i o  ̄e bl 'm tx ad em u ̄ e vne o a c ts i i e f t
1 引言
粗 糙 集 ( o g tSt理 论 是 一 种 处理 模 糊 和不 确 定 知 识 的 R uh e) 数 学 工 具 , 早 由波 兰数 学 家 ZP wa 最 a1k在 18 9 2年提 出 的『 ” 。它 已经 在 数 据 挖 掘 人 智 能 、 式 识 别 与 分 类 等 领 域 获 得 了较 模 广泛 的应 用叩 41 性 约 简 是 R u h St 论 研 究 的一 个 核 心 ’ 3 属 o g e 理 内容 。 们 希 望 找 到 最 佳属 性 约 简 。 而 Wo g .. 和 Zak . 人 然 n SKM l o r W 已经 证 明它 是 N - a 问 题H 因 而 目前 还 没 有高 教 的最 佳 P h ̄ 属 性 约简 算 法 。 过 . 在实 际 应 用 中 , 求 得 到 相 对属 性约 简 就 要 可 了 许 多研 究人 员 已提 出 了属性 约 简 算 法 1 8。 目前许 多研 究人 员在 对 属 性 约 简 的研 究 中 . 约 简 结 果 的 将 标 准定 为 约 简 后 属 性 数 最 少 . 者 是 得 到 的 规 则 最 简 , 约 简 或 或 量 最 大 。但 从 数 据 库 理 论 的 角 度 考虑 , 性 的冗 余 、 性 间 的 属 属 依 赖 要 尽 可 能 地 小 。正 是 基 于这 些 , 文 利用 R u hS t 论 , 该 o g 理 e

粗糙集

粗糙集


对于上表来说,U中有四个对象(概念),而现 在条件集合中只有一个属性,对于U1和U2来说, 它们的p不同所以可以通过p来区分,即u1,u2在p 下可区分;而U2和U3虽然是不同的对象但是在P 下却是相同的,即在p下不可区分,就成为不可 区分
粗糙集:
一个集合若恰好等于基本集的任意并集称为一个清晰 (crisp)集(精确集),否则称为粗糙(rough)集(不 精确集)。 解释:都可区分的是清晰集,有不可区分的对象为粗糙 集 主要特点:以不完全信息或知识去处理一些不分明现象的 能力,或依据观察、度量到的某些不精确的结果而进行分 类数据的能力. 粗糙集体现了集合中元素间的不可区分性. 主要优势:它不需要提供问题所需处理的数据集合之外的 任何先验知识,而且与处理其它不确定性问题的理论有很 强的互补性.
粗糙集理论所处理的问题
•不确定或不精确知识的表达; •经验学习并从经验中获取知识; •不一致信息的分析; •根据不确定,不完整的知识进行推理; •在保留信息的前提下进行数据化简; •近似模式分类; •识别并评估数据之间的依赖关系
三、粗糙集的应用
粗糙集理论在许多领域得到了应用: ①临床医疗诊断;
②电力系统和其他工业过程故障诊断;
3. 如果P中的任何一条属性都是不 可简约的,那么就称P是独立的 解释:P是独立的说明P中的任何一个属性都是必 不可少的,它独立的表达一个系统分类的特征。
属性约简的算法分析:
初始状态:所有数据已存入数据库(以下为模拟数据)
u 1 2 3 4 5 6
a 1 1 0 1 1 2
b 0 0 0 1 1 1
集合O 的下逼近(即正区) 为 I 3 (O ) = PO S (O ) = {刘保,赵 凯} 集合O 的负区为 N EG (O ) = {李得} 集合O 的边界区为 BND (O ) = {王治, 马丽} 集合O 的上逼近为 I 3 (O ) = PO S (O ) + BND (O ) = {刘保,赵凯,王治,马 丽} 根据表1, 可以归纳出下面几条规则, 揭示了教育程度与 是否能找到好工作之间的关 RUL E 1: IF (教育程度= 大学) OR (教育程度= 博士) THEN (可以找到好工作) RUL E 2: IF (教育程度= 小学) THEN (找不到好工作) RUL E 3: IF (教育程度= 高中) THEN (可能找到好工作)

基于粗糙集和模糊聚类方法的属性约简算法

基于粗糙集和模糊聚类方法的属性约简算法

{) d 表示 。 B C Y ,EU , ) 若 C , xY ,≠y 称二 元关 系ID ( ,d ) _ N = B {}=
{ ,) U U I ()d y 或者口 B,()Ⅱy } ( Y ∈ x d = ( ) ∈ 口 = ()为不可分辨
关系。
1 . 粗 糙 集 2
京 : 子 工 业 出 社 .0 8 电 2o . ( 任编 辑 : 责 王 钊)
[ ] 杜 芳 芳. 析基 于 We 1 浅 b数 据 挖 掘 的 电子 商务 网站 架构 []电子 J.
商务 .0 0 2 . 2 1( )
[ ] 苗夺谦 , 道 国. 2 李 粗糙 集理 论 、 法 与应 用 [ . 算 M] 北京 : 清华 大 学 出
性口∈A的值域
。 一 单 射 , 论 域 u中的 任一 元 素取 属 为 使
性。 V 中的某 一 唯一 值 。 在 A由条件 属性 集 合C 决策 属性 集合 和 D组 成, 和D满 足 CLD A, C J = CND d,则 称S 决策 系 统 ,用( =? 为
CuD) 示 ; 表 当决 策 属 性 集 合 只 有 一 个 元 素 时 , 常 用( 也 CU
_
方 法4算术平 均最小 法 :
负 域 ,n ( = 一 X成 为 的曰边 界 域 。 b ) B
_
公 )_宰 式 ( : , _ L
隶属 函数 。
I JN () l L IDB
称 元 集 粗 为 素对 合 的 糙

1 m
(I ) x+ k
e方 法 5几 何 平 均 最 小 法 :
若 I D( =N B a )a∈B,称B为 中 的 不 必 要 属 性 , N B)I D( 一{} , 。 反

基于粗糙集的CBR系统属性约简改进算法

基于粗糙集的CBR系统属性约简改进算法

方法选择非核属性 ,增加反向删除操作。该算法能够充分反映专家经验知识,保证得到一个 P w a al k约筒,大 幅度提高案例 的检索效率。
运用 Ma a 编程实现了该算法 ,通过实例对算法进行分析、对 比,证明了其正确性 和有效性 。 db 关健诃 :粗糙集 ;基于案例推理 ;属性重要度 ;属性约简
[ src|T ip pr rp ssa lo tm ae ni rv druhst n rt amet to r ei o be T ea o tm osh Abta t hs a e o oe nag rh b sdo p i mpoe o g e ada er t n h df c int l. h l rh d e e p e me od s a gi t
S UN a .i g , N h . u WANG i Y h qn YI S u h a, J
( . p rme t fGr d aeSu e t a a e n, ’nCo 1 De at n o a u t td n M n g me tXia mmu iainIsi t, ’n71 0 ; nct o n tt e Xia 01 6 u
1 橇 述
粗糙集理论 自 1 8 年提出以来 ,已经在数据分析、数据 92 挖掘、机器 学习等多个领域中得到广泛应用 J ,属性 约简则 是粗糙集理论研究的核心问题之一 。采用粗糙集方法对基于 案例推理(aeB sd R ao ig B ) C s. ae esnn,C R 系统中的案例进行属
3 Sa o m f l ayOp c l b r m nc t n Xi nC mmu iainIsi t, ’ 1 6 Mi t i F C i a nc t tu e Xi 7 0 0 ) o n t n a 1

粗糙集理论的使用方法与步骤详解

粗糙集理论的使用方法与步骤详解

粗糙集理论的使用方法与步骤详解引言:粗糙集理论是一种用来处理不确定性和模糊性问题的数学工具,它在数据分析和决策支持系统中得到了广泛的应用。

本文将详细介绍粗糙集理论的使用方法与步骤,帮助读者更好地理解和应用这一理论。

一、粗糙集理论概述粗糙集理论是由波兰学者Pawlak于1982年提出的,它是一种基于近似和粗糙程度的数学理论。

粗糙集理论的核心思想是通过对属性间的关系进行分析,识别出数据集中的重要特征和规律。

它主要包括近似集、正域、决策表等概念。

二、粗糙集理论的使用方法1. 数据预处理在使用粗糙集理论之前,首先需要对原始数据进行预处理。

这包括数据清洗、数据变换和数据归一化等步骤,以确保数据的准确性和一致性。

2. 构建决策表决策表是粗糙集理论中的重要概念,它由属性和决策构成。

构建决策表时,需要确定属性集和决策集,并将其表示为一个矩阵。

属性集包括原始数据中的各个属性,而决策集则是属性的决策结果。

3. 确定正域正域是指满足某一条件的样本集合,它是粗糙集理论中的关键概念。

通过对决策表进行分析,可以确定正域,即满足给定条件的样本集合。

正域的确定可以通过计算属性的约简度或者使用启发式算法等方法。

4. 近似集的计算近似集是粗糙集理论中的核心概念,它是指属性集在正域中的近似表示。

通过计算属性集在正域中的近似集,可以确定属性之间的关系和重要程度。

近似集的计算可以使用不同的算法,如基于粒计算、基于覆盖算法等。

5. 属性约简属性约简是粗糙集理论中的一个重要问题,它是指从属性集中选择出最小的子集,保持属性集在正域中的近似表示不变。

属性约简的目标是减少属性集的复杂性,提高数据分析和决策的效率。

属性约简可以通过计算属性的重要度、使用启发式算法或者遗传算法等方法实现。

6. 决策规则的提取决策规则是粗糙集理论中的重要结果,它是从决策表中提取出来的一组条件和决策的组合。

决策规则可以帮助我们理解数据集中的规律和特征,从而做出更好的决策。

基于粗糙集与遗传算法的储层识别技术


{ :
( 4 )
f , ( 一 F ) / ( P m 一 ) F ≥
P= { [ c 0 , c 1 ) , [ c l , c 2 ) , …, [ c , c + 1 】 j
对于任意的 P = U P 在原有决策系统的基础上 ,
可定 义一个新 的决策表 S e = ( ( , , A, ) 。 对 于 Vx∈U,
1 ) 利用式 ( 1 ) , 计 算 知 识 表 达 系 统 : ( , A, V 厂 ) 中, 条件 属性 C对 决策 属性 D 的 支持度 k , ? ( D) 。 2 ) 假设 c o r e ( C) = , 对 于每 一个 条件 属 性 C ∈C, 利用 式 ( 3 ) 计算 其 对 决 策属 性 D 的 重要 性 s } e ) 。
识 约 简 问 题 的实 际 要 求 , 定 义 个 体 的适 应 值 函数
F ( x ) 为
式中 : c为 条件 属 性集 C中 的一 个 元素 ; s 锄 1 c ) 为c 对决 策属 性集 D 的重 要性 。
1 . 2 基 于布 尔逻 辑 的属 性 离散 化算 法
) = ( 1 一 ] 针)
决 策属 性 D 的支持 度 k ( D) 定义 为
耻 ( 1 )
若s
1 ( c ) ≠0 , 则令 c o r e 。 ( C) = c o r e 。( c) U{ c} , 最终

得 到 C对 D 的相 对核 。 当k c o r e ( D) ( D) 时, c o r e 。 ( C) (  ̄) 即为最 小约 简 ; 否则 k c o r e ( z ) ) ( D) , 执 行步骤 3 ) 。 ( C)

一种高效的粗糙集属性约简算法

一种高效的粗糙集属性约简算法【摘要】本文将递归和贪心算法的思想融入粗糙集理论的快速属性约简中,提出了一种较为高效的粗糙集属性约简算法。

该算法在保证约简质量的情况下,较大的提高属性约简的效率,实验仿真结果说明了该算法的高效性。

【关键词】粗糙集;属性核;属性约简;递归;贪心算法引言属性约简是粗糙集理论的一个重要研究内容,目前已经提出了许多经典的属性约简算法[1—6]。

得到决策表的最小约简是一个np 难题,现有的算法大多是以属性重要性为启发性知识得到一个相对约简。

文[1,2]给出了基于属性重要性的属性约简算法和归纳属性约简算法。

文[3,4]给出了基于信息熵的约简算法。

文[5]一种基于快速排序的属性约简算法。

文献[6]给出了一种基于蚁群优化的属性约简算法。

文献[7]给出了一种基于克隆选择的属性约简算法。

然而这些算法的时空复杂度都比较高,对于大数据的处理能力还不足。

本章结合递归的思想,将大数据集转化为多个小数据集来计算属性核,然后在利用贪心算法的思想进行属性约简,从而有效的提高了属性约简算法的运行效率。

1 相关概念以下将粗糙集属性约简的相关概念作简单介绍。

2 基于递归和贪心算法思想的快速属性约简算法本文中提出的属性约简算法首先计算属性核,然后在属性核的基础上采用贪心算法的思想进行属性约简。

首先给出递归思想计算属性核的理论基础。

3 仿真实验windows环境下采用vc6.0开发工具在个人计算机(windowsxp,cpu:p4 2.6,内存512)上进行实验仿真。

4 结束语理论证明得到决策表的最小属性约简是np难题。

本文综合利用递归和贪心算法的思想提出了一种较为高效的相对属性约简算法。

如何进一步提高该算法的效率是下一步研究的重点。

【参考文献】[1]王国胤.rough集理论与知识获取[m].西安交通大学出版社,2001.[2]x h hu, n cercone. learning in relational database:a rough set approach[j]. international. journal. of computational intelligence,1995,11(2):323—338.[3]王国胤,于洪,杨大春.基于条件信息熵的决策表约简[j].计算机学报,2002,25(7):759—766.[4]沈永红,王发兴.基于信息熵的粗糙集属性离散化方法及应用[j].计算机工程与应用,2008,05(8):221—224.[5]刘少辉,盛球戬,吴斌,等.rough集理论高效算法的研究[j].计算机学报,2003,5(26):524—529.[6]孙涛,蒋科艺,等.一种基于蚁群优化的粗糙集属性约简方法[j].海军工程学院学报,2011,11(1):324—327.[7]梁霖,徐光华.基于克隆选择的粗糙集属性约简方法[j].西安交通大学学报,2005,11(39):464—469.[责任编辑:王迎迎]。

杂合数据的粗糙集属性约简方法

s C es n h o g e e p i s o e u p ra d lw rs lrds iu o t x sfu d o o d t n at b tsa d d cs n a r ue u C si ,t ru h d s r t n ft p n e i a it b t n ma e n n c n i o t ue n e i o t i t , o i o h e o mi r i i r o i i r i tb
otnr snbe o at osa ogoj t h t i tnmoe f r hl acutgipeet . hn ae nt pe b i e oal sfpr n n es eoi zi dlo t e o conn r ne T e,bsdo eupr a a t i i t m b c ,t pm ao rh s d i s s d h adl e ap x ao netr uhst er.h vr gupradl e ml atosa ogoj t a otn . n n wr pr i tnc cp fm r g o t c en pe n w r iir rtn m n b c b ie I o o m i o o o et y e o i h o s ap i i es ad
te t o at b t rd c o s 1 f iee t i o nsc n b t e e ti v l ,b s dO en - it b t n ma x s ial ,te h t iue e u t n r u t o df rn e it a er r v i u t ey a e N t mxd s /u o t e .Fn l w r i s v wp ei d n i h r i i r y h e p r e r ut p o e ta i a o tm se e t e a d fa il . x i m s l rv h t hs l r h i f c v sbe e m e s t gi i n e

一种基于模糊粗糙集的快速特征选择算法

一种基于模糊粗糙集的快速特征选择算法张晓;杨燕燕【摘要】模糊粗糙集由于能够处理实数值数据,甚至是混合值数据中的不确定性受到人们的广泛关注,其最重要的应用之一是特征选择,相关的特征选择方法已有不少研究,但其快速的特征选择算法研究很少.实际中的数据一般含有噪声点或信息含量低的样例,如果对数据集先筛选出代表样例,再对筛选的样例集进行数据挖掘便会降低挖掘计算量.本文基于模糊粗糙集,先根据样例的模糊下近似值对样例进行筛选,然后利用筛选样例的模糊粗糙信息熵构造特征选择的评估度量,并给出相应的特征选择算法,从而降低了算法的计算复杂度.数值试验表明该快速算法具有有效性,并且对控制筛选样例个数的参数给出了建议.【期刊名称】《数据采集与处理》【年(卷),期】2019(034)003【总页数】10页(P538-547)【关键词】模糊粗糙集;样例选择;特征选择;信息熵【作者】张晓;杨燕燕【作者单位】西安理工大学应用数学系,西安,710048;清华大学自动化系,北京,100084【正文语种】中文【中图分类】TP18引言经典的粗糙集理论[1]是由波兰数学家Pawlak在1982年提出的,它是一种处理数据中的不确定性的有效工具,然而经典粗糙集只能处理符号值(名义值)的数据。

模糊粗糙集[2]作为经典粗糙集的最重要的推广之一,可以用来处理实数值甚至是混合值的数据。

目前,模糊粗糙集已经成功应用于机器学习和数据挖掘领域[3],其最受人们关注的应用之一就是特征选择(属性约简)。

关于模糊粗糙集特征选择的研究工作已存在不少[4-10],但其快速的特征选择算法的研究还很少,据作者所知,仅文献[11]在特征选择算法迭代步骤提供了加速策略,从而减少了算法的计算时间。

实际中的数据一般包含信息量较低的样例或噪声点,如果对样例进行筛选,利用筛选得到的样例进行挖掘知识将会减少计算的复杂度。

文献[12]提供了3种样例选择的启发式算法,其中之一的算法思想即选择隶属模糊正域的值不小于给定阈值的那些样例。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档