粗糙集算法

合集下载

基于粗糙集的多维数据分析算法研究

基于粗糙集的多维数据分析算法研究
中 图分 类号 :P 1 . T 3 11 文献标 识码 : A
信息表示可通过信息表示系统来完成 , 信息表
示 系统 的基 本成 分是 被 研 究 对 象 的集 合 , 于这 些 关
文 章 编 号 :0 98 8 ( 0 8 0 -0 70 10 —9 4 2 0 )40 7 -3
对象的信息是通过指定对象 的属性和它们的属性值
这里 称之 为论域 t U ies) y nvre 。 (
粗糙 集 方 法 , 出 了一种 适 应 于教 学 管理领 域 提
数据 特征 的 多维数 据 分析 算 法 , 将该 算 法 应 用 于 并
新开发的教 学多维数据分析系统 中。 关键词 : 学管理 ; 教 多维数据 分析 ; 糙 集 粗
1 粗糙集模型
粗糙集 理论 是基 于一个 机构关 于一 些现 实和它
而实现数据分析 、 挖掘 的目的。由于信息系统的多 样性 , 因此应 该研究 如 何 将 粗糙 集 方 法 应 用 到 特殊 的系统 中 , 助有效 地分 析 、 掘潜 在 的知识 。 帮 挖
定义 3 设 S , , =( A 是一个信息系统 , 任 意属性子集 B , s为一般完备信息系统 , A 若 则定 义等价关系:
工具 , 近年来 已经 被成功 地应用 于机 器学 习 、 策分 决
的任意元素是不可省略的 , 称 是独立的。设 H是 独立 的 ,o ( ps G)= o ( , 称 日 为 尺的 ps G)则 G约 简 ( eu t n o R d ci ) o

从 定义 2可 以看 出 , 糙 集理 论 的 目标 之 一 就 粗

: 坠
CN 2. 3 3/N 2 12
长 春工程学 院学报 ( 自然科学版)2 0 0 8年 第 9卷 第 4期 J C agh nIs. eh ( m.e. d. ,0 8 V 19 N . . hnc u tT c. N SiE i)2 0 , o. , o4 n

一种基于粗糙集的改进KNN文本分类算法

一种基于粗糙集的改进KNN文本分类算法
表示 为 向量 空 间中 的特 征 向量 ;
目前 文本 分类 方 法 主 要包 括 决 策 树 、 K最 近邻 ( N 、 联规 则 、 持 向量 机 ( V 、 叶斯算 法 K N)关 支 S M) 贝 ( ae) Bys 、神 经 网络 、粗糙 集 等 。其 中基 于 向量 空
() 2 将待 分类 文本 t表示 为 和训 练文 本 一 致 的 i
1 KN N算法的基本 思想及存在 问题
K N作为一 种基 于实 例 的文 本分 类 算 法 , N 被认
为是 向量 空 间模 型 (V M) 最 好 的 分 类 算 法 之 S 下

5 ) s) ( 一o = (
向量 长度 。

( 1 )
式 ( ) 0 两个 向量 d 和 d 的夹 角 ,l 1中 是 1 l l表示 d () 4 选择 与 d 相似度 最 大的 k 文本 作 为 向量 个
2 ]

该算法分为训练和分类两个 阶段 4。其思 l J
想是 : 文本训 练 阶段 , 在 主要 是 一 般 特 征 的提 取 、 特
21 0 2年 4月 1 3日收到 教育部科学技术研究重点项 目(0 1 8 、 2 8 4 )
d 的 k 最 近邻 ; 个 () 5 根据 d 的 k 最 近 邻 , 算 文本 类 别 相 应 个 计
^ 纛 , k
() 6 比较 各 类 的权 重 , 待 分 类 文 本 t归 人 权 将 重 最大 的类别 。 作 为一种 有监 督 机 器 学 习 的非 参 数 方 法 , N KN 集
R = { ∈ U l[ n X ≠ } X ] 。
它 们分别 为 的 下近似 集 和 上近 似集 。 定 义 3 给 定一 个知 识库 K = (,R) 对 于 每个子 【, , 和一个 等价 关 系 R ∈ id K) 全集 可 n( ,

一种基于粗糙集的属性约简算法改进

一种基于粗糙集的属性约简算法改进
.
K$
核。首先可以将这些属性取出, 同时将分明矩阵中包 含核属性的元素的值删掉, 这样也可以节省许多计算 量以及存取分明矩阵的空间。 对于第二个问题, 即属性值约简的问题, 存在以下 命题: 命题 * & $ : 设 34 被消去所有过剩条件属性值的 决策规则, 条件属性集 + 的等价类 [5 ] 6 中任何最少 属性 / 的等价类 [ 5] [ 5] / 的交集?相应决策类 , 中, 则由此而得到的最小条件属性 / 组成的相应于 3 4 的 新决策规则 3 4 7是 3 4 的一个决策规则约简。 根据上面所述, 我们可以设计这样的算法 输入 :决策表 8 # 9 ), + ), : 输出 :此决策表上的决策规则 步骤 $ : 属性约简 ;#< =>? " # $ @> ’ A $ 3> . =>? ! # " B $ @> ’ 3> 对 ; 应用分配律, 结果存入 ; . . {; # ; ){ /: ( ! ). / / ( ") } , 检查所有属性 3; %.
系 D 在 ( 中是绝对不必要的 (多余的) ; 否则, 称D 在 ( 中是绝对必要的。 ( 中所有绝对必要关系组成的集 合称为关系集 ( 的绝对核, 记做 :FDG ( () 。 ( &)设 7 是一论域, ( 和 H 为定义在 7 上的两个 等价关系集且 H *(。如果: %) >?; ( H)6 >?; ( () , &) H 是独立的。 则称 H 是 ( 的一个绝对约简。如果知识 H 是知 识 ( 的绝对约简, 那么, 7 中通过知识 ( 可区分的对 象, 同样可以用知识 H 来区分。 在讨论决策表信息系统约简的时候, 一个条件属 性 * 就对应着一个等价关系, 它对论域 7 形成一个划 分 7 I *。决策表的所有条件属性形成条件属性集合 ( 对论域的划分 7 I (, 同时, 决策属性集 ; 6 {@} 也对论 域形成一个划分 7 I ;。这两个划分形成了条件属性和 决策属性在对论域样本分类上的知识。 属性约简的目标就是要从条件属性集合中发现部 分必要的条件属性, 使得根据这部分条件属性形成的 相对于决策属性的分类和所有条件属性所形成的相对 于决策属性的分类一致, 即和所有条件属性相对于决 策属性有相同的分类能力。 &0 , 分明矩阵 令 5 6{ 7, *} 是一个决策信息系统, 7 为定义域 且 7 6 {A% , A& , 00 0, AJ } ,* 6 : ) ; , : 是条件属性集 合, ; 是决策属性, ( A) 1 是记录 A 在属性 1 上的值。分 明矩阵可表示为: ( :KL)6

一种基于粗糙集理论的支持向量机分类算法

一种基于粗糙集理论的支持向量机分类算法

集、 下近似 集和 边界域 概念 , 结合 支持 向量机 的 分类原 理 , 出 了一种 支持 向量机 分 类算 法。首 先 , 提 在 支持 向量机 分类 中定 义样 本 分类 的粗糙 集规 则 , 然后在 边界域 寻找 两类样 本 中使 判 别 式 绝对值
取 值 最 小且 分 类正确 的样本 来确 定 最优 分 类 面 , 离 了对 惩罚 系数 c的 寻优 问题 , 效 避 免 了过 脱 有
类精 度 。 粗糙 集理 论是 一种处 理不 精确 、 不一致 、 完整 不
{ i ( ) ÷( W I n W = W・ ) m
【. Y[ ・ )+b ≥1 i , , , St ( . ] , =12 … z
等信 息 的数据 分析 理 论 J广 泛地 应 用 于 数 据分 类 ,
a t rsi s i e ms o a a mi ng ce itc n tr fd t ni .A ls i c to l o t c a sf ai n ag r hm a e n lwe pp o i to e i i b s d o o r a r xma in s t,u p r p e a p o i t n s ta h o nd r e i n i T a d ca sfc t n p n i l n S p r xma i e nd t e b u a r go n RS n l si a i r cp e i VM a e r s n— o y i o i h sbe n p e e td. Ro g es r l s o a l l si c to a e n S e u h s t ue fs mp e ca sf ai n b s d o VM l s i c to r e n d Th n t e s mpl i ca sf ain a e d f e . i i e h a e i h r i e in whih ma e h b ou e v l e o h ic i n n n miain i e r h d a d t n t e ma g n r g o c k st e a s l t au ft e d s rmi a tmi i z to ss a c e n he c re tca sf ai n t b a n t e o tma e r tn u f c a e n g te or c l sii t o o t i h p i ls pa ai g s ra e h s b e o tn.I e so to he o tmia c o tg t u ft p i z — to r b e o h e at o f c e tC, v i s t e o e - tig p o l m ,a d s a c s t e mo to tma in p o l m ft e p n ly c e f in a o d h v rf t r b e i i n n e r he h s p i l

基于相似关系粗糙集模型的数值属性约简算法

基于相似关系粗糙集模型的数值属性约简算法

衡 量属 性 在 样 本 上 的 差 异 性 和相 似 性 。 以这 种 属 性 度 量 指 标 为 启 发 式 设 计 了相 似 关 系粗 糙 集 框 架 下 的 数 值 属 性 约
简算法, 并推 广到 经典粗糙集。在车牌 字符 集和 U I 写体 数字 字符 集上和 常用约 简算 法进 行 了比较 , C手 实验 结果显 示这种 方法产生的约 简属性可以导出规则数 少并且具有较好分类能力的规则集。
念 的粒 化 。 下 面定 义 实数 空 间 中 的差 异 性 度 量 。
定义 1 论域 中任 意两个样本 t,( ≠ )在数值属性 。 t i j
上 的相 对 差 异 性 为 : d = ㈩
识别 的文献使用粗糙集属性 约简方法 , 删除冗余属性 , 搜索分 辨力高 的属性集 合 , 然后 利用 约简 的属性集 构成分 类器 J 。
关键词 : 字符 识 别 ; 糙 集 ; 性 约 简 ; 征 选择 ; 似 关 系 ; 值 属 性 粗 属 特 相 数
中 图分 类 号 : P 9 T3 1
文 献 标 志码 : A
Al o ih f n g r t m o um e i a tr b e e uc i n ba e n sm ia iy r ug e r c la t i ut s r d to s d o i l rt o h s t
c n tu td b s d o i lrt o h s tm o l a d i wa xe d d t a nc o h s tto. Ex e i nt r a re u o sr ce a e n smia y rug e de, n t se t n e o c no ia r ug e o i l p rme swee c ri d o t o wo daa s t, o so ie s ae c a a t r n h te so n t t e s ne i flc n eplt h r ce sa d t e oh ri fUCIh nd itn n mb r te e p rm e tlr s t h w a wrte u e , h x e i na e ulss o t a h r p s d ag rt m a e e ae smplrb r o ru uls s tt a t rrdu to g rt ms h tt e p o o e lo h c n g n r t i e utmo e p we lr e e h n ohe e ci n a o h . i f l i Ke y wor s c r ces e o iin rug st at b t s e ucin; f au e ee t n; smia iy eai n n me ia d : ha a tr r c g to ; o h e; t u e r d to n i r e t r s lci o i lrt r lto ; u rc l a ti t trbue

粗糙集的Mallow’sCp选择算法

粗糙集的Mallow’sCp选择算法

*The National Natural Science Foundation of China under Grant No.11471239(国家自然科学基金);the Social Science Planning Project of Chongqing under Grant No.2016WT03(重庆市社会科学规划重大委托项目);the National Research Project of Statisti-cal Science under Grant No.2017LZ25(全国统计科学研究重点项目);the Postgraduate Research Planning Project of Tianjin Uni-versity of Finance and Economics under Grant No.2016TCB03(天津财经大学研究生科研资助计划项目).Received 2018-05-31,Accepted 2018-08-10.CNKI 网络出版:2018-08-29,/KCMS/detail/11.5602.TP.20180828.1211.004.html计算机科学与探索Journal of Frontiers of Computer Science and Technology粗糙集的Mallow s C p 选择算法*杨贵军,于洋+天津财经大学统计学院,天津300222+通讯作者E-mail:yang_yu0712@ 摘要:粗糙集选择是粗糙集实证研究中的关键步骤。

目前常用的粗糙集择优标准是误判率。

考虑到误判率准则未考察粗糙集的复杂度,存在过拟合风险,在测试集中误判率小的粗糙集不一定具有最强的泛化能力,引入Mallow ’s C p 准则作为一种新粗糙集选择标准。

粗糙集的Mallow ’s C p 选择算法通过Logistic 模型将非线性的粗糙集分类规则表达为线性形式,Logistic 模型的C p 值作为粗糙集的C p 值,根据C p 值进行粗糙集择优。

基于粗糙集的蚁群算法不确定性分析

基于粗糙集的蚁群算法不确定性分析

问题作为 系统的 问题 界定 , 主要 原因是实 际应用 中大多数复 杂网络不可 能满足不重 复遍历节 点这个 要求 ,因此仿真系统
解 决 的 就 是 在 复 杂 网络 中 寻 找 两 节 点 间 的 最 短 路 径 ,允 许 重 复遍 历 某 个 节 点 。 时在 M. oio 人 提 出 的蚁 群 经 典 算 法 同 Dr 等 g 中路 径 选 择 考 虑 了路 径 信 息 ( 发 信 息 ) 信 息 素 两 个 因 素 , 启 和
1 蚁群 算 法仿 真 系统 说 明
11 问题 定 义 .
系 统 没 有 使用 旅 行 商 问题 ( S )、 国 邮递 员 问题 N T P 中 等 P
称之 为信息素 的物质 进行信 息传 递 , 从而找 到食物源和蚁 巢
之 间 的 最 短 路 径 。 蚁 在 运 动 过 程 中 能 够 在 它所 经 过 的路 径 蚂
上 留下信息素 , 并且蚂蚁在运动 过程中能够感知该 种物质 , 一 条路上 的信 息素踪迹越浓 , 它蚂蚁将 以越高 的概率通过此 其
路 径 , 而 该 路 径 上 的 信 息 素 踪 迹 将 会 被 加 强 , 此 由大 量 蚂 从 因 蚁 组 成 的蚁 群 的 群 体 行 为 便 表 现 出 一 种 信 息 正 反 馈 现 象 : 某
te h ACO se e lt ne p r e t s t m y mu a i x e m n ,ma y u c r i co s f h r mo e p ai ga ef u d o i n n e t nf t r p e o n d t n .Th u h s t p o c li o tn a a o u n r o er g s p r a hi almp ra t o e a s t o e l t n e ti r a u n wld e A t f x e i na s l e n l z da dt e ea i n h p ewe nu c r i c o s o l od a h u c r n o g ek o e g . t wi a v l e p rme t l e u t a ay e n lt s i s t e n e t nf t r oo r sr a h r o b a a a eg v n Ac o dn er s l tae y o h r mo eu d t ga dp ro a c f r i e . c r i g t t u t sr t g f e o n p ai n e f r n eo oh e s p n m ACO ei r v d r mp o e . a Ke r s a t o o y o t z t n a g r h ; p e o n p ai g smu a in u c ran f co s r u h s t y wo d : n l n p i a i l o t m c mi o i h r mo eu d t ; i lt ; n e t i a t r ; o g e s n o

基于数据浓度的粗糙集规则生成算法分析

基于数据浓度的粗糙集规则生成算法分析
Biblioteka 中图分类号 : 1 TP 8
文献标识码 : A
文章编 号 :0 16 0 (0 8 0 —0 40 1 0— 6 0 2 0 ) 30 8~ 4
在很 多传 统机 器学 习方 法 中 , 析学 习算 法 的性 能一 般 而言 都是 脱离 数 据 的 , 分 只对 学 习算 法本 身进 行 分析 , 样 能提高 一 定 的泛 化性 和 可理 解性 , 是 在 实际 应 用学 习算法 分 析数 据 的 时候 , 法 的 性 能是 与 这 但 算 数据 有关 的 。 目前 绝大 部分 学 习算法 只考虑 数据 集 的规 模 , 而不 考虑 数据 的 分布 等其 他特 点 , 样 易影响 这 性 能分析 的正 确性 和算 法适 应 性 。 了解 数据 的分 布 需要相 关 的 背景 知识 和正 确 的分析 方 法 , 对 很多 使用 这
第 3 期
贾修一等 : 于数据浓度 的粗糙集规 则生成算法分析 基
8 5
等 价 类 的数 据 , 也可 能 有按 照所 有属 性 取值 的组 合应 该 存 在 的数 据而 现 有 的数 据 集 合 里 还 没有 被 观 测到
的情况 。在这 种情 况 下需 要定 义 数据 浓度 来 刻 画这 种现 象 。
能 定量体 现 出数 据 的分布 特 点来 , 在评 估学 习算 法 性 能时 也能 够更 准 确地分 析 , 从而 针 对不 同 的数 据选 择
合 适 的学 习算法 。
本 文通 过 2个 规则 提取 算法 在不 同 浓度 的数 据 上的 实验 , 分析 数 据饱 和度 、 度等 数 据特性 对 学 习算 浓
2 0 年 9月 08
基于数据 浓度 的粗糙 集规则 生成 算法分析
贾 修一 , 。商 琳 h , 家 骏h 。陈 。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

DUFE管理科学与工程研究方法概论学号:2013100654专业:电子商务姓名:徐麟粗糙集理论一、粗糙集的来源与发展智能信息处理是当前信息科学理论和应用研究中的一个热点领域。

由于计算机科学与技术的发展,特别是计算机网络的发展,每日每时为人们提供了大量的信息。

信息量的不断增长,对信息分析工具的要求也越来越高,人们希望自动地从数据中获取其潜在的知识。

特别是近20年间,知识发现(规则提取、数据挖掘、机器学习)受到人工智能学界的广泛重视,知识发现的各种不同方法应运而生。

粗糙集(RoughSet,也称Rough集、粗集)理论是Pawlak教授于1982年提出的一种能够定量分析处理不精确、不一致、不完整信息与知识的数学工具。

粗糙集理论最初的原型来源于比较简单的信息模型,它的基本思想是通过关系数据库分类归纳形成概念和规则,通过等价关系的分类以及分类对于目标的近似实现知识发现。

由于粗糙集理论思想新颖、方法独特,粗糙集理论已成为一种重要的智能信息处理技术,该理论已经在机器学习与知识发现、数据挖掘、决策支持与分析等方面得到广泛应用。

粗糙集理论与应用的核心基础是从近似空间导出的一对近似算子,即上近似算子和下近似算子(又称上、下近似集)。

经典Pawlak模型中的不分明关系是一种等价关系,要求很高,限制了粗糙集模型的应用。

二、粗糙集的理论基础1、概念、可定义集从经典的角度来看,每个概念都包含其内涵和外延。

为了给出概念内涵和外延的具体描述,我们考虑一个简单的知识表达系统,即信息表。

信息表就是一组可定义集的形式化定义如下:在信息表M中,如果称子集XAU是可被属性子集AAAt定义的,当且仅当在语言L(A)中存在一个公式<使得X=m(<)。

否则,X 称为不可定义的。

2、近似空间语言L(A)的所有可定义集正好构造成一个R代数R(U/E(A)),即Def(U,L(A))=R(U/E(A))。

序对apr=(U,E(A))称为一个Pawlak近似空间,简称近似空间。

所以,也可以将语言L(A)的所有可定义集记为Def(U,L(A))=Def(apr)。

通过U/E(A),可以构造一个R代数,即R(U/E(A)),它包含空集Á和等价关系E(A)构成的等价类及其并,并且在交、并和补运算上是封闭的。

那么,Pawlak近似空间也唯一确定了一个拓扑空间(U,R(U/E(A)))。

3、上下近似针对不可定义集,显然不可能构造一个公式来精确描述,只能通过上下界逼近的方式来刻画,这就是粗糙集理论中的上下近似算子。

设E(A)是信息表M上的等价关系,XAU,上下近似算子aprE(A),aprE(A)(下文我们采用缩写形式apr,apr)定义为apr(X)=G{Y|YIR(U/E(A)),YHXXÁ}=H{Y|YIDef(U,L(A),XAY};apr(X)=G{Y|YIR(U/E(A)),YAX}=G{Y|YIDef(U,L(A),YAX}。

上近似apr(X)是包含X的最小可定义集,下近似apr(X)是包含在X中的最大可定义集。

4、粗糙集Pawlak[1,22]定义由等价关系确定的等价类[x]E(A)的集合就组成了P12粗糙集集合(P12RoughSet,PRS1)。

显然,P12粗糙集集合是子集集合,即PRS1={[x]E(A)|XA2U}。

借助上下近似的描述,也可以给出和PRS1等价的关于粗糙集的另外一种定义,称为P22粗糙集集合。

即PRS2={3X1,X24}={3apr(X),apr(X)4}。

PRS1和PRS2通称为Pawlak粗糙集。

以上对粗糙集的解释都是从集合的观点进行的;还存在另外一种观点,即从算子的观点来解释粗糙集。

在面向算子的观点中,上下近似被看作是论域幂集空间2U上的一对一元算子L和H。

也就是说,粗糙集理论中研究的系统(2U,~,H,G,L,H)是标准集合系统(2U,~,H,G)附加了两个近似算子的扩展。

三、粗糙集的研究方法经典粗糙集理论的基本思想是基于等价关系的粒化与近似的数据分析方法。

粗糙集理论与应用的核心基础是从近似空间导出的一对近似算子,即上近似算子和下近似算子(又称上、下近似集)。

目前,主要有两种研究方法来定义近似算子:构造化方法和公理化方法。

构造化方法是以论域上的二元关系、划分、覆盖、邻域系统、布尔子代数等作为基本要素进而定义粗糙近似算子,从而导出粗糙集代数系统。

公理化方法的基本要素是一对满足某些公理的一元集合算子,近似算子的某些公理能保证有一些特殊类型的二元关系的存在;反过来,由二元关系通过构造性方法导出的近似算子一定满足某些公理。

事实上,有两种形式来描述粗糙集,一个是从集合的观点来进行,一个是从算子的观点来进行。

那么,从不同观点采用不同的研究方法就得到粗糙集的各种扩展模型。

粗糙集理论与其它处理不确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息,所以对问题的不确定性的描述或处理可以说是比较客观的,由于这个理论未能包含处理不精确或不确定原始数据的机制,所以这个理论与概率论、模糊数学和证据理论等其它处理不确定或不精确问题的理论有很强的互补性。

基于粗糙集理论的应用研究主要集中在属性约简、规则获取、基于粗糙集的计算智能算法研究等方面。

由于属性约简是一个NP2Hard问题,许多学者进行了系统的研究。

基于粗糙集的约简理论发展为数据挖掘提供了许多有效的新方法。

公理化方法也称为代数方法,有时也称为算子方法,这种方法不像构造化方法中是以二元关系为基本要素的,它的基本要素是一对满足某些公理的一元近似算子L,H:2Uy2U,即粗糙代数系统(2U,~,H,G,L,H)中近似算子L和H是事先给定的。

然后再去找二元关系使得由该二元关系及其生成的近似空间按构造化方法导出的近似算子恰好就是给定的由公理化方法定义的集合算子。

近似算子的某些特殊公理能保证有一些特殊类型的二元关系存在,使这些关系能够通过构造方法产生给定的算子;反之,由二元关系通过构造方法导出的近似算子一定满足某些公理,使这些公理通过代数方法产生给定的二元关系。

四、粗糙集与其它不确定信息处理理论的联系随着对粗糙集理论研究的不断深入,与其它数学分支的联系也更加紧密。

粗糙集理论研究不但需要以这些理论作为基础,同时也相应地推动这些理论的发展。

1、粗糙集和模糊集模糊集和粗糙集理论在处理不确定性和不精确性问题方面都推广了经典集合论,两个理论的比较和融合一直是人们感兴趣的话题。

粗糙模糊集是模糊粗糙集的特例。

2、粗糙集和知识空间粗糙集理论和知识空间理论都是研究知识结构的理论;但他们用于解决不同的实际问题。

粗糙集主要研究如何对数据进行分析及知识发现;而知识空间着重对问题集进行分析,从而对个体知识状态进行评估。

如何将知识空间和粗糙集理论结合正在成为一个新的研究方向。

虽然粗糙集和知识空间研究对象不同,但从粒计算的角度来看,它们都可看成由一些基本粒通过不同的方式构造粒结构的过程。

K其实是对知识从不同大小的粒度进行多层次的描述。

3、粗糙集和粒计算粒计算是一门飞速发展的新学科。

它融合了粗糙集、模糊集及人工智能等多种理论的研究成果。

词计算模型、粗糙集模型和商空间模型是3个主要的粒计算(GranularCompuing,GrC)模型。

粗糙集理论已经成为研究粒计算的重要工具。

基于粗糙集模型的粒计算,它的粒是一个划分,是一个特别的粒计算结构。

基本知识粒度的构造和知识表示方法的拓广,实质是将粗糙集的商集扩展成一个拓扑空间,以此保证运算的封闭性,即用R(U/R)代替U/R,它是布尔代数(2U,~,H,G)的一个子代数,则(U,R(U/R))构成一个拓扑空间。

结合粗糙集理论的粒计算方法已经在机器学习、数据分析、数据挖掘、规则提取、智能数据处理和粒逻辑等方面取得了一定的应用。

五、粗糙集的应用研究目前,基于粗糙集理论的应用研究主要集中在知识获取、基于粗糙集的计算智能算法研究等方面。

这些研究成果成功应用在许多领域,有的已经获得了商业价值。

1、知识获取知识获取是发现存在于数据库中有效的、新颖的、具有潜在效用的乃至最终可理解的模式的非平凡过程。

粗糙集理论可支持知识获取的多个步骤,如数据预处理、属性约简、规则生成、数据依赖关系获取等。

基于粗糙集的知识约简理论发展为数据挖掘提供了许多有效的新方法。

针对协调决策表,现已提出了求属性约简的许多算法,如数据分析法、基于信息熵的属性约简算法、动态约简算法、增量式算法、可辨识矩阵算法等。

同时,讨论的信息系统的形式也越来越多,如连续值信息系统、区间值信息系统、模糊值信息系统、集值信息系统等,并且相应系统的约简理论也得到了发展。

另一方面,随着概念格、偏序集等理论与粗糙集理论的结合,基于概念格的约简方法、广义协调决策形式背景知识约简方法、偏序关系下的决策形式背景规则提取与属性约简、对象概念格的属性约简方法、基于用户偏好的属性约简、属性序下的快速约简算法、权值约简、基于群体智能算法的属性方法等新方法也大量涌现。

2、面向领域的数据驱动的数据挖掘简而言之,数据挖掘的目的就是从数据中挖掘出知识。

在机器学习的许多方法中,我们往往依赖于一些先验知识,比如:贝叶斯概率方法依赖于先验概率;模糊集理论依赖于成员隶属度函数;多专家决策系统依赖于专家的权值属性。

毫无疑问地,依靠这些先验知识的帮助我们成功地解决了许多问题。

但是,有些领域的先验知识很难获得,比如网络入侵检测;另外,像外太空探索等新兴问题,要获得其先验知识也是很困难的。

因此,如何建立根据问题已有的信息,而不依赖于先验知识获得问题解的计算模型具有非常重要的价值,可为真正的智能化数据挖掘提供理论支撑。

为此,有学者提出领域(用户)驱动的数据挖掘模型、数据驱动的数据挖掘模型等,取得了一些初步研究成果。

3、其它应用领域从应用的领域来看,基于粗糙集理论的应用除了我们上文提到的信息科学等方面,还遍及其它许多领域。

许多学者将粗糙集理论成功应用到了工业控制、医学卫生及生物科学、交通运输、农业科学、环境科学与环境保护管理、安全科学、社会科学、航空、航天和军事等领域。

比如:电厂气温过热控制、虚拟现实的可视化、对原棉纱线强度和纤维性能之间的知识规则提取、手写体识别、胸部X 线数字图像滤波增强、湖泊生态系统健康评定指数法的评价、医疗图像处理、遥感数据处理、综合分类器设计与实现、铁路行车调度指挥、食品安全综合评价、昆虫总科阶元分类、泥石流危险度区划指标选取、网络故障诊断、上市公司违规行为预警、武器系统灰色关联评估和航空控制等等。

六、粗糙集未来展望虽然粗糙集理论从提出至今只有二十几年的发展历史,但取得的研究成果是令人瞩目的。

在基于数据的决策与分析、机器学习、模式识别等计算机领域的成功应用,逐渐被人们所重视。

相关文档
最新文档