粗糙集属性约简matlab程序

合集下载

一种粗糙集属性约简算法

一种粗糙集属性约简算法
Li Ka Li s u W a g Le n u Yu h n i
( e a me to o p t cec n nier g B rn ntue o eh o g ,ej g 10 8 ) D p r n fC m u rS i ea d E gn e n , e ig Is tt fT c nl y B in 0 0 1 t e n i i o i
tru h e n io a e t p .h e tatb t rd cin s te e ih au i i nmu o v rg o ee a c ho g o dt n l nr yT e b s t iue e u t i h stwhc v le s te mii m f aea e f rlv n e l o r o l o t b tsT e x ei n s o s h t t a gt etr f cii .ial i e rd cin e ut o U f al ue h e p r i f me t h w ta i c n e b t e e t t Fn l t t e u t rs l f CI 山 hb 8 s e vy y. g o s Lne
, .
i o t n ter, e ae e t b  ̄ rd ci e y i miib ar ,n o p t rl ac t ̄ue n r i hoyt ppr gt a f u eu t n stb d f ma o -h s i o  ̄e bl 'm tx ad em u ̄ e vne o a c ts i i e f t
1 引言
粗 糙 集 ( o g tSt理 论 是 一 种 处理 模 糊 和不 确 定 知 识 的 R uh e) 数 学 工 具 , 早 由波 兰数 学 家 ZP wa 最 a1k在 18 9 2年提 出 的『 ” 。它 已经 在 数 据 挖 掘 人 智 能 、 式 识 别 与 分 类 等 领 域 获 得 了较 模 广泛 的应 用叩 41 性 约 简 是 R u h St 论 研 究 的一 个 核 心 ’ 3 属 o g e 理 内容 。 们 希 望 找 到 最 佳属 性 约 简 。 而 Wo g .. 和 Zak . 人 然 n SKM l o r W 已经 证 明它 是 N - a 问 题H 因 而 目前 还 没 有高 教 的最 佳 P h ̄ 属 性 约简 算 法 。 过 . 在实 际 应 用 中 , 求 得 到 相 对属 性约 简 就 要 可 了 许 多研 究人 员 已提 出 了属性 约 简 算 法 1 8。 目前许 多研 究人 员在 对 属 性 约 简 的研 究 中 . 约 简 结 果 的 将 标 准定 为 约 简 后 属 性 数 最 少 . 者 是 得 到 的 规 则 最 简 , 约 简 或 或 量 最 大 。但 从 数 据 库 理 论 的 角 度 考虑 , 性 的冗 余 、 性 间 的 属 属 依 赖 要 尽 可 能 地 小 。正 是 基 于这 些 , 文 利用 R u hS t 论 , 该 o g 理 e

基于粗糙集的符号与数值属性的快速约简算法

基于粗糙集的符号与数值属性的快速约简算法

1000
2000
3000
numbers of samples
统已提示 out of memory.且在占用虚拟内存时,
(a) abalone 上的计算时间
计算速度异常变慢,计时方式来对比已不科学. 由于时间太长,abalone 未能计算完成.该方法 在后面大数据实验时不作比较.
在FARNeMF与FARNeM1 的比较中(图 2),发 现由于FARNeMF大量减少了样本比较次数,较大 幅度地提高了计算速度图 2(c,e).例外的是图 2(a),FARNeM1 居然比FARNeMF速度还快些.但两
性质 2: M ⊆ N ⊆ C , X ⊆ U ,则 ∀x ∈U ,若 δ M (x) ⊆ M X 则δ N (x) ⊆ N X . 证明:由下近似定义可知 δ M (x) ⊆ X ,由性质 6 可得 δ N (x) ⊆ δM (x) ⊆ X ,从而由下近似定义得 δ N (x) ⊆ N X 由性质2中 x 任意性,可得
3) Δ(x1, x3 ) ≤ Δ(x1, x2 ) + Δ(x2 , x3 ) .
对于 N 个属性的样本集,距离常用 P 范数表 示为
∑ Δ
P
(
x1
,
x
2
)
=
⎜⎜⎝⎛
N i =1
|
f (x1, ai ) −
f (x2 , ai ) |P ⎟⎟⎠⎞1/ P
其中 f (x, ai ) 为样本 x 在属性 ai 上的取值.
4. 实验分析
为测试优化算法的效果,采用 UCI 数据集作
对比实验. 所用的数据集构成如表 1 所示.
表 1 数据集描述
数据集
样本个数
数值型属性
符号型属性

基于MapReduce的高效粗糙集属性约简算法

基于MapReduce的高效粗糙集属性约简算法

第34卷第4期 2017年4月计算机应用与软件Computer Applications and SoftwareV o L34No. 4Apr. 2017基于MapReduce的高效粗糙集属性约简算法吕洁1刘利民1胡皎月1许志伟131(内蒙古工业大学信息工程学院内蒙古呼和浩特010080)2(中国科学院计算技术研究所北京100086)摘要针对粗糙集理论中传统的基于正域的属性约简算法和基于信息熵的属性约简算法无法得到最小约简集的问题,给出基于信息熵改进的属性约简算法,即先使用条件熵识别出重要度值最大的属性,使用正域进行约 简判断。

在此基础上,设计了高效的基于M a p R e d u c e的信息熵改进属性约简算法。

以真实海量气象数据为基础, 在H a d o o p集群上实现上述算法,验证了该算法的有效性和效率。

关键词 属性约简粗糙集理论信息熵中图分类号T P311文献标识码A D O I:10. 3969/j. issn. 1000-386x. 2017. 04.046EFFICIENT ROUGH SET ATTRIBUTE REDUCTION ALGORITHMBASED ON MAPREDUCELii Jie1Liu Limin1H u Jiaoyue1X u Zhiwei1’21(College of Information Engineering, Inner Mongolia University of Technology ,Huhhot 010080, Inner Mongolia, China)2 (Institute of Computing Technology ^Chinese Academy of Sciences, Beijing 100086, China)Abstract Aiming at the problem that the traditional attribute reduction algorithm based on positive domain and the attribute reduction algorithm based on information entropy can ,t get the m i n i m u m reduction set in rough set theory,an optimized attribute reduction algorithm based on information entropy is proposed. T h e conditional entropy is used to identify the attribute with the highest significance value, and the positive domain is used to the reduction judgment. O n this basis,an efficient algorithm of information entropy improved attribute reduction based on M a p R e d u c e is designed. Based on the real meteorological data, the algorithm is implemented on H a d o o p cluster, and the effectiveness and efficiency of the algorithm are verified.Keywords Attribute reduction R o u g h set theory Information entropy熵改进属性约简算法,通过真实海量气象数据,验证了 〇弓丨言算法的有效性。

基于粗糙集理论的属性约简算法的实现

基于粗糙集理论的属性约简算法的实现

Jn o 6 u e2 0
基 于 粗糙 集 理 论 的属 性约 简算 法 的 实现
张冬 玲
( 州边 防指挥 学校 教 育技 术 中心 , 东 广 州 5 0 6 ) 广 广 16 3
(dig 16 tm zl @ 2 .o ) n

要 : 属性 约 简算 法的 实现进 行讨 论研 究 , 用数 学 中的 一 些运 算规 律 , 计 算机 上 实现 布 对 利 在
尔代数 的运算 。 最后 , 结合 实 际的研 究课 题 , 通过 运行程 序 , 某些数据 表 实现 属性 约 简。 对 关键 词 : 糙 集 ; 别矩 阵 ; 粗 差 差别 函数 ; 属性 约 简; 增量算 法
中图分类 号 : P l .3 T 3 1 1 文献标 识 码 : A
n×( n一1 / 。 )2

约简通常是不 唯一的 。 一个数 据集的所有约简 可以通过 构造差别矩阵 , 由差别矩 阵导 出差别 函数并对其化简而得到。 2 1 差别矩阵 与属性约筒 . 根据差别矩 阵的概念 , 阵元 素与属性约 简存 在着 下列 矩
关系
(, 2 )
,f 属于相同决策属性类
x 属于不 同决策属性类 j
1 粗糙 集理论 的相关概念
粗糙 集理论是研究不完 整数据 及不精 确知识 的表达 、 学
2 利用差别矩 阵的属 性约简
当前 , 息系统 中信 息膨胀 主 要有 两个方 向 : 向和纵 信 横 向。 向指切是属性字段 的不 断增 加 , 横 纵向指的是记 录数的增 加。 在粗糙集 中对于信息 系统 横向的约 简可 以称之 为属 性约 简 , 向的约简可 以认为是值约简 。 纵 随着数据库 系统 中数据的 不断增加 , 属性 的约简相对于值 的约简变得更加有效。 如果某 个条件属 性被去除后仍 有相 同的等 价关系的话 , 么这个 条 那 件属性便 是 可省 的 。 这样 将 大大 简化 数据库 结 构的复 杂 度, 提高人们对隐含在数 据库 庞大数据 量下的各种信息 的认 识程度 , 因此属性约简也 就成为 了 目前粗糙 集理论 的研究 热

用MATLAB实现数据挖掘的一种算法知识讲解

用MATLAB实现数据挖掘的一种算法知识讲解

用M A T L A B实现数据挖掘的一种算法一、数据挖掘的目的数据挖掘(Data Mining)阶段首先要确定挖掘的任务或目的。

数据挖掘的目的就是得出隐藏在数据中的有价值的信息。

数据挖掘是一门涉及面很广的交叉学科,包括器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。

它也常被称为“知识发现”。

知识发现(KDD)被认为是从数据中发现有用知识的整个过程。

数据挖掘被认为是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patter,如数据分类、聚类、关联规则发现或序列模式发现等。

数据挖掘主要步骤是:数据准备、数据挖掘、结果的解释评估。

二、数据挖掘算法说明确定了挖掘任务后,就要决定使用什么样的挖掘算法。

由于条件属性在各样本的分布特性和所反映的主观特性的不同, 每一个样本对应于真实情况的局部映射。

建立了粗糙集理论中样本知识与信息之间的对应表示关系, 给出了由属性约简求约简决策表的方法。

基于后离散化策略处理连续属性, 实现离散效率和信息损失之间的动态折衷。

提出相对值条件互信息的概念衡量单一样本中各条件属性的相关性, 可以充分利用现有数据处理不完备信息系统。

本次数据挖掘的方法是两种,一是找到若干条特殊样本,而是找出若干条特殊条件属性。

最后利用这些样本和属性找出关联规则。

(第四部分详细讲解样本和属性的选择)三数据预处理过程数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续值数据转换为离散型数据,以便于符号归纳,或是把离散型数据转换为连续)。

本文使用的数据来源是名为“CardiologyCategorical”的excel文件中的“源数据”。

该数据表共303行,14个属性。

即共有303个样本。

将该数据表的前200行设为训练样本,剩下后的103行作为测试样本,用基于粗糙集理论的属性约简的方法生成相应的规则,再利用测试样本对这些规则进行测试。

首先对源数据进行预处理,主要包括字符型数据的转化和数据的归一化。

粗糙集属性约简的方法

粗糙集属性约简的方法

WANG P i, AO Y l , VJa fn . w meh do t iuerd c o ae nr u hstCo ue n ier ga dAp e iZH ui L ine g Ne to f t b t ut nb sdo o g e. mp tr gn ei n — j n ar e i E n piain , 0 2 4 ( )131 5 l t s2 1, 8 2 :1 —1 . c o Ab tat Obet c sict ni sit xes e n osn iv nn i . miga eio s m wi n e a c ra l src: jcs l s ai tc e csi l a dt s i o os Ai n t c ins t t u cr i f t .na・ a f o s r i vy o e te e d s ye h tn a o
的决 策系统 , 为 S, } d是 带不确定 因子 (-. ) 记 D= , 0I <t 1 的结论属性 , =1 示该元 素对 结论有 完全肯定 的判断 , 表 即该
识 库 中的知识 ( 属性 ) 并不 是同等重要 的 , 还存在 冗余 , 不利 这 于 做出正确 而简洁的决策 。属性约简要求 在保持知识库 的分 类和 决策 能力 不变 的 条件 下 , 除不 相关 或不 重要 的属 性 。 删 般而言, 较优 的属 性 约简 有如 下指 标 : 简后 属性 个 数较 约 少; 约简后规则数 目较少 ; 最终范化规 则数 目较少等 。已证明
Ke r s o g e; e e d bl ; t iuerd cin i lme tt n ywo d :ru hst d p n a i t at b t e u t ;mpe n ai i y r o o

基于粗糙集的属性约简算法

基于粗糙集的属性约简算法
中 的对 象组 成 的集合 + X) = { ∈ UI ) ( B(
} 。


的上 近似 集 B ) 根据 知识 判定 可 能属 ( , 于 的 中的对象 组成 的集合 B X)= { ∈ Ul ( X B( " X ≠ } X)I 1 。
定义 3 正域
收 稿 日期 :0 l 3 1 2 1 - —l 0 基 金项 目 : 国家 自然 科 学 基 金 资 助 项 目( 07 0 9 6543 )
D c u D =Q, = ) ( Cn D 两个不同的集合。 概念 2 完备信息系统与不完备信息系统 在决 策信息系统 D S=< , uD, , UC VP>中, 中每个对
1 2 基本 定义 .
L )= { ( Y∈ UI( Y ,)∈ L , } L = { ∈ UI ( X L ) } , L = { ∈ UJ ( X )n ≠ } 。
() 2 () 3 () 4
定义 1 不可 分辨 关 系
限制容 差关 系具 有 自反 性 和对 称性 , 是不 具 但 有 传递 性 。
步骤 有的约简属性集都包含的不可省略属性 的集合 , 记 为 C R P)=n R D( O E( E P)。
步骤 7 将 R d e 集里的属性与 c集合里剩余的
属性 分别结 合 。 步骤 8 采 用组合 属性 , 复步骤 2 ~6 重 。 步骤 9 从 R d的尾部 开 始 , 后 往前 对 每 个 e 从
2 2 知 识约 简算法 .
q }I D B 是一个等价关系。 )。 ( ) N 由这种等价关 系导
出 的对 的划 分记 为 U ID( , 中包 含样本 的 /N B)其 等价类 记 为 [ ] 。

《基于粗糙集的连续值属性约简算法研究》范文

《基于粗糙集的连续值属性约简算法研究》范文

《基于粗糙集的连续值属性约简算法研究》篇一一、引言随着大数据时代的来临,数据挖掘和知识发现成为了研究的热点。

粗糙集理论作为一种有效的数学工具,被广泛应用于数据分析和知识约简。

在处理具有连续值属性的数据时,如何有效地进行属性约简是一个重要的研究问题。

本文旨在研究基于粗糙集的连续值属性约简算法,为数据处理和知识发现提供有效的方法。

二、粗糙集理论概述粗糙集理论是一种处理不确定性和模糊性的数学工具,主要研究的是集合与集合之间的关系。

在数据挖掘和机器学习中,粗糙集理论被广泛应用于特征选择和属性约简。

粗糙集通过上下近似集来描述一个概念或集合的粒度,从而实现对数据的分析和约简。

三、连续值属性约简问题在处理具有连续值属性的数据时,传统的粗糙集理论面临着一些挑战。

连续值属性的处理需要更复杂的算法和技术。

此外,连续值属性的约简还需要考虑到数据的分布、密度、相关性等因素。

因此,如何有效地进行连续值属性的约简是一个重要的研究问题。

四、基于粗糙集的连续值属性约简算法为了解决连续值属性的约简问题,本文提出了一种基于粗糙集的连续值属性约简算法。

该算法主要包括以下步骤:1. 数据预处理:对数据进行清洗、归一化等预处理操作,以便于后续的约简操作。

2. 计算上下近似集:利用粗糙集理论,计算每个属性的上下近似集。

3. 属性重要性评估:根据上下近似集,评估每个属性的重要性。

重要性的评估可以采用信息熵、增益率等方法。

4. 属性约简:根据属性重要性的评估结果,选择一部分属性进行约简。

约简的目标是在保持数据分类能力的同时,减少属性的数量。

5. 约简结果评估:对约简结果进行评估,包括分类准确率、约简率等指标。

五、实验与分析为了验证本文提出的算法的有效性,我们进行了实验分析。

实验数据采用UCI等公开数据集。

实验结果表明,本文提出的算法可以有效地进行连续值属性的约简,且约简后的数据分类准确率较高。

此外,我们还对约简结果进行了可视化展示,以便于更好地理解约简过程和结果。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

粗糙集-属性约简-m a t l a b程序
Data2为条件属性,decision2为决策属性
%%%my_test函数实现
clc;
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取信息系统文件
file=textread('data2.txt','%s','delimiter','\n','whitespace','');%读取文件信息,每一行为一个胞元
[m,n]=size(file);%胞元的大小
fori=1:m
words=strread(file{i},'%s','delimiter','');%读取每个胞元中字符,即分解胞元为新的胞元
words=words';%转置
X{i}=words;
end
X=X'; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
[B,num,AT]=my_reduct(X);%信息系统的约简
ind_AT=ind(X);%信息系统的不可等价关系%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%显示约简信息系统
disp('约简后的条件系统为:');
[m,n]=size(B);
fori=1:m
disp(B{i});
end
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取决策系统文件
file=textread('decision2.txt','%s','delimiter','\n','whitespace','');
[m,n]=size(file);
fori=1:m
words=strread(file{i},'%s','delimiter','');
words=words';
D{i}=words;
end
D=D'; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%决策系统的正域约简
X_D=X;
[l,k]=size(X_D{1});
pos_d=pos(X_D,D);%正域
fori=1:m%%%%%%%%%%%%%%正域有问题%%%%%%%%%%%%%%%%%%%%%%%%%%%
if(~ismember(num(i),pos_d))
B{i}='';%若约简后的信息系统B{i}不在正域中则删除该行
end%因为相同的条件得到的决策不一样,
end
%将在正域规则下约简过的信息系统B连接决策系统D
[m,n]=size(B);
fori=1:m
if(~isequal(B{i},''))
B{i}{1,k+1}=D{i}{1};
end
end %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%显示约简决策系统
disp('约简后的决策系统为:');
[m,n]=size(B);
fori=1:m
disp(B{i});
end
--------------------------------------------------------------------------------
%%%%%my_reduct函数实现
function[C,num,reduct_attr]=my_reduct(X)
%%%%%y为约简后的cell数组,reduct_attr为可约去的属性
%X为行向量(元素为胞元)
clc;
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%约简
[m,n]=size(X);
[p,k]=size(X{1});
ind_AT=ind(X);%寻找不可等价关系
reduct_attr=[];%可约去的的属性
num=zeros(m,1);%约简后的信息对应的个体
fori=1:k
B=delete_AT(X,i);
if(isequal(ind_AT,ind(B)))%若IND(AT-{a}=IND(AT)
reduct_attr=union(reduct_attr,i);%则寻找到可约去的属性
X=B;
end
end
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%剔除重复的行
k=1;
fori=1:m
if(~isequal(ind_AT{i},[]))
C_i=ind_AT{i,1}(1);
num(k)=i;
C{k,1}=X{C_i};%返回约简后的信息系统
k=k+1;
end
end
--------------------------------------------------------------------------------
%%%%%ind函数实现
functionyy=ind(X)%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%寻找不可分辨关系[m,n]=size(X);
k=1;
ind_AT=cell(m,1);
fori=1:m
forj=(i+1):m%潜在问题,如i=m是终止循环,此时若最后一行不为空的话,将漏扫
if(~isequal(X{i},''))%若X{i}不为空
ind_AT{k}=union(ind_AT{k},i);%不可等价关系赋初值
if(isequal(X{i},X{j}))
X{j}='';%若X{i}==X{j},则删除X{j}
ind_AT{k}=union(ind_AT{k},j);%寻找不可等价关系
end
end
end
k=k+1;
end
--------------------------------------------------------------------------------
%%%delete_AT函数的源代码
functiony=delete_AT(X,ATi)%删除X中第i列的属性值
[m,n]=size(X);
[l,k]=size(X{1});
fori=1:m
X{i}{ATi}='';
end
y=X;
--------------------------------------------------------------------------------
%%%%%pos函数实现
functionpos_d=pos(X,D)%求决策系统的正域函数
%X为条件属性,D为决策属性
ind_D=ind(D);%求决策属性D的不可等价关系
[m,n]=size(ind_D);
ind_X=ind(X);%求信息系统属性X的不可等价关系
low=[];%存储正域个体的编号
fori=1:m
forj=1:m
if(~isequal(ind_X{i},[])&&~isequal(ind_D{j},[]))
if(ismember(ind_X{i},ind_D{j}))
low=union(low,ind_X{i});%由性质Pos_AT(d)=low_AT(X1)Ulow_AT(X2)U...
end
end
end
end
pos_d=low;。

相关文档
最新文档