粗糙集属性约简matlab程序解析

合集下载

基于粗糙集的符号与数值属性的快速约简算法

1000
2000
3000
numbers of samples
统已提示 out of memory.且在占用虚拟内存时，
(a) abalone 上的计算时间
计算速度异常变慢，计时方式来对比已不科学. 由于时间太长，abalone 未能计算完成.该方法在后面大数据实验时不作比较.
在FARNeMF与FARNeM1 的比较中（图 2），发现由于FARNeMF大量减少了样本比较次数，较大幅度地提高了计算速度图 2(c,e).例外的是图 2(a)，FARNeM1 居然比FARNeMF速度还快些.但两
性质 2： M ⊆ N ⊆ C ， X ⊆ U ，则 ∀x ∈U ，若 δ M (x) ⊆ M X 则δ N (x) ⊆ N X . 证明：由下近似定义可知 δ M (x) ⊆ X ，由性质 6 可得 δ N (x) ⊆ δM (x) ⊆ X ，从而由下近似定义得 δ N (x) ⊆ N X 由性质2中 x 任意性，可得
3) Δ(x1, x3 ) ≤ Δ(x1, x2 ) + Δ(x2 , x3 ) .
对于 N 个属性的样本集，距离常用 P 范数表示为
∑ Δ
P
(
x1
,
x
2
)
=
⎜⎜⎝⎛
N i =1
|
f (x1, ai ) −
f (x2 , ai ) |P ⎟⎟⎠⎞1/ P
其中 f (x, ai ) 为样本 x 在属性 ai 上的取值.
4. 实验分析
为测试优化算法的效果，采用 UCI 数据集作
对比实验. 所用的数据集构成如表 1 所示.
表 1 数据集描述
数据集
样本个数
数值型属性
符号型属性

广义多粒度粗糙集属性约简和matlab计算

广义多粒度粗糙集属性约简和matlab计算
张先韬
【期刊名称】《计算机工程与应用》
【年(卷),期】2016(052)008
【摘要】定义了基于广义多粒度粗糙集的属性约简,研究了约简的一些基本性质,给出matlab计算的过程,并给出计算实例.定义了信息系统的严格协调、软不协调性、粒度协调、粒度不协调,定义了广义多粒度下约简、粒度约简、(下/上近似)分布协
调约简、(下/上近似)质量协调约简,并给出部分结论.广义多粒度粗糙集的约简适用于乐观多粒度粗糙集和悲观多粒度粗糙集.研究结果可完善多粒度粗糙集理论,为理
论研究和应用奠定基础.
【总页数】6页(P43-48)
【作者】张先韬
【作者单位】中煤科工集团重庆研究院有限公司,重庆 400039;瓦斯灾害监控与应
急技术国家重点实验室,重庆 400039
【正文语种】中文
【中图分类】TP18
【相关文献】
1.多粒度粗糙集模型下的矩阵属性约简算法 [J], 李丹
2.基于决策表的多粒度粗糙集属性约简研究 [J], 赵思雨;钱婷;魏玲
3.基于局部可调节多粒度粗糙集的属性约简 [J], 侯成军; 米据生; 梁美社
4.利用多粒度粗糙集属性约简和TOPSIS的IPv6负载均衡机制 [J], 罗宏等;蓝耿;聂良刚;粟光旺;伍一坤
5.多源覆盖信息系统下的加权广义多粒度粗糙集模型及其应用 [J], 骆公志;陈佳馨因版权原因，仅展示原文概要，查看原文内容请购买。

基于粗糙集理论的属性约简算法的实现

Ｊｎｏ６ｕｅ２０
基于粗糙集理论的属性约简算法的实现
张冬玲
（州边防指挥学校教育技术中心，东广州５０６）广广１６３
（ｄｉｇ１６ｔｍｚｌ＠２．ｏ）ｎ
摘
要：属性约简算法的实现进行讨论研究，用数学中的一些运算规律，计算机上实现布对利在
尔代数的运算。最后，结合实际的研究课题，通过运行程序，某些数据表实现属性约简。对关键词：糙集；别矩阵；粗差差别函数；属性约简；增量算法
中图分类号：Ｐｌ．３Ｔ３１１文献标识码：Ａ
ｎ×（ｎ一１／。）２
ｒ
约简通常是不唯一的。一个数据集的所有约简可以通过构造差别矩阵，由差别矩阵导出差别函数并对其化简而得到。２１差别矩阵与属性约筒．根据差别矩阵的概念，阵元素与属性约简存在着下列矩
关系
（，２）
，ｆ属于相同决策属性类
ｘ属于不同决策属性类ｊ
１粗糙集理论的相关概念
粗糙集理论是研究不完整数据及不精确知识的表达、学
２利用差别矩阵的属性约简
当前，息系统中信息膨胀主要有两个方向：向和纵信横向。向指切是属性字段的不断增加，横纵向指的是记录数的增加。在粗糙集中对于信息系统横向的约简可以称之为属性约简，向的约简可以认为是值约简。纵随着数据库系统中数据的不断增加，属性的约简相对于值的约简变得更加有效。如果某个条件属性被去除后仍有相同的等价关系的话，么这个条那件属性便是可省的。这样将大大简化数据库结构的复杂度，提高人们对隐含在数据库庞大数据量下的各种信息的认识程度，因此属性约简也就成为了目前粗糙集理论的研究热

粗糙集属性约简的方法

ＷＡＮＧＰｉ，ＡＯＹｌ，ＶＪａｆｎ．ｗｍｅｈｄｏｔｉｕｅｒｄｃｏａｅｎｒｕｈｓｔＣｏｕｅｎｉｅｒｇａｄＡｐｅｉＺＨｕｉＬｉｎｅｇＮｅｔｏｆｔｂｔｕｔｎｂｓｄｏｏｇｅ．ｍｐｔｒｇｎｅｉｎ — ｊｎａｒｅｉＥｎｐｉａｉｎ，０２４（）１３１５ｌｔｓ２１，８２：１ —１．ｃｏＡｂｔａｔＯｂｅｔｃｓｉｃｔｎｉｓｉｔｘｅｓｅｎｏｓｎｉｖｎｎｉ．ｍｉｇａｅｉｏｓｍｗｉｎｅａｃｒａｌｓｒｃ：ｊｃｓｌｓａｉｔｃｅｃｓｉｌａｄｔｓｉｏｏｓＡｉｎｔｃｉｎｓｔｔｕｃｒｉｆｔ．ｎａ・ａｆｏｓｒｉｖｙｏｅｔｅｅｄｓｙｅｈｔｎａｏ
的决策系统，为Ｓ，｝ｄ是带不确定因子（－．）记Ｄ＝，０Ｉ＜ｔ１的结论属性，＝１示该元素对结论有完全肯定的判断，表即该
识库中的知识（属性）并不是同等重要的，还存在冗余，不利这于做出正确而简洁的决策。属性约简要求在保持知识库的分类和决策能力不变的条件下，除不相关或不重要的属性。删般而言，较优的属性约简有如下指标：简后属性个数较约少；约简后规则数目较少；最终范化规则数目较少等。已证明
Ｋｅｒｓｏｇｅ；ｅｅｄｂｌ；ｔｉｕｅｒｄｃｉｎｉｌｍｅｔｔｎｙｗｏｄ：ｒｕｈｓｔｄｐｎａｉｔａｔｂｔｅｕｔ；ｍｐｅｎａｉｉｙｒｏｏ

基于粗糙集的属性约简算法

中的对象组成的集合＋Ｘ）＝｛ ∈ ＵＩ）（Ｂ（
｝。
…
３
的上近似集Ｂ）根据知识判定可能属（，于的中的对象组成的集合ＢＸ）＝｛ ∈ Ｕｌ（ＸＢ（＂Ｘ ≠ ｝Ｘ）Ｉ１。
定义３正域
收稿日期：０ｌ３１２１－ —ｌ０基金项目：国家自然科学基金资助项目（０７０９６５４３）
ＤｃｕＤ＝Ｑ，＝）（ＣｎＤ两个不同的集合。概念２完备信息系统与不完备信息系统在决策信息系统ＤＳ＝＜，ｕＤ，，ＵＣＶＰ＞中，中每个对
１２基本定义．
Ｌ）＝｛（Ｙ∈ ＵＩ（Ｙ，）∈ Ｌ，｝Ｌ＝｛ ∈ ＵＩ（ＸＬ）｝，Ｌ＝｛ ∈ ＵＪ（Ｘ）ｎ ≠ ｝。
（）２（）３（）４
定义１不可分辨关系
限制容差关系具有自反性和对称性，是不具但有传递性。
步骤有的约简属性集都包含的不可省略属性的集合，记为ＣＲＰ）＝ｎＲＤ（ＯＥ（ＥＰ）。
步骤７将Ｒｄｅ集里的属性与ｃ集合里剩余的
属性分别结合。步骤８采用组合属性，复步骤２～６重。步骤９从Ｒｄ的尾部开始，后往前对每个ｅ从
２２知识约简算法．
ｑ｝ＩＤＢ是一个等价关系。）。（）Ｎ由这种等价关系导
出的对的划分记为ＵＩＤ（，中包含样本的／ＮＢ）其等价类记为［］。

粗糙集属性约简算法综述

随着计算机网络的高速发展，人们所要处理的数据越来越多。在大量数据中会伴有不确定问题。目前处理不确定性问题的方法主要包括概率统计、模糊理论、证据理论等…。但
这些方法必须依靠大量的先验知识。粗糙集理论很好弥补了以上方法缺点，可以有效处理不确定信息，却不需要任何先
【文章编号】１００８ — １１５１（２０１５）１１－００１７ — ０３
Ａｓｕｒｖｅｙｏｆｒｏｕｇｈｓｅｔｒｅｄｕｃｔｉｏｎｐｒｏｃｅｓｓａｌｇｏｒｉｔｈｍ
Ｉ为：
Ｈ（ＫＩＭ）＝一 ∑ｐ（） ∑Ｐ（ＹｉＩＸ，）ｌｏｇ（ｐ（￣）Ｉ）（４）
属性集同属性集的互信息为：
对于信息表／（ｕ，Ａ１，如果有属性集ＢＡ，且满足ｉｎｄ（Ｂ）＝ｉｎｄ（Ａ），则称曰为的一个约简，记为ｒｅｄ（Ａ）。ｉｎｄ（Ａ），ｉｎｄ（Ｂ）代表着和上的不可分辨关系。
验知。
核属性就会影响属性约简的前后一致性。
１粗糙集约筒算法初探
１．１基于信息熵的约简算法
定义１设、Ｋ￣ＵＡｚ划分为Ｙ，其中：｛Ｙ＝｛ＹＩ，Ｙｚ， …，Ｙｍ｝，则属性集合Ｍ的熵
上
， … ｝；

粗糙集属性约简算法的分析与改进

３湖南图书馆．湖南－Ｋ沙４０１１０１
【要】研究应用粗挺集理论对信息系统进行属性约简的方法。在分析粗糙集理论基本概念的基础上根据属性的依摘：赖度和重要度等性质，出一种改进的属性的简算法，提并运用实例对算法的有效性进行分析和验证。【关键词】粗糙集；：属性约简；属性重要度；依赖度
．
０引言．
ＳＦａ，ＤＪ＝＋。ｒ一ＮＤＪＧ（Ｒ，ｌｌＤＪ６ｒ。粗糙集理论（ｏ曲Ｓｔｈｏｙ由波兰科学家ＺＰｗ８ＲｕｅＴｅｒ）是，ｌｋ教１ａ．２传统的属性约简算法授于１８９２年提出的ｌ是一种新型的处理模糊和不确定知识的ｌ１，传统的粗糙集算法中的属性约简算法的基本思路如下：数学工具。核心思想是在保持分类能力不变的前提下通过对其 ① 对给定的信息系统，首先求出条件属性的核．并将其作知识的化简，出问题的决策或分类规则。糙集理论建构在经为初始约简：导粗典集合论基础之上，借助分类手段对数据进行处理．ｆ－，以有效地 ② 对不属于约简属性集中的属性。逐个计算其重要度．并进行信息处理，提取有用信息，简化决策规则，提高分类效率。相排序：对于概率统计、证据理论、模糊集等处理含糊性和不确定性问题 ③ 将重要度最大的属性加入约简生成新的约简．断新的判的数学工具而言，粗糙集理论既与他们有一定的联系．又有这些约简对于决策属性的依赖度，若依赖度为１则当前约简集即为．理论不具备的优越性。其主要优势之一就在于它不需要关于数所求。否则转② 。据的任何预备的或额外的信息ＩＺｌ。粗糙集理论已经在数据挖掘、在该算法中，需要先计算出属性核．然后再根据属性重要度模式识别、器学习、机医疗诊断、家系统以及决策分析等领域逐个加入属性直到依赖度为１计算量较大．适合对大数据集专，不得到了广泛的应用，并取得了良好的效果进行处理。以需要寻找一种方法对属性约简过程进行简化所属性约简是粗糙集理论中的一个核心部分，可用于知识约２改进的粗糙集属性约简算法．简。由于求所有属性约简是一个ＮＰ完全问题，目前为止。到还２１改进算法的思想．没有一个高效的算法可以求出最佳约简和所有约简，因此．人们利用每一个条件属性值对信息表进行划分同时求出该属已提出了一些较简单的信息表属性约简算法．Ｊｌｎｋ等人提性值的依赖度和重要度，根据属性的重要度进行排序。然后，如ｅｏｅ并出的算法１３１了较好的效果。但也存在一些不足．取得它必须计算选择重要度最大的属性进入约简属性集．直到约简集和最初信很多不同属性子集的逼近精度才能决定如何扩展候选属性约息表的所有属性的依赖度一致为止。此约简集的基础上．并在合简，算量较大，计特别是随着数据集规模的不断扩大。法的效相同的行得到约简表算率急剧下降，过长的运行时间使得粗糙集理论的优势无法体现改进后的约简算法基本思路如下：出来。对于海量数据挖掘丽言．据约简更具有特殊的意义．数一 ① 初始化约简集为空；个高效的约简算法可以通过缩减原始数据库的数据量。提高数 ② 计算所有不在约简集中的条件属性的重要度并排序：据挖掘的效率 ③ 取重要度最大的条件属性，其加入约简集中，判断将并１粗糙箍理论的基本概念．此时约简集的依赖度，若依赖度为１则算法结柬，，否则转②。

一种基于粗糙集的属性值约简方法

（兰州大学信息科学与工程学院甘肃兰州７００）３００甘肃兰州７０５）３００（兰州工业高等专科学校电子信息工程系
摘
要
利用矩阵的可操作性等优点，将决策表中的知识通过区分矩阵反映出来，对决策表的值约简操作转换为对矩阵的运算。
提出基于区分矩阵的一些重要性质及在此基础上的属性值约简方法，最后通过实验和实例验证了该算法是有效可行的。
关键词粗糙集区分矩阵属性值约简属性重要度
ＡＴＴＲＩＢＵＴＥＶＡＬＵＥＲＥＤＵＣＴＩｏＮＡＬＧｏＲＩＴＨＭＢＡＳＥＤｏＮＲｏＵＧＨＳＥＴＴＨＥｏＲＹ
ＣｈｎＸｉｏｕｅａｙｎＬａｎｈａ，ｎＣｏｇｕ
Ｋｅｗｏｄｙｒｓ
ＲｏｇｅＤｓｅｎｂｅｍａｒｘＡｔｂｔａｕｅｕｔｎＡｔｉｕｅｓｇｉｃｎｅｕｈｓｔｉｃｒａｌｔｔｉｕｅｖｌｅｒｄｃｉｉｒｏｔｂｔｉｎｆａｃｒｉ
Ｕ如果Ｖａ∈Ｐ，，都有ｆ，）＝ｆＹａ。说明仅仅根据条件（ａ（，）
０引言
粗糙集理论是一种新型的处理不确定的、模糊的和不完整
属性子集Ｐ提供的信息，无法将对象，Ｙ区分开来，称对象，Ｙ在条件属性子集Ｐ上是不可区分的，记为：Ｄ（ＩＰ）：｛，）∈ Ｎ（ＹＵ×ＵＩＶａ∈ Ｐ，）厂Ｙａ｝ＩＤ（是Ｕ上的等价关系。ａ：＿，），（ＮＰ）
信息的数学工具。在粗糙集理论中，知识被看作是关于论域的划分，是一种对对象进行分类的能力，理论是建立在集合的基该

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

粗糙集-属性约简-matlab程序
Data2为条件属性,decision2为决策属性
%%%my_test函数实现
clc;
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取信息系统文件
file = textread('data2.txt','%s','delimiter','\n','whitespace',''; %读取文件信息,每一行为一个胞元
[m,n]=size(file; %胞元的大小
for i=1:m
words=strread(file{i},'%s','delimiter',' ';%读取每个胞元中字符,即分解胞元为新的胞元
words=words';%转置
X{i}=words;
end
X=X';
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%
[B,num,AT]=my_reduct(X; %信息系统的约简
ind_A T=ind(X; %信息系统的不可等价关系
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%显示约简信息系统
disp('约简后的条件系统为:';
[m,n]=size(B;
for i=1:m
disp(B{i};
end
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %读取决策系统文件
file = textread('decision2.txt','%s','delimiter','\n','whitespace','';
[m,n]=size(file;
for i=1:m
words=strread(file{i},'%s','delimiter',' ';
words=words';
D{i}=words;
end
D=D';
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%决策系统的正域约简
X_D=X;
[l,k]=size(X_D{1};
pos_d=pos(X_D,D;%正域
for i=1:m %%%%%%%%%%%%%%正域有问
题%%%%%%%%%%%%%%%%%%%%%%%%%%%
if(~ismember(num(i,pos_d
B{i}=''; %若约简后的信息系统B{i}不在正域中则删除该行
end %因为相同的条件得到的决策不一样,
end
%将在正域规则下约简过的信息系统B连接决策系统D
[m,n]=size(B;
for i=1:m
if(~isequal(B{i},''
B{i}{1,k+1}=D{i}{1};
end
end
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%显示约简决策系统
disp('约简后的决策系统为:';
[m,n]=size(B;
for i=1:m
disp(B{i};
end
--------------------------------------------------------------------------------
%%%%%my_reduct函数实现
function [C,num,reduct_attr]=my_reduct(X
%%%%%y为约简后的cell数组,reduct_attr为可约去的属性
%X为行向量(元素为胞元
clc;
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%约简
[m,n]=size(X;
[p,k]=size(X{1};
ind_A T=ind(X;%寻找不可等价关系
reduct_attr=[]; %可约去的的属性
num=zeros(m,1;%约简后的信息对应的个体
for i=1:k
B=delete_A T(X,i;
if(isequal(ind_A T,ind(B %若IND(AT-{a}=IND(A T
reduct_attr=union(reduct_attr,i; %则寻找到可约去的属性
X=B;
end
end
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%剔除重复的行
k=1;
for i=1:m
if(~isequal(ind_A T{i},[]
C_i=ind_A T{i,1}(1;
num(k=i;
C{k,1}=X{C_i}; %返回约简后的信息系统
k=k+1;
end
end
--------------------------------------------------------------------------------
%%%%%ind函数实现
function
yy=ind(X %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%寻找不可分辨关系[m,n]=size(X;
k=1;
ind_A T=cell(m,1;
for i=1:m
for j=(i+1:m %潜在问题,如i=m是终止循环,此时若最后一行不为空的话,将漏扫if(~isequal(X{i},'' %若X{i}不为空
ind_A T{k}=union(ind_A T{k},i; %不可等价关系赋初值
if(isequal(X{i},X{j}
X{j}=''; %若X{i}==X{j},则删除X{j}
ind_A T{k}=union(ind_A T{k},j; %寻找不可等价关系
end
end
end
k=k+1;
end
--------------------------------------------------------------------------------
%%%delete_A T函数的源代码
function y=delete_AT(X,ATi % 删除X中第i列的属性值
[m,n]=size(X;
[l,k]=size(X{1};
for i=1:m
X{i}{A Ti}='';
end
y=X;
-------------------------------------------------------------------------------- %%%%%pos函数实现
function pos_d=pos(X,D%求决策系统的正域函数
%X为条件属性,D为决策属性
ind_D=ind(D; %求决策属性D的不可等价关系
[m,n]=size(ind_D;
ind_X=ind(X; %求信息系统属性X的不可等价关系
low=[]; %存储正域个体的编号
for i=1:m
for j=1:m
if(~isequal(ind_X{i},[]&&~isequal(ind_D{j},[]
if(ismember(ind_X{i},ind_D{j}
low=union(low,ind_X{i};%由性质Pos_A T(d=low_AT(X1Ulow_A T(X2U... end
end
end
end
pos_d=low;。