基于粗糙集的属性值约简算法研究概要

基于粗糙集的属性值约简算法研究概要
基于粗糙集的属性值约简算法研究概要

141

科技资讯

科技资讯SCIENCE&TECHNOLOGY INFORMATION 2007

NO.34

学术论坛

1引言

粗糙集(Rough set [1]理论是一种处理模糊和不确定信息的新型数据分析工具,目前已成为信息科学最活跃的研究领域之一。基于粗糙集的属性值约简是利用决策逻辑消去决策算法中每条决策规则的不必要条件。它是针对每条决策规则, 去掉表达该规则的冗余值,以便进一步使决策算法最小化。

属性值约简与属性约简的原理都是删除冗余信息过程,采用的手段都是通过求得核(核值、约简(约简值得到的。将粗糙集理论应用到数据挖掘技术上,利用粗糙集的知识约简, 精简数据挖掘出的各类规则,对复杂系统的策略研究具有广泛的意义。

本文应用粗糙集理论,分析基于粗糙集的常用属性值约简算法和相应的算法的复杂度, 并结合一种新约简算法实例分析研究,说明这一算法的有效性。

2传统的属性值约简算法

定义 1信息系统 S=(U,A,V,F 是一个决策表, 其中 U 为非空有限集合, 称为全域。全域 U 的元素被称为对象或者实例; A =C ∪ D,C 为条件属性集,即对象的特征;D={d}为决策属性集,

称为对象的分类, C ∩ D =; V 是属性值的集合。设 a 是任一属性,x i 是任一个对象,则 f(x i ,a表示x i 在 a属性的取值。信息系统可简化表示为 S=(U,A。

属性值约简的思想是:决策表中每一行代表一条决策规则,即计算每一条决策规则的条件属性的核值。可以采用先将该行中一个条件属性的值从表中删去,然后检查剩下的该行中条件属性值是否可以唯一确定此行中的决策属性,若果不是,那么删去的条件属性值就是该行决策规则的核值。在求出所有的决策规则的核值后的基础上,通过添加一些条件属

性值到核值中,并保证每个条件属性是不可省的。

常用的属性值约简算法有数据分析法和区分矩阵法。 2.1数据分析法

其基本思想:在信息系统的决策表中,逐一将属性集 A 中的属性删除,每删除一个属性就检查决策表。如果没有出现新的不一致,则删除该属性,否则该属性不能被删除。若决策表可以表示成R 1→ d 1,R 2→ d 2,当d 1≠ d 2时有R 1≠ R 2,那么决策表就是一致的,如果存在d 1≠ d 2而 R 1=R 2,那么决策表就是不一致的。每次删除测试是否还保持原决策表的一致性可以转化为检查正区域是否被改变。

计算正区域的时间复杂度为O(|A||U|Log |U|,共有|A|次计算正区域,所以算法复杂度就是O(|A|2|U|Log|U|。 |A|为属性数,|U|为对象数。

基于粗糙集的属性值约简算法研究①

赵慧娟骆解民

(上海水产大学信息学院上海200090

摘要:规则提取是数据挖掘的核心步骤, 在分析常用属性值约简算法思想的基础上, 给出基于不可分辨矩阵的属性值约简算法描述。实验结果表明, 这种方法是可行的。

关键词:数据挖掘粗糙集属性值约简中图分类号:G 64文献标识码:A 文章编号:1672-3791(200712(a-0141-02

的结构和机能达到一定的发达程度,同时要善于充分发挥大脑的机能。根据大脑半球不对称原理, 左脑是理性、知识的脑,通过分析思维和集中思维来进行智力开发,而右脑则是感知、创造的脑,通过想象力、直觉思维、扩散思维来进行创造力开发。通过对发明发现过程的研究分析, 创造学家们普遍认为, 由右脑所获得的形象、直觉、对整体的感知等是人们进行创造性活动的源泉, 也是创造性地解决问题的关键。科学史上大量事例可以佐证这一成果。但是, 进行创造性活动不仅需要充分开发利用右脑的功能,也需要积极调动左脑的功能,只有两者有效地相互配合激发,才能有效地实现创造性活动, 得到创造性活动的产品。 2.2创造性思维的实现从以上对创造性活动微观机制的讨论中, 可以看到要实现创造性思维,关键在于如何把人的创造能量由基态转到激发态,以及如何诱导人的创造性活动由低级向高级发展。 2.2.1创造性思维的激发创造性思维的激发可分为外部激发和内部激发两种,外部激发又可分为直接和间接之分。譬如讨论交流激发了创造性思维就是一种外部直接的激发。而解除了阻碍激发创造性思维的不良的外在条件,也是一种外部间接的激发。如果由于依靠自身的能动性激发了创造性思维则认为是一种内部的激发。卓越的科学家爱因斯坦在谈及自己的创造活动时总是说,我不过是抱着孩子般的好奇心去接触问题而已。这就说明好奇心将会激发创造性思维,因为强烈的好奇心将在体内产生强大的“内驱力” , 这“内驱力”激发了创造因子,破坏了原来的创造体的稳定结构, 使得创造因子高速运动和大量碰撞,并同时又可能打碎创造核而释放其固有能量,大大提高了非稳态的创造体的重组效率,形成了高值的创造能, 导致了创造性思维的实现。许多事例向我们表明,处于逆境之中,或处于不令人满意的状态中,或在面临着困难和难题的时候, 往往会激发一个人的创造性思维。因为处于这种状态的个人由于感受到一种心理上的压迫,而为了消除或摆脱,反抗或解决就产生一种“作用力” ,这种“作用力” 达到了一定的“阀值” ,就犹如前述的“内驱力” 一样,

会激发创造因子,产生创造性思维。并且,这个时候,坚强的意志对创造性思维的产

生也起着异常重要的作用。古希腊哲学和逻辑学家苏格拉底曾指出, 可以通过提出问题来激发创造性思维。因为每个人都或强或弱具有一种要求解决问题而“自我实现”的欲望, 这一欲望, 就会因为提出了问题而又为了解决问题而产生一种“原动力” , 这一原动力正如“内驱力”那样会激励创造能, 导致创造性思维的实现。 2.2.2

影响创造性思维的诸因素一个人的个性品质、心理素质、能力高低和环境气氛等都对创造性思维的产生或多或少有着重要的影响。托兰斯总结了许多研究成果,曾列出 84项可导致产生创造性思维的人格特征,其中最主要的前九项是:①容忍无秩序;②甘愿冒险;③勇于承担过于困难的工

作;④渴望优越;⑤不满、发现缺陷;⑥有情绪感受性; ⑦不怕被人看作为“怪人” ;

⑧好奇

心强; ⑨喜欢孤独。同时一个人的自信心、自尊心的大小, 思想观念的灵活

性、意志的强弱、是否勇敢、大胆和不迷信权威, 是否善于怀疑、具有批判精神都对创造性思维的产生有着很重要的影响。此外一个人的想象能力、坚持能力、自制能力、表达能力、质疑能力、洞察能力、交际能力、以及超越束缚的能力、

摆脱习惯的能力、普遍联系的能力、发现问题的能力等等对创造性思维的产生有着决定性的作用。 3结语创造性思维是一种非常重要的思维方式, 是对人们原有的思维方式和内容的超越。要

学会和掌握创造性思维方式,人们必须自觉地培养和训练,才能逐步具备良好的思维功底和思维品质、积累丰富的知识经验和智慧,才能“厚积薄发” 、获得灵

感、实现思维的飞跃、产

生新观点和新办法, 从而创造出新成果。参考文献 [1]王玉琳,王诤诤.创造性思维的系统分析[J]. 系统辩证学报,2002,10(3:13-16. [2]柴建芳.创造性思维系统特征初探[J].山西高等学校社会科学学报,2007,19(1:13-18.

[3]程名,周昌乐.创造性思维计算模型研究综述[J].心理科学,2007,30(1:136-138. ①上海水产大学青年科研基金(6690606093

142科技资讯

科技资讯SCIENCE&TECHNOLOGY INFORMATION

2007NO.34

SCIENCE&TECHNOLOGY INFORMATION

学术论坛

表1汽车驾驶安全表

表 2约简{C 2,C 3规则}表示

2.2区分矩阵法

定义2区分矩阵是一个对称|U|×|U|矩阵,矩阵的每一项 Cij 定义为:

使用区分矩阵的属性值约简算法有 Z1ark0和 Shan 的属性值约简算法[1]。

基本思想:首先构造区分矩阵,该矩阵用来分辨不同分类值下条件属性取值间的差异。针对每一个决策属性值 V d , 将决策表中的记录分为两部分,一个是属于 V d 的,另外一部分是不属于 V d 的, 通过比较这两部分记录集间条件属性取值的不同,构造出区分矩阵。在该矩阵的基础上求出区分函数,然后应用吸收律化简区分函数,得到析取范式,则每个主蕴含式均为规则约简。

计算区分矩阵的代价是O(|A||U|2,合并和排序区分矩阵的时间复杂度为

O(2|U|2|Log |U|;遍历区分矩阵并生成约简的时间复杂度是O(|A||U|2。整个算法的时间复杂度的上限是O(2(|A|+Log|U||U|2。

通过以上分析,可以发现,如果条件属性的个数较大, 测试属性组合的代价是比较大的, 需要一种相对高效的属性值约简算法。

3基于不可分辨矩阵的属性值约简算法

3.1算法的基本思想

对每个条件属性进行等价类划分,如果一个等价内的多个实例都在一个分类属性的等价类里,那么就可以由该条件属性值确定地推导出此分类属性。 3.2不可分辨矩阵

定义 3决策系统 S的不可分辨矩阵定义如

其中 ind(a i 表示条件属性 a 等价类的个数,a i,j 表示条件属性 a i 的第 j 个等价类。

规则的属性值约简,要同时考虑条件属性值的等价类和条件属性值的等价类是否在一个分类属性值所在的等价类中,所以需要将条件属性不可分辨矩阵 Ea i,j 按照分类属性值的不同区别开来。 3.2算法

Input:信息系统S(U,A ∪{d},其中A =∪ ai,i=1,…,n

Output;化简后的规则集 R Procedure:1.R 置为空集

2.计算S中所有属性的等价类和不可分辨矩阵E

3.对E中每个 e 的元素根据等价类进行分类

4.WHILE(E不为空集

5.对于E中的每个 e

6. B E G I N

7.if(e值为1

8. E =E -e

9. R =R +e

10.if(U为空集break 11.else

12. U =U -{e 的规则号}13.END IF 14. E N D

15.对R进行同分类属性值的合并 16.IF(E不为空集

17.E=∩非同一条件属性项 18. E N D W H I L E 19. R E T U R N R

计算等价类的代价与计算区分矩阵的代价都在O(|A||U|2|内,计算不可区分矩阵的代价为O(|A||U|2|内。最坏情况下,每个属性的不可区分矩阵有|U|项,分类属性等价类也是|U|项,那么对等价类按照分类属性值进行整理最坏程度就是 O(|A||U|2|。最坏情况下每一条规则的条件属性值都不能省,while 就要循环属性个数|A|次,内部E 的大小最多为|U|,所以代价为O(|A||U|。总的属性值约简的代价为O

(|A||U|2

+O(|A||U|2+O(|A||U|,即O(|A||U|2。明显小于区分矩阵的属性值约简算法的 O (2(|A|+LogU|U|2。 3.3实验

表1是一个约简后的关于汽车驾驶安全的信息系统,其中U ={1,2,…,8},条件属性集为 C ={是否会驾驶, 饮酒程度, 是否出车祸},决策属性为 D ={是否出车祸.

以上面的数据集为例, 分析规则提取过程。假设该数据集含有 8个记录,属性数为 4, 其中第一个属性是记录编号,因此可以删除。第 4个属性是决策属性, 有效条件属性为 2个。根据不可区分矩阵启发式属性约简算法,对约简{C2,C3}进行规则提取,得到的规则有 5条,如表 2所示。可以验证,表 2中所有的规则都是正确的。

可以看到,从约简中得到的规则,经过属性值约简算法,可以用更为简洁的规则形式表达, 且简单表达形式能完全代表约简中的规

则。假如在约简集的基础上再增加一个冗余属 r,因为冗余属性 r 的存在,可能会产生一个简化规则与这个冗余属性 r 有关,那么就把约简中的一部分规则归入到

冗余属性r的简化规则中,从而影响真正约简属性的规则形式和规则数目,所以简化规则的个数和形式是要发生改变的。

4结语

基于粗糙集的数据挖掘方法的显著的特点之一就是它具有显式的知识表达形式,属性值约简是基于粗糙集理论的规则泛化步骤之一。属性值约简一般是在属性约简的基础上进行的。在分析常用属性值约简算法思想的基础上,给出基于不可分辨矩阵的属性值约简算法。该算法能够抽取出最简单的规则。经过实验分析, 该方法是可行的。

参考文献

[1]Pawlak Z.Rough set theory and its

applications to data analysis[J].Cyber-netics and System,1998,29(27:661-688.

[2]常犁云,王国胤,吴渝.一种基于Rough Set

理论的属性约简及规划提取方法[J].软件学报,1999,10(11:1206-1211.

[3]施仁.海量数据约简与分类研究博士论文

[D].中国科学院计算技术研究所,2001. [4]uafafou M.a RST:a generalization of

rough set https://www.360docs.net/doc/0e14778878.html,rmation Science 2000,124(l-4:301-316.

[5]赵卫东,李旗号.粗集在数据开采中的应用

[J].系统工程学报,2002,17(4349-357.

粗糙集属性约简matlab程序

粗糙集-属性约简-matlab程序 Data2为条件属性,decision2为决策属性 %%%my_test函数实现 clc; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取信息系统文件 file = textread('data2.txt','%s','delimiter','\n','whitespace',''); %读取文件信息,每一行为一个胞元 [m,n]=size(file); %胞元的大小 for i=1:m words=strread(file{i},'%s','delimiter',' ');%读取每个胞元中字符,即分解胞元为新的胞元 words=words';%转置 X{i}=words; end X=X'; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% [B,num,AT]=my_reduct(X); %信息系统的约简 ind_A T=ind(X); %信息系统的不可等价关系 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%显示约简信息系统 disp('约简后的条件系统为:'); [m,n]=size(B); for i=1:m disp(B{i}); end %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取决策系统文件 file = textread('decision2.txt','%s','delimiter','\n','whitespace',''); [m,n]=size(file); for i=1:m words=strread(file{i},'%s','delimiter',' '); words=words'; D{i}=words; end D=D'; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%决策系统的正域约简 X_D=X; [l,k]=size(X_D{1}); pos_d=pos(X_D,D);%正域 for i=1:m %%%%%%%%%%%%%%正域有问

属性约简

粗糙集的几种属性约简算法分析 分类:默认栏目 2006.6.16 10:32 作者:万富| 评论:0 | 阅读:1628 陈淑珍,基于粗集的几种属性约简算法分析,武汉工业学院学报,Vol.2 4No.3,Sep .20 05 1.1 利用差别矩阵求最小约简 差别矩阵(Discernibility Matrix)是由波兰华沙大学的著名数学家Skowron[21 提出来的,利用这个工具,可以将存在于复杂的信息系统中的全部不可区分关系表达出来。利用差别矩阵求取最小约简的一个前提是:在数据表的预处理阶段要先对不相容的记录进行处理,即差别矩阵不处理不相容记录。预处理的方法如将冲突的记录数除以记录总数,得到一个粗糙度的量度,该量度可以作为数据表的一个特征。 通过差别矩阵可以很方便地求取核属性,以核属性为出发点,再求取差别函数的最小析取范式,则求析取范式的运算就可以得到很大的简化。而最后得到的每个析取分量对应着一个约简。因此,一定可以得到最小约简。 但该算法的缺陷十分明显:首先,当论域的对象与属性的规模较大时,差别矩阵将占有大量的存储空间口(n的二次方);其次,差别函数的化简本身就是一个NP一hard问题,因此只要数据集稍大一点,就不具备可操作性。 1.2 基于属性依赖度约简算法 求取所有约简是一个NP一hard问题,因此运用启发信息来简化计算以找出最优或次优约简显然是一种可取的方法。 许多启发式约简算法的基本步骤都是:由信息系统或决策表的核为起始点,然后根据属性重要性的某种测度,依次选择最重要的属性加人核中,直到满足终止条件。便得到信息系统或决策表的一个约简(更确切的说,是包含约简的一个属性集)。 一个信息系统中的所有属性对于决策来说并不是同等重要的,在粗集理论中,属性重要性可通过相依度来体现。 决策属性D对于属性R(R属于C)的相依度y(R,D)定义为[3]:显然有,O <,y(R,D), l,y(R,D)给出了决策D对属性R之间相依性的一种测度。它反映了属性R对于决策D的重要程度。在已知条件R的前提下,一个属性R对于决策D的重要度SGF(a,R,D)可以定义为如下的差值:SGF = (a ,R,D)=y(R+{a},D)一y(R,D),SG F= ( a,R,D)反映了把属性a加到R后,R 与D之间相依度的增长程度。事实上,属性对于R与之间相依性的影响越强,则SGF= (a,R,D)的值就越大。 1.3 基于条件信息嫡约简算法 基于属性依赖度的启发式约简方法在实际应用中遇到的一个重大困难是属性间不确定关系的表达。粗糙集约简表达的是属性间的确定性关系,正区域之外等价类族表达的属性间关系并不被粗糙集认可,因此除要求属性满足确定性关系外,挑选有强烈概率因果关系的属性集具有十分意义。 为了描述概率因果关系,人们在处理这类数据时,在约简算法中引人信息嫡来度量属性重要度。 事实上基于信息嫡与基于属性依赖度的启发式算法也是不完备的。 应当指出的是以上所分析的两种算法都只是搜索次优解的算法,采用属性重要性方法的约简算法并不能保证一定能够找到信息系统的最优解。出现这种情况的原因在于属性的“组合爆炸”。在信息系统中各个属性并不是孤立存在的,而是存在着互相之间的联系和影响。某些属性虽然它们的单个重要性都很小,但是当这些属性组合在一起时,却能对整个信息系统的正确分类产生很大的作用,而这一点有时仅仅凭借单个属性的重要性评价方法是很难发现的,因为那些重要性很小的属性很难被约简算法所选择。尽管采用每次属性扩张后都动态调整各属性重要性的办法能够在一定程度上克服这一问题,但还是无法从根本上解决问题。 利用启发式算法的确能够提高约简的求解速度,而且在解空间不复杂的情况下有可能得到最优解或次优解,但在解空间较复杂或属性间关系较为复杂的情况下,用这些方法找到的解极有可能陷人局部最优解,这种算法并非对所有的知识表达系统都适用。 1.4 基于遗传算法的属性约简 遗传遗传算法是一种自适应随机搜索方法,其搜索方式不是由单一的方向或结构,它将多个个体作为可能的解并考虑搜索空间全局范围内的抽样,从而导致以更大的可能性收敛到全局最优解,因此,人们把遗传算法引人粗集属性约简。 算法通过用计算机模拟生物进化过程,使群体不断优化,并在变化过程中找出最优解。在遗传算法中,适应度函数的设计是整个GA 算法的核心步骤,由于几个遗传算子都依赖于染色体的适应度值,因此适应度函数的设计目标,在很大程度上决定着迭代收敛的方向。而粗糙集的属性约简主要是为了求得最小的约简属性集。这样,在保证属性集满足一定精度的情况下,使其属性个数最小,即最终所

粗糙集属性约简matlab程序

粗糙集-属性约简-m a t l a b程序 Data2为条件属性,decision2为决策属性 %%%my_test函数实现 clc; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取信息系统文件 file=textread('data2.txt','%s','delimiter','\n','whitespace','');%读取文件信息,每一行为一个胞元 [m,n]=size(file);%胞元的大小 fori=1:m words=strread(file{i},'%s','delimiter','');%读取每个胞元中字符,即分解胞元为新的胞元 words=words';%转置 X{i}=words; end X=X'; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% [B,num,AT]=my_reduct(X);%信息系统的约简 ind_AT=ind(X);%信息系统的不可等价关系%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%显示约简信息系统 disp('约简后的条件系统为:'); [m,n]=size(B); fori=1:m disp(B{i}); end %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取决策系统文件 file=textread('decision2.txt','%s','delimiter','\n','whitespace',''); [m,n]=size(file); fori=1:m words=strread(file{i},'%s','delimiter',''); words=words'; D{i}=words; end D=D'; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%决策系统的正域约简 X_D=X; [l,k]=size(X_D{1}); pos_d=pos(X_D,D);%正域 fori=1:m%%%%%%%%%%%%%%正域有问题%%%%%%%%%%%%%%%%%%%%%%%%%%% if(~ismember(num(i),pos_d)) B{i}='';%若约简后的信息系统B{i}不在正域中则删除该行 end%因为相同的条件得到的决策不一样, end %将在正域规则下约简过的信息系统B连接决策系统D

属性约简方法概述

属性约简方法概述 属性约简又称维规约或特征选择,从数学的角度考虑,就是有p 维数据 x =(x 1,x 2……x p ),通过某种方法,得到新的数据 x’=(x’1,x’2…… x’k ) , k ≤p , 新的数据在某种评判标准下,最大限度地保留原始数据的特征。属性约简主要是为了解决高维数据计算的复杂性和准确性问题。目标是消除冗余和不相关属性对计算过程和最终结果造成的影响。 对数据进行属性约简的意义,主要从以下几个方面考虑: a) 从机器学习的角度来看,通过属性约简去除噪音属性是非常有意义的; b) 对一些学习算法来说,训练或分类时间随着数据维数的增加而增加,经过属性约简可以降低计算复杂度,减少计算时间; c) 假如不进行属性约简,噪音或不相关属性和期望属性对分类的作用一样,就会对最终结果产生负面影响; d) 当用较多的特征来描述数据时,数据均值表现得更加相似,难以区分。 为了描述属性约简方法,这里假设数据集合为D ,D ={x 1,x 2….x n }, x i 表示D 中第i 个实例,1≤i≤n ,n 为总的实例个数。每个实例包含p 个属性{|x i |=p }。从机器学习的角度来看,属性约简方法可以分为监督的和非监督的两类。下面是几种常用的方法。 (1) PCA 主成分分析 主成分概念是Karl parson 于1901年最先引进。1933年,Hotelling 把它推广到随机变量。主成分分析把高维空间的问题转换到低维空间来处理,有效的降低了计算的复杂度。通过主成分的提取,降低了部分冗余属性的影响,提高了计算的精度。 主成分分析的基本思想为:借助一个正交变换,将分量相关的原随机变量转换成分量不相关的新变量。从代数角度,即将原变量的协方差阵转换成对角阵;从几何角度,将原变量系统变换成新的正交系统,使之指向样本点散布最开的正交方向,进而对多维变量系统进行降维处理[43]。 定义4-1[44]:设12(,,...,)'p X X X X =为p 维随机向量,它的第i 主成分分量可表示'i i Y u X =,i =1,2,…, p 。其中i u 是正交阵U 的第i 列向量。并且满足: 1Y 是12,,...,p X X X 的线性组合中方差最大者; k Y 是与11,...k Y Y -不相关的12,,...,p X X X 的线性组合中方差最大。 (k =2,3,…p )。 定义4-2[45]: 设∑是随机向量12(,,...,)'p X X X X =的协方差矩阵,其特征值-特征向量对1122(,),(,),...(,)p p e e e λλλ,其中12...0p λλλ≥≥≥≥。则第i 个主成分为: 1122 '...i i i i i p p Y e X e X e X e X ==+++ i =1, 2, …p ………………….式

粗糙集理论介绍(对于初学者来说,很经典的滴)

粗糙集理论介绍面对日益增长的数据库,人们将如何从这些浩瀚的数据中找出有用的知识?我们如何将所学到的知识去粗取精?什么是对事物的粗线条描述什么是细线条描述?粗糙集合论回答了上面的这些问题。要想了解粗糙集合论的思想,我们先要了解一下什么叫做知识?假设有8个积木构成了一个集合A,我们记:A={x1,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色属性,按照颜色的不同,我们能够把这堆积木分成R1={红,黄,兰}三个大类,那么所有红颜色的积木构成集合X1={x1,x2,x6},黄颜色的积木构成集合X2={x3,x4},兰颜色的积木是:X3={x5,x7,x8}。 按照颜色这个属性我们就把积木集合A进行了一个划分(所谓A的划分就是指对于A中的任意一个元素必然属于且仅属于一个分类),那么我们就说颜色属性就是一种知识。在这个例子中我们不难看到,一种对集合A的划分就对应着关于A中元素的一个知识,假如还有其他的属性,比如还有形状R2={三角,方块,圆形},大小R3={大,中,小},这样加上R1属性对A构成的划分分别为:A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7,x8}} (颜色分类)A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6,x7}} (形状分类)A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4,x7}} (大小分类) 上面这些所有的分类合在一起就形成了一个基本的知识库。那么这个基本知识库能表示什么概念呢?除了红的{x1,x2,x6}、大的{x1,x2,x5}、三角形的{x1,x2}这样的概念以外还可以表达例如大的且是三角形的{x1,x2,x5}∩{x1,x2}={x1,x2},大三角{x1,x2,x5}∩{x1,x2}={x1,x2},兰色的小的圆形({x5,x7,x8}∩{x3,x4,x7}∩{x3,x4,x6,x7}={x7},兰色的或者中的积木{x5,x7,x8}∪{x6,x8}={x5,x6,x7,x8}。而类似这样的概念可以通过求交运算得到,比如X1与Y1的交就表示红色的三角。所有的这些能够用交、并表示的概念以及加上上面的三个基本知识(A/R1,A/R2.A/R3)一起就构成了一个知识系统记为R=R1∩R2∩R3,它所决定的所有知识是A/R={{x1,x2},{x3},{x4},{x5},{x6},{x7},{x8}}以及A/R中集合的并。 下面考虑近似这个概念。假设给定了一个A上的子集合X={x2,x5,x7},那么用我们的知识库中的知识应该怎样描述它呢?红色的三角?****的大圆?都不是,无论是单属性知识还是由几个知识进行交、并运算合成的知识,都不能得到这个新的集合X,于是我们只好用我们已有的知识去近似它。也就是在所有的现有知识里面找出跟他最像的两个一个作为下近似,一个作为上近似。于是我们选择了“兰色的大方块或者兰色的小圆形”这个概念:{x5,x7}作为X的下近似。选择“三角形或者兰色的”{x1,x2,x5,x7,x8}作为它的上近似,值得注意的是,下近似集是在那些所有的包含于X的知识库中的集合中求并得到的,而上近似则是将那些包含X的知识库中的集合求并得到的。一般的,我们可以用下面的图来表示上、下近似的概念。这其中曲线围的区域是X的区域,蓝色的内部方框是内部参考消息,是下近似,绿的是边界加上蓝色的部分就是上近似集。其中各个小方块可以被看成是论域上的知识系统所构成的所有划分。整个粗集理论的核心就是上面说的有关知识、集合的划分、近似集合等等概念。 下面我们讨论一下关于粗糙集在数据库中数据挖掘的应用问题。考虑一个数据库中的二维表如下:元素颜色形状大小稳定性 x1 红三角大稳定 x2 红三角大稳定 x3 黄圆小不稳定 x4 黄圆小不稳定 x5 兰方块大稳定 x6 红圆中不稳定 x7 兰圆小不稳定 x8 兰方块中不稳定 可以看出,这个表就是上面的那个例子的二维表格体现,而最后一列是我们的决策属性,也就是说评价什么样的积木稳定。这个表中的每一行表示了类似这样的信息:红色的大三角积木稳定,****的小圆形不稳定等等。我们可以把所有的记录看成是论域A={x1,x2,x3,x4,x5,x6,x7,x8},任意一个列表示一个属性构成了对论域的元素上的一个划分,在划分的每一个类中都具有相同的属性。而属性可以分成两大类,一类叫做条件属性:颜色、形状、大小都是,另一类叫做决策属性:最后一列的是否稳定? 下面我们考虑,对于决策属性来说是否所有的条件属性都是有用的呢?考虑所有决策属性是“稳定”的集合

粗糙集属性约简matlab程序

粗糙集属性约简m a t l a b程序 (总3页) -CAL-FENGHAI.-(YICAI)-Company One1 -CAL-本页仅作为文档封面,使用请直接删除

粗糙集-属性约简-matlab程序 Data2为条件属性, decision2为决策属性 %%%my_test函数实现 clc; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取信息系统文件 file = textread('data2.txt','%s','delimiter','\n','whitespace',''); %读取文件信息,每一行为一个胞元 [m,n]=size(file); %胞元的大小 for i=1:m words=strread(file{i},'%s','delimiter',' ');%读取每个胞元中字符,即分解胞元为新的胞元 words=words';%转置 X{i}=words; end X=X'; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% [B,num,AT]=my_reduct(X); %信息系统的约简 ind_AT=ind(X); %信息系统的不可等价关系%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%显示约简信息系统 disp('约简后的条件系统为:'); [m,n]=size(B); for i=1:m disp(B{i}); end %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取决策系统文件 file = textread('decision2.txt','%s','delimiter','\n','whitespace',''); [m,n]=size(file); for i=1:m words=strread(file{i},'%s','delimiter',' '); words=words'; D{i}=words; end D=D'; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%决策系统的正域约简 X_D=X; [l,k]=size(X_D{1}); pos_d=pos(X_D,D);%正域 for i=1:m %%%%%%%%%%%%%%正域有问题%%%%%%%%%%%%%%%%%%%%%%%%%%% if(~ismember(num(i),pos_d)) B{i}=''; %若约简后的信息系统B{i}不在正域中则删除该行 end %因为相同的条件得到的决策不一样, end %将在正域规则下约简过的信息系统B连接决策系统D [m,n]=size(B);

属性约简方法概述

属性约简方法概述 Document number:NOCG-YUNOO-BUYTT-UU986-1986UT

属性约简方法概述 属性约简又称维规约或特征选择,从数学的角度考虑,就是有p 维数据 x =(x 1,x 2……x p ),通过某种方法,得到新的数据 x’=(x’1,x’2…… x’k ) , k ≤p , 新的数据在某种评判标准下,最大限度地保留原始数据的特征。属性约简主要是为了解决高维数据计算的复杂性和准确性问题。目标是消除冗余和不相关属性对计算过程和最终结果造成的影响。 对数据进行属性约简的意义,主要从以下几个方面考虑: a) 从机器学习的角度来看,通过属性约简去除噪音属性是非常有意义的; b) 对一些学习算法来说,训练或分类时间随着数据维数的增加而增加,经过属性约简可以降低计算复杂度,减少计算时间; c) 假如不进行属性约简,噪音或不相关属性和期望属性对分类的作用一样,就会对最终结果产生负面影响; d) 当用较多的特征来描述数据时,数据均值表现得更加相似,难以区分。 为了描述属性约简方法,这里假设数据集合为D ,D ={x 1,x 2….x n }, x i 表示D 中第i 个实例,1≤i≤n ,n 为总的实例个数。每个实例包含p 个属性{|x i |=p }。从机器学习的角度来看,属性约简方法可以分为监督的和非监督的两类。下面是几种常用的方法。 (1) PCA 主成分分析 主成分概念是Karl parson 于1901年最先引进。1933年,Hotelling 把它推广到随机变量。主成分分析把高维空间的问题转换到低维空间来处理,有效的降低了计算的复杂度。通过主成分的提取,降低了部分冗余属性的影响,提高了计算的精度。 主成分分析的基本思想为:借助一个正交变换,将分量相关的原随机变量转换成分量不相关的新变量。从代数角度,即将原变量的协方差阵转换成对角阵;从几何角度,将原变量系统变换成新的正交系统,使之指向样本点散布最开的正交方向,进而对多维变量系统进行降维处理[43]。 定义4-1[44]:设12(,,...,)'p X X X X =为p 维随机向量,它的第i 主成分分量可表示'i i Y u X =,i =1,2,…, p 。其中i u 是正交阵U 的第i 列向量。并且满足: 1Y 是12,,...,p X X X 的线性组合中方差最大者; k Y 是与11,...k Y Y -不相关的12,,...,p X X X 的线性组合中方差最大。(k =2, 3,…p )。

属性约简

粗糙集的研究对象是一个数据集,数据集一般被保存为数据表格形式,即数据库或信息系统。信息系统的形式是由研究对象和属性值关系构成的二维数据表,类似于基础数学中的关系数据库。信息系统实现了粗糙集模型的知识表示。 定义 2.1.1[46] 设(,,,)S U A V f =为一个数据库,即信息系统,也称为知识表示系统。其中12{,}U U x x x = 为一个非空的有限对象集,12{,,}A A a a a = 是属性的有限非空集合,a V V =?,a A ∈,a V 为属性a 的值域;定义信息函数 :U V c a f A ?→ . 例如表2.1.1是一个信息系统,其中12345{,,,,}U x x x x x =, 1234{,,,}A a a a a =,123a a a V V V ==={0,1},4a V ={0,1,2}. 表2.1.1 信息系统 定义2.1.2[46] 对于a A ?∈,x U ?∈,(,)a f x a V ∈,对于P A ??≠?,定义:{(,):(,)(,),}I x y U U f x q f y q q P =∈?=?∈, I U 称为上的不可分辨关系。 (1)若(,)x y I ∈,则称:x y 和是不可分辨的。 (2)不可分辨关系是等价关系,具有: 自反性:xIx ; 对称性:xIy yIx ?;

传递性:,xIy yIz xIz ? . (3) I 是U 上的一个等价关系,[]{,}I x y y U xIy =∈, 12{[]}{,}I k U I x x U X X X =∈= ,12,k X X X 称为U 关于I 的一个划分。 (4)P I ?≠?,1,2I I I ∈, 112{,}k U I X X X = ,212{,}l U I Y Y Y = , 12{,1,2,1,2}i j U I I X Y i k j l ?=?== ,()I P ind P I P ∈== , 则称:()ind P U 是上的一个等价关系,称为P 上的不可区分关系。 ()[][]ind P I I P x x ∈= 称为P 的基本知识。 当12()()ind I ind I ?,称1,I 比2I 细,21I I . 1.1.1粗糙集与近似 定义2.1.3[46] X U ?,I 是U 上的一个等价关系,12{,}k U I X X X = ,若存在1i X ,2i X j i X U I ∈,.st X =1 t j i t X = ,称X 是关于I 的精确集。否 则称X 是I 的粗糙集。 定义 2.1.4[46] 给定一个知识系统(,,,)S U A V f =,D A ?,X U ?, x U ∈,集合X 关于D 的下近似,上近似,负区域及边界区域分别为: 下近似:()D apr X DX ={:()}x U D x X = ∈? {,}Y U D Y X =∈? {[][],}D D x x X x U =?∈ ; 上近似: ()D apr X =DX = {:()}x U D x X ∈?≠? {,}Y U D Y X =∈?≠? {[][],}D D x x X x U =?≠?∈ ; 负区域:()D neg X =()D U apr X -= {:()}x U D x X ∈?=? ;

粗糙集算法

DUFE 管理科学与工程研究方法概论 学号:2013100654 专业:电子商务 姓名:徐麟

粗糙集理论 一、粗糙集的来源与发展 智能信息处理是当前信息科学理论和应用研究中的一个热点领域。由于计算机科学与技术的发展,特别是计算机网络的发展,每日每时为人们提供了大量的信息。信息量的不断增长,对信息分析工具的要求也越来越高,人们希望自动地从数据中获取其潜在的知识。特别是近20年间,知识发现(规则提取、数据挖掘、机器学习)受到人工智能学界的广泛重视,知识发现的各种不同方法应运而生。粗糙集(RoughSet,也称Rough集、粗集)理论是Pawlak教授于1982年提出的一种能够定量分析处理不精确、不一致、不完整信息与知识的数学工具。粗糙集理论最初的原型来源于比较简单的信息模型,它的基本思想是通过关系数据库分类归纳形成概念和规则,通过等价关系的分类以及分类对于目标的近似实现知识发现。由于粗糙集理论思想新颖、方法独特,粗糙集理论已成为一种重要的智能信息处理技术,该理论已经在机器学习与知识发现、数据挖掘、决策支持与分析等方面得到广泛应用。粗糙集理论与应用的核心基础是从近似空间导出的一对近似算子,即上近似算子和下近似算子(又称上、下近似集)。经典Pawlak模型中的不分明关系是一种等价关系,要求很高,限制了粗糙集模型的应用。 二、粗糙集的理论基础 1、概念、可定义集 从经典的角度来看,每个概念都包含其内涵和外延。为了给出概念内涵和外延的具体描述,我们考虑一个简单的知识表达系统,即信息表。信息表就是一组 可定义集的形式化定义如下:在信息表M中,如果称子集XAU是可被属性子集AAAt定义的,当且仅当在语言L(A)中存在一个公式<使得X=m(<)。否则,X 称为不可定义的。 2、近似空间 语言L(A)的所有可定义集正好构造成一个R代数R(U/E(A)),即Def(U,L(A))=R(U/E(A))。序对apr=(U,E(A))称为一个Pawlak近似空间,简称近似空间。所以,也可以将语言L(A)的所有可定义集记为Def(U,L(A))=Def(apr)。通过U/E(A),可以构造一个R代数,即R(U/E(A)),它包含空集á和等价关系E(A)

基于粗糙集理论的规则提取算法

基于粗糙集理论的规则提取算法 摘要 粗糙集理论的主要思想是在保持分类能力不变的前提下,通过属性约简和值约简,提取决策规则。本文主要是提出了利用隶属度函数进行值约简的同时提取决策规则的算法。利用该算法可在不求得核值表的情况下,直接找到各规则的最小条件属性集,获得决策表的所有决策规则。 关键词:粗糙集;隶属度函数;规则提取 An Algorithm for Rule Extraction Based on Rough Set Theory Abstract The main idea of rough set theory is to extract decision rules by attribute reduction and value reduction in the premises of keeping the ability of classification. In this paper, an algorithm on value reduction, and for extracting decision rule based on the membership function is proposed. All the decision rules on decision table and the minimal rule set of reduced condition attribute set without core-valued table would be attained by this algorithm. Keywords:rough set;membership function;rule extraction

第五讲:粗糙集(Rough Set)

第三节粗糙集(Rough Set,RS) 如果我们将研究对象看成是现象,那么我们可以将这些现象分类。现象被分为确定现象与不确定现象。不确定现象有分为随机现象,模糊现象和信息不全的粗糙现象。如下所示: ? ? ?? ?? ???????? ??∈ 确定现象 随机现象,0-1律,多种可能性满足分布规律。 现象 不确定现象模糊现象,律属度?(0,1),不是非此即彼。 粗糙现象,研究那些因为信息不充分而导致的不确定性 相对于前两种现象的处理,粗糙现象是基于不完全的信息或知识去处理不分明的现象,因此需要基于观测或者测量到的部分信息对数据进行分类,这就需要与概率统计和模糊数学不同的处理手段,这就是粗糙集理论。直观地讲,粗糙集是基于一系列既不知道多了还是少了,也不知道有用还是没用的不确定、不完整乃至于部分信息相互矛盾的数据或者描述来对数据进行分析、推测未知信息。下面我们对粗糙集的基本特征、以及数学符号进行简述。 1.粗糙集的特点 粗糙集的特点是利用不精确、不确定、部分真实的信息来得到易于处理、鲁棒性强、成本低廉的决策方案。因此更适合于解决某些现实系统,比如,中医诊断,统计报表的综合处理等。粗糙集的另一个重要特点就是它只依赖于数据本身,不需要样本之外的先验知识或者附加信息,因此挑选出来的决策属性可以避免主观性,有英雄不问出身的意味。用粗糙集来处理的数据类型包括确定性的、非确定性的、不精确的、不完整的、多变量的、数值的、非数值的。粗糙集使用上、下近似来刻画不确定性,使得边界有了清晰的数学意义并且降低了算法设计的随意性。 3.粗糙集的基本概念 粗糙集要涉及论域U(这与模糊系统相似),还要涉及属性集合R C D = 1

粗糙集理论中析取范式生成算法_曾志民

粗糙集理论中析取范式生成算法 曾志民,江 弋 (厦门大学信息科学与技术学院计算机科学系福建厦门361005) 【摘要】:知识约简是粗糙集理论研究的主要内容之一,而析取范式的生成又是知识约简的重点,本文提出的析取范式生成算法可以直接从合取范式生成析取范式,同时给出了属性约简算法的具体步骤,还进行了时间复杂性的分析和实例验证,表明算法的有效性。 【关键词】:粗糙集;析取范式;属性约简 1.引言 粗糙集理论自从诞生以来,由于其无需提供问题所需处理 的数据集合之外的任何先验信息,成为处理复杂系统的一种较为有效的方法。它已被广泛应用到人工智能、模式识别和数据挖掘等方面。属性约简是粗糙集理论中的一个重要的课题。属性约简要求在保持知识库的分类和决策能力不变的条件下,删除不相关或不重要的属性。Skrowon分辨矩阵的提出,使得属性约简具有了明确的数学模型,并可以通过矩阵运算实现基于符号推理的属性约简过程。在属性约简过程成,析取范式的生成是一个重点,也是一个难点,本文采用的方法避免了从合取范式生成主合取范式再生成主析取范式,最后化简得到析取范式的常规步骤。 2.A.Skowron提出的约简方法 A.Skowron提出了计算信息系统S的约简RED(S)的方法:(1)计算信息系统S的差别矩阵CM; (2)计算与差别矩阵CM对应的差别函数fM; (3)计算差别函数fM的最小析取范式,其中每个析取分量对应一个约简; 其中差别矩阵CM的定义如下: 假设S=(U,C,D)是一个决策表,条件属性集U={u1,u2,…un},差别矩阵CM为n*n阶乘的矩阵,矩阵的每一个元素mij定义如下: 其中i,j=1,2,…n。 分辨函数fM(S)的定义如下: 3.由合取范式求析取范式 在文献[1]中,赵荣泳等提出了一种析取范式生成算法,然而 算法很难理解。本文提出的析取范式生成算法,简单易于理解,而且也具备了从合取范式直接生成析取范式的特点,避免了从合取范式==>主合取范式==>主析取范式==>析取范式的生成过程,提高了生成效率,而且也节省了空间。 假设有以下合取范式: 该合取范式有以下两个特点: (1)由差别矩阵的矩阵项的特点,可以知道合取范式的每个文字都是正文字,不存在负文字的情况,所以以上合取范式的每个文字都是正文字; (2)最后生成的析取范式的每一个析取项是由原来的每一个合取项任取一个文字重组而成的。生成的析取范式如下: (3)析取范式的析取项的总数为:m*n*…*h; (4)每个析取项的文字个数都相等,都为合取项的个数;根据以上几个特点,我们得到的从合取范式生成析取范式的算法步骤如下: (1)新建一个二维数组用来存放析取项,维数分别为m*n*…*h和合取项的个数; (2)利用迭代,从每一个合取项中依次取一个文字重组成析取项; 4.属性约简算法的步骤 属性约简算法的具体步骤参照文献[1],其中改进的地方在第4、5、7这三步,具体算法如下所示: (1)initial(),初始化CM矩阵。CM为3维n*n*(m+1)的矩阵,n表示对象的个数,m表示条件属性的个数,下标m的位置用来保存CM矩阵当前元素(即合取项)的文字个数; (2)ComputeCM(),计算CM矩阵,根据公式(1)把元素添加进CM; (3)FindAndDeleteCORE(),遍历CM,如果CM[i][j][m]为的话,那么该合取项只有一个文字,且该文字是属于核,把CM[i][j][m]置为0,把该文字添加到核;再次遍历CM,对包含核的任一元素的合取项,把对应的下标m的值置为0; (4)DeleteConjuction(),对所有有效的合取项(CM[i][j][m]不为0)进行两两比较,记为Item1、Item2,如果Item1与Item2相同的话,那么把Item2置为无效;如果Item1是Item2的超集的话,那么把Item1置为无效;如果Item1是Item2的子集的话,那么把Item2置为无效; (5)ComputeDisjuction(),对于CM中有效的合取项生成析取项范式,结果用矩阵表示,矩阵的每一行表示一个析取项; (6)RearrangeMent(),对每个析取项中重复的元素进行删除;(7)DeleteDisjuction(),对所有析取项(记为Item1、Item2)进行两两比较,如果Item1与Item2相同的话,那么把Item2置为无效;如果Item1是Item2的超集的话,那么把Item2置为无效;如果Item1是Item2的子集的话,那么把Item1置为无效; (8)把核添加到每一个有效的析取项中,组成最小的约简;在第4步,对于合取项,根据"取子集不取超集"原则,也就是碰到a∨b∨c与a∨b同时存在的情况,那么我们只取a∨b,把a∨b∨c置为无效。在第7步,同理对于析取项,根据"取超集不取子集"的原则,也就是对于a∧b∧c与a∧b同时存在的情况,那么我们只取a∧b∧c,把a∧b置为无效。5.算法时间复杂度分析 (1)初始化时间为常量O(1); (2)计算CM矩阵,时间复杂度为O(C2n(|C|+|D|)),n表示| U|; (3)找到核,并且删除包含核的任一个元素的矩阵元素,时间复杂度为O(C2n+kC2n),令k为核的基数,显然k#|C| (4)删除相同的合取项或者成为超集的合取项,时间复杂度为O(C2n|C|); (5)生成析取范式,时间复杂度为O(|C|h),h表示有效的合取项的个数,h<C2n; )] ()([ )}()(:{)] ()([ {j i j i j i u d u d D d if u c u c C c u d u d D d if ij m 1?$1?=?"=l j }},...,2,1{,:{)(n i n j i m s fM ij ?£<úù=)...(...)...()...(212121h n m R R R Q Q Q P P P úúúùùúúúùúúú) ...(k j i R Q P ùùùúh k n j m i ££££££1,...,1,1(下转第71页) 72 福建电脑2008年第2期

基于粗糙集的特征选择算法研究

基于粗糙集的特征选择算法研究 【摘要】:粗糙集理论(RoughSetTheory)是波兰数学家Z.Pawlak于1982年提出的一种处理模糊、不确定数据的软计算方法,是目前国际上人工智能理论及其应用领域中的重要研究热点之一。由于粗糙集理论方法独特、思想新颖,在提出的三十余年里面,吸引了大量研究人员对其进行研究,并成功的衍生出模糊粗糙集、优势关系粗糙集、决策理论粗糙集、变精度粗糙集等多种适用于处理复杂类型数据的粗糙计算模型。这些模型已成功应用于机器学习、模式识别、决策支持、过程控制、数据库知识发现、专家系统等研究领域。基于粗糙集的特征选择(属性约简)是粗糙集理论研究的核心内容之一,主要是在保持原始数据的属性区分能力不变的前提下,选择具有最小特征(属性)数的特征子集,达到消除无关和冗余特征,提高知识发现效率,改善分类器性能的目的。随着目前大量高维海量复杂数据的出现,这种解决问题的思路对于处理具有高价值总量、低价值密度、含有大量冗余属性的大数据研究具有重要的意义。本文跟踪国际学术前沿,对基于粗糙集理论的属性约简进行整理分析,在借鉴PageRank算法思路的基础上,提出了通过对属性进行“全局性”重要度排序,进而构造一种新的属性约简算法。另外,总结已有粗糙集特征选择的部分方法及数据集的预处理方法,设计了包含粗糙集特征选择与数据集预处理方法的RSLibrary类库,在类库的基础上设计了粗糙集特征选择系统。本文主要工作如下:(1)启发式属性约简算法的分析与比较。对经典的启发

式属性约简算法、启发式约简加速算法、启发式约简双向约简加速算法分别进行了具体的分析和比较。(2)提出一种基于“全局性”属性重要度排序的特征选择算法。将粗糙集理论与PageRank算法结合,借鉴其投票机制,提出了属性排序算法(AttributeRank),进而设计了基于属性排序的特征选择算法。在处理海量数据时,该算法的并行版本能够在可接受时间内得出结果。(3)设计了基于粗糙集的特征选择系统。针对在粗糙集学习中,做实验时,需要编写大量重复性代码、检验编码正确性、对比实验结果、对书局集进行大量预处理等工作,设计了包含常见粗糙集属性方法与数据集预处理的粗糙集类库。在此类库的基础上开发了基于粗糙集的特征选择系统。最后,将本文内容进行总结,说明了针对该类问题可以深入研究的方向。这些研究内容,探索了将属性约简并行化的方法,为大数据的数据挖掘提供有价值的参考。同时,进一步丰富了基于粗糙集的数据挖掘算法,为发展高效的数据挖掘方法提供一定的借鉴和指导,借此进一步推动并促进该领域的发展。【关键词】:粗糙集特征选择属性排序粗糙集类库属性相异系数 【学位授予单位】:山西大学 【学位级别】:硕士 【学位授予年份】:2013 【分类号】:TP18

相关文档
最新文档