基于Vague粗糙集信息熵的属性约简算法

合集下载

基于粗糙集的属性约简算法研究的开题报告

基于粗糙集的属性约简算法研究的开题报告

基于粗糙集的属性约简算法研究的开题报告
【选题背景】
随着数据的不断增多和不断累积,如何从中挖掘出有价值的信息成为了数据挖掘的一个重要问题。

属性约简在数据挖掘中起着至关重要的作用,对于数据的压缩和简化,进一步挖掘数据的隐藏知识有很大的帮助。

粗糙集理论作为一种处理不确定性信息的数学工具,可以有效地处理属性约简中的不确定性问题。

【研究对象】
基于粗糙集的属性约简算法。

【研究内容】
1. 粗糙集理论及其应用
2. 属性约简的概念和意义
3. 基于信息熵的属性约简算法
4. 基于遗传算法的属性约简算法
5. 基于模拟退火算法的属性约简算法
6. 基于粒子群优化算法的属性约简算法
7. 基于人工神经网络的属性约简算法
8. 基于深度学习的属性约简算法
【研究方法】
使用实验方法,对比在不同应用场景下,使用不同属性约简算法的效果,从而得出最优算法。

【研究意义】
在数据挖掘领域,属性约简是一个非常重要的问题,其可以用来降
低数据的维度、提高分类效率等。

本文将研究基于粗糙集的属性约简算法,通过比较不同算法的优缺点,找出最优算法,并在实际应用中进行
验证和修改。

这将有望为数据挖掘领域提供更加准确、快捷的解决方案,对相关领域的研究和应用都具有重要的意义。

一种基于粗糙熵的信息系统属性约简算法

一种基于粗糙熵的信息系统属性约简算法

龙源期刊网 一种基于粗糙熵的信息系统属性约简算法作者:史进玲来源:《电脑知识与技术》2012年第24期摘要:在信息系统中,研究了知识的粗糙性,定义了一种粗糙熵度量方法,并证明了知识的粗糙熵随着划分的增大而单调增加的结论,给出了属性的重要性度量方法,在此基础上提出了一种基于粗糙熵的启发式属性约简算法。

实例验证表明,该算法能有效地从信息系统中获取最优属性约简。

关键词:信息系统;粗糙熵;属性重要度;属性约简中图分类号:TP312文献标识码:A文章编号:1009-3044(2012)24-5872-03An Attribute Reduction Algorithm Based on Rough Entropy in Information SystemSHI Jin-ling(International School of Education, Xuchang University, Xuchang 461000, China)Abstract:In information system, a rough entropy is defined by studying roughness of knowledge, then knowledge rough entropy’s mo? notonous increasing property with the increase of partition is proved. On this basis, attribute significance measure method is given and a heuristic reduction algorithm based on rough entropy is proposed. A detailed example is shown that the algorithm can effectively extract op? timal reduction.Key words: information system; rough entropy; attribute significance; attribute reduction粗糙集理论(Rough Set )是一种有效的从不精确、不完备与不一致数据的知识库中获取知识的数学理论[1-2]。

基于粗糙集的属性约简算法

基于粗糙集的属性约简算法

第2 2卷
a= 表示不包含条件属性 a, a =1 0 而 表示包 含条件 属性 a。如果要识别所有 决策不同的记 录 , a( =12 …, ) 则 i ,, 与 ( =12 … , 之 中必然 至少各有 一个 条件属性 不能 ,, ) 被 删除 , 否则新决策表将与原决策表具 有不同的不科技开发项 目( 013) 2 435 0 作者简介 : 赵青杉(92 , 山西五 台 , 州师 范学院计算机 系讲师 , 17 一)男, 人 忻 从事数据挖掘 、 集理论研 究。 粗糙
维普资讯
忻 州 师 范 学 院 学 报
x 关于 R 的下近似集是 U 中根据 已有知识 判断必 定属于 X 的对象所组成 的最大集合 , =U{ ∈ U R1 即』 y / y∈X}
定义 2 设 R C称 R 为 C的 D一 : 约简当且仅 当 R 是 C
属性组合以布尔值表示其中是否包含某个条件属性。 比如
收稿 日期 :0 6 1 5 20 0 —0
的最小约简是 N P—hr a d问题 。解决 这类 问题 的方法一 般
的值, “ 是 “ D( ) 在属性D上的值, 可识别矩阵记为:
f a∈ A : ( 1 ≠ a “ )D( ≠ D( , a “) ( , , “) “)
是启发式搜索 , 进而获得最优解或近似最优解。 本文研究 了可辨识矩 阵的约简 , 从属性依赖度角度给 出
粗糙集理论是波兰数学家 Z P wl .a a k在 2 0世纪 8 o年代 初首先提 出 的一种 可 以分析 模糊 和不 确定 问 题 的数 学理
定义 3 C的所有 必要属 性组成 的集 合称 为 C 的核 , : 记
为 ∞ R C)它是 C的所 有约简 的交 , C RE( =n E( , 即 O C) R D( , 中 R D( 表示 的约 简。 E C)其 E C) 三、 基于可识别矩阵的约简方法 可辨识矩 阵由华 沙大学数学家  ̄o o 出 , wrn提 定义 为系 统 S=( A) U= { 1 “ , “ }a( ) “在属性 a上 U, , “ ,2… , “ 是

基于粗糙集的知识约简方法及应用的开题报告

基于粗糙集的知识约简方法及应用的开题报告

基于粗糙集的知识约简方法及应用的开题报告一、研究背景在大数据时代,数据处理变得越来越复杂,数据维度和属性数量也越来越多。

为了更好地利用这些数据,需要对数据进行分析和处理,但是数据维度过多会导致处理时间和空间开销增大。

同时,大数据中存在很多不必要的冗余信息和噪声,这些信息对于数据分析和处理不利。

为了解决这一问题,我们需要对数据进行简化和优化。

知识约简技术是一种有效的数据优化方法,可以在不损失信息的前提下,将数据集中的冗余信息和噪声去除,从而提高数据的处理效率和准确性。

二、研究内容本文将研究基于粗糙集理论的知识约简方法及其在实际应用中的效果。

具体研究内容如下:1. 粗糙集理论的基本概念和原理。

介绍粗糙集理论的起源、发展历程和基本原理,包括正域、约简、决策类等相关概念和理论。

2. 基于粗糙集的知识约简方法。

探讨基于粗糙集的知识约简方法,包括正域约简、决策规约、属性规约等相关算法和技术。

3. 粗糙集约简方法的应用案例分析。

通过实际应用案例,分析粗糙集约简方法的应用效果和优势,探讨其在数据挖掘、分类、聚类等领域的应用前景。

4. 粗糙集约简方法的改进和发展。

在分析粗糙集约简方法的基础上,提出一些改进和发展的思路和方法,探索进一步提高其效率和准确性的手段和途径。

三、研究意义知识约简技术在数据分析和处理领域具有广泛的应用前景,尤其是在大数据时代下更显得尤为重要。

本文研究基于粗糙集的知识约简方法,具有以下重要意义:1. 深入探讨粗糙集约简方法的理论基础和技术原理,为数据分析和处理提供了新的思路和方法。

2. 实际案例分析,验证了粗糙集约简方法在实际应用中的有效性和优越性。

3. 提出改进和发展的思路和方法,进一步推动粗糙集约简方法的发展和应用,为数据处理和分析提供更加高效、准确的手段和途径。

四、研究方法本文采用文献综述和案例分析的方法,通过收集、整理和分析相关文献和案例,深入探讨基于粗糙集的知识约简方法及其应用。

具体方法如下:1. 收集和整理与粗糙集约简方法相关的文献和资料,包括国内外学术期刊、论文、专著等。

《基于粗糙集的连续值属性约简算法研究》范文

《基于粗糙集的连续值属性约简算法研究》范文

《基于粗糙集的连续值属性约简算法研究》篇一一、引言随着大数据时代的来临,数据挖掘和知识发现成为了研究的热点。

粗糙集理论作为一种有效的数学工具,被广泛应用于数据分析和知识约简。

在处理具有连续值属性的数据时,如何有效地进行属性约简是一个重要的研究问题。

本文旨在研究基于粗糙集的连续值属性约简算法,为数据处理和知识发现提供有效的方法。

二、粗糙集理论概述粗糙集理论是一种处理不确定性和模糊性的数学工具,主要研究的是集合与集合之间的关系。

在数据挖掘和机器学习中,粗糙集理论被广泛应用于特征选择和属性约简。

粗糙集通过上下近似集来描述一个概念或集合的粒度,从而实现对数据的分析和约简。

三、连续值属性约简问题在处理具有连续值属性的数据时,传统的粗糙集理论面临着一些挑战。

连续值属性的处理需要更复杂的算法和技术。

此外,连续值属性的约简还需要考虑到数据的分布、密度、相关性等因素。

因此,如何有效地进行连续值属性的约简是一个重要的研究问题。

四、基于粗糙集的连续值属性约简算法为了解决连续值属性的约简问题,本文提出了一种基于粗糙集的连续值属性约简算法。

该算法主要包括以下步骤:1. 数据预处理:对数据进行清洗、归一化等预处理操作,以便于后续的约简操作。

2. 计算上下近似集:利用粗糙集理论,计算每个属性的上下近似集。

3. 属性重要性评估:根据上下近似集,评估每个属性的重要性。

重要性的评估可以采用信息熵、增益率等方法。

4. 属性约简:根据属性重要性的评估结果,选择一部分属性进行约简。

约简的目标是在保持数据分类能力的同时,减少属性的数量。

5. 约简结果评估:对约简结果进行评估,包括分类准确率、约简率等指标。

五、实验与分析为了验证本文提出的算法的有效性,我们进行了实验分析。

实验数据采用UCI等公开数据集。

实验结果表明,本文提出的算法可以有效地进行连续值属性的约简,且约简后的数据分类准确率较高。

此外,我们还对约简结果进行了可视化展示,以便于更好地理解约简过程和结果。

Vague熵的约束准则及计算公式

Vague熵的约束准则及计算公式

Vague熵的约束准则及计算公式吴慧;郭效枝【摘要】通过对Vague集的模糊度本质进行分析,结合现有的Vague熵的约束准则,给出了改良的Vague熵的约束准则以及能够体现未知性和模糊性的Vague熵公式,并通过实例验证其合理性.【期刊名称】《计算机应用与软件》【年(卷),期】2011(028)007【总页数】3页(P267-269)【关键词】Vague集;Fuzzy集;模糊熵;不确定性【作者】吴慧;郭效枝【作者单位】青岛农业大学理学与信息学院山东青岛266109;装备指挥技术学院基础部北京101416【正文语种】中文1965年Zadeh提出了Fuzzy集理论[1],在随后的几十年中,它得到了不断的发展和完善,并在许多领域中得到成功应用。

但是模糊集的隶属函数μA(x)是一个单值函数,它不能同时表示支持和反对的证据,这就使得Fuzzy集在实际应用中还存在一定的局限性。

为了克服这种由单值描述隶属信息的不充分性,众多学者从不同角度对Fuzzy集进行了推广。

1993年,Gau和Buehree分析了Fuzzy集的特征,通过引入真隶属函数tA(x)和假隶属函数fA(x)的方式来推广Fuzzy集得到了Vague集[2],并通过“投票模型”对Vague集进行了解释。

Vague集的这种特点使得其在处理不确定性信息时比Fuzzy集更具优势。

目前Vague集理论已经被成功应用于人工智能、模式识别、数据挖掘等领域,Vague熵作为一个重要的度量工具,自然引起了众多学者的关注。

本文对目前存在的Vague熵的约束准则进行了定性分析,并给出了一种更为符合人们直觉的Vague熵的约束准则,以及满足该准则的Vague熵公式,最后通过实例说明它更加合理。

定义1[1]设X是一论域,论域X上的模糊集A定义为:其中μA:x→[0,1]为模糊集A的隶属函数,μA(x)为元素x∈X在A中的隶属度。

通常用F(X)表示论域X上的全体模糊集。

Vague熵作为一种度量工具,在Vague集理论中占有重要的地位,因此Vague熵的约束准则及其计算公式成了众多学者研究的热点,但是Vague熵既与概念认识不完全所产生的未知性有关,又与概念本身的模糊性有关,因此对于Vague熵的研究相比于Fuzzy熵有一定的难度。

《基于粗糙集的连续值属性约简算法研究》范文

《基于粗糙集的连续值属性约简算法研究》范文

《基于粗糙集的连续值属性约简算法研究》篇一一、引言随着大数据时代的来临,数据约简技术在众多领域的应用愈发重要。

粗糙集理论作为一种处理不确定性和模糊性的数学工具,能够有效地进行属性约简,以揭示数据集中的隐含信息。

在传统粗糙集理论中,对连续值属性的处理通常需要进行离散化处理,然而这种处理方法可能会丢失部分有价值的信息。

因此,本文将探讨基于粗糙集的连续值属性约简算法的研究,以期在保持数据信息完整性的同时,实现属性约简。

二、粗糙集理论概述粗糙集理论是一种处理不确定性和模糊性的数学工具,它通过集合的上、下近似来描述不确定性的知识。

在特征选择和属性约简方面,粗糙集理论能够有效地处理不完整、不精确的数据。

然而,对于连续值属性的处理,传统的粗糙集理论需要进行离散化处理,这可能导致信息丢失。

因此,研究基于粗糙集的连续值属性约简算法具有重要意义。

三、连续值属性约简算法针对传统粗糙集理论在处理连续值属性时可能导致的信息丢失问题,本文提出一种基于粗糙集的连续值属性约简算法。

该算法首先利用核属性集初步约简数据,然后通过构建连续属性与决策类别的关系矩阵,计算各属性的重要性程度。

在保证数据分类性能的前提下,采用基于信息熵的属性约简策略进一步约简属性。

最后,通过交叉验证等方法评估约简效果。

四、算法实现与实验分析1. 算法实现:本文所提算法采用Python编程语言实现。

首先,通过计算各属性的核属性集,初步约简数据。

然后,构建连续属性与决策类别的关系矩阵,计算各属性的重要性程度。

在此基础上,采用基于信息熵的属性约简策略进一步约简属性。

最后,通过交叉验证等方法评估约简效果。

2. 实验分析:为了验证本文所提算法的有效性,我们采用UCI等公开数据集进行实验。

实验结果表明,本文所提算法在保证数据分类性能的同时,能够有效地约简属性,降低数据维度。

与传统的离散化处理方法相比,本文所提算法在约简效果和计算效率方面均有所提升。

五、结论本文研究了基于粗糙集的连续值属性约简算法。

基于系统熵的粗糙集属性约简新方法

基于系统熵的粗糙集属性约简新方法
性来度量各个属性的重要性,经计算得出属性重要性最大的是{milk}。而依据本文所提出的属性重要性得到的结果是{eggs},算法1所得到的属性约简结果是:Ra={feathers,milk,airborne,aquatic,backbone,breathes,fins,legs}。 依照本文算法2所得到的属性约简结果是:Rb={milk,eggs,aquatic,legs}。这是因为利用式(1)计算属性重要性的时候只考虑了属性本身的值的分布而没有考虑属性的相对信息熵,如果某一属性的相对信息熵较小会导致该属性的属性重要度较大,从而会使所选属性并不是最重要的,或者造成错选。本文从系统熵的角度出发,定义了一种新的度量属性重要性的方法,构造了相应的启发式算法。相对于原算法,本文算法优势明显,通过实例证明,在大多数情况下本文的算法所得到的属性约简个数较少。
这种新的度量方法同时兼顾了系统熵作为一种同时考虑了条件属性和决策属性的分类能力和数值大小对约简结果的影响,并充分考虑到了在属性子集R中添加属性a∈C-R后系统熵的增量(R自身的熵也被考虑在内)。这种新的属性重要性的定义有如下特点:(1)当系3 仿真实例和相关比较 为了验证上述算法的有效性,从UIC数据库中选取了三个具有离散属性的数据库实例进行验证。分别采用文中所提到的两种不同属性重要性定义的约简算法对其进行属性约简。约简结果如表1所示。其中C为该属性集合所包含的条件属性的个数,算法1和算法2分别是以系统熵增益率和本文改进的系统熵增益率为属性重要性度量方法的启发式属性约简算法。从表中可以看到本文所提出的算法在大多数情况下获得的相对约简属性个数较少。
基于系统熵的粗糙集属性约简新方法
摘 要: 在系统熵的基础上,定义了一种新的属性重要度并提出了一种基于改进系统熵的粗糙集属性约简算法,实验分析表明,该属性重要度为启发式信息进行的属性约简,取得了理想效果。关键词: 粗糙集;属性约简;系统熵
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于Vague粗糙集信息熵的属性约简算法李玉超;徐金华【摘要】针对复杂系统分析中的数据信息冗余问题,提出一种基于Vague粗糙集信息熵的属性约简算法.首先,对Vague粗糙集相关概念进行拓展,提出Vague粗糙集的扩展信息熵和广义信息熵的模型;其次,对基于信息熵的属性重要性度量和属性约筒原理进行研究,进而提出了一种基于Vague粗糙集信息熵的监督式属性约简算法;最后,选取UCI数据库对算法性能进行验证,计算结果表明该算法实用有效.%In order to solve data information redundancy in complex system analysis,an attribution reduction algorithm based on information entropy of vague rough set is proposed.Firstly,the concerned concepts of vague rough set are expanded,then the extended information entropy and generalized information entropy are defined.Secondly,the attribution importance measure and attribution reduction principle based on information entropy are studied,and then an attribution reduction algorithm based on generalized information entropy is put forward.Finally,the algorithm quality is verified by applying to the chosen UCI database,and the calculation result has shown the validity and feasibility.【期刊名称】《运筹与管理》【年(卷),期】2017(026)005【总页数】5页(P1-5)【关键词】粗糙集;Vague粗糙集;信息熵;属性约简【作者】李玉超;徐金华【作者单位】中国科学院大学经济与管理学院,北京100049;军事科学院军事战略研究部,北京100091【正文语种】中文【中图分类】O159;C931在军事资源统筹、经济政策调控、工业过程控制等诸多领域,复杂系统问题通常需要综合定量数据和定性知识进行集成分析,但数据和知识中蕴含的信息并不总是有用的,往往不同程度地包含冗余成分。

在进行系统结构化分析计算之前,需要对原始数据和知识进行预处理,以剔除冗余属性信息。

属性约简算法是一种重要的数据处理方法,其目的是在保证信息系统分类能力不变的前提下,删除其中不相关或不重要的属性。

属性约简是粗糙集研究的一个重要方向,可分为区分函数约简法和启发式约简法两大类。

区分函数法通过推理直接提取多个约简集,在较小规模的数据集处理上效果明显。

Skowron[1]等人针对不同数据属性的信息系统提出了相应算法。

而启发式约简法则通过计算属性依赖度,从大到小逐步添加属性,按一定的停止准则获取约简集。

该方法计算相对简单,且容易与机器学习等其它智能算法相结合。

随着模糊数学和粗糙数学的发展,Jensen等人在Dubois的FRS模型基础上,提出了基于模糊粗糙集模糊属性依赖度的选择算法[2];王国胤等人基于模糊关系从信息熵角度定义了属性重要性的有关定义,给出了几种高效的启发式属性约简算法[3];赵军阳基于任意模糊关系,提出了一种特征选择算法[4]。

这些研究具有重要的理论价值,但其信息系统决策表计算均基于模糊集,难以有效处理以真、假隶属关系描述的Vague集[5](即直觉模糊集[6,7],能更细致地刻画未知证据信息)数据属性约简。

当前Vague粗糙集(或直觉模糊粗糙集)已成为粗糙集理论研究的一个重要方向[8,9],但其中有关属性约简的研究尚不多见[10~12],而且大部分算法时间复杂度较大,约简的属性子集数和平均分类精度难以同时占优。

本文针对以上问题,首先提出度量Vague近似空间信息不确定性的Vague粗糙集扩展信息熵和广义信息熵的模型,然后研究基于信息熵的Vague集属性重要性度量和属性约简原理,提出一种基于Vague粗糙集信息熵的监督式属性约简算法,最后实例验证了算法性能。

Vague信息系统(U,C∪D,V,F)与模糊信息系统相类似,Vague信息系统所包含的属性A=C∪D是Vague属性,对论域的划分形成的是Vague等价类。

参照模糊集的势的定义[13],给出Vague集的势的如下定义。

定义1 (Vague集的势) 设(U,R,ψ,T)是Vague近似空间,U是非空有限论域,x∈U,R为U上的任意模糊关系,[x]R是一个Vague集,其隶属度函数为[x]R(y)=R(x,y),则可定义[x]R的势为:|[x]R|对象xi在Vague关系R下的势[xi]R为:|[xi]R|其中rij为对象xi与xj在Vague关系R下的相似关系。

信息不确定有多种类型[14],一个信息系统往往存在多种不确定模式,如粗糙数据包含Vague信息或Vague数据存在粗糙分类。

为度量数据空间的信息不确定性,1999年Wierman提出了度量粗糙集不确定性的信息熵定义[15],但该定义只关注了类别内的信息,而未考虑如何度量类别外的信息。

对此,梁吉业在考虑类别补集的划分的基础上,提出了一种改进模型[16],但该模型对关系的要求较为严格,实际当中很难保证严格满足等价关系。

赵军阳基于任意模糊关系给出了模糊粗糙集信息熵的定义[4,17],但由于Vague值不能在不损失已知信息的前提下转化为模糊值,故而该模型不能适用Vague粗糙条件下的信息不确定性度量,需进一步拓展。

定义2 (Vague近似空间的扩展条件信息熵) 设U为有限非空论域,R1和R2是U上的Vague关系,[xi]R1和[xi]R2是Vague关系R1和R2生成的包含xi的Vague等价类,则R1和R2的扩展条件信息熵为:E(R1|依照该模型,即可对某论域中不同Vague等价类下同一对象的条件信息熵进行度量计算。

实际上,定义2中各对象xi的分布可能并不总是一致的,各对象对信息熵的贡献也有差异,为此对以上基于对象(等价类)一致分布定义的信息熵进行拓展,给出广义条件信息熵定义。

定义3 (Vague近似空间的广义条件信息熵)设U={x1,x2,…,xn}为有限非空论域,R1和R2是U上的Vague关系,θ为各对象{x1,x2,…,xn}在U上的概率分布,则R1和R2的广义条件信息熵:E(R1|R2;θ)=θi||[xi]R2|-|[xi]R1||当θ在论域U上均匀分布,即θ=1/n,则Vague关系R1和R2的广义条件熵退化为扩展条件熵。

当R1⊆R2或R1⊇R2时,E(R1|R2;θ)=0。

从定义2和3中可以看出,当R2为论域U自身时,扩展条件信息熵即退化为扩展信息熵,广义条件信息熵即退化为广义信息熵。

基于此,为研究普适通用的监督式属性约简算法,后续研究将假定所分析的信息系统都包含决策属性。

信息熵的大小与粗糙集的论域划分密切相关,通过信息熵度量属性删除或增加后数据集信息量的变化,即可确定该属性的相对重要性。

为此,给出以Vague信息系统属性重要性的度量方法。

给定Vague信息系统(U,C∪D,ψ,T),C为条件属性,D为决策属性,P⊆C,∀c∈P,,属性c相对于D的属性重要性为:SIG(c,P,D)=E(D|P-c)-E(D|P)依据此式,如果在原属性集上去除某条件属性,而导致熵值的变化最大,则说明该条件属性在原属性集中相对决策属性最重要。

给定Vague信息系统(U,C∪D,ψ,T),C为条件属性,D为决策属性,P⊆C,∀c∈C-P,,属性c关于属性集P相对于D的属性重要性为:SIG(c,P,D)=E(D|P)-E(D|P∪{c})依据此式,如果在原属性集上增加某条件属性,而导致熵值的变化最大,则说明该条件属性基于原属性集相对决策属性最为重要。

当采用启发式前向(顺序)搜索时,公式(5)适用,反之则选用公式(4)。

2.1 基于信息熵的监督式属性约简算法原理依照上述定义,可以得出监督式属性约简算法原理。

定理1 给定Vague信息系统(U,R,ψ,T),A=C∪D,P⊆C。

∀c∈P,如果E(D|P)=E(D|P-c),则c在P中相对D是冗余的;如果E(D|P-c)>E(D|P),则P是独立的。

称P是C相对D的一个约简,如果P满足以下条件:(1)E(D|P)=E(D|C);(2)∀c∈P,E(D|P-c)>E(D|P)。

显然,该定理按照公式(4)与公式(5)经简单推导即可证明(证明的类似过程,可参考文献[4])。

实际计算时,很难保证E(D|P)与E(D|C)严格相等,故而约定当两者之差处于一定的阈值范围内时,即可将两者视作相等。

2.2 基于Vague粗糙集信息熵的监督式属性约简算法(M-VRDR)根据定理1,可设计基于信息熵的监督式属性约简算法(M-VRDR),其具体计算步骤如下:算法:M-VRDR输入:Vague信息系统输出:属性约简集步骤1 数据预处理,计算Vague相似矩阵;步骤2 根据公式(1)与(4),计算条件属性和决策属性的条件熵E(D|C)、各独立属性ci的属性重要性SIG(ci,P),确定核约简属性P=core{C}=max{SIG(ci,P,D)};步骤3 如果E(D|P)=E(D|C),则转步骤6,否则继续步骤4;步骤4 对于∀ci∈C-P,根据公式(5)计算ci属性重要性SIG(ci,P,D),选取属性a,SIG(a,P,D)=max{SIG(ci,P,D)};步骤5 若SIG(c,P,D)≤0,则转步骤6,否则P=P∪{a},则转步骤3;步骤6 输出属性集。

监督式属性约简算法(M-VRDR)计算流程,如图1所示:本算法有多个步骤,循环计算可能要搜索所有属性,但也可能仅搜索1次,假设Vague决策表中有n个条件属性,则算法时间复杂度为O(nlogn),相比文献10和文献11中的算法有较明显下降。

本算法的实现包括4个方面内容:一是数据预处理,包括原始数据的Vague化、Vague相似关系的计算。

二是核属性计算,根据基于信息熵的度量方法,对各属性的属性重要性进行排序,确定核属性。

三是采取前向搜索,根据新属性相对原属性集关于决策属性的广义条件熵的大小,搜索添加新属性,生成新的条件属性集。

相关文档
最新文档