粗糙集理论学习心得与基于ROSETTA的决策表属性约简实验--陈涛
利用粗糙集理论进行属性权重计算的方法和实践

利用粗糙集理论进行属性权重计算的方法和实践引言:在数据挖掘和机器学习领域,属性权重计算是一个重要的问题。
属性权重的准确计算可以帮助我们更好地理解和分析数据集,从而提高模型的性能和预测能力。
粗糙集理论作为一种有效的数据处理方法,可以帮助我们解决属性权重计算的问题。
本文将介绍一种利用粗糙集理论进行属性权重计算的方法和实践。
一、粗糙集理论简介粗糙集理论是由波兰学者Pawlak于1982年提出的一种基于近似和不确定性的数据处理方法。
该理论通过将数据集划分为等价类来描述数据之间的关系,并通过近似集合来处理不确定性。
在粗糙集理论中,属性权重计算是一个重要的研究方向,它可以帮助我们确定数据集中各个属性对决策结果的重要程度。
二、属性权重计算方法1. 基于信息增益的属性权重计算方法信息增益是一种常用的属性权重计算方法,它通过计算属性对决策结果的贡献度来确定属性权重。
具体而言,信息增益计算方法通过计算每个属性的信息熵和条件熵来衡量属性对决策结果的影响程度,然后将两者的差值作为属性的权重值。
信息增益方法简单易懂,但是它忽略了属性之间的相关性,可能导致权重计算结果不准确。
2. 基于模糊熵的属性权重计算方法模糊熵是一种能够处理属性之间相关性的属性权重计算方法。
它通过计算属性的模糊熵来确定属性的权重值。
具体而言,模糊熵方法通过计算属性的模糊熵和条件模糊熵来衡量属性对决策结果的影响程度,然后将两者的差值作为属性的权重值。
模糊熵方法考虑了属性之间的相关性,可以更准确地计算属性的权重值。
三、属性权重计算实践为了验证属性权重计算方法的有效性,我们选择了一个实际的数据集进行实验。
该数据集包含了一些学生的个人信息和他们的成绩。
我们的目标是通过这些属性来预测学生的最终成绩。
首先,我们使用信息增益方法来计算属性的权重值。
通过计算每个属性的信息熵和条件熵,我们得到了各个属性的权重值。
然后,我们将这些权重值应用于模型训练中,通过交叉验证的方法评估模型的性能。
粗糙集_学习笔记

设 P 和 Q 是全域 U 上的等价关系的族集,R P。
若 不可省的﹔
,则称关系 R 在族集 P 中是 Q-可省的;否则称为 Q-
如果在族集 P 中的每个关系 R 都是 Q-不可省的﹐则称 P 关于 Q 是独立的﹐否则就称为是依
赖的。
3、定义 5
S P 称为 P 的 Q-约简(Q-reduct):当且仅当 S 是 P 的 Q-独立的子族集,且
10、新型的隶属关系
其中 R 是不分明关系 可以看到,这里的隶属关系是根据已有的分类知识客观计算出来的,可以被解释为一种条件概率, 能够从全域上的个体加以计算,而不是主观给定的。 11、近似度 Accuracy of Approximation
其中,|X| denotes the cardinality(基数) of X 12、近似性质 Properties of Approximations
K=(U,R) 其中 U 不为空集,是一个被称为全域或论域(universe)的所有要讨论的个体的集合,R 是 U 上等价 关系的一个族集。 7、不可区分关系:
8、概念(concept):给定近似空间 K=(U, R),子集 X 称为 U 上的一个概念(concept),形式上, 空集也视为一个概念; 基本知识(basic knowledge):非空子族集 P R 所产生的不分明关系 IND(P)的所有等价类关系 的集合即 U/IND(P) 相应的等价类称为基本概念 初等知识(elementary knowledge):特别地,若关系 Q R,则关系 Q 就称为初等知识
(二)相对约简 1、定义 3
设 P 和 Q 是全域 U 上的等价关系的族集,所谓族集 Q 的 P-正区域(P-positive region of Q),记作
学术研究中的粗糙集理论

学术研究中的粗糙集理论摘要:粗糙集理论是一种处理不确定性和模糊性的数学工具,广泛应用于数据分析、机器学习、决策支持系统等领域。
本文将对粗糙集理论的基本概念、性质、算法和应用进行深入探讨,以期为相关领域的研究提供有益的参考。
一、引言随着数据量的不断增加和数据类型的多样化,如何有效地处理不确定性和模糊性成为了一个重要的问题。
粗糙集理论作为一种处理这些问题的数学工具,已经在多个领域得到了广泛应用。
本文将对粗糙集理论的基本概念、性质、算法和应用进行详细介绍,以期为相关领域的研究提供有益的参考。
二、粗糙集理论的基本概念粗糙集理论的核心概念是“粗糙集”,它描述了一个数据集合中的数据点之间的相对关系。
在粗糙集理论中,一个数据集合被划分为几个等价类,每个等价类中的数据点具有相似的属性。
通过计算数据点的隶属度和不隶属度,可以确定数据集合中的数据点之间的相对关系,从而实现对数据的分类和预测。
三、粗糙集理论的性质1.分类性质:粗糙集理论通过等价类对数据进行分类,从而实现对数据的分类和预测。
这种分类方法具有客观性和可解释性,能够为决策者提供有价值的参考。
2.近似性质:粗糙集理论通过计算数据点的隶属度和不隶属度,实现对数据的近似表示。
这种近似表示能够有效地处理不确定性和模糊性,从而提高数据分析的准确性和可靠性。
3.独立性性质:粗糙集理论不依赖于数据集合中的具体数据值,只依赖于数据点的属性关系。
这种性质使得粗糙集理论具有广泛的应用范围和适用性。
四、粗糙集理论的算法1.粗糙集核算法:粗糙集核算法是一种计算数据点之间的相似度的方法,用于确定数据集合中的等价类。
该算法通过对数据点进行特征提取和相似度计算,得到每个数据点的隶属度和不隶属度,从而实现对数据的分类和预测。
2.属性约简算法:属性约简算法是一种用于去除数据集合中冗余属性的方法,以提高数据分析的准确性和效率。
该算法通过对数据点的特征提取和属性依赖度计算,确定哪些属性对分类和预测不产生影响,从而实现对数据的简化。
基于RS-SVM的输变电工程建设效益评价研究

基于RS-SVM的输变电工程建设效益评价研究摘要:电力行业的迅猛发展对其建设效益的评价提出了更高的要求。
文章将社会效益、环境效益和可持续能力纳入输变电工程建设效益评价体系中,旨在建立更为完善的输变电工程建设效益评价系统。
文章运用粗糙集理论和支持向量机模型简约效益评价指标,对样本进行训练和学习,并对测试样本的效益进行评价分类。
通过实例验证表明,基于RS-SVM的输变电工程建设效益评价模型大大缩短数据预处理以及模型运行时间,为输变电工程建设的投资决策提供了科学依据,从而提高输变电工程投资的管理水平。
关键词:粗糙集;支持向量机;输变电工程;效益评价0 前言伴随着“一带一路”战略的推进实施,电网作为国家基础设施与支柱产业,其建设效益的高低直接关系到国家经济发展的质量[1]。
因此,科学合理地对输变电工程进行建设效益评价成为重中之重。
目前的研究中,曾鸣引入三角模糊数和矩阵调整因子,有效模拟了专家评判的模糊性[2]。
王汉梅将BP神经网络法和模糊综合评价法有效结合[3]。
Morozowski等学者提出优点指数法,实现多方案比选[4]。
Barros等学者引入帕累托最优函数进行输变电工程效益排序分析[5]。
然而,这些方法泛化能力差,且研究主要集中在经济评价方面[6]。
因此,本文利用粗糙集和支持向量机评价模型对数据进行处理,为提高输变电工程投资管理水平提供指导。
1 粗糙集-支持向量机理论1.1 支持向量机理论支持向量机方法(Support Vector Machine,SVM)基于结构风险最小化原则,通过非线性变换将输入空间导入至高维空间中,并在其中求解有约束的凸二次规划问题,从而得到有且并唯一的全局最优解[7]。
假定训练样本集,其中X为输入指标,含d维向量,l个训练样本数量,Y为输出指标或决策属性,同时构造回归估计函数:其中是输入空间的权向量,是偏移向量在寻求最优分类面的过程中,选择一个满足Mercer条件的核函数使得在二维空间映射到高维空间的过程中实现某一非线性变换后的线性分类,此时表现为如下约束优化问题:(1)(2)用Lagrange乘子法化成其对偶形式以解决二次规划存在唯一极小点问题,(3)(4)式中为满足Mercer条件的核函数,最终求得决策方程为:(5)1.2 粗糙集理论及其简约方法粗糙集是通过知识简约剔除冗余数据,从大量数据中求取最小不变集合,找出最能反映本质特征因素的关键特征变量,从而实现输入数据的简化。
粗糙集理论与深度学习的结合及实践经验分享

粗糙集理论与深度学习的结合及实践经验分享近年来,人工智能技术的快速发展使得深度学习成为了热门话题。
然而,深度学习在处理不完备、不确定和模糊的数据时存在一定的局限性。
为了解决这个问题,粗糙集理论被引入到深度学习中,取得了一些令人瞩目的成果。
本文将探讨粗糙集理论与深度学习的结合,并分享一些实践经验。
首先,我们来了解一下粗糙集理论。
粗糙集理论是一种处理模糊和不完备信息的数学工具,它能够从不完全和模糊的数据中提取出有用的信息。
粗糙集理论的核心思想是基于属性约简和决策规则的概念。
通过属性约简,可以减少数据集中的冗余信息,提取出最重要的属性。
而决策规则则可以帮助我们做出准确的决策。
然而,粗糙集理论在处理大规模数据时存在一些问题,例如计算复杂度高和泛化能力弱。
为了解决这些问题,研究者们开始探索将粗糙集理论与深度学习相结合的方法。
深度学习是一种基于神经网络的机器学习方法,它通过多层次的神经网络来学习和提取数据中的特征。
深度学习在处理大规模数据和复杂模式识别等方面具有优势。
将粗糙集理论与深度学习结合的方法可以分为两个方向:一是利用深度学习来增强粗糙集理论的泛化能力,二是利用粗糙集理论来解释深度学习的决策过程。
在第一个方向上,研究者们提出了一些基于深度学习的属性约简方法,用于减少数据集中的冗余信息。
这些方法通过训练神经网络来学习最优的属性子集,从而提高了粗糙集理论的泛化能力。
在第二个方向上,研究者们提出了一些基于粗糙集理论的解释方法,用于解释深度学习的决策过程。
这些方法通过构建决策规则来解释神经网络的输出结果,从而增强了深度学习的可解释性。
这对于一些对模型解释性要求较高的应用场景非常重要,例如医疗诊断和金融风险评估等。
在实践应用中,我们需要注意一些问题。
首先,粗糙集理论与深度学习的结合需要充分理解两者的原理和方法。
只有深入理解它们的特点和优势,才能更好地将它们结合起来。
其次,我们需要选择合适的数据集和模型进行实验。
基于粗糙集的知识约简方法及应用的开题报告

基于粗糙集的知识约简方法及应用的开题报告一、研究背景在大数据时代,数据处理变得越来越复杂,数据维度和属性数量也越来越多。
为了更好地利用这些数据,需要对数据进行分析和处理,但是数据维度过多会导致处理时间和空间开销增大。
同时,大数据中存在很多不必要的冗余信息和噪声,这些信息对于数据分析和处理不利。
为了解决这一问题,我们需要对数据进行简化和优化。
知识约简技术是一种有效的数据优化方法,可以在不损失信息的前提下,将数据集中的冗余信息和噪声去除,从而提高数据的处理效率和准确性。
二、研究内容本文将研究基于粗糙集理论的知识约简方法及其在实际应用中的效果。
具体研究内容如下:1. 粗糙集理论的基本概念和原理。
介绍粗糙集理论的起源、发展历程和基本原理,包括正域、约简、决策类等相关概念和理论。
2. 基于粗糙集的知识约简方法。
探讨基于粗糙集的知识约简方法,包括正域约简、决策规约、属性规约等相关算法和技术。
3. 粗糙集约简方法的应用案例分析。
通过实际应用案例,分析粗糙集约简方法的应用效果和优势,探讨其在数据挖掘、分类、聚类等领域的应用前景。
4. 粗糙集约简方法的改进和发展。
在分析粗糙集约简方法的基础上,提出一些改进和发展的思路和方法,探索进一步提高其效率和准确性的手段和途径。
三、研究意义知识约简技术在数据分析和处理领域具有广泛的应用前景,尤其是在大数据时代下更显得尤为重要。
本文研究基于粗糙集的知识约简方法,具有以下重要意义:1. 深入探讨粗糙集约简方法的理论基础和技术原理,为数据分析和处理提供了新的思路和方法。
2. 实际案例分析,验证了粗糙集约简方法在实际应用中的有效性和优越性。
3. 提出改进和发展的思路和方法,进一步推动粗糙集约简方法的发展和应用,为数据处理和分析提供更加高效、准确的手段和途径。
四、研究方法本文采用文献综述和案例分析的方法,通过收集、整理和分析相关文献和案例,深入探讨基于粗糙集的知识约简方法及其应用。
具体方法如下:1. 收集和整理与粗糙集约简方法相关的文献和资料,包括国内外学术期刊、论文、专著等。
如何利用粗糙集理论进行变量选择与模型构建的技巧总结

如何利用粗糙集理论进行变量选择与模型构建的技巧总结粗糙集理论是一种用于数据分析和决策支持的方法,它可以帮助我们进行变量选择和模型构建。
在本文中,我将总结一些利用粗糙集理论进行变量选择和模型构建的技巧。
1. 数据预处理在利用粗糙集理论进行变量选择和模型构建之前,首先需要对数据进行预处理。
这包括数据清洗、缺失值处理和数据标准化等步骤。
数据清洗可以去除异常值和噪声,缺失值处理可以使用插补方法填充缺失值,数据标准化可以将不同尺度的变量转化为相同的尺度,以便进行比较和分析。
2. 粗糙集属性约简属性约简是粗糙集理论的核心概念之一,它可以帮助我们选择最重要的变量。
属性约简的目标是找到最小的子集,使得该子集中的变量能够保留原始数据集中的所有信息。
常用的属性约简算法有基于启发式规则的快速约简算法和基于遗传算法的全局优化算法。
通过这些算法,我们可以找到最重要的变量,从而减少模型的复杂性和计算成本。
3. 粗糙集模型构建在进行变量选择后,我们可以利用粗糙集理论构建模型。
粗糙集模型是一种基于不确定性和近似推理的方法,它可以帮助我们理解数据之间的关系和规律。
常用的粗糙集模型包括粗糙集分类模型和粗糙集聚类模型。
粗糙集分类模型可以用于分类和预测问题,而粗糙集聚类模型可以用于数据分析和模式发现。
4. 模型评估和优化在构建粗糙集模型后,我们需要对模型进行评估和优化。
模型评估可以使用交叉验证和混淆矩阵等方法,以评估模型的准确性和鲁棒性。
模型优化可以通过调整模型参数和特征选择等方法来提高模型的性能和泛化能力。
通过不断地评估和优化模型,我们可以得到更好的结果。
5. 模型解释和应用最后,我们需要对构建的模型进行解释和应用。
模型解释可以帮助我们理解模型的预测结果和决策依据,以便进行进一步的分析和决策。
模型应用可以将模型应用于实际问题中,例如医学诊断、金融风险评估和工业质量控制等领域。
综上所述,利用粗糙集理论进行变量选择和模型构建可以帮助我们提高数据分析和决策支持的能力。
基于粗糙集理论的心悸阴虚火旺证辨证系统的建立

基于粗糙集理论的心悸阴虚火旺证辨证系统的建立刘白洁;解君;孟凡波;杜雪翠;李运伦【摘要】收集心悸古今医案病例573例,对其症状和体征进行语言规范化处理及量化赋值,使用基于粗糙集理论的KDD决策分析系统Rosetta软件约简病证属性,获取心悸阴虚火旺证的专家知识,并提供该系统决策规则的统计信息,为进一步研究心悸阴虚火旺证奠定基础.【期刊名称】《山西中医学院学报》【年(卷),期】2012(013)004【总页数】3页(P39-41)【关键词】心悸;阴虚火旺证;Rosetta软件;约简;决策规则;证候客观化【作者】刘白洁;解君;孟凡波;杜雪翠;李运伦【作者单位】山东中医药大学,山东济南250355;山东中医药大学,山东济南250355;山东中医药大学,山东济南250355;山东中医药大学,山东济南250355;山东中医药大学附属医院心内科,山东济南250011【正文语种】中文【中图分类】R256.2粗糙集(rough set)理论作为一种新的处理模糊和不确定性知识的数学工具,可以在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则,能够将中医四诊思辨性的经验描述和宏观性概括过渡到高层次的分析与综合相结合,使中医能够从宏观症状学的角度进行证的规范化研究[1]。
本文以心悸阴虚火旺证和心悸非阴虚火旺证的古今医案为研究对象,将粗糙集理论应用到中医证候研究中,构建心悸阴虚火旺证的辨证要素系统,为心悸阴虚火旺证的防治提供依据。
本研究收集心悸医案573例,其中心悸阴虚火旺证医案428例,心悸非阴虚火旺证医案145例,作为学习数据论域,进行症状及体征的研究。
对病案的四诊资料信息,包括原始症状、二便、舌、苔、脉象进行语言规范化处理。
统计涉及到的症状和体征数目,删除出现频数很小的症状和体征(如频数小于4),计算最后入选的指征数目,最后入选的条目共有44个。
选取了44个条目作为条件属性,包括:心悸、胸闷、胸痛、乏力、活动后气短气促、面色无华、面赤、眠差、失眠、多梦、善惊易恐、五心烦热、急躁易怒、易饥、纳呆、口舌生疮、口干咽燥、口苦、潮热盗汗、恶心呕吐、头晕、眼花、腰膝酸软、咳嗽、下肢浮肿、畏寒肢冷、大便不爽、便溏、便秘、尿赤、尿少、尿道灼热或涩痛、舌暗、苔薄黄、舌质鲜红、苔白、苔腻、舌质红、苔少/剥/无苔、脉弦、脉数、脉滑、脉细、脉结代。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 粗糙集理论学习心得:
1.1 概念的外延和内涵 人类认知具有不确定性。人们表达一个不确定的概念时一般有两种方法:外延法和内涵
法。符合某概念对象的全体构成此概念的外延,区别于其他概念的全体本质属性就是此概念 的内涵。一个概念可以用枚举式的外延法表示,也可以用描述式的内涵法表示。
信息论的度量主要任务是度量颗粒性知识属性特征的重要性和属性特征之间关系的相 依性程度。度量方法主要有:信息熵、条件熵和互信息。
信息熵度量了信息源提供的平均信息量的大小。互信息量度了一个信息源从另一个信息 源获取的信息量的大小。信息熵和互信息都随着知识粗糙性的增加而单调下降,通常反过来 不成立。 1.7 知识约简
集合的近似与划分的近似是两个不同的问题。划分中每一个范畴,如果我们能确定论域 中哪些元素是它的正例,也必然能确定它的反例。与粗糙集合的补集意义不同。 1.5 粗糙集的基本性质
粗糙集的基本性质,如成员的隶属关系、集合的包含关系、集合的相等关系都是相对的, 都与我们掌握的知识 R 相关。因此,可以认为粗糙集的方法是经典集合论方法的主观认识。
只有一个 Q 约简的知识 P 是确定的,因为当我们依照只是 P 的基本范畴将论域中的对 象划分到知识 Q 的基本范畴中时只有一种 P 的知识基(P 商集)可用。P 有多个 Q 约简时是 不确定的,因为有多种 P 的知识基可利用。
P 的 Q 核为空集时,知识 P 的不确定性达到最强。 不相容决策表,粗糙集理论的处理方法是对每个决策概念计算其上下近似,从下近似 导出的规则肯定成立,从上近似导出的规则可能成立,前者直接用于逻辑推理,后者有实 例支持。 属性约简算法分两种:1.盲目删除属性约简算法 2.启发式算法:通过定义属性的一个 重要度函数或差别函数来获取信息系统的属性约简。 常见的属性约简算法有:1.基于 Pawlak 属性重要度的属性约简算法。2.基于 Skowron 差 别矩阵的 IS 属性约简算法。3.基于信息熵的 IS 属性约简算法 粗糙集理论的重要作用之一是提供了一种有效的从数据中获取规则的方法和工具。 1.8 粗糙集与自然语言的不确定性 自然语言在表达事物的不确定性时往往用数量、频率、概率和程度等方式来描述事件从 模糊到精确的变化,以便表示对某一命题的信任程度。 程度型(A):considerably, a great deal, (very) much, (quite) a lot, rather, somewhat, a bit , a little , slightly, scarcely, hardly, only just; 程 度 型 (B) : exactly, precisely, just, virtually, practically, more or less, almost, nearly, approximately, about; 数 量 型 (C) : all/every/each, most, a majority, many/much, a lot, enough, some, a number, several, a minority, a few/little, no/none/not/any; 频率型(D) :always, not numerable, usual(ly), general(ly), regular(ly), often, frequent(ly), sometimes, occasional(ly), rate(ly), seldom, hardly ever; 概 率 型 (E) : certain(ly), definite(ly), undoubtedly, probably/probale, maybe, unlikely, improbable, doubtful, almost impossible 不确定性语言是可以度量的; 事物的不确定性具有一定的不确定性区间; 自然语言表示 事物的不确定性和进行不确定性推理时,虽然信息本身有随机性,但人的表示和推理不是 随机的,而是遵循一定的认识规律和行为法则。
它的 C++库源代码可以在网站:http://www.lcb.uu.se/tools/rosetta/上免费下载。
图 3 ROSETTA 图形界面展示 1 如图 3 所示,结点 A 表示从数据库导入的数据,结点 A1 表示对数据进行了补全操作 。 A2 和 A3 结点表示将数据分为训练数据和测试数据两类,A4,A5,A6,A7 是数据预处理 阶段,分别对训练数据和测试数据进行部分离散化和全部离散化操作。RED 结点表示对数 据进行了约简,双击该结点可以看到属性约简的结果。RUL 结点表示规则生成。 图标的 结点表示生成的结果数据文件。
图 2 是一个具体的信息系统实例。结合图 2,U={x1,x2,x3,x4,x5,x6},可以理解为 x1,x2…x6,6 个病人。A={头疼,肌肉疼,体温,流感}。V 是 A 的值域,对于属性头疼 V(头 疼)={是,否}。信息函数 f 是粗线框框出的部分。 1.4 粗糙集的特征
上文介绍了粗糙集理论中的概念:信息系统,上下近似集,划分等。下面介绍两种刻画 粗糙集的方法:用近似程度的精确度来表示粗糙集的数字特征(表示集合边界域的大小, 但没有说明边界域的结构);用粗糙集分类表示粗糙集的拓扑特征(没有边界域大小的信息, 提供了边界域的结构)。
粗糙集理论学习心得与
基于 ROSETTA 的决策表属性约简实验
陈 涛 (@chentao1999)
/chentao1999
chentao1999@
摘要
人类认知具有不确定性。粗糙集理论是处理这种不确定性的数学理论。粗糙集理论不断 发展的同时,粗糙集的应用也越来越广泛。主要集中在两个方面:1.粗糙集的知识约简 2.粗 糙集与其他方强的属性对知识的分类能力越强,但将参数重要度强的知识结合在一起,
分类能力不一定强。 如果所有 P 中的知识对于论域 U 中的对象正确地划分到知识 Q 的基本范畴
(IND(Q)等价类)都是必不可少的,那么知识 P 就是 Q 独立的。知识 P 的 Q 核是知识 P 最基本的特征部分。
图 2 信息系统实例 粗糙集理论研究的对象一般是如图 2 所示的表格(信息表或决策表)。用形式语言表示 为一个四元有序组 S=<U,V,f,A>。其中 U 是对象(事例)的有限集合,U={x1,x2,...,xn};A
是属性的有限集合,A={A1,A2,...Am};V 是属性的值域集,V={V1,V2,...,Vm},其中 Vi 是属性 Ai 的值域。f 是信息函数(information function),f:U×A→V,f(xi,Aj)∈Vj。
系统参数的重要度越大,集合 X 的 R 边界域越小,当它达到 1 时表明用知识 R 可精确 描述集合 X,对划分而言也是一样的。当它为 0 表明用知识 R 无法判定论域 U 中任意元素是 否属于概念 X,也就是说知识 R 是可以约简的。
知识 Q 依赖于知识 P 的程度 k,记为 P→kQ,表示由 Q 导出的分类 U/Q 的正域覆盖来 知识库中论域 U 的 k×100%个元素。换句话说,论域中有 k×100%个元素可以通过知识 P 准 确划入到分类 U/Q 的等价类中。
ROSETTA 粗糙集数据分析工具集是挪威人 Aleksander Øhrn 以他在博士论文期间开发 的粗糙集工具基础上发展而来的。具有数据导入导出、补全、离散化、知识约简、过滤、分类、规 则生成以及获取等价类、上下近似集等功能。
本文是《软计算方法及其应用》课程学习期间的心得和实验总结。共分四部分。第一部分 回顾《软计算方法及其应用》课程粗糙集部分的学习心得;第二部分介绍 ROSETTA 工具集 的功能、使用方法和应用实例。第三部分介绍基于 ROSETTA 的决策表属性约简实验。第四部 分是实验分析与总结。
信息系统和决策表中存在两种冗余:1.属性从整体角度而言存在冗余。2.属性从整体上 讲是必要的,但对某对象在该属性上的取值可能存在冗余,即属性值的冗余。
知识约简的一般步骤:1.删除表中重复对象。2.删除冗余的条件属性。3.删除每个对象的 冗余属性值。4.求出其约简。
知识的核是它最重要的部分,也就是最能体现知识特征的部分。1.核可以作为所有约简 的计算基础。2.核可以解释为知识特征的最主要部分,在知识约简时它不能被删除,否则将
粗糙集的精度是下近似集元素个数与上近似集元素个数之商。集合(范畴或概念)的不 精确性事由于边界域的存在而引起的,它的边界域越大,其精确性则越低。粗糙集中,精度 反映对概念了解的程度,粗糙度反映对概念了解的不完全程度。
近似分类的精度描述的是当前使用知识 R 对对象分类时,可能的决策中正确决策的百 分比。近似分类质量表示的是应用知识 R 能确切地划入划分 PI(U)的分类的对象的百分比。
粗糙集理论中,一个对象是否隶属于某一集合(概念),不是该元素的客观性质,而 是取决于我们对它的了解程度,即知识 R 的分类能力。
粗糙集中的粗糙包含关系,粗糙相等关系。主要是比较集合的拓扑结构而不是集合元素。 在给定的知识库中,基于不同的知识,两个集合可能是精确相等,也可能是粗糙(近似) 相等,或许是粗糙不相等。相等是相对的概念。 1.6 信息论的度量
图 4 ROSETTA 图形界面展示 2 图 4 展示的是 ROSETTA 的主要算法,包括数据补全、数据离散化、属性约简、过滤、分 类、规则生成、上下近似集计算、等价类获取等。其中有 RSES 标注的是与粗糙集理论相关的 算法。
3 实验操作
3.1 导入数据
图 5 导入数据 1
图 6 选择数据格式
图 7 导入的数据 如图 7 所示,快速双击结点“No name”即可看到导入的数据。慢速双击结点“ No name”将其重命名为“流感诊断数据”。 3.2 进行属性约简
图 8 选择属性约简算法
2 ROSETTA 工具集介绍:
ROSETTA 粗糙集数据分析工具集可能是目前最完整、最灵活和先进的粗糙集软件。它 是由波兰华沙大学和挪威科技大学用 C++联合开发的一个基于粗糙集理论框架的数据分析 工具包。它的雏形是挪威人 Aleksander Øhrn 在完成博士论文期间开发的粗糙集工具。