数据约简方法的研究
基于粗糙集理论的数据挖掘方法(2006.10.16)

关于属性选择
许多学习算法处理高维数据有困难, 并且大量 无关属性的存在, 也使得数据分析受到干扰. 目的是找到满足特定标准的最小的属性子集. 搜索算法起着重要的作用. 搜索算法可以用搜 索方向(前向, 后向, 双向), 搜索方式(穷尽搜索, 启发式, 非确定式)及评价方式(精确度, 一致性, 依赖度, 信息熵等)等三个方面来分类. 约简的特点是可以保持分类/近似能力不变。
x5
x6 x7
MBA
MCE MSc
Low
Low Medium
Yes
Yes Yes
Neutral
Good Neutral
Reject
Reject Reject
x8
MCE
x1
Low
x2 x3
No
x4
Excellent
x5 x6
Reject
x7 x8
x1 x2 x3 x4 x5 x6 x7 x8 er der dr def de der e defr der der er def efr def defr der
例如,x1的决策函数 为f(x1)=(e r) (d e r) (d r) (d e f) 整个Accept类的决策 函数为f(Accept)=f(x1) f(x2) f(x3) f(x4) 化成析取范式后,各 项就是Accept类最小 决策规则
粗糙集和其他理论方法结合
和模糊集(Fuzzy set) ►模糊粗糙集(Fuzzy-Rough set) ► 应用:特征选择 聚类 ►Rough K-means ►应用: Web挖掘
粗糙集的问题
粗糙集理论应用于实际数据分析时, 会遇到 -离散化: - 噪音: 过拟合 - 数据缺失: 如何“不可区分” ? - 大数据量: 计算复杂度太高.
数据处理与误差分析报告

数据处理与误差分析报告1. 简介数据处理是科学研究和实验中不可或缺的一部分。
在进行实验和收集数据后,常常需要对数据进行处理和分析,从而揭示数据背后的规律和意义。
本报告将对数据处理的方法进行介绍,并分析误差来源和处理。
2. 数据处理方法2.1 数据清洗数据清洗是数据处理的第一步,用于去除无效数据、异常数据和重复数据。
通过筛选和校对,确保数据的准确性和一致性。
2.2 数据转换数据转换是将数据转化为适合分析的形式,通常包括数据的格式转换、单位转换和数据归一化等。
这样可以方便进行后续的分析和比较。
2.3 数据归约数据归约是对数据进行压缩和简化,以便于聚类、分类和预测分析。
常见的数据归约方法包括维度约简和特征选择等。
2.4 数据统计数据统计是对数据进行整体分析和总结,通常采用统计学的方法,包括均值、方差、标准差、相关系数等。
通过统计分析,可以从整体上了解和描述数据的特征和分布情况。
3. 误差来源和分析3.1 观测误差观测误差是由于测量和观测过程中的不确定性引起的误差。
观测误差可以分为系统误差和随机误差两种类型。
系统误差是由于仪器偏差、人为因素等引起的,通常具有一定的规律性;随机误差是由于种种不可预测的因素引起的,通常呈现为无规律的波动。
3.2 数据采集误差数据采集误差包括采样误差和非采样误差。
采样误差是由于采样过程中的抽样方法和样本大小等因素引起的误差;非采样误差是由于调查对象的选择、问卷设计的不合理等因素引起的误差。
采取合理的抽样策略和数据校正方法,可以减小这些误差。
3.3 数据处理误差数据处理误差是由于处理方法和算法的选择、参数设置的不合理等因素引起的误差。
不同的处理方法和算法可能会导致不同的结果,因此需要进行误差分析和对比,选择最合适的方法。
3.4 模型误差如果使用数学模型对数据进行分析和预测,模型误差是不可避免的。
模型误差主要是由于模型的简化、假设条件的不严谨等因素引起的。
通过对模型进行误差分析和验证,可以评估模型的可靠性和精度。
一种新的基于区别矩阵的决策表属性约简方法

J每 I ,
,
V 将其转化为极小 m
p
f’ m
l
析 取 范式 g= V A占 , 每个 占 则 就是决 策 表 的一个
.
维普资讯
一
8 在 计算决 策 表属 性 约简 和 ( ) 属性 时 , 考 虑 ] 或 核 只
了决策表中单 个对象 的相容性 , 而没有考 虑 U i /d n () c 中等价类 的相容性 , 这就是 这些方法不足 的根 本原因. 于是本文研 究了决策表 的单个对象的相容 性 与 U i ( 中等 价类 的相 容 性 以及 两 者 之 间 的 /n C) d
关 系. 出 了基 于 U i ( ) 等价类 的相 容性 的属 给 /n C 的 d
数据挖掘和数据库知识发现. 决策表是一都可以用决策表
的形 式表 达 , 一工 具 在 决 策 应 用 中起 着 重 要 的作 这
性约简定义和核属性定义. 并将原决策表转换成 以 Ui ( ) /n C 中的等价类为单个对象 的新决策表 , d 然后 可以应用各种数学工具来计算新决策表的屙 陛约简 与核属性 , 也就得到 了相应原决策 表的属性约简与 核属性. 由于篇幅的限制 , 但 本文只讨论了基于区别 矩阵的属 陛约简与核属性计算方法 , 证明了本文方 法是正确的并用相同实例验证了该方法的有效性.
摘要 : 利用反例指 出 目 前基 于区别矩 阵计 算决策表核属性方法的局限性 , 并指出根本原因是 : / d c 中的等 Ui ( ) n 价类的 A cC不相容性. 目前 , 对于决策表的相容性问题 的研究都停 留在单个 对象上 , 文的研 究表 明 , 而本 要计算决
策表的属性 约简 以及核属性 . 关键是要考 虑 U id C) 的等 价类 的相容性. 出了基于 U i ( 的等 价类 的相 /n ( 中 给 /n C) d 容性的属性约简定义和核属性定义 , 并讨论了一种新的基 于区别 矩 阵的属性 约简和核 属性计 算方法. 后证 明本 最 文方法 是正确的并用相 同实例验证 了该方法 的有效性.
粗集理论属性约简的关键技术研究

备 份是 恢 复数据 最直 接 、最有 效 、最迅 速 的途径 之一 。备 份 不 仅仅 能够 在 网络硬 件 系统故 障或 遭到 破坏 时 ,起到 及 时修复 与 保 护 的作用 ,同时 也能够 在 网络运 行环 境遭 到攻 击或 是 出现故 障 时起 到一 定的 保护 作用 。如 果政府 机关 的 办公 自动化 系统 中,数
的重要 途径 。
一
等 宽度 的划分 , 即每个 区间 宽度 为 ( 一x ) x
当区域 存在偏 斜很 严重 的点时误 差较 大 。 2等频划 分算 法 .
其缺 点 是
等 频算 法仍按 照用 户要 求将 连续属 性 值域 空间划 分 为 K个 区 间,每个 区 间包含对 象数 目相 同,即 K个 区 间内 ,每个 区 间包含 M 个 近似值 点。 3均值 聚类 算法 . .
统 的安 全性 能 。 ( )重要数 据恢 复 策略 五
些 网络 安全 策略 。相 信随 着科 学技 术 的不 断发展 ,计算 机 网络
和信 息技 术 的不断 进步 ,未 来一 段时 间 内,我 国政府 机关 办公 自
动化 系统 的 网络 安 全性 能将会 有所 提高 。
参考 文献 :
( )平均 值插 补 一
( x)=u{ ∈ r D ( :Y fX≠ ) Yi UI N R) il " 下近似 集合 是 u 中所 有 x 子集 的并 集 ,上近似 集 合是 u 中
所有与 x 的交集 不为 空 的子集 的并集 。边界 域 、正区 域 、负区域 定义如 下 :
边界域 :Bn X)=R一 ( x( x)一 R ( X)
1 . 定期数 据存 储 、备份 与恢 复 。 2系统硬 件软 件设 备备份 。 .
不完备不一致决策系统的最大分布约简及计算方法

不完备不一致决策系统的最大分布约简及计算方法蒙祖强;许珂;周石泉【摘要】In inconsistent incomplete decision systems (IIDSs),some tolerance classes in tolerance partition overlap more than one decision class,so as to produce complex overlapping subsets between tolerance partition and decision partition. This leads to occurrence of many concepts of reductions in IIDSs and makes the reduction problem more complex. Therefore,the concept of maximum distribution reduct is extended to IIDSs in this paper,then,some of its properties in IIDSs are analyzed. It is found that,unlike other reducts' core attributes,the maximum distribution reduct's core attribute does not have inheritable trait. This shows that the maximum distribution reduct can not be generated by adding attributes to core attribute set. But,by using the testing and deleting operations repeatedly,an algorithm for computing the maximum distribution reduct in IIDSs is successfully constructed in this paper. The algorithm's description and its complexity analysis are also given. Finally,the proposed algorithm is illustrated to be effective and be of practical significance through sample analysis.%不完备不一致决策系统中,条件属性下的相容划分与决策属性下的等价划分形成了复杂的交集,导致出现了多种不同的约简概念,从而使约简问题变得更加复杂.本文将最大分布约简的概念引入不完备不一致决策系统中,然后研究其在不完备不一致决策系统中的性质,发现其核属性不具备传统约简核属性通常所具备的继承特性,因而不能通过增加属性的方法来计算此类约简.但是通过不断的属性测试和删除操作,成功地构造了不完备不一致决策系统中计算最大分布约简的算法,并给出了算法的描述和复杂度分析.通过实例分析,本文算法是有效的且具有实际意义.【期刊名称】《广西师范大学学报(自然科学版)》【年(卷),期】2011(029)003【总页数】5页(P89-93)【关键词】决策系统;不一致性;不完备性;最大分布约简【作者】蒙祖强;许珂;周石泉【作者单位】广西大学计算机与电子信息学院,广西南宁530004;广西大学计算机与电子信息学院,广西南宁530004;广西大学计算机与电子信息学院,广西南宁530004【正文语种】中文【中图分类】TP18随着计算机技术和网络技术的发展,数据的来源更趋广泛,数据呈现形式更加复杂化和多样化。
面向对象的属性约简系统框架的设计与实现

面 向对 象的属性 约简 系统框架 ; 其次, 设计 了一种属性约简 的对象模型 ; 最后, 于该框架对 U I 基 C 数据进行 了验证。实验结 果表 明,
该框架能有效地对数据集进 行 约筒。此 外, 框 架结 构简 单、 有 良好 的扩 展性。提 出的对 象模 型 同样 适用 于其 它 的数据挖 掘 该 具
b s d o h a w r .T e r s l h w t a h a a e s r d c d ef ciey w t h s f me r . I d i o a e n t e f me o k r h e u t s o h tt e d t s ti e u e f t l i t i r s e v h a wo k n a d t n,t i f me o k i i l i hsr a w r ss mpe
Ho i ng W a e g S n d n S n Hui u Hapi ng F n o g Xu o g u
(n it o ow r, a a i t g U i rt, a a 10 8 L oi ,h a Ist efS ta D l n a o n e i D l n16 2 ,i n g C i ) tu f e i j o a vs y i a n n
apyteojc oi t c nl yi tersac f og e ter.Fr , epo oea yt a e oko jc- i t tiue e pl h bet r ne t h o g erho uhsth o — e de o nh e R y it w rp s s m f m w r f bet r n dar t r- s s e r o o e e tb
据挖掘 系统 中。③算法效率低 。频繁求解不 可分辨关 系是导致
基于关联规则的分类规则约简方法
,
用来抽取能描述重要数据集合 的模型 ,用于 预测未知数
分类质量的前提下 ,对分类规则前件 中的子项进行约简 ,具 有重要 的理论意义及应用价值 。本文提 出一种基于关联规则 的分类规则约筒方法 ,利 用 U I C 机器 学习及 S SD 71数 DS R [1 3
据进行实验 。
据对象 的离散类别 ,已广泛应用在市场 营销 、金融投资、天 文 、地理 的数据 分析 与决 策等领域【。近年来 ,国内外学者 J j 在分类规则 的研究上做了大量工作 。首 先是分类规则提取方
算法 是在 决策树构造过程、生成规则的过程 中,通过选择理
的交易项 目集合 ,D 中每一个交易 r是 Ie 中的一组项 目 B st
集 合 ,即 T_st c . e。 l
定义 1设 P=In …n l Ie( 1 , 七, 尸是长 I hn ,i st= , …, 称  ̄ i 2 ) 度为 k的模式 。 定义 2形如 P Q的蕴涵式,其 中,P_ e,Q le 且 cI t c st s P Q=O,称 P N jQ为关联规则 ;若 Q为类属性 ,则称 P jQ
本文主要通过分析分类规则内属性 之间的相关性 ,减少
分类规则 长度 ,给 出以下基本概念 。 给定一个数据库 D B,I t {12 厶} D s = l1, e , …, 是 B中 1个不 同 " 1
间的关系获取 的分类规则 , 具有精确性、分类质量高 的特点 , 但是知识集容量 较大 ;此外 ,粗集 、模糊集 、遗传算法 J J 等理论在( 尤其是 不确 定背景下) 分类规则 的获取 上也有较好 的应 用。其次针对分类规则集 中存在 的冗余、冲突现象 ,以 提高分类质量和效率为 目标的分类规 则集 的处理 ,分为直接 处理和后处理 2种I 。直接处理是指在分类规则获取 的过程 J … 中伴随剪枝操作 , 是一种改进算法 , 例如 , una Q il R的 C . n 45
第七章粗糙集理论案例
7. AI Magazine 8. AI Communications 9. European Journal of Operational Research 10.International Journal of Approximate Reasoning 11.Theoretical computer sciences 12.Decision support Systems 13.International Journal of Man-Machine studies 14.Fundamenta Informaticae 15.Intelligent Automation Sciences
8
(2)经典集合、模糊集合、粗糙集的关系
– 经典集合认为一个集合完全有其元素所决定,一个元素要么属于这个集合,要么 不属于这个集合。其隶属函数μ X(x)∊{0,1}是二值逻辑。 – 模糊集合认为事物具有中介过渡性质,而非突然改变,集合中每一个元素的隶属 函数μ X(x)∊[0,1],即在闭区间[0,1]可以任意取值,隶属函数可以是连续光滑的, 因此模糊集合对不确定信息的刻划是精细而充分的。但隶属函数不可计算,凭人 的主观经验给定。 – 粗糙集合把用于分类的知识引入集合。一个元素x是否属于集合X,需要根据现有 知识来判定,可分为三个情况:①x肯定不属于X;②x肯定属于X;③x可能属于 也可能不属于 X 。到达属于哪种情况依赖于我们所掌握的关于论域的知识。粗糙 集的隶属函数为阶梯状,对不确定性信息的描述是粗糙的, 1.0 但粗糙隶属函数是可计算的。粗糙集主 0.8 要用于对信息系统进行约简和分类。
BUN(X )
H(X )
NEG (
X)
X 的边界线
16
•
(7)粗糙度(近似精确度)
简述维度约简的概念与意义
简述维度约简的概念与意义1.引言1.1 概述维度约简是一种数据分析和机器学习中常用的技术,它的目的是通过剔除冗余或无关的特征维度,从而减少数据集的维度数量。
在现实生活和科学研究中,数据集往往具有很高的维度,包含大量的特征,而其中一部分特征可能对于数据分析和模型训练是无用的甚至具有负面影响。
维度约简的概念是基于以下观点:在高维空间中,许多数据点存在冗余信息或噪音,而且随着维度的增加,数据点之间的距离会逐渐变得稀疏,导致学习算法的性能下降。
因此,通过选择最相关的特征,可以提高学习算法的准确性和效率。
维度约简的方法可以分为两大类:特征选择和特征提取。
特征选择是指从原始特征集中选择一个子集作为最终的特征集,而特征提取则是通过线性或非线性变换,将原始特征映射到一个新的低维空间中。
维度约简具有重要意义,它可以帮助我们在处理大规模数据集时获得更好的计算效率。
通过减少维度,我们可以降低存储空间的需求和计算的复杂性,从而更快地完成数据分析任务。
此外,维度约简还可以提高模型的可解释性和鲁棒性,减少过拟合的风险。
总的来说,维度约简在数据分析和机器学习领域扮演着重要的角色。
它可以帮助我们发现数据中最有价值的特征,并提高模型的性能和可解释性。
未来的研究方向可以探索更高效和准确的维度约简方法,以应对日益增长的大规模数据集的挑战,并将其应用于更广泛的领域和应用场景中。
1.2文章结构本文的结构分为引言、正文和结论三部分。
在引言部分,我们将概述本文的主要内容,介绍维度约简的概念和意义,并说明本文的目的。
接下来,在正文部分,将详细阐述维度约简的概念和其在实际应用中的重要意义。
最后,在结论部分,将总结维度约简的重要性,并展望未来可能的研究方向。
通过对维度约简的概念的详细介绍,我们可以帮助读者了解维度约简的核心思想和基本原理,并掌握维度约简的实际应用场景。
在维度约简的意义部分,我们将探讨维度约简的重要价值和作用,并举例说明维度约简在数据分析、模式识别、特征选择等领域的实际应用。
属性约简方法概述
属性约简方法概述属性约简又称维规约或特征选择,从数学的角度考虑,就是有p维数据x=(x1,x2……xp),通过某种方法,得到新的数据x’=(x’1,x’2……x’k),k≤p,新的数据在某种评判标准下,最大限度地保留原始数据的特征。
属性约简主要是为了解决高维数据计算的复杂性和准确性问题。
目标是消除冗余和不相关属性对计算过程和最终结果造成的影响。
数据属性约简的意义主要从以下几个方面考虑:a)从机器学习的角度来看,通过属性约简去除噪音属性是非常有意义的;b)对一些学习算法来说,训练或分类时间随着数据维数的增加而增加,经过属性约简可以降低计算复杂度,减少计算时间;c)如果不进行属性约简,噪声或无关属性对分类的影响将与预期属性相同,这将对最终结果产生负面影响;d)当用较多的特征来描述数据时,数据均值表现得更加相似,难以区分。
为了描述属性约简方法,这里假设数据集合为d,d={x1,x2….xn},xi表示d中第i个实例,1≤i≤n,n为总的实例个数。
每个实例包含p个属性{|xi|=p}。
从机器学习的角度来看,属性约简方法可以分为监督的和非监督的两类。
下面是几种常用的方法。
(1)主成分分析主成分概念是karlparson于1901年最先引进。
1933年,hotelling把它推广到随机变量。
主成分分析把高维空间的问题转换到低维空间来处理,有效的降低了计算的复杂度。
通过主成分的提取,降低了部分冗余属性的影响,提高了计算的精度。
主成分分析的基本思想是通过正交变换将具有成分相关性的原始随机变量转换为具有成分不相关性的新变量。
从代数的角度,将原始变量的协方差矩阵变换为对角矩阵;从几何角度来看,将原始变量系统转换为一个新的正交系统,指向样本点分布最广的正交方向,然后降低多维变量系统的维数[43]。
定义4-1[44]:设x?(x1,x2,...,xp)'为p维随机向量,它的第i主成分分量可表示yi?ui'x,i=1,2,…,p。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
引
Rough Sets理论是1982年由波兰数学家Z. Pawlak提出的对不确定知识进行表示的理论。近年来,粗糙集作为一种新生的处理不确定性知识的数学工具,由于其独特的计算优势,及其在数据挖掘、机器学习、数据库知识发现、决策分析、专家系统和决策支持系统等方面的成功应用,粗糙集数据分析(RSDA)逐渐被公认为人工智能领域最具潜力的五大新兴技术(粗糙集理论、神经网络、演化计算、模糊系统及混沌系统)之一。同时,该理论还在农学、医学、化学[2]、材料学、地理学、管理科学和金融等其他学科得到成功应用。现在决策表又在决策表属性简化、决策规则的简化是粗糙集理论与实际应用的主要研究方向之一。约简是粗集理论的重要内容,通过删除知识库中多余的属性集(值),来保留知识库中的重要知识,以提高知识的质量,方便用户决策.近年来,许多学者通过不同的方法从不同的角度对决策规则获取(值约简)做了深入的研究。约简包括属性约简和属性值约简,在进行属性值约简之前我们必须先进行属性约简。目前,静态的属性约简算法主要有两类,一类是基于信息熵的算法。另一类是基于可辨识矩阵和可辨识函数构造的属性约简算法,下面据此理论进行发散研究,并将其成功运用于学校师生教学评价管理之中,提升教学管理水平。
关于U的一个划分 定义为: ={ }
其中Xi U,Xi ,Xi Xj= ,i j,i,j=1,2,…n, =U.U上的一族划分称为关于U的一个知识库(knowledge base)。
设R是U上的一个等价关系,U/R表示R的所有等价类,或U上的划分构成的集合,[X]R表示包含元素X U的R等价类。
一个知识库就是一个关系系统K=(U,R),其中U为非空有限集,是论域,R是U上的一族等价关系。
1.1粗糙集历史
现实生活中有许多含糊现象并不能简单地用真、假值来表示,如何表示和处理这些现象就成为一个研究领域。早在1904年谓词逻辑的创始人G.Frege就提出了含糊(Vague)一词,他把它归结到边界线上,也就是说在全域上存在一些个体既不能在其某个子集上分类,也不能在该子集的补集上分类。
1965年,Zadeh提出了模糊集,不少理论计算机科学家和逻辑学家试图通过这一理论解决G.Frege的含糊概念,模糊集在实际中仍有比较广泛的应用,模糊集理论采用隶属度函数来处理模糊性,以先验知识为基础,正因为建立在可靠的已知知识基础上,对不确定问题的处理往往会得到很好的结果。(比如基于模糊技术的题库管理系统,基于模糊推理的高校专业课程体系评价专家系统,基于模糊信息处理的高校选课系统构建[3])。
1.2粗糙集特点
粗糙集是一种软计算方法。软计算的概念是由模糊集创始人Zadeh提出的. 软计算中的主要工具包括粗糙集(RS),模糊逻辑(FuzzyLogic),神经网络(NN ),概率推理(ProbabilityReasoning),信度网络(BeliefNetworks),遗传算法(GA ) 与其它进化优化算法,混沌(Chaos) 理论等.传统的计算方法即所谓的硬计算(hard computing) , 使用精确,固定和不变的算法来表达和解决问题. 而软计算的指导原则是利用所允许的不精确性,不确定性和部分真实性以得到易于处理,鲁棒性强和成本较低的解决方案, 以便更好地与现实系统相协调。
若P R且P , P(P中所有等价关系的交集)也是一个等价关系,称为P上不可区分关系(indiscernibility),记为IND(P),IND(P)= P,且有
[X]IND(P)= [X]H
H P
.U/IND(P)表示等价关系族(P)的相关知识,称为K中关于U的P基本知识(P为基本集)[5]。
20世纪80年代初,波兰的Pawlak针对G.Frege的边界线区域思想提出了粗糙集(Rough Sets),他把那些无法确认的个体都归属于边界线区域,而这种边界线区域被定义为上近似集和下近似集之差集。由于它有确定的数学公式描述,完全由数据决定,所以更有客观性 。自提出以来,许多计算机科学家和数学家对粗糙集理论及其应用进行了坚持不懈的研究,使之在理论上日趋完善,特别是由于20世纪80年代末和90年代初在知识发现等领域得到了成功的应用而越来越受到国际上的广泛关注。
2005年8月1日至5日在鞍山科技大学召开第五届中国Rough集与软计算学术研讨会(CRSSC2005);
2006第六届中国粗糙集与软计算学术研讨会在,浙江师范大学;
2007年粗糙集与软计算、Web智能、粒计算联合学术会议, 山西大学;
2008年第8届中国粗糙集与软计算学术会议、第2届中国Web智能学术研讨会、第2届中国粒计算学术研讨会联合学术会议(CRSSC-CWI-CGrC2008),河南师范大学[4].
关键字:数据约简,Rough Sets理论,数据挖掘,网络的教学评价,离算化。
Reduction of data, including attribute reduction and attribute value reduction [1], data reduction is now a lot of methods, rough set theory is the data reduction and an important tool for data mining, data reduction and data mining interrelated, they are not the delineation of boundaries is bound through the rough set tools and decision tree tools, as well as the establishment of rough set theory with the theory of decision tree could be the theory of data reduction methods to promote the development of this paper the data reduction of the divergence theory, in combination with cutting-edge Now views and examples of mathematical tools and methods to clarify the link between theory. First data reduction tool introduced Rough Sets Theory and prospects of applications, rough set theory of history, characteristics of the rough set theory and basic concepts and basic reduction algorithm (including A. Skowron proposed reduction algorithm to distinguish MatricesandHeuristic attribute reduction based on discernibulity matrix and its application), rough Set in the application of data mining, including the basic concepts of data mining, data mining of the basic tasks (focusing on the now popular data-based decision tree classification algorithm), and rough sets are given in the application of data mining, for example. Rough set theory with the theory of decision tree, including the core technology decision tree, decision tree structure of rough set theory methods and the application of decision tree that is also the new dual-domain of rough set theory data reduction methods. Analysis of the network at home and abroad and then teaching evaluation system of research results, and combined with the quality of classroom teaching evaluation form, data reduction will be successfully applied to the theory of teaching evaluation.
1.3粗糙集理论的基本概念
人的的分类能力是对人类以及其他物种,事物的认识能力,是一种知识。从认知科学的观点来理解知识,知识是基于对对象的分类能力,知识直接与真实或抽象世界有关的分类模式联系在一起,称为论域U。设定有一个论域U,对于任何子集X U可成为一个U中的概念或范畴,U的任何概念族称为U的抽象知识,简称知识。
学号:200526140126
黄冈师范学院
本科生毕业论文
论文题目:基于粗糙集理论的网络评教研究
作者:乐 章
专业班级:计科0501班
指导教师:杨 族 桥
2009年5月5日
摘要
数据的约简包括属性约简和属性值约简[1],现在数据约简的方法很多,粗糙集理论是数据约简和数据挖掘的重要工具,数据约简和数据挖掘相互联系,它们没有必然的划分界限,通过粗糙集工具和决策树工具以及用粗糙集理论建立决策树的理论可以将数据约简的理论方法加以开发推广,本文通过对数据约简理论的发散研究,结合现在比较前沿的观点和实例阐明数学工具和方法理论之间的联系。首先介绍数据约简工具Rough Sets理论应用范围和前景,粗糙集理论历史,特点以及与粗糙集理论相关的基本概念和基本的约简算法(包括A.Skowron提出的分辨矩阵约简算法和基于可辨识矩阵的启发式约简算法),粗糙集在数据挖掘中的应用,包括数据挖掘的基本概念,数据挖掘的基本任务(重点介绍了现在流行的基于决策树的数据分类算法),并且给出了粗糙集在数据挖掘中的应用举例。用粗糙集理论可以建立决策树,包括决策树的核心技术,粗糙集理论构造决策树的方法和决策树的应用介绍,现又新提出的双论域下粗糙集数据约简方法。然后分析国内外网络的教学评估系统的研究成果,并且结合课堂教学质量评价表,将数据约简理论成功运用于网络评教中。