粗糙集理论分析及其应用研究

合集下载

粗糙集的简单应用解析

粗糙集的简单应用解析
pos (C ?{P }) ( D ) ? {t1, t2 , t3 , t4 , t6 , t8} ? posC (D) pos (C ?{Q}) ( D ) ? {t1 , t2 , t3 , t4 } ? pos C ( D )
pos(C ?{ R}) ( D) ? ? ? pos C (D)
第二十一页,编辑于星期三:二点 三十分。
规则提取
提取决策规则可以得到以下确定性规则:
(购买Q)且(不购买 R)—— (不购买 S) (购买 Q)且(购买 R) ——(购买S)
不确定规则为:
(不购买 Q)且(购买 R) —— (购买 S) ? (不买 Q买R,买 S ) ? 0.5
(不购买Q)且(购买 R)——(不购买 S)
论域, U 中的每个 xi (i ? n) 称为一个对象;
(2)A 是属性的非空有限集合,即 A ? {a1 , a2 ,? , an } , A 中
的每个 a j ( j ? m) 称为一个属性;
(3)V
?
?
a?
A
Va,Va
是属性的值域;
( 4) f :U ? A ? V 称为信息函数,它为每个对象关于每个
i Cij 表示分辨矩阵 中第 行,第 j 列的元素,Cij 被定义为:
C ij
?
??{a ? ? ??
A a ( xi ) ? a ( xj )}, D( xi ) ?
? , D (xi ) ? D( x j )
D(xj )
其中 i, j ? 1,2,? , n; n ? U
定义2.10 区分函数 是从分辨矩阵中构造的。约简算法的方法
定理2 core ( A) ? ? red ( A),其中 red ( A) 表示 A 的所有约简。

粗糙集理论的实际应用场景

粗糙集理论的实际应用场景

粗糙集理论的实际应用场景粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具,它在现实生活中有着广泛的应用场景。

本文将探讨粗糙集理论在数据挖掘、医学诊断和金融风险评估等领域的实际应用。

数据挖掘是当今信息时代的热门领域,而粗糙集理论在数据挖掘中发挥着重要作用。

通过粗糙集理论,我们可以从大量的数据中提取出有用的信息和规律。

例如,在市场营销中,企业可以利用粗糙集理论分析消费者的购买行为和偏好,从而制定更精准的营销策略。

此外,粗糙集理论还可以应用于图像识别、语音识别等领域,帮助计算机更好地理解和处理复杂的信息。

医学诊断是另一个粗糙集理论的重要应用领域。

在医学诊断中,患者的病情常常是复杂和模糊的,而粗糙集理论可以帮助医生进行更准确的诊断。

通过将患者的病情和症状进行模糊化处理,然后利用粗糙集理论进行分类和判断,医生可以更好地了解患者的病情和病因,并制定出更科学的治疗方案。

此外,粗糙集理论还可以应用于医学图像分析、基因识别等领域,帮助医生更好地理解和分析医学数据。

金融风险评估是金融领域中一个重要的应用场景。

在金融市场中,风险是无处不在的,而粗糙集理论可以帮助金融机构更好地评估和管理风险。

通过对金融数据进行模糊化处理,然后利用粗糙集理论进行分类和分析,金融机构可以更准确地评估不同投资产品的风险水平,并采取相应的风险控制措施。

此外,粗糙集理论还可以应用于信用评级、投资组合优化等领域,帮助金融机构更好地进行风险管理和决策。

除了上述应用场景,粗糙集理论还可以在许多其他领域发挥作用。

例如,在工程设计中,粗糙集理论可以帮助工程师更好地分析和处理不确定性因素,从而提高设计的可靠性和稳定性。

在城市规划中,粗糙集理论可以帮助城市规划师更好地理解和分析城市的发展趋势和需求,从而制定更科学和合理的规划方案。

在环境保护中,粗糙集理论可以帮助环保部门更好地评估和管理环境污染的风险和影响。

综上所述,粗糙集理论在数据挖掘、医学诊断、金融风险评估等领域有着广泛的应用。

粗糙集理论的原理及其在数据分析中的作用

粗糙集理论的原理及其在数据分析中的作用

粗糙集理论的原理及其在数据分析中的作用引言:在当今信息爆炸的时代,数据的产生和积累呈爆炸式增长。

如何从海量的数据中提取有用的信息成为了一个重要的问题。

粗糙集理论作为一种有效的数据分析方法,被广泛应用于各个领域。

本文将介绍粗糙集理论的原理,并探讨其在数据分析中的作用。

一、粗糙集理论的原理粗糙集理论是由波兰学者Pawlak于1982年提出的。

它是一种处理不确定性和不完备性数据的方法。

粗糙集理论的核心思想是基于粗糙近似和不确定性的处理。

在现实世界中,很多数据是不完备和不确定的,粗糙集理论通过建立近似关系来处理这些数据。

粗糙集理论的基本概念有:属性、决策系统、正域和约简等。

属性是指描述事物特征的指标,决策系统是由属性和决策构成的数据集合,正域是指在某个条件下,具有相同决策的数据对象集合,约简是指从决策系统中找出最小的属性子集,保持决策不变。

二、粗糙集理论在数据分析中的作用1. 特征选择特征选择是数据分析中的一个重要环节。

通过粗糙集理论可以对数据中的属性进行筛选,找出对决策有重要影响的属性。

这样可以减少数据的维度,提高数据分析的效率和准确性。

2. 数据分类粗糙集理论可以用于数据的分类。

通过建立正域和约简,可以将数据对象分为不同的类别。

这对于数据挖掘和机器学习等领域具有重要意义。

3. 不确定性处理粗糙集理论可以有效处理不完备和不确定的数据。

在现实世界中,很多数据存在缺失和模糊性。

粗糙集理论通过建立近似关系,可以对这些数据进行处理,并得到合理的结果。

4. 知识发现粗糙集理论可以帮助我们从数据中发现有用的知识。

通过对数据进行分析和挖掘,可以发现数据中的规律和模式。

这对于决策支持和业务优化等方面具有重要意义。

结论:粗糙集理论作为一种处理不确定性和不完备性数据的方法,具有重要的理论和实践价值。

它可以帮助我们从海量的数据中提取有用的信息,并发现数据中的规律和模式。

粗糙集理论在数据分析中的应用前景广阔,将在未来的研究和实践中发挥更大的作用。

粗糙集理论及其应用研究

粗糙集理论及其应用研究

粗糙集理论及其应用研究一、粗糙集理论概述粗糙集是一种用于解决不确定性问题的数学工具。

粗糙集理论中知识被理解为对事物进行区分的能力,在形式上表现为对论域的划分,因而通过论域上的等价关系表示。

粗糙集通过一对上、下近似算子来刻画事物,它不需要数据以外的任何先验知识,因此具有很高的客观性。

目前,粗糙集被广泛用于决策分析、机器学习、数据挖掘等领域[1~6]。

二、粗糙集中的基本概念[7]定义1 论域、概念。

设U是所需研究的对象组成的非空有限集合,称为一个论域,即论域U。

论域U的任意一个子集XU,称为论域U的一个概念。

论域U中任意一个子集簇称为关于U的知识。

定义2 知识库。

给定一个论域U和U上的一簇等价关系S,称二元组K=(U,S)是关于论域U的知识库或近似空间。

定义3 不可分辨关系。

给定一个论域U和U上的一簇等价关系S,若PS,且P≠?,则∩P仍然是论域U上的一个等价关系,称为P上的不可分辨关系,记做IND(P)。

称划分U/IND(P)为知识库K=(U,S)中关于论域U的P-基本知识。

定义4 上近似、下近似。

设有知识库K=(U,S)。

其中U为论域,S为U 上的一簇等价关系。

对于X∈U和论域U上的一个等价关系R∈IND(K),则X关于R的下近似和上近似分别为:下近似R(X)=∪{Y∈U/R|YX}上近似R(X)=∪{Y∈U/R|Y∩X=?}集合的上近似和下近似是粗糙集中最核心的概念,粗糙集的数字特征以及拓扑特征都是由它们来描述和刻画的。

当R=(X)时,称X是R-精确集;当R(X)≠(X)时,称X是R-粗糙集,即X是粗糙集。

三、粗糙集理论的优势随着人们对粗糙集理论的不断研究,它的应用领域在不断扩大,粗糙集理论的优势在于:1)他不需要专家的经验知识,而仅利用现实实例数据本身提供的信息;2)能搜索数据的最小集合,能从实例数据中获取易于证实的规则知识,最后,它同时允许使用定性和定量的数据。

近年来,粗糙集理论应用到了许多领域。

粗糙集理论在决策分析中的应用

粗糙集理论在决策分析中的应用

粗糙集理论在决策分析中的应用引言:决策分析是一种重要的决策支持工具,它帮助决策者在复杂的环境中做出正确的决策。

而粗糙集理论作为一种有效的数学工具,已经在决策分析中得到了广泛的应用。

本文将探讨粗糙集理论在决策分析中的应用,并分析其优势和局限性。

一、粗糙集理论的基本概念粗糙集理论是由波兰学者Pawlak于1982年提出的,它是一种处理不确定性和不完备性信息的数学工具。

粗糙集理论的核心概念是粗糙集和精确集。

粗糙集是指在特定条件下,无法准确判断某个元素是否属于某个集合,但可以确定其不属于该集合。

而精确集则是指在特定条件下,可以准确判断某个元素是否属于某个集合。

粗糙集理论通过粗糙集和精确集的划分来处理不确定性和不完备性信息,从而提供了一种有效的决策分析方法。

二、1. 特征选择在决策分析中,特征选择是一个重要的步骤。

通过选择合适的特征,可以提高决策模型的准确性和可解释性。

而粗糙集理论可以通过计算不同特征的正域和边界域来进行特征选择,从而提取出对决策结果具有重要影响的特征。

2. 决策规则提取决策规则是决策分析中的核心内容,它描述了决策结果与决策条件之间的关系。

粗糙集理论可以通过计算不同决策条件的正域和边界域来提取出决策规则,从而帮助决策者理解和解释决策结果。

3. 决策模型构建决策模型是决策分析中的重要工具,它可以帮助决策者预测和评估不同决策方案的效果。

粗糙集理论可以通过构建决策表和决策树来建立决策模型,从而辅助决策者进行决策分析。

三、粗糙集理论的优势和局限性1. 优势粗糙集理论具有以下优势:(1)处理不确定性和不完备性信息:粗糙集理论可以处理不确定性和不完备性信息,提供了一种有效的决策分析方法。

(2)简单易用:粗糙集理论的基本概念和计算方法相对简单,易于理解和应用。

(3)能够提取隐含知识:粗糙集理论可以通过计算不同条件的正域和边界域来提取出隐含的决策规则和特征,帮助决策者理解和解释决策结果。

2. 局限性粗糙集理论也存在一些局限性:(1)计算复杂性:粗糙集理论在处理大规模数据时,计算复杂性较高,需要耗费较多的计算资源。

粗糙集理论及其应用研究

粗糙集理论及其应用研究

粗糙集理论的核心内容
知识的约简与核
知识的约简: 通过删除不重 要的知识,保 留关键信息
核的概念:核 是知识的最小 表示,包含所 有必要信息
核的性质:核 具有独立性、 完备性和最小 性
核的求取方法: 基于信息熵、 信息增益等方 法进行求取
0
0
0
0
1
2
3
4
决策表的简化
决策表:用于描述决策问题的表格 简化目标:减少决策表的规模,提高决策效率 简化方法:合并条件属性,删除冗余属性 简化效果:提高决策表的可读性和可理解性,降低决策复杂度
粗糙集理论在聚类分析中的应用:利用粗糙集理论处理不确定和不完整的数据,提高聚类 分析的准确性和效率。
聚类分析在数据挖掘中的应用:可以帮助发现数据中的模式和趋势,为决策提供支持。
粗糙集理论在其他领域的应用
决策支持系统
粗糙集理论可以帮助决策者 处理不确定性和模糊性
粗糙集理论在决策支持系统 中的应用
粗糙集理论可以提高决策支 持系统的准确性和效率
粗糙集理论在决策支持系统 中的实际应用案例分析
智能控制
粗糙集理论在模糊控制中的 应用
粗糙集理论在智能控制中的 应用
粗糙集理论在神经网络控制 中的应用
粗糙集理论在自适应控制中 的应用
模式识别
粗糙集理论在模式 识别中的应用
粗糙集理论在图像 识别中的应用
粗糙集理论在语音 识别中的应用
粗糙集理论在生物 信息学中的应用
添加标题
添加标题
ห้องสมุดไป่ตู้添加标题
添加标题
机器学习
粗糙集理论在机器学习中的应用 粗糙集理论在数据挖掘中的应用 粗糙集理论在模式识别中的应用 粗糙集理论在自然语言处理中的应用

粗糙集理论的属性重要性评估方法及其实际应用

粗糙集理论的属性重要性评估方法及其实际应用引言:粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具,它在数据挖掘、模式识别和决策分析等领域中得到了广泛的应用。

在粗糙集理论中,属性重要性评估是一个重要的问题,它能够帮助我们识别出对决策结果具有重要影响的属性,从而提高决策的准确性和可靠性。

本文将介绍一种基于粗糙集理论的属性重要性评估方法,并探讨其在实际应用中的价值。

一、粗糙集理论概述粗糙集理论是由波兰学者Pawlak于1982年提出的,它是一种处理不确定性和模糊性问题的数学工具。

粗糙集理论通过将对象的属性进行划分,将属性值之间的差异进行模糊化处理,从而实现对不完备和不精确数据的分析和决策。

粗糙集理论的核心思想是近似和约简,即通过近似的方法对数据进行简化和压缩,从而提取出最重要的信息。

二、属性重要性评估方法在粗糙集理论中,属性重要性评估是一个关键问题。

属性重要性评估的目标是确定哪些属性对决策结果的影响最大,从而帮助我们进行决策和分析。

常用的属性重要性评估方法有正域、核和约简等方法。

1. 正域方法正域方法是一种基于粗糙集的属性重要性评估方法。

它通过计算属性在正域中的覆盖度来评估属性的重要性。

正域是指在给定条件下能够唯一确定决策结果的属性取值,它反映了属性对决策结果的贡献程度。

正域方法的优点是简单直观,容易理解和计算,但它没有考虑属性之间的依赖关系。

2. 核方法核方法是一种基于粗糙集的属性重要性评估方法。

它通过计算属性在核中的约简度来评估属性的重要性。

核是指在给定条件下能够唯一确定决策结果的最小属性集合,它反映了属性对决策结果的决定性影响。

核方法考虑了属性之间的依赖关系,能够更准确地评估属性的重要性,但计算复杂度较高。

3. 约简方法约简方法是一种基于粗糙集的属性重要性评估方法。

它通过对属性集合进行约简,得到一个最小的属性子集,从而实现对属性的重要性评估。

约简方法的优点是能够同时考虑属性之间的依赖关系和决策结果的覆盖度,能够更全面地评估属性的重要性。

粗糙集理论简介及应用介绍

粗糙集理论简介及应用介绍引言:在现代信息时代,数据的快速增长和复杂性给决策和问题解决带来了挑战。

为了更好地理解和分析数据,人们提出了许多数据挖掘和分析方法。

其中,粗糙集理论作为一种有效的数据处理方法,被广泛应用于各个领域。

本文将简要介绍粗糙集理论的基本概念以及其在实际应用中的一些案例。

一、粗糙集理论的基本概念粗糙集理论是由波兰学者Pawlak在20世纪80年代初提出的。

它是一种基于近似和不确定性的数学工具,用于处理不完全和不确定的信息。

粗糙集理论的核心思想是通过将数据划分为等价类来对数据进行描述和分析。

在这种划分中,数据被分为确定和不确定的部分,从而实现了对数据的粗糙描述。

1.1 粗糙集的等价关系粗糙集的等价关系是粗糙集理论的基础。

在粗糙集中,等价关系是指具有相同属性值的数据实例之间的关系。

通过等价关系,我们可以将数据实例划分为不同的等价类,从而实现对数据的刻画和分析。

1.2 下近似集和上近似集在粗糙集中,下近似集和上近似集是对数据的进一步描述。

下近似集是指具有最小确定性的数据实例的集合,而上近似集是指具有最大确定性的数据实例的集合。

通过下近似集和上近似集,我们可以更好地理解数据的不确定性和不完整性。

二、粗糙集理论的应用案例粗糙集理论在实际应用中具有广泛的应用价值。

以下将介绍一些典型的应用案例。

2.1 数据挖掘粗糙集理论在数据挖掘中被广泛应用。

通过粗糙集理论,我们可以对大量的数据进行分类和聚类。

例如,在医学领域,研究人员可以利用粗糙集理论对医疗数据进行分类,从而实现对疾病的诊断和治疗。

2.2 特征选择特征选择是数据挖掘和机器学习中的一个重要问题。

通过粗糙集理论,我们可以对数据中的特征进行选择,从而减少数据的维度和复杂性。

例如,在图像识别中,研究人员可以利用粗糙集理论选择最具代表性的图像特征,从而提高图像识别的准确性和效率。

2.3 决策支持系统粗糙集理论在决策支持系统中的应用也非常广泛。

通过粗糙集理论,我们可以对决策问题进行建模和分析。

粗糙集理论在设备故障诊断中的应用研究

粗糙集理论在设备故障诊断中的应用研究引言:设备故障诊断一直是工业生产中的重要环节,它能够帮助企业及时发现和解决设备故障,提高生产效率和产品质量。

而粗糙集理论作为一种有效的数据分析方法,近年来在设备故障诊断中得到了广泛的应用。

本文将探讨粗糙集理论在设备故障诊断中的应用研究,并分析其优势和不足之处。

一、粗糙集理论概述粗糙集理论是由波兰学者Zdzisław Pawlak于1982年提出的,它是一种基于信息粗糙度的数据分析方法。

该理论通过将数据集分为不同的等价类,来实现数据的分类和决策。

粗糙集理论的主要思想是在不完备和不确定的信息条件下,通过寻找数据集中的重要属性和规则,来进行有效的决策和分类。

二、粗糙集理论在设备故障诊断中的应用1. 数据预处理设备故障诊断需要大量的数据支持,而这些数据往往存在噪声和冗余。

粗糙集理论可以通过数据预处理的方法,去除噪声和冗余,提取出数据集中的重要特征。

例如,可以通过粗糙集理论中的属性约简方法,选择出对设备故障诊断具有重要意义的属性,从而减少数据集的维度,提高诊断的准确性。

2. 特征选择设备故障诊断中,特征选择是一个关键的问题。

传统的特征选择方法往往依赖于领域专家的经验,而粗糙集理论可以通过分析数据集中的属性依赖关系,自动选择出对设备故障诊断具有重要意义的特征。

这种基于数据的特征选择方法,能够避免主观因素的干扰,提高诊断的准确性和可靠性。

3. 故障诊断模型构建在设备故障诊断中,构建准确可靠的故障诊断模型是非常重要的。

粗糙集理论可以通过分析数据集中的属性依赖关系,构建出针对不同故障类型的故障诊断模型。

例如,可以通过粗糙集理论中的近似集合方法,将数据集中的故障样本划分为不同的等价类,从而得到不同故障类型的特征集合,进而构建出相应的故障诊断模型。

三、粗糙集理论在设备故障诊断中的优势1. 适应不完备和不确定的信息设备故障诊断中,数据往往存在不完备和不确定的情况,而粗糙集理论正是基于这种情况下的数据分析方法。

粗糙集理论的应用领域及研究现状

粗糙集理论的应用领域及研究现状摘要:粗糙集理论是一种基于不完备信息的数学模型,具有广泛的应用领域。

本文将介绍粗糙集理论的基本概念和原理,并探讨其在数据挖掘、模式识别、决策分析等领域的应用。

同时,还将介绍粗糙集理论在实际研究中的现状和挑战。

1. 引言粗糙集理论是由波兰学者Pawlak于1982年提出的一种基于不完备信息的数学模型。

它通过将数据集划分为等价类,可以有效地处理不确定和模糊的信息。

粗糙集理论在多个学科领域中得到了广泛的应用,如数据挖掘、模式识别、决策分析等。

2. 粗糙集理论的基本概念和原理粗糙集理论的核心概念是“粗糙集”,它是指在不完备信息条件下,将数据集划分为等价类的过程。

在粗糙集理论中,等价类被称为“粗糙集”,而等价类之间的差异被称为“粗糙度”。

粗糙度越小,等价类之间的差异越小,数据集的信息越完备。

粗糙集理论的基本原理是“下近似”和“上近似”。

下近似是指用最少的信息描述数据集的特征,上近似是指用尽可能多的信息描述数据集的特征。

通过下近似和上近似的计算,可以得到数据集的粗糙集,从而实现对不完备信息的处理。

3. 粗糙集理论在数据挖掘中的应用数据挖掘是从大量数据中发现隐藏模式和知识的过程。

粗糙集理论在数据挖掘中可以用于特征选择、属性约简和规则提取等任务。

通过粗糙集理论,可以从复杂的数据集中挖掘出有用的模式和规律,帮助人们更好地理解数据集的结构和特征。

4. 粗糙集理论在模式识别中的应用模式识别是通过对数据进行分类和识别,从而实现对数据的理解和分析。

粗糙集理论在模式识别中可以用于特征选择、模式分类和模式识别等任务。

通过粗糙集理论,可以对数据进行有效的特征选择,提高模式识别的准确性和效率。

5. 粗糙集理论在决策分析中的应用决策分析是通过对决策问题进行建模和分析,从而实现对决策的优化和改进。

粗糙集理论在决策分析中可以用于决策规则的提取和决策的评估。

通过粗糙集理论,可以从决策问题中提取出有用的规则和知识,帮助人们做出更好的决策。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1、前言随着信息技术的飞速发展和广泛应用,面对信息系统中不完整、不精确或不确定的数据如何有效分析处理?如何发现隐藏在信息系统中的有用知识和潜在的规律?为了解决这些问题,学术界和研究者们采用了粗糙集理论。

粗糙集理论是由波兰数学家 Z.Pawlak 在1982年提出的[1],它是一种分析处理不完整性、不精确性、不确定性知识的数学工具。

该理论不需要任何初始或附加信息,直接利用已知的知识库,将知识库中的不确定或不精确的知识进行近似的划分,并对所划分的知识域确定其支持程度。

目前,该理论已成为信息科学和认识科学领域的研究热点之一,随着研究的深入,该理论得到了很大的发展和壮大,并已成功应用于人工智能、模式识别与分类、知识发现与决策分析、专家系统、数据挖掘、故障检测、金融、医学、生物学等领域。

2、粗糙集的基本理论定义粗糙集理论是一种研究不完整、不确定性知识的数学工具[2]。

在信息系统中,对知识的理解和表示是人们首先思考的问题,同时也是比较难解决的问题,从目前研究来看,对这些问题的解决,粗糙集理论和技术是比较理想的方法。

定义1:(信息系统)设一个信息系统[3]S=(U,A,V,f),这里,粗糙集理论分析及其应用研究覃宝灵(佛山科学技术学院信息与教育技术中心 广东佛山 528000)摘要:本文阐述粗糙集理论的基本概念,探讨粗糙集理论中知识约简和规则提取的重要性,通过分析、比较,把这些理论和技术应用于实际中,取得了显著的效果,对其在信息系统中的应用具有一定的研究价值。

关键词:粗糙集;知识约简;规则提取;遗传算法①U是对象的非空有限集合,即称为论域,记为:U={x 1,x 2,…,x n };②A是属性的非空有限集合,记为:A={A 1,A 2,…,A m };③V是属性的值域集,记为:V={V 1,V 2,…,V m },且V i 是属性A i 的值域;④f是信息函数,即f:U×A→V,f(x i ,A j )∈V j 。

在信息系统中,若属性集合A由条件属性集合C和决策属性集合D组成,且C∪D=A,C∩D=Ф,则称S为决策系统,又称决策表。

定义2:(等价关系)设知识表示系统S=(U,A ,V,f),若属性集合时,称P的不可分辨关系Ind(P)是U上的等价关系,其中Ind(P)={(x,y)∈U × U |,f(x,a)= f(y,a)}。

由Ind(P)导出的所有等价类集合记为U/P,它构成了论域的一个划分,含有元素x的等价类,记为[x]p 。

定义3:(下近似、上近似、边界域)设是一个集合,R是一个定义在U上的等价关系。

有:①若R一(X)=U{Y∈U/R:Y∈X},则称R一(X)为X的R下近似集;②若R一(X)=U{Y∈U/R:Y∩X≠Ф},则称R一(X)为X的R上近似集;③若R(X)=R一(X)一R一(X),则称R(X)为集合X的边界域。

若R(X)是空集,则称集合X关于集合R是清晰的;反之,称集合X为关于集合R的粗糙集。

定义4:设R是一族等价关系,且{R}∈R,若Ind(R)≠Ind(R-{R}),则称{R}为R中不可省略的,否则称{R}为R中可省略的。

当每一个{R}都是R中不可省略的,则称{R}为独立的。

定义5:设P R,当P为独立的,且Ind(P)=Ind(R),则称P是R的一个约简,记为Red。

R中所有不可省略关系构成的集合称为R的核,记为Core。

可推并证得:Core=∩Red。

3、粗糙集理论的知识约简及规则提取分析在数据挖掘过程中,粗糙集理论的核心是知识约简,其算法是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。

其知识处理模型如图3-1所示:图3-13.1 知识约简分析在粗糙集理论中,“知识”理解为一种分类能力,即对数据的划分,可用集合表示,例如,假设给定数据集U和等价关系集P,若用P来划分U,则称其为知识。

知识约简是指在保持知识库的分类或决策能力不变的条件下,删除其中不相关或不重要的知识,从而可以简化判断规则, 提高决策效率。

在实际应用中,通常用决策表来描述论域中的每个对象,其实,它是二维表,每一行表示一个对象,每一列表示对象的每一种属性,而属性又分条件属性和决策属性两类,在论域中的对象,根据条件属性的不同,被划分到具有不同决策属性的决策类中。

由于一个属性对应一个等价关系,一个表可以表示一族等价关系,即知识库,所以知识约简可以转化为属性约简。

在决策表分类过程中,可能存在多个约简,若将这些约简交集,则称其为核,它是计算所有约简的基础,是知识最重要部分的集合,对知识约简时不能删除它。

核的属性是分类的关键属性,所以在信息系统中,如何计算出核的属性呢?通常的算法是首先删除重复的实例和不关联的属性,其次删除每个实例的多余属性,最后计算出最小约简,并通过最小约简,求出逻辑规则。

当前随着知识库的不断扩大,知识约简的复杂性也越来越大,要计算所有约简和最佳约简,可以说是很大的难题。

通过分析研究,目前比较理想的方法是用遗传算法来求较优的知识约简。

遗传算法流程图如图3-2所示:图3-23.2 规则提取分析知识约简最终目的不仅仅是为了减少知识库中的条件属性,压缩数据量,而是为了知识发现打好基础。

知识发现的任务是从知识库中找出知识之间的内在联系,并提取决策规则。

规则提取其实就是决策规则的约简结果,主要对条件属性值的约简。

在决策表中,每一行对应一条决策规则,首先计算决策规则的条件属性的核值,其次求它的条件属性值的约简。

如果约简表中出现重复行,则将其删除,因为其表示同一决策规则。

属性值的约简需要对决策表进行多次遍历,计算量较大,并且存在属性冗余和规则冗余。

由于最优的决策树已经被证明是一个NP难题[4],所以,目前比较理想的方法是用更优的启发式函数来构造决策树,并提取决策规则。

其方法为以属性重要性评价指标作为信息熵函数,对条件属性进行选择,对属性间的依赖性和冗余性进行充分考虑,对不相容决策表进行正确分类,从而弥补了ID3算法对属性间依赖性强调不够的缺点,解决了决策树中子树的重复和有些属性在同一决策树上被多次选择的问题。

3.3问题存在分析尽管目前粗糙集理论研究取得今人瞩目的成果,但仍然存在一些至今还没有很好解决的问题。

(1)分类在实际应用中存在局限性问题[5]。

由于粗糙集理论处理的分类是精确的,只考虑数据集的完全“包含”与“不包含”,不存在含糊,还有它处理的的对象是已知的,并且从模型中提取的结论仅适用于这些对象。

(2)属性约简有效性计算问题。

在知识约简的过程中,如何处理数据中的噪音和丢失值问题,连续属性离散化问题等,目前还没有找到令人满意的约简算法来处理这些问题。

(3)规则提取不稳定性问题。

由于粗糙集理论处理的错误判断的决定性机制非常简单,所以,由粗糙集产生的决策规则很不稳定而且有较差的分类精确性[6]。

因此为了解决这些问题,粗糙集理论必须与其它数据挖掘方法结合,例如:模糊集、神经网络等。

除以上问题之外,还有例如:最优间隔断点选取及知识获取等技术问题。

4、粗糙集理论的应用虽然粗糙集理论发展只有二十多年,但随着信息技术的飞速发展和广泛应用的引领下,其在各领域的研究成果是令人瞩目的,它的生命力在于它具有较强的实用性。

4.1神经网络中的应用在专家系统中,由于知识获取是非常关键的阶段,同时对它们的定义又是很困难,为了有效解决这些问题,由苏丹卡同大学、马来西亚大学和普恰大学的M.E.Yahia、R.Mahmod等研制的粗糙神经专家系统中提出将神经网络作为专家知识库[7]。

主要是运用粗糙集作为数学工具来处理不确定与不精确数据,将粗糙集和神经网络结合形成一种新的知识库结构,它是基于粗糙分析约简和神经网络的结合上,这样结合有利于发挥各自的特点,达到优势互补的效果。

目前该系统应用于医学诊断中肝炎病例的检测。

4.2 证券数据分析中的应用Golan和Ziarko应用粗糙集理论分析了十年间股票的历史数据,研究了股票价格与经济指数之间的依赖关系,获得的预测规则得到了华尔街证券交易专家的认可。

4.3知识发现中的应用目前,粗糙集理论在K D D(K n o w l e d g e Discovery in Database)的应用得到了飞速的发展,基于粗糙集理论的知识发现方法是KDD的重要方法之一。

Hu,X.等人将基于属性的归纳学习方法和基于粗糙集的机器学习方法相结合,建立了数据库学习系统。

Beaubouef,T.等人将粗糙集算法嵌入数据管理系统中,提出了粗糙关系数据库模型,使查询处理更灵活,大大增强了系统的检索能力。

4.4 决策分析中的应用基于粗糙集理论的决策规则是在分析经验数据的基础上得到的,它允许决策对象存在一些不太明确的属性。

在决策分析中,意大利学者Salvatore Greco和波兰学者Roman Slowinshi提出将粗糙集应用于多标准决策分析[8]。

又例如希腊发展银行ETEVA应用粗糙集理论协助制订信贷政策,是粗糙集理论多准则决策方法的一个成功范例。

4.5 故障诊断中的应用在故障诊断方面,由于故障发生的复杂性、不确定性及对故障原因认识的局限性,所以对相关故障信息的分析和处理往往存在一定的困难,用粗糙集方法约简去冗余信息,同时结合其它软计算方法对生成的决策规则进行故障判断,从而提高系统的诊断效率[9]。

4.6 医疗诊断中的应用在医疗诊断方面,用粗糙集方法根据以往病例归纳出诊断规则,用来指导新的病例。

人工预测早产准确率只有17%-38%,应用粗糙集理论可提高到68%~90%。

除了以上例举的应用领域之外,还有:软件工程数据分析、近似推理、粗糙控制、图象处理、地震预报、电力系统分析等,其应用空间很广阔,是目前信息科学的研究热点。

(下转75页)数学模型的结构更加系统、功能更加全面;从而使湿地景观格局有效参变量的选择、处理,模拟,解释,预测等各个环节逐步向真正的定量化、精确化、实用化发展。

湿地功能所具有的模糊属性决定了模糊数学方法在湿地功能评价中具有广泛的应用前景,袁军,吕宪国等运用模糊数学理论和方法建立数学模型,对黑龙江三江平原洪河国家级自然保护区不同年份(1980,1988,2002)的湿地功能进行了评价,取得了一定的进展。

(2)有赖于相关领域硬件水平的提高。

硬件技术的提高,有助于促进软件技术的发展和相关理论的发展,有助于研究成本降低和高新技术的推广,比如提高遥感精度和提高计算机性能。

(3)有待研究观点的拓展。

比如当前分析湿地景观格局演变规律和驱动机制时,不光考虑自然因素,也考虑社会历史人文因素,内外因结合,横纵结合。

随着科学理论的发展有交叉融合的趋势,研究观点也必然随之(上接78页)5、结束与展望粗糙集理论虽然是一门十分年轻的学科,但它目前已成为一个前沿研究领域,由于它是一种有效处理不确定性知识的数学工具,同时在智能领域得到广泛应用,所以被公认为人工智能领域最具潜力的技术之一。

相关文档
最新文档