基于粗糙集和遗传算法的数据挖掘方法

合集下载

基于粗糙集的数据挖掘的应用研究

其在数据挖掘中的应用。
关键词：数据挖掘；粗糙集；属性约简中图分类号：Ｐ１．Ｔ３１１３文献标识码：Ａ文章编号：０９８６（０７１－０７０１０ — ６６２０）２０６ — ３
０引言
二维近似空间中集合ｘ的上近似、下
近似以及边界的概念。个空间由划分这的基本区域的方形块构成的（Ｒ定Ｕ，）
义
ｆ
ｆ
ｉ
］一ｒ、
ｌ一，
一ｌ
法、遗传算法、临近搜索算法等。
上的。为清楚起见，用图１来描述一个
综合和评价，否修改数据、是有新问题产生）等五个基本流
程，个过程可能要反复进行，断地得到趋进事物的本这不质，断地优化问题的解决方案，不通过关联分析、分类、聚类、预测和偏差检测等发现数据间的关系以及数据间的模式。目前，常用的数据挖掘技术有模糊逻辑和粗糙集方最
样例的学习、贝叶斯学习、粗糙集、神经网络、遗传算法、统计分析等技术，用数据取样（取数据样本）数据探索采选、
与应用使得粗糙集理论与应用的研究在国际上日益受到
（可视化数据探索与聚类分析和因子分选）数据调整（、数
收稿日期：０７０ — ２２０ — ９１
工具，特别是将其与机器学习、模式识别、数据库等理论相结合，开发了多个原型系统，其中有代表性的有Ｒｓｔｏｅｔａ系

基于粗糙集理论的数据挖掘方法(2006.10.16)

关于属性选择
许多学习算法处理高维数据有困难, 并且大量无关属性的存在, 也使得数据分析受到干扰. 目的是找到满足特定标准的最小的属性子集. 搜索算法起着重要的作用. 搜索算法可以用搜索方向(前向, 后向, 双向), 搜索方式(穷尽搜索, 启发式, 非确定式)及评价方式(精确度, 一致性, 依赖度, 信息熵等)等三个方面来分类. 约简的特点是可以保持分类/近似能力不变。
x5
x6 x7
MBA
MCE MSc
Low
Low Medium
Yes
Yes Yes
Neutral
Good Neutral
Reject
Reject Reject
x8
MCE
x1
Low
x2 x3
No
x4
Excellent
x5 x6
Reject
x7 x8
x1 x2 x3 x4 x5 x6 x7 x8 er der dr def de der e defr der der er def efr def defr der
例如，x1的决策函数为f(x1)=(e r) (d e r) (d r) (d e f) 整个Accept类的决策函数为f(Accept)=f(x1) f(x2) f(x3) f(x4) 化成析取范式后，各项就是Accept类最小决策规则
粗糙集和其他理论方法结合
和模糊集(Fuzzy set) ►模糊粗糙集(Fuzzy-Rough set) ► 应用：特征选择聚类 ►Rough K-means ►应用： Web挖掘
粗糙集的问题
粗糙集理论应用于实际数据分析时, 会遇到－离散化：－噪音: 过拟合－数据缺失: 如何“不可区分” ? －大数据量: 计算复杂度太高.

基于遗传算法的大数据分析技术研究

基于遗传算法的大数据分析技术研究摘要：本文对遗传算法在数据挖掘中的应用进行了广泛的研究，阐明了数据挖掘的定义和常用技术，对遗传算法在数据挖掘领域中实现的原理和目前应用进行了详细阐述，并讨论了遗传算法在数据挖掘中所面临的问题。

关键字：遗传算法；数据挖掘1.引言近年来，数据挖掘（Data Mining）已成为企业热门的话题。

简单来说数据挖掘就是在庞大的数据库中寻找出有价值的隐藏信息。

更广义的说法是：数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。

在当今这样一个数据爆炸但知识相对贫乏的时代，如何解决数据过多造成的问题，此时就需要用到数据挖掘技术。

然而在各种数据挖掘方法中，都有其自身的局限性。

遗传算法是基于生物进化原理的一种自适应优化方法。

将数据挖掘技术与遗传算法相结合，可以使其更有效的发挥二者各自的特点，弥补彼此的不足，并把遗传算法运用在数据挖掘系统中能够较好地解决数据挖掘技术中出现的问题。

1.概述2．1数据挖掘的含义从技术上讲，数据挖掘（Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又有潜在有用的信息与知识的过程。

这个定义包含了数层含义：数据源必须是真实的、大量的、含噪声的；知识发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用；并不要求发现放之四海皆准的知识，仅支持特定的发现问题。

这里所指的知识发现，不是要求发现放之四海而皆准的真理，也不是要去发现崭新的自然科学定理和纯数学公式，更不是什么机器定理证明。

事实上，所有发现的知识都是相对的，是有特定前提和约束条件，面向特定领域的，同时还要能够易于被用户理解。

它最好能用自然语言表达所发现的结果。

从商业角度讲：数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析以及其他模型化处理，从而提取出辅助商业决策的关键性数据。

基于GA与RST的分类规则挖掘算法

关键词
遗传算法，离散化，粗糙集理论，分类规则挖掘
ＭｉｉｇＣｌｓｉｉａｉｎＲｕｅａｅｎＧＡｎＳｎｎａｓｆｃｔｏｌｓＢｓｄｏａｄｌＴｉ
ＸＩＪａ－ｎＬＩＦａｇＦｅｇＤｅＭｉＥｕｎＹｉｇＵｎｎ－ｎ集数据的分析，产生关于分类的规则或精确描述Ｅ，ｌ以用于对未知类别的数据进行分ｉ
方法；二是基于ＲＳ的分类规则提取方法。Ｔ２１基于Ｇ．Ａ的属性离散化方法
算法思想：利用遗传算法本身的特性，随机产生初始聚类（）然后利用相应的遗传操作算子，聚类向最佳聚类个体，使
类预测。在医学诊断、济及商业预测、星信号分类分经卫析ｌ等领域有着广泛的应用。２
粗糙集理论（ｕｈＳｔＴｈｏｙＲＳ是对不精确、Ｒｏｇｅｓｅｒ，Ｔ）模
（最佳个体）逼近，当满足一定的结束条件时退出。此时的最佳个体即为最佳聚类。为了找到样本每一个数量型属性合适的分段点，分别对样本根据其每一个数量型属性进行聚类。根据聚类结果，对每一个类的样本属性按值排序，择两类间相邻属性值的平选
均值作为分段点。为了确定每一个属性的分类数，Ｃ聚类让（数）１到Ｍ（Ｉ从变ｉＩＪ练样本数）根据Ｊ随ｃ的变化曲线确定，ｅ合适的ｃ值［。算法实现：个体的编码，采用０１编码，度为ｃ＊Ｍ，、长其

基于遗传算法和粗糙集理论的增量式规则获取方法

本文根据粗糙集理论，究了基于遗传算法的研
规则挖掘技术，给出了具体方案，并包括规则编码、适应度函数定义等．此基础上，在针对数据挖掘对知识更新和维护的要求，一步研究了增量式遗传算进
法的实现技术，进地对规则进行更新、渐修正和加强先前业已获取的规则，实现了基于增量式遗传算法的规则挖掘，通过实验验证了该方法的有效性．并
维普资讯
２００８年７月第２３卷第４期
西安石油大学学报（自然科学版）ＪｕｎｌｆｉｌＳｉｕＵｎｅｉ（ａｕａＳｉｃｄｔｎｏｒａｏｌｈｙｉｒｔＮｔｒｌｃｎｅＥｉｏ）Ｘａｏｖｓｙｅｉ
关键词：传算法；遗粗糙集；量式挖掘；则获取增规中图分类号：Ｐ８Ｔ１文献标识码：Ａ任何特定的知识，有鲁棒性、具隐含并行性和全局搜
数据挖掘是从存放在数据库、据仓库和其他数信息库中的大量数据库中挖掘有趣知识的过程．规则获取是数据挖掘中的一个非常重要的研究课题，目前，有许多基于机器学习、式识别及统计学的规模
索等特点，因此很容易与其他技术结合，已被广泛应用到很多领域．增量式获取知识的主要目标是在动态环境中保持知识库．一般地，粗糙集方法来说，是指当新对就对象加入决策表Ｓ时，以增量式的方式接受新对象，改现存的规则或约简，不是对整个决策表重更而

基于粗糙集的智能数据挖掘算法在风机监测中的应用

型往往表示为复杂的算式与数，难用专业知识描述，究人员也难以理解。研粗糙集理论由波兰科学家Ｐｗａ．１８ａｌＺ在９２年提出。近年来，糙集理论已经成为人工智能领域ｋ粗
一
个新的学术热点，模式识别、器学习、在机知识获取、识发现和决策分析等领域得到了广泛的研究和知
维普资讯
东
第２第２期８卷
２００８年４月
北
报
Ｖ０．８．．】２Ｎｏ２
Ａｐ．，０８ｒ２０
ＪｕｎｌＯｒｈａｔａｌＵｉｅｓｙｏｒａｆＮｏｔｅｓＤｉｉｎｖｒｉｎ＇，
（．１南方电网有限责任公司广州超高压局，广东广州５０２；．１６３２东北电力大学电气－程学院，ｒ－吉林吉林１２１；３０２
３国电南京自动化股份公司，苏南京２１０．江１１０）
摘
要：了对风力发电机监测诊断过程中冗繁属性进行约简，高监测诊断的效率和自动化、为提智
２２粗糙集理论．
粗糙集理论将对象的非空有限集合称为论域Ｕ＝｛Ｘ，，，Ｘ， … Ｘ｝样本属性集Ａ和属性值域组成的体系称为信息系统（ｎｏｍｔｎＳｓｅ是一个四元组Ｓ表示为Ｓ＝（Ａ， √ 。Ｉｆｒａｉｙｔｏｍ），Ｕ，）若属性集可分为条件属性集Ｃ和决策属性集Ｊ，Ａ＝ＣｕＤ，ＣｎＪ，可构建为决策系统。Ｄ即且Ｄ≠ 则粗糙集以表的形式组织样本数据，其行代表样本个体，代表属性，列可称此表为决策表，为Ｓ＝（，，记Ａ）它是决策系统的

基于遗传算法的数据挖掘优化研究

基于遗传算法的数据挖掘优化研究随着人工智能和大数据的发展，数据挖掘在企业和研究领域中变得越来越重要。

为了提高数据挖掘的效果和精度，研究人员提出了各种算法和方法。

本文将介绍一种基于遗传算法的数据挖掘优化研究。

一、数据挖掘的意义和现状在大数据的时代，数据成为了企业和研究的重要资产和资源。

然而，如何从海量的数据中发掘出有用的信息和知识，成为了研究和应用领域中的难题。

数据挖掘作为一种从大规模数据中自动探测出潜在模式、规律、趋势和关联的技术，具有重要的意义和价值。

目前，数据挖掘已经被广泛应用于金融、医疗、教育、电子商务、物流等领域。

例如，在金融领域中，数据挖掘可以帮助银行对欺诈行为进行预测和监测；在医疗领域中，数据挖掘可以帮助医生对病人进行诊断和预测。

然而，数据挖掘存在一些问题和挑战。

首先，数据的质量和准确度对数据挖掘的结果有很大影响。

其次，数据挖掘需要处理的数据量大且复杂，运算成本高、时间复杂度高。

为了解决这些问题，研究人员提出了各种算法和技术。

二、遗传算法的原理和应用遗传算法（Genetic Algorithm，GA）是一种模拟自然进化过程的优化方法，是计算机智能领域中的一种有效的问题求解和优化工具。

遗传算法的主要特点是具有全局优化和并行搜索的能力，并且能够在搜索空间中寻找最优解。

遗传算法的核心思想是通过模拟自然进化过程，通过适应度函数的评估来找到问题的最优解。

遗传算法主要包含三个阶段：选择、交叉和变异。

首先，选择阶段通过适应度函数的评估，保留较优的个体。

其次，交叉阶段将较优的个体进行组合，生成新的个体。

最后，变异阶段在新个体中引入随机变化，以增加搜索空间。

遗传算法可以应用于很多领域的问题求解和优化，例如网络设计、图像识别和数据挖掘等。

在数据挖掘中，遗传算法可以应用于特征选择、聚类、分类等领域。

特别地，遗传算法可以优化数据挖掘模型的参数和结构，提高其预测精度和性能。

三、基于遗传算法的数据挖掘优化研究基于遗传算法的数据挖掘优化研究，是将遗传算法应用于数据挖掘领域的一种研究方法。

基于粗糙集和遗传约简算法的入侵检测方法

ＣｏｌｇｆＣｍｐｔｒＳｉｎｅａｄＴｃｎｌｇＣｈｎｑｇＵｎｖｒｉｆＰｓｓａｄＴｌｃｍｍｕｉａｉｎ，ｏｇｉｇ４０６，ｈｎｌｅｏｏｕｅｃｅｃｎｅｈｏｏｙ，ｏｇｉｉｅｓｔｏｏｔｎｅｅｏｅｎｙｎｃｔｓＣｈｎｑｎ００５Ｃｉａｏ
．
ｔａｅｐｏｏｅｍｅｈｄａｏｔｉｏｔｔｎｉｇｒｓｌｏｉｔｓｏｄｔｃｉｎＭｏｅｖｒｔｅｍｐｏｅｈｂｄｅｅｉａｇ — ｈｔｔｒｐｓｄｈｔｏｃｎｂａｎｕｓａｄｎｅｕｔｎｎｒｉｎｅｅｔ．ｒｏｅ，ｈｉｒｖｄｙｒｇｎｔｓｕｏｉｃｌｏｒｔｍａｅｔｒｐｒｏｍａｃｎｔｒｓｏｍｎｎｉ．ｉｈｈｓｂｔｅｆｒｎｅｉｅｅｍｆｎｉｇｔｍｅＫｅｒｓｒｕｈｓｔｉｔｓｏｅｅｔｎｇｅｄｌｏｉｙｗｏｄ：ｏｇｅ；ｒｉｎｄｔｃｉ；ｒｅｙａｇｒｈ；ｅｅｉｌｏｉｍｎｕｏｔｍｇｎｔｃａｇｒｔｈ
Ｅｍａ：ｅａ７７７ａｏ．ｍ．－ｉｋｙ７７７＠ｙｈｏｃｃｌｏｎ
ＹＩＺｈｅ。Ｗｅ－ｈｅ．ｎｔｕｓｏＬＩｉｓｎｇＩｒｉｎｄｅｅｔｏｔｃｉｎｍｅｈｏｔｄｂａｓｄｏｒｕｇｈｅａｅｎｏｓｔｎｄｇｅｔｃｅｎｅｉｒｄｕｃｉａｌｒｔｔｏｎｇｏｉｈｍ．ｏｐｕｔｒＣｍｅＥｎｇｉ —

粗糙集神经网络算法在数据挖掘中的研究与应用

来，将为数据的所有者创造出很多潜在的利润和价值，缩性的过程，就称之为数据
挖掘（ａａｔｇＤ。ＤｔＭｉｎ，Ｍ）ｒｉ
神经网络的主要缺点在于训练时间长；式对于模
用户来说是一个“ 黑箱 ”其解释性差、，缺乏透明度、以难
或缺少清晰的分析数据的数据算法的情况下取得传统高结果的可解释度。
符号学习方法所难以达到的效果。
本文提出一种基于粗糙集神经网络的数据挖掘算
收稿日期：０７０ —０２０ — ５２作者简介：晓洁（９９）女，南新乡人，士研究生，王１７一，河硕主要从事多媒体、算机网络研究。计
预测性、吸引性、耗散性、非平衡性、可逆性和高维性不
随着数据库技术的不断发展及数据库管理系统的等特性外，还具有一些传统技术所没有的特点：分布存可塑性、自适应性和自组织性；较强的广泛应用，大型数据库系统已经在各行各业普及，数据贮和并行处理性；容错性和鲁棒性；件实现后分类速度快，硬可库中存储的数据量急剧增大。在大量的数据背后隐藏泛化能力、分类、预测精度高，法具有收算着许多重要信息，果把这些信息从数据库中抽取出以快速准确地实时处理；如
维普资讯
第１卷第４５期
２００７年Ｏ月７
河南机电高等专科学校学报
ＪｕｎｌｆｎｎＭｅｈｎｃｌｎｌｃｒａｎｉｅｒｇＣｌｇｏｒａｏａｃａｉａａｄＥｅｔｉｌｇｎｅｉｏｌｅＨｅｃＥｎｅ

粗糙集结合遗传算法在数据挖掘中的应用

构建如下：
０
归。（）３决策树，它提供了一种展示类似在什么条件下会得到什么值这类规则的方法。决策树的基本组成部分是决策节点、分支和叶子。（）则推导，统计意义上对数据中的４规从 “ 如果—那么” 规则进行寻找和推导。
的指导下进行合理的抽样；多元统计分析： ② 因子分析，聚类
分析等。（）２神经网络，为解决大复杂度问题提供了一种它相对来说比较有效的简单方法，可以很容易的解决具有上百个参数的问题（际生物体中存在的神经网络要比程序模拟实的神经网络复杂得多）。神经网络常用于两类问题：分类，回
１粗糙集与遗传算法
粗糙集（ｏｇｅ，Ｓ作为一种全新的数学概念，ＲｕｈＳｔＲ）为处理具有不完整、不一致及不确定性特征的信息提供了新的有效工具，目前主要用于知识的约简和知识依赖性的分析，在医疗诊断、模式识别、专家系统、机器学习、数据挖掘等领域获得
广泛应用ＪＳ的主要特点之一是无须提供问题所需处理。Ｒ
１）数据准备
ＩＯｒｇＦＡｄｄＦｌＤｅｓｔＡＦＳＦｕＩＤｅ１ｉｒＴＦＳＦＶｅｅｒｃ、ＣＰＩＦＡａＦＲ【ｒｅ
０１８６３１４２０２０／２２１Ｔ￣００１７０５３００５０／ｂＵＳ，ｉ３５８１０５５００５０／ＯＴ１１１２ｆ３４９２０２０／２２１３ＵＳ１Ｏ１７０５１４２０２０／２２０１８６３３００５０／ｂ｛１Ｔ＾ＵＳｊ０６６０５６００５０／ｂ｛１Ｔ＾０１８６ｆ３４１０２０／２２２ＵＳ０４８８１６８０ｆＯ５Ｏ／ＺＥｂｊ１３９９（０９０２０２Ｏ／２２Ｔｊ３３８３８５２０２０／２２１５ＵＳ９５５０５８００５０／３】Ｔ＾１１１８６３３００５０／ｂ｛１Ｔｌ０Ｏ１７０５１４２０２０／２２１１ＵＳ０１８６３３００５０／ｂ１Ｔ＾Ｏ１７０５１４２０２０／２２ｊＵＳ

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

收稿日期:2008-03-21作者简介:胡启韬,男,江西南昌人,硕士。

研究方向:数据库与数据挖掘。

袁志平,男,安徽青阳人,高级工程师。

研究方向:数据库应用。

周忠海,男,山东青岛人,高级工程师。

研究方向:信息处理。

基于粗糙集和遗传算法的数据挖掘方法胡启韬袁志平周忠海(江南计算技术研究所江苏无锡 214083)摘要:运用粗糙集和遗传算法的理论,为大型的数据挖掘提供了一种新的方法。

首先通过粗糙集理论对数据进行预处理,然后对属性简约,最后通过遗传算法进行规则提取,寻找最优解。

关键词:粗糙集遗传算法数据挖掘知识发现中图分类号:TP36文献标识码:A 文章编号:123(2008增)-017-03数据挖掘[1]又称知识发现,是从大量的、不完全的、有躁声的、模糊的实际数据中,提取隐含在其中的、人们事先不知道的、但又很有用的知识和信息的过程。

它的一般步骤如下:提出问题数据准备数据整理建立模型评价和解释。

它是数据库研究、开发和应用最活跃的一个分支,是多学科的交叉领域,涉及数据库技术、人工智能、机器学习、神经网络、数学、统计学、模式识别、知识库系统、知识获取、信息提取、高性能计算、并行计算、数据可视化等多方面的知识。

1 粗糙集与遗传算法的基本概念粗糙集(R ough Set ,R S)[2]作为一种全新的数学概念,为处理具有不完整、不一致及不确定性特征的信息提供了新的有效工具,它的主要特点之一是无须提供问题所需处理的数据集合之外的任何先验信息。

相对于许多其他处理不确定知识的方法来说更具客观性,并且和其他分析方法有机结合,进一步增强对不确定问题的处理能力。

1.1 定义1信息系统S 可表示为S =(U,A,V,f ),其中U 是对象的非空有限集合,称为论域;A 是属性的非空有限集合;V = a A Va,Va 是属性A 的值域,f:U A !V 是一个信息函数,他为每个对象的每个属性赋予一个信息值。

如果属性集A 可以分为条件属性集C 和决策属性集D,即C D =A ,C ∀D = ,则该信息系统称为决策系统或决策表,其中D 一般只含有一个属性。

1.2 定义2在知识表达系统S 中,对于一属性集P#A,对象x,y #U,二元等价关系IND (P )={(x,y )#U U |所有的a #P,f (x,a)=f (y,a)}称为S 的不可分辨关系。

不可分辨关系是一个等价关系,通过一个不可分辨关系,可以得到一个决策系统的划分。

1.3 定义3给定信息系统S =(U,A ),B #A ,对B中的属性a,如果I ND (B )∃IND (B -{a}),则说属性a 是必要的(Indisp ensab le),否则称a 是不必要的(D isp ensable )。

遗传算法(Genetic A l gor it hm,GA )[3]起源于对生物系统进行的计算机模拟研究,是模拟生物在环境中的遗传和进化过程而形成的一种自适应优化概率搜索算法。

它的流程主要模仿的是生物遗传进化过程中的选择、交叉和变异操作,从而完成对问题最优解的自适应搜索过程。

流程主要包括染色体编码、产生初始群体、计算适应度、进化操作等几大部分。

遗传算法的搜索过程是从一群初始节点开始搜索,而不是从单一的初始点开始搜索,这种机制意味着搜索过程可以有效地跳出局部极值点。

既可以完成极值点领域内解的求精,也可以在整个问题空间实施探索,得到问题全局最优解的概率大大提高。

2 粗糙集与遗传算法在数据挖掘中的应用粗糙集算法与遗传算法结合,能有效地提高挖掘效果,具有实际应用的可行性。

其基本思想是:首先通过粗糙集对%17%增刊2008年10月江西蓝天学院学报J OURNAL OF JI A NGX I BLUE SKY UN I V ERSI TYSupple m entOctober .2008信息表中的数据缺损进行处理;然后对于信息表中的数据,根据已定义的可辩识距阵,通过属性简约算法进行属性简约和知识发现;最后对知识发现的规则通过遗传算法进行优化,找出最主要的规则。

主要包括以下几个方面:2.1 数据预处理数据预处理用于对原始数据的采样、收集、整理,对于不同途径获取来的数据不一定能够得到有效的信息,所以数据的预处理是非常必要的。

包括连续属性的离散化和不完备数据的填补,由于粗糙集只能处理离散的数据,所以还必须对连续的数据离散化,而属性离散化的关键在于选取合适的断点对条件属性进行划分[4],如可采用基于属性重要性的离散化算法。

由于数据采集的不完整性,使数据库中很大一部分数据都存在缺失,因此对输入的数据必须进行必要的处理如采用均值法、频率统计法等对数据进行补齐。

2.2 属性简约粗糙集处理决策表时,数据约简是核心内容,一般是约去过剩的条件属性,用最少的属性区分不同的决策,提供同样多的信息,使决策表的决策属性和条件属性的依赖关系不发生变化。

简约后的属性集称为属性的约简集,约简集通常不唯一,找到一个信息表中的约简集不是在一个多项式时间里能够解决的问题,求最小约简集(含属性个数最少的约简集)同样是一个困难的问题,实际上它是一个N P-hard问题,因此根据已定义的可辩识距阵,有如下的属性简约算法:2.2.1 计算属性表的可辩识距阵。

2.2.2 对于可辩识距阵中的所有取值为非空集合的元素Cij建立相应的析取逻辑表达式。

2.2.3 将所有析取逻辑表达式进行合取运算,得到一个合取范式。

2.2.4 将合取范式转换为析取范式形式。

2.2.5 输出属性约简结果,其中析取范式中的每个合取项对应一个属性约简的结果,每个合取项中所包含的属性组成的约简后的条件属性集合。

2.3 决策规则提取经过第二步属性简约后,属性个数减少了,但是得出的规则数量依然可能过多,不利于得到用户最想要、最重要的规则,因此,我们会更希望关心具有较多共同特性的规则,必须把简约后生成的规则集里那些具有大量共同特征的规则再次提取出来,面对这种优化问题,遗传算法是个强有力的工具。

其步骤是编码产生原始种群,计算个体适应度,选择个体,交叉,变异操作,然后一代一代进化最后找出最优解。

2.3.1 编码,是进行遗传算法的重要步骤,编码方案的选取很大程度上决定于问题的性质和要求,同时也决定了对随后的遗传算子的设计。

如可以将数据离散化后的属性值定义在2的n次方之间[5],采用二进制编码方法对每个数字编码,像属性值3用编码表示就是0011。

2.3.2 产生初始种群。

随机选取一些个体作为初始种群。

2.3.3 确定评价函数。

数据挖掘的目的是挖掘出具有最多相同特征的规则,因此,评价函数的选取时应当把能够匹配简约表中最多的属性的规则评价为最优规则。

2.3.4 遗传操作。

交叉操作是将规则编码的某几位互相置换,变异操作是将规则编码的某些二进制位按位取反。

这样通过规则集中任意的两两组合会形成新的规则集。

然后经过每个规则的评价函数确定当前的最优规则,这样经历数代遗传之后就可得到相对最优的规则。

3 公司录取情况数据挖掘应用实例下面用一个实例来说明使用的数据挖掘方法。

某公司每年都会收到大量的求职信息表,并从中雇用一定数量的员工,对于员工的雇用,公司以往都是通过面试及给领导的感觉来雇用的,因此,公司希望能够从以前的录用中找出一个大体的评判标准以便于以后录用时作为参考,由于以往几年累计求职的员工太多,情况比较复杂,因此,公司希望这个标准能够简单明了。

通过本文提出的方法,可以很好的解决该公司的需求,以下以该公司求职人员的原始求职表中的一部分作为演示,&?∋代表求职表中该属性没有写明情况,如图1所示:学历(d)经验(e)法语(f)仪表(a)结论(c)X1M BA一般会优秀雇用X2M BA少?一般不雇用X3无学历无经验会差不雇用X4M SC多会?雇用X5M SC?会一般不雇用X6?多会优秀雇用X7M BA多不会良好雇用X8M CE少不会优秀不雇用表1原始求职表经过数据预处理后,对缺失数据进行了填补及属性离散化后得到了表2:学历(d)经验(e)法语(f)仪表(a)结论(c)X101101X202120X333130X420121X521120X620101X720011X812000表2信息表按属性简约的算法,通过决策表的可辩识距阵,我们可以得到算法第3步后的合取范式为:%18%胡启韬、袁志平、周忠海:基于粗糙集和遗传算法的数据挖掘方法(2008)F (d,e ,f,a)=(e (a))(d (e (a ))(d (e))(e (f (a ))(d (e (f ))(d (e (a ))(d (e (a))(d (e (a ))(d (a ))(e))(e (a ))(d (e (f (a ))(d (e (f ))(d (e (f (a ))(d (e (f))(d (e (a )其中每一个析取项对应于可辩识距阵中的一个元素,d,e ,f,a 分别对应属性学历、经验、法语、仪表,按算法第4步简化后可以得到F (d ,e ,f ,a )=(e )a)((e )d )。

由此可见,在原始决策表给出的这部分信息中与决策有关的是d,e ,a 。

通过粗糙集的属性约简,可以得到以往公司录用时真正看重的一些属性,通过这些属性,再用遗传算法找出其中最主要的规则。

例如约简表中某一行在学历、经验、仪表上的值为201,则编码就是10,00,01。

随机选取8个个体作为初始种群,评价函数以能够匹配约简表中最多行属性的规则成为当代的最优规则。

算法定义为一个8元组:SGA =(C,E,P 0,M , , ,!,T )C 表示对个体采用二进制编码;E 表示个体适应度评价函数f (x );P 0表示初始种群随机选取的8个规则; 表示采用轮盘赌按比例选择算子; 表示中间位单点交叉算子;!表示基本位变异算子;T 表示执行20代上述遗传算法后停止。

最后得到最佳个体00,01,01,即学历M BA,经验水平一般,仪表良好的评判标准,凡在此标准附近或高于此标准的,可以考虑录用。

4 结语在数据挖掘中应用粗糙集和遗传算法,粗糙集可以解决数据不精确、不完整的问题,并进行属性简约,遗传算法可以从大量规则中提取出最优的规则,提高了分析系统的效率。

将粗糙集和遗传算法在数据挖掘中相结合,给出实例说明该方法的可行性。

在今后的研究中还将继续结合其他的方法进行研究,提高对知识的发现能力。

参考文献:[1]Dav i d H e i kkiM ann il a ,P adhra ic Smy t h .数据挖掘原理[M ].北京:机械工业出版社,2003.[2]Paw lak Z .R ough Set[J].Internationa l Journa l of Infor m a tion and Computer Sc ience ,1982,11(5):314-356.[3]高隽.智能信息处理方法导论[M ].北京:机械工业出版社,2004.[4]李红梅,周桂红,王克俭.基于粗糙集和遗传算法的知识发现方法[J].计算机应用,2007,8(1):76-78.[5]胡域,张亦军,杨冬梅.粗糙集结合遗传算法在数据挖掘中的应用[J].计算机应用,2006,6(26):98-99.(责任编辑:章建华)D at a Extraction Based on Rough Set and Genetic A lgorit hmH U Q i-T aoYUAN Zhi-p i ngZ H OU Zhong -hai(J iangnan Institute of Computi ng T echnology,W ux i214083,Ch i na)A bstrac t :A new approach for data m i n i ng by usi ng rough set and geneti c a l gor it hm is i ntroduced i n this article .F irst of a l,l w e pretreats our data w ith rough set ,and then reduce attr i butes ,fi nall y w e ex tract t he best ru l e t hrough g enetic algorith m.K ey W ords :R ough Se t ;G ene tic A l gor it hm;D ata Ex tration ;K no w l edg e D iscovery%19%江西蓝天学院学报(2008)。