基于粗糙集和遗传算法的数据挖掘方法
基于粗糙集的数据挖掘的应用研究

关键词 : 数据挖掘 ; 粗糙集 ; 属性约简 中图分类号 :P 1 . T 3 11 3 文献标识码 : A 文章编号:0 9 86 (0 7 1- 0 7 0 1 0 — 6 6 20 )2 0 6 — 3
0 引言
二 维 近似 空 间中集 合 x的上近似 、 下
近 似 以 及 边 界 的 概 念 。 个 空 间 由划 分 这 的 基 本 区 域 的 方 形 块 构 成 的 ( R 定 U, )
义
f
f
i
] 一 r 、
l一 ,
一 l
法、 遗传算法 、 临近搜索算法等。
上 的 。 为 清 楚起 见 , 用 图 1来 描 述 一 个
综合 和评价 , 否修改数 据 、 是 有新问题产生 ) 等五个基本 流
程 , 个过程可 能要反复进 行 , 断地得 到趋进 事物 的本 这 不 质 , 断地优化 问题 的解决 方案 , 不 通过关联 分析 、 分类 、 聚 类、 预测和偏差检测 等发现数据 间的关 系以及数据 间的模 式 。 目前 , 常用 的数据 挖掘技术有模 糊逻辑和粗糙集方 最
样例 的学 习、 贝叶斯学习 、 粗糙集 、 神经 网络 、 遗传算法 、 统 计分析等技术 , 用数据取样 ( 取数据样 本 ) 数据探索 采 选 、
与应用使得粗 糙集理论 与应用 的研究在 国际 上 日益受 到
( 可视 化数据探索 与聚类分析 和 因子分 选 )数 据调整 ( 、 数
收 稿 日期 :0 7 0 — 2 2 0 — 9 1
工具, 特别是将其与机器学 习、 模式识别 、 数据库等理论 相 结合 , 开发 了多个 原型系统 , 其中有代表性 的有 R st oet a系
基于粗糙集理论的数据挖掘方法(2006.10.16)

关于属性选择
许多学习算法处理高维数据有困难, 并且大量 无关属性的存在, 也使得数据分析受到干扰. 目的是找到满足特定标准的最小的属性子集. 搜索算法起着重要的作用. 搜索算法可以用搜 索方向(前向, 后向, 双向), 搜索方式(穷尽搜索, 启发式, 非确定式)及评价方式(精确度, 一致性, 依赖度, 信息熵等)等三个方面来分类. 约简的特点是可以保持分类/近似能力不变。
x5
x6 x7
MBA
MCE MSc
Low
Low Medium
Yes
Yes Yes
Neutral
Good Neutral
Reject
Reject Reject
x8
MCE
x1
Low
x2 x3
No
x4
Excellent
x5 x6
Reject
x7 x8
x1 x2 x3 x4 x5 x6 x7 x8 er der dr def de der e defr der der er def efr def defr der
例如,x1的决策函数 为f(x1)=(e r) (d e r) (d r) (d e f) 整个Accept类的决策 函数为f(Accept)=f(x1) f(x2) f(x3) f(x4) 化成析取范式后,各 项就是Accept类最小 决策规则
粗糙集和其他理论方法结合
和模糊集(Fuzzy set) ►模糊粗糙集(Fuzzy-Rough set) ► 应用:特征选择 聚类 ►Rough K-means ►应用: Web挖掘
粗糙集的问题
粗糙集理论应用于实际数据分析时, 会遇到 -离散化: - 噪音: 过拟合 - 数据缺失: 如何“不可区分” ? - 大数据量: 计算复杂度太高.
基于遗传算法的大数据分析技术研究

基于遗传算法的大数据分析技术研究摘要:本文对遗传算法在数据挖掘中的应用进行了广泛的研究,阐明了数据挖掘的定义和常用技术,对遗传算法在数据挖掘领域中实现的原理和目前应用进行了详细阐述,并讨论了遗传算法在数据挖掘中所面临的问题。
关键字:遗传算法;数据挖掘1.引言近年来,数据挖掘(Data Mining)已成为企业热门的话题。
简单来说数据挖掘就是在庞大的数据库中寻找出有价值的隐藏信息。
更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。
在当今这样一个数据爆炸但知识相对贫乏的时代,如何解决数据过多造成的问题,此时就需要用到数据挖掘技术。
然而在各种数据挖掘方法中,都有其自身的局限性。
遗传算法是基于生物进化原理的一种自适应优化方法。
将数据挖掘技术与遗传算法相结合,可以使其更有效的发挥二者各自的特点,弥补彼此的不足,并把遗传算法运用在数据挖掘系统中能够较好地解决数据挖掘技术中出现的问题。
1.概述2.1数据挖掘的含义从技术上讲,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又有潜在有用的信息与知识的过程。
这个定义包含了数层含义:数据源必须是真实的、大量的、含噪声的;知识发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
这里所指的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。
事实上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。
它最好能用自然语言表达所发现的结果。
从商业角度讲:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析以及其他模型化处理,从而提取出辅助商业决策的关键性数据。
基于GA与RST的分类规则挖掘算法

关键词
遗传 算法 , 离散化 , 粗糙 集理论 , 分类规则挖掘
M i i g Cl s iia i n Ru e a e n GA n S n n a sfc to l sB s d o a dl T i
XI J a - n LI Fa g Fe g DeMi E u nYig U n n - n 集数 据的 分析 , 产生 关于 分类 的规则或精确 描述E , l 以用 于对未 知类别 的数 据进 行分 i
方法 ; 二是基于 RS 的分类规则提 取方法 。 T 2 1 基于 G . A的属性离散化 方法
算法思想 : 利用遗传算法 本身的特性 , 随机产生初 始聚类 ( )然后利用相 应 的遗 传操 作 算 子 , 聚类 向最 佳 聚类 个体 , 使
类预测 。在 医学 诊 断 、 济 及 商业 预 测 、 星 信 号 分 类 分 经 卫 析l 等领域有着广泛 的应 用 。 2
粗糙集理 论 ( u hS t Tho y RS 是 对 不精 确 、 Ro g es er , T) 模
( 最佳个体 ) 逼近 , 当满足一 定 的结 束条 件 时退 出。此 时的最 佳个体 即为最佳 聚类 。 为 了找 到样 本每一个 数量 型属性 合适 的分段 点 , 分别 对 样本根据其每一个 数量 型属性 进行 聚类 。根据 聚类结 果 , 对 每一个类 的样本 属性 按值 排序 , 择两类 间相邻 属 性值 的平 选
均值作为分段点 。为了确 定每一个属性 的分类数 , C 聚类 让 ( 数 ) 1 到 M( I 从 变 iI J练样本数 ) 根据 J 随 c的变 化 曲线确 定 , e 合适的 c值[ 。 算法实现 : 个体 的编码 , 采用 0 1编码 , 度为 c*M, 、 长 其
基于遗传算法和粗糙集理论的增量式规则获取方法

本 文根 据粗糙 集 理 论 , 究 了基 于遗 传 算 法 的 研
规则挖掘技术 , 给出了具体方案 , 并 包括规则 编码 、 适 应度 函数定 义等 . 此基 础上 , 在 针对 数据挖 掘对 知 识 更新 和维 护 的要 求 , 一 步 研 究 了增 量 式 遗传 算 进
法 的实 现技 术 , 进 地对规则 进行 更新 、 渐 修正 和加 强 先 前业 已获 取 的规 则 , 实现 了基 于增 量 式遗 传算 法 的规则挖 掘 , 通 过实 验验证 了该 方法 的有效性 . 并
维普资讯
20 0 8年 7月 第2 3卷第 4期
西安石油大学学报 ( 自然科学版 ) Jun l f i lS i uUn e i ( auaS i c dt n ora o l hy i r t N trl c neE io ) X a o v sy e i
关键词 : 传算 法 ; 遗 粗糙 集 ; 量式挖 掘 ; 则获取 增 规 中图分 类号 : P 8 T 1 文献 标识 码 : A 任何 特定 的知识 , 有鲁棒 性 、 具 隐含并 行性 和全 局搜
数据挖 掘是从 存 放 在 数 据 库 、 据 仓 库 和其 他 数 信息 库 中的大量 数据 库 中挖 掘 有 趣 知 识 的过 程 . 规 则获 取是数 据挖 掘 中 的一 个 非 常 重 要 的研 究 课 题 , 目前 , 有许 多基 于机器 学 习 、 式识别 及 统计学 的规 模
索等 特点 , 因此 很容 易与 其他 技术结 合 , 已被广 泛应 用 到很多 领域 . 增 量式 获取 知识 的主要 目标是在 动态 环境 中保 持 知识 库 . 一般 地 , 粗糙集 方 法来 说 , 是 指 当新 对 就 对 象加 入 决 策 表 S时 , 以增 量 式 的方 式 接 受 新 对 象 , 改现 存 的规则 或约 简 , 不是对 整个 决策表 重 更 而
基于粗糙集的智能数据挖掘算法在风机监测中的应用

型往 往表示 为复 杂 的算式与 数 , 难用 专业 知识描 述 , 究 人员也 难 以理 解 。 研 粗糙 集理论 由波 兰科学 家 Pwa . 18 a l Z 在 92年提 出 。近 年来 , 糙 集理 论 已经 成 为人 工智 能 领域 k 粗
一
个 新 的学 术热 点 , 模式识 别 、 器学 习 、 在 机 知识 获取 、 识发 现和决策 分析等 领域得 到 了广泛 的研 究和 知
维普资讯
东
第 2 第 2期 8卷
20 0 8年 4月
北
报
V0. 8. . 】2 No 2
Ap ., 0 8 r 20
J u n lO rh at a l U iesy or a f No tes Di i nv ri n ' ,
(. 1 南方电网有限责任 公司 广州超高压局 , 广东 广州 50 2 ;. 16 3 2 东北电力大学 电气- 程学院, r - 吉林 吉林 12 1 ; 302
3 国 电南 京 自动 化 股 份 公 司 , 苏 南 京 2 10 . 江 110)
摘
要: 了对风力发电机监测诊断过程 中冗繁属性进行 约简 , 高监 测诊 断的效率和 自动化 、 为 提 智
2 2 粗糙集 理论 .
粗糙 集 理论 将对 象的非 空有 限集合称 为论 域 U = { X, , , X , … X }样本 属性 集 A和属性 值域 组 成 的体 系称为 信息 系统 (nom t nSse 是 一个 四元组 S 表示 为 S=( A, √ 。 Ifr ai yt o m) , U, ) 若属性 集 可分为 条件属性 集 C和决策 属性集 J, A =Cu D, Cn J , 可构 建为决 策 系统 。 D即 且 D≠ 则 粗糙集 以表 的形 式 组织样本 数据 , 其行代 表样本个 体 , 代表 属性 , 列 可称 此表 为决 策表 , 为 S = ( , , 记 A) 它是 决策 系统 的
基于遗传算法的数据挖掘优化研究
基于遗传算法的数据挖掘优化研究随着人工智能和大数据的发展,数据挖掘在企业和研究领域中变得越来越重要。
为了提高数据挖掘的效果和精度,研究人员提出了各种算法和方法。
本文将介绍一种基于遗传算法的数据挖掘优化研究。
一、数据挖掘的意义和现状在大数据的时代,数据成为了企业和研究的重要资产和资源。
然而,如何从海量的数据中发掘出有用的信息和知识,成为了研究和应用领域中的难题。
数据挖掘作为一种从大规模数据中自动探测出潜在模式、规律、趋势和关联的技术,具有重要的意义和价值。
目前,数据挖掘已经被广泛应用于金融、医疗、教育、电子商务、物流等领域。
例如,在金融领域中,数据挖掘可以帮助银行对欺诈行为进行预测和监测;在医疗领域中,数据挖掘可以帮助医生对病人进行诊断和预测。
然而,数据挖掘存在一些问题和挑战。
首先,数据的质量和准确度对数据挖掘的结果有很大影响。
其次,数据挖掘需要处理的数据量大且复杂,运算成本高、时间复杂度高。
为了解决这些问题,研究人员提出了各种算法和技术。
二、遗传算法的原理和应用遗传算法(Genetic Algorithm,GA)是一种模拟自然进化过程的优化方法,是计算机智能领域中的一种有效的问题求解和优化工具。
遗传算法的主要特点是具有全局优化和并行搜索的能力,并且能够在搜索空间中寻找最优解。
遗传算法的核心思想是通过模拟自然进化过程,通过适应度函数的评估来找到问题的最优解。
遗传算法主要包含三个阶段:选择、交叉和变异。
首先,选择阶段通过适应度函数的评估,保留较优的个体。
其次,交叉阶段将较优的个体进行组合,生成新的个体。
最后,变异阶段在新个体中引入随机变化,以增加搜索空间。
遗传算法可以应用于很多领域的问题求解和优化,例如网络设计、图像识别和数据挖掘等。
在数据挖掘中,遗传算法可以应用于特征选择、聚类、分类等领域。
特别地,遗传算法可以优化数据挖掘模型的参数和结构,提高其预测精度和性能。
三、基于遗传算法的数据挖掘优化研究基于遗传算法的数据挖掘优化研究,是将遗传算法应用于数据挖掘领域的一种研究方法。
基于粗糙集和遗传约简算法的入侵检测方法
.
t a e p o o e meh d a o t i o ttn i g r s l o i t so d t ci n M o e v r t e mp o e h b d e ei a g — h t t rp s d h t o c n b a n u sa d n e u t n n r i n e e t . r o e , h i r v d y r g n t s u o i c lo rtm a et r p ro ma c n t r s o mn n i . i h h sb t efr n e i e e m f n ig t me Ke r s r u h s t i t so ee t n g e d l o i y wo d : o g e ; r i n d tc i ; r e y a g r h ; e ei l o i m n u o t m g n tc a g rt h
Ema :e a7 7 7 a o . m. - i ky 7 7 7 @yh oc c l o n
YI Zhe。 W e- he .nt uso LI is ngI r i n de e to t c i n m e ho t d bas d o r ugh e a e n o s t nd ge tc e nei r duc i al rt ton go ihm . o put r C m e Engi —
粗糙集神经网络算法在数据挖掘中的研究与应用
挖 掘 ( aa t g D 。 D t Mi n , M) r i
神经 网络 的 主要 缺点 在于 训 练 时间 长 ; 式对 于 模
用户来说是 一个“ 黑箱 ”其解释 性差 、 , 缺乏透明度 、 以 难
或缺少清晰 的分析 数据 的数据算法 的情 况下 取得传 统 高结果 的可解释度 。
符号学 习方法所难 以达 到的效果 。
本文提出一种基于粗糙集神经网络的数据挖掘算
收 稿 日期 : 0 70 —0 2 0 — 52 作 者 简 介 : 晓 洁 ( 99) 女 , 南新 乡人 , 士研 究 生 , 王 1 7一 , 河 硕 主要 从 事 多媒 体 、 算 机 网 络研 究 。 计
预测性 、 吸引性 、 耗散性 、 非平衡 性 、 可逆 性 和高维 性 不
随着数据库技术 的不 断发 展及数 据库管 理 系统 的 等特性外 , 还具有 一些传 统技术 所 没有 的特点 : 分布存 可塑性 、 自适 应性 和 自组织性 ; 较强 的 广泛应 用 , 大型数 据库 系统 已经 在各行 各业 普及 , 数据 贮 和并行 处理性 ; 容错性 和鲁棒性 ; 件实现后分类 速度快 , 硬 可 库 中存储 的数据量 急剧增 大 。在 大量 的数据 背后 隐藏 泛化能力 、 分类 、 预测精度高 , 法具有 收 算 着许 多重要 信 息 , 果 把这 些信 息 从数 据 库 中抽 取 出 以快速准 确地 实时处理 ; 如
维普资讯
第 1卷 第 4 5 期
20 0 7年 O 月 7
河 南 机 电 高等 专 科 学 校 学 报
J unl f n nMehncl n lcr a n ier gC l g o ra o a c aia adE eti l gn ei ol e He c E n e
粗糙集结合遗传算法在数据挖掘中的应用
0
归。( ) 3 决策树 , 它提 供 了一种展 示类 似 在什 么条 件下 会得 到什么值这类规则的方法 。决策树 的基 本组成部分是决策节 点、 分支和 叶子 。( ) 则推 导 , 统 计 意义 上对 数 据 中 的 4规 从 “ 如果—那 么” 规则进行寻找 和推导 。
的指导下进行合理的抽 样 ; 多元 统计分 析 : ② 因子分 析 , 聚类
分析等 。( ) 2 神经 网络 , 为解决 大复 杂 度问 题提供 了一 种 它 相对来说 比较有效的简单 方法 , 可以很容 易 的解 决具 有上百 个参数的问题 ( 际生物 体中存在 的神经 网络 要 比程 序模 拟 实 的神经 网络复杂得多 ) 。神 经 网络常 用于两类 问题 : 分类 , 回
1 粗糙集 与遗传算 法
粗糙 集 ( og e, S 作为一 种全新 的数 学概 念 , R u hStR ) 为处 理具有不完整 、 不一致及 不确定 性特 征的信 息提供 了新的有 效工具 , 目前 主要用 于知识 的约简和知识依赖性的分析 , 在医 疗诊断 、 模式识别 、 专家系统 、 机器学 习、 数据挖掘等领域获得
广泛应用 J S的 主要特 点之一 是无须 提供 问题所 需处 理 。R
1 )数据准备
I Org F Add F l Dest AFS F uI De1i rTFS F Ve er c、 CPI FA a FR 【 re
0 1 8 6 3 1 42 0 2 0 / 2 2 1 T  ̄ 0 0 1 7 0 5 3 0 0 5 0 / b U S, i 3 5 810 5 5 0 0 5 0 / O T 1 1 1 2 f 3 4 92 0 2 0 / 2 21 3 U S 1 O 1 7 0 51 42 0 2 0 / 2 2 01 8 6 3 3 0 0 5 0 / b{1 T ^ US j 0 6 6 0 5 6 0 0 5 0 / b{1 T ^ 01 8 6 f 3 4 1 0 2 0 / 2 2 2 US 0 4 8 8 1 6 8 0 f O 5 O / Z E bj1 3 9 9 ( 0 9 02 0 2 O / 2 2 T j 3 3 8 3 8 52 0 2 0 / 2 21 5 U S 9 5 5 0 5 8 0 0 5 0 / 3 】 T ^ 1 1 1 8 6 3 3 0 0 5 0 / b{1 T l 0 O 1 7 0 51 42 0 2 0 / 2 2 1 1 U S 01 8 6 3 3 0 0 5 0 / b 1 T ^ O 1 7 0 51 42 0 2 0 / 2 2 j U S
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期:2008-03-21作者简介:胡启韬,男,江西南昌人,硕士。
研究方向:数据库与数据挖掘。
袁志平,男,安徽青阳人,高级工程师。
研究方向:数据库应用。
周忠海,男,山东青岛人,高级工程师。
研究方向:信息处理。
基于粗糙集和遗传算法的数据挖掘方法胡启韬袁志平周忠海(江南计算技术研究所 江苏无锡 214083)摘要:运用粗糙集和遗传算法的理论,为大型的数据挖掘提供了一种新的方法。
首先通过粗糙集理论对数据进行预处理,然后对属性简约,最后通过遗传算法进行规则提取,寻找最优解。
关键词:粗糙集遗传算法数据挖掘知识发现中图分类号:TP36文献标识码:A 文章编号:123(2008增)-017-03数据挖掘[1]又称知识发现,是从大量的、不完全的、有躁声的、模糊的实际数据中,提取隐含在其中的、人们事先不知道的、但又很有用的知识和信息的过程。
它的一般步骤如下:提出问题 数据准备 数据整理 建立模型 评价和解释。
它是数据库研究、开发和应用最活跃的一个分支,是多学科的交叉领域,涉及数据库技术、人工智能、机器学习、神经网络、数学、统计学、模式识别、知识库系统、知识获取、信息提取、高性能计算、并行计算、数据可视化等多方面的知识。
1 粗糙集与遗传算法的基本概念粗糙集(R ough Set ,R S)[2]作为一种全新的数学概念,为处理具有不完整、不一致及不确定性特征的信息提供了新的有效工具,它的主要特点之一是无须提供问题所需处理的数据集合之外的任何先验信息。
相对于许多其他处理不确定知识的方法来说更具客观性,并且和其他分析方法有机结合,进一步增强对不确定问题的处理能力。
1.1 定义1信息系统S 可表示为S =(U,A,V,f ),其中U 是对象的非空有限集合,称为论域;A 是属性的非空有限集合;V = a A Va,Va 是属性A 的值域,f:U A !V 是一个信息函数,他为每个对象的每个属性赋予一个信息值。
如果属性集A 可以分为条件属性集C 和决策属性集D,即C D =A ,C ∀D = ,则该信息系统称为决策系统或决策表,其中D 一般只含有一个属性。
1.2 定义2在知识表达系统S 中,对于一属性集P#A,对象x,y #U,二元等价关系IND (P )={(x,y )#U U |所有的a #P,f (x,a)=f (y,a)}称为S 的不可分辨关系。
不可分辨关系是一个等价关系,通过一个不可分辨关系,可以得到一个决策系统的划分。
1.3 定义3给定信息系统S =(U,A ),B #A ,对B中的属性a,如果I ND (B )∃IND (B -{a}),则说属性a 是必要的(Indisp ensab le),否则称a 是不必要的(D isp ensable )。
遗传算法(Genetic A l gor it hm,GA )[3]起源于对生物系统进行的计算机模拟研究,是模拟生物在环境中的遗传和进化过程而形成的一种自适应优化概率搜索算法。
它的流程主要模仿的是生物遗传进化过程中的选择、交叉和变异操作,从而完成对问题最优解的自适应搜索过程。
流程主要包括染色体编码、产生初始群体、计算适应度、进化操作等几大部分。
遗传算法的搜索过程是从一群初始节点开始搜索,而不是从单一的初始点开始搜索,这种机制意味着搜索过程可以有效地跳出局部极值点。
既可以完成极值点领域内解的求精,也可以在整个问题空间实施探索,得到问题全局最优解的概率大大提高。
2 粗糙集与遗传算法在数据挖掘中的应用粗糙集算法与遗传算法结合,能有效地提高挖掘效果,具有实际应用的可行性。
其基本思想是:首先通过粗糙集对%17%增刊2008年10月 江西蓝天学院学报J OURNAL OF JI A NGX I BLUE SKY UN I V ERSI TYSupple m entOctober .2008信息表中的数据缺损进行处理;然后对于信息表中的数据,根据已定义的可辩识距阵,通过属性简约算法进行属性简约和知识发现;最后对知识发现的规则通过遗传算法进行优化,找出最主要的规则。
主要包括以下几个方面:2.1 数据预处理数据预处理用于对原始数据的采样、收集、整理,对于不同途径获取来的数据不一定能够得到有效的信息,所以数据的预处理是非常必要的。
包括连续属性的离散化和不完备数据的填补,由于粗糙集只能处理离散的数据,所以还必须对连续的数据离散化,而属性离散化的关键在于选取合适的断点对条件属性进行划分[4],如可采用基于属性重要性的离散化算法。
由于数据采集的不完整性,使数据库中很大一部分数据都存在缺失,因此对输入的数据必须进行必要的处理如采用均值法、频率统计法等对数据进行补齐。
2.2 属性简约粗糙集处理决策表时,数据约简是核心内容,一般是约去过剩的条件属性,用最少的属性区分不同的决策,提供同样多的信息,使决策表的决策属性和条件属性的依赖关系不发生变化。
简约后的属性集称为属性的约简集,约简集通常不唯一,找到一个信息表中的约简集不是在一个多项式时间里能够解决的问题,求最小约简集(含属性个数最少的约简集)同样是一个困难的问题,实际上它是一个N P-hard问题,因此根据已定义的可辩识距阵,有如下的属性简约算法:2.2.1 计算属性表的可辩识距阵。
2.2.2 对于可辩识距阵中的所有取值为非空集合的元素Cij建立相应的析取逻辑表达式。
2.2.3 将所有析取逻辑表达式进行合取运算,得到一个合取范式。
2.2.4 将合取范式转换为析取范式形式。
2.2.5 输出属性约简结果,其中析取范式中的每个合取项对应一个属性约简的结果,每个合取项中所包含的属性组成的约简后的条件属性集合。
2.3 决策规则提取经过第二步属性简约后,属性个数减少了,但是得出的规则数量依然可能过多,不利于得到用户最想要、最重要的规则,因此,我们会更希望关心具有较多共同特性的规则,必须把简约后生成的规则集里那些具有大量共同特征的规则再次提取出来,面对这种优化问题,遗传算法是个强有力的工具。
其步骤是编码产生原始种群,计算个体适应度,选择个体,交叉,变异操作,然后一代一代进化最后找出最优解。
2.3.1 编码,是进行遗传算法的重要步骤,编码方案的选取很大程度上决定于问题的性质和要求,同时也决定了对随后的遗传算子的设计。
如可以将数据离散化后的属性值定义在2的n次方之间[5],采用二进制编码方法对每个数字编码,像属性值3用编码表示就是0011。
2.3.2 产生初始种群。
随机选取一些个体作为初始种群。
2.3.3 确定评价函数。
数据挖掘的目的是挖掘出具有最多相同特征的规则,因此,评价函数的选取时应当把能够匹配简约表中最多的属性的规则评价为最优规则。
2.3.4 遗传操作。
交叉操作是将规则编码的某几位互相置换,变异操作是将规则编码的某些二进制位按位取反。
这样通过规则集中任意的两两组合会形成新的规则集。
然后经过每个规则的评价函数确定当前的最优规则,这样经历数代遗传之后就可得到相对最优的规则。
3 公司录取情况数据挖掘应用实例下面用一个实例来说明使用的数据挖掘方法。
某公司每年都会收到大量的求职信息表,并从中雇用一定数量的员工,对于员工的雇用,公司以往都是通过面试及给领导的感觉来雇用的,因此,公司希望能够从以前的录用中找出一个大体的评判标准以便于以后录用时作为参考,由于以往几年累计求职的员工太多,情况比较复杂,因此,公司希望这个标准能够简单明了。
通过本文提出的方法,可以很好的解决该公司的需求,以下以该公司求职人员的原始求职表中的一部分作为演示,&?∋代表求职表中该属性没有写明情况,如图1所示:学历(d)经验(e)法语(f)仪表(a)结论(c)X1M BA一般会优秀雇用X2M BA少?一般不雇用X3无学历无经验会差不雇用X4M SC多会?雇用X5M SC?会一般不雇用X6?多会优秀雇用X7M BA多不会良好雇用X8M CE少不会优秀不雇用表1原始求职表经过数据预处理后,对缺失数据进行了填补及属性离散化后得到了表2:学历(d)经验(e)法语(f)仪表(a)结论(c)X101101X202120X333130X420121X521120X620101X720011X812000表2信息表按属性简约的算法,通过决策表的可辩识距阵,我们可以得到算法第3步后的合取范式为:%18%胡启韬、袁志平、周忠海:基于粗糙集和遗传算法的数据挖掘方法(2008)F (d,e ,f,a)=(e (a))(d (e (a ))(d (e))(e (f (a ))(d (e (f ))(d (e (a ))(d (e (a))(d (e (a ))(d (a ))(e))(e (a ))(d (e (f (a ))(d (e (f ))(d (e (f (a ))(d (e (f))(d (e (a )其中每一个析取项对应于可辩识距阵中的一个元素,d,e ,f,a 分别对应属性学历、经验、法语、仪表,按算法第4步简化后可以得到F (d ,e ,f ,a )=(e )a)((e )d )。
由此可见,在原始决策表给出的这部分信息中与决策有关的是d,e ,a 。
通过粗糙集的属性约简,可以得到以往公司录用时真正看重的一些属性,通过这些属性,再用遗传算法找出其中最主要的规则。
例如约简表中某一行在学历、经验、仪表上的值为201,则编码就是10,00,01。
随机选取8个个体作为初始种群,评价函数以能够匹配约简表中最多行属性的规则成为当代的最优规则。
算法定义为一个8元组:SGA =(C,E,P 0,M , , ,!,T )C 表示对个体采用二进制编码;E 表示个体适应度评价函数f (x );P 0表示初始种群随机选取的8个规则; 表示采用轮盘赌按比例选择算子; 表示中间位单点交叉算子;!表示基本位变异算子;T 表示执行20代上述遗传算法后停止。
最后得到最佳个体00,01,01,即学历M BA,经验水平一般,仪表良好的评判标准,凡在此标准附近或高于此标准的,可以考虑录用。
4 结语在数据挖掘中应用粗糙集和遗传算法,粗糙集可以解决数据不精确、不完整的问题,并进行属性简约,遗传算法可以从大量规则中提取出最优的规则,提高了分析系统的效率。
将粗糙集和遗传算法在数据挖掘中相结合,给出实例说明该方法的可行性。
在今后的研究中还将继续结合其他的方法进行研究,提高对知识的发现能力。
参考文献:[1]Dav i d H e i kkiM ann il a ,P adhra ic Smy t h .数据挖掘原理[M ].北京:机械工业出版社,2003.[2]Paw lak Z .R ough Set[J].Internationa l Journa l of Infor m a tion and Computer Sc ience ,1982,11(5):314-356.[3]高隽.智能信息处理方法导论[M ].北京:机械工业出版社,2004.[4]李红梅,周桂红,王克俭.基于粗糙集和遗传算法的知识发现方法[J].计算机应用,2007,8(1):76-78.[5]胡域,张亦军,杨冬梅.粗糙集结合遗传算法在数据挖掘中的应用[J].计算机应用,2006,6(26):98-99.(责任编辑:章建华)D at a Extraction Based on Rough Set and Genetic A lgorit hmH U Q i-T aoYUAN Zhi-p i ngZ H OU Zhong -hai(J iangnan Institute of Computi ng T echnology,W ux i214083,Ch i na)A bstrac t :A new approach for data m i n i ng by usi ng rough set and geneti c a l gor it hm is i ntroduced i n this article .F irst of a l,l w e pretreats our data w ith rough set ,and then reduce attr i butes ,fi nall y w e ex tract t he best ru l e t hrough g enetic algorith m.K ey W ords :R ough Se t ;G ene tic A l gor it hm;D ata Ex tration ;K no w l edg e D iscovery%19%江西蓝天学院学报(2008)。