基于粗糙集的增量式垃圾邮件过滤方法研究
基于粗糙集理论的数据挖掘方法(2006.10.16)

关于属性选择
许多学习算法处理高维数据有困难, 并且大量 无关属性的存在, 也使得数据分析受到干扰. 目的是找到满足特定标准的最小的属性子集. 搜索算法起着重要的作用. 搜索算法可以用搜 索方向(前向, 后向, 双向), 搜索方式(穷尽搜索, 启发式, 非确定式)及评价方式(精确度, 一致性, 依赖度, 信息熵等)等三个方面来分类. 约简的特点是可以保持分类/近似能力不变。
x5
x6 x7
MBA
MCE MSc
Low
Low Medium
Yes
Yes Yes
Neutral
Good Neutral
Reject
Reject Reject
x8
MCE
x1
Low
x2 x3
No
x4
Excellent
x5 x6
Reject
x7 x8
x1 x2 x3 x4 x5 x6 x7 x8 er der dr def de der e defr der der er def efr def defr der
例如,x1的决策函数 为f(x1)=(e r) (d e r) (d r) (d e f) 整个Accept类的决策 函数为f(Accept)=f(x1) f(x2) f(x3) f(x4) 化成析取范式后,各 项就是Accept类最小 决策规则
粗糙集和其他理论方法结合
和模糊集(Fuzzy set) ►模糊粗糙集(Fuzzy-Rough set) ► 应用:特征选择 聚类 ►Rough K-means ►应用: Web挖掘
粗糙集的问题
粗糙集理论应用于实际数据分析时, 会遇到 -离散化: - 噪音: 过拟合 - 数据缺失: 如何“不可区分” ? - 大数据量: 计算复杂度太高.
基于粗糙集理论的研究生教育质量评价方法

法 对 数 据 进 行 聚 类 , 助 粗 糙 集 的 正 域 约 简 理 论 和 规 则提 取 方 法 , 出 了 一种 对 研 究 生教 育 质 量 进 行 定 量 分 析 的 方 法 。 借 提
关 键 词 : 糙 集 正 域 约 简 粗 研 究 生 教 育 质 量
1引 言 .
统知识表 示方法 和知识 发现方 法具 有根本 的 区别 。粗糙 集 理论不 需要基 础数据 以外 的所 有先 验知识 ,通过 知识 的简 化 和知识依赖 性分析 , 全可 以 由已知数据 导 出决 策规 则 。 完 然而 粗糙集 理论 只限适用 于处理离 散 的数据 ,所 以要 对具 有连 续的属性 值数据 进行处 理 时 ,一般首 先要 使用 离散化
基 于 粗 糙 集 理 论 的研 究 生教 育 质 量 评 价 方 法
张 岩 秦 克 云 宋 军 智
( 西南交 通大学 数学 学院 , 四川 成都 6 0 3 ) 1 0 1
摘 要 : 究生教 育是在 高等本 科教 育体 系的基 础之 上 , 研 为社会 培养 高水平科研 人 员和专业技 术及管理人 才的研 究 型
方法 将其变化 为离散数据 。目前 , 粗糙 集理论 已经广泛地应
用 于文本 分类 、 机器 学习 、 决策 分析等 多领 域。本文 尝试借 助粗糙集 理论与方 法 .在 已有 的研究 生教育 质量评 价体 系 基础上对研究 生教育质量 进行定量分析 。
2预 备 知 识 .
21 糙 集 理 论 基 础 . 粗
的水平 和学位 授予单位 的管 理水平 ,对保 证和提 高学位 授
基于粗糙集的多维数据分析算法研究

信息表示可通过信息表示系统来完成 , 信息表
示 系统 的基 本成 分是 被 研 究 对 象 的集 合 , 于这 些 关
文 章 编 号 :0 98 8 ( 0 8 0 -0 70 10 —9 4 2 0 )40 7 -3
对象的信息是通过指定对象 的属性和它们的属性值
这里 称之 为论域 t U ies) y nvre 。 (
粗糙 集 方 法 , 出 了一种 适 应 于教 学 管理领 域 提
数据 特征 的 多维数 据 分析 算 法 , 将该 算 法 应 用 于 并
新开发的教 学多维数据分析系统 中。 关键词 : 学管理 ; 教 多维数据 分析 ; 糙 集 粗
1 粗糙集模型
粗糙集 理论 是基 于一个 机构关 于一 些现 实和它
而实现数据分析 、 挖掘 的目的。由于信息系统的多 样性 , 因此应 该研究 如 何 将 粗糙 集 方 法 应 用 到 特殊 的系统 中 , 助有效 地分 析 、 掘潜 在 的知识 。 帮 挖
定义 3 设 S , , =( A 是一个信息系统 , 任 意属性子集 B , s为一般完备信息系统 , A 若 则定 义等价关系:
工具 , 近年来 已经 被成功 地应用 于机 器学 习 、 策分 决
的任意元素是不可省略的 , 称 是独立的。设 H是 独立 的 ,o ( ps G)= o ( , 称 日 为 尺的 ps G)则 G约 简 ( eu t n o R d ci ) o
,
从 定义 2可 以看 出 , 糙 集理 论 的 目标 之 一 就 粗
堕
: 坠
CN 2. 3 3/N 2 12
长 春工程学 院学报 ( 自然科学版)2 0 0 8年 第 9卷 第 4期 J C agh nIs. eh ( m.e. d. ,0 8 V 19 N . . hnc u tT c. N SiE i)2 0 , o. , o4 n
累积反馈学习的简单贝叶斯垃圾邮件过滤

Zh n e o g a g Xu n n
Z n i h ng , ha g L c e
( e okCne,G ag ogP am c¨i l nvrt,G a gh “50 D G a g og C iⅡ N t r et w r u nd n h r aeta U i s) u nzo O 6,M n dn , hn ) c e i
数, 特征项可 以是 字 、 、 词 短语等 。权重有多种计算方法 , 最简单
的 是 布 尔 权 重 。更 一 般 的 情 况 下 , 重 计 算 采 用 词 频 和 文 档 频 权
常用方法 。现主要基于 内容 的垃圾 邮件过 滤方法 有 : 贝叶斯 方 法 、 k近邻 、 支持 向量机 、 神经 网络 、 osn 方 法 、 策树 、 B ot g i 决 粗 糙集方法等 。简单 贝叶斯 分类 方法 利用 贝 叶斯公 式计 算 文 本属于每个类别的概率 , 从而 将文本 归为概 率最大 的一类 。从
定 义 3 样 本 邮件 m =(
厂m ) =c 选 择 特 征 数 为 n ( , 。
, , ), =12 … , , … W ,, d
垃圾 邮件在内容和形式上是不断变化 的。垃圾 邮件发布者 为了使其邮件能到达最终用户 , 逃脱 过滤器的检查 , 会不断地 改 变垃圾邮件的 内容和形 式 ; 其次 , 垃圾邮件发布 的内容多半是产 品推销 、 网站宣传等 广告信息 , 具有 时间性和潮 流性 ; 有的垃圾 邮件是由于蠕 虫病 毒所产生 的 , 邮件 内容 就会 因病毒不 同而不
0 引 言
基 于 内容 的垃 圾 邮 件 过 滤 方 法 … 是 处 理 垃 圾 邮 件 问 题 的
基于遗传算法和粗糙集理论的增量式规则获取方法

本 文根 据粗糙 集 理 论 , 究 了基 于遗 传 算 法 的 研
规则挖掘技术 , 给出了具体方案 , 并 包括规则 编码 、 适 应度 函数定 义等 . 此基 础上 , 在 针对 数据挖 掘对 知 识 更新 和维 护 的要 求 , 一 步 研 究 了增 量 式 遗传 算 进
法 的实 现技 术 , 进 地对规则 进行 更新 、 渐 修正 和加 强 先 前业 已获 取 的规 则 , 实现 了基 于增 量 式遗 传算 法 的规则挖 掘 , 通 过实 验验证 了该 方法 的有效性 . 并
维普资讯
20 0 8年 7月 第2 3卷第 4期
西安石油大学学报 ( 自然科学版 ) Jun l f i lS i uUn e i ( auaS i c dt n ora o l hy i r t N trl c neE io ) X a o v sy e i
关键词 : 传算 法 ; 遗 粗糙 集 ; 量式挖 掘 ; 则获取 增 规 中图分 类号 : P 8 T 1 文献 标识 码 : A 任何 特定 的知识 , 有鲁棒 性 、 具 隐含并 行性 和全 局搜
数据挖 掘是从 存 放 在 数 据 库 、 据 仓 库 和其 他 数 信息 库 中的大量 数据 库 中挖 掘 有 趣 知 识 的过 程 . 规 则获 取是数 据挖 掘 中 的一 个 非 常 重 要 的研 究 课 题 , 目前 , 有许 多基 于机器 学 习 、 式识别 及 统计学 的规 模
索等 特点 , 因此 很容 易与 其他 技术结 合 , 已被广 泛应 用 到很多 领域 . 增 量式 获取 知识 的主要 目标是在 动态 环境 中保 持 知识 库 . 一般 地 , 粗糙集 方 法来 说 , 是 指 当新 对 就 对 象加 入 决 策 表 S时 , 以增 量 式 的方 式 接 受 新 对 象 , 改现 存 的规则 或约 简 , 不是对 整个 决策表 重 更 而
三支决策基于粗糙集与粒计算研究视角

三支决策基于粗糙集与粒计算研究视角在决策问题中,粗糙集和粒计算是两种重要的决策方法。
粗糙集理论是由波兰学者Zdzisław Pawlak于1982年提出的一种模糊集理论,其主要思想是通过划分决策属性值之间的粗糙程度来对决策对象进行分类,从而实现决策的目的。
粒计算是一种模型或工具,用于处理信息的随机性、不确定性和不完全性,它模拟了人类在面对模糊、局部性和模式的信息时的认知过程,可以用于决策问题的分析和解决。
在研究视角中,粗糙集和粒计算可以相互结合,实现更好的决策效果。
粗糙集通过划分属性值的粗糙程度来对数据进行分类,然后根据决策的目标,进行决策对象的选择。
而粒计算则是在粗糙集的基础上,进一步考虑数据的模糊性和不确定性,对数据进行模糊处理,以提高决策的准确性和可靠性。
粗糙集与粒计算结合的决策方法可以分为三个步骤:数据处理、知识提取和决策生成。
首先,通过粗糙集的方法,对数据进行处理,划分出决策属性值之间的粗糙程度,得到决策属性的一组模糊集合。
然后,利用粒计算的方法,提取出决策属性值之间的模糊关系,并根据这些关系进行决策的生成。
最后,通过对决策结果的评估和优化,得到最终的决策结果。
在实际应用中,粗糙集和粒计算可以应用于各个领域的决策问题。
例如,在医疗领域中,可以利用粗糙集的方法,对患者的病情进行分类,然后结合粒计算的方法,进一步考虑患者的模糊性和不确定性,制定个性化的治疗方案。
在金融领域中,可以利用粗糙集的方法,对股票市场的变化进行分类,然后结合粒计算的方法,考虑股票市场的模糊性和不确定性,制定相应的投资策略。
粗糙集与粒计算的结合在决策问题中具有很大的潜力和优势。
通过对数据的处理和知识的提取,可以更好地理解决策对象的特征和属性,从而制定出更准确、可靠的决策方案。
同时,粗糙集和粒计算的方法都考虑了数据的模糊性和不确定性,可以应对现实世界中复杂、多变的决策环境,提高决策的效果和质量。
总之,粗糙集与粒计算是两种重要的决策方法,在研究视角中可以相互结合,实现更好的决策效果。
粗糙集
粗糙集理论的应用及发展摘要:粗糙集理论是一种新型的处理模糊和不确定知识的数学工具, 被广泛应用于不确定环境下的信息处理。
本文主要介绍了粗糙集理论的基本概念、研究对象,叙述了其在各领域的应用发展情况,然后对粗糙集理论应用进行了论述, 最后对粗糙集理论今后的研究方向进行了展望。
关键词:粗糙集、应用、数据挖掘、数据分析、发展趋势粗糙集(Rough sets) 理论是由波兰数学家Z. Pawlak 在1982 年提出的, 该理论是一种刻画不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律[1 ] 。
1992 年至今,每年都召开以RS 为主题的国际会议,推动了RS 理论的拓展和应用。
国际上成立了粗糙集学术研究会,参加的成员来自波兰、美国、加拿大、日本、挪威、俄罗斯、乌克兰和印度等国家。
目前,粗糙集这一新的数学理论已经成为信息科学领域的研究热点之一,它在机器学习、知识获取、决策分析、过程控制等许多领域得到了广泛的应用。
1、粗糙集理论的基本概念1. 1 知识的含义粗糙集理论建立在分类机制的基础上,并将等价关系对空间的划分与知识等同。
粗糙集理论的主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来(近似)刻画。
在粗糙集理论中,“知识”被认为是一种分类能力,也就是将知识理解为对数据的划分。
用集合的概念表示就是使用等价关系集R 对离散表示的空间U 进行划分,知识就是R 对U 划分的结果。
由此,在U 和R 的意义下,知识库可以定义为:属于R 中的所有可能的关系对U 的划分,记为K = ( U , R) (1)这样给定一组数据U 与等价关系集R ,在R 下对U 的划分, 称为知识, 记为U/ R 。
如果一个等价关系集对数据的划分存在矛盾, 则将导致不确定划分,可用粗糙度来度量。
1. 2 集合的上近似和下近似粗糙集理论的不确定性是建立在上、下近似的概念之上的。
基于粗糙集的HSE指标筛选算法研究
c a r d l { ^ } I
两 化 融 合
( 6 )
第一 步 ,划 分等 价 类 ; 第 二 步 ,计 算H S E ¥  ̄ 标 的属性 依赖 性 ; 第三 步 ,得 出指 标筛 选 结果 ;
第 四步 ,确 定指 标权 重 。 下 面 分 四个 步骤 详细 说 明这个 算法 。
l l
Fo rt i n 1 一 kd o
指 标体 系 大小 和 指标 筛选 算 法 有着 密 切 的关 系 。如果 指标 体 系 过大 ,采用 基 于属 性 重要 度 的指标 筛 选模 型 为一 种 不错 的选择 ,如此 ,可 快速 得 出筛 选 结果 ,减少 算 法 时
间开 支 。 本 次试 验采 用 的天然 气 与 管道 业 务H S E 绩 效考 核 系统 考 核 指标 有 各 类 指 标5 千 多 条 ,且 各 级 指 标 之 间 构成 三 级 树 状 结构 。因此 ,采 用第三 种 方法 较 为适 宜 。
表2 H S E 安全 原始 指标 数据
资金 事故 瞒报 新增 隐患 油气泄漏 率 泄压完好 率 进货验收 竣工验收 消耗 > 1 0 0 > 1 0 0 > 1 0 0 < 1 w > 1 0 0 6 0 危险 程度 > 1 6 0 4 0 > 1 6 0 > 1 6 0 8 0 8 4 指标 用途 考 评类 考 评类 治理类 作 业类 考 评类 考 评类 质 量 要求 天 周 时 天 月 月 临界 状 态 1 0 0 7 2 5 0 8 4 8 6 9 0 目标 难度 高难 难 难 由 难 难
S t e p2:
C ,X 2 c ,L ,X K C }
能 直 接 处 理 连 续 型 指 标 , 因 此 ,在 指 标 筛 选 之 前 , 必 须 先 对 连 续 型 指 标 数 据 进 行 离 散 化 。利 用 断 点 离 散 指 标 空 间 ,把 n 维 空 间划 分 成有 限个 区 域 ,使 得每 个 区域 中 的对 象 的评 价 相 同 。根 据 油 气 行 业 特 点 ,确 定HS E 指 标 的 因 数集= { 质 量 要 求 , 临 界 状 态 ,危 险 程 度 , 费用 损 失 , 目
基于粗糙集的改进Apriori算法研究崔旭
Improved Apriori Algorithm Based on Rough Set
CUI Xu1 , LIU Xiao - li2
( 1. College of Science and Engineering,Yanbian University,Yanji Jilin 133002 ,China; 2. School of Automation,University of Science and Technology Beijing,Beijing 100083 ,China) ABSTRACT: Aiming at the defects of the Apriori algorithm,this paper proposed a method for the discovery of frequent item set based on rough set. Firstly,this method uses characteristics attributes reduction algorithm of rough set to find the core of the attribute data,and then uses the improved Apriori algorithm on the data mining of these core data based on the reduction decision table to get frequent item set. The advantage of this method is that it can eliminate unnecessary attributes and reduce the number of attributes on the premise of the same knowledge base classification ability. In terms of generating frequent item set,whether the k - candidate set is generated is determined by the number of k - 1 frequent item set,In this way the number of candidate item set can be reduced. The experiment verifies the validity of the improved algorithm,especially when k is a great number. It can save a lot of computing time, avoid a lot of candidate set,and improve the efficiency of data mining significantly. KEYWORDS: Rough set; Candidate set; Frequent item set
基于粗糙集理论的数据挖掘研究
【 yw r sD t MiigR uhSt h o ; nwe g i oe Ke o d ] aa nn;og e er K o ldeds vr T y c y
O 引 言
于每 一 个 子 集 X∈U和 一 个 等 价 关 系 R∈I S ( ND( )I S 为 S中 所 定 ND( )
su y i c mp e e a d u c ra n k o e g o e sn . a n l z n o c u e t n o l t aa a d t e ic v rk o e g mo h m. i t d n o l t n n e t i n wl d e pr c s i g I c n a ay e a d c n l d he i c mp ee d t . n h n d s o e n wld e a ng t e Ths t p p ri to u e h a i o c p a a mi i gr v e h a i d a o o g e h o , ic s e h t d o a a mi i a e n r u h s t a e n r d c s t e b sc c n e to d t n n , i wst e b sc i e f r u h s tt e r d s u s s t e meho fd t n ng b s d o o I e f e y g
【 键 词 】 据挖 掘 ; 糙 集 理 论 ; 识 发现 关 数 粗 知
Re e r h f Da a M i i s d o ug t Th o y s a c o t n ng Ba e n Ro h Se e r GUO n - e Do g m i
( l g fC mp tr S in ea d E gn e igAn u Col e o o u e ce c n n i e rn , h i e Umv  ̄ t f ce c n e h oo y Hu i a h i 2 2 0 ) e y o in ea d T c n l g , a n n An uFra bibliotek, 3 0 1 S
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于粗糙集的增量式垃圾邮件过滤方法研究作者:徐丹韩艳杰寇曼曼来源:《现代电子技术》2015年第14期摘要:在粗糙集理论基础上,提出一种增量式的垃圾邮件过滤方法。
该方法将邮件样本的局部最小确定性作为阈值来控制规则产生,并在邮件识别过滤过程中增加了反馈环节,将错判和未识别样本作为增量样本进行再学习,动态调整邮件规则的置信度。
根据阈值选择可信度较高的规则进行更新,从而减少了规则的个数,提高了样本的正确识别率,最后用实验证明了该方法的有效性。
关键词:垃圾邮件过滤;粗糙集理论;增量学习; ILRS算法中图分类号: TN911⁃34 文献标识码: A 文章编号: 1004⁃373X(2015)14⁃0024⁃040 引言随着Internet技术的快速发展,电子邮件在人们的生活中扮演着越来越重要的角色。
人们之间大量的交流都通过电子邮件来进行,但是垃圾邮件的日益增多也成为困扰人们日常工作生活的一个难题,电子邮件过滤技术由此产生并成为阻止垃圾邮件的重要手段之一。
有很多学者对电子邮件过滤方法进行了研究,常见的有以下三种:(1)基于黑名单⁃白名单的识别方法,即利用邮件地址、IP地址或域名的属性进行的邮件识别,这种方法的正确识别率低,容易造成误判,典型的应用有结合DNS(Domain Name Server)的RBL(Real⁃time Block List)识别[1]等。
(2)基于数据挖掘技术,利用文本分类和统计算法的识别,比如Bayes[2]、SVM[3]、人工神经网络[4]等,识别准确率较高,但速度慢,不适用于邮件规模较大的情况;同时,它们大都没有考虑交互的问题,对错判邮件的处理不够完善。
(3)基于规则匹配的识别方法。
文献[5]结合粗糙集理论的数据分析技术研究了邮件过滤系统的建模和特征发现等问题,并用经验数据进行实验,得到了较好的结果。
刘洋等基于粗糙集理论将邮件向量同规则向量统一定义,有选择的进行二次过滤,得到了80%左右的正确率[6]。
以上所介绍的方法都只能静态的对电子邮件进行分类过滤,如何对邮件信息进行动态的增量式学习将是未来研究的热点。
文献[7]在扩展决策矩阵的定义的基础上提出一种能够增量的从样本数据中提取确定性和可能性规则的方法,该方法对缺乏领域知识时的规则获取有重要意义;文献[8]首先根据粗糙集方法提取规则,然后在自定义的归纳分配表上利用概率论的思想提取可以覆盖新样本的规则强度高的规则,并用实验证明了它的有效性,如何将连续属性进一步离散化是该方法的下一步需要考虑的问题之一。
文献[9]提出了一种基于概率粗糙集模型的增量式规则学习算法,该算法能够有效地从不一致和含有噪声的决策表中提取带有确定性因子和支持数的决策规则,提取的规则具有很好的抗噪声能力,但是在数据量较大的情况下,该方法未能得到有效验证。
本文提出的增量式电子邮件过滤方法是在基于粗糙集的电子邮件过滤模型的基础上增加反馈环节,将识别过程中错误识别和未识别的邮件信息作为新增的矛盾样本进行再学习,通过邮件决策信息表的局部最小确定性与矛盾规则和样本可信度的比较,对规则集进行更新,有效地提高了邮件的正确识别率。
本文介绍了基于粗糙集理论的邮件分类模型的相关基本概念,在此基础上提出了一种基于粗糙集的增量式电子邮件过滤方法,并利用UCI中的Spam Database数据集对该方法进行了实验,并分别与增量前的学习效果和ID4算法进行比较,从而验证了该方法的有效性。
1 相关基本概念定义1(电子邮件决策表信息系统):电子邮件决策表信息系统是一个四元组[S=U,R=C⋃D,V,f]。
其中:[U]是邮件的集合;[R]为属性的集合;[C]为邮件条件属性的集合;[D]表示决策属性集合;[V]是属性值的集合;[f]是信息函数,它指定[U]中每个对象[x]的属性值[10]。
定义2(不分明关系):假设属性集[P∈R],对象[X,Y∈U],对于每个[Q∈P],当且仅当[f(X,a)=f(Y,a)],[X]和[Y]是不可分辨的,即:[IND(P)={(X,Y)∈][U:∀a∈P,f(X,a)=f(Y,a)}。
]显然[IND(P)]是一个等价关系。
这样,属性集P可以认为是用等价关系(在该属性集上的取值相等)表示的一个知识的名称[10]。
定义3(置信度):对于邮件信息决策表[S=U,R=C⋃D,V,f],规则[A→B]的置信度为:[α=X⋂YX],则规则可表示为如下形式:[A→Bα],其中:集合[X]是条件属性值满足公式[A]的样本集合,集合[Y]是满足决策属性值满足公式[B]的样本集合[10]。
定义 4(条件分类对决策分类的确定性程度):设决策表为[S=U,A,V,f],[A=C⋃D] ,[C]为条件属性集,[D]为决策属性集,[Ei∈UINDC,i=1,2,...,m]为条件分类,[Xj∈UINDD,j=1,2,...,n]为分类决策,则任意条件分类[Ei∈UINDC]对决策属性分类的确定性程度定义[11]为: [kEi=maxEi⋂XjEiXj∈UINDD]。
定义5(决策表局部最小确定性):给定决策表[S=U,R,V,f],[kE1,…,kEi,…,kEm]是条件分类对决策分类的确定性程度,则决策表最小确定性定义为:[αc=minkE1,…,kEi,…,kEm],[αc]即为控制规则产生的阈值[11]。
2 基于粗糙集的增量式邮件过滤方法为了更有效地获得邮件规则,需要将学习识别后反馈的错判和未识别信息作为新样本进行再训练,原始的非增量式学习方法是将错判和未识别样本放入原始信息决策表,进行重新训练。
这种方法比较简单,但在样本集非常大的时候,重新训练的周期较长,且规则更新速度非常慢,影响学习的效率,不能满足实时邮件过滤要求。
本文提出的增量式邮件过滤方法针对错判和未识别样本的情况,能从矛盾的邮件决策信息表中提取带有置信度的决策规则,从而实现邮件规则集的动态更新。
基于粗糙集的自主式增量邮件过滤方法需要经过以下两个步骤:(1)根据粗糙集的方法:邮件决策信息表[→]数据预处理[→]属性约简[→]值约简[→]规则集,抽取数据集进行匹配,记录匹配过程中出现的错判和未识别样本。
(2)将上述反馈的错判、未识别样本加入新增样本训练集中,将计算样本的置信度加入到原始规则集中。
对于步骤(1)如何获得原始规则的过程,文献[10]中已做详尽表述。
对于步骤(2),具体描述如下:设[S=U,C⋃D,V,f]为一邮件决策信息表,[R]是属性约简,[M]是最小规则集,对于[y∈U],假设其对应的规则为[θy→ψy],新样本为错判和未识别的邮件样本[x:θx→ψx]加入[U]中,其样本数量为[r]。
若[x]的某些条件属性特征[θx]与[y]中的条件属性特征[θy]相同,而决策属性特征出现不一致时,重新计算原始规则的置信度,将原始规则的置信度由[αy=X⋂YX](见定义2,3)更新为[αy=X⋂YX+r],同时计算决策表局部最小确定性[αc],将其作为阈值,对原始规则和矛盾样本的置信度进行比较,若原始规则的置信度小于阈值,则矛盾样本的决策属性特征值经约简后替换原始规则的决策属性特征值。
若[x]的某些条件属性特征与[y]中的条件属性特征不同且决策属性特征也不一致,将[x]属性约简后加入到规则集中。
具体算法ILRS(Incremental Learning Algorithm Based on Rough Set)表示如下:输入:邮件规则集[M],新增样本[x]。
输出:更新后的规则集[M′]。
Step1:根据原邮件规则集中的规则对新增对象[x]进行匹配,匹配结果分为2种情况。
(1)若[x:θx→ψx]的条件属性特征和已有规则[θy→ψy]匹配,而决策属性特征不匹配,即[∃y∈U,θx≡θy,ψx≠ψy]出现矛盾样本,转向Step2。
(2)若[x]的条件属性特征和已有规则[y]不匹配,且决策属性也不匹配,即[∀y∈U,θx≠θy,ψx≠ψy],则转到Step3。
Step2:新增反馈样本[x]的置信度为:[αx=rX+r],已有规则[y]的置信度更新为[αy=X⋂Y+rX+r],比较置信度[αy]、[αx]与局部最小确定性[αc]的大小。
(1)若[αx>αc≥αy],则将已有邮件规则的决策属性值取反(Spam date语料中垃圾邮件的决策属性为0,非垃圾邮件的决策属性为1),且其对应的邮件置信度更新为[α∧=rX+r]。
(2)若[αy>αx≥αc],则原规则集M不变。
Step3:将新增样本属性约简后加入到规则集M中。
ILRS算法流程图如图1所示。
图1 ILRS算法流程图3 实验仿真本文抽取UCI机器学习数据库中的垃圾邮件数据集Spambase[12]进行实验,该数据集包含4 601个实例,其中包括1 813封垃圾邮件,2 788封非垃圾邮件,每个实例分别用58个特征属性来描述(包括57个条件属性特征和1个决策属性特征),用0,1对垃圾邮件和非垃圾邮件分别进行标识。
以下实验分为两个部分:测试1为增量前后的对比实验,测试2为ILRS 算法与决策树ID4算法的增量式电子邮件学习效果的比较。
3.1 增量前后的实验对比从Spambase的4 601条实例中随机抽取含有500,1 000,1 500,2 000,2 500,3 000,3 500,4 000,4 500个样本的9个数据集,进行对比实验。
具体实验步骤如下:Step1:将原始数据集中随机抽取50%邮件样本用粗糙集方法进行属性约简、值约简得到规则集;Step2:用Step1中得到的规则集对剩下的50%邮件样本进行识别,记录反馈的错误识别和未识别的样本;Step3:对Step2中错判和未识别的邮件样本进行增量式学习,得到更新后的规则集;Step4:在Spambase数据集中重新提取与训练集数量相同的样本作为测试集,将第3步得到的更新后的规则集用测试集进行测试,得到正确识别率、未识别率和规则个数。
表1中,各个符号的含义如下:N#为邮件样本数量;RR(%)为邮件样本正确识别率;NR(%)为未识别率;GR为规则个数。
表1 算法有效性测试图2显示增量学习后的正确识别率有较大提高,表1中的未识别率也较学习前明显降低。
图2 正确识别率的测试3.2 ILRS算法与ID4方法的实验对比为了进一步验证算法的有效性,将ILRS算法和决策树ID4算法作对比测试。
实验步骤同实验3.1,原始数据样本为测试集,记录运算时间T(s)、正确识别率RR(%)、错误识别率WR(%)及规则个数GR。
实验结果如表2所示。
表2 ILRS算法与ID4算法比较从图3、图4可见,在进行增量式学习时粗糙集方法ILRS在规则个数较少的情况下,对邮件样本的正确识别率高于ID4算法。