基于改进贝叶斯的垃圾邮件过滤系统设计与实现

合集下载

基于贝叶斯算法分类的反垃圾邮件系统的改进论文

基于贝叶斯算法分类的反垃圾邮件系统的改进论文

学位论文题目:基于贝叶斯算法分类的反垃圾系统的改进摘要电子成为一种快捷、经济的现代通信技术手段,极方便了人们的通信与交流。

然而,垃圾的产生,影响了正常的电子通信,占用了传输带宽,对系统安全造成了严重的威胁。

因此,研究反垃圾问题已经成为全球性的具有重大现实意义的课题。

目前,应对垃圾的主要方法和手段是通过反垃圾立法和使用过滤技术进行处理,现已相继出现了多种过滤技术。

常用的包括黑/白技术、基于容的分析方法以与基于规则的方法等。

基于容分析的技术正逐步进入过滤技术当中,并成为当前研究热点,其中,基于容分析的过滤方法中的典型方法是基于贝叶斯算法的垃圾过滤模型。

本论文对中文垃圾的特点进行了比较系统的分析和研究,结合贝叶斯(Bayes)理论,构造基于贝叶斯分类的垃圾过滤模型,在特征提取方面,采用互信息值的方法,在分类方法上,引入了适合本文的分类方法,并采用了一种更加适合于贝叶斯计算的表示方法;本文作者采用中国教育科研网(CERNET)收集并维护的大量中文垃圾和正常样本的标准数据集,对本文研究的方法进行了大量测试,准确率和误判率分别达到了 95.8%和 5.3%。

结果表明基于贝叶斯算法的垃圾过滤系统对拦截垃圾有很好的作用。

关键词:电子,垃圾,过滤,贝叶斯理论AbstractThe has become a quick and economical means of modern communication technology, which enormously facilitates people's communication and exchanges. However, the emergence of spam has affected the normal email correspondence, and taken the transmission band width, even posed the serious threat to the system safety. Therefore, the study of anti-spam has become a global problem of great practical significance of the topic.At present, the main ways and means of the response to spam are the anti-spam legislation and the use of mail filtering technology. But now a variety of mail filtering technologies have appeared in succession, which are usually used including black / white list technologies, content-based analysis methods, andrule-based methods. Content-based analysis techniques are gradually entering the mail filtering technology which has become hot spots of current research. The typical method of content-based analysis mail filtering methods is based on Bayesian algorithm for spam filtering model.In this paper, the Chinese characteristics of spam has been studied and analyzed systematically. Combining with Bayesian (Bayes) theory, this paper constructs the spam filtering model which is based on Bayesian classification. In feature extraction, mutual information values are used. In the classification method, a classification method is introduced which is suitable in this article, and a more suitable expression in the Bayesian calculation method is adopted; the standard sample data sets of a large number of Chinese spam and regular mail are collected and maintained by the Chinese Education and Research Net (CERNET). The author conducted a lot of testing towards the methods which are studied by this paper. The accuracy and misjudgment rate reached 95.8% and 5.3% respectively. The results show that the spam filtering system based on algorithm Bayesian plays a very good role to block spam. Key Words: , spam, mail filtering, Bayesian theory学位论文原创性声明本人重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。

基于贝叶斯算法在垃圾邮件过滤方法研究和改进

基于贝叶斯算法在垃圾邮件过滤方法研究和改进

基于贝叶斯算法在垃圾邮件过滤方法研究和改进摘要:本文在对贝叶斯公式更进一步的了解研究后,使用实验的方式进一步的了解到该方法的缺点并进行分析。

并在贝叶斯公式的基础上进行改进,使其更加准确的应用在垃圾邮件过滤方法中。

依据最小风险的传统方法进行的改进,用实验的方法进一步得到准确的结论。

改进的方法更加适用于现代邮件的需求,更加个性化。

关键词:贝叶斯定理;多项式事件模型;多变量贝努利事件模型;最小风险;垃圾邮件过滤1 引言在这个高速发展的时代,科技化已经大势所趋,消息的传播已经从之前的手写信件全面过渡到网络邮件,人们越来越习惯用邮件的方式来传递消息。

但是万物皆有双面性,邮件带给我们方便的同时也使得垃圾邮件越来越泛滥。

垃圾邮件不仅会占用人们的时间,里面的内容也会对人们造成一定的威胁,电子邮件所带来的负面影响是不可逆的。

电子邮件因其便捷、快速、传播性广,里面会夹杂着一些推销广告、不良信息、甚至一些病毒链接,给许多用户带来不便。

目前基于垃圾邮件的过滤方法主要有基于IP、行为、内容三种过滤技术,其中以基于内容的经常使用,文本本就是以词构成的一个整体,基于内容的过滤技术更加的准确。

基于内容的过滤技术中,朴素贝叶斯算法因其能够满足用户个性化的要求,在垃圾邮件的过滤方法中受到广泛应用。

本文在更加精确的了解贝叶斯算法在垃圾邮件过滤的应用效果后,更加有针对性的提出该方法的弊端并进行适当的分析和改进,并进行相应的实验,作出最后的结论。

2 贝叶斯过滤器2.1 贝叶斯定理贝叶斯定理最早是由英国数学家贝叶斯(1702-1761)提出的,最早收录于《机会学说中一个问题的解》。

该定理是贝叶斯用来解释两个随机条件概率之间的关系而提出的。

多变量贝努利事件模型由于并没有考虑词频问题,相对简化了过滤方法,提高了效率,在不同的文本中可以采用不同的方法。

2.3贝叶斯算法的缺陷分析贝叶斯算法起初应用于数学概论中,但随着数学的发展,这种方法越来越广泛的应用于文本分类领域,它的灵活性,简便性以及较高的精确度,使得它越来越不可或缺。

基于贝叶斯算法的垃圾邮件过滤系统设计与实现

基于贝叶斯算法的垃圾邮件过滤系统设计与实现

作者暨授权人签字:
扬撞生
2012年11月11日
论文题目
南开大学研究生学位论文作者信息 基于贝叶斯算法的垃圾邮件过滤系统设计与实现
姓名
杨艳生
学号
2220091495
答辩日期
2012年11月11日
论文类别 院/系/所
博士口 学历硕士口 硕士专业学位团高校教师口 同等学力硕士口
软件学院
专业
软件工程
联系电话
垃圾邮件的过滤问题实际上就是电子邮件的分类问题,将贝叶斯算法应用 于垃圾邮件过滤中,实际上就是用统计的方法来对电子邮件进行分类。利用贝 叶斯算法设计的垃圾邮件过滤系统在英文邮件的应用中获得了比较好的过滤效 果,本系统中加入了中文分词模块,设计和实现了对中文邮件的过滤功能模块, 并取得了比较好的过滤效果。
学位论文作者签名:
扬艳生
2012年11月11日
非公开学位论文标注说明
(本页表中填写内容须打印) 根据南开大学有关规定,非公开学位论文须经指导教师同意、作者本人申 请和相关部门批准方能标注。未经批准的均为公开学位论文,公开学位论文本 说明为空白。
论文题目
申请密级 保密期限 审批表编号
口限制(≤2年)
口秘密(≤lO年)
任何事情都有正反两个方面,电子邮件给我们带来便利的同时,其带来的负 面影响也日益突出,时常收到一大堆不请自来的垃圾邮件,包括一些推销广告、 虚假信息、反动信息、色情信息等不良信息,甚至会有一些包含病毒的电子邮 件,因此我们不得不花费大量的时间和精力去清理和删除这些垃圾邮件,给我 的工作生活、身心健康带来很大的危害,同时垃圾邮件还占用了大量的网络资 源和存储空间,也对社会造成了严重的经济损失。
南开大学学位论文使用授权书

基于贝叶斯算法的垃圾邮件过滤技术的研究与改进

基于贝叶斯算法的垃圾邮件过滤技术的研究与改进

第33卷第1期燕山大学学报V ol.33No.12009年1月Journal of Yanshan University Jan.20090引言随着电子邮件的普及,垃圾邮件的泛滥也越来越多地受到人们的关注。

中国互联网协会反垃圾邮件中心在2008年1月28日发布的《2007年第四次中国反垃圾邮件状况调查报告》显示,中国互联网用户平均每周收到垃圾邮件16.71封,已经连续多次超过了正常邮件的数量。

大量的垃圾邮件不仅占用了网络传输带宽,影响正常网络通信,更浪费了人们的时间和精力。

垃圾邮件的检测和过滤已经迫在眉睫。

目前主要的垃圾邮件过滤技术有3类:1)基于IP 、域名和路由等的过滤技术:包括黑/白名单、实时黑名单、反向域名检测等技术;2)基于行为的过滤技术:包括过滤群发、流量监控、挑战-回应和蜜罐技术等;3)基于内容的过滤技术:包括规则(集)匹配、朴素贝叶斯(Naive Bayes )、支持向量机(SVM )、-NN )、最大熵值法等[1]。

基于内容的过滤技术是目前垃圾邮件过滤技术应用的主流,而在基于内容的垃圾邮件过滤方法中,朴素贝叶斯算法[2]因其既实现了自学习的功能,又满足了个性化的要求,故而在垃圾邮件过滤中得到广泛的应用。

本文在对贝叶斯过滤器分析的基础上,引入基于分级的最小风险算法,并提出了一种结合多重贝努利和多项式的混合估计模型。

在此基础上对贝叶斯过滤器进行了改进,并进行了实验对比。

1贝叶斯过滤器1.1贝叶斯定理贝叶斯定理是由托马斯・贝叶斯(1702-1761)提出的计算概率的一种方法。

它是通过对某一事件过去发生概率情况的考察,大体可以推断出当前这一事件发生的概率。

它的形式化表述为:设试验,的事件,2,µÄÒ»¸ö»®·Ö£¬ÇÒ>0,,则,,=1;2;;,或者2,,,是特征项,可以是文章编号:文献标识码:48燕山大学学报2009字、词、短语或者是某种概念。

基于改进贝叶斯的垃圾邮件过滤系统设计与实现

基于改进贝叶斯的垃圾邮件过滤系统设计与实现

计算机工程与应用2005.18 127
关键字,有就认为是垃圾邮件。这种方法的误判率很高,因为在 垃圾邮件中出现的关键字在正常邮件中也可能出现,这种方法 越来越少使用了。
基于分类算法的过滤是用文本分类算法来对邮件进行过 滤。可以将邮件看作两类:垃圾邮件、正常邮件,将邮件看作向 量空间,计算垃圾邮件的相似度来判断是否为垃圾邮件。目前 主要的方法是朴素贝叶斯、SVM、KNN等算法。根据实验结果, 朴素贝叶斯的过滤效果最好而且速度很快,许多产品已经出 现,如foxmail、outlook中都有基于贝叶斯的邮件过滤功能。
这种方法虽然过滤简单,速度很快;但是过滤效果较差,对 没有发现的发送垃圾邮件的IP和域名没有作用,不灵活。 1.2.2基于网络测量平台的过滤
在本地网的监测点将进出的与邮件相关的通信量汇聚成 邮件流,并区分成无效邮件流、正常邮件流和异常邮件流,然后 根据这3种邮件流的统计特性,检测出本地网中产生的广告 邮件、垃圾邮件病毒以及异常邮件行为,并通过基于策略的响 应机制实施拦截和预警。由于区分成无效邮件流、正常邮件流 和异常邮件流较困难,此方法目前的过滤效果还不是太好。 1.2.3基于内容的过滤
Keywords:spam,bayes,filter
1概述 1.1垃圾邮件简介
垃圾邮件就是那些你并不希望收到,并且你也没有订阅 过,但却被人利用电子邮件的特点强行塞入你的邮箱的广告、 产品介绍、发财之道等内容的电子邮件。垃圾邮件一次可以发 给很多人,在Intemet上同时传送很多副本;浪费了人们的大 量时间,一般人们需要至少10秒钟来判断是否为垃圾邮件,如 果每天收到几十封垃圾邮件,就得花大约十分钟的时间来处理 它们,实在是比较痛苦的事情;对于拨号上网的用户,不但造成 时间的浪费,还造成费用的浪费;大量的垃圾邮件充满邮箱,占 用大量的系统可用空问和资源,使机器暂时无法正常工作;过 多的垃圾邮件往往会加剧网络的负载能力和消耗大量的空间 资源来存储它们,过多的垃圾邮件还将导致系统的log文件变 得很大,甚至有可能溢出文件系统,这样会给Unix,Windows等 系统造成危害;除了系统有崩溃的可能外,大量的垃圾邮件还 会占用大量的CPU时间和网络带宽,造成正常用户的访问速 度成问题;垃圾邮件占用的带宽资源,严重时会拥塞整个Inter- net链路,中断Intemet的部分线路的运营而造成巨大的经济损 失,据CAUCE组织统计,消除垃圾邮件可为全世界小型企业 和个人每年节省940万美元;携带病毒的垃圾邮件直接威胁着 整个网络系统的安全。因此,消除垃圾邮件具有非常重要的意 义。 1.2 目前垃圾邮件处理技术

基于改进贝叶斯的垃圾邮件过滤系统设计与实现

基于改进贝叶斯的垃圾邮件过滤系统设计与实现

基于改进贝叶斯的垃圾邮件过滤系统设计与实现
丁文斌;李斌;罗浩
【期刊名称】《计算机工程与应用》
【年(卷),期】2005(041)018
【摘要】该文设计并实现了一种基于改进贝叶斯的垃圾邮件过滤系统.传统的贝叶斯方法对邮件进行过滤时,将邮件视为一个无序关键词的向量空间,丢掉了词与词之间,句子之间的相互关系.该文则将邮件视为句间有序,句子内部关键词无序但是相关的部分有序的集合.减少传统方法处理时信息的丢失.得到的实验结果比传统方法更好.
【总页数】4页(P127-130)
【作者】丁文斌;李斌;罗浩
【作者单位】哈尔滨工业大学国家网络信息安全重点实验室,哈尔滨,150001;哈尔滨工业大学国家网络信息安全重点实验室,哈尔滨,150001;哈尔滨工业大学国家网络信息安全重点实验室,哈尔滨,150001
【正文语种】中文
【中图分类】TP393.098
【相关文献】
1.朴素贝叶斯及其改进算法在垃圾邮件过滤中的应用 [J], 詹鹏伟;谢小姣
2.基于改进的贝叶斯中文垃圾邮件过滤方法研究 [J], 马威;褚红丹;高哲;董贯慧
3.改进的贝叶斯垃圾邮件过滤算法 [J], 赵敬慧;魏振钢
4.基于改进贝叶斯的垃圾邮件过滤算法综述 [J], 赵治国;谭敏生;李志敏
5.一种改进的基于贝叶斯的垃圾邮件过滤方法 [J], 王忠建;张树舰;李颖
因版权原因,仅展示原文概要,查看原文内容请购买。

智能垃圾邮件过滤系统研究与实现

智能垃圾邮件过滤系统研究与实现
r n e u ts o h tt e d sg sr a o a l , n a e t rme tt e s c rt e d f h a u ewo k e tr s l h wst a h e i n i e s n b e a d c n b te e h e u i n e s o e c mp sn t r . y t Ke o ds Ca u t r ; t r e u t ; r c u in r ta e y y W r : mp s Newo k Newo k S c r y P e a t a y S r t g ;Da a S c rt i o t e u i y
先 形成 的字 典 中的对应 词语 进行 概率 计算 , 过分 析最 终得 出 通 概 率辨 别 邮件 的性质 。本 系统将 贝 叶斯理 论应 用 于邮件 过滤 ,
6 结束 语
应 用 这些 信 息安 全技 术 解 决方 案 可 以大 大提 高 校 园 网 的
安 全 。 络 安 全 的 复 杂 性 、 园 网络 的 特 殊 性 , 决 定 了 校 园 网 网 校 也
t n ae a ay e ,a d t ed ti d sc rt ou in r a eb sd sd t e u i ,W e p g mp r P o f ie lI , t . h u - i r n lz d n h eal e u i s lt sae g v e ie aas c r y o e y o t b a eTa e — r o,F rwal DS ec T ec r ,
参 考 文 献
[ ] 姚滢 , 1 陆建 新. 网站 文 件保 护 系统 的研 究与 实现 []计 算机 工 程 J.
与 设 计 .0 7 6) 20 ( .

基于贝叶斯算法分类的反垃圾邮件系统的实现

基于贝叶斯算法分类的反垃圾邮件系统的实现

伴 随着 电子邮件的迅速普及 , 越来越多 的人群使用 电子邮件 。然 而 , 电子 邮件在 为人们 提供方便的同时也成 为垃圾 邮件 、 病毒 、 意程 序或敏 恶 感 内容 邮件 传播的重要载体 , 对系统安全造 成了严重 的威 胁 。近几年来 , 垃圾 邮件的泛滥是 由于专 门发送垃 圾邮件的服务器大批 涌现 。由于 网络 的开放 陛, 邮件成 为互联网上的— 个 日 严重的全球 性安全 问题 , 垃圾 益 越 来越得 到社 会大众和研究人员 的重 视和关注。 因此 , 针对这一 问题尽快寻 找解决 方案的需求也更加迫切 。 1垃圾邮件的定 义及其 危害 20 0 3年 , 中国互联 网协 会在 《 中国互联网协会反垃圾 邮件规范 》 中对 垃圾 邮件作 了以下定 义 :收件 人事先 没有 提出要 求或 者同 意接 收 的广 告 、 刊物 、 电子 各种形式 的宣传品等 宣传 l的 电子 邮件 ; 生 收件 人无法拒 收 的电子邮件 ;隐藏 发件人身份 、 、 题等信息 的电子邮件 ;含有虚假 地址 标 的信 息源 、 发件人 、 由等 信息的电子邮件 。 路 垃圾 邮件 的泛 滥给 人们带 来的危 害和损 失 主要 体 现在 以下 几个方 面 : 邮件给 网络运 营商 ( P造成 了严 重的损失 。大量 的垃圾 邮件 在 垃圾 I ) S 网络上传播 , 占用了 网络带宽 , 网络通信 质量下 降 , 是网络发 生 导致 甚至 拥塞 , 邮件 系统 的正常运行 ; 干扰 垃圾 邮件 侵害 了用户 的隐私权 ; 垃圾 邮 件给 网络带来 了各种 安全性的问题 ; 垃圾邮件成 了计算 机病毒新 的 、 快速 的传播途径 。 2基于垃圾邮件特征 向量判断垃圾 邮件算 法的设计
为:
P C D=∑ P W I (M r z
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
埘^=P(眠IG)=———菥生面i————一 Wl+乞乞N(W。,S{) 口=1 i=1
其中P(形lG)是矽在G中出现的比重。
IDI(训练垃圾邮件时,为以一;训练正常邮件时,等于k)
是该类的训练样本数,Ⅳ(形,S)为词形在S中词频。Jyl为总词 里曼
数,乞乞N(W。,S。)为该类所有词的词频和。
d=1 i=1
图1贝叶斯分类器
对于这样的一个贝叶斯分类器,若有某一待分类的样本 D,其分类特征值为并=(并。,戈:,…,‰),则样本D属于类别G的 概率为P(C=CkIX=x),因而样本D属于类别G的条件要满足 式(1):
P(C=CklX=x)=Max{P(C=C。IX=x),…,P(C=cmⅨ≈)J而由贝
叶斯P公(c式-GⅨ础)=—P(X—=x可lC=压Ck)广P(C=Ck)
基于内容的过滤有关键字匹配和分类算法的方法。 关键字匹配是将垃圾邮件中可能含有的一些关键字放到 文件中,当来了一份新邮件时,匹配此信邮件中是否含有那些
基金项目:国家863资助项目“计算机病毒防范计划”(编号:863一104棚2-01)
作者简介:丁文斌(1982-),硕士。李斌,副教授。罗浩,博士。
万方数据
此方法将知道的一些经常发送垃圾邮件的IP、域名写入 一个黑名单中,在以后服务器接受邮件时,将发送邮件机器的 IP或域名和此黑名单匹配,如果在黑名单中,则拒绝接受。
国外用的比较多的是实时黑名单技术,它是基于IP、域名 等的过滤方法的扩展,在线的查询向本邮件服务器发送邮件的 机器的IP地址是否在此黑名单中,以多人的力量提供黑名单; 但是这种方法还是比较被动,只有被发现的IP才能被过滤掉, 而且在中国没有机构提供此实时黑名单。
这种方法虽然过滤简单,速度很快;但是过滤效果较差,对 没有发现的发送垃圾邮件的IP和域名没有作用,不灵活。 1.2.2基于网络测量平台的过滤
在本地网的监测点将进出的与邮件相关的通信量汇聚成 邮件流,并区分成无效邮件流、正常邮件流和异常邮件流,然后 根据这3种邮件流的统计特性,检测出本地网中产生的广告 邮件、垃圾邮件病毒以及异常邮件行为,并通过基于策略的响 应机制实施拦截和预警。由于区分成无效邮件流、正常邮件流 和异常邮件流较困难,此方法目前的过滤效果还不是太好。 1.2.3基于内容的过滤
统。图3是此系统的邮件训练子系统的系统流程图;图4是此 系统的邮件识别子系统的系统流程图。
邮件训练子系统是对训练库中训练样本进行预处理、提取 特征、进行训练,生成邮件过滤的知识库作为邮件过滤子系统 过滤时的依据。邮件识别子系统对未知邮件进行预处理、特征 提取、词之间相关性处理、按照过滤知识库算出概率,得出过滤 结果。
图3 邮件训练子系统流程图
图4邮件识别子系统流程图 下面介绍邮件过滤系统中各步的关键技术和主要的方法:
4.1邮件预处理 根据RFC822及MIME协议对邮件进行解析,主要对邮件
格式的解析和对邮件内容的解码;得出邮件的主题和内容;对 于中文邮件,词与词之间没有明显的分隔符,因此必须对邮件 内容进行分词,为下一步特征提取作准备,该系统的分词用最 大正向匹配。 4.2特征提取
4.4词之间相关性处理 该系统是将邮件内容视为句子的有序集合,句子内部的词
基于改进贝叶斯的垃圾邮件过滤系统设计与实现
丁文斌李斌罗浩 (哈尔滨工业大学国家网络信息安全重点实验室,哈尔滨150001)
E-mail:dingwenbin@pact518.hit.edu.ca
摘要该文设计并实现了一种基于改进贝叶斯的垃圾邮件过滤系统。传统的贝叶斯方法对邮件进行过滤时,将邮件视 为一个无序关键词的向量空间,丢掉了词与词之间,句子之间的相互关系。该文则将邮件视为句间有序,句子内部关键词 无序但是相关的部分有序的集合。减少传统方法处理时信息的丢失。得到的实验结果比传统方法更好。 关键词垃圾邮件 贝叶斯过滤器 文章编号1002—8331一(2005)18—0127-04 文献标识码A 中图分类号TP393.098
目前控制垃圾邮件的方法主要是过滤,有基于IP、域名等 的过滤和基于内容的过滤。基于琅等的过滤主要用在MTA
(邮件传输代理)模块上,由于MTA的流量很大,基于内容的过 滤将大大降低服务器的工作效率。基于内容的过滤主要用在 MDA(邮件投递代理)和MUA(邮件用户代理)模块上。 1.2.1基于IP、域名等的过滤
该文使用了基于内容的过滤,在传统的贝叶斯对垃圾邮件 进行过滤的基础上,改进了此算法。从实验结果可知,改进后的 方法比传统的方法具有更好过滤效果。
2贝叶斯分类器及贝叶斯邮件过滤器 2.1贝叶斯分类器
贝叶斯分类器即是用于分类工作的贝叶斯网。一个贝叶斯 分类器的结构如图1所示,该网中应包含一个表示分类的节点 C,变量C是类别集合{C。,c2,…,C0中的一个元素。另外还有一 组节点茗=(算,,并:,…,算。)表示用于分类的特征向量。
改进的贝叶斯分类器具有以下优点:减少了大量有用信息 的丢失,使分类精度提高了;在计算难度方面也是可以接受的。 是时间复杂度和精度的一种很好的折中。
圈2简化贝叶斯分类器
由于对给定的分类变量C,各置是相对独立的,因而有: 128 2005.18计算机工程与应用
万方数据
4系统的设计与实现 按照上面改进的贝叶斯方法设计了一个垃圾邮件过滤系
若有: 尸(c_“spam”IX剐)<P(c-“ham”IX=x) 就判断为有用邮件,否则为垃圾邮件。 2.3贝叶斯过滤器的缺点 由以上分析可知,原始的贝叶斯方法得到的效果最好,但 是计算量很大,而且很难计算,是一个不可实行的方法;朴素贝 叶斯方法易于实现,但是过多地简化使得很多对于分类很有用 的信息丧失了,使得分类效果不好。 下文将要介绍一种改进的贝叶斯方法。是对以上两种方法 很好的折中。取各自的优点结合起来,来提高过滤的精度。
计算机工程与应用2005.18 127
关键字,有就认为是垃圾邮件。这种方法的误判率很高,因为在 垃圾邮件中出现的关键字在正常邮件中也可能出现,这种方法 越来越少使用了。
基于分类算法的过滤是用文本分类算法来对邮件进行过 滤。可以将邮件看作两类:垃圾邮件、正常邮件,将邮件看作向 量空间,计算垃圾邮件的相似度来判断是否为垃圾邮件。目前 主要的方法是朴素贝叶斯、SVM、KNN等算法。根据实验结果, 朴素贝叶斯的过滤效果最好而且速度很快,许多产品已经出 现,如foxmail、outlook中都有基于贝叶斯的邮件过滤功能。
特征抽取的目的就是降低向量空间的维数,提高系统的速 度,提高系统的精度,防止过拟合[31。常用的特征提取的方法有 词条和类别的互信息、词条的统计、词条的期望交叉熵和文本 证据权等。该系统的特征提取方法用的是改进互信息【4】。其计算 公式如下:
RMI(r,Ci)=log[)
Keywords:spam,bayes,filter
1概述 1.1垃圾邮件简介
垃圾邮件就是那些你并不希望收到,并且你也没有订阅 过,但却被人利用电子邮件的特点强行塞入你的邮箱的广告、 产品介绍、发财之道等内容的电子邮件。垃圾邮件一次可以发 给很多人,在Intemet上同时传送很多副本;浪费了人们的大 量时间,一般人们需要至少10秒钟来判断是否为垃圾邮件,如 果每天收到几十封垃圾邮件,就得花大约十分钟的时间来处理 它们,实在是比较痛苦的事情;对于拨号上网的用户,不但造成 时间的浪费,还造成费用的浪费;大量的垃圾邮件充满邮箱,占 用大量的系统可用空问和资源,使机器暂时无法正常工作;过 多的垃圾邮件往往会加剧网络的负载能力和消耗大量的空间 资源来存储它们,过多的垃圾邮件还将导致系统的log文件变 得很大,甚至有可能溢出文件系统,这样会给Unix,Windows等 系统造成危害;除了系统有崩溃的可能外,大量的垃圾邮件还 会占用大量的CPU时间和网络带宽,造成正常用户的访问速 度成问题;垃圾邮件占用的带宽资源,严重时会拥塞整个Inter- net链路,中断Intemet的部分线路的运营而造成巨大的经济损 失,据CAUCE组织统计,消除垃圾邮件可为全世界小型企业 和个人每年节省940万美元;携带病毒的垃圾邮件直接威胁着 整个网络系统的安全。因此,消除垃圾邮件具有非常重要的意 义。 1.2 目前垃圾邮件处理技术
Filtering Spare System Based on Improved Bayes Ding Wenbin Li Bin Luo Hao
(State Key Lab of Network Information Security,Harbin Institute of Technology,Harbin 150001) Abstract:In this text,we have developed a new filtering spam system based on improved bayes.When using the tradi—
壮1表示此特征在本邮件中存在。根据朴素贝叶斯公式计算是
垃圾邮件的概率和不是垃圾邮件的概率,然后比较这两个概率 的大小。计算公式如下(spam表示垃圾邮件,ham表示正常邮 件):
P(C=“spam”IXn=P(xX)f==x型iIC—="sp—鳓’—’琢)尸蕊(c=丁“印—啪—’’~)
P(c_“ham”IXH-P-(XxFx)。=l型c:—“h—am”—)P瓦(c=函“hram—’’一)
P(X=xlC=Ck)=FIP(xF%IC=C,)
i=1

P(C=CklX=x)=型—1琢万一 FIP(XI=xilX=x)P(C:q)
2.2贝叶斯邮件过滤器 贝叶斯邮件过滤器即一种贝叶斯分类器,即将邮件分成有
用和无用的(“垃圾”)两类。先提取反映邮件是否有用的特征向 量(X,,X:,…,瓦),如果Xi_O表示此特征不在本邮件中存在,
式中的分母P(X=x)和类别G无关,因而在式子(1)中比 较最大值时可以忽略,所以贝叶斯分类仅计算概率P(X=xlC= q)和P(C=Ck)。其中P(C=Ck)一般由经验得到,叫做先验概 率。而P(X=xlC=G)叫做似然函数【l】,表示在类别c。下X=x的 概率,它的计算则要困难得多。特别是对于特征数n较大,而且 特征变量之间相依程度较高时,其计算将是极其费时的。为简 化计算,可假定各个特征变量魁是相对独立的,则可采用一种 简化了的贝叶斯分类器(朴素贝叶斯),其结构如图2所示:
相关文档
最新文档