基于贝叶斯算法和费舍尔算法的垃圾邮件过滤系统设计与实现

合集下载

基于贝叶斯算法在垃圾邮件过滤方法研究和改进

基于贝叶斯算法在垃圾邮件过滤方法研究和改进摘要：本文在对贝叶斯公式更进一步的了解研究后，使用实验的方式进一步的了解到该方法的缺点并进行分析。

并在贝叶斯公式的基础上进行改进，使其更加准确的应用在垃圾邮件过滤方法中。

依据最小风险的传统方法进行的改进，用实验的方法进一步得到准确的结论。

改进的方法更加适用于现代邮件的需求，更加个性化。

关键词：贝叶斯定理；多项式事件模型；多变量贝努利事件模型；最小风险；垃圾邮件过滤1 引言在这个高速发展的时代，科技化已经大势所趋，消息的传播已经从之前的手写信件全面过渡到网络邮件，人们越来越习惯用邮件的方式来传递消息。

但是万物皆有双面性，邮件带给我们方便的同时也使得垃圾邮件越来越泛滥。

垃圾邮件不仅会占用人们的时间，里面的内容也会对人们造成一定的威胁，电子邮件所带来的负面影响是不可逆的。

电子邮件因其便捷、快速、传播性广，里面会夹杂着一些推销广告、不良信息、甚至一些病毒链接，给许多用户带来不便。

目前基于垃圾邮件的过滤方法主要有基于IP、行为、内容三种过滤技术，其中以基于内容的经常使用，文本本就是以词构成的一个整体，基于内容的过滤技术更加的准确。

基于内容的过滤技术中，朴素贝叶斯算法因其能够满足用户个性化的要求，在垃圾邮件的过滤方法中受到广泛应用。

本文在更加精确的了解贝叶斯算法在垃圾邮件过滤的应用效果后，更加有针对性的提出该方法的弊端并进行适当的分析和改进，并进行相应的实验，作出最后的结论。

2 贝叶斯过滤器2.1 贝叶斯定理贝叶斯定理最早是由英国数学家贝叶斯（1702-1761）提出的，最早收录于《机会学说中一个问题的解》。

该定理是贝叶斯用来解释两个随机条件概率之间的关系而提出的。

多变量贝努利事件模型由于并没有考虑词频问题，相对简化了过滤方法，提高了效率，在不同的文本中可以采用不同的方法。

2.3贝叶斯算法的缺陷分析贝叶斯算法起初应用于数学概论中，但随着数学的发展，这种方法越来越广泛的应用于文本分类领域，它的灵活性，简便性以及较高的精确度，使得它越来越不可或缺。

基于贝叶斯算法的垃圾邮件过滤系统设计与实现

作者暨授权人签字：
扬撞生
２０１２年１１月１１日
论文题目
南开大学研究生学位论文作者信息基于贝叶斯算法的垃圾邮件过滤系统设计与实现
姓名
杨艳生
学号
２２２００９１４９５
答辩日期
２０１２年１１月１１日
论文类别院／系／所
博士口学历硕士口硕士专业学位团高校教师口同等学力硕士口
软件学院
专业
软件工程
联系电话
垃圾邮件的过滤问题实际上就是电子邮件的分类问题，将贝叶斯算法应用于垃圾邮件过滤中，实际上就是用统计的方法来对电子邮件进行分类。利用贝叶斯算法设计的垃圾邮件过滤系统在英文邮件的应用中获得了比较好的过滤效果，本系统中加入了中文分词模块，设计和实现了对中文邮件的过滤功能模块，并取得了比较好的过滤效果。
学位论文作者签名：
扬艳生
２０１２年１１月１１日
非公开学位论文标注说明
（本页表中填写内容须打印）根据南开大学有关规定，非公开学位论文须经指导教师同意、作者本人申请和相关部门批准方能标注。未经批准的均为公开学位论文，公开学位论文本说明为空白。
论文题目
申请密级保密期限审批表编号
口限制（≤２年）
口秘密（≤ｌＯ年）
任何事情都有正反两个方面，电子邮件给我们带来便利的同时，其带来的负面影响也日益突出，时常收到一大堆不请自来的垃圾邮件，包括一些推销广告、虚假信息、反动信息、色情信息等不良信息，甚至会有一些包含病毒的电子邮件，因此我们不得不花费大量的时间和精力去清理和删除这些垃圾邮件，给我的工作生活、身心健康带来很大的危害，同时垃圾邮件还占用了大量的网络资源和存储空间，也对社会造成了严重的经济损失。
南开大学学位论文使用授权书

基于贝叶斯方法的客户端邮件过滤器的设计与实现

维普资讯
信息技术与信息化 Fra bibliotek基于贝叶斯方法的客户端邮件过滤器的设计与实现
ＤｅｉｎａｄＩｌｍｅｔｔｏｆＣｌｅｔ—ｍａｌｆｌｅｓｄｏｙｓｓｇｎｍｐｅｎａｉｎｏｉｎ — ｉｉｒＢａｅｎＢａｅｔ
类。此系统具有以下特点： ①依据邮件的整个内容来过滤邮件； ②使用简单而高效的机器学习方法Ｂｙｓｎ方法来对邮ａｅｉａ件进行过滤。③根据用户的反馈进行更新，从而更好的运用
贝叶斯方法计算垃圾邮件的概率，适应每一个用户的需求。分词模块：本部分利用逆向最大匹配算法根据词典对邮
件内容进行词语的识别。
特征选择：本模块再学习阶段和过滤阶段都有使用。学习时，于分词模块生成的关键词列表进行统计，据Ｃ对根ＨＩ
系统默认的垃圾邮件比如不想再接触某个人或不想再接收
自己曾经定制的某些新闻邮件等等，用户可以通过拒收的方式从此屏蔽掉这些邮件，这被称为用户级屏蔽。这种操作非常简便，用户只需配置某些选项即可实现。（）对于有些用户不希望被接收到收件箱，２但其中又有可能有用的邮件，这些邮件暂时存放在客户端为用户提供的
引言
随着国际互联网Ｉｔｒｅ的发展和普及，ｎｎｔｅ电子邮件以其方便、快捷、低成本的独特魅力成为人们日常生活中不可缺少的通信手段之一。但电子邮件给人们带来极大便利的同时，日益显示出其负面影响。那就是我们每天收到的邮件也中有很大一部分是那种 “ 请自来 ” ，不的它们或者是推销广

基于贝叶斯分类的垃圾邮件过滤系统

基于贝叶斯分类的垃圾邮件过滤系统随着互联网的发展，每天都会有数以万计的电子邮件发送到全球各地的收件箱中。

但是，不幸的是，在这些邮件中，许多都是无关紧要的垃圾邮件。

这些邮件浪费了我们的时间，占据了我们的空间，甚至可能包含有害的信息。

所以垃圾邮件过滤已成为电子邮件系统中必不可少的一部分。

在这个领域，贝叶斯分类算法的应用已可以实现较高的垃圾邮件检测率，因而被广泛采用。

本篇文章将从以下几个方面探讨基于贝叶斯分类的垃圾邮件过滤系统。

1. 贝叶斯分类算法在介绍贝叶斯分类算法之前，我们需要先了解以下一些概念。

- 条件概率条件概率是指在一个事件发生的前提下，另一个事件发生的概率。

例如：在一个班级中，学生身高在1.7米以上的比例为30%，而其中女生的比例为50%，那么在身高在1.7米以上的学生中，女生的比例为50%÷30%=1.67倍。

- 先验概率先验概率是指未进行任何新实验或观察，仅根据已知的信息，得出的概率。

例如：某城市出租车司机中男性占比80%，女性占比20%，则在没有任何其他信息的情况下，任意一位出租车司机是男性的概率为80%。

- 后验概率后验概率是指通过新的实验或观察之后，得出的概率。

例如：通过调查发现，在某家餐馆就餐的顾客中，男性占比50%，女性占比50%，并且男性消费金额的平均值为30元，女性消费金额的平均值为20元。

现在，如果一个顾客消费了40元，那么他是男性的概率是多少呢？- 贝叶斯定理贝叶斯定理是利用已知的先验概率和条件概率得出后验概率的公式。

在垃圾邮件过滤的场景中，我们可以将邮件分类为两类：垃圾邮件和非垃圾邮件。

对于每封邮件，我们可以将它看作是由一些特征组成的，如邮件的主题、内容、发件人、附件等。

对于每个特征，我们可以计算出在垃圾邮件中出现的概率和在非垃圾邮件中出现的概率，这些概率被称为条件概率。

同时，我们可以根据历史数据计算出垃圾邮件的先验概率和非垃圾邮件的先验概率。

这样就可以利用贝叶斯定理计算出一个邮件是垃圾邮件的后验概率。

基于改进贝叶斯的垃圾邮件过滤系统设计与实现

计算机工程与应用２００５．１８１２７
关键字，有就认为是垃圾邮件。这种方法的误判率很高，因为在垃圾邮件中出现的关键字在正常邮件中也可能出现，这种方法越来越少使用了。
基于分类算法的过滤是用文本分类算法来对邮件进行过滤。可以将邮件看作两类：垃圾邮件、正常邮件，将邮件看作向量空间，计算垃圾邮件的相似度来判断是否为垃圾邮件。目前主要的方法是朴素贝叶斯、ＳＶＭ、ＫＮＮ等算法。根据实验结果，朴素贝叶斯的过滤效果最好而且速度很快，许多产品已经出现，如ｆｏｘｍａｉｌ、ｏｕｔｌｏｏｋ中都有基于贝叶斯的邮件过滤功能。
这种方法虽然过滤简单，速度很快；但是过滤效果较差，对没有发现的发送垃圾邮件的ＩＰ和域名没有作用，不灵活。１．２．２基于网络测量平台的过滤
在本地网的监测点将进出的与邮件相关的通信量汇聚成邮件流，并区分成无效邮件流、正常邮件流和异常邮件流，然后根据这３种邮件流的统计特性，检测出本地网中产生的广告邮件、垃圾邮件病毒以及异常邮件行为，并通过基于策略的响应机制实施拦截和预警。由于区分成无效邮件流、正常邮件流和异常邮件流较困难，此方法目前的过滤效果还不是太好。１．２．３基于内容的过滤
Ｋｅｙｗｏｒｄｓ：ｓｐａｍ，ｂａｙｅｓ，ｆｉｌｔｅｒ
１概述１．１垃圾邮件简介
垃圾邮件就是那些你并不希望收到，并且你也没有订阅过，但却被人利用电子邮件的特点强行塞入你的邮箱的广告、产品介绍、发财之道等内容的电子邮件。垃圾邮件一次可以发给很多人，在Ｉｎｔｅｍｅｔ上同时传送很多副本；浪费了人们的大量时间，一般人们需要至少１０秒钟来判断是否为垃圾邮件，如果每天收到几十封垃圾邮件，就得花大约十分钟的时间来处理它们，实在是比较痛苦的事情；对于拨号上网的用户，不但造成时间的浪费，还造成费用的浪费；大量的垃圾邮件充满邮箱，占用大量的系统可用空问和资源，使机器暂时无法正常工作；过多的垃圾邮件往往会加剧网络的负载能力和消耗大量的空间资源来存储它们，过多的垃圾邮件还将导致系统的ｌｏｇ文件变得很大，甚至有可能溢出文件系统，这样会给Ｕｎｉｘ，Ｗｉｎｄｏｗｓ等系统造成危害；除了系统有崩溃的可能外，大量的垃圾邮件还会占用大量的ＣＰＵ时间和网络带宽，造成正常用户的访问速度成问题；垃圾邮件占用的带宽资源，严重时会拥塞整个Ｉｎｔｅｒ－ｎｅｔ链路，中断Ｉｎｔｅｍｅｔ的部分线路的运营而造成巨大的经济损失，据ＣＡＵＣＥ组织统计，消除垃圾邮件可为全世界小型企业和个人每年节省９４０万美元；携带病毒的垃圾邮件直接威胁着整个网络系统的安全。因此，消除垃圾邮件具有非常重要的意义。１．２目前垃圾邮件处理技术

基于贝叶斯算法分类的反垃圾邮件系统的实现

伴随着电子邮件的迅速普及，越来越多的人群使用电子邮件。然而，电子邮件在为人们提供方便的同时也成为垃圾邮件、病毒、意程序或敏恶感内容邮件传播的重要载体，对系统安全造成了严重的威胁。近几年来，垃圾邮件的泛滥是由于专门发送垃圾邮件的服务器大批涌现。由于网络的开放陛，邮件成为互联网上的— 个日严重的全球性安全问题，垃圾益越来越得到社会大众和研究人员的重视和关注。因此，针对这一问题尽快寻找解决方案的需求也更加迫切。１垃圾邮件的定义及其危害２００３年，中国互联网协会在《中国互联网协会反垃圾邮件规范》中对垃圾邮件作了以下定义：收件人事先没有提出要求或者同意接收的广告、刊物、电子各种形式的宣传品等宣传ｌ的电子邮件；生收件人无法拒收的电子邮件；隐藏发件人身份、、题等信息的电子邮件；含有虚假地址标的信息源、发件人、由等信息的电子邮件。路垃圾邮件的泛滥给人们带来的危害和损失主要体现在以下几个方面：邮件给网络运营商（Ｐ造成了严重的损失。大量的垃圾邮件在垃圾Ｉ）Ｓ网络上传播，占用了网络带宽，网络通信质量下降，是网络发生导致甚至拥塞，邮件系统的正常运行；干扰垃圾邮件侵害了用户的隐私权；垃圾邮件给网络带来了各种安全性的问题；垃圾邮件成了计算机病毒新的、快速的传播途径。２基于垃圾邮件特征向量判断垃圾邮件算法的设计
为：
ＰＣＤ＝∑ ＰＷＩ（Ｍｒｚ

贝叶斯算法在垃圾邮件过滤系统中的应用

一、前言随着电子邮件的迅速普及，越来越多的人使用电子邮件。但是，电子邮件在为人们传递信息的同时，也成为了垃圾邮件、病毒、恶意程序或包含敏感内容邮件传播的重要载体，对计算机系统安全造成了严重的威胁。二、贝叶斯算法（一）贝叶斯过滤技术的工作原理根据贝叶斯理论，根据已经发生的时间可以预测未来事件发生的可能性。将该理论运用到反垃圾邮件上：若已知某些字词经常出现在垃圾邮件中，却很少出现在合法邮件中，当一封邮件含有这些字词时，那么他是垃圾邮件的可能性就很大。 1.创建基于字词符号的贝叶斯数据库用户首先需要对贝叶斯进行培训，即将邮件分类为垃圾邮件和正常邮件，贝叶斯将提取这些邮件样本中主题和信体中的独立字串，包括字词（word）和符号（token）（如 $，IP 地址，域名等），并建立相应的数据库。 2.创建贝叶斯概率库统计出每个字串在垃圾邮件中出现的概率以及在正常邮件中出现的概率，然后根据公式计算出邮件中含某字串则为垃圾邮件的概率。例如：在 2000 封垃圾邮件样本中"mortgage"（抵押）出现了 500 次，而在 1000 封正常邮件中这个词出现了 100 次，那么其对应的垃圾概率为 0.7143（[500/2000] /[100/1000+500/2000]）。 3.创建个性化的贝叶斯库由于每个单位对所收到的邮件偏好是不同的，例如，某个金融类单位在正常邮件中可能经常用到"invest"这个词，如果使用静态的关键词过滤，就可能产生很多误判。如果采用贝叶斯过滤，在对贝叶斯进行培训的时候，将该单位的合法邮件（自然，很多都包含了"invest"这个词）分类为正常邮件。这样，垃圾邮件的识别率将更高，同时也使得误判率变得很低。贝叶斯过滤算法的主要思想是在已知的大量垃圾邮件中，邮件中包含一些特征串（token），一般而言，对于同一个特征串出现在垃圾邮件和合法邮件中的概率是不同的。因此，对于出现的每一个特征串，都会生成一个 “ 垃圾邮件指示性概率 ” （ spam ratio）。所以我们就可以判断文本消息的整体 “垃圾邮件概率”。二、贝叶斯方法过滤垃圾邮件的基本技术原理（一）收集大量的垃圾邮件和非垃圾邮件，建立垃圾邮件集和非垃圾邮件集。（二）提取邮件主题和邮件体中的独立字串作为 TOKEN 串，并统计提取它的 TOKEN 串出现的次数，即字频。（三）每一个邮件集对应一个哈希表，设 hashtable_good 对应非垃圾邮件集而 hashtable_bad 对应垃圾邮件集。表中存储 TOKEN 串到字频的映射关系。（四）计算每个哈希表中 TOKEN 串出现的概率 P=（某 TOKEN 串的字频）/（对应哈希表的长度）。（五）综合考虑 hashtable_good 和 hashtable_bad，推断出当新来的邮件中出现某个 TOKEN 串时，该新邮件为垃圾邮件的概率。数学表达式为： A 事件 ----邮件为垃圾邮件; t1,t2, tn 代表 TOKEN 串，则 P(A / ti ) 表示在邮件中出现

基于贝叶斯的垃圾邮件过滤算法设计研究

响，但中文文本中切分精度对于邮件过滤系统
来说并不是很重要，在这里，过滤准确率与效
率才是系统的最关键性指标，需优先考虑其实
时性与准确率要求；其次，特征提取，即删除
一
参考文献
［１］梁志文，杨金民，李元旗等．基于多项
式模型和低风险的贝叶斯垃圾邮件过
邮件是 “ 疑似垃圾邮件 ”，若０．８Ｐ（Ｃ２）ｌ１，则表示新邮件是 “ 垃圾邮件”。
４实验结果
通过本次实验可知，所选取的３００封已知样本邮件中，垃圾邮件有２５０封，而合法邮件则由５０封。而为了分析改进后的贝叶斯算法组所具有的自我学习能力高低，研究中不采用训练样本，而是直接将邮件用于相关的测试
滤算法【Ｊ】．中南大学学报（自然科学
版），２０１３，４４（７）：２７８７－２７９２．
［２】李茹，刘培玉，朱振方等．基于ＡｄａＢｏｏｓｔ
本次研究还发现，算法在邮件的过滤中表现出较好的查准率与查全率，而这也就说明了该系统的邮件过滤性能是比较好的。综上所述，基于认知学习的贝叶斯算法作为一种新型的邮件过滤算法，有着较好的自学能力与学习效果，且在邮件过滤性能中表现出良好的动态调整能力，查全率与查准率都较高，以获得较好的邮件过滤效果。
网络天地・ＮｅｔｗｏｒｋＷｏｒｌｄ
Hale Waihona Puke 基于贝叶斯的垃圾邮件过滤算法设计研究

基于贝叶斯的垃圾邮件过滤的设计与实现

基于贝叶斯的垃圾邮件过滤的设计与实现下载提示：该文档是本店铺精心编制而成的，希望大家下载后，能够帮助大家解决实际问题。

文档下载后可定制修改，请根据实际需要进行调整和使用，谢谢！本店铺为大家提供各种类型的实用资料，如教育随笔、日记赏析、句子摘抄、古诗大全、经典美文、话题作文、工作总结、词语解析、文案摘录、其他资料等等，想了解不同资料格式和写法，敬请关注！Download tips: This document is carefully compiled by this editor. I hope that after you download it, it can help you solve practical problems. The document can be customized and modified after downloading, please adjust and use it according to actual needs, thank you! In addition, this shop provides you with various types of practical materials, such as educational essays, diary appreciation, sentence excerpts, ancient poems, classic articles, topic composition, work summary, word parsing, copy excerpts, other materials and so on, want to know different data formats and writing methods, please pay attention!基于贝叶斯的垃圾邮件过滤的设计与实现1. 引言随着互联网的普及和电子邮件的广泛应用，垃圾邮件成为了一个严重的问题。

给出基于朴素贝叶斯算法的垃圾邮件过滤原理

给出基于朴素贝叶斯算法的垃圾邮件过滤原理垃圾邮件过滤是电子邮件系统中的一项重要功能，它能够识别并阻止大量的垃圾邮件进入用户的收件箱。

朴素贝叶斯算法是一种基于概率的机器学习算法，它在垃圾邮件过滤中发挥着至关重要的作用。

本篇文章将详细介绍基于朴素贝叶斯算法的垃圾邮件过滤原理。

一、朴素贝叶斯算法简介朴素贝叶斯算法是一种基于贝叶斯定理的分类算法。

它假定每个类别中的数据之间是独立的，而与其他类别无关。

这种简单但实用的假设使得朴素贝叶斯算法在许多领域中得到了广泛应用，尤其是在文本分类和垃圾邮件过滤等领域。

二、垃圾邮件的特征垃圾邮件通常具有一些共同的特征，如包含特定词汇、格式、主题或附件等。

通过对这些特征进行分析，我们可以利用朴素贝叶斯算法对邮件进行分类。

一般来说，垃圾邮件往往包含诸如推销、广告、威胁、色情等不良信息。

三、算法原理1.特征提取：首先，从每封邮件中提取与垃圾邮件相关的特征，如词频、词性、主题、附件类型等。

这些特征可以用于构建分类模型。

2.训练模型：将正常邮件和垃圾邮件分别作为训练数据集，利用朴素贝叶斯算法对模型进行训练。

通过学习正常邮件和垃圾邮件的特征，建立分类模型。

3.预测分类：对新收到的邮件，利用训练好的模型进行预测，并根据预测结果将其分类到正常邮件或垃圾邮件中。

4.更新模型：根据预测结果，不断更新模型参数，以提高分类准确率。

四、优势与改进朴素贝叶斯算法在垃圾邮件过滤中具有以下优势：1.无需对特征进行手工设计，能够自动提取有用的特征。

2.分类速度快，适用于实时过滤。

3.对噪声和异常值不敏感，具有较好的鲁棒性。

为了进一步提高垃圾邮件过滤的准确率，我们可以采用以下方法进行改进：1.多模型联合过滤：将多种分类算法（如朴素贝叶斯、支持向量机、深度学习等）组合起来，取长补短，提高整体准确率。

2.结合其他信息：将用户反馈、黑名单、白名单等其他信息与算法相结合，进一步提高过滤效果。

3.实时更新：定期收集新的邮件数据，及时更新模型，保持过滤效果的稳定性。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

可以使用个性化的垃圾邮件过滤方案，支持使用邮件下载协议（ＯＰ、ＭＰ３ＩＡＰ协议）邮件服务器下载邮件，从
以及使用邮件解析协议（ＭＥ协议）对于邮件进行解析，支持邮件发送协议（ＭＴＭＩＳＰ协议）帮助用户发
ｌｏｈｍＤｅｉｎａｄＩＡｇｒｔｓｇｎｍｐｌｍｅｔｔｏｉｅｎａｉｎ
ＦＮｈ．ｎＸＵＥＴａ－ｎＸＩＡＳｉｕ．１ｉｎｊ，ＡＷｅｕｉ
（ｉｊＮｒａＵｉｒｉ，Ｔｎｉ３０８，ｈａＴｎｉｏｍｌｎｖｓｙＩａ０３７Ｃｉ）ａｎｅｔａｆｎｎ
摘要：贝叶斯过滤算法和费舍尔过滤算法均是利用统计学知识对于垃圾邮件进行过滤的算法，有着
良好的过滤效果。该文设计将某一词组（单词）出现概率使用加权计算的方法，改善了朴素贝叶斯算法和
朴素费舍尔的邮件过滤算法对于出现较少的单词误判情况，使系统对于垃圾邮件判断的准确率上升。设计
ｐｏａｉｔｉｒｖｓｉａｏｓｈｃｅａｅａｅｉｇｒｈｄｈａｅｉｅａｏｔａｅｓｄｅｒｂｂｉｏｅｔｔｎｉｔｉｙｓｎａｏｉｍａｅｉｓｒｌｒｍｊｇｄｌｙｍｐｓｕｉｗｈｈＮｖＢａｌｔｎｔＮｖＦｈｇｉｈｒｍｉｕ
雪釜进
■ ｄｉ１９９ｊｓｎ１７－１２２１９０６ｏ：０３６／ｉｓ６１１２０２００
基于贝叶斯算法和费舍尔算法的垃圾邮件过滤系统设计与实现
范仕伦，薛天俊，夏玮
（天津师范大学，天津，３０８０３７）
ｗｈｃｅＭＴＰｒｔｃ１ｉｈｕｓｓＳｐｏｏｏ．
Ｋｅｒ：ｓａｆｌｒｎｂｙｓａｌｏｔｍ；ｓｅｌｏｉｈｙｗｏｄｓｐｍｔｉｇ；ａｅｉｎａｇｒｈｆｈｒａｇｒｔｉｅｉｉｍ
１相关工作
ｔｅｓａｆｔｒｇａｇｒｔｍａｅａｇｏｌｒｇｅｅｔＴｅｄｓｇｉｈｕｅｉｈｅｔｏａｃｌｔｒｓｈｍｌｉｌｏｈｈｖｏｄｆｔｉｆｃ．ｈｅｉｎｗｈｃｓｓｐｉｅｎｉｉｅｎｗｅｇｔｄｍｅｈｄｔｃｌｕａｅｗｏｄｏ
ｐｒｏｌｚｄｆｔｒｎｃｅｌｅｓｓｒｍａｌ．ｅｉｎｗｈｉｈｅｅｓｎａｉｅｌｅｇｓｈｍｅｆｔｒｐａｅｉｓＴｈｅｄｓｇｉｉｉｅｃｕｓｓＰＯＰ３ｐｏｏｏｒＩＡＰｐｏｏｏｕｐｒｓｒｔｃｌｏＭｒｔｃｌｓｐｏｔ
１１算法比较器的设计与实现．
１１１算法模拟器概述．．
在进行系统设计之前，首先制作算法模拟器，该算法模拟器从９７２２封正常邮件和２０８封垃圾邮件中随机选择需要进行训５８
练和过滤的邮件，在挑选邮件的过程中，使用哈希表数据结构，保证抽取邮件的唯一性，即训练邮件和过滤邮件每封不同，同时为了现出算法的随机性，采用随机抽取阈值（体贝叶斯算法和上下限概率值（。）费舍尔算法）的方法，每个算法选用５个不
送邮件。
关键词：垃圾邮件过滤；贝叶斯算法；费舍尔算法中图分类号：Ｔ３３８文献标识码：文章编号：１７— １２（０２９０１— ５Ｐ９．０Ａ６１１２２１）０— ０８０
ＳｍａｌｌｔｒＳｓｅｂｓｄｏｙｓａｇｒｔｐａＥｍｉＦｉｅｙｔｍａｅｎＢａｅｉｎＡｌｏｉｈｍｎｓｅａｄＦｉｈｒ
ｔｏｏｄｗｎｌａｍａｌｒｍｈａｌｓｒｅ，ｎａｙｅｍａｌｉｈｕｅＭＩＥｏｏｏｌｎｅｐｓｒｏｓｎｄｅａｌｏｄｅｉｆｏｔｅｍｉｅｖｒａｌｚｓｅｉｓｗｈｃｓＭｐｒｔｃｄｈｌｓｕｅｓｔｅｍｉｓｓａ
同的参数对同样邮件进行过滤，最后对过滤算法的查准率、查全率、计算时间进行对比，得出实验结果。
１１２算法模拟器的设计实现．＿
算法模拟器制作过程中使用的编程工具是ＶｓａＳｕｉ２１，ｉｌｔｄｏ００采用ｃｕ＃语言进行编程，整个算法模拟器的代码数量在５０００行，制作过程中使用了ｃ＃的窗体编程知识、线程知识、ＩＯ操作知识、贝叶斯概率知识、数据结构的哈希表知识。
Ａｂｓｒｃ：ｙｓａｌｅｎｇａｇｒｔｍｎｓｒｆｌｅｎｇａｇｏｉｈቤተ መጻሕፍቲ ባይዱ ｉｈａｅｕｅｏｆｓａｉｔｃｌｎｏｅｇｅｆｒｔａｔＢａｅｉｎｆｔｒｌｏｉｈａｄＦｉｈｅｔｒｌｒｔｍｗｈｃｒｓｔｓｉａｗｌｄｏｉｉｉｉｔｋ
ｗｈｎｔｅｎｗｗｏｄｍａｓａｄｉｃａｅｐｍｊｄｍｅｔｃｕａｙｒｔ．ｈｅｉｎｗｉｓｓｓｒｅｙｆｄｆｒｓｎｅｉｎｒｓｓｓａｇｎｃｒｃｅＴｅｄｓｈｃｕｅｕｅＳｈｉｅｉｌｎｅｕａａｇｈ ’