基于贝叶斯算法的垃圾邮件过滤系统设计与实现

合集下载

用贝叶斯算法实现垃圾邮件过滤

用贝叶斯算法实现垃圾邮件过滤




{ { { h ‘

童嚣 磊 誊 等 鞋
童 与 赣 器
N W ( RK&( M M tN l? r0 ) X) 』 (A 1
垃 圾邮 件 集台
贝叶 斯学 习中 心
正邮集 常件合
l习 果 据 学结数
B ys n过 滤 引 擎 参 数 配 置 aei a
图 2 系 统 工 作流 程 图
首先 ,分 析和 提 取 用 户 指 定 的垃 圾 邮 件 样 本 和 正 常 邮 件 样
本 的内容 ,识别垃圾邮件的 “ 特征”并建立 贝叶斯评分 引擎 :
然后 ,对 于一封未知的新邮件 ,通过解 析邮件内容 、提取特征
串,利用评分 引擎对该邮件评分。若评分 结果为垃圾邮件 ,则
平 台下 用 V C++实现 。 系统 工作在 邮件 客户 端 和邮件服 务 器之 间,基 于邮 件 内
客的解析 ,可以有效地过滤和分 离用户的垃圾邮件。
关 键词 贝叶斯 ,垃圾 邮件 ,过滤 ,代理


莉 茜
P( i A J

-1
( i; 12 . ,… )
目前 ,电子 邮件 已迅速成 为人们获取和交流信息的一个重 要手段 。但是 ,大量 的垃圾 邮件充斥其 中,极 大地影响 了正常 邮件的使用 。据 2 0 0 5年 1月公布的 《 中国互联 网络发 展状况
件。
细介绍 ,读者可 以查阅参考文献。
基 于贝叶斯算 法 ,我们用 V C++6 0在 Wi o s00Po . n w 2 0 r d .
fsi a 上 开 发 了 A t p m系 统 。经 测 试 ,较好 地 解 决 了 垃圾 es nl o n Sa i

基于朴素贝叶斯的垃圾邮件分类算法研究

基于朴素贝叶斯的垃圾邮件分类算法研究

基于朴素贝叶斯的垃圾邮件分类算法研究引言随着互联网的发展,我们的电子邮件的数量也越来越多。

人们接受电子邮件的速度和效率变得更高,但同时也伴随着垃圾邮件的增长。

垃圾邮件往往会带来许多问题,例如浪费时间和网络资源,甚至可能传播病毒和诈骗。

因此,我们需要有效的筛选算法来区分垃圾邮件和正常邮件。

本文将讨论朴素贝叶斯的垃圾邮件分类算法。

朴素贝叶斯算法朴素贝叶斯算法是一种基于贝叶斯定理的分类方法。

该算法使用已知的类别和相关特征来推断未知的类别。

对于一个待分类的对象,朴素贝叶斯算法会首先将其描述为已知类别的特征的集合,然后根据贝叶斯定理来计算其属于每个类别的概率,并选择概率最大的类别作为分类结果。

贝叶斯定理表达式如下:P(A|B) = P(B|A) * P(A) / P(B)其中,P(A|B)是在给定B的情况下,A的条件概率。

P(B|A)是在给定A的情况下,B的条件概率。

P(A)和P(B)分别是A和B的概率。

朴素贝叶斯算法假定每个特征都是独立的,这意味着特征之间的关系可以无视。

在实际应用中,该假设并不总是成立。

例如,在垃圾邮件分类中,标题和正文的内容通常是相关的。

但是,在一个大规模的特征空间下,这种假设可以使算法更简单且更快速地运行,同时取得令人满意的结果。

垃圾邮件分类应用垃圾邮件分类是朴素贝叶斯算法的典型应用之一。

我们将说明如何使用朴素贝叶斯算法来分类垃圾邮件和正常邮件。

首先,我们需要从邮件中提取特征。

为了分类邮件,我们需要确定哪些特征是更有信息量的。

例如,单词的数量或单词的出现频率可能是一个有用的特征。

因此,我们可以基于这些因素来确定特征。

接着,我们需要计算在给定特征条件下,垃圾邮件和正常邮件的概率。

为了训练分类器,我们需要一组已标记的邮件数据集。

在朴素贝叶斯算法中,我们需要计算每种特征在垃圾邮件中出现的概率和在正常邮件中出现的概率,并将这些概率用于计算分类邮件时的条件概率。

这些概率可以通过计算数据集中特征出现的频率以及垃圾邮件和正常邮件的数量来估算。

基于贝叶斯方法的客户端邮件过滤器的设计与实现

基于贝叶斯方法的客户端邮件过滤器的设计与实现
维普资讯
信息技术 与信息化 Fra bibliotek基 于 贝 叶 斯 方 法 的 客户 端 邮件 过 滤 器 的设 计 与 实现
De i n a d I l me tto fCle t—ma lfle s d o y s sg n mp e n a in o i n — i i rBa e n Ba e t
类。此系统具有 以下特点 : ①依据 邮件 的整个 内容来过滤 邮 件; ②使用 简单而高效 的机器学 习方法 B ys n方 法来对 邮 aei a 件进行过滤 。③根据用户 的反馈进 行更新 , 从而 更好 的运 用
贝叶斯方法计算垃圾邮件 的概率 , 适应每 一个用户 的需 求。 分词模 块 : 本部分 利用逆向最大 匹配 算法根据词 典对 邮
件 内容进行词语的识别 。
特征选择 : 本模块 再学习阶段和 过滤阶段都 有使用 。学 习时 , 于分词模 块生 成 的关键词 列 表进 行统 计 , 据 C 对 根 HI
系统默认 的垃圾邮件 比如不想 再接 触某 个人 或不 想再 接 收
自己曾经定制 的某些新 闻邮件等等 , 用户可 以通过拒 收 的方 式 从此屏蔽掉这些 邮件 , 这被称 为用户级屏 蔽 。这种 操作非 常简便 , 用户 只需 配置某些选项 即可实现。 ( )对于有些用户 不希望被接收 到收件箱 , 2 但其 中又有 可能有 用的邮件 , 这些 邮件暂时存放在 客户端 为用户 提供 的
引言
随着 国际互 联 网 Itre 的发展 和普及 , n nt e 电子 邮件 以其 方便 、 快捷 、 低成本 的独 特魅 力成 为人 们 日常生 活 中不可 缺 少的通信手段 之一 。但 电子 邮件 给人 们带来 极 大便 利 的同 时 , 日益显示 出其负 面影 响。那就是我们 每天 收到 的邮件 也 中有很大一部 分 是那 种 “ 请 自来 ” , 不 的 它们 或者 是 推销 广

使用朴素贝叶斯对垃圾邮件分类实验原理

使用朴素贝叶斯对垃圾邮件分类实验原理

文章标题:深入探究朴素贝叶斯算法:垃圾邮件分类实验原理解析在信息爆炸的时代,电流信箱已经成为人们日常生活和工作中不可或缺的一部分。

然而,随之而来的垃圾邮件问题也一直困扰着人们。

为了解决这一问题,朴素贝叶斯算法被广泛应用于垃圾邮件分类实验中。

本文将深入探讨朴素贝叶斯算法在垃圾邮件分类实验中的原理和应用。

一、朴素贝叶斯算法简介朴素贝叶斯分类器是一种基于贝叶斯定理和特征条件独立假设的分类算法。

它被广泛应用于文本分类、垃圾邮件过滤、情感分析等领域。

朴素贝叶斯算法的核心思想是基于训练样本对文本进行建模,并根据文本中不同特征的出现概率来进行分类。

二、垃圾邮件分类实验原理解析1. 数据预处理:需要对收集到的邮件数据进行预处理,包括去除邮件中的特殊符号、停用词等。

2. 特征提取:接下来,需要从处理后的邮件数据中提取特征,常用的特征包括词袋模型和TF-IDF模型。

3. 训练模型:使用朴素贝叶斯算法对提取到的特征进行训练,得到垃圾邮件和正常邮件的概率分布。

4. 分类预测:根据训练好的模型,对未知的邮件进行分类预测,判断其是否为垃圾邮件。

三、朴素贝叶斯算法的优势和局限性1. 优势:朴素贝叶斯算法简单高效,对小规模数据表现良好,且易于实现和扩展。

2. 局限性:朴素贝叶斯算法忽略了特征之间的关联性,且对输入数据的分布假设较强。

四、个人观点和理解朴素贝叶斯算法作为一种经典的分类算法,在垃圾邮件分类实验中表现出了较好的效果。

然而,其在处理复杂语境和大规模数据时存在一定局限性。

我认为,在实际应用中,可以结合其他算法和技术,进一步提升垃圾邮件分类的准确率和效率。

总结回顾:通过本文的深入探讨,我们对朴素贝叶斯算法在垃圾邮件分类实验中的原理和应用有了全面、深刻和灵活的理解。

朴素贝叶斯算法的优势和局限性也使我们对其进行了全面的评估。

在未来的研究和实践中,我将继续深入研究和探索其他分类算法,以期进一步提升垃圾邮件分类的效果。

五、垃圾邮件分类实验中的技术挑战和解决办法在垃圾邮件分类实验中,我们面临着一些技术挑战。

基于贝叶斯算法分类的反垃圾邮件系统的实现

基于贝叶斯算法分类的反垃圾邮件系统的实现

伴 随着 电子邮件的迅速普及 , 越来越多 的人群使用 电子邮件 。然 而 , 电子 邮件在 为人们 提供方便的同时也成 为垃圾 邮件 、 病毒 、 意程 序或敏 恶 感 内容 邮件 传播的重要载体 , 对系统安全造 成了严重 的威 胁 。近几年来 , 垃圾 邮件的泛滥是 由于专 门发送垃 圾邮件的服务器大批 涌现 。由于 网络 的开放 陛, 邮件成 为互联网上的— 个 日 严重的全球 性安全 问题 , 垃圾 益 越 来越得 到社 会大众和研究人员 的重 视和关注。 因此 , 针对这一 问题尽快寻 找解决 方案的需求也更加迫切 。 1垃圾邮件的定 义及其 危害 20 0 3年 , 中国互联 网协 会在 《 中国互联网协会反垃圾 邮件规范 》 中对 垃圾 邮件作 了以下定 义 :收件 人事先 没有 提出要 求或 者同 意接 收 的广 告 、 刊物 、 电子 各种形式 的宣传品等 宣传 l的 电子 邮件 ; 生 收件 人无法拒 收 的电子邮件 ;隐藏 发件人身份 、 、 题等信息 的电子邮件 ;含有虚假 地址 标 的信 息源 、 发件人 、 由等 信息的电子邮件 。 路 垃圾 邮件 的泛 滥给 人们带 来的危 害和损 失 主要 体 现在 以下 几个方 面 : 邮件给 网络运 营商 ( P造成 了严 重的损失 。大量 的垃圾 邮件 在 垃圾 I ) S 网络上传播 , 占用了 网络带宽 , 网络通信 质量下 降 , 是网络发 生 导致 甚至 拥塞 , 邮件 系统 的正常运行 ; 干扰 垃圾 邮件 侵害 了用户 的隐私权 ; 垃圾 邮 件给 网络带来 了各种 安全性的问题 ; 垃圾邮件成 了计算 机病毒新 的 、 快速 的传播途径 。 2基于垃圾邮件特征 向量判断垃圾 邮件算 法的设计
为:
P C D=∑ P W I (M r z

基于机器学习的垃圾邮件过滤系统设计与实现

基于机器学习的垃圾邮件过滤系统设计与实现

基于机器学习的垃圾邮件过滤系统设计与实现随着互联网的普及,电子邮件成为了现代通信的重要方式之一。

邮件的方便性、实时性以及低廉的成本让人们相信这种通信方式是安全可靠的。

但是,随着电子邮件的覆盖面越来越广,大量的垃圾邮件开始侵袭人们的收件箱,对人们的生活造成了很大的干扰,严重降低了电子邮件的使用效率。

在这种情况下,开发一种基于机器学习的垃圾邮件过滤系统成为了亟待解决的问题之一。

一、垃圾邮件的定义垃圾邮件是指大量或者无意义的广告信息、诈骗信息、推销信息以及其他欺诈性的信息等等,危害了正常的邮件通信秩序。

垃圾邮件的主要特征是:数量大,内容杂乱无章,无实际意义,而且可能包含危险链接或文件。

二、机器学习在垃圾邮件过滤中的作用机器学习是一种人工智能的技术,可以让计算机根据过去的经验自动优化性能。

在垃圾邮件过滤中,机器学习可以帮助我们通过训练模型自动识别垃圾邮件。

这里的模型是指根据邮件的收件人、发件人、邮件的主题、内容以及其他特征来判断邮件是否是垃圾邮件。

这些特征可以通过机器学习算法来识别,并建立模型用于垃圾邮件的分类。

三、机器学习分类算法的介绍在垃圾邮件过滤中,常用的分类算法包括朴素贝叶斯、决策树、支持向量机等。

这些算法都可以根据已有的训练数据自动识别垃圾邮件,进而确定垃圾邮件的特征和规律,最终分类邮件。

朴素贝叶斯算法是一种基于概率的分类算法,它可以根据邮件的各种特征来判断邮件是否为垃圾邮件。

决策树算法是一种基于树型结构的分类算法,可以将邮件划分为不同的类别。

支持向量机算法是一种寻找最优分类界面的算法,非常适合垃圾邮件的分类问题。

四、垃圾邮件过滤系统的设计与实现在基于机器学习的垃圾邮件过滤系统中,主要分为两个部分:训练模型与分类模型。

训练模型是指利用已有的数据集对算法进行训练,分类模型是指根据训练模型对新邮件进行分类。

具体的流程如下:首先,我们需要收集大量的邮件数据,并将它们分为垃圾邮件与普通邮件两类。

然后,将数据集划分为训练集和测试集,并对训练集进行特征提取和选择,包括邮件的发件人、收件人、主题以及内容等等特征。

基于贝叶斯理论的垃圾邮件过滤技术综述

基于贝叶斯理论的垃圾邮件过滤技术综述
G r /bno ayP isn针 对 P 贝 叶 斯 算 法 的 改 进 算 法 门 o G 文
简称 G 贝 叶 斯 算 法 ) R
数 理论 在许 多需 要具 备 自学 能力的智能 系统 中得 该
到 广 泛 的 应用 、
1 3种 贝叶 斯 算 法 的 特 点 分 析 2
() 1 朴素贝 叶斯算 法 朴 素贝 叶斯分类 算法 采用 了变 量独立 假设 的最
量 独 立 假 设 的 情 况 下 这 个 值 是 无 法 计算 的
目前 垃圾 邮件 中用到 的典 型 贝叶斯算 法有朴 素 贝叶斯 算法 、a l rhm 提 出的 基于 贝叶斯 规则 的 P u aa G
垃 圾 邮 件 过 滤 算 法 ( 文 简 称 P 『 叶 斯 算 法 ) 及 下 G』 ! 以
在计算 过程 中, 取训练样 本中 X的最大似然估计

滤掉垃圾 邮件
作为 给定 c下 的 PX xC c , PX xC c  ̄于类 (=. = 即 (=J =k 1 ) )
别 c 中 特 征 变 量 值 等 于 x的 样 本 数 占类 别 c 的样 本 。 数 的 比值
变量 x 在给定 的类别变量 C下都 是独立 的。这样 :
P x =k Px x C e P (x C c …Px xC c  ̄= l c = ( = 】 - k 0 - 2 = k (= n = k C ) I- ) I ) I )
算 叶斯 分 类 器 , 而 对 邮 件 进 行 检 测 , 到 有 用 邮 件 。 从 找 过 机
维普资讯



研 究 与 开 发
— — 一 —
— — — —

基于贝叶斯算法和费舍尔算法的垃圾邮件过滤系统设计与实现

基于贝叶斯算法和费舍尔算法的垃圾邮件过滤系统设计与实现
可 以使 用 个性化 的垃圾 邮件 过 滤方案 , 支持使 用邮件 下载协 议 ( OP 、M P 3 I AP协议 ) 邮件服 务 器下载 邮件 , 从
以及使 用邮件 解析 协议 ( ME协议 )对 于邮件 进行 解析 ,支持 邮件 发送 协议 ( MT MI S P协 议 )帮 助 用户发
l o hm De i n a d I A g rt sg n m plm e t to i e n ai n
F N h. n XUETa - n XI A S iu . 1 inj , AWe u i
( i j N r a U i ri, Tni 3 0 8 , h a T ni om l nv sy I a 0 3 7 C i ) a n e t af n n
摘 要 : 贝叶斯过 滤 算法和 费舍 尔过 滤 算 法均是 利 用统计 学知 识 对于 垃圾 邮件进 行 过 滤的算 法 ,有 着
良好 的过 滤效 果。 该文设 计将 某一词 组 ( 单词 )出现概 率使 用加 权计 算的 方 法 ,改善 了朴素 贝叶 斯算 法和
朴素 费舍 尔的 邮件 过 滤算 法对 于 出现 较 少的单 词误 判情 况 ,使 系统对 于垃 圾 邮件判 断 的准确 率上 升 。设计
poait i rvs i a os hc e a e aei g rh dh a e i e a o t ae s de rbb i oe t t n i t i ys na oi m a e i s r l r m j gd ly mp su i w h h N v B a l t n t N v F h gi h r miu
雪釜进
■ d i 1 9 9js n1 7 - 1 22 1 90 6 o: 0 3 6 /is 6 112 0 20 0
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

作者暨授权人签字:
扬撞生
2012年11月11日
论文题目
南开大学研究生学位论文作者信息 基于贝叶斯算法的垃圾邮件过滤系统设计与实现
姓名
杨艳生
学号
2220091495
答辩日期
2012年11月11日
论文类别 院/系/所
博士口 学历硕士口 硕士专业学位团高校教师口 同等学力硕士口
软件学院
专业
软件工程
联系电话
垃圾邮件的过滤问题实际上就是电子邮件的分类问题,将贝叶斯算法应用 于垃圾邮件过滤中,实际上就是用统计的方法来对电子邮件进行分类。利用贝 叶斯算法设计的垃圾邮件过滤系统在英文邮件的应用中获得了比较好的过滤效 果,本系统中加入了中文分词模块,设计和实现了对中文邮件的过滤功能模块, 并取得了比较好的过滤效果。
学位论文作者签名:
扬艳生
2012年11月11日
非公开学位论文标注说明
(本页表中填写内容须打印) 根据南开大学有关规定,非公开学位论文须经指导教师同意、作者本人申 请和相关部门批准方能标注。未经批准的均为公开学位论文,公开学位论文本 说明为空白。
论文题目
申请密级 保密期限 审批表编号
口限制(≤2年)
口秘密(≤lO年)
任何事情都有正反两个方面,电子邮件给我们带来便利的同时,其带来的负 面影响也日益突出,时常收到一大堆不请自来的垃圾邮件,包括一些推销广告、 虚假信息、反动信息、色情信息等不良信息,甚至会有一些包含病毒的电子邮 件,因此我们不得不花费大量的时间和精力去清理和删除这些垃圾邮件,给我 的工作生活、身心健康带来很大的危害,同时垃圾邮件还占用了大量的网络资 源和存储空间,也对社会造成了严重的经济损失。
南开大学学位论文使用授权书
根据《南开大学关于研究生学位论文收藏和利用管理办法》,我校的博士、硕士学位 获得者均须向南开大学提交本人的学位论文纸质本及相应电子版。
本人完全了解南开大学有关研究生学位论文收藏和利用的管理规定。南开大学拥有在 《著作权法》规定范围内的学位论文使用权,即:(1)学位获得者必须按规定提交学位论文 (包括纸质印刷本及电子版),学校可以采用影印、缩印或其他复制手段保存研究生学位论 文,并编入《南开大学博硕士学位论文全文数据库》;(2)为教学和科研目的,学校可以将 公开的学位论文作为资料在图书馆等场所提供校内师生阅读,在校园网上提供论文目录检 索、文摘以及论文全文浏览、下载等免费信息服务;(3)根据教育部有关规定,南开大学向 教育部指定单位提交公开的学位论文;(4)学位论文作者授权学校向中国科技信息研究所及 其万方数据电子出版社和中国学术期刊(光盘)电子出版社提交规定范围的学位论文及其电 子版并收入相应学位论文数据库,通过其相关网站对外进行信息服务。同时本人保留在其 他媒体发表论文的权利。
system, filtering system and the realization of the filtering
and tests the designed
filtering system by experiment.
Key Words:Spare Mail;Bayes Algorithm;The Chinese Word Segmentation;Feature
关键词:垃圾邮件:贝叶斯算法:中文分词:特征词提取
ABSTRACT
Abstract
Along with the rapid development and application of Internet, although the
wide application of email brings US considerable convenience.But spam mails bring
l 5069633009
Email
Yangyanshen966@1 63.tom
通信地址(邮编):寿光市公安局法制案审大队(262700)
备注:
是否批准为非公开论文

注:本授权书适用我校授予的所有博士、硕士的学位论文。由作者填写(一式两份)签字后交校图书 馆,非公开学位论文须附《南开大学研究生申请非公开学位论文审批表》。
非公开学位论文,保密期限内不向外提交和提供服务,解密后提交和服务同公开论文。 论文电子版提交至校图书馆网站:http://202.113.20.161:8001/index.hun。 本人承诺:本人的学位论文是在南开大学学习期间创作完成的作品,并已通过论文答 辩;提交的学位论文电子版与纸质本论文的内容一致,如因不同造成不良后果由本人自负。 本人同意遵守上述规定。本授权书签署一式两份,由研究生院和图书馆留存。
南开大学学位论文原创性声明
本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研究工作所 取得的研究成果。除文中已经注明引用的内容外,本学位论文的研究成果不包 含任何他人创作的、己公开发表或者没有公开发表的作品的内容。对本论文所 涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本 学位论文原创性声明的法律责任由本人承担。
implementations the spam filtering system on the basis of bays algorithm.
Spam filtering problem is actually the classification problems of email, bays
第二章电子邮件的相关技术介绍………………………7
第一节电子邮件的工作原理…………………………………7 第二节电子邮件的传输协议…………………………………8 第三节电子邮件的内容格式和编码技术………………………..9 第四节本章小结…………………………………………12
第三章贝叶斯分类算法及邮件预处理技术……………….13
第一节贝叶斯分类算法……………………………………13
3.1.1 贝叶斯定理……………………………………………13 3.1.2一般贝叶斯分类模型…………………………………….14 3.1.3朴素贝叶斯分类模型…………………………………….15
第二节邮件内容解析……………………………………..16 第三节文本分词技术……………………………………..17 第四节特征词提取技术……………………………………18 第五节本章小结…………………………………………20 第四章基于贝叶斯算法的垃圾邮件过滤系统的需求分析与设计.21 第一节 系统的需求分析………………………………….21 第二节系统的总体设计……………………………………24 第三节系统子功能模块设计………………………………..26
US considerable trouble.In view of spam,the thesis which based on bays algorithm
as the theoretical, applies the theory to engineering application, and designs and
algorithm and E—mail pretreatment, which provides a theoretical basis for designing
spam filtering system.Finally,the paper introduces the design scheme of the spam
the related knowledge of email, which provides basic technical knowledge for
designing spam filtering system.Thirdly,the thesis introduces the algorithm ofbays
achieves better results for English email.This system joined the Chinese word
segmentation module,Design and realizes the Chinese mail filtering function
Wbrds Extracted
IIபைடு நூலகம்
目录
目录
第一章绪论………………………………………1
第一节课题的研究背景及意义……………………………….1 第二节国内外研究现状…………………………………….2 第三节本文的主要研究内容…………………………………5 第四节本文组织结构安排…………………………………..5
4.3.1黑白名单和规则过滤模块设计……………………………..27 4.3.2邮件预处理模块设计…………………………………….28 4.3.3系统训练模块设计………………………………………34
III
目录
4.3.4系统分类模块设计….…………………………………..35
第四节数据库模块设计……………………………………36 第五节本章小结…………………………………………37 第五章基于贝叶斯算法的垃圾邮件过滤系统的具体实现与测试.38 第一节邮件采集模块的实现………………………………..38 第二节黑白名单和规则过滤模块的实现……………………….42 第三节电子邮件预处理模块的实现…………………………..43
IV
第一章绪论
第一章绪论
第一节课题的研究背景及意义
随着互联网技术的迅速发展和广泛应用,电子邮件作为一种经济、方便、 快捷的通信方式也得到了快速的发展,成为互联网用户一种必备的通信工具, 是互联网技术成功应用的典范。现在电子邮件的使用已经相当普及,通过电子 邮件我们可以和地球上任何使用互联网的人进行交流沟通,而且其具有操作简 单,速度快捷,费用低廉,传递的信息量大等特点,是其他通信方式无法与之 相比的。
5.3.I 邮件文本内容提取子模块的实现……………………………43 5.3.2邮件文本内容解码子模块的实现………….………….…….46 5.3.3邮件文本分词子模块的实现……………………………….47 5.3.4去停用词模块的实现…………………………………….47 5.3.5特征词提取模块的实现…………………………………..50
相关文档
最新文档