基于概率神经网络的垃圾邮件分类
卷积神经网络中的垃圾邮件过滤技术

卷积神经网络中的垃圾邮件过滤技术随着互联网的普及和电子邮件的广泛应用,垃圾邮件问题也日益严重。
垃圾邮件不仅占据了用户的宝贵时间和网络带宽,还可能带来安全隐患和信息泄露的风险。
为了解决这一问题,研究人员借助卷积神经网络(Convolutional Neural Network, CNN)技术,开发出了一种高效的垃圾邮件过滤技术。
一、卷积神经网络简介卷积神经网络是一种深度学习模型,其灵感来源于人类视觉系统的工作原理。
它通过多层神经元网络,对输入的数据进行特征提取和分类。
卷积神经网络具有自动学习特征的能力,能够从原始数据中提取出高级抽象的特征。
二、垃圾邮件过滤问题垃圾邮件过滤是一项复杂的任务,因为垃圾邮件的形式多样,包括广告、欺诈、诈骗等。
传统的垃圾邮件过滤方法主要基于规则和特征工程,需要人工提取特征并设置规则,无法适应垃圾邮件形式的快速变化。
三、卷积神经网络在垃圾邮件过滤中的应用卷积神经网络通过自动学习特征,可以从原始邮件数据中提取出有用的信息,从而实现垃圾邮件的自动分类。
具体而言,卷积神经网络通过卷积层、池化层和全连接层等组件,对邮件中的文本、图片等进行特征提取和分类。
1. 卷积层:卷积层是卷积神经网络的核心组件,通过卷积操作对输入数据进行特征提取。
在垃圾邮件过滤中,卷积层可以对邮件中的文本进行卷积操作,提取出文本中的关键词、短语等特征。
2. 池化层:池化层的作用是对卷积层输出的特征图进行降维和压缩。
在垃圾邮件过滤中,池化层可以对文本中的关键词、短语进行池化操作,提取出最重要的特征。
3. 全连接层:全连接层将池化层输出的特征进行分类。
在垃圾邮件过滤中,全连接层可以将提取出的特征与已知的垃圾邮件特征进行比较,从而判断邮件是否为垃圾邮件。
四、卷积神经网络的优势相比传统的垃圾邮件过滤方法,卷积神经网络具有以下优势:1. 自动学习特征:卷积神经网络可以自动学习输入数据中的有用特征,无需人工提取特征和设置规则。
神经网络算法在垃圾邮件识别中的应用研究

神经网络算法在垃圾邮件识别中的应用研究随着互联网和电子邮件的普及,垃圾邮件问题日益突出。
每天都有数以亿计的垃圾邮件被发送到用户的电子邮箱,占据了人们的时间和网络宽带资源。
为了解决这个问题,垃圾邮件识别技术应运而生。
其中,神经网络算法表现出良好的性能,成为了一种有效的垃圾邮件识别技术。
本文将从神经网络算法的基本原理、神经网络算法在垃圾邮件识别中的应用及算法优化等方面对神经网络算法在垃圾邮件识别中的应用进行探讨。
一、神经网络算法的基本原理神经网络是一种通过模拟人脑神经网络实现计算的算法。
它是由多个神经元组成的网络,在网络中神经元之间的连接较复杂,导致神经网络具有自适应学习和模式识别能力。
神经网络的基本原理是将大量的数据输入神经网络模型,通过神经元之间连接的加权和以及激活函数的作用,得出一个结果。
这个结果可以用于分类、回归、预测等操作。
神经网络的训练是通过优化权重和阈值来实现的,其中的参数调节收敛性是神经网络算法的重要研究方向。
二、神经网络算法在垃圾邮件识别中的应用神经网络算法在垃圾邮件识别中的应用是将模型拟合到大量的邮件数据集中,通过对邮件特征的提取与神经网络的模型训练,实现垃圾邮件的分类。
通常,垃圾邮件有以下几个特征:1.邮件内容包含不相关主题的词汇和语句2.邮件中包含网站链接或者附件3.邮件发送者的邮件地址不规范或者不符合常理4.邮件发送次数过多等这些特征对于机器学习模型的训练都有一定的价值。
之前的研究表明,神经网络算法在垃圾邮件识别中有比较高的准确率和召回率。
为了提高模型的性能,除了使用单层神经网络以外,多层神经网络和卷积神经网络等也被引入到垃圾邮件识别模型中。
三、算法的优化神经网络算法在垃圾邮件识别中的应用仍然面临着很多的挑战。
例如,网络的拟合、噪声消除等问题。
为了提高算法的性能,研究者们对算法进行了大量的改进和优化,如下:1.特征选择与抽取在垃圾邮件识别中,神经网络算法需要提取大量的特征,以便模型能够识别出垃圾邮件。
基于神经网络的垃圾邮件过滤

基 于神 经 网络 的 垃 圾 邮件 过滤
王倩倩 , 段 震
( 安徽大学 计算智能与信号处理重点实验室 , 合肥 203 ) 309
摘 要 :垃圾 邮件的过滤是一个具 有重要现 实意义的课题. 交叉覆盖学 习算 法和 向量 空间模 型等技术 相结合 将
可得 到一种新 的垃 圾 邮件过滤方 法. 实验结果 表 明该方 法识别 率较高 , 具有较 强的实用价值. 关键词 : 叉覆盖算 法; 交 垃圾 邮件 ; 邮件过 滤; 向量 空间模 型
然, 可通过变换 : D . : ( )=(  ̄ 2 I I)将样本点映射到球面. 上 , 中,≥m x I I ) : 一 s T x ,/ 一 , r s 其 r a{ 1 的 k 分类样本集. 神经 网络 的覆 盖算法是把求解样本集 .的 k 分类 问题转化成在样本空 间构造覆 盖簇 s 类
收稿 日期 :0 5—1 —2 20 1 9
作者简介 : 王倩倩 (92一 , , 18 )女 安徽六安人 , 安徽大学计算智 能与信 号处 理重点 实验室 20 级 硕士 研究生 ; 04 研究 方 向: 计 算 智能 ; 段 震 (96 , , 17 一)男 天津人 , 大学 计算智能与信 号处理重点实验室在读博士研究生 , 究方 向 : 安徽 研 计算智 能.
了正常的网络应用 ; 另一方面 , 大量不请 自来的广告也影响了人们正常的工作和学习. 因此 , 如何对垃圾邮 件进行有效过滤 , 是当前网络应用研究 中的一个重要方向.
1 研 究 方 法 分 析
目前 的邮件 自动过滤主要有基于规则和基于概率这两种方式 . J基于规则 的邮件过 滤一般是利用包
维普资讯
5 6
合肥学院学报(自然科学 版 )
基于类神经网络的垃圾邮件过滤技术研究设计

中文电子蟮件 0一 以N N为核心邮件过滤器 ……
~ ~ … 一 ,
图 1 研究架构图
研究 的研究架构可 以分为三个部分 : 第一个部 分是资料来源 , 资料来 源是 中文电子 邮件 ; 第二个 部分是以类神经网络为核心 的邮件过滤器 ; 第三个 部分则是进行 邮件分类 的绩效。 目的是希望能够 了解以类神经网络为核心的邮件过滤器, 于垃圾 对 邮件的辨识是否有效 。
实验 。
是安装在个人收信端。邮件服务器上大 多是外挂 反垃圾邮件软件于邮件代理传送程序之上 ; 至于个
人 端则 由用 户代理 程 序 , O T O K , 供 用 户 自 如 UL O 提
行设定条件以及规则进行垃圾信 的比对; 是这样 但
还是无 法 有 效 地 过 滤 垃圾 邮 件 。 而且 由于 为 了避
13 资 料预处 理 .
现 在主要 是针 对 简 体 中文 邮件 , 且 针 对 邮件 并 内容 进行 过滤 , 由于 已经 先 将 垃 圾 邮件 与 非 垃圾 邮 件 分开 , 以主要 是针 对 垃 圾 邮 件 的部 分 进 行 资料 所
预 处理 。 13 1 分 离邮件 标 头 内容 ..
1 研 究架构
研究 架构 如 图 1所示 。
… 一
免误删正常的邮件 , 以对于关键词 的选取 就会采 所 取较为宽松的方法 。因此 , 用户代理程序也开始外 挂一些组件进行垃圾邮件的防制 , 网络安全的厂商 也尽量将原本使用在服务 器端的软件经过修改之
后外 挂在 用户 代理程 序之 上 。 较为 出名 的反 垃 圾 邮件 软 件 , :pm sas 如 Sa A ssi n
维普资讯
第 6卷
第2 3期
基于深度学习的电子邮件分类技术研究

基于深度学习的电子邮件分类技术研究随着互联网的发展,电子邮件已经成为人们日常沟通的主要途径之一。
每天,数以亿计的邮件在网络上发送和接收。
然而,由于它的高效和便利性,垃圾邮件也随之增长。
垃圾邮件不仅浪费用户时间和网络资源,还可能带来安全风险,如钓鱼邮件和恶意软件。
因此,电子邮件分类技术成为了一项重要的研究方向之一。
传统的电子邮件分类方法主要依赖于手工特征提取和机器学习算法。
例如,可以通过提取邮件的主题、正文、发件人和附件等信息来识别垃圾邮件。
但是,手工特征提取需要大量的人工设计和实验,难以应对大规模、复杂的电子邮件数据。
而且,手工特征提取可能会漏掉重要的信息,导致分类准确率下降。
为了解决这些问题,近年来,基于深度学习的电子邮件分类技术越来越受到关注。
深度学习是一种基于人工神经网络的机器学习技术,可以从海量数据中自动学习复杂的特征表示。
与传统的机器学习相比,深度学习不需要手工特征提取,能够处理大规模的高维数据,具有更好的泛化性能。
基于深度学习的电子邮件分类技术主要分为两个阶段:特征表示和分类器设计。
在特征表示阶段,深度学习算法可以通过学习语义空间的结构来自动提取有意义的特征。
例如,可以通过word2vec等算法将邮件转化为连续向量空间中的向量。
在分类器设计阶段,根据已学习的特征表示,我们可以使用各种深度学习模型进行分类。
例如,可以使用全连接神经网络、卷积神经网络或循环神经网络等模型。
实际上,已经有许多关于基于深度学习的电子邮件分类技术的研究。
以下是其中一些研究的细节。
研究一、基于卷积神经网络的电子邮件分类该研究使用基于卷积神经网络的深度学习模型对电子邮件进行分类。
为了获取邮件的语义表示,该模型中使用了双向长短时记忆网络。
模型的测试结果表明,该方法在多个数据集上均超过了传统的机器学习算法,并且具有较高的准确率和召回率。
此外,该研究还发现,在邮件中加入情感值信息可以进一步提高分类效果。
研究二、基于多层神经网络的电子邮件分类该研究使用多层神经网络对邮件进行分类。
基于机器学习的网络垃圾邮件识别技术研究

基于机器学习的网络垃圾邮件识别技术研究随着互联网技术的进步,网络垃圾邮件问题越来越突出。
每天我们都会收到大量的广告邮件、垃圾邮件、诈骗邮件等等,这不仅浪费我们的时间,更严重地影响了我们的工作效率和个人信息安全。
因此,如何对垃圾邮件进行有效识别和过滤是一个迫切需要解决的问题。
近年来,机器学习技术在垃圾邮件识别领域获得了广泛应用,在此基础上本文试图研究、总结关于基于机器学习的网络垃圾邮件识别技术的一些成果和经验,为相关技术的发展提供一些参考。
一、基于机器学习的网络垃圾邮件识别技术概述机器学习是一种能够让计算机从数据中自动学习规律,处理和提高性能的技术。
它可以让机器通过数据学习新的知识,从而提供更加准确、高效的预测和决策,因此机器学习技术在垃圾邮件识别领域得到了广泛应用。
基于机器学习的网络垃圾邮件识别技术可以分为两个阶段:训练和测试。
在训练阶段,根据已知的标记数据集,通过特征提取和分类器训练,得到一个垃圾邮件判别模型。
模型的最终效果取决于两个方面:一是特征的选择和提取,即如何抽取出能够反映垃圾邮件特征的数据;二是分类器的选择和优化,即如何选择一种适合垃圾邮件识别的分类器,并通过调整它的参数得到更加准确的预测结果。
在测试阶段,利用测试数据集对训练好的模型进行验证和评估,以检验模型的泛化能力和准确性。
进一步,可以利用模型预测:将未知的邮件输入到模型中进行判断,以确定是否为垃圾邮件。
因此,一个良好的垃圾邮件识别系统应该基于有效的特征选择和提取算法,结合高效的分类器模型,能够快速、准确地识别未知邮件,以保护用户的信息安全。
二、基于机器学习的网络垃圾邮件识别技术的研究现状目前,基于机器学习技术的垃圾邮件识别研究已经有了很多成果。
下面简单介绍一些代表性的研究:1. 邮件头、文本内容和时间特征的组合这种方法常用于解决不同类型垃圾邮件的识别问题。
例如,互联网广告邮件常常以“慈善机构”或“高薪工作”为噱头,而垃圾邮件通常具有长篇大论、大段的文字等特点。
基于人工智能的电子邮件分类技术研究与实现
基于人工智能的电子邮件分类技术研究与实现随着信息化时代的到来,电子邮件已经成为了人们日常生活以及商务活动中不可或缺的一部分。
每天都有大量的电子邮件进入人们的收件箱,其中包含着各种各样的信息,这些信息有的是很重要的,有的则是垃圾邮件。
如何高效率的对这些电子邮件进行分类,是现代社会所面临的一个重要难题。
而基于人工智能的电子邮件分类技术,将会成为解决该问题的重要手段。
一、电子邮件分类技术的研究现状随着人工智能技术的发展,电子邮件分类技术也逐渐应用到现实生活中。
多数邮件系统现在至少提供基于过滤器的垃圾邮件检测。
垃圾邮件过滤器是一种简单而实用的技术,通常基于文本规则,使用了一些预定义规则和算法的技术来阻止垃圾邮件。
这种基于规则的方法缺点在于,如果有新的模式或垃圾邮件类型出现,规则必须手工添加或更新以进行检查。
由于垃圾信息的变化无常性,这一过程非常耗时和费力。
为了解决这个问题,研究人员逐渐将机器学习方法应用于邮件分类中。
基于机器学习的邮件分类方法主要有两类:监督学习和无监督学习。
监督学习依赖于输入的样本标记,将数据划分为训练数据和测试数据,通过训练得到模型,并用测试集检查这个模型的性能。
基于人工神经网络(ANN)和贝叶斯分类器等监督学习方法,可以将邮件分为垃圾邮件和非垃圾邮件,目前应用较广泛。
无监督学习方法是一种不需要人为标记的技术,也就是说,它不依赖于样本标记。
K-Means算法、层次结构聚类法等无监督学习方法在邮件分类中的应用表现出良好的效果。
二、基于人工智能的电子邮件分类技术现状基于人工智能的电子邮件分类技术主要有两种分类方法,一种是基于内容,而另一种则是基于发送者的信息。
基于内容分类技术是目前更为流行的一种分类技术,这种方法是根据电子邮件的内容对邮件进行分类。
现有的技术主要是基于垃圾邮件的特征,包括邮件正文、主题、附件等内容,理解这些特征的电脑程序会评估出该邮件是否垃圾邮件。
基于发送者的电子邮件分类技术则是根据用户在以往邮件交流中进行的数据、沟通方式、工作关系等信息来对电子邮件进行归类。
基于概率神经网络的垃圾邮件分类
0 引 言
作为 互联 网 的第一 大应 用 , 电子 邮件一 直 受到 广 大 网 民的青 睐 。但 是 近些年 来 , 圾 邮件 问题 日益 严 垃 重 。垃圾 邮件 不仅 耗费 网络 带宽 和计算机 时空 开销 ,
而且 会对 企业 的正 常运 作 和 用 户 的正 常 工作 造 成 严 重 的干扰 。中 国互 联 网协会 反垃圾 邮件 中心 2 0 0 6年
很 多领 域 得 到 了成 功 的应 用 。 概 率 神 经 网 络 是 由
第 二 次 中国反 垃 圾 邮 件 状 况 调 查表 明 , 20 从 06年 3 月到 20 06年 6月 期 间 中国互联 网用户 收到 的 垃圾 邮 件 比例 下 降 了 19 . 8个 百 分 点 , 是 仍 然 高 达 6 . 但 1 9 % 。 中国互联 网 用户 , 均 每周 收到垃圾 邮件 数量 9 平
为 l . 3封 , 79 和上 次调 查每 周收 到垃 圾 邮件 l . 3封 93 相 比下 降 了 14封 。反垃 圾 邮件 道路 依然非 常艰 巨 , . 而且 又 出现 了一 些新 态势 。
( . eate t f o p t ,C og i nvrt, h nqn 00 4 hn ; 1D pr n o m u r hnqn U ie i C o gig 0 4 ,C ia m C e g sy 4 2 C ag agN r l nvri , hn q g 0 0 3 C ia . hnjn o i sy C o gi 80 , hn ; i ma U e t n4 3 N tokC n r C ogigU ie i , hn qn O O 4 C ia ) . e r et , hnqn nvr t C ogig O 4 , hn ; w e sy 4
基于神经网络的邮件分类识别模型研究
文 章 编 号 :6 3— 0 2 20 ) 2— 0 0— 4 的邮 件分 类 识 别 模 型研 究
黄 国玉 , 润 生 龙
( 南华大学 电气工 程学 院 , 湖南 衡 阳 4 10 ) 2 0 1
摘
要 : 文综合 分析 了垃圾 邮件 和合 法 邮件 的特征 , 邮件 结 构 字段 信 息和 邮件 正 本 对
Ab t a t h a e y t eia l n y e h h r ce it s o p m a d lg le i , sr c :T e p p rs nh t l a a z d t e c a a t r i f s a n e a mal c y l sc s
H UANG u y LO NG G o- u, Run-h ng se
( col f lc ia E gneig U i r t o o t hn , e g ag H nn4 10 , hn ) S h o o etcl n i r , nv s y f uhC ia H n yn , u a 2 0 1 C ia E r e n e i S
维普资讯
第2 2卷第 2期
黄国玉 等 : 基于神经 网络 的邮件分类识别模型研究
8 1
两 种 , 种是针对 邮件 地址 的过滤 , 一种是 针对 一 另 邮件 内容 的过 滤. 这 两 种 技 术 都 缺 乏 智 能性 和 但 自适应性 , 于新 出现 的 垃圾 邮件 , 须人工 地重 对 必 新 修改过 滤条 件 以适 应 新 变 化 . 且 随 着 垃圾 邮 并 件 制造者 手段 的多 样 化 , 传统 的基 于 过 滤 的技 术 和方法 的难 以适 应 新 的垃 圾 邮 件 , 因此 研究 一 个
基于深度学习的垃圾邮件检测
Computer Science and Application 计算机科学与应用, 2023, 13(4), 764-772 Published Online April 2023 in Hans. https:///journal/csa https:///10.12677/csa.2023.134075基于深度学习的垃圾邮件检测俞荧妹,禹素萍,许武军,范 红东华大学信息科学与技术学院,上海收稿日期:2023年3月17日;录用日期:2023年4月14日;发布日期:2023年4月21日摘要邮件是日常生活中的一种通讯工具,但垃圾邮件对用户造成严重困扰,因此改进垃圾邮件识别技术、提升其准确率和效率具有重要现实意义。
在文本分类领域,深度学习有很好的应用效果。
故文章提出了一种基于CNN 的BiGRU-Attention 模型,旨在充分利用CNN 的特征提取能力和BiGRU 的全局特征提取能力。
引入注意力机制能够突出显示重要文本,前后共经过两层双向门控循环单元,从而更全面地提取邮件文本特征。
实验数据选取Trec06c 数据集,并与其他分类模型对比,结果表明,检测准确率达到91.56%。
关键词垃圾邮件,文本分类,深度学习,双向门控循环单元,注意力机制Spam Detection Based on Deep LearningYingmei Yu, Suping Yu, Wujun Xu, Hong FanCollege of Information Science and Technology, Donghua University, ShanghaiReceived: Mar. 17th , 2023; accepted: Apr. 14th , 2023; published: Apr. 21st, 2023AbstractEmail is a communication tool in daily life, but spam has caused serious problems for users, As a re-sult, it is crucial to improve spam identification technology and improve its accuracy and efficien-cy. In the field of text classification, deep learning has a good application effect. In order to fully util-ize CNN’s feature extraction capabilities and BiGRU’s global feature extraction capabilities, this ar-ticle suggests a CNN-based BiGRU-Attention model. The introduction of the attention mechanism can highlight important text, which passes through two layers of two-way gated loop units before and after, so as to extract more comprehensive features of email text. The experimental data is selected from Trec06c dataset and compared with other classification models. The results show that the de-tection accuracy reaches 91.56%.俞荧妹等KeywordsSpam, Text Classification, Deep Learning, BiGRU, Attention MechanismCopyright © 2023 by author(s) and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License (CC BY 4.0)./licenses/by/4.0/1. 引言当今社会,互联网的快速发展使得电子邮件在人们的日常生活中发挥了很大的功能,既可以提高工作效率、节约成本,又可以促进人们之间的交流和沟通。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
过滤 ,还有带宽控制 、 贝叶斯过滤以及神经网络等方 案。 人工神经网络是一种用计算机模拟生物机制的 方法 ,由于它不要求对事物内部的机制有明确的了 解 ,系统的输出取决于输入和输出之间的连接权 , 而 连接权可以通过对训练样本的学习获得 ,因此已经在 很多领域得到了成功的应用 。概率神经网络是由 Specht博士在 1989 年提出的一种径向基神经网络的 重要变形 。它与统计信号处理的许多概念有着紧密 的联系 ,主要用于模式分类 。本文正是根据概率神经 网络的特点和已有的研究经验 ,以垃圾邮件贝叶斯分 类为参考 ,对概率神经网络在垃圾邮件过滤的应用潜 力进行了初步的研究 。
测试集 邮件数
460 296
正常邮 件数
2788 1150
垃圾邮 件数
1813 1813
垃圾邮 件比例
39. 4% 62. 0%
入层接受输入向量并格式化 ; ( 2 ) 在径向基神经元 层 ,首先计算输入向量与训练样本之间的距离 , 然后 与阈值向量相乘 , 再经过径向传递函数计算 ; ( 3 ) 在 竞争层接受第一层结点的计算结果并对属于同一类 别的输出综合 ,最后根据各输出结果的大小判断未知 向量所属类别 。如图 1 所示 。
2. 2 实验设计
1
1
ki
πv/ 2σv Ki 2
∑exp
j =1
-
( x - x ij ) T ( x - x ij )
σ2 2
其中 xij是属于类别 i的第 j个训练样本 , ki 是类 别 i中训练样本的数量 ,σi 是平滑参数 , v 是各样本 的维数 ,若先验概率未知 , 可用训练集中每个类别样 本出现频率来估计 :
正确查出的垃圾邮件数 , nL 2 > S表示被认为是合法邮件 的垃圾邮件数 。
10
计 算 机 与 现 代 化
[8]
2008 年第 1 期
2. 4 实验结果对比分析
实验一 : 训练集与测试集的比例为 9: 1, 采用交叉验证方 式 ,其中垃圾邮件占 39. 4% ,如表 2 所示 。
件数
2788 2788
错判数
879 233
W _acc
W _err
TCR 0. 2267 0. 7433
3 结束语
垃圾邮件过滤是网络信息安全研究领域的重要 组成部分 。目前的反垃圾邮件技术还不够成熟 ,不能 完全识别垃圾邮件 ,甚至会阻断正常邮件的交往 。本 文提出的采用概率神经网络进行邮件分类过滤 ,与贝 叶斯分类器相比 , 具有更好的分类能力 , 其稳定性也 得到了明显的提高 。与其他神经网络分类相比 ,其基 本优点在于它训练时间短且不易收敛到局部最小点 , 参数设置简单 。 实验中用到的数据集还仅限于英文邮件数据库 。 今后的工作希望能运用于中文的垃圾邮件过滤 。要 实现基于内容的中文垃圾邮件过滤 ,首先需要解决中 文分词的问题 ; 第二是通过对垃圾邮件的行为模式研 究 ,建立海量的垃圾邮件和正常邮件的特征库 。同时 如何进一步改进概率神经网络的特性 ,使之具有更好 的稳定性 、 泛化能力 ,也是值得研究的问题 。
πi =
ki
在具体实验过程中 , 采用交叉验证方式 , 训练集 和测试集比例为 9: 1,并与贝叶斯分类器结果进行对 比 。由于该实验数据来源于垃圾邮件数据库 ,其中垃 圾邮件比例为 39. 4% , 与现实的垃圾邮件比例状况 不太相符 ,故又设计了一组垃圾邮件比例大约为 62. 0%的实验 (见表 1 ) 。
fi ( x) =
2. 1 实验数据
实验数据来自于 UC I的垃圾邮件数据库 。实例 数据总共为 4601 个 , 其中 1813 个垃圾邮件 , 占 39.
4% 。每个实例由 58 个属性来描述 , 其中条件属性 57 个 ,决策属性一个 ( 1 表示垃圾邮件 , 0 表示非垃圾
邮件 ) 。 1 - 48 个属性为词出现的频率 ; 49 - 54 个属 性为特殊字符出现的频率 ; 55 - 57 个属性分别为邮 件中两个大写字母之间的平均距离 、 最长的距离以及 大写字母的个数 。实验中选取其中 55 个基于内容的 条件属性作为神经网络的输入 。
TCR 值越大表明系统稳定性越好 。本实验中取 λ = 9,即认为正常邮件被误判成垃圾邮件的错误严重
程度是垃圾邮件错判成正常邮件的严重程度的 9 倍 。 其中用 NL 表示实际的合法邮件数 , NS 表示实际 的垃圾邮件数 , nL 2 > L 表示正确查出的合法邮件数 ,
nL 2 > S表示被误判为垃圾邮件的合法邮件数 , nS2 > S表示
摘要 : 概率神经网络是由 Specht博士在 1989 年提出的一种径向基神经网络的重要变形 。本文提出了把概率神经网络用 于垃圾邮件分类 ,并通过 M atlab仿真试验与贝叶斯分类器进行比较 ,得到了比较理想的结果 。 关键词 : 垃圾邮件 ; 概率神经网络 ; M atlab; 分类器 ; 中图分类号 : TP302 文献标识码 : A
2008 年第 1 期 文章编号 : 1006 2 2475 (2008) 01 2 0008 2 03
计 算 机 与 现 代 化 J ISUANJ I YU X I ANDA IHUA
总第 149 期
基于概率神经网络的垃圾邮件分类
郑亚莉
1, 2
,王 康
3
( 1. 重庆大学计算机学院 ,重庆 400044; 2. 长江师范学院 ,重庆 408003; 3. 重庆大学网络中心 ,重庆 400044 )
C la ssify in g and F ilter in g Spa m 2ma il Ba sed on Probab ilistic Neura l Network
ZHENG Ya 2li ,WANG Kang
1, 2 3
( 1. Departm ent of Computer, Chongqing University, Chongqing 400044, China; 2. Changjiang Normal University, Chongqing 408003, China; 3. Net work Center, Chongqing University, Chongqing 400044, China; ) Abstract: The Probabilistic Neural Network is initially derived from Specht’ sModified Radial Basis Neural Network classifier and developed for nonlinear tim e series analysis . In this paper Probabilistic Neural Networks is app lied in spam - mail for classifying and filtering . And the tests result in the sim ulation experi m ent p roves that the PNN classifier can bring higher p recision and effi2 ciency than NaiveBayes Classifier . Key words: Spam 2 mail; Probabilistic Neural Network; M atlab; Classifier
0 引 言
作为互联网的第一大应用 ,电子邮件一直受到广 大网民的青睐 。但是近些年来 ,垃圾邮件问题日益严 重 。垃圾邮件不仅耗费网络带宽和计算机时空开销 , 而且会对企业的正常运作和用户的正常工作造成严 重的干扰 。中国互联网协会反垃圾邮件中心 2006 年 第二次中国反垃圾邮件状况调查表明 , 从 2006 年 3 月到 2006 年 6 月期间中国互联网用户收到的垃圾邮 件比例下 降 了 1. 98 个 百 分 点 , 但 是 仍 然 高 达 61. 99% 。中国互联网用户 ,平均每周收到垃圾邮件数量 为 17. 93 封 ,和上次调查每周收到垃圾邮件 19. 33 封 相比下降了 1. 4 封 。反垃圾邮件道路依然非常艰巨 , 而且又出现了一些新态势 。 在垃圾邮件分类中 ,分类模型是决定分类效果的 关键 。目前反垃圾邮件技术主要是黑白名单 、 关键字
从表 2 可以看出 ,正常邮件错判成垃圾邮件的数
量明显优于贝叶斯分类器 。修正正确率和 TCR 也得 到了极大的提高 ,表明概率神经网络比贝叶斯分类器 更加稳定 。 实验二 : 训练集与测试集的比例为 9: 1, 采用交叉验证方 式 ,其中垃圾邮件占 62. 0% ,如表 3 所示 。
表 3 垃圾邮件占 6210 %的实验结果对比 方法 贝叶斯 概率神经 网络 垃圾邮正常邮正常邮件 件数
参考文献 :
[ 1 ] Specht D F . Probabilistic neural networks[ J ]. Neural Net2 works, 1990, 3 ( 1 ) : 109 2 118. [2] 王雨轩 . 基于 LVQ2 神经网络及决策归纳的中文邮件过
70. 28% 29. 72% 90. 93% 9. 07%
2. 3 评价标准
通常情况下 ,用户宁肯多收垃圾邮件也不愿意丢 掉一封正常邮件 ,即是说垃圾邮件和正常邮件错分重 要程度是不一样的 。故在实验中主要参考修正正确 率和修正错误率 :
λnL 2>L + nS2> S 修正正确率 (W _acc) : W _acc = λ NL +N S 修正错误率 (W _err) : W _err = λnL 2> S + nS2>L λ NL +N S
2008 年第 1 期
郑亚莉等 : 基于概率神经网络的垃圾邮件分类
9
其实质是基于贝叶斯最小风险准则发展而来的一种 并行算法 。它采用贝叶斯规则来估计后验类别概率 P ( ci / x) ,即未知向量 x属于所有可能类别 c 的概率 。 由贝叶斯规则 , 该概率与先验概率 πi (即 : 未知向量 属于每个类别 i的比例 )和概率密度函数 fi ( x) (属于 每个类别向量的概率密度分布函数 )的乘积成正比 : P ( ci / x)∝πi fi ( x) 其中类别 i的概率密度函数如下 :