垃圾邮件的识别和过滤方法

垃圾邮件识别和过滤的方法

T大炮

北京理工大学计算机学院，北京100081

(1111111111@https://www.360docs.net/doc/489195769.html,)

Methods for Identifying and Filtering Junk Mail or Spam

T Biggun

(Class 07111301,School of Computer Science, Beijing Institute of Technology, Beijing 100081)

Abstract Identifying and Filtering Spam is an important research subject in computer network. In this thesis, I have studied the history of spam filtering technology, which mainly includes the first generation of rule-based filtering technology, the second generation of content-based filtering technology and the third generation of behavior-based filtering technology. 1. Rule-based filtering includes IP address based filtering, mail header based filtering. 2. Content-based filtering includes Bayesian filtering, Memory-based method, decision tree, Boosting method, Support Vector Machine (SVM), etc. 3. Behavior-based filtering includes Email data stream based filtering, mail header based filtering, sender reputation based filtering, mail fingerprint based filtering, behavioral characteristics weighted based filtering, etc. The spammers’ common spurious methods are summarized. Through the reference to large amount of anti-spam documents and data from home and broad, an analysis is made on existing anti-spam techniques and in particular the content-based spam filtering methods.

Key words spam filtering; rule; content; text categorization; Na?ve Bayes; behavior

摘要垃圾邮件识别和过滤是计算机网络领域的一个重要研究课题。垃圾邮件识别和过滤目前已经发展出了三代技术，第一代过滤技术是基于规则的，例如：基于IP地址、基于邮件头的过滤技术。第二代过滤技术是基于内容的，例如：贝叶斯分类算法、Memory-Based方法、决策树、Boosting方法、支持向量机等方法。第三代过滤技术是基于行为的，例如：基于邮件数据流、基于邮件头信息、基于发送方信誉、基于邮件指纹、基于行为特征加权的决策树等过滤方法。本文归纳总结了当前垃圾邮件发送者经常采用的欺骗手段和方法，并参阅国内外大量反垃圾邮件文献和数据，对已有的垃圾邮件技术作出分析和总结，尤其是对基于内容的垃圾邮件过滤方法进行了研究。

关键词垃圾邮件过滤；规则；内容；文本分类；简单贝叶斯；行为

随着互联网的发展，垃圾邮件常常让人头痛不已，最新报告称美国为垃圾邮件第一大国，中国排名第三（图1）[1]。垃圾邮件问题如今已经成为一个社会热点，近些年来，研究人员们提出了很多垃圾邮件识别和过滤的方法。这些方法的发展经历了三代，第一代过滤技术是基于规则的，例如：基于IP地址、基于邮件头的过滤技术。第二代过滤技术是基于内容的，例如：贝叶斯分类算法、Memory-Based方法、决策树、Boosting方法、支持向量机等方法。第三代过滤技术是基于行为的，例如：基于邮件数据流、基于邮件头信息、基于发送方信誉、基于邮件指纹、基于行为特征加权的决策树等过滤方法。本文归纳总结了当前垃圾邮件发送者经常采用的欺骗手段和方法，并参阅国内外大量反垃圾邮件文献和数据，对已有的垃圾邮件技术作出分析和总结，尤其是对基于内容的垃圾邮件过滤方法进行了研究。

图 1 世界垃圾邮件最多国家排名

Fig.1 Country Ranking on Spam

1 基于规则的垃圾邮件过滤

1.1 基于IP地址的垃圾邮件过滤方法

基于IP地址的过滤技术是目前使用最为广泛的一种过滤技术，包括基于网络的IP地址过滤技术，如BGP 和路由器访问控制列表；基于主机的IP地址过滤技术，如TCP Wrappers和主机路由表的过滤；以及目前最常用的IP地址黑、白名单的过滤[2]。

黑白名单技术基于这样的界定：白名单中的任何邮件都是合法邮件，而黑名单中的任何邮件都是垃圾邮件。故通常会收集一个黑白名单的列表，这个列表里的内容可以是电子邮件地址或邮件服务器的域名、IP地址等，收到邮件时进行实时检查，将符合黑名单的邮件放入垃圾文件夹中。黑白名单一般由权威的组织提供，如中国互联网协会等。个人也可以根据需要调整自己的黑白名单。

基于IP地址的过滤技术实现起来简单方便，可以应用与多个层次。但是缺点是可能会伤及无辜，因为有一些垃圾邮件是通过别人的服务器来转发的，这样就会将别人无辜的服务器给屏蔽掉。所以，黑白名单具有一定的局限性。

1.2 基于邮件头的垃圾邮件过滤方法

基于邮件头的过滤技术主要是使用正则表达式对邮件头进行关键字的匹配，检查发件人的信息是否符合过滤要求，根据匹配结果决定阻塞或者接收具有特定单词或短语的邮件。注意理解以下几点有助于识别含有伪造内容的信头。

（1）收件人地址和发件人地址

一般的MUA是从用户在SMTP的DA TA命令后输入的数据中提取From、To等字段的内容的，但是如果发件人的MUA不是按照这个逻辑工作，或者发件人故意让这两个字段的内容与SMTP会话时使用的MAIL FROM和RCPT TO的内容不一致时，就会发生发件人是自己的名字或者收件人不是自己的名字等情况。

（2）关于Open Relay

如果发件人使用的不是自己的服务器，而是使用别人的服务器的Open Relay的漏洞，这样就会给追踪邮件的真实来源带来困难。如果一个邮件服务器和发件人、收件人都不属于同一个域，就应该怀疑是否使用了Open Relay。

（3）Received信息

邮件头中的Received信息是由SMTP服务器自动加入的，发送者无法干预，因此，通过比较Received域，特别是第一次经过的邮件服务器的Received域，可以识别出伪造的发件人地址。

但是，规则匹配的方法也有不妥之处，其缺点是规则是人工指定的，需要花费时间和精力去收集信息，更新信息，这无疑是一项持久繁琐的工作。

2 基于内容的垃圾邮件过滤

由于上述基于规则的过滤方法的缺陷，故发展出一套新的方法：基于内容的垃圾邮件过滤方法。对电子邮件的内容（如正文）进行分析，识别出垃圾邮件。这就将垃圾邮件过滤和文本分类和信息过滤联系起来了，将文本分类和信息过滤中常用的方法引入垃圾邮件过滤任务中。这种内容过滤技术提供了更为准确的邮件过滤方法，可以自动获取垃圾邮件的特征，并即时捕捉到垃圾邮件特征的变化[3]。

2.1 垃圾邮件过滤与文本分类

文本分类的首要任务是根据预先确定好的类别体系，将待分类文本分到对应的类别中去，具体来说，就是将邮件分为合法邮件和垃圾邮件。我们可以将电子邮件经过处理获取其正文的文本内容，利用文本分类的算法识别垃圾邮件。但是垃圾邮件分类与一般的文本分类也有很多不同之处。主要有：

（1）对文本分类，每个类别的内容一般不会经常改变。比如说，一个文本属于科技类，将来也还会属于科技类。而垃圾邮件的类别是跟用户的个性化需求相关的，用户对于垃圾邮件的判别可能会随着时间的推移而改变的。同时，垃圾邮件的形式和内容也在不断地变化，因此垃圾邮件过滤中要向用户提供自学习、反馈的机制，以便适应新情况。

（2）无论对于邮件服务器还是对用户客户端，垃圾邮件过滤对时效性的要求比较高，因此要求必须采用高效的分类算法。

（3）在垃圾邮件过滤中我们最不愿看到的就是将合法邮件误判为垃圾邮件，这就要求过滤算法具有较高的准确率。

2.2 垃圾邮件过滤与信息过滤

信息过滤（Information Filtering）是从动态的信息流中找出与用户兴趣需求相关的信息的过程[4]。以文本过滤为例，将新到达的文档与用户的兴趣相匹配，把系统认为与用户相关的文档推送给用户，用户给予反馈，说明被推送的文档中有哪些是他感兴趣的，哪些是不感兴趣的。系统从反馈中自动更新用户的兴趣。文本分类可以看做是一个反馈学习的二值分类问题。信息过滤系统的一般组成为图2所示。

图 2 信息过滤系统

Fig.2 Information filtering System

可以认为垃圾邮件内容过滤是这样的一个信息过滤问题：初始时，提供一定的垃圾邮件和非垃圾邮件给过滤系统学习，得到过滤模型；过滤的信息源是动态的邮件流；用户可以指定自己的垃圾邮件集和非垃圾邮件，供系统反馈学习，建立新的过滤模型。

2.3 文本分类简介

文本分类的任务是：在给定的类别体系下，根据文本的内容，将其自动映射到指定的类别中去。类别体系一般由人工按照应用需求构造。基于内容的文本分类需要指导，即一定数量的已分类好的训练文本或者实例，分类系统从训练文本中获取必要的信息，构造分类器。因此文本分类一般都由训练过程和分类过程两阶段构成（图3）。文本分类技术的应用很广泛，如新闻网页的分类、电子图书的分类等等。

特征集合

分类器

图 3 文本分类器的一般模型

Fig.3 Model of Text Categorization

在文本处理领域，通常采用向量空间模型（VSM，Vector Space Model）表示文本，一篇文本可以表示为一个n维文本向量，其中，表示第个特征项的权重，是特征项的个数，特征项可以是字、词、短语或某种概念，本文中采用词作为特征项。权重有多种计算方法，最简单的是布尔权重，即权重为1（该特征项在文本中出现）或者0（该特征项没有在文本中出现）。更通常的情况下，VSM中的权重计算采用词频（TF，Term Frequency，表示该特征词在文本中出现的次数）和文档频次（DF，Document Frequency，表示出现该特征词的文档数量）的某种组合。

解决了文本表示问题之后，我们可以将文本分类抽象为一般的描述：设类别总数为，表示第类，提供给分类器的训练集（训练集中的文本都已经过人工分类）包含篇文本，特征空间，为特征数量，每篇文本表示成，。一篇待分类文本泛化表示为，任务是将分到相应的类别中去。

2.4 特征选择方法

训练集中包含了大量的词汇，如果把这些词都作为特征，将带来一系列问题。首先是向量的维数太大，给计算带来了非常大的压力，存储空间大、处理速度慢。其次是这些词中实际上有很大一部分是与类别无关的，对分类作用不大。因此，我们要降低向量的维数，选择那些有代表意义的词作为特征。先对文本进行预处理，去掉那些常用的对分类用处不大的词（称为停用词，stop word），然后采用某种特征选择方法对所有的词排序，选出排在前面的一定数量的词作为特征。常用的特征选择方法有[5]：

2.4.1 文档频次

文档频次（DF）是出现特征项的文档数量。通常认为DF太小的词没有代表性，而DF太大的词又没有区分度，所以基于DF的特征选择方法只留下那些DF介于中间的词作为特征。

2.4.2 互信息

互信息即Mutual Information，简称MI，定义如下：

表示第类文本在训练文本集合中出现的概率，表示在训练集合中出现的概率，表示在第类文本中的出现概率。MI越大，词和类的共现程度越大。

2.4.3 信息增益

信息增益即Information Gain，简称IG，定义如下：

反映了该词为整个分类所提供的信息量。

上式中，表示词不出现的概率，表示词出现的情况下文本属于类的概率，表示词不出现的情况下文本属于类的概率，下面的公式中相应变量的含义与此相同。

2.4.4 统计量

A、B、C、D均表示文本数量，如表1所示，N=A+B+C+D。

表1 文本种类划分

Table 1 Division on Text Categorization

统计量度量词和类别独立性的缺乏程度，越大，独立性越小，相关性越大。表示对所有类别求平均的统计量。

2.4.5 相对熵

也称为KL 距离（Kullback-Leibler divergence），反映了文本类别的概率分布和在出现了某个词的条件下文本类别的概率分布之间的距离，该值越大，词对文本类别分布的影响也大。

2.4.6 优势率

即Odds Ratio，用于二类分类问题：

2.5 垃圾邮件内容过滤中应用的文本分类方法

以下介绍已经应用于垃圾邮件内容过滤的一些算法。多种分类方法和机器学习理论都可以应用于垃圾邮件过滤[6]，包括贝叶斯分类器（Bayesian Classifiers）、Memory-Based方法、决策树（Decision Trees）、Boosting 方法、支持向量机（Support Vector Machine，SVM）等等。

2.5.1 贝叶斯分类算法

贝叶斯分类器是一类常用的分类器，最基本的形式是简单贝叶斯（Na?ve Bayes，也称为朴素贝叶斯）分类器。其原理是计算文本属于某个类别的概率，将文本分配到概率最大的类别中去。计算的

时候，利用了贝叶斯公式：

是类的先验概率，是类条件概率。对同一篇文本，不变，设表示为特征集合

，为特征个数，假设特征之间相互独立，则有：

和都可以利用训练集估计。

简单贝叶斯分类器是垃圾邮件内容过滤中广泛应用的文本分类方法[7][8]。利用这种方法，可以根据训练集自动训练，训练的结果反映了训练集的性质。因此邮件用户可以提供一定数量的垃圾邮件和非垃圾邮件，训练自己的垃圾邮件过滤器，从而反映用户自己的个性需求。

Sahami 等人提出了一种多特征融合的贝叶斯过滤方法。特征选择时，一般是从训练集中提取一定数量的词汇作为特征，而他们除了选择词汇特征之外，还将一些“非文本”的特征加入到特征空间中，如邮件标题中包含特定的短语“free、only $、be over 18、…”以及邮件发送者的域名信息等等。加入这些特征后，与词汇特征一起处理，应用贝叶斯分类算法。

2.5.2 Memory-Based方法

Memory Based 也叫Instanced Based，是基于实例的方法。我们以k 近邻（kNN，k-Nearest Neighbor）方法为例说明这种方法的基本原理。k 近邻是Memory-Based 的一种，它直接利用训练集分类：计算待分类文本与每一篇训练文本的距离，找出最相近（最相似）的k 篇文本，然后根据文本所属类别划分这k 篇文本，将待分类文本分到包含文本数最多的那一类中去。计算文本之间的相似度有多种方法，最常用的就是计算两个文本向量之间的夹角余弦值。

Androutsopoulos 等人将Memory Based 方法应用在垃圾邮件过滤上[8]，取得了较好的结果。

2.5.3 决策树

决策树（Decision Tree）方法的实质是从训练集中学习得到以决策树的形式表示的分类规则。分类时，将待分类的文本按照属性值自树根向下逐步比较判断，到叶子结点时，就可以确定文本所属类别。

一棵最简单的决策树结构如图4所示。树的内部结点表示属性或者属性的集合，分支上的权值表示属性的取值，叶子结点是类别。图中，实例空间分为三类：1、2 和3，如，当属性 A 的取值为a2，属性 B 的取值为b2，属性 C 的取值为c1 时，属于类别1。决策树实际上就是一系列规则的形式化表示，如“如果属性 A 取值为a2，属性B 取值为b2，属性C 取值为c1，则属于类别1”。训练的过程就是从样本中学习决策树或者说是学习规则，分类的时候就是沿着决策树往下走到叶子，找到类别归属。

图 4 决策树

Fig.4 Decision Tree

2.5.4 Boosting方法

先介绍两个概念：定义“强规则（或强假设）”为准确率很高的分类规则（或假设），“弱规则（或弱假设）”为准确率不高，仅比随机猜测略好的分类规则（或假设）。最简单的弱假设h(x)可以这样定义：

，如果满足某个断言

，不满足

弱规则比较好寻找，而强规则较难。一个很自然的想法就是通过一定的训练方法逐步将一系列弱规则集合提升为强规则，这就是Boosting 方法的由来。Boosting 方法的基本思想是：给每个训练样本都赋予一个权重，进行T 次迭代，每次迭代后，对分类错误的样本加大权重，使得下一次的迭代更加关注这些样本。Boosting 方法有多种形式，如AdaBoost、AdaBoost.M1、AdaBoost.MH 等。下面以AdaBoost 为例介绍Boosting 方法。

考虑某个类别（对于多个类别，可以训练出多个分类器），将训练集表示为，其中，是文本表示，是训练集中的样本数量表示属于某个类别，等于0表示不属于这个类别。

AdaBoost学习算法描述如图5所示：Boosting开始时，每个样本的权重都初始化为1/N。每一步t中，使用弱规则对样本的类别作出预测，计算错误率和弱规则的权重系数，然后分别更新预测正确和错误的样本权重。是标准化变量，使样本的权重和为1。T为Boosting的次数。最后，输出分类规则H。图中，规则H 是各个弱规则的线性组合的符号函数。

图 5 AdaBoost学习算法

Fig.5 AdaBoost Algorithm

2.5.5 支持向量机

支持向量机（Support Vector Machine，简称SVM，也叫做支撑向量机）是在二十世纪90 年代以来发展起来的一种统计学习方法，在解决小样本学习、非线性及高维模式识别问题中表现较好。

如图6所示，图中的实心点和空心点分别表示两类的训练样本，考虑线性可分的情况，即通过一条直线H 可以把两个类别无错误的分开，H1和H2分别为过各类样本中离分类线最近的点且平行于分类线H的直线，H1和H2之间的距离叫做两类的分类空隙或分类间隔（margin）。最优分类线定义为：该分类线不但能将两类样本分开，而且要使两类的分类间隔最大。直线H1、H2上的训练样本叫做支持向量（Support Vectors），因为它们支撑了最优分类面。图5中的分类线H是最优分类线。推广到高维空间，最优分类线就成为最优分类面。

图 6 最优分类面

Fig.6 Optimal Separating Plane

对于线性不可分的情形，可以构造一个变换，将问题转换到一个新的空间，在这个新空间中线性可分。

支持向量机的基本思想可以概括为：首先将输入空间变换到一个新空间，然后在这个新空间中求取最优线性分类面。

Drucker、Androutsopoulos 等人在垃圾邮件过滤中使用支持向量机方法[9]。

3 基于行为的垃圾邮件过滤

行为模式是指程序执行或者用户操作过程中体现出的某种规律，行为模式通常反映出用户的身份和习惯[10]。行为识别技术根据邮件发送过程中表现出来的行为特征来判断邮件是合法邮件还是垃圾邮件。

行为模式识别能在邮件传输代理阶段，针对垃圾邮件在通信过程中表现出来的特征在其投放到邮件发送队列之前进行判断和处理，如“频繁发送、动态IP、Received域与发件人域不相同”等，这些特征都是垃圾邮件表现出来的行为特征。行为模式识别不需要对整个邮件内容进行判断，只需要在邮件传输阶段进行检测，这大大提高了服务器过滤垃圾邮件的速度，减小网络负荷和流量，同时也不会解析用户的邮件，对用户的隐私起到了很好的保护作用[11]。

目前基于行为识别模式的垃圾邮件过滤已经成为垃圾邮件过滤技术领域的主要研究方向，国内外针对垃圾邮件的行为识别技术已有较多的研究与应用。下面简要介绍几种方案：

3.1 基于邮件数据流的过滤方法

恶意邮件跟踪系统是一款由哥伦比亚大学研发的基于行为识别的电子邮件系统[12]。该系统通过对用户的邮件数据流和发送接收行为建立模型，使用模型来检测异常电子邮件行为，包括垃圾邮件和传播病毒的电子邮件行为。

每封邮件的附件均会由系统生产一个唯一标识符，如果某个标识符所代表的的附件被判定为垃圾邮件属性，其相对应的行为信息将被系统记录。整套系统由一个运行在邮件服务器的客户端和一个运行在中央服务器的服务器端组成，客户端记录邮件附件的行为信息及其数据流，服务器端分析由客户端上传的数据。

3.2 基于邮件头信息的过滤方法

目前采用提取电子邮件头信息，然后分析其每个字段特征来识别垃圾邮件，根据各个字段之间关系来判断邮件分类的方法很多。例如张耀龙[13]采用决策树算法生成垃圾邮件决策树判定模型来识别垃圾邮件，主要是提取发件人域名、IP、各个字段之间的对应关系来生成一定的规则并建立决策树模型进行判断，但其对于连续值的处理效果并不好，而且其未考虑各个属性的权重问题。

张尼[14]等人提出了一种基于地理路径分析的识别方法，该方法通过分析邮件头中的Received字段来跟踪邮件的传输路径，并根据实际的物理邮件服务器的拓扑结构来分析识别垃圾邮件，这种方法只能适用在大型的主干网络上才可行。还有人提出基于SMTP路径分析方法，通过提取邮件头Received字段中邮件服务器的IP

地址，根据从该地址收到的垃圾邮件和合法邮件来建立邮件服务器的信誉，并根据邮件服务器的信誉来判断被测邮件为垃圾邮件的概率，如果大于某个阈值，则可以认定该封邮件为垃圾邮件。

3.3 基于发送方信誉的过滤方法

可以根据分析对象分为[15]：基于发送方IP信誉的识别方法、基于发送方域名信誉的识别方法以及基于邮件指纹信誉的识别方法。其中，基于发送方IP或者域名信誉的方法存在一定的缺陷，因为垃圾邮件的发送者通过伪造发送IP和域名，或者其采用动态IP，使得正常的邮件服务器信誉降低，造成正常邮件服务器的邮件甚至无法发出。

3.4 基于邮件指纹的过滤方法

基于邮件指纹的过滤方法相比之下则没有以上问题，而且对于群发垃圾邮件具有很好的过滤效果。其原理是通过采用哈希函数，对每封邮件产生其自身唯一的指纹，相同的或者相似的邮件将会产生相同的指纹，一旦判断某封邮件为垃圾邮件，与其相同或者相似的邮件将会被判断为垃圾邮件。

文献[16]中提出了基于浅层和深层行为解析两种行为解析方法，浅层行为解析把邮件通信行为理解为现实世界中的人际关系网络，从所建立的网络模型中提取用户关系群组，然后把这些用户关系群组用于群发邮件过滤。深层行为解析即将基于行为的过滤技术和基于内容的过滤技术结合，使用SMTP会话过程中的命令，MUA 的指纹信誉同时结合头信息进行邮件分类。

3.5 基于行为特征加权的决策树过滤方法

基于行为特征加权的决策树过滤算法的思想为:针对大量的垃圾邮件所表现出来的行为特征，选取出一系列的行为特征，采用主成分分析法选取其中具有代表性的特征，然后选取等量的正常邮件和垃圾邮件，根据统计的方法分别计算某一特征对正常邮件和垃圾邮件的贡献率，作为其权值，采用决策树算法生成判别决策树，使用大量的已知属性的邮件样例测试决策树，分别得到正常邮件和垃圾邮件的加权平均权值，作为垃圾邮件和正常邮件的判断阈值。

如果邮件的路径权值小于垃圾邮件阈值，则判定为垃圾邮件;如果大于正常邮件阈值，则该邮件被判断为正常邮件;介于二者之间则使用决策树算法判断。

4 结束语

随着Internet的普及，电子邮件由于其具有方便、快捷、低成本的优点逐渐成为现代社会主要的网络通信方式之一。但近年来，垃圾邮件的日趋泛滥给电子邮件系统和用户带来了严重的危害甚至损失。垃圾邮件的传播不仅浪费网络资源，造成邮件服务器负荷增大，而且也成为有害信息和病毒传播的重要途径。为了保护邮件系统的正常运行和邮箱用户的利益，必须使邮件系统具有反垃圾邮件的能力。面对目前反垃圾邮件的严峻形势，研究高性能的反垃圾邮件模型已经成为迫切的形势要求和计算机工作者义不容辞的责任。

本文通过简要介绍三代垃圾邮件识别和过滤方法，展示了目前国内外一些研究人员的研究成果，我通过查阅资料对垃圾邮件识别和过滤技术有了一些粗浅的认识，这对我今后的学习生活意义重大。

参考文献

[1] 黄蓉. 最新报告称美国是垃圾邮件第一大国中国排第三[EB/OL]. https://www.360docs.net/doc/489195769.html,/, 2014-07-25.

[2]曹麒麟, 张千里. 垃圾邮件与反垃圾邮件技术[M]. 北京: 人民邮电出版社, 2003.

[3] 潘文锋. 基于内容的垃圾邮件过滤研究[D]. 中国科学院研究生院（计算技术研究所）, 2004.

[4] Douglas W Oard, Gary Marchionini. A Conceptual Framework for Text Filtering. CAR-TR-830 CLIS-TR-96-02 CS-TR-3643 EE-TR-96-25, May, 1996.

[5] Yang Yiming, Pederson J O. A Comparative Study on Feature Selection in Text Categorization[A]. Proceedings of the 14th International Conference on Machine learning[C]. Nashville: Morgan Kaufmann, 412-420, 1997.

[6] I. Androutsopoulos, G. Paliouras, E. Michelakis. Learning to Filter Unsolicited Commercial E-Mail. Technical report 2004/2, NCSR "Demokritos", 2004.

[7]Mehran Sahami, Susan Dumais, David Heckerman, Eric Horvitz. A Bayesian Approach to Filtering Junk E-mail. Learning for Text Categorization: Papers from

AAAI Workshop. Madison, Wisconsin, 55-62, 1998.

[8]I. Androutsopoulos, J. Koutsias, K.V. Chandrinos, C.D. Spyropoulos. An Experimental Comparison of Naive Bayesian and Keyword-Based Anti-Spam Filtering with Encrypted Personal E-mail Messages. Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2000), Athens, Greece, pp. 160-167, 2000.

[9] Drucker, H. D., Wu, D., V., V. Support Vector Machines for spam categorization. IEEE Transactions on Neural Networks 10, 5, 1048-1054, 1999.

[10] 陈志贤. 垃圾邮件过滤技术研究综述[J]. 计算机应用研究, 2009(05).

[11]李璇. 基于行为识别的垃圾邮件过滤技术的研究与应用[D]. 武汉理工大学, 2013.

[12] Stolfo，S.J.Hershkop，Ke Wang，Nimeskern，EMT/MET: systems for modeling and detecting errant email，DARPA Information Survivability Conference and Exposition, 2003.

[13] 张耀龙. 行为识别技术在反垃圾邮件系统中的研究与应用[D]. 北京: 北京邮电大学, 2006(03).

[14] 王洪斌. 基于决策树算法的垃圾邮件通信行为检测过滤技术研究[D]. 黑龙江: 哈尔滨理工大学.2008(03).

[15] Zhang Jianzhong，Xu Wei，Peng Yudi. MailTrust: A Mail Reputation Mechanism Based on Improved Trust Guard，Communications and Mobile Computing (CMC)，2010 .

[16] 朱文龙. 基于行为分析的垃圾邮件过滤技术研究[D]. 黑龙江: 哈尔滨工程大学. 2010(01).

电信业防毒、反垃圾邮件解决方案

电信业防毒、反垃圾邮件解决方案各种信息技术的不断发展为电信运营商带来了广阔的商机，同时也带来了新的威胁和风险。作为基础网络提供商的电信企业，影响最大、威胁最大的风险就是那些消耗基础带宽、影响网络性能的威胁，主要包括混合型病毒和各种垃圾邮件。适于电信级业务的防御技术 Symantec的方案从“主动防御、主动反应”这一观点出发，协助运营商建立适用电信业务、可伸缩、抗打击的防病毒网络，可在最新的混合型病毒没有出现之前就形成防御墙，避免病毒带来的损失。１．通用漏洞利用阻截技术正如只有形状正确的钥匙才能打开锁一样，当新漏洞出现时，研究人员可以描述经过网络到达漏洞计算机，并利用该漏洞实施入侵的数据的特征。对照该“形状”特征，就可以检测并阻截具有该明显“形状”的任何攻击。２．行为阻截技术在系统中实时监控各种程序行为，一旦出现与预定的恶意行为相同的行为就立即进行阻截。使用了带行为阻截技术的Symantec防病毒软件之后，防病毒软件将监视计算机上的所有外发电子邮件。如果该电子邮件有附件，则将对附件进行解码，并将其代码与计算机中启动此次电子邮件传输的应用程序相比较。如果非常相似，防病毒软件将终止此次传输，从而中断蠕虫的生命周期。３．精确的多层过滤反垃圾邮件技术 Symantec通过采用全面的、多层级的过滤技术来防御垃圾邮件。通过为电信运营商设计智能、多层的混合型病毒和垃圾邮件防护架构，可以优化全系统内混合型病毒和垃圾邮件事件的监控，以便及早发现、及时通报、快速处理，缩短响应时间，有效降低病毒可能造成的损失。建立多层、分布式的混合病毒和垃圾邮件防御架构，既与电信运营商现有行政管理模式相匹配，提高管理效率，同时又能体现“统一规划，分级管理”的思想，让各省级单位分担总部，地市级单位分担省公司的运行维护负担。解决方案三大支柱１．Symantec Network Security 7100系列入侵防护设备 SNS 7100系列是新一代的网络安全产品，同时具备IPS（入侵防御）和IDS（入侵检测）两项功能。作为成熟的IPS产品，SNS是自动防御的网络安全产品，无需人工干预，可自动检测、屏蔽网络入侵行为，减少用户用于日常维护的人力成本。SNS可以透明（inline）方式部署在用户网络中，不用修改用户网络结构，也不用修改交换机配置。配合产品自带的安全策略，实现了即插即用。２．Symantec Brightmail Antispam反垃圾邮件解决方案

贝叶斯过滤垃圾邮件算法的基本步骤

一、贝叶斯过滤算法的基本步骤 1)、收集大量的垃圾邮件和非垃圾邮件，建立垃圾邮件集和非垃圾邮件集； 2)、提取邮件主题和邮件体中的独立字串例如 ABC32，￥234等作为TOKEN串并统计提取出的TOKEN串出现的次数即字频。按照上述的方法分别处理垃圾邮件集和非垃圾邮件集中的所有邮件； 3)、每一个邮件集对应一个哈希表，Hashtable_Good对应非垃圾邮件集而Hashtable_Bad对应垃圾邮件集。表中存储TOKEN串到字频的映射关系； 4)、计算每个哈希表中TOKEN串出现的概率P=（某TOKEN串的字频）/（对应哈希表的长度）； 5)、综合考虑hashtable_good和hashtable_bad，推断出当新来的邮件中出现某个TOKEN串时，该新邮件为垃圾邮件的概率。数学表达式为： A事件——邮件为垃圾邮件; t1,t2 ,...,tn代表TOKEN串则P（A|ti）表示在邮件中出现TOKEN串ti时，该邮件为垃圾邮件的概率。设 P1（ti）=（ti在hashtable_good中的值） P2（ti）=（ti在hashtable_ bad中的值）则 P（A|ti）= P1（ti）/[（P1（ti）+ P2（ti）]； 6)、建立新的哈希表 hashtable_probability存储TOKEN串ti到P（A|ti）的映射； 7)、至此，垃圾邮件集和非垃圾邮件集的学习过程结束。根据建立的哈希表Hashtable_Probability可以估计一封新到的邮件为垃圾邮件的可能性。当新到一封邮件时，按照步骤2）生成TOKEN串。查询hashtable_probability 得到该TOKEN 串的键值。假设由该邮件共得到N个TOKEN串，t1,t2…….tn, hashtable_probability 中对应的值为P1，P2，。。。。。。PN，P(A|t1 ,t2, t3……tn)表示在邮件中同时出现多个TOKEN串t1,t2…….tn时，该邮件为垃圾邮件的概率。

垃圾邮件防护系统分析与应用方法

垃圾邮件防护系统分析与应用方法【内容提要】: 随着联机上网费用日趋便宜，发送电子邮件广告几近零成本又有利可图，因此造成垃圾邮件如今日混乱猖獗的现况。针对这种问题，许多公司研究出许多垃圾邮件防护和过滤机制产品，本文将对垃圾邮件的有关防护过滤技术和解决方法作一个基本介绍。【关键词】：垃圾邮件、邮件防护、技术分析、AFS、华硕、过滤、机制引言---------- 随着互联网的蓬勃发展，E-mail信息的传播达到了前所未有的广度和深度。同时不请自来的电子邮件也以各种形式闯入我们的邮箱- 商品推销、诈骗、政治或宗教抨击、病毒载体以及无法归类的稀奇古怪的形式。有些人每天甚至要收到100 到200 封这样的垃圾电子邮件（甚至更多）。因为更多的人开始使用英特网的关系（自因特网建立以来，人数飞速增长），对于商人、小贩、想入非非者以及蓄意破坏者而言，可以无偿地联系到数目巨大的各类人，诱惑力变得难以抵挡，自此大量的垃圾邮件在世界的各个角落产生，并瞬间传递到世界其他任何地方，这种费时且消耗CPU 的破坏行为迅速对经济产生了极大的负面影响。现今越来越多的人开始意识到垃圾邮件的传递所带来的严重后果，并不断提出防治的新需求。一垃圾邮件的定义一封完整的电子邮件包含以下项目：邮件信封Mail Envelope、邮件标题Mail Header、邮件本文Mail Body 与邮件附檔Mail Attachment。电子邮件传输处理分为两阶段：邮件传输代理Mail Transfer Agent (简称MTA)，例如邮件服务器，以及与邮件使用代理Mail User Agent (简称MUA)，例如Outlook 或Outlook Express。如果以邮件內容定义垃圾邮件，容易随个人主观认定而异；对银行业、娛乐业，广告业而言，包含其他银行贷款广告、色情广告的邮件，可能是种具有价值的市场资讯，而非垃圾邮件；因此，必需依邮件行为始能，依众人认知、法律规范与国际法规逐一精确定义何为垃圾邮件。 1. 众人认知：不请自來、来路不明、无法拒绝之邮件。 2. 法律规范：造成骚扰、匿名文书或嫁祸他人之邮件。 3. 国际法规： 2003 年底美国立法明定「Can Spam」垃圾邮件法规「Can Spam」字面表示可以「Spam」，惟有「但书」，寄件者必须表明身分，让收件者可以追溯来源不可以匿名、伪造，或者刻意隐匿或篡改资讯等行为发送电子邮件；发送方式方式不可为垃圾邮件滥发者(Spammer) 慣用之垃圾邮件滥发方式或程式，如借用邮件代替(Open Relay)、出现过多邮件转(Received) 或机器自动发送，以及不断尝试各种进入企业信箱方法等，必须提供收件者「选择权」，具有「取消订阅」机制。综上所述，垃圾邮件之所以恼人并不是因为內容无趣不吸引人，而在于大量滥发，任意长驱直入收信者电子邮件信箱。二邮件信息安全的影响

采用技术手段应对垃圾邮件

计算机世界/2004年/06月/21日/第D12版垃圾邮件的危害引起国内外相关人士的广泛观注,许多安全厂商适时地推出了各种反垃圾邮件的软件和硬件产品。为了帮助广大用户了解反垃圾邮件市场的主流产品与技术,此前,计算机世界评测实验室特别进行了反垃圾邮件产品的横向评测,并于上期公布了评测结果。不过面对价格不菲的反垃圾邮件产品,大多数小型企业和个人用户还是望而却步的。难道除了借助专业的反垃圾邮件产品之外,真的没有其他方法来减轻垃圾邮件的危害吗?答案是,用户可以采用技术手段应对垃圾邮件中国科学院自动化研究所综合自动化技术工程研究中心张前进邹益仁如今,垃圾邮件的危害越来越大,但怎样阻止垃圾邮件,以及因垃圾邮件引发的屏蔽问题,显然还没有得到足够的重视。在舆论的压力下,如何解决垃圾邮件这一长期被忽视的问题终于被摆上了桌面。下面我们将着重从技术角度介绍对付垃圾邮件的方法。 SMT P(Sim ple M ail Transfer Protocol,简单邮件传输协议)在初始设计时的目的就是把电子邮件从Internet上的一台主机传递到另外一台主机,直到电子邮件到达目的地。因此,SM TP最初并没有过多地考虑安全性,后来随着人们逐渐意识到安全的重要性,才对其进行了多次补充和扩展。但是由于邮件服务器的缺省设置都是遵循最初始的标准,以获得最大的兼容性和可用性,因此一个刚刚装好、未加任何修补措施的邮件服务器是不具备诸如对发信人进行身份验证的安全措施。我们必须对其进行修补,并处理好以下几个环节,才能较好地应对垃圾邮件。修补邮件服务器的漏洞由于SMTP和Internet协议的开放性,我们在阻住不需要邮件的同时,保证邮件服务器对Internet邮件用户的可用性是比较困难的。虽然如此,但还是有些技巧可以用来保护邮件服务器。对于一个刚刚安装完的IMail Server系统来讲,我们要对缺省设置做如下修改。邮件转发选项在SMT P服务的SMTP Security属性中,IM ail Server提供了五种邮件转发模式:Relay mail for anyone、Relay mail for、No mail relay、Relay for local hosts only、Relay for local users only。由于本地邮件不使用转发功能,也就是说当一封信的目标主机是IM ail Server所在的计算机或者一封信来源于IMail Server所在的计算机时,该邮件是不用转发的。所以当所有的邮件用户使用相同的IM ail Server或者他们都使用Web M essag ing来存取邮件时,可以简单使用No mail relay模式,也是这几种转发模式中最安全的。但使用这种模式时必须确认Disable SMT P Auth Reporting没有被选中,这样就会强制邮件用户在发送邮件的时候进行身份验证,只有那些通过身份验证的用户才能发送成功。当Outlook或Eudora作为邮件客户端程序时,请确认我的服务器要求身份验证(my server requires authentication)!被选中,其他的邮件客户端也有相应的选项,但文字表达可能不尽相同。

基于机器学习的多级垃圾邮件过滤系统研究与设计

基于机器学习的多级垃圾邮件过滤系统研究与设计[摘要] 传统的垃圾邮件过滤方法只是单方面的从邮件系统管理员的角度将邮件理解为“垃圾邮件”和“合法邮件”两类进行二元处理，很少考虑不同用户对垃圾邮件概念的不同理解和定义，没有更多的从用户角度来过滤和处理垃圾邮件。本文设计了一种面向用户的多层过滤系统，该系统融合了多种机器学习方法，能够在服务器端针对不同的用户采取不同的过滤方案，使用户收到垃圾邮件的概率更小，提高邮件系统的服务质量。 [关键词] 垃圾邮件机器学习系统设计 1.0B0B引言随着Intemet的快速发展，电子邮件作为一快捷、经济的通信方式得到了普及，已成为人们日常交流沟通的手段和企业运转的重要组成部分。然而当前网络中垃圾邮件的泛滥，引起了广大研究者的极大关注，并提出了垃圾邮件问题的多种解决方法。其中基于内容的垃圾邮件过滤主要借鉴机器学习的方法具有一定的“自我学习”能力，是解决垃圾邮件的重要方法[1]。然而当前的垃圾邮件过滤产品琳琅满目，反垃圾邮件系统很少考虑不同用户对垃圾邮件的不同认定，垃圾邮件数量并没有减少。针对垃圾邮件泛滥的现状和当前垃圾邮件产品存在的上述不足，本文设计了一种面向用户的多层过滤系统，该系统融合了多种机器学习方法，能够在服务器端针对不同的用户采取不同的过滤方案。并且本系统不直接依赖具体的邮件系统，能够和不同邮件系统实现简单集成，具有较强的可移植性。 2.系统研究与设计 2.1系统工作流程系统工作流程图如图1所示，邮件过滤包括初步过滤、个性化过滤两个主要模块。在初步过滤阶段系统将到达的邮件分为确定合法的邮件、不确定的邮件、确定的垃圾邮件三大类。个性化模块再对不确定的邮件进行分级，将分级后的邮件送入用户邮箱中。同时个性化过滤模块也从用户邮箱中提取用户信息，以指导分级。 2.2 初步过滤模块工作流程在初步过滤模块，邮件到达系统后，先根据邮件发送者的地址进行黑名单/白名单过滤。黑名单/白名单可以从Spamhaus、RBL服务器获取。邮件预处理模块先对邮件进行分词，英文邮件分词较为容易，中文邮件则由于中文的特殊性使得分词较为困难。本系统采用文献[2]介绍中文实时分词算法，该算法采利用TRIE

中海油垃圾邮件解决方案

中海油垃圾邮件解决方案应用背景：在近几年的时间里，大型传统行业随着电子信息化的大力推进，依赖网络开展业务和管理的模式逐渐普遍，而信息系统面临垃圾邮件的威胁也不可避免地呈指数级增长，垃圾邮件占电子邮件总通讯量的比例达到了75%以上，而这一数字在三年前仅为8%；与此同时，垃圾邮件的类型以及发送手段也愈加复杂化、多样化，电子邮件一跃成为病毒的主要传播方式；这一系列的变化对大型传统行业信息系统网络构成了严重的威胁，中海油网络现状：本次采用梭子鱼垃圾邮件防火墙的客户是中国最大的国家石油公司之一——中国海洋石油总公司（以下简称中国海油）。其是中国最大的海上油气生产商，公司成立于1982年，注册资本500亿元人民币，总部位于北京，现有员工4.4万人。公司的内部管理和海外业务拓展，随着网络系统的建设而日益高效便利，只是伴随着病毒、木马、间谍软件的垃圾邮件对公司的危害已经到了非治理不可的地步：公司形象——这是电子邮件使用者的第一大问题，由于垃圾邮件的泛滥，对于中海油而言，可能造成员工弃用本公司邮箱，这不仅对公司以前网络建设的投入造成浪费，且有损公司在客户和公众心中的形象。降低工作效率——使用者会浪费无谓的时间阅读并处理这些无用的电子邮件，而工作效率降低被认为是公司因垃圾邮件所导致的最大损失。不当内容——垃圾邮件中可能包含攻击性文字，大多是政党攻击，此种邮件可能会伤害特定的群组，甚至牵连公司受到行政审查。此外，还有相当数量的色情、非法宗教、以及其他与国家法规相悖的信息，这些都将对收件人造成不同程度的冲击。浪费IT资源——进入网络的大量垃圾邮件，会影响公司的网络使用带宽。对安全和隐私造成危害——例如邮件病毒、Phisher诈骗邮件、身份盗窃信等，会造成公司及个人信息的外泄或流失等。现代垃圾邮件技术和危害：当前的垃圾邮件发送已经成为跨国性的、有组织的犯罪行为，单靠一个国家的行政力量或单纯依靠公司IT部门自有技术很难应对，因此中海油主动采取了相应手段，防御垃圾邮件的威胁。电子邮件系统目前是中海油的关键业务系统之一，所有Internet电子邮件均统一发送到总邮件服务器，由邮件服务器通过网络分发到各分支机构的电子邮件客户端。目前邮件网关服务器，主要用于收发INTERNET邮件，操作系统Windows 2003，邮件系统为Exchange 20000，前置机部署在DMZ区，后台主要收发邮件的服务器部署位置在内部防火墙后边，高峰期邮件数大约为700－1000左右，每天的电子邮件流量在5万封左右。目前大量垃圾邮件、病毒邮件通过电子邮件系统传播，并不定期对中海油邮件服务器进行洪水攻击、DDos攻击、列举式字典攻击等，初步估计5%左右的电子邮件为病毒邮件，而垃圾邮件数量占邮件总数量的85%以上，而这些垃圾邮件给邮件系统带来了大量潜在威胁：钓鱼式攻击；木马；间谍软件；病毒；后门程序

《垃圾邮件隔离通知》使用说明

《垃圾邮件隔离通知》使用说明 1 概述为进一步提高院邮件系统拦截垃圾邮件的效率，减少垃圾邮件对用户的滋扰，院邮件系统在2009年4月28日，正式启用了新一代智能型反垃圾邮件系统。新一代智能型反垃圾邮件系统不仅具有过滤效果好、运行稳定、负载低、延迟小的优势，而且利用其所采用的“空中拦截”、“行为识别”等连接层和内容层的反垃圾邮件技术，能够对Internet上出现的新型垃圾邮件进行零日防范。在部署新一代智能型反垃圾邮件系统的过程中，院邮件系统还根据广大用户的需求进行了二次开发，使其在充分发挥自身优势的基础上，能够更好的贴近中科院用户的实际需要。新一代智能型反垃圾邮件系统正式启用后，院邮件系统日均过滤垃圾邮件的效率将会保持在90%以上。不仅如此，该系统还能够依据用户需求发送《垃圾邮件隔离通知》，从而方便用户查阅被系统隔离的垃圾邮件，允许用户自行筛选处理，以便将垃圾邮件的误拒率减少到最低。 2 《垃圾邮件通知》的使用方法院邮件系统发送《垃圾邮件隔离通知》的发件人为abuse_digest@https://www.360docs.net/doc/489195769.html,，主题为“×年×月×日垃圾邮件隔离通知”，如图1所示。

图1 《垃圾邮件隔离通知》图示当点击该邮件的主题后，系统将会显示通知的内容，其中列出了被反垃圾邮件系统隔离的疑似垃圾邮件，包括“发件人”、“主题”、“接收日期”、“大小”、“操作”等信息，如图2所示。图2 《垃圾邮件隔离通知》样本在图2所示的《垃圾邮件隔离通知》中，点击其中的“放行到收件箱”链接，系统将把选定的疑似垃圾邮件投递到收件人的邮箱，如图3所示。

图3 邮件成功投递后的系统提示若点击图2中的疑似垃圾邮件主题，系统将会打开新窗口显示垃圾邮件的内容，如图4所示。图4 打开新窗口显示垃圾邮件内容在图4显示的垃圾邮件内容页面中，也设置了“放行”按钮，点击此按钮后，系统即把正在阅读的疑似垃圾邮件投递到收件人邮箱。在院反垃圾邮件系统中，为每个用户都设置了个人白名单，在图2所示的《垃圾邮件隔离通知》中，点击其中的“添加白名单”链接，系统将把指定邮件的发

邮件应用行为模式分析

邮件应用行为模式监测工具相关技术讨论分析１、邮件应用行为模式监测工具技术介绍 1.1黑白名单技术黑名单(Black List)和白名单(White List)分别是己知的垃圾邮件发送者和可信任发送者的IP地址或邮件地址。黑名单技术是最早出现的一种垃圾邮件过滤技术，一般的邮件服务器都有该功能。黑名单技术的原理是确定已知垃圾邮件制造者及其ISP 的域名或IP地址、电子邮件地址，将其整理成黑名单，将黑名单部署在处理网关处，拒绝任何来自黑名单上的垃圾邮件制造者的邮件。白名单的原理是拒绝接收任何邮件，除非用户的邮件地址在白名单上。白名单提供两种使用方式：一种方法是用户阻止不在名单上的信件；另一种方式是系统邮件发送者发送信件，要求其回复，以证实确有邮件发送者其人，经过确认后将其列入白名单中。该技术的优点是不占用计算机资源，易于实施；缺点是需要手动维护黑白名单。由于垃圾邮件发送者经常修改和伪造他们的IP地址和邮件地址以逃避反垃圾邮件手段的检测，因此该方案在总体的垃圾邮件解决方案中仅起补充作用。 1.2反向域名验证（基于邮箱地址可信度的管控工具涉及）该技术对邮件发送者的IP地址进行逆向名字解析，通过DNS查询来判断发送者的IP与其声称的名字是否一致，来判断是否是垃圾邮件。如果反向DNS查找提供的域与邮件上的来源IP地址相符合，该邮件被接受。如果不符合，该邮件被拒绝。由于很多反向DNS目录未被有效建立，或无法正常建立，比如，任何”vanity”域名绝大多数情况下没有一个正确的反向DNS查找。在这种情况下，由这些域发送的邮件将被阻断，造成不可接受的高误报率。

1.3关键词过滤关键词过滤是一种基于内容检查的过滤技术，通常创建一些简单或复杂的与垃圾邮件关联的单词表来识别和处理垃圾邮件，比如”免费”、”色情”等在垃圾邮件中经常出现的词语。该方法通过对邮件的信头、信体、附件的内容进行检查，判定是否符合过滤规则，从而判定是否为垃圾邮件。这是一种简单的内容过滤方式来处理垃圾邮件，它的基础是必须创建一个庞大的过滤关键词列表。这种技术缺陷很明显，过滤的能力同关键词有明显的联系，关键词列表造成漏报、错报的可能性比较大。垃圾邮件发送者经常会采用一些躲避关键词的技术，比如拆词、组词、将一些单词拼错，以图饶过词语过滤器，所以过滤关键词需要经常升级，以适应新的需要。现在的邮件群发软件做的也越来越智能了，由其自动生成和发送的垃圾邮件是随机生成的，不但能随机生成邮件的发件人、收件人和邮件主题，还能随机生成邮件的内容，使得该种技术目前应用范围日趋狭窄。 1.4基于规则评分的过滤技术（规则管理模块涉及）这是一种集合了人工智能技术的应用技术。该技术对邮件进行规则判断。在规则中，每条规则对应一个分数，当邮件符合某一条规则时，就给邮件增加相应的分数，分数越高，该邮件是垃圾邮件的可能性就越高，得分超过一定值时，该邮件将被分类为垃圾邮件。该技术过滤准确率可以达到90%，但不能检测新的垃圾邮件，即漏检率高。为了能使评分有效，规则需要经常更新。； 1.5贝叶斯过滤法贝叶斯算法是以著名数学家托马斯.贝叶斯(Thomas 贝叶斯)(1702-1761)命名的一种基于概率分析的可能性推理理论，通过分析过去事件的知识，来预测未来的事件。贝叶斯过滤法对大量用户已经判定的垃圾邮件和合法邮件进行学习，根据垃圾

怎样避免邮件被当作垃圾邮件

电子邮件送达率是衡量电子邮件营销效果的重要指标之一。随着垃圾邮件越来越泛滥，世界上所有的 ISP 和服务器提供商都采取了越来越严厉的过滤垃圾邮件措施，同时也给正常邮件，以及合法合理、用户欢迎的电子邮件营销带来不便。不过这是大势所趋，不是营销人员能解决的。垃圾邮件过滤方法垃圾邮件过滤方法电子邮件营销人员能做的是尽量减少自己的邮件被当作垃圾邮件的机会。要做到这一点，首先需要了解主要的垃圾邮件过滤方法。第一种是以触发式过滤算法鉴别垃圾邮件，这样的过滤器通常已经装在电子邮件客户端软件或邮件服务器上。其原理是过滤软件检查邮件的发信人，标题，正文内容，邮件中出现的链接和域名，甚至电话号码，当发现带有明显广告性质，或经常出现已知垃圾邮件的典型特征，则给这封邮件打一定的垃圾邮件特征分数。当分数达到一定数值时，邮件将被标志为垃圾邮件，直接过滤到垃圾邮件文件夹。比如，邮件标题中出现￥、$符号，可能给予2 分垃圾分数。邮件内容中出现“免费”、“发票”、“促销”等典型垃圾邮件中经常出现的词汇时，也各给 1 分。邮件中如果包含已经被确认的经常发垃圾的域名，再加 1 分。甚至邮件内容中出现被确认与垃圾邮件相关联的电话号码，也给个分数。当这些垃圾分数相加达到某一个数值时，比如达到 10 分，这个邮件将被标志为垃圾。第二种方法是以黑名单为基础。有一些创建和维护链接邮件黑名单的组织，专门接受用户的垃圾邮件投诉，如果确认确实是垃圾邮件，黑名单运行者将把发送垃圾邮件的服务器和用户IP 地址放入黑名单。比较有规模的垃圾黑名单通常都与其他ISP 及服务器运营商共享黑名单数据库。一旦某个IP 地址被列入黑名单，世界上很多ISP 和邮件服务器将拒收来自这个 IP 地址的所有邮件。有的时候用户投诉其实并不是真的因为所收到邮件是垃圾邮件，而是用户忘记了曾经注册这个电子杂志。如果你的IP 地址被错误地投诉而列入黑名单，唯一的方法是联系黑名单维护组织，说明情况，提出证据，要求把你的IP 地址从黑名单中删除。不过这一过程有时非常复杂艰难。第三种方法是邮件防火墙。很多大公司的服务器是运行在邮件防火墙之后，这些防火墙会综合使用各种过滤器以及黑名单，再加上自行研制的一些算法，来鉴别和剔除垃圾邮件。这些防火墙的算法则更复杂，并且不与其他人分享细节，对正常邮件的送达也可能起到致命的影响。第四种方法是使用邮件确认。当电子邮件帐号收到一封email 时，这封 email 会首先进入待送达队列中排队，同时自动回复给发信人一封确认邮件。确认邮件中包含有一个确认链接，或标题中包含有一个独特的确认序列号，只有原来的发件人点击确认链接，或回复这封确认邮件，发信人的邮件地址才会被列入白名单，原来所发送的第一封原始邮件才真正被送达到收件箱。鉴别和阻挡垃圾邮件大致上是这几种方法，有一些邮件服务器可能会综合使用这些方法。为了避免邮件被这些过滤手段鉴别为垃圾邮件，应该注意下面一些问题。检查服务器 IP 地址是否在黑名单中？选择邮件服务器时，应该检查服务器提供商的IP 地址是否被列在主要的垃圾黑名单中。国际上主要的垃圾黑名单包括： https://www.360docs.net/doc/489195769.html,

垃圾邮件的危害及应对措施

０　引言垃圾邮件的泛滥，已经对互联网和现实社会造成了危害。对垃圾邮件的治理已成为与抗击网络病毒并列的重任。１　垃圾邮件的概况所谓垃圾邮件，包括下述属性的电子邮件：收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性质的电子邮件；收件人无法拒收的电子邮件；隐藏发件人身份、地址、标题等信息的电子邮件；含有虚假的信息源、发件人、路由等信息的电子邮件。垃圾邮件的分类从内容上看，主要是商业广告性质的邮件；另外，有少量政治，团体组织的宣传邮件。从邮件的发送形式上看，有直接发送和第三方转发两种。所谓直接发送，就是邮件的发送者使用自己的服务器，ＩＰ　地址，自己的网络资源传送这些邮件。目前使用更多的是使用第三方服务器转发。对于这种垃圾邮件，只要关闭有关服务器的转发功能就可以了。垃圾邮件的危害。占用网络带宽，造成邮件服务器拥塞，进而降低整个网络的运行效率；侵犯收件人的隐私权，侵占收件人信箱空间，耗费收件人的时间、精力和金钱。有的垃圾邮件还盗用他人的电子邮件地址做发信地址，严重损害了他人的信誉；被黑客利用成助纣为虐的工具；严重影响ＩＳＰ的服务形象，　ＩＳＰ每年因垃圾邮件要失去７．２％的用户；妖言惑众，骗人钱财，传播色情等内容的垃圾邮件，已经对现实社会造成了危害。２　技术上的应对措施２．１　找出真正发件人垃圾邮件一般采用了群发软件发送，发信人的地址是可以任意伪造的，查看信头可以让您找到真正的发件人。查看信头的方法是：（１）如果您是在Ｗｅｂ页面上看邮件的话，直接打开邮件，点击信件显示页面上方菜单中的“原文”，就可以看到信头。（２）如果是用Ｏｕｔｌｏｏｋ　Ｅｘｐｒｅｓｓ来收信的话，指向邮件，不要打开，点击鼠标右键，看信件的属性，再点击详细资料，就可以看到信头。如果有ｓｅｎｄｅｒ的话，ｓｅｎｄｅｒ后面就是真正的发件人；如果没有ｓｅｎｄｅｒ，最后一个ｒｅ－ｃｅｉｖｅｄ　ｆｒｏｍ就是发件人所用的ＳＭＴＰ服务器。Ｒｅｃｅｉｖｅ语句的基本表达格式是：ｆｒｏｍ　Ｓｅｒｖｅｒ　Ａ　ｂｙＳｅｒｖｅｒ　Ｂ，Ｓｅｒｖｅｒ　Ａ为发送服务器，Ｓｅｒｖｅｒ　Ｂ为接收服务器。例如：ＲｅｔｕｒｎＰａｔｈ：＜ｏｗｎｅｒｅｎｅｗｓｄａｉｌｙ＠ｅｎｅｔ．ｃｏｍ．ｃｎ＞Ｒｅｃｅｉｖｅｄ：ｆｒｏｍ　ｎｓ．ｅｎｅｔ．ｃｏｍ．ｃｎ　（［２０２．１０６．１２４．１６７］）ｂｙｍａｉｌ．７７７．ｎｅｔ．ｃｎ（８．９．３／８．８．７）ｗｉｔｈ　ＳＭＴＰ　ｉｄ　ＴＡＡ１３０４３；Ｔｈｕ，　２８　Ｏｃｔ　１９９９　１９：５１：２８　＋０８００Ｒｅｃｅｉｖｅｄ：（ｆｒｏｍ　ｌｉｓｔ＠ｌｏｃａｌｈｏｓｔ）ｂｙ　ｎｓ．ｅｎｅｔ．ｃｏｍ．ｃｎ　（８．９．３／８．９．０）　ｉｄ　ＲＡＡ１９７１４ｆｏｒ　ｅｎｅｗｓｄａｉｌｙｌｉｓｔ；Ｔｈｕ，２８　Ｏｃｔ　１９９９　１７：５０：３０　＋０８００Ｒｅｃｅｉｖｅｄ：ｆｒｏｍ　ｃｈｉｎａｎｅｔｗｅｅｋ．ｃｏｍ　（［２１０．７２．２３５．２１８］）ｂｙ　ｎｓ．ｅｎｅｔ．ｃｏｍ．ｃｎ　（８．９．３／８．９．０）ｗｉｔｈ　ＥＳＭＴＰ　ｉｄ　ＲＡＡ１９６９０ｆｏｒ　＜ｅｎｅｗｓｄａｉｌｙ＠ｅｎｅｔ．ｃｏｍ．ｃｎ＞；　Ｔｈｕ，２８　Ｏｃｔ　１９９９　１７：５０：２８　＋０８００Ｒｅｃｅｉｖｅｄ：　ｆｒｏｍ　ｃｈｉｎａｎｅｔｗｅｅｋ．ｃｏｍ　（［１０．１．２．１０５］）ｂｙ　ｃｈｉｎａｎｅｔｗｅｅｋ．ｃｏｍ　（８．９．３／８．９．０）作者简介：隆益民（１９６５－）　，男，副教授，硕士，研究方向为计算机及网络安全。垃圾邮件的危害及应对措施摘要：电子邮件是人们生活中加强沟通的重要交流工具，但垃圾邮件的泛滥已经使整个因特网不堪重负，垃圾邮件严重影响了人们使用互联网。治理垃圾邮件已成为与抗击网络病毒并列的重任。我国就垃圾邮件的处理上尚未制订相关的法律。也可参照国际通行的做法，针对垃圾邮件制订的较为严格的法律和规定，对垃圾邮件问题进行立法研究，从行政管理和法律角度加强对垃圾邮件的管理。关键词：反垃圾邮件；群发；ＩＤ；电子邮票；黑名单；法律隆益民广东女子职业技术学院　计算机系广东５１１４５０

垃圾邮件的识别和过滤方法

垃圾邮件识别和过滤的方法 T大炮北京理工大学计算机学院，北京100081 (1111111111@https://www.360docs.net/doc/489195769.html,) Methods for Identifying and Filtering Junk Mail or Spam T Biggun (Class 07111301,School of Computer Science, Beijing Institute of Technology, Beijing 100081) Abstract Identifying and Filtering Spam is an important research subject in computer network. In this thesis, I have studied the history of spam filtering technology, which mainly includes the first generation of rule-based filtering technology, the second generation of content-based filtering technology and the third generation of behavior-based filtering technology. 1. Rule-based filtering includes IP address based filtering, mail header based filtering. 2. Content-based filtering includes Bayesian filtering, Memory-based method, decision tree, Boosting method, Support Vector Machine (SVM), etc. 3. Behavior-based filtering includes Email data stream based filtering, mail header based filtering, sender reputation based filtering, mail fingerprint based filtering, behavioral characteristics weighted based filtering, etc. The spammers’ common spurious methods are summarized. Through the reference to large amount of anti-spam documents and data from home and broad, an analysis is made on existing anti-spam techniques and in particular the content-based spam filtering methods. Key words spam filtering; rule; content; text categorization; Na?ve Bayes; behavior 摘要垃圾邮件识别和过滤是计算机网络领域的一个重要研究课题。垃圾邮件识别和过滤目前已经发展出了三代技术，第一代过滤技术是基于规则的，例如：基于IP地址、基于邮件头的过滤技术。第二代过滤技术是基于内容的，例如：贝叶斯分类算法、Memory-Based方法、决策树、Boosting方法、支持向量机等方法。第三代过滤技术是基于行为的，例如：基于邮件数据流、基于邮件头信息、基于发送方信誉、基于邮件指纹、基于行为特征加权的决策树等过滤方法。本文归纳总结了当前垃圾邮件发送者经常采用的欺骗手段和方法，并参阅国内外大量反垃圾邮件文献和数据，对已有的垃圾邮件技术作出分析和总结，尤其是对基于内容的垃圾邮件过滤方法进行了研究。关键词垃圾邮件过滤；规则；内容；文本分类；简单贝叶斯；行为随着互联网的发展，垃圾邮件常常让人头痛不已，最新报告称美国为垃圾邮件第一大国，中国排名第三（图1）[1]。垃圾邮件问题如今已经成为一个社会热点，近些年来，研究人员们提出了很多垃圾邮件识别和过滤的方法。这些方法的发展经历了三代，第一代过滤技术是基于规则的，例如：基于IP地址、基于邮件头的过滤技术。第二代过滤技术是基于内容的，例如：贝叶斯分类算法、Memory-Based方法、决策树、Boosting方法、支持向量机等方法。第三代过滤技术是基于行为的，例如：基于邮件数据流、基于邮件头信息、基于发送方信誉、基于邮件指纹、基于行为特征加权的决策树等过滤方法。本文归纳总结了当前垃圾邮件发送者经常采用的欺骗手段和方法，并参阅国内外大量反垃圾邮件文献和数据，对已有的垃圾邮件技术作出分析和总结，尤其是对基于内容的垃圾邮件过滤方法进行了研究。

反垃圾邮件系统实施项目解决方案

TOM网反垃圾系统实施解决方案客户项目建议书 Barracuda Networks (Shanghai) Co.,Ltd.

2005-12-21 第一章前言: 企业防治垃圾的重要性在近几年的时间里，企业面临垃圾的威胁成指数级增长，垃圾占电子总通讯量的达到60%以上，而这一数字在三年前仅为8%；与此同时，垃圾的类型以及发送手段也愈加复杂化、多样化；电子也一跃成为病毒的主要传播方式；这一系列的变化对企业网络构成了严重的威胁，这种威胁不仅仅是造成用户时间的损失，还包括系统资源的损耗，严重的还造成系统破坏。因此，如何保护企业免受病毒及垃圾的侵袭，保证网络及企业信息安全成为每位网络或系统管理员的第一责任，也是企业信息化分管领导的重要职责所在。垃圾对企业造成的危害： 1.垃圾已占全球电子的69%。（亚洲经济，2005年6月）在国际上每天有超过200亿封垃圾被发送出去，2003年全国有470亿封流入了用户信箱，平均每人每天收到2.85封垃圾。根据IDC的分

析，到2006年，垃圾数量将在2003年数量的增加一倍。 ※根据Radicatti group预估调查(June，2003)，到2007年全球垃圾将占所有Email流量的70% 2.据Ferris Research研究报导指出，垃圾电子每年让美国及欧洲企业分别损失高达89亿美元和25亿美元。(其中40亿美元是因员工删除垃圾而造成工作效率的降低，平均删除1封垃圾得花4.4秒钟。37亿美元的花费，是为了应对超大量的资料流量，企业因而添购带宽及性能更佳的服务器，其余的损失则是公司为降低员工因垃圾产生的困扰，为员工提供的支持的费用。) 3.除了上述金额的损失之外，垃圾对企业的损害还可归类为： ◆消费者的信任——这是电子使用者的第一大问题，由于垃圾的泛滥，用户失去了对电子的信任；据调查约有29%的用户因此而减少了电子的使用，对于企业而言，则可能造成员工弃用企业，这不仅对企业以前网络投入的浪费，且有损企业形象。 ◆降低工作效率—使用者会浪费无谓的时间阅读并处理这些无用的电子。使用者工作效率降低被认为是企业因垃圾所导致的最大损失。 ◆不当容—垃圾中可能包含攻击性文字，大多是人身攻击，此种可能会伤害特定的个人或群组。此外，还有相当数量的与、非法、以及其他与国家法规相悖的信息，也将对收件人造成不同程度的冲击。 ◆浪费IT资源—进入网络的大量垃圾，会影响企业的网络使用带宽。

QQ邮箱屏蔽垃圾邮件的方法.doc

QQ邮箱屏蔽垃圾邮件的方法近年来，广大用户的网购热情与日俱增，人们都想体验足不出户就可收获颇丰的效果。而商家们的广告促销也变得如火如荼，广告垃圾邮件开始泛滥;同时，一些钓鱼网站也借着这个势头开始蠢蠢欲动，欺诈邮件频频出现。下面就为大家介绍下如何设置QQ邮箱屏蔽这些垃圾邮件。举报垃圾邮件举报垃圾邮件，敲响反垃圾警钟我们在查看邮件时经常会看到一下垃圾邮件或一些陌生网站的邮件，这时你不用烦心，只要点击举报，QQ邮箱就会为你处理此类邮件。根据设置，该邮件会自动从收件箱消失，然后直接删除或被移动到垃圾箱。举报过之后，系统会智能记住此类垃圾邮件的特征，下次为你自动拦截，让你免受骚扰。辨别邮件地址真伪，助你识别欺诈邮件近年来钓鱼网站的蠢蠢欲动，让防范欺诈邮件势在必行。如何辨别邮件来源是识别欺诈邮件很重要的一步，在这方面QQ邮箱推出了专门的辨别邮件功能，帮你有效防范欺诈邮件的侵袭。当真实发送地址与宣称的发件人地址不一致时，QQ邮箱就会在邮件上添加一个绿色的小问号加以提示，这时，用户就该谨慎处理

这些邮件。反垃圾设置反垃圾设置，杜绝垃圾邮件干扰进行有效地反垃圾设置，是防止垃圾邮件侵扰的行之有效的方法。QQ邮箱的反垃圾，设置黑名单，就不会再收到该地址或域名下各个邮箱发来的信件，有效防止垃圾广告邮件;设置白名单，该地址或域名下各个邮箱发来的信件将不受反垃圾规则的影响，保证你一定能收到来自该地址或域名的邮件。如此设置，即可以有效防止垃圾邮件，又能保证顺利接受信任地址的邮件。设置收信过滤器完善收信过滤器，天网恢恢疏而不漏邮件过滤，是对抗垃圾邮件、欺诈邮件的一项非常有效的技术，对于符合过滤条件的邮件进行过滤处理，就如同杀毒软件对病毒的查杀一样。QQ邮箱的收信规则就相当于邮件过滤器，当邮件到达时，你可以根据自己的要求选择相应的条件，并在所选条件的对话框内填入相应的关键字、关键词;这样当条件满足时，QQ 邮箱就会根据设置对这些垃圾邮件进行处理。在这里提醒大家，如果我们选用直接删除邮件功能，我们一定要慎重，最好在大量收到垃圾邮件的时候才用，以免误删有用的

Exchange智能过滤垃圾邮件

https://www.360docs.net/doc/489195769.html,/art/200709/56068.htm 2.5 防垃圾邮件配置垃圾电子邮件或垃圾邮件是从一个源位置发出的、意欲同时广播到许多邮箱的邮件。根据行业评估，在收到的电子邮件中，40%或更多的邮件被判定为垃圾邮件。这种增长的垃圾邮件流将继续为组织带来难题。垃圾邮件不仅仅是一种麻烦；如果将它可能造成的生产效率降低和处理垃圾邮件所需要的额外资源都考虑进去，会发现这是一个代价很昂贵的问题。 Microsoft Exchange Server 2003通过多项技术阻止接收垃圾邮件，具体有以下几项。 1．实时阻止列表服务提供程序支持 "实时阻止列表"中保存着已知垃圾邮件源的Internet协议（IP）地址列表。这些列表包括源地址以及一些被配置为开放中继的服务器或拨号用户账户列表。Exchange 2003向"实时阻止列表"服务提供程序发送每个传入的简单邮件传输协议（SMTP）连接的IP地址，然后该提供程序向运行Exchange的服务器返回状态码。根据返回的状态码和管理配置，Exchange可能不接受电子邮件，同时向发件人发送相应的错误代码。使用Exchange 2003可以配置多个"实时阻止列表"提供程序。 2．全局拒绝与接受列表 Exchange 2003管理员可以为那些总是被接受或被拒绝访问的电子邮件维护一个发送IP地址列表。"接受"列表。可以在"接受"列表上维护安全的合作伙伴和客户的IP地址以便于访问。 "拒绝"列表。可以将已知的冒犯者添加到"拒绝"列表中。可以使用此列表来阻止来自以下服务器的连接：不想从其接收电子邮件，而且它们可能不显示在提供程序"实时阻止列表"（如果配置了此列表）中。 3．发件人过滤可以相应地配置Exchange发件人过滤器，使之检查每封传入的电子邮件的"发件人"地址并将此地址与阻止发件人列表进行比较。如果查到了匹配项，可以将Exchange配置为丢弃此连接或存档此邮件。4．入站收件人过滤管理员可以通过设置收件人过滤功能来阻止预定发送给无效收件人（Windows Active Directory目录服务中没有的地址）或发送给受限制的邮件地址的电子邮件。垃圾邮件通常来自假地址，因此，以前每当Exchange向发件人返回未送达报告（NDR）时，都会浪费一些资源。Exchange 2003应用了收件人过滤功能，因而可以在SMTP会话期间拒绝发送给不存在的或被阻止的收件人的邮件。这种过滤功能可以避免Exchange使用宝贵的资源向发件人返回NDR。5．对于向SMTP虚拟服务器进行提交和利用SMTP虚拟服务器进行中继增强了限制能力通过使用Exchange 2003，可以指定允许哪些用户组向SMTP虚拟服务器提交电子邮件。这可以帮助阻止不需要的通信使用Exchange。例如，垃圾邮件制造者可以利用对中继开放的服务器，通过这些服务器发送电子邮件，从而制造出邮件发自这些服务器的假象。许多"实时阻止列表"中之所以列出对中继开放的服务器的IP地址，其原因就在于此。 6．与Outlook 2003和Outlook Web Access阻止列表及安全列表集成 Outlook 2003包含的一些功能可帮助用户阻止每天收到的大量不需要的电子邮件。这些功能可以使用户控制他们接收什么样的邮件以及接收谁的邮件。Outlook 2003还提供了一组专用于与Exchange 2003一起帮助用户防范垃圾邮件的功能。 7．垃圾邮件过滤器 Outlook 2003采用了由Microsoft研究院开发的最先进的技术。这种功能利用了若干因素（如邮件的时间和内容）来判定是否将一个邮件视为垃圾邮件。此过滤器并不挑出任何特定发件人或特定类型的电子邮件。邮件处理是基于邮件内容进行的，同时邮件处理还使用对邮件结构的高级分析功能来确定

反垃圾邮件法案

美利坚合众国国会第一百零八届年会第一次会议二零零三年一月七日星期二召开地：华盛顿法案通过限制和处罚由因特网传递未经收件人许可的商业性电子邮件，规范各州内和州际商业行为。第一章：标题本法案可被称为《2003控制非恳请性的色情及推广邮件攻击法案》或《2003反垃圾电子邮件法案》第二章：国会的发现和相关政策一、发现国会发现以下现象： 1、电子邮件已经成为了极其重要和流行的通讯方式，每天有数百万计的美国人通过它进行个人或商业信息传递。网络价格低、覆盖全球，从而令电子邮件的使用方便而快捷，并为商业的平稳发展提供了独特的机会。 2、电子邮件方便快捷的特性正为迅速膨胀的大量垃圾电子邮件所威胁。据估计，商业性垃圾电子邮件在全部电子邮件中的比例，从2001年的7%，迅速增长到现在的接近50%，其数目和比重仍在不断增加；同时，这些邮件中的信息，都存在着不同程度的误导和欺诈。 3、垃圾电子邮件会给无法拒绝接收的邮箱使用者带来邮件储存的资源耗费或处置邮件的时间成本，或二者兼有之。 4、大量垃圾电子邮件的存在，不仅会降低电子邮件服务的便捷性，还可能导致有用邮件的丢失、忽略和丢弃，从而降低网络邮件服务的可用性和可信度。 5、一些商业电子邮件可能包含令部分收件人感到粗俗或淫秽的内容。 6、垃圾电子邮件数量的迅速膨胀给网络服务提供商、使用电子邮件服务的商业、教育和非盈利性组织等机构增加了巨额的资金成本，如果没有购置更多的设备，他们可处置的邮件容量有限。 7、很多垃圾电子邮件的发送者都有意隐藏发送来源。 8、很多垃圾电子邮件的发送者都有意在邮件标题中包含误导信息，诱导收件人察看邮件。