垃圾邮件快速检测

垃圾邮件快速检测
垃圾邮件快速检测

垃圾邮件快速检测技术

摘要:提出了高速网络环境下一种实时检测垃圾邮件的方法,将正文抽取一部分做指纹散列,散列后的指纹值可以发现重复的正文内容。不需要解码也不需要处理全部邮件内容,并且散列内容数量和邮件大小无关尤其对于普通文本分类方法无法处理的二进制类型的垃圾邮件有较好的处理效果,适合在高速骨干网络环境下作为一种快速垃圾邮件检测的手段。初步实验证明,该方法具有较高的处理速度,重复内容判定准确。

关键词: 垃圾邮件高速网络环境快速检测

目前通常采用文本分类来识别垃圾邮件。例如贝叶斯分.类算法.决策树.支持向量机等,这些方法通过一定的训练分类可以达到较高的识别率,但它们都需要对邮件进行解码分词和做大量概率运算,处理过程非常复杂,需要很多的处理时间,且不适合在高速网络环境下应用。

本文所指的高速网络环境是指在一些骨干网络中稳定的网络流量可以达到每秒几百兆几千兆比特,对信息进行任何处理都需要极高的性能,而在低速百兆位网中适用的方法会因为无法达到对数据的线性处理而失效。另外,垃圾邮件的内容特征变化很大,这导致了基于内容过滤的方法需要不断地训练和更新,在对新类型的垃圾邮件的判定方面往往有一定的滞后。

目前有很多邮件蠕虫病毒或者新型的垃圾邮件为了逃避文本分类方法的过滤,将垃圾内容或者病毒以二进制附件的形式大量发送。这是文本分类所无法处理的。而本文所提出的基于数字指纹检测的垃圾邮件判定方法不仅可以处理这种二进制类型的垃圾邮件也适应了高速网络中快速检测要求。

1 垃圾邮件定义

现有的垃圾邮件通常利用程序通过群发的方式生成。其中发信人.主题等邮件头部都可能是虚构或者随机生成的,但正文部分或者附件部分对同一封垃圾邮件来说是固定的。本系统垃圾邮件的定义范围是邮件内容(正文或者附件)重复率超过一定阈值的邮件。阈值可以经过具体环境的训练后调整。

更谨慎的做法是在这一步判定后再使用一些常规的方法进一步确认是否垃圾邮件,事实上经过这一步判定后需要进一步判定邮件的范围会被大大缩小,后续的操作也不会过多的影响效率

为了适应一些小型网络环境,本系统可以以分布式的结构散布在若干个小型网络上共用一个Hash 表。

2 重复邮件发现

2.1 基于数字指纹的重复内容识别

如何高效地识别邮件正文内容是否重复是本系统的核心,为了产生包含邮件正文数据包中的内容的特征值,采用了Manber [1] 提出的在文件系统中查找相似文件的方法。将所有邮件正文抽取出一部分来计算Rabin 指纹[2]。

设字符集有s个元素,q为大于s的最小质数,{0,1…, q}构成一个有限域Zq。则字符集是Zq 的一个子集,对于字符串a = a 1 a 2 .... a m ∈ ∑ 多项式f(t)将字符串映射到一个特征为q 的多项式域 F q [ t ] / g 中其中g 为一个度数为k 的不可约多项式(k 为质数) 则有

f ( t ) = a 1 t + a 2 t + .... + a m ∈ F q [ t ]

则这个字符串的Rabin 指纹值为f = f mod g。

实际系统中设定t 为一个质数,给定一个度数为k 的不可约多项式g M=g(t) (实现时通常直接给定M 是一个大质数)将M 设为Hash 的表大小,则可利用指纹函数计算字符串指纹值并存储到Hash 表中指纹函数和一般Hash 函数的区别在于普通Hash 函数只是将字符串均匀散列到Hash 表中它关心的是冲突时所需要跳跃的步长,而指纹函数希望总是能够避免冲突,原字符串不同而指纹相同的概率是很小。

下面定理在理论上表明了这一点

定理a = a 1 a 2 .... a m ∈ ∑ |a|=m,假定为计算指纹随机选取一个度数为k 的不可约多项式g 作为域 F q [ t ] / g 的生成多项式P 表示原字符串不同而指纹值相同的概率即出现冲突的概率,那么P ≤ m k 定理的证明参见文献[2]。

图1 是本系统中随机生成200B 的邮件正文,用Rabin指纹散列后的冲突情况。

图1 的横轴表示散列后插入Hash表的邮件数目,纵轴表示产生冲突的百分比。冲突率=产生冲突的指纹数目/指纹总数,可以发现Rabin 指纹产生的冲突是很小的。

2.2 压缩后的Hash 表存储

为了防止可能出现的散列冲突,我们为每个散列后的指纹值保留了一定的原始数据,但为了避免太多的拷贝操作,我们保留的是经过压缩后的原始数据。在本系统中,将一定字节的原始数据做散列后按一定顺序取10%的原始数据和散列后的指纹值一起存进Hash 表中在插入Hash 表的时候只有当字节的散列值和10%的压缩数据都相同时才认为其是重复正文。本系统在上述的冲突测试中已经发现在150 万封的邮件数据中,原始数据不同,但压缩数据和散列指纹都相同的概率是0 这样已经可以保证经过指纹值和压缩数据都相同的邮件,它的邮件正文一定是相同的。

2.3 重复邮件发现算法

(1)解析POP3(SMTP)协议定位到邮件正文

(2)对数据调用Hash 函数计算指纹值同时读出压缩后的原始数据

(3)插入Hash 表检测相应位置的元素

1)如果发现相同的Hash 元素元素重复计数指针加1,判断是否达到阈值若达到阈值则报告。

2)如果指纹值和压缩数据是新发现内容,新增加一个元素,项链入散列表,重复设指针为1 插入时间为当前时间。

(4)计算Hash 表内元素是否达到需要一个临界值,如果是,调用函数来清除时间上已经过期的Hash表元素。

2.4带权值的判定手段

为了判定一些明显的垃圾邮件,但重复率目前还比较低的邮件,在判定时采用一些常规的分析邮件头的手段来分析邮件头分析结果为一个权值W 如果目前邮件重复数目为Q 重新定义邮件重复值C=W*Q 这样就给具有明显垃圾邮件特征的邮件头设定一个比较高的权值这时邮件的重复值会比较大,而对一些邮件头看起来比较正规的邮件且很可能是用户群发产生的重复邮件,我们给定一个比较低的的权值。这时邮件重复值就会比较低具体实现中我们通过判定邮件头是否伪造,重复邮件的邮件头是否固定来区分垃圾邮件。

这些判定都在发现重复内容后进行,例如从发现第2封重复邮件后才开始分析计算其后具有重复内容的邮件头,根据结果来调整这封邮件的权值。

3底层队Libnids函数的改进

目前的libnids中应用层数据被拷贝的过程如下:

(1)每个合法tep连接建立时为每个连接分配一个应用层缓冲区以后每个该连接的数据包来到时解析各层包头,定位到应用层数据。

(2)拷贝数据包中应用层数据到应用层缓冲区。

(3)调用应用层处理模块,将应用层缓冲区的指针提交给处理模块,上层处理完毕后返回。

(1)对每次来到的数据包定位到应用层数据后判断当前是否有残余数据

(2)如果没有则直接提交给上层处理否则拷贝到应用层缓冲区后再提交给上层处理

(3)上层处理完毕后判断是否有残余数据尚未处理如果有则拷贝到应用层缓冲区中再返回否则直接返回

对改进的分析如下

这种改进实际上延迟了数据包拷贝的时间由每次应用层数据到来就需要拷贝推迟为当发现应用层缓冲区中尚有上次未处理完的残余数据时再拷贝。

当应用层能够每次处理完所有本次提交上来的包的情况下,这种方法比原有系统完全减

少了一次拷贝应用层数据的操作,当应用层需要保留一些数据和下次操作一起处理的情况下这种方法推迟了应用层数据拷贝时间也减少了一定量的数据拷贝,同时仍然保证下次提交上来的数据和本次数据在物理位置上是连续的在系统中应用层关心的只是具体数据以及数据是否连续不关心每次调用之间数据的具体位置这种方法对应用层来说改变了数据的物理位置但仍然保证了数据在物理上的连续性。

4 系统结构

本系统的底层采用libnids 的结构来捕包并还原为应用层数据流如图 4 底层经过诸如零拷贝等技术的优化改进可以在高速网络环境下捕捉几百兆每字节的数据包而上层应用层的协议解析模块用于定位需要散列的邮件正文定位后即时散列每一位数据并取出压缩的原始数据散列后的散列值和原始数据插入到Hash 表中Hash 表元素会在一定时间后过期它的插入和删除都由一个Hash 表类来管理,邮件散列后在插入时判断是否达到阈值达到阈值就报告,并作后续截断处理。

5 模拟实验和性能分析

我们在主机中模拟一个小型网络环境来测试系统对垃圾邮件的识别率和处理性能,采用垃圾邮件语料库中的Ling-Spam 语料。其中包括正常邮件2 412 封和垃圾邮件481 封我们将正常邮件和垃圾邮件混合起来在模拟网络中发送和接收。模拟网络中节点主机数目为100 个其中包括1 台邮件服务器和99 个邮件客户端邮件客户端互相在高速发送邮件。其中有几个是垃圾邮件节点专门重复发送垃圾邮件。发送对象为模拟网络中随机的一些节点发送的邮件数据都是真实采集下来的邮件数据,由于是在一台主机内存中做模拟因此这个模拟网络中流动的smtp 和pop3 的协议数据量可以达到高速网络环境的数据量。所有发送和接收的邮件都由邮件服务器节点中转我们检测这个网络中流动的pop3 协议数据当发现用户在收取某封垃圾邮件后截断用户收取该邮件的操作。

我们在模拟网络中发送了2 412 封合法邮件和481 封垃圾邮件其中垃圾邮件随机

向50 个100 个节点发送合法邮件随机向 1 个10 个节点发送设定阈值为10 在CPU 主频为赛扬800MHz 的主机上实验最后测试结果如表1

从结果中可以看出本系统能够在高速环境下很好地进行垃圾邮件检测和封堵,对于达到阈值的垃圾邮件判定率达到100%封堵率和系统阈值以及垃圾邮件发送总数相关。

系统处理的时间性能由于CPU 等硬件的不同而会有所差异,在此先做理论上的分析本系统只需要分析邮件的前几个包,时间开销主要在固定长度n 字节的数据做Hash 散列的运算和Hash 表插入上这些时间都是一定的不受整个邮件长度的影响。所以我们的算法的时间复杂度是O(1) 不需要训练时间,而目前其他分类算法的都需要训练和分类其时间复杂度一般是O ( n ) ~ O ( n 2 ) 之间,并且需要训练和动态调整训练集本算法的主要优势是不需要训练并且对每封邮件处理的时间复杂度是O(1)。

另外我们发现系统能适应的高速网络环境系统流量的多少取决于系统平均处理每封邮件所需要的时间。假定在一段时间t 内并发传输n 封邮件令P 表示平均每封邮件在传输中的数据量,当时网络环境为Q bps 如果本系统处理每封邮件需要m 秒则当P/Q >m 时系统就可以在当前网络环境中做到实时快速检测。在每封邮件传输的数据量是80kB 高速网络环境中邮件数据的流量是500Mbps 的情况下,为达到线速处理本系统处理每封邮件必须在0.16s 之内。这种性能在通常的邮件分析算法上是达不到的。我们在CPU 主频为赛扬800MHz 的主机上实验后,测得的每封邮件处理时间不到0.1s 这说明在硬件要求不太高的情况下,本系统就可以做到在高速网络环境中对重复邮件的完全检测。

图5 是本系统处理各个数量级的邮件所需要的时间可以看出系统处理的时间和邮件数目成正比和邮件大小无关,这也是符合理论分析的结果

由于本系统处理邮件的性能和所能适应的网络流量是成正比的,一旦我们通过改进硬件或者优化程序将系统性能提高n 倍。相应地可以适应的高速网络流量也可以提高n 倍这

些都说明了本系统是适应高速网络环境的。

6 总结

实际上,本文提出的数字指纹检测的思想不仅可以应用到垃圾邮件检测上,也可以应用到大多数具有重复数据特征的协议中,例如:HTTP 中网页的重复传输,蠕虫病毒传播时发出的重复数据等,都可以应用这种方法检测出来。

参考文献

1 Manber U. Finding Similar Files in a Large File System[C]. Proceedings of the USENIX Winter 1994 Technical Conference, San Francisco, CA, USA, 1994.

2 Rabin M O. Fingerprinting by Random Polynomials[R]. Center for Research in Computing Technology, Harvard University, Tech.

3 潘文锋. 基于内容的垃圾邮件过滤研究[D]. 北京: 中国科学院

计算技术研究所, 2003.

电信业防毒、反垃圾邮件解决方案

电信业防毒、反垃圾邮件解决方案 各种信息技术的不断发展为电信运营商带来了广阔的商机,同时也带来了新的威胁和风险。作为基础网络提供商的电信企业,影响最大、威胁最大的风险就是那些消耗基础带宽、影响网络性能的威胁,主要包括混合型病毒和各种垃圾邮件。 适于电信级业务的防御技术 Symantec的方案从“主动防御、主动反应”这一观点出发,协助运营商建立适用电信业务、可伸缩、抗打击的防病毒网络,可在最新的混合型病毒没有出现之前就形成防御墙,避免病毒带来的损失。 1.通用漏洞利用阻截技术 正如只有形状正确的钥匙才能打开锁一样,当新漏洞出现时,研究人员可以描述经过网络到达漏洞计算机,并利用该漏洞实施入侵的数据的特征。对照该“形状”特征,就可以检测并阻截具有该明显“形状”的任何攻击。 2.行为阻截技术 在系统中实时监控各种程序行为,一旦出现与预定的恶意行为相同的行为就立即进行阻截。使用了带行为阻截技术的Symantec防病毒软件之后,防病毒软件将监视计算机上的所有外发电子邮件。如果该电子邮件有附件,则将对附件进行解码,并将其代码与计算机中启动此次电子邮件传输的应用程序相比较。如果非常相似,防病毒软件将终止此次传输,从而中断蠕虫的生命周期。 3.精确的多层过滤反垃圾邮件技术 Symantec通过采用全面的、多层级的过滤技术来防御垃圾邮件。通过为电信运营商设计智能、多层的混合型病毒和垃圾邮件防护架构,可以优化全系统内混合型病毒和垃圾邮件事件的监控,以便及早发现、及时通报、快速处理,缩短响应时间,有效降低病毒可能造成的损失。建立多层、分布式的混合病毒和垃圾邮件防御架构,既与电信运营商现有行政管理模式相匹配,提高管理效率,同时又能体现“统一规划,分级管理”的思想,让各省级单位分担总部,地市级单位分担省公司的运行维护负担。 解决方案三大支柱 1.Symantec Network Security 7100系列入侵防护设备 SNS 7100系列是新一代的网络安全产品,同时具备IPS(入侵防御)和IDS(入侵检测)两项功能。作为成熟的IPS产品,SNS是自动防御的网络安全产品,无需人工干预,可自动检测、屏蔽网络入侵行为,减少用户用于日常维护的人力成本。SNS可以透明(inline)方式部署在用户网络中,不用修改用户网络结构,也不用修改交换机配置。配合产品自带的安全策略,实现了即插即用。 2.Symantec Brightmail Antispam反垃圾邮件解决方案

采用技术手段应对垃圾邮件

计算机世界/2004年/06月/21日/第D12版 垃圾邮件的危害引起国内外相关人士的广泛观注,许多安全厂商适时地推出了各种反垃圾邮件的软件和硬件产品。为了帮助广大用户了解反垃圾邮件市场的主流产品与技术,此前,计算机世界评测实验室特别进行了反垃圾邮件产品的横向评测,并于上期公布了评测结果。 不过面对价格不菲的反垃圾邮件产品,大多数小型企业和个人用户还是望而却步的。难道除了借助专业的反垃圾邮件产品之外,真的没有其他方法来减轻垃圾邮件的危害吗?答案是,用户可以 采用技术手段应对垃圾邮件 中国科学院自动化研究所综合自动化技术工程研究中心张前进邹益仁 如今,垃圾邮件的危害越来越大,但怎样阻止垃圾邮件,以及因垃圾邮件引发的屏蔽问题,显然还没有得到足够的重视。在舆论的压力下,如何解决垃圾邮件这一长期被忽视的问题终于被摆上了桌面。下面我们将着重从技术角度介绍对付垃圾邮件的方法。 SMT P(Sim ple M ail Transfer Protocol,简单邮件传输协议)在初始设计时的目的就是把电子邮件从Internet上的一台主机传递到另外一台主机,直到电子邮件到达目的地。因此,SM TP最初并没有过多地考虑安全性,后来随着人们逐渐意识到安全的重要性,才对其进行了多次补充和扩展。但是由于邮件服务器的缺省设置都是遵循最初始的标准,以获得最大的兼容性和可用性,因此一个刚刚装好、未加任何修补措施的邮件服务器是不具备诸如对发信人进行身份验证的安全措施。我们必须对其进行修补,并处理好以下几个环节,才能较好地应对垃圾邮件。 修补邮件服务器的漏洞 由于SMTP和Internet协议的开放性,我们在阻住不需要邮件的同时,保证邮件服务器对Internet邮件用户的可用性是比较困难的。虽然如此,但还是有些技巧可以用来保护邮件服务器。对于一个刚刚安装完的IMail Server系统来讲,我们要对缺省设置做如下修改。 邮件转发选项 在SMT P服务的SMTP Security属性中,IM ail Server提供了五种邮件转发模式:Relay mail for anyone、Relay mail for、No mail relay、Relay for local hosts only、Relay for local users only。 由于本地邮件不使用转发功能,也就是说当一封信的目标主机是IM ail Server所在的计算机或者一封信来源于IMail Server所在的计算机时,该邮件是不用转发的。所以当所有的邮件用户使用相同的IM ail Server或者他们都使用Web M essag ing来存取邮件时,可以简单使用No mail relay模式,也是这几种转发模式中最安全的。但使用这种模式时必须确认Disable SMT P Auth Reporting没有被选中,这样就会强制邮件用户在发送邮件的时候进行身份验证,只有那些通过身份验证的用户才能发送成功。当Outlook或Eudora作为邮件客户端程序时,请确认我的服务器要求身份验证(my server requires authentication)!被选中,其他的邮件客户端也有相应的选项,但文字表达可能不尽相同。

梭子鱼反垃圾邮件方案

上海鸿羽来贸易有限公司 方案书

第一章 1.1垃圾邮件的危害 在近几年的时间里,无论高校、企业以及政府部门面临垃圾邮件的威胁成指数级增长,垃圾邮件占电子邮件总通讯量的达到60%以上,而这一数字在三年前仅为8%;与此同时,垃圾邮件的类型以及发送手段也愈加复杂化、多样化;电子邮件也一跃成为病毒的主要传播方式;这一系列的变化对企业网络构成了严重的威胁,这种威胁不仅仅是造成用户时间的损失,还包括系统资源的损耗,严重的还造成系统破坏。 因此,如何保护企业免受病毒邮件及垃圾邮件的侵袭,保证网络及信息安全成为网络管理员的第一责任。 1.垃圾邮件已占全球电子邮件的69%。(亚洲经济,2004 年6月)在国际上每天有超过150亿封垃圾邮件被发送出去,2003年全国有470亿封邮件流入了用户信箱,平均每人每天收到 2.85封垃圾邮件。根据IDC的分析,到2006年,垃圾邮件数量将在2003年数量的增加一倍。 ※根据Radicatti group预估调查(June,2003),到2007年全球垃圾邮件将占所有Email 流量的70% 2.据Ferris Research研究报导指出,垃圾电子邮件每年让美国及欧洲企业分别损失高达89亿美元和25亿美元。 3.除了上述金额的损失之外,垃圾邮件的损害还可归类为: 消费者的信任——这是电子邮件使用者的第一大问题,由于垃圾邮件的泛滥,用户失去了对电子邮件的信任;据调查约有29%的用户因此而减少了电子邮件的使用。 降低工作效率—使用者会浪费无谓的时间阅读并处理这些无用的电子邮件。 不当内容—垃圾邮件中可能包含攻击性文字,大多是人身攻击,此种邮件可能会伤害特定的个人或群组。此外,还有相当数量的与色情、非法宗教、以及其他与国家法规相悖的信息,也将对收件人造成不同程度的冲击。

中海油垃圾邮件解决方案

中海油垃圾邮件解决方案 应用背景: 在近几年的时间里,大型传统行业随着电子信息化的大力推进,依赖网络开展业务和管理的模式逐渐普遍,而信息系统面临垃圾邮件的威胁也不可避免地呈指数级增长,垃圾邮件占电子邮件总通讯量的比例达到了75%以上,而这一数字在三年前仅为8%;与此同时,垃圾邮件的类型以及发送手段也愈加复杂化、多样化,电子邮件一跃成为病毒的主要传播方式;这一系列的变化对大型传统行业信息系统网络构成了严重的威胁, 中海油网络现状: 本次采用梭子鱼垃圾邮件防火墙的客户是中国最大的国家石油公司之一——中国海洋石油总公司(以下简称中国海油)。其是中国最大的海上油气生产商,公司成立于1982年,注册资本500亿元人民币,总部位于北京,现有员工4.4万人。 公司的内部管理和海外业务拓展,随着网络系统的建设而日益高效便利,只是伴随着病毒、木马、间谍软件的垃圾邮件对公司的危害已经到了非治理不可的地步:公司形象——这是电子邮件使用者的第一大问题,由于垃圾邮件的泛滥,对于中海油而言,可能造成员工弃用本公司邮箱,这不仅对公司以前网络建设的投入造成浪费,且有损公司在客户和公众心中的形象。 降低工作效率——使用者会浪费无谓的时间阅读并处理这些无用的电子邮件,而工作效率降低被认为是公司因垃圾邮件所导致的最大损失。 不当内容——垃圾邮件中可能包含攻击性文字,大多是政党攻击,此种邮件可能会伤害特定的群组,甚至牵连公司受到行政审查。此外,还有相当数量的色情、非法宗教、以及其他与国家法规相悖的信息,这些都将对收件人造成不同程度的冲击。 浪费IT资源——进入网络的大量垃圾邮件,会影响公司的网络使用带宽。 对安全和隐私造成危害——例如邮件病毒、Phisher诈骗邮件、身份盗窃信等,会造成公司及个人信息的外泄或流失等。 现代垃圾邮件技术和危害: 当前的垃圾邮件发送已经成为跨国性的、有组织的犯罪行为,单靠一个国家的行政力量或单纯依靠公司IT部门自有技术很难应对,因此中海油主动采取了相应手段,防御垃圾邮件的威胁。 电子邮件系统目前是中海油的关键业务系统之一,所有Internet电子邮件均统一发送到总邮件服务器,由邮件服务器通过网络分发到各分支机构的电子邮件客户端。目前邮件网关服务器,主要用于收发INTERNET邮件,操作系统Windows 2003,邮件系统为Exchange 20000,前置机部署在DMZ区,后台主要收发邮件的服务器部署位置在内部防火墙后边,高峰期邮件数大约为700-1000左右,每天的电子邮件流量在5万封左右。 目前大量垃圾邮件、病毒邮件通过电子邮件系统传播,并不定期对中海油邮件服务器进行洪水攻击、DDos攻击、列举式字典攻击等,初步估计5%左右的电子邮件为病毒邮件,而垃圾邮件数量占邮件总数量的85%以上,而这些垃圾邮件给邮件系统带来了大量潜在威胁: 钓鱼式攻击; 木马; 间谍软件; 病毒; 后门程序

邮件应用行为模式分析

邮件应用行为模式监测工具相关技术讨论分析 1、邮件应用行为模式监测工具技术介绍 1.1黑白名单技术 黑名单(Black List)和白名单(White List)分别是己知的垃圾邮件发送者和可信任发送者的IP地址或邮件地址。黑名单技术是最早出现的一种垃圾邮件过滤技术,一般的邮件服务器都有该功能。黑名单技术的原理是确定已知垃圾邮件制造者及其ISP 的域名或IP地址、电子邮件地址,将其整理成黑名单,将黑名单部署在处理网关处,拒绝任何来自黑名单上的垃圾邮件制造者的邮件。白名单的原理是拒绝接收任何邮件,除非用户的邮件地址在白名单上。白名单提供两种使用方式:一种方法是用户阻止不在名单上的信件;另一种方式是系统邮件发送者发送信件,要求其回复,以证实确有邮件发送者其人,经过确认后将其列入白名单中。 该技术的优点是不占用计算机资源,易于实施;缺点是需要手动维护黑白名单。由于垃圾邮件发送者经常修改和伪造他们的IP地址和邮件地址以逃避反垃圾邮件手段的检测,因此该方案在总体的垃圾邮件解决方案中仅起补充作用。 1.2反向域名验证(基于邮箱地址可信度的管控工具涉及) 该技术对邮件发送者的IP地址进行逆向名字解析,通过DNS查询来判断发送者的IP与其声称的名字是否一致,来判断是否是垃圾邮件。如果反向DNS查找提供的域与邮件上的来源IP地址相符合,该邮件被接受。如果不符合,该邮件被拒绝。 由于很多反向DNS目录未被有效建立,或无法正常建立,比如,任何”vanity”域名绝大多数情况下没有一个正确的反向DNS查找。在这种情况下,由这些域发送的邮件将被阻断,造成不可接受的高误报率。

1.3关键词过滤 关键词过滤是一种基于内容检查的过滤技术,通常创建一些简单或复杂的与垃圾邮件关联的单词表来识别和处理垃圾邮件,比如”免费”、”色情”等在垃圾邮件中经常出现的词语。该方法通过对邮件的信头、信体、附件的内容进行检查,判定是否符合过滤规则,从而判定是否为垃圾邮件。这是一种简单的内容过滤方式来处理垃圾邮件,它的基础是必须创建一个庞大的过滤关键词列表。 这种技术缺陷很明显,过滤的能力同关键词有明显的联系,关键词列表造成漏报、错报的可能性比较大。垃圾邮件发送者经常会采用一些躲避关键词的技术,比如拆词、组词、将一些单词拼错,以图饶过词语过滤器,所以过滤关键词需要经常升级,以适应新的需要。现在的邮件群发软件做的也越来越智能了,由其自动生成和发送的垃圾邮件是随机生成的,不但能随机生成邮件的发件人、收件人和邮件主题,还能随机生成邮件的内容,使得该种技术目前应用范围日趋狭窄。 1.4基于规则评分的过滤技术(规则管理模块涉及) 这是一种集合了人工智能技术的应用技术。该技术对邮件进行规则判断。在规则中,每条规则对应一个分数,当邮件符合某一条规则时,就给邮件增加相应的分数,分数越高,该邮件是垃圾邮件的可能性就越高,得分超过一定值时,该邮件将被分类为垃圾邮件。该技术过滤准确率可以达到90%,但不能检测新的垃圾邮件,即漏检率高。为了能使评分有效,规则需要经常更新。; 1.5贝叶斯过滤法 贝叶斯算法是以著名数学家托马斯.贝叶斯(Thomas 贝叶斯)(1702-1761)命名的一种基于概率分析的可能性推理理论,通过分析过去事件的知识,来预测未来的事件。贝叶斯过滤法对大量用户已经判定的垃圾邮件和合法邮件进行学习,根据垃圾

怎样避免邮件被当作垃圾邮件

电子邮件送达率是衡量电子邮件营销效果的重要指标之一。随着垃圾邮件越来越泛滥,世界上所有的 ISP 和服务器提供商都采取了越来越严厉的过滤垃圾邮件措施,同时也给正常邮件,以及合法合理、用户欢迎的电子邮件营销带来不便。不过这是大势所趋,不是营销人员能解决的。 垃圾邮件过滤方法垃圾邮件过滤方法 电子邮件营销人员能做的是尽量减少自己的邮件被当作垃圾邮件的机会。要做到这一点,首先需要了解主要的垃圾邮件过滤方法。 第一种是以触发式过滤算法鉴别垃圾邮件,这样的过滤器通常已经装在电子邮件客户端软件或邮件服务器上。其原理是过滤软件检查邮件的发信人,标题,正文内容,邮件中出现的链接和域名,甚至电话号码,当发现带有明显广告性质,或经常出现已知垃圾邮件的典型特征,则给这封邮件打一定的垃圾邮件特征分数。当分数达到一定数值时,邮件将被标志为垃圾邮件,直接过滤到垃圾邮件文件夹。 比如,邮件标题中出现¥、$符号,可能给予2 分垃圾分数。邮件内容中出现“免费”、“发票”、“促销”等典型垃圾邮件中经常出现的词汇时,也各给 1 分。邮件中如果包含已经被确认的经常发垃圾的域名,再加 1 分。甚至邮件内容中出现被确认与垃圾邮件相关联的电话号码,也给个分数。 当这些垃圾分数相加达到某一个数值时,比如达到 10 分,这个邮件将被标志为垃圾。 第二种方法是以黑名单为基础。有一些创建和维护链接邮件黑名单的组织,专门接受用户的垃圾邮件投诉,如果确认确实是垃圾邮件,黑名单运行者将把发送垃圾邮件的服务器和用户IP 地址放入黑名单。 比较有规模的垃圾黑名单通常都与其他ISP 及服务器运营商共享黑名单数据库。一旦某个IP 地址被列入黑名单,世界上很多ISP 和邮件服务器将拒收来自这个 IP 地址的所有邮件。 有的时候用户投诉其实并不是真的因为所收到邮件是垃圾邮件,而是用户忘记了曾经注册这个电子杂志。如果你的IP 地址被错误地投诉而列入黑名单,唯一的方法是联系黑名单维护组织,说明情况,提出证据,要求把你的IP 地址从黑名单中删除。不过这一过程有时非常复杂艰难。 第三种方法是邮件防火墙。很多大公司的服务器是运行在邮件防火墙之后,这些防火墙会综合使用各种过滤器以及黑名单,再加上自行研制的一些算法,来鉴别和剔除垃圾邮件。这些防火墙的算法则更复杂,并且不与其他人分享细节,对正常邮件的送达也可能起到致命的影响。 第四种方法是使用邮件确认。当电子邮件帐号收到一封email 时,这封 email 会首先进入待送达队列中排队,同时自动回复给发信人一封确认邮件。确认邮件中包含有一个确认链接,或标题中包含有一个独特的确认序列号,只有原来的发件人点击确认链接,或回复这封确认邮件,发信人的邮件地址才会被列入白名单,原来所发送的第一封原始邮件才真正被送达到收件箱。 鉴别和阻挡垃圾邮件大致上是这几种方法,有一些邮件服务器可能会综合使用这些方法。 为了避免邮件被这些过滤手段鉴别为垃圾邮件,应该注意下面一些问题。 检查服务器 IP 地址是否在黑名单中?选择邮件服务器时,应该检查服务器提供商的IP 地址是否被列在主要的垃圾黑名单中。国际上主要的垃圾黑名单包括: https://www.360docs.net/doc/7e8625039.html,

反垃圾邮件网关的技术规范

反垃圾邮件网关的技术规范 一、邮件网关要求 1、基本要求 (1)采用专用的硬件平台,自身安全性高、稳定性好。保证邮件网关系统的稳定性和性能,确保邮件网关设备不会成为网络系统的性能瓶颈。 (2)优越的系统性能。每小时处理的邮件流量和对收发邮件的处理内容扫描速度在同类产品中领先,支持标准SMTP和POP3协议,适用于任何支持上述邮件协议的邮件系统。 (3)要求通过公安部防病毒网关产品认证和防垃圾邮件认证,且同时拥有这两类安全产品的认证证书,最好能有河南省公安厅在本地的经营推荐证明。 (4)可以有效地实现电子邮件病毒过滤、内容过滤、垃圾邮件过滤,蠕虫过滤,阻断后门程序、DoS/DDoS等动态攻击行为。 (5)针对通过SMTP、POP3、HTTP、FTP等协议传输的内容进行过滤处理。 2、功能要求 (1)具备强大的反病毒功能 对所有进出站的邮件进行病毒扫描,应能够有效过滤普通病毒、邮件病毒、蠕虫病毒、木马活动,可以进行病毒邮件的隔离、删除、以及清除病毒的操作,支持病毒扫描引擎和病毒代码库的实时在线更新,及时遏制最新病毒的发作。为了保证系统的最佳性能,缓存扫描结果。 采用自主知识产权的成熟的防病毒引擎。 (2)能抵御对邮件服务器的各种攻击 全面防范针对传输层25端口攻击,防止邮件地址泄露,保障后端邮件系统的安全。提供最完善的防攻击体系,有效地防范针对邮件系统的各类攻击,包括邮件服务应用层的字典算法攻击、目录树攻击、多线程攻击、DHA攻击、DoS攻击等;邮件网关层的空文件攻击、多重病毒感染攻击、多重压缩攻击等。 (3)具有多层反垃圾邮件的防御结构 提供有力的、灵活的反垃圾邮件措施来保护邮件系统免受垃圾邮件的攻击,全面地防御垃圾邮件对邮件系统进行攻击。 所有的邮件都必须通过验证,才可以被发送至邮件系统;拒绝非法用户邮件的投递。 支持速率限制、并发连接、连接频率限制,防止拒绝服务攻击、保护网络带宽。防止邮件系统负担过重,造成正常邮件信息发送失败,

垃圾邮件的危害及应对措施

0 引言 垃圾邮件的泛滥,已经对互联网和现实社会造成了危害。对垃圾邮件的治理已成为与抗击网络病毒并列的重任。1 垃圾邮件的概况 所谓垃圾邮件,包括下述属性的电子邮件: 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性质的电子邮件;收件人无法拒收的电子邮件;隐藏发件人身份、地址、标题等信息的电子邮件;含有虚假的信息源、发件人、路由等信息的电子邮件。 垃圾邮件的分类从内容上看,主要是商业广告性质的邮件;另外,有少量政治,团体组织的宣传邮件。从邮件的发送形式上看,有直接发送和第三方转发两种。 所谓直接发送,就是邮件的发送者使用自己的服务器,IP 地址,自己的网络资源传送这些邮件。目前使用更多的是使用第三方服务器转发。对于这种垃圾邮件,只要关闭有关服务器的转发功能就可以了。 垃圾邮件的危害。占用网络带宽,造成邮件服务器拥塞,进而降低整个网络的运行效率;侵犯收件人的隐私权,侵占收件人信箱空间,耗费收件人的时间、精力和金钱。有的垃圾邮件还盗用他人的电子邮件地址做发信地址,严重损害了他人的信誉;被黑客利用成助纣为虐的工具;严重影响ISP的服务形象, ISP每年因垃圾邮件要失去7.2%的用户;妖言惑众,骗人钱财,传播色情等内容的垃圾邮件,已经对现实社会造成了危害。 2 技术上的应对措施 2.1 找出真正发件人 垃圾邮件一般采用了群发软件发送,发信人的地址是可以任意伪造的,查看信头可以让您找到真正的发件人。查看信头的方法是: (1)如果您是在Web页面上看邮件的话,直接打开邮件,点击信件显示页面上方菜单中的“原文”,就可以看到信头。 (2)如果是用Outlook Express来收信的话,指向邮件,不要打开,点击鼠标右键,看信件的属性,再点击详细资料,就可以看到信头。如果有sender的话,sender后面就是真正的发件人;如果没有sender,最后一个re-ceived from就是发件人所用的SMTP服务器。 Receive语句的基本表达格式是:from Server A byServer B,Server A为发送服务器,Server B为接收服务器。 例如: ReturnPath:<ownerenewsdaily@enet.com.cn> Received:from ns.enet.com.cn ([202.106.124.167]) bymail.777.net.cn(8.9.3/8.8.7) with SMTP id TAA13043; Thu, 28 Oct 1999 19:51:28 +0800 Received:(from list@localhost) by ns.enet.com.cn (8.9.3/8.9.0) id RAA19714 for enewsdailylist;Thu, 28 Oct 1999 17:50:30 +0800 Received:from chinanetweek.com ([210.72.235.218]) by ns.enet.com.cn (8.9.3/8.9.0) with ESMTP id RAA19690 for <enewsdaily@enet.com.cn>; Thu, 28 Oct 1999 17:50:28 +0800 Received: from chinanetweek.com ([10.1.2.105]) by chinanetweek.com (8.9.3/8.9.0) 作者简介:隆益民(1965-) ,男,副教授,硕士,研究方向为计算机及网络安全。 垃圾邮件的危害及应对措施 摘要:电子邮件是人们生活中加强沟通的重要交流工具,但垃圾邮件的泛滥已经使整个因特网不堪重负,垃圾邮件严重影响了人们使用互联网。治理垃圾邮件已成为与抗击网络病毒并列的重任。我国就垃圾邮件的处理上尚未制订相关的法律。也可参照国际通行的做法,针对垃圾邮件制订的较为严格的法律和规定,对垃圾邮件问题进行立法研究,从行政管理和法律角度加强对垃圾邮件的管理。 关键词:反垃圾邮件;群发;ID;电子邮票;黑名单;法律 隆益民 广东女子职业技术学院 计算机系 广东 511450

垃圾邮件防护系统分析与应用方法

垃圾邮件防护系统分析与应用方法 【内容提要】: 随着联机上网费用日趋便宜,发送电子邮件广告几近零成本又有利可图,因此造成垃圾邮件如今日混乱猖獗的现况。针对这种问题,许多公司研究出许多垃圾邮件防护和过滤机制产品,本文将对垃圾邮件的有关防护过滤技术和解决方法作一个基本介绍。 【关键词】:垃圾邮件、邮件防护、技术分析、AFS、华硕、过滤、机制 引言---------- 随着互联网的蓬勃发展,E-mail信息的传播达到了前所未有的广度和深度。同时不请自来的电子邮件也以各种形式闯入我们的邮箱- 商品推销、诈骗、政治或宗教抨击、病毒载体以及无法归类的稀奇古怪的形式。有些人每天甚至要收到100 到200 封这样的垃圾电子邮件(甚至更多)。因为更多的人开始使用英特网的关系(自因特网建立以来,人数飞速增长),对于商人、小贩、想入非非者以及蓄意破坏者而言,可以无偿地联系到数目巨大的各类人,诱惑力变得难以抵挡,自此大量的垃圾邮件在世界的各个角落产生,并瞬间传递到世界其他任何地方,这种费时且消耗CPU 的破坏行为迅速对经济产生了极大的负面影响。 现今越来越多的人开始意识到垃圾邮件的传递所带来的严重后果,并不断提出防治的新需求。 一垃圾邮件的定义 一封完整的电子邮件包含以下项目:邮件信封Mail Envelope、邮件标题Mail Header、邮件本文Mail Body 与邮件附檔Mail Attachment。电子邮件传输处理分为两阶段:邮件传输代理Mail Transfer Agent (简称MTA),例如邮件服务器,以及与邮件使用代理Mail User Agent (简称MUA),例如Outlook 或Outlook Express。 如果以邮件內容定义垃圾邮件,容易随个人主观认定而异;对银行业、娛乐业,广告业而言,包含其他银行贷款广告、色情广告的邮件,可能是种具有价值的市场资讯,而非垃圾邮件;因此,必需依邮件行为始能,依众人认知、法律规范与国际法规逐一精确定义何为垃圾邮件。 1. 众人认知:不请自來、来路不明、无法拒绝之邮件。 2. 法律规范:造成骚扰、匿名文书或嫁祸他人之邮件。 3. 国际法规: 2003 年底美国立法明定「Can Spam」垃圾邮件法规「Can Spam」字面表示可以「Spam」,惟有「但书」,寄件者必须表明身分,让收件者可以追溯来源不可以匿名、伪造,或者刻意隐匿或篡改资讯等行为发送电子邮件;发送方式方式不可为垃圾邮件滥发者(Spammer) 慣用之垃圾邮件滥发方式或程式,如借用邮件代替(Open Relay)、出现过多邮件转(Received) 或机器自动发送,以及不断尝试各种进入企业信箱方法等,必须提供收件者「选择权」,具有「取消订阅」机制。 综上所述,垃圾邮件之所以恼人并不是因为內容无趣不吸引人,而在于大量滥发,任意长驱直入收信者电子邮件信箱。 二邮件信息安全的影响

QQ邮箱屏蔽垃圾邮件的方法.doc

QQ邮箱屏蔽垃圾邮件的方法 近年来,广大用户的网购热情与日俱增,人们都想体验足不出户就可收获颇丰的效果。而商家们的广告促销也变得如火如荼,广告垃圾邮件开始泛滥;同时,一些钓鱼网站也借着这个势头开始蠢蠢欲动,欺诈邮件频频出现。下面就为大家介绍下如何设置QQ邮箱屏蔽这些垃圾邮件。 举报垃圾邮件 举报垃圾邮件,敲响反垃圾警钟 我们在查看邮件时经常会看到一下垃圾邮件或一些陌生网站的邮件,这时你不用烦心,只要点击举报,QQ邮箱就会为你处理此类邮件。根据设置,该邮件会自动从收件箱消失,然后直接删除或被移动到垃圾箱。举报过之后,系统会智能记住此类垃圾邮件的特征,下次为你自动拦截,让你免受骚扰。 辨别邮件地址真伪,助你识别欺诈邮件 近年来钓鱼网站的蠢蠢欲动,让防范欺诈邮件势在必行。如何辨别邮件来源是识别欺诈邮件很重要的一步,在这方面QQ邮箱推出了专门的辨别邮件功能,帮你有效防范欺诈邮件的侵袭。当真实发送地址与宣称的发件人地址不一致时,QQ邮箱就会在邮件上添加一个绿色的小问号加以提示,这时,用户就该谨慎处理

这些邮件。 反垃圾设置 反垃圾设置,杜绝垃圾邮件干扰 进行有效地反垃圾设置,是防止垃圾邮件侵扰的行之有效的方法。QQ邮箱的反垃圾,设置黑名单,就不会再收到该地址或域名下各个邮箱发来的信件,有效防止垃圾广告邮件;设置白名单,该地址或域名下各个邮箱发来的信件将不受反垃圾规则的影响,保证你一定能收到来自该地址或域名的邮件。如此设置,即可以有效防止垃圾邮件,又能保证顺利接受信任地址的邮件。设置收信过滤器 完善收信过滤器,天网恢恢疏而不漏 邮件过滤,是对抗垃圾邮件、欺诈邮件的一项非常有效的技术,对于符合过滤条件的邮件进行过滤处理,就如同杀毒软件对病毒的查杀一样。QQ邮箱的收信规则就相当于邮件过滤器,当邮件到达时,你可以根据自己的要求选择相应的条件,并在所选条件的对话框内填入相应的关键字、关键词;这样当条件满足时,QQ 邮箱就会根据设置对这些垃圾邮件进行处理。 在这里提醒大家,如果我们选用直接删除邮件功能,我们一定要慎重,最好在大量收到垃圾邮件的时候才用,以免误删有用的

随机森林垃圾邮件检测算法分析

随机森林垃圾邮件检测算法分析 摘要:本文应用SMOTE算法以消除邮件数据的不平衡性,并应用随机森林集成学习算法进行垃圾邮件识别。实验结果表明提出的方法在多个指标性能表现良好。 关键词:垃圾邮件、随机森林、合成少数类过采样技术

1引言 电子邮件是使用率最高的网络应用之一,是人们通过网络交流沟通的重要工具。但是,垃圾邮件作为正常邮件的附属产物,已经严重影响到国家、企业和以及个人之间的网络通讯与安全,甚至造成严重的经济损失。现在,越来越多的学者将分类预测技术应用于垃圾邮件识别,如陈龙等提出了一种基于支持向量机的自适应性分类器,并应用于用于检测垃圾邮件[1]。刘洁等提出基于改进互信息的加权朴素贝叶斯算法以提高垃圾邮件识别的精确度和召回率[2]。本文提出了一种结合SMOTE和随机森林的算法,并应用于垃圾邮件检测,以提高垃圾邮件的识别率。 2基于SMOTE和随机森林的垃圾邮件识别算法 垃圾邮件检测数据往往是不平衡数据,即数据集中的正常邮件和垃圾邮件的数量是不均衡的。针对此问题,本文提出了基于合成少数类过采样技术(SMOTE)[3]和随机森林集成学习算法[4]的RF-smote算法。算法主要分两步,首先应用SMOTE算法对少数类别的垃圾邮件样本进行分析和新样本合成,将生成的新样本添加到数据集中,消除正常邮件和垃圾邮件样本数量的不平衡。然后,应用随机森林集成学习算法,进行垃圾邮件识别。SMOTE 算法步骤如下:1.针对训练数据,采取最邻近算法,计算出垃圾邮件样本数据的K个近邻;2.针对每个垃圾邮件样本,与它K近邻中随机选择一个的样本,进行随机线性插值;3.重复第2步,直至生成的新样本个数达到合成比率要求。

反垃圾邮件系统实施项目解决方案

TOM网 反垃圾系统实施解决方案 客户项目建议书 Barracuda Networks (Shanghai) Co.,Ltd.

2005-12-21 第一章前言: 企业防治垃圾的重要性 在近几年的时间里,企业面临垃圾的威胁成指数级增长,垃圾占电子总通讯量的达到60%以上,而这一数字在三年前仅为8%;与此同时,垃圾的类型以及发送手段也愈加复杂化、多样化; 电子也一跃成为病毒的主要传播方式;这一系列的变化对企业网络构成了严重的威胁,这种威胁不仅仅是造成用户时间的损失,还包括系统资源的损耗,严重的还造成系统破坏。 因此,如何保护企业免受病毒及垃圾的侵袭,保证网络及企业信息安全成为每位网络或系统管理员的第一责任,也是企业信息化分管领导的重要职责所在。 垃圾对企业造成的危害: 1.垃圾已占全球电子的69%。(亚洲经济,2005年6月)在国际上每天有超过200亿封垃圾被发送 出去,2003年全国有470亿封流入了用户信箱,平均每人每天收到2.85封垃圾。根据IDC的分

析,到2006年,垃圾数量将在2003年数量的增加一倍。 ※根据Radicatti group预估调查(June,2003),到2007年全球垃圾将占所有Email流量的70% 2.据Ferris Research研究报导指出,垃圾电子每年让美国及欧洲企业分别损失高达89亿美元 和25亿美元。(其中40亿美元是因员工删除垃圾而造成工作效率的降低,平均删除1封垃圾得花4.4秒钟。37亿美元的花费,是为了应对超大量的资料流量,企业因而添购带宽及性能更佳的服务器,其余的损失则是公司为降低员工因垃圾产生的困扰,为员工提供的支持的费用。) 3.除了上述金额的损失之外,垃圾对企业的损害还可归类为: ◆消费者的信任——这是电子使用者的第一大问题,由于垃圾的泛滥,用户失去了对电子 的信任;据调查约有29%的用户因此而减少了电子的使用,对于企业而言,则可能造成员 工弃用企业,这不仅对企业以前网络投入的浪费,且有损企业形象。 ◆降低工作效率—使用者会浪费无谓的时间阅读并处理这些无用的电子。使用者工作效率 降低被认为是企业因垃圾所导致的最大损失。 ◆不当容—垃圾中可能包含攻击性文字,大多是人身攻击,此种可能会伤害特定的个人或 群组。此外,还有相当数量的与、非法、以及其他与国家法规相悖的信息,也将对收件 人造成不同程度的冲击。 ◆浪费IT资源—进入网络的大量垃圾,会影响企业的网络使用带宽。

反垃圾邮件法案

美利坚合众国 国会第一百零八届年会第一次会议 二零零三年一月七日星期二 召开地:华盛顿 法案 通过限制和处罚由因特网传递未经收件人许可的商业性电子邮件,规范各州内和州际商业行为。 第一章:标题 本法案可被称为《2003控制非恳请性的色情及推广邮件攻击法案》或《2003反垃圾电子邮件法案》 第二章:国会的发现和相关政策 一、发现 国会发现以下现象: 1、电子邮件已经成为了极其重要和流行的通讯方式,每天有数百万计的美国人通过它进行个人或商业信息传递。网络价格低、覆盖全球,从而令电子邮件的使用方便而快捷,并为商业的平稳发展提供了独特的机会。 2、电子邮件方便快捷的特性正为迅速膨胀的大量垃圾电子邮件所威胁。据估计,商业性垃圾电子邮件在全部电子邮件中的比例,从2001年的7%,迅速增长到现在的接近50%,其数目和比重仍在不断增加;同时,这些邮件中的信息,都存在着不同程度的误导和欺诈。 3、垃圾电子邮件会给无法拒绝接收的邮箱使用者带来邮件储存的资源耗费或处置邮件的时间成本,或二者兼有之。 4、大量垃圾电子邮件的存在,不仅会降低电子邮件服务的便捷性,还可能导致有用邮件的丢失、忽略和丢弃,从而降低网络邮件服务的可用性和可信度。 5、一些商业电子邮件可能包含令部分收件人感到粗俗或淫秽的内容。 6、垃圾电子邮件数量的迅速膨胀给网络服务提供商、使用电子邮件服务的商业、教育和非盈利性组织等机构增加了巨额的资金成本,如果没有购置更多的设备,他们可处置的邮件容量有限。 7、很多垃圾电子邮件的发送者都有意隐藏发送来源。 8、很多垃圾电子邮件的发送者都有意在邮件标题中包含误导信息,诱导收件人察看邮件。

机器学习实验之朴素贝叶斯(垃圾邮件判断)

机器学习实训实验报告(四) 专业班级学号姓名实验项目名称:利用朴素贝叶斯过滤垃圾邮件 实验内容: 1、了解概率分类器的意义,理解条件概率的计算方法 2、了解朴素贝叶斯的理论知识,了解基于以上理论知识构建分类器的方法 3、根据朴素贝叶斯的一般步骤进行过滤垃圾邮件的任务 实验过程: 算法分析: 简介: 朴素贝叶斯算法的分类模型是基于Bayes定理的,下面就简单介绍一下Bayes定理.设X为一个类别未知的数据样本,H为某个假设,C表示类别集合,若数据样本X属于一个特定的类别c,那么分类问题就是决定P(H/X),即在获得数据样本X时,H假设成立的概率.由于P(H),P(X), P(X/H)的概率值可以从(供学习使用的)数据集合中得到,Bayes 定理描述了如何根据P(H), P(X),P(X/H)计算获得的P(H/X),有关的具体公式定义描述如下 算法过程: 我们假设训练集为m个样本n个维度,如下: (x(1)1,x(1)2,...x(1)n,y1),(x(2)1,x(2 )2,...x(2)n,y2),...(x(m)1,x(m)2,...x( m)n,ym)(x1(1),x2(1),...xn(1),y1),( x1(2),x2(2),...xn(2),y2),...(x1(m),x 2(m),...xn(m),ym) 共有K个特征输出类别,分别为C1,C2,...,CKC1,C2,...,CK,每个特征输出类别的样本个数为 m1,m2,...,mKm1,m2,...,mK,在第k 个类别中,如果是离散特征,则特征XjXj各个类别取值为mjlmjl。其中l取值为源程序代码: from numpy import * import re def loadDataSet(): #文档集合 postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'], ['stop', 'posting', 'stupid', 'worthless', 'garbage'], ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'], ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']] classV ec = [0,1,0,1,0,1] #类别:1代表侮辱性文字,0代表正常 return postingList,classVec #函数说明:将切分的词条整理成不重复的词条列表 def createV ocabList(dataSet): vocabSet = set([]) ##创建一个空的不重复列表 for document in dataSet: vocabSet = vocabSet | set(document) #取并集 return list(vocabSet) #函数说明:根据vocabList,将inputSet向量化,每个元素为1或0 def setOfWords2Vec(vocabList, inputSet): returnVec = [0]*len(vocabList) #创建一个其中所含元素都为0的向量 for word in inputSet: #遍历每个词条 if word in vocabList: #如果词条存在于词汇表中,则置1 returnVec[vocabList.index(word)] = 1 else: print ("the word: %s is not in my Vocabulary!" % word) return returnVec #函数说明:朴素贝叶斯分类器训练函数 def trainNB0(trainMatrix,trainCategory): numTrainDocs = len(trainMatrix) #计算训练的文档数目 numWords = len(trainMatrix[0]) #计算每篇文档的词条数

反垃圾邮件产品解决方案修订稿

反垃圾邮件产品解决方 案 Document number【AA80KGB-AA98YT-AAT8CB-2A6UT-A18GG】

TOM网 反垃圾邮件系统实施解决方案 客户项目建议书 Barracuda Networks (Shanghai) Co.,Ltd. 2005-12-21 第一章前言: 企业防治垃圾邮件的重要性 在近几年的时间里,企业面临垃圾邮件的威胁成指数级增长,垃圾邮件占电子邮件总通讯量的达到60%以上,而这一数字在三年前仅为8%;与此同时,垃圾邮件的类型以及发送手段也愈加复杂化、多样化;电子邮件也一跃成为病毒的主要传播方式;这一系列的变化对企业网络构成了严重的威胁,这种威胁不仅仅是造成用户时间的损失,还包括系统资源的损耗,严重的还造成系统破坏。 因此,如何保护企业免受病毒邮件及垃圾邮件的侵袭,保证网络及企业信息安全成为每位网络或系统管理员的第一责任,也是企业信息化分管领导的重要职责所在。 垃圾邮件对企业造成的危害: 1.垃圾邮件已占全球电子邮件的69%。(亚洲经济,2005年6月)在国际上每天有 超过200亿封垃圾邮件被发送出去,2003年全国有470亿封邮件流入了用户信

箱,平均每人每天收到封垃圾邮件。根据IDC的分析,到2006年,垃圾邮件数量将在2003年数量的增加一倍。 ※根据Radicatti group预估调查(June,2003),到2007年全球垃圾邮件将占所有Email流量的70% 2.据Ferris Research研究报导指出,垃圾电子邮件每年让美国及欧洲企业分别损 失高达89亿美元和25亿美元。(其中40亿美元是因员工删除垃圾邮件而造成工作效率的降低,平均删除1封垃圾邮件得花秒钟。37亿美元的花费,是为了应对超大量的资料流量,企业因而添购带宽及性能更佳的服务器,其余的损失则是公司为降低员工因垃圾邮件产生的困扰,为员工提供的支持的费用。) 3.除了上述金额的损失之外,垃圾邮件对企业的损害还可归类为: 消费者的信任——这是电子邮件使用者的第一大问题,由于垃圾邮件的泛 滥,用户失去了对电子邮件的信任;据调查约有29%的用户因此而减少了电 子邮件的使用,对于企业而言,则可能造成员工弃用企业邮箱,这不仅对 企业以前网络投入的浪费,且有损企业形象。 降低工作效率—使用者会浪费无谓的时间阅读并处理这些无用的电子邮 件。使用者工作效率降低被认为是企业因垃圾邮件所导致的最大损失。 不当内容—垃圾邮件中可能包含攻击性文字,大多是人身攻击,此种邮件 可能会伤害特定的个人或群组。此外,还有相当数量的与色情、非法宗 教、以及其他与国家法规相悖的信息,也将对收件人造成不同程度的冲 击。 浪费IT资源—进入网络的大量垃圾邮件,会影响企业的网络使用带宽。 对安全和隐私造成危害——例如邮件病毒、Phisher诈骗邮件、身份盗窃信 等。

exchange反垃圾邮件

【IT168 专稿】随着电子邮箱的普及,为了使用户更好的利用邮箱资源,一大关键问题就是如何处理多如牛毛的垃圾邮件。 所谓垃圾邮件就是非用户意愿所产生的邮件。它不仅影响用户的正常查阅。更对服务器造成重大危害,主要表现在增加服务器、网络消耗及占据磁盘空间。而对于大多数企业而言,面临的邮件难题主要是:怎样允许正常的电子邮件传入并拦截垃圾邮件。这就需要用正确的方法来在 Exchange Server 环境中打击垃圾邮件。 带有 SP2 的Microsoft Exchange Server 2003 使用了多种筛选方法来减少垃圾邮件。这些方法就是分层式防垃圾邮件解决方案,exchange 2003提供了一系列的垃圾邮件抵御框架连接级别保护:IP 连接筛选、实时阻止列表、协议级别保护、收件人和发件人阻止、发件人 ID、内容级保护、Exchange 智能邮件筛选器、Outlook 2003 和 Outlook Web Access 垃圾电子邮件。 本文主要讨论的就是以exchange邮件服务器所提供的一些抵御垃圾邮件框架,以及如何使用筛选器这些功能来有效的抵御垃圾邮件。 一、发件人筛选 1、在“开始——程序”里面找到exchange管理器,步骤如下:全局设置——邮件传递——属性——发件人筛选。(如图1所示) 图1

2、选择添加。则弹出添加发件人对话框。这里我们可以阻止单个的发件人地址,也可以阻止一个SMTP域,阻止一个SMTP域的填写方式为 @test。com (@后面跟你的域名) 。(如图2所示) 图2 注意,还要需要勾选“存档筛选的邮件、筛选发件人为空的邮件以及如果地址满足筛选条件,则断开连接”等三个选项。(如图3所示) 图3 这些设置主要是根据用户的实际需要来配置发件人阻止列表。 二、收件人筛选 其功能主要是阻截发送到列表里面的用户的邮件。选择添加。添加的内容可以是填单个的邮件,也可以填一个SMTP邮件域。(如图4所示)

相关文档
最新文档