基于改进贝叶斯决策的邮件过滤

Computer Engineering and Applications 计算机工程与应用

2013,49(7)垃圾邮件不仅困扰人们的日常生活,更威胁到网络的效率和安全。据中国互联网协会反垃圾邮件中心[1]公布的《2010年第四季度中国反垃圾邮件状况调查报告》,中国网民平均每周收到13.5封垃圾邮件,处理垃圾邮件耗时9.4min ,并有进一步增长的趋势。当前有多种反垃圾邮件技术[2],包括黑白名单技术、基于规则的过滤技术、行为识别技术、基于内容的过滤技术等。然而,垃圾邮件的日新月异给当前技术带来了新的难题。单纯利用这些过滤技术,都很难达到令人满意的效果。表1总结了这些主流技术的优缺点。

本文重点关注基于内容的过滤技术[3]:首先由用户对现有的大量邮件进行分类——垃圾邮件或正常邮件,然后系统通过对邮件集进行不断地总结与学习,进而根据新邮件内容进行分析和判断。著名的“贝叶斯过滤技术”[3-5]便是基于该思想的一种有效技术。贝叶斯邮件过滤器是一

种基于概率的分类器,一般根据计算得到邮件后验概率,采用人为设定阈值的方法进行分类决策。贝叶斯分类器具有优秀的分类表现,但在邮件分类决策时采用概率阈值的方法具有较大主观性,因此难以实现误判风险和垃圾邮件召回率之间的平衡。

1相关研究

目前已有多位学者将贝叶斯方法应用于文本分类,并取得了较好的效果[6]。但邮件过滤不同于一般的文本分类:通常认为,用户宁愿接收更多的垃圾邮件,也不能接受将合法邮件错判为垃圾邮件[3]。为解决上述问题,文献[7]提出垃圾邮件的代价因子指标,指出如果简单地追求高的邮件正确率则可能产生很大基于改进贝叶斯决策的邮件过滤

薛正元

XUE Zhengyuan

郑州大学信息工程学院,郑州450001

School of Information Engineering,Zhengzhou University,Zhengzhou 450001,China

XUE Zhengyuan.Improved probability-based Bayesian anti-spam https://www.360docs.net/doc/f618959898.html,puter Engineering and Applications,2013,49(7):98-101.

Abstract :This paper confers in depth to the limitations of the traditional Bayesian anti-spam mechanism.It seldom thinks about whether the threshold is suitable or not,so the recalling is reduced.Aiming at this question,the paper proposes a lower-error policy decision based on chance variable;and considering the particularity of email classification,a lower-risk policy decision based on chance variable is proposed.The experimental results show that the former one maybe a better way to classify the common text;and the latter one makes better performance on recalling and F value when dealing with emails,at the same time it keeps a lower risk of error judging.

Key words :spam email;email filter;probability;threshold;classify decision

摘要:探讨了基于概率阈值的贝叶斯邮件过滤模型的局限性:由于很少考虑所设定阈值的适用性和实用性,损失了一定的召回率。改进贝叶斯决策,提出了基于随机变量的较小错误分类决策方法;针对邮件处理的特殊性,进一步提出了基于随机变量的较小风险分类决策方法。实验结果表明,处理普通文本分类问题时,前者的分类决策效果更好;而后者在处理邮件问题时性能更优,能够在保持较小误判风险的同时,提高贝叶斯邮件过滤器的召回率以及F 值。

关键词:垃圾邮件;邮件过滤;概率;阈值;分类决策

文献标志码:A 中图分类号:TP302.1doi :10.3778/j.issn.1002-8331.1109-0044

作者简介:薛正元(1989—),男,硕士研究生,主要研究领域为Web 数据挖掘,网络信息技术。E-mail :xuezhengyuan@https://www.360docs.net/doc/f618959898.html, 收稿日期:2011-09-05修回日期:2011-11-21文章编号:1002-8331(2013)07-0098-04

CNKI 出版日期:2012-01-16https://www.360docs.net/doc/f618959898.html,/kcms/detail/11.2127.TP.20120116.0928.067.html 反垃圾邮件技术黑白名单技术基于规则的过滤行为识别技术基于内容的过滤优点简单、易行相对灵活快速、高效准确率高缺点不够灵活,容易误判需要大量维护工作容易导致误判漏判

基于概率、不够灵活表1传统反垃圾邮件技术的优缺点分析

98

相关文档
最新文档