基于核方法的贝叶斯邮件分类网络研究

合集下载

基于机器学习的邮件分类与垃圾邮件识别算法研究

基于机器学习的邮件分类与垃圾邮件识别算法研究

基于机器学习的邮件分类与垃圾邮件识别算法研究随着电子邮件的广泛应用,我们每天都会收到大量的邮件。

其中,很大一部分是垃圾邮件,给我们的工作和生活带来了很多麻烦。

因此,如何准确地将邮件分类和识别出垃圾邮件成为很多研究人员的关注焦点。

本文将探讨基于机器学习的方法在邮件分类和垃圾邮件识别方面的应用。

邮件分类是指将邮件按照一定的标准分为不同的类别,如工作相关、个人邮件、广告等。

传统的方法通常是基于规则的,需要人工定义一系列规则来判断邮件的类型。

然而,这种方法需要大量的时间和精力,并且很难适应不同的邮件样本。

相比之下,基于机器学习的方法在处理大规模邮件数据时表现出了很好的效果。

首先,设计一个好的特征集合对于机器学习算法的训练和分类是至关重要的。

在邮件分类任务中,常见的特征包括邮件的标题、发件人、正文内容、收件人等。

此外,还可以考虑添加一些统计特征,如邮件的长度、包含的链接数、附件信息等。

通过提取这些特征,可以将邮件转化为数值型数据,便于机器学习算法的处理和分析。

在特征选择和提取完毕后,我们需要选择合适的机器学习算法进行模型的训练和分类。

常见的算法包括朴素贝叶斯、支持向量机、决策树等。

这些算法在分类和预测任务上都有较好的表现。

例如,朴素贝叶斯算法是基于贝叶斯定理和特征条件独立假设的分类方法,可以通过计算先验概率和条件概率来进行邮件分类。

支持向量机则是通过构建一个高维特征空间,将不同类别的邮件分割开,从而实现分类的目的。

决策树则可以通过建立一系列的决策节点,根据特征的取值来进行分类。

除了选择适当的模型之外,还需要进行特征选择和模型调优。

特征选择是指从初始特征集中选择最为关键和重要的特征,以提高模型的性能和泛化能力。

常见的特征选择方法包括相关系数法、信息增益法、特征权重法等。

优化模型的参数和超参数也是提高模型性能的关键步骤。

可以使用交叉验证等方法来寻找最优的参数设置,以提高模型的准确性和泛化能力。

垃圾邮件识别是邮件分类的一个重要应用场景。

分类算法在垃圾邮件识别中的应用

分类算法在垃圾邮件识别中的应用

分类算法在垃圾邮件识别中的应用一、引言随着互联网的普及,电子邮件成为了人们日常沟通的主要方式之一,然而垃圾邮件的滋生也给人们的电子邮件带来了极大的困扰。

垃圾邮件不仅会消耗用户的时间和信心,还可能造成一定的经济损失,因此如何有效地识别并过滤垃圾邮件是一个非常重要的问题。

二、垃圾邮件识别的基本思路垃圾邮件识别的基本思路是通过建立一个分类器,将输入的邮件分到“垃圾邮件”或“正常邮件”两个类别中。

通常使用的方法是通过对已知类别(即已标记的)的邮件进行特征提取,然后通过分类算法训练得到一个分类器,将这个分类器应用到新的、未知类别的邮件中去进行判断。

垃圾邮件识别中的分类算法主要包括朴素贝叶斯算法、支持向量机算法以及决策树算法等。

三、特征提取特征提取是垃圾邮件识别中的一个重要步骤,其目的是从每个邮件中提取出一些特征,这些特征可以用来区分垃圾邮件和正常邮件。

常用的特征包括邮件的发件人、主题、正文内容以及附件等。

此外,还可以根据邮件中是否包含特定的关键词来进行判断。

例如,一些常见的垃圾邮件中包含的词语有“免费”、“打折”等等。

通过对这些特征的提取和处理,可以为后续的分类算法提供有效的输入数据。

四、朴素贝叶斯算法朴素贝叶斯算法是一种基于贝叶斯定理的分类算法,常用于文本分类、邮件分类等领域。

该算法将每个输入的邮件看作一个向量,在特征提取的基础上,将该向量的每一个特征与相应的概率值结合起来,计算出属于垃圾邮件或正常邮件的概率。

算法的核心思想是利用贝叶斯定理,即在已知类别的情况下,求解出邮件中各个特征出现的概率,然后根据这些概率来计算整个邮件归类为垃圾邮件或正常邮件的概率,并最终将邮件归类到概率更高的那一类。

五、支持向量机算法支持向量机算法是一种基于统计学习理论的分类算法,其核心思想是通过寻找一个最优的超平面来将两个不同类别的样本分隔开。

在垃圾邮件识别中,支持向量机算法的输入也是每一个邮件的特征向量,但不同于朴素贝叶斯算法,支持向量机算法将邮件的特征向量映射到高维空间,并在该空间中寻找一个最优的超平面来将垃圾邮件和正常邮件分开。

基于决策树与贝叶斯算法的垃圾邮件分类

基于决策树与贝叶斯算法的垃圾邮件分类

2020-2021学年第二学期《机器学习应用开发》课程论文题目:基于决策树与贝叶斯算法的垃圾邮件分类班级: 18软工软件2班学号: 1815945134姓名:张乐成绩:目录摘要: (3)1. 工程问题描述 (4)2. 所选算法介绍 (5)2.1算法的研究现状 (5)2.2算法的原理 (6)2.2.1贝叶斯算法 (6)2.2.2 决策树算法 (6)2.3算法的求解步骤 (7)2.3.1 贝叶斯算法 (7)2.3.2 决策树算法 (7)3. 实验 (8)3.1数据集介绍 (8)1. 过滤器样本集 (8)2. 算法类 (8)3.2运行环境 (9)3.3源代码 (9)3.4实现界面截图 (19)3.5实验结果分析比对 (20)3.5.1贝叶斯算法优缺点 (21)3.5.2决策树算法优缺点 (21)4. 请说出你的创新想法 (22)5.总结 (22)参考文献: (23)摘要:电子邮件系统是目前互联网上最普及的应用之一。

然而,电子邮件在给人们提供便捷通信手段的同时,也遭到了一些人为的滥用。

当今,垃圾邮件问题已经愈演愈烈,对互联网造成了很大的危害,利用技术方法来阻挡垃圾邮件,是目前为止对付垃圾邮件问题最有效的手段。

首先,贝叶斯过滤技术,借鉴了在文本挖掘问题中获得成功的机器学习算法,是目前研究较多的一种过滤技术。

贝叶斯过滤方法在分类的效果上以及在不需要太多人工干预上都有很大的优势,因此逐渐被广泛接受;其次,运用决策树分类算法中的C4.5算法对邮件进行了分析得到了垃圾邮件分析决策树,分析研究出有用的邮件找到垃圾邮件,发现某种规律的存在。

Abstract:E-mail system is one of the most popular applications on the Internet. However, while e-mail provides people with convenient means of communication, it has also been abused by some people. Nowadays, the problem of spam has become more and more serious, causing great harm to the Internet. Using technical methods to stop spam is the most effective means to deal with the problem of spam so far.First of all, Bayesian filtering technology, which draws lessons from the successful machine learning algorithm in text mining, is a kind of filtering technology that has been studied more at present. Bayesian filtering method has great advantages in the effect of classification and not requiring too much human intervention, so it is gradually widely accepted; Secondly, we use the C4.5 algorithm in the decision tree classification algorithm to analyze the mail, get the spam analysis decision tree, analyze and find useful mail to find spam, and discover the existence of some rule.1.工程问题描述无论在企业应用领域,还是在儿科学淋浴,数据挖掘技术有着广泛的应用价值。

贝叶斯网络及其应用

贝叶斯网络及其应用

贝叶斯网络及其应用贝叶斯网络是一种基于概率数学的图形模型,可以表示多个变量之间的关系,包括因果关系和依赖关系。

贝叶斯网络常用于分类、预测和诊断等领域,具有广泛的应用价值。

一、贝叶斯网络的原理贝叶斯网络的核心思想是贝叶斯定理,即在观测变量的前提下,推断未观测变量的概率分布。

具体而言,贝叶斯网络由节点(变量)和边(关系)构成,其中节点表示变量,边表示变量之间的关系。

例如,一个人的身高和体重之间存在一定的关系。

如果用贝叶斯网络表示,身高和体重分别是两个节点,它们之间存在一条边。

因为身高可以影响体重,但是体重不能影响身高。

贝叶斯网络可以表示更为复杂的关系,例如,多个变量之间的依赖关系或因果关系。

应用贝叶斯网络可以对复杂的现象进行建模,并进行推理和预测。

二、贝叶斯网络的应用1. 分类贝叶斯网络在分类问题中有广泛的应用。

例如,在医学诊断中,病人的症状和疾病之间存在复杂的关系,使用贝叶斯网络可以对病情进行分类。

另外,在垃圾邮件分类中,使用贝叶斯网络可以对邮件进行分类,以便过滤垃圾邮件。

2. 预测贝叶斯网络在预测问题中也有广泛的应用。

例如,在金融领域,使用贝叶斯网络可以对股票价格进行预测。

另外,在环境研究中,使用贝叶斯网络可以对气候变化等问题进行预测。

3. 诊断贝叶斯网络在诊断领域中也有广泛的应用。

例如,在医学诊断中,使用贝叶斯网络可以根据病人的症状和疾病之间的关系,进行病情诊断。

另外,在工业控制中,使用贝叶斯网络可以对机器故障进行诊断。

三、贝叶斯网络的局限性贝叶斯网络虽然具有广泛的应用价值,但也存在一些局限性。

其中最主要的局限性是数据要求较高。

因为贝叶斯网络需要大量的数据来进行建模和训练,如果数据量太少,可能会影响预测的准确性。

另外,贝叶斯网络对于较为复杂的现象建模能力有限,可能无法完全反映真实的现象。

四、结论贝叶斯网络是一种基于概率数学的图形模型,可以表示多个变量之间的关系。

它具有广泛的应用价值,包括分类、预测和诊断等领域。

不同长度下中文垃圾邮件分类模型的研究

不同长度下中文垃圾邮件分类模型的研究

不同长度下中文垃圾邮件分类模型的研究
顾孟钧;冯文舟;陈中兵
【期刊名称】《工业信息安全》
【年(卷),期】2022()7
【摘要】针对日益泛滥的垃圾邮件问题,本文使用多种算法对不同长度下中文垃圾邮件分类模型进行比较研究。

首先,使用朴素贝叶斯算法对邮件数据集进行训练和测试;然后,从邮件数据集中筛选出三种不同文本长度的数据集和两种不同大小样本量的数据集,组成五个实验样本集;最后分别使用多种传统机器学习模型、神经网络模型和预训练模型在五个实验样本集上进行建模比较。

实验结果表明,预训练模型ALBERT最适合分类句子长度的中文垃圾邮件,传统机器学习模型SVM最适合分类段落长度的中文垃圾邮件,神经网络模型TextRCNN最适合分类篇章长度的中文垃圾邮件。

实验结果还显示,神经网络模型TextRNN和预训练模型RoBERTa不适用于小样本数据。

【总页数】8页(P28-35)
【作者】顾孟钧;冯文舟;陈中兵
【作者单位】中国电信股份有限公司浙江分公司;浙江省台州临海市公安局;浙江省公众信息产业有限公司
【正文语种】中文
【中图分类】TP3
【相关文献】
1.不完全朴素贝叶斯分类模型在垃圾邮件过滤中的研究
2.简体中文垃圾邮件分类的实验设计及对比研究
3.基于组合算法的中文反垃圾邮件分类系统的研究
4.不同情境下中文文本分类模型的表现及选择∗
5.基于文本分类的中文垃圾邮件过滤技术研究
因版权原因,仅展示原文概要,查看原文内容请购买。

基于贝叶斯算法的文本分类

基于贝叶斯算法的文本分类

基于贝叶斯算法的文本分类近年来,随着互联网的普及和传统媒体的衰落,人们每天面对的新闻信息越来越庞杂。

如何对这些各种各样的信息进行高效、准确的分类处理,成为了一个急待解决的问题。

文本分类技术就是解决这一问题的重要手段之一,而贝叶斯算法则是文本分类的核心之一。

一、什么是文本分类文本分类,是指将文本按照其所属类别进行分类。

在信息检索、网络安全、情感分析、金融分析等领域都有广泛应用。

文本分类技术的主要任务是构建一个识别器,将文本据以划分到事先定义好的类别中去。

文本分类的常见应用场景包括:(1)新闻分类:对新闻进行分类,包括时政、财经、娱乐、体育等。

(2)垃圾邮件过滤:对电子邮件进行分类,判断是否为垃圾邮件。

(3)情感分析:对用户评论进行分类,判断评论是正面、负面还是中性的。

(4)预测金融市场:根据新闻分析金融市场行情。

(5)安全领域:对网络流量进行分类,判断是否存在攻击。

二、什么是贝叶斯算法贝叶斯算法是一种基于统计学原理的分类算法,以先验概率与后验概率为依据,通过计算从而对文本进行分类。

贝叶斯分类算法是一种监督学习的方法,也是文本分类的核心算法之一。

具体而言,贝叶斯算法利用某一些特征的条件概率来作为分类器进行分类,是基于贝叶斯定理和朴素贝叶斯假设而得出的分类算法。

这一算法假设各个特征之间是独立、同分布的。

贝叶斯分类算法的核心就是计算每个类别的先验概率,以及每个类别的条件概率,最后选择后验概率最大的类别作为分类结果。

三、贝叶斯算法的应用在文本分类中,贝叶斯算法主要应用于如下三个方面:1、特征选择特征选择是指从文本中提取有效的特征用于分类。

常常采用的方法是对原文本进行词频统计,然后对于每个词计算它在不同类别文本中出现的概率,从而确定每个特征与每个类别之间的条件概率。

那么,如何选择哪些特征是比较有用的,也就变得十分重要了。

对于特征选择,朴素贝叶斯算法的一个重要应用便是计算一个特征的信息增益,然后根据归一化信息增益的值选择特征,信息增益大的特征相对更具分类能力。

使用朴素贝叶斯对垃圾邮件分类实验原理

使用朴素贝叶斯对垃圾邮件分类实验原理

文章标题:深入探究朴素贝叶斯算法:垃圾邮件分类实验原理解析在信息爆炸的时代,电流信箱已经成为人们日常生活和工作中不可或缺的一部分。

然而,随之而来的垃圾邮件问题也一直困扰着人们。

为了解决这一问题,朴素贝叶斯算法被广泛应用于垃圾邮件分类实验中。

本文将深入探讨朴素贝叶斯算法在垃圾邮件分类实验中的原理和应用。

一、朴素贝叶斯算法简介朴素贝叶斯分类器是一种基于贝叶斯定理和特征条件独立假设的分类算法。

它被广泛应用于文本分类、垃圾邮件过滤、情感分析等领域。

朴素贝叶斯算法的核心思想是基于训练样本对文本进行建模,并根据文本中不同特征的出现概率来进行分类。

二、垃圾邮件分类实验原理解析1. 数据预处理:需要对收集到的邮件数据进行预处理,包括去除邮件中的特殊符号、停用词等。

2. 特征提取:接下来,需要从处理后的邮件数据中提取特征,常用的特征包括词袋模型和TF-IDF模型。

3. 训练模型:使用朴素贝叶斯算法对提取到的特征进行训练,得到垃圾邮件和正常邮件的概率分布。

4. 分类预测:根据训练好的模型,对未知的邮件进行分类预测,判断其是否为垃圾邮件。

三、朴素贝叶斯算法的优势和局限性1. 优势:朴素贝叶斯算法简单高效,对小规模数据表现良好,且易于实现和扩展。

2. 局限性:朴素贝叶斯算法忽略了特征之间的关联性,且对输入数据的分布假设较强。

四、个人观点和理解朴素贝叶斯算法作为一种经典的分类算法,在垃圾邮件分类实验中表现出了较好的效果。

然而,其在处理复杂语境和大规模数据时存在一定局限性。

我认为,在实际应用中,可以结合其他算法和技术,进一步提升垃圾邮件分类的准确率和效率。

总结回顾:通过本文的深入探讨,我们对朴素贝叶斯算法在垃圾邮件分类实验中的原理和应用有了全面、深刻和灵活的理解。

朴素贝叶斯算法的优势和局限性也使我们对其进行了全面的评估。

在未来的研究和实践中,我将继续深入研究和探索其他分类算法,以期进一步提升垃圾邮件分类的效果。

五、垃圾邮件分类实验中的技术挑战和解决办法在垃圾邮件分类实验中,我们面临着一些技术挑战。

贝叶斯算法原理

贝叶斯算法原理

贝叶斯算法原理贝叶斯算法是一种基于概率统计理论的分类方法,它的核心思想是利用已知的样本数据来计算待分类样本属于某个类别的概率。

在机器学习和数据挖掘领域,贝叶斯算法被广泛应用于文本分类、垃圾邮件过滤、情感分析等任务中,具有较好的分类性能和鲁棒性。

本文将从贝叶斯算法的原理、应用和优缺点等方面进行介绍。

贝叶斯算法的原理。

贝叶斯算法基于贝叶斯定理,通过已知的先验概率和样本数据的条件概率来计算后验概率,从而实现分类任务。

在分类问题中,我们需要将待分类的样本分到不同的类别中,而贝叶斯算法就是利用样本的特征和类别之间的关系来进行分类的。

具体来说,对于给定的样本特征X和类别Y,贝叶斯算法通过计算后验概率P(Y|X)来确定样本属于某个类别的概率。

而P(Y|X)可以根据贝叶斯定理表示为:P(Y|X) = P(X|Y) P(Y) / P(X)。

其中,P(X|Y)表示在类别Y下样本特征X的条件概率,P(Y)表示类别Y的先验概率,P(X)表示样本特征X的先验概率。

通过比较不同类别下的后验概率,我们可以将样本分到概率最大的类别中,从而实现分类。

贝叶斯算法的应用。

贝叶斯算法在文本分类、垃圾邮件过滤、情感分析等任务中有着广泛的应用。

在文本分类中,我们可以利用贝叶斯算法来对文本进行分类,如将新闻文章分为政治、经济、娱乐等类别。

在垃圾邮件过滤中,我们可以利用贝叶斯算法来判断邮件是否为垃圾邮件,从而提高邮件过滤的准确性。

在情感分析中,我们可以利用贝叶斯算法来分析文本中的情感倾向,如判断评论是正面的还是负面的。

贝叶斯算法的优缺点。

贝叶斯算法具有较好的分类性能和鲁棒性,但也存在一些缺点。

其优点主要包括:1. 算法简单,易于实现。

贝叶斯算法基于概率统计理论,计算过程相对简单,易于实现和理解。

2. 对小样本数据效果较好。

贝叶斯算法能够有效利用已知的样本数据,对小样本数据的分类效果较好。

3. 对噪声数据具有较强的鲁棒性。

贝叶斯算法能够通过概率计算来降低噪声数据的影响,具有较强的鲁棒性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第36卷 第3期 电 子 科 技 大 学 学 报 V ol.36 No.32007年6月 Journalof University of Electronic Science and Technology of China Jun. 2007 基于核方法的贝叶斯邮件分类网络研究刘 震 ,周明天(电子科技大学计算机科学与工程学院 成都 610054)【摘要】提出一种包含核函数的Bayesian 参数估计方法,提高了Bayesian 参数估计的实用性。

结合邮件内容和报文格式两个方面分析和提取邮件的重要特征,建立了对应的Bayesian 邮件分类网络。

将包含核函数的Bayesian 参数估计方法应用到邮件分类网络,在对不同邮件测试集的在线学习试验结果证明,这种新的分类模型能够有效地实现垃圾邮件的分类过滤。

关 键 词 Bayesian 网络; 高斯核; 参数估计; 垃圾邮件; 中图分类号 TP393 文献标识码 AResearch on Bayesian Classification Network forSpam Based on Kernel MethodLIU Zhen ,ZHOU Ming-tian(School of Computer Science and Engineering, University of Electronic Science and Technology of China Chengdu 610054)Abstract A kernel function based Bayesian parameter estimation approach is proposed in this paper which is able to make the algorithm more applicable. Combined with the both sides of email content and format, a Bayesian network for spam classification is well constructed. The testing results by on-line learning for different email testing sets prove that the new model can ensure the classification and filtering efficiently by applying the kernel function based Bayesian parameter estimation approach into the classification network.Key words Bayesian network; Gaussian kernel; parameter estimation; spam收稿日期:2005 − 03 − 07作者简介:刘 震(1976 − ),男,博士生,主要从事智能安全、不确定推理、人工智能等方面的研究.Bayesian 参数估计作为基于统计学的不确定推理理论的一个重要研究方向,有着坚实完备的数学基础[1]。

将Bayesian 参数估计引入到贝叶斯网络学习中,可以充分利用节点的先验知识作后验估计;因为节点之间逻辑上的因果关系,能够提高先验的可信度。

但由于概率密度函数通常是未知的,限制了经典Bayesian 参数估计方法的应用。

本文通过引入核方法,实现了对概率密度函数的近似估计,从而提高了Bayesian 参数估计方法的实用性。

在文献[2]工作的基础上,本文根据对垃圾邮件所作的特征属性分析,构建了有监督Bayesian 网络;提出的垃圾邮件分类过滤算法充分利用了网络所建立的节点关系来实现不确定特征学习,采用统计推理的方法确保了对垃圾邮件和正常邮件准确和有效的分类识别。

1 Bayesian 参数估计理论 Bayesian 参数估计的思想是通过前m 次的先验统计概率分布,估计第m +1次事件发生的概率。

它通过不断地概率学习,从而不断地适应和逼近变化的概率分布。

已知随机事件X 在前m 次的概率分布,要估计下一次X [m +1]的概率,可计算X 的后验Bayesian 参数估计概率:([1]|)(|)d p x m k D p D θΘΘ+==∫ (1)然而,式(1)求解的前提需要知道概率密度函数(|)p D Θ的形式,如果预先无法得到精确的概率分布函数,则不能按照式(1)作概率参数学习。

所以在实际的基于统计学习的模式分类问题中,需要研究如何得到概率密度函数。

先假设从概率密度函数()X f x 提取随机样本12,,,N x x x ",一种自然的局部估计近似具有如下形式:00#()()x N x f x N λ∈= (2)式中 0()N x 是0x 周围宽度为λ的较小度量邻域。

KNN 和最小二乘回归分析是传统的研究近似概率密度函数的方法,但这些方法得到的估计是起伏的[1]。

所以本文采用光滑的Parzen 估计: 011ˆ()(,)Ni i f x K x x N λλ==∑ (3) 因为式(3)使用随0x 的距离递减的权处理邻近电 子 科 技 大 学 学 报 第36卷5880x 的观测。

所以本文选择具有类似特征的高斯核00(,)(||/)K x x x x λφλ=−。

设λφ表示具有均值0和标准差λ的高斯密度,则概率密度函数为:11ˆˆ()()()()Nii f x x x F x N λλφφλ==−=∑ (4) 利用式(4),可以直接使用贝叶斯定理进行分类。

针对J 类问题,分别在类别上拟合非参数密度估计ˆ()j f x ,1,2,,j J =",以及类的先验ˆj π的估计(通常是样本的比例),那么边界判定式为:0001ˆˆ()ˆPr(|)ˆˆ()j j Jj k k f x G j X x f x ππ====∑ (5) 2 有监督Bayesian 邮件分类网络为了构建有监督的Bayesian 邮件分类网络,需要分析邮件的报文格式。

根据RFC2822定义的Internet 邮件报文格式(Internet Message Format),一封邮件由报头域(Header Fields)和正文(Body)组成。

其中报头必须存在,而正文是可选的。

报头是一系列由特殊语法构成的文本行组成,正文则仅仅由字符串组成。

正文和报头由一空行分隔开。

报头域是由域名(Field Name)和域体(Field Body)组成,二者以一个冒号分开。

域名必须是可打印的US-ASCII 字符,域体可以是任意的US-ASCII 字符。

下面分析三个重要的报头域:(1) 起始日期域(The Origination Date Field):Orig-date=”Date:”date-time CRLF这个域可以成为Bayesian 网络中一个节点的理由是因为在某些敏感日期,如节假日、病毒爆发日,垃圾邮件容易泛滥,系统应该对这些日期提高预警。

(2) 发件人地址域(Originator Fields):from=”From:”mailbox-listCRLF ,sender=”Sender:” mailbox CRLF ,reply-to= ”Reply-To:”address-list CRLF发件人地址域包括From 域、Sender 域和Reply-to 域,它们指明了邮件的来源。

Sender 域显然应该成为Bayesian 网络的一个节点,对于垃圾邮件发送者,他们的邮件地址是最直接的一个判据。

(3) 目的地址域(Destination Address Fields): to=”To:”address-list CRLF ,cc=”Cc:”address-list CRLF ,bcc=”Bcc:”(address-list/[CFWS])CRLF目的地址域由三个可选的域构成:To 域、Cc 域和Bcc 域。

它们域名分别是“To ”,“Cc ”和“Bcc ”,域体指明了邮件的收件人。

通过Bc 域和Bcc 域可以作为判断垃圾邮件的一个依据。

经分析认为邮件格式中的其他域不是判断邮件性质的必要条件,所以本文没有把它们纳入Bayesian 网络的结构中。

对邮件体的分析目前仍然集中在某些关键词出现的概率估计上,这是基于内容的过滤技术常常关注的分类特征。

本文研究关键字并不是采用简单的关键词匹配技术。

因为很多垃圾邮件中出现的词汇,也可能会出现在正常邮件中,所以应该用概率的方法对关键字做必要的取舍。

图1所示为根据垃圾邮件的基本特征构建的一个Bayesian 网络。

IP 可以通过域名作反向DNS 查询来得到,这样可以有效地防止域名欺骗。

由于需要通过Sender 的域名判定其IP 是否是垃圾邮件发送者IP 的概率,所以存在一根网络连线从Sender 节点指向IP 节点。

关键词节点中所加省略号,表示网络中关键词不唯一,图1只是一种省略的表示法。

由于Bayesian 网络都是Causal 图,箭头描述了节点间的因果关系。

图1建立的网络涵盖了导致邮件成为垃圾邮件的主要因素。

通过概率关系来描述该网络可以定量地研究邮件是垃圾邮件的可能性。

图1 基于垃圾邮件特征的完备Bayesian 网络3 训练邮件过滤器本文以四个邮件样本集为例,进行邮件分类器的测试实验。

其中EN 、PU1、Ling-Spam 集是网络上可以下载的公共测试集[2],而CH 集是本文构建的中文邮件测试集。

设输入向量定义为:date IP (,,x x =X 12sender IP|sender bcc cc keyword keyword keyword ,,,,,,,)n x x x x x x x ",以第2节构建的Bayesian 分类网络所描述的分类特征关系为分类依据,按照第1节引入的核函数方法对初始邮件样本集做近似的概率密度函数估计,最终可以得到Spam 类和Legal 类邮件的判定边界,即得到集合spam {|(|)1/2}x p G S X x ===。

图2分别展示了在四个样本集上的判定边界。

当有新的待分类邮件到达时,首先要根据Bayesian 分类网络对邮件的输入特征向量作特征值的映射,本文对所有特征值都做了归一化预处理。

如果满足spam {|(|)x p G S X x ==> 1/2},该邮件判断为垃圾邮件;如果spam {|(|x p G S =第3期 刘 震 等: 基于核方法的贝叶斯邮件分类网络研究 589)1/2}X x =<,则把该邮件判断为正常邮件;如果正好处于边界,则将该邮件放入未知类别缓存队列,留到判定边界更新以后再作二次判断。

相关文档
最新文档