基于朴素贝叶斯算法的垃圾邮件分类-(Python实现)

合集下载

基于朴素贝叶斯的垃圾邮件分类算法研究

基于朴素贝叶斯的垃圾邮件分类算法研究引言随着互联网的发展，我们的电子邮件的数量也越来越多。

人们接受电子邮件的速度和效率变得更高，但同时也伴随着垃圾邮件的增长。

垃圾邮件往往会带来许多问题，例如浪费时间和网络资源，甚至可能传播病毒和诈骗。

因此，我们需要有效的筛选算法来区分垃圾邮件和正常邮件。

本文将讨论朴素贝叶斯的垃圾邮件分类算法。

朴素贝叶斯算法朴素贝叶斯算法是一种基于贝叶斯定理的分类方法。

该算法使用已知的类别和相关特征来推断未知的类别。

对于一个待分类的对象，朴素贝叶斯算法会首先将其描述为已知类别的特征的集合，然后根据贝叶斯定理来计算其属于每个类别的概率，并选择概率最大的类别作为分类结果。

贝叶斯定理表达式如下：P(A|B) = P(B|A) * P(A) / P(B)其中，P(A|B)是在给定B的情况下，A的条件概率。

P(B|A)是在给定A的情况下，B的条件概率。

P(A)和P(B)分别是A和B的概率。

朴素贝叶斯算法假定每个特征都是独立的，这意味着特征之间的关系可以无视。

在实际应用中，该假设并不总是成立。

例如，在垃圾邮件分类中，标题和正文的内容通常是相关的。

但是，在一个大规模的特征空间下，这种假设可以使算法更简单且更快速地运行，同时取得令人满意的结果。

垃圾邮件分类应用垃圾邮件分类是朴素贝叶斯算法的典型应用之一。

我们将说明如何使用朴素贝叶斯算法来分类垃圾邮件和正常邮件。

首先，我们需要从邮件中提取特征。

为了分类邮件，我们需要确定哪些特征是更有信息量的。

例如，单词的数量或单词的出现频率可能是一个有用的特征。

因此，我们可以基于这些因素来确定特征。

接着，我们需要计算在给定特征条件下，垃圾邮件和正常邮件的概率。

为了训练分类器，我们需要一组已标记的邮件数据集。

在朴素贝叶斯算法中，我们需要计算每种特征在垃圾邮件中出现的概率和在正常邮件中出现的概率，并将这些概率用于计算分类邮件时的条件概率。

这些概率可以通过计算数据集中特征出现的频率以及垃圾邮件和正常邮件的数量来估算。

朴素贝叶斯文本分类代码（详解）

朴素贝叶斯⽂本分类代码（详解）1from numpy import zeros,array2from math import log34def loadDataSet():5#词条切分后的⽂档集合，列表每⼀⾏代表⼀个email6 postingList=[['your','mobile','number','is','award','bonus','prize'],7 ['new','car','and','house','for','my','parents'],8 ['my','dalmation','is','so','cute','I','love','him'],9 ['today','voda','number','prize', 'receive','award'],10 ['get','new','job','in','company','how','to','get','that'],11 ['free','prize','buy','winner','receive','cash']]12#由⼈⼯标注的每篇⽂档的类标签13 classVec=[1,0,0,1,0,1] #1-spam, 0-ham14return postingList,classVec15 postingList,classVec = loadDataSet()161718#统计所有⽂档中出现的词条列表19def createVocabList(dataSet):20 vocabSet=set([])21#遍历⽂档集合中的每⼀篇⽂档22for document in dataSet:23 vocabSet=vocabSet|set(document)24return list(vocabSet)25 vocabSet = createVocabList(postingList)262728#根据词条列表中的词条是否在⽂档中出现(出现1，未出现0)，将⽂档转化为词条向量29def setOfWords2Vec(vocabSet,inputSet):30#新建⼀个长度为vocabSet的列表，并且各维度元素初始化为031 returnVec=[0]*len(vocabSet)32#遍历⽂档中的每⼀个词条33for word in inputSet:34#如果词条在词条列表中出现35if word in vocabSet:36#通过列表获取当前word的索引(下标)37#将词条向量中的对应下标的项由0改为138 returnVec[vocabSet.index(word)]=139else: print('the word: %s is not in my vocabulary! '%'word')40#返回inputet转化后的词条向量41return returnVec4243 trainMatrix = [setOfWords2Vec(vocabSet,inputSet) for inputSet in postingList]444546#训练算法，从词向量计算概率p(w0|ci)...及p(ci)47#@trainMatrix：由每篇⽂档的词条向量组成的⽂档矩阵48#@trainCategory:每篇⽂档的类标签组成的向量49def trainNB0(trainMatrix,trainCategory):50#获取⽂档矩阵中⽂档的数⽬51 numTrainDocs=len(trainMatrix)52#获取词条向量的长度53 numWords=len(trainMatrix[0])54#所有⽂档中属于类1所占的⽐例p(c=1)55 pAbusive=sum(trainCategory)/float(numTrainDocs)56#创建⼀个长度为词条向量等长的列表57 p0Num=zeros(numWords) #ham58 p1Num=zeros(numWords) #spam59 p0Denom=0.060 p1Denom=0.061#遍历每⼀篇⽂档的词条向量62for i in range(numTrainDocs):63#如果该词条向量对应的标签为164if trainCategory[i]==1:65#统计所有类别为1的词条向量中各个词条出现的次数66 p1Num+=trainMatrix[i]67#统计类别为1的词条向量中出现的所有词条的总数68#即统计类1所有⽂档中出现单词的数⽬69 p1Denom+=sum(trainMatrix[i])70else:71#统计所有类别为0的词条向量中各个词条出现的次数72 p0Num+=trainMatrix[i]73#统计类别为0的词条向量中出现的所有词条的总数74#即统计类0所有⽂档中出现单词的数⽬75 p0Denom+=sum(trainMatrix[i])76print(p1Num, p1Denom, p0Num,p0Denom )77#利⽤NumPy数组计算p(wi|c1)78 p1Vect=p1Num/p1Denom #为避免下溢出问题，需要改为log()79#利⽤NumPy数组计算p(wi|c0)80 p0Vect=p0Num/p0Denom #为避免下溢出问题，需要改为log()81return p0Vect,p1Vect,pAbusive8283 p0Vect,p1Vect,pAbusive= trainNB0(trainMatrix,classVec)848586#朴素贝叶斯分类函数87#@vec2Classify:待测试分类的词条向量88#@p0Vec:类别0所有⽂档中各个词条出现的频数p(wi|c0)89#@p0Vec:类别1所有⽂档中各个词条出现的频数p(wi|c1)90#@pClass1:类别为1的⽂档占⽂档总数⽐例91def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1):92#根据朴素贝叶斯分类函数分别计算待分类⽂档属于类1和类0的概率93 p1=sum(vec2Classify*p1Vec)+log(pClass1)94 p0=sum(vec2Classify*p0Vec)+log(1.0-pClass1)95if p1>p0:96return'spam'97else:98return'not spam'99100101102 testEntry=['love','my','job']103 thisDoc=array(setOfWords2Vec(vocabSet,testEntry))104print(testEntry,'classified as:',classifyNB(thisDoc,p0Vect,p1Vect,pAbusive))。

Python机器学习实践项目

Python机器学习实践项目随着互联网和智能科技的迅速发展，机器学习成为人工智能技术领域中不可或缺的一环。

而Python作为一种简洁易用且功能强大的编程语言，成为了机器学习中不可或缺的工具。

本文将介绍一些Python机器学习实践项目，来帮助初学者快速掌握机器学习相关技术。

1. 手写数字识别手写数字识别是机器学习中常见的一个问题。

在这个项目中，我们将使用经典的MNIST数据集，通过训练来训练一个神经网络模型，来实现对手写数字的识别。

在这个项目中，我们需要掌握Python中的TensorFlow和Keras框架，以及卷积神经网络、梯度下降、反向传播等相关机器学习理论。

2. 垃圾邮件分类在现代社会，垃圾邮件问题越来越严重。

在这个项目中，我们将采用朴素贝叶斯算法来构建一个垃圾邮件分类器，通过训练数据集来分类邮件是否为垃圾邮件。

在这个项目中，我们需要掌握Python中的nltk和sklearn等自然语言处理相关库，以及朴素贝叶斯算法和交叉验证等相关机器学习理论。

3. 电影推荐系统电影推荐系统是一种应用广泛的机器学习应用，可以通过协同过滤算法来为用户推荐可能感兴趣的电影。

在这个项目中，我们将采用Python中的pandas和numpy等数据分析库来处理数据集，并运用协同过滤算法来实现电影推荐。

在这个项目中，我们需要掌握Python中的协同过滤、基于物品的推荐算法等相关机器学习理论。

4. 图像分类图像分类是机器学习中的一个重要应用领域，常见于图像识别、人脸识别、场景识别等。

在这个项目中，我们将使用Python中的OpenCV和scikit-learn等库来提取图像特征，并使用支持向量机、随机森林等算法来实现图像分类。

在这个项目中，我们需要掌握图像特征提取、支持向量机、随机森林等相关机器学习理论。

总结以上是Python机器学习实践项目的介绍。

通过这些项目进一步熟悉Python的机器学习相关技术，并实际动手进行项目，可以帮助初学者快速掌握机器学习相关技术。

使用朴素贝叶斯对垃圾邮件分类实验原理

文章标题：深入探究朴素贝叶斯算法：垃圾邮件分类实验原理解析在信息爆炸的时代，电流信箱已经成为人们日常生活和工作中不可或缺的一部分。

然而，随之而来的垃圾邮件问题也一直困扰着人们。

为了解决这一问题，朴素贝叶斯算法被广泛应用于垃圾邮件分类实验中。

本文将深入探讨朴素贝叶斯算法在垃圾邮件分类实验中的原理和应用。

一、朴素贝叶斯算法简介朴素贝叶斯分类器是一种基于贝叶斯定理和特征条件独立假设的分类算法。

它被广泛应用于文本分类、垃圾邮件过滤、情感分析等领域。

朴素贝叶斯算法的核心思想是基于训练样本对文本进行建模，并根据文本中不同特征的出现概率来进行分类。

二、垃圾邮件分类实验原理解析1. 数据预处理：需要对收集到的邮件数据进行预处理，包括去除邮件中的特殊符号、停用词等。

2. 特征提取：接下来，需要从处理后的邮件数据中提取特征，常用的特征包括词袋模型和TF-IDF模型。

3. 训练模型：使用朴素贝叶斯算法对提取到的特征进行训练，得到垃圾邮件和正常邮件的概率分布。

4. 分类预测：根据训练好的模型，对未知的邮件进行分类预测，判断其是否为垃圾邮件。

三、朴素贝叶斯算法的优势和局限性1. 优势：朴素贝叶斯算法简单高效，对小规模数据表现良好，且易于实现和扩展。

2. 局限性：朴素贝叶斯算法忽略了特征之间的关联性，且对输入数据的分布假设较强。

四、个人观点和理解朴素贝叶斯算法作为一种经典的分类算法，在垃圾邮件分类实验中表现出了较好的效果。

然而，其在处理复杂语境和大规模数据时存在一定局限性。

我认为，在实际应用中，可以结合其他算法和技术，进一步提升垃圾邮件分类的准确率和效率。

总结回顾：通过本文的深入探讨，我们对朴素贝叶斯算法在垃圾邮件分类实验中的原理和应用有了全面、深刻和灵活的理解。

朴素贝叶斯算法的优势和局限性也使我们对其进行了全面的评估。

在未来的研究和实践中，我将继续深入研究和探索其他分类算法，以期进一步提升垃圾邮件分类的效果。

五、垃圾邮件分类实验中的技术挑战和解决办法在垃圾邮件分类实验中，我们面临着一些技术挑战。

朴素贝叶斯公式例题

朴素贝叶斯公式例题朴素贝叶斯公式是一种基于贝叶斯定理的分类算法，它假设特征之间相互独立。

以下是一个朴素贝叶斯公式的例题：假设我们有一个数据集，其中包含了一些电子邮件的文本以及对应的标签（垃圾邮件或非垃圾邮件）。

我们想要使用朴素贝叶斯算法来对新的邮件进行分类。

现在，我们收到了一封新的邮件，内容如下："购买廉价药物，快速发货！"我们需要使用朴素贝叶斯公式来判断这封邮件是属于垃圾邮件还是非垃圾邮件。

为此，我们首先需要计算两个条件概率：P(垃圾邮件|文本)和P(非垃圾邮件|文本)。

根据朴素贝叶斯公式，我们可以将问题转化为计算以下两个概率：1. P(垃圾邮件|文本)：给定文本为"购买廉价药物，快速发货！"，我们需要计算该邮件为垃圾邮件的概率。

假设训练集中共有100封邮件，其中有30封垃圾邮件。

而在这30封垃圾邮件中，有10封包含了"购买廉价药物，快速发货！"这样的文本。

因此，P(文本|垃圾邮件) = 10 / 30 = 1/3。

另外，P(垃圾邮件)表示在数据集中出现垃圾邮件的概率，假设为0.3。

综合利用贝叶斯公式，可以计算P(垃圾邮件|文本)：P(垃圾邮件|文本) = (P(文本|垃圾邮件) * P(垃圾邮件)) / P(文本)2. P(非垃圾邮件|文本)：同样地，我们需要计算给定文本为"购买廉价药物，快速发货！"时，该邮件为非垃圾邮件的概率。

假设在100封邮件中，有70封是非垃圾邮件，其中有20封包含了"购买廉价药物，快速发货！"这样的文本。

因此，P(文本|非垃圾邮件) = 20 / 70 = 2/7。

同样地，假设P(非垃圾邮件) = 0.7。

朴素贝叶斯如何实现垃圾邮件分类原理

朴素贝叶斯如何实现垃圾邮件分类原理垃圾邮件分类的基本原理是将输入的邮件文本根据其特征划分为“垃圾邮件”和“非垃圾邮件”两类。

朴素贝叶斯分类器通过观察已知分类的训练样本，学习出每个类别在不同特征上的概率分布，然后利用这些概率分布来预测测试样本的分类。

具体实现步骤如下：1.收集训练样本：首先，我们需要收集大量已知分类的邮件样本，这些样本被标记为“垃圾邮件”或“非垃圾邮件”。

这些样本将用于训练模型。

2.特征提取：对于每个邮件样本，我们需要将其转化为一组可以用于分类的特征。

常用的特征提取方法包括词袋模型和TF-IDF等。

以词袋模型为例，可以将每个邮件样本表示为一个向量，其中每个元素表示一些词在该邮件中的出现次数。

3.计算类别概率：对于训练集中的每个类别，我们需要计算该类别出现的概率。

假设训练集中一共有m个样本，其中有n个样本属于垃圾邮件类别。

那么，垃圾邮件类别的概率P(垃圾邮件)可以计算为n/m。

4.计算条件概率：对于每个特征及其可能的取值，我们需要计算在给定类别下该特征取一些值的概率。

例如，对于特征“包含单词‘互联网’”，我们需要计算在封邮件为垃圾邮件的情况下，该特征取值为真（存在单词‘互联网’）的概率P(包含单词‘互联网’，垃圾邮件)。

可以通过统计垃圾邮件样本中该特征取值为真的比例来估计该概率。

5.预测新样本的分类：对于一个新的邮件样本，我们首先根据已经学习到的类别概率计算其属于每个类别的先验概率P(类别，邮件)。

然后，对于每个类别，根据已经学习到的条件概率计算该特征取值的概率P(特征，类别)。

最后，将先验概率与条件概率相乘并归一化，得到该邮件属于每个类别的后验概率。

最终，将后验概率最大的类别作为邮件的分类结果。

朴素贝叶斯分类器的优点在于其简单、高效，对于大规模的文本分类任务效果好。

然而，它也有一些限制，例如它假设所有特征之间相互独立，这在一些情况下可能不成立。

此外，朴素贝叶斯分类器对于特征空间非常大、稀疏的情况下可能不适用。

用Python编写简单的垃圾邮件过滤器

用Python编写简单的垃圾邮件过滤器垃圾邮件过滤器是一种用于识别和过滤掉垃圾邮件的应用程序。

在这篇文章中，我们将使用Python编写一个简单的垃圾邮件过滤器。

我们将介绍垃圾邮件过滤器的原理和一些常用的方法，然后使用Python实现一个简单的基于规则的过滤器。

#垃圾邮件过滤器原理垃圾邮件过滤器的原理是通过分析邮件的内容和特征来判断是否是垃圾邮件。

它通常使用一些机器学习和自然语言处理技术来训练模型，并根据模型的输出进行分类。

下面是垃圾邮件过滤器的主要原理：1.特征提取：垃圾邮件过滤器首先需要对邮件进行特征提取，以获取可以用来进行分类的特征。

一些常用的特征包括邮件的发送者、主题、内容、链接和附件等。

2.训练模型：通过使用已标记的训练数据集，垃圾邮件过滤器可以训练出一个分类模型。

这个模型可以根据输入的特征预测邮件是垃圾邮件还是正常邮件。

一些常用的机器学习算法如朴素贝叶斯、支持向量机和决策树等都可以用于训练垃圾邮件过滤器的模型。

3.预测分类：一旦训练好了垃圾邮件过滤器的模型，就可以使用它来预测新的邮件的分类。

通过输入邮件的特征，模型会输出一个预测的分类结果，以表示这封邮件是垃圾邮件还是正常邮件。

4.评估性能：为了评估垃圾邮件过滤器的性能，可以使用一些常见的指标，如准确率、召回率和F1得分等。

这些指标可以衡量过滤器的分类结果是否正确，以及垃圾邮件是否被正确地过滤掉。

#基于规则的垃圾邮件过滤器实现基于规则的垃圾邮件过滤器使用一系列规则来判断邮件是否是垃圾邮件。

这些规则可以是基于文本匹配的，也可以是基于特征提取的。

在我们的示例中，我们将使用一些简单的规则来判断邮件是否是垃圾邮件。

下面是我们将要实现的过滤器的步骤：1.加载训练数据集：我们首先需要一个已标记的训练数据集，其中既包含垃圾邮件的样本，也包含正常邮件的样本。

我们可以使用一个包含两个子文件夹的文件夹来存放这些样本，其中一个文件夹用于存放垃圾邮件，另一个文件夹用于存放正常邮件。

伯努利朴素贝叶斯案例

伯努利朴素贝叶斯案例伯努利朴素贝叶斯算法是一种经典的文本分类算法，在自然语言处理领域被广泛应用。

它基于贝叶斯定理和特征条件独立假设，通过计算文档属于每个类别的概率，从而将文档分类到最有可能的类别中。

下面将以伯努利朴素贝叶斯算法应用于垃圾邮件分类为例，介绍其原理和实现。

1. 引言垃圾邮件是每个人都会遇到的一个问题，如何高效地过滤垃圾邮件成为了一个热门的研究方向。

伯努利朴素贝叶斯算法是一种常用的垃圾邮件分类方法，本文将介绍其原理和实现。

2. 数据预处理需要将邮件文本转换成可用于分类的特征。

常用的方法是将文本分词，去除停用词，统计每个词在邮件中是否出现，得到一个二值特征向量。

同时，还需要将邮件标记为垃圾邮件或非垃圾邮件，构建训练集和测试集。

3. 伯努利模型伯努利朴素贝叶斯算法是基于伯努利模型的，它假设每个特征都是二值的，即每个词要么出现，要么不出现。

通过计算每个特征在每个类别中出现的概率，可以得到该特征对于每个类别的条件概率。

4. 计算概率对于每个特征，在训练集中计算其在垃圾邮件和非垃圾邮件中的条件概率。

具体而言，对于每个特征，计算它在垃圾邮件中出现的频率和在非垃圾邮件中出现的频率，并分别除以垃圾邮件和非垃圾邮件的总数。

5. 条件独立性假设朴素贝叶斯算法的一个重要假设是特征之间的条件独立性。

即假设每个特征的出现与其他特征的出现无关。

通过这个假设，可以将伯努利模型的条件概率简化为每个特征的条件概率的乘积。

6. 分类器训练基于上述计算得到的条件概率，可以构建一个垃圾邮件分类器。

对于一个新的邮件，计算其属于垃圾邮件和非垃圾邮件的概率，并将其分类到概率较大的类别中。

7. 模型评估为了评估分类器的性能，可以使用一些评估指标，如准确率、召回率和F1值。

同时，可以使用交叉验证等方法来验证模型的泛化能力。

8. 实验结果分析通过实验可以得到分类器的性能指标，如准确率、召回率和F1值。

同时，还可以分析分类器在不同类别上的表现，比较不同特征对分类器性能的影响。

基于朴素贝叶斯算法的垃圾邮件分类 (Python实现)

2015年7月1日
East China Normal University
简介
朴素贝叶斯法：是基于贝叶
斯定理和特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/ 输出的联合概率分布；然后基于此模型对于给定的输入x，利用贝叶斯定理求出后验概率最大的输出y. 朴素贝叶斯法实现简单，学习和预测的效率都很高，是业界常用的一种方法。
2015年7月1日
East China Normal University
回顾
算法
拉普拉斯平滑
邮件分类
流行学习
小结
Review2:贝叶斯定理
2015年7月1日
East China Normal University
回顾
算法
拉普拉斯平滑
邮件分类
流行学习
小结
Train_dataset
算法：
(表格来源：数据挖掘: 概念与技术第3版)
RID
1 2 3 4 5 6 7 8
age
youth youth mid senior senior senior mid youth
income
high high high medium low low low medium
student
no no no no yes yes yes no
credit_rating
64
错误
正确
936
错误
准确率：0.936%
2015年7月1日
East China Normal University
回顾
算法
拉普拉斯平滑
邮件分类
流行学习
小结
流形学习

高斯朴素贝叶斯（GaussianNaiveBayes）原理与实现——垃圾邮件识别实战

⾼斯朴素贝叶斯（GaussianNaiveBayes）原理与实现——垃圾邮件识别实战朴素贝叶斯（Naive Bayes）：根据贝叶斯定理和朴素假设提出的朴素贝叶斯模型。

贝叶斯定理：朴素假设（特征条件独⽴性假设）：代⼊可知朴素贝叶斯模型计算公式：因为朴素贝叶斯是⽤来分类任务，因此：化简可知：朴素贝叶斯模型除了上式所描述的以外，有三种常⽤的模型：1、⾼斯朴素贝叶斯2、多项式朴素贝叶斯3、伯努利朴素贝叶斯本篇主要是实现⾼斯朴素贝叶斯，因为它是最常⽤的⼀种模型。

⾼斯朴素贝叶斯：适⽤于连续变量，其假定各个特征 _ 在各个类别下是服从正态分布的，算法内部使⽤正态分布的概率密度函数来计算概率。

_ ：在类别为的样本中，特征 _ 的均值。

_ ：在类别为的样本中，特征 _ 的标准差。

⾼斯朴素贝叶斯代码实现：注释：1、var_smoothing和epsilon的⽬的是防⽌⼀些特征的⽅差为0的情况（⽐如在垃圾邮件识别的时候，使⽤词袋模型很容易出现⽅差为0）2、计算联合概率时并不使⽤连乘，对概率取⾃然对数，乘法变加法，降低计算复杂度，使模型更稳定。

1import numpy as np2import collections3import math4class GaussianNB(object):5def__init__(self):6 self.mp = {} #把y值映射到0-n之间的整数7 self.n_class = None #类别数8 self.class_prior= None #先验概率P(Y)9 self.means = None #均值10 self.vars = None #⽅差11 self.var_smoothing =1e-9 #平滑因⼦12 self.epsilon = None #平滑值13def _get_class_prior(self,y):14 cnt = collections.Counter(y)15 self.n_class = 016for k,v in cnt.items():17 self.mp[k] = self.n_class18 self.n_class+=119 self.class_prior = np.array([ v/len(y) for k,v in cnt.items()])20pass21def _get_means(self,xx,y):22 new_y =np.array([self.mp[i] for i in y])23 self.means = np.array([ xx[new_y==id].mean(axis=0) for id in range(self.n_class)])24# self.means shape: n_class * dims25pass26def _get_vars(self,xx,y):27 new_y = np.array([self.mp[i] for i in y])28 self.vars = np.array([xx[new_y == id].var(axis=0) for id in range(self.n_class)])29# self.vars shape: n_class * dims30pass31def fit(self,X,Y):32# X 必须是numpy的array; Y为list,对于X中每个样本的类别33 self._get_class_prior(Y)34 self._get_means(X,Y)35 self._get_vars(X,Y)36 self.epsilon = self.var_smoothing * self.vars.max() #选取特征中最⼤的⽅差作为平滑37 self.vars = self.vars + self.epsilon #给所有⽅差加上平滑的值38pass39def _get_gaussian(self,x,u,var):40#计算在类别y下x的条件概率P(xj|y)的对数41#return math.log(1 / math.sqrt(2 * math.pi * var) * math.exp(-(x - u) ** 2 / (2 * var)))42return -(x - u) ** 2 / (2 * var) - math.log(math.sqrt(2 * math.pi * var))43def predict(self,x):44 dims = len(x)45 likelihoods = []46for id in range(self.n_class): #遍历每类yi，把每个特征的条件概率P(xj|yi)累加47 likelihoods.append(np.sum([self._get_gaussian(x[j], self.means[id][j], self.vars[id][j]) for j in range(dims)]))48# 对先验概率取对数49 log_class_prior = np.log(self.class_prior)50 all_pros = log_class_prior + likelihoods51#all_pros = self.standardization(all_pros)52 max_id = all_pros.argmax() #取概率最⼤的类别的下标53for k,v in self.mp.items(): #转换为可读的y值54if v== max_id:55return k56pass57def standardization(self,x):58 mu = np.mean(x)59 sigma = np.std(x)60return (x - mu) / sigma6162# nb = GaussianNB()63# xx = np.array([[1,2,3],[11,12,1],[2,1,4],[15,16,1],[8,6,6],[19,13,0]])64# y = ['min','max','min','max','min','max']65# nb.fit(xx,y)66# print(nb.predict(np.array([0,0,0])))View Code垃圾邮件识别实战：数据集：Trec06C数据集笔者获取的数据集是处理过的处理⽅式：随机选取：5000封垃圾邮件和5000封正常邮件；预处理提取邮件正⽂，去掉换⾏符、多余空格等UTF-8⽂本格式，每封邮件正⽂在⽂件中保存为⼀⾏⽂本其中前5000 条为垃圾邮件，后5000 条为正常邮件。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。