朴素贝叶斯、决策树算法学习总结

基础算法学习总结

1. 朴素贝叶斯学习

1.1. 算法简介

贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。从数学角度来说，分类问题可做如下定义：

已知集合：123{,,,...,}n C y y y y =和123{,,,...,}n I x x x x =，确定映射规则()y f x =，使得任意

x i I ∈有且仅有一个y i C ∈使得()i i y f x =成立。（不考虑模糊数学里的模糊集情况）。其中C 叫做类别集合，其中每一个元素是一个类别，而I 叫做项集合，其中每一个元素是一个待分类项，f 叫做分类器。分类算法的任务就是构造分类器f 。

分类问题往往采用经验性方法构造映射规则，即一般情况下的分类问题缺少足够的信息来构造100%正确的映射规则，而是通过对经验数据的学习从而实现一定概率意义上正确的分类，因此所训练出的分类器并不是一定能将每个待分类项准确映射到其分类，分类器的质量与分类器构造方法、待分类数据的特性以及训练样本数量等诸多因素有关。

解决问题：已知某条件概率，如何得到两个事件交换后的概率，也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率：P(B|A)表示事件B 已经发生的前提

1.2. 算法流程

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

朴素贝叶斯分类的正式定义如下：

1、设12{,,...,}m x a a a =为一个待分类项，而每个a 为x 的一个特征属性。

2、有类别集合123{,,,...,}n C y y y y =。

3、计算12(|),(|),...,(|)n P y x P y x P y x 。

4、如果12(|)max{(|),(|),...,(|)}k n P y x P y x P y x P y x =，则x k y ∈。

那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做：

1、找到一个已知分类的待分类项集合，这个集合叫做训练样本集。

2、统计得到在各类别下各个特征属性的条件概率估计。即：

112111222212(|),(|),...,(|);(|),(|),...,(|);...;(|),(|),...,(|)m m n n m n P a y P a y P a y P a y P a y P a y P a y P a y P a y

因为分母对于所有类别为常数，因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的，所以有：

121(|)()(|)(|)...(|)()(|)m

i i i i m i i j i j P x y P y P a y P a y P a

y P y P

a y ===∏

根据上述分析，朴素贝叶斯分类的流程可以由下图1表示（暂时不考虑验证）：分类器

训练阶

段应用阶段准备工作阶段

图1朴素贝叶斯分类流程

可以看到，整个朴素贝叶斯分类分为三个阶段：

第一阶段——准备工作阶段，这个阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属

性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

第二阶段——分类器训练阶段，这个阶段的任务就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录。其输入是特征属性和训练样本，输出是分类器。这一阶段是机械性阶段，根据前面讨论的公式可以由程序自动计算完成。

第三阶段——应用阶段。这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。这一阶段也是机械性阶段，由程序完成。

1.3. 特征属性划分的条件概率及Laplace 校准

由上文看出，计算各个划分的条件概率P(a|y)是朴素贝叶斯分类的关键性步骤，当特征属性为离散值时，只要很方便的统计训练样本中各个划分在每个类别中出现的频率即可用来估计P(a|y)，下面重点讨论特征属性是连续值的情况。

当特征属性为连续值时，通常假定其值服从高斯分布（也称正态分布）。即：

而(|)(,,)i i

k i y y P a y g ak ησ=因此只要计算出训练样本中各个类别中此特征项划分的各均值和标准差，代入上述公式即可得到需要的估计值。

另一个需要讨论的问题就是当P(a|y)=0怎么办，当某个类别下某个特征项划分没有出现时，就是产生这种现象，这会令分类器质量大大降低。为了解决这个问题，我们引入Laplace 校准，它的思想非常简单，就是对没类别下所有划分的计数加1，这样如果训练样本集数量充分大时，并不会对结果产生影响，并且解决了上述频率为0的尴尬局面。

1.4. 算法小结

朴素贝叶斯算法的主要原理基本已经做了总结，这里对朴素贝叶斯的优缺点做一个总结。朴素贝叶斯的主要优点有：

1）朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。

2）对小规模的数据表现很好，能够处理多分类任务，适合增量式训练，尤其是数据量

超出内存时，我们可以一批批的去增量训练。

3）对缺失数据不太敏感，算法也比较简单，常用于文本分类。

朴素贝叶斯的主要缺点有：

1）理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。

2）需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。

3）由于我们是通过先验和数据来决定后验的概率从而决定分类，所以分类决策存在一定的错误率。

4）对输入数据的表达形式很敏感。

2. 决策树算法学习

2.1. 算法简介

决策树算法就是通过对已有明确结果的历史数据进行分析，寻找数据中的特征。并以此为依据对新产生的数据结果进行预测。决策树（decision tree）是一个树结构（可以是二叉树或非二叉树）。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

不同于贝叶斯算法，决策树的构造过程不依赖领域知识，它使用属性选择度量来选择将元组最好地划分成不同的类的属性。所谓决策树的构造就是进行属性选择度量确定各个特征属性之间的拓扑结构。

构造决策树的关键步骤是分裂属性。所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支，其目标是让各个分裂子集尽可能地“纯”。尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。分裂属性分为三种不同的情况：

1、属性是离散值且不要求生成二叉决策树。此时用属性的每一个划分作为一个分支。

2、属性是离散值且要求生成二叉决策树。此时使用属性划分的一个子集进行测试，按照“属于此子集”和“不属于此子集”分成两个分支。

3、属性是连续值。此时确定一个值作为分裂点split_point，按照>split_point和<=split_point 生成两个分支。

构造决策树的关键性内容是进行属性选择度量，属性选择度量是一种选择分裂准则，是将给定的类标记的训练集合的数据划分D“最好”地分成个体类的启发式方法，它决定了拓扑结构及分裂点split_point 的选择。

2.2. 算法工作原理

决策树一般都是自上而下的来生成的。选择分割的方法有多种，但是目的都是一致的，即对目标类尝试进行最佳的分割。

从根节点到叶子节点都有一条路径，这条路径就是一条“规则”。决策树可以是二叉的，也可以是多叉的。对每个节点的衡量：

1：通过该节点的记录数；

2：如果是叶子节点的话，分类的路径；

3：对叶子节点正确分类的比例。

2.2.1. ID3算法

ID3算法的核心是：在决策树各级结点上选择属性时，用信息增益（information gain ）作为属性的选择标准，以使得在每一个非叶结点进行测试时，能获得关于被测试记录最大的类别信息。其具体方法是：检测所有的属性，选择信息增益最大的属性产生决策树结点，由该属性的不同取值建立分支，再对各分支的子集递归调用该方法建立决策树结点的分支，直到所有子集仅包含同一类别的数据为止。最后得到一棵决策树，它可以用来对新的样本进行分类。下面先定义几个要用到的概念。

设D 为用类别对训练元组进行的划分，则D 的熵（entropy ）表示为：

21info(D) = -log ()m

i i i p p =∑ 其中pi 表示第i 个类别在整个训练元组中出现的概率，可以用属于此类别元素的数量

除以训练元组元素总数量作为估计。熵的实际意义表示是D 中元组的类标号所需要的平均信息量。我们假设将训练元组D 按属性A 进行划分，则

A 对D 划分的期望信息为：

而信息增益即为两者的差值：

gain()inf ()inf ()A A o D o D =-

ID3算法就是在每次需要分裂时，计算每个属性的增益率，然后选择增益率最大的属性进行分裂。ID3算法的优点是：算法的理论清晰，方法简单，学习能力较强。其缺点是：只对比较小的数据集有效，且对噪声比较敏感，当训练数据集加大时，决策树可能会随之改变。

2.2.2. C4.5算法

C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：

1：用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；

2：在树构造过程中进行剪枝；

3：能够完成对连续属性的离散化处理；

4：能够对不完整数据进行处理。

其中各符号意义与ID3算法相同，然后，增益率被定义为：

C4.5算法与其它分类算法如统计方法、神经网络等比较起来有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。此外，C4.5只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行。

2.3. 决策树剪枝

在决策树构造时，由于训练数据中的噪音或孤立点，许多分枝反映的是训练数据中的异常，使用这样的判定树对类别未知的数据进行分类，分类的准确性不高。因此试图检测和减去这样的分支，检测和减去这些分支的过程被称为树剪枝。树剪枝方法用于处理过分适应数据问题。通常，这种方法使用统计度量，减去最不可靠的分支，这将导致较快的分类，提高树独立于训练数据正确分类的能力。

决策树常用的剪枝常用的简直方法有两种：预剪枝(Pre-Pruning)和后剪枝

(Post-Pruning)。预剪枝是根据一些原则及早的停止树增长，如树的深度达到用户所要的深度、节点中样本个数少于用户指定个数、不纯度指标下降的最大幅度小于用户指定的幅度等。预剪枝的核心问题是如何事先指定树的最大深度，如果设置的最大深度不恰当，那么将会导致过于限制树的生长，使决策树的表达式规则趋于一般，不能更好地对新数据集进行分类和预测。除了事先限定决策树的最大深度之外，还有另外一个方法来实现预剪枝操作，那就是采用检验技术对当前结点对应的样本集合进行检验，如果该样本集合的样本数量已小于事先指定的最小允许值，那么停止该结点的继续生长，并将该结点变为叶子结点，否则可以继续扩展该结点。

后剪枝则是通过在完全生长的树上剪去分枝实现的，通过删除节点的分支来剪去树节点，可以使用的后剪枝方法有多种，比如：代价复杂性剪枝、最小误差剪枝、悲观误差剪枝等等。后剪枝操作是一个边修剪边检验的过程，一般规则标准是：在决策树的不断剪枝操作过程中，将原样本集合或新数据集合作为测试数据，检验决策树对测试数据的预测精度，并计算出相应的错误率，如果剪掉某个子树后的决策树对测试数据的预测精度或其他测度不降低，那么剪掉该子树。

2.4. 算法小结

决策树算法优点如下：

1：决策树易于理解和实现，人们在在学习过程中不需要使用者了解很多的背景知识，这同时是它的能够直接体现数据的特点，只要通过解释后都有能力去理解决策树所表达的意义。

2：对于决策树，数据的准备往往是简单或者是不必要的，而且能够同时处理数据型和常规型属性，在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

3：易于通过静态测试来对模型进行评测，可以测定模型可信度；如果给定一个观察的模型，那么根据所产生的决策树很容易推出相应的逻辑表达式。

决策树算法缺点如下：

1：对连续性的字段比较难预测。

2：对有时间顺序的数据，需要很多预处理的工作。

3：当类别太多时，错误可能就会增加的比较快。

4：一般的算法分类的时候，只是根据一个字段来分类。

朴素贝叶斯分类算法及其MapReduce实现

最近发现很多公司招聘数据挖掘的职位都提到贝叶斯分类，其实我不太清楚他们是要求理解贝叶斯分类算法，还是要求只需要通过工具（SPSS，SAS，Mahout）使用贝叶斯分类算法进行分类。反正不管是需求什么都最好是了解其原理，才能知其然，还知其所以然。我尽量简单的描述贝叶斯定义和分类算法，复杂而有全面的描述参考“数据挖掘：概念与技术”。贝叶斯是一个人，叫（Thomas Bayes），下面这哥们就是。本文介绍了贝叶斯定理，朴素贝叶斯分类算法及其使用MapReduce实现。贝叶斯定理首先了解下贝叶斯定理 P X H P(H) P H X= 是不是有感觉都是符号看起来真复杂，我们根据下图理解贝叶斯定理。这里D是所有顾客（全集），H是购买H商品的顾客，X是购买X商品的顾客。自然X∩H是即购买X又购买H的顾客。 P(X) 指先验概率，指所有顾客中购买X的概率。同理P(H)指的是所有顾客中购买H 的概率，见下式。

X P X= H P H= P(H|X) 指后验概率，在购买X商品的顾客，购买H的概率。同理P(X|H)指的是购买H商品的顾客购买X的概率，见下式。 X∩H P H|X= X∩H P X|H= 将这些公式带入上面贝叶斯定理自然就成立了。朴素贝叶斯分类分类算法有很多，基本上决策树，贝叶斯分类和神经网络是齐名的。朴素贝叶斯分类假定一个属性值对给定分类的影响独立于其他属性值。描述：这里有个例子假定我们有一个顾客X（age = middle，income=high，sex =man）：?年龄（age）取值可以是：小（young），中（middle），大（old） ?收入（income）取值可以是：低（low），中（average），高（high） ?性别（sex）取值可以是：男（man），女（woman）其选择电脑颜色的分类标号H：白色（white），蓝色（blue），粉色（pink）问题：用朴素贝叶斯分类法预测顾客X，选择哪个颜色的分类标号，也就是预测X属于具有最高后验概率的分类。解答： Step 1 也就是说我们要分别计算X选择分类标号为白色（white），蓝色（blue），粉色（pink）的后验概率，然后进行比较取其中最大值。根据贝叶斯定理

朴素贝叶斯算法

朴素贝叶斯算法 1.算法简介朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。 2.算法定义朴素贝叶斯分类的正式定义如下： 1）设为一个待分类项，而每个a为x的一个特征属性； 2）有类别集合； 3）计算。 4）如果，则。其中关键是如何计算步骤3）中的各个条件概率。计算过程如下：（1）找到一个已知分类的待分类项集合，该集合称为训练样本集。（2）统计得到在各类别下各个特征属性的条件概率估计。即（3）如果各个特征属性是条件独立的，则根据贝叶斯定理有如下推导：因为分母对于所有类别为常数，因此只要将分子最大化皆可。又因为各特征属性是条件独立的，所以有：可以看到，整个朴素贝叶斯分类分为三个阶段：第一阶段——准备工作阶段，这个阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。第二阶段——分类器训练阶段，这个阶段的任务就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条

件概率估计，并将结果记录。其输入是特征属性和训练样本，输出是分类器。这一阶段是机械性阶段，根据前面讨论的公式可以由程序自动计算完成。第三阶段——应用阶段。这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。这一阶段也是机械性阶段，由程序完成。 3.估计类别下特征属性划分的条件概率及Laplace校准 ?估计类别下特征属性划分的条件概率计算各个划分的条件概率P(a|y)是朴素贝叶斯分类的关键性步骤，当特征属性为离散值时，只要很方便的统计训练样本中各个划分在每个类别中出现的频率即可用来估计P(a|y)，下面重点讨论特征属性是连续值的情况。当特征属性为连续值时，通常假定其值服从高斯分布（也称正态分布）。即：而因此只要计算出训练样本中各个类别中此特征项划分的各均值和标准差，代入上述公式即可得到需要的估计值。 ?Laplace校准当某个类别下某个特征项划分没有出现时，会产生P(a|y)=0的现象，这会令分类器质量大大降低。为了解决这个问题，引入Laplace校准，就是对每个类别下所有划分的计数加1，这样如果训练样本集数量充分大时，并不会对结果产生影响，并且解决了上述频率为0的尴尬局面。 ●Laplace校准详解假设离散型随机变量z有{1,2,…,k}共k个值，用 j (),{1,2,,} p z j j k Φ=== 来表示每个值的概率。假设在m个训练样本中，z的观察值是其中每一个观察值对应k个值中的一个。那么z=j出现的概率为： Laplace校准将每个特征值出现次数事先都加1，通俗讲就是假设它们都出现过一次。那么修改后的表达式为：

大数据挖掘(8)：朴素贝叶斯分类算法原理与实践

数据挖掘（8）：朴素贝叶斯分类算法原理与实践隔了很久没有写数据挖掘系列的文章了，今天介绍一下朴素贝叶斯分类算法，讲一下基本原理，再以文本分类实践。一个简单的例子朴素贝叶斯算法是一个典型的统计学习方法，主要理论基础就是一个贝叶斯公式，贝叶斯公式的基本定义如下：这个公式虽然看上去简单，但它却能总结历史，预知未来。公式的右边是总结历史，公式的左边是预知未来，如果把Y看出类别，X看出特征，P(Yk|X)就是在已知特征X的情况下求Yk类别的概率，而对P(Yk|X)的计算又全部转化到类别Yk的特征分布上来。举个例子，大学的时候，某男生经常去图书室晚自习，发现他喜欢的那个女生也常去那个自习室，心中窃喜，于是每天买点好吃点在那个自习室蹲点等她来，可是人家女生不一定每天都来，眼看天气渐渐炎热，图书馆又不开空调，如果那个女生没有去自修室，该男生也就不去，每次男生鼓足勇气说：“嘿，你明天还来不？”,“啊，不知道，看情况”。然后该男生每天就把她去自习室与否以及一些其他情况做一下记录，用Y表示该女生是否去自习室，即Y={去，不去}，X是跟去自修室有关联的一系列条件，比如当天上了哪门主课，蹲点统计了一段时间后，该男生打算今天不再蹲点，而是先预测一下她会不会去，现在已经知道了今天上了常微分方法这么主课，于是计算P(Y=去|常微分方

程)与P(Y=不去|常微分方程)，看哪个概率大，如果P(Y=去|常微分方程) >P(Y=不去|常微分方程)，那这个男生不管多热都屁颠屁颠去自习室了，否则不就去自习室受罪了。P(Y=去|常微分方程)的计算可以转为计算以前她去的情况下，那天主课是常微分的概率P(常微分方程|Y=去)，注意公式右边的分母对每个类别（去/不去）都是一样的，所以计算的时候忽略掉分母，这样虽然得到的概率值已经不再是0~1之间，但是其大小还是能选择类别。后来他发现还有一些其他条件可以挖，比如当天星期几、当天的天气，以及上一次与她在自修室的气氛，统计了一段时间后，该男子一计算，发现不好算了，因为总结历史的公式：这里n=3，x(1)表示主课，x(2)表示天气，x(3)表示星期几，x(4)表示气氛，Y仍然是{去，不去}，现在主课有8门，天气有晴、雨、阴三种、气氛有A+,A,B+,B，C五种，那么总共需要估计的参数有8*3*7*5*2=1680个，每天只能收集到一条数据，那么等凑齐1 680条数据大学都毕业了，男生打呼不妙，于是做了一个独立性假设，假设这些影响她去自习室的原因是独立互不相关的，于是有了这个独立假设后，需要估计的参数就变为，(8+3+7+5)*2 = 46个了，而且每天收集的一条数据，可以提供4个参数，这样该男生就预测越来越准了。

朴素贝叶斯python代码实现

朴素贝叶斯优点：在数据较少的情况下仍然有效，可以处理多类别问题缺点：对于输入数据的准备方式较为敏感适用数据类型：标称型数据贝叶斯准则：使用朴素贝叶斯进行文档分类朴素贝叶斯的一般过程（1）收集数据：可以使用任何方法。本文使用RSS源（2）准备数据：需要数值型或者布尔型数据（3）分析数据：有大量特征时，绘制特征作用不大，此时使用直方图效果更好（4）训练算法：计算不同的独立特征的条件概率（5）测试算法：计算错误率（6）使用算法：一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器，不一定非要是文本。准备数据：从文本中构建词向量摘自机器学习实战。 [['my','dog','has','flea','problems','help','please'], 0 ['maybe','not','take','him','to','dog','park','stupid'], 1 ['my','dalmation','is','so','cute','I','love','him'], 0

['stop','posting','stupid','worthless','garbage'], 1 ['mr','licks','ate','my','steak','how','to','stop','him'], 0 ['quit','buying','worthless','dog','food','stupid']] 1 以上是六句话，标记是0句子的表示正常句，标记是1句子的表示为粗口。我们通过分析每个句子中的每个词，在粗口句或是正常句出现的概率，可以找出那些词是粗口。在bayes.py文件中添加如下代码： [python]view plaincopy 1.# coding=utf-8 2. 3.def loadDataSet(): 4. postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please' ], 5. ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], 6. ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'], 7. ['stop', 'posting', 'stupid', 'worthless', 'garbage'], 8. ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'], 9. ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']] 10. classVec = [0, 1, 0, 1, 0, 1] # 1代表侮辱性文字，0代表正常言论 11.return postingList, classVec 12. 13.def createVocabList(dataSet): 14. vocabSet = set([]) 15.for document in dataSet: 16. vocabSet = vocabSet | set(document) 17.return list(vocabSet) 18. 19.def setOfWords2Vec(vocabList, inputSet): 20. returnVec = [0] * len(vocabList) 21.for word in inputSet: 22.if word in vocabList: 23. returnVec[vocabList.index(word)] = 1 24.else: 25.print"the word: %s is not in my Vocabulary!" % word 26.return returnVec

朴素贝叶斯分类器

朴素贝叶斯分类器 Naive Bayesian Classifier C语言实现信息电气工程学院计算本1102班 20112212465 马振磊

1.贝叶斯公式通过贝叶斯公式，我们可以的知在属性F1-Fn成立的情况下，该样本属于分类C的概率。而概率越大，说明样本属于分类C的可能性越大。若某样本可以分为2种分类A，B。要比较P(A | F1,F2......) 与P(B | F1,F2......)的大小只需比较，P(A)P(F1,F2......| A) ,与P(B)P(F1,F2......| B) 。因为两式分母一致。而P(A)P(F1,F2......| A)可以采用缩放为P(A)P(F1|A)P(F2|A).......(Fn|A) 因此，在分类时，只需比较每个属性在分类下的概率累乘，再乘该分类的概率即可。分类属性outlook 属性temperature 属性humidity 属性wind no sunny hot high weak no sunny hot high strong yes overcast hot high weak yes rain mild high weak yes rain cool normal weak no rain cool normal strong yes overcast cool normal strong no sunny mild high weak yes sunny cool normal weak yes rain mild normal weak yes sunny mild normal strong yes overcast mild high strong yes overcast hot normal weak no rain mild high strong 以上是根据天气的4种属性，某人外出活动的记录。若要根据以上信息判断 (Outlook = sunny,Temprature = cool,Humidity = high,Wind = strong) 所属分类。 P(yes| sunny ,cool ,high ,strong )=P(yes)P(sunny|yes)P(cool |yes)P(high|yes)P(strong|yes)/K P(no| sunny ,cool ,high ,strong )=P(no)P(sunny|no)P(cool |no)P(high|no)P(strong|no)/K K为缩放因子，我们只需要知道两个概率哪个大，所以可以忽略K。 P(yes)=9/14 P(no)=5/14 P(sunny|yes)=2/9 P(cool|yes)=1/3 P(high|yes)=1/3 P(strong|yes)=1/3 P(sunny|no)=3/5 P(cool|no)=1/5 P(high|no)=4/5 P(strong|no)=3/5 P(yes| sunny ,cool ,high ,strong)=9/14*2/9*1/3*1/3*1/3=0.00529 P(no| sunny ,cool ,high ,strong )=5/14*3/5*1/5*4/5*3/5=0.20571 No的概率大，所以该样本实例属于no分类。

朴素贝叶斯分类器应用

朴素贝叶斯分类器的应用作者：阮一峰日期：2013年12月16日生活中很多场合需要用到分类，比如新闻分类、病人分类等等。本文介绍朴素贝叶斯分类器（Naive Bayes classifier），它是一种简单有效的常用分类算法。一、病人分类的例子让我从一个例子开始讲起，你会看到贝叶斯分类器很好懂，一点都不难。某个医院早上收了六个门诊病人，如下表。症状职业疾病打喷嚏护士感冒打喷嚏农夫过敏头痛建筑工人脑震荡头痛建筑工人感冒打喷嚏教师感冒头痛教师脑震荡现在又来了第七个病人，是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大？根据贝叶斯定理： P(A|B) = P(B|A) P(A) / P(B)

可得 P(感冒|打喷嚏x建筑工人) = P(打喷嚏x建筑工人|感冒) x P(感冒) / P(打喷嚏x建筑工人) 假定"打喷嚏"和"建筑工人"这两个特征是独立的，因此，上面的等式就变成了 P(感冒|打喷嚏x建筑工人) = P(打喷嚏|感冒) x P(建筑工人|感冒) x P(感冒) / P(打喷嚏) x P(建筑工人) 这是可以计算的。 P(感冒|打喷嚏x建筑工人) = 0.66 x 0.33 x 0.5 / 0.5 x 0.33 = 0.66 因此，这个打喷嚏的建筑工人，有66%的概率是得了感冒。同理，可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率，就可以知道他最可能得什么病。这就是贝叶斯分类器的基本方法：在统计资料的基础上，依据某些特征，计算各个类别的概率，从而实现分类。二、朴素贝叶斯分类器的公式假设某个体有n项特征（Feature），分别为F1、F2、...、F n。现有m个类别（Category），分别为C1、C2、...、C m。贝叶斯分类器就是计算出概率最大的那个分类，也就是求下面这个算式的最大值： P(C|F1F2...Fn) = P(F1F2...Fn|C)P(C) / P(F1F2...Fn) 由于 P(F1F2...Fn) 对于所有的类别都是相同的，可以省略，问题就变成了求 P(F1F2...Fn|C)P(C) 的最大值。

朴素贝叶斯算法详细总结

朴素贝叶斯算法详细总结朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法，是经典的机器学习算法之一，处理很多问题时直接又高效，因此在很多领域有着广泛的应用，如垃圾邮件过滤、文本分类等。也是学习研究自然语言处理问题的一个很好的切入口。朴素贝叶斯原理简单，却有着坚实的数学理论基础，对于刚开始学习算法或者数学基础差的同学们来说，还是会遇到一些困难，花费一定的时间。比如小编刚准备学习的时候，看到贝叶斯公式还是有点小害怕的，也不知道自己能不能搞定。至此，人工智能头条特别为大家寻找并推荐一些文章，希望大家在看过学习后，不仅能消除心里的小恐惧，还能高效、容易理解的get到这个方法，从中获得启发没准还能追到一个女朋友，脱单我们是有技术的。贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分类算法，希望有利于他人理解。 ▌分类问题综述对于分类问题，其实谁都不会陌生，日常生活中我们每天都进行着分类过程。例如，当你看到一个人，你的脑子下意识判断他是学生还是社会上的人；你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱、”之类的话，其实这就是一种分类操作。既然是贝叶斯分类算法，那么分类的数学描述又是什么呢？从数学角度来说，分类问题可做如下定义：已知集合C=y1,y2,……,yn 和I=x1,x2,……,xn确定映射规则y=f()，使得任意xi∈I有且仅有一个yi∈C，使得yi∈f(xi)成立。其中C叫做类别集合，其中每一个元素是一个类别，而I叫做项集合（特征集合），其中每一个元素是一个待分类项，f叫做分类器。分类算法的任务就是构造分类器f。分类算法的内容是要求给定特征，让我们得出类别，这也是所有分类问题的关键。那么如何由指定特征，得到我们最终的类别，也是我们下面要讲的，每一个不同的分类算法，对

朴素贝叶斯分类算法代码实现

朴素贝叶斯分类算法一．贝叶斯分类的原理贝叶斯分类器的分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。也就是说，贝叶斯分类器是最小错误率意义上的优化。贝叶斯分类器是用于分类的贝叶斯网络。该网络中应包含类结点C，其中C 的取值来自于类集合( c1 , c2 , ... , cm)，还包含一组结点X = ( X1 , X2 , ... , Xn)，表示用于分类的特征。对于贝叶斯网络分类器，若某一待分类的样本D，其分类特征值为x = ( x1 , x2 , ... , x n) ，则样本D 属于类别ci 的概率P( C = ci | X1 = x1 , X2 = x 2 , ... , Xn = x n) ，( i = 1 ,2 , ... , m) 应满足下式： P( C = ci | X = x) = Max{ P( C = c1 | X = x) , P( C = c2 | X = x ) , ... , P( C = cm | X = x ) } 贝叶斯公式： P( C = ci | X = x) = P( X = x | C = ci) * P( C = ci) / P( X = x) 其中，P( C = ci) 可由领域专家的经验得到,而P( X = x | C = ci) 和P( X = x) 的计算则较困难。二．贝叶斯伪代码整个算法可以分为两个部分，“建立模型”与“进行预测”，其建立模型的伪代码如下： numAttrValues 等简单的数据从本地数据结构中直接读取构建几个关键的计数表 for(为每一个实例) { for( 每个属性 ){ 为 numClassAndAttr 中当前类，当前属性，当前取值的单元加 1 为 attFrequencies 中当前取值单元加 1 } } 预测的伪代码如下： for(每一个类别){ for(对每个属性 xj){ for(对每个属性 xi){

基于朴素贝叶斯的文本分类算法

基于朴素贝叶斯的文本分类算法摘要：常用的文本分类方法有支持向量机、K-近邻算法和朴素贝叶斯。其中朴素贝叶斯具有容易实现，运行速度快的特点，被广泛使用。本文详细介绍了朴素贝叶斯的基本原理，讨论了两种常见模型：多项式模型（MM）和伯努利模型（BM），实现了可运行的代码，并进行了一些数据测试。关键字：朴素贝叶斯；文本分类 Text Classification Algorithm Based on Naive Bayes Author: soulmachine Email：soulmachine@https://www.360docs.net/doc/bd17417092.html, Blog：https://www.360docs.net/doc/bd17417092.html, Abstract:Usually there are three methods for text classification: SVM、KNN and Na?ve Bayes. Na?ve Bayes is easy to implement and fast, so it is widely used. This article introduced the theory of Na?ve Bayes and discussed two popular models: multinomial model(MM) and Bernoulli model(BM) in details, implemented runnable code and performed some data tests. Keywords: na?ve bayes; text classification 第1章贝叶斯原理 1.1 贝叶斯公式设A、B是两个事件，且P(A)>0，称为在事件A发生的条件下事件B发生的条件概率。乘法公式P(XYZ)=P(Z|XY)P(Y|X)P(X) 全概率公式P(X)=P(X|Y 1)+ P(X|Y 2 )+…+ P(X|Y n ) 贝叶斯公式在此处，贝叶斯公式，我们要用到的是

朴素贝叶斯算法

1. 问题描述用高效朴素贝叶斯算法对Web 新闻文本进行分类模型的设计 2.算法结构我们要判别一个文本的类别，就要计算出该文本属于各类别条件概率，根据贝叶斯原理可以得出: ) (p ) (p )|(p )|(p i i i i i i d c c d d c = （1.1）然后比较各类别条件概率大小，选择类别条件概率最大者为该文本分类，如下 )}|}(max{i i d c p c = （1.2）而要计算出)|(p i i d c ，先要先验概率)|(p i i c d ,其计算方法如下：先将i d 展开其变成由一个由词语为单位组成的词组向量，即},...,,,{d 321n i w w w w =，然后得出： ∏== =n i i i i n i i w w p c w w w w p c d 1 321)|()|,...,,,()|(p （1.3）而)(p i c 则是训练样本各类别文本数量与训练样本总数之比，计算公式如下： | |) ()(p C c amount c i i = （1.4）至于)(p i d 它是表示每篇训练文档出现的概率，因为都一样，所以在实际计算时可以不用考虑。所以实际计算)|(p d c i 的公式可以估算为 )()|()|(1 i n i i i i c p c w p d c p ∏=∝ （1.5）由式 (1.5) 可知 ) ()|()...|()|()|(21i i n i i i c p c w p c w p c w p d c p ∝，然而 )|()...|()|(21i n i i c w p c w p c w p 这样多个小数连续相乘最后的结果会非常小导致出现下溢问题，令计算结果无效。为解决这个问题，我们在使用式(1.5)计算)|(p d c i 时需要做一些数学转换来防止出现这个数值下溢问题，而这些数学处理就令等式1.5 两边取对数，如下： ))((ln ))|((ln ))|((ln 1 i n i i i i c p c w p d c p +∝ ∏= （1.6）

朴素贝叶斯分类matlab实现

实验二朴素贝叶斯分类一、实验目的通过实验，加深对统计判决与概率密度估计基本思想、方法的认识，了解影响Bayes 分类器性能的因素，掌握基于Bayes 决策理论的随机模式分类的原理和方法。二、实验内容设计Bayes 决策理论的随机模式分类器，用matlab 实现。三、方法手段 Bayes 分类器的基本思想是依据类的概率、概密，按照某种准则使分类结果从统计上讲是最佳的。换言之，根据类的概率、概密将模式空间划分成若干个子空间，在此基础上形成模式分类的判决规则。准则函数不同，所导出的判决规则就不同，分类结果也不同。使用哪种准则或方法应根据具体问题来确定。四、Bayes 算法朴素贝叶斯分类或简单贝叶斯分类的工作过程如下：（1）每个数据样本用一个n 维特征向量{}12,,...n X x x x =表示，分别描述对n 个属性A 1,A 2,…A n 样本的n 个度量。（2）假定有m 个类C 1,C 2,…C m 。给定一个未知的数据样本X （即没有类标号），分类法将预测X 属于具有最高后验概率（条件X 下）的类。即是说，朴素贝叶斯分类将未知的样本分配给类C i ，当且仅当》 ()(),1,i j P C X P C X j m j i >≤≤≠ （）这样，最大化()i P C X 。其()i P C X 最大的类C i 称为最大后验假定。根据贝叶斯定理 ()()()P X H P H P H X P X = ， ()()() () i i i P X C P C P C X P X = （）（3）由于P(X)对于所有类为常数，只需要()()i i P X C P C 最大即可。如果类的先验概率未知，则通常假定这些类是等概率的，即P(C 1)=P(C 2)=…=P(C m )。并据此只对()i P X 最大化。否则，最大化()()i i P X C P C 。注意，类的先验概率可以用()i i P C s s =计算其中 s i 是类C i 中的训练样本数，而s 是训练样本总数。（4）给定具有许多属性的数据集，计算()i P X 的开销可能非常大。为降低计算 ()i P X 的开销，可以做类条件独立的朴素假定。给定样本的类标号，假定属性值相互条件

基于朴素贝叶斯的分类算法

数据挖掘实验报告一、数据集分析本实验所使用的数据集名称为Abalone data，该数据集问题是一个分类的问题，需要我们做的是预测鲍鱼的年龄以及预测的准确率，由数据集可知，这个年龄是由“性别”，“长度”，“半径”，“重量”等八个属性所共同决定。因为本次试验所使用的算法为朴素贝叶斯分类算法，所以属性一共是八个，但是年龄类别有29类，如果分为29类预测，正确率很低。这里我将29类归一化到了8类。二、朴素贝叶斯算法分析 2.1 摘要贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。本文作为分类算法的第一篇，将首先介绍分类问题，对分类问题进行一个正式的定义。然后，介绍贝叶斯分类算法的基础——贝叶斯定理。最后，通过实例讨论贝叶斯分类中最简单的一种：朴素贝叶斯分类。 2.2 贝叶斯分类的基础——贝叶斯定理表示事件B已经发生的前提下，事件A发生的概率，叫做事件B发生下事件A的条件概率。其基本求解公式为：。贝叶斯定理之所以有用，是因为我们在生活中经常遇到这种情况：我们可以很容易直接得出P(A|B)，P(B|A)则很难直接得出，但我们更关心P(B|A)，贝叶斯定理就为我们打通从P(A|B)获得P(B|A)的道路。下面不加证明地直接给出贝叶斯定理： 2.3 朴素贝叶斯分类朴素贝叶斯分类的正式定义如下： 1、设为一个待分类项，而每个a为x的一个特征属性。

2、有类别集合。 3、计算。 4、如果，则。那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做： 1、找到一个已知分类的待分类项集合，这个集合叫做训练样本集。 2、统计得到在各类别下各个特征属性的条件概率估计。即。 3、如果各个特征属性是条件独立的，则根据贝叶斯定理有如下推导：因为分母对于所有类别为常数，因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的，所以有：根据上述分析，朴素贝叶斯分类的流程可以由下图表示

简单朴素贝叶斯分类器的思想与算法分析

简单朴素贝叶斯分类器的思想与算法分析在数据仓库和数据挖掘应用中，分类是一种非常重要的方法．分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型，即我们通常所说的分类器(Classifier)．该函数或模型能够把数据集合中的数据记录映射到给定类别中的某一个值，从而可以应用于数据预测．目前，分类的主要算法有贝叶斯算法、决策树算法（如ID3、C4.5等）、规则推导、人工神经网络、最近邻算法、支持向量机等等．这些算法在许多现实数据集合上具有较好的预测精度．其中朴素贝叶斯算法具有良好的可解释性等，在实践中的应用最为广泛．朴素贝叶斯算法是基于统计理论的方法，它能够预测所属类别的概率．简单朴素贝叶斯分类器假设一个指定类别中各属性的取值是相互独立的．这一假设称为给定类别条件下的独立性(Class Conditional Independence)假设，它可以有效减少在构造分类器时所需要的计算量．简单朴素贝叶斯算法的分类模型是基于Bayes 定理的，下面就简单介绍一下Bayes 定理．设X 为一个类别未知的数据样本，H 为某个假设，C 表示类别集合，若数据样本X 属于一个特定的类别c ，那么分类问题就是决定P (H /X )，即在获得数据样本X 时，H 假设成立的概率．由于P (H ) , P (X ), P (X /H )的概率值可以从（供学习使用的）数据集合中得到，Bayes 定理描述了如何根据P (H ) , P (X ), P (X /H )计算获得的P (H /X )，有关的具体公式定义描述如下： (/)() (/)() P X H P H P H X P X = (1) 简单朴素贝叶斯分类器进行分类操作的步骤说明如下： 1．每个数据样本均是由一个n 维特征向量X ={x 1,x 2, ……, x n }来描述其n 个属性（A 1, A 2, ……, A n ）的具体取值． 2．假设共有m 个不同类别，{C 1, C 2, ……, C n }．给定一个未知类别的数据样本X ，分类器在已知样本X 的情况下，预测X 属于事后概率最大的那个类别．也就是说，朴素贝叶斯分类器将未知类别的样本X 归属到类别C i ，当且仅当：P (C i /X )> P (C j /X ) 其中1≤j ≤m ,j ≠i ．也就是P (C i /X )最大．其中的类别C i 就称为最大事后概率的假设，根据Bayes 定理可知， (/)() (/)() i i i P X C P C P C X P X = (2) 3．由于P (X )对于所有的类别均是相同的，所以，要使公式（2）取得最大值，只需要P (X /C i )P (C i )取最大即可．类别的事前概率P (C i )可以通过公式P (C i )=s i /s 进行估算，其中s i 为训练样本集合类别C i 的个数，s 为整个训练样本集合的大小．

朴素贝叶斯、决策树算法学习总结

基础算法学习总结 1. 朴素贝叶斯学习 1.1. 算法简介贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。从数学角度来说，分类问题可做如下定义：已知集合：123{,,,...,}n C y y y y =和123{,,,...,}n I x x x x =，确定映射规则()y f x =，使得任意 x i I ∈有且仅有一个y i C ∈使得()i i y f x =成立。（不考虑模糊数学里的模糊集情况）。其中C 叫做类别集合，其中每一个元素是一个类别，而I 叫做项集合，其中每一个元素是一个待分类项，f 叫做分类器。分类算法的任务就是构造分类器f 。分类问题往往采用经验性方法构造映射规则，即一般情况下的分类问题缺少足够的信息来构造100%正确的映射规则，而是通过对经验数据的学习从而实现一定概率意义上正确的分类，因此所训练出的分类器并不是一定能将每个待分类项准确映射到其分类，分类器的质量与分类器构造方法、待分类数据的特性以及训练样本数量等诸多因素有关。解决问题：已知某条件概率，如何得到两个事件交换后的概率，也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率：P(B|A)表示事件B 已经发生的前提贝叶斯定理之所以有用，是因为我们在生活中经常遇到这种情况：我们可以很容易直接得出P(A|B)，P(B|A)则很难直接得出，但我们更关心P(B|A)，贝叶斯定理就为我们打通从P(A|B)获得P(B|A)的道路。 1.2. 算法流程朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

朴素贝叶斯分类

朴素贝叶斯分类 1.1、摘要贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。本文作为分类算法的第一篇，将首先介绍分类问题，对分类问题进行一个正式的定义。然后，介绍贝叶斯分类算法的基础——贝叶斯定理。最后，通过实例讨论贝叶斯分类中最简单的一种：朴素贝叶斯分类。 1.2、分类问题综述对于分类问题，其实谁都不会陌生，说我们每个人每天都在执行分类操作一点都不夸张，只是我们没有意识到罢了。例如，当你看到一个陌生人，你的脑子下意识判断TA是男是女；你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱、那边有个非主流”之类的话，其实这就是一种分类操作。从数学角度来说，分类问题可做如下定义：已知集合：和，确定映射规则，使得任意有且仅有一个使得成立。（不考虑模糊数学里的模糊集情况）其中C叫做类别集合，其中每一个元素是一个类别，而I叫做项集合，其中每一个元素是一个待分类项，f叫做分类器。分类算法的任务就是构造分类器f。这里要着重强调，分类问题往往采用经验性方法构造映射规则，即一般情况下的分类问题缺少足够的信息来构造100%正确的映射规则，而是通过对经验数据的学习从而实现一定概率意义上正确的分类，因此所训练出的分类器并不是一定能将每个待分类项准确映射到其分类，分类器的质量与分类器构造方法、待分类数据的特性以及训练样本数量等诸多因素有关。例如，医生对病人进行诊断就是一个典型的分类过程，任何一个医生都无法直接看到病人的病情，只能观察病人表现出的症状和各种化验检测数据来推断病情，这时医生就好比一个分类器，而这个医生诊断的准确率，与他当初受到的教育方式（构造方法）、病人的症状是否突出（待分类数据的特性）以及医生的经验多少（训练样本数量）都有密切关系。1.3、贝叶斯分类的基础——贝叶斯定理每次提到贝叶斯定理，我心中的崇敬之情都油然而生，倒不是因为这个定理多高深，而是因为它特别有用。这个定理解决了现实生活里经常遇到的问题：已知某条件概率，如何得到两个事件交换后的概率，也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率：

朴素贝叶斯算法C 代码有截图

#include #include #include #include //_getcwd(), _chdir() #include //_MAX_PATH, system() #include //_finddata_t, _findfirst(), _findnext(), _findclose() char vocabulary[1000][20];/*声明公有二维数组，用来存储分割好的单词*/ /*=================将要分类的文本分割成单词存储在二维数组vocabulary中================*/ //@输入参数：要分类的文本 //@输出参数：该文本中总单词数 int SplitToWord(char text[]) { int i=0; char seps[]=", .\n"; /*定义单词的分隔符*/ char *substring; /******利用分隔符将文本内容分割成单词并存储******/ substring=strtok(text,seps); while(substring!=NULL) { strcpy(vocabulary[i],substring);//将单词存储到vocabulary数组中 substring=strtok(NULL,seps); i++; } return i; //返回一共多少个单词 } /*===============================计算该目录下的文件数================================*/ //@输入参数：无 //@输出参数：该目录下.txt文件数 int CountDirectory() { int count=0; //txt文件计数器 long hFile; _finddata_t fileinfo;

朴素贝叶斯分类

分类算法之朴素贝叶斯分类(Naive Bayesian classification) 分类：智能信息系统2011-03-28 21:39 412人阅读评论(4) 收藏举报0、写在前面的话我个人一直很喜欢算法一类的东西，在我看来算法是人类智慧的精华，其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中，并解决了实际问题后，那种快感更是我在其它地方体会不到的。一直想写关于算法的博文，也曾写过零散的两篇，但也许是相比于工程性文章来说太小众，并没有引起大家的兴趣。最近面临毕业找工作，为了能给自己增加筹码，决定再次复习算法方面的知识，我决定趁这个机会，写一系列关于算法的文章。这样做，主要是为了加强自己复习的效果，我想，如果能将复习的东西用自己的理解写成文章，势必比单纯的读书做题掌握的更牢固，也更能触发自己的思考。如果能有感兴趣的朋友从中有所收获，那自然更好。这个系列我将其命名为“算法杂货铺”，其原因就是这些文章一大特征就是“杂”，我不会专门讨论堆栈、链表、二叉树、查找、排序等任何一本数据结构教科书都会讲的基础内容，我会从一个“专题”出发，如概率算法、分类算法、NP问题、遗传算法等，然后做一个引申，可能会涉及到算法与数据结构、离散数学、概率论、统计学、运筹学、数据挖掘、形式语言与自动机等诸多方面，因此其内容结构就像一个杂货铺。当然，我会竭尽所能，尽量使内容“杂而不乱”。 1.1、摘要贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。本文作为分类算法的第一篇，将首先介绍分类问题，对分类问题进行一个正式的定义。然后，介绍贝叶斯分类算法的基础——贝叶斯定理。最后，通过实例讨论贝叶斯分类中最简单的一种：朴素贝叶斯分类。 1.2、分类问题综述对于分类问题，其实谁都不会陌生，说我们每个人每天都在执行分类操作一点都不夸张，只是我们没有意识到罢了。例如，当你看到一个陌生人，你的脑子下意识判断TA是男是女；你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱、那边有个非主流”之类的话，其实这就是一种分类操作。

基于朴素贝叶斯分类器的文本分类算法

基于朴素贝叶斯分类器的文本分类算法（上） 2010-02-21 10:23:43| 分类：Lucene | 标签：|字号大中小订阅转载请保留作者信息：作者：phinecos（洞庭散人） Blog：https://www.360docs.net/doc/bd17417092.html,/ Email：phinecos@https://www.360docs.net/doc/bd17417092.html, Preface 本文缘起于最近在读的一本书-- Tom M.Mitchell的《机器学习》,书中第6章详细讲解了贝叶斯学习的理论知识，为了将其应用到实际中来，参考了网上许多资料，从而得此文。文章将分为两个部分，第一部分将介绍贝叶斯学习的相关理论(如果你对理论不感兴趣，请直接跳至第二部分<<基于朴素贝叶斯分类器的文本分类算法（下）>>)。第二部分讲如何将贝叶斯分类器应用到中文文本分类，随文附上示例代码。 Introduction 我们在《概率论和数理统计》这门课的第一章都学过贝叶斯公式和全概率公式，先来简单复习下：条件概率定义设A, B是两个事件，且P(A)>0 称P(B∣A)=P(AB)/P(A)为在条件A下发生的条件事件B发生的条件概率。乘法公式设P(A)>0 则有P(AB)=P(B∣A)P(A) 全概率公式和贝叶斯公式定义设S为试验E的样本空间，B1, B2, …Bn为E的一组事件，若BiBj=Ф, i≠j, i, j=1, 2, …,n; B1∪B2∪…∪Bn=S则称B1, B2, …, Bn为样本空间的一个划分。定理设试验E的样本空间为，A为E的事件，B1, B2, …,Bn为的一个划分，且P(Bi)>0 (i=1, 2, …n)，则P(A)=P(A∣B1)P(B1)+P(A∣B2)+ …+P(A∣Bn)P(Bn)称为全概率公式。定理设试验俄E的样本空间为S，A为E的事件，B1, B2, …,Bn为的一个划分，则 P(Bi∣A)=P(A∣Bi)P(Bi)/∑P(A｜Bj)P(Bj)=P(B｜Ai)P(Ai)/P(A) 称为贝叶斯公式。说明：i，j均为下标，求和均是1到n 下面我再举个简单的例子来说明下。示例1 考虑一个医疗诊断问题，有两种可能的假设：（1）病人有癌症。（2）病人无癌症。样本数据来自某化验测试，它也有两种可能的结果：阳性和阴性。假设我们已经有先验知识：在所有人口中只有0.008的人患病。此外，化验测试对有病的患者有98%的可能返回阳性结果，对无病患者有97%的可能返回阴性结果。上面的数据可以用以下概率式子表示：