[VIP专享]基于贝叶斯的文本自动分类的研究和实现

合集下载

基于机器学习的文本分类算法研究与实现

基于机器学习的文本分类算法研究与实现近年来，随着互联网的快速发展和信息爆炸的时代到来，人们需要能够快速准确地处理大量文本数据的技术。

而文本分类算法作为文本数据处理的一项重要技术，得到了广泛关注和研究。

文本分类是指将给定的文本按照某种标准分类到不同的类别中的过程。

它广泛应用于各个领域，比如情感分析、垃圾邮件过滤、新闻分类等。

传统的文本分类方法主要基于规则和经验来进行特征提取和分类，但是这种方法的效果受限于特征选择和规则定义的精确性，无法适应大规模文本数据的处理需求。

为了解决传统文本分类方法的问题，基于机器学习的文本分类算法应运而生。

机器学习是一种通过训练模型来自动推断模式和规律的方法，它能够利用大量的数据进行学习，并根据学习结果进行分类预测。

在文本分类任务中，机器学习算法主要分为有监督学习和无监督学习两种。

有监督学习是指利用带有标签的训练数据来构建分类模型。

其中，最常用的有监督学习算法包括朴素贝叶斯分类器、支持向量机和决策树等。

朴素贝叶斯分类器是一种基于贝叶斯理论的概率模型，通过计算待分类文本属于每个类别的概率，并选择概率最大的类别作为分类结果。

支持向量机是一种基于统计学习理论的分类算法，它将文本数据映射到高维空间中，并找到一个最优的超平面来实现分类。

决策树算法则是采用递归分割数据的方式构建一棵树，通过判断文本的特征属性来进行分类。

无监督学习是指在没有标签的情况下，通过对文本数据进行聚类或降维来实现分类。

聚类是一种相似性度量方法，通过将具有相似特征的文本归为一类来实现分类。

最常用的聚类算法有K均值算法、层次聚类和密度聚类等。

降维则是将高维的文本数据转化为低维的特征表示，常用的降维算法有主成分分析和线性判别分析等。

在实际应用过程中，基于机器学习的文本分类算法通常需要经过以下步骤来实现：首先，需要收集和准备文本数据。

文本数据可以来源于各种渠道，比如互联网、新闻媒体、社交媒体等。

在收集到文本数据后，需要对文本进行预处理，包括去除标点符号、停用词和数字，进行分词和词干化等操作。

基于机器学习的文本自动分类系统设计与实现

基于机器学习的文本自动分类系统设计与实现随着信息技术的快速发展，海量的文本数据产生并积累，如何从这些数据中获取有价值的信息成为一个重要的问题。

文本分类作为信息检索和文本挖掘的一个重要研究方向，能够帮助人们快速准确地对大量文本进行分类和理解，因此备受学术界和工业界的关注。

本文将介绍一种基于机器学习的文本自动分类系统的设计与实现。

一、系统的需求分析文本自动分类系统的主要任务是将一篇给定的文本自动分配到已定义的分类中。

根据需求分析，我们对系统进行以下的功能需求和性能需求的要求。

1. 功能需求- 自动对给定的文本进行分类，无需人工干预。

- 支持多类别的分类，可以将文本分配到多个分类中。

- 系统具有良好的扩展性，可以根据需要增加或修改分类。

2. 性能需求- 系统的分类准确率要高，可以达到业界领先水平。

- 系统的处理速度要快，能够处理大规模的文本数据。

基于上述需求，我们可以采用机器学习的方法来设计和实现文本自动分类系统。

二、系统的设计与实现1. 数据预处理在开始设计系统之前，我们需要对文本数据进行预处理。

预处理的主要任务包括去除文本中的停用词（如“the”、“and”、“is”等），进行词干提取，以及将文本转换成数值型特征。

这些预处理步骤可以帮助减少数据的噪声，提取有效的特征。

2. 特征提取特征提取是文本分类的重要步骤之一。

在本系统中，我们将采用词袋模型（Bag of Words）作为特征提取的方法。

首先，我们需要构建一个词库，包含了所有文本数据中出现的词。

然后，我们可以使用词频或者TF-IDF等方法将每篇文本转换成一个向量表示。

3. 模型选择与训练在特征提取完成后，我们需要选择一个合适的机器学习模型来进行分类任务。

常见的机器学习模型包括朴素贝叶斯、支持向量机（SVM）和深度学习模型等。

根据我们的需求，我们可以选择一个性能较好的分类模型进行训练。

在模型选择后，我们需要为系统进行模型训练。

我们可以使用已经标注好的文本数据进行有监督学习，或者使用无标注数据进行半监督学习。

贝叶斯算法实现文本分类器

} //再乘以先验概率 ret*=PriorProbability.calculatePc(Cj); returnret; } public String[]DropStopWords(String[] oldWords) { Vector<String>v1=new Vector<String>(); for(int i=0;i<oldWords.length;++i) {
余和常用词，形成新的待分类文本特征向量 P(x1, x2,....xn ) 。
（2）通过对 P(x1, x2,......xn ) 属性 x1, x2 ,......xn 在 C1 类训练文本集中进行查找，计算出 P(x1, x2,.....xn ) 属性 x1, x2 ,...xn 在
C1 类训练文本集中出现的次数集 N( y1, y2,....yn ) ， N( y1, y2,....yn ) 属性 y1, y2 ,....yn 分别除以 C1 类训练集总文本数和训练文本集中经过踢出无用词去除文本预处理之后关键字的数量之和，得到 P(x1, x2,...xn ) 在 C1 类训练文本中出现的概率集 Q(x1, x2,...xn ) 。把 Q(x1, x2,...xn) 中的属性相乘得到 P(x1, x2,....xn ) 在 C1 类训练文本集中出现的先验概率 P(x | c1) 。
结果显示，军事类别的后验概率为 2.532662E-2，是所有类别中最大的，所以测试文章属于军事类别。最后经过 400 篇不同文章测试，分类器分类结果正确率达到 83%以上，实现文本分类作用。
（五）结语
通过贝叶斯算法实现文本分类，是一种简单而有效的方法。根据测试的结果，已基本实现简单文本分类。但是，通过对大容量的文章测试，会得到大量的分词单元，严重的影响系统的处理能力，使系统效率严重低下。

基于贝叶斯的文本分类

南京理工大学经济管理学院课程作业课程名称：本文信息处理作业题目：基于朴素贝叶斯实现文本分类姓名：赵华学号： 114107000778成绩：基于朴素贝叶斯实现文本分类摘要贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。

本文作为分类算法的第一篇，将首先介绍分类问题，对分类问题进行一个正式的定义。

然后，介绍贝叶斯分类算法的基础——贝叶斯定理。

最后，通过实例讨论贝叶斯分类中最简单的一种：朴素贝叶斯分类。

关键词社区发现标签传播算法社会网络分析社区结构1引言数据挖掘在上个世纪末在数据的智能分析技术上得到了广泛的应用。

分类作为数据挖掘中一项非常重要的任务，目前在商业上应用很多。

分类的目的是学会一个分类函数或分类模型(也常常称作分类器)，该分类器可以将数据集合中的数据项映射到给定类别中的某一个，从而可以用于后续数据的预测和状态决策。

目前，分类方法的研究成果较多，判别方法的好坏可以从三个方面进行：1）预测准确度，对非样本数据的判别准确度；2）计算复杂度，方法实现时对时间和空间的复杂度；3）模式的简洁度，在同样效果情况下，希望决策树小或规则少。

分类是数据分析和机器学习领域的基本问题。

没有一个分类方法在对所有数据集上进行分类学习均是最优的。

从数据中学习高精度的分类器近年来一直是研究的热点。

各种不同的方法都可以用来学习分类器。

例如，人工神经元网络[1]、决策树[2]、非参数学习算法[3]等等。

与其他精心设计的分类器相比，朴素贝叶斯分类器[4]是学习效率和分类效果较好的分类器之一。

朴素贝叶斯方法，是目前公认的一种简单有效的分类方法，它是一种基于概率的分类方法，被广泛地应用于模式识别、自然语言处理、机器人导航、规划、机器学习以及利用贝叶斯网络技术构建和分析软件系统。

2贝叶斯分类2.1分类问题综述对于分类问题，其实谁都不会陌生，说我们每个人每天都在执行分类操作一点都不夸张，只是我们没有意识到罢了。

文本分类算法的研究与实现

文本分类算法的研究与实现随着互联网的不断发展，我们生产、生活中的数据越来越多，信息量越来越庞杂。

而对于这些数据信息的处理与利用，文本分类技术的应用也越来越广泛。

文本分类算法作为文本挖掘技术的一种重要手段，其可以将海量的文本数据自动分类，从而实现信息快速搜索、信息管理以及精准推荐的功能等，为人们处理文本数据提供了方便和效率。

本文将围绕文本分类算法的研究和实现，从算法的基本概念、常用模型以及实现案例来进行探讨。

一. 文本分类算法的基本概念文本分类算法，是指根据文本内容的属性、特征来进行分类。

在建立分类模型前，我们先要对文本进行预处理。

文本预处理的过程包括中文分词、去停用词、过滤非中文字符等。

这是因为文本数据本身的特殊性，其特征属性中包含着大量的噪声信息，这些噪声信息可能会导致算法的不准确或者是失败，因此需要先对文本进行预处理。

文本分类算法的实现过程，主要分为两个部分，分别为特征选择和分类器设计。

其中特征选择包括文本特征的提取，通过构建特征空间来表示文本，从而帮助模型更好的区分不同类别文本；分类器设计则是为了将构建完成的特征向量进行分类、预测。

而在分类器的选择方面，常见的有朴素贝叶斯分类器、支持向量机、最近邻算法等。

二. 常用的文本分类模型1. 朴素贝叶斯分类器朴素贝叶斯分类器（Naive Bayes Classifier），是一种基于贝叶斯定理与特征条件独立假设的分类方法。

在文本分类中，贝叶斯分类器是应用最广泛的分类算法之一。

它模型简单，易于实现，而且准确率比较高。

朴素贝叶斯分类器主要依据文本的特征属性进行分类，从而得到相关的概率，按照概率大小排序来判断文本所属的类别。

2. 支持向量机支持向量机（Support Vector Machine），是基于统计学习理论发展出来的一种二分类模型。

支持向量机的主要目标是在高维空间中寻找到一个超平面，将样本分类，从而实现分类任务。

在文本分类问题中，支持向量机可以使用文本的特征属性来构造特征向量，在特征空间中构造出最佳的分类超平面，将不同类别的文本数据进行划分。

Python贝叶斯文本分类模型从原理到实现

Python贝叶斯文本分类模型从原理到实现朴素贝叶斯分类器是一种有监督学习，常见有两种模型，多项式模型(multinomial model)即为词频型和伯努利模型(Bernoulli model)即文档型。

二者的计算粒度不一样，多项式模型以单词为粒度，伯努利模型以文件为粒度，因此二者的先验概率和类条件概率的计算方法都不同。

计算后验概率时，对于一个文档d，多项式模型中，只有在d中出现过的单词，才会参与后验概率计算，伯努利模型中，没有在d中出现，但是在全局单词表中出现的单词，也会参与计算，不过是作为“反方”参与的（避免消除测试文档时类条件概率中有为0现象而做的取对数等问题）。

一、数据集数据集是有8个分类的文本数据集，使用了结巴分词对每个文本分词，每个单词当作特征，再利用二元词串构造更多特征，然后去掉停用词，去掉出现次数太多和太少的特征，得到了19630个特征。

取1998个样本用于训练，509个用于测试。

基于词袋模型的思路将每个文本转换为向量，训练集和测试集分别转换为矩阵，并用python numpy模块将其保存为npy格式。

数据集共使用了19630个单词作为特征，特征值是词在文本中出现的次数。

8个分类，分别是1、2、...、8。

训练集共1998个样本，测试集共509个样本。

二、朴素贝叶斯分类器划分邮件算法朴素贝叶斯分类器，基于贝叶斯定理，是一个表现良好的分类方法。

1、公式原理推导主要根据事件间的相互影响进行公式推断。

1.1、条件概率:P(A|B) = P(A,B)/P(B)A和B是随机事件，P(A|B)也就是在事件B发生的前提下事件A发生的概率。

P(A,B)表示A、B都发生的概率。

这样一来，我们可以通过统计结果计算条件概率。

例如假设有1000封邮件，垃圾邮件有300封，出现单词购买的邮件为50封，而即是垃圾邮件又同时出现了购买这个单词的邮件共有20封。

如果把垃圾邮件看成事件A，邮件里出现单词购买看成事件B，那么P(A)是指垃圾邮件出现的概率，因为没考虑其他的因素对A的影响，也可以将P(A)看做A的先验概率，这里：P(A) = 300/1000 = 0.3同理，P(B) = 50/1000 = 0.05P(A,B)是指A和B同时发生的概率，P(A,B) = 20/1000 = 0.02根据条件概率的公式，能够得到P(A|B) = 0.02 / 0.05 = 0.4因为有B的影响，P(A|B)也叫做A的后验概率。

用贝叶斯回归模型解决文本分类问题

用贝叶斯回归模型解决文本分类问题文本分类是指将一篇文本归类到已经定义好的分类中，常见的应用场景包括垃圾邮件识别、情感分析和新闻分类等。

在传统的机器学习中，通常采用基于特征工程的方法将文本转化为向量，然后使用分类算法进行分类，比如朴素贝叶斯、支持向量机等。

然而，这种方法较为繁琐且受限于特征的挑选和构造，对于新出现的文本可能表现不佳。

近年来，随着深度学习的兴起，基于神经网络的文本分类方法也得到了广泛的应用。

但是，相比于传统方法，深度学习需要大量的数据和计算资源，而且难以解释。

因此，如何解决文本分类问题是一个值得探讨的问题。

本文将介绍一种基于贝叶斯回归模型（Bayesian Logistic Regression，BLR）的文本分类方法，该方法不仅能高效地处理大规模的文本数据，而且能够同时输出分类概率和置信度，使得模型的结果更具可解释性和可靠性。

同时，本文还将结合代码实现对该方法进行详细的介绍和讲解。

贝叶斯回归模型贝叶斯回归模型是一种机器学习模型，它采用的是贝叶斯方法，利用概率对未知参数进行推断。

基于贝叶斯方法，我们可以通过先验分布和数据来计算后验分布，从而得到参数的估计值和可靠区间。

在文本分类中，BLR 可以看作是建立在朴素贝叶斯分类器基础之上的一种回归模型。

在BLR 中，我们假设样本的每个特征都服从高斯分布，因此每个特征的先验分布可以表示为：$$p(\mathbf{w}_{j} | \sigma_j^2) = N(\mathbf{w}_{j} | \mathbf{0}, \sigma_j^2\mathbf{I}), j=1,2,\ldots,d$$其中，$\mathbf{w}_j$ 表示第 $j$ 个特征所对应的权重向量，$\sigma_j^2$ 表示第$j$ 个特征的方差，$\mathbf{I}$ 是单位矩阵。

假设该文档属于第 $k$ 个类别，那么其后验概率可以表示为：$$P(y=k | \mathbf{x}, \mathbf{w}) = \frac{\exp(\beta_k +\mathbf{x}^T\mathbf{w}_k)}{\sum_{c=1}^K \exp(\beta_c +\mathbf{x}^T\mathbf{w}_c)}$$其中，$\beta_k$ 是偏置项，$\mathbf{x}$ 是文档的向量表示，$\mathbf{w}$ 是所有特征的权重向量集合，$K$ 是总的类别数目。

基于贝叶斯算法的文本分类算法

基于贝叶斯算法的文本分类算法1、基本定义：分类是把一个事物分到某个类别中。

一个事物具有很多属性，把它的众多属性看作一个向量，即x=(x1,x2,x3,…,xn)，用x这个向量来代表这个事物，x的集合记为X，称为属性集。

类别也有很多种，用集合C={c1,c2,…cm}表示。

一般X和C的关系是不确定的，可以将X 和C看作是随机变量，P(C|X)称为C的后验概率，与之相对的，P(C)称为C的先验概率。

2、文本分类过程例如文档：Good good study Day day up可以用一个文本特征向量来表示，x=(Good, good, study, Day, day , up)。

在文本分类中，假设我们有一个文档d∈X，类别c又称为标签。

我们把一堆打了标签的文档集合作为训练样本，∈X×C。

例如：={Beijing joins the World Trade Organization, China}对于这个只有一句话的文档，我们把它归类到 China，即打上china标签。

朴素贝叶斯分类器是一种有监督学习，常见有两种模型，多项式模型(Multinomial Model)即为词频型和伯努利模型(Bernoulli Model)即文档型。

二者的计算粒度不一样，多项式模型以单词为粒度，伯努利模型以文件为粒度，因此二者的先验概率和类条件概率的计算方法都不同。

计算后验概率时，对于一个文档d，多项式模型中，只有在d中出现过的单词，才会参与后验概率计算，伯努利模型中，没有在d中出现，但是在全局单词表中出现的单词，也会参与计算，不过是作为“反方”参与的。

基于贝叶斯的文本分类方法

sian factor)： 12 = | 1 )* | 2 。
1.1 朴素贝叶斯方法
设训练样本集分为类，记为 ={ 1, 2,…, }，则每个类
的先验概率为，=1,2,…, ，其值为类的样本数除以
训练集总样本数。对于新样本，其属于类的条件概率是
| =arg max{ | * }，=1,2,…,
(5)
文档由其包含的特征词表示，即 = ( 1, 2,…, ,…, )，
是的特征词个数| |, 是第个特征词，由特征独立性假设，得
| = 1, 2,…, | =
|
(6)
=1
式中： | 表示分类器预测单词在类的文档中发生的
概率。因此式 (2) 可转换为
| )。根据贝叶斯定理，类的后验概率为
|: |= |
/
(1)
对于所有类均为常数，可以忽略，则式 (1) 简化为
|∝ | *
(2)
为避免等于 0，采用拉普阿斯概率估计
=(1+| * |)/(| |+| * |)
(3)
式中：| |— — 训练集中类的数目，| * |— — 训练集中属于类的文档数，| * |— — 训练集包含的总文档数。在特殊情况下，训练样本集中各类样本数相等，此时类的先验概率相等，式(2) 可以简化
词频法是最简单的一种技术，其缺点也显而易见：在信息研究中，往往低频词对文档分类的贡献比高频词大得多；高频词同时出现在不同类的概率也较大。这是相当朴素的一种方法，应用较少。 2.2 互信息 (mutual information)

使用朴素贝叶斯算法进行文本分类的教程

使用朴素贝叶斯算法进行文本分类的教程文本分类是自然语言处理领域中的一项重要任务，它可以帮助我们对大量的文本进行自动分类和归类。

而朴素贝叶斯算法作为一种简单而有效的文本分类方法，在实际应用中被广泛使用。

本文将为您提供一个使用朴素贝叶斯算法进行文本分类的教程，帮助您理解并掌握该算法的基本原理和实现过程。

首先，让我们对朴素贝叶斯算法有一个基本的理解。

朴素贝叶斯算法基于贝叶斯定理，通过计算给定条件下的概率来进行分类。

在文本分类任务中，我们可以将文本看作是一个由词汇组成的集合，而每个词汇都可以作为分类的特征。

朴素贝叶斯算法假设各个特征之间是相互独立的，即每个特征对分类的贡献是独立的，因此可以将整个文本的分类概率表示为各个特征的概率的乘积。

接下来，让我们来具体了解如何使用朴素贝叶斯算法进行文本分类。

首先，我们需要准备用于训练模型的文本数据集。

这个数据集应包含已标注好的文本样本，每个样本都有对应的分类标签。

例如，我们可以使用一组已标注的电子邮件文本，并给每个邮件标注上垃圾邮件与非垃圾邮件的分类。

然后，我们需要进行数据预处理。

这包括将文本中的词汇转换为特征向量，以便计算各个特征的概率。

常用的方法是使用词袋模型（Bag-of-Words），将文本表示为由不同词汇组成的向量。

我们可以使用机器学习库（例如scikit-learn）提供的特征提取工具来实现这一步骤。

接下来，我们需要计算各个特征的概率。

对于朴素贝叶斯算法，我们需要计算每个特征在每个分类下的条件概率。

具体而言，对于每个词汇，我们需要计算它在每个分类下的出现频率，并除以该分类下所有词汇的总数。

这样就得到了各个特征在各个分类下的条件概率。

在计算完成各个特征的条件概率后，我们可以使用贝叶斯定理来计算给定条件下的分类概率。

对于一个待分类的文本样本，我们可以计算它属于每个分类的概率，并选择概率最大的分类作为最终分类结果。

在实际应用中，我们通常会使用交叉验证的方法来评估模型的性能。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

毕业设计（论文）I毕业设计（论文）任务书

题目基于贝叶斯的文本自动分类的研究和实现专业学号姓名主要内容、基本要求、主要参考资料等：近年来随着Internet的大规模普及和企业信息化程度的提高，有越来越多的信息积累，而需要信息的人还没有特别方便的工具去从来自异构数据源的大规模的文本信息资源中提取符合需要的简洁、精炼、可理解的知识，文本挖掘正是解决这一问题的一个方法。本课题研究基于贝叶斯的文本分类系统，可以用于以下领域和系统中：企业知识门户、信息增值服务、智能搜索引擎、数字图书馆、情报分析、信息安全和过滤、电子商务系统。文本自动分类不需人工干预的自动分类技术，有效提高非结构化信息资源的加工效率。利用朴素贝叶斯分类文法的分类器，分析已经手动分类的文本，根据文本内容计算分类条件概率，再利用训练好的分类器分析未分类的文本，根据分类器算出的所属领域概率最大的进行分类。本课题任务要求：1)学习关于朴素贝叶斯分类文法，查找相关的资料以供参考；2)实现朴素贝叶斯分类文法的分类器；3)人工对样本数据进行分类和标注；4)利用贝叶斯分类文法的分类器，利用样本进行训练，然后对分类数据进行自动分类；5)根据分类结果，调整分类阈值，弥补分类器的不足。6)根据实验数据和结果，按时完成毕业设计论文。主要参考资料：贝叶斯分类算法的论文和资料，未分类文本语料。

完成期限：指导教师签章：专业负责人签章：

年月日毕业设计（论文）

II摘要随着计算机技术和通讯技术的飞速发展，人们可以获得越来越多的数字化信息，但同时也需要投入更多的时间对信息进行组织和管理。为了减轻这种负担，人们开始研究使用计算机对文本进行自动分类。文本自动分类就是在给定的分类体系下，让计算机根据文本的内容确定与它相关联的类别。自动文本分类是人工智能技术和信息获取技术相结合的研究领域。随着网络的发展，大量的文档数据涌现在网上，用于处理海量数据的自动文本分类技术变得越来越重要，已逐渐成为处理和组织大量文档数据的关键技术。通过分析kNN(k Nearest Neighbor)、朴素贝叶斯(Naive Bayes)、SVM(Support Vector Machine)三种文本分类方法的优点和缺点，发现朴素贝叶斯分类器速度极快，具有最小的出错率，可在线化实现等优点，并对该分类方法进行了理论分析和实验对比，实验结果表明这种文本分类模型是高效的可行的。本文首先介绍了基于贝叶斯的文本自动分类的研究和实现的背景,并且叙述了相关问题的概念知识，包括文本分类和中文分词等；其次，对相关的理论知识做了讲解，包括先验概率、条件概率、贝叶斯理论、贝叶斯算法等；第三，对如何实现文本分类进行了概述以及整体讲解，通过给出流程图，可以更直观的了解实现的过程；第四，详细介绍了实现本课题所用到的重要工具，包括JBuilder2007开发工具和全文检索引擎Lucene以及Java平台；第五，在前期工作基础上，给出了详细的实现过程，包括单文本分类和多文本分类以及相关具体操作；最后，通过多次大量重复试验，得出了实验数据，在此通过表格的形式，直观的给出了实验结果。本课题研究基于贝叶斯的文本分类系统，根据所讨论的算法构造了贝叶斯文本自动分离器，并做出详尽的训练测试，从最终的试验结果可以看出，贝叶斯算法简单、性能优越，即使在不考虑贝叶斯假设的前提下，仍然取得良好的分类性能。

关键字：文本自动分类，贝叶斯分类，分类文本语料库。毕业设计（论文）

IIIAbstractWith the computer technology and the rapid development of communication technology, people can get more and more digital information, but it also needs to devote more time to organize and manage information. In order to alleviate that burden, people began to study the use of computers for automatic classification of text. Automatic text categorization is the classification of a given system, the computer determined in accordance with the contents of the text associated with its category. Automatic text classification is the artificial intelligence technology and access to information technology research field. With the development of network, data on the emergence of a large number of documents online, to deal with massive data technology of automatic text classification is becoming increasingly important, has become an increasingly large number of document processing and organization of the key technologies of data.By analyzing the k Nearest Neighbor、Naive Bayes、Support Vector

Machine method of text classification in three strengths and weaknesses found in Naive Bayesian classifier speed, with the smallest error rate, can achieve the advantages of online technology, and the classification of the theoretical analysis and experimental comparison, experimental results show that the text categorization model is feasible and efficient. This paper first introduces the Bayesian-based text categorization of the research and realization of the background and describes the issues related to the concept of knowledge, including text classification and Chinese word segmentation . Second, the relevant theoretical knowledge to do the explaining, including a priori probability, conditional probability, Bayesian theory, the Bayesian algorithm . Third, on how to achieve the outlined text classification as well as on the whole, through the given flow chart, you can achieve a more intuitive understanding of the process. Fourth, in detail on achieving this important task by use of tools, including development tools and JBuilder2007 full-text search engine Lucene and Java platform.Fifth, prior to the adoption of the work detailed in this paper the realization of the process, including single-and multi-text classification text categorization and related specific operations; Finally, a large number of repeat tests many times, the experimental data obtained in this 毕业设计（论文）IVform through the form, intuitive experimental results are given.The research based on Bayesian text classification system, according to the algorithm discussed in the text automatically constructed Bayesian separator and training to make a detailed test results from the final we can see that the Bayesian algorithm is simple, superior performance, even without taking into account the assumption that the premise of Bayesian still achieve good classification performance.

Keywords: Automatic Text Categorization, Bayesian Classifier, Classification of text corpora.