P15_基于Bootstrapping的文本分类模型

合集下载

训练 文本分类模型

训练 文本分类模型

训练文本分类模型一、什么是文本分类模型文本分类是自然语言处理中的一个重要任务,它是将给定的文本分到预定义的类别中的过程。

文本分类模型是基于机器学习和深度学习的算法,通过学习大量标记好的文本数据来训练模型,使得模型能够自动将新的文本数据分到正确的类别中。

二、文本分类的应用文本分类在现实生活中有着广泛的应用。

例如,在社交媒体上对用户发表的评论进行情感分析,判断评论是正面的还是负面的;在新闻网站上对新闻文章进行分类,将其归类为体育、娱乐、科技等类别;在垃圾邮件过滤中,将邮件分为垃圾邮件和非垃圾邮件等等。

文本分类的应用可以帮助我们更好地理解和处理海量文本数据。

三、文本分类模型的训练流程训练文本分类模型的流程一般包括以下几个步骤:1. 数据准备:首先需要准备大量的标记好的文本数据作为训练集。

训练集应包含各个类别的文本数据,并且要保证每个类别的样本数量大致相等,以避免模型对某个类别偏向过高。

2. 特征提取:在训练文本分类模型之前,需要对文本数据进行特征提取。

常用的特征提取方法包括词袋模型和词向量模型。

词袋模型将文本表示为一个向量,向量的每个维度表示一个词,词的权重表示该词在文本中的重要性。

词向量模型则将每个词表示为一个向量,向量的每个维度表示该词在语义上的特征。

3. 模型选择:选择合适的模型对文本数据进行分类。

常用的文本分类模型包括朴素贝叶斯、支持向量机、决策树、深度神经网络等。

不同的模型有着不同的特点和适用场景,需要根据具体问题选择合适的模型。

4. 模型训练:使用准备好的训练集对选定的模型进行训练。

训练的过程是通过模型学习文本数据的特征和类别之间的关系,以优化模型的参数和权重。

5. 模型评估:训练完成后,需要使用测试集对模型进行评估。

评估指标包括准确率、精确率、召回率和F1值等,用于衡量模型的分类性能。

四、训练文本分类模型的注意事项在训练文本分类模型时,需要注意以下几点:1. 数据预处理:对文本数据进行预处理,包括去除停用词、标点符号和特殊字符,进行分词等。

自然语言处理中常见的文本分类模型对比(十)

自然语言处理中常见的文本分类模型对比(十)

自然语言处理中常见的文本分类模型对比在当今信息爆炸的时代,海量的文本数据正在不断产生和累积。

如何高效地对这些文本数据进行分类和分析成为了重要的课题。

自然语言处理技术的发展为文本分类提供了强大的工具,各种文本分类模型也应运而生。

本文将对常见的文本分类模型进行对比分析,包括朴素贝叶斯、支持向量机、深度学习等。

1. 朴素贝叶斯分类器朴素贝叶斯分类器是一种基于概率统计的分类模型,其基本假设是特征之间相互独立。

朴素贝叶斯分类器简单、易于实现,对小规模的数据表现良好。

然而,由于其假设的“朴素”性质,朴素贝叶斯分类器在处理复杂的文本数据时表现并不理想。

特别是对于含有大量特征之间相关性的文本数据,朴素贝叶斯分类器的性能会受到限制。

2. 支持向量机支持向量机是一种强大的分类模型,其核心思想是将数据映射到高维空间中,通过寻找一个最优的超平面来进行分类。

支持向量机在处理文本分类问题时具有较好的泛化能力和鲁棒性,尤其适用于高维度的特征空间。

然而,支持向量机在处理大规模文本数据时计算复杂度较高,需要大量的计算资源和时间。

3. 深度学习模型近年来,深度学习技术的快速发展为文本分类问题提供了全新的解决途径。

通过构建深层神经网络模型,可以自动地学习文本数据中的复杂特征和规律。

深度学习模型在处理文本分类问题时展现出了强大的表现,尤其在处理大规模数据和复杂数据结构时具有优势。

然而,深度学习模型需要大量的训练数据和调参工作,且模型的黑盒性使得解释性较差。

4. 对比与总结朴素贝叶斯分类器、支持向量机和深度学习模型分别代表了传统的统计学习方法、核方法和深度学习方法。

这三种文本分类模型在不同的场景下都有其独特的优势和局限性。

朴素贝叶斯分类器适用于简单的文本分类问题,支持向量机在高维度特征空间中表现良好,而深度学习模型则在处理复杂的文本数据时具有较强的表现。

总的来说,选择合适的文本分类模型需要根据具体的问题和数据特点来进行综合考量。

对于大规模复杂的文本数据,深度学习模型可能是一个不错的选择;而对于简单的文本分类问题,朴素贝叶斯分类器可能更为适合。

短文本分类模型

短文本分类模型

短文本分类模型
短文本分类模型是一种用于对短文本进行分类的机器学习模型。

它可以帮助我们快速准确地对大量的短文本进行分类,从而提高工作效率和准确性。

在实际应用中,短文本分类模型可以应用于多个领域,比如情感分析、文本主题分类、垃圾邮件过滤等。

通过训练模型,我们可以让机器学会识别不同类型的短文本,并根据其特征进行分类。

为了构建一个高效的短文本分类模型,我们首先需要收集大量的带有标签的训练数据。

这些数据可以包括各种类型的短文本,比如新闻标题、社交媒体评论、产品描述等。

然后,我们可以使用这些数据来训练模型,让模型学习如何将不同类型的短文本进行分类。

在训练模型时,我们需要选择合适的特征提取方法和分类算法。

常用的特征提取方法包括词袋模型、TF-IDF、词嵌入等,而常用的分类算法包括朴素贝叶斯、支持向量机、深度学习等。

通过不断调整参数和优化模型,我们可以提高模型的准确性和泛化能力。

除了模型的构建和训练,我们还需要对模型进行评估和优化。

通过使用交叉验证、混淆矩阵、准确率、召回率等指标,我们可以评估模型的性能并找出改进的方法。

在优化模型时,我们可以尝试调整特征提取方法、调整分类算法、增加训练数据等方式来提高模型的性能。

总的来说,短文本分类模型是一种强大的工具,可以帮助我们快速准确地对短文本进行分类。

通过不断优化和改进模型,我们可以提高分类的准确性和效率,从而更好地应用于各个领域。

希望未来能有更多的研究和应用能够进一步推动短文本分类模型的发展,让其在各个领域发挥更大的作用。

文本分类模型参数

文本分类模型参数

文本分类模型参数文本分类是一种常见的自然语言处理任务,可以用来将文本分为不同的类别。

为了实现高效的文本分类,需要对模型的参数进行优化。

以下是一些常见的文本分类模型参数:1. 词向量维度:词向量是将单词转换为向量的过程,可以提高模型的效果。

词向量维度的选择需要考虑单词的数量和模型的复杂度,通常在50-500之间。

2. 隐藏层的数量和大小:隐藏层是神经网络中的关键组成部分,可以控制模型的复杂度和表达能力。

一般来说,增加隐藏层数量可以提高模型的表现,但也会增加训练时间和计算负担。

3. Dropout:Dropout是一种正则化技术,可以防止模型过拟合。

设置合适的Dropout值可以提高模型的泛化能力和鲁棒性。

4. Batch size:Batch size是指每次训练模型时输入的数据量。

通常情况下,较大的batch size能够提高模型的训练速度和内存利用率,但也可能会导致模型的性能下降。

5. Learning rate:学习率是指更新模型参数的步长。

设置合理的学习率可以提高模型的训练速度和效果。

一般来说,学习率需要逐渐降低,以便在训练后期更好地收敛。

6. 激活函数:激活函数是神经网络中的一个重要组成部分,可以控制神经元的输出。

常用的激活函数包括ReLU、sigmoid和tanh 等。

不同的激活函数对模型的性能和收敛速度有影响。

7. 损失函数:损失函数是评估模型性能的指标,通常采用交叉熵损失函数。

不同的损失函数对模型的收敛速度和效果有影响。

通过对这些参数的调整和优化,可以有效提高文本分类模型的性能和效果。

自然语言处理中的文本分类方法

自然语言处理中的文本分类方法

自然语言处理中的文本分类方法文本分类是自然语言处理(NLP)中的一个重要任务,其目标是将文本按照预定义的类别进行分类。

文本分类方法在信息检索、情感分析、垃圾邮件过滤等应用中被广泛使用。

本文将介绍自然语言处理中常用的文本分类方法,并对它们的原理及应用进行讨论。

一、传统的文本分类方法1. 词袋模型(Bag-of-words Model)词袋模型是文本分类中最基本的方法之一。

它将文本视为一组词的集合,忽略了词序和语法结构,只关注词汇的出现频率。

在词袋模型中,每个文本都表示为一个向量,向量的每个维度对应一个词,该维度的取值表示该词在文本中出现的次数或权重。

常用的表示方式包括词频(Term Frequency,TF)和词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)等。

2. 统计机器学习方法传统的文本分类方法中,统计机器学习方法是应用最广泛的一类。

其中,朴素贝叶斯分类器是常用的一种方法。

朴素贝叶斯分类器基于贝叶斯定理和特征条件独立假设进行分类。

它通过统计训练集中每个类别的先验概率和每个特征在各个类别中的条件概率来计算后验概率,从而实现文本分类。

3. 基于特征工程的方法特征工程是文本分类中非常重要的一环,它通过挖掘文本的各种特征来提取有效的信息。

特征工程可以包括词语级别的特征(如词频、TF-IDF),句子级别的特征(如句子长度、词性标注)、语义特征(如词义、主题模型)等。

通过将这些特征进行组合或权重调整,可以得到更好的文本表示,提高文本分类效果。

二、深度学习方法在文本分类中的应用深度学习方法近年来在文本分类任务中取得了显著的成果。

以下是几种常见的深度学习方法:1. 卷积神经网络(Convolutional Neural Network,CNN)CNN在计算机视觉领域取得了巨大成功,它也被广泛应用于文本分类任务。

通过使用卷积核进行特征提取,CNN可以学习到文本局部和全局的特征。

文本分类模型的选择与调优技巧

文本分类模型的选择与调优技巧

文本分类模型的选择与调优技巧随着互联网的发展,大量的文本数据被生成和积累,如何从这些海量的文本数据中提取有价值的信息成为了一项重要的任务。

文本分类作为自然语言处理领域的一个重要任务,被广泛应用于情感分析、垃圾邮件过滤、新闻分类等领域。

在进行文本分类任务时,选择合适的模型并进行调优是至关重要的。

一、模型选择在文本分类任务中,常用的模型包括传统机器学习模型和深度学习模型。

传统机器学习模型如朴素贝叶斯、支持向量机和随机森林等,在处理小规模数据集时具有较好的效果。

这些模型基于特征工程,需要手动提取文本的特征,并且对文本进行向量化表示。

相比之下,深度学习模型如卷积神经网络(CNN)和循环神经网络(RNN)等能够自动学习文本的表示,适用于大规模数据集和复杂的文本分类任务。

在选择模型时,需要根据实际情况考虑以下几个因素:1. 数据集规模:如果数据集规模较小,传统机器学习模型可能更适合;如果数据集规模较大,深度学习模型可能更具优势。

2. 文本特点:如果文本具有明显的局部结构特点,如语法结构、词序等,卷积神经网络可能更适合;如果文本具有长期依赖关系,如情感分析任务中需要考虑上下文信息,循环神经网络可能更适合。

3. 计算资源:深度学习模型通常需要大量的计算资源和时间进行训练,如果计算资源有限,传统机器学习模型可能更适合。

二、模型调优技巧选择合适的模型后,进行模型的调优是提高分类性能的关键。

以下是一些常用的模型调优技巧:1. 特征选择:通过选择合适的特征可以提高模型的性能。

常用的特征选择方法包括信息增益、卡方检验和互信息等。

此外,还可以使用词袋模型、TF-IDF等方法对文本进行向量化表示。

2. 超参数调优:模型中的超参数对模型的性能有着重要的影响。

通过交叉验证等方法,可以选择合适的超参数。

例如,在卷积神经网络中,可以调整卷积核的大小、池化方式、激活函数等超参数。

3. 数据增强:对于数据量较小的情况,可以通过数据增强的方式扩充数据集。

深度学习技术中的文本分类模型详解

深度学习技术中的文本分类模型详解深度学习技术的发展给自然语言处理领域带来了许多突破,尤其是文本分类任务。

文本分类是一项重要的自然语言处理任务,它的目标是根据给定的文本内容将其分类到预定义的类别中。

深度学习模型在文本分类任务中已取得了卓越的成果,本文将详细介绍几种常见的深度学习文本分类模型。

一、卷积神经网络(CNN)卷积神经网络是一种经典的深度学习模型,在图像处理领域得到了广泛应用。

然而,CNN也可以用于处理文本数据。

CNN模型通过使用卷积层和池化层来提取文本中的局部特征。

卷积层可以捕捉到不同长度的短语和句子结构,而池化层用于减少特征的维度。

最后,全连接层将提取到的特征映射到预定义的类别中。

CNN模型在文本分类任务中表现出色,并且在训练速度上也具有一定的优势。

二、长短期记忆网络(LSTM)长短期记忆网络是一种循环神经网络(RNN)的变种,专门用于处理序列数据。

在文本分类任务中,输入的文本可以被视为一个序列,每个单词或字符都是一个时间步。

LSTM通过具有记忆单元的机制来记忆和传递序列中的信息。

这使得LSTM能够处理长距离依赖关系,并且在处理文本数据时具有较强的表达能力。

LSTM模型在文本分类任务中被广泛使用,并取得了很好的效果。

三、注意力机制(Attention)注意力机制是一种用于加强模型对重要信息关注的机制。

在文本分类任务中,注意力机制可以使模型更加关注与分类有关的关键词或短语。

例如,对于一个电影评论文本分类任务,注意力机制可以让模型更加关注评论中与电影情绪相关的词汇,如“喜欢”、“厌恶”等。

注意力机制可以与CNN或LSTM等深度学习模型相结合,以提高模型的分类性能。

四、预训练模型(Pretrained Models)预训练模型是指在大规模文本语料上进行预训练的模型。

通过在大规模数据上进行预训练,模型可以学习到更丰富的语义和句法信息。

使用预训练模型可以在文本分类任务中取得更好的效果,尤其是在数据集较小的情况下。

自然语言处理中常见的文本分类模型对比(五)

自然语言处理(NLP)是人工智能领域中的一个重要分支,它致力于让计算机能够理解、处理和生成自然语言。

文本分类是NLP中的一个核心任务,它涉及将文本数据分为不同的类别或标签。

在NLP中,有许多常见的文本分类模型,每种模型都有其优缺点。

本文将对几种常见的文本分类模型进行对比分析,帮助读者更好地了解这些模型的特点和适用场景。

传统的文本分类模型中,朴素贝叶斯(Naive Bayes)是最为经典的之一。

朴素贝叶斯模型基于贝叶斯定理和特征条件独立性假设,通过计算每个类别下的特征概率来进行分类。

它在处理大规模文本数据时表现出色,尤其在情感分析和垃圾邮件过滤等领域得到广泛应用。

然而,朴素贝叶斯模型对特征条件独立性的假设过于理想化,导致在处理一些复杂的文本分类任务时表现不佳。

支持向量机(Support Vector Machine,SVM)是另一个常见的文本分类模型。

SVM通过找到一个最优的超平面来对文本数据进行分类,它在处理高维稀疏数据时表现出色。

SVM在文本分类任务中有着很好的泛化能力,能够较好地处理非线性分类问题。

然而,SVM在大规模数据集上的训练速度较慢,且对参数的选择较为敏感,需要进行调参来获得较好的分类效果。

近年来,随着深度学习的兴起,深度学习模型在文本分类任务中也取得了巨大的成功。

其中,卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)是两种常见的深度学习模型。

CNN能够有效地捕捉文本中的局部特征,尤其适用于短文本分类任务。

而RNN则能够很好地处理长文本序列,对语境信息的捕捉更加灵活。

此外,长短时记忆网络(LongShort-Term Memory,LSTM)和门控循环单元(Gated Recurrent Unit,GRU)等变种结构也被广泛应用于文本分类任务中,它们能够有效地解决传统RNN中的梯度消失和梯度爆炸等问题。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中 文 信 息 学 报第19卷第2期 JOURNALOFCHINESEINFORMATIONPROCESSINGVol119No12

文章编号:1003-0077(2005)02-0086-07

基于Bootstrapping的文本分类模型①

陈文亮,朱慕华,朱靖波,姚天顺(东北大学自然语言处理实验室,辽宁沈阳 110004)摘要:本文提出一种基于Bootstrapping的文本分类模型,该模型采用最大熵模型作为分类器,从少量的种子集出发,自动学习更多的文本作为新的种子样本,这样不断学习来提高最大熵分类器的文本分类性能。文中提出一个权重因子来调整新的种子样本在分类器训练过程中的权重。实验结果表明,在相同的手工训练语料的条件下,与传统的文本分类模型相比这种基于Bootstrapping的文本分类模型具有明显优势,仅使用每类100篇种子训练集,分类结果的F1值为70156%,比传统模型高出4170%。该模型通过使用适当的权重因子可以更好改善分类器的训练效果。关键词:计算机应用;中文信息处理;文本分类;最大熵模型;权重因子中图分类号:TP391 文献标识码:A

Semi2SupervisedTextCategorizationUsingBootstrappingCHENWen2liang,ZHUMu2hua,ZHUJing2bo,YAOTian2shun(NaturalLanguageProcessingLab,NortheasternUniversity,Shenyang,Liaoning110004,China)

Abstract:Thispaperproposesasemi2supervisedtextcategorizationusingbootstrapping.TheSystemusestheMaximumEn2tropyModelasthetextclassifier.Itlearnsmoreautomaticlabeledsamplesasnewseedtrainingsamplesfromunlabeledsam2plesusingasmallsizeofseedtrainingsamples.Inthispaper,weuseaweightedfactortoadjusttheweightofnewseedsamplesduringthefollowingtrainingprocess.Theexperimentalresultsshowthattheproposedsystemperformsbetterthantheconventionalsystemwiththesamelabeleddocuments.Andityields70156%F1usingonly1002labeleddocumentsforeachcategory,417%overtheconventionalsystemdoes.Anditcanprovidethesameperformanceastheconventionalsys2temusing50%orlesstrainingsamples.Theresultsalsoshowthattheweightedfactorcanimprovetheperformance.keywords:computerapplication;Chineseinformationprocessing;textcategorization;maximumentropy;weightfactor1 引言文本分类问题一直是自然语言处理领域的一个重要课题。近年来,国内外研究人员对文本分类问题进行深入研究,他们采用很多不同方法来构造分类器,例如:KNN、na󰂧veBayes、Maxi2mumEntropy、SVM、Rocchio、DecisionTree、NNet、LLSF等等,这些分类系统都需要大量的标注语料才能达到较好的分类性能[1~4]。同时,随着互联网的发展,大规模的无标注文档越来越容易获得。近年来,有很多研究者开始研究如何用无标注的语料来提高小标注训练集的训练效果。Nigam提出用EM方法从未标注语料和小标注语料训练分类器,其中,EM是一种最大似然估计

・68・①收稿日期:2004-06-15

基金资助:国家自然科学基金和微软亚洲研究院联合资助项目(60260319);教育部科学技术研究重点资助项目(104065);国家自然科学基金资助项目(6047140)作者简介:陈文亮(1977—),男,博士生,研究方向为文本分类和机器学习.

© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.的迭代方法[5]。Blum和Mitchell提出用Co2training方法[6]来解决用于网页分类的手工标注语料训练不足的问题,构造两个不同的分类器来进行标注学习。本文采用一种基于bootstrapping的学习方法,采用最大熵作为分类器,从少量的种子集出发,自动学习新的种子样本,通过不断学习,来提高最大熵分类器的文本分类性能。Bootstrap2ping[7]是一种被广泛应用于知识获取的机器学习技术,EllenRiloff用来构造信息抽取的知识

库[8],DavidYarowsky用来进行语义消歧[9]等。一般首先给定种子集合,通过学习器来学习新的种子样本。这样达到用少量的标注训练样本就可以达到传统方法的大标注训练集训练效果。在学习过程中,新的种子样本必然存在一些误标注,这样对下一轮的训练学习会造成一些不利的影响,本文引入一个权重因子到最大熵模型的特征函数中实现初始种子集和新种子集较合理的组合。实验表明,这种权重因子可以改善学习模型的训练效果,进而提高分类性能。2 最大熵模型最大熵(MaximumEntropy2ME)模型已经成功用到了自然语言处理多个领域,如:文本分类、词性标注、名词实体识别等等。本文将简介最大熵模型在文本分类中的应用,详细描述请参看文献[10,11]。最大熵模型在给定约束的条件下,尽可能的使分布变得平均。存在训练样本集T={(d

1,

c1)(d2,c2),…,(dN,cN)},其中di是一个训练样本,ci是文档di

的类别。在给定T和与之相关

的约束条件下,存在一个唯一概率模型:该模型的熵达到最大值,概率模型的计算公式如下:

PΛ(c|d)=1ZΛ(d)exp[6iλifi(d,c)] 其中,Λ={

λ

1,λ2,…,λn}是模型的参数,fi(d,c)是给定的特征函数,Z(d)是一个归一化

因子:

Z(d)=6cexp(6iλifi(d,c)) 这样,最大熵模型的求解可以通过下式:

LΛ=6d,cp~(d,c)logp(c|d)

其中,p

~(d,c)是经验概率分布,求解过程可以通过参数优化算法来完成。本文实验中采

用了Limited2MemoryVariableMetric(一种牛顿迭代法)来求解Λ={λ

1,λ2,…,λn}。最大熵模型

在实际应用时的关键问题是如何选取特征函数,根据不同的应用选择不同的特征函数。3 B2ME模型本节构建一个基于Bootstrapping的文本分类自学习模型,该模型使用少量标注样本作为种子集,首先用种子集作为训练集来训练文本分类器,然后利用分类器对未标注文本进行类别标注,从中选取部分文本作为新种子样本加入训练集中,再重复训练标注,直到结束。这样就实现利用少量种子集加上大量未标注语料学习出一个较好的文本分类器。本文选用最大熵模型作为分类器,最大熵模型可以给出文档属于某个类别的概率。本文把这种基于Bootstrapping和最大熵模型(ME)的文本分类自学习模型称为B2ME模型。在本文中,训练集D={L,U},其中L表示标注好的种子集,U表示大规模的无标注文本

集。表1表示B2ME模型的整个学习过程,其中n=

|U|

k,而|U|是U的文档数,k是迭代的轮

・78・© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.数。在学习过程中,包含3个重要的步骤:1)训练分类器:训练最大熵模型分类器;2)无标注语

料的标注:利用训练好的最大熵模型分类器对语料U分类;3)新种子样本选取:从步骤2)中的标注结果选取部分文本,提供给下轮次学习使用。算法1 B2ME模型的学习算法输入:L-少量带标注种子集;U-大规模未标注文本集输出:训练好的最大熵模型分类器步骤:

󰂳 用L来训练最大熵分类器ME

󰂳 L′=<󰂳 迭代k轮 ■ 使用当前最大熵分类器标注U得到L

U

 ■ 选取置信度最高的n个文本,并加到L′;U=U-L′

 ■ 使用L∪L′来训练最大熵分类器311 训练分类器本节中的特征函数如下式表示:

fw,c′(d,c)=0c≠c

tf(w,d) c=c′ 其中,tf(w,d)是词w在文档d中出现的频数。训练最大熵模型分为两种情况:1)开始阶段:训练语料是种子集L(少量标注语料);2)学习过程中:训练语料是L和L′的并集,其中L′是自动学习的新种子集(获取方法见节313)。312 无标注语料的标注使用当前训练好的最大熵模型分类器对语料U={d

1,d2,…,d|U|}进行分类,

得到每一文

档di的最大类别概率pi=max0≤j≤|C|(p(cj|di)),本文称pi为该文档的分类置信度,这样得到U的标注结果为:L

U={(d1,p1),(d2,p2),…,(d|U|,p|U|)

}

313 新种子样本选取新种子样本选取是从LU中选择部分文本作为新的种子样本提供给下一轮学习使用。选取步骤:首先,根据文档分类置信度对LU进行排序;再选择前面n个文本作为新的种子样本加入到训练集中。4 B2ME2β模型在B2ME模型中,新学习到的种子样本在加入训练集后,就不再区分手工标注的种子样本和自动标注的新种子样本。但是新种子样本必然还存在一些错误,这样对分类器的下一轮训练会带来一些不利的影响。因此,本文引入一个新的参数β(0≤β≤1)到特征函数中,来调整

自动标注的新种子样本对训练模型的影响。首先,定义一个δ表示权重因子:

δ(d,c)=

β d∈

U

1 d∈L

把权重因子加入特征函数中:

fw,c′(d,c)=0c≠c

δ(d,c)tf(w,d) c=c′

本文把这时的最大熵模型称为ME2β模型。在ME2β模型中,文档d产生的特征函数通过・88・

© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.

相关文档
最新文档