机器学习关于词性标注的翻译
词法分析:词性标注

词法分析:词性标注词法分析(lexical analysis):将字符序列转换为单词(Token)序列的过程分词,命名实体识别,词性标注并称汉语词法分析“三姐妹”。
在线演⽰平台:词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation)是语料库语⾔学(corpus linguistics)中将语料库内单词的词性按其含义和上下⽂内容进⾏标记的⽂本数据处理技术。
语料库(corpus,复数corpora)指经科学取样和加⼯的⼤规模电⼦⽂本库。
所谓词性标注就是根据句⼦的上下⽂信息给句中的每个词确定⼀个最为合适的词性标记。
⽐如,给定⼀个句⼦:“我中了⼀张彩票”。
对其的标注结果可以是:“我/代词中/动词了/助词/ ⼀/数词/ 张/量词/ 彩票/名词。
/标点”词性标注的难点主要是由词性兼类所引起的。
词性兼类是指⾃然语⾔中⼀个词语的词性多余⼀个的语⾔现象。
(⼀词多性)常⽤的词性标注模型有 N 元模型、隐马尔科夫模型、最⼤熵模型、基于决策树的模型等。
其中,隐马尔科夫模型是应⽤较⼴泛且效果较好的模型之⼀。
【jieba】import jieba.posseg as psegwords = pseg.cut("⽼师说⾐服上除了校徽别别别的")for word, flag in words:print('%s %s' % (word, flag))⽼师 n 说 v ⾐服 n 上 f 除了 p 校徽 n 别 d 别 d 别的 r【hanLP】from pyhanlp import *content = "⽼师说⾐服上除了校徽别别别的"print(HanLP.segment(content))⽼师/nnt, 说/v, ⾐服/n, 上/f, 除了/p, 校徽/n, 别/d, 别/d, 别的/rzv ref:。
机器翻译中的词性标注技术研究

机器翻译中的词性标注技术研究摘要:机器翻译是一项旨在将一种语言中的文本自动转换为另一种语言的任务。
词性标注是机器翻译的重要组成部分之一,它在识别单词的同时为其分配一个特定的词性。
本文将讨论机器翻译中的词性标注技术的研究进展,包括常用的方法和算法,以及面临的挑战和未来的发展方向。
引言:从20世纪50年代开始,机器翻译就成为了人工智能领域的研究热点之一。
词性标注是机器翻译中的一个重要环节,它能够为翻译系统提供更准确的信息,提高翻译结果的质量。
词性标注技术可以将句子中的每个单词分配一个特定的词性,比如名词、动词、形容词等。
本文将介绍词性标注的基本原理和常用方法,以及机器翻译中的词性标注技术的研究进展。
一、词性标注的基本原理和方法1. 基本原理:词性标注的基本原理是为每个单词分配一个特定的词性标签,该标签能够表示该单词在句子中的语法角色。
词性标注可以提供句子的更多上下文信息,有助于机器翻译系统理解句子结构和单词之间的关系。
2. 常用方法:词性标注有多种方法和算法,包括基于规则的方法、基于统计的方法和基于机器学习的方法。
(1) 基于规则的方法:基于规则的方法是最早被应用于词性标注的方法之一。
它基于人工定义的规则和规则集,通过匹配词性和上下文信息来标注单词的词性。
然而,这种方法需要大量的人工工作和专业知识,难以应对不同语言和语境下的词性标注任务。
(2) 基于统计的方法:基于统计的方法使用统计模型来预测单词的词性标签。
这种方法通过分析大型语料库中的词性标注数据,学习单词和词性之间的搭配关系和概率分布。
常用的统计模型包括隐马尔可夫模型(Hidden Markov Model, HMM)、最大熵模型(Maximum Entropy Model, MEM)和条件随机场(Conditional Random Fields,CRF)等。
这些模型可以通过训练得到的参数来为新的句子进行词性标注。
基于统计的方法在很大程度上减少了人工规则的依赖,提高了自动化程度和准确性。
智能翻译的工作原理

智能翻译的工作原理智能翻译,又称机器翻译(Machine Translation,MT),是指通过计算机程序自动将一种自然语言的表达形式转换为另一种语言的表达形式。
其工作原理基于自然语言处理(Natural Language Processing,NLP)和机器学习(Machine Learning)等技术,可以大大提高翻译效率和准确性。
基本原理智能翻译的工作原理主要包括以下几个步骤:1.分词与词性标注(Word Segmentation and Part-of-Speech Tagging):首先,将输入的句子进行分词,将句子拆分成一个个单词或标点符号,并为每个单词确定其词性。
这个步骤的目的是对输入的文本进行初步的处理,方便后续的处理和分析。
2.句法分析(Syntactic Parsing):根据每个单词的词性和语法规则,对输入的句子进行句法分析,确定词与词之间的依存关系。
通过建立一个句法树或依存图,可以更好地理解句子的结构和含义。
3.语义分析(Semantic Analysis):在已经进行了句法分析的基础上,进一步对句子的语义进行分析。
这一步通常包括词义消歧、指代消解等任务,旨在准确理解句子中每个单词(或短语)的含义以及彼此之间的关系。
4.翻译模型(Translation Model):基于已有的语料库和机器学习技术,构建一个翻译模型,即将源语言句子翻译为目标语言句子的模型。
这个模型可以是基于规则的,也可以是基于统计的或神经网络的。
–基于规则的翻译模型主要依靠人工编写的规则库,规定了源语言词组与目标语言词组之间的对应关系。
这种方法简单易懂,但对规则的覆盖面有一定的限制。
–基于统计的翻译模型则基于大量的平行语料,在源语言和目标语言之间进行统计分析,选择最有可能的翻译结果。
这种方法能够通过大数据进行学习,提高翻译的准确性和自然度。
–基于神经网络的翻译模型则利用深度学习技术,通过神经网络结构对源语言和目标语言之间进行映射,从而实现翻译功能。
机器学习知识:机器学习中的词性标注

机器学习知识:机器学习中的词性标注在自然语言处理中,词性标注是一项重要的任务。
它是指给定一句话中的每一个词语分配一个对应的词性,如名词、动词、形容词、副词等。
这个任务对于各种应用都很关键,比如情感分析、机器翻译、自动问答等等。
词性标注的基本思想是利用一些已经标注好的句子作为训练集,通过机器学习算法来学习词性标注的规则,然后应用到未标注的句子上。
下面将从算法、应用、发展等方面介绍词性标注的知识点。
一、算法(一)规则算法最早的词性标注算法是规则算法。
这种算法是基于已知的语言规则,对每个词语进行分类。
规则算法虽然直观易懂,但它的可扩展性和泛化性都很差,不适用于大规模的语料库。
(二)统计算法随着机器学习技术的发展,统计算法逐渐成为词性标注的主流算法。
统计算法的思路是观察已经标注好的词性,从这些数据中学习词性标注的规律。
常用的统计算法包括HMM(隐马尔可夫模型)、CRF (条件随机场)等等。
HMM是一种基于概率的词性标注算法,它的核心思想是词性标记是句子中每个词的一个隐藏状态,通过已知的观察值来对这些隐藏状态进行推断。
HMM首先需要确定一个初始参数,例如,学习每个词的词性和每个词性出现的概率。
然后利用已知词性标注的语料库,通过极大似然方法学习模型参数。
CRF是一种基于概率的判别式模型,与HMM不同之处在于CRF直接对给定句子的标注结果建模,而HMM只考虑了参数之间的联合分布。
CRF模型也需要从已知的语料库中学习参数,并通过最大化对数似然函数得到最优参数值。
二、应用(一)文本分类词性标注可以作为文本分类的预处理步骤。
文本分类是将文本数据划分到预定义的类别中的任务。
这个任务在垃圾邮件过滤、文本检索和情感分析等领域得到广泛应用。
在分类之前,需要对文本进行预处理,其中词性标注是一个重要的预处理步骤。
(二)情感分析情感分析是指识别文本中的情感色彩,例如,正面情感、中性情感和负面情感等。
这个任务对于企业的公关、社交媒体和市场调查等领域都很关键。
自然语言处理中常见的词性标注模型(六)

自然语言处理(Natural Language Processing,NLP)是一门涉及计算机和人类语言之间交互的领域,其主要目的是使计算机能够理解、解释和生成人类语言。
在NLP的诸多任务中,词性标注(Part-of-Speech Tagging)是其中一个重要的任务,它涉及对句子中每个单词进行词性标注,即确定该单词在句子中所扮演的角色,如名词、动词、形容词等。
在本文中,将介绍几种常见的词性标注模型,并对它们进行简要的分析和比较。
隐马尔可夫模型(Hidden Markov Model,HMM)是一种常见的词性标注模型。
在HMM中,将词性序列视为一个隐含的马尔可夫链,而单词序列则视为由隐含的马尔可夫链生成的观测序列。
HMM模型假设每个单词的词性只依赖于该单词本身以及其前一个单词的词性,而与整个句子的上下文无关。
虽然HMM模型的简单性使其易于实现和训练,但它忽略了上下文的信息,因此在处理歧义和多义问题时表现不佳。
另一种常见的词性标注模型是条件随机场(Conditional Random Field,CRF)。
与HMM不同,CRF考虑了整个句子的上下文信息,即在进行词性标注时,同时考虑了句子中所有单词的词性标注结果。
通过考虑全局上下文信息,CRF模型能够更好地解决歧义和多义问题,因此在词性标注任务中表现较好。
然而,CRF模型的复杂性导致了较高的计算开销和较长的训练时间,使其在大规模语料上的应用受到一定的限制。
除了HMM和CRF之外,神经网络模型在近年来也被广泛应用于词性标注任务。
基于神经网络的词性标注模型通常包括一个嵌入层(Embedding Layer)、多个隐藏层(Hidden Layers)和一个输出层(Output Layer)。
其中,嵌入层用于将单词映射到连续的低维空间,隐藏层用于提取句子中的特征表示,而输出层则用于预测每个单词的词性标注结果。
相比于传统的统计模型,基于神经网络的词性标注模型能够利用大规模语料中的丰富信息,从而取得更好的性能。
nlp部分基本术语简释

nlp部分基本术语简释自然语言处理(Natural Language Processing,NLP)是计算机科学领域的一个重要研究方向,旨在让计算机具备理解人类语言的能力。
在NLP领域中,有一些基本术语需要了解,下面我将对其中的一些术语进行简单的解释。
1. 语言模型(Language Model):语言模型是根据一段文本的统计特征,预测下一个单词或句子的概率分布模型。
它可以用来生成新的语言序列或者评估一个句子的合理程度。
2. 分词(Tokenization):分词是将一段连续的文本切割成单个的词或者字符的过程。
它是NLP的基础步骤,常用于对句子进行处理和处理中文文本。
3. 词性标注(Part-of-Speech Tagging):词性标注是指为一段文本中的每个词标注其所属的词性,如名词、动词、形容词等。
它可以帮助计算机理解文本的语法结构和语义信息。
4. 命名实体识别(Named Entity Recognition,NER):命名实体识别是指识别一段文本中特定类型的实体,如人名、地名、组织机构等。
它可以帮助计算机理解文本中的重要信息和实体关系。
5. 文本分类(Text Classification):文本分类是指将一段文本划分到预定义的类别中。
它可以用于情感分析、垃圾邮件过滤、新闻分类等任务。
6. 机器翻译(Machine Translation):机器翻译是将一种语言的文本自动翻译为另一种语言的技术。
它可以帮助人们解决跨语言交流的问题。
7. 问答系统(Question Answering System):问答系统是指能够根据用户提出的问题,在知识库或大规模文本中找到相应答案的系统。
它常用于智能助手、搜索引擎等应用中。
8. 情感分析(Sentiment Analysis):情感分析是指识别一段文本中包含的情感倾向,如积极、消极、中立等。
它可以帮助企业了解用户对产品或服务的评价和态度。
以上介绍了一些NLP领域的基本术语,它们涵盖了NLP技术在不同应用中的核心概念。
如何使用机器学习技术进行词性标注

如何使用机器学习技术进行词性标注词性标注(Part-of-Speech Tagging,简称POS Tagging)是自然语言处理中的一个重要任务,它的目标是为给定的句子中的每个单词确定词性标签。
在过去的几十年里,机器学习技术已经成为该任务的核心方法之一。
本文将介绍如何使用机器学习技术进行词性标注。
首先,让我们了解一下什么是词性。
词性是语法中用来描述词语在句子中所起的作用的类别。
常见的词性包括名词、动词、形容词、副词、介词等。
词性标注的任务就是为给定的句子中的每个单词赋予对应的词性标签。
机器学习技术可以应用于词性标注任务的两个主要方面:特征提取和模型训练。
在特征提取阶段,我们需要将每个单词转化为机器学习算法可以理解的特征向量。
常用的特征包括单词本身、前一个单词、后一个单词、前一个词性标签、后一个词性标签等。
这些特征可以使用one-hot编码表示,也可以使用词嵌入表示(如Word2Vec和GloVe)。
通过提取这些特征,我们可以将句子中的每个单词表示为一个特征向量。
在模型训练阶段,我们使用机器学习算法来学习一个将输入的特征向量映射到对应词性标签的模型。
常用的机器学习算法包括朴素贝叶斯、决策树、最大熵模型和隐马尔可夫模型(Hidden Markov Model,简称HMM)等。
这些算法可以根据输入的特征向量预测单词的词性标签。
在训练过程中,我们使用有标注的语料库来训练模型,并通过交叉验证等技术来评估模型的性能。
除了传统的机器学习方法,近年来深度学习方法也在词性标注任务中取得了显著的进展。
深度学习模型可以通过多层神经网络来建模复杂的特征之间的关系。
其中,循环神经网络(Recurrent Neural Network,简称RNN)和长短期记忆网络(Long Short-Term Memory,简称LSTM)是常用的深度学习模型。
这些模型可以处理变长的输入序列,并且在输入序列中的上下文信息上具有较强的建模能力。
自然语言处理中常见的词性标注模型(Ⅱ)

自然语言处理中常见的词性标注模型一、概述自然语言处理(Natural Language Processing, NLP)是计算机科学与人工智能领域的交叉学科,旨在让计算机能够理解、处理和生成自然语言。
而词性标注(Part-of-Speech Tagging, POS tagging)则是NLP领域中的一项重要任务,其目标是为给定的词汇赋予相应的词性,例如名词、动词、形容词等。
在本文中,我们将介绍自然语言处理中常见的词性标注模型。
二、基于规则的词性标注模型基于规则的词性标注模型是最早的一种词性标注方法,其核心思想是根据语言学规则和语法知识来为文本中的词汇赋予词性。
这种方法的优点在于规则清晰、可解释性强,但缺点也很明显,即需要大量的人工编写规则,并且很难覆盖所有的语言现象。
因此,基于规则的词性标注模型在实际应用中并不常见。
三、基于统计的词性标注模型随着数据驱动方法的兴起,基于统计的词性标注模型逐渐成为主流。
其中,最为经典的模型之一是隐马尔可夫模型(Hidden Markov Model, HMM)。
HMM是一种概率图模型,其基本思想是将词性标注问题转化为一个序列标注问题,通过计算给定词序列下各个词性序列的条件概率,来确定最可能的词性序列。
HMM在词性标注领域取得了很大的成功,但也存在着对上下文信息利用不足的问题。
另一种基于统计的词性标注模型是条件随机场(Conditional Random Field, CRF)。
与HMM相比,CRF能够更好地利用上下文信息,因此在词性标注的准确性上有所提升。
CRF的特点是能够建模输入序列和输出序列之间的依赖关系,因此在词性标注任务中表现出色。
四、基于神经网络的词性标注模型近年来,随着深度学习的发展,基于神经网络的词性标注模型也逐渐崭露头角。
其中,双向长短时记忆网络(Bidirectional Long Short-Term Memory, BiLSTM)和转移型词性标注模型(Transition-Based POS Tagging Model)是两种比较典型的模型。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器学习翻译姓名:陈伟学号:20124227003班级:01机器学习的词性标注摘要我们应用统计决策树学习和自然语言处理解决形态语句的消歧问题。
这个学习的过程是为了获得一个语言模型,来解决词性标注模糊的问题,在一些相关的文章中,词性标注组成了统计决策树的标签和一些单词。
得到的决策树已经直接应用在标签中,这个标签相对简单而且效率较高,在华尔街语料库的精确测量中它得到了检测,价值得到了肯定。
但是如果把决策树翻译成支持灵活标签的规则会得到更好的结果。
在这个领域,我们描述一个标签是指它能够应用任何信息,特别是机器学习决策树。
同时,在解决标签问题时,我们只有有限的培训材料,任何从无到有的建设过程中,标注语料库是至关重要的。
我们发现,在这个学习体系中我们的系统可以获得更高的精度,并且可以在开发550万字的西班牙语料库中获得一些结果。
关键词:词性标注基于语料库的统计语言模型决策树归纳满意度约束松弛标签1.简介词性标注是一个非常基本的、众所周知的自由自然语言处理问题,这个问题是如何为文章中每个单词在文章的语境中分配正确的形态句法。
它对许多自然语言处理问题都非常有用,例如:作为句法分析的前处理工具,信息检索和提取,从文本到语音系统,语料库语言学等。
习性标注的基础是很多单词相对于它们的标签是模糊的,而且在大多数情况下,这些单词可以通过考虑上下文消除歧义。
例如表一中出现的句子,单词shot 通过前文将它理解成过去分词,这样就可以消除歧义了。
虽然在这种情况下,单词的歧义可以简单的通过前面的标记来消除,但是前面的单词不明确的情况必须考虑,或者说上下文相对于前字的复杂程度是必须考虑的。
此外,在一些例子中,仅仅通过上下文是不能够解决模糊性的,这就需要语义或是语法知识。
表1如下:1.1 现有的词性标注方法使用标注的先驱是TAGGIT,布朗大学最早使用原始的标注,为了提高准确性和效率,人们做了许多的努力。
现有的标注使用者可以根据他们所使用的知识分为三个主要群体:语言、统计和机器学习。
当然,有些标注者很难进行分类,使用混合方法的人我们也要考虑。
在使用语言的方法中,编译系统所使用的规则是由语言学家来写的。
这些语言模型的范围从几百到几千,他们需要付出数年的劳动。
在这个领域,TOSCA 的工作和最近赫尔辛基大学对于约束语法的发展是最重要的。
现在大多数扩展的方法是统计的人做的(显然是因为有限的人的工作量)。
基本上,它包括建立一个语言的统计模型并利用该模型消除单词的歧义。
这个语言模型对不用的语言现象进行同频率的编码。
这种统计结果的获得通常是基于n-gram收集方法,即,一个可能长度为n 的句子通常是看它在训练预料中出现的频率。
在词性标注中,通常的模型是由bi-grams和tri-grams组成的。
一旦n-grams 方法已经估计过了,新的例子可能被标注,通过选择最大概率的序列。
这个技术是根据隐马尔科夫模型。
虽然模型的形成以及决定模型序列可以通过几种方法,但是大多数系统将模型降解成uni-grams,bi-grams或者tri-grams。
这个领域的开创性工作是CLAWS系统,它使用bi-grams信息并且是TAGGIT版本。
这个系统在1988年被DeRose用动态编程进行了改进。
Church的标注者使用了tri-grams 模型。
其他的标注者试图减少估计模型所需要的训练数据,用Bsum-Welch重新估计算法,从一个小的手工语料库中反复提炼一个原始的模型。
这是Xerox标注者和他的继任者所做的工作。
对这个主题感兴趣的人可以通过Merialdo找到一个很好的概括。
其他的标注工作者可以定义在Schmid统计大家庭中,他们用神经网络实现了能源功能的优化。
Chanod、Tapanainers和V outilainen代表了目前语言学和统计学之间的比较。
其他的工作方法和通过统计的方法比较接近。
语音识别领域是非常有成效的,n-grams建模中使用语音识别比使用词性标注更早。
最近,在这个领域中的工作不再限制建模模型,而是通过不同顺序的n-grams、形态学信息、长距离的n-grams或是触发对建立混合模型。
在短期内我们可能会看到有一些方法和词性标注任务不一致。
尽管统计方法从训练语料中涉及某种学习,或是不确定性,但是我们只是在机器学习中替换掉那些比n-gram模型需要更多信息的模型。
Brill标注者学习一系列能最好的修改错误的转换规则,Samuelsson,Tapanainen和V outilainen从cor-pora中获得了限制语法规则。
我们这里展示的工作都是应用标记语料库的来的决策树,这些语料和其他的统计数据以及语言信息,在混合环境中通过轻松的技巧并越过约束规则被利用起来。
绝大多数的统计标记方式的报告精度超过了96-97%,而应用语言限制语法的精度超过了99%,允许剩余的每个单词有1.026个含糊不清的标记。
这些精度值通常在还没有被训练阶段使用的测试语料上进行计算。
一些语料库经常被用作测试样本,它包括布朗大学,华尔街日报,柏林墙和英国国家语料库。
1.2 动力和目标考虑到上面的精确度可能可想到词性标注是一个能被多数自然语言处理系统很好的兼容的已经解决的问题。
因此,为什么还要浪费时间设计另外一个标记方式呢?精度0.3%的提升又意味着什么呢?考虑的原因有几个,在自动标注方面还有许多工作要做。
当在处理巨大的运行文本,并考虑每句话的长度在25-30单词时,如果我们允许错误率在3-4%,那么每句话都会有错误。
自从词性标注在大多数自然语言处理系统中成为了一个基本任务,每个句子中出现错误将会是一个严重的缺陷,特别是在考虑到这些错误可能线性增长时。
其他的自然语言处理任务对词性标注消岐错误非常敏感,这一点可以在词性的域名消歧和信息检索中得到印证。
另外的一个问题是涉及到适应和调整时,已经从一个文本到另一个文本获得了参数标注,其中包含的文本可能来自其他的域,以尽量减少运输文本。
标注的精确度通常通过对测试语料库相同特性的测试来衡量。
虽然,一直没有认真的努力对来自其他域中来的语料库或是不同的特征的可能性进行标注。
最后,当对不是英语的其他语言进行应用词性标注时的明确问题必须进行解决。
除了来自一些特殊语言丰富的形态问题时,有一个更普遍的问题,这个问题的产生是因为训练缺乏大型的手动注释语料库。
虽然一个引导的方法能够通过使用低精度的为产生注释文本的标注得到实现,其中,低精度的标记可以用来反复训练标记并学习一个更高精度的模型,这种方法的有用性在很大程度上依赖于再训练材料的质量。
因此,如果我们想保证低噪声的再培训语料库,我们必须提供一个无论是对于已知或是未知的单词并且应用一个小的高质量的语料库都能得到更高精度的方法。
在这个方向上,我们参与了一个为西班牙和加泰罗尼亚语料库进行标注并且限制了语言来源的的项目。
为了具有可比性,我们对一个参照的英语语料库进行了实验。
我们也汇报了通过应用目前的技术对西班牙语料库进行注释所取得的成果,证明了投入相当低的劳动成本也可以达到很好的精度。
本文的结构如下:在第二部分描述应用领域,语言模型的学习算法和模型评估。
第三和第四部分我们通过两个标记描述语言模型的应用。
包括:一个基于标记的决策树,一个基于标记的简单标签。
在使用一个小的训练语料库并联合使用两个标记来注释在第五部分提到的西班牙语料库的特殊情况下比较它们的结果。
最后,将会在第七部分写得出的主要结论,以及对以后工作的展望。
2 语言模型的获得为了让一个计算机系统来处理自然语言,那这种语言用某种方式建模就是必须的,用这样一种方式,它们可以被用来预测或识别语言在将来的应用。
罗森菲尔德在1994定义了语言模型的第一个特点就是捕捉自然语言的规律,他还从目前大量的可变和不确定的自然语言的处理中指出了建立模型的需要。
正如第一方部分中描述的那样,语言模型可以手写,也可以通过统计或是秋机器学习得到。
在本文中,我们展示了机器学习模型和统计学习模型的应用。
同时也包括对手写模型的测试。
2.1 训练语料和词形词汇的说明我们已经使用了117万字的华尔街日报的一部分,根据Penn标记规则进行标记,来训练和测试系统。
它的功能有以下几个方面。
这个标记的设定包括45个不同的标记。
语料库中36.5%的单词是模糊的,歧义比是模糊单词中每个单词有2.44个标记,整个单词的歧义比是1.52。
文献包含243种不同的歧义类,但是它们不是都很重要。
事实上,最常用的40种歧义类在文献中占据的比例是83.95%,而194种最常用的歧义类则几乎涵盖了它们的全部。
训练文集被用来一个词汇,对于每49206个输入将它和每个单词的出现的频率联系起来。
通过统计每个应用不同标记的单词在文集中出现的次数来估计概率。
这条简单的信息为每个简单的消歧算法提供了一个启发,根据词汇的可能性来选择它最可能的标记以此组成消岐算法。
请注意,这样的一个标记不使用任何和上下文相关的信息,仅仅只是考虑单个词汇出现的频率。
图1显示了这种方法在华尔街日报中对不同的训练语料的性能。
报告中涉及到模糊单词的数量可以被任何一个标记当做下界。
更加特殊的是,对于一个超过40万单词的训练语料来说获得的准确性是81-83%。
但是,想简单的通过增加更多的语料来更有效的估计词汇是不合理的。
由于文集注释的错误,词汇的结果会有一定量的噪声。
为了减少这种噪声,通过对文集中最常用的200个单词的检查来进行过滤,其中,这200个在文集中最常用的单词代表了文集的一大半。
基本单词的原始词汇条目是:它在文集中以六个不同的词性标记出现,包括:CD,DT,JJ,NN和VBP。
很显然只有唯一一个是正确的。
2.2 学习算法从一系列标记中为一个单词在特殊的上下文中选择合适的标记这种方法可以被当做一个问题的分类。
在这种情况下,用标记进行分类。
决策树在最近的几个自然语言处理任务中得到应用,例如词性标注,语法分析,精度消歧以及信息提取都很适合应用决策树。
2.2.1 歧义类和统计决策树根据对可能可能标记的设置对文章中出现的所有单词进行标记是有可能的。
我们把这些设置叫做歧义分类。
很显然在这写分类中有一个包含关系,以此整个歧义类的设置应该被看成是用DAG结构的分类。
第二部分展示了这种结构以及包含关系的一部分,摘自华尔街日报。
用这种方法我们可以针对每一个歧义类将词性标注问题分割成一个分类问题。
相比于通常的机器学习中的分类我们确定了一些显著的特点。
首先,必须有大量的训练例子:一棵树要有超过60000个例子。
第二:在训练和测试数据中要有显著的噪音,华尔街日报语料库大约包含2-3%的错误单词。
上述特征的主要结果是:简单的根据上下文不能解释所有的模糊的内容,也就是说不能用决策树来对训练例子进行完整的分类。
相反,我们渴望根据通过单词在上下文中出现的特殊上下文内容的可能的标记来获得它们调整的概率。