分词技术研究报告-最新范文

合集下载

基于深度学习的中文分词技术优化研究

基于深度学习的中文分词技术优化研究

基于深度学习的中文分词技术优化研究近年来,随着深度学习技术的不断发展,各种自然语言处理技术得到了显著提升,其中中文分词技术是其中一项重要的研究领域。

中文分词是将连续的中文文本按照一定的规则分割成一个个有意义的词汇,是中文自然语言处理的基础任务。

本文旨在探究基于深度学习的中文分词技术优化研究,以便更好地应用于实际自然语言处理场景。

一、深度学习在中文分词中的应用深度学习是一种通过多层次的非线性变换形成的复合函数逼近真实函数的机器学习方法。

在中文分词中,深度学习技术已经得到了广泛应用,主要包括以下几个方面:1. 基于神经网络的中文分词神经网络是一种通过模拟人脑神经元之间的连接方式来实现信息处理的算法。

在中文分词中,神经网络模型通过学习大量的中文文本,自动学习到中文词汇的特征,能够有效地解决中文分词中的歧义问题。

2. 基于卷积神经网络的中文分词卷积神经网络是一种特殊的神经网络结构,可以有效地提取局部特征。

在中文分词中,卷积神经网络模型可以通过卷积操作提取出字、词的特征,从而实现中文分词的任务。

3. 基于循环神经网络的中文分词循环神经网络是一种具有记忆功能的神经网络结构,在处理序列数据时表现出较好的性能。

在中文分词中,循环神经网络模型可以学习到字、词在上下文中的关系,从而实现中文分词的任务。

二、深度学习中的中文分词技术优化虽然深度学习技术在中文分词中的应用已经取得了显著的成果,但是在实际应用中,仍然存在一些问题。

为了更好地应用深度学习技术来解决中文分词问题,需要对深度学习中的中文分词技术进行优化。

1. 模型结构优化模型结构优化是提高深度学习中文分词性能的重要手段之一。

需要综合考虑词表征的效果、特征提取的能力和模型计算复杂度等方面,设计合理的网络结构,以获得更好的性能。

2. 数据增强与预处理数据增强和预处理是通过修改和增加数据等方式来提高模型性能的方法。

例如,通过对词向量的训练进行数据增强,可以扩大词向量空间;通过对停用词、标点符号等无用信息进行过滤,可以提高模型的分类效果。

基于卷积神经网络的中文分词技术研究

基于卷积神经网络的中文分词技术研究

基于卷积神经网络的中文分词技术研究一、引言自然语言处理是人工智能领域的一个重要分支,在实际应用中占有重要地位。

中文分词是自然语言处理的基础技术之一,它将中文文本分割成词语序列,是其他自然语言处理任务的基础。

在过去的几十年里,中文分词经历了从规则驱动的方法到基于统计和机器学习的方法的转变,卷积神经网络(CNN)作为一个强大的机器学习工具,近年来也得到了广泛应用。

本文将重点讨论基于卷积神经网络的中文分词技术的研究现状和进展。

二、卷积神经网络介绍卷积神经网络是深度学习领域的一个重要分支,以其出色的特征提取能力和泛化性能,在图像识别、语音识别等领域获得了广泛的应用。

卷积神经网络的基本结构包括卷积层、池化层、全连接层等。

其中,卷积层是提取特征的核心组件,采用了卷积操作,通过使用多个卷积核对输入特征图进行滑动计算,得到一系列高层次的特征表示。

池化层则用于缩小特征图的尺寸,同时保留有用的特征信息,全连接层负责将各层的特征进行组合,实现分类任务。

三、基于卷积神经网络的中文分词技术基于卷积神经网络的中文分词技术在近几年获得了广泛的关注和应用,具有高效、准确、可扩展等优点。

下面介绍几种常见的基于卷积神经网络的中文分词技术。

1. CWS-CNN模型CWS-CNN模型是一种基于卷积神经网络的中文分词模型,该模型通过卷积操作学习特征表示,并通过最大池化操作提取重要的特征。

为了解决中文分词的歧义问题,该模型引入了CRF方法进行标注。

实验结果表明,CWS-CNN模型在中文分词任务上具有优秀的性能。

2. CNN-LSTM-CRF模型CNN-LSTM-CRF模型将卷积神经网络、长短时记忆网络和条件随机场方法紧密结合,实现了端到端的中文分词任务。

该模型的卷积层和LSTM层负责提取文本中的上下文信息,CRF层用于对每个单词进行标注。

实验结果显示,该模型在各项标准指标上均表现出色。

3. ELMo-CNN模型ELMo-CNN模型将卷积神经网络和预训练语言模型ELMo结合,实现了更好的语境表示。

基于深度学习的中文分词技术研究及应用

基于深度学习的中文分词技术研究及应用

基于深度学习的中文分词技术研究及应用一、引言中文分词作为自然语言处理的基础技术,在信息检索、机器翻译、自然语言生成、文本分类、关键词提取等应用领域有着广泛的应用,因此受到了广泛的关注。

以往的中文分词技术主要依靠规则、特征和字典等手工设计方式,因此存在着词典不全、规则复杂难以维护等问题。

随着深度学习技术的发展,基于深度学习的中文分词技术得到了快速发展,并取得了非常好的效果。

因此,本文将对基于深度学习的中文分词技术进行探讨,并介绍其在实际应用中的效果。

二、基于深度学习的中文分词技术研究在深度学习技术的引领下,中文分词技术也进行了很大的改进。

目前,在中文分词领域,基于深度学习的方法已经超越了传统算法。

主要包括CNN、RNN、LSTM、BiLSTM、CRF等模型。

2.1卷积神经网络(CNN)卷积神经网络是深度学习最重要的模型之一,它的前向传播是由一层卷积层、一层池化层和一层全连接层组成。

该模型可以基于窗口大小和滑动步长对特征进行抽取和提取。

在中文分词任务中,可以采用卷积神经网络学习汉字的表示向量,然后将向量输入到softmax层进行分类。

2.2循环神经网络(RNN)循环神经网络是另一种非常重要的深度学习模型,在自然语言处理中应用非常广泛。

在中文分词任务中,常用的是基于RNN的LSTM和GRU模型。

这两种模型可以在序列数据中提取上下文信息,并且能够自适应地调整模型的长度。

通过两种模型的组合,可以提高分词的准确率。

2.3双向循环神经网络(BiLSTM)BiLSTM是双向循环神经网络模型,它可以在序列数据中同时从前向后和从后向前进行信息提取。

然后将两个方向的隐藏向量拼接在一起以获得更好的特征表示。

在中文分词任务中,BiLSTM 模型可以在完整句子和部分句子中同时提取上下文信息,从而提高分词的准确率。

2.4条件随机场(CRF)条件随机场是一种概率无向图模型,它可以对序列数据进行标注,并且能够利用上下文信息相互影响。

中文分词技术研究

中文分词技术研究

中文分词技术研究摘要:分词技术做为WEB文本摘要的一个重要的技术环节,在WEB文本摘要技术中占有很重要的地位,本文从分词方法及分词算法两个角度对中文分词技术进行研究与分析。

关键词:中文分词未登录词特征词词是最小的能够独立活动的有意义的语言成分,是计算机处理信息的基本单位。

词界(Word Houndury)是词语之间的间隔,词界之间的标志是两个词间的分隔符。

汉语分词的过程也就是找出词界的过程。

1.分词方法1.1基于词典的分词方法M最大,最小匹配标志,1为最大匹配,-1为最小匹配分词的过程,即可以表示为在DAG中,从P0到Pn+1的路径中利用评价函数选取最佳路径的过程。

1.2基于统计的分词方法1.2.1统计分词模型N元语言模型。

1.2.2 N元模型N元语言模型是一种常用的统计语言模型,利用其展开P(W)为:2.未登录词及分词算法2.1未登录词问题未登录词问题源于分词中词典的大小,词典中容量有限。

则必定存在词典中没有出现的词,你为未登录词,未登录词,包括词典中未登录的人名、地名、机构名、新词语等。

在实际的书面文本中,特别是在新闻类文本中,大量包含人名、地名、机构名等,未登录词的处理成为文本自动切分的一个十分突出的问题。

2.2中文自动分词的基本算法2.2.1正向最大匹配法(MM,Maximum Match Method)该方法的基本思想是,从待切分语句中,沿正向(从左到右的阅读方向)截取一定长度(称为最大词长)的字符串。

然后将这个字符串与词典中的词进行匹配,若匹配成功,则确定这个字符串为一个词。

然后,将指向被匹配语句的指针正向移动该字符串长的距离,继续进行下一次匹配。

若匹配不成功,则将字符串长度逐次减一,再进行匹配,直到成功为止。

这种方法的优点是时间复杂度低、易于实现。

2.2.2特征词库法特征词库法实际上是一种“分而治之”的分词方法,其基本思想是:事先建立一个特征词库,其中包含各种具有切分特征的词;对给定的待分词的汉字串S,首先根据特征词库将S分割成苦干个较短的子串;然后对每个子串分别采用机械匹配法进行切分。

自然语言处理的中文分词技术研究

自然语言处理的中文分词技术研究

自然语言处理的中文分词技术研究自然语言处理(Natural Language Processing, NLP)是一门涉及语言学、计算机科学、数学等多个学科的交叉学科。

其目标是让计算机能够理解人类语言,并能够根据这种理解来进行任务执行,如翻译、问答、语音识别等等。

在NLP中的中文分词问题是其中一个重要的研究课题。

本文将从中文分词技术的基本概念、中文分词技术现状以及近年来的中文分词技术发展趋势等方面来进行探讨。

一、中文分词技术的基本概念中文分词(Chinese Word Segmentation,CWS)是指对一段汉语文本进行切分、划分,使其成为一个句子中所有词语的集合。

分词是NLP中的一个基础步骤,它是文本处理中的重要环节。

中文分词在中文文本预处理、机器翻译、信息检索、文本分类、文本挖掘等领域中有着广泛的应用。

对于分词过程,主要分为基于规则的分词和基于统计的分词两种方式。

其中基于规则的分词主要是根据一定的分词规则,例如机器世界面试官岗位需求中的“有扎实的数据结构与算法基础,熟悉常见分词算法",则可以分为:“有”、“扎实”、“的”、“数据结构”、“与”、“算法”、“基础”、“熟悉”、“常见”、“分词”、“算法”十个词语。

规则分词方法比较直观,但只适用于分词规则简单的文本。

在一些复杂的文本处理任务中,无法覆盖所有的规则,因此效果难以达到理想状态。

基于统计的分词则是在大规模语料库数据上进行统计,以概率模型为基础进行分词。

例如:在机器世界面试官的需求中,频繁出现的“分词”与“算法”则很容易被统计出来成为两个独立的词语。

统计分词能够比较好地解决复杂语言规律,如歧义问题,但它需要较大的语料库支撑。

并且需要依赖于分词语料库来进行训练,因此其分词效果及质量的好坏也与语料库的质量密切相关。

二、中文分词技术现状如今,中文分词技术已经有了相对成熟的技术路线。

常见的算法有:最大匹配法、正向最大匹配算法、逆向最大匹配算法、双向最大匹配算法、隐马尔可夫模型、条件随机场、深度学习等多种分词技术。

中文分词研究报告

中文分词研究报告

中文分词处理第一阶段报告通信10班201221*** ***目录第一部背景——有关中文分词第二部知识储备1.文件2.中文文件的存储格式3.字符编码4.GBK编码基本原理第三部实践操作1.截图2.学到的知识3.疑难问题的处理4.学习心得第一部分:背景——有关中文分词记得刚抢上案例教学名额的时候,有人问我选的是什么课题,我说中文分“字”。

可见当时对这个课题是有多么的不了解。

后来查了一些材料,问了老师学姐,一个学长推荐我读一下吴军老师的《数学之美》。

慢慢的,我开始了解。

自计算机诞生以来,计算机无与伦比的运算速度与稳定性使得计算机在很多事情上做得比人好。

但是计算机用数字记录信息,人用文字记录信息,这就好比两个来自不同地区的人说着互相不懂得话,那么计算机到底有没有办法处理自然语言呢?起初,我们希望计算机能从语法语义上理解人类的自然语言,这种希望催生了基于规则的自然语言处理方法,然而,20年的时间证明,这种办法是行不通的,语言博大的语法语义语境体系无法移植到计算机。

20年弯路之后,我们找到了一条合适的路径——基于统计的自然语言处理方法,这种方法的大体思想是:拥有一个庞大的语料库,对句子的分析变为概率分析,而概率分析是将每一个词出现的条件概率相乘,也就是说,统计语言模型是建立在词的基础上的,因为词是表达语义的最小单位。

分词处理对自然语言处理起着至关重要的作用!对于西方拼音语言来讲,词之间有明确的分界符,统计和使用语言模型非常直接。

而对于中、日、韩、泰等语言,词之间没有明确的分界符。

因此,首先需要对句子进行分词。

(补充一点的是,中文分词的方法其实不局限于中文应用,也被应用到英文处理,如手写识别,单词之间的空格就很清楚,中文分词方法可以帮助判别英文单词的边界。

)目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。

中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。

基于分词技术的文本分类技术研究

基于分词技术的文本分类技术研究

基于分词技术的文本分类技术研究随着互联网的发展,信息量不断膨胀,各种文本信息如雨后春笋般不断涌现。

这使得我们越来越难以通过手动方式对这些信息进行分类和管理。

而文本分类技术的出现,为我们解决了这个问题。

本文将基于分词技术,对现阶段文本分类技术的研究进行探讨。

一、文本分类的概念文本分类是指将文本按照预定义的类别进行自动分类的过程,是文本挖掘技术的一种。

它采用机器学习和自然语言处理等技术,对文本进行分析和分类,以便于达到对文本信息自动化管理、分析和利用的目的。

二、文本分类技术的发展随着人工智能和自然语言处理技术的不断进步,文本分类技术也在不断地发展完善。

现在比较常用的文本分类算法包括Naive Bayes、支持向量机SVM、最近邻等方法。

其中,以Naive Bayes算法在文本分类中应用最为广泛。

Naive Bayes算法是一种基于贝叶斯公式的分类算法,它假设各个特征之间是相互独立的。

这种算法的训练速度较快,在大规模数据分类上表现出色。

而支持向量机也是一种经典的分类算法,它通过找到一个超平面,将不同的样本点分割开来。

最近邻算法则通过计算待分类样本最邻近的k个样本的分类情况,以最多的分类结果为当前待分类样本的分类结果。

三、分词技术在文本分类中的应用在文本分类中,分词是一项非常重要的工作,它是将一段文本分割成若干个词语的工作,也是文本信息处理的第一步。

在分词之前,文本通常需要进行预处理,包括将文本中的标点符号、停用词和数字等去掉,提取有意义的词汇。

分词技术可以采用机器学习算法进行训练,也可以借助已有的开源分词工具进行处理。

在中文文本分类中,一般采用中文分词工具对内容进行分词。

像jieba等常见的分词工具,它们采用了基于词典和规则的语言分析方法。

对于一些没有在词典中出现的新词,jieba会采用HMM模型进行分词,以保证召回率和准确率。

四、文本分类技术在实际应用中的挑战在实际应用中,文本分类技术也面临着一些挑战,如:1. 大量高维度数据的处理问题:现在互联网上的信息量非常大,分词和预处理都需要处理大量的数据,如何快速准确地对数据进行处理,是一个关键的问题。

基于语义分析的中文分词技术研究

基于语义分析的中文分词技术研究

基于语义分析的中文分词技术研究
中文分词是将连续的汉字序列切分成一个个有意义的词语的过程。


于语义分析的中文分词技术是一种通过利用语义信息进行分词的方法。

传统的中文分词方法是基于语法规则和统计模型的,通常依赖于词典
和规则,但这些方法在处理歧义性和新词识别等问题上存在一定的局限性。

因此,基于语义分析的中文分词技术出现,旨在通过使用更多的语义信息
来提高分词的准确性和效果。

1. 词向量模型:利用词向量模型,如Word2Vec和GloVe等,将每个
词语表示为向量,基于词语之间的语义相似度进行分词。

通过计算词向量
之间的余弦相似度,可以识别出合适的分词点。

2.基于上下文的分析:利用上下文信息来辅助分词。

例如,可以通过
观察词语前后的词性、语法关系以及常见的搭配等来进行分词。

3.基于语义角色标注:利用语义角色标注的结果来指导分词。

语义角
色标注模型可以识别出句子中的主谓宾关系,根据这些关系可以将句子切
分成有意义的词组。

4.基于深度学习的方法:利用深度学习模型,如循环神经网络(RNN)和长短期记忆(LSTM)等,学习中文分词的模式和规律。

通过训练模型识
别词语边界,可以提高中文分词的准确性。

需要注意的是,基于语义分析的中文分词技术虽然可以提高分词的准
确性和效果,但也存在一定的挑战和难点。

例如,如何处理多义词、新词
以及长词等问题,仍然是待解决的课题。

因此,目前仍然需要进一步的研
究和改进。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

分词技术研究报告
研究内容
目前,国内的每个行业、领域都在飞速发展,这中间产生了大量的中文信息资源,为了能够及时准确的获取最新的信息,中文搜索引擎是必然的产物。

中文搜索引擎与西文搜索引擎在实现的机制和原理上大致雷同,但由于汉语本身的特点,必须引入对于中文语言的处理技术,而汉语自动分词技术就是其中很关键的部分。

汉语自动分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,最重要的是把最相关的结果排在最前面,这也称为相关度排序。

中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。

分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。

因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。

研究汉语自动分词算法,对中文搜索引擎的发展具有至关重要的意义。

快速准确的汉语自动分词是高效中文搜索引擎的必要前提。

本课题研究中文搜索引擎中汉语自动分词系统的设计与实现,从目前中文搜索引擎的发展现状出发,引出中文搜索引擎的关键技术------汉语自动分词系统的设计。

首先研究和比较了几种典型的汉语自动分词词典机制,指出各词典机制的优缺点,然后分析和比较了几种主要的
汉语自动分词方法,阐述了各种分词方法的技术特点。

针对课题的具体应用领域,提出改进词典的数据结构,根据汉语中二字词较多的特点,通过快速判断二字词来优化速度;分析中文搜索引擎下歧义处理和未登陆词处理的技术,提出了适合本课题的自动分词算法,并给出该系统的具体实现。

最后对系统从分词速度和分词准确性方面进行了性能评价。

本课题的研究将促进中文搜索引擎和汉语自动分词新的发展。

二、汉语自动分词系统的研究现状
1、几个早期的自动分词系统
自80年代初中文信息处理领域提出了自动分词以来,一些实用性的分词系统逐步得以开发,其中几个比较有代表性的自动分词系统在当时产生了较大的影响。

CDWS分词系统是我国第一个实用的自动分词系统,由北京航空航天大学计算机系于1983年设计实现,它采用的自动分词方法为最大匹配法,辅助以词尾字构词纠错技术。

其分词速度为5-10字/秒,切分精度约为1/625。

ABWS是山西大学计算机系研制的自动分词系统,系统使用“两次扫描联想-回溯”方法,运用了较多的词法、句法等知识。

其切分正确率为98.6%(不包括非常用、未登录的专用名词),运行速度为48词/分钟。

CASS是北京航空航天大学于1988年实现的分词系统。

它使用正向增字最大匹配,运用知识库来处理歧义字段。

其机械分词速度为
200字/秒以上,知识库分词速度150字/秒(没有完全实现)。

书面汉语自动分词专家系统是由北京师范大学现代教育研究所于1991前后研制实现的,它首次将专家系统方法完整地引入到分词技术中。

2、清华大学SEG分词系统
此系统提供了带回溯的正向、反向、双向最大匹配法和全切分-评价切分算法,由用户来选择合适的切分算法。

其特点则是带修剪的全切分-评价算法。

经过封闭试验,在多遍切分之后,全切分-评价算法的精度可以达到99%左右。

3、清华大学SEGTAG系统
此系统着眼于将各种各类的信息进行综合,以便最大限度地利用这些信息提高切分精度。

系统使用有向图来集成各种各样的信息。

通过实验,该系统的切分精度基本上可达到99%左右,能够处理未登录词比较密集的文本,切分速度约为30字/秒。

4、国家语委文字所应用句法分析技术的汉语自动分词
此分词模型考虑了句法分析在自动分词系统中的作用,以更好地解决切分歧义。

切词过程考虑到了所有的切分可能,并运用汉语句法等信息从各种切分可能中选择出合理的切分结果。

5、复旦分词系统
此系统由四个模块构成。

一、预处理模块,利用特殊的标记将输入的文本分割成较短的汉字串,这些标记包括标点符号、数字、字母等非汉字符,还包括文本中常见的一些字体、字号等排版信息。

二、歧
义识别模块,使用正向最小匹配和逆向最大匹配对文本进行双向扫描,如果两种扫描结果相同,则认为切分正确,否则就判别其为歧义字段,需要进行歧义处理;三、歧义字段处理模块,此模块使用构词规则和词频统计信息来进行排歧。

最后,此系统还包括一个未登录词识别模块,实验过程中,对中文姓氏的自动辨别达到了70%的准确率。

系统对文本中的地名和领域专有词汇也进行了一定的识别。

6、哈工大统计分词系统
此系统能够利用上下文识别大部分生词,解决一部分切分歧义。

经测试,此系统的分词错误率为1.5%,速度为236字/秒。

7、杭州大学改进的MM分词系统
系统的词典采用一级首字索引结构,词条中包括了“非连续词”(形如C1…*Cn)。

系统精度的实验结果为95%,低于理论值99.73%,但高于通常的MM、RMM、DMM方法。

8、MicrosoftResearch汉语句法分析器中的自动分词
微软研究院的自然语言研究所在从90年代初开始开发了一个通用型的多国语言处理平台NLPWin,据报道,NLPWin的语法分析部分使用的是一种双向的ChartParsing,使用了语法规则并以概率模型作导向,并且将语法和分析器独立开。

实验结果表明,系统可以正确处理85%的歧义切分字段,在Pentium200PC上的速度约600-900字/秒。

9、北大计算语言所分词系统
本系统由北京大学计算语言学研究所研制开发,属于分词和词类标注相结合的分词系统。

系统的分词连同标注的速度在
Pentium133Hz/16MB内存机器上的达到了每秒3千词以上,而在PentiumII/64MB内存机器上速度高达每秒5千词。

三、主要的自动分词算法
现有的分词算法主要可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

1、基于字符串匹配的分词方法
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。

按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。

常用的几种机械分词方法如下;
1正向最大匹配
2逆向最大匹配
3最少切分(使每一句中切出的词数最小)
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。

由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。

一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。

统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。

但这种精度还远远不能满足实际的需要。

由于分
词是一个智能决策过程,机械分词方法无法解决分词阶段的两大基本问题:歧义切分问题和未登录词识别问题。

实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。

一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。

另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。

对于机械分词方法,可以建立一个一般的模型,形式地表示为ASM(d,a,m),即AutomaticSegmentationModel。

其中,
d:匹配方向,+1表示正向,-1表示逆向;
a:每次匹配失败后增加/减少字串长度(字符数),+1为增字,-1为减字;
m:最大/最小匹配标志,+1为最大匹配,-1为最小匹配。

例如,ASM(+,-,+)就是正向减字最大匹配法(即MM方法),ASM(-,-,+)就是逆向减字最大匹配法(即RMM方法),等等。

对于现代汉语来说,只有m=+1是实用的方法。

用这种模型可以对各种方法的复杂度进行比较,假设在词典的匹配过程都使用顺序查找和相同的计首字索引查找方法,则在不记首字索引查找次数(最小为log<
汉字总数>»12~14)和词典读入内存时间的情况下,对于典型的词频分布,减字匹配ASM(d,-,m)的复杂度约为12.3次,增字匹配ASM(d,+,m)的复杂度约为10.6。

2、基于理解的分词方法
通常的分析系统,都力图在分词阶段消除所有歧义切分现象。

而有些系统则在后续过程中来处理歧义切分问题,其分词过程只是整个语言理解过程的一小部分。

其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。

它通常包括三个部分:分词子系统、句法语义子系统、总控部分。

在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。

这种分词方法需要使用大量的语言知识和信息。

由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

相关文档
最新文档