中文分词技术的研究

合集下载

中文分词与词性标注技术研究与应用

中文分词与词性标注技术研究与应用

中文分词与词性标注技术研究与应用中文分词和词性标注是自然语言处理中常用的技术方法,它们对于理解和处理中文文本具有重要的作用。

本文将对中文分词和词性标注的技术原理、研究进展以及在实际应用中的应用场景进行综述。

一、中文分词技术研究与应用中文分词是将连续的中文文本切割成具有一定语义的词语序列的过程。

中文具有词汇没有明确的边界,因此分词是中文自然语言处理的基础工作。

中文分词技术主要有基于规则的方法、基于词典的方法和基于机器学习的方法。

1.基于规则的方法基于规则的中文分词方法是根据语法规则和语言学知识设计规则,进行分词操作。

例如,按照《现代汉语词典》等标准词典进行分词,但这种方法无法处理新词、歧义和未登录词的问题,因此应用受到一定的限制。

2.基于词典的方法基于词典的中文分词方法是利用已有的大规模词典进行切分,通过查找词典中的词语来确定分词的边界。

这种方法可以处理新词的问题,但对未登录词的处理能力有所限制。

3.基于机器学习的方法基于机器学习的中文分词方法是利用机器学习算法来自动学习分词模型,将分词任务转化为一个分类问题。

常用的机器学习算法有最大熵模型、条件随机场和神经网络等。

这种方法具有较好的泛化能力,能够处理未登录词和歧义问题。

中文分词技术在很多自然语言处理任务中都起到了重要的作用。

例如,在机器翻译中,分词可以提高对齐和翻译的质量;在文本挖掘中,分词可以提取关键词和构建文本特征;在信息检索中,分词可以改善检索效果。

二、词性标注技术研究与应用词性标注是给分好词的文本中的每个词语确定一个词性的过程。

中文的词性标注涉及到名词、动词、形容词、副词等多个词性类别。

词性标注的目标是为后续的自然语言处理任务提供更精确的上下文信息。

1.基于规则的方法基于规则的词性标注方法是根据语法规则和语境信息,确定每个词语的词性。

例如,根据词语周围的上下文信息和词语的词义来判断词性。

这种方法需要大量的人工制定规则,并且对于新词的处理能力较差。

中文分词

中文分词
Class-based Ngram Ngram分词评价
能够处理大多数常用词带来的歧义问题 不能处理新词以及新词带来的歧义问题
解决之道:Class-based Ngram
在统一的框架下进行分词与新词识别 将词分为若干类
词典词:教师(词典处理) 仿词:2000年(规则处理) 新词:范路(基于类的新词识别) 形态词:高高兴兴(规则处理) 不同类型的词用不同处理方法,最后利用Ngram框架寻找全 局最优切分结果
P(C ) ≅ ∏P(ci | ci−2ci−1)
m 1 i=1
m
P (S1n | C1m ) = P (s1, s2 ,⋅ ⋅ ⋅, sn | c1, c2 ,⋅ ⋅ ⋅, cm ) ≅ P ([s1,⋅ ⋅ ⋅, sc1−end],⋅ ⋅ ⋅,[scm−start,⋅ ⋅ ⋅, sn ] | c1, c2 ,⋅ ⋅ ⋅, cm ) ≅ ∏ P ([scj −start,⋅ ⋅ ⋅, scj −end] | c j )
中文分词一席谈
suntian@
内容提要
中文分词概述 分词技术发展 国际分词评测 分词技术总结
中文分词概述
什么是分词? 什么是分词?
分词就是利用计算机识别出文本中词汇的过程。比如 句子“内塔尼亚胡说的确实在理”
中文分词概述(Cont.)
分词作用
互联网绝大多数应用都需要分词,典型应用实例 汉字处理:拼音 汉字处理:拼音输入法、手写识别、简繁转换 …告推荐、内容监控 … 语音处理: 语音处理:语音识别、语音合成 … …
w w
P (W | O ) = max ∏ P ( wt | wt −1 , ot )
w t =1
T
W:分词结果 O:待分词文本
生成式分词(Cont.)

中文分词技术的研究现状与困难

中文分词技术的研究现状与困难

四、解决方案
为了克服中文分词技术的研究困难,以下一些解决方案值得:
1、优化分词算法:针对分词算法的复杂性问题,可以尝试优化算法的设计和 实现,提高其效率和准确性。例如,可以通过引入上下文信息、利用语言学知 识等方式来改进算法。
2、改进信息检索技术:在信息检索领域,可以尝试将先进的排序算法、推荐 系统等技术引入到检索过程中,以提高检索效果。此外,还可以研究如何基于 用户行为和反馈来优化检索结果。
3、缺乏统一的评价标准:中文分词技术的评价标准尚未统一,这使得不同研 究之间的比较和评估变得困难。建立通用的中文分词技术评价标准对于推动相 关研究的发展至关重要。
4、特定领域的应用场景:中文分词技术在不同领域的应用场景中面临着不同 的挑战。例如,在金融领域中,需要分词技术对专业术语进行精确识别;在医 疗领域中,需要处理大量未登录词和生僻字。如何针对特定领域的应用场景进 行优化,是中文分词技术的重要研究方向。
3、建立大型标注语料库:通过建立大型标注语料库,可以为分词算法提供充 足的训练数据,提高其准确性和自适应性。此外,标注语料库也可以用于开发 基于规则的分词方法和测试集的构建。
4、研究跨领域的应用场景:针对不同领域的应用场景,可以研究如何将中文 分词技术进行迁移和适配。例如,可以通过知识图谱等技术将不同领域的知识 引入到分词过程中,以提高分词效果。
然而,各种分词方法也存在一定的局限性和不足。例如,基于规则的分词方法 需要人工编写规则和词典,难以维护和更新;基于统计的分词方法需要大量标 注语料库,而且训练模型的时间和计算成本较高;基于深度学习的分词方法虽 然取得了较好的效果,但也需要耗费大量的时间和计算资源进行训练。
三、研究困难
中文分词技术的研究面临着诸多困难和挑战,以下是一些主要词方法:该方法主要依靠人工编写的分词规则来进行分词。 代表性的工作包括台湾大学开发的中文分词系统“THULAC”和北京大学开发 的“PKU中文分词系统”。这些系统均基于词典和规则,具有较高的准确率和 召回率。

中文分词相关技术简介

中文分词相关技术简介

中文分词相关技术简介目前对汉语分词方法的研究主要有三个方面:基于规则的分词方法、基于统计的分词方法和基于理解的分词方法。

基于规则的分词方法基于规则的分词方法,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。

常用的方法:最小匹配算法(Minimum Matching),正向(逆向)最大匹配法(Maximum Matching),逐字匹配算法,神经网络法、联想一回溯法,基于N-最短路径分词算法,以及可以相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法等。

目前机械式分词占主流地位的是正向最大匹配法和逆向最大匹配法。

◆最小匹配算法在所有的分词算法中,最早研究的是最小匹配算法(Minimum Matching),该算法从待比较字符串左边开始比较,先取前两个字符组成的字段与词典中的词进行比较,如果词典中有该词,则分出此词,继续从第三个字符开始取两个字符组成的字段进行比较,如果没有匹配到,则取前3个字符串组成的字段进行比较,依次类推,直到取的字符串的长度等于预先设定的阈值,如果还没有匹配成功,则从待处理字串的第二个字符开始比较,如此循环。

例如,"如果还没有匹配成功",取出左边两个字组成的字段与词典进行比较,分出"如果";再从"还"开始,取"还没",字典中没有此词,继续取"还没有",依次取到字段"还没有匹配"(假设阈值为5),然后从"没"开始,取"没有",如此循环直到字符串末尾为止。

这种方法的优点是速度快,但是准确率却不是很高,比如待处理字符串为"中华人民共和国",此匹配算法分出的结果为:中华、人民、共和国,因此该方法基本上已经不被采用。

基于神经网络的中文分词技术研究

基于神经网络的中文分词技术研究

基于神经网络的中文分词技术研究
中文分词是将连续的汉字序列切分为有意义的词语的过程。

传统的中文分词方法主要基于词典、规则和统计等方法,但这些方法在处理复杂的语言现象时存在一定的局限性。

近年来,基于神经网络的中文分词技术逐渐受到广泛关注。

这些技术通过神经网络模型学习中文分词任务的特征和规律,具有更好的泛化能力和鲁棒性。

以下是一些常见的基于神经网络的中文分词技术:
1.基于循环神经网络(RNN)的中文分词:RNN是一种递归神经网络结构,能够处理序列数据。

通过将汉字序列作为输入,RNN可以对每个汉字的边界进行预测,从而实现中文分词。

2.基于长短期记忆网络(LSTM)的中文分词:LSTM是一种特殊的RNN 结构,能够捕捉长期依赖关系。

通过LSTM网络,可以更好地处理一词多义、歧义和复合词等语言现象,提高中文分词的准确性。

3.基于注意力机制的中文分词:注意力机制是一种能够学习输入序列不同位置重要性的技术。

通过引入注意力机制,可以使神经网络更加关注汉字序列中与分词有关的信息,提高中文分词的效果。

4. 基于Transformer模型的中文分词:Transformer是一种基于自注意力机制的神经网络模型,具有较强的并行计算能力。

通过使用Transformer模型,可以有效地处理中文分词任务,并且在大规模语料库上获得较好的性能。

基于神经网络的中文分词技术在不同的任务和数据集上取得了较好的效果。

然而,由于中文分词任务的复杂性和语言差异,仍然存在一些困难
和挑战。

未来的研究可以进一步探索如何融合多种神经网络技术、优化网络结构和改进训练算法,以提高中文分词的性能和效果。

中文分词技术

中文分词技术

一、为什么要进行中文分词?词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。

Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。

除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。

二、中文分词技术的分类我们讨论的分词算法可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。

第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词,如:最大匹配法、最小分词方法等。

这类方法简单、分词效率较高,但汉语语言现象复杂丰富,词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理。

第二类基于统计的分词方法则基于字和词的统计信息,如把相邻字间的信息、词频及相应的共现信息等应用于分词,由于这些信息是通过调查真实语料而取得的,因而基于统计的分词方法具有较好的实用性。

下面简要介绍几种常用方法:1).逐词遍历法。

逐词遍历法将词典中的所有词按由长到短的顺序在文章中逐字搜索,直至文章结束。

也就是说,不管文章有多短,词典有多大,都要将词典遍历一遍。

这种方法效率比较低,大一点的系统一般都不使用。

2).基于字典、词库匹配的分词方法(机械分词法)这种方法按照一定策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。

识别出一个词,根据扫描方向的不同分为正向匹配和逆向匹配。

根据不同长度优先匹配的情况,分为最大(最长)匹配和最小(最短)匹配。

根据与词性标注过程是否相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。

常用的方法如下:(一)最大正向匹配法 (MaximumMatchingMethod)通常简称为MM法。

其基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。

使用ChatGPT进行中文对话的分词与语言处理方法

使用ChatGPT进行中文对话的分词与语言处理方法

使用ChatGPT进行中文对话的分词与语言处理方法随着自然语言处理技术的不断发展,人工智能开始在各个领域展现出强大的应用潜力。

其中,聊天机器人成为了自然语言处理领域的一个重要研究方向。

ChatGPT作为一种先进的文本生成模型,可以实现与人类进行对话。

本文将探讨如何使用ChatGPT进行中文对话的分词与语言处理方法,帮助读者更好地理解和应用这一技术。

在进行中文对话时,首先需要将输入的文本进行分词处理。

分词是将连续的汉字序列切分成词语的过程,对于ChatGPT来说,分词的准确性对于生成的对话质量有重要影响。

目前,中文分词的方法有很多,例如基于词典的方法、基于规则的方法以及基于机器学习的方法等。

基于词典的方法是一种常见的分词方法,它使用一个特定的词典作为依据进行分词。

这种方法的优点是速度快且准确性高,但是它也存在一些问题,比如无法识别新词和歧义词。

另一种基于规则的方法是通过设置一系列的规则来进行分词,这种方法依赖于人工设定的规则,但是难以处理复杂的上下文信息。

相比之下,基于机器学习的方法具有更好的泛化性能,通过训练模型可以灵活地适应不同的分词场景。

例如,可以使用条件随机场(CRF)、最大熵(MaxEnt)或者深度学习模型等进行中文分词。

在ChatGPT中,对于生成的文本,还需要进行语言处理,使得生成的对话更加可读和连贯。

语言处理包括词性标注、命名实体识别、依存句法分析等任务。

词性标注是将词语归类到不同的词性类别中,用于确定词语的句法和语义含义。

命名实体识别是指识别文本中的人名、地名、组织机构名等具有特殊含义的实体。

依存句法分析是建立句子中词语之间的依存关系,用于理解句子的语法结构和语义关系。

语言处理的方法也很多样化,其中一种常见的方法是基于规则的方法。

基于规则的方法通过人工设计一系列规则,来对生成的文本进行语言处理。

这种方法可以快速处理简单的文本,但对于复杂的文本处理效果较差。

另一种常见的方法是基于机器学习的方法,通过训练模型来学习文本中的语言特征,从而进行词性标注、命名实体识别和依存句法分析等任务。

基于hmm的中文分词

基于hmm的中文分词

基于hmm的中文分词
基于HMM的中文分词是一种常见的自然语言处理技术,它使用隐
马尔可夫模型(HMM)来进行中文分词,即将一段连续的中文文本切分
成一个个有意义的词语。

HMM模型是一种统计模型,其基本思想是将观测数据看作是由一系列不可见的隐含状态序列生成的,通过观测数据和隐含状态序列之间
的概率关系来推断出最可能的隐含状态序列,从而达到对观测数据的
分析和建模的目的。

在中文分词中,HMM模型通常将中文文本看作一个序列,每个词语对应一个隐含状态,而观测数据则是每个汉字或标点符号,通过概率
转移矩阵和发射概率矩阵来计算每个汉字或标点符号分别属于哪个词语,从而完成中文分词任务。

基于HMM的中文分词具有较高的准确性和鲁棒性,常常被应用于
各种自然语言处理应用中,例如机器翻译、信息检索、情感分析等等。

同时,也有一些后续的改进算法和技术,例如基于CRF(条件随机场)的中文分词、神经网络模型等,不过HMM模型依然是中文分词中比较
有代表性和典型的一种方法。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3 2009209218收到,2010201203改回33 基金项目:国家级课题资助项目(30800446)。

333刘红芝,女,1980年生,硕士,研究方向:电子信息咨询与服务,计算机网络及数据库技术。

文章编号:100325850(2010)0320001203中文分词技术的研究Research on Ch i nese W ord Segm en ta tion Techn iques刘红芝(徐州医学院图书馆 江苏徐州 221004)【摘 要】对中文分词的主要算法进行了研究,阐述了中文分词中存在的困难及其解决方法,最后指出了中文分词的未来研究工作。

【关键词】中文分词,算法,歧义,未登录词,停用词中图分类号:T P 391文献标识码:AABSTRACT T h is paper analyzes the m ain am biguities of Ch inese w o rd segm entati on ,elabo rates difficulties in Ch inese w o rd segm entati on and their so luti ons ,and finally po ints out the existing p roblem s in Ch inese w o rd segm entati on and the future research w o rk 1KEYWOR D S ch inese w o rd segm entati on ,algo ris m ,am biguity ,unknow n w o rd ,stop 2w o rd 随着因特网上信息给人们带来方便的同时,也存在信息查找不便、不良信息过多等弊端,信息过滤技术应运而生。

信息过滤[1]就是根据用户的信息需求,利用一定的工具从大规模的动态信息流中自动筛选出满足用户需求的信息,同时屏蔽掉无用信息的过程。

目前很多信息过滤系统的设计都是基于内容的过滤,即查找信息文本中是否含有特征词库中设置的关键词。

这种设计思想符合人们正常的思维习惯,比较容易实现。

但是在实际应用中,特别是在处理中文信息的时候由于缺乏中文策略,处理结果很难让人满意。

因此,进行中文信息过滤,首先就要对文本预处理,进行中文分词,将其表示成可计算和推理的模型。

中文分词是中文文本过滤的首要基础性工作、难点问题,也是自然语言信息处理中最基本的一步。

1 中文分词技术将连续的字序列按照一定的规范重新组合成词序列的过程被称为分词;中文分词就是把中文的汉字序列分成有意义的词[2]。

分词只是中文信息处理的一部分,分词本身并不是目的,而是后续处理过程的必要阶段,是中文信息处理的基础技术。

2 中文分词的必要性如何让计算机更好地读懂人类的语言,理解人类的思想,更好地让用户快速方便地搜索到自己所需要的资源,中文分词技术的产生是中文搜索质量提高的至关重要的因素。

众所周知,中文文本与英文文本的表示方法有所不同,英文文本中词与词中间都由空格或标点符号隔开,因而词与词之间的界限很明显,可以很容易地获取关键词,而中文文本中词与词则无明显的界限,这就影响了关键词的获取和匹配[3]。

3 分词的主要算法中文分词技术属于自然语言处理技术的范畴,是语义理解过程中最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用,在分词的过程中,如何能够恰当地提供足够的词来供分析程序处理,计算机如何完成这一过程?其处理过程就称为分词算法。

现有的分词算法按照是否使用分词词典来分,可分为基于词典的分词算法和基于无词典的分词算法[4]。

基于词典的分词算法的分词精度在很大程度上依赖于分词词典的好坏,基于无词典的分词算法不需要利用词典信息,它通过对大规模的生语料库进行统计分析,自动地发现和学习词汇,从分词精度来看,基于词典的分词算法要大大优于无词典的分词算法。

311 基于词典的分词算法基于词典的分词算法主要基于一个词典和一个基本的切分评估规则。

早期主要采取机械匹配的方法,但由于缺乏歧义切分的处理,故切分的精度较低,后来随着研究的发展,加入了规则的切分,但规则的制订不仅需要大量的人力而且对系统的开放性有很大的局限,因此后来又引入了从基于统计的分词方法,不仅统计・1・ 第23卷 第3期电脑开发与应用(总173)词频而且分析词性等信息来提高切分的精度。

31111 机械分词方法机械分词方法就是按照词典对字符串进行匹配。

按扫描的方向可以分为正向扫描、反向扫描、双向扫描;按不同长度优先匹配的原则又可以分为最大匹配和最小匹配,这两种匹配按增字或减字又可以分为两种类型。

常用的方法大多按照最大匹配和增字的原则进行,因为这样获得的词汇信息较多。

具体地讲,机械分词方法大体分为如下几种:①正向减字最大匹配(M ax i m um M atch ing)算法。

这种方法又被称为5—4—3—2—1查询法,其基本思想是:假设自动分词词典中的最长词条所含汉字个数为m,则取被处理材料中当前字符串序数中的m 个字符作为匹配字段,查找分词词典,如词典中存在这样的一个m字词,则匹配成功,匹配字段作为一个词被切分出来;如词典中找不到这样的一个m字词,则将匹配字段去掉最后一个汉字,剩下的m-l个字符作为新的匹配字段,进行新的匹配,如此反复,直至切分出一个词,完成一轮匹配切分出一个词,再按上述步骤进行,直到切分出所有的词为止[5]。

②逆向减字最大匹配(R everse M ax i m um M atch ing)算法。

与上述方法不同的是每次从句子(或文章)的末尾开始处理,每次匹配不成功时去掉的是字段的最前面的一个汉字。

实验证明,RMM方法较MM方法的精度要高一些。

③双向匹配法。

将正向最大匹配法与逆向最大匹配法组合。

④设立切分标志法。

设立切分标志法首先要收集众多的切分标志,分词时先找出这些切分标志,把句子切分成一些比较短的字段,然后再用最大匹配算法或反向最大匹配算法进行细分。

⑤全切分算法。

该方法描述如下:a1找出字符串中从位置0开始的所有的词,将每个词的词尾位置加入队列;b1从队列中取出一个元素,找出从该元素记录的位置k开始的所有的词,将每个词的词尾位置加入队列;c1重复b1,直到队列为空[6]。

使用该方法可以找出一个句子(或文章)的所有切分方式,避免了切分盲点。

⑥词数最少法。

该方法指在全切分的基础上,找出一个句子中词数总和最小的一种切分方式。

31112 基于规则的分词算法该方法的推理步骤是:推理机把字符串视为词法树(或语法树)中的结点,利用常识性知识库进行顺向搜索匹配,若匹配成功,则该词把原字符串断为左右两截,以该词作为子树的根,左边一段为该子树的右孩子,代替原字符串在词语树中的结点,形成一棵新的词语树。

一旦子树的根结点有歧义标志,则启动相应的歧义切分规则,校正刚形成的词语树,达到消除歧义的目的。

这种方法的难点在于规则知识库的建立。

因为语言是人们在生活中逐渐积累起来的,其中的规律种类繁多、富于变化,为了建立规则库,需要耗费大量的人工和时间,即使这样,建立的规则库也很难覆盖所有的语言现象,而且,随着知识库的规则不断增多,规则之间也可能产生冲突。

这些因素使得基于规则的分词算法的精度很难提高,不够灵活。

31113 基于统计的分词算法统计方法的基本思想是:一个句子可能有多种切分结果,对每种切分结果利用给定的参数计算它的出现概率,从结果中选择概率大的一种。

概率的计算方法依赖于所建立的语言模型[7]。

一般采用全切分算法对文本进行切分,找到所有可能的切分方式。

为了避免切分结果过多,产生组合爆炸,可以实现对切分结果进行剪枝,把一些明显不可能的结果去掉。

基于统计的分词方法不需要人工去建立规则库,参数值(词频、词性等信息)可以从语料库中通过训练自动获得。

随着大规模语料库的建立,这种方法得到了越来越广泛的应用。

相对于规则方法,统计方法更加灵活,精度也更高。

它的优点在于可以发现所有的切分歧义,但是统计语言模型的精度和决策算法在很大程度上决定了解决歧义的方法,需要大量的标注语料,并且分词速度也因搜索空间的增大而有所缓慢。

实际应用的统计分词系统都要使用一部基本的分词词典进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

31114 统计和规则相结合的方法统计方法和基于规则的方法各有优缺点。

规则方法不够灵活,但可以很好地处理特例情况;统计方法易于实现,比较灵活,但是对特例情况却无能为力。

在规则和统计结合的方法中,一般先用统计方法对歧义部分进行处理,对统计方法不能解决或难以确定的情况(两个切分结果的概率非常接近),再利用基于规则的・2・(总174)中文分词技术的研究2010年 方法进行处理,弥补了相互之间的不足。

312 基于无词典的分词算法基于汉字之间的互信息和t—测试信息的分词算法。

汉语的词可以理解为字与字之间的稳定结合,因此,如果在上下文中某几个相邻的字出现的次数越多,那么,这几个字成词的可能性就很大。

根据这个道理引入互信息(M u tual info r m ati on)和t—测试值(t2sco re)的概念,用来表示两个汉字之间结合关系的紧密程度。

该方法的分词原理是:对于一个汉字字符串,计算汉字之间的互信息和t—测试差信息,选择互信息和t—测试差信息大的组成词。

该方法的局限性是只能处理长度为2的词,且对于一些共现频率高的但并不是词的字组,常被提取出来,并且常用词的计算开销大,但可以识别一些新词,消除歧义[8]。

对于一个成熟的分词系统来说,不可能单独依靠某一个算法来实现,都需要综合不同的算法,在实际的应用中,要根据具体的情况来选择不同的分词方案。

4 中文分词中的困难虽然有了较成熟的分词算法,但分词仍然是中文信息处理的瓶颈问题,目前面临的主要困难如下。

411 汉语“词”的概念不明确“词”的概念一直是汉语语言学界纠缠不清的问题,迄今还没有一个具有权威性的确切定义。

主要困难有两方面,一方面是单字词与语素之间的划界;另一方面是词与短语(词组)的划界。

汉语的词汇平面构成了现阶段中文信息处理应用领域的主要支撑平台,必须从工程角度划出信息处理用的“词”的主要特征[8]。

但是目前这个问题虽然已利用大规模语料库,通过计算词频、词长、字频以及“互信息”等因素来使它量化,而用以决定词表中收词的条件,仍然没有得出合理的可操作的理论。

412 歧义切分字段的处理中文文本中含有许多歧义切分字段,同一文本可能被不同的人划分为不同的分词结果。

典型的歧义有交集型歧义(约占全部歧义的85%以上)和组合型歧义,切分歧义是影响分词系统切分正确率的重要因素,也是分词阶段最困难的问题。

相关文档
最新文档