基于改进最大匹配算法的中文分词粗分方法

一种改进的中文分词正向最大匹配算法

第２８卷第３期
２１０１年３月
计算机应用与软件
ＣｏｕｔｒＡｐｌｃｔｏｓａｄＳｆｒｍｐｅｐｉａｉｎｎｏｗａｅｔ
Ｖ０＿ｌ２８Ｎｏ．３
Ｍａ．０１ｒ２ｌ
一
种改进的中文分词正向最大匹配算法
ｔｅｓｅｄａｄｅｃｅｃｆＣｉｅｅＷｏｅｍｅｔｔｎａｇｒｈｈｖｅｎｏｖｏｓｙｉｒｖｄｈｐｅｎｆｉｎｙｏｈｎｓｒｓｇｎａｉｌｏｉｍａｅｂｅｂｉｕｌｍｐｏｅ．ｉｄｏｔＫｅｗｏｄｙｒｓＣｉｅｅｗｒｅｍｅｔｔｎＷｏａｋＦｒｒｎｘｍｕｍａｃｉｇａｇｒｔｍｈｎｓｏｄｓｇｎａｉｏｄｒｂｎｏｗａｄｌａｉｍｔｈｎｌｏｉｈ
ｐｔｆｒａｄａｄａｆｒｉｒｖｎＭＭｌｏｉｍｈｔｉｏａｓｇｈｘｍｕｔｘ一ｎｔｏｂｒａｅｙａｃｌａｅｎｔｅｗｒ－ｕｓｏｒｎｉｅｏｍｐｏｉｇＦｗａｇｒｈｔａｓｔｓｉｎｔｅｍａｉｍｅｔ１ｇｈｔｅｔｔｄｄｎｍｉａｌｂｓｄｏ同的统计，８—１因３字的词所占比例较小
０引言
中文自动分词是中文信息处理中最为基础、为重要的问最题，汉语文本自动标注、索引擎、器翻译等工作中的关键是搜机

一种改进的基于Hash的中文分词算法研究

２１００年第２期
福
建电
脑
６９
一
种改进的基于Ｈｓａｈ的中文分词算法研究
蔡蕊
（山东大学计算机科学与技术学院山东济南２００５１１）
【要】摘：在分析已有的中文分词算法的基础上，用改进的词典结构，出一种新的基于Ｈｓ利提ａｈ的中文分词算法。理论和实验证明，进的算法可以进一步提高分词的效率。改【关键词】中文分词哈希算法：
泛而深入的研究一
分词是中文信息处理的基础一环．分词方法的性能直接影
表１词条分布情况表
由汉语的词频统计得出结论．在汉语中．９的词集中在四９％响到中文信息搜索的实时性及准确性。考虑到中文分词算法的应用领域大多对实时性和准确性两方面有很高的要求。因此．实字以下的词语．其以双字词为数最多。尤如果能在词典中实现对那现较简单的基于Ｈｓａｈ算法中的正向最大匹配法仍然是应用最四字以内的词的快速查找，么系统的效率会明显提高我们利
所示
搜７
ｌ
Ｉ
索
库结构
其中．果有以词条为首的词条．么词条的属性为以该词如那条为首的词条的开始位置和结束位置，则为０否。３２分词算法．分词算法首先由Ｈｓ计算的首字的地址．ａｈ然后利用二分查找是否有以前两字为首的词条。如果没有则作为单字词输出：否

正向最大匹配分词算法的分析与改进

正向最大匹配分词算法的分析与改进摘要：本文主要通过对影响正向最大匹配算法效率的因素的分析，提出对该算法的一点改进，以及设计了相应的词典结构，以期在匹配过程中尽可能的减少比较次数，提高分词效率。

关键词：中文分词；最大匹配算法；词典机制0引言在自然语言处理中，“词是最小的能够独立活动的有意义的语言成分”[1]，而汉语和英语等其它西文比起来,有着自身的特点。

英语、法语等欧美语言在书写时就以词为基本构成单位，以空格作为分词的依据；而汉语在书写时是一大串汉字的字符串，从形式上根本没有词的概念。

中文分词指的就是将一个汉字序列切分成一个一个单独的具有实际意义的词，它是中文信息处理的基础。

中文自动分词的现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法[2]。

在基于字符串匹配的分词算法中，词典的设计往往对分词算法的效率有很大的影响。

本文通过对影响正向最大匹配算法效率因素的分析，设计一种带词长信息的分词词典，同时在该词典基础上，对正向最大匹配算法做出一些改进，以提高分词的效率。

1正向最大匹配分词算法介绍和分析1.1 正向最大匹配分词算法介绍最大匹配算法是最基本的字符串匹配算法之一，它能够保证将词典中存在的最长复合词切分出来。

传统的正向最大匹配分词算法（Maximum Matching，简称MM算法）的算法流程如图1所示。

图1 MM 算法流程图假设分词词典中的最长词的字数为M，令其作为最大匹配系数。

假设读取的汉字序列字数为L，判断L是否小于最大匹配系数M。

如果L大于最大匹配系数M，则截取前M个汉字作为待匹配字段进行匹配，否则取整个汉字序列作为待匹配字段直接在分词词典中进行匹配。

若字典中存在这样一个字数为M的词，则匹配成功，匹配字段被作为一个词切分出来；若词典中找不到这样的词，则匹配失败，将待匹配字段中的最后一个字去掉，将剩下的汉字序列作为待匹配字段重新在字典中进行匹配处理……如此进行下去，直到匹配成功，即切分出一个词，或者直到剩余字串的长度为1为止，即为一个单字。

中文分词相关技术简介

中文分词相关技术简介目前对汉语分词方法的研究主要有三个方面：基于规则的分词方法、基于统计的分词方法和基于理解的分词方法。

基于规则的分词方法基于规则的分词方法，这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。

常用的方法：最小匹配算法(Minimum Matching)，正向(逆向)最大匹配法(Maximum Matching)，逐字匹配算法,神经网络法、联想一回溯法，基于N-最短路径分词算法,以及可以相互组合，例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法等。

目前机械式分词占主流地位的是正向最大匹配法和逆向最大匹配法。

◆最小匹配算法在所有的分词算法中，最早研究的是最小匹配算法(Minimum Matching)，该算法从待比较字符串左边开始比较，先取前两个字符组成的字段与词典中的词进行比较，如果词典中有该词，则分出此词，继续从第三个字符开始取两个字符组成的字段进行比较，如果没有匹配到，则取前3个字符串组成的字段进行比较，依次类推，直到取的字符串的长度等于预先设定的阈值，如果还没有匹配成功，则从待处理字串的第二个字符开始比较，如此循环。

例如，"如果还没有匹配成功"，取出左边两个字组成的字段与词典进行比较，分出"如果"；再从"还"开始，取"还没"，字典中没有此词，继续取"还没有"，依次取到字段"还没有匹配"(假设阈值为5)，然后从"没"开始，取"没有"，如此循环直到字符串末尾为止。

这种方法的优点是速度快，但是准确率却不是很高，比如待处理字符串为"中华人民共和国"，此匹配算法分出的结果为：中华、人民、共和国，因此该方法基本上已经不被采用。

改进的正向最大匹配分词算法

切分出去，继续步骤 (1)； 2)如果分词词典包含 term2，取 term3= Sentence.Substring
(n-1,2)，将 term3 与词表进行匹配： ①如果分词词典不包含 term3，将 term1 从待切元句子
中切分出去，继续步骤 (1)； ②如果分词词典包含 term3，转入交集型歧义处理模块。
2.3.3 交集型歧义处理模块比如对如下例子 “中国人 / 口 / 众多”：Term1= 中国人；
本文提出改进的最大匹配算法解决上述两个问题：通过互信息的比较，来提高未登录词识别；通过回溯的过程来解决交集型歧义。 2.2 Improved- MM 算法的主要流程
(1) 分词预处理； (2) 用正向最大匹配算法进行分词； (3) 通过回溯的过程，结合互信息消除交集型歧义； (4) 碎片检查。 2.3 算法详细步骤 2.3.1 分词预处理第一扫描首先将“，”、“；”、“！”等标点符号用标签隔开如“/”，第二遍扫描在比如英文字符，标点符号，数字，其它非汉字符号等左右两侧插入“/”，称得到的两个斜杠之间最小的切分单元为元句子。 2.3.2 分词与词典的匹配机制取决于词典本身的数据结构、索引机制以及查询策略，本算法不展开讨论。可以参考文献 [4-6]。扫描词典，读取最长词条的字符数设为 n。 (1)对当前处理元句子 Sentence，从一个字符起依次读取 n 个字符，若当前 Sentence.length<n，则取整个元句子，记作 term1，term1=Sentence.substring(0,min(n, Sentence.length))。 (2) 如果分词词典不包含 term1，取 term1 的前 n-1 个字串 term2，用 term2 与词典进行匹配，若匹配成功，转入步骤(4)；若

基于改进的正向最大匹配中文分词算法研究

基于理解的分词方法不仅要求有很好的分词词典，而且还需要加进语义和句法的分析。通过获
文文本中词与词之间却没有很明显的标记，都是连续的字符串，因而中文信息处理的首要解决的问题就是怎样进行中文分词。正向最大匹配法是一种
文章编号
１０５６（０１００１０００— ２９２１）５— １２— ４
基于改进的正向最大匹配中文分词算法研究
王惠仙，龙华
（昆明理工大学信息工程与自动化学院，云南昆明６０５）５０１
摘
要：中文自动分词技术在中文信息处理、ｂ文档挖掘等处理文档类研究中是一项关键技Ｗｅ
第５期
王惠仙等：于改进的正向最大匹配中文分词算法研究基
文本进行分词操作，到准确有效的切分中文文档达
的目标。
的词时，只能取出其中的５个字去词典里匹配，例如“ 共产主义接 ” 显然词典里不可能存在像这样，的词。因此就无法准确的划分出像 “ 产主义接共班人 ” 这样长度大于５的词。如果词长过长，率效
词方法 ¨ 。Ｊ１１基于词典的分词方法．基于词典的分词法是广泛应用的一种的机械
基于统计的分词方法主要是用来消除分词过程中产生的歧义现象，即消歧。此方法主要靠一个或者多个具有代表性的规模相对小的训练语料库

一种改进的最大匹配分词算法研究

ｃａｉｐｔ［６］／文件的相对路径ｈｒｆｅａｈ２０；／ｌ
端连接到升级服务器以后，先将客户端升级信息发送到首服务器端，服务器端的版本信息进行比较，后分析出当与然
前版本是否需要升级。
义进行处理。同时词是最小的能够独立活动的有意义的语
个相对好的粗分结果，后进行排歧，登录词识别，然未最
后标注词性。在实际的系统中，三个过程可能相互交叉，这反复融合，可能不存在明显的先后次序。也
文章编号：６２３９（０００— ２７０１７— １８２１）９０９ —２采取最大匹配，短路径，率统计或全切分等方法，到最概得
一
１引言
汉语的中文信息处理就是要用计算机对汉语的音，，形
客户端发送的升级信息。本程序将系统当前版本的信息以
一
定的格式写入文件，放于升级服务器中。同时客户端存
｛
也存在相同类型的文件以记录客户端的版本信息。当客户
实用，比较容易实现，而精度不高；二类系统，中文词语分析一般都需要包括３性，则在后续过程中很难对错误的粗分结果进行补救，而否导个过程：处理过程的词语粗切分，分排歧与未登录词识致切分精度的下降。预切别和词性标注。目前中文词语分析采取的主要步骤是：先本文提出一种旨在保证分词效率的同时兼顾分词准确

改进的正向最大匹配分词算法

情况，分别计算该尾字和不含该字的当前处理词条的互信息与尾字和下一字的互信息，通过比较两者的互信息大小来决定切分，最后对分词碎片进行了处理。通过对随机抽取的语料进行测试，结果表明该方法是有效的。关键词：正向最大匹配算法；交集型歧义；预处理；互信息；分词碎片中图法分类号：Ｐ９Ｔ３１文献标识码：Ａ文章编号：００７２２１）１５５０１０．０４（００１— ９。３２
ｉｌｓｉｃｅｓｄ．Ｆｉｓｌ，ｔｅｓｔｅｔｄｒ — ｕ，ｂｎｔｅｍａｍｕａｃｎｇｉｈｅｔａｔｏｎｌｐｏｃｓ，ｃｏｓｉｍｂｉｕｉｙｆｅｄｆｅｄｉｎｒａｅｒｔｙｈｅｔｘｔｉａｅｐｅｃｔｒｅｉｇｈｘｉｍｍｔｈｉｎｔｒｄｉｉａｒｅｓｒｓｎｇａｇｔｌｉ
Ｉｐｏｅｏｗａｄａｇｒｔｍｏａｍｕａｃｎｒｅｍｅｔｔｏｍｒｖｄｆｒｒｌｏｉｈｆｒｍｘｉｍｍｔｈｉｇｗｏｄｓｇｎａｉｎ
ＺＨＡＮＧｉｑｎＹＵＡＮｉｎＣａ — ｉ，Ｊａ
摘要：了降低正向最大匹配分词算法的切分错误率，为分析了产生这个错误率的原因，出了一种改进的正向最大匹配提
分词算法，增加一个交集型歧义字段处理模块。该方法对待切文本进行预处理，传统正向最大匹配的过程中，用交集即在调型歧义字段处理模块，该模块主要是在每一次正向匹配后进行回溯匹配，即通过检测当前处理词条的尾字和下一字的成词