基于Hash结构的逆向最大匹配分词算法的改进

合集下载

一种改进的中文分词算法

一种改进的中文分词算法
祁文青
【期刊名称】《湖北理工学院学报》
【年(卷),期】2007(023)004
【摘要】汉语自动分词是汉语信息处理的前提,词库是汉语自动分词的基础.文章提出了一种在对词库进行改造的基础上改进的匹配算法,突破了最大匹配分词算法分词的长度限制,提高了中文分词的速度和效率.
【总页数】4页(P23-25,37)
【作者】祁文青
【作者单位】黄石理工学院计算机学院,湖北,黄石,435003
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.一种改进的基于Hash的中文分词算法研究 [J], 蔡蕊
2.一种改进的中文分词正向最大匹配算法 [J], 王瑞雷;栾静;潘晓花;卢修配
3.一种基于词典的中文分词改进算法 [J], 郑木刚;刘木林;沈昱明
4.一种改进的最大匹配中文分词算法 [J], 闻玉彪;贾时银;邓世昆;李远方
5.一种基于改进最大匹配快速中文分词算法 [J], 林浩;韩冰;杨乐华
因版权原因，仅展示原文概要，查看原文内容请购买。

一种基于MinHash的改进新闻文本聚类算法

一种基于MinHash的改进新闻文本聚类算法王安瑾【摘要】The continuous development of information technology has brought about the rapid growth of news texts on the Internet.In the face of a large number of news texts, it is very important to cluster them effectively.Based on the above requirements, we propose an improved DBSCAN clustering algorithm based on MinHash.In order to solve the problem of high data dimension, high computational complexity and large resource consumption in traditional vector space model text clustering, this algorithm uses MinHash to reduce the dimension of all text feature word sets, thus effectively reducing the wastes of resources.Jaccard coefficient is calculated for any two-by-two data in the obtained characteristics matrix, and each result is compared with the neighborhood radius Eps in DBSCAN clustering and calculated whether all the neighboring nodes whose distances are greater than the neighborhood radius Eps is greater than or equal to MinPts.Therefore, we can determine whether the text is a core point and whether clusters can beformed.Experiment shows that the algorithm has a better effect on news text clustering and can effectively cluster the intricate news text on the Internet.%信息技术的不断发展, 带来的是网络上新闻文本的快速增长, 面对大量的新闻文本, 对其进行有效聚类就显得十分重要.基于上述需求, 提出一种基于MinHash的DBSCAN聚类算法.针对传统向量空间模型文本聚类存在的数据维度高、计算复杂度大、资源消耗多的问题, 该算法使用Min Hash对所有文本的文本特征词集合进行降维, 从而有效减少了资源的浪费.对新得到的特征矩阵中的数据任意两两计算Jaccard系数, 将每一个结果与DBSCAN聚类中给定的邻域半径Eps 进行比较并计算所有距离大于邻域半径Eps的点的周围节点数目是否大于等于形成一个簇所需要的最小点数MinPts, 由此可以判断该文本是否为核心点, 是否可以形成簇.实验结果表明, 该方法对于新闻文本聚类有着很好的效果, 可以对网络上错综复杂的新闻文本进行有效的聚类.【期刊名称】《计算机技术与发展》【年(卷),期】2019(029)002【总页数】4页(P39-42)【关键词】Min Hash;Jaccard系数;DBSCAN;文本聚类【作者】王安瑾【作者单位】东华大学计算机科学与技术学院, 上海 200000【正文语种】中文【中图分类】TP301.60 引言随着互联网的发展，网络新闻中文本数量日益增多，每天用户面临的各个网站的新闻可以用数以万计来形容。

正向最大匹配分词算法的分析与改进

正向最大匹配分词算法的分析与改进摘要：本文主要通过对影响正向最大匹配算法效率的因素的分析，提出对该算法的一点改进，以及设计了相应的词典结构，以期在匹配过程中尽可能的减少比较次数，提高分词效率。

关键词：中文分词；最大匹配算法；词典机制0引言在自然语言处理中，“词是最小的能够独立活动的有意义的语言成分”[1]，而汉语和英语等其它西文比起来,有着自身的特点。

英语、法语等欧美语言在书写时就以词为基本构成单位，以空格作为分词的依据；而汉语在书写时是一大串汉字的字符串，从形式上根本没有词的概念。

中文分词指的就是将一个汉字序列切分成一个一个单独的具有实际意义的词，它是中文信息处理的基础。

中文自动分词的现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法[2]。

在基于字符串匹配的分词算法中，词典的设计往往对分词算法的效率有很大的影响。

本文通过对影响正向最大匹配算法效率因素的分析，设计一种带词长信息的分词词典，同时在该词典基础上，对正向最大匹配算法做出一些改进，以提高分词的效率。

1正向最大匹配分词算法介绍和分析1.1 正向最大匹配分词算法介绍最大匹配算法是最基本的字符串匹配算法之一，它能够保证将词典中存在的最长复合词切分出来。

传统的正向最大匹配分词算法（Maximum Matching，简称MM算法）的算法流程如图1所示。

图1 MM 算法流程图假设分词词典中的最长词的字数为M，令其作为最大匹配系数。

假设读取的汉字序列字数为L，判断L是否小于最大匹配系数M。

如果L大于最大匹配系数M，则截取前M个汉字作为待匹配字段进行匹配，否则取整个汉字序列作为待匹配字段直接在分词词典中进行匹配。

若字典中存在这样一个字数为M的词，则匹配成功，匹配字段被作为一个词切分出来；若词典中找不到这样的词，则匹配失败，将待匹配字段中的最后一个字去掉，将剩下的汉字序列作为待匹配字段重新在字典中进行匹配处理……如此进行下去，直到匹配成功，即切分出一个词，或者直到剩余字串的长度为1为止，即为一个单字。

哈希匹配算法

哈希匹配算法哈希匹配算法是一种常用的字符串匹配算法，它通过将字符串映射为一个固定长度的哈希值来进行匹配。

在实际应用中，哈希匹配算法被广泛用于字符串匹配、模式匹配、数据索引等领域。

一、哈希匹配算法的基本原理哈希匹配算法的基本原理是将字符串通过一个哈希函数转换为一个唯一的哈希值，然后将这个哈希值与其他字符串进行比较，从而实现字符串匹配的功能。

哈希函数的设计非常重要，它应该具备以下特点：1. 输入相同的字符串，哈希函数应该返回相同的哈希值；2. 输入不同的字符串，哈希函数应该返回不同的哈希值。

1. 字符串匹配：在文本处理、搜索引擎等领域，哈希匹配算法常被用于字符串匹配。

通过将待匹配的字符串和已有的字符串进行哈希映射，可以快速地找到匹配的结果。

2. 模式匹配：在字符串处理、编译原理等领域，哈希匹配算法被用于模式匹配。

通过将模式串和待匹配的字符串进行哈希映射，可以高效地找到模式串在待匹配字符串中的位置。

3. 数据索引：在数据库、搜索引擎等领域，哈希匹配算法被用于数据索引。

通过将数据的关键字进行哈希映射，可以快速地找到对应的数据项。

三、哈希匹配算法的优缺点1. 优点：（1）高效性：哈希匹配算法通过哈希映射的方式进行匹配，能够快速定位到待匹配字符串的位置，从而提高匹配效率。

（2）灵活性：哈希匹配算法可以根据实际需求设计不同的哈希函数，适应不同的应用场景。

（3）可扩展性：哈希匹配算法可以通过调整哈希函数的参数来适应不同规模的数据集。

2. 缺点：（1）冲突问题：由于哈希函数的映射是将一个无限的输入域映射到一个有限的输出域，所以在实际应用中，哈希函数可能会出现冲突，导致多个不同的字符串映射到同一个哈希值上。

（2）哈希函数设计困难：设计一个好的哈希函数是非常困难的，需要考虑多个因素，并且需要保证输入相同的字符串一定能够得到相同的哈希值，输入不同的字符串一定能够得到不同的哈希值。

四、哈希匹配算法的改进方法1. 拉链法：当哈希函数出现冲突时，可以使用拉链法来解决。

改进的正向最大匹配分词算法

切分出去，继续步骤 (1)； 2)如果分词词典包含 term2，取 term3= Sentence.Substring
(n-1,2)，将 term3 与词表进行匹配： ①如果分词词典不包含 term3，将 term1 从待切元句子
中切分出去，继续步骤 (1)； ②如果分词词典包含 term3，转入交集型歧义处理模块。
2.3.3 交集型歧义处理模块比如对如下例子 “中国人 / 口 / 众多”：Term1= 中国人；
本文提出改进的最大匹配算法解决上述两个问题：通过互信息的比较，来提高未登录词识别；通过回溯的过程来解决交集型歧义。 2.2 Improved- MM 算法的主要流程
(1) 分词预处理； (2) 用正向最大匹配算法进行分词； (3) 通过回溯的过程，结合互信息消除交集型歧义； (4) 碎片检查。 2.3 算法详细步骤 2.3.1 分词预处理第一扫描首先将“，”、“；”、“！”等标点符号用标签隔开如“/”，第二遍扫描在比如英文字符，标点符号，数字，其它非汉字符号等左右两侧插入“/”，称得到的两个斜杠之间最小的切分单元为元句子。 2.3.2 分词与词典的匹配机制取决于词典本身的数据结构、索引机制以及查询策略，本算法不展开讨论。可以参考文献 [4-6]。扫描词典，读取最长词条的字符数设为 n。 (1)对当前处理元句子 Sentence，从一个字符起依次读取 n 个字符，若当前 Sentence.length<n，则取整个元句子，记作 term1，term1=Sentence.substring(0,min(n, Sentence.length))。 (2) 如果分词词典不包含 term1，取 term1 的前 n-1 个字串 term2，用 term2 与词典进行匹配，若匹配成功，转入步骤(4)；若

最大匹配法分词的缺陷尽管最大匹配法分词是常用的解决的方案

1.1.1 最大匹配法分词的缺陷尽管最大匹配法分词是常用的解决的方案，但是无疑它存在很多明显的缺陷，这些缺陷也限制了最大匹配法在大型搜索系统中的使用频率。

最大匹配法的问题有以下几点：一、长度限制由于最大匹配法必须首先设定一个匹配词长的初始值，这个长度限制是最大匹配法在效率与词长之间的一种妥协。

我们来看一下以下两种情况：（1）词长过短，长词就会被切错。

例如当词长被设成5时，也就意味着它只能分出长度为5以下词，例如当这个词为“中华人民共和国”长度为7的词时，我们只能取出其中的5个字去词库里匹配，例如“中华人民共”，显然词库里是不可能有这样的词存在的。

因此我们无法下确的划分出“中华人民共和国”这样的词长大于5的词。

（2）词长过长，效率就比较低。

也许有人会认为既然5个字无法满足我们的分词要求，何不将词长加大，例如加到10或者100，毕竟这个世界超过100个字长的词还是很少见的，我们的词长问题不就解决了？然而当词长过长时，我们却要付出另一方面的代价：效率。

效率是分词算法、甚至是整个算法理论体系的关键，毕竟算法书里所有的高深的查询或排序算法都是从效率出发的，否则任何笨办法都可以解决分词效率低的问题。

设想到我们把字长设成100个词时，我们必须将词从100开始一直往下匹配直到找到要查的字为止，而我们大多数词的字长却只有两三个字，这意味着前97次的匹配算法是徒劳的。

因此我们必须要在词长与效率之间进行妥协，既要求分词尽量准确，又要求我们的词长不能太长。

尽管我们可能找到这样一个比较优化的字长值使两者都达到比较满足的状态，但是毕竟不管我们怎么设定，总会有些太长词分出来，或者带来效率问题。

二、效率低效率低是最大匹配法分词必然会来的问题。

即使我们可以将字长设成相当短，例如5（注意，我们不能再缩短字长了，毕竟字长为5以上的词太多了，我们不能牺牲分词的准确），然而当我们的大数词长为2时，至少有3次的匹配算法是浪费掉的。

回想一下算法书里提到的最简单的字符匹配与KMP算法之间天差地别的效率，我们知道通过某种方法，这些浪费的掉的匹配时间是可以补回来的。

最大正向匹配分词算法

最大正向匹配分词算法简介分词是自然语言处理中的重要任务之一，它将连续的文本切分成有意义的词语或词组。

在中文分词中，最大正向匹配分词算法是一种常见的分词方法。

该算法基于词典，通过从左到右依次匹配最长的词进行分词。

优点•算法简单、效率高，适用于大规模文本的分词任务。

•对于常见词汇的分词效果较好。

缺点•对于歧义词汇的分词效果较差。

由于该算法只依次匹配最长的词，因此可能会将歧义词汇按错误的方式进行分词。

•无法处理未登录词。

如果分词的文本中存在词典中未包含的词汇，该算法将无法正确地进行分词。

算法步骤最大正向匹配分词算法的步骤如下：1.定义一个词典，包含常见的词汇。

2.从待分词的文本的左侧开始，选择词典中最长的词作为候选词。

3.判断候选词是否存在于词典中。

4.如果候选词存在于词典中，将该词作为分词结果的一部分，然后从待分词文本的右侧继续进行分词。

5.如果候选词不存在于词典中，将候选词的最后一个字去除，然后将剩余的部分作为新的候选词。

6.重复步骤3和步骤4，直到待分词的文本为空。

算法示例假设我们有一个词典：[“最大”, “正向”, “匹配”, “分词”, “算法”]。

我们要对文本”最大正向匹配分词算法”进行分词。

1.从文本的左侧开始，选择最长的词”最大正向”作为候选词。

2.判断候选词”最大正向”存在于词典中。

3.将候选词”最大正向”作为分词结果的一部分。

4.从待分词的文本的右侧继续进行分词，此时待分词的文本为”匹配分词算法”。

5.从文本的左侧开始，选择最长的词”匹配”作为候选词。

6.判断候选词”匹配”存在于词典中。

7.将候选词”匹配”作为分词结果的一部分。

8.从待分词的文本的右侧继续进行分词，此时待分词的文本为”分词算法”。

9.从文本的左侧开始，选择最长的词”分词”作为候选词。

10.判断候选词”分词”存在于词典中。

11.将候选词”分词”作为分词结果的一部分。

12.从待分词的文本的右侧继续进行分词，此时待分词的文本为”算法”。

基于改进Trie树结构的正向最大匹配算法

基于改进Trie树结构的正向最大匹配算法熊志斌;朱剑锋【摘要】In this paper we present an improved Trie tree structure,the tree node records the position information of the character in forming a word,the sub-node uses hash searching mechanism,and based on this basis we optimise the forward maximum matching algorithm (FFM)for Chinese word segmentation.In segmentation process we utilise automata mechanism to judge whether the longest word is formed, this solves the problem that the forward maximum matching algorithm requires to adjust the character string according to the length of the word.The time complexity of the algorithm is 1.33,the contrast experimental results show that there is the faster word segmentation speed. The forward maximum matching algorithm based on the improved Trie tree structure improves the speed of Chinese word segmentation,and is particularly suitable for the situations where the lexicon structure requires real-time update.%提出一种改进的Trie树结构，树节点记录了字符串与构词的位置信息，子节点采用哈希查找机制，在此基础上优化了中文分词的正向最大匹配算法。

正向最大匹配和反向最大匹配

正向最大匹配和反向最大匹配最近看了一下分词算法的东西，整理如下：下面介绍的分词算法中最简单的正向最大匹配和反向最大匹配。

这种两种方法都是机械分词方法，它是按照一定的策略将待分析的汉字串与一个”充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。

按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。

常用的几种机械分词方法如下：1）正向最大匹配法（由左到右的方向）；2）逆向最大匹配法（由右到左的方向）；3）最少切分（使每一句中切出的词数最小）。

还可以将上述各种方法相互组合，例如，可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。

由于汉语单字成词的特点，正向最小匹配和逆向最小匹配一般很少使用。

一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。

统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245。

但这种精度还远远不能满足实际的需要。

实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。

一种方法是改进扫描方式，称为特征扫描或标志切分，优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而减少匹配的错误率。

另一种方法是将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而极大地提高切分的准确率定义比较抽象，举个例子来说明正向最大匹配和反向最大匹配。

例子:’今天来了许多新同事’1.正向最大匹配方式，最大长度为5今天来了许今天来了今天来今天====》得到一个词–今天来了许多新来了许多来了许来了来====》得到一个词–来了许多新同了许多新了许多了许了====》得到一个词–了许多新同事许多新同许多新许多====》得到一个词–许多新同事新同新====》得到一个词–新同事====》得到一个词–同事最后正向最大匹配的结果是：/今天/来/了/许多/新/同事/2.反向最大匹配方式，最大长度为5许多新同事多新同事新同事同事====》得到一个词–同事来了许多新了许多新许多新多新新====》得到一个词–新天来了许多来了许多了许多许多====》得到一个词–许多今天来了天来了来了了====》得到一个词–了今天来天来来====》得到一个词–来今天====》得到一个词–今天最后反向最大匹配的结果是：/今天/来/了/许多/新/同事/正向最大匹配和反向最大匹配的结果并不一定相同例子:’我一个人吃饭’1.正向最大匹配方式，最大长度为5我一个人吃我一个人我一个我一我====》得到一个词–我一个人吃饭一个人吃一个人一个====》得到一个词–一个人吃饭人吃人====》得到一个词–人吃饭====》得到一个词–吃饭最后正向最大匹配的结果是：/我/一个/人/吃饭/2.反向最大匹配方式，最大长度为5一个人吃饭个人吃饭人吃饭吃饭====》得到一个词–吃饭我一个人一个人个人====》得到一个词–个人我一一====》得到一个词–一我====》得到一个词–我最后反向最大匹配的结果是：/我/一/个人/吃饭/这次两种方式的结果就不一致了。

一种改进的中文分词算法

一种改进的中文分词算法祁文青() 黄石理工学院计算机学院 ,湖北黄石 435003摘要 :汉语自动分词是汉语信息处理的前提 ,词库是汉语自动分词的基础。

文章提出了一种在对词库进行改造的基础上改进的匹配算法 ,突破了最大匹配分词算法分词的长度限制 ,提高了中文分词的速度和效率。

关键词 :中文信息处理 ; 中文分词 ; 最大匹配法分词算法文献标识码 : A中图分类号 : TP30116An Im proved M ax im um M a tch ing M ethod forCh inese W ord Segm en ta tionQ i W enqing( )Schoo l of Comp u te r Sc ience, Huangsh i In stitu te of Techno logy, H uangsh i H ube i 435003 Abstrac t: Ch inese wo rd segm enta tion is the p repa ra tion fo r Ch inese info rm a tion p roce ssing. The d ic tiona ry m echan ism is a ba sic componen t of Chinese wo rd segmen ta tion system s. In th is p ape r, the autho r pu ts fo rwa rd an imp roved M axim um M a tching M e thod fo r Ch ine se W o rd Segm entation on a new d ic tiona ry mechanism compa red w ith existing typ ical d ic tion2 a ry m echan ism s, wh ich imp roves the speed and effic iency of Ch ine se wo rd segmen ta tion system s.Key words: Chine se info rm a tion p rocessing; Chine se wo rd segm entation; M axim um M a tch ing M e thod fo r Ch inese W o rd Segmen ta tion111 理解式切分法理解式切分法其分词系统由词库、知识库和推 0 引言理机部分组成。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ＫｅｒｓＣｈｎｓｅｅｔｔｏ；ａｈｓｕｔｒ；ｅｅｓｉｃｉｎｌｘｍｕｔｈｍｅｏ；ｉｔｎｒｃａｉｍ；ｉｐｌｍｂｇｉｙｗｏｄ：ｉｅｅｓｇｎｉｎｈｓｔｃｕｅｒｖｒｅｒｔａｉｍｍａｃｔｄｄｃｉａｙｍｅｈｓｄｓｅｉｕｔｍａｒｄｅｏｍａｈｏｎａｙ
ｂｓｄｎａｈｔｃｒ，ａｄｎｉｒｖｄｅｅｓｄｅｔｎｌｘｍｕｍａｈｔｏ（ＭＭ）ｉｐｔｏｗｄｈｉｍｅｏｈｓｅａｅｓｒｔｅｎｏｅｖｒｅｉｃｉａｍａｉｍｔｈｄＲｏｈｓｕｕａｍｐｒｒｏｃｍｅｓｕｒａ．Ｔｓｔｄｅｆｒｈｍｐａｉｄｚ
ＡｂｔａｔＴｎｌｓｈｉｅｅｓｍａｔｈａｅ，ｏｅｍｕｔｄｖｄｈｅｔｎｅｎｏｗｏｄ．Ｃｈｎｓｅｍｅｔｔｎｉｔｅｍｏｔｓｒｃ：ｏａａｙｅｔｅＣｈｎｓｅｎｉｐｒｓｓｃｎｓｉｉｅｔｅｓｎｅｃｓｉｔｒｓｉｅｅｓｇｎａｉｓｈｓｏ
ｉｏｔｎａｔｆｉｅｅｉｆｒａｉｎｐｏｅｓＴｅｓｅｄａｄａｃｒｃｆｅｅｔｔｎｉｆｕｎｅｔｅｒｓｌｆｉｆｒａｉｎｐｏｅｓｇｍｐｒｔｒｎｓｏｍｔｏｒｃｓ．ｈｐｅｃｕａｙｏｇｎｉｌｅｃｅｕｔｏｏａｐｏＣｈｎｎｓｍａｏｎｈｓｎｍｔｒｃｓｉ．ｏｎＴａｉｏａｉｔｎｒｃａｉｍｓｄｗｏｄｓｇｅｔｔｏｔｏａｅｉｒｖｄＭｅｗｈｌ，ｅｄｃｉｎｒｃａｉｍｒｖｄｄｒｄｔｎｌｃｏａｙｍｅｈｎｓｒｍｎａｉｎｍｅ￣ｒｉｄｉｎａｅｈｍｐｏｅ．ｎａｉａｎｗｉｔａｙｍｅｈｓｉｐｏｉｅｅｏｎｓ
基于Ｈｓａｈ结构的逆向最大匹配分词算法的改进
丁振国，张卓，黎靖
（西安电子科技大学计算机学院，陕西西安７０７）１０１
摘要：分析中丈的语义，首先要对句子进行分词。中丈分词是中文信息处理中最重要的预处理，分词的速度和精度直接影
Ｉｒｖｍｅｔｎｒｖｒｅｄｒｃｉｎｌｘｍｕｍａｃｉｇｍｅｈｄｂｓｄｏａｈｍｐｏｅｎｅｓｉｔａｏｅｅｏｍａｉｍｔｈｎｔｏａｅｎｈｓ
ｓｒｃｕｅｆｒｉｅｅｗｏｄｓｇｎａｉｎｔｕｔｒｏｎｓｒｅｍｅｔｔＣｈｏ
ＤＩＮＧｈｎｇｏＺＺｅ－ｕ，ＨＡＮＧｈｏＬＩＪｎＺｕ，ｉｇ
（ｏｌｅｆｏｐｔｒｃｎｅＸｉｉｎｖｒｉ，ｉｎ７７，ｈａＣｌｇｍｕｅｉｃ，ｄａＵｉｓｙＸ ’ １０Ｃｉ）ｅｏＣＳｅｎｅｔａ１０ｎ
维普资讯
第２９卷第ｌ期２
ＶＯ．１２９ＮＯ．２１
计算机工程与设计
ＣｏｍｐｔｒｇｎｅｎｎｓｇｕｅＥｎｉｅｒｇａｄＤｅｉｎｉ
２０年６０８月
Ｊｎ０８ｕｅ２０
法可能产生的歧义。实验结果表明，分词算法在运行效率和结果的准确性方法有了很大的提高。该关键词：中文分词；哈希结构；逆向最大匹配算法；分词词典；消除歧义
中图法分类号：Ｐ９Ｔ３１
文献标识码：Ａ
文章编号：００７２２０）２３０—４１０ —０４（０８１—２８０
ｐｒｉｕａｌｎｔｅｓｅｄｏｓｇｅｔｔｎａｄｔｅａｃｒｃｆｅｅｔｔｎａｄｉｌｒｅｙｄｓｅｌｄｓｍｅｍｂｇｉｅａｙｂｒｄｃｄａｔｃｌｙｏｅｆｅｒｈｐｍｎｉｃｕａｙｏｓｇｎｉ，ａｏｎｈｍａｏｎｇｌｉｐｌｔａｅｏａｉｕｔｓｔｉｔｍａｅｐｏｕｅｈｂａｉｏａｘｉｍａｃｉｇｍｅｏ．Ｔｅｅｐｒｙｔｄｔｎｌｒｉｍａｍｕｍｔｈｔｄｈｘｅｍｅｔｎｉａｅａｅｓｇｅｔｔｎｍｅｏｒｖｄｏｖｏｓｎｒｎｉｇｅ－ｎｈｉｎｄｃｔｓｉｈｔｔｔｅｈｍｎｉｔｄｉｉａｏｈｓｍｐｏｅｂｉｕｌｏｎｎｆｙｕｉｉｎｙａｅａｉｏｔｅｒｓｌｆｃｅｃｄｖｒｃｔｆｈｅｕｔ．ｎｙｓ

响信息处理的结果。对传统的分词词典和算法进行了改进，出了基于Ｈｓ提ａｈ结构的分词词典机制，并给出了一种改进的逆
向最大匹配分词算法（Ｍ）砌。该算法在重点考虑切分速度的同时兼顾了切分精度，在很大程度上消除了传统的最大匹配算