中文分词简介

合集下载

中文分词

Class-based Ngram Ngram分词评价
能够处理大多数常用词带来的歧义问题不能处理新词以及新词带来的歧义问题
解决之道：Class-based Ngram
在统一的框架下进行分词与新词识别将词分为若干类
词典词：教师（词典处理）仿词：2000年（规则处理）新词：范路（基于类的新词识别）形态词：高高兴兴（规则处理）不同类型的词用不同处理方法，最后利用Ngram框架寻找全局最优切分结果
P(C ) ≅ ∏P(ci | ci−2ci−1)
m 1 i=1
m
P (S1n | C1m ) = P (s1, s2 ,⋅ ⋅ ⋅, sn | c1, c2 ,⋅ ⋅ ⋅, cm ) ≅ P ([s1,⋅ ⋅ ⋅, sc1−end],⋅ ⋅ ⋅,[scm−start,⋅ ⋅ ⋅, sn ] | c1, c2 ,⋅ ⋅ ⋅, cm ) ≅ ∏ P ([scj −start,⋅ ⋅ ⋅, scj −end] | c j )
中文分词一席谈
suntian@
内容提要
中文分词概述分词技术发展国际分词评测分词技术总结
中文分词概述
什么是分词？什么是分词？
分词就是利用计算机识别出文本中词汇的过程。比如句子“内塔尼亚胡说的确实在理”
中文分词概述（Cont.）
分词作用
互联网绝大多数应用都需要分词，典型应用实例汉字处理：拼音汉字处理：拼音输入法、手写识别、简繁转换 …告推荐、内容监控 … 语音处理：语音处理：语音识别、语音合成 … …
w w
P (W | O ) = max ∏ P ( wt | wt −1 , ot )
w t =1
T
W：分词结果 O：待分词文本
生成式分词（Cont.）

百度中文分词技巧

百度中文分词技巧什么是中文分词？我们都知道，英文句子都是由一个一个单词按空格分开组成，所以在分词方面就方便多了，但我们中文是一个一个汉字连接而成，所以相对来说是比较复杂的。

中文分词指的是将一个汉语句子切分成一个一个单独的词，按照一定的规则重新组合成词序列的过程。

这个也称做“中文切词”。

分词对于搜索引擎有着很大的作用，是文本挖掘的基础，可以帮助程序自动识别语句的含义，以达到搜索结果的高度匹配，分词的质量直接影响了搜索结果的精确度。

目前搜索引擎分词的方法主要通过字典匹配和统计学两种方法。

一、基于字典匹配的分词方法这种方法首先得有一个超大的字典，也就是分词索引库，然后按照一定的规则将待分词的字符串与分词库中的词进行匹配，若找到某个词语，则匹配成功，这种匹配有分以下四种方式：1、正向最大匹配法（由左到右的方向）；2、逆向最大匹配法（由右到左的方向）；3、最少切分（使每一句中切出的词数最小）；4、双向最大匹配法（进行由左到右、由右到左两次扫描）通常，搜索引擎会采用多种方式组合使用。

但这种方式也同样给搜索引擎带来了难道，比如对于歧义的处理（关键是我们汉语的博大精深啊），为了提高匹配的准确率，搜索引擎还会模拟人对句子的理解，达到识别词语的效果。

基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。

通常包括三个部分：分词子系统、句法语义子系统、总控部分。

在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。

这种分词方法需要使用大量的语言知识和信息，当然我们的搜索引擎也在不断进步。

二、基于统计的分词方法虽然分词字典解决了很多问题，但还是远远不够的，搜索引擎还要具备不断的发现新的词语的能力，通过计算词语相邻出现的概率来确定是否是一个单独的词语。

所以，掌握的上下文越多，对句子的理解就越准确，分词也越精确。

举个例子说，“搜索引擎优化”，在字典中匹配出来可能是：搜索/引擎/优化、搜/索引/擎/优化，但经过后期的概率计算，发现“搜索引擎优化”在上下文相邻出现的次数非常多，那么基于统计就会将这个词语也加入进分词索引库。

中文分词

P(W1) > P(W2)
提高计算效率如何尽快找到概率最大的词串（路径）？
到达候选词wi 时的累计概率
P' ( wi ) P' ( wi 1 ) P( wi )
P' (意见) P' (有) P(意见)
公式1
P' (有) P(有)
提高计算效率（续）

左邻词
假定对字串从左到右进行扫描，可以得到 w1, w2 , … , wi 1 , wi , … 等若干候选词，如果 wi 1 的尾字跟 wi 的首字邻接，就称 wi 1为 wi 的左邻词。比如上面例中，候选词“有”就是候选词“意见”的左邻词，“意见” 和“见”都是“分歧”的左邻词。字串最左边的词没有左邻词。
歧义词表 … 才能个人家人马上研究所 …
最大匹配法解决分词歧义的能力（续）
对于某些交集型歧义，可以通过增加回溯机制来改进最大匹配法的分词结果。例如：“学历史知识” 顺向扫描的结果是：“学历/ 史/ 知识/”，通过查词典知道“史”不在词典中，于是进行回溯，将“学历”的尾字“历”取出与后面的“史”组成 “历史”，再查词典，看“学”，“历史”是否在词典中，如果在，就将分词结果调整为：“学/ 历史/ 知识/”
最大概率法分词
词语 … 有有意意见见分歧 … 概率 … 0.0180 0.0005 0.0010 0.0002 0.0001 … P(W1) = P(有) * P(意见) * P(分歧) = 1.8 × 10-9 P(W2) = P(有意) * P(见) * P(分歧) = 1×10-11
有意/
有/
见/
意见/
分歧/
分歧/ B.“结合成分子时” （正向最大匹配和逆向最大匹配结果相同）结合/ 成分/ 子时/

es中英文分词

es中英文分词
在中英文分词中，中文分词是指将汉字序列切分成一个个词语的过程，而英文分词是指将英文句子或文本分割成一个个单词的过程。

中文分词的准确与否对于后续文本处理任务的准确性至关重要。

中文分词可以采用基于词典的方法或基于统计的方法。

基于词典的方法通过查找词典中的词语来进行分词，但无法处理新词或未收录在词典中的词语。

基于统计的方法基于大规模语料库进行训练，可以识别新词，并具有较好的分词效果。

英文分词相对来说比较简单，一般通过空格或标点符号将句子或文本中的单词分割开即可。

然而，英文中也存在缩写词、连字符、特殊名词等情况，这些可能会对分词的准确性造成挑战，需要结合语义和上下文信息进行处理。

总之，中英文分词对于文本处理和自然语言处理任务都具有重要意义，准确的分词结果能够为后续处理提供良好的基础。

中文分词简介

算法过程： (1) 相邻节点 v k-1 , v k 之间建立有向边 <v k-1 , v k > ，边对应的词默认为 c k ( k =1, 2, …, n) (2) 如果 w= c i c i+1 …c j (0<i<j<=n) 是一个词，则节点v i-1 , v j 之间建立有向边 <v i-1 , v j > ，边对应的词为 w
歧义切分问题
歧义字段在汉语文本中普遍存在，因此，切分歧义是中文分词研究中一个不可避免的“拦路虎”。（交集型切分歧义）汉字串AJB如果满足AJ、JB同时为词（A、J、B分别为汉字串），则称作交集型切分歧义。此时汉字串J称作交集串。如“结合成”、“大学生”、“师大校园生活”、“部分居民生活水平”等等。（组合型切分歧义）汉字串AB如果满足A、B、AB同时为词，则称作多义组合型切分歧义。 “起身”：（a）他站│起│身│来。（b）他明天│起身│去北京。 “将来”：（a）她明天│将│来│这里作报告。（b）她│将来│一定能干成大事。
中文分词的辅助原则
1. 有明显分隔符标记的应该切分之。 2. 附着性语素和前后词合并为一个分词单位。 3. 使用频率高或共现率高的字串尽量合并为一个分词单位。 4. 双音节加单音节的偏正式名词尽量合并为一个分词单位。 5. 双音节结构的偏正式动词应尽量合并为一个分词单位。 6. 内部结构复杂、合并起来过于冗长的词尽量切分。
其他分词方法
▶由字构词（基于字标注）的分词方法 ▶生成式方法与判别式方法的结合 ▶全切分方法 ▶串频统计和词形匹配相结合的分词方法 ▶规则方法与统计方法相结合 ▶多重扫描法
Part 5
总结
分词技术水平
自开展中文分词方法研究以来，人们提出的各类方法不下几十种甚至上百种，不同方法的性能各不相同，尤其在不同领域、不同主题和不同类型的汉语文本上，性能表现出明显的差异。总之，随着自然语言处理技术整体水平的提高，尤其近几年来新的机器学习方法和大规模计算技术在汉语分词中的应用，分词系统的性能一直在不断提升。特别是在一些通用的书面文本上，如新闻语料，领域内测试（训练语料和测试语料来自同一个领域）的性能已经达到相当高的水平。但是，跨领域测试的性能仍然很不理想。如何提升汉语自动分词系统的跨领域性能仍然是目前面临的一个难题。另外，随着互联网和移动通信技术的发展，越来越多的非规范文本大量涌现，如微博、博客、手机短信等。研究人员已经关注到这些问题，并开始研究。

中文分词原理

中文分词原理中文分词是指将一个汉字序列切分成一个个具有语言意义的词语的过程，是中文信息处理的基础工作之一。

在计算机领域中，中文分词是自然语言处理的重要环节，对于搜索引擎、信息检索、文本挖掘等应用具有重要意义。

本文将介绍中文分词的原理及相关内容。

首先，中文分词的原理是基于词语的语言学特征来进行切分。

中文词语之间并没有像英文那样的明显分隔符号，因此要进行中文分词就需要依靠词语的语言学特征来进行判断。

中文词语通常由一个或多个汉字组成，而且词语之间具有一定的语义关联，因此可以通过词语的语言学特征来进行切分。

其次，中文分词的原理还涉及到词语的频率统计和语境分析。

在进行中文分词时，需要利用大量的语料库来进行词语的频率统计，以确定词语的常见组合和概率。

同时，还需要进行语境分析，即根据词语在句子或文章中的上下文来确定词语的边界，以保证切分结果的准确性。

另外，中文分词的原理还包括了一些特定的算法和模型。

目前常用的中文分词算法包括基于词典的最大匹配法、逆向最大匹配法、双向最大匹配法等。

此外，还有基于统计模型的中文分词方法，如隐马尔可夫模型（HMM）、条件随机场（CRF）等。

这些算法和模型都是基于中文词语的语言学特征和频率统计来进行切分的。

总的来说，中文分词的原理是基于词语的语言学特征、频率统计和语境分析来进行切分的。

通过对词语的特征和语境进行分析，结合相应的算法和模型，可以实现对中文文本的准确切分。

中文分词的准确性对于中文信息处理具有重要意义，因此对于中文分词原理的深入理解和研究具有重要意义。

总结一下，中文分词原理是基于词语的语言学特征、频率统计和语境分析来进行切分的，通过相应的算法和模型实现对中文文本的准确切分。

中文分词对于中文信息处理具有重要意义，对其原理的深入理解和研究对于提高中文信息处理的效率和准确性具有重要意义。

中文分词的原理

中文分词的原理
中文分词是自然语言处理中的一个重要任务，其主要目的是将连续的中文文本划分成有意义的词语序列。

与英文不同，中文中的词语之间没有明显的间隔符号，因此，中文分词是一个相对复杂的问题。

中文分词的原理可以简单概括为基于词典的匹配和基于统计的方法。

基于词典的匹配是指通过一个词典来判断一个文本中的词语是否存在。

词典中包含了大量的中文词语，每个词语都有一个对应的词典项。

在分词过程中，系统会逐个扫描文本，并从词典中查找匹配项。

如果找到了匹配项，那么将这个词语划分出来；如果没有找到匹配项，那么就需要进行其他的处理方式。

基于词典的匹配方法可以保证分词的准确性，但是其覆盖范围有限，无法完全覆盖所有的词语。

基于统计的方法则是通过建立一个模型来预测一个文本中哪些位置可能是词语的分界点。

这个模型是通过大量的语料库训练得到的，其中包含了许多已经切好词的文本。

在分词过程中，系统会利用这个模型计算每个位置的分词概率，并选择概率最大的位置作为分界点。

基于统计的方法可以扩大分词的覆盖范围，但是可能会导致一些错误的切分结果。

在实际应用中，中文分词通常会将基于词典的匹配方法和基于统计的方法结合起来。

首先，通过基于词典的匹配方法，划分出词典中包含的词语；然后，利用基于统计的方法，对剩余的文本进行分词。

这种结合的方法可以兼顾准确性和覆盖范围，提高中文分词的效果。

总之，中文分词是中文自然语言处理中的重要任务。

它的原理包括基于词典的匹配和基于统计的方法。

通过合理地结合这两种方法，可以提高中文分词的准确性和覆盖范围，从而更好地满足人们对中文文本处理的需求。

汉语分词简介

汉语分词 9
主要的分词方法（三）
基于统计的分词方法：基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词无词典分词法也有一定的局限性, 会经常抽出一些共现频度高、但并不是词的常用字符串, , 如“这一”、“之一”以及“提供了”等等。在实际应用的统计分词系统中都要使用一部基本的分词词典(常用词词典)进行串匹配分词, 即将字符串的词频统计和字符串匹配结合起来, 既发挥匹配分词切分速度快、效率高的特点, 又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
汉语分词 17
结束语
从上面的分析来看，随着中文分词技术研究的不断深入，单独利用规则的方法会由于规则获取的限制，将越来越不能满足逐渐加快的信息的产生速度和识别速度的需求。而单独利用统计的方法，由于不能很好的表现词语内部的结构特征和最多的融合语言学信息，也将不能达到最好的效果。因此，在中文分词系统方面，各种分词方法相结合的技术模式将会成为主流，利用语言学家研究的成果以及更好的统计模型，将各种信息融合起来，达到最好的识别效果是我们的目标。
汉语分词
3
主要的分词方法（一）
基于字符串匹配的分词方法：按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功。可以切分, 否则不予切分。实现简单, 实用性强, 但机械分词法的最大的缺点就是词典的完备性不能得到保证。 a. 正向最大匹配（由左到右的方向） b. 逆向最大匹配法（由右到左的方向） c. 最少切分（使每一句中切出的词数最小） d. 双向匹配法（进行由左到右、由右到左两次扫描）
汉语分词 5
分析
“市场/中国/有/企业/才能/发展/” 对交叉歧义和组合歧义没有什么好的解决办法错误切分率为1／169 往往不单独使用，而是与其它方法配合使用

中文分词发展与起源

中文分词发展与起源
中文分词是一项重要的自然语言处理技术，它能够将一段连续的汉字文本分割成有意义的词语。

中文分词的发展可以追溯到上个世纪70年代，当时计算机技术还不够发达，所以大部分分词方法都是基
于规则、词典或者统计的方式。

这些方法虽然可以实现中文分词，但是效果不够准确，容易产生歧义。

随着计算机技术的飞速发展，中文分词技术也得到了极大的提升。

从20世纪90年代开始，随着机器学习、人工智能等技术的逐渐成熟，中文分词技术得以迎来新的发展。

从最早的基于规则的分词方法，到后来的基于统计的分词方法，再到现在的深度学习分词方法，中文分词技术的准确度和效率都得到了极大的提高。

中文分词的起源可以追溯到古代汉语书写的时期。

在古代，由于没有标点符号的使用，人们需要通过词语之间的间隔来辨别句子的意思。

在隋唐时期，人们开始使用“空格”来分隔句子，这也是中文分词的起源之一。

随着时间的推移，中文分词技术得到了不断地改进和发展，如今已经成为自然语言处理领域中不可或缺的一项技术。

- 1 -。

中文分词

汉语的修饰在前

他说的确实在理
他/说/的确/实在/理他/说/的/确实/在理

双向匹配
最短路径算法

最少分词问题等价于在有向图中搜索最短路径问题
发 1 2
展 3
中 4
国 5
家 6
基于统计的最短路径分词算法

基本的最短路径每条边的边长为1
当最短路径有多条时，往往只保留一条结果

南京市长江大桥
南京市/长江大桥南京/市长/江大桥
歧义例子续

当结合成分子时
当/结合/成分/子时当/结合/成/分子/时当/结/合成/分子/时当/结/合成分/子时
中文分词歧义分类

交集型歧义
如果AB和BC都是词典中的词，那么如果待切分字串中包含“ABC”这个子串，就必然会造成两种可能的切分：“AB/ C/ ” 和 “A/ BC/ ”。比如“网球场”就可能造成交集型歧义（网球/ 场/ : 网/ 球场/）。
路径1： 0－1－3－5
路径2： 0－2－3－5
该走哪条路呢？
最大概率法分词

S: 有意见分歧
W1: 有/ 意见/ 分歧/ W2: 有意/ 见/ 分歧/
Max(P(W1|S), P(W2|S)) ?
P( S | W ) P(W ) P(W | S ) P(W ) P( S )
P(W ) P( w1, w2 ,...,wi ) P( w1 ) P( w2 ) ... P( wi )
对其它符合要求的路径不公平

这里考虑每个词的权重，即每条边的边长不相等
最简单的权重是词频（必须真实、科学有效）

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

FMM 算法过程： (1) 令令 i=0 ，当前指针 p i 指向输入字串的初始位置，执行下面的操作： (2) 计算当前指针 p i 到字串末端的字数（即未被切分字串的长度）n ，如果n=1 ，转 (4) ，结束算法。否则，令 m= 词典中最长单词的字数，如果n<m, 令令 m=n (3) 从当前 p i 起取m 个汉字作为词 w i ，判断： (a) 如果 w i 确实是词典中的词，则在w i 后添加一个切分标志，转(c) ； (b) 如果 w i 不是词典中的词且 w i 的长度大于1 ，将 w i 从右端去掉一个字，转(a) 步；否则（w i 的长度等于1 ），则在w i 后添加一个切分标志，将w i 作为单字词添加到词典中，执行 (c) 步； (c) 根据 w i 的长度修改指针 p i 的位置，如果 p i 指向字串末端，转(4) ，否则， i=i+1 ，返回 (2) ； (4) 输出切分结果，结束分词程序。
研究意义
中文分词是计算机处理汉字的首要也是基础性工作，只有不断提高中文分词算法的效率才能跟上信息爆炸增长的现状，使我国信息技术相关方面在 21 世纪能够稳步发展。
Part 3
中文分词的主要问题
难点一
分词规范问题
难点二
歧义切分问题
难点三
未登录词问题
分词规范问题
“词”这个概念一直是汉语语言学界纠缠不清而又挥之不去的问题。“词是什么”（词的抽象定义）及“什么是词”（词的具体界定），这两个基本问题有点飘忽不定，迄今拿不出一个公认的、具有权威性的词表来。主要困难出自两个方面：一方面是单字词与词素之间的划界，另一方面是词与短语（词组）的划界。此外，对于汉语“词”的认识，普通说话人的语感与语言学家的标准也有较大的差异。有关专家的调查表明，在母语为汉语的被试者之间，对汉语文本中出现的词语的认同率只有大约70％，从计算的严格意义上说，自动分词是一个没有明确定义的问题。建立公平公开的自动分词评测标准一直在路上。
NLP
中文分词算法与技术认识探讨
01
什么是中文分词为什么要中文分词中文分词的主要问题中文分词的具体实现总结
02
目录
03 04
05
Part 1
什么是中文分词
概念
自然语言处理（NLP, Natural Language Processing）是用机器处理人类语言（有别于人工语言，如程序设计语言）的理论和技术。自然语言处理是人工智能的一个重要分支。中文信息处理是指自然语言处理的分支，是指用计算机对中文进行处理。和大部分西方语言不同，书面汉语的词语之间没有明显的空格标记，句子是以字串的形式出现。因此对中文进行处理的第一步就是进行自动分词，即将字串转变成词串（计算机在词与词之间加上空格或其他边界标记），这就是中文分词。中文分词是中文自然语言处理的一项基础性工作，也是中文信息处理的一个重要问题。
人工智能
中文信息处理
中文分词
自然语言处理
图1
NLP几个相关概念关系示意图
例子
• I am a member of 519 lab in Jiangsu Normal University.
• 2018年3月13日上午在人民大会堂举行第十三届全国人大一次会议的第四次全体会议。
2018/年/3/月/13/日/上午/在/人民大会堂/举行/ 第十三届/全国人大一次会议/的/第四次全体会议。
(3) 重复步骤(2) ，直到没有新路径( 词序列) 产生。 (4) 从产生的所有路径中，选择路径最短的( 词数最少的) 作为最终分词结果。
优点： • 切分原则符合汉语自身规律； • 需要的语言资源（词表）也不多。缺点： • 对许多歧义字段难以区分，最短路径有多条时，选择最终的输出结果缺乏应有的标准； • 字串长度较大和选取的最短路径数增大时，长度相同的路径数急剧增加，选择最终正确的结果困难越来越越大。
中文分词方法
基于词典的分词法
基于统计的分词法
基于规则的分词法
￭基于词典的分词法
按照一定策略将待分析的汉字串与一个大机器词典中的词条进行匹配，若在词典中找到该字符串，则匹配成功。
▶最大匹配法 (Maximum Matching, MM)——有词典切分、机械切分正向最大匹配算法（Forward MM, FMM）逆向最大匹配算法 (Backward MM, BMM) 双向最大匹配算法 (Bi-directional MM) 假设句子：，某一词：，m为词典中最长词的字数。
￭基于统计的分词法
随着大规模语料库的建立，统计机器学习方法的研究和发展，基于统计的中文分词方法渐渐成为了主流方法。把每个词看做是由词的最小单位各个字总成的，如果相连的字在不同的文本中出现的次数越多，就证明这相连的字很可能就是一个词。因此我们就可以利用字与字相邻出现的频率来反应成词的可靠度，统计语料中相邻共现的各个字的组合的频度，当组合频度高于某一个临界值时，我们便可认为此字组可能会构成一个词语。 ▶N元文法模型（N-gram）模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。那么，对于一个句子T，我们怎么算它出现的概率呢？
假设该句子T是由词序列W1,W2,W3,…Wn组成的，那么 P(T)=P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1) 但是这种方法存在两个致命的缺陷：一个缺陷是参数空间过大，不可能实用化；另外一个缺陷是数据稀疏严重。为了解决这个问题，我们引入了马尔科夫假设：一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词。如果一个词的出现仅依赖于它前面出现的一个词，那么我们就称之为bigram。即 P(T)=P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1) ≈P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1) 如果一个词的出现仅依赖于它前面出现的两个词，那么我们就称之为trigram。
歧义切分问题
歧义字段在汉语文本中普遍存在，因此，切分歧义是中文分词研究中一个不可避免的“拦路虎”。（交集型切分歧义）汉字串AJB如果满足AJ、JB同时为词（A、J、B分别为汉字串），则称作交集型切分歧义。此时汉字串J称作交集串。如“结合成”、“大学生”、“师大校园生活”、“部分居民生活水平”等等。（组合型切分歧义）汉字串AB如果满足A、B、AB同时为词，则称作多义组合型切分歧义。 “起身”：（a）他站│起│身│来。（b）他明天│起身│去北京。 “将来”：（a）她明天│将│来│这里作报告。（b）她│将来│一定能干成大事。
几种最大匹短； ·仅需要很少的语言资源（词表），不需要任何词法、句法、语义资源；缺点： ·歧义消解的能力差； ·切分正确率不高，一般在95 ％左右。
▶最少分词法（最短路径法）
基本思想：设待切分字串 S=c 1 c 2 …c n ，其中c i (i =1, 2, …, n)为单个的字， n 为串的长度，n>=1 。建立一个节点数为n+1 的切分有向无环图G ，各节点编号依次为V 0 ，V 1 ，V 2 ，…，V n 。
例如：现在，我们要对“南京市长江大桥”这个句子进行分词，假设m=5，根据正向最大匹配的原则：①先从句子中拿出前5个字符“南京市长江”，把这5个字符到词典中匹配，发现没有这个词，那就缩短取字个数，取前四个 “南京市长”，发现词库有这个词，就把该词切下来；②对剩余三个字“江大桥”再次进行正向最大匹配，会切成“江”、“大桥”；③整个句子切分完成为：南京市长、江、大桥；思考：同样的例子如果采用逆向最大匹配算法呢？
中文分词的辅助原则
1. 有明显分隔符标记的应该切分之。 2. 附着性语素和前后词合并为一个分词单位。 3. 使用频率高或共现率高的字串尽量合并为一个分词单位。 4. 双音节加单音节的偏正式名词尽量合并为一个分词单位。 5. 双音节结构的偏正式动词应尽量合并为一个分词单位。 6. 内部结构复杂、合并起来过于冗长的词尽量切分。
算法过程： (1) 相邻节点 v k-1 , v k 之间建立有向边 <v k-1 , v k > ，边对应的词默认为 c k ( k =1, 2, …, n) (2) 如果 w= c i c i+1 …c j (0<i<j<=n) 是一个词，则节点v i-1 , v j 之间建立有向边 <v i-1 , v j > ，边对应的词为 w
未登录词分类情况
Part 4
中文分词的具体实现
中文分词的基本原则
1.语义上无法由组合成分直接相加而得到的字串应该合并为一个分词单位。例如：不管三七二十一（成语），或多或少（副词片语），十三点（定量结构），六月（定名结构），谈谈（重叠结构，表示尝试），辛辛苦苦（重叠结构，加强程度），进出口（合并结构） 2.语类无法由组合成分直接得到的字串应该合并为一个分词单位。 (1) 字串的语法功能不符合组合规律，如：好吃，好喝，好听，好看等 (2) 字串的内部结构不符合语法规律，如：游水等
1%
句子比例
9%
90%
情况一
图3
情况二
情况三
据SunM.S. 和 Benjamin K.T. （1995）的研究表明，中文中90.0％左右的句子，正向最大匹配法和逆向最大匹配法完全重合且正确，只有大概9.0 ％的句子两种切分方法得到的结果不一样，但其中必有一个是正确的（歧义检测成功），只有不到1.0％的句子，或者正向最大匹配法和逆向最大匹配法的切分虽重合却是错的，或者正向最大匹配法和逆向最大匹配法切分不同但两个都不对（歧义检测失败）。这正是双向最大匹配法在实用中文信息处理系统中得以广泛使用的原因所在。