分词方法详解

分词方法详解
分词方法详解

《汉语分词的主要技术及其应用展望》

一、汉语自动分词的提出

词具有语音、语义和结构三大特征,其语义特征表现在必须具备一定的意义,表明客观现实中的某一事物的性质、特征、行为和关系等,没有意义的词是不存在的。词里包含有两种不同性质的意义:词汇意义和语法意义。词的结构特征表现在词在结构上是一个不可分割的整体,其意义不是它的几个构成成分(如果存在的话)的意义的简单总和。

人们在阅读时,大脑有一个模糊的分词过程,它是与视觉到声音的转换和语义理解交叉或同时进行的,并以语感的形式体现出来,由于文化修养和知识水平的差异,不同的人对词和非词,词和词组的预感差别很大。因而人工分词的同一性得不到保证。北京航空学院曾做过一个实验,三十余个具有高中文化水平的青年对五百字的一个语言材料人工分词,同一率只有50%左右。在大篇文字材料处理时,人工分词不仅速度慢,长时间单调枯燥工作也使错误切分次数大大增加。这些都表明人工分词不能满足汉字处理现代化的要求,但要对书面汉语实现计算机自动分词,并非易事,这与汉语特性有很大关系。与印欧语系相比,现代汉语至少在四个方面于分词不利:第一,汉语的词不分写,而且词无明确的形态标志,这给计算机进行汉语的词法分析带来一大障碍。其次,汉语是一种无形态变化的分析型语言,缺乏明显的句法形式标记,其语法主要靠虚词和不同的词序来实现。第三,汉语的形态不发达,增加了语言的表层结构对语义的依赖性,所以,汉语句子成分的语法作用强烈依赖于该成分的意义。第四,汉语构词具有极大的灵活性和自由性。只要词汇意义和语言习惯允许,就能组合起来,没有限制。如果在自动分词处理时,既不进行语法分析,也不进行语义理解,只是机械的匹配比较,那很容易实现,但必然会出现许多错误切分,而要提高分词精度,就必须进行语法分析和语义理解,于是就引发了一系列耐人寻味的问题。

汉语词自动切分是计算机中文信息处理的第一步,也是计算机科学界、语言文字学界以及信息管理学界所面临的挑战性难题,这一“瓶颈”的解决是计算机自然语言理解、人工智能、信息检索、机器翻译和自动文摘等领域突破的关键, 长期以来一直困扰着这一研究领域的许多专家学者。尽管汉语词自动切分研究已经取得了可喜的进展,但是在汉语词的规范、自动分词算法突破、切分歧义处理、自然语言理解和人工智能等诸多领域还存在着难以克服的阻碍,仍需要多个学科领域的专家学者们通力协作,才能获得新的突破。

二、现有的分词方法

为了克服汉语词计算机自动切分这一难题, 许多年来, 大量的学者都加入

了这一领域的研究, 使汉语自动分词取得了丰硕的研究成果。近年来, 语言学

界、人工智能领域和情报检索界的学者们, 在汉语自动分词与自动标引的研究

与实践上进行了大量的研究, 找到了许多解决汉语分词的方法,归纳起来有:

最大匹配法、逆向最大匹配法、逐词遍历法、设立切分标志法、最佳匹配法、

有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想

——回溯法、双向扫描法、邻接约束法、扩充转移网络分词法、语境相关法、

全自动词典切词法、基于规则的分词法、多遍扫描联想法、部件词典法、链接

表法、最少分词词频选择法、专家系统分词法、基于神经网络的分词方法等22 种。

归纳起来, 目前国内公开报道过的分词系统采用的分词方法主要有三种类

型:

(1) 机械分词法。机械分词法主要有最大匹配法(MM法)、逆向最大匹配法(RMM 、OMM 、IMM )、逐词匹配法、部件词典法、词频统计法、设立标志法、并行分词法、词库划分和联想匹配法等。

(2) 语义分词法。语义分词法引入了语义分析, 对自然语言自身的语言信

息进行更多的处理, 如扩充转移网络法、知识分词语义分析法、邻接约束法、

综合匹配法、后缀分词法、特征词库法、约束矩阵法、语法分析法等。

(3) 人工智能法。又称理解分词法, 人工智能是对信息进行智能化处理的

一种模式, 主要有两种处理方式: 一种是基于心理学的符号处理方法。模拟人

脑的功能, 像专家系统。即希望模拟人脑的功能, 构造推理网络, 经过符号转

换, 从而可以进行解释性处理。一种是基于生理学的模拟方法。神经网络旨在

模拟人脑的神经系统机构的运作机制来实现一定的功能。以上两种思路也是近

年来人工智能领域研究的热点问题, 应用到分词方法上, 产生了专家系统分词

法和神经网络分词法。

这些方法又大体上可分为两类: 一类是基于规则的, 大多数中文分词方法

都属此类; 一类是基于语料库的, 如神经网络分词法部分的属于此类。基于规

则的分词算法的计算模型均是概率论中的马尔可夫过程又称元语法、隐马尔可

夫过程和通信中的信道噪声模型。但无论是马尔可夫过程还是信道噪声模型,

最后都归结为计算词频的统计信息, 串频和互信息是词频的另一种表现形式。

但遗憾的是自然语言远不是一个经过事先精心规划的系统, 难以用一套完整的

规则去准确地预测正式汉语文本中所出现的各种变异。

1.最大匹配法(MM)

这种方法又称5-4-3-2-1查词法,最长匹配法,回巡检索法,其基本思想是:

假设自动分词词典中的最长词条所含汉字个数为i,则取被处理材料当前字符

串序列中的前i个字作为匹配字段,查找分词词典,若词典中有这样一个i字词,

则匹配成功,匹配字段作为一个词被切分出来,如果词典中找不到这样的一个

i字词,则匹配失败,匹配字段去掉最后一个汉字,剩下的字符作为新的匹配

字段,再进行匹配,如此进行下去,直到匹配成功为止。有专家统计过,MM法的错误切分率为1/169。

2.逆向最大匹配法(RMM)

这种方法的分词过程与MM法相同,不过是从句子(或文章)末尾开始处理,每

次匹配不成功时去掉的是前面的一个汉字。据说RMM方法的分词精度比MM法要高,其错误切分率是1/245。

3.逐词遍历法

把词典中的词按由长到短递减的顺序逐字搜索整个待处理材料,一直到把全部

词切分出来为止。不论分词词典多大,被处理材料多么小,都得把整个分词词

典匹配一遍。

上述三种方法思路清楚,易于机器实现,但由于是把词典作为判词得唯一标准

,忽略了汉语词汇得灵活多变性,因而局限性大,出错率高,拒分现象严重,

时间复杂度高,这是它们不能被单一采用得最主要原因。

4.设立切分标志法

切分标志有自然和非自然之分。自然切分标志是指文章中出现得非文字符号,

如标点符号等。非自然标志是利用词缀和不构成词得词(包括单音词,复音节

词以及象声词等)。设立切分标志法首先收集众多得切分标志,分词时先找出

切分标志,把句子切分为一些较短得字段,然后用MM、RMM或其他方法进行细加工。这种方法并非真正意义上得分词方法,只是自动分词得一种前处理方式

而已,它要额外消耗时间扫描切分标志,增加存贮空间存放那些非自然切分标

志。

5.最佳匹配法(OM)

此法由北京航空航天大学提出,分为正向得最佳匹配和逆向得最佳匹配法。其

出发点是:在词典中按词频的大小顺序排列词条,以求缩短对分词词典的检索

时间,达到最佳效果,从而降低分词的时间复杂度,加快分词速度。实质上,

这种方法也不是一种纯粹意义上的分词方法,它只是一种对分词词典的组织方

式。OM法的分词词典每条词前面必须有指明长度的数据项,所以其空间复杂度

有所增加,对提高分词精度没有影响,分词处理的时间复杂度有所降低。

6.有穷多层次列举法

其基本思路是:把待处理材料中标点符号区分的语言片断作处理对象,先处理

不用查词表的具有特殊标志的字符串,如阿拉伯数字,拉丁字母等,然后用环

境词表确定属于15类可列举的词,即先判断一个词能否组成多音词,如五音词

,四音词,三音词,双音词,最后确定是否为单音词,这样便把一个个语段化

分成较小语段。这实际上是切分标志法的一种变形方法。

7.二次扫描法

其基本思想是:取待处理材料中两个切分标志之间的部分作为样本串,检查分

词词典中是否有一个词,它的前两个汉字和该样本串相同,若有的话,则取样

本串的前三个汉字作为匹配串,重新在分词词典中找以匹配串为子串的词,若

有,则重复下去,直到进行到i个汉字为止,(设i为分词词典中最长词所含汉

字的个数),则切分出一个i字词;若没有,则完成一次扫描;把匹配串的最

后一个汉字去掉,作为新的匹配串,进行第二次扫描,第二次扫描用RMM或MM 法进行。

8.高频优先分词法

这种方法基于词频统计、字与字之间构词结合力和歧义切分等现象的分析而提

出。它不是纯粹意义上的机械分词方法,而是在分词过程中处理歧义字段的一

种方式,例如,AB、BC是两个词,如果BC的频度比AB大,则ABC这一歧义字段应切分为A/BC。该方法的一个明显缺点是频度较低的词,永远被错误切分。如

果仅考虑当前正在处理文本中的词频的话,将会得到良好效果,问题是如何得

到当前正在处理文本的词频。这种方法增加分词的空间复杂度,低频词的错误

切分难以克服,目前尚未见成功的报道。

9.基于期望的分词法

该法是基于汉语语法及语用规律以及人们语言习惯而提出,它认为一个词的出

现对于它后面紧相随的词有一种期望。当然是期望大的词优先,分词时根据期

望,到期望值较大的词所在的词库中找出所对应的词,从而切分出相对应的词

。这种方法增加了分词的时空复杂度,但在一定程度上提高了分词的精度。目

前该法仍处于理论探讨阶段。

10.联想-回溯法

其基本做法是:首先将待切分的汉语言文本,依据特征库分割为若干子串,每

个子串为词或词群(几个词组合而成的线性序列),然后再用实词库和规则库

将词群细分为词。这种方法实际上采用了设立切分标志法和有穷多层次列举法

的思想,由于实行分级建库,故增加了分词的空间复杂度,把分词过程分解成

分割和细分两个过程,使得分词的时间复杂度增大。它能提高分词精度,具备

可行性,已在机器上实现。

11.双向扫描法

该法重点是放在检错和纠错上,基本做法是将正向扫描(MM)和逆向扫描(RMM)的结果相比较,一致的部分认为是正确的,不一致的部分(称为疑点

)则采用人工干预、记频算法或上下文相关信息选取一种切分。这种方法对于

正、逆向扫描结果一致而被认为正确但实际上切分不正确的字段(例如“结合

成分子时”)没有强有力的处理手段。时间复杂度比单向扫描至少增加一倍。

其分词词典必须同时支持正逆两种顺序的检索,词典结构无疑是比较复杂的,

或者要设立两种结构的词典。此方法可作为一种检查歧义字段的方法,但其效

果尚不如词尾字构词法。

12.邻接约束法

这种方法是利用自然语言中的邻接约束排除不合适切分以提高分词精度。由于

汉语句法语义或习惯用法的限制,或人们为了避免造成阅读上的困难,相邻词

语之间有一种约束关系,例如“那里”不能切分成“那/里”。汉语中某些单

词在句法结构中不拥有或只能条件拥有某些固定位置(如句子或片段的开头或

结尾等),不同类型的单词之间具有特定的约束(如副词、助动词一般不后接

名词等),某些单音动词只在特定文体或格式中出现(如“知”一般不单独出现),等等,这些语言现象可以用来解决部分歧义切分问题。

13.扩充转移网络分词法

本世纪六十年代末由J.Thome等提出运用状态转移网络分析自然语言的思想,1970年由W.A.Woods等在前人工作的基础上提出了扩充转移网络(ATN),ATN 以有限状态机的概念为基础,用A TN来组织词典就可以构成一个动态词典,它可以带来静态词典所没有的好处,它能处理只作为词头或词尾的定位字,区分

词链字串或非词链字串,并使分词处理和语言理解的句法处理阶段的交互成为

可能。

14.语境相关法

这是一种基于扩充转移网络(A TN)以知识和理解为基础的分词方法,它是通

过将词典组织成为ATN结构,分词知识分散化,分词处理与句法语义处理并行等手段,能够处理现有种种分词方法所不能处理的词链现象,并实现分词与理

解的并行。

该法的基本思想是:系统从左向右扫描句子(汉字串),对于文本中的非词链

部分,它按最大匹配原则,选出与文本当前位置匹配的最长的词;对于词链,

分两个步骤作出切分,第一步是从左到右扫描句子,碰到词链即把切分此词链

的分词知识(字或字串的成词条件)放到栈工作区中;第二步是从右向左扫描

句子(此时句子是一个词或词链的序列),对词或词串作句法语义分析,分析

结果放到公共数据区中供分词使用。碰到词链,运行栈工作区中的“过程”,

切分次词链,直至栈工作区为空。据称该法已用语构造一个专家系统的汉语人

机接口。

与此法类似,有人还提出一种基于“分词和理解并行处理”的PTCUS分词法,它与“语境相关法”不同之处在于:PTCUS的方法对于句子中的词链,不是先跳过去,而是利用当前可用的动态句法语义结构信息,进行试探性切分(词的

生成),然后进行多种测试。词的生成和测试过程是分时并行的。测试过程同

时也是一个句法语义分析过程,它可产生句子的语义格结构。

15.全自动词典切词

该法完全使用切词规则切词,规则中的参数由词典提供,包括形式参数,语法

参数,语义参数,上下文参数等,如语法参数,在第一遍扫描中(字与字的组

合)中可规定:名名相联,动动相联,形名相联,动副不联等。上下文参数:

根据上下文语义不同区分字和词,如“把”字可作动词(把着门),名词(把

柄),介词(把东西取出来),量词(两把刀)等,不同的词根有不同的上下

文。

16.基于规则的分词法

这是一种机械切分与语义校正相结合的方法。它包括建立绝对切分标志符表,

变长度最大匹配法,2-3-1优先规则集,固有歧义切分校正法等。其分词算法

为:1读入字符串文本;2第一次扫视,根据绝对切分标志符表,扫视文本,添

加绝对切分标志“∧”;3计算两个“∧”间字段长度M及取领头字词长N,若

M=4,则转下一步,否则转第6步;5第二次扫视(变长度最大匹配法),取长度为K的最大匹配法,对4及4以上字词进行匹配;6

按2-3-1优先规则进行机械分词;7若有歧义切分标志,作第三次扫视,执行语

义校正算法,进行校正,否则转出口。

值得一提的是,在这种自动分词法中,专门设计提供了规则描述语言(RDL)

,用以书写和装入歧义切分校正规则。该法已在机器上实现。

17.多遍扫描联想法

这是一种组合方法,其基本做法是:首先用切分标志法把文本切分成若干子串

,它也分成两步,先是用自然切分标志对文本进行预处理,然后用非自然标志

结合联想库对文本进行分割;其次,利用实词词库和联想库再将词群细分为词

。分词时,利用语法知识特别是词法知识,联想和回朔机制同时作用于分割和

细分两个阶段,旨在有效解决歧义组合结构的切分问题,同时兼有自动纠错功

能。该方法需要分级建库,分别建造特征词词库,实词词库和联想规则库。

18.部件词典法

词典法的一大问题是冗余度高,且难穷尽所有词。上海交大提出“部件词典”

的概念.部件系指构成词的独立单元,故可分为词首、词尾和词干等若干类部

件,词部件有点像词素,但它本身也可是词或词组,以存储部件来代替存储原

词。这样,电脑中存储的不是所有的中文词,而是所要用到的词1-3字的词部

件以及由这些部件组词的部分信息。上海交大利用这种部件词典,成功对全国

报刊索引中的计算机类文献标题和中华人民共和国法规进行处理,可用率高达

98%以上。

19.链接表法

这种方法是在非用字后缀表抽词法的基础上发展起来的,其切词原则是“有联

系则取,无联系则断”。链接表将汉字分为三类:A类为在某一领域内不会与

其它汉字有联系而能单独存在的字;C类为其他汉字有链接关系的字;B类字为

兼有A、C类字特点的字。由于链接表记载的是两个字之间的联系而不是词本身,可大大降低冗余度。其词典规则比较简单,还采取了一种称作模式字典的辅助工具解决不涉及语法和词义的歧义问题。该方法已用于汉英机译系统,分词速度在286微机上为12-13汉字/秒,准确率为95%。

20.最少分词词频选择法(FWF)

哈工大王晓龙等人在构造汉字理解的层次化模型的基础上,提出了把反馈信息限定为最简形式,从而使分词层与语义无关的思想以及词串排序的三种策略:按可能性大小排序,按运转时间长短排序,以及上述两种的结合。基于这些策略的最少分词词频选择法具有运行时间短,分词精度高的双重优点。

最少分词问题可抽象为有向图两点间最短路径的问题。设所需分词的汉字数为N,结点为N+1,对应这些汉字的词典中的词均以边的形式出现,每个单字都看作是单词。边的权均为1,这样,求该汉字串切分后的最少词数就等同于求从

始点到终点最短路径的边数问题。

该方法的基本做法是:先采用按运行时间长短排序策略用最少匹配法分词以确定第一候选,若最少匹配法给出多条最佳路径,则再采用按可能性大小排序策略选择第一候选词串。

21.专家系统分词法

该法将自动分词过程看作是知识推理过程,力求从结构与功能上分离分词过程和实现分词所依赖的汉语词法知识,句法知识以及部分语义知识,把知识的表示,知识库的逻辑结构与知识库的维护放在系统设计的首位考虑。其知识库按常识性知识与启发性知识分别进行组织。对于常识性分词知识采用“语义网络”表示,对于启发性分词知识采用“产生式规则”表示。知识库是使专家系统具有“智能”的关键性部件。

推理时,把待发词或已发词的字符串视为词语树中的节点,利用常识性知识库进行顺向搜索匹配。若匹配成功,则该词把原字符断为左右两段,以该词作为子树的根,左边一段为子树的左孩子,右边一段为子树的右孩子,来代替原字

符串在词语树中的节点,形成一棵新的词语树。一旦子树的根节点满足条件:该字符串是词且存在歧义时,则启动相应的歧义切分规则,校正刚形成的这棵词语树,从而达到消除歧义的目的。每进行一步推理,既启动常识性知识库又启动启发性知识库,对于非歧义切分字段使用的是一般的语法知识;对于歧义切分字段则要使用与歧义相关的语法知识或语义知识。一个句子不管其中是否含有歧义字段,其切分过程均归结为生成该句子的词语树的过程。这种统一的自动分词方法,不仅使整个分词处理过程简明,也使整个系统的运行效率得到提高。其切分精度据称可达语法级。

22.基于神经网络的分词方法

华南理工大学的徐秉铮、贺前华等人提出了基于神经网络的一种新的分词方法(以下简称徐贺法),这一新方法是以模拟人脑运行,分布处理和建立数值计算模型工作的。它将分词知识多分散隐式的方法存入神经网内部,通过自学习和训练修改内部权值,以达到正确的分词结果。

徐贺法的关键在于知识库(权重链表)的组织和网络推理机制的建立。从语言学的角度看,与分词有关的知识可分为词法知识、句法知识、语义知识和语用知识。徐贺法将分词知识分为两大类:词法知识和词境知识。词法知识的作用域限于一个词内,语境知识的作用域是语句。在知识库中,每个组成字有一个输入/输出对,其间有一个恒定的正权值,词的末字的输入单元对其他字的输出单元有负链接,对于多字词与末字链接的汉字在词中的作用可分为三类:(1)与末字组成二字词;(2)只是该词的首字;(3)只是该词的中间字。对

应这三种情况,词内负链也分为三类:(1)成词链;(2)词首链;(3)中

间链。例如在“家用电器”中的链“家器”、“用器”是词首链,“电器”是

成词链。三类负链的优先级别是:成词链>词首链>中间链。知识库中只保持高级别的负链。

但是,徐贺法仅仅提出了交集型词法歧义字段和多义组合型句法歧义字段的实现方式,还未涉及语义歧义字段和语用歧义字段的问题。

看来,用神经网络技术来构造一个高效、实用的汉语分词系统还有许多工作要做。

三、汉语词自动分词存在的困难

尽管汉语自动分词取得了重大进展和突破, 但仍有大量的问题困扰着这一领域的学者们。因为要自由进行汉语自动分词, 至少会遇到以下一些困难:

(1) 汉语词与词之间不象西文那样有明显的分隔符(如空格等) , 也不象

日文那样有丰富的词尾变化(如日语中的片假名和平假名构成了书面日语的词尾变化)。

(2) 中文原本没有词的概念, 中文词的概念是一个泊来品, 至今也没有统一的词的确切定义。

(3) 汉语迄今为此仍未有一部公认的、确切完备的并适合于计算机自动处理的语法规则。

汉语词法的无标准性、句法的复杂性、语法的模糊性与语义的多样性, 如汉语中大量存在一词多义、多词一义、词性变化、词义转借等现象, 即汉语表达极大的灵活性, 使得迄今任何人都难以对它进行完备的总结。

(4) 中文构词方法的多样性和句法的“意重合”性等特点也使自动分词十

分困难。

众所周知: 中文造词的原料, 不仅有字, 而且有词、词组。造句的方式有

以字造词、以词造词, 甚至压句成词。如果没有语法、语义知识或语境了解的

帮助就很难对有些句子进行正确切分。

(5) 书面汉语丢失了语音中所蕴含的部分有用信息。

(6) 新词在不断增加(如人名、地名、新产生的词、外来词等)。

总之, 汉语无词的明显分隔标记, 词的定义、词与词组划界标准与形式语

法的缺乏等特点, 构成了汉语词自动切分的极大困难。

四、现有分词方法的局限

衡量一个自动分词系统的指标主要有三个: 切分速度、切分精度、系统的可维护性。切分精度则直接反映系统的正确性与科学性, 是三个指标中最重要的一个。所以, 要提高自动分词的精度, 就必须有效地处理歧义字段。现有的分词方法, 无论是机械分词法, 语义分词法, 还是人工智能分词法都不能有效解决汉语自动分词中存在的困难。因为它们普遍具有以下局限性:

(1) 切分效率不高。分词速度和分词精度是切分效率的重要衡量指标。现有的分词方法基本上都是基于规则和词典的分词方法, 它们都必须在分词速度和精度之间做出选择。要提高速度, 就要适当放弃精度的追求, 缩减词典, 减少匹配次数。而要提高切分精度, 就得舍弃速度, 无限扩充词典, 匹配次数也会无限增加。目前还没有找到有效的破解方法。

(2) 不能有效消除歧义。书面汉语自动分词是把汉语文本中汉字字符的序列用计算机切分成词的序列的过程。汉字是方块字, 每一个方块汉字都自为一个独立的、完整的书写单元, 相互之间没有明显的界限, 书写时字与字逐一连续等距离排列, 词与词之间没有空格隔开, 没有任何区分标志。加上汉语词理解的多义性、复杂性, 因而歧义现象是自动分词过程中不可避免的现象。在自动分词过程中具有两种或两种以上切分形式的字段称为歧义字段, 只有歧义字段才能产生错误切分, 自动分词中的歧义现象一般分为三类:第一类为交集型歧义切分字段;第二类为多义组合型歧义切分字段;第三类为混合型歧义切分字段。也有人根据歧义产生的根源将分词过程中歧义字段归结为以下三个方面:

①由自然语言中的二义性所引起的歧义, 称为第一类歧义;

②用人工分词是不会产生而由计算机自动分词产生的特有歧义, 称为第二类歧义;

③由于分词词典的大小而引起的歧义, 称为第三类歧义, 不论词典有多大都可能产生歧义。

同时汉语自动分词中的歧义还有不同的表现层次, 如果进行全切分, 则可发现汉语中歧义普遍存在。但是这些歧义在实际语料中都有一定的表现层次, 绝大部分可在较低层次消除。根据其表现层次, 汉语分词歧义可分为四类:假性歧义、字段歧义、句法层歧义及上下文歧义。假性歧义指不论在什么上下文中都不会切分为多个词的组合型歧义。字段歧义指只凭前后字段即可确定切分结果的歧义, 许多交集型歧义属于此类。句法层歧义需利用前后词性及句法限制来消歧, 这包括部分组合型与交集型歧义。上下文歧义指其不同切分均符合语法, 消歧依赖于语义及上下文。

这类歧义虽出现频率很小, 但最难处理。歧义表现层次的划分标准不是汉字串本身, 而是其出现的上下文环境。因而对于任何歧义都必须考虑其上下文来确定消歧方法。歧义现象在词典式分词方法中普遍存在, 而且只能有限减少, 不可能完全消除。

五、汉语自动分词研究展望

汉语自动分词是一个综合性的难题, 涉及到众多的学科和研究领域, 需要多个学科的研究成果作为基础。但是随着科学技术的快速发展, 汉语自动分词也并非遥不可及。

1.传统文本的有效切分

目前, 汉语自动分词的研究重心主要集中在对传统文本的有效切分上。在计算机科学、情报信息和语言文字研究三个领域的学者专家们的共同努力之下,传统文本的有效切分已经取得了重大进展。

(1) 汉语词的规范研究。由于汉语词的规范是汉语自动分词的基础。没有统一和明确的汉语词的定义, 汉有规范的汉语分词词表, 汉语自动分词就无从谈起。在汉语语言学家和计算机中文信息处理研究专家们的共同努力之下, 目前, 我国汉语词的规范研究和汉语分词规范词表的制定已经有了较大突破。《信息处理用现代汉语分词词表》的制定及不断完善, 说明了我国在汉语自动分词词表方面取得了重大研究成果, 这为汉语自动分词的研究铺平了道路。

(2) 汉语词自动切分算法。分词算法研究是汉语自动分词的重点和难点, 每一次分词算法上的突破都会使汉语自动分词的速度和精度有较大提高。据不完全统计, 目前, 在汉语自动分词方法和算法研究中, 已经出现了数十种分词方法和算法。仅80 年代以来见诸报端的自动分词方法和算法归纳起来就有: 最大匹配法、逆向最大匹配法、逐词遍历法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想——回溯法、双向扫描法、邻接约束法、扩充转移网络分词法、语境相关法、全自动词典切词法、基于规则的分词法、多遍扫描联想法、部件词典法、链接表法、最少分词词频选择法、专家系统分词法、基于神经网络的分词方法、特征词库法、EM 算法、演化算法、直接匹配法和后缀匹配法、二分法、基于词形的分词算法、MM 分词算法、改进的MM 分词算法、RMM 算法和DMM 算法等上百种。传统汉语分词要获得新的突破, 只能在分词算法上做文章, 必须在现有的分词算法和方法的基础找到一种新的分词算法, 这是今后汉语自动分词努力的重要方向之一。

(3) 汉语词自动切分歧义处理。汉语自动分词的主要困难是歧义切分, 而歧义在自动分

词普遍存在。随着分词研究的突破, 分词歧义处理研究也取得了重大进展。以前的消歧方法大体可分为两类: 规则方法与统计方法。由于自动分词中存在三种歧义类型, 不同类型的歧义, 其产生的根源和消除的方法各不相同。因此, 应针对不同的歧义类型采取不同的解决方法: 对于第一类歧义, 由于他们本身就是汉语言中的歧义问题, 解决这类歧义需要依靠上、下文语义信息, 即增加语义、语用知识的处理。这无异对自动分词的效率有很大的影响(时间上和空间上) , 而且实现起来比较困难。若是在词处理的相应阶段, 结合对分词阶段未解决的歧义字段进行处理, 则会起到事半功倍的效果。统计表明, 第一类歧义字段只占整个歧义字段总数的1/30 以下, 因此不必在分词阶段花费巨大的开销来处理它们。目前对第二类歧义处理方法主要有以下几种: 分词知识处理法、联想—回溯法、基于词频统计的方法、邻接约束法、基于数学期望的方法。处理第三类歧义目前主要有两种方法: 一是增加构词知识, 扩大词典; 二是增加临时词典。此外,还可以人工干预分词, 人工分词与计算机自动分词结合。在遇到计算机解决不了的歧义时, 借助于人工干预来完成。为了有效地消除歧义字段, 还可以在上述方法的基础上建立分词歧义知识库或规则库。随着计算机技术和汉语语言研究的发展,汉语词自动切分歧义处理将会有更大的突破。

(4) 汉语词自动切分应用研究。目前, 汉语自动分词主要在信息检索、自动标引、自动文摘、机器翻译、语言文字研究、搜索引擎研究、自然语言理解和中文信息处理等方面的应用取得了可喜的成绩。随着汉语自动分词技术的进展, 这一研究成果将会被应用到广泛的研究领域, 如词频统计、内容分析、概念分析、认知心理学和汉语语言学等方面。

2.计算机技术的发展

汉语自动分词是中文信息处理的“瓶颈”问题, 它的最终解决依赖于汉语的分词结构、句法结构、语义等语言知识的深入系统的研究; 依赖于对语言与思维的本质的揭示; 同时, 在很大程度上还依赖于神经网络、专家系统、知识工程等人工智能技术的研究进展。计算机技术是汉语自动分词的技术基础, 计算机技术发展的每一次巨大飞跃都是汉语自动分词的福音。因为自然语言理解既是人工智能研究领域需要解决的重大课题, 也是汉语自动分词研究的重要内容。因此,汉语自动分词研究的发展同时也寄希望于人工智能技术的突破。

人工智能是对信息进行智能化处理的一种模式,主要有两种处理方式: 一种是基于心理学的符号处理方法, 模拟人脑的功能, 像专家系统即是希望模拟人脑的功能, 构造推理网络, 经过符号转换, 从而可以进行解释性处理。另一种是基于生理学的模拟方法, 神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。以上两种思路也是近年来人工智能领域研究的热点问题, 应用到分词方法上, 于是产生了专家系统分词法和神经网络分词法。

目前, 人工智能技术的重点研究领域主要是专家系统、神经网络技术和生物芯片技术。从人工智能的发展和汉语自动分词的要求出发, 比较理想的自动分词系统应该综合词法、句法和语义信息, 而用计算机对语义、语法进行自动分析尚处在研究阶段。因而, 已经推出的汉语分词与标引系统只能采用以机械分词为主, 辅之以能部分反映词法、句法和语义规则的改进算法。但仍难以解决复杂的汉语组词关系。因此,今后应注重汉语句法和语义的自动分析研究, 并将其应用到汉语自动分词领域。应引入知识分词的技术与方法, 采用知识分词语义分析法进行自动分词系统的研究。从目前已经公开的各种分词方法看, 性能比较优异且具发展前景的当属基于符号和启发式推理的专家系统和基于数值和算法的神经网络技术。神经网络具有联想、容错、记忆、自适应、自学习和处理复杂多模式等优点, 不足的是网络连接

模型表达复杂, 训练过程较长, 不能对自身的推理方法进行解释, 对未在训练样本中出现过的新的词汇不能给予正确切分;专家系统具有显式的知识表达形式, 知识容易维护,能对推理行为进行解释, 并可利用深层知识来切分歧义字段;缺点是不能从经验中学习, 当知识库庞大时难以维护, 在进行多歧义字段切分时耗时较长, 同时在知识表示、知识获取和知识验证等方面存在一些问题。因而, 把神经网络技术与专家系统结合起来用于汉语自动分词与标引系统将是该领域的发展趋向。

现在分词用法总结

现在分词 一、基础知识: 现在分词(也叫动名词):表示主动和进行。 基本形式:doing 否定式:not doing 被动式:being done 完成式:having done 二、具体用法: 1.动名词作主语和宾语: (1)把一个动词变成-ing形式可以当做名词来用,表示一种经常性、习惯性的动作,可在句中充当主语和宾语。 eg: Working with you is a pleasure. I like reading in my free time. (2)可以用it做形式主语或形式宾语放在前面,再用动名词做真正的主语或宾语放在后面,这种用法常用于以下句式: ①It is/was no use/good doing sth. 做某事是没用的/没有好处的。 eg: It’s no use begging for his mercy. It’s no good smoking too much. ②It is/was a waster of time doing sth. 做某事是浪费时间的。 eg: It is a waste of time copying others’ homework. ③It is/was worth doing sth. 做某事是值得的。 eg: It was worth making the effort. ④There is/was no sense in doing sth. 做某事是没有道理的/意义的。 eg: There is no sense in arguing with your wife. ⑤There is/was no point (in) doing sth. 做某事是没用的/无意义的。 eg: There is no point in getting angry. ⑥There is no shame in doing sth. 做某事是不丢脸的。 eg: There is no shame in saying sorry to your friends. ⑦There is no telling…无法预言会… eg: There is no telling what will happen. ※注意:动名词作主语时,其前可用名词所有格和形容词性物主代词修饰,即one’s doing sth.作主语。 eg: Tom’s being late again made his teacher angry. My going to Beijing University is my parents’ biggest dream. (3)动名词作宾语分为两种情况:动名词后的宾语和介词后的宾语 ①有些动词后只能接动名词作宾语,常见的有: avoid, advise, allow, admit, appreciate, consider, deny, enjoy, keep, finish, suggest, dislike, delay, risk, escape, imagine, mind, miss, permit, practice, fancy, can’t help, be busy, give up, can’t stand, feel like等。 eg: You must avoid being hurt when crossing the road. ②有些动词后即可接动名词也可接不定式作宾语,常见的有: A: start, begin, intend, attempt, continue等后接doing和to do无区别。 B: like, love, prefer, hate等后接doing和to do略有区别,后接doing侧重经常习惯性的行为,后接to do侧重具体的某一次行为。 eg: I like swimming in summer but today I like to see a film at home

中文分词切词超详细分析

前面我们讲个搜索引擎如何搜集网页,今天说下第二个过程网页预处理,其中中文分词就显得尤其重要,下面就详细讲解一下搜索引擎是怎么进行网页预处理的: 网页预处理的第一步就是为原始网页建立索引,有了索引就可以为搜索引擎提供网页快照功能;接下来针对索引网页库进行网页切分,将每一篇网页转化为一组词的集合;最后将网页到索引词的映射转化为索引词到网页的映射,形成倒排文件(包括倒排表和索引词表),同时将网页中包含的不重复的索引词汇聚成索引词表。如下图所示: 一个原始网页库由若干个记录组成,每个记录包括记录头部信息(HEAD)和数据(DATA),每个数据由网页头信息(header),网页内容信息(content)组成。索引网页库的任务就是完成给定一个URL,在原始网页库中定位到该URL所指向的记录。 如下图所示:

对索引网页库信息进行预处理包括网页分析和建立倒排文件索引两个部分。中文自动分词是网页分析的前提。文档由被称作特征项的索引词(词或者字)组成,网页分析是将一个文档表示为特征项的过程。在对中文文本进行自动分析前,先将整句切割成小的词汇单元,即中文分词(或中文切词)。切词软件中使用的基本词典包括词条及其对应词频。 自动分词的基本方法有两种:基于字符串匹配的分词方法和基于统计的分词方法。 1) 基于字符串匹配的分词方法 这种方法又称为机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。 按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大或最长匹配,和最小或最短匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:

初中英语现在分词用法总结

初中英语现在分词用法总结 一、基础知识: 现在分词(也叫动名词):表示主动和进行。 基本形式:doing 否定式:not doing 被动式:being done 完成式:having done 二、具体用法: 1.动名词作主语和宾语: (1)把一个动词变成-ing形式可以当做名词来用,表示一种经常性、习惯性的动作,可在句中充当主语和宾语。 eg: Working with you is a pleasure. I like reading in my free time. (2)可以用it做形式主语或形式宾语放在前面,再用动名词做真正的主语或宾语放在后面,这种用法常用于以下句式: ① It is/was no use/good doing sth. 做某事是没用的/没有好处的。 eg: It’s no use begging for his mercy. It’s no good smoking too much. ② It is/was a waster of time doing sth. 做某事是浪费时间的。eg: It is a waste of time copying others’ homework. ③ It is/was worth doing sth. 做某事是值得的。 eg: It was worth making the effort. ④ There is/was no sense in doing sth. 做某事是没有道理的/

意义的。 eg: There is no sense in arguing with your wife. ⑤ There is/was no point (in) doing sth. 做某事是没用的/ 无意义的。 eg: There is no point in getting angry. ⑥ There is no shame in doing sth. 做某事是不丢脸的。 eg: There is no shame in saying sorry to your friends. ⑦ There is no telling…无法预言会… eg: There is no telling what will happen. ※注意:动名词作主语时,其前可用名词所有格和形容词性物主代词修饰,即one’s doing sth.作主语。 eg: Tom’s being late again made his teacher angry. My going to Beijing University is my parents’ biggest dream. (3)动名词作宾语分为两种情况:动名词后的宾语和介词后的宾语 ①有些动词后只能接动名词作宾语,常见的有: avoid, advise, allow, admit, appreciate, consider, deny, enjoy, keep, finish, suggest, dislike, delay, risk, escape, imagine, mind, miss, permit, practice, fancy, can’t help, be busy, give up, can’t stand, feel like等。 eg: You must avoid being hurt when crossing the road. ②有些动词后即可接动名词也可接不定式作宾语,常见的有:

中文分词实验

中文分词实验 一、实验目的: 目的:了解并掌握基于匹配的分词方法,以及分词效果的评价方法。 实验要求: 1、从互联网上查找并构建不低于10万词的词典,构建词典的存储结构; 2、选择实现一种机械分词方法(双向最大匹配、双向最小匹配、正向减字最大匹配法等)。 3、在不低于1000个文本文件,每个文件大于1000字的文档中进行中文分词测试,记录并分析所选分词算法的准确率、分词速度。 预期效果: 1、平均准确率达到85%以上 二、实验方案: 1.实验平台 系统:win10 软件平台:spyder 语言:python 2.算法选择 选择正向减字最大匹配法,参照《搜索引擎-原理、技术与系统》教材第62页的描述,使用python语言在spyder软件环境下完成代码的编辑。 算法流程图:

Figure Error! No sequence specified.. 正向减字最大匹配算法流程

Figure Error! No sequence specified.. 切词算法流程算法伪代码描述:

3.实验步骤 1)在网上查找语料和词典文本文件; 2)思考并编写代码构建词典存储结构; 3)编写代码将语料分割为1500个文本文件,每个文件的字数大于1000字; 4)编写分词代码; 5)思考并编写代码将语料标注为可计算准确率的文本; 6)对测试集和分词结果集进行合并; 7)对分词结果进行统计,计算准确率,召回率及F值(正确率和召回率的 调和平均值); 8)思考总结,分析结论。 4.实验实施 我进行了两轮实验,第一轮实验效果比较差,于是仔细思考了原因,进行了第二轮实验,修改参数,代码,重新分词以及计算准确率,效果一下子提升了很多。 实验过程:

高中现在分词的用法

高中英语现在分词的用法 1)- ing分词(短语)作主语: 1. 动词-ing 形式作主语表示抽象的或泛指的动作, 谓语动词用单数。如: 1. Talking to him is talking to a wall. 对他说话等于对牛弹琴。 2. Smoking may cause cancer. 吸烟会致癌。 3. Walking is my only exercise. 散步是我唯一的运动。 4. Talking mends no holes. (谚)空谈无济于事。 5. Saying is easier than doing. 说比做容易。 1. 为了保持句子平衡,通常用作形式主语,而把真实主语放在句末。如:It is no use crying over spilt milk. 作无益的后悔是没有用的。 It's a waste of time arguing about it. 辩论这事是浪费时间。 常见的作表语的名词或短语有:no use, no good, fun, hard work, a hard / difficult job, a wonder, a waste of time 等。如: It is worthwhile discussing with her. It 's no good waiting here. Let 's go home. It was a waste of time reading that book. 2. 动词-ing形式的否定形式是在其前面加not。如: Your schoolmate 's not coming home made her parents worried. 2)-ing 分词(短语)作宾语: 1. I suggest ending the meeting. 我建议结束会议。 2. He admitted taking the money. 他承认钱是他拿的 3. I couldn ' t help laughing.

一种基于词典的中文分词法的设计与实现

一种基于词典的中文分词法的设计与实 现 摘要:中文分词就是把没有明显分隔标志的中文字串切分为词串,它是其他中文信息处理的基础,广泛应用于搜索引擎、自动翻译、语音合成、自动分类、自动摘要、自动校对等领域。就中文分词的基本方法作了简单阐述,并介绍了一种基于词典采用最大匹配法实现中文分词的方法。 关键词:中文分词;词库索引;正向最大匹配法 1 中文分词 中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。 1.1中文分词方法的种类 中文自动分词方法有多种,一般来说大致可归结为以下三大类:基于词典的分词方法、基于统计的分词方法、基于规则和基于统计相结合的分词方法[2]。1.1.1基于词典的分词方法。基于词典的分词方法,又叫做基于字符串匹配的分词方法。其基本思想是:事先建立词库,其中包含所有可能出现的词。对于给定的待分词的汉子串Str,按照某种确定的原则切取Str 的子串,若该子串与词库中的某词条相匹配,则该子串是就是词,继续分割其余的部分,直到剩余部分为空;否则,该子串不是词,转到上面重新切取Str的子串进行匹配。1.1.2基于统计的分词方法。基于词典分词方法要借助词典来进行,而中文的构词非常灵活,词的数目几乎是无限的,因此要构造完备的词典几乎是不可能的。鉴于上述分词方法存在的这些缺点,一种基于统计的分词方法应运而生。这种方法撇开词典,根据字串出现的频率来判断这个字串是否是词。该方法对于大的语料,分全率还可以,但是对于小的语料分全率就比较低。该方法的另一个缺点就是不够准确,有些经常一起出现的单字构成的字串其实不是词。但是由于出现的频率很高,就被分出来当作词处理了,而且这样的“词”还非常多, 例如“这一”、“之一”、“有的”、“我的”、“许多的”等。实际应用的统计分词系统都要使用一部基本的分词词典进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。1.1.3基于规则和基于统计相结合的分词方法。该方法首先运用最大匹配作初步切分,然后对切分的边界处进行歧义探测,发现歧义,最后运用统计和规则相结合的方法来判断正确的切分[4]。运用不同的规则解决人名、地名、机构名识别,运用词法结构规则来生成复合词和衍生词。日前这种方法可以解决汉语中最常见的歧义类型:单字交集型歧义。并对人名、地名、机构名、后缀、动词/形容词重叠、衍生词等词法结构进行识别处理,基本解决了分词所面临的最关键的问题。若词典结构和算法设计优秀,分词速度将非常快。 1.2分词中的难题 有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。1.2.1歧义识别。歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:“表面的”,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面的”和“表面的”,这种称为交叉歧义,像这种交叉歧义十分常见。“化妆和服装”可以分成“化妆和服装”或者“化妆和服装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。交叉歧义

百度中文分词技巧

百度中文分词技巧 什么是中文分词?我们都知道,英文句子都是由一个一个单词按空格分开组成,所以在分词方面就方便多了,但我们中文是一个一个汉字连接而成,所以相对来说是比较复杂的。中文分词指的是将一个汉语句子切分成一个一个单独的词,按照一定的规则重新组合成词序列的过程。这个也称做“中文切词”。 分词对于搜索引擎有着很大的作用,是文本挖掘的基础,可以帮助程序自动识别语句的含义,以达到搜索结果的高度匹配,分词的质量直接影响了搜索结果的精确度。目前搜索引擎分词的方法主要通过字典匹配和统计学两种方法。 一、基于字典匹配的分词方法 这种方法首先得有一个超大的字典,也就是分词索引库,然后按照一定的规则将待分词的字符串与分词库中的词进行匹配,若找到某个词语,则匹配成功,这种匹配有分以下四种方式: 1、正向最大匹配法(由左到右的方向); 2、逆向最大匹配法(由右到左的方向); 3、最少切分(使每一句中切出的词数最小); 4、双向最大匹配法(进行由左到右、由右到左两次扫描) 通常,搜索引擎会采用多种方式组合使用。但这种方式也同样给搜索引擎带来了难道,比如对于歧义的处理(关键是我们汉语的博大精深啊),为了提高匹配的准确率,搜索引擎还会模拟人对句子的理解,达到识别词语的效果。基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息,当然我们的搜索引擎也在不断进步。 二、基于统计的分词方法 虽然分词字典解决了很多问题,但还是远远不够的,搜索引擎还要具备不断的发现新的词语的能力,通过计算词语相邻出现的概率来确定是否是一个单独的词语。所以,掌握的上下文越多,对句子的理解就越准确,分词也越精确。举个例子说,“搜索引擎优化”,在字典中匹配出来可能是:搜索/引擎/优化、搜/索引/擎/优化,但经过后期的概率计算,发现“搜索引擎优化”在上下文相邻出现的次数非常多,那么基于统计就会将这个词语也加入进分词索引库。关于这点我在《关于电商与圈的分词测试》就是同样的一个例子。 中文分词的应用分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。 参考文档及网站: https://www.360docs.net/doc/435845209.html, https://www.360docs.net/doc/435845209.html, https://www.360docs.net/doc/435845209.html, https://www.360docs.net/doc/435845209.html,

现在分词用法讲解

一、现在分词:在句中可以做表语、定语、状语、宾语补足语。 二、现在分词的基本用法 1. 作表语:表主语的特征。如amusing, discouraging, puzzling, refreshing, astonishing。 2. 作定语: (1). 表示主动的、进行的状态:The girl wearing blue skirt is my sister. = The girl who is wearing blue skirt is my sister. (比较:The factory being built now is a big one.) (2). 说明被修饰词的性质和特征:This is an interesting story. (3). 相当于非限制性定语,常用逗号分开:Tom, wearing beautiful clothes, followed me down the hill. = Tom, who is wearing beautiful clothes, followed me down the hill. (4). 与adv. / n. 构成复合词作定语:This is an English-speaking country. 3. 作状语:表示主动的、进行的状态,其逻辑主语是句中的主语。(如果不是,需在v.-ing 形式前加名词或代词作逻辑主语: Time permitting, the football match will be played on Friday.) (1). 原因状语:Not having been invited to the party, she had to stay home. (2). 时间状语:Seeing their teacher coming, the students stopped talking. 如果现在分词表示的动作与谓语表示的动作同时发生,常在现在分词前加上when或while:While waiting for the plane, I had a long talk with Simon. (3). 条件状语:Working harder, you'll be No. 1 in your class. (4). 让步状语:Weighing almost two hundred kilograms, the stone was moved by him alone. (5). 结果状语:He died, leaving nothing but debts. (6). 伴随状语:He sat by the desk, begging. 注意:The park was full of people, enjoying themselves in the sunshine. 由此可知伴随状语的特点:①主语所做的另一动作或②与谓语动作(状态)同时发生或③对谓语进行补充说明。(7). 方式状语:Following their teacher, the students entered the room quietly. 4. 作宾补:表示主动的、进行的状态,与宾语有逻辑上的“主表”或“主谓”关系:We all found his equipment interesting. (主表关系) / I saw Mary going upstairs then. (主谓关系) 三、现在分词的两个基本特点 1. 在时间上表示动作正在进行:a developing country, boiling water, rising sun (比较: a developed country, boiled water, risen sun) 2. 在语态上表示主动:the ruling class 统治阶级,the exploiting class 剥削阶级(比较:the ruled class 被统治阶级,the exploited class 被剥削阶级) 四、独立主格结构(Absolute Phrase)由两部分组成,前一部分是名词或者代词,后一部分是不定式、现在分词、过去分词、形容词、副词、名词或介词短语。前后两部分具有逻辑主谓关系。其本身不是句子,在句子中作状语,表时间、原因、条件、伴随、目的等。 A lecture to be given tomorrow, the professor has to stay up late into the night. (原因)Weather permitting, we are going to visit you tomorrow. (条件) He was lying on the grass, his hands crossed under his head. (伴随) An air accident happened to the plane, nobody alive. (结果) The meeting over, they all went home. (时间) Two hundred people died in the accident, many of them children. (结果) The boy goes to the classroom, book in hand. (伴随) Another story to be completed, the writer stayed up almost every night. (目的)

百度_baidu_搜索分词算法

Baidu查询分词算法 查询处理以及分词技术 如何设计一个高效的搜索引擎?我们可以以百度所采取的技术手段来探讨如何设计一个实用的搜索引擎.搜索引擎涉及到许多技术点,比如查询处理,排序算法,页面抓取算法,CACHE机制,ANTI-SPAM等等.这些技术细节,作为商业公司的搜索引擎服务提供商比如百度,GOOGLE等是不会公之于众的.我们可以将现有的搜索引擎看作一个黑盒,通过向黑盒提交输入,判断黑盒返回的输出大致判断黑盒里面不为人知的技术细节. 查询处理与分词是一个中文搜索引擎必不可少的工作,而百度作为一个典型的中文搜索引擎一直强调其”中文处理”方面具有其它搜索引擎所不具有的关键技术和优势.那么我们就来看看百度到底采用了哪些所谓的核心技术. 我们分两个部分来讲述:查询处理/中文分词. 一. 查询处理 用户向搜索引擎提交查询,搜索引擎一般在接受到用户查询后要做一些处理,然后在索引数据库里面提取相关的信息.那么百度在接受到用户查询后做了些什么工作呢? 1. 假设用户提交了不只一个查询串,比如”信息检索理论工具”.那么搜 索引擎首先做的是根据分隔符比如空格,标点符号,将查询串分割成若干子查询串,比如上面的查询就会被解析为:<信息检索,理论,工具>三个子字符串;这个道理 简单,我们接着往下看. 2. 假设提交的查询有重复的内容,搜索引擎怎么处理呢?比如查询”理论 工具理论”,百度是将重复的字符串当作只出现过一次,也就是处理成等价的”理论工具”,而GOOGLE显然是没有进行归并,而是将重复查询子串的权重增大进行处理.那么是如何得出这个结论的呢?我们可以将”理论工具”提交给百度,返回341,000篇文档,大致看看第一页的返回内容.OK.继续,我们提交查询”理论工具理论”,在看看返回结果,仍然是那么多返回文档,当然这个不能说明太多问题,那 看看第一页返回结果的排序,看出来了吗?顺序完全没有变化,而GOOGLE则排序有些变动,这说明百度是将重复的查询归并成一个处理的,而且字符串之间的先后出现顺序基本不予考虑(GOOGLE是考虑了这个顺序关系的). 3. 假设提交的中文查询包含英文单词,搜索引擎是怎么处理的?比如查询”电影BT下载”,百度的方法是将中文字符串中的英文当作一个整体保留,并以此为断点将中文切分开,这样上述的查询就切为<电影,BT,下载>,不论中间的英文是否一个字典里能查到的单词也好,还是随机的字符也好,都会当作一个整体来对待.

现在分词的几种详细用法 (10)

现在分词的七种用法 (一)作定语 1. 动词现在分词单独作定语,通常放在所修饰词前。The sleeping boy is Tom. 2. 现在分词短语作定语放在所修饰词的后面,意思同定语从句差不多。例如: Tell the children playing outside not to make too much noise. = Tell the children who are playing outside not to make too much noise. 3. 现在分词可相当于非限制性定语,常用逗号分开。 Tom, wearing beautiful clothes, followed me down the hill. = Tom, who is wearing beautiful clothes, followed me down the hill. 4. 有时现在分词可以和副词或名词构成复合词作定语。This is an English-speaking country. (二)作表语 现在分词作表语多表示主语的特征。如amusing, discouraging, puzzling, refreshing, astonishing, exciting 等。The story is moving. (三)现分在句中作宾语补足语,这时现在分词和前面的宾语有逻辑上的“主表”关系或“主谓”关系。We all found his equipment interesting. (主表关系) I saw Mary going upstairs then. (主谓关系) (四)作状语现在分词作状语,其逻辑主语一般是句中的主语,如果不是,需在V-ing 形式前加名词或代词主格作逻辑主语。 1. 作原因状语,相当于原因状语从句。Being ill, Mary didn't come to school yesterday. 2. 作时间状语,相当于时间状语从句。Seeing their teacher coming, the students stopped talking. 如果现在分词表示的动作与谓语表示的动作同时发生,常在现在分词前加上when或while。 While waiting for the plane, I had a long talk with Simon. 3. 作条件状语。 V-ing 形式作条件状语时,相当于一个条件状语从句。Working harder, you'll be No. 1 in your class. 4. 作让步状语,相当于让步状语从句。Weighing almost two hundred jin, the stone was moved by him alone. 5. 作结果状语。He died, leaving nothing but debts. 6. 作伴随状语或方式状语。He sat by the roadside, begging. (五)现在分词的完成式表示它发生在主句谓语动词表示的动作之前。 Having finished his homework, he left the classroom. (六)现在分词的被动式 当句子的主语是动作的承受者时,用V-ing 形式的被动式The factory being built now is a big one. (七)现在分词的否定形式是由“not + 现在分词”构成。 Not having been invited to the party, she had to stay home. 过去分词的用法 一.1. 及物动词的过去分词作表语,与句子主语是被动关系,表示主语的状态,既表示被动,又表示完成. (1)_ The cup is broken. 茶杯破了. 2. 不及物动词的过去分词作表语,与句子主语是主动关系,表示主语的状态,只表示动作的完成. (2) He is retired. 他已退休. 3. 有些过去分词作表语时,构成的谓语很接近被动结构. (3)_The city is surrounded on three sides by mountains. 这座城市三面环山. 过去分词作表语 【注意】过分词作表语与被动语态的区别:过去分词作表语,主要是表示主语的状态,而被动语态则表示动作. (1) The cup was broken by my little sister yesterday. 茶杯是昨天我小妹打碎的.(是被动语态,表示动作) (2) The library is now closed. 图书馆关门了.(过去分词作表语)

中文分词技术

一、为什么要进行中文分词? 词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。 Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。 二、中文分词技术的分类 我们讨论的分词算法可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。 第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词,如:最大匹配法、最小分词方法等。这类方法简单、分词效率较高,但汉语语言现象复杂丰富,词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理。第二类基于统计的分词方法则基于字和词的统计信息,如把相邻字间的信息、词频及相应的共现信息等应用于分词,由于这些信息是通过调查真实语料而取得的,因而基于统计的分词方法具有较好的实用性。 下面简要介绍几种常用方法: 1).逐词遍历法。 逐词遍历法将词典中的所有词按由长到短的顺序在文章中逐字搜索,直至文章结束。也就是说,不管文章有多短,词典有多大,都要将词典遍历一遍。这种方法效率比较低,大一点的系统一般都不使用。 2).基于字典、词库匹配的分词方法(机械分词法) 这种方法按照一定策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。识别出一个词,根据扫描方向的不同分为正向匹配和逆向匹配。根据不同长度优先匹配的情况,分为最大(最长)匹配和最小(最短)匹配。根据与词性标注过程是否相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的方法如下: (一)最大正向匹配法 (MaximumMatchingMethod)通常简称为MM法。其基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理……如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文档被扫描完为止。

分词方法详解

《汉语分词的主要技术及其应用展望》 一、汉语自动分词的提出 词具有语音、语义和结构三大特征,其语义特征表现在必须具备一定的意义,表明客观现实中的某一事物的性质、特征、行为和关系等,没有意义的词是不存在的。词里包含有两种不同性质的意义:词汇意义和语法意义。词的结构特征表现在词在结构上是一个不可分割的整体,其意义不是它的几个构成成分(如果存在的话)的意义的简单总和。 人们在阅读时,大脑有一个模糊的分词过程,它是与视觉到声音的转换和语义理解交叉或同时进行的,并以语感的形式体现出来,由于文化修养和知识水平的差异,不同的人对词和非词,词和词组的预感差别很大。因而人工分词的同一性得不到保证。北京航空学院曾做过一个实验,三十余个具有高中文化水平的青年对五百字的一个语言材料人工分词,同一率只有50%左右。在大篇文字材料处理时,人工分词不仅速度慢,长时间单调枯燥工作也使错误切分次数大大增加。这些都表明人工分词不能满足汉字处理现代化的要求,但要对书面汉语实现计算机自动分词,并非易事,这与汉语特性有很大关系。与印欧语系相比,现代汉语至少在四个方面于分词不利:第一,汉语的词不分写,而且词无明确的形态标志,这给计算机进行汉语的词法分析带来一大障碍。其次,汉语是一种无形态变化的分析型语言,缺乏明显的句法形式标记,其语法主要靠虚词和不同的词序来实现。第三,汉语的形态不发达,增加了语言的表层结构对语义的依赖性,所以,汉语句子成分的语法作用强烈依赖于该成分的意义。第四,汉语构词具有极大的灵活性和自由性。只要词汇意义和语言习惯允许,就能组合起来,没有限制。如果在自动分词处理时,既不进行语法分析,也不进行语义理解,只是机械的匹配比较,那很容易实现,但必然会出现许多错误切分,而要提高分词精度,就必须进行语法分析和语义理解,于是就引发了一系列耐人寻味的问题。 汉语词自动切分是计算机中文信息处理的第一步,也是计算机科学界、语言文字学界以及信息管理学界所面临的挑战性难题,这一“瓶颈”的解决是计算机自然语言理解、人工智能、信息检索、机器翻译和自动文摘等领域突破的关键, 长期以来一直困扰着这一研究领域的许多专家学者。尽管汉语词自动切分研究已经取得了可喜的进展,但是在汉语词的规范、自动分词算法突破、切分歧义处理、自然语言理解和人工智能等诸多领域还存在着难以克服的阻碍,仍需要多个学科领域的专家学者们通力协作,才能获得新的突破。 二、现有的分词方法 为了克服汉语词计算机自动切分这一难题, 许多年来, 大量的学者都加入 了这一领域的研究, 使汉语自动分词取得了丰硕的研究成果。近年来, 语言学 界、人工智能领域和情报检索界的学者们, 在汉语自动分词与自动标引的研究 与实践上进行了大量的研究, 找到了许多解决汉语分词的方法,归纳起来有: 最大匹配法、逆向最大匹配法、逐词遍历法、设立切分标志法、最佳匹配法、 有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想 ——回溯法、双向扫描法、邻接约束法、扩充转移网络分词法、语境相关法、

过去分词用法详解

过去分词的用法 一、构成:规则动词的过去分词是有动词原形+ed构成的,不规则动词则有各自构成。 二、基本特点:过去分词在句子中的基本用法有两点:1.与逻辑主语之间是被动关系 2.表示完成的动作 三、过去分词的用法: 1.作表语:过去分词作表语时,一般同时具备被动与完成的含义 例如:(1)The cup is broken.(2)He is retired. (3)After running,he is tired. 【注意】过去分词作表语时,已经变成形容词性质,主要表示主语的状态(被动完成),而被动语态则表示动作. 例如:(1) The cup was broken by my little sister yesterday. 茶杯是昨天我小妹打碎的.(是被动语态,表示动作) (2)The cup is now broken. 茶杯碎了.(过去分词作表语,表示状态) 【注意】有些动词如 interest, bore, worry, surprise, frighten 等通常用其过去分词形式来修饰人,表示“感到……” 用 -ing 形式来修饰物,表示“令人……” 例如:The book is interesting and I'm interested in it. 这本书很有趣,我对它很感兴趣. 2.做定语 作定语用的过去分词其逻辑主语就是它所修饰的名词.及物动词的过去分词作定语,既表被动又表完成;不及物动词的过去分词作定语,只表完成.

1)单一过去分词作定语,常置于其所修饰的名词之前,称作前置定语。 例如:We must adapt our thinking to the changed conditions. 我们必须使我们的思想适应改变了的情况. 2)过去分词短语用作定语时,一般置于其所修饰的名词之后,相当于一个定语从句,称作后置定语。 例如:The concert given by their friends was a success.他们朋友举行的音乐会大为成功. 3)过去分词短语有时也可用作非限制性定语,前后常有逗号. 例如:The meeting, attended by over five thousand people, welcomed the great hero. 4)用来修饰人的过去分词有时可以修饰与人有关的表情,面貌,举止行为以及感觉等,这时不能用v-ing形式 例如:The boy looked up with a pleased expression. His satisfied look showed that he had passed this exam. 3.作状语 作状语的过去分词在句子中多表示被动和完成两重含义。 1)时间状语:A.当和谓语动词动作同时发生时,一般仅表示被动,可以用when从句代替。 例如:Faced with difficulties,we shouldn’t withdraw for any excuse. B.当表示动作发生在谓语动词之前时,通常既表被动又表完成,可用after从句代替,也可用现在分词的被动完成形式代替。 例如:Caught by the police,the thief lay on the ground,crying and shouting.

现在分词的用法

现在分词的用法 现在分词(Present Participle )(又称-ing形式、现在进行式),是分词的一种,分词又 分为现在分词和过去分词,它们都是非限定动词,即在句子里面不能单独充当谓语,但能充当其它的一些成分(定语,表语,补语和状语),并且它们具有动词的性质,所以又是类动词的一种。 ☆现在分词的两个基本特点: 1. 。例如: a developing country. 一个发展中的国家,boiling water 沸水, risi ng sun 冉冉升起的太阳。(试比较: a developed country —个发达国家,boiled water 白开水,rise n sun 升起的太阳) 2. 在语态上表示主动。例如:the ruling class 统治阶级, the exploiting class 剥 削阶级。(试比较: the ruled class 被统治阶级,the exploited class 被剥削阶级) ':构成形式 doing 现在分词表示主动的,或进行的动作 ?:时态与语态 三:否定式: 所有否定式都是在—ing前面加not

1)现在分词的时态:现在分词本身不能表示具体的时间概念,其动作发生的时间只能是相对于谓语动作发生时间相对而言的。这一点和不定式用法相同。 A)现在分词的一般式:doing 表示分词的动作和谓语动作同时或几乎同时发生。或是谓语动作发生时,分词的动作正在发 生过程中。 女口: Looking back, I found she was washing clothes. She smelt something burning.(smelt 发生在 burning 的过程中。) 她闻到有东西烧焦了。 She sat on the chair, readi ng a no vel. B)现在分词的完成式:havi ng do ne 表示现在分词的动作发生在谓语动作之前。 Having worked for 2 hours, we had a rest. Not havi ng received his letter, we all felt worried. 2)现在分词的语态: 现在分词用主动还是被动,决定于它的逻辑主语。如果现在分词的逻辑主语是分词动作的执行者,用主动。反之,用被动。

相关文档
最新文档