分词方法详解

合集下载

分词的用法总结

分词的用法总结

分词的用法总结分词是文法中的一种形态变化形式,它将动词原形依照词法规则的要求进行合理而灵活地变化,以适应句子结构和意义的需要。

分词作为英语语法中的一个重要概念,具有多种用法和功能。

本文旨在对分词的用法进行总结,以帮助读者更好地理解和运用分词。

一、现在分词现在分词通常由动词原形加-ing构成,具有形容词和副词的性质,可以作定语、表语、宾语补足语和状语等多种用法。

1. 作定语:现在分词作定语修饰名词,表示被修饰名词的特征、状态或功能。

例如:- The running water is very clean.(跑的水很干净。

)- He is a hard-working student.(他是一个勤奋的学生。

)2. 作表语:现在分词作表语,说明主语的特征或状态。

例如:- The weather today is warm.(今天的天气很暖和。

)3. 作宾语补足语:现在分词作宾语补足语,说明宾语的特征、状态或结果。

例如:- I found him lying on the ground.(我发现他躺在地上。

)4. 作状语:现在分词作状语,表示时间、原因、方式、条件等。

例如:- Walking along the street, she suddenly saw her old friend.(她走在街上,突然看到了她的老朋友。

)- Being tired, I went to bed early.(我累了,早早上床睡觉。

)二、过去分词过去分词通常由动词原形加上-ed或-en构成,具有形容词的性质,可以作定语、表语、宾语补足语和状语等多种用法。

1. 作定语:过去分词作定语,修饰名词或代词,表示被修饰词的特征、状态或情况。

例如:- The broken window needs to be repaired.(这个破窗户需要修理。

)- The lost key has been found.(丢失的钥匙已经找到了。

分词的四种形式及用法

分词的四种形式及用法

分词的四种形式及用法分词是动词的非谓语形式,它可以用作形容词、副词或名词。

以下是四种形式及其用法:1. 现在分词:以-ing结尾的分词。

- 作形容词:用于描述正在进行的动作或状态。

例如:a running dog(跑的狗)、an interesting book(有趣的书)。

- 作副词:用于修饰动词,表示动作的方式或原因。

例如:She walked by, smiling(她边走边微笑)。

- 作名词:表示正在进行的动作或状态。

例如:My swimming is improving(我的游泳水平在提高)。

2. 过去分词:通常由“-ed”结尾的分词,也有一些不规则变化的形式。

- 作形容词:用于描述被动或完成的动作。

例如:a broken cup(破碎的杯子)、a baked cake(烤好的蛋糕)。

- 作副词:有时用于修饰动词,表示结果或状态。

例如:The door opened slowly(门慢慢地打开)。

- 作名词:表示被动或完成的动作。

例如:The broken window needs to be fixed(这扇破碎的窗户需要修理)。

3. 完成分词:由“having + 过去分词”的形式构成。

- 作形容词:用于描述在过去其中一时间完成的动作。

例如:having finished homework(完成作业)。

- 作副词:用于修饰动词,表示原因或时间。

例如:He went to bed early, having been tired(他早早上床睡觉,因为感到疲倦)。

4. 不定式分词:由“to + 动词原形”构成的形式。

- 作形容词:用于描述将要发生的动作或状态。

例如:an interesting movie to watch(值得观看的电影)。

- 作副词:修饰动词,表示目的或目标。

例如:He took a taxi to catch the train(他打车去赶火车)。

这些形式的分词在句子中具有不同的语法作用,根据句子的语境和需要,我们可以选择适当的形式来使用。

分词的用法和形式

分词的用法和形式

分词的用法和形式分词是英语语法中一种非常重要的形态学形式,它可以作为动词的非谓语形式,用于构建复杂的句子结构和表达更多意义。

分词在句子中可以充当动词、形容词或副词的角色,从而丰富语言表达的方式。

本文将探讨分词的用法和形式,以帮助读者更好地理解和运用分词。

一、分词的基本形式分词一般有两种基本形式:现在分词(-ing形式)和过去分词(-ed形式)。

现在分词通常用于进行时态或作为形容词,而过去分词则多用于完成时态或作为形容词。

下面将分别介绍这两种形式的具体应用。

1. 现在现在分词一般以动词的原形加上-ing构成,例如:sing(唱歌)→singing(正在唱歌)。

现在分词的用法如下:(1)作为动词的进行时态示例:She is singing a song.(她正在唱歌。

)(2)作为形容词修饰名词示例:The running water is so refreshing.(流动的水非常清凉。

)(3)作为副词修饰动词示例:He smiled, encouragingly.(他鼓励地微笑着。

)2. 过去过去分词通常以动词的原形加上-ed、-d、-t或-en构成,例如:watch(观看)→watched(观看过)。

过去分词的用法如下:(1)作为动词的完成时态示例:He has finished his homework.(他已经完成作业。

)(2)作为形容词修饰名词示例:I read an interesting book.(我读了一本有趣的书。

)(3)作为被动语态中的非谓语动词示例:The car was repaired by a mechanic.(汽车被修理工修理了。

)二、分词的进一步应用除了基本形式的用法外,分词还有一些其他的应用。

下面将介绍分词的进一步应用,以帮助读者更好地理解和运用分词。

1. 分词作为主语分词可以作为句子的主语,通常用现在分词形式。

例如:Reading is my hobby.(阅读是我的爱好。

分词的构成与用法

分词的构成与用法

分词的构成与用法分词是英语语法中的一种非常重要的词汇形式,通过在动词、名词或形容词前加上-ing或-ed的词尾来形成。

分词分为现在分词和过去分词两种形式。

现在分词表示正在进行或具有进行性的动作,过去分词表示已经完成的或具有完成性的动作。

本文将重点论述分词的构成和用法。

一、现在分词的构成现在分词的构成方法是在动词原形的基础上加-ing。

有以下几种情况:1. 一般动词:a) play → playingb) walk → walking2. 以不发音的e结尾的动词:a) write → writingb) dance → dancing3. 以一个辅音字母结尾,且重读闭音节的动词:a) stop → stoppingb) swim → swimming4. 以一个元音字母加一个辅音字母结尾的动词:a) chat → chattingb) run → running5. 以-ie结尾的动词,变-ie为-y,再加-ing:a) lie → lyingb) die → dying二、现在分词的用法现在分词作为形容词使用,用以修饰名词或代词。

其用法有以下几个方面:1. 表示主动:a) The running boy is my brother.(主动)b) The interesting book caught my attention.(主动)2. 表示被动:a) The broken window needs to be repaired.(被动)b) The fallen leaves covered the ground.(被动)3. 表示原因:a) He couldn't sleep because of the barking dog.(原因)b) I was late for work due to the heavy traffic.(原因)4. 表示方式:a) She stood up, raising her hand.(方式)b) They spent the weekend playing games.(方式)5. 修饰名词:a) The smiling child greeted us at the door.(修饰名词)b) The running water sounded so peaceful.(修饰名词)三、过去分词的构成过去分词的构成方法有以下几种情况:1. 一般动词:a) play → playedb) walk → walked2. 以不发音的e结尾的动词:a) write → writtenb) dance → danced3. 以一个重读闭音节结尾的动词,且末尾只有一个辅音字母时,需双写该辅音字母再加-ed:a) stop → stoppedb) swim → swum4. 以一个重读闭音节结尾的动词,末尾有两个以上的辅音字母时,直接加-ed:a) chat → chattedb) run → run5. 以-ie结尾的动词,变-ie为-y,再加-ed:a) lie → liedb) die → died四、过去分词的用法过去分词常用于被动语态、完成时态或作为形容词使用。

分词的形式与用法

分词的形式与用法

分词的形式与用法一、分词的形式与用法分词是英语中一种常见的动词形式,可用作形容词、副词或者和助动词一起构成时态。

分词分为现在分词(-ing形式)和过去分词(-ed 或不规则形式)。

本文将详细介绍分词的形式和用法。

1. 现在分词的形式现在分词以动词的基础形式加上-ing构成。

例如:eat → eating, run → running。

然而,有些动词的拼写会发生变化,如lie → lying, die → dying。

2. 现在分词的用法现在分词可以用作形容词或者构成进行时态和被动语态。

2.1 用作形容词现在分词作为形容词时,通常修饰名词,表示被修饰名词的属性或状态。

如:a boring movie(一部无聊的电影)、the crying baby(哭泣的婴儿)。

2.2 构成进行时态现在分词与be动词结合,构成进行时态。

进行时态表示现在或近期正在进行的动作。

如:I am studying for the exam(我正在备考)。

2.3 构成被动语态现在分词与be动词的过去分词形式结合,构成被动语态。

被动语态表示动作的承受者。

如:The letter is being typed by me(这封信是我打字的)。

3. 过去分词的形式过去分词的形式多种多样,有的是动词原形加-ed,如played, watched;有的是不规则形式,如written, taken。

4. 过去分词的用法过去分词可以用作形容词或者构成完成时态和被动语态。

4.1 用作形容词过去分词作为形容词时,通常修饰名词,表示被修饰名词的属性或状态。

如:a broken glass(破碎的玻璃)、a stolen wallet(被偷的钱包)。

4.2 构成完成时态过去分词与have或has构成完成时态。

完成时态表示过去的一个动作对现在造成的影响。

如:They have finished the project(他们已完成项目)。

4.3 构成被动语态过去分词与be动词的过去分词形式结合,构成被动语态。

分词的种类及用法详解

分词的种类及用法详解

分词的种类及用法详解在语法学中,分词是指动词的一种非谓语形式,具有动词和形容词的特征。

分词可以分为现在分词和过去分词两种形式,本文将详细介绍分词的种类以及它们的用法。

一、现在分词现在分词的形式是动词的ing形式,它可以具有动词的意义和形容词的性质。

现在分词主要有以下几个用法:1. 作主语现在分词可以作主语来开启句子,例如:- Smoking is harmful to health.(吸烟对健康有害。

)- Learning a foreign language is beneficial.(学习外语是有益的。

)2. 作定语现在分词可以作定语来修饰名词,例如:- The running water is very clear.(流动的水很清澈。

)- The crying baby needs attention.(哭泣的婴儿需要照顾。

)3. 作宾语补足语现在分词可以作及物动词的宾语补足语,例如:- I saw him reading a book.(我看见他在看书。

)- She heard someone singing in the next room.(她听见隔壁房间有人唱歌。

)4. 表示正在进行的动作现在分词可以表示正在进行的动作,例如:- The children are playing in the garden.(孩子们正在花园里玩。

)- He is studying for his exams.(他正在为考试而学习。

)二、过去分词过去分词通常由动词的过去式形式构成,它可以具有动词的意义和形容词的性质。

过去分词主要有以下几个用法:1. 作表语过去分词可以作表语来说明主语的状态,例如:- The door is closed.(门是关着的。

)- The window was broken by the storm.(窗户被暴风雨打破了。

)2. 作定语过去分词可以作定语修饰名词,例如:- The injured bird was unable to fly.(受伤的鸟无法飞行。

几种分词方法

几种分词方法

几种分词方法
①机械匹配法:基本思想是:先建立词库,对给定的待分词汉字串,以某种方法切取其子串,如该子串与词典某项匹配成功,则该子串是词,继续切分其余部分;否则该子串不是词,重新切取给定汉字串的子串进行匹配。

机械匹配法根据切取方向的不同,又可分为正向匹配法和逆向匹配法,以及二者结合的双向匹配法。

②特征词库法:基本思想是:先建立包含各种具有切分特征词的词库,分词时先根据特征词库将待分汉字串分成较小的子串,再对个子串使用机械匹配法切分。

③约束矩阵法:基本思想是:先建立一个语法约束矩阵和一个语义约束矩阵,其中元素分别表明具有某词性的词和具有另一词性的词相邻是否符合语法规则、属于某语义类的词和属于另一语义类的词相邻是否合乎逻辑。

机械切词时以之约束分词结果。

④语法分析法:以汉语语法规则约束机械切词的结果。

此外,近年还出现了人工神经网络方法[[38,39]、无词典分词法(37,38]等。

上述各种分词方法中,机械匹配法和特征词库法没有考虑歧义处理,分词速度较快;约束矩阵法和语法分析法实质上就是机械匹配法增加了歧义处理功能,更多的侧重于分词的准确性,但效果不能令人满意;神经网络方法的效果取决于网络的训练情况,无词典分词法主要基于词(指经常在文本中以相同次序重复出现的字串)频和隐Markov模型。

分词的四种形式及用法

分词的四种形式及用法

分词的四种形式及用法分词是动词的一种形式,可以用作动词、形容词、副词或短语的一部分。

常见的分词有以下四种形式和用法:1. 现在分词(-ing分词):- 用作动词:现在分词可以和be动词连用,构成进行时态。

例如:She is going to school.(她正在去学校的路上)- 用作形容词:现在分词可以修饰名词,表示正在进行的动作或状态。

例如:The running water is refreshing.(流动的水很清凉)2. 过去分词(-ed分词):- 用作动词:过去分词可以和助动词或情态动词连用,构成完成时态或被动语态。

例如:He has eaten lunch.(他吃过午饭了)- 用作形容词:过去分词可以修饰名词,表示被动或完成的动作。

例如:The broken glass needs to be cleaned up.(需要清理的破碎玻璃)- 用作副词:过去分词可以修饰动词,表示原因或伴随状态。

例如:She watched him, amazed.(她惊讶地看着他)3. 不定式(to分词):- 用作动词:不定式作为动词的分词形式,可以表示将要发生的动作。

例如:They are going to leave soon.(他们快要离开了)- 用作形容词:不定式可以修饰名词,表示目的或用途。

例如:She needs a book to read.(她需要一本书来阅读)-用作副词:不定式可以修饰动词,表示目的或结果。

4.分词短语:- 用作动词:分词短语作为动词的一部分,可以表示时间、原因、条件等。

例如:Hearing the news, she cried.(听到消息,她哭了)- 用作形容词:分词短语可以修饰名词,表示状态或特征。

例如:The students studying in the library are quiet.(在图书馆学习的学生都很安静)-用作副词:分词短语可以修饰动词,表示方式或条件。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《汉语分词的主要技术及其应用展望》一、汉语自动分词的提出词具有语音、语义和结构三大特征,其语义特征表现在必须具备一定的意义,表明客观现实中的某一事物的性质、特征、行为和关系等,没有意义的词是不存在的。

词里包含有两种不同性质的意义:词汇意义和语法意义。

词的结构特征表现在词在结构上是一个不可分割的整体,其意义不是它的几个构成成分(如果存在的话)的意义的简单总和。

人们在阅读时,大脑有一个模糊的分词过程,它是与视觉到声音的转换和语义理解交叉或同时进行的,并以语感的形式体现出来,由于文化修养和知识水平的差异,不同的人对词和非词,词和词组的预感差别很大。

因而人工分词的同一性得不到保证。

北京航空学院曾做过一个实验,三十余个具有高中文化水平的青年对五百字的一个语言材料人工分词,同一率只有50%左右。

在大篇文字材料处理时,人工分词不仅速度慢,长时间单调枯燥工作也使错误切分次数大大增加。

这些都表明人工分词不能满足汉字处理现代化的要求,但要对书面汉语实现计算机自动分词,并非易事,这与汉语特性有很大关系。

与印欧语系相比,现代汉语至少在四个方面于分词不利:第一,汉语的词不分写,而且词无明确的形态标志,这给计算机进行汉语的词法分析带来一大障碍。

其次,汉语是一种无形态变化的分析型语言,缺乏明显的句法形式标记,其语法主要靠虚词和不同的词序来实现。

第三,汉语的形态不发达,增加了语言的表层结构对语义的依赖性,所以,汉语句子成分的语法作用强烈依赖于该成分的意义。

第四,汉语构词具有极大的灵活性和自由性。

只要词汇意义和语言习惯允许,就能组合起来,没有限制。

如果在自动分词处理时,既不进行语法分析,也不进行语义理解,只是机械的匹配比较,那很容易实现,但必然会出现许多错误切分,而要提高分词精度,就必须进行语法分析和语义理解,于是就引发了一系列耐人寻味的问题。

汉语词自动切分是计算机中文信息处理的第一步,也是计算机科学界、语言文字学界以及信息管理学界所面临的挑战性难题,这一“瓶颈”的解决是计算机自然语言理解、人工智能、信息检索、机器翻译和自动文摘等领域突破的关键, 长期以来一直困扰着这一研究领域的许多专家学者。

尽管汉语词自动切分研究已经取得了可喜的进展,但是在汉语词的规范、自动分词算法突破、切分歧义处理、自然语言理解和人工智能等诸多领域还存在着难以克服的阻碍,仍需要多个学科领域的专家学者们通力协作,才能获得新的突破。

二、现有的分词方法为了克服汉语词计算机自动切分这一难题, 许多年来, 大量的学者都加入了这一领域的研究, 使汉语自动分词取得了丰硕的研究成果。

近年来, 语言学界、人工智能领域和情报检索界的学者们, 在汉语自动分词与自动标引的研究与实践上进行了大量的研究, 找到了许多解决汉语分词的方法,归纳起来有:最大匹配法、逆向最大匹配法、逐词遍历法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想——回溯法、双向扫描法、邻接约束法、扩充转移网络分词法、语境相关法、全自动词典切词法、基于规则的分词法、多遍扫描联想法、部件词典法、链接表法、最少分词词频选择法、专家系统分词法、基于神经网络的分词方法等22 种。

归纳起来, 目前国内公开报道过的分词系统采用的分词方法主要有三种类型:(1) 机械分词法。

机械分词法主要有最大匹配法(MM法)、逆向最大匹配法(RMM 、OMM 、IMM )、逐词匹配法、部件词典法、词频统计法、设立标志法、并行分词法、词库划分和联想匹配法等。

(2) 语义分词法。

语义分词法引入了语义分析, 对自然语言自身的语言信息进行更多的处理, 如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、约束矩阵法、语法分析法等。

(3) 人工智能法。

又称理解分词法, 人工智能是对信息进行智能化处理的一种模式, 主要有两种处理方式: 一种是基于心理学的符号处理方法。

模拟人脑的功能, 像专家系统。

即希望模拟人脑的功能, 构造推理网络, 经过符号转换, 从而可以进行解释性处理。

一种是基于生理学的模拟方法。

神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。

以上两种思路也是近年来人工智能领域研究的热点问题, 应用到分词方法上, 产生了专家系统分词法和神经网络分词法。

这些方法又大体上可分为两类: 一类是基于规则的, 大多数中文分词方法都属此类; 一类是基于语料库的, 如神经网络分词法部分的属于此类。

基于规则的分词算法的计算模型均是概率论中的马尔可夫过程又称元语法、隐马尔可夫过程和通信中的信道噪声模型。

但无论是马尔可夫过程还是信道噪声模型,最后都归结为计算词频的统计信息, 串频和互信息是词频的另一种表现形式。

但遗憾的是自然语言远不是一个经过事先精心规划的系统, 难以用一套完整的规则去准确地预测正式汉语文本中所出现的各种变异。

1.最大匹配法(MM)这种方法又称5-4-3-2-1查词法,最长匹配法,回巡检索法,其基本思想是:假设自动分词词典中的最长词条所含汉字个数为i,则取被处理材料当前字符串序列中的前i个字作为匹配字段,查找分词词典,若词典中有这样一个i字词,则匹配成功,匹配字段作为一个词被切分出来,如果词典中找不到这样的一个i字词,则匹配失败,匹配字段去掉最后一个汉字,剩下的字符作为新的匹配字段,再进行匹配,如此进行下去,直到匹配成功为止。

有专家统计过,MM法的错误切分率为1/169。

2.逆向最大匹配法(RMM)这种方法的分词过程与MM法相同,不过是从句子(或文章)末尾开始处理,每次匹配不成功时去掉的是前面的一个汉字。

据说RMM方法的分词精度比MM法要高,其错误切分率是1/245。

3.逐词遍历法把词典中的词按由长到短递减的顺序逐字搜索整个待处理材料,一直到把全部词切分出来为止。

不论分词词典多大,被处理材料多么小,都得把整个分词词典匹配一遍。

上述三种方法思路清楚,易于机器实现,但由于是把词典作为判词得唯一标准,忽略了汉语词汇得灵活多变性,因而局限性大,出错率高,拒分现象严重,时间复杂度高,这是它们不能被单一采用得最主要原因。

4.设立切分标志法切分标志有自然和非自然之分。

自然切分标志是指文章中出现得非文字符号,如标点符号等。

非自然标志是利用词缀和不构成词得词(包括单音词,复音节词以及象声词等)。

设立切分标志法首先收集众多得切分标志,分词时先找出切分标志,把句子切分为一些较短得字段,然后用MM、RMM或其他方法进行细加工。

这种方法并非真正意义上得分词方法,只是自动分词得一种前处理方式而已,它要额外消耗时间扫描切分标志,增加存贮空间存放那些非自然切分标志。

5.最佳匹配法(OM)此法由北京航空航天大学提出,分为正向得最佳匹配和逆向得最佳匹配法。

其出发点是:在词典中按词频的大小顺序排列词条,以求缩短对分词词典的检索时间,达到最佳效果,从而降低分词的时间复杂度,加快分词速度。

实质上,这种方法也不是一种纯粹意义上的分词方法,它只是一种对分词词典的组织方式。

OM法的分词词典每条词前面必须有指明长度的数据项,所以其空间复杂度有所增加,对提高分词精度没有影响,分词处理的时间复杂度有所降低。

6.有穷多层次列举法其基本思路是:把待处理材料中标点符号区分的语言片断作处理对象,先处理不用查词表的具有特殊标志的字符串,如阿拉伯数字,拉丁字母等,然后用环境词表确定属于15类可列举的词,即先判断一个词能否组成多音词,如五音词,四音词,三音词,双音词,最后确定是否为单音词,这样便把一个个语段化分成较小语段。

这实际上是切分标志法的一种变形方法。

7.二次扫描法其基本思想是:取待处理材料中两个切分标志之间的部分作为样本串,检查分词词典中是否有一个词,它的前两个汉字和该样本串相同,若有的话,则取样本串的前三个汉字作为匹配串,重新在分词词典中找以匹配串为子串的词,若有,则重复下去,直到进行到i个汉字为止,(设i为分词词典中最长词所含汉字的个数),则切分出一个i字词;若没有,则完成一次扫描;把匹配串的最后一个汉字去掉,作为新的匹配串,进行第二次扫描,第二次扫描用RMM或MM 法进行。

8.高频优先分词法这种方法基于词频统计、字与字之间构词结合力和歧义切分等现象的分析而提出。

它不是纯粹意义上的机械分词方法,而是在分词过程中处理歧义字段的一种方式,例如,AB、BC是两个词,如果BC的频度比AB大,则ABC这一歧义字段应切分为A/BC。

该方法的一个明显缺点是频度较低的词,永远被错误切分。

如果仅考虑当前正在处理文本中的词频的话,将会得到良好效果,问题是如何得到当前正在处理文本的词频。

这种方法增加分词的空间复杂度,低频词的错误切分难以克服,目前尚未见成功的报道。

9.基于期望的分词法该法是基于汉语语法及语用规律以及人们语言习惯而提出,它认为一个词的出现对于它后面紧相随的词有一种期望。

当然是期望大的词优先,分词时根据期望,到期望值较大的词所在的词库中找出所对应的词,从而切分出相对应的词。

这种方法增加了分词的时空复杂度,但在一定程度上提高了分词的精度。

目前该法仍处于理论探讨阶段。

10.联想-回溯法其基本做法是:首先将待切分的汉语言文本,依据特征库分割为若干子串,每个子串为词或词群(几个词组合而成的线性序列),然后再用实词库和规则库将词群细分为词。

这种方法实际上采用了设立切分标志法和有穷多层次列举法的思想,由于实行分级建库,故增加了分词的空间复杂度,把分词过程分解成分割和细分两个过程,使得分词的时间复杂度增大。

它能提高分词精度,具备可行性,已在机器上实现。

11.双向扫描法该法重点是放在检错和纠错上,基本做法是将正向扫描(MM)和逆向扫描(RMM)的结果相比较,一致的部分认为是正确的,不一致的部分(称为疑点)则采用人工干预、记频算法或上下文相关信息选取一种切分。

这种方法对于正、逆向扫描结果一致而被认为正确但实际上切分不正确的字段(例如“结合成分子时”)没有强有力的处理手段。

时间复杂度比单向扫描至少增加一倍。

其分词词典必须同时支持正逆两种顺序的检索,词典结构无疑是比较复杂的,或者要设立两种结构的词典。

此方法可作为一种检查歧义字段的方法,但其效果尚不如词尾字构词法。

12.邻接约束法这种方法是利用自然语言中的邻接约束排除不合适切分以提高分词精度。

由于汉语句法语义或习惯用法的限制,或人们为了避免造成阅读上的困难,相邻词语之间有一种约束关系,例如“那里”不能切分成“那/里”。

汉语中某些单词在句法结构中不拥有或只能条件拥有某些固定位置(如句子或片段的开头或结尾等),不同类型的单词之间具有特定的约束(如副词、助动词一般不后接名词等),某些单音动词只在特定文体或格式中出现(如“知”一般不单独出现),等等,这些语言现象可以用来解决部分歧义切分问题。

相关文档
最新文档