自然语言理解-词法分析

合集下载

会话层的三个功能

会话层的三个功能

会话层的三个功能会话层是机器人系统中重要的组成部分,它负责处理用户的输入和输出,并提供一系列功能来实现高效的交互。

在本文中,我们将讨论会话层的三个主要功能:自然语言理解、对话管理和自然语言生成。

一、自然语言理解自然语言理解(Natural Language Understanding,简称NLU)是会话层的核心功能之一。

它负责将用户的自然语言输入转化为机器可以理解和处理的形式。

NLU的关键任务包括词法分析、句法分析和语义理解。

通过词法分析,NLU可以将用户输入的语句分解为单词或短语,消除冗余信息。

句法分析则可以分析句子的结构和成分之间的关系,从而更好地理解用户意图。

最后,语义理解可以帮助机器理解用户的语义,进一步准确解读用户的需求。

二、对话管理对话管理(Dialog Management)是会话层的另一个关键功能,它通过设计合理的对话策略来管理和控制对话的进行。

对话管理的目标是实现有效的对话流程,确保机器能够根据用户的输入做出合适的回应。

在对话管理过程中,机器需要根据用户的意图和上下文信息来选择合适的回答,并在必要时提出合适的问题以获取更多的信息。

对话管理通常采用状态机或者基于规则的方法来实现,也可以结合机器学习技术来优化对话策略。

三、自然语言生成自然语言生成(Natural Language Generation,简称NLG)是会话层的最后一个功能,它负责将机器生成的信息转化为自然语言的形式输出给用户。

NLG的关键任务包括生成合适的句子结构、选择适当的词汇和表达方式,以及考虑语境和用户偏好。

通过NLG,机器可以将复杂的计算结果、系统提示或者回答转化为用户可以理解和接受的语言形式,提供更好的用户体验。

会话层的三个功能:自然语言理解、对话管理和自然语言生成,共同构成了机器人系统中重要的交互环节。

通过自然语言理解,机器可以理解用户的意图和需求;通过对话管理,机器可以合理地组织和控制对话流程;通过自然语言生成,机器可以将复杂的信息转化为用户友好的自然语言输出。

词法分析详解课件

词法分析详解课件

GitHub仓库
许多开源的自然语言处理工具都在GitHub上托管和分享,可以作 为学习和研究的资源。
在线教程和课程
各大在线教育平台(如Coursera、Udacity等)提供了丰富的自然 语言处理课程,包括词法分析的详细教程。
学术论文
深入研究词法分析的学术论文,可以在各大学术数据库中检索并阅 读。
05 词法分析的挑战与未来发 展
未登录词问题
总结词
未登录词问题是指分词过程中遇到的新词或未知词,无法被正确识别和分割。
详细描述
在自然语言处理中,未登录词问题是一个常见挑战。由于语言的复杂性和动态性,总会有一些新词或未知词出现 ,导致分词器无法正确识别和分割。解决未登录词问题的方法包括基于规则的方法、基于统计的方法和混合方法 等。
促进多任务处理
词法分析的结果可以用于 多种自然语言处理任务, 如分词、词性标注、句法 分析等。
词法分析的基本原则
一致性
对同一类文本的处理方式 应该保持一致,避免出现 不同的分词结果。
准确性
分词结果应尽可能准确, 减少错误和歧义。
高效性
分词算法应尽可能高效, 以满足大规模文本处理的 实时性要求。
02 词法分析的步骤
THANKS FOR WATCHING
感谢您的观看
词义消歧
词义消歧是指在对文本进行分词和词性标注后,对同形异义词和多义词进行语义区分的过程 。
同形异义词是指形式相同但意义不同的词语,例如“银行”既可以指代金融机构,也可以指 代河岸边坡。多义词是指具有多个相关联意义的词语,例如“绿色”可以指颜色,也可以指 环保、生态等意义。
词义消歧的方法可以分为基于规则的方法、基于统计的方法和混合方法三种。基于规则的方 法主要依靠人工制定的消歧规则,而基于统计的方法则通过机器学习算法进行消歧。混合方 法则是将基于规则的方法和法分析是自然语言处理中的重要预 处理步骤,它有助于提高文本处理的 精度和效率,为后续的文本理解和生 成提供准确的基础。

nlp六个理解层次案例

nlp六个理解层次案例

nlp六个理解层次案例自然语言处理(NLP)涉及多个理解层次,下面我将为你提供六个案例,涵盖了NLP在不同层次上的应用:1. 词法分析(Lexical Analysis),在这一层次上,NLP被用于分析文本中的词汇。

例如,情感分析就是一个词法分析的案例,它可以帮助企业了解客户对其产品或服务的感受。

通过分析顾客在社交媒体上的评论,情感分析可以识别出积极、消极或中性的情绪,帮助企业调整营销策略或改进产品。

2. 句法分析(Syntactic Analysis),这一层次上的案例涉及理解句子的结构和语法。

一个典型的案例是问答系统,它可以理解用户提出的问题,并从文本中提取出答案。

通过句法分析,系统可以理解问题的语义结构,从而更准确地回答用户的问题。

3. 语义分析(Semantic Analysis),在语义分析层次上,NLP被用于理解文本的含义和语境。

一个案例是信息检索系统,它可以根据用户的查询理解文档的语义,并返回相关的搜索结果。

语义分析可以帮助系统更好地理解用户的意图,提高搜索结果的准确性。

4. 语篇分析(Discourse Analysis),在这一层次上,NLP被用于理解文本之间的逻辑关系和连贯性。

一个案例是自动摘要生成,它可以从长篇文章中提取出关键信息,生成简洁的摘要。

通过语篇分析,系统可以理解文本之间的逻辑关系,帮助用户更快地获取所需信息。

5. 语用分析(Pragmatic Analysis),在语用分析层次上,NLP被用于理解文本的语用学特征,如指代和推理。

一个案例是对话系统,它可以理解用户的指代和推理,更自然地进行对话。

通过语用分析,系统可以更好地理解用户的意图,提供更智能的交互体验。

6. 情感分析(Sentiment Analysis),最后一个案例是情感分析,它可以帮助企业了解客户对其产品或服务的感受,从而调整营销策略或改进产品。

情感分析可以识别出文本中的情感倾向,帮助企业更好地理解客户的需求和反馈。

自然语言理解-词法分析

自然语言理解-词法分析
词法分析
语言根据词的形态结构分类
分析型语言
– 没有专门表示语法意义的附加成分 – 汉语,藏语
黏着型语言
– 词内有专门表示语法意义的附加成分 – 芬兰语,日语
曲折性语言
– 用词的形态变化表示语法关系 – 英语,德语,法语
什么是词?
词是语言中最小的能独立运用的单位, 是信息处理的基本单位。
关键:能否在保证无切分盲点的前提 下,给出尽可能小的解空间
分词模型
阶段二——在解空间中求解
解决切分歧义的策略,大致有三: 基于规则 基于词频 基于隐Markov模型
阶段二:在解空间中求解
基于规则
这类研究吸取了人工智能及 专家系 囿于目前汉语parser的能力,任何期望倚 重parser作为解决歧义切分之手段的设想尚缺 乏现实的基础;
汉语双字动词的重叠形式
汉语单字动词的重叠形式
汉语其他词类的重叠形式
名词
– 哥哥,人人 – 山山水水,是是非非,方方面面,头头脑脑
数词
– 一一做了回答,两两结伴而来
量词
– 个个都是好样的,回回考满分
副词
– 常常,仅仅,的的确确
汉语重叠词的特点
汉语词能否重叠具有很强的个性特点
界定词的困难所在
– 单字词与语素之间的划界 – 词与短语之间的划界
汉语自动分词
– 把没有明显分界标志的字串自动切分为词串
背景
汉语的特点: 汉语是大字符集的语言
英语有26个字母,而常用的汉字就有六七千个,总数超 过五万
书面汉语的词与词之间没有明确的分 隔标记
背景
汉语中兼类现象严重
– 研究研究√ – 工作工作×
有些词重叠后词性发生了变化

自然语言处理的词法分析与句法分析

自然语言处理的词法分析与句法分析

自然语言处理的词法分析与句法分析自然语言处理是人工智能领域的一个重要分支,旨在使计算机能够理解和处理人类语言。

其中,词法分析和句法分析是自然语言处理的两个主要任务。

词法分析负责将一段文本分解成单词或词素,而句法分析则对文本的语法结构进行分析和解析。

本文将详细介绍词法分析和句法分析的基本概念、方法和应用。

一、词法分析1. 概念和任务词法分析是自然语言处理中的一个基础任务,主要目标是将一段文本拆分成一个个单词或词素。

词法分析可以看作是自然语言处理中最初的处理环节,在很大程度上决定了后续处理任务的难度和准确性。

具体而言,词法分析的任务包括以下几个方面:(1)分词:将连续的文本流分成一个个独立的单词。

分词在汉语处理中尤为重要,因为汉语中没有像英语中的空格来明确标识词之间的边界。

(2)词性标注:对每个单词进行词性标注,即确定它的词性类别(如名词、动词、形容词等)。

词性标注常常需要结合上下文语境进行判断。

(3)词干提取:将一个单词的派生形式还原为它的词干或原型形式。

例如,“running”和“ran”都可以还原为“run”。

2. 方法和技术(1)规则法:基于规则的词法分析方法依靠人工定义的词法规则和规则库进行分析。

这种方法简单直观,易于理解和实现,但对规则的编写需要大量的人工劳动,并且规则难以适应复杂多变的语言现象。

(2)统计法:统计法通过学习大量的语料库数据,利用统计模型来进行词法分析。

常见的统计模型包括隐马尔可夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy Model,MEM)、条件随机场(Conditional Random Field,CRF)等。

统计法的优点是能够自动学习语言规律,适应性较好,但需要大量的训练数据和计算资源。

(3)深度学习法:深度学习方法基于神经网络,通过多层的神经网络结构来进行词法分析。

典型的深度学习模型包括循环神经网络(Recurrent Neural Network,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)等。

自然语言中的词法分析、语法分析、句法分析

自然语言中的词法分析、语法分析、句法分析

⾃然语⾔中的词法分析、语法分析、句法分析1.词法分析词是⾃然语⾔中能够独⽴运⽤的最⼩单位,是⾃然语⾔处理的基本单位。

词法分析就是利⽤计算机对⾃然语⾔的形态 (morphology) 进⾏分析,判断词的结构和类别等。

词法分析的主要任务是:①:能正确的把⼀串连续的字符切分成⼀个⼀个的词②:能正确地判断每个词的词性,以便于后续的句法分析的实现。

常见的中⽂分词算法:(分为三类,1.基于字符串匹配(机械分词)的分词⽅法、2.基于理解的分词⽅法、3.基于统计的分词⽅法) 最⼤匹配法(正向、逆向) 1基于字符串匹配 基于词典的中⽂分词 1基于字符串匹配 基于标记法 约束矩阵法 句模切分法 神经⽹络分析算法 2.基于理解 基于统计语⾔模型(共现率) 3.基于统计 专家系统分词算法 常见分词项⽬: word分词 FudanNLP Paoding MMSEG4J jcseg ICTCLAS 智呈分词 MFSOU分词 SCWS jieba2.句法分析(语法分析)运⽤⾃然语⾔的句法和其他知识来确定组成输⼊句各成分功能。

对句⼦中的词语语法功能进⾏分析。

(每个词充当的⾓⾊,主语、谓语等)。

句法分析的基本任务是:确定句⼦的语法结构或句⼦中词汇之间的依存关系。

句法分析分为:句法结构分析和依存关系分析两种。

采⽤语法树来表⽰3.语义分析4.语⽤分析5.常见的术语: 未登录词:命名实体(⼈名、地名)、新词,专业术语称为未登录词。

也就是那些在分词词典中没有收录,但⼜确实能称为词的那些词。

NLP基础知识

NLP基础知识

NLP基础知识自然语言处理(Natural Language Processing, NLP)是一种计算机科学领域,专注于处理文本数据,使计算机能够理解人类语言及其含义。

NLP是一门复杂多样的技术,它涉及语言理解、文本生成、语音识别、信息抽取、问答系统等方面,被广泛应用于搜索引擎、机器翻译、语音识别、客户服务等领域。

NLP的基础知识包括以下几个方面:1. 词法分析词法分析是一个基础任务,目的是将文本分成词语或者标记。

这里常常使用分词技术,也就是说将文本按照单词或者标点符号分开。

中文的分词技术相对来说更加复杂,因为中文字之间没有空格,需要根据上下文和语法规则来把字分开。

2. 句法分析句法分析是指理解一个句子的语法结构,这里需要根据一定的语言规则将一个句子分解成主语、谓语、宾语等不同的部分。

句法分析技术包括依存句法分析和成分句法分析,其中前者是将每个单词之间的依存关系表示出来,后者是将句子分解为短语或者句子的成分。

3. 语义分析语义分析是指理解一个句子的含义,这里需要识别出句子中的主题、动作、对象以及关系,从而达到理解句子的目的。

常见的语义分析技术包括实体识别和情感分析。

实体识别是指识别出文本中的人、地点、组织机构等实体,以及它们之间的关系。

情感分析是指识别出文本中表达的情感,包括积极、消极、中立等。

4. 信息检索信息检索是指根据用户的查询,搜索文本数据中匹配的文档或者信息。

这里主要使用文本检索技术来实现,包括词汇匹配、短语匹配、文档排序等。

5. 自然语言生成自然语言生成是指根据计算机的输入,生成自然语言的输出。

这里需要根据某个任务的要求、规则和模型,将知识表示为自然语言形式,常见的自然语言生成任务包括机器翻译、文本摘要和智能客服等。

总之,NLP是一项涉及多个技术和领域的复杂技术,它需要掌握相关的编程技能和知识体系。

未来随着人工智能技术的发展,NLP将会在更多的领域得到广泛应用。

自然语言处理中的词法分析与句法分析

自然语言处理中的词法分析与句法分析

自然语言处理中的词法分析与句法分析词法分析(Lexical Analysis)是指将一个句子或文本切分成一个个独立的词(Token)的过程。

在自然语言处理中,词法分析主要包括以下几个步骤:1.分词(Tokenization):将文本切分成词。

例如,将句子“我爱自然语言处理”切分成["我", "爱", "自然语言处理"]。

分词可以使用规则、统计方法或机器学习方法进行。

2.词性标注(Part-of-Speech Tagging):为每个词标注其词性。

例如,将词语“自然语言处理”标注为“名词短语”,将词语“爱”标注为“动词”。

词性标注可以使用规则、统计方法或机器学习方法进行。

3.词形还原(Lemmatization):将每个词还原为其基本形式。

例如,将动词的各种时态和语态还原为原形。

词形还原通常使用规则或基于词典的方法。

句法分析(Syntactic Analysis)是指对一个句子的结构进行分析,包括短语结构分析和依存关系分析。

句法分析的目标是确定句子中各词之间的语法关系。

在自然语言处理中,句法分析主要包括以下几个步骤:1.短语结构分析(Phrase Structure Parsing):根据语法规则,将句子分解成短语(Phrase)。

短语结构分析可以使用基于规则的方法(如上下文无关文法)或基于统计的方法(如基于机器学习的方法)。

2.依存关系分析(Dependency Parsing):确定句子中词与词之间的依存关系。

依存关系表示词与词之间的句法关系,如主谓关系、动宾关系等。

依存关系分析可以使用基于规则的方法或基于统计的方法。

词法分析和句法分析是自然语言处理中两个重要的步骤。

词法分析解决了单词划分和词性标注的问题,为后续的句法分析提供了基本的信息。

句法分析则进一步对句子的结构和语法关系进行了深入分析,为理解句子的意义和进行更高级的语义分析奠定了基础。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
杭州大学改进的 MM分词系统 , 其实质为 MM+ 规 则。 微软研究院多国语言处理平台NLPWin中的中文 词语分析词系统,采用了切词-句法分析一体化的 方法,使用语法规则并以概率模型作导向来进行 排歧。 北京大学计算语言学研究所的汉语切分与标注 系统,把分词和词类标注结合起来,采用基于规 则的标注排歧与基于语料库统计模型的排歧相结 合的处理方法。
分词词表
《信息处理用现代汉语分词规范》 迄今也没有一个公认的、具有权威 性的词表,这是分词问题所面临的第 一个困难
汉语双字形容词的重叠形式
汉语单字形容词的重叠形式
汉语双字动词的重叠形式
汉语单字动词的重叠形式
汉语其他词类的重叠形式

名词

哥哥,人人 山山水水,是是非非,方方面面,头头脑脑 一一做了回答,两两结伴而来 个个都是好样的,回回考满分 常常,仅仅,的的确确
歧义切分字段
分词模型
待切分 生成解空间 在解空间中求解
句子
侯选切分集
切分歧义之解决
阶段一
阶段二
切分
结果
分词模型
阶段一——生成解空间
根据分词词表及其某种切分原则, 找出输入句子的侯选切分集合,以供 下一阶段处理
最大匹配法是极端之一,给出唯一侯选 (侯选即解)
分词模型
全切分法是另一个极端,给出输入句子的 所有可能切分形式,可实现无盲点分析,代价 是解空间膨胀太大,又会造成许多不必要的干 扰
印欧语系多有形态变化,而汉语缺 少形态变化
例如:复数、单数,过去、现在,阴性、阳性等等
汉语词法分析所面临的问题

分词词表 重叠词、词缀 分词和理解,孰先孰后? 歧义切分字段 专有名词的识别
分词词表
汉语词的抽象定义(既“词是什么”) 与具体判定(既“什么是词”)问题, 语言学界并未完全解决 词表对自动分词而言,是最基础的 “构件”
例如:
马上————马/上(切分1)
马上————马上 (切分2)
歧义切分字段

混合型歧义:由交集型歧义和组合型歧 义自身嵌套或两者交叉组合而产生的歧 义


人才能:这样的人才能经受住考验。 人才能:这样的人才能经受住考验。 人才能:这样的人才能经受住考验。
真歧义和伪歧义

真歧义

确实能在真实语料中发现多种切分形式 比如“应用于”、“地面积” 虽然有多种切分可能性,但在真实语料中往 往取其中一种切分形式 比如“挨批评”、“市政府”

单字词与语素之间的划界 词与短语之间的划界 把没有明显分界标志的字串自动切分为词串

汉语自动分词


汉语的特点: 汉语是大字符集的语言

英语有26个字母,而常用的汉字就有六七千个,总数超 过五万
书面汉语的词与词之间没有明确的分 隔标记

汉语中兼类现象严重

例如:“和”根据《现代汉语词典》可以有五种读 音,六种词性,以及十六种不同的词义
模型的求解仍可归结为有向图两点 最优路径问题
基于隐Markov模型
关键:以隐Markov模型为主要手段 解决切分歧义,是一种最有希望的方 案,但“单打一”恐怕不能完全奏效, 必须集成多种手段(方法)。
专有名词的识别
许多分词算法都是在完备词表的假 设下设计的,这一假设并不成立。 新词不断涌现,而且专有名词虽然 不新,但不可能尽收。

材料一:孙茂松等1999

一个1亿字真实汉语语料库中抽取出的前4,619个高 频交集型歧义切分覆盖了该语料库中全部交集型歧 义切分的59.20%,其中4279个属伪歧义(占92.63%, 如“和软件”、“充分发挥”、“情不自禁地”), 覆盖率高达53.35%。

材料二:刘开瑛2000,第4章

78248个交集型歧义字段中,
词法分析
语言根据词的形态结构分类

分析型语言

没有专门表示语法意义的附加成分 汉语,藏语 词内有专门表示语法意义的附加成分 芬兰语,日语 用词的形态变化表示语法关系 英语,德语,法语

黏着型语言


曲折性语言

什么是词?


词是语言中最小的能独立运用的单位, 是信息处理的基本单位。 界定词的困难所在

后缀

分词和理解,孰先孰后?
计算机分词仍然面临知识短缺的大问 题 计算机大概永远做不到像人那样先理 解后分词
不可企求百分之百的正确切分,这是 自动分词所面临的第二个困难
汉语切分歧义

例子

公路局处理解放大道路面积水问题。 南京市长江大桥说:……
歧义切分字段

数词


量词


副词

汉语重叠词的特点

汉语词能否重叠具有很强的个性特点
பைடு நூலகம்
研究研究√ 工作工作× 形容词重叠后一般成为状态词 个别量词重叠后可以成为其他词性


有些词重叠后词性发生了变化

回回:副词 个个:名词
汉语词缀

前缀

老鹰、老虎、老三、老王 超豪华、超标准、超高速 非党员 骨头、砖头、甜头、苦头、盼头、想头 桌子、椅子、孩子、票子、房子 文学家、指挥家、艺术家 科学性、可能性、学术性 碗儿、花儿、玩儿、份儿、片儿
研究进展
山西大学的 ABWS 分词系统 , 使用“两次扫描 联想回溯”法,利用联想 - 回溯来有效地解决 歧义组合结构的切分,同时兼有自动检错和纠 错的功能。其分词子系统较好地利用了语言学 中的词法知识、句法知识,并具有调用分词规 则切分歧义字段和回收生词等功能。 北师大的自动分词专家系统,首次将专家系 统方法引入到分词系统中。
定义1.1 交集型歧义:字串ABC,其中 汉字字串A、B、C的长度均大于零,该 字串可以切分为AB/C或A/BC,则称该字 串为交集型歧义字串。
例如: 出现在————出现/ 在(切分1) 出现在————出 /现在(切分2)
歧义切分字段
定义1.2 组合型歧义:字串 AB ,其中 汉字字串 A 、 B 的长度均大于零,该字 串可以切分成 AB 或 A/B ,则称该字串为 组合型歧义字串。
研究进展
中科院计算所的词语分析系统 ICTCLAS ,采 用 N- 最短路径方法进行词语粗分(概率统计), 然后用HMM的方法进行分词和标注的一体化处理。 国家语委文字所应用句法分析技术的汉语自 动分词,此分词模型考虑了句法分析在自动分 词系统中的作用,以更好地解决切分歧义。切 词过程考虑到了所有的切分可能,并运用汉语 句法等信息从各种切分可能中选择出合理的切 分结果。
专有名词的识别
一般说来,专有名词包括:
中国人名 中国地名 译名 组织机构名 事件名 时间数量名 商标名
专有名词的识别
陈/nhf 平/nhs 为/vl 北京大学/ni 中国经济研究 中心/ni 经济学/n 教授/n ,/w 中心/n 副/f 主任 /n (/w 主管/v 科研/j )/w 。/w 1968/m 年/nt 获/v 中国科技大学/ni 物理系/n 学士/n 学位/n , /w 1987/m 年/nt 获/v 美国/ns 德克萨斯大学/ni 物理学/n 博士/n 学位/n 。/w “陈平” 人名 “美国” 地名 “北京大学”、“中国科技大学” 、“中 国经济研究中心” 及 “德克萨斯大学” 属于组织机构名
研究进展
清华大学 SEG分词系统,此系统提供了带回溯的
正向、反向、双向最大匹配法和全切分-评价切分算 法,由用户来选择合适的切分算法。其特点则是带 修剪的全切分-评价算法。 清华大学SEGTAG系统,该系统对词典中的每一个 重要的词都加上了切分标志,即标志“ck”或“qk” 。 通过这两种标志并使用几条规则来实现有限的全切 分。为了获得切分结果,系统采用在有向图DAG上搜 索最佳路径的方法,所运用的搜索算法有两种,即 “动态规划”和“全切分搜索+叶子评价”,使用了 词频、词类频度、词类共现频度等统计信息。
专有名词的识别
不同的语料,专名所占的比例也不同。
对455万字的人民日报语料统计的结果显示: 专名占5.74%,其中,中国人名占2.55%,地名占 2.55%,外国译名占0.73%,如果不予处理,会对切 分精确率造成比歧义字段更大的影响。
研究进展
中文词语的分析过程:
预处理过程的词语粗切分
研究进展
北大计算语言汉语文本分析系统,该系统中采 用了一种综合性歧义切分处理方法,其要点有: 把汉语基本词典中所有的歧义词标记出来; 把所有的歧义字段分为两类:简单歧义字段 和复杂歧义字段; 在切分时,如果匹配出来的词不是歧义词, 则可以安全地切分出来;
研究进展
当匹配出歧义词时,根据词条的歧义信息(歧 义偏移值)判断当前歧义字段的类别:如果是简单 歧义,则使用一条非常简单的规则即可全部得解, 即优先切出非歧义词; 如果是复杂歧义字段,则调用一个“侦歧”过 程,进一步判断歧义字段的类型是“歧义词+歧义词” 还是“连续型歧义字段”;考察词条的“歧义触发 信息”和“歧义消隐信息”,即可解决所有局部 (直接上下文)的歧义; 通过浅层句法分析及其同步的语义检查(义类 代码及配价项的检查),消解句子级歧义。

伪歧义:94% 真歧义:6%
汉语真实文本中的分词歧义情况 (续)

分词歧义的四个层级(何克抗等1991, 50883字语料)


词法歧义:84.1% (“用方块图形式加以描 述”) 句法歧义:10.8% (“他一阵风似的跑了”) 语义歧义:3.4% (“学生会写文章”) 语用歧义:1.7% (“美国会采取措施制裁 伊拉克”)
相关文档
最新文档