第8章 自然语言理解

合集下载

人工智能8自然语言理解共26页

人工智能8自然语言理解共26页
55、 为 之 事 常成 于困约 ,而败 于奢靡 。——陆 游 52、 生 命 不 等 于是呼 吸,生 命是活 动。——卢 梭
53、 伟 大 的 事 业,需 要决心 ,能力 ,组织 和责任 感。 ——易 卜 生 54、 唯 书 籍 不 朽。——乔 特
人工智能8自然语言理解
6、法律的基础有两个,而且只有两个……公平和实用。——伯克 7、有两种和平的暴力,那就是法律和礼节。——歌德
8、法律就是秩序,有好的法律才有好的秩序。——亚里士多德 9、上帝把法律和公平凑合在一起,可是人类却把它拆开。——查·科尔顿 10、一切法律都是无用的,因为好人用不着它们,而坏人又不会因为它们而变得规矩起来。——德谟耶克斯

自然语言理解NLP

自然语言理解NLP

2.语法分析歧义:
“那只狼咬死了猎人的狗” “咬死了猎人的狗失踪了”
3.语义分析歧义:
机器翻译句子 “At last, a computer that understands you like your mother” 可以有多种含义,如下: “计算机会像你的母亲那样很好的理解你(的语言) ” “计算机理解你喜欢你的母亲” “计算机会像很好的理解你的母亲那样理解你”
Party May 27 add

基本解决:词性标注、命名实体识别、Spam识别

取得长足进展:情感分析Sentiment analysis、共指消 解Coreference resolution、词义消歧Word sense disambiguation 、句法分析Parsing、机器翻译Machine translation (MT )、信息抽取Information extraction (IE)

包括查询资料、解答问题、摘录文献、汇编资料以 及一切有关自然语言信息的加工处理。 例如,如果有一台机器既能理解中文又能理解英文 ,那么,这台机器就可以为人类充当翻译;如果电 视能理解中文,那么,用户就可以不用按钮,而是 通过说话来遥控电视


语言究竟是怎样组织起来传输信息的?人又是怎样 从一连串的语言符号中获取信息的?
3.情感分析(Sentiment Analysis,SA):又称倾向 性分析和意见挖掘,它是对带有情感色彩的主观性文 本进行分析、处理、归纳和推理的过程,如从大量网 页文本中分析用户对“数码相机”的“变焦、价格、 大小、重量、闪光、易用性”等属性的情感倾向; 4.机器翻译(Machine Translation,MT):将文本从 一种语言转成另一种语言,如中英机器翻译。

自然语言理解PPT课件

自然语言理解PPT课件

• Perhaps I could learn to get along with my mother. (也许我可以学会如何和 我母亲相处。)
• My mother takes care of me.(我母亲照顾我。)
• My father.(我父亲。) • You are like my father in
层次。
例如:
She read me a story 和 A story was read to me
的表层结构不一样,但它们的深层结构则是一样的。再如,主动句和被动句
也只是表层结构不同,其深层结构则是相同的。
在变换文法中,句子深层结构和表层结构之间的变换是通过变换规则实
现的。 句子
句子
名词短语1 动词短语
发展时期
• 20世纪60年代和70年代,对自然语言理解对话系 统的研究取得进展。
• 60年代:拉法勒(B.Raphael)在麻省理工学院完 成的信息检索系统SIR;韦森鲍姆在麻省理工学院 的ELIZA。
• 70年代:伍兹(Woods)的LUNAR系统、威诺甘德 (Winogand)的SHRDLU系统和香克(Schank)的 MARGIE系统等。
book
句法规则的表示方法——上下文无关法
上下文无关文法(Context-free Grammars)是乔姆斯基提出的一种对自 然语言语法知识进行形式化描述的方法。在这种文法中,语法知识是 用重写规则表示的。作为例子,下面给出了一个英语的很小的子集。
语句 → 句子 终标符
句子 → 名词短语 动词短语
动词短语 → 动词 名词短语
名词短语 → 冠词 名词
名词短语 → 专用名词
冠词 → the
名词 → professor

高级人工智能-8自然语言理解

高级人工智能-8自然语言理解

Artificial Intelligence
NLP: 4
自然语言理解的一般问题(2)
• 什么是“自然语言理解”?
–与“智能”一样,存在各种各样的理解和解释。 –利用计算机对自然语言进行理解 • 自然语言“理解”的准则:
给计算机输入一段自然语言文本,如果计算机能 – 问答(question-answering)-机器能正确地回答输入 文本中的有关 问题; – 文摘生成(summarizing)-机器有能力产生输入文本 的摘要; – 释义(paraphrase)-机器用不同的词语和语句复述输入文本; – 翻译(translation)-机器把一种语言(源语言)翻译为 另一种语言( 目标语言)
Artificial Intelligence
NLP: 15
自然语言理解的一般问题(13)
• 自然语言理解的研究大体上经历了三个 时期
– 萌芽时期 – 发展时期
• 早期: 60年代以关键词匹配为主流 • 中期: 70年代以句法-语义分析为主流 • 近期: 80年代以来开始走向实用化和工程化
– 大规模真实文本处理时期 • 比较成功的系统处理都是受限的自然语言子集 – 句法受限:句子结构的复杂性方面受到限制 – 语义受限/领域受限:所表达的事物的数量方面受到限制
Artificial Intelligence
NLP: 12
自然语言理解的一般问题(10)
自然语言的层次划分及对应技术
理论
模板匹配、基于规则 基于词素、词汇 转换生成、词汇功能语法 格语法、语义基元理论、模型理论 基于记忆的推理、语言行为理论、 篇章语法
层次结构
语音 词汇 语法 语义 语用
实现技术
Artificial Intelligence

自然语言理解

自然语言理解

一分词概述语言学中一般将“词”定义为“能够独立运用的,有意义的最小语法单元”。

自然语言中句子是由词组成的,而计算机要理解和处理自然语言就是从词这一步开始的。

汉语不同于西文,在一个汉语句子中,词与词之间没有明显的分隔符(如空格)。

此外,汉语的词法约束很不规范,而且千变万化,就给汉语分词带来了很大的麻烦。

正是由于汉语分词的困难及其在中文信息自动处理中的重要地位,自70 年代末以来,许多人投入到了汉语自动分词的研究工作中来,也出现了好多具有应用前景的分词方法。

1.1 汉语分词的歧义汉语分词是汉语分析以及计算机处理汉语的一大难点,导致汉语分词精度不高的原因一般有:词语(抑或说汉语分析基本单位)的界定、词典范围、分词中因为算法问题产生的歧义。

分词过程中歧义产生的根源可归结为以下三类:(1)由自然语言的二义性所引起的歧义,称为第一类歧义。

如:“乒乓球拍卖完了”可切分为“乒乓球/拍卖/完了”又可以切分为“乒乓球拍/卖/完了”。

这两种切分形式无论在语法上还是语义上都是正确的,就是人工分词也会产生歧义,只有结合上下文才能给出正确的切分。

(2)由机器自动分词产生的特有歧义,称为第二类歧义。

如:“在这种环境下工作是太可怕了”用机器切分可以切分为“在/这种/环境/下工/作/是/太/可怕/了”也可以切分为,“在/这种/环境/下/工作/是/太/可怕/了”。

对本句来说,只有第二种切分是正确的,用人工分词是不可能产生歧义的,歧义是由于机器机械切分产生的。

(3)由于分词词典的大小而引起的歧义,称为第三种歧义。

如:“王小二是一个农民”用机器切分被分为“王/小/二/是/一个/农民”,这里“王小二”是一个人名,在汉语中应是一个词,所以这个切分是错误的。

由于机器自动切分是依据分词词典进行的,故词典中没有的词,就不可能被正确切分,分词词典不可能也没有必要包括所有的词(如人名、地名),同时,词典中所包括的词越多,就会产生新的歧义。

例如“发展社会主义的新乡村”,新乡是一个地名,若词典中有该词,则“新乡村”是一个歧义字段。

人工智能习题参考答案

人工智能习题参考答案

• 神经网络主要通过指导式(有师)学习算法和非指导式(无师)学习 算法。此外,还存在第三种学习算法,即强化学习算法;可把它看做 有师学习的一种特例。 • (1)有师学习 • 有师学习算法能够根据期望的和实际的网络输出(对应于给定输入) 间的差来调整神经元间连接的强度或权。因此,有师学习需要有个老 师或导师来提供期望或目标输出信号。有师学习算法的例子包括 Delta规则、广义Delta规则或反向传播算法以及LVQ算法等。 • (2)无师学习 • 无师学习算法不需要知道期望输出。在训练过程中,只要向神经网络 提供输入模式,神经网络就能够自动地适应连接权,以便按相似特征 把输入模式分组聚集。无师学习算法的例子包括Kohonen算法和 Carpenter-Grossberg自适应谐振理论(ART)等。 • (3)强化学习 • 强化(增强)学习是有师学习的特例。它不需要老师给出目标输出。 强化学习算法采用一个“评论员”来评价与给定输入相对应的神经网 络输出的优度(质量因数)。强化学习算法的一个例子是遗传算法 (GA)。
• • • • • • • • • •
• 6-2专家系统由哪些部分构成?各部分的作用为何? • 答: •
• 5-7遗传算法、进化策略和进化编程的关系如何?有何区别? • 遗传算法是一种基于空间搜索的算法,它通过自然选择、遗传、变异 等操作以及达尔文适者生存的理论,模拟自然进化过程来寻找所求问 题的解答。 • 进化策略(Evolution Strategies,ES)是一类模仿自然进化原理以求 解参数优化问题的算法。 • 进化编程根据正确预测的符号数来度量适应值。通过变异,为父代群 体中的每个机器状态产生一个子代。父代和子代中最好的部分被选择 生存下来。 • 进化计算的三种算法即遗传算法、进化策略和进化编程都是模拟生物 界自然进化过程而建立的鲁棒性计算机算法。在统一框架下对三种算 法进行比较,可以发现它们有许多相似之处,同时也存在较大的差别。 • 进化策略和进化编程都把变异作为主要搜索算子,而在标准的遗传算 法中,变异只处于次要位置。交叉在遗传算法中起着重要作用,而在 进化编程中却被完全省去,在进化策略中与自适应结合使用,起了很 重要的作用。 • 标准遗传算法和进化编程都强调随机选择机制的重要性,而从进化策 略的角度看,选择(复制)是完全确定的。进化策略和进化编程确定 地把某些个体排除在被选择(复制)之外,而标准遗传算法一般都对 每个个体指定一个非零的选择概率。

第8章自然语言理解

第8章自然语言理解

词 the liow flies
表8-3 句子识别过程
当前状态 a b b b c e

a→detb b→adjb b→adj b b→noun c c→verbe e→noun f
新状态 b b b c e f(识别)
其中,A,BN,tT,即A,B都是单独的非终结符;t 是单独的终结符。
右线性文法。其文法规则必须采用如下形式
A→tB 或
A→t
2. 上下文无关的文法 上下文无关的文法已广泛应用于定义程序设计语言,它 的文法生成能力强于正则文法。其形式为:
A→x 其中,AN,xV*,即每条产生是的左侧必须是一个 单独的非终结符。在这种形式体系中,规则不依赖于 符号A所处的上下文,所以称上下文无关文法。
有合法语句构成遵从该文法的语言。
8.2.2 乔姆斯基体系
乔姆斯基(N. Chomsky)依据文法规则表示形式的受 限程度,将文法(和语言)划分为四个等级,如表8-2所示,
称为乔姆斯基体系。
表8-2 乔姆斯基体系
类型 语种
规则限制
0 无约束短语结构法 无
1
上下文有关文法
左部至少包括一个非终结符,右部符号的个 数不少于左部
表8-1自然语言的层次划分与对应技术
理论 模板匹配、基于规则 基于词素、词汇 转换生成、词汇功能语法 格语法、语义基元理论、模型理论 基于记忆的推理、语言行为理论
层次结构 语音 词汇 语法 语义 语用
对应技术 模板匹配 词典结构 扩展转移网络,CF规则 产生式规则,概念相依理论 脚本、框架、语义网络、逻辑
8.2.4 句法模式匹配和转移网络
句法分析最为简单、直观的方法也许就是模式匹配。 1. 用转移网络表示句法模式 由于自然语言就有许多模式。这些模式可用状态转移图来表 示,这种用状态转移图来表示的表达方式称之为转移网络 (TN,Transition Network)。

什么是自然语言理解

什么是自然语言理解

什么是自然语言理解
自然语言理解(NLU)是人工智能的重要研究领域之一,其
目标是模仿人类理解语言的能力。

它旨在使计算机能够通过识别、理解和解释自然语言来获取有用信息或完成特定任务。

自然语言理解可以为人力资源和监督学习提供数据和洞察,使其能够有效地回答问题,发现潜在的意义和关系,并能够预测各种可能的结果。

它可以帮助机器发现新的概念,例如将抽象概念翻译成具体表达。

NLU可以分为三个基本步骤:词汇分析,语法分析和形式语
义分析。

在词汇分析级别,NLU系统会标记文本中的每一个词,以此确定句子的意义。

在语法分析级别,它会通过检测句子中包含的语法结构(例如主语、宾语和定语),来确定句子的类型和意义。

在形式语义分析级别,NLU系统会尝试分析
句子的深层含义,例如分析话语者的目的或整体上下文。

NLU最近被广泛应用于语音识别、机器翻译、聊天机器人等
领域。

它可以帮助机器理解口头语言,有效地回答问题,并与人进行实时交流,从而提高人机交互的效率。

它还可以帮助发现隐藏在文本中的意义。

总之,自然语言理解为机器提供了更好的理解人类话语的能力,它可以更有效地处理语音识别、机器翻译、聊天机器人等任务,并提高人机交互的效率。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

理论上讲,上述→形式的文法规则的定义几乎不受 限制:规则两边可以出现任意多个符号、而且规则可以递 归。 但是,规则形式不受限制会增加句法分析的复杂程度; 如果对规则形式加以限制,可以简化句法分析,但缺点是 会限制语言表达形式和描述能力。
7
2011-12-26
8.2.2 乔姆斯基体系
乔姆斯基(Noam Chomsky)依据文法规则表示形式的 受限程度,将文法(和语言)划分为四个等级,如表8-2所 示,称为乔姆斯基体系。 表8-2 乔姆斯基体系
A→y/x_z
其中,AN,yV+,x,zV*。这条规则的意思是:如果A出现在上下文 “x z”中,即前面紧挨着符号串x,后面紧挨着符号串z,则A可以重写为y。 即有 xAz→xyz。 第二种标记体现了:一个符号的重写依赖于其上下文;这也是“上下 文有关”这个名称的由来。
10
2011-12-26

左线性文法的文法规则必须采用如下形式 A→Bt 或 A→t
其中,A,BN,tT,即:A,B都是单独的非终结符;t 是单独的终结符。

右线性文法的文法规则必须采用如下形式 A→tB 或 A→t
8
2011-12-26
右线性文法例子如: S→aA A→S a A b c B d
B→cA
B→d 图8-5 对应的状态转移图
考虑到上下文无关文法的句法分析远比上下文有关文法 的句法分析有效,因此人们希望能在增强上下文无关文法的 句法分析的基础上,实现机器的自然语言理解。
4. 无约束短语结构法 无约束短语结构法是指对重写规则没有任何限制, 但它很少用来处理自然语言问题。无约束短语结构法对 文法规则的表示形式不作任何限制,从而能使定义的语 言提供充分的描述功能。该文法不保证语言的递归性, 即不能确保语句合法的可判性,所以很少用于定义自然 语言。
4
2011-12-26
4.自然语言理解过程的层次 语言虽然表示为一连串的文字符号,但其内部实际上是 一个层次化的过程。现代语言学家把这一过程分为3个层次: 词法分析、句法分析和语义分析。如果接收到的是语音流, 那么在上述3个层次之前还应当加入一个语音分析层。虽然 这种层次之间并非是完全隔离的,但是这种层次化的划分的 确有助于更好地体现语言本身的构成。 (1) 语音分析 (2) 词法分析 (3) 句法分析 (4) 语义分析 (5) 语用分析
达起始符(句法规则被倒过来用)。
2. 句法分析中的搜索方法
(1) 所有路径法:对逐个输入的单词可能充当的所有角色都 进行分析。由于许多不可能成功的分析路径都被搜索,因此, 会导致搜索效率低下 。 (2) 带回溯的最优路径法:用启发式对搜索路径进行排序; 搜索失败时进行回溯(应减少回溯处理的工作量)。 (3) 带修补的最优路径法:搜索失败时并不进行回溯,而是 改变句子成分对应的语法结构。 (4) 等待观察法:在分析输入的句子时,对于任何句子成分, 如果没有足够信息用于得到确定的分析结果,就暂不要判定, 等待后续输入提供足够的信息。这种方法在很大程度上避免 回溯,但缺点是在分析复杂句子的时候必须暂存许多角色待 定的句子成分。例子系统有PARSIFAL。
11
2011-12-26
8.2.3 句法分析的策略
1. 句法分析方式 依据文法的形式定义,句法分析可分为两大类:
– 自顶向下:从树顶的根节点开始建立句法分析树;从
推导的顺序看,是从起始符开始向句子进行推导(正 向运用句法规则) 。
– 自底向上:从树底的叶节点(即词或词类)开始建立
句法分析树;从推导的顺序看,是从句子开始直至到
例如:S→aSb,S→x。
如果令: S→(S),S→x;则可生成:x, (x), ((x)), … 上下文无关文法正是以这种方式解决了正则文法无法解 决的嵌套结构。
9
2011-12-26
上下文无关文法的语言的句法分析可以采用基于有限状 态自动机的转移网络技术或产生式推导技术。分析的结构可 以表示为句法分析树。 例如:“Mary eats cheese”的分析推导和句法分析树如下:
正则文法的规则形式高度受限,可以用有限状态自 动机程序做高效的句法分析。 在对应的有限状态转移 图(图中状态节点的数量有限)上,每一条从起始节点 到最终节点的路径都对应于正则语言的一个句子。 因 此,正则文法又称有限状态文法。
2. 上下文无关的文法 上下文无关的文法已广泛应用于定义程序设计语言, 它的文法生成能力强于正则文法。其形式为: A→x 其中,AN,xV*,即每条产生是的左侧必须是一个单 独的非终结符。在这种形式体系中,规则不依赖于符号A 所处的上下文,所以称上下文无关文法。
12
2011-12-26
8.2.4 句法模式匹配和转移网络
句法分析最为简单、直观的方法也许就是模式匹配。 如:“bears love honey” 可以用句法模式 noun+verb+noun来匹配。 而“wooly bears”或“ferocious wooly bears” 可以用模式(adj. * noun)来匹配(*表示可以有 零个或多个形容词在名词前面)。
3
2011-12-26
(3) 源表示成分间的语义相关性 自然语言是上下文相关的语言,体现为语言成分之间的 语义相关性。譬如:在语句中处于相同位置的同类词组, 可能因为语义不同而导致语法结构的较大差异。
例8-5 “John saw the boy in the park with a telescope.” 和 “John saw the boy in the park with a dog.”
2011-12-26
第8章 自然语言理解
8.1 自然语言理解的一般问题 8.2 句法分析 8.3 语义分析 8.4 自然语言理解系统应用举例 8.5 机器翻译 8.6 语音识别 8.7 信息检索
8.1 自然语言理解的一般问题
1.自然语言的构成 语言是由音义结合的词汇与语法构成的体系
图8-1 语言的构成
类型 0 1 2 3 语种 无约束短语结构法 无 上下文有关文法 上下文无关文法 正则文法 左部至少包括一个非终结符,右部符号的个 数不少于左部 左部必须是单一非终结符 左部必须是单一非终结符;右部或者是单一 终结符,或者是单一终结符跟单一非终结符 规则限制
1. 正则文法 处于乔姆斯基体系底部的是正则语言,其采用的3型 文法限定(限制最多)的文法规则。其可分为左线性文 法和右线性文法。
图8-6 句法分析树
3. 上下文有关文法
自然语言是上下文有关的文法,上下文有关的语言需要用1型文法加以 定义,文法规则允许其左部有多个符号(至少包括一个非终结符),以指 示上下文相关性;但要求规则右部符号的个数不少于左部,以确保语言的 递归性(即语句合法的可判性)。上下文有关的文法有两种标记方法。 第一种标记为:上下文有关文法满足于 x →y 其中,y的长度大于或等于x,而且y,xV*。例如,AB→CDE 第二种标记为:
词组构造法:词构成词组的规则,如:红+铅笔 红铅笔
造句法:用词或者词组造句的规则。 另外,语言是音义结合。每个词的发音是由一个或多个音节组 合而成,音节又由音素构成,音素是最小的、可独立的声音单 元;有:元音音素如/a:/,辅音因素如/b/。
2.自然语言理解的困难 导致自然语言理解存在困难的主要因素有三个: (1) 目标表示的复杂性 (2) 源-目映射的多样性 (3) 源表示成分间的语义相关性
8.2 句法分析
8.2.1 文法和语言的形式定义 8.2.2 乔姆斯基体系 8.2.3 句法分析的策略 8.2.4 句法模式匹配和转移网络 8.2.5 句法分析的确定性算法 8.2.6 词汇功能语法 8.2.7 基于统计方法的句法分析方法
6
2011-12-26
8.2.1 文法和语言的形式定义
自然语言的文法属于所谓的短语结构文法,它可以形 式地表示为一个4元组: G=(T, N, P, S) 其中,T是终结词汇表(确定了该语言中合法语句可用的单 词符号),N是非终结词汇表(可以是描述文法的词汇), T和N的并构成了V称为总词汇表,而且两者不相交;P是文 法规则的有穷集(约束句子中单词符号的排序),每条文 法规则形如→,V,VNV (指示来自总词汇表 V的符号,可以出现0或任意多次);S称为起始符,SN。 能被以这种方式定义的某种文法接收的(识别的)所 有合法语句构成遵从该文法的语言。
<SENTENCE><SUBJECT><VERB PHRASE> Mary<VERB PHRASE> Mary<VERB> <OBJECT> Mary eats <OBJECT>
Mary eats cheese
SUBJECT
SENTENCE VERB PHRASE VERB Mary eats OBJECT cheese
1
2011-12-26
熟语:一些词的固定组合(词组或句子),如:成语、惯用语、 歇后语、谚语等。 词素:如:合成词“教师”由“教”和“师”两个词素组成、 “teacher”由“teach”和“er”组成。有的词素可以独立构 成单纯词。 构词法:词素构成词的构词规则 构形法:构造词形(单、复数、阴性、阳性、中性)的规则
语音分析:根据音位规则,从语音流中区分出一个个独立的音 素(是最小的、可独立的声音单元。有:元音音素如/a:/,辅 音因素如/b/),再根据音位形态规则找出一个个音节及其对应 的词素或词。 词法分析:从句子中切分出单词、甚至从词汇中找出词素。英 语找词容易,找词素比较难(如importable可能是im-portable或 import-able);汉语找词素容易,但从句子中分出词来比较难。 句法分析:对句子或短语的结构进行分析。方法有:短语结构 语法、格语法、扩充转移网络、功能语法等。分析的目的是找 出词、短语等的相互关系以及各自在句子中的功能等,分析结 果往往用一种层次结构加以表达,这种层次结构可以是:从属 关系、直接成分关系、语法功能关系。
相关文档
最新文档