中国科学院大学自然语言处理 期末试题 宗成庆
人工智能自然语言技术练习(习题卷9)

人工智能自然语言技术练习(习题卷9)第1部分:单项选择题,共45题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]如何理解NNLM这个模型,它是一个什么样的模型A)基于统计的语言模型B)基于神经网络的语言模型C)预训练模型D)编解码模型答案:C解析:2.[单选题]文本文件中存储的其实并不是我们在编辑器里看到的一个个的字符,而是字符的()。
A)内码B)外码C)反码D)补码答案:A解析:3.[单选题]数据可视化data visualization,导入_哪个包?A)A: sklearn.linear_modelB)B: sklearn.model_selectionC)C: matplotlib.pylabD)D: sklearn.metrics答案:D解析:4.[单选题]dropout作为常用的函数,它能起到什么作用A)没有激活函数功能B)一种正则化方式C)一种图像特征处理算法D)一种语音处理算法答案:B解析:5.[单选题]以下四个描述中,哪个选项正确的描述了XGBoost的基本核心思想A)训练出来一个一次函数图像去描述数据B)训练出来一个二次函数图像去描述数据C)不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数f(x),去拟合上次预测的残差。
D)不确定答案:C解析:C)LSTM 神经网络模型使用门结构实现了对序列数据中的遗忘与记忆D)使用大量的文本序列数据对 LSTM 模型训练后,可以捕捉到文本间的依赖关系,训练好的模型就可以根据指定的文本生成后序的内容答案:B解析:7.[单选题]relu函数的作用是可以将小于()的数输出为0A)-1B)0C)1D)x答案:B解析:8.[单选题]以下不是语料库的三点基本认识的是A)语料库中存放的是在语言的实际使用中真实出现出的语言材料。
B)语料库是以电子计算机为载体承载语言知识的基本资源,并不等于语言知识。
C)真实语料需要经过加工(分析和处理),才能成为有用的资源。
基于双向标注融合的汉语最长短语识别方法

汉语 PP 以介词为中心词并且中心词多位于短 语首(在宾州中文树库中这一比例为 98.21%) ,特 殊情况是修饰介词中心词的副词等会出现在介词的 前面。因此,介词是 PP 识别的一个最明显标志, 将指引标注器正确判断 PP 的右边界。这使我们相 信对汉语 PP 的正向标注效果要好于反向标注。 反向标注汉语 PP 也有可以捕捉的标志词,如 表方位的 PP “在…上” 和 “当…时” 中的方位词 “上” 和 “时” 。 另一个反向标注具有的优势是它可以避免 正向标注对 PP 右边界后面第一个词的过分依赖。 因为语料中介词短语常出现在动词前面,所以正向 标注器可能会直到遇见动词才确定短语的右边界, 造成标注错误。反向标注则不会出现这样的问题。 综 上 所 述 ,基于 历史 特 征 的标注 模 型对 汉语 MNP 或 PP 两个方向的识别能力有一定的差异。但 由于汉语本身的特点,这两个优劣不同的结果之间 仍具有互补性。而且在理论上,随着短语长度和内 部依存关系距离的增长,这一互补性也将增强。基 本短语因为结构简单,缺乏能使不同方向标注结果 产生较大差异的长距离依存歧义,所以其双向标注 结果的差异较小,互补性也较弱。文献[7]的实验结 果和文献[14]的预备实验结果显示了这一特点在基 本名词短语分析任务上的体现。
收稿日期: xxxx-xx-xx. 基金项目:国家自然科 学基金项目(60736014、90820303) ;国家支撑 计划项目(2006BAH03B02) ;国家 863 项目(2006AA010108-4) ;并得 到中国新加坡数字媒体 研究院的 资助.
嵌套在汉语句子中比较少见(据统计,宾州中文树 库 V5.0[1]中共有 5.28%的介词短语具有嵌套现象) , 最长介词短语(maximal-length prepositional phrase, MPP)和一般介词短语(PP)通常不做区分。本文 以汉语最长名词短语和介词短语的识别为任务,并 在以下章节中用 MNP 和 PP 分别表示这两种短语。 本文中的 PP 严格来说是指 MPP。 识别 MNP 和 PP 的传统方法是估计短语的边界 概率分布[2-5]。 而已有实验结果证明这类方法通常只 有加入了规则或语言知识才能取得较好的效果[3,5]。 原因 是 这类短语具有比 基 本短语 等其 它 类型 的短 语更复杂的结构,特别是对汉语来说。汉语的短语 套叠现象比较普遍,一个某种类型的最长短语可以 包含其它所有类型的短语成分,甚至可以包含一个 从句。而且它们具有长距离的依存关系,仅依赖边 界信息会带来更多歧义。所以研究者们起初都是试 图 从最长短语的内部结 构 或其 所处的 外部环境寻 找规律,判定它的边界。这需要耗费一定的时间和 人力来熟悉该种语言的短语特性。
评估方法研究——中科院自动化所硕士论文导师宗成庆

中国迷信院研讨生院
硕士学位论文
汉语词与句子切分技术及机器翻译评价方法研讨
刘丁
指点教员宗成庆 研讨员 博士 中国迷信院自动化研讨所
央求学位级别工学硕士学科专业称号形式识别与智能系统
论文提交日期2004年6月论文争辩日期2004年6月
培育单位中国迷信院自动化研讨所
ABSTRACT
This thesis proposed our novel statistical approaches on Chinese word analysis,utterance segmentationand automatic evaluation of machinetranslation (MT).Word analysis is the first step for most application based on Chinese language technologies; utterance segmentation is the bridge which connects speech recognition and text translation in a speech translation system; automatic evaluation ofmachine translation(MT) systemcan speed the research and development of a MT system, reduce its developing cost.In short,the three aspectsall belong to the basic research area ofNatural Language Processing(NLP) and have significant meaning to manyimportantapplications such as text translation, speech translation and so on.
人工智能自然语言技术练习(习题卷4)

人工智能自然语言技术练习(习题卷4)第1部分:单项选择题,共45题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]实际应用当中应该如何选激活函数A)根据数据和需求凭经验选择B)可以随意选择使用C)使用到激活函数的地方都选用ReluD)不确定答案:A解析:2.[单选题]下面哪个不是编辑距离里的编辑操作A)删除B)替换C)添加D)相乘答案:D解析:3.[单选题]超参数使我们模型道中必要的阐述,关于超参数范围中说法正确的是A)随机取值可以提升搜索效率B)随机取值就是随机均匀取值C)范围就是[0,1]D)随机取值对搜索无影响答案:A解析:4.[单选题]Beam Search(集束搜索)的作用A)增加在空间的消耗B)增加搜索的时间C)减少准确率D)减少搜索所占用的空间和时间答案:D解析:5.[单选题]以下哪种情况下树会容易发生了过拟合的现象A)加入L2正则B)加入L1正则C)设置树的最大深度D)没有设置树的最大深度答案:D解析:6.[单选题]自然语言处理的简称为()A)ScrumB)NLPC)AUP答案:B解析:7.[单选题]什么是自然语言处理(NLP)A)机器理解B)让计算机/机器在理解语言上像人类一样智能C)弥补人类交流和计算机理解之间的差距D)一门计算机科学、人工智能以及语言学的交叉学科答案:D解析:8.[单选题]贝叶斯作为常用的理论基础,它的定理实质上是对()的陈述。
A)联合概率B)边际概率C)条件概率D)后验概率答案:C解析:9.[单选题]向量空间也可以称为( ),它属于线性代数内容和范畴A)线性空间B)内积空间C)赋范空间D)希尔伯特空间答案:A解析:10.[单选题]概率图中的有向边表示的是什么A)表示单向的依赖B)表述互相依赖关系C)表示无依赖关系D)不确定答案:A解析:11.[单选题]tf.to_int32的作用是什么A)字符串转为数字B)转为64位浮点类型-float64C)转为32位整型-int32D)转为64位整型-int64答案:C解析:12.[单选题]ELMO是个预训练模型,使用了LSTM做特征提取,那么其中用了几层的LSTMA)单层B)双层C)三层D)不确定答案:B解析:13.[单选题]为了模拟神经细胞行为,与之对应的感知器基础概念被提出,下列与之无关的是()A)权量(突触)B)偏置(阀值)C)激活函数(细胞体)D)核仁答案:D解析:14.[单选题]EM算法,什么是EM,最大期望算法A)是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐性变量。
第10章 语义分析

问题:对于复杂的问题这种定义无法处理。
启明星/暮星金星;神仙?鬼?妖怪?
宗成庆:《自然语言理解》讲义,第 10 章 6/81
10.2 语义理论简介
心理图像、大脑图像或思想作为意义
该理论认为,词或词组的意义就是词或词组在人心 理上或大脑中所产生的图像。
问题:在计算机中把心理图像有效地表示出来并不 是一件容易的事情,而且,不一定所有的词义都有 清晰的心理图像。
宗成庆:《自然语言理解》讲义,第 10 章 11/81
10.2 语义理论简介
条件真理模型
该理论以谓词逻辑为基础,句子的语义定义为它所 对应的命题或谓词在全体模型(或世界)中的真伪。
例如:“雪是白的”为真,当且仅当在这个世 界上雪是白的。 优点:对上下文无关部分的语义描写很有效。 问题:对时间、场景有关的语言现象不能很好地描 述。不能很好地解释一句多义的问题。
Speaker
Speech-act
Arguments
问题:意图的定义、划分和表示是困难的。
宗成庆:《自然语言理解》讲义,第 10 章 9/81
10.2 语义理论简介
过程语义
该理论认为,句子的语义定义为接受该句后所执行 的程序或者所采取的某种动作。
优点:简单明了,对于计算机智能应用系统来说, 这种定义在某种程度上是有效的。 问 题:对于语言本身缺乏解释,且句子的语义与应 用之间的连接过于紧密,缺乏独立性。
13/81
10.2 语义理论简介
例 如:雪是白的:
是白的 (雪, e) ∧ 等同 (e, 地球世界) 谓词
前缀表示 场景变量
宗成庆:《自然语言理解》讲义,第 10 章
14/81
10.2 语义理论简介
模态逻辑
宗成庆-统计自然语言处理--第六章--- 隐马尔可夫模型

aij P(qt1 S j | qt Si ), 1 i, j N
aij 0
… (6.6)
a
j 1
N
ij
1
Company Logo
或者 (S,O ,A B,) 用以指出模型的参数集合。 ,
Company Logo
6.2 隐马尔可夫模型
给定HMM求观察序列
给定模型 ( A, B, ) ,产生观察序列 O=O1O2 …OT : (1) 令 t =1; (2) 根据初始状态分布 i 选择初始状态 q1 Si ; (3) 根据状态 Si 的输出概率分布 bi(k)), 输出 Ot vk ; (4) 根据状态转移概率 aij,转移到新状态 qt 1 S j ;
N
… (6.13)
Company Logo
6.3 前向算法
动态规划计算 t (i) :在时间 t+1 的前向变量可以根据 时间 t 的前向变量 t (1),…,t (N) 的值递推计算:
t 1 ( j) [t (i)aij ]bj (Ot 1 )
LOGO
第6章 隐马尔可夫模型
参考课件:宗成庆:《自然语言理解》讲 义
邮件 :cqzong@
LOGO
6.1马尔可夫模型
6.1马尔可夫模型
马尔可夫模型描述
存在一类重要的随机过程:如果一个系统有 N 个 状态 S1, S2,…, SN, 随着时间的推移,该系统从某一状 态转移到另一状态。如果用 qt 表示系统在时间 t 的状 态变量,那么,t 时刻的状态取值为 Sj (1 jN) 的概 率取决于前 t-1 个时刻 (1, 2, …, t-1) 的状态,该概率 为: P(qt S j | qt 1 Si , qt 2 Sk ,…)
(3) CASIA SMT系统与口语翻译

NLPR, CASIA 2006-5-9 宗成庆:《自然语言理解》讲义
NLPR
10.3.3 Experiments
Methods M+NF0+BACK2 M+NF0+BACK1 M+F0+BACK2 M+F0+BACK1 GIZA++ +NF0+BACK2 GIZA++ +NF0+BACK1 GIZA++ +F0+BACK2 GIZA++ +F0+BACK1 EDM+NF0+BACK1 EDM+F0+BACK1 GIZA++ +F0+BACK1+NUM NLPR, CASIA 2006-5-9 Bleu (4-gram) 0.1833 0.1919 0.2372 0.2663 0.2730 0.2864 0.2763 0.2882 0.1978 0.2683 0.3177 宗成庆:《自然语言理解》讲义
NLPR, CASIA 2006-5-9
NLPR
Num of Phrases 187,011 278,770 695,486
BLEU4 0.2751 0.2637 0.2882
宗成庆:《自然语言理解》讲义
Chp-01自然语言理解

NLPR, CAS-IA
宗成庆:《自然语言理解》讲义
1.2 基本概念
计算语言学是语言学的一个研究分支,用计 算技术和概念来阐述语言学和语音学问题。已开 发的领域包括自然语言处理,言语合成,言语识 别,自动翻译,编制语词索引,语法的检测,以 及许多需要统计分析和领域(如文本考释)。
自然语言处理可以定义为研究在人与人交际中以 及在人与计算机交际中的语言问题的一门学科。自然 语言处理要研制表示语言能力(linguistic competence) 和语言应用(linguistic performance)的模型,建立计 算框架来实现这样的语言模型,提出相应的方法来不 断地完善这样的语言模型,根据这样的语言模型设计 各种实用系统,并探讨这些实用系统的评测技术 。
at the 2nd floor1.
基于不同的文化背景
NLPR, CAS-IA
宗成庆:《自然语言理解》讲义
1.2 基本概念
关于“理解”的标准
如何判断计算机系统的智能? 计算机系统的表现(act)如何?
反应(react)如何? 相互作用(interact )如何?
与有意识的个体(人)比较如何?
自然语言理解
宗成庆
中国科学院自动化研究所 模式识别国家重点实验室
No.95, Zhongguancun East Road, Beijing 100080, China
Tel. No.: +86-10-6255 4263
联系方式
z 电话:6255 4263 z 邮件:cqzong@ z 主页:/cip/cqzong.htm z 地址:100080 中关村东路95号
NLPR, CAS-IA
宗成庆:《自然语言理解》讲义