自然语言理解-语料库..共52页文档
自然语言理解

语料库
研究语言知识所用的真实文本称为语料, 研究语言知识所用的真实文本称为语料, 大量的真实文本即构成语料库。 大量的真实文本即构成语料库。 WordNet、MindNet、FrameNet 、 、 知网(How-Net)是一个以英汉双语所代 知网 表的概念以及概念的特征为基础的,以 揭示概念与概念之间以及概念所具有的 特性之间的关系为基本内容的常识知识 库。
概述
理解并回答人们用自然语言提出的有关问题。 理解并回答人们用自然语言提出的有关问题。 生成文本摘要和对文本进行释义。 生成文本摘要和对文本进行释义。 把一种自然语言表示的信息自动地翻译为另一 种自然语言。 种自然语言。
语言的概念
语言是人类进行通讯的自然媒介, 语言是人类进行通讯的自然媒介,它包 括口语、书面语以及动作语等。 括口语、书面语以及动作语等。 语言是用于传递信息的表示方法、 语言是用于传递信息的表示方法、约定 和规则的集合。 和规则的集合。 由语句组成,每个语句又有单词组成。 由语句组成,每个语句又有单词组成。 组成语句时, 组成语句时,应遵循一定的语法和语义 规则。 规则。
自然语言理解
概述
自然语言处理就是研究如何能让计算机理解并 自然语言处理就是研究如何能让计算机理解并 生成人们日常所使用的 如汉语、英语)语言 人们日常所使用的(如汉语 语言, 生成人们日常所使用的 如汉语、英语 语言, 使得计算机懂得自然语言的含义,并对人给计 使得计算机懂得自然语言的含义, 算机提出的问题,通过对话的方式, 算机提出的问题,通过对话的方式,用自然语 言进行回答。 言进行回答。目的在于建立起一种人与机器之 间的密切而友好的关系, 间的密切而友好的关系,使之能进行高度的信 息传递与认知活动。 息传递与认知活动。自然语言理解系统可以用 作专家系统、知识工程、情报检索、 作专家系统、知识工程、情报检索、办公室自 动化的自然语言人机接口,有很大的实用价值。 动化的自然语言人机接口,有很大的实用价值。
自然语言理解-语料库..

语料库的收集、整理和应用
语料的选取
Summers, Longman/Lancaster English Corpus: Criteria and Design, Harlow: Longman
–精品原则 –有影响力原则 –随机挑选原则 –高流通度原则 –典型性原则 –易于获得原则 –具有统计样本意义原则 –符合语言规范原则
基于词(word-based)的对齐方法
《人民日报》语料库1
北京大学、富士通公司、人民日报社共 同开发 含《人民日报》 1998 年上半年全部文本 (约1千7百万字) 完整的词语切分和词性标注信息 高准确率
《人民日报》语料库2
样例
历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b 41.1 /m 度/q 、/w 东经/b 114.3/m 度/q ;/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n :/w 1998年/t 1月 /t 10日/t 11时/t 50分/t 。/w …… [中国/ns 政府/n]nt 顺利/ad 恢复/v 对/p 香港/ns 行使/v 主权/n ,/w 并/c 按照/p “/w 一国两制/j ”/w 、/w “/w 港人治港/l ”/w 、/w 高度/d 自治/v 的/u 方针/n 保持/v 香港/ns 的/u 繁荣/an 稳定/an 。/w
平衡性:主观性强
语料库的加工
语料库标注(Annotation)
1)词性标记(Part-of-speech tagging) 2) 句 法 层 次 和 范 畴 标 记 ( Grammatical parsing) 3)词义标记(Word sense tagging) 4)篇章指代标记(Anaphoric annotation) 5)韵律标记(Prosodic annotation)
自然语言理解

NLPR, CAS-IA
2004-2-3
22
NLPR
1.5 自然语言处理研究的基本方法
理性主义与经验主义:计算语言学研究方法 的哲学分野
理性主义:研究人的语言知识结构(语言能力, language competence)实际的语言数据(语言行为, language performance)只提供了这种内在知识的间接证 据。 经验主义:研究对象直接是这些实际的语言数 据。
NLPR, CAS-IA
2004-2-3
30
NLPR
1.7 参考文献
专著
[11] James Allen, Natural Language Understanding. The Benjamin/Cummings Publishing Company, Inc. 1995. [12] Christopher D. Manning, Hinrich Schute, Foundations of Statistical Natural Language Processing. The MIT Press. 1999. [13] Rens Bod, Jennifer Hay et al. Probabilistic Linguistics. The MIT Press. 2003.
NLPR, CAS-IA 2004-2-3
21
NLPR
1.5 自然语言处理研究的基本方法
理性主义与经验主义:计算语言学研究方法 的哲学分野
经验主义:人的语言知识是通过感观输入,经过 一些简单的联想(association)与通用化(generalization)的 操作而得到的。 大量的语言数据中获得语言的知识结构。 1920s – 1950s,1980s中期-
自然语言理解

一分词概述语言学中一般将“词”定义为“能够独立运用的,有意义的最小语法单元”。
自然语言中句子是由词组成的,而计算机要理解和处理自然语言就是从词这一步开始的。
汉语不同于西文,在一个汉语句子中,词与词之间没有明显的分隔符(如空格)。
此外,汉语的词法约束很不规范,而且千变万化,就给汉语分词带来了很大的麻烦。
正是由于汉语分词的困难及其在中文信息自动处理中的重要地位,自70 年代末以来,许多人投入到了汉语自动分词的研究工作中来,也出现了好多具有应用前景的分词方法。
1.1 汉语分词的歧义汉语分词是汉语分析以及计算机处理汉语的一大难点,导致汉语分词精度不高的原因一般有:词语(抑或说汉语分析基本单位)的界定、词典范围、分词中因为算法问题产生的歧义。
分词过程中歧义产生的根源可归结为以下三类:(1)由自然语言的二义性所引起的歧义,称为第一类歧义。
如:“乒乓球拍卖完了”可切分为“乒乓球/拍卖/完了”又可以切分为“乒乓球拍/卖/完了”。
这两种切分形式无论在语法上还是语义上都是正确的,就是人工分词也会产生歧义,只有结合上下文才能给出正确的切分。
(2)由机器自动分词产生的特有歧义,称为第二类歧义。
如:“在这种环境下工作是太可怕了”用机器切分可以切分为“在/这种/环境/下工/作/是/太/可怕/了”也可以切分为,“在/这种/环境/下/工作/是/太/可怕/了”。
对本句来说,只有第二种切分是正确的,用人工分词是不可能产生歧义的,歧义是由于机器机械切分产生的。
(3)由于分词词典的大小而引起的歧义,称为第三种歧义。
如:“王小二是一个农民”用机器切分被分为“王/小/二/是/一个/农民”,这里“王小二”是一个人名,在汉语中应是一个词,所以这个切分是错误的。
由于机器自动切分是依据分词词典进行的,故词典中没有的词,就不可能被正确切分,分词词典不可能也没有必要包括所有的词(如人名、地名),同时,词典中所包括的词越多,就会产生新的歧义。
例如“发展社会主义的新乡村”,新乡是一个地名,若词典中有该词,则“新乡村”是一个歧义字段。
第8章 自然语言理解【人工智能 精品讲义】

8.3 句法分析
8.3.1 句法模式匹配和转移网络
• 模式匹配 • 句法转移网络(Transition Network)
pron. verb
q1
q4 pron.
q0
q3
qT
q2 noun verb
adj.
q5 noun
adj.
图8.2 转移网络(TN)
ducks flies little orange swallow the
8.6 语料库语言学
• 语料库的类型
• 按语种分:单语种语料库和多语种语料库 • 按记载媒体分:单媒体语料库和多媒体语料库 • 按地域区别分:国家语料库和国际语料库 • 按使用领域分:通用语料库和专用语料库 • 按分布性分:平衡语料库和平行语料库 • 按语料时间段分:共时语料库和历时语料库 • 按语料加工与否分:生语料库和标注语料库
26
8.8.2 语音识别的基本原理
• 预处理 • 特征提取 • 训练 • 模式匹配
图8.10 语音识别系统基本原理框图
27
8.8.3 语音识别中的难点
• 语音识别系统的适应性差 • 高噪声环境下语音识别进展困难 • 如何把知识量化、建模用于语音识别 • 对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控
• 句法分析 • 语义分析 • 语用分析
17
8.5.1 简单句的理解方法
• 关键字匹配法
• 在程序中规定匹配和动作两种类型的样本。然后建立一种由匹配样本 到动作样本的映射。
• 句法分析树法
• 确保语句含义的细节不被忽略,必须确定其语句结构上的细节,即要 进行文法分析。
18
8.5.2 复合句的理解方法
24
8.7 机器翻译
语料库——精选推荐

语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。
传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。
计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。
后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。
语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。
多年来,机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。
因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub-language)中获得一定的成功。
为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。
不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。
本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。
一、国外语料库概况现在,美国Brown大学建立了BROWN语料库(布朗语料库),英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了LOB 语料库。
欧美各国学者利用这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。
第七讲——自然语言理解

什么是语言相信大多数同学都有过和计算机对话的经历,我们这个苹果手机上搭载了SIRI,我们的微信上也有一些公众号,它们能够在一定程度上跟我们进行文字交流。
可见计算机能够理解自然语言,也就是我们人类的语言,使得我们觉得人工智能更加的平易近人了。
今天我们就来详细的聊一聊自然语言理解这门技术,语言是人类区别其他动物的本质特性之一。
在所有生物中,只有人类才具有语言能力。
当然,我们话不能说的这么绝对。
语言:语言是人类区别其他动物的本质特性。
在所有生物中,只有人类才具有语言能力。
人类的多种智能都与语言有着密切的关系。
人类的逻辑思维以语言为形式,人类的绝大部分知识也是以语言文字的形式记载和流传下来的。
因而,它也是人工智能的一个重要,甚至核心部分有些报道说猩猩也会一定的语言,2004年的报道中,美国有只猩猩啊,说是会1000个单词的手语,可以和人类通过手语交流,这个猩猩发音好像由于构造原因不能发那么多复杂的音节,但人家不傻,可以用手语交流,不禁让老师感叹也许这个人猿星球中的未来,还真说不准什么时候就会到来。
但不管怎么说,这个语言是高级智能的一种最直观的反应。
人类的逻辑思维以语言为形式,人类的绝大部分知识也是以语言文字的形式记载和流传下来的。
因此,它是人工智能的一个重要,甚至是核心的一个部分。
当然,这门技术不光光是用在人机交互这个功能上。
我们用机器翻译的时候就需要用到自然语言理解的技术,未来如果这门技术发展到非常成熟了,我们就不需要学四六级了,不管去什么国家,带个电脑做翻译,你说一句中文,它说一句英语。
这种工具在很多的科幻片里面都出现过。
非常的方便,但是现在大家还是要好好学英语,因为这个技术现在还不够成熟,大家可以期待我们的后代能够免去学习外语的痛苦。
但是话说回来,我们这节课还真要用到一些英文,因为传统的自然语言理解的就是建立在英文的基础上的。
大家似乎没法回忆自己是如何掌握第一门语言了吧?也就是中文的学习过程,但英文的学习过程大家应该都还记得比较清楚,很多同学可能从小学就开始学英文。
自然语言理解

自然语言理解自然语言理解自然语言也就是我们是日常使用的语言,像各国语言汉语,英语等只要能完成人们之间相互交流的语言就成为自然语言,自然语言是人类学习环境和互相通讯的工具。
在人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。
就计算机的应用而言,据统计用于数学计算的仅占10%,用于过程控制的不到5%,其余85%左右都是用于语言文字的信息处理。
所谓语言信息处理,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。
根据可计算性理论,任一计算机的运算都是按一定程序,分步骤相继作用在离散对象之上所完成的,而这些对象又都以线性序列相邻接地排列组合所构成。
而自然语言具有的离散性、序列性和邻接性三个特征其具备了“可计算性”,为自然语言处理奠定了物质基础。
语法是语言的组织规律。
语法规则制约着如何把词素构成词,把词构成词组和句子。
语言正是在这种严格的制约关系中构成的。
用词素构成词的规则称为构词规则,如“学”+“生”构成“学生”。
一个词又有不同的词形、单数、复数、阴性、阳性等等。
这种构造词形的规则称为构形法,如“学生”+“们”构成“学生们”。
这里,只是在原来的词的后面加上了一个具有复数意义的词素,所构成的并不是一个新词,而是同一个词的复数形式。
构形法和构词法称为词法。
语法中的另一部分是句法。
句法可分为词组构造法和造句法两部分。
词组构造法是把词搭配成词组的规则,例如,把“新”+“朋友”构成“新朋友”。
这里,“新”是一个修饰“朋友”的形容词,它们的组合构成了一个新的名词。
造句法则是用词和词组构造句子的规则,如“我们是计算机系的学生”就是按照汉语造句法构造的句子。
对于自然语言德理解,能够更好的处理计算机语言与人类语言的交互。
他也就是利用计算机技术研究和处理语言的一门学科,即把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。