自然语言理解语义分析

自然语言理解语义分析
自然语言理解语义分析

引用《统计自然语言处理基础》中的两句话来解答这个问题:

?语义可以分成两部分:研究单个词的语义(即词义)以及单个词的含义是怎么联合起来组成句子(或者更大的单位)的含义

?语义研究的是:词语的含义、结构和说话的方式。

以上是书本中的定义,语义分析是一个非常宽泛的概念,任何对语言的理解都可以归纳为语义分析的范畴,笼统地谈语义是一个非常宽泛的概念。所以应该结合具体任务来看看什么是语义分析,以及语义分析的结果是什么。

从分析粒度上可以分成:词语级的语义分析,句子级的语义分析,以及篇章级别的语义分析。词语级的语义分析

词语级别的语义分析的主要研究词语的含义,常见的任务有:词语消歧、词表示、同义词或上下位词的挖掘。

?词语消歧:一词多义是许多语言的固有属性。以“苹果”为例,可以指水果,又可以指美国的科技公司。词语消歧的任务是判断文中出现的词语是属于哪种意思。

?词表示:深度学习兴起后,掀起了一波对词表示的研究浪潮。词表示的任务是用一个k维的向量表示一个词,并且该向量中包含着词语的意思。比较有代表性的工作是Tomas

Mikolov的Word2Vec,该方法训练得到的词向量能够让语义相关的词具有相似的词向量,并且词向量间还具有逻辑推算能力。

?同义词和上下位词的挖掘:语言的多样性导致了多词义一,例如房子的近义词有房屋、房产。语言的层次性导致了词语间具有上下位关系,像房产、存款、股票可归纳为财产。可以使用一些机器学习的方法挖掘词语间的这种关系。

句子级的语义分析

句子级别的任务就更多了,常见的任务有:语义角色标注、蕴含分析、句子表示、语义依存分析。

?语义角色标注(Semantic Role

Labeling, SRL) 是一种浅层的语义分析技术,标注句子中某些短语为给定谓词的论元(语义角色) ,如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。

?文本蕴涵(Textual entailment)是指两个文本片段有指向关系。当认为一个文本片段真实时,可以推断出另一个文本片断的真实性。完成这样。完成这样的任务,也需要从语义角度出发进行解决。

?句子表示:同词表示类似,句表示研究的是用一个k维的向量表示一句话的含义。

近几年,常用句向量在文本检索、问答系统中计算文档间的相似度。

?语义依存分析(Semantic

Dependency Parsing, SDP),分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。语义依存分析目标是跨越句子表层句法结构的束缚,直接获取深层的语义信息。比较有代表性的工作是哈工大刘挺老师实验室的LTP。

篇章级的语义分析

篇章级的语义分析是句子级研究的延伸,常见的任务是指代消解。

?人称代词(Pronoun)

【李明】怕高妈妈一人呆在家里寂寞,【他】便将家里的电视搬了过来。

?指示代词(Demonstrative)

【很多人都想创造一个美好的世界留给孩子】,【这】可以理解,但不完全正确?有定描述(Definite Description)

【贸易制裁】似乎成了【美国政府在对华关系中惯用的大棒】。然而,这【大棒】果真如美国政府所希望的那样灵验吗?

江苏联著实业股份有限公司(Inforcreation Co.,Ltd.)是一家以人工智能认知智能技术为基础的文化科技创新企业,以中文自然语言理解为研究基础,以语义工程为核心技术,突破机器理解瓶颈,打造机器智力定制平台,应用于基于机器智能的智能搜索引擎、基于要素分析的各种质控或风控系统、以及基于趋势分析的各种预测性应用等各类场景。推动认知智能产业的创新发展与转化落地。目前各类产品与服务已覆盖全国29个省(直辖市、自治区)

语言学概论中文版

第一章:绪论 1.什么是语言学? 1.1定义 语言学常被定义为是对语言进行系统科学研究的学科。语言学研究的不是某一种特定的语言,而是人类所有的语言。为了揭示语言的本质,语言学家首先要对语言实际使用进行观察,并在此基础上形成有关语言使用的概括性假设,这些初步形成的假设要在语言使用中进行进一步的检验,最终形成一条语言理论。 1.2语言学的研究范畴: 语言学研究有不同的侧重。对语言体系作全面研究的语言学研究称为普通语言学。语音学主要是对语言声音媒介的研究,它不只是研究某一特定的语言的声音媒介,而是所有语言的声音媒介。音系学与语音学不同,它主要研究特定语言的语音体系,即音是如何结合在一起产生有意义的单位。形态学主要研究单词的内部语义结构,及这些叫做词素的语义最小单位是如何结合构成单词。句法学主要研究构成潜在句子的句法规则。语义学以研究语义为目的,传统语义学主要研究抽象的意义,独立于语境之外的意义,语用学也是研究语义,但是它把语义研究置于语言使用语境中加以研究。 语言不是一个孤立的现象,而是一种社会现象,各种社会因素都会对语言的使用产生影响。从社会的角度来研究语言的科学被称之为社会语言学。语言和社会之间的关系是社会语言学研究的主要内容。心理语言学主要从心理学的角度来研究语言。它要研究人们在使用语言时大脑的工作机理,如人是如何习得母语的,人的大脑是如何加工和记忆语言信息等问题。把语言学的研究成果应用到实践中的科学形成了应用语言学。狭义上,应用语言学指把语言理论和原则运用于语言教学的科学,在广义上,它指把语言理论与原则应用于解决实际问题的科学。除此之外还有人类语言学、神经语言学、数学语言学、计算语言学等。

编译原理语义分析实验报告——免费!

语义分析实验报告 一、实验目的: 通过上机实习,加深对语法制导翻译原理的理解,掌握将语法分析所识别的语法成分变换为中间代码的语义翻译方法。 二、实验要求: 采用递归下降语法制导翻译法,对算术表达式、赋值语句进行语义分析并生成四元式序列。 三、算法思想: 1、设置语义过程。 (1)emit(char *result,char *ag1,char *op,char *ag2) 该函数的功能是生成一个三地址语句送到四元式表中。 四元式表的结构如下: struct { char result[8]; char ag1[8]; char op[8]; char ag2[8]; }quad[20]; (2) char *newtemp() 该函数回送一个新的临时变量名,临时变量名产生的顺序为T1,T2,… char *newtemp(void) { char *p; char m[8]; p=(char *)malloc(8); k++; itoa(k,m,10); strcpy(p+1,m); p[0]=’t’; return(p); } 2、函数lrparser 在原来语法分析的基础上插入相应的语义动作:将输入串翻译成四元式序列。在实验中我们只对表达式、赋值语句进行翻译。

四、源程序代码: #include #include #include #include struct { char result[12]; char ag1[12]; char op[12]; char ag2[12]; }quad; char prog[80],token[12]; char ch; int syn,p,m=0,n,sum=0,kk; //p是缓冲区prog的指针,m是token的指针char *rwtab[6]={"begin","if","then","while","do","end"}; void scaner(); char *factor(void); char *term(void); char *expression(void); int yucu(); void emit(char *result,char *ag1,char *op,char *ag2); char *newtemp(); int statement(); int k=0; void emit(char *result,char *ag1,char *op,char *ag2) { strcpy(quad.result,result); strcpy(quad.ag1,ag1); strcpy(quad.op,op); strcpy(quad.ag2,ag2);

句法结构中的语义分析

句法结构中的语义分析 学习要点:掌握句法结构分析中运用语义关系、语义指向、语义特征三种语义分析方法,并且能够运用这些分析法解释一些常见的语言现象。 句法结构是句法形式和语义内容的统一体。对句法结构不仅要做形式分析,如句法层次分析、句法关系分析、以及句型分析等,还要做种种语义分析。句法结构中的语义分析主要指语义关系、语义指向、语义特征三种分析法。 一、语义关系 (一)句法关系和语义关系 在句法结构中,词语与词语之间不仅发生种种语法关系,主谓、述补、述宾、偏正、联合等,而且发生种种语义关系。语义关系,语义学中指语言成分所表示的客观对象之间的关系,我们所说的语义关系是指动作和动作者、动作和受动者、动作和工具、动作和处所、事物和事物之间的关系等。句法关系和语义关系可能一致,也可能不一致。 ⑴吃面条。/削苹果。(句法、语义关系一致。) ⑵我吃完了。/饼干吃完了。/文章写好了。(句法、语义关系不一致) 前者“我”与“吃”是动作者(施事)和动作的关系,后者“饼干”和“吃”是受动者(受事)和动作的关系,结果和动作的关系。 一种句法结构关系,可能包含着多种语义关系,如:修理家具。/挖了一个坑。/来了一个客人。/写毛笔。(述宾关系,受事、结果、施事、工具。)反之,一种语义关系也可能构成多种句法结构关系。 ⑶沙发上坐着一个人。 ⑷那个人坐在沙发上。 ⑸那个人在沙发上坐着。 这几个句法结构的语义关系基本相同,“人”“沙发上”与“坐”之间都是“施事”“处所”与“动作”的关系;但句法结构关系却不一样。 (二)动词和名词语义关系的类别 汉语句法结构中的语义关系是多种多样的,句法分析的重点是动词跟名词性词语之间的语义关系。在各种语义关系中,名词性成分担任了一定的语义角色,如“受事、结果、施事、工具”等,这实际上也就是揭示了名词性成分跟动词之间的关系。名词性词语经常担任的语义角色主要有: 1、施事:指动作的发出者(可用介词“被、叫、让、给”引进) 他在看书。/小狗啃完了骨头。/敌人被我们打败了。 2、受事:指动作行为的承受者(可用介词“把、将”引进)。 小牛吃草。/张三修桌子。/毛把花瓶打碎了。 3、系事:指连系动词联接的对象(?) 我们是教师。/小王成了大学生。 4、与事:指动作行为的间接的承受者(送、还?)(可用介词“给”引进)。 张三还李四一支笔。/我给兰兰送去一些巧克力。 5、结果:指动作行为产生的结果。 编草帽。/烙饼。/做烟斗。/打毛衣。/盖大楼。

自然语言理解 人工智能课程 北京大学

第十一章自然语言理解 教学内容:自然语言理解的一般概念、句法和语法的自动分析原理、句子的自动理解方法和语言的自动生成等。 教学重点:句法模式匹配、语义的分析、句子的自动理解和语言的自动生成。 教学难点:转移网络、词汇功能语法(LFG)。 教学方法:课堂教学为主。注意结合学生已学的内容,及时提问、收集学生学习的情况。并充分利用网络课程中的多媒体素材来表示比较抽象的概念。 教学要求:掌握句法分析方法,掌握句子的自动理解,初步了解语言的自动生成,一般了解自然语言理解系统的应用实例。 11.1 语言及其理解的一般问题 教学内容:本小节主要讨论自然语言理解的概念、发展简史以及系统组成与模型等。 教学重点:语言和语言理解的概念、自然语言理解系统的模型。 教学难点:自然语言理解与人类智能的关系、理解自然语言的计算机系统的组成方式。 教学方法:课堂教学为主,结合网络课程中的多媒体素材来讲述。

教学要求:掌握语言和语言理解的概念、自然语言理解过程的四个层次;一般了解自然语言理解研究的国内外进展。 11.1.1 语言与语言理解 1、语言的构成 语言是人类进行通信的自然媒介,它包括口语、书面语以及动作语(如哑语和旗语)等。语言由语句组成,每个语句又由单词组成;组成语句和语言时,应遵循一定的语法与语义规则。 语言是音义结合的词汇和语法体系,是实现思维活动的物质形式。 语言是以词为基本单位的,词汇又受到语法的支配才可构成有意义的和可理解的句子,句子按一定的形式再构成篇章等。 语法是语言的组织规律。语法规则制约着如何把词素构成词,词构成词组和句子。语言正是在这种严密的制约关系中构成的。用词素构成词的规则叫构词规则。语法中的另一部分就是句法。句法也可分成两部分:词组构造法和造句法。词组构造法是词搭配成词组的规则。造句法则是用词或词组造句的规则。 图11.1就是上述构造的一个完整的图解。 图11.1 语言的构成

编译原理知识点汇总

编译原理的复习提纲 1.编译原理=形式语言+编译技术 2.汇编程序: 把汇编语言程序翻译成等价的机器语言程序 3.编译程序: 把高级语言程序翻译成等价的低级语言程序 4.解释执行方式: 解释程序,逐个语句地模拟执行 翻译执行方式: 翻译程序,把程序设计语言程序翻译成等价的目标程序 5.计算机程序的编译过程类似,一般分为五个阶段: 词法分析、语法分析、语义分析及中间代码生成、代码优化、目标代码生成 词法分析的任务: 扫描源程序的字符串,识别出的最小的语法单位(标识符或无正负号数等) 语法分析是: 在词法分析的基础上的,语法分析不考虑语义。语法分析读入词法分析程序识别出的符号,根据给定的语法规则,识别出各个语法结构。 语义分析的任务是检查程序语义的正确性,解释程序结构的含义,语义分析包括检查变量是否有定义,变量在使用前是否具有值,数值是否溢出等。

语法分析完成之后,编译程序通常就依据语言的语义规则,利用语法制导技术把源程序翻译成某种中间代码。所谓中间代码是一种定义明确、便于处理、独立于计算机硬件的记号系统,可以认为是一种抽象机的程序 代码优化的主要任务是对前一阶段产生的中间代码进行等价变换,以便产生速度快、空间小的目标代码 编译的最后一个阶段是目标代码生成,其主要任务是把中间代码翻译成特定的机器指令或汇编程序 编译程序结构包括五个基本功能模块和两个辅助模块 6.编译划分成前端和后端。 编译前端的工作包括词法分析、语法分析、语义分析。编译前端只依赖于源程序,独立于目标计算机。前端进行分析 编译后端的工作主要是目标代码的生成和优化后端进行综合。独立于源程序,完全依赖于目标机器和中间代码。 把编译程序分为前端和后端的优点是: 可以优化配置不同的编译程序组合,实现编译重用,保持语言与机器的独立性。 7.汇编器把汇编语言代码翻译成一个特定的机器指令序列 第二章 1.符号,字母表,符号串,符号串的长度计算P18,子符号串的含义,符号串的简单运算XY,Xn, 2.符号串集合的概念,符号串集合的乘积运算,方幂运算,闭包与正闭包的概念P19,P20A0 ={ε} 3.重写规则,简称规则。非xx(V

语言学概论复习题

《语言学概论》复习题 一、名词解释 言语:言语是利用语言进行交际的行为和结果。 征候: 音位变体:音位变体是指处于互补关系中的各个音素被看成同一音位在不同位置上的代表,是同一个音位的不同的变异形式。 音步:语流中大致等距离出现的若干(北京话和英语为两个)音节的节奏单元。 词法:指的是包括词类和各类词的构成、词形变化的规律和类型。 句法:指的是短语、句子的结构规律和类型。 语法学分词法和句法两个部分,词法的研究范围包括词类和各类词的构成、词性变化(形态)。句法的研究范围是短语、句子的结构规律和类型。 词缀又分为屈折词缀和派生词缀两类。 派生词缀:派生词缀是加在词干上构成新词的词缀。这种构成新词的方法叫派生法,所构成的词叫派生词。派生词缀又根据在单词中的位置分为前缀和后缀两类。 屈折词缀:屈折词缀加在词干的后边,不构成新词,传递不同的语法关系或语法范畴,如数、时、格等。如books中的-s是屈折词缀,传递复数;wiser中的-er是屈折词缀,传递比较级概念,等。 孤立语:又称分析语或词根语,这类语言的特点在于其一般不是通过词的内部形态变化(又称作屈折变化)来表达语法的作用,而是通过独立的虚词和固定的词序来表达语法意义,而且一般而言,分析语缺乏多数的格变化。汉语、彝语、壮语、苗语、越南语都是孤立语。需要注意的是,"孤立语言"与"孤立语"是不相同的,"孤立语言"指的是与任何其它的语言不存在亲属关系的语言。 屈折语:是以词形变化作为表示语法关系的主要手段的语言;特点是有丰富的词形变化来表示词与词之间的关系;以俄语、英语为代表。 黏着语:一种语言的语法类型,通过在词根的前中后粘贴不同的词尾来实现语法功能。日语、土耳其语是典型的黏着语。 复综语:按类型分类法分类的语言的一种。特点是把主语、宾语和其它语法项结合到动词词干上,以构成一个单独的词,但表达一个句子的意思。 词义:是词的内容,是主观主体对客观事物现象的反映,包含着人们对客观事物各种特点的认识。词义所反映的是有关客观事物现象的一般的或本质的特点.特点:概括性--一般性、模糊性、全民性。 上下位义:词义的上下位关系指词义反映的现象之间具有包含和被包含的关系:上位义更具概括性,所反映的现实现象比下位义多。 语义角色:语义角色是根据句中名词与动词的语义关系而抽象出来的,它们反映了人们对古往今来变动不居的人类经验中"物体"与"动程"多种多样具体关系的模式化抽象。基本语义角色有:施事、受事、与事、主事、致事。外围语义角色主要有:工具、方所、时间。 真值:从语言和思维的关系看,词义表达的是"概念",句义表达的则是说话者对现实世界中某个现象或事件的"判断"。句子所表达的"判断"是否真实地反映了现实世界中真实的现象或事件,语义学中看作是"句子真假"或"句子的真值"问题。 蕴涵:通俗的说,句子真值的蕴涵关系就是,从一个句子的句义一定可以推导出另一个句子的句义,反向推导却不成立。句义间的蕴涵关系直接与词义的上下位关系相关。(例:a、

语言学概论期末复习名词解释汇总

名词解释: 1.聚合关系:聚合关系是指在一定条件下,在语言链条的某一环节上,能够互相替换的具有某种相同作用的各个符号 之间形成的纵向关系。 2.语用学:语用学作为语言学的一门新兴的独立学科,它研究在特定情景中的特殊话语,特别是研究在不同语言交际 环境下如何理解和运用语言的过程。 3.菲尔德: 4.索绪尔: 5.音素:音素是从音质的角度划分出来的最小的语音单位。一个音节,往往可以从音质的角度去划分,划分到不能再 分析为止,分析出最小的语音单位,得到的就是音素。 6.音位:音位是某种具体语言或方言里能够区别词、语素的语音形式和意义的最小的语音单位。 7.条件变体:具有互补分布关系的各音素对它们分布的环境总体来说是相互补充的,而对其中某个因素所能出现的特定位置又是相互排斥的。它们彼此间不能区别语素或词的语音形式和意义,所以并归并为一个音位,这些因素就是这个音位的若干变体。这种变体都有各自出现的条件,所以叫做条件变体。 8.超音段音位:在语流中,音高、音强、音长这样的非音质要素也能区别词的语音形式和意义,因此也能归并成音位。由于这些音位不是局限于一个音段音位,而是常常是添加到音段音位的序列(包括音节、词等)上面,它们具有超音段的性质,音位学上把它们叫做超音段音位,也叫非音质音位。超音段音位包括调位、重位、时位。 9.音位的区别特征:一个音位之所以区别于别的音位,是因为它有某种特殊的不同于别的音位的语音特征,这种能区 别音位的语音特征就叫做音位的区别特征。 10.复辅音:一个音节内两个或两个以上辅音的组合叫做复辅音。 11.肌肉紧张度说: 12.语流音变:人们说话时,具体的因素组合在一起,形成长短不一的一段段的语流。在连续的语流中,一个音可能由 于邻近音的影响或自身所处的地位的不同,或说话的快慢、高低、强弱的不同而在发音上产生一些变化, 这种现象教语流音变。 13.理性意义:理性意义是人脑对客观世界的概括反映,也叫概念意义,是词义的核心部分。

编译原理--词法分析,语法分析,语义分析(C语言)

词法分析 #include #include #include using namespace std; #define MAXN 20000 int syn,p,sum,kk,m,n,row; double dsum,pos; char index[800],len;//记录指数形式的浮点数 char r[6][10]={"function","if","then","while","do","endfunc"}; char token[MAXN],s[MAXN]; char ch; bool is_letter(char c) { return c>='a' && c<='z' || c>='A' && c<='Z'; } bool is_digtial(char c) { return c>='0' && c<='9'; } bool is_dot(char c) { return c==',' || c==';'; } void identifier()//标示符的判断 { m=0; while(ch>='a' && ch<='z' || ch>='0' && ch<='9') { token[m++]=ch; ch=s[++p]; } token[m]='\0';

ch=s[--p]; syn=10; for(n=0;n<6;n++) if(strcmp(token,r[n])==0) { syn=n+1; break; } } void digit(bool positive)//数字的判断{ len=sum=0; ch=s[p]; while(ch>='0' && ch<='9') { sum=sum*10+ch-'0'; ch=s[++p]; } if(ch=='.') { dsum=sum; ch=s[++p]; pos=0.1; while(ch>='0' && ch<='9') { dsum=dsum+(ch-'0')*pos; pos=pos*0.1; ch=s[++p]; } if(ch=='e') { index[len++]=ch; ch=s[++p]; if(ch=='-' || ch=='+') { index[len++]=ch; ch=s[++p]; } if(!(ch>='0' && ch<='9')) { syn=-1; } else

语言学概论名词解释

《语言学概论》名词解释 历史语言学:主要用历史的方法研究某种语言的短期的和长期的变化规律,如汉语史、英语史。 共时语言学:研究语言在某一时期的相对静止的情况,如现代汉语。 普通语言学:研究对象是人类语言,着重从理论上探讨语言的共同特点和一般规律,也叫一般语言学。 隐性意义:指隐藏在显性意义后面的各种语法关系,通常表现为施事与动作,动作与受事的关系等。 隐性形式:从微观角度看,句法结构的外部形式具有层次性。这种层次性不能从外表一眼看出来,需要我们从小到大或从大到小地分析。 显性形式:从宏观上看,句法结构外部形式是线条性,我们把它叫显性形式。 语言学:是研究语言的科学。语言学家研究的只是经过语言学家主观概括和不同程度上理想化和简单化了的语言。 符号:指的是根据社会的约定俗成使用某种特定的物质实体来表示某种特定的意义而形成的这种实体和意义的结合体。“符号”必然包括有任何情况下永远不可分割的两个方面,一个方面是物质的实体,另一个方面是约定俗成的意义。 “能指”:是索绪尔给语言符号的物质实体创制的一个专门的术语。也就是能够指称某种意义的成分。 “所指”:是索绪尔给符号所指的意义内容创制的一个专门术语,也就是“能指成分”,即特定的物质实体,所指的意义内容。 语音:虽是一种声音,但又与一般的声音有着本质的区别。它是由人的发音器官发出的,负载着一定的意义,并作为语言符号系统载体的声音。 音素:是从音质角度划分出来的最小语音单位。根据音质的不同,对一串语音不断加以切分,直到不能切分为止,这样得到的语音就是“音素”。标写语音的书面符号叫做“音标”。 “音位”:就是从社会功能的角度划分出来的语音单位,它是特定语言或方言中具有区别意义作用的最小的语音单位。 “音质音位”和“非音质音位”:音位从构成材料上看,可以分为音质音位和非音质音位。以音素为材料,通过音质的差别来起辨义作用的音位叫“音质音位”。语音中除音质外,音高、音强、音长也能起这种作用,因此也构成音位。这种通过音高、音强、音长的差别来起辨义作用的音位叫“非音质音位”。 音节:是听觉上最自然、也就是最容易分辨的最小语音单位,也是音位和音位组合构成的最小的语音结构单位。以元音收尾的音节叫“开音节”,以辅音收尾的音节叫“闭音节”。 “肌肉紧张说”:这种理论认为,人在发音时,发音器官的肌肉总是松驰和紧张相互交替的。音节是发音过程中肌肉的一次紧张过程,肌肉每紧张一次,就形成一个音节。 “复元音”和“复辅音”:一个音节内两个或两个以上元音的组合叫“复元音”。一个音节内两个或两个以上辅音的组合叫“复辅音”。 “语流音变”:在连续的语流中,一个音可能由于邻近音的影响,或自身所处地位的不同,或说话的快慢、高低、强弱的不同而在发音上产生一些变化,这种现象叫“语流音变”。常见的语流变音现象有同化、异化、弱化、脱落、增音等。 同化:语流里两个不同的音,其中一个受另一个影响而变得跟它相同或相似,这种现象叫“同化” 异化:语流中两个相同或相近的音,其中一个受另一个影响而变化得不相同或不相近,

一种基于混合分析的汉语文本句法语义分析方法

中 文 信 息 学 报 第16卷第4期 JOURNAL OF CHINESE INFORMATION PROC ESSING Vol.16No.4一种基于混合分析的汉语文本句法语义分析方法 尹 凌 姚天 张冬茉 李 芳 (上海交通大学计算机科学与工程系 上海 200030) 摘要:本文提出了一种领域相关的汉语文本句法语义分析方法。根据领域文本的特点,该方法将浅层句法分析和深层句法语义分析结合在了一起。其浅层句法分析部分采用有限状态层叠的方法,将文本中的命名实体识别出来,从而大大减轻了深层分析部分的负担。其深层句法语义分析部分将语义分析和语法分析结合起来,主要依靠词汇搭配信息来决定句子的结构。该方法在解决领域相关文本的短语结构歧义方面取得了较好的试验结果。 关键词:浅层句法分析;深层句法分析;有限状态层叠;分语义场 中图分类号:T P391.1 A Hybrid Analysis Based Chinese Text Syntactic and Semantic Analysis Method Yin Ling Y ao T ian fang Zhang Dong mo Li Fang (Department of Computer Science and Engineeri ng Shanghai Jiao Tong University 200030 Shanghai) Abstract:T his paper proposes a Chinese text analysis method on specific domain.A ccording to the texts character, t his met hod combines shallow parsing technolog y w ith deep parsing and semantic analysis technology.Drawing on fi nite state cascades method,its shallow parsing module recognizes named entities in the tex ts.So that it greatly eases t he burden of the deep analysis mo dule.Principally depending on wo rd collocation information,its deep analysis mod ule combines syntactic analysis and semantic analysis to determine sentence structure.It gains goo d effect at resolv ing t he ambiguity of phrase structure in specific do main. Key Words:shallow parsing;deep parsing;finite state cascades;sub semant ic field 一、概述 对于汉语语料库的多级加工,主要分为切词、词类标注、短语结构标注、语义信息标注[1]等。针对后两个阶段,本文以足球比赛报道为试验领域,提出了一种领域相关的汉语文本分析方法。它对已经完成分词和词性标注的中间文本进行处理,借鉴并扩展了C.J.Fillmore的格语法,分析结果力求将句子中各个成分之间的格关系标注清楚。 分析足球比赛报道文本的特点,发现有许多实体名称,如球队名称,比赛名称,人的身份等,对深层句法和语义分析是至关重要的。我们把这些实体名称称为命名实体(named enti 收稿日期:2001-12-24 基金项目:国家自然科学基金(60083003). 作者尹凌,女,1978年生,上海交通大学计算机系研究生,主要研究方向为自然语言处理.姚天,男,上海交通大学副教授,主要研究方向为自然语言处理.张冬茉,女,上海交通大学副教授,主要研究方向为自然语言处理.李芳,女,上海交通大学副教授,主要研究方向为自然语言处理.

语言学概论考研试题

一、单项选择题(本大题共26小题,每题1分) 在每小题列出的四个备选项中只有一个是符合题目要求的,请将其代码填写在题后的括号内。错选、多选或未选均无分。 1、关于语言符号的任意性,下列说法不正确的一项是( D ) A、复合符号原则上不是任意的,是有理据的 B、正是由于语言符号的任意性,语言是可变的 C、最基本的单纯初始符号都是任意的 D、任意性是指一个符号先由某一个群体约定,继而向周围扩散推广 2、关于书面语,下列表述不正确的一项是(A ) A、书面语是在口语的基础上产生的,经过加工和提炼,比较规范,所以,语言研究应该首先研究书面语 B、书面具有相对的独立性 C、任何语言总是先有口语,后有书面语 D、书面语和口语的差异主要是风格上差异 3、产生与18世纪末叶19世纪初叶的语言学被称为( B) A、结构主义语言学 B、历史比较语言学 C、社会语言学 D、功能语言学 4、组合关系现在一般称为(C ) A、联想关系 B、类聚关系 C、句法功能 D、语义组合 5、语音的四个物理要素中,区别不同的意义起着最为重要的作用的是( D) A、音高 B、音强 C、音长 D、音色 6、元音和辅音本质区别是( C) A、元音的发音可以延长,辅音不可以 B、元音发音响亮,辅音不响亮 C、元音发音时气流不受阻,辅音一定受阻 D、发元音时,发音器官的各个部分均衡紧张;辅音则不然 7、[ε]的发音特征是( D) A、舌面前高不圆唇 B、舌面后高不圆唇

C、舌面前半高不圆唇 D、舌面前半低不圆唇 8、下面各项中,都是浊辅音的一组是(C ) A、[t§ ½] B、[d §] C、[b z] D、[p k] 9、“升帐”的“帐”和“热胀冷缩”的“胀”,其理据性体现在( B) A、初始性 B、同源性 C、拟声性 D、复合性 10、构成“语言、身体”这两个词的语素的类型是( B) A、都是成词语素 B、都是不成词语素 C、“语”和“言”是成词语素,“身”和“体”是不成词语素 D、“语”和“言”是不成词语素,“身”和“体”是成词语素 11、“伟大、美好、性急、霜降”等词的构造方式是( D) A、都是陈述式 B、都是并列式 C、前两个是陈述式,后两个是并列式 D、前两个是并列式,后两个是陈述式 12、结构形式大多相当于句子的“语”是( A) A、谚语 B、成语 C、惯用语 D、格言 13、正是因为什么样的特性,才是语法规则是一种简明的规则,只需重复使用有限的几条规则就能管住大量的现象( B) A、抽象性 B、递归性 C、系统性 D、稳定性 14、下列关于“组合规则、聚合规则”的表述不正确的是( D) A、组合规则关注的是线性搭配问题,聚合规则研究同功能的替换问题 B、组合规则是现实的,聚合规则是潜在的 C、组合规则和聚合规则是结构主义语法学提出的

《编译原理》总复习-07级

《编译原理》总复习-07级 第一章编译程序的概述 (一)内容 本章介绍编译程序在计算机科学中的地位和作用,介绍编译技术的发展历史,讲解编译程序、解释程序的基本概念,概述编译过程,介绍编译程序的逻辑结构和编译程序的组织形式等。 (二)本章重点 编译(程序),解释(程序),编译程序的逻辑结构。 (三)本章难点 编译程序的生成。 (四)本章考点 全部基本概念。 编译程序的逻辑结构。 (五)学习指导 引论部分主要是解释什么是编译程序以及编译的总体过程。因此学习时要对以下几个点进行重点学习:翻译、编译、目标语言和源语言这几个概念的理解;编译的总体过程:词法分析,语法分析、语义分析与中间代码的生成、代码优化、目标代码的生成,以及伴随着整个过程的表格管理与出错处理。 第三章文法和语言课外训练 (一)内容 本章是编译原理课程的理论基础,主要介绍与课程相关的形式语言的基本概念,包括符号串的基本概念和术语、文法和语言的形式定义、推导与归约、句子和句型、语法分析树和二义性文法等定义、文法和语言的Chomsky分类。 (二)本章重点 上下文无关文法,推导,句子和句型,文法生成的语言,语法分析树和二义性文法。(三)本章难点 上下文无关文法,语法分析树,文法的分类。 (四)本章考点 上下文无关文法的定义。 符号串的推导。 语法分析树的构造。 (五)学习指导 要构造编译程序,就要把源语言用某种方式进行定义和描述。学习高级语言的语法描述是学习编译原理的基础。上下文无关文法及语法树是本章学习的重点。语法与语义的概念;程序的在逻辑上的层次结构;文法的定义,文法是一个四元组:终结符号集,非终结符号集,开始符号、产生式集;与文法相关的概念,字符,正则闭包,积(连接),或,空集,产生式,推导,直接推导,句子,句型,语言,最左推导,最右推导(规范推导);学会用文法来描述语言及通过文法能分析该文法所描述的语言;语法树及二义性的概念、能通过画语法树来分析一个文法描述的语言是否具有二义性;上下文无关文法的定义和正规文法的定义,能判断一个语言的文法是哪一类文法。 附训练试题:

语言学概论名词解释

语言学概论名词解释

语言学概论名词解释 第一章语言和语言学 1、语言:从结构上看,语言就是由词语这种符号构成的复杂系统。从功能上看,是人类进行社会交际和思维认识的工具。语言具有符号性、系统性、社会性及其他属性{民族性和生成性(指人们可以根据有限的语言符号和组合规则生成无限的句子)模糊性} 2、语言的能指和所指(什么是符号):用甲事物代表乙事物,而甲乙两事物之间没有必然联系,甲事物就是代表乙事物的符号,其中甲事物就是符号的能指(形式),乙事物就是符号的所指(内容和意义)。符号的能指和所指之间的关系是人为约定的。 3、语言符号的特征:语言中的词语就是一种符号,具有符号的特征。 ①语言符号的任意性和理据性:语言符号的任意性是指语言符号的能指和所指之间没有必然的联系,用什么语音形式代表什么语义内容是任意的,即可以自由选择的;语言符号的理据性。是指人们用什么语音形式表示某种语义内容是有某种依据、缘由的。 ②语言符号的稳固性和渐变性:语言符号一旦约定俗成以后就具有稳固性;为了适应社会发展的变化,采取渐变的方式 ③语言符号的线条性和层次性:语言符号的线条性,或称线性,是指人说话时语言符号在时间上依次出现,像一根线条一样,呈现为一种线性序列;线条性只是语言符号序列的表面形式,语言符号序列的内部结构是有层次的。 4、征兆:如果甲事物与乙事物之间有必然的因果关系,甲事物就不是乙事物的符号,而是征兆。 5、语言的社会性:语言是社会交际的工具,社会性是语言的本质属性。自然语言系统和规则是由特定的社会群体共同约定俗成的,而不是由个别人或少数人创造的语言的发展变化离不开社会,无论是新词语的产生,还是旧词语的消亡,都取决于社会交际的需要。由于自然语言从生到长到死的整个过程都取决于整个社会,所以说社会性是自然语言的本质属性。 6、言语:言语包括言语活动和言语作品。言语活动就是运用语汇材料和语法规则交流思想的活动,简言之就是说话,而言语作品则是言语活动的结果,也就是说出来的话。 7、副语言:语言虽然不是人类唯一的交际工具,除了语言之外,人类还有其他辅助性的交际工具,例如体态、美术、音乐等。这类辅助性交际工具有时也被称为“语言“,为了与真正的语言相区别,可以把它们称为副语言或准语言。副语言可以分为两种类型,一类是依附性副语言,另一类是独立性副语言。依附性副语言是在语言的基础上形成的,依附于语言,是语言的代码,一般可以准确地转换成语言,如文字、电报代码、交通信号、旗语、灯语、商品包装和公共场所的一些示意符号、标志等;独立性副语言不是在语言的基础上产生的,可以独立于语言使用,一般不能准确地转换成语言,如自然体态语(包括表情、姿态、手势、动作等,不包括为聋哑人人工设计的手势语)、美术语言、音乐语言等。 8、自然语言:自然语言是社会群体共同创造的、在日常交际活动中逐渐自然形成和发展的语言,如汉语、英语等。 9、人工语言:人工语言是个别人或少数人人工设计出来的语言(严格来说是副语言),如电报代码、科学符号公式、计算机程序语言、交通信号、旗语、灯语、为聋哑人人工设计的手势语、盲人的手指语以及国际辅助语等。

自考语言学概论名词解释

名词解释 第一章总论 □语言学 以语言为研究对象的一门独立的学科。 □语文学 一门研究古文献和书面语的学问。 □历史语言学 主要用历史的方法研究某种语言和短期的和长期的变化规律,对比语言学主要用比较的方法对不同的语言进行对比研究,找出它们的相异之处或共同规律(研究语言在不同时期所经历的变化)。 □历史比较语言学 运用比较的方法来发现几种语言在历史演变中的对应规律从而确定语言的亲属关系,构拟产生这些亲属语言的原始母语。 □描写语言学 是和历史语言学相对,即截取某一历史阶段的语言,对其语音、词汇、语法等结构要素进行观察、描写、分析、研究。 □历时语言学 研究语言在不同时期所经历的变化。 □共时语言学 研究语言某一段时期情况的语言学,如现代汉语、古代汉语等。 □个别语言学 其研究的对象是一种语言,如汉语、英语等。 □普通语言学 研究的对象是人类语言,着重从理论上探讨语言的共同特点和一般规律,也叫一般语言学。 □语言的语言学 语言的语言学是以“语言”为唯一对象的语言学,指音义结合的词汇语法系统。是一种静态、同质的纯语言学。 □言语的语言学 言语的语言学是一种动态的、异质的、涉及方方面面的语言学。

□内部语言学(微观语言学) 只对语言系统内部各结构要素进行研究,如:语音学、语义学、词汇学、语法学等。 □外部语言学(宏观语言学) 指与语言相关的边缘学科,如社会语言学、心理语言学、心理语言学、人类语言学等。 □对比语言学 就要用比较的方法对不同的语言进行对比研究,找出它们的相异之处或共同规律。 □微观语言学(内部语言学) 只对语言系统内部各结构要素进行研究,如:语音学、语义学、词汇学、语法学等。 □宏观语言学(外部语言学) 指与语言相关的边缘学科,如社会语言学、心理语言学、心理语言学、人类语言学等。 □理论语言学 理论语言侧重研究语言的一般理论,狭义的理论语言学就是普通语言学,广义的理论语言学也可以包括个别语言学的理论部分。 □应用语言学 侧重语言在各个领域中实际应用的学科。狭义应用语言学指语言教学的理论和方法研究;广义的应用语言学除语言教学外,还包括词典编纂、文字制定、机器翻译…… □结构主义语言学 索绪尔创立的语言学,认为存在着语言的语言学和言语的语言学,使语言学成为现代意义上的科学。 □形式语言学 乔姆斯基创立的转换-生成语法,即转换与生成句子的过程都采用形式化的符号表达。 □交叉语言学 语言学与自然科学、社会科学相互渗透产生的交叉性、边缘性的学科。 □语言 实质上是一种符号体系,是音义结合的词汇系统和语法系统,有共时和历时两种状态。 □言语 言语是说(写)的过程和结果,是一种行为。 □思维 人脑能动地反映客观现实的能力与过程。包括直观动作思维、表象思维和抽象思维。

编译原理第二版课后习答案

《编译原理》课后习题答案第一章 第 1 章引论 第 1 题 解释下列术语: (1)编译程序 (2)源程序 (3)目标程序 (4)编译程序的前端 (5)后端 (6)遍 答案: (1)编译程序:如果源语言为高级语言,目标语言为某台计算机上的汇编语言或机器语言,则此翻译程序称为编译程序。 (2)源程序:源语言编写的程序称为源程序。 (3)目标程序:目标语言书写的程序称为目标程序。 (4)编译程序的前端:它由这样一些阶段组成:这些阶段的工作主要依赖于源语言而与目标机无关。通常前端包括词法分析、语法分析、语义分析和中间代码生成这些阶 段,某些优化工作也可在前端做,也包括与前端每个阶段相关的出错处理工作和符 号表管理等工作。 (5)后端:指那些依赖于目标机而一般不依赖源语言,只与中间代码有关的那些阶段,即目标代码生成,以及相关出错处理和符号表操作。 (6)遍:是对源程序或其等价的中间语言程序从头到尾扫视并完成规定任务的过程。 第 2 题 一个典型的编译程序通常由哪些部分组成?各部分的主要功能是什么?并画出编译程 序的总体结构图。 答案: 一个典型的编译程序通常包含 8 个组成部分,它们是词法分析程序、语法分析程序、语义分析程序、中间代码生成程序、中间代码优化程序、目标代码生成程序、表格管理程序和错误处理程序。其各部分的主要功能简述如下。 词法分析程序:输人源程序,拼单词、检查单词和分析单词,输出单词的机表达形式。 语法分析程序:检查源程序中存在的形式语法错误,输出错误处理信息。 语义分析程序:进行语义检查和分析语义信息,并把分析的结果保存到各类语义信息表中。 中间代码生成程序:按照语义规则,将语法分析程序分析出的语法单位转换成一定形式 的中间语言代码,如三元式或四元式。 中间代码优化程序:为了产生高质量的目标代码,对中间代码进行等价变换处理。 目标代码生成程序:将优化后的中间代码程序转换成目标代码程序。 表格管理程序:负责建立、填写和查找等一系列表格工作。表格的作用是记录源程序的 各类信息和编译各阶段的进展情况,编译的每个阶段所需信息多数都从表格中读取,产生的中间结果都记录在相应的表格中。可以说整个编译过程就是造表、查表的工作过程。需要指出的是,这里的“表格管理程序”并不意味着它就是一个独立的表格管理模块,而是指编译程序具有的表格管理功能。 错误处理程序:处理和校正源程序中存在的词法、语法和语义错误。当编译程序发现源

试论语法分析中句法语义语用的三位一体性

第27卷第6期 唐山师范学院学报 2005年11月 Vol. 27 No.6 Journal of Tangshan Teachers College Nov. 2005 ────────── 收稿日期:2005-05-31 作者简介:刘淑芬(1981-),河北唐山人,广西大学文化与传播学院2004级汉语言文字学研究生。 - 38 - 试论语法分析中句法、语义、语用的三位一体性 刘淑芬 (广西大学 文化与传播学院,广西 南宁 530004) 摘 要:在语法分析中要区分三个平面——句法平面、语义平面和语用平面,这三个平面是相互联系、相互制约、相互影响的,具有三位一体性。对句子进行语法分析时,要注意把握三个平面的三位一体性。从而使句子从静态分析达到动态分析,这也将对对外汉语语法教学有重大的指导意义。 关键词:“三个平面”理论;句法;语义;语用;三位一体性 中图分类号:H043 文献标识码:A 文章编号:1009-9115(2005)06-0038-03 语言是一种极其复杂的交际载体,一种极其复杂的符号体系。语言本身的特点决定了分析语言不可能在一个平面上 进行。 [1] 在进行语法分析和语法研究时既要区分句法、语义、语用三个不同平面,又要将三者有机结合起来的“三个平面理论”,是新时期汉语语法研究的热点之一。一个具体的句子,总是涉及到句法、语义、语用这三个不同的平面,对句子进行语法分析时必须同时进行句法分析、语义分析、语用分析才算最后达到语法分析的目的。如此才能使静态语法分析和动态语法分析相结合,达到全方位的语法分析,体现出三个平面的三位一体性。 语法研究的三个平面的理论,主张自觉地既明确区分又相互兼顾句法、语义、语用三个平面的理论。语法的三个平面都有自己的形式和意义:“句法、语义、语用的形式都是语法形式;句法、语义、语用的意义都是语法意义。”[2]句法平面的语法意义称为句法意义,指的是词语与词语结合组成句法结构后所产生或形成的显层的关系意义。语义平面的语法意义称为语义意义,简称语义,指的是词语和词语相互配合组成语义结构后所产生或形成的隐层的关系意义。语义只有在一定的语义结构中才能形成,因此词汇意义、逻辑意义、语境意义、社会文化意义等,不属于语法范畴的语义。语用平面的语法意义称为语用意义,指的是词语或句法结构体在语言实际使用中所产生或形成的语用价值或信息。语用意义往往体现着说话人的主观表达意向。 三个平面中,句法和语义是表里关系或显层和隐层的关系,这在抽象的句子结构里看得更为明显,句法结构同时也是语义结构的表现形式;而在具体的句子即交际中实际运用的句子中,语用成分或语用因素与句法结构和语义结构的成分之间的关系是信息和载体的关系、内层和外层的关系、客观和主观的关系。至于三者在语法分析中的价值,三个平面 有三种结构,也就会有句法成分、语义成分、语用成分,它们在具体的句子中是同时存在的,共同构成句子的要素,三者互相制约,相辅相成,缺一不可。不过由于着眼点和观察角度不同,研究中会有所侧重:“从说写角度看,句法是核心,是个轴。研究语法,要紧紧扣住句法,以句法为基础,向深层挖掘语义,向外层探求语用。”[2]因此,句子的语法分析应该是多角度、多层面的而不应该是孤立的。 在分析一个句子合法不合法时,一是要看句法上词语间结合得妥当不妥当;二是要看语义上词语搭配得合理不合理;三是要看语用上词语安排得适切不适切。凡符合妥当、合理、适切三个条件的句子,可以说是一个合法的、有效的句子,反之,可能是一个不合法的句子或是一个有语病的句子。由此可知,在对句子进行具体分析时,要求把句子放在交际的过程中观察,看语境对句子的语义和结构产生了什么影响,使句子发生了什么变化等等。采用静态的分析与动态的分析[3]相结合的方法,体现出三个平面的三位一体性。 例如:“门把风吹开。”这句话从句法上看虽符合“主语(门)+状语(把风)+动词(吹)+补语(开)”的格式;但从语义上看,此句违背了“把”字句的主语必须是施事,而介词“把”介引的对象应为受事的原则,同样让人不知所云;再从语用方面看,此句所传达的信息是不真实的,而且由于缺少语气词“了”则不能表达陈述确定的语气,使人觉得一句话没说完,因此是一个不合法的句子。如果转换成:“风吹开了门。”“风把门吹开了。”或“门被风吹开了。”无论从哪个平面上看都是合理合法的。而且,这三句的主语、施动者(或受动者)、主题三者是重合的,也就是说,句子的主语兼有句法、语义、语用三个平面的因素,因而三个平面之间的联系非常密切。但在有些情况下,主语、施事(或受事)、主题并不是等同的,例如:“今天,我们班的同学都

相关文档
最新文档