第二章前后文无关文法和语言

合集下载

第2章文法和语言的基本知识

例如， ∑′={0，1}是一个字母表，由0 和1两个元素组成。不同的语言有不同的字母表，如英文的字母表是26个字母、数字和标点符号的集合，C语言的字母表是由字母、数字和若干专用符号组成。 2. 符号（字符）字母表中的元素称为符号，或称为字符。例如，前述例子中，a，b，c是字母中∑ 中的符号；0和1是字母表∑′中的符号。
例如：用A表示∑ + ，用式子A→0表示符号串 0∈A或A生成符号串0，符号“→”读做“生成”或 “由……组成”。则集合A可表示成 A→0 A→1 A→A0 A→A1 显然，由A生成的符号串属于∑+，这就是用文法描述语言。
编译原理授课教案
2.2.2 文法的形式定义
1. 规则规则也称产生式，它是一个符号与一个符号串的有序对(A，β)，通常写做 A→β(或A::=β) 其中，A是规则左部，它是一个符号；β是规则右部，它是一个符号串；“→”和“::=”表示“定义为”或”生成”，意思是左部符号用右部的符号串定义或左部符号生成右部是集合，而｛ε｝表示由空符号串ε所组成的集合，但这样的集合不是集合φ＝｛｝。３. 符号串的幂运算设x是符号串，则x的幂运算定义为 x0=ε X1= x x2 = xx ………… xn = xxxx……xx=xxn-1 ( n > 0)
编译原理授课教案
编译原理授课教案
试设计一个表示所有标识符的文法。例2.2 ：
分析题意是用文法定义标识符，必须确定P中规则。为了设计出一组规则，首先应搞清楚集合中符号串的结构特征。标识符的定义是字母或以字母开头的字母数字串，结构如图：
字母字母或数字串
用I代表标识符，L代表字母，D代表数字，则定义标识符的方法为 G = (VN ,VT, P , S)

编译原理前后文无关文法和语言

应用和实例
• 前后文无关文法的应用 • 前后文无关文法的语言特性分析
总结和展望
• 总结研究成果 ຫໍສະໝຸດ 对进一步研究的展望 • 结束语编译原理前后文无关文法和语言
欢迎来到编译原理前后文无关文法和语言的世界。本次演讲将分享关于编译原理基础知识、前后文无关文法的定义和应用、以及总结和展望。
前言
• 问题引入 • 研究目的
编译原理基础知识
• 编译过程概述 • 前后文无关文法介绍
前后文无关文法
• 语言的定义和表示 • 产生式和语法规则 • 推导和语言生成

编译原理第二版作业答案_第2章

第二章文法和语言p48 4、6（6）、11、 12（2）（6）、18（2）4 证明文法G=（{E,O}，{(，)，+，*，v ，d}，P ，E ）是二义的,其中P 为 E → EOE | (E) | v | d O → + | * 证明：因为E=〉 EOE =〉EOEOE =〉EOEOv =〉EOE+v=〉EOv+v =〉E*v+v =〉v*v+v ，句子v*v+v 有两棵不同的语法树所以文法G 是二义的。

问题：1）只有文字说明，比如v*v+v 有两棵语法树，但没有画出语法树或者最左（最右）推导过程2）给出的是不同句子（v*v+d v+v*d ）的语法树 6、已知文法G ：EEEE OO v*v+ vE EE E O O v+v* v〈表达式〉∷=〈项〉|〈表达式〉+〈项〉〈项〉∷=〈因子〉|〈项〉*〈因子〉〈因子〉∷=（〈表达式〉）| i试给出下述表达式的推导及语法树（6）i+i*i推导过程：〈表达式〉=〉〈表达式〉+〈项〉E=〉E+T =〉〈表达式〉+〈项〉*〈因子〉=〉E+ T*F=〉〈表达式〉+〈项〉* i =〉E+ T*i=〉〈表达式〉+ 〈因子〉* i =〉E+F*i=〉〈表达式〉+ i* i =〉E+i*i=〉〈项〉+ i* i =〉T +i*i=〉〈因子〉+ i* i =〉F +i*i=〉i +i*i =〉i +i*i 共8步推导语法树：〈表达式〉+〈因子〉〈项〉i 〈因子〉i〈项〉〈项〉〈因子〉i*11、一个上下文无关文法生成句子abbaa的推导树如下：（1）给出该句子相应的最左推导和最右推导（2）该文法的产生式集合P可能有哪些元素？（3）找出该句子的所有短语、简单短语、句柄。

（1）最左推导：S=〉ABS=〉aBS=〉aSBBS=〉aBBS=〉abBS=〉abbS =〉abbAa=〉abbaa最右推导：S =〉ABS=〉ABAa=〉ABaa=〉ASBBaa=〉ASBbaa=〉ASbbaa=〉Abbaa=〉abbaa（2）该文法的产生式集合P可能有下列元素：S→ABS | Aa|εA→a B→SBB|b（3）因为字符串中的各字符有相对的位置关系，为了能相互区别，给相同的字符标上不同的数字。

编译原理第二版课后习答案

《编译原理》课后习题答案第一章第 1 章引论第 1 题解释下列术语：（1）编译程序（2）源程序（3）目标程序（4）编译程序的前端（5）后端（6）遍答案：（1）编译程序：如果源语言为高级语言，目标语言为某台计算机上的汇编语言或机器语言，则此翻译程序称为编译程序。

（2）源程序：源语言编写的程序称为源程序。

（3）目标程序：目标语言书写的程序称为目标程序。

（4）编译程序的前端：它由这样一些阶段组成：这些阶段的工作主要依赖于源语言而与目标机无关。

通常前端包括词法分析、语法分析、语义分析和中间代码生成这些阶段，某些优化工作也可在前端做，也包括与前端每个阶段相关的出错处理工作和符号表管理等工作。

（5）后端：指那些依赖于目标机而一般不依赖源语言，只与中间代码有关的那些阶段，即目标代码生成，以及相关出错处理和符号表操作。

（6）遍：是对源程序或其等价的中间语言程序从头到尾扫视并完成规定任务的过程。

第 2 题一个典型的编译程序通常由哪些部分组成？各部分的主要功能是什么？并画出编译程序的总体结构图。

答案：一个典型的编译程序通常包含 8 个组成部分，它们是词法分析程序、语法分析程序、语义分析程序、中间代码生成程序、中间代码优化程序、目标代码生成程序、表格管理程序和错误处理程序。

其各部分的主要功能简述如下。

词法分析程序：输人源程序，拼单词、检查单词和分析单词，输出单词的机内表达形式。

语法分析程序：检查源程序中存在的形式语法错误，输出错误处理信息。

语义分析程序：进行语义检查和分析语义信息，并把分析的结果保存到各类语义信息表中。

中间代码生成程序：按照语义规则，将语法分析程序分析出的语法单位转换成一定形式的中间语言代码，如三元式或四元式。

中间代码优化程序：为了产生高质量的目标代码，对中间代码进行等价变换处理。

目标代码生成程序：将优化后的中间代码程序转换成目标代码程序。

表格管理程序：负责建立、填写和查找等一系列表格工作。

表格的作用是记录源程序的各类信息和编译各阶段的进展情况，编译的每个阶段所需信息多数都从表格中读取，产生的中间结果都记录在相应的表格中。

第2章前后文无关文法和语言(姚版)

第2章前后文无关文法和语言
终结符号是指语言不可再分的基本符号，通常是一个语言的字母表；终结符代表了语法的最小元素，是一种个体记号。非终结符号也称语法变量，它代表语法实体或语法范畴；非终结符代表一个一定的语法概念，因此，一个非终结符是一个类、一个集合。例如，在程序语言中，可以把变量、常数、 “+”、“*”等看作是终结符，而像“算术表达式” 这个非终结符则代表着一定算术式组成的类，如 i*(i+i)、i+i+i等；也即每个非终结符代表着由一些终结符和非终结符且满足一定规则的符号串组成的集合。
第2章前后文无关文法和语言
“我是大学生”。是汉语的一个句子〈句子〉∷=〈主语〉〈谓语〉〈主语〉∷=〈代词〉｜〈名词〉〈代词〉∷=我｜你｜他〈名词〉∷=王明｜大学生｜工人｜英语〈谓语〉∷=〈动词〉〈直接宾语〉〈动词〉∷=是｜学习〈直接宾语〉∷=〈代词〉｜〈名词〉
第2章前后文无关文法和语言
{ } ......
* 2
* { } * 2 3 ......
第2章前后文无关文法和语言
例：Σ={a,b} Σ*={ε,a,b,aa,ab,ba,bb,aaa,aab,…} Σ+={a,b,aa,ab,ba,bb,aaa,aab,…}
第2章前后文无关文法和语言
文法和语言的形式定义
如何来描述一种语言？
如果语言是有穷的（只含有有穷多个句子），可以将句子逐一列出来表示如果语言是无穷的，找出语言的有穷表示。语言的有穷表示有两个途经： - 生成方式（文法）：语言中的每个句子可以用严格定义的规则来构造。 - 识别方式（自动机）：用一个过程，当输入的一任意串属于语言时，该过程经有限次计算后就会停止并回答“是”，若不属于，要么能停止并回答 “不是”，（要么永远继续下去。）

编译原理第二章文法和语言资料

第二章文法和语言本章讲述目前广泛使用的上下文无关文法。

即用上下文无关文法作为程序设计语言语法的描述工具。

阐明语法的一个工具是文法。

本章将介绍文法和语言的概念。

本章重点：上下文无关文法及其句型分析中的有关问题。

第一节文法的直观概念当我们表述一种语言时，无非是说明这种语言的句子，如果语言只含有有穷多个句子，则只需列出句子的有穷集就行了，但对于有无穷句子的语言来讲，存在着如何给出它的有穷表示的问题。

以自然语言为例，人们无法列出全部句子，但是人们可以给出一些规则，用这些规则来说明（或者定义）句子的组成结构，比如：“我是大学生”。

是汉语的一个句子。

这些规则成为我们判别句子结构合法与否的依据。

一旦有了一组规则以后，我们可以按照如下方式用它们去推导或产生句子。

我们开始去找∷＝左端的带有〈句子〉的规则并把它表示成∷＝右端的符号串，这个动作表示成：〈句子〉⇒〈主语〉〈谓语〉，然后在得到的串〈主语〉〈谓语〉中，选取〈主语〉或〈谓语〉，再用相应的规则∷＝右端代替之。

比如，选取了〈主语〉,并采用规则〈主语〉∷＝〈代词〉，那么得到：〈主语〉〈谓语〉⇒〈代词〉〈谓语〉，重复做下去，我们得到句子：“我是大学生”的全部动作过程是：〈句子〉⇒〈主语〉〈谓语〉⇒〈代词〉〈谓语〉⇒我〈谓语〉⇒我〈动词〉〈直接宾语〉⇒我是〈直接宾语〉⇒我是〈名词〉⇒我是大学生符号⇒的含义是，使用一条规则，代替⇒左边的某个符号，产生⇒右端的符号串。

显然，按照上述办法，不仅生成“我是大学生”这样的句子，还可以生成“王明是大学生”，“王明学习英语”，“我学习英语”，“他学习英语”，“你是工人”，“你学习王明”等几十个句子。

《编译原理》第2章编译基础-形式语言与有穷自动机

整理课件
句型、推导
G[E]： E→E+T|T T→T*F|F F→(E)|a
对于句子a+a*a 有不同的推导
EE+T T+T F+T a+T a+T*F a+F*F a+a*F a+a*a
EE+T E+T*F E+T*a E+F*a E+a*a T+a*a F+a*a a+a*a
整理课件
例：奇偶测试器
0
0
1
q0
q1
∈
1
自动机：Ｍ＝（Q，∑ ，δ ，q0，Z）
Q＝｛ q0, q1}
∑ ={0,1}
q0=q0 Z={q1}
整理课件
映射函数：
δ（ q０,０)= q０ 0
0
δ（ q０,１)= q１
1
δ（ q1,０)= q１ q0
q1
δ（ q1,１)= q０
1
例：０００１１０００１
整理课件
第四节正规文法与有穷自动机 1、正规文法产生的语言的推导例：文法 G=（VN，VT，P，S）其中： VN={A，B，C}
VT={a,b,c} S=A P:A →aB A →aA
B →bB B →bC C →cC C →c
整理课件
A=>aA=>aaA=>…..=>aa…aB =>aa…abB=>aa…abb…bC =>aa…abb…bcC=> aa…abb…bccC => aa…abb…bcc…c
D→ε
Aa→bD
自然语言属于上下文有关文法
整理课件
文法的类型

《编译原理》教学大纲

《编译原理》教学大纲大纲说明课程代码： 3225003总学时： 64 学时（讲课 48 学时，实验16 学时）总学分： 4课程类别：学科基础课适用专业 : 计算机科学与技术（专业）预修要求： C 语言程序设计、 C++ 程序设计、数据结构课程的性质、任务及地位：《编译原理》是计算机科学与技术专业的一门重要基础课。

通过对该课程的学习，使学生掌握编译过程中的相关原理和编译技术，让学生能初步进行编译程序的开发和维护，同时促进提高学生开发软件的能力。

教学目的与基本要求：本课程的目的，通过向学生讲述编译系统的结构、工作流程及编译程序各部分的设计原理和实现技术，使学生既掌握编译技术理论的基础与基本知识，也具有设计、实现、分析和维护编译程序等方面的初步能力。

本课程理论性较强。

因授课对象为工科学生，所以在强调编译系统的构造原理和实现方法的同时，为培养学生的实际工作能力，通过上机实践进一步加深学生对课堂教学内容的理解。

目的是要使学生牢固掌握相关的基本理论和基本方法，并能初步利用上述理论和方法解决简单实际问题。

教学方法和教学手段的建议：在教学方法上，贯彻理论联系实际、“精讲、多练”的原则，进行案例式、启发式的教学，对于一些实际性较强的问题要多采用课堂讨论等方式，以提高学生的思辨能力和学习的主动性；引导学生读书、理解、体悟、运用相结合；提高学生的学习兴趣与热情，培养与发挥学生的提出、分析及解决问题的能力。

教学手段：运用多媒体教学手段 +黑板 +上机实验的手段。

采取课堂讲授、课堂讨论、课后练习与自学等形式。

大纲的使用说明：大纲对课程性质、目的等作简单说明，同时列出各章节要学习的知识点、重点、难点，便于教学时教授重点的安排和学生自学安排。

大纲正文第一章引论学时： 4 学时（讲课 4 学时，实验 0 学时）了解编译的概念；理解编译程序的各组成部分及功能。

本章讲授要点：介绍程序设计语言与编译程序间的关系，主要内容包括：各级程序设计语言的定义、源程序的执行、编译程序的构造、编译程序的分类、形式语言理论与编译实现技术的联系。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2.2 .2 文法和语言的形式定义
从前面的推导看，从<句子>出发，经8步推导得到了一个英语句子。故前面的推导称为长度为8的推导。若不关心推导的中间过程，可将从一符号串到另一符号串的推导用记号
表示, 例如上例中经过 5步的推导记为句子 the m onkey 动词冠词名词
xuy是xUy的直接推导。xUy是xuy的直接规约。记为
xUy==>xuy(推导) 和 xuy ==> xUy( 规约 ) △
例如：G[<无符号整数>] (1) <无符号整数> → <数字串> ； (2) <数字串> → <数字串> <数字> (3) <数字串> → <数字>
(4) <数字> →0; (5) <数字> →1; ………… (13) <数字> →9;
< 代词><谓语> <动词> →是|学习我<谓语> <直接宾语> → <代词>|<名词> 我<动词><直接宾语>
我是<直接宾语>
我是<名词> 我是大学生
推导的形式定义
定义：设文法G[S]=(VN，VT，P，S)，
若U→u∈P，x、y∈V* ，则xUy∈V*
若用规则U→u 的右部u替换U，即xuy ∈V*, 则称
文法的定义
V＝VN ∪VT 称为文法的字汇表定义1. 文法G[S]=(VN，VT，P，S) VN ：非终结符号集规则：U → x VT ：终结符号集 U ∈VN, x∈V* P：产生式或规则的集合 S：开始符号（识别符号） S∈VN
非终结符是指在文法的语法范畴，出现在产生式P中，通常用大写字母或用“<>”括起来的符号串表示，终结符是指不需要进一步定义的基本符号，通常用小写字母表示
形式语言：是一个字母表上按照某种规则构成的所有的串的集合，它用文法和自动机所描述的没有语义的语言。（形式语言是数学范畴）
2.2.2 文法和语言的形式定义
我们从“产生语言”的角度出发,讨论文法和语言的形式定义。产生语言指制定出有限条规则，借助它们就能产生出些语言的句子。我们以几个英语句子构成的语言为例进行讨论。并设每个句子都是“主-谓-宾”结构。语法规则见右。其中，每个用<>括起来的部分是所要定义语言中的一个语法实体（称为语法单位、语法结构、语法范畴、语法变量等）。 “::=”是用于定义语法结构的符号，其含义（并读作） “定义为”.语法规则也称为产生式(Production)
2.2 文法和语言的定义
2.2.1 基本概念和术语
1。字母表（符号表、符号集）由若干元素（符号、字母）组成的有限非空集合。例：={a，b，c} 2。符号串用字母表中符号所组成的任何有限序列。
例：a, aa, ac, abc，..
符号串的长度 = 符号串中所含符号的个数
例：aba的长度为3。记为：|aba|=3 空串不含任何符号的符号串，记为。显然，| |= 0。本课约定用A、B、C、等表示字母表或符号串集；用a,b,c,S,T,U 等表示符号；用s,t,u,x,y,z,,,等表示符号串。

规则的简化表示
在前面的语法规则定义中，有些语法范畴（如<名词>、<动词>）有若干条不同的规则来定义它，为简明起见，我们可以将它们写在同一个左部语法范畴下，将其定义值用符号‚|”（读作‘或’）隔开。如<名词>、 <动词>、 <冠词>的定义规则可简记为 <名词>::= monkey | banana <动词>::= eat | has <冠词>::= the | a
用语法规则进行推导所得的推导序列
推导步骤 1 2 3 4 5 6 7 8 所用规则 ① ③ ② ④ ⑤ ⑦ ⑩ ⑥ 所得的符号串 <句子> <主语短语><动词短语> <主语短语><动词><宾语短语> the <名词><动词><宾语短语> the <名词><动词><冠词><名词> the monkey<动词><冠词><名词> the monkey eat <冠词><名词> the monkey eat a <名词> the monkey eat a banana
<无符号整数> => <数字串> ==> <数字串> <数字>
==> <数字><数字> ==> 1 <数字> ==> 1 0
当符号串已没有非终结符号时，推导就必须终止。
定义3：文法G，U0,U1,U2,……，Un ∈V+ if v= U0 ==> U1 ==> U2 ==> …… ==> Un＝w (n>0) 则称v推导出w,或w规约到v，或v经+推导出w，或w+ 规约到v，分别记为：＋＋ v ==> w 或w ==> v
任何程序语言都有自己的字母表。 1.计算机语言:由符号“0”和“1”组成的字母表: ∑={0，1} 2. Pascal语言字母表：∑={AZ, az, 09, +, -, *, /, <, =, >, :, ‘,”,;，.， , (, ), {, }, [, ] } 3. C语言字母表：∑={AZ, az, 09, +, -, *, /, <, =, >,_,&,^, ~ ,\ ,:,‘,”,;，.，?, (, ),{,}, [, ],空格,!,#,% }
例：无符号整数的文法：
G[<无符号整数>]=（Vn，Vt，P，E） Vn＝{<无符号整数>,<数字串>, <数字>} Vt = {0,1,2,3,……9}
P = {<无符号整数> → <数字串> ； <数字串> → <数字串> <数字> ； <数字串> → <数字> ； <数字> →0； <数字> →1； ………… <数字> →9；} E = <无符号整数>；
①<句子>::=<主语短语> <动词短语> ②<主语短语>::= the < 名词> ③<动词短语>::=<动词 ><宾语短语> ④<宾语短ቤተ መጻሕፍቲ ባይዱ>::=<冠词 ><名词> ⑤<名词>::=monkey ⑥<名词>::=banana ⑦<动词>::=eat ⑧<动词>::=has ⑨<冠词>::= the ⑩<冠词>::= a
2.2.1 基本概念和术语（续）
3.符号串的前（后）缀及子串设,,，x是符号串，若x= ,则称是x的子串；特别地，当 = （= ）时，称是x的前（后）缀。
（符号串s=banana）前缀：,b,ba,ban,bana,banan,banana 后缀：banana,anana,nana,ana,na,a, 子串: banana,anana,banan,anan,…, 4.符号串相等：若x、y是集合上的两个符号串，则x＝y iff （当且仅当）组成x的每一个符号和组成y的每一个符号依次相等。
文法G[S]所产生的所有句子的集合
定义6：文法G[S] * x,且x∈V*；（1）句型：x是句型 S + （2）句子：x是句子 S x, 且x∈VT*； + x }；（3）语言：L（G[S]）={x| x∈VT*, S 形式语言理论可以证明以下两点：（1）G →L（G）；（2）L(G)→G1，G2，……，Gn；已知文法，求语言，通过推导；已知语言，构造文法，无形式化方法，更多是凭经验。
第二章前后文无关文法和语言
在20世纪50年代，N.Chomsky首先对语言的描述问题进行了探讨。他提出了一种用来描述语言的数学系统，并以此定义了四类性质不同的语言，称为语言（文法）的Chomsky分类。人们把用一组数学符号和规则来描述语言的方式称为形式描述，把所用的数学符号和规则称为形式语言。目前，形式语言与自动机理论已成为计算机科学中的一个重要分支。本章将初步介绍形式语言中的某些基本概念和知识，重点是与编译技术密切相关的一些术语和概念，诸如文法、语言、句子、句型、短语、句柄以及句型分析等。
语法规则及其产生的语言
前面的语法规则可以产生16个不同的句子，由这16个句子组成的集合，就是该规则所定义（或所产生）的语言。应指出，所产生的句子中，有些句子的含义是荒谬的（如 the banana eat a monkey和 the banana eat the banana等）。然而，若不考虑语义，则我们就必须承认它们是语法上合法的句子。
2.2.1 基本概念和术语（续）
5.符号串的联接：若x、y是定义在Σ是上的符号串，且x＝XY，y＝YX，则x和y的联接 xy＝ XYYX也是Σ上的符号串。注意：一般xy≠yx，而εx＝xε 6.符号串集合的乘积运算：令A、B为符号串集合，定义AB＝{ xy |x∈A,y∈B} 例：A＝{a,b},B={c,d}, AB= ？

第二章 前后文无关文法和语言

第2章 文法和语言的基本知识