编译原理简明教程(第2版)[冯秀芳,崔冬华,段富][电子教案]第4章

合集下载

编译原理简明教程(第2版)第8章

④ 若NODE(A)=null，则把A附加到结点n，并令NODE(A)= n；否则，先从NODE(A)的附加标记集中将A删去(注意，若NODE(A)有前驱或 NODE(A)是叶结点，则不能将A删去)，然后再把A附加到新的结点n，并令NODE(A)= n。
例：构造以下基本块的DAG
(1) (:=, 3.14, _, T1) (2) (*, 2, T1, T2) (3) (+, R, r, T3) (4) (*, T2, T3, A) (5) (:=, A, _, B) (6) (*, 2, T1, T4) (7) (+, R, r, T5) (8) (*, T4, T5, T6) (9) (-, R, r, T7) (10) (*, T5, T7, B)
8.1.3
优化技术简介
Байду номын сангаас
1、合并常量运算
运算对象是常量或在编译时已知，则在编译时直接计算出结果，不必等到运行时再去计算。
例： x := 3.14 * 2 ; y := 2 * 5 * a ; z := x + 0.5 ;
合并常量元算后： x := 6.28; y := 10 * a ; z := 6.78 ;
优化可在编译的不同阶段进行：
源代码设计阶段 ------
程序员选择好的算法和语句
语义分析阶段
------ 如何生成高质量的中间代码
中间代码 ------ 采用优化技术
目标代码
------ 有效利用寄存器、指令、处理机
8.1.2
代码优化的分类
1、与机器的相关性与机器有关的优化：寄存器的优化、多处理机的优化、特殊指令的优化、无只有一个用代码的消除。入口和一与机器无关的优化：基本块的优化、循环优化。个出口 2、优化范围局部优化：基本程序块上进行的优化全局优化：全局程序范围内的优化

编译原理_chapter4

Fa | (E)
描述IF语句的二义文法
<stmt>→ if <expr> then <stmt>
| if <expr> then <stmt> else <stmt>
| other
(4.7)
根据if语句中else与then配对情况将其分为配对的语句和不配对的语句两类。
上述if语句的文法没有对这两个不同的概念加以区分，只是简单地将它们都定义为<stmt>，从而导致该文法是二义性的。
if e1 then if e2 then s1 else s2的语法树
二义性（ambiquity)的定义
对于文法G，如果L(G)中存在一个具有两棵或两棵以上分析树的句子，则称G是二义性的。也可以等价地说：如果L(G)中
存在一个具有两个或两个以上最左(或最
右)推导的句子，则G是二义性文法。如果一个文法G是二义性的，假设
2021/4/25
计算机学院辛明影
E E→a a
E
E→a a
一棵树！
9
关于语法树的几点结论
短语：一棵子树的所有叶子自左至右排列起来形成一个相对于子树根的短语。教材p50
短语：
a, a,a,
a+a, a+a*a
2021/4/25
E E* E E +E
a
aa
10
关于语法树的几点结论
直接短语：仅有父子两代的一棵子树，它的所有叶子自左至右排列起来所形成的符号串。
对于一般情况而言，若某一文法G的产生式具有如下形式：
A→A α1| A α2 |…| A αm| β1| β2|…| βn

编译原理简明教程(第2版)[冯秀芳,崔冬华,段富][电子教案]第2章.

r 非终结符
b.树根:S c.分枝:非终结符 d.若结点A有B1B2…Bn分枝，则A→B1B2…Bn是G的一个规则。
例：G[S]：
S→aAB
A→Ba|a a
S
A B a
S
A B
B→bd
b
B
d
a
B
a
b
d
2．由推导生成语法树句型or句子的推导用图解表示→语法树生成例：G[<无符号整数>] G[A]： A→B B→BC|C C→0|1|2……|9 推导： A B BC BCC CCC 2CC 25C 256 A B BC B6 BC6 B56 C56 256 A B B B C 6 C
ф 空集或者空语言，不含任何符号串的语言。
ф ≠{ε }
2.1.2
符号串的运算
1. 符号串相等：同一字母表的两个符号串所有符号依次相等。如Σ ={a，b，c} ω =abc， ψ =abc，则ω =φ ；若ω =abc， ψ =cba，则ω ≠φ
2. 字符串长度：符号串中包含的字符的个数。记|ω | 例|abc|=3，|ε |=0, |aω |=|ω a|=1+|ω |， a∈Σ 。
Σ +：Σ 上所有非空符号串的集合
例：A={0，1} 则 A1={0，1} A0={ε } A2={00，01，10，11} …… A*={ε ，0，1，00，01，10，11，000，……} A+={0，1，00，01，10，11，000，……}
2.2
文法和语言的形式定义
语言L：可抽象地看成是所有句子组成的集合（有限集：用枚举；无限集：文法）句子：可抽象地看成是某个有限字母表Σ 上的符号串。 L Σ* 例：英语Σ ={26个字母，数字，标点符号，……} 文法：在形式上用以描述和规定语言结构的方法，是用有限的手段描述无限的句子集合的方法之一。

编译原理第四章

S→aAb A→c A′
A′ →d|
n
A→α A′ A′ →β 1|β 2|…|β
n
不确定的自顶向下
转化
确定的自顶向下
问题：回溯左递归
解决问题：提取左因子消除左递归算法
例教材4.2 : SaBC B bC|dB Cc|a 分析句子adbca
思考： BAf|Be 选哪个？计算Af 和Be 首终结符是什么？
S S(L) LSL ’ L’ε
)
a
Sa LSL ’
a
A
b
【例4.1】分析acb 是否句子？ G[S]: S→aAb A→cd|c
S · 3. 选第一个Acd推导 a b-d不匹配(失败) c d S · a A c b A b
思考：为何有回溯
4.回溯即砍掉A的子树改选A的第二右部 Ac 匹配
（1）推导过程是一个不断试探的过程,出现回溯(回退并使用其他候选式试探)
S S
b S
① ②
a
S
b
a
S
S a
③
a
S
S a
a
b
思考：为何有死循环
（2）陷入死循环
分析时可能出现: (1) 回溯原因:推导过程中有多个侯选式可供选择，并根据所面临的输入符号不能准确的确定所要选择时，就可能出现回溯。例4.1
(2) 死循环。例4.2：在没有对当前输入符号匹配就进入处理 S的过程，无法确定什么时候才用Sb替换, 造成死循环. 原因: 左递归
1 3
=>acS
4
=>acaA =>acaA =>aca
1 4 4
当用A ε ， A用ε代替，可以通过A的后随终结符号来匹配

ppt编译原理4章444

4.3 确定的自顶向下分析思想
一、算法思想：文法特点： (1)每个产生式的对于任一输入符号串，从文法的识别符号出发，根据右部都由终结符号开始；(2) 当前的输入符号，唯一的确定一个产生式，用产生式的右两个产生式若左部相同，则部的符号串替代相应的非终结符往下推导，或构造一棵语其右部以不同的终结符号开始；(3)无空产生式U 法树。若能推导出输入串或构造语法树成功则输入串是句子，否则不是。 S 二、举例： (1)文法G[S]: SpA |qB AcAd|a 输入串 w=pccadd 对应最左推导：
4.5 非LL(1)文法转换为LL(1)文法
对某个语言来说其文法不一定是LL(1)文法，而非LL(1) 文法将无法采用确定的自顶向下分析方法进行分析，但我们可以通过对文法进行等价变换，在有些情况下使其成为 LL(1)文法。一、提取左公共因子：设文法中有Uxy|xw( UVN, x,y,wV*)形式的产生式，从而导致了: First(xy)First(xw)=First(x)Ф 因而使： Select(Uxy) Select(Uxw) Ф 1.方法：若有产生式Uxy|xw|…|xz ，则提取左公共因若在y,w,…,z中仍然有左公子并用EBNF表示为： Ux(y|w|…|z) 共因子，可以再次提取。注意，若有：Uxy|x 再引入另一个非终结符号V，将产生式变为：则提取后：Ux(y|) UxV V y|w|…|z
2.举例：设有产生式：S→if B then S1 else S2 | if B then S1 其中，S表示两种类型的条件语句。提取公因子，改成： S→if B then S1 ( else S2 | ) 引入非终结符号R： S→if B then S1 R R→else S2 |ε 文法中，if , then, elseVT

编译原理简明教程第二版

编译原理简明教程第二版本文档是《编译原理简明教程第二版》的前言部分，旨在介绍本书的目的和背景，以及阐明本书适用的范围和读者群体。

编译原理是计算机科学中的重要课程，涉及将高级程序语言转换为计算机可执行的机器语言的技术。

编译原理的理解对于计算机科学专业的学生以及从事软件开发和系统设计的专业人士都是至关重要的。

本教程作为一本简明的编译原理入门教程，旨在为读者提供一个简单但全面的了解编译原理的框架。

无论您是计算机科学专业的学生还是从事软件开发或系统设计的专业人士，如果您对编译原理感兴趣或需要深入了解这一关键领域，本书都适合您阅读。

在本书中，我们将以简明和易懂的方式介绍编译原理的基本概念和核心理论，并提供一些实际的编译器实现例子，以帮助读者更好地理解和应用所学知识。

希望本教程能够为广大读者提供一份简明而实用的编译原理研究资料，并对您在编译原理的研究和实践中有所帮助。

祝您阅读愉快！本章将解释编译原理的概念和在计算机科学中的重要性。

同时，介绍本书将提供的基本概念和技术。

编译原理是计算机科学中的一个重要领域，它主要研究如何将一种语言（通常是高级语言）转化为另一种语言（通常是机器语言），以便计算机能够理解和执行。

编译原理在软件开发和优化中起着至关重要的作用。

本书的目标是向读者介绍编译原理的基本概念和技术，帮助读者理解编译原理的工作原理和应用。

通过阅读本书，读者将掌握词法分析、语法分析、语义分析、中间代码生成、代码优化和代码生成等编译原理中的关键概念和技术。

下一章将介绍编译原理的起源和发展，以及编译器的基本原理和结构。

让我们开始研究编译原理吧！本章将介绍编译器中的词法分析过程。

词法分析是编译器的第一阶段，其目的是将源代码分解成有意义的词素或词法单元。

本章将讨论词法单元的概念、正则表达式的使用和有限自动机的设计。

同时，我们还将探讨如何设计和实现词法分析器，以便将源代码转换为词法单元序列。

词法分析器在编译器中起着至关重要的作用。

917405-编译技术-电子教案-第4章-语法分析(一)

北京航空航天大学计算机学院
5
4.2 自顶向下分析
4.2.1 自顶向下分析的一般过程
给定符号串S，若预测是某一语法成分，则可根据该语法成分的文法,设法为S构造一棵语法树，若成功,则S最终被识别为某一语法成分,即
SL(G[Z])，其中G[Z]为某语法成分的文法若不成功, 则 SL(G[Z])
• 可以通过一例子来说明语法分析过程
26
2.超前扫描
当文法不满足避免回溯的条件时，即各选择的首符号相交时，可以采用超前扫描的方法，即向前侦察各输入符号串的第二个、第三个符号来确定要选择的目标
这种方法是通过向前多看几个符号来确定所选择的目标，从本质上来讲也有回溯的味道，因此比第一种方法费时，但是假读仅仅是向前侦察情况，不作任何语义处理工作。
a. 改写以后的文法消除了左递归。 b. 可以证明，改写前后的文法是等价的，表现在
L(G改前) = L(G改后)
如何改写文法能消除左递归，又前后等价，可以给出两条规则:
北京航空航天大学计算机学院
12
规则一（提因子）
若：U∷=xy|xw|….|xz 则可改写为：U∷=x(y|w|….|z) 若：y=y1y2, w=y1w2 则 U∷=x(y1(y2|w2)|….|z)
改写文法： <程序> ∷= begin （<说明串>；<语句串> end | <语句串> end ）
引入 <程序*> <程序> ∷= begin <程序*> <程序*> ∷= <说明串>；<语句串> end | <语句串> end
北京航空航天大学计算机学院

编译原理简明教程(第2版)[冯秀芳,崔冬华,段富][电子教.pptx

#include <stdio.h> int lineno = 1; %}
number {digit}+(\.{digit}+?(E[+]?{digit }+)?
line
*.\n
%%
13.2 词法分析自动生成工具 13.2.1 LEX系列词法分析自动生成工具简介
{ws} if
{ /* 没有动作或没有返回 */ } {return (IF);}
2. 第1和第2个双百分号之间出现的是：规则部分，由一系列带有C代码的正则表达式组成，每个转换规则的格式为模式｛动作｝；其中每个模式是一个正则表达式，可以使用声明部分给出的正则定义。当匹配相对应的正则表达式时，这些动作对应的C代码片段就会被执行。
3. 第2个双百分号之后出现的是：规则部分各个动作需要使用的所有辅助函数，这部分是可选内容。
13.2.1 LEX系列词法分析自动生成工具简介
2．正则表达式的Lex约定
正则表达式(regular expression)：是一种可以用于模式匹配和替换的强有力的工具。
【例13.2】为一个带符号的数集写出正则表达式，这个集合可能包含一个小数部分或一个以字母E开头的指数部分。
参考解答： (“+”|“-”)？[0-9]+( “.” [0-9]*)?(E(“+”|“”)?[0-9]+)?
“<=”
{yylval = LE; return(RELOP);}
“=” “<>”
{yylval = EQ; return(RELOP);} {yylval = NE; return(RELOP);}
“>”
{yylval = GT; return(RELOP);}

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

4.1.1 词法分析的功能
词法分析程序的主要功能:输入源程序,输出单词符号. 单词符号(单词)—程序语言具有独立意义的最小语法单位. 属性字—单词的一种机内表示(反映单词的有关特性). 词法分析有两类: 包括处理说明部分:把单词的全部属性都识别出来不包括处理说明部分:不把单词的全部属性都识别出来
4.1.2
4.1.4 词法分析程序的输出形式
一般采用二元式单词类别单词符号的属性值一个语言的单词符号分为几类，如何分类、怎样编码, 是一个技术性问题，主要取决于处理上的方便。如：标识符分为一类常数且按类型（整数、实数）分类保留字可分为一类，也可一字一类界限符可分为一类，也可一符一类
对于采用一字一类、一符一类，不需再给出单词的值。但若一个类别中含多个单词符号，还需给出相应的值（按某种编码）如：对于标识符，常把存放它的有关信息的符号表项的指针作为属性值。对于常数，常把存放它的常数表项的指针作为属性值。
{不等于}
>
S 20
4.2.3 读无符号数
文法规则如下： <无符号数> → <无符号实数>|<无符号整数> <无符号实数> → <无符号整数>.<数字串> [E<比例因子>] |<无符号整数>E<比例因子> <比例因子> → <有符号整数> <有符号整数> → [+|-]<无符号整数> <无符号整数> → <数字串> <数字串> →<数字>{<数字>} <数字> → 0|1|2…|9
设无符号数为： t= d md m1 d1 d0 .d1 d 2…d j E b1 b2 … bk … (整数部分) (小数部分)(指数部分) 令 W= d m d m1… d1 d0 d1 d 2…d 1 j P= b1 b2… bk e= 10ep j 则 t=W -1 读无符号数的程序流程图见图4.7
《编译原理简明教程》
普通高等教育“十二五”规划计算机教材
---太原理工大学 ---计算机科学与技术学院 ---冯秀芳、崔冬华、段富等
目录
•第一章引言 •第二章形式语言理论基础 •第三章自动机理论基础 •第四章词法分析 •第五章语法分析—自顶向下分析方法 •第六章语法分析—自底向上分析方法 •第七章语义分析及中间代码的生成 •第八章代码优化 •第九章目标代码的生成 •第十章符号表 •第十一章目标程序运行时的存储组织与分配 •第十二章出错处理 •第十三章编译程序自动生成工具简介 •第十四章面向对象语言的编译 •第十五章并行编译技术
3. 用户子程序（辅助函数部分）
用户编写的函数代码（可被识别规则调用）
4.3.3 LEX编译程序工作过程
Ⅰ 根据每条 Pi ，构造相应NFA Ⅱ Ⅲ Ⅳ Ⅴ 将各NFA连成一个完整的NFA 由NFA构造状态转换矩阵 NFA→DFA 根据DFA及识别规则构造词法分析程序
4.3.4 LEX的实现
经LEX编译后得到词法分析程序由两部分组成：一张状态转换矩阵表(DFA)和一个控制程序可看作是如下形式的有限自动机 P1 | P2|…| Pn 当输入的单词与 Pi 匹配时，就进行相应的动作 Ai (返回 Pi 所定义的单词属性) 例 P66
其他
S2
S4
数字
{标识符或保留字}
数字
S3
•
其他
数字
{整数}
其他
S5
E
S6
S8
S7
数字
{实数（无指数部分）}
+
-
S9
数字
S10
其他
S11
{带指数的实数}
数字
+
S12
S13
S14 S15
{加号} {减号} {乘号} {除号} {等于}
其他
*
/
=
S16
<
• • •
S17
S18 S19
{小于}
=
{小于等于}
词法分析的两种处理结构
字符
单词
词法分析是主程序: 源程序词法分析中间程序
(中间程序:由属性字组成的与源程序等价的程序) 语法分析是主程序,词法分析是子程序:
字符单词
源程序
语法分析
回送
词法分析
4.1.3 单词符号的种类
1.保留字(关键字) 程序语言定义的具有固定意义的标识符如:Pascal 中的begin、end、if、while…。 2.标识符用来表示各种名字.如:变量名、数组名、过程名等。 3.常数如:128、0.123、3.14E-2…。 4.界限符(特殊符号) 如:+、-、*、/、>=、<=、》=、《=等。
读单词
单词的文法规则: <标识符>→<字母>|<标识符><字母>|<标识符><数字> <无符号整数>→<数字>|<无符号整数><数字> <特殊符号>→+|-|*|<=|… 读单词的程序流程图 (图4.5) 单词的状态转换图 (图4.6) 读单词子程序（p56-59）
空白
字母字母
S0
S1
数字数字
4.3.5 LEX的使用方式
单独使用：开发编辑器、模式识别等与YACC等结合使用：生成扫描器和语法分析器
4.2.4 读标识符
<标识符>→<字母>{<字母>|<数字>} <字母>→A|B|C|…|Z|a|b|…|z
<数字>→0|1|2|…|9
<字母>
S0
<字母>
S1
<其他>
S2
<数字> 保留字是特殊的标识符特殊处理事先构造保留字表事先构造保留字树 (见图4.10) 规定保留字在源程序中用分界符括起来读标识符的流程图见图4.9
LEX编译系统
词法分析程序
4.3.2 LEX源程序结构
辅助定义 %% 转换规则（识别规则） %% 用户子程序（代码）
1、辅助定义
在使用LEX语言时，先将高级语言的词法写成辅助定义式（类似宏定义）。 Di Di 语法成分的名(小写字母) Ri
Ri
正则表达式( VT 或已定义过的D)
例： ⑴ 标识符 letter→A|B …|a|b …|z digit→0|1| … |9 ident→letter (letter | digit)* ⑵ 整常数 integer→digit (digit)* ⑶ 一般实常数 sign→+|-|ε signinteger→sign integer decimal→signinteger.integer|sign.integer
}是语义动作（一个可执行的程序段）例：整常数：digit (digit)* { val=int(id); 求整型值 return(16); return(val)} return()子程序; 16:单词的类别编码
标识符: letter (letter | digit)* { if(keyword(id)!=0) return(keyword(id)); else { return(15); return(id)}} keyword()查保留字表，=0未查到
2. 自动生成
只要给出某语言各类单词词法结构的文法描述（如正则式），以及各类单词在词法分析时应采取的语义动作，自动生成系统。对上述信息进行加工，即可得到所需的词法分析程序，例：RWORD 、 LEX LEX是美国Bell实验室1975年用C语言研制的一个词法分析程序的自动生成工具。
LEX源程序
第四章词法分析
学习目标
词法分析是编译过程的第一步，其主要任务是对源程序进行扫描，从中识别出单词，是编译过程中不可缺少的部分。着重需要掌握以下内容单词的形式词法分析程序的设计方法
目ห้องสมุดไป่ตู้录
4.1 4.2 4.3 词法分析概述词法分析程序的设计与实现词法分析程序的自动生成
4.1 词法分析概述
⑷含指数部分的实数 exprel→(decimal|signinteger)E signinteger ⑸实常数 real→decimal|exprel
2. 识别规则（规定了相应词法分析程序的功能）
Pi { Ai
{
}
Pi 是定义在 VTυ{ D1, D2,…, D}上的正则表达式—词型 Ai n
4.3 词法分析程序的自动生成
4.3.1 基本思想通常可通过两种途径来构造词法分析程序 1、手工方式根据对语言中各类单词的描述或定义，手工构造词法分析程序。如：可根据文法或状态转换图构造相应的状态矩阵，读状态矩阵同控制程序一起组成了编译程序的词法分析程序。也可根据文法或状态转换图利用某种语言（汇编或高级语言）直接编写词法分析程序。
4.2 词法分析程序的设计与实现
4.2.1 词法分析的流程图
初始化读字符 N N N 特殊符号? Y 查特殊符号表生成属性字数字? Y 是字母? Y
读标识符取数字
N 查常量表
查保留字表
查到? Y 生成属性字生成属性字
出错
查名字表
生成属性字
写到输出流 N 是否分析结束 Y 结束
4.2.2