第3章词法分析 (编译原理陈火旺)

合集下载

编译原理陈火旺版PPT课件

Action/Goto
Goto
a
b
,
#
L
E
S0
S/3
S/4
1
2
S1
acc
S2
S/5
r2
S3
r3
r3
S4
r4
r4
S5
S/3
S/4
6
2
S6
r1
4
(1)在总控程序的控制下，从左到右扫描输入串根据分析栈和输入符号的情况，查分析表确定分析动作； (2) 分析表是LR分析器的核心，根据文法构造，它包括动作表(Action)和状态转换表(Goto)两部分，总控程序根据分析表确定分析动作；
输入符号
状态
X1 X2 … Xp
S0
S3
S1
S2
:
:
S5
Sm
8
二、LR分析过程：
1. 将初始状态S0和输入串的左边界(#) 分别进栈； 2. 根据栈顶状态Si和当前输入符号a查动作表进行如下工作：
•移进：若Action[Si, a]为“移进”，则a进符号栈；并查Goto[Si, a]得到新的状态Sj进状态栈; 继续扫描，即下一个输入符号变成当前输入符号；
(3) 分析栈包括文法符号栈X[i]和相应的状态栈S[i] 两部分，LR分析器通过判断栈顶元素和当前输入符号查分析表确定下步分析动作。
5
规范归约的关键是寻找句柄，LR法是根据已“移进” 、“归约”的符号串及即将读入的符号串进行分析，以确定是否有句柄可归约。
状态：是对迄今为止的整个分析过程的记录以及对
r式1数~(1r字)4~表表(示a4示)文,新即法b状应Ac的t态采ion产的,用生编号# ， L Goto E

编译课后答案-陈火旺等编著第三版ppt课件

正规式 (0|1)*010(0|1)*
DFA:
4
1
0
01
00 11 20 3
01 1
1
05
最小化DFA:
1
0
0 011
20
3
2021/8/9
1
最新课件
0,1
11 11
CH.3.练习题10(P64.)
10. 用FA写出渡河的方法。
设：人---R；狼---L；羊---Y；菜---C；
左岸---Z；右岸---U;
依照字典序排列; 正规式 (a|A)*(b|B)*(c|C)*(d|D)*…(z|Z)*
2021/8/9
最新课件
99
CH.3.练习题9(P64.)
9.问题：没构造出DFA；没过程；方法没掌握。
(1) {0,1}上的含有子串010的所有串; 至少含一个。正规式 (0|1)*010(0|1)* 或 (0*1*)*010(0*1*)*
问题：没写全；表达不准确
解：< int,->,
< CInt, “CInt”> ,
< ::,-> ,
< nMulDiv, “nMulDiv”> ,
<(,->,
< int,-> ,
< n1, “n1”> , < ， , -> ,
< int,-> ,
< n2, “n2”> ,
< ),-> ,
< {, -> ,
最小化DFA:
a
0b
a
a
2 b3
b
初始: {0,1}, {2,3,4,5}

编译原理课件-词法分析

號等記號的文法
—— 正規文法
語法：借助於記號來描述語言的結構的文法
—— 上下文無關文法
21/76
二、記號的文法
識別字常數
–整數 –無符號數
運算符分界符關鍵字
22/76
Wensheng Li BUPT @ 2008
識別字
識別字定義為“由字母打頭的、由字母或數字組成
的符號串”
正規運算式？
描述識別字集合的正規運算式：
9/76
Wensheng Li BUPT @ 2008
3.2 詞法分析程式的輸入與輸出
一、詞法分析程序的實現方法二、設置緩衝區的必要性三、配對緩衝區四、詞法分析程序的輸出
10/76
Wensheng Li BUPT @ 2008
一、詞法分析程式的實現方法
利用詞法分析程序自動生成器
–從基於正規運算式的規範說明自動生成詞法分析程序。 –生成器提供用於根源程式字元流讀入和緩沖的若干副程
記號的屬性
詞法分析程式在識別出一個記號後，要把與之有關的資訊作為它的屬性保留下來。記號影響語法分析的決策，屬性影響記號的翻譯。在詞法分析階段，對記號只能確定一種屬性
–識別字：單詞在符號表中入口的指針 –常數：它所表示的值 –關鍵字：（一符一種、或一類一種） –運算符：（一符一種、或一類一種） –分界符：（一符一種、或一類一種）
4/76
Wensheng Li BUPT @ 2008
3.1 詞法分析程式與語法分析程式的關係
詞法分析程式與語法分析程式之間的三種關係
–詞法分析程式作為獨立的一遍 –詞法分析程序作為語法分析程序的副程式 –詞法分析程序與語法分析程序作為協同程式
分離詞法分析程序的好處

编译原理作业集-第三章-修订版

第三章词法分析本章要点1•词法分析器设计，2.正规表达式与有限自动机，3•词法分析器自动生成。

本章目标：1•理解对词法分析器的任务，掌握词法分析器的设计；2.掌握正规表达式与有限自动机；3•掌握词法分析器的自动产生。

本章重点：1. 词法分析器的作用和接口，用高级语言编写词法分析器等内容，它们与词法分析器的实现有关。

应重点掌握词法分析器的任务与设计，状态转换图等内容。

2 •掌握下面涉及的一些概念，它们之间转换的技巧、方法或算法。

（1）非形式描述的语言正规式（2）正规式NFA （非确定的有限自动机）（3）NFADFA （确定的有限自动机）（4）DFA最简DFA本章难点（1）非形式描述的语言正规式（2）正规式NFA （非确定的有限自动机）（3）NFADFA （确定的有限自动机）（4）DFA最简DFA作业题、单项选择题(按照组卷方案，至少15道) 1•程序语言下面的单词符号中，一般不需要超前搜索a.关键字b.标识符c.常数d.算符和界符2. 在状态转换图的实现中，一般对应一个循环语句a.不含回路的分叉结点b.含回路的状态结点c.终态结点d.都不是3. 用了表示字母，d表示数字，={1，d}，则定义标识符的正则表达式可以是：。

(a)ld* (b)ll* (c)l(l | d) * (d)ll* | d*4. 正规表达式(e |ajb表示的集合是(a){ , ab, ba, aa, bb} (b){ab , ba, aa, bb}(c){a , b, ab, aa, ba, bb} (d){,込b, aa, bb, ab, ba}5. 有限状态自动机可用五元组( V T , Q , & q o , Q f)来描述，设有一有限状态自动机M的定义如下：V T={0 , 1}, Q={q 0 , q1 , q2}, Q f={q 2}, 3 的定义为:氷 q o , 0) =q1 3 (q1, 0) =q23(q2 , 1) =q2 3 (q2 , 0) =q2M所对应的状态转换图为。

编译原理词法分析

编译原理词法分析编译原理是计算机科学中的一个重要领域，它研究的是如何将高级语言编写的程序转换成目标机器能够执行的指令序列。

而词法分析则是编译原理中的一个重要环节，它负责将源程序中的字符流转换成有意义的词素序列，也就是词法单元。

在这篇文档中，我们将重点讨论编译原理中的词法分析，包括其基本概念、主要任务和实现方法。

词法分析的基本概念是将源程序中的字符流转换成有意义的词素序列，也就是词法单元。

词法单元是编程语言中的基本构造块，它可以是关键字、标识符、常量、运算符等。

词法分析器的主要任务就是识别源程序中的词法单元，并将其转换成相应的记号，以便后续的语法分析和语义分析。

词法分析的实现方法主要有两种，手工编写词法分析器和使用词法分析器生成器。

手工编写词法分析器需要程序员自己定义词法单元的模式，并编写相应的识别程序。

而使用词法分析器生成器则是通过定义词法单元的模式和对应的动作，然后由生成器自动生成词法分析器的识别程序。

两种方法各有优缺点，选择哪种方法取决于具体的需求和实际情况。

在词法分析中，最常用的方法是有限自动机。

有限自动机是一种抽象的数学模型，它可以用来描述词法单元的识别过程。

有限自动机可以分为确定性有限自动机（DFA）和非确定性有限自动机（NFA），它们分别对应着不同的识别算法。

在实际应用中，通常会先构造NFA，然后将其转换成DFA，以便更高效地进行词法分析。

除了有限自动机，正则表达式也是词法分析中的重要工具。

正则表达式是一种描述字符串模式的形式语言，它可以用来描述词法单元的模式。

在词法分析中，通常会使用正则表达式来定义词法单元的模式，然后通过正则表达式引擎来进行匹配和识别。

总的来说，词法分析是编译原理中的一个重要环节，它负责将源程序中的字符流转换成有意义的词素序列。

词法分析的实现方法有手工编写词法分析器和使用词法分析器生成器两种，而在实际应用中，有限自动机和正则表达式是词法分析中的重要工具。

通过本文的介绍，相信读者对编译原理中的词法分析有了更深入的了解。

编译原理第三章词法分析

5、界符：如逗号、分号、括号、/*，*/ 等。它是确定的。
单词符号的表示形式：词法分析器所输出的单词符号常常表示成
二元式（单词种别，单词自身的值）。单词种别可以用以下形式表示： 1、一类单词统一用一个整数值代表其属性。例如：1代表关键字， 2代表标识符等。 2、每一个单词一个类别。例如：1代表BEGIN，2代表END等。单词自身的值可以表示成：常量的二进制表示；常量、变量等在符号表种的地址码，等等。
例3-3：简单的状态转换图示例：
1
X
2
初态
终态
Y
(a)转换图示例数字
3
从0状态到1状态可能出现字母
字母或数字字母其他
0
1
2
*
0
数字
1
其他
2 *
（b）识别标识符的转换图
（c）识别整数的转换图
例3-4：识别FORTRAN实型常数的转换图：
例如下列实型常数可以被以下转换图识别： 1.23E+4
•scanner当作一遍。 •把scanner当作子程序。
scanner
源程序
scanner作为一遍
设计前提：
输入
列表把scanner作为一个独立的子程序；输入缓冲区预处理 • 词法分析器的任务为输出单词符号。子程序
•
扫描缓冲区
预处理部分
•必要性：编辑性字符如空白符、回车符等，除了出现在文字和扫描器常数中以外，在别处出现都没有意义。扫单词符号描 •功能：剔除无用字符。器语法分析器 •实现：预处理子程序。图2.1 词法分析器
例3-2 ：下述C++代码段：while ( i >= j ) i - -；经词法分析器处理以后，它将被转换为如下的单词符号串

编译原理第三版第三章词法分析

超前搜索
例：FORTRAN语言中关键字的识别: DO99K=1,10 识别DO为关键字要搜 DO99K=1.10 索到“，” FORTRAN语言中常数的识别：
5.EQ.M, 5.E08
识别5为常数要搜索到Q
2、状态转换图
大多数程序设计语言中单词符号的词法规则可以用正规文法描述。如： <标识符>→ 字母|<标识符>字母|<标识符>数字 <整数>→数字|<整数>数字 <运算符>→+|－|×|÷„ <界符>→; |, |( | )|„
#
3.3 正规表达式与有限自动机

目的：形式化地描述词法规则和词法分析程序词法分析程序的自动生成主要内容正规式与正规集确定有限自动机 (DFA) 非确定有限自动机(NFA) 正规式与有限自动机的等价性确定有限自动机的化简
正规文法

多数程序设计语言单词的语法都能用正规文法 (3型文法)描述正规文法回顾文法的任一产生式α→β的形式都为
单词符号的种类
(3) 常数常数的类型一般有整型、实型、布尔型、字符型等。
(4) 运算符如 +，-，*，/等，对具体语言个数是确定的。 (5) 界符如 , ；（）等，对具体语言个数是确定的。
单词符号的表示形式
词法分析器所输出的单词符号常常表示成如下的二元式：<单词种别，单词符号的属性值> 单词种别:由语法分析阶段使用的抽象符号。如：用整数编码。最简单的编码方案为一类一码，种别编码可设为： 1,2,3,4,5。另一种编码方案（如本教材中）：标识符:列为一种，用一个整数编码表示；常数:按类型分种编码；关键字、运算符、界符:采用一字一种编码。

编译原理_-_陈火旺版_-_第三章new

预处理子程序
输入列表输入缓冲区
扫描器扫描缓冲区
单词符号
词法分析器的结构
编译原理
一、输入、预处理
输入串放在输入缓冲区中。
预处理子程序：剔除无用的空白、跳格、回车和换行等编辑性字符;区分标号区、捻接续行和给出句末符等
扫描缓冲区
↑
↑
起点搜索
指示器指示器
编译原理
二、单词符号的识别:超前搜索
2)对含回路的状态结，可对应一段由WHILE结构和IF语句构成的程序.
字母或数字
i 其它 j
GetChar( ); while (IsLetter( ) or IsDigit( ))
GetChar( ); …状态j的对应程序段…
输入字符串x=aababb, 是否是该文法的句子？ aa babb
SABABA Z
或写为：
(S)a→(A)a→(B)b→(A)a→(B)b→(A)b→Z Z是终止状态，所以，
输入字符串aababb是上述文法的句子。
为什么
可以通过运行状态转换图来识别正则文法的句子？
步骤当前状态输入的其余部分
Z
1
如果基本字、标识符和常数(或标号)之间没有确定的运算符或界符作间隔，则必须使用一个空白符作间隔。 DO99K=1，10 要写成 DO 99 K=1，10
编译原理
3 状态转换图的实现
思想：每个状态结对应一小段程序。
做法:
1)对不含回路的分叉结，可用一个CASE语句或一组IF-THEN-ELSE语句实现
基本字：如 begin，repeat，标识符——表示各种名字：如变量名、数组
名和过程名常数：各种类型的常数运算符：+，-，*，/，界符：逗号、分号、括号和空白

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

标识符的符号表入口地址作为其单词符号的属性值,常
每个基本字占一个单词种别，单词符号的属性值缺省。
对于界符，运算符通常一个符号一个种别，单词符号的
属性值缺省
例: 参见P42.表3.1 单词符号及种别编码
10
3.1.3 词法分析器作为独立子程序

词法分析可采用如下两种处理结构：
把词法分析程序作为主程序。将词法分析作为
19
3.2.1 正规文法、正规式与正规集

正规集：由正规文法产生的语言所构成的集合。
注：正规集是集合，可有穷也可无穷。可通过正规式来形式化表示。

对于一个正规文法的语言提炼出一个简洁的公式，用这个
式子来对它进行形式化的表示，这个式子叫正规式。

正规式：也称正则表达式,是说明单词的模式的一种重要的表示法（记号）；是定义正规集的数学工具；用来描述单词符号。
在设计一个编译程序时，通常是把对源程序的结构分析分为词法分析和语法分析两个相对独立的阶段来完成。
第一，描述单词的结构比描述源程序的其它语法结构要简单

得多，仅使用3型文法也就基本够用了。
第二，由于把词法分析和语法分析分开，可使编译程序各部

分的功能更为单一，整个编译程序的结构也更加清晰，从而有利于编译程序的编写和调整。上述词法分析和语法分析两个阶段的划分，仅仅是对整个编译程序的逻辑功能而言，而不一定指的是编译程序的执行流程。
25
例3.2 判断下述正规式之间是否等价： (1)b(ab)*与(ba)*b (2)(ab)*与a*b* 解: (1) b(ab)*对应的正规集是b后面出现任意多个ab对
L(b(ab)*)={b,bab,babab, ……}
(ba)*b对应的正规集是b前面可出现任意个ba对 L((ba)*b)={b,bab,babab, ……}, 因此两者等价。
例如：FORTRAN语言：
1.DO10K=1，50 2.DO10K=1.50

扫描缓冲区的结构 (自学)
14
词法分析程序设计

设计方法：
⑴写出该语言的词法规则； ⑵把词法规则转换为相应的状态转换图； ⑶把各转换图的初态连在一起，构成识别该语言的自动机； (4)设计扫描器
17
3.2 正规文法和有限自动机
标识符：统归为一种；常数：统归为一种,或按整、实、布尔等再分；运算符和界符：一符一种，或统归为一种。
8
3.1.2 词法分析器的输出形式

单词符号的属性值
单词符号的属性是指单词符号的特征值。
如果一个种别只含有一个单词符号，那么对于这
个单词符号，种别编码就完全代表它自身了，因而不需要属性值。
独立的一遍来完成。
把词法分析程序作为语法分析程序调用的子程
序。
每当语法分析器需要一个单词符号时就调用这个子程
序。
每一次调用，词法分析器从源程序字符串中识别出一
个单词符号，并把它的内部表示二元组交给语法分析器处理。
11
3.1.4 源程序的输入、预处理及超前搜索
词法分析器工作的第一步是输入源程序文本。输入串一般放在一个输入缓冲区中。词法分析器的工作可以直接在输入缓冲区中进行。但在许多情况下，可以先预处理输入串，识别工作将更方便。（参见P40 图3.1）
21
3.2.1 正规文法、正规式与正规集

下面是正规式和它所定义的正规集的递归定义。
1) ε ,φ 是 ∑ 上的正规式, 所表示的正规集为 {ε},{ }; 2) 若 a∈∑,则 a 为正规式, 所表示的正规集为 {a}; 3) 设U,V 为 ∑ 上的正规式, 所表示的正规集为 L(U),L(V); 则 U|V为 ∑ 上的正规式, 所表示的正规集为 L(U) ∪ L(V);
正规式b(ab)*及(ba)*b都描述以b开头且其后跟以零个或任意多个ab所组成的字符串等。故我们说两个正规式等价，
(2)(ab)*对应的正规集以任意个ab对出现，即 ababab…, 而a*b*对应的正规集则是任意个a后接任意个b, 即 a…ab…b, 因此两者不等价。 26
例3.3: 设 =a,b, 则正规式和正规集: a,b ① ab ②(ab)(ab) aa,ab,ba,bb * ,a,aa,aaa,aaaa,…= {an|n≥0} ③ a {,a,b,aa,ab,ba,bb,aaa,aab,abb, ④(ab)* bab,bba,bbb ... = {a, b}* {a,ab,abb,abbb,abbbb,... ⑤aab* = { abn |n≥0}

理解:
正规文法与有穷自动机间的转换词法分析器的自动产生工具LEX
教学要求
2
本章在编译程序中的地位
源程序
词法分析器
单词符号表格管理优化器中间代码目标代码生成器目标代码
3
语法分析器语法单位语义分析与中间代码产生中间代码
出错处理
3.1 设计词法分析器时应考虑的几个问题

④输出源程序清单以便复核。

预处理子程序任务
①从输入缓冲区中读取源程序，预处理后送入扫描缓冲区。此时，扫描缓冲区的字符都是有效字符。 13 ②词法分析程序这时可以再对扫描缓冲区进行扫描。
3.1.4 源程序的输入、预处理及超前搜索

超前搜索
对于有些语言，关键字不保护，关键字与用户自定义标
识符间没有界符，要在上下文环境中识别单词，这时需要超前搜索方法来识别关键字。
若一个种别含有多个单词符号，那么，对于它的
每个单词符号，除了给出种别编码之外，还应给出有关单词符号的属性值。
9
3.1.2 词法分析器的输出形式

单词符号的属性值
标识符和常数
标识符的内部码
(如ASCII码等等)和常数本身的值 (二进制，逻辑值等)来表示。量在其常量表中的入口地址作为其单词符号的属性值。
20
3.2.1 正规文法、正规式与正规集
下面以标识符为例说明正规式与正规集:
标识符是以字母开头的字母数字串。
若用L表示字母, 用D表示数字,
则标识符可表示为: L(L|D)* 其中并臵表示两者的连接, |表示两者选一, *表示零次或多次引用。 L(L|D)* 为标识符的正规式，该正规式表示的集合为标识符的正规集。

或运算
U·V为 ∑ 上的正规式, 所表示的正规集为 L(U) L(V);
V* 为 ∑ 上的正规式, 所表示的正规集为 (L(V))* ;
连接积
4) 仅当有限次使用上述三步骤而定义的表达式,才是∑ 上的正
22
规式 ,而这些正规式所表示的字集才是∑上的正规集。
3.2.1 正规文法、正规式与正规集
说明： 1>Σ上的一个字指的是由Σ中字符构成的一个有穷序列; 不包含任何字符的序列称为空字（ε）。 Σ*表示Σ上所有字的全体, 包括空字（ε）。例如, 若Σ={a, b} 则Σ*={ε, a, b, aa, ab, ba, bb, aaa, …} 2> Ф表示不含任何元素的空集{ }。注意ε、{ }和{ε}的区别： ε表示不包含任何字符的序列,它是正规集中的一个元素； { }表示不含任何字的集合, 它是一个空的正规集； {ε}表示由空字组成的集合。
执行词法分析的程序称为又称为词法分析器或扫描器. 词法分析的任务：从左至右逐个地扫描源程序的字符串, 按照词法规则识别出一个个正确的单词，并转换为相应的二元式形式，交给语法分析使用。

把作为字符串的源程序改造成单词符号串的词法分析是编译的基础。
4
3.1.1 词法分析阶段的必要性

词法分析的工作纳入整个语法分析中一揽子地进行，原则上是可行的。
28
例3.5: 令Σ={A,B,0,1} , 则：正规式正规集 Σ上的“标识符”的全体 1. (A|B)(A|B|0|1)*
={A,B}.{A,B,0,1}*
2.
(0|1)(0|1)*
Σ上“数”的全体 ={0,1}.{0,1}*
3.
问: 正规式 ε, φ, 0 , 110 , 0|1 , 1* 表示的正规集是?
关键字(保留字或基本字)：如
if,then,else,while,do等
标识符：用来表示各种名字，如 x1 常量：如 256，3.14，true, ’abc’
运算符：如＋、－、*、/ 等等
分界符：如逗号，分号，冒号等
7
3.1.2 词法分析器的输出形式

单词种别: 一个语言的单词符号如何分类、分为几类、如何编码主要取决于处理上的方便。通常，每种单词对应一个整数码。注意：保留字、运算符和界符的个数确定，标识符和常数的个数不确定。保留字：可全体视为一种，也可一字一种；
12
3.1.4 源程序的输入、预处理及超前搜索

预处理的原因
①源程序中包含回车,换行,多余空白符,注释行等编辑字符, 它们对程序逻辑功能无任何影响，在词法分析之前,首先要剔除掉这些符号,使得词法分析更为简单。 ②一行语句结束应配上一个特殊字符说明。
③有些语言要识别标号区，区分标号语句，找出续行符连接成完整语句等。
5
3.1.2 词法分析器的输出形式

词法分析器输出的单词常常表示为二元式形式
(单词种别,单词符号的属性值)
单词种别提供给语法分析程序使用；
单词符号的属性值提供给语义分析程序使用。
具体的分类设计方法以方便语法分析程序使用为
原则。
6
3.1.2 词法分析器的输出形式

程序语言的单词符号一般分为五种：
解: L(R)=L(a(a|b)*)=L(a)L((a|b)*) =L(a)(L(a|b))*=L(a)(L(a)∪L(b))*