编译原理词法分析与语法分析

合集下载

北航编译原理课件 03.词法分析

3. 词法分析程序算法
北京航空航天大学计算机学院
17
1.单词及内部表示单词及内部表示: 单词及内部表示
单词名称
BEGIN END FOR DO IF THEN ELSE 标识符常数(整常数整) : + * , ( ) :=
保留字和分界符采用一符一类
记忆符
BEGINSY ENDSY FORSY DOSY IFSY THENSY ELSESY IDSY INTSY COLONSY PLUSSY STARSY COMSY LPARSY RPARSY ASSIGNSY
字母、数字
标识符无符号整数
单字符分界符
S S S
字母
标数字
非字母数字
出口
数字
数
非数字
出口
+ * ，单界（）：
其他字符非=
出口
双字符分界符
北京航空航天大学计算机学院
S
冒号
=
双界
其他字符
出口 15
查保留字表读字符
字母、数字
S
字母
标数字
非字母数字
标识符
非数字
数字
数
无符号整数单字符分界符
如：b{ab} = {ba}b {a|b} = {{a} {b}} = (a*b*)*
北京航空航天大学计算机学院 23
例：设 ∑ = { a,b },下面是定义在∑上的正则表达式和正则集合正则表达式 ba* a(a|b)* (a|b)*(aa|bb)(a|b)* 正则集合
北京航空航天大学计算机学院
北京航空航天大学计算机学院 20
‘*’ : ‘,’ : ‘(’ : ‘)’ : ‘:’ :

编译原理词法分析

❖ 数字：继续读，直到非数字字符出现或文件尾。输出无符号整数的单词记号及数字串；
❖ =、＜、＞、！：读下一个字符，判断是否为双字符分界符，若是，组成双字符分界符，输出类码；若不是，输出单分界符记号；
编译原理
❖ 非=、＜、＞、/等与双分界符首字符不同的单分界字符：输出相应单词记号及单分界符。
1.S是一个有穷集，它的每个元素称为一个状态；
2.Σ是一个有穷字母表，它的每个元素称为一个输入符号，所以也称Σ为输入符号表；
3.δ是在S×Σ→S上的单值映射，即，如δ (s，a)=s’， (s∈S，s’∈S)就意味着，当前状态为s，输入符为 a时，将转换为下一个状态s’，我们把s’称作s的一个后继状态；
编译原理在入准初带备整•••始的读输读有个时开入始入头穷模，始，状带：控型读位状态：可制由头置态存以器如状的所三处，处放在：果态符识部于表于输输控读正号别分输示初入入制头好组组符带状移是成成号上态动终的：向发到结字后生最状能移变后态被头每有动化一，该转向读穷个则有移后入控符输限到移一制号入自下动个器后带动一一符控面上机个个号制，状位，状态置读态，
编译原理
词法分析读字符
结束 Y
结束
N Y 空字
N 字母 N 数字
Y 组合标识符 Y 组合整数
查保留字Βιβλιοθήκη N 纯单分符Y 输出单分符
N
>,<,!,= Y 读字符
=
N
N
/ Y 读字符
*
N
Y
错误处理
输出保留字
Y 保留字
N 输出标识符
组合整数
读字符
Y 输出双分符
输出单分符 N 输出单分符/
注释处理
读字符

《编译原理》教学课件第5章-语义分析

类型分析
作用：把类型表示转换成类型的内部表示
分析过程：读Token序列，识别出各种类型，返回类型内部表示的地址
array [ 1 .. 10 ] of integer
arrKind … low=1 tp1=intPtr … up=10 tp2=intPtr IndexPtr= (1,subTy, intPtr , 1 ,10) … … ElemPtr=intPtr size=(up-low+1) * sizeof (int)
VariBody:
Next
CaseUni VariUnits t
id CaseTyp Off e
FixBody VariBody Next
set: Size
Kind
BaseType
file: Size
pointer:
Size
Kind CompType Kind TypeName
例有如下的类型定义： at = ARRAY [1..10] OF ARRAY[1..100] OF integer; rt = RECORD x : real ; a : at; CASE u: boolean OF false:(k : integer); true:(y: real; b: boolean) END 构造类型的内部表示。
例有声明如下： CONST pai= 3.14 ;
TYPE vector=ARRAY[1..10] OF integer;
VAR x, y : real ;
r, s : vector ;
设当前层数和可用offset值分别为L和0，构造标识符 pai, vector, x, y, r 和s 的属性表示,假设整数类型占1个单元，实数类型占2个单元。

编译原理语法分析(2)_ LL(1)分析法1

自底向上分析法
LR分析法的概念 LR分析法的概念 LR(0)项目族的构造 LR(0)项目族的构造 SLR分析法 SLR分析法 LALR分析法 LALR分析法
概述
功能：根据文法规则文法规则，源程序单词符号串单词符号串中功能：根据文法规则，从源程序单词符号串中
识别出语法成分，并进行语法检查。识别出语法成分，并进行语法检查。
9
【例】文法G[E] 文法G[E] E→ E +T | T 消除左递归 T→ T * F | F F→(E)|i 请用自顶向下的方法分析是否字分析表符串i+i*i∈L(G[E])。符串i+i*i∈L(G[E])。
E→TE’ E’→+TE’|ε T →FT’ T’→*FT’|ε F→(E)|i
编译程序组织结构
表处理
前
端中
源程序
词法分析
语法分析
语义分析
间代码生成
中后目端间标代代码码优生化成
目标程序
错误处理
第4章语法分析
自顶向下分析法
递归子程序法（递归下降分析法）递归子程序法（递归下降分析法） LL(1)分析法 LL(1)分析法
通常把按LL(1)方法完成语法分析任务的程序叫LL(1)分析程序或者LL(1)分析器。通常把按LL(1)方法完成语法分析任务的程序叫LL(1)分析程序或者LL(1)分析器。 LL(1)方法完成语法分析任务的程序叫LL(1)分析程序或者LL(1)分析器
输入串
一、分析过程
#
此过程有三部分组成: 此过程有三部分组成: 分析表总控程序）执行程序 (总控程序）分析栈）符号栈（分析栈）

第3章词法分析 (编译原理陈火旺)

标识符的符号表入口地址作为其单词符号的属性值,常
每个基本字占一个单词种别，单词符号的属性值缺省。
对于界符，运算符通常一个符号一个种别，单词符号的
属性值缺省
例: 参见P42.表3.1 单词符号及种别编码
10
3.1.3 词法分析器作为独立子程序

词法分析可采用如下两种处理结构：
把词法分析程序作为主程序。将词法分析作为
19
3.2.1 正规文法、正规式与正规集

正规集：由正规文法产生的语言所构成的集合。
注：正规集是集合，可有穷也可无穷。可通过正规式来形式化表示。

对于一个正规文法的语言提炼出一个简洁的公式，用这个
式子来对它进行形式化的表示，这个式子叫正规式。

正规式：也称正则表达式,是说明单词的模式的一种重要的表示法（记号）；是定义正规集的数学工具；用来描述单词符号。
在设计一个编译程序时，通常是把对源程序的结构分析分为词法分析和语法分析两个相对独立的阶段来完成。
第一，描述单词的结构比描述源程序的其它语法结构要简单

得多，仅使用3型文法也就基本够用了。
第二，由于把词法分析和语法分析分开，可使编译程序各部

分的功能更为单一，整个编译程序的结构也更加清晰，从而有利于编译程序的编写和调整。上述词法分析和语法分析两个阶段的划分，仅仅是对整个编译程序的逻辑功能而言，而不一定指的是编译程序的执行流程。
25
例3.2 判断下述正规式之间是否等价： (1)b(ab)*与(ba)*b (2)(ab)*与a*b* 解: (1) b(ab)*对应的正规集是b后面出现任意多个ab对
L(b(ab)*)={b,bab,babab, ……}

《编译原理》课件

代码生成
编译器可以将高级语言编写的源代码转换成机器语言或低级语言，以便在特定的硬件平台上运行。编译器还可以生成可执行文件或动态链接库等二进制文件。
编译器在人工智能领域的应用
机器学习编译器
机器学习编译器可以将机器学习模型转换成可执行代码，以便在嵌入式设备或边缘计算设备上运行。这种编译器可以优化模型的计算性能和内存占用，提高模型的运行效率。
3
缺点
对于某些复杂文法，可能导致大量的无用推导和状态爆炸。
自底向上的语法分析
分析步骤
从输入符号序列的最后一个符号开始，逐步向上构建语法树，直到找到与文法中的某个产生式右部匹配的符号串。
优点
可以充分利用已知信息，避免不必要的推导和状态爆炸。
缺点
对于某些复杂文法，可能导致大量的无用归约和状态爆炸。
04
中间代码生成
中间代码生成的定义和任务
定义
中间代码生成是编译器的一个阶段，将源代码转换成中间代码的过程。
任务
将源代码转换成一种中间表示形式，以便进行后续的优化和目标代码生成。
三地址代码的生成
01
三地址代码是一种中间代码形式，由一系列的三元式组成。
02
三元式的形式为(op, arg1, arg2)，表示执行一个操作(op) 并产生一个结果，操作数arg1 和arg2来自寄存器、常数或之前的计算结果。
语义分析
检查AST是否有语义错误，如类型错误、未定义的变量等。
中间代码生成
将AST转换为中间代码，通常是三地址代码。
代码优化
对中间代码进行优化，提高执行效率。
代码生成
将中间代码转换为机器语言代码，能够在特定硬件上执行。
编译器的分类

第2章词法分析

2012-5-9 第2章词法分析 2/95
第2章词法分析
2.1 词法记号及属性 2.2 词法记号的描述与识别 2.3 有限自动机 2.4 从正规式到有限自动机 2.5 词法分析器的生成器
2012-5-9
第2章词法分析
3/95
记号源程序词法分析器取下一个记号符号表语法分析器
本章内容
2012-5-9 第2章词词法分析器对源程序采取非常局部的观词法分析器对源程序采取非常局部的观局部点
C语言词法分析器不能发现下面的错误：语言词法分析器不能发现下面的错误：
fi (a == f (x) ) …
Pascal语言词法分析器在实数是a.b格式下，语言词法分析器在实数是格式下语言词法分析器在实数是格式下，可以发现下面的错误：可以发现下面的错误： 123.
词法单元与记号的关系
匹配方法
模式规则n
源程序字符流输入
词法单元n 模式匹配
实体对象
词法记号n
匹配结果
2012-5-9
第2章词法分析
6/95
例：记号的例子
抽象化(形式化抽象化形式化) 形式化
词法记号 var for relation id num literal
词法单元例举 var for <,<=,=,… sum, count, D5 3.1, 10, 2.8 E12 “seg. error”
模式的非形式描述(说明模式的非形式描述说明) 说明 var for <或<=或=或… 由字母开头的字母数字串任何数值常数引号本身除外的任意字符串
具体化
2012-5-9 第2章词法分析 7/95
关键字、保留字和标准标识符的区别关键字、保留字和标准标识符的区别字和

《哈工大编译原理》课件

词法分析过程
输入
源程序的字符流。
01
输出
源程序的标记流。
02
1. 初始化
设置初始状态和缓冲区。
03
2. 循环
04 从缓冲区中取出一个字符，根
据当前状态和该字符确定下一个状态和标记。
3. 输出
05 输出当前标记，并更新状态和
缓冲区。
4. 结束条件
06 当缓冲区为空且所有字符都被
处理时，结束词法分析。
三地址代码的生成
三地址代码定义
三地址代码是一种中间代码形式，由一系列的三元式组成，每个三元式包含三个操作数和两个操作符。
三地址代码的特点
三地址代码具有简单、直观和易于优化的特点，能够清晰地表示程序中的控制流程和数据流。
三地址代码的生成算法
常见的三地址代码生成算法包括递归下降分析法和语法制导翻译法。
示中间代码，以便进行有效的优化和转换。
代码生成器的构造
代码生成器通常由指令选择、控制流优化、循环优化等模块组成。
控制流优化模块负责对控制流进行分析和优化，如消除冗余计算、消除无用代码等。
指令选择模块负责从中间代码中选择合适的机器指令，并进行指令调度和并行化。
循环优化模块负责对循环结构进行优化，如循环展开、循环合并等。
编译原理的应用非常广泛，如编译器设计、程序分析、软件工程等。
编译过程的基本概念
源程序
用高级语言编写的程序，也称为源代码。
目标程序
编译后的程序，也称为目标代码或机器代码。
编译程序
将源程序翻译成目标程序的软件。
编译过程
将源程序通过词法分析、语法分析、语义分析、中间代码生成、优化、目标代码生成等阶段，最终生成目标程序的过程。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

编译原理词法分析与语法分析在计算机科学领域，编译器是一个非常重要的工具，它将高级程序
语言转换为能够被计算机处理的低级机器语言。

编译器的设计与开发
离不开以下两个主要部分：词法分析和语法分析。

本文将着重介绍编
译原理中的词法分析和语法分析的定义、原理、方法以及它们之间的
关系。

一、词法分析
词法分析是编译器的第一个阶段，负责将源代码转化为一个个“词
法单元”，也称为“记号”。

词法单元是计算机程序中的最小语义单位，
例如变量名、关键字、操作符等。

词法分析器会从源代码中连续读取
字符，并将其组成具有独立意义的词法单元。

词法分析的主要任务是识别代码中的词法单元，并将其分类。

它采
用正则表达式来定义词法单元的模式，并通过有限状态自动机（FSM）进行匹配。

以下是词法分析的一般步骤：
1. 输入源代码，逐字符读取。

2. 将字符组合成词法单元。

3. 跳过空格、换行符等不相关的字符。

4. 使用正则表达式判断词法单元的类型。

5. 将识别出的词法单元传递给语法分析阶段。

二、语法分析
语法分析是编译器的第二个阶段，它将从词法分析器获得的词法单
元串转换为语法树。

语法树是一种树状结构，用于表示程序的语法结构。

它通过分析词法单元之间的关系来检查程序是否符合语法规则。

在语法分析过程中，会根据源代码中的语法规则使用上下文无关文
法（Context-Free Grammar）进行分析。

常用的语法分析算法有自顶向
下分析（Top-Down Parsing）和自底向上分析（Bottom-Up Parsing）。

自顶向下分析是从语法的起始符号开始，逐步展开已识别的符号，
直到生成源代码。

这种分析方法常用的算法有LL(k)和递归下降（Recursive Descent）。

自顶向下分析器按照语法规则从上到下预测并
展开符号。

自底向上分析是从词法单元串的底部开始，逐步归约已识别的符号，直到生成源代码。

这种分析方法常用的算法有LR(k)和LALR(k)。

自底
向上分析器按照语法规则从下往上扫描，并进行归约操作。

三、词法分析与语法分析的关系
词法分析和语法分析是编译器设计中两个紧密相关的步骤。

词法分
析器将源代码分解为词法单元，为语法分析器提供输入。

而语法分析
器将词法单元串作为输入，构建语法树，进一步检查程序的语法结构。

在编译原理中，词法分析和语法分析通常是独立的阶段，各自有自
己的任务和算法。

然而，它们之间的关系也非常密切。

词法分析器为
语法分析器提供了必要的输入，确保了语法分析的准确性和高效性。

词法分析和语法分析的输出也相互依赖：语法分析器需要通过词法
分析器获得的词法单元来构建语法树，而词法分析器则需要语法分析
器的语法规则来决定如何识别和分类词法单元。

总结：
编译原理中的词法分析和语法分析是编译器设计的两个关键步骤。

词法分析器负责将源代码转换为词法单元，而语法分析器则将词法单
元串转换为语法树。

词法分析和语法分析紧密合作，相互依赖，为编
译器的正确性和高效性提供保障。

这两个阶段的算法和方法有很多种，可以根据实际需求进行选择和优化，以提高编译器的性能和运行效果。

这就是编译原理中词法分析与语法分析的基本内容，希望对读者理
解编译器的工作原理有所帮助。

编译原理是计算机科学中的重要基础
课程，通过学习和理解编译器的原理和实现，可以帮助我们更好地理
解和应用计算机科学的相关知识。