第4章词法分析

合集下载

第4章词法分析

CLASS VAL 标识符： 1 常整数： 2 实常数： 3
特殊符： n 0
NAMEL CONSL
单词的识别
词法分析的关键之一是如何识别单词的问题，其中最重要的是标识符的识别问题。
4.2 单词的描述工具
定义2.1 正则表达式设Σ为给定字母表,RE表示Σ上正则
表达式之集,则定义： 1.Λ,ε∈RE 2.若a∈Σ,则a∈RE 3.若e1,e2∈RE,则
转换矩阵
a
b
+s0
s1
s2
s1
s3
s2
s2
s1
s3
-s3
s3
s3
状态转换图：
S1
a
a
+ S0
b
a
b
b
S2
可以识别=aa，abaaa等。
a|b S3 -
4.3.2 非确定自动机
定义2.5 NDA 一个非确定自动机(NDA)A是一个五元组
A=(S, ∑,δ,S0,F) S 是状态集{s0,s1,…,sn}(n≥1)。 ∑是字母表{a1,a2,…,an}(n≥1)。 δ是映射:S×∑→S,不要求是单值的 S0 是初始状态集(非空) F 是终止状态集，FS。
等价的DFA
a
a
A
a
C
b
E
S
ba
a
ab b
b
B
b
D
b
aF
总结：
① 对于简单的ε自动机，利用构造算法消除ε边，然后进行确定化。
② 对于复杂的ε自动机，利用ε 闭包的算法进行处理。
4.3.4 确定自动机的化简
确定自动机的化简的步骤： εDA →NDA →DA →最小化DA

清华大学编译原理第二版课后习答案

Lw.《编译原理》课后习题答案第一章第1章引论第1题解释下列术语：（1）编译程序（2）源程序（3）目标程序（4）编译程序的前端（5）后端（6）遍答案：（1）编译程序：如果源语言为高级语言，目标语言为某台计算机上的汇编语言或机器语言，则此翻译程序称为编译程序。

（2）源程序：源语言编写的程序称为源程序。

（3）目标程序：目标语言书写的程序称为目标程序。

（4）编译程序的前端：它由这样一些阶段组成：这些阶段的工作主要依赖于源语言而与目标机无关。

通常前端包括词法分析、语法分析、语义分析和中间代码生成这些阶段，某些优化工作也可在前端做，也包括与前端每个阶段相关的出错处理工作和符号表管理等工作。

（5）后端：指那些依赖于目标机而一般不依赖源语言，只与中间代码有关的那些阶段，即目标代码生成，以及相关出错处理和符号表操作。

（6）遍：是对源程序或其等价的中间语言程序从头到尾扫视并完成规定任务的过程。

第2题一个典型的编译程序通常由哪些部分组成？各部分的主要功能是什么？并画出编译程序的总体结构图。

答案：一个典型的编译程序通常包含8个组成部分，它们是词法分析程序、语法分析程序、语义分析程序、中间代码生成程序、中间代码优化程序、目标代码生成程序、表格管理程序和错误处理程序。

其各部分的主要功能简述如下。

词法分析程序：输人源程序，拼单词、检查单词和分析单词，输出单词的机内表达形式。

语法分析程序：检查源程序中存在的形式语法错误，输出错误处理信息。

语义分析程序：进行语义检查和分析语义信息，并把分析的结果保存到各类语义信息表中。

中间代码生成程序：按照语义规则，将语法分析程序分析出的语法单位转换成一定形式的中间语言代码，如三元式或四元式。

中间代码优化程序：为了产生高质量的目标代码，对中间代码进行等价变换处理。

盛威网（）专业的计算机学习网站1《编译原理》课后习题答案第一章目标代码生成程序：将优化后的中间代码程序转换成目标代码程序。

表格管理程序：负责建立、填写和查找等一系列表格工作。

第4章自顶向下的语法分析

6
分析中出现的问题2：回溯问题
从各种可能的选择中随机挑选一种，并希望它是正确的。如果以后发现它是错误的，必须退回去，再试另外的选择这种方式称为回溯。回溯代价极高，效率很低。
7
在自上而下的分析方法中如何选择使用哪个产生式进行推导？假定要被替换的最左非终结符号是B，且有n条规则：B→A1|A2|…|An，那么如何确定用哪个右部去替代B？从文法的开始符号出发，如何根据当前的输入符号（单词符号）唯一地确定选用哪个产生式替换相应非终结符往下推导，或构造一棵相应的语法树。
8
§4.2 FIRST和FOLLOW集合的构造
9
例1:输入串w=pccadd是否是合法的句子？
G：S→pA|qB A→cAd|a B→dB|b
S=>pA=>pcAd=>pccAdd=>pccadd 总结：本题中对于一个非终结符，存在若干个候选式，即产生式形如：P→α1|α2|……|αn 每个候选式的第一个字符都是终结符，且都不相同。这时可直接选用与当前输入符号相同的那个候选式来替换P。
42
3. 若X为一非终结符，则查分析表M。若M[X，a]中为A—产生式，将A自栈顶弹出，将产生式右部符号串按逆序逐一推入栈中；当产生式为A时，则只将 A→ε弹出即可。若M[X，a]中为空,则调用出错处理程序。
43
算法实现
当前字符匹配成功。要对栈顶的非终结符进行替换。
44
初始化
注意一定要逆序入栈。
48
49
通过表4-9可以看到，每个非终结符对应产生式的各个候选式的交集如下：
可以验证，此文法是LL(1)文法。
50
递归下降语法分析程序如下：

编译原理龙书第四章答案

编译原理龙书第四章答案编译原理是计算机科学中的一门基础课程，是用于教授计算机程序的设计、构建和优化的学科，常常被用于编写编译器和解释器。

在编译原理课程中，龙书（Compilers: Principles, Techniques, and Tools）是一本经典的教材，其中第四章主要讲述了词法分析器的设计和实现。

以下是第四章的答案，按照列表划分：1. 什么是词法分析器？词法分析器（Lexical Analyzer）是编译器的组成部分之一，它用于将程序中的字符序列转换为一系列单词或词法单元（Lexeme），以便后续的语法分析和语义分析使用。

2. 词法分析器的工作流程是什么？词法分析器的工作流程如下：（1）读入字符序列。

（2）将字符序列划分为一个个词法单元，或者检查字符序列是否合法。

（3）生成一个词法单元序列，并将其传递给语法分析器。

3. 词法单元的定义是什么？词法单元是编程语言中的一个基本单元，它是对代码中的一个单一概念进行编码的基本方式。

例如，在C语言中，词法单元包括关键字（如int，if，while等）、标识符（Identifier，即自定义变量名）、运算符和特殊符号等。

4. 有哪些方法可以实现词法分析器？可以使用正则表达式、自动机等方法实现词法分析器。

其中，正则表达式可以表示字符串的集合，因此可以将其用于识别单词类别；自动机是根据输入字符序列转换状态的一种计算模型，因此可以用于实现有限自动机（Deterministic Finite Automaton）和非确定有限自动机（Nondeterministic Finite Automaton）等。

5. DFA和NFA分别是什么？DFA和NFA都是有限自动机的一种，但在转换动作上有所不同。

DFA 是确定的有限自动机，即在状态转换时只有唯一的一个选择；而NFA 是非确定的有限自动机，即在状态转换时可以有多个选择。

6. DFA和NFA之间有什么关系？DFA和NFA虽然在转换动作上不同，但它们可以互相转化。

第4章英汉翻译中的增词法和减词法

2.4 因语序变化而加词
由于英语国家惯用被动结构的语序,而我们中国人惯用主动句,因而,在翻译中经常要增加主语,使之变为主动语态,以适应我们的语言习惯。例如： Cement is known to be a very useful building material. 大家都知道水泥是很有用的建筑材料。

增加背景知识文化而增词

Le Monde, the B.B.C., the New York Times, the entire Arab press, all quote Heikal at length. 法国的《世界报》、英国广播公司、美国《纽约时报》以及整个阿拉伯报界，都经常大量引用海卡尔的话。 This great scientist was born in New England. 这位伟大的科学家出生在美国东北部的新英格兰。
就是在这样的一次场合，我遇到了卡特赖特一家。当时我住在警察局长盖兹家里。那天我在台球室里坐着，盖兹进来问我想不想达桥牌，他们三缺一。
On the wings of hope, ( ) of love, ( ) of joy, Miss Meadows sped back to the music hall, up the aisle, up the steps, over to the piano. 美多斯小姐仿佛插上了希望的翅膀，爱情的翅膀，欢乐的翅膀，一路飞奔回到音乐厅，她穿过通道，跑上台阶，三步并作两步走到钢琴前。
EX. 增加语法中附加含义的词
The old man said, “They say his father was a fisherman. Maybe he was as poor as we are.”

编译原理第4章答案

第四章词法分析1．构造下列正规式相应的DFA ：(1) 1(0|1)*101(2) 1(1010*| 1(010)*1)*0 (3) a((a|b)*|ab *a)*b (4) b((ab)*| bb)*ab 解：(1)1(0|1)*101对应的NFA 为下表由子集法将NFA 转换为DFA ：(2)1(1010*| 1(010)*1)*0对应的NFA 为 10,1下表由子集法将NFA转换为DFA：(3)a((a|b)*|ab *a)*b (略) (4)b((ab)*| bb)*ab (略)2．已知NFA=（{x,y,z},{0,1},M,{x},{z}）其中：M(x,0)={z},M(y,0)={x,y},M(z,0)={x,z},M(x,1)={x}, M(y,1)=φ,M(z,1)={y},构造相应的DFA 。

解：根据题意有NFA 图如下下表由子集法将NFA 转换为DFA ：0，1下面将该DFA最小化：(1)首先将它的状态集分成两个子集：P1={A,D,E},P2={B,C,F}(2)区分P2:由于F(F,1)=F(C,1)=E,F(F,0)=F并且F(C,0)=C,所以F，C等价。

由于F(B,0)=F(C,0)=C,F(B,1)=D,F(C,1)=E,而D，E不等价（见下步），从而B与C，F可以区分。

有P21={C,F},P22={B}。

(3)区分P1:由于A，E输入0到终态，而D输入0不到终态，所以D与A，E可以区分，有P11={A,E},P12={D}。

(4)由于F(A,0)=B,F(E,0)=F,而B，F不等价，所以A，E可以区分。

(5)综上所述，DFA可以区分为P={{A}，{B}，{D}，{E}，{C，F}}。

所以最小化的DFA如下：3.将图确定化：1101111解：下表由子集法将NFA 转换为DFA ：4.把图的(a)和(b)分别确定化和最小化：(a) (b)解： (a):下表由子集法将NFA 转换为DFA ：0，1a可得图（a1），由于F(A,b)=F(B,b)=C,并且F(A,a)=F(B,a)=B,所以A,B 等价，可将DFA 最小化，即：删除B ，将原来引向B 的引线引向与其等价的状态A ，有图(a2)。

第四章词法分析器与单词符号

出错处理
对定义外的（对定义外的（如，对首字符不是字母的，不是数字的，对首字符不是字母的，不是数字的，不是运算符和分界符的）单词进行出错处理。不是运算符和分界符的）单词进行出错处理。
2、状态转换图
利用状态转换图可以设计词法分析器。利用状态转换图可以设计词法分析器。状态转换图是一个有向图，仅包含有限个结点，一个有向图，仅包含有限个结点，每个结点表示一个状态，其中有一个初态结点，至少有一个终态结个状态，其中有一个初态结点，点，结点间弧的标记可以是输入字符或字符类。结点间弧的标记可以是输入字符或字符类。
字母|数字 0 字母数字 + * / < 1 数字 3 5 6 7 8 = 9 > 11 : 13 ; 其它 16 17 = 13 10 其它其它 4 2
举例
开始滤掉空格是字母? 是字母? Y 读标识符查关键字表查到否? 查到否? Y 保留字类码⇒ 保留字类码⇒sy N 是数字? 是数字? Y 取数 N
属性字序列源程序词法分析程序语法分析程序 ….
单词符号
单词符号是程序语言的基本语法单位，单词符号是程序语言的基本语法单位，一般分为下面 5 种：关键字（基本字）：（个数确定，可全体编为一类，）：（个数确定关键字（基本字）：（个数确定，可全体编为一类，也可一字一类) 也可一字一类) 标识符：个数不确定，作为一类）标识符：（个数不确定，作为一类）常数：个数不确定，常数：各种类型的常数。(个数不确定，按类型分类) 运算符：个数确定，运算符：如+、-、*、/、<等。(个数确定，一符一类) 界符：，、；、（、）、: 个数确定, 界符：如，、；、（、）、: 等。(个数确定,一符一类) 一类) 注意：一种语言的单词如何分类、怎样编码，主要取注意：一种语言的单词如何分类、怎样编码，主要取决于技术上的方便。决于技术上的方便。

wsx(编译原理第04章)词法分析

VT={a,d} VN={S,A,B}
第19页，共152页
• 2. 将正规文法转换成正规式文法产生式正规式（1）AxB, By A=xy
（2）AxAy （3）AxБайду номын сангаасy
G[s]:SaA AaA AdA Sa Aa Ad
A=xy A=xy
S=aAa A =aAdA a d =(ad)A(ad) =(ad)(ad) S=a(ad)(ad)a =a((ad)(ad)) =a(ad) R=a(ad)
第24页，共152页
• 标识符和保留字的转换图
id letter (letter | digit )* letter或digit 开始
9
letter
10
other
*
11
return(install_id( ))
第25页，共152页
• 无符号数的转换图
num digit+ (.digit+) (E (+ | ) digit+)
•本章目的：讨论词法分析程序的设计原则，单词的描述技术，识别机制及词法分析程序的自动构造原理。
第2页，共152页
本章重点 • 单词的描述工具
• 单词的识别系统
• 设计和实现词法分析程序 – 首先需要描述和刻画程序设计语言中的原子单位——单词，其次需要识别单词和执行某些相关的动作。 – 描述程序设计语言的词法的机制是正则表达式，识别机制是有穷状态自动机。
E digit 开始 digit 12 13 .
14
digit digit
15
digit E +/ digit
digit
18
16

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1。rs=sr ―或”服从交换律 2。r(st)=(rs)t ―或”的可结合律 3。(rs)t=r(st) ―连接”的可结合律 4。r(st)=rsrt (st)r=srtr 分配律 – 5。 r=r, r=r 是“连接”的恒等元素 – 6。 rr=r r=rrr… “或”的抽取律 – – – –
编译原理
• 无符号整数：〈无符号整数〉→d | d〈无符号整数〉 • 运算符：
〈运算符〉→ + | - | * | / | = | <〈等号〉| >〈等号〉……
〈等号〉→ = • 界符：〈界符〉→ , | ; | ( | ) |……
编译原理
• 无符号实数：
〈无符号实数〉→ d 〈余留无符号数〉| . 〈十进小数〉| e〈指数部分〉〈余留无符号数〉→ d 〈余留无符号数〉| . 〈十进小数〉| e〈指数部分〉|ε 〈十进小数〉 → d 〈余留十进小数〉〈余留十进小数〉 → e〈指数部分〉| d 〈余留十进小数〉| ε 〈指数部分〉 → d 〈余留整指数〉| s〈整指数〉〈整指数〉 → d 〈余留整指数〉〈余留整指数〉 → d 〈余留整指数〉 |ε 其中s表示正或负号。
编译原理
两个正规式等价 • 若两个正规式e1和e2所表示的正规集相同,则说e1和e2等价,写作e1=e2。
–例如： e1= (ab)， e2 = ba
–又如： b(ab) = (ba)b (ab) = (ab)
编译原理
正规式的运算律 • 设r,s,t为正规式，正规式服从的代数规律有：
编译原理
词法分析程序
Token
源程序
词法分析程序
get token
语法分析程序 ….
• 主要任务：过注释、换行符。 – 追踪换行标志，复制出错源程序。 – 宏展开，……
编译原理
单词符号
• 单词符号一般可分为下列五种： – 基本字（关键字）：begin, end, if, while, var等。 – 标识符：各种名称，如常量名、变量名、过程名等。 – 常数（量）：25, 3.1415, TRUE, ―ABC‖等 – 运算符：如 + - * / < <=等。 – 界符：逗号，分号，括号等。
编译原理
第4 章
词法分析
词法分析程序的设计单词的描述工具有限自动机正规式和有穷自动机的等价性正规文法和有穷自动机间的转换词法分析程序的自动构造工具
返回目录
编译原理
4.1 词法分析程序的设计
• 词法分析（lexical analysis）
– 逐个读入源程序字符并按照构词规则切分成一系列单词。 • 单词是语言中具有独立意义的最小单位，包括保留字、标识符、运算符、标点符号和常量等。词法分析是编译过程中的一个阶段，在语法分析前进行。也可以和语法分析结合在一起作为一遍，由语法分析程序调用词法分析程序来获得当前单词供语法分析使用。
编译原理
• 输出表示（单词种别，单词自身的值）。单词的种别可以用整数编码表示，假如标识符编码为1，常数为2，保留字为3，运算符为4，界符为 5。
如：程序段 if i=5 then x∶=y；在经词法分析器扫描后输出的单词符号和它们的表示如下：
编译原理
• 程序段 if i=5 then x∶=y - 保留字if(3，'if') - 标识符i(1，指向i的符号表入口) - 等号=(4，'=') - 常数5(2，'5') - 保留字then(3，'then') - 标识符x(1，指向x的符号表入口) - 赋值号∶=(4，'∶=') - 标识符 y(1，指向y的符号表入口) - 分号；(5，'；')
编译原理
4。仅由有限次使用上述三步骤而定义的表达式才是上的正规式，仅由这些正规式所表示的字集才是上的正规集。说明：其中的“”读为“或”（也有使用“+”代替 “” 的）；“ ”读为“连接”；“”读为“闭包” （即，任意有限次的自重复连接）。在不致混淆时，括号可省去，但规定算符的优先顺序为“”、 “ ”、“” 。连接符“ ”一般可省略不写。 “”、“ ”和“” 都是左结合的。
编译原理
• 例 ={l，d}，r=l(l d) 定义的正规集: {l,ll,ld,ldd,……}，其中l代表字母，d代表数字，正规式，即是字母(字母|数字)*，它表示的正规集中的每个元素的模式是“字母打头的字母数字串”，就是Pascal和多数程序设计语言允许的的标识符的词法规则。 • 例4.3 ={d，.，e，+，-},则上的正规式 d(.dd )(e(+- )dd )表示的是无符号数的集合，其中d为0~9的数字。
编译原理
• 例4.2 令={a，b}，上的正规式和相应的正规集的例子有：
正规式 a ab ab 正规集 {a} {a,b} {ab}
(ab)(ab)
{aa,ab,ba,bb}
{ ,a,a, ……任意个a的串}
a
(ab)
(ab)(aabb)(ab)
{ ,a,b,aa,ab ……所有由a和b组成的串} {上所有含有两个相继的a或两个相继的b组成的串}
如 25.55e+5 和 2.1
编译原理
正规式(regular expression)
正规式和它所表示的正规集设字母标为，辅助字母表'={，，，，，，}。 1。和都是上的正规式，它们所表示的正规集分别为{}和； 2。任何a ，a是上的一个正规式，它所表示的正规集为{a}； 3。假定e1和e2都是上的正规式，它们所表示的正规集分别为L(e1)和L(e2)，那么，(e1), e1e2, e1e2, e1也都是正规式,它们所表示的正规集分别为L(e1), L(e1)∪L(e2), L(e1)L(e2)和(L(e1))。
编译原理
•词法分析工作独立的原因：
简化设计
改进编译效率
增加编译系统的可移植性
编译原理
4.2 正则表达式和正规集单词的描述工具
正规文法文法G=（VN，VT，P，S），P中每一产生式的形式都为：A→aB或A→a，其中A∈VN ，B∈VN ，a∈VT。几类单词的描述
•标识符：〈标识符〉→l | l〈字母数字〉〈字母数字〉→l | d | l〈字母数字〉| d 〈字母数字〉

第4章词法分析