编译原理-第3章-词法分析

合集下载

编译原理词法分析与语法分析的核心算法

编译原理词法分析与语法分析的核心算法编译原理是计算机科学与技术领域中的一门重要课程。

在编程中，我们常常需要将高级语言编写的程序翻译成机器语言，使计算机能够理解并执行我们编写的程序。

而编译原理中的词法分析和语法分析是编译器的两个核心算法。

一、词法分析词法分析是编译器的第一个阶段，它负责将输入的字符序列（源代码）划分为一个个的有意义的词素（Token），并生成相应的词法单元（Lexeme）。

词法分析的核心算法主要包括以下两个步骤：1. 正则表达式到有限自动机的转换：正则表达式是一种描述字符串匹配模式的表达式，它可以用来描述词法分析中各种词素的规则。

而有限自动机则是一种用来识别或匹配正则表达式所描述的模式的计算模型。

将正则表达式转换为有限自动机是词法分析的关键步骤之一。

2. 词法分析器的生成：在将正则表达式转换为有限自动机后，我们可以使用生成器工具（如Lex、Flex等）来生成词法分析器。

词法分析器可以按照预定的规则扫描源代码，并将识别出的词素转换成相应的词法单元，供后续的语法分析使用。

二、语法分析语法分析是编译器的第二个阶段，它负责分析和处理词法分析阶段生成的词法单元序列，并根据预定的语法规则确定语法正确的序列。

语法分析的核心算法主要包括以下两个步骤：1. 上下文无关文法的定义：上下文无关文法（Context-Free Grammar，简称CFG）是一种用于描述形式语言的文法。

它由一组产生式和终结符号组成，可以用于描述语法分析中的语法规则。

在语法分析中，我们需要根据具体编程语言的语法规则，编写相应的上下文无关文法。

2. 语法分析器的生成：通过使用生成器工具（如Yacc、Bison等），我们可以根据上下文无关文法生成语法分析器。

语法分析器可以根据预先定义的文法规则，对词法单元序列进行分析，并构建出语法树（Parse Tree）供后续的语义分析和代码生成使用。

综上所述，词法分析与语法分析是编译原理中的两个重要阶段，也是实现编译器的核心算法。

北航编译原理课件 03.词法分析

3. 词法分析程序算法
北京航空航天大学计算机学院
17
1.单词及内部表示单词及内部表示: 单词及内部表示
单词名称
BEGIN END FOR DO IF THEN ELSE 标识符常数(整常数整) : + * , ( ) :=
保留字和分界符采用一符一类
记忆符
BEGINSY ENDSY FORSY DOSY IFSY THENSY ELSESY IDSY INTSY COLONSY PLUSSY STARSY COMSY LPARSY RPARSY ASSIGNSY
字母、数字
标识符无符号整数
单字符分界符
S S S
字母
标数字
非字母数字
出口
数字
数
非数字
出口
+ * ，单界（）：
其他字符非=
出口
双字符分界符
北京航空航天大学计算机学院
S
冒号
=
双界
其他字符
出口 15
查保留字表读字符
字母、数字
S
字母
标数字
非字母数字
标识符
非数字
数字
数
无符号整数单字符分界符
如：b{ab} = {ba}b {a|b} = {{a} {b}} = (a*b*)*
北京航空航天大学计算机学院 23
例：设 ∑ = { a,b },下面是定义在∑上的正则表达式和正则集合正则表达式 ba* a(a|b)* (a|b)*(aa|bb)(a|b)* 正则集合
北京航空航天大学计算机学院
北京航空航天大学计算机学院 20
‘*’ : ‘,’ : ‘(’ : ‘)’ : ‘:’ :

编译原理词法分析及词法分析程序

∴M能识别出L(G)中的全部句子。
状态图=>右线性文法
文法G[0] 0->a1
d 0
S->aA A->dA A->b
a c
1 2
b
d
3
1->d1 1->b
0->c
0->c2 2->d
S->c
S->cB，2有出弧 B->d
左线性文法=>状态转换图
设G=(VN,VT,P,S)是一左线性文法,令|VN|=K， 1) 则所要构造的状态转换图共有K+1个状态. 2) VN中的每个符号分别表示K个状态 2.1) G的开始符S为终止状态 3) 起始状态,用R(VN)标记
识别符号串与归约
S

从初态R到下一状态A对应Ba，即终结符a归约成非终结符B; U 从状态B转换到状态A对应ABa,即将 Ba归约为A; 状态A转换到状态S(终态)对应S Aa,即 U 将Aa归约为开始符S. 归约成功,恰好进入终态,即状态转换图识 U 别了(或接受)该符号串. 识别00011的例子的归约过程
f是转换函数，是在K×Σ →K上的映像，即：如果f（ki，a）=kj，（ki，kj∈K）意味着，当前状态为ki，输入字符为a时，将转换为下一个状态kj，我们把kj称作ki的一个后继状态；
1.确定的有限自动机
通常把这五要素组成的五元式M=(K,∑,f, S0,Z)称为确定的有限自动机(DFA)，它是相应的状态转化图的一种形式描述，或者说，是状态转换矩阵的另一种表示。在状态转换的每一步，据DFA当前所处状态及扫视的输入字符，能唯一确定下一状态。

例：文法G=({S,U},{0,1},{SS1 |U1,

编译原理词法分析

❖ 数字：继续读，直到非数字字符出现或文件尾。输出无符号整数的单词记号及数字串；
❖ =、＜、＞、！：读下一个字符，判断是否为双字符分界符，若是，组成双字符分界符，输出类码；若不是，输出单分界符记号；
编译原理
❖ 非=、＜、＞、/等与双分界符首字符不同的单分界字符：输出相应单词记号及单分界符。
1.S是一个有穷集，它的每个元素称为一个状态；
2.Σ是一个有穷字母表，它的每个元素称为一个输入符号，所以也称Σ为输入符号表；
3.δ是在S×Σ→S上的单值映射，即，如δ (s，a)=s’， (s∈S，s’∈S)就意味着，当前状态为s，输入符为 a时，将转换为下一个状态s’，我们把s’称作s的一个后继状态；
编译原理在入准初带备整•••始的读输读有个时开入始入头穷模，始，状带：控型读位状态：可制由头置态存以器如状的所三处，处放在：果态符识部于表于输输控读正号别分输示初入入制头好组组符带状移是成成号上态动终的：向发到结字后生最状能移变后态被头每有动化一，该转向读穷个则有移后入控符输限到移一制号入自下动个器后带动一一符控面上机个个号制，状位，状态置读态，
编译原理
词法分析读字符
结束 Y
结束
N Y 空字
N 字母 N 数字
Y 组合标识符 Y 组合整数
查保留字Βιβλιοθήκη N 纯单分符Y 输出单分符
N
>,<,!,= Y 读字符
=
N
N
/ Y 读字符
*
N
Y
错误处理
输出保留字
Y 保留字
N 输出标识符
组合整数
读字符
Y 输出双分符
输出单分符 N 输出单分符/
注释处理
读字符

03-第3章-语法分析-编译原理-中国科技大学(共13讲)

VT : VN : S: P : 终结符集合非终结符集合开始符号，非终结符中的一个产生式集合，产生式形式 : A expr (expr) expr id op
• 例 ( {id, +, , , (, )}, {expr, op}, expr, P )
expr expr op expr expr expr op +
3.2 语言和文法
• 无二义的文法 stmt matched _stmt | unmatched_stmt matched_stmt if expr then matched_stmt else matched_stmt | other unmatched_stmt if expr then stmt | if expr then matched_stmt else unmatched_stmt
3.2 语言和文法
expr expr + term | term term term factor | factor factor id | (expr)
expr term
term expr factor id term factor id expr + term * factor id id + id id 分析树
3.2 语言和文法
3.2.3 验证文法产生的语言 G : S (S) S | L(G) = 配对的括号串的集合 • 按串长进行归纳：配对括号串可由S推出
–归纳基础： S – 归纳假设：长度小于2n的都可以从S推导出来 – 归纳步骤：考虑长度为2n(n 1)的w = (x) y S (S)S * (x) S * (x) y
编译原理和技术
中国科学技术大学计算机科学与技术学院陈意云

词法分析-编译原理-03-(二)

5. 5.1 5.2 5.3 5.4 5.5 5.6 5.7 6 6.1 6.2
isalpha(ch) : ch→buf; 下一字符→ch WHILE isalpha(ch) OR isdigit(ch) DO ch→buf; 下一字符→ch 回送 ch; key = isKeyword(buf) IF key >= 0 THEN 返回 key Lookup( buf ) → attr 返回 IDN ':' : 下一字符→ch; IF ch等于'=' THEN 返回 ASG 出错处理
第三章词法分析 3.1 词法分析的任务
输入源程序，输出单词符号
把构成源程序的字符串转换成语义
上关联的单词符号的序列
单词符号
token
按照最小的语义单位设计，通常表示为二元组
（单词种别，属性值）
1) 单词符号的表示
单词种别
通常按照语法分析的需要设置．常用：各关键字，标识符，常数，各
例3-3 状态图的实现算法
1. 2. 3.1 3. 4. 4.1 4.2 4.3 4.4 4.5 读入当前字符 ch //跳过空格 WHILE ch 是空格 DO 下一字符 → ch CASE ch OF isdigit(ch) : ch→buf; 下一字符→ch WHILE isdigit(ch) DO ch→buf; 下一字符→ch 回送 ch 将缓冲区的数字字符串变成数字→attr 返回 NUM
7 8 9 10 11 12 13 14 15 16 17 18
'+' : 返回 ADD '-' : 返回 SUB '*' : 返回 MUL '/' : 返回 DIV '=' : 返回 EQ '>' : 返回 GT '<' : 返回 LT '(' : 返回 LP ')' : 返回 RP ';' : 返回 SEMI 其它 : 出错处理 END OF CASE

编译原理中的词法分析与语法分析原理解析

编译原理中的词法分析与语法分析原理解析编译原理是计算机科学中的重要课程，它研究的是如何将源程序翻译成目标程序的过程。

而词法分析和语法分析则是编译过程中的两个重要阶段，它们负责将源程序转换成抽象语法树，为接下来的语义分析和代码生成阶段做准备。

本文将从词法分析和语法分析的原理、方法和实现技术角度进行详细解析，以期对读者有所帮助。

一、词法分析的原理1.词法分析的定义词法分析（Lexical Analysis）是编译过程中的第一个阶段，它负责将源程序中的字符流转换成标记流的过程。

源程序中的字符流是没有结构的，而编程语言是有一定结构的，因此需要通过词法分析将源程序中的字符流转换成有意义的标记流，以便之后的语法分析和语义分析的进行。

在词法分析的过程中，会将源程序中的字符划分成一系列的标记（Token），每个标记都包含了一定的语义信息，比如关键字、标识符、常量等等。

2.词法分析的原理词法分析的原理主要是通过有限状态自动机（Finite State Automaton，FSA）来实现的。

有限状态自动机是一个数学模型，它描述了一个自动机可以处于的所有可能的状态以及状态之间的转移关系。

在词法分析过程中，会将源程序中的字符逐个读取，并根据当前的状态和字符的输入来确定下一个状态。

最终，当字符读取完毕时，自动机会处于某一状态，这个状态就代表了当前的标记。

3.词法分析的实现技术词法分析的实现技术主要有两种，一种是手工实现，另一种是使用词法分析器生成工具。

手工实现词法分析器的过程通常需要编写一系列的正则表达式来描述不同类型的标记，并通过有限状态自动机来实现这些正则表达式的匹配过程。

这个过程需要大量的人力和时间，而且容易出错。

而使用词法分析器生成工具则可以自动生成词法分析器的代码，开发者只需要定义好源程序中的各种标记，然后通过这些工具自动生成对应的词法分析器。

常见的词法分析器生成工具有Lex和Flex等。

二、语法分析的原理1.语法分析的定义语法分析（Syntax Analysis）是编译过程中的第二个阶段，它负责将词法分析得到的标记流转换成抽象语法树的过程。

编译原理词法分析和语法分析

if(ch=='=')
{ syn=21;
token[m++]=ch;
}
else
{ syn=31;
p--;
}
break;
case '=':token[m++]=ch;
ch=prog[p++];
if(ch=='=')
{ syn=25;
token[m++]=ch;
}
else
{ syn=18;
p--;
}
break;
break;
case -1:printf("you have input a wrong string\n");
getch();
exit(0);
default: printf("( %-10s%5d )\n",token,syn);
break;
}
}while(syn!=0);
getch();
}
scaner()
printf("success!\n");
}
else { if(kk!=1) printf("the string haven't got a 'end'!\n");
kk=1;
}
}
else { printf("haven't got a 'begin'!\n");
kk=1;
}
return;
}
yucu()
if(syn==18)
{ scaner();/*读下一个单词符号*/

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

9
2014-7-6
3.1.3 源程序的输入缓冲与预处理(续)

输入缓冲区
正拼单词
单词开始指针
扫描指针
工作区 (token)
2014-7-6
10
3.1.3 源程序的输入缓冲与预处理(续)

双缓冲区问题__超前扫描导致的效率问题
: : :E: :=: :M: * C : * : * : 2 : eof : : : :
15
2014-7-6
3.2.2 正则表达式(续)—RE
定义3.1 设∑是一个字母表，则∑上的正则表达式及其所表示的正则语言可递归地定义如下： ⑴ 是∑上的一个正则表达式，它表示空集； ⑵ ε是∑上的一个正则表达式，它表示语言{ε}； ⑶ 对于a(a∈∑)，a是∑上的一个正则表达式，它表示的正则语言是{a}； ⑷ 假设r和s都是∑上的正则表达式，它们表示的语言分别为 L(r)和L(s)，则： ① (r)也是∑上的正则表达式，它表示的语言为L(r)； ② (r|s)也是∑上的正则表达式，它表示的语言为L(r)∪L(s)； ③ (r•s)也是∑上的正则表达式，它表示的语言为L(r)L(s)； ④ (r*)也是∑上的正则表达式，它表示的语言为(L(r))*； ⑸ 只有经有限次使用上述规则构造的表达式才是∑上的正则表达式。
2014-7-6 22
根据正则文法构造等价的正则表达式
⑤ 如果有A=β1、A=β2、…、A=βh，则用 A=β1|β2|…|βh代替之。如果最后得到的关于S的方程式为如下形式， S=α1|α2|…|αh 则将方程式右边所有其中仍然含有语法变量的αi(1≤i≤n)删除，得到的结果就是与G等价的正则表达式；如果任意的αi(1≤i≤n)均含有语法变量，则就是与G等价的正则表达式。
forward := forward +1
end else if forward在缓冲区第二部分末尾 then begin 重装缓冲区第一部分; 将forward移到缓冲区第一部分开始 end
else forward:= forward +1;
end
else /* eof 在表示输入结束 */

大小问题 128Byte*2|1024Byte*2|4096Byte*2
2ห้องสมุดไป่ตู้14-7-6 21
根据正则文法构造等价的正则表达式
③ 如果有A=(r1|r2|…|rn)B，B=(t1|t2|…|tm)C，则用 A=(r1|r2|…|rn) (t1|t2|…|tm)C替换之，其中B≠A；如果有A=(r1|r2|…|rn)B，B=(t1|t2|…|tm)，则用 A=(r1|r2|…|rn) (t1|t2|…|tm)替换之，其中B≠A； ④ 对A=(t1|t2|…|tm)*A且A=(r1|r2|…|rn)B，其中B≠A，则用A=(t1|t2|…|tm)* (r1|r2|…|rn)B替换之；对A=(t1|t2|…|tm)*A且A=r1|r2|…|rn则用A=(t1|t2|…|tm)* (r1|r2|…|rn)替换之；
例3.6 将如下文法G转换成相应的正则表达式
24
将正则表达式转换成等价的正则文法

问题：给定∑上的一个正则表达式r，根据r构造正则文法G，使得L(G)=L(r) 定义3.3 设字母表为∑，{A、B、…、C}为语法变量集合，对于∑上的任意正则表达式r，形如Ar的式子称为正则定义式；如果r是∑ 中的字母和用正则定义式定义的变量组成的正则表达式，则形如Ar的式子称为正则定义式。
2014-7-6
跟实现有关
8
3.1.3 源程序的输入缓冲与预处理

超前搜索和回退

双字符运算符（**, /*,:=,…） DO 90 k=1,10 DO 90 k=1.10 假定源程序存储在磁盘上，这样每读一个字符就需要访问一次磁盘，效率显然是很低的。

缓冲区

空白字符的剔除

剔除源程序中的无用符号、空格、换行、注释等
2014-7-6 12
3.1.5 词法分析器的位置
符号表源程序词法分析器语法分析器语义分析与代码生成目标程序
目标代码整理图3.4 以语法分析器为中心

以语法分析器为中心的优点：

简化编译器的设计。提高编译器的效率。增强编译器的可移植性。
13
2014-7-6
3.2 单词的描述
14
2014-7-6
3.2.2 正则表达式

例3.2：标识符的另一种表示

letter(letter|digit)* | 表示"或" * 表示Kleene闭包 + 表示正闭包？表示“0或1个” Letter和(letter|digit)*的并列表示两者的连接

正则式r表示正则集,相应的正则集记为 L(r)
与and等；关系运算符=、<>、、、和等
5. 分界符: ，、；、（、）...
2014-7-6 4
二、单词的内部形式表示单词的种类，可用整
数编码或记忆符表示不同的单词不同的值
种别
属性值
几种常用的单词内部形式：
1、按单词种类分类
2、保留字和分界符采用一符一类
3、标识符和常数的单词值又为指示字
根据正则文法构造等价的正则表达式

具体步骤
(1) 根据正则文法G构造正则表达式联立方程组。假设正则文法G是右线性的，其每个产生式的右部只含有一个终结符，则有如下方程式构造规则：
① 对形如A a1|a2|…|am的产生式，构造方程式A= a1|a2|…|am。其中可以有形如Aε的产生式； ② 对形如Aa1A|a2A|…|amA的产生式，构造方程式 A=(a1|a2|…|am)*A； ③ 对形如Aa1B|a2B|…|amB的产生式，构造方程式 A=(a1|a2|…|am)B，其中B≠A。
2014-7-6
20
根据正则文法构造等价的正则表达式
(2)解联立方程组，求等价的正则表达式r 用代入消元法逐个消去方程组中除开始符号S 外的其他变量，最后即可得到关于开始符号S的解。代入消元规则如下： ① 如果有A=r1B|r2B|…|rnB，则用 A=(r1|r2|…|rn)B替换之，其中B≠A； ② 如果有A=t1A|t2A|…|tmA，则用 A=(t1|t2|…|tm)*A替换之；
3
2014-7-6
3.1.1 单词的分类与表示 & 3.1.2 词法分析器的输出
一、单词的种类
1. 关键字:也称基本字，begin、end、for、do... 2. 标识符:由用户定义，表示各种名字 3. 常数:整常数、实常数、布尔常数、字符串常数等 4. 运算符:算术运算符+、-、*、/等；逻辑运算符not、or

为正则文法的每个产生式构造一个正则表达式方程式，这些方程式中的变量是文法G中的语法变量，各变量的系数是正则表达式，简称为方程式。从而得到一个联立方程组。用代入消元法消去联立方程组中除开始符号外的其他变量，最后得到关于开始符号S的解：S = r， r即为所求的正则表达式。
19
2014-7-6
2014-7-6
类别编码 1 2 3 4 5 6 7 8 9 …… 20 21 22 23 ……
单词值内部字符串整数值数值 0 或 1 内部字符串 …… -
7
例3.1 语句if count>7 then result := 3.14 的单词符号序列
(IF，0) (ID，指向count 的符号表入口) (GT，0) (INT，7) (THEN，0) (ID，指向result的符号表入口) (ASSIGN，0) (REAL，3.14) (SEMIC，0)
（指针值）
2014-7-6 5
1、按单词种类分类
单词名称
标识符无符号常数(整)
类别编码
1 2
单词值
内部字符串
整数值数值
无符号浮点数
布尔常数字符串常数保留字分界符
2014-7-6
3
4 5
0 或 1
内部字符串保留字或内部编码分界符或内部编码
6
6
7
2、保留字和分界符采用一符一类
单词名称标识符无符号常数(整) 无符号浮点数布尔常数字符串常数 BEGIN END FOR DO ……… : + * , (
2014-7-6 17
3.2.3 正则表达式与正则文法的等价性

正则表达式与正则文法等价

对任意一个正则表达式，存在一个定义同一语言的正则文法对任意一个正则文法，存在一个定义同一语言的正则表达式

2014-7-6
18
根据正则文法构造等价的正则表达式

问题：给定正则文法G，构造一个正则表达式r，使得L(r) =L(G) 基本思路
2014-7-6 23
根据正则文法构造等价的正则表达式

2014-7-6
S aS|aB B bB|bC|aB|bS C cC|c 1.列方程组 * S=a S S =aB B=(a|b)*B B=bC B=bS C=c*C C=c 2.代入法解方程组 * C=c c B=bc*c|bc B=(a|b)*(bc*c|bc) * B=(a|b) bS S=a*aB * * * * * S=a a(a|b) bS|a a(a|b) (bc c|bc) * * * * * * S=(a a(a|b) b) a a(a|b) (bc c|bc) + * * + * + 如果用正闭包表示，则为(a (a|b) b) a (a|b) (bc |bc)
第3章词法分析