编译原理第2章-词法分析(4)

合集下载

编译原理词法分析实验报告

编译原理词法分析实验报告实验名称:词法分析器的设计与实现一、实验目的：1.熟悉编译原理中词法分析的基本概念和原理；2.掌握正则表达式的使用方法；3.实现一个简单的词法分析器。

二、实验内容：1.设计一个简单的编程语言，包含如下几种类型的词法单元：关键字、标识符、常量、运算符和界符。

2.使用正则表达式定义每种词法单元的模式。

3.设计一个词法分析器，将源代码中的每个词法单元识别出来并输出。

三、实验步骤：1. 确定编程语言的词法单元类型和正则表达式模式，定义相应的单词类型（如 TokenType）和模式（如 regex）。

2. 实现一个词法分析器的类 Lexer，包含以下方法：(1)一个构造方法，用于初始化词法分析器的输入源代码。

(2) 一个getNextToken方法，用于获取源代码中的下一个词法单元。

3. 在getNextToken方法中，使用正则表达式逐个识别源代码中的词法单元，并返回相应的Token对象。

4. 设计一个Token类，包含以下属性：词法单元类型、词法单元的值和位置信息等。

5.在主程序中使用词法分析器，将源代码中的每个词法单元识别出来并输出。

四、实验结果：1.设计一个简单的编程语言，包含如下词法单元类型（示例）：(1) 关键字：if、else、while、for等；(2)标识符：变量名等；(3)常量：整数、浮点数、字符串等；(4)运算符：+、-、*、/、=等；(5)界符：(、)、{、}、;等。

2. 实现一个词法分析器，识别出源代码中的每个词法单元，并输出相应的Token对象。

五、实验总结：通过本次实验，我熟悉了编译原理中词法分析的基本概念和原理，并掌握了正则表达式的使用方法。

我成功完成了一个简单的词法分析器的设计与实现，实现了源代码中每个词法单元的识别与输出。

这次实验对我深化了对编译原理中词法分析的理解，并提高了我的编程能力。

编译原理实验词法分析实验报告

编译原理实验词法分析实验报告一、实验目的词法分析是编译过程的第一个阶段，其主要任务是从左到右逐个字符地对源程序进行扫描，产生一个个单词符号。

本次实验的目的在于通过实践，深入理解词法分析的原理和方法，掌握如何使用程序设计语言实现词法分析器，提高对编译原理的综合应用能力。

二、实验环境本次实验使用的编程语言为_____，开发工具为_____。

三、实验原理词法分析的基本原理是根据编程语言的词法规则，将输入的字符流转换为单词符号序列。

单词符号通常包括关键字、标识符、常量、运算符和界符等。

词法分析器的实现方法有多种，常见的有状态转换图法和正则表达式法。

在本次实验中，我们采用了状态转换图法。

状态转换图是一种有向图，其中节点表示状态，有向边表示在当前状态下输入字符的可能转移。

通过定义不同的状态和转移规则，可以实现对各种单词符号的识别。

四、实验步骤1、定义单词符号的类别和编码首先，确定实验中要识别的单词符号种类，如关键字（if、else、while 等）、标识符、整数常量、浮点数常量、运算符（＋、、、／等）和界符（括号、逗号等）。

为每个单词符号类别分配一个唯一的编码，以便后续处理。

2、设计状态转换图根据单词符号的词法规则，绘制状态转换图。

例如，对于标识符的识别，起始状态为“起始状态”，当输入为字母时进入“标识符中间状态”，在“标识符中间状态”中，若输入为字母或数字则继续保持该状态，直到遇到非字母数字字符时结束识别，确定为一个标识符。

3、编写词法分析程序根据状态转换图，使用所选编程语言实现词法分析器。

在程序中，通过不断读取输入字符，根据当前状态进行转移，并在适当的时候输出识别到的单词符号。

4、测试词法分析程序准备一组包含各种单词符号的测试用例。

将测试用例输入到词法分析程序中，检查输出的单词符号是否正确。

五、实验代码以下是本次实验中实现词法分析器的核心代码部分：｀｀｀include ＜stdioh>include ＜ctypeh>／／单词符号类别定义typedef enum ｛KEYWORD,IDENTIFIER,INTEGER_CONSTANT,FLOAT_CONSTANT,OPERATOR,DELIMITER｝ TokenType;／／关键字列表char keywords ＝｛＂if"，＂else"，＂while"，＂for"，＂int"，＂float"，＂void"｝；／／状态定义typedef enum ｛START,IN_IDENTIFIER,IN_INTEGER,IN_FLOAT,IN_OPERATOR｝ State;／／词法分析函数TokenType getToken(char token, int tokenLength) ｛State state ＝ START;int i ＝ 0;while （1) ｛char c ＝ getchar(）；switch （state) ｛case START:if （isalpha(c)）｛state ＝ IN_IDENTIFIER;tokeni+＋＝ c;｝ else if （isdigit(c)）｛state ＝ IN_INTEGER;tokeni+＋＝ c;｝ else if （c ＝＝＇＋＇｜｜ c ＝＝＇＇｜｜ c ＝＝＇＇｜｜ c ＝＝＇／＇｜｜ c ＝＝＇（＇｜｜ c ＝＝＇）＇｜｜ c ＝＝＇；＇｜｜ c ＝＝＇，＇）｛state ＝ IN_OPERATOR;tokeni+＋＝ c;｝ else if （c ＝＝＇＇）｛state ＝ IN_FLOAT;tokeni+＋＝ c;｝ else if （c ＝＝ EOF) ｛tokeni ＝＇＼0'；tokenLength ＝ i;return －1;｝ else ｛tokeni ＝＇＼0'；tokenLength ＝ i;return －2;｝break;case IN_IDENTIFIER:if （isalpha(c) ｜｜ isdigit(c)）｛tokeni+＋＝ c;｝ else ｛ungetc(c, stdin)；tokeni ＝＇＼0'；tokenLength ＝ i;／／检查是否为关键字for （int j ＝ 0; j ＜ sizeof(keywords) ／ sizeof(keywords0)； j+＋）｛if （strcmp(token, keywordsj) ＝＝ 0) ｛return KEYWORD;｝｝return IDENTIFIER;｝break;case IN_INTEGER:if （isdigit(c)）｛tokeni+＋＝ c;｝ else if （c ＝＝＇＇）｛state ＝ IN_FLOAT;tokeni+＋＝ c;｝ else ｛ungetc(c, stdin)；tokeni ＝＇＼0'；tokenLength ＝ i;return INTEGER_CONSTANT;｝break;case IN_FLOAT:if （isdigit(c)）｛tokeni+＋＝ c;｝ else ｛ungetc(c, stdin)；tokeni ＝＇＼0'；tokenLength ＝ i;return FLOAT_CONSTANT;｝break;case IN_OPERATOR: tokeni ＝＇＼0'；tokenLength ＝ i;return OPERATOR; break;｝｝｝int main(）｛char token100;int tokenLength;TokenType tokenType;while （（tokenType ＝ getToken(token, ＆tokenLength)）！＝－1) ｛switch （tokenType) ｛case KEYWORD:printf(＂Keyword: ％s\n"， token)；break;case IDENTIFIER:printf(＂Identifier: ％s\n"， token)；break;case INTEGER_CONSTANT:printf(＂Integer Constant: ％s\n"， token)；break;case FLOAT_CONSTANT:printf(＂Float Constant: ％s\n"， token)；break;case OPERATOR:printf(＂Operator: ％s\n"， token)；break;case DELIMITER:printf(＂Delimiter: ％s\n"， token)；break;｝｝return 0;｝｀｀｀六、实验结果对准备的测试用例进行输入，得到的词法分析结果如下：测试用例 1：｀｀｀int main(）｛int num ＝ 10;float pi ＝ 314;if （num ＞ 5) ｛printf(＂Hello, World!＼n"）；｝｝｀｀｀词法分析结果：｀｀｀Keyword: int Identifier: main Delimiter: （Delimiter: ）｛Identifier: num Operator: ＝Integer Constant: 10；Identifier: float Identifier: pi Operator: ＝Float Constant: 314；Keyword: ifDelimiter: （Identifier: numOperator: ＞Integer Constant: 5）｛Identifier: printfDelimiter: （String: ＂Hello, World!＼n" Delimiter: ）；｝｀｀｀测试用例 2：｀｀｀for （int i ＝ 0; i ＜ 10; i+＋）｛double result ＝ i 25;｀｀｀词法分析结果：｀｀｀Keyword: for Delimiter: （Keyword: int Identifier: i Operator: ＝Integer Constant: 0；Identifier: i Operator: ＜Integer Constant: 10；Identifier: i Operator: ＋＋）Identifier: doubleIdentifier: resultOperator: ＝Identifier: iOperator:Float Constant: 25；｝｀｀｀通过对多个测试用例的分析，词法分析器能够正确识别出各种单词符号，实验结果符合预期。

清华大学编译原理第二版课后习答案

Lw.《编译原理》课后习题答案第一章第1章引论第1题解释下列术语：（1）编译程序（2）源程序（3）目标程序（4）编译程序的前端（5）后端（6）遍答案：（1）编译程序：如果源语言为高级语言，目标语言为某台计算机上的汇编语言或机器语言，则此翻译程序称为编译程序。

（2）源程序：源语言编写的程序称为源程序。

（3）目标程序：目标语言书写的程序称为目标程序。

（4）编译程序的前端：它由这样一些阶段组成：这些阶段的工作主要依赖于源语言而与目标机无关。

通常前端包括词法分析、语法分析、语义分析和中间代码生成这些阶段，某些优化工作也可在前端做，也包括与前端每个阶段相关的出错处理工作和符号表管理等工作。

（5）后端：指那些依赖于目标机而一般不依赖源语言，只与中间代码有关的那些阶段，即目标代码生成，以及相关出错处理和符号表操作。

（6）遍：是对源程序或其等价的中间语言程序从头到尾扫视并完成规定任务的过程。

第2题一个典型的编译程序通常由哪些部分组成？各部分的主要功能是什么？并画出编译程序的总体结构图。

答案：一个典型的编译程序通常包含8个组成部分，它们是词法分析程序、语法分析程序、语义分析程序、中间代码生成程序、中间代码优化程序、目标代码生成程序、表格管理程序和错误处理程序。

其各部分的主要功能简述如下。

词法分析程序：输人源程序，拼单词、检查单词和分析单词，输出单词的机内表达形式。

语法分析程序：检查源程序中存在的形式语法错误，输出错误处理信息。

语义分析程序：进行语义检查和分析语义信息，并把分析的结果保存到各类语义信息表中。

中间代码生成程序：按照语义规则，将语法分析程序分析出的语法单位转换成一定形式的中间语言代码，如三元式或四元式。

中间代码优化程序：为了产生高质量的目标代码，对中间代码进行等价变换处理。

盛威网（）专业的计算机学习网站1《编译原理》课后习题答案第一章目标代码生成程序：将优化后的中间代码程序转换成目标代码程序。

表格管理程序：负责建立、填写和查找等一系列表格工作。

编译原理-词法语法分析实验报告

编译原理词法分析一、实验目的设计、编制并调试一个词法分析程序，加深对词法分析原理的理解。

二、实验要求2.1 待分析的简单的词法（1）关键字：begin if then while do end所有的关键字都是小写。

（2）运算符和界符：= + - * / < <= <> > >= = ; ( ) #（3）其他单词是标识符（ID）和整型常数（SUM），通过以下正规式定义：ID = letter (letter | digit)*NUM = digit digit*（4）空格有空白、制表符和换行符组成。

空格一般用来分隔ID、SUM、运算符、界符和关键字，词法分析阶段通常被忽略。

2.2 各种单词符号对应的种别码：2.3 词法分析程序的功能：输入：所给文法的源程序字符串。

输出：二元组（syn,token或sum）构成的序列。

其中：syn为单词种别码；token为存放的单词自身字符串；sum为整型常数。

例如：对源程序begin x:=9: if x>9 then x:=2*x+1/3; end #的源文件，经过词法分析后输出如下序列：(1,begin)(10,x)(18,:=)(11,9)(26,;)(2,if)……三、词法分析程序的C语言程序源代码：#include <stdio.h>#include <string.h>char prog[80],token[8],ch;int syn,p,m,n,sum;char *rwtab[6]={"begin","if","then","while","do","end"};scaner();void scanner_example (FILE *fp);main(){FILE *fp;fp=fopen("D:\\1.txt","r");//打开文件scanner_example (fp);scaner();}void scanner_example (FILE *fp){do{ch=fgetc (fp);prog[p++]=ch;}while (ch!='#');p=0;do{scaner();switch(syn){case 11:printf("( %-10d%5d )\n",sum,syn);break;case -1:printf("you have input a wrong string\n");default: printf("( %-10s%5d )\n",token,syn);break;}}while(syn!=0);}scaner(){ sum=0;for(m=0;m<8;m++)token[m++]=NULL;ch=prog[p++];m=0;while((ch==' ')||(ch=='\n'))ch=prog[p++];if(((ch<='z')&&(ch>='a'))||((ch<='Z')&&(ch>='A'))){ while(((ch<='z')&&(ch>='a'))||((ch<='Z')&&(ch>='A'))||((ch>='0')&&(ch<='9'))) {token[m++]=ch;ch=prog[p++];}p--;syn=10;for(n=0;n<6;n++)if(strcmp(token,rwtab[n])==0){ syn=n+1;break;}}else if((ch>='0')&&(ch<='9')){ while((ch>='0')&&(ch<='9')){ sum=sum*10+ch-'0';ch=prog[p++];}p--;syn=11;}else switch(ch){ case '<':token[m++]=ch;ch=prog[p++];if(ch=='='){ syn=22;token[m++]=ch;}else{ syn=20;p--;}break;case '>':token[m++]=ch;ch=prog[p++];if(ch=='='){ syn=24;token[m++]=ch;}else{ syn=23;p--;}break;case '+': token[m++]=ch;ch=prog[p++];if(ch=='+'){ syn=17;token[m++]=ch;}else{ syn=13;p--;}break;case '-':token[m++]=ch;ch=prog[p++];if(ch=='-'){ syn=29;token[m++]=ch;}else{ syn=14;p--;}break;case '!':ch=prog[p++];if(ch=='='){ syn=21;token[m++]=ch;}else{ syn=31;p--;}break;case '=':token[m++]=ch;ch=prog[p++];if(ch=='='){ syn=25;token[m++]=ch;}else{ syn=18;p--;}break;case '*': syn=15;token[m++]=ch;break;case '/': syn=16;token[m++]=ch;break;case '(': syn=27;token[m++]=ch;break;case ')': syn=28;token[m++]=ch;break;case '{': syn=5;token[m++]=ch;break;case '}': syn=6;token[m++]=ch;break;case ';': syn=26;token[m++]=ch;break;case '\"': syn=30;token[m++]=ch;break;case '#': syn=0;token[m++]=ch;break;case ':':syn=17;token[m++]=ch;break;default: syn=-1;break;}token[m++]='\0';}四、结果分析：输入begin x:=9: if x>9 then x:=2*x+1/3; end # 后经词法分析输出如下序列：(begin 1)(x 10)(：17)(= 18)(9 11)(；26)(if 2)……如图所示：五、总结：词法分析的基本任务是从字符串表示的源程序中识别出具有独立意义的单词符号，其基本思想是根据扫描到单词符号的第一个字符的种类，拼出相应的单词符号。

编译原理课后答案2010

空串。
2.4 为下列语言写正规定义
C 语言的注释，即以 /* 开始和以 */ 结束的任意字符串，但它的任何前缀
（本身除外）不以 */ 结尾。
［解答］
other → a | b | …
other 指除了*以外 C 语言中的其它字符
other1 → a | b | …
other1指除了*和/以外C语言中的其它字符
=> S0 = ((00|11)|(01|10) (00|11)*(01|10))*((00|11) + (01|10) (00|11)* (01|10)) => S0 = ((00|11)|(01|10) (00|11)* (01|10))+
因为S0→ε所以由偶数个 0 和偶数个 1 构成的所有 0 和 1 的串的正规定义为： S0 → ((00|11)|(01|10) (00|11)* (01|10))*
标记状态S1 S3 = ε-closure(move(S1, a)) = ε-closure({5, 8, 12}) = {1, 2, 4, 5, 6, 7, 8, 9, 11,
12, 13, 14, 16} S4 = ε-closure(move(S1, b)) = ε-closure({3, 10}) = {1, 2, 4, 5, 6, 7, 10, 13, 14,
S0 = 1S1 + 0S2
S1 = 1S0 + 0S3 + 1
S2 = 1S3 + 0S0 + 0 S3 = 1S2 + 0S1
所以：
S0 = (00|11) S0 + (01|10) S3 + 11 + 00
(1)
S3 = (00|11) S3 + (01|10) S0 + 01 + 10

编译原理教程(第二版)胡元义课后答案第二章

第二章词法分析对图2-21的DFA进行最小化。首先将状态分为非终态集和终态集两部分：{0,1,2,5}和{3,4,6,7}。由终态集可知，对于状态3、6、7，无论输入字符是a还是b的下一状态均为终态集，而状态4在输入字符b的下一状态落入非终态集，故将其化为分 {0,1,2,5}, {4}, {3,6,7} 对于非终态集，在输入字符a、b后按其下一状态落入的状态集不同而最终划分为
重新命名
图2-9 习题2.5的状态转换矩阵
第二章词法分析
a 0 a 1 b 2
b b 3
a a 4
图2-10 习题2.5的最简DFA
第二章词法分析 2.6 有语言L={w|w∈(0,1)+，并且w中至少有两个
1，又在任何两个1之间有偶数个0}，试构造接受该语
言的确定有限状态自动机(DFA)。
M′=({0,1,2},{a,b},f,0,{1,2})，其状态转换图如图
2-3所示。
第二章词法分析表2-2 状态转换矩阵
f 状态 0 1 2 字符
a 2 — 2
b 1 2 2
第二章词法分析将图2-3所示的DFA M′最小化。首先，将M′的状态分成终态组{1,2}与非终态组{0}。其次，考察{1,2}，
0 0 0 1 1 0 2 0 3 1 4 0 5 1 0 0 6
图2-13 习题2.6的最简DFA
第二章词法分析 2.7 已知正规式((a|b)*|aa)*b和正规式(a|b)*b。
(1) 试用有限自动机的等价性证明这两个正规式
是等价的；
(2) 给出相应的正规文法。【解答】图2-14所示。 (1) 正规式((a|b)*|aa)*b对应的NFA如

编译原理

编译原理第一章：1．编译程序是现代计算机系统的基本组成部分之一2．一个计算机系统中通常配置多个高级语言的编译程序3．在一个计算机系统中可为某些高级语言配置多个不同性能的编译程序4．编译程序是一种语言翻译程序，其功能是把一种语言编写的程序翻译成另一种语言的等价程序5．被编译的程序称为源程序，编译后的等价程序称为目标程序6．编译程序的任务就是将源语言程序翻译成等价的目标语言程序7．通常将编译过程分为六个阶段：词法分析、语法分析、语义分析、中间代码生成、代码优化和目标代码生成。

8．词法分析的主要任务是从左至右扫描字符序列，并按照此法规则识别出一个个的单词9．单词是指逻辑上紧密相连的一组字符，这些字符具有集体含义。

10．计算机语言中，单词的种类通常有保留字、标识符、数、算符、界符等11．语法分析的主要任务是：按照语言的语法规则，把词法分析所得的单词序列分解成各类语法成分。

12．词法分析和语法分析都是对源程序进行结构分析，但二者是有区别的。

13．语义分析的主要功能是审查源程序有无语义错误，伪代码生成阶段收集类型信息。

14．中间代码生成阶段的主要任务是，把源程序转换成一种中间代码15．中间代码是一种结构简单、含义明确的记号系统16．中间代码可以设计成多种形式，其设计原则有两点：一是容易生成，二是容易转换成目标代码17．代码优化的主要任务是对中间代码进行改造，使生成的目标代码更为高效18．目标代码生成阶段的任务是把中间代码转换成特定机器上的绝对指令代码或者可重定位的指令代码或者汇编指令代码19．在编译过程的每个阶段中都含有出错处理和表格管理的工作20．编译程序的结构可以按功能分为八个模块，即词法分析程序、语法分析程序、语义分析程序、中间代码生成程序、代码优化程序和目标代码生成程序，此外还有与上述每个阶段都有关系的出错处理程序和表格管理程序。

21．按照编译程序的工作主要是与源语言有关还是与目标机有关，编译过程也可前端和后端22．前端的工作主要依赖于源语言而与目标机无关，包括词法分析、语法分析、语义分析、中间代码生成以及每个阶段中的出错处理和表格管理工作，还包括代码优化阶段的部分工作23．后端的工作主要与目标机有关而与源语言无关，主要是代码生成及相关的出错处理和表格管理工作24．编译过程中，对源程序或者中间语言程序从头至尾扫描一次并完成相应工作的过程称为“一遍”或者“一趟”25．解释程序是另一种语言处理程序，其工作特点是边分析边执行，不生成目标代码。

第2章词法分析-编译原理及实践教程(第3版)-黄贤英-清华大学出版社

=> 0 >
1=
2
>
3=
4
其他
Hale Waihona Puke 其他6*5*
识别>、>=、>>、>>=四个单词的状态转换图
数值型常量的识别
0～9
1～9
=> 0
1
其他
* 2
0
十进制整型数
=> 0
0～7 0 3 其他 4 *
八进制整型数
=> 0 0
0～9
0～9 |a～f
|a～f |A～F
3 x/X 5 |A～F 6 其他 7 *
十六进制整型数
字母或数字
* 0 字母 1 其它 2
识别标识符的转换图
一个状态图可用于识别一定的字符串，大多数程序设计语言的单词符号都可以用转换图来识别。
字母或数字
* 0 字母 1 其它 2
识别过程是：从初始状态0开始，若读入一个字母，转入1状态，若再读入字母或数字，仍处于1状态，否则转向2状态，结束一个标识符的识别过程。状态上的*表示多读入一个符号。
错误处理程序
源程序
词
语
语
法
法
义
分
分
分
析单析语
器
词记
器
法单
析器
语法单
中间代码生成器
中间代
代码优化
器
中间代
目标代码生成
器
目标代码
号
位
位
码
码
表格管理程序
2.1 词法分析器概述
• 功能：
源程序
词法分析程序 Token串语法分析程序

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

‘ ’, \n, \t
‘ ’, \n, \t
Compiler Construction Principles & Implementation Techniques
NZ-Digit College of Computer Science & Technology
Digit ToyL的有限自动机
other1
S0
• 是RE, L()={ }
S0
• 任何 c , c 是RE, L(c)={c} S0 c
S
• ( A ), L( (A) )= L(A)
NFA(A)
Compiler Construction Principles & Implementation Techniques
-4-
College of Computer Science & Technology
根据 DFA构造词法分析程序
College of Computer Science & Technology
全局变量:
- char str[50]; ----- 存储已经读入的串;
- int len = 0; ----- str的长度, str数组下标
- Token tk;
----- 当前token
根据 DFA构造词法分析程序
College of Computer Science & Technology
Compiler Construction Principles & Implementation Techniques
根据 DFA构造词法分析程序
College of Computer Science & Technology
Num:
//数字状态的标号
ReadNext();
case CurrentChar of
1
0
0
0
Compiler Construction Principles & Implementation Techniques
College of Computer Science & Technology
词法分析程序的构造
• 手工编写词法分析程序
• 利用工具LEX生成词法分析程序*
用正则表达式定义词法规则
-2-
College of Computer Science & Technology
正则表达式到FA的转换
• 正则表达式和有限自动机都是形式语言，都可以描述程序设计语言的单词结构。
• 正则表达式便于描述和理解 • 有限自动机便于实现 • 二者的描述能力是等价的，都描述正则语言，可相互
转换。
• 一般地，设计词法分析程序的步骤是：先用RE定义单词结构，然后将RE转化成NFA，NFA再转化成DFA， DFA化简并实现得到词法分析程序。
• Other symbols: syms = +|-| *|/ | > | < | = | : | ; | ( | ) | { | }
• Whitespace:
•
ws = (‘ ’ | \n | \t)+
• Lexical structure:
lex = Keyword | identifier | int | syms | ws
预定义函数: - ReadNext() --- 将当前符号读入CurrentChar, 如果当前符号是 EOF 返回 false; 否则返回true; - IsKeyword(str) --- 检查str是否是关键字,如果是关键字,返回关键字号;否则返回-1;
Compiler Construction Principles & Implementation Techniques
正则表达式到FA转换
• A | B，L( A | B )=L(A)L(B)
NFA(A)
NFA(B)
Compiler Construction Principles & Implementation Techniques
College of Computer Science & Technology
College of Computer Science & Technology
第2章词法分析
√2.1 词法分析程序的功能 √2.2 正则表达式 √2.3 有限自动机
2.4 词法分析程序的设计与实现
Compiler Construction Principles & Implementation Techniques
PLUS, MINUS, MUL,
// +, -， *，
DIV, GT, LT, EQ,
// /, >, <, =
SEMI, LPAREN, RPAREN // ;, (. )
LG, RG,
// {, }
ELSE, INT ,WHILE, READ, WRITE , IF
} TkType
//关键字
Compiler Construction Principles & Implementation Techniques
Compiler Construction Principles & Implementation Techniques
-3-
College of Computer Science & Technology
正则表达式到FA的转换
• Thompson算法
• 转换基于语言等价原则
• 是RE，L()={ }
根据 DFA构造词法分析程序
College of Computer Science & Technology
if (!ReadNext()) exit(1); /*读入一个字符到CurrentChar中，若到输入串结束 (CurrentChar = EOF)，则结束分析;否则继续分析。*/ start: //开始状态的标号
“0..9”: str[len++] = CurrentChar; //数字拼接
goto Num ;
other: tk.type = NUM； //other1:数字以外的字符
strcpy(tk.val, str);
goto Done;
//已经读入下一字符
Compiler Construction Principles & Implementation Techniques
• A* ，L( A*) = L(A)*
NFA(A)
Compiler Construction Principles & Implementation Techniques
College of Computer Science & Technology
正则表达式到FA转换
• 上述规则只对具有一个开始状态和一个终止状态的 NFA有效;
NZ-Digit College of Computer Science & Technology
Start
Num
other1 Done
Letter
Digit ,Letter other2
Id
+,-,[,(,{ ……
ReadNext
‘ ’, \n, \t
‘ ’, \n, \t
other3
WS
Compiler Construction Principles & Implementation Techniques
根据 DFA构造词法分析程序
College of Computer Science & Technology
• 输入:
– 以EOF 作为结束符的符号序列;
• 输出:
– token序列;
• 数据结构：
• struct Token {TkType type; //单词类别
•
char val[50]; //语义信息
Compiler Construction Principles & Implementation Techniques
NZ-Digit College of Computer Science & Technology
Digit
ToyL的有限自动机
Letter
Digit ,Letter
+,-,[,(,{ ……
NFA.
a
b
a
a
a
b
0
1
2
3
4
b
Compiler Construction Principles & Implementation Techniques
正则表达式到FA的转换
College of Computer Science & Technology
• 例3：将正则表达式 (0 | 1)*00转化成等价的NFA.
a
b
a b
b a
b
Compiler Construction Principles & Implementation Techniques
正则表达式到FA的转换
College of Computer Science & Technology
• 例2：将正则表达式a((a|b)*ab*a)b 转化成等价的
- Token TokenList[100]; ---- token序列
- int total = 0; 数
----- 识别出的token的个
Compiler Construction Principles & Implementation Techniques