编译原理实验2词法分析器

合集下载

编译原理-实验二-FLEX词法分析器

编译原理-实验⼆-FLEX词法分析器FLEX词法分析器⼀、Lex和Yacc介绍Lex 是⼀种⽣成扫描器的⼯具。

扫描器是⼀种识别⽂本中的词汇模式的程序。

⼀种匹配的常规表达式可能会包含相关的动作。

这⼀动作可能还包括返回⼀个标记。

当 Lex 接收到⽂件或⽂本形式的输⼊时，它试图将⽂本与常规表达式进⾏匹配。

它⼀次读⼊⼀个输⼊字符，直到找到⼀个匹配的模式。

如果能够找到⼀个匹配的模式，Lex 就执⾏相关的动作（可能包括返回⼀个标记）。

另⼀⽅⾯，如果没有可以匹配的常规表达式，将会停⽌进⼀步的处理，Lex 将显⽰⼀个错误消息。

Yacc代表 Yet Another Compiler Compiler 。

Yacc 的 GNU 版叫做 Bison。

它是⼀种⼯具，将任何⼀种编程语⾔的所有语法翻译成针对此种语⾔的 Yacc 语法解析器。

（下载下载flex和bison。

⽹址分别是/packages/flex.htm和/packages/bison.htm。

）⼆、配置环境（win7）①下载flex和bison并安装到D:\GnuWin32（尽量是根⽬录）②由于我们使⽤的flex和bison都是GNU的⼯具，所以为了⽅便，采⽤的C/C++编译器也采⽤GNU的编译器GCC，当然我们需要的也是Windows版本的GCC了。

所以提前准备好VC 6.0③检验是否可以进⾏lex⽂件编译1.新建⽂本⽂件，更改名称为lex.l，敲⼊下⾯代码%{int yywrap(void);%}%%%%int yywrap(void){return 1;}2.新建⽂本⽂件，更改名称为yacc.y,敲⼊下⾯代码%{void yyerror(const char *s);%}%%program:;%%void yyerror(const char *s){}int main(){yyparse();}我们暂且不讨论上⾯代码的意思。

打开控制台，进⼊到刚才所建⽴⽂件（lex.l,yacc.y）所在的⽂件夹。

编译原理词法分析实验报告

编译原理词法分析实验报告实验名称:词法分析器的设计与实现一、实验目的：1.熟悉编译原理中词法分析的基本概念和原理；2.掌握正则表达式的使用方法；3.实现一个简单的词法分析器。

二、实验内容：1.设计一个简单的编程语言，包含如下几种类型的词法单元：关键字、标识符、常量、运算符和界符。

2.使用正则表达式定义每种词法单元的模式。

3.设计一个词法分析器，将源代码中的每个词法单元识别出来并输出。

三、实验步骤：1. 确定编程语言的词法单元类型和正则表达式模式，定义相应的单词类型（如 TokenType）和模式（如 regex）。

2. 实现一个词法分析器的类 Lexer，包含以下方法：(1)一个构造方法，用于初始化词法分析器的输入源代码。

(2) 一个getNextToken方法，用于获取源代码中的下一个词法单元。

3. 在getNextToken方法中，使用正则表达式逐个识别源代码中的词法单元，并返回相应的Token对象。

4. 设计一个Token类，包含以下属性：词法单元类型、词法单元的值和位置信息等。

5.在主程序中使用词法分析器，将源代码中的每个词法单元识别出来并输出。

四、实验结果：1.设计一个简单的编程语言，包含如下词法单元类型（示例）：(1) 关键字：if、else、while、for等；(2)标识符：变量名等；(3)常量：整数、浮点数、字符串等；(4)运算符：+、-、*、/、=等；(5)界符：(、)、{、}、;等。

2. 实现一个词法分析器，识别出源代码中的每个词法单元，并输出相应的Token对象。

五、实验总结：通过本次实验，我熟悉了编译原理中词法分析的基本概念和原理，并掌握了正则表达式的使用方法。

我成功完成了一个简单的词法分析器的设计与实现，实现了源代码中每个词法单元的识别与输出。

这次实验对我深化了对编译原理中词法分析的理解，并提高了我的编程能力。

编译原理实验报告

编译原理实验报告一、实验目的本次编译原理实验的主要目的是通过实践加深对编译原理中词法分析、语法分析、语义分析和代码生成等关键环节的理解，并提高实际动手能力和问题解决能力。

二、实验环境本次实验使用的编程语言为 C/C+＋，开发工具为 Visual Studio 2019，操作系统为 Windows 10。

三、实验内容（一）词法分析器的设计与实现词法分析是编译过程的第一个阶段，其任务是从输入的源程序中识别出一个个具有独立意义的单词符号。

在本次实验中，我们使用有限自动机的理论来设计词法分析器。

首先，我们定义了单词的种类，包括关键字、标识符、常量、运算符和分隔符等。

然后，根据这些定义，构建了相应的状态转换图，并将其转换为程序代码。

在实现过程中，我们使用了字符扫描和状态转移的方法，逐步读取输入的字符，判断其所属的单词类型，并将其输出。

（二）语法分析器的设计与实现语法分析是编译过程的核心环节之一，其任务是在词法分析的基础上，根据给定的语法规则，判断输入的单词序列是否构成一个合法的句子。

在本次实验中，我们采用了自顶向下的递归下降分析法来实现语法分析器。

首先，我们根据给定的语法规则，编写了相应的递归函数。

每个函数对应一种语法结构，通过对输入单词的判断和递归调用，来确定语法的正确性。

在实现过程中，我们遇到了一些语法歧义的问题，通过仔细分析语法规则和调整函数的实现逻辑，最终解决了这些问题。

（三）语义分析与中间代码生成语义分析的任务是对语法分析所产生的语法树进行语义检查，并生成中间代码。

在本次实验中，我们使用了四元式作为中间代码的表示形式。

在语义分析过程中，我们检查了变量的定义和使用是否合法，类型是否匹配等问题。

同时，根据语法树的结构，生成相应的四元式中间代码。

（四）代码优化代码优化的目的是提高生成代码的质量和效率。

在本次实验中，我们实现了一些基本的代码优化算法，如常量折叠、公共子表达式消除等。

通过对中间代码进行分析和转换，减少了代码的冗余和计算量，提高了代码的执行效率。

编译原理词法分析器-ll1-lr0-python实现代码

编译原理词法分析器-ll1-lr0-python实现代码计算机科学与通信工程学院编译原理实验报告题目： 1.词法分析器2. LL(1)分析器3. LR(0)分析器班级：姓名:学号：指导老师：2017年月目录一、实验题目 (1)二、实验目的和要求 (1)三、代码实现 (2)四、总结 (25)一、实验题目1.词法分析器分析一段程序代码，将代码中的单词符号分解出来，并对其进行检查，输出token表和error表2.LL(1)文法分析器分析给定文法。

求出文法的FIRST集，FOLLOW集，并构建分析表，对给定输入串进行分析。

3.LR(0)文法分析器分析给定文法。

用Ꜫ_CLOSURE方法构造文法的LR(0)项目集规范族，根据状态转换函数GO构造出文法的DFA,并转换为分析表，对给定输入串进行分析。

二、实验目的和要求1.学会词法分析器的实现思路。

2.学会求解FIRST集， FOLLOW集，构造LL(1)分析表。

3.学会Ꜫ_CLOSURE方法，状态转换函数GO, 构造LR(0)分析表。

三、代码实现1.词法分析器program.txt 中存放要分析的文法：E->TRR->+TR|-TR|~T->FGG->*FG|/FG|~F->(E)|i代码：KEYWORD_LIST = ['while', 'if', 'else', 'switch', 'case']SEPARATOR_LIST = [';', ':', ',', '(', ')', '[', ']', '{', '}']OPERATOR_LIST1 = ['+', '-', '*']OPERATOR_LIST2 = ['<=', '<', '==', '=', '>', '>=']CATEGORY_DICT = {# KEYWORD"while": {"while": ""},"if": {"if": ""},"else": {"else": ""},"switch": {"switch": ""},"case": {"case": ""},# OPERATOR"+": {"+": ""},"-": {"-": ""},"*": {"*": ""},"<=": {"relop": "LE"},"<": {"relop": "LT"},">=": {"relop": "GE"},">": {"relop": "GT"},"==": {"relop": "EQ"},"=": {"=": ""},# SEPARATOR";": {";": ""},":": {":": ""},",": {",": ""},"(": {"(": ""},")": {")": ""},"[": {"]": ""},"]": {"]": ""},"{": {"{": ""},"}": {"}": ""},}CONSTANTTABLE = []TOKENTABLE = []OPERATORTABLE = []KEYWORDTABLE = []SEPARATORTABLE = []UNDEFINEDTABLE = []# READ FILEdef read_file(path, method):temp_str = ""try:file = open(path, method)for line in file:line = line.replace('\n', " ") temp_str += linetemp_str = str(temp_str)except IOError as e:print(e)exit()finally:file.close()return temp_str.strip() + " "# GETBEdef getbe():global tokengetchar()token = ""return# GETCHARdef getchar():global characterglobal locationwhile all_string[location] == " ":location = location + 1character = all_string[location]return character# LINK TOKENdef concatenation():global tokenglobal charactertoken = token + character# IS NUMBERdef digit():if '0' <= character <= '9':return Truereturn False# IS ALPHABETdef letter():if 'A' <= character <= 'Z' or 'a' <= character <= 'z': return Truereturn False# IS IDENTIFIERdef reserve():if token in KEYWORD_LIST:return CATEGORY_DICT[token]else:return 0# RETRACTdef retract():global locationglobal character# location = location - 1character = ""return# MAIN FUNCTIONdef main():global tokenglobal characters = getchar()getbe()if 'a' <= s <= 'z' or 'A' <= s <= 'Z':while letter() or digit():concatenation()location = location + 1character = all_string[location]retract()c = reserve()if c == 0:TOKENTABLE.append(token)print("这是标识符：{'", token, "':'", TOKENTABLE.index(token), "'}") else:KEYWORDTABLE.append(token)print("这是保留字：", CATEGORY_DICT[token])elif '0' <= s <= '9':while digit():concatenation()location = location + 1character = all_string[location]retract()CONSTANTTABLE.append(token)print("这是常数：{'", token, "':'", CONSTANTTABLE.index(token), "'}") elif s in OPERATOR_LIST1:location = location + 1OPERATORTABLE.append(s)print("这是单操作符：", CATEGORY_DICT[s])elif s in OPERATOR_LIST2:location = location + 1character = all_string[location]if character == '=':OPERATORTABLE.append(s + character)print("这是双操作符：", CATEGORY_DICT[s + character])else:retract()location = location + 1OPERATORTABLE.append(s)print("这是单操作符:", CATEGORY_DICT[s])elif s in SEPARATOR_LIST:location = location + 1SEPARATORTABLE.append(s)print("这是分隔符：", CATEGORY_DICT[s])else:UNDEFINEDTABLE.append(s)print("error:undefined identity :'", s, "'")if __name__ == '__main__':character = ""token = ""all_string = read_file("program.txt", "r")location = 0while location + 1 < len(all_string):main()print('KEYWORDTABLE:', KEYWORDTABLE)print('TOKENTABLE:', TOKENTABLE)print('CONSTANTTABLE:', CONSTANTTABLE)print('OPERATORTABLE:', OPERATORTABLE)print('SEPARATORTABLE:', SEPARATORTABLE)运行结果：2.LL(1)分析器program.txt 中存放要分析的文法：E->TRR->+TR|-TR|~T->FGG->*FG|/FG|~F->(E)|i输入串：i+i*i代码：NonTermSet = set() # 非终结符集合TermSet = set() # 终结符集合First = {} # First集Follow = {} # Follow集GramaDict = {} # 处理过的产生式Code = [] # 读入的产生式AnalysisList = {} # 分析表StartSym = "" # 开始符号EndSym = '#' # 结束符号为“#“Epsilon = "~" # 由于没有epsilon符号用“~”代替# 构造First集def getFirst():global NonTermSet, TermSet, First, Follow, FirstAfor X in NonTermSet:First[X] = set() # 初始化非终结符First集为空for X in TermSet:First[X] = set(X) # 初始化终结符First集为自己Change = Truewhile Change: # 当First集没有更新则算法结束Change = Falsefor X in NonTermSet:for Y in GramaDict[X]:k = 0Continue = Truewhile Continue and k < len(Y):if not First[Y[k]] - set(Epsilon) <= First[X]: # 没有一样的就添加，并且改变标志if Epsilon not in First[Y[k]] and Y[k] in NonTermSet and k > 0: # Y1到Yi候选式都有~存在Continue = Falseelse:First[X] |= First[Y[k]] - set(Epsilon)Change = Trueif Epsilon not in First[Y[k]]:Continue = Falsek += 1if Continue: # X->~或者Y1到Yk均有~产生式First[X] |= set(Epsilon)# FirstA[Y] |= set(Epsilon)# 构造Follow集def getFollow():global NonTermSet, TermSet, First, Follow, StartSymfor A in NonTermSet:Follow[A] = set()Follow[StartSym].add(EndSym) # 将结束符号加入Follow[开始符号]中Change = Truewhile Change: # 当Follow集没有更新算法结束Change = Falsefor X in NonTermSet:for Y in GramaDict[X]:for i in range(len(Y)):if Y[i] in TermSet:continueFlag = Truefor j in range(i + 1, len(Y)): # continueif not First[Y[j]] - set(Epsilon) <= Follow[Y[i]]:Follow[Y[i]] |= First[Y[j]] - set(Epsilon) # 步骤2 FIRST(β)/~ 加入到FOLLOW(B)中。

编译原理实验报告++词法分析器实验报告

编译原理实验报告词法分析器制作与应用设计思想()程序主体结构部分：说明部分规则部分辅助程序部分（）主体结构地说明在这里说明部分告诉我们使用地, (标识符,通常定义为字母开头地字母数字串)和(字符串常量,通常定义为双引号括起来地一串字符)是什么意思.这部分也可以包含一些初始化代码.例如用来使用标准地头文件和前向说明( ，).这些代码应该再标记"{"和"}"之间;规则部分;可以包括任何你想用来分析地代码;我们这里包括了忽略所有注释中字符地功能,传送名称和字符串常量内容到主调函数和函数地功能.个人收集整理勿做商业用途（）实现原理程序中先判断这个句语句中每个单元为关键字、常数、运算符、界符，对与不同地单词符号给出不同编码形式地编码，用以区分之.个人收集整理勿做商业用途语言地表示<常量定义>：：<标识符><无符号整数>;<标识符>：：<字母>{<字母><数字>};<加法运算符><乘法运算符>*<关系运算符><<>><字母>…<数字>…三：设计过程．关键字：，，，，，，，，，，，并为小写. 个人收集整理勿做商业用途．"”;””;”*”;””;”“;”:”;”<“;”<“;”>“;”>“;”<>“;”“;”(“;”)”;”;”;””为运算符.个人收集整理勿做商业用途．其他标记如字符串，表示以字母开头地标识符.．空格符跳过.．各符号对应种别码关键字分别对应运算符分别对应，.字符串对应常量对应结束符四：举例说明目标：实现对常量地判别代码：[][][\[]({}[])({}{}[])*个人收集整理勿做商业用途{({}{}{})}{}[ \\] """""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""" {()("\");}个人收集整理勿做商业用途\"([])*\" {("\");}个人收集整理勿做商业用途?{}[.]{}?([][]?{})? {("\");}个人收集整理勿做商业用途""?{} {("\");} ","";""("")""{""}""[""]"">"".""!""""""""*"""""""""""""">""<"">""<""""""""^""""""""""""*"""""">> ""<<""""^""""" {("\");}个人收集整理勿做商业用途{} {("\");}{}({}) {("\");}个人收集整理勿做商业用途<>( * ){;(<){[]([]);}}(){;}五：六:数据测试七：心得体会其实匹配并不困难，主要是知识要求相对较高，只要把握住指针就好了.附源程序：<><><><>;* !*个人收集整理勿做商业用途;[] {" "};[];( []){*[] {"","","","","","",个人收集整理勿做商业用途"","","","","","",""};;;;[];* ** *(( > '') ( < '' )){(( > '') ( < '' )){[];[];};[] '\';( ; < ; )( ([]) )(){:{;;;}:{;;;}:{;;;}:{;;;}:{;;;}:{;;;} :{;;;} :{;;;} :{;;;} :{;;;} :{;;;}:{;;;}:{;;;}}( ){;}}* *(( > '') ( < '')){;(( > '' ) ( < '' )){*('');[];};;}* *(){'':{( '')[] ;[] '\';[];( ''){[] ;[] '\';;}{;;};}'>':{( '>')[] ;[] '\';[];( ''){[] ;[] '\';;}{;;};}'<':{( '<')[] ;[] '\';[];( ''){[] ;[] '\';;}{;;};}'!':{( '!')[] ;[] '\';[];( ''){[] ;[] '\';;}{;;};}'':{( '')[] ;[] '\';[];( ''){[] ;[] '\';;}( ''){[] ;[] '\';;}{;;};}'':{( '')[] ;[] '\';[];( ''){[] ;[] '\';;}( ''){[] ;[] '\';;{;;};}'*':{( '*')[] ;[] '\';[];( ''){[] ;[] '\';;}{;;};}'':{( '')[] ;[] '\';[];( ''){[] ;[] '\';;}{;;};}[] ; [] '\';; ;}'(':{[] ; [] '\';; ;}')':{[] ; [] '\';; ;}'[':{[] ; [] '\';; ;}']':{[] ; [] '\';; ;}'{':{[] ; [] '\';; ;}'}':{[] ; [] '\';; ;}':':{[] ;[] '\';;;}'"':{[] ;[] '\';;;}'':{( '')[] ;[] '\';[];( ''){[] ;[] '\';;}{;;};}',':{[] ;[] '\';;;}'':{[] ;[] '\';;;}'':{[] '';;;个人收集整理-ZQ}:{;;}};}(){;(" ");{();[] ;}( '');;{();( ){("()");}( ){("()");}{("()");}} ( );("");}11 / 11。

词法分析器的实验报告

词法分析器的实验报告词法分析器的实验报告引言：词法分析器是编译原理中的重要组成部分，它负责将源代码中的字符序列转换为有意义的词法单元，为后续的语法分析提供基础。

本实验旨在设计和实现一个简单的词法分析器，并对其进行测试和评估。

实验设计：1. 词法规则设计：在开始实验之前，我们首先需要设计词法规则，即定义源代码中的合法词法单元。

例如，对于一门类C的语言，我们可以定义关键字（如if、while、int等）、标识符、运算符（如+、-、*等）、分隔符（如()、{}等）等。

2. 有限自动机（DFA）的设计：基于词法规则，我们可以设计一个有限自动机，用于识别和分析源代码中的词法单元。

有限自动机是一个状态转换图，其中每个状态代表一种词法单元，而边表示输入字符的转换关系。

3. 实现代码：根据有限自动机的设计，我们可以使用编程语言（如Python、C++等）实现词法分析器的代码。

代码的主要功能包括读取源代码文件、逐个字符进行词法分析、识别和输出词法单元。

实验过程：1. 词法规则设计：我们以一门简单的算术表达式语言为例，设计了以下词法规则：- 数字：由0-9组成的整数或浮点数。

- 运算符：包括+、-、*、/等。

- 分隔符：包括括号()和逗号,。

- 标识符：以字母开头，由字母和数字组成的字符串。

2. 有限自动机（DFA）的设计：我们基于词法规则，设计了一个简单的有限自动机。

该自动机包含以下状态：- 初始状态：用于读取和识别源代码中的字符。

- 数字状态：用于识别和输出数字。

- 运算符状态：用于识别和输出运算符。

- 分隔符状态：用于识别和输出分隔符。

- 标识符状态：用于识别和输出标识符。

3. 实现代码：我们使用Python编程语言实现了词法分析器的代码。

代码主要包括以下功能：- 读取源代码文件。

- 逐个字符进行词法分析，根据有限自动机的设计进行状态转换。

- 识别和输出词法单元。

实验结果：我们对几个测试样例进行了词法分析，并对结果进行了评估。

编译原理与技术词法分析 (2)

2024/7/7
《编译原理与技术》讲义
35
e.g.12 构造（0|1）*01的对应的FA。（5）
R5 R4
（ R3 ）
R1
| R2
R9
R7
·
R8
· R6
1
*
0
0
1
2024/7/7
《编译原理与技术》讲义
36
Thompson方法所构造的NFA的状态数和转换较多。可以采用下面方法减少之：
•R • R = R1 | R2 • R = R1 R2
• (0 | 1)*
0
1
2024/7/7
《编译原理与技术》讲义
33
e.g.12 构造（0|1）*01的对应的FA。（3）
• (0 | 1)* 0
2024/7/7
0
1
《编译原理与技术》讲义
0
34
e.g.12 构造（0|1）*01的对应的FA。（4）
• (0 | 1)* 0 1
0
1
0 1
(S1,1)= {S2}
(S2,0)= {S2}
(S2,1)= {S2}
(S3,0)= {S4}
(S3,1)= ∅
(S4,0)= {S4}
(S4,1)= {S4}
2024/7/7
《编译原理与技术》讲义
6
有限自动机的表示
e.g.7 中NFA的状态转换图如下：
0,1
0,1
0
0
S0
S3
S4
1
S1 1
S2 0,1
2024/7/7
《编译原理与技术》讲义
40
NFA的确定化（转换到DFA）
子集构造法

编译原理词法分析实验

编译原理词法分析实验一、实验目的本实验旨在通过编写一个简单的词法分析器，了解编译原理中词法分析的基本原理和实现方法。

二、实验材料1. 计算机编程环境2. 编程语言三、实验步骤1. 了解词法分析的概念和作用。

词法分析是编译器中的第一个阶段，它的主要任务是将源代码中的字符序列转化为有意义的标识符，如关键字、操作符、常量和标识符等。

2. 设计词法分析器的流程和算法。

词法分析器的主要原理是通过有限状态自动机来识别和提取标识符。

在设计过程中，需考虑各种可能出现的字符序列，并定义相应的状态转移规则。

3. 根据设计的流程和算法，使用编程语言编写词法分析器的代码。

4. 编译并运行词法分析器程序，输入待分析的源代码文件，观察程序的输出结果。

5. 分析输出结果，检查程序是否正确地提取了源代码中的标识符。

四、实验结果经过词法分析器的处理，源代码将被成功地转化为有意义的标识符。

结果可以通过以下几个方面来验证：1. 关键字和操作符是否被正确识别和提取。

2. 常量和标识符是否被正确识别和提取。

3. 检查程序的错误处理能力，如能否发现非法字符或非法标识符。

4. 输出结果是否符合预期，可与自己编写的语法规则进行对比。

5. 对于特殊情况，如转义字符等是否正确处理。

五、实验总结通过本次实验，我深入了解了编译原理中词法分析的重要性和基本原理。

编写词法分析器的过程中，我学会了使用有限状态自动机来识别和提取标识符，并通过实践巩固了相关知识。

此外，我还对源代码的结构有了更深入的了解，并且掌握了如何运用编程语言来实现词法分析器。

通过本次实验，我不仅提升了自己的编程技术，也对编译原理有了更深入的认识和理解。

六、实验心得通过实验，我深刻体会到了词法分析在编译过程中的重要性。

合理设计和实现词法分析器，可以大大提高编译器的效率和准确性。

同时，通过编写词法分析器的代码，我不仅锻炼了自己的编程能力，还提升了对编译原理的理解和掌握。

这次实验让我更加深入地了解了编译原理中的词法分析，也为我今后在编程领域的发展打下了坚实的基础。

编译原理词法分析器实验报告

一、实验目的设计一个简单的词法分析器，从而进一步加深对词法分析器工作原理的明白得。

二、实验要求一、该个词法分析器要求至少能够识别以下几类单词：(1)关键字：else if int return void while共6个，所有的关键字都是保留字，而且必需是小写；(2)标识符：识别与C语言词法规定相一致的标识符，通过以下正那么表达式概念：ID = letter (letter | digit)*；(3)常数：NUM = digit digit*(.digit digit* |ε)(e(+ | - |ε) digit digit* |ε)，letter = a|..|z|A|..|Z|，digit = 0|..|9，包括整数，如123等；小数，如123.45等；科学计数法表示的常数，如1.23e3，2.3e-9等；(4)专用符号：+ - * / < <= > >= == != = ; , ( ) [ ] { } /* */；二、分析器的输入为由上述几类单词组成的程序，输出为该段程序的机内表示形式，即关键字、运算符、界限符变成其对应的机内符，常数利用二进制形式，标识符利用相应的标识符表指针表示。

3、词法分析器应当能够指出源程序中的词法错误，如不可识别的符号、错误的词法等。

三、实验环境实验环境为win7系统、vs2005。

四、实验内容1、词法分析程序的功能：输入：所给文法的源程序字符串。

输出：二元组（syn,token）或（sum或fsum,对应二进制）组成的序列。

其中：syn为单词类别码；token为寄存的单词自身字符串；sum为整型常数；fsum为浮点型常数。

二、各类单词符号类别码如下表：五、要紧函数说明一、程序全局变量char inputstr[300],token[8];//别离寄存程序段、组成单词符号的字符串char ch;//输入字符int syn;//单词字符的类别码int p;//缓冲区inputstr的指针int sum;//整型常量float fsum;//浮点型常量char *rwtab[6]={"else","if","int","return","void","while"};//关键字数组二、语法分析函数void scaner()该函数完成所有的语法分析，关于输入的程序片段，第一去掉空格和换行，然后逐字符分析，找出各个单词（存入token[8]），判别它们的类型（确信syn 值，若是是整数那么是sum值，若是是浮点数那么是fsum）。

词法分析器

《编译原理》课程实验报告课程实验题目：词法分析器学院：计算机科学与技术班级：软件1503学号：04153094姓名：刘欣指导教师姓名：陈燕完成时间：词法分析定义：词法分析器的功能输入源程序，按照构词规则分解成一系列单词符号。

单词是语言中具有独立意义的最小单位，包括关键字、标识符、运算符、界符和常量等(1) 关键字是由程序语言定义的具有固定意义的标识符。

例如，Pascal 中的begin，end，if，while都是保留字。

这些字通常不用作一般标识符。

(2) 标识符用来表示各种名字，如变量名，数组名，过程名等等。

(3) 常数常数的类型一般有整型、实型、布尔型、文字型等。

(4) 运算符如+、-、*、/等等。

(5) 界符如逗号、分号、括号、等等。

输出：词法分析器所输出单词符号常常表示成如下的二元式：(单词种别，单词符号的属性值)单词种别通常用整数编码。

标识符一般统归为一种。

常数则宜按类型（整、实、布尔等）分种。

关键字可将其全体视为一种。

运算符可采用一符一种的方法。

界符一般用一符一种的方法。

对于每个单词符号，除了给出了种别编码之外，还应给出有关单词符号的属性信息。

单词符号的属性是指单词符号的特性或特征。

示例：比如如下的代码段：while(i>=j) i--经词法分析器处理后，它将被转为如下的单词符号序列：<while, _><(, _><id, 指向i的符号表项的指针><>=, _><id, 指向j的符号表项的指针><), _><id, 指向i的符号表项的指针><--, _><;, _>词法分析分析器作为一个独立子程序词法分析是编译过程中的一个阶段，在语法分析前进行。

词法分析作为一遍，可以简化设计，改进编译效率，增加编译系统的可移植性。

也可以和语法分析结合在一起作为一遍，由语法分析程序调用词法分析程序来获得当前单词供语法分析使用。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

编译原理实验2 词法分析器一、实验目的1. 通过设计编制调试一个具体的词法分析程序，加深对词法分析原理的理解。

2. 掌握在对程序设计语言源程序进行扫描过程中将其分解为各类单词的词法分析方法。

3. 编制一个读单词的程序，从输入的源程序中，识别出各个具有独立意义的单词，即基本保留字、标识符、常数、运算符和分隔符五大类。

并依次输出各个单词的内部编码及单词符号自身值。

（遇到错误时可显示“Error”，然后跳过错误部分继续显示）二、词法分析的基础知识1. 词法分析器的功能和输出格式词法分析器的功能是输入源程序，输出单词符号。

词法分析器的单词符号常常表示成以下的二元式(单词种别码，单词符号的属性值)。

在本实验中，采用的是一类符号一种别码的方式。

标识符的BNF表示：<标识符>-> <字母><字母数字串><字母数字串>-><字母><字母数字串>|<数字><字母数字串>|ε无符号整数的BNF表示：<无符号整数>-> <数字><数字串><数字串>-> <数字><数字串> |ε运算符的BNF表示：<加法运算符>-> +<减法运算符>-> -<大于关系运算符>-> ><大于等于关系运算符>-> >=2. 超前搜索词法分析时，常常会用到超前搜索方法。

如当前待分析字符串为“a > i”，当前字符为“>”，此时，分析器到底是将其分析为大于关系运算符还是大于等于关系运算符呢？显然，只有知道下一个字符是什么才能下结论。

于是分析器读入下一个字符“+”，这时可知应将“>”解释为大于运算符。

但此时，超前读了一个字符“i”，所以要回退一个字符，词法分析器才能正常运行。

在分析标识符，无符号整数等时也有类似情况。

三、程序要求1. 程序输入示例：如源程序为C语言，输入如下一段：main(){int a, b;a = 10;b = a+20;}2. 程序输出示例：（2，“main”）（5，“（”）（5，“）”）（5，“{”）（1，“int”）（2，“a”）（5，“,”）（2，“b”）（5，“;”）（2，“a”）（4，“=”）（3，“10”）（5，“;”）（2，“b”）（4，“=”）（2，“a”）（4，“+”）（3，“20”）（5，“;”）（5，“}“）3. 具体要求如下：（1）识别保留字：if、int、for、while、do、return、break、continue等。

（2）运算符包括：+、-、*、/、=、>、<、>=、<=、!=（3）分隔符包括：,、;、{、}、(、)（4）常数为无符号整形数；（5）其它的都识别为标识符；4. 程序思路：（1）定义部分：定义常量、变量、数据结构。

（2）初始化：从文件将源程序全部输入到字符缓冲区中。

（3）取单词前：去掉多余空白。

（4）取单词：读出单词的每一个字符，组成单词，分析类型，其中，关键是如何判断取单词结束，取到的单词是什么类型的单词。

（5）显示结果。

四、实验结果#include <>#include ""#include <>#define N 100 //定义要分析的标识符或常数的最大个数#define M 20 //标识符的长度char *sourceFile="D:\\"; // 定义进行词法分析的源文件char *key[8]={"if","else","for","while","do","return","break","continue"};// 关键字char *border[6]={",",";","{","}","(",")"}; // 界符定义char *arithmetic[4]={"+","-","*","/"}; // 算术运算符定义char *relation[6]={"<","<=","=",">",">=","<>"}; // 关系运算符定义char *consts[N]; // 常数定义char *label[N]; // 标识符int constnum=0,labelnum=0; // constnum-常数个数;labelnum-标识符个数// 判断一个字符是不是字母int Isletter(char ch){if(ch>='a' && ch<='z'||ch>='A' && ch<='Z')return 1;return 0;}// 判断一个字符是不是数字int IsDigit(char ch){if(ch>='0' && ch<='9')return 1;return 0;}// 判断单词符号类型int search(char searchchar[],int wordtype){int i=0;switch (wordtype){case 1:for (i=0;i<=7;i++){if(strcmp(key[i],searchchar)==0) // 返回具体的关键字return(i+1);}case 2:{for (i=0;i<=5;i++)if(strcmp(border[i],searchchar)==0) // 返回具体的界符return(i+1);return(0);}case 3:{for(i=0;i<=3;i++)if(strcmp(arithmetic[i],searchchar)==0) // 返回具体的算术运算符return(i+1);return(0);}case 4:{for(i=0;i<=5;i++)if(strcmp(relation[i],searchchar)==0) // 返回具体的关系运算符return(i+1);return(0);}case 5:{for(i=0;i<constnum;i++)if(strcmp(consts[i],searchchar)==0) // 返回具体的整型常数return(i+1);consts[i]=(char *)malloc(sizeof(searchchar));strcpy(consts[i],searchchar);constnum++;return(i);}case 6:{for(i=0;i<labelnum;i++)if(label[i]!=NULL)if(strcmp(label[i],searchchar)==0) // 返回标识符return(i+1);label[i-1]=(char *)malloc(sizeof(searchchar));strcpy(label[i-1],searchchar);labelnum++;return(i);}}return -1;}// 常数处理char digitprocess(char buffer,FILE* fp){int i=-1;char digittp[M];int dtype;while ((IsDigit(buffer))){digittp[++i]=buffer;buffer=fgetc(fp);}digittp[i+1]='\0';dtype=search(digittp,5); // 输出整型常数printf("%s (5,%d)\n",digittp,dtype-1);return(buffer);}// 标识符或关键字char alphaprocess(char buffer,FILE* fp){int atype;int i=-1;char alphatp[M];while ((Isletter(buffer))||(IsDigit(buffer))){alphatp[++i]=buffer;buffer=fgetc(fp);}alphatp[i+1]='\0';if (atype=search(alphatp,1)) // 输出关键字printf("%s (1,%d)\n",alphatp,atype-1);else{atype=search(alphatp,6); // 输出标识符printf("%s (6,%d)\n",alphatp,atype-1);}return(buffer);}// 其它处理(运算符,界符等)char otherprocess(char buffer,FILE* fp){int i=-1;char othertp[M];int otype,otypetp;othertp[0]=buffer;othertp[1]='\0';if(otype=search(othertp,3)){printf("%s (3,%d)\n",othertp,otype-1);buffer=fgetc(fp);goto out;}if(otype=search(othertp,4)){buffer=fgetc(fp);othertp[1]=buffer;othertp[2]='\0';if(otypetp=search(othertp,4)){printf("%s (4,%d)\n",othertp,otypetp-1);goto out;}elseothertp[1]='\0';printf("%s (4,%d)\n",othertp,otype-1);goto out;}if(buffer==':'){buffer=fgetc(fp);if (buffer=='=')printf(":= (2,2)\n");buffer=fgetc(fp);goto out;}else{if(otype=search(othertp,2)){printf("%s (2,%d)\n",othertp,otype-1);buffer=fgetc(fp);goto out;}}if((buffer!='\n')&&(buffer!=' '))printf("%c error,not a word\n",buffer);buffer=fgetc(fp);out: return(buffer);}int main(int argc, char* argv[]){int i;FILE *fp; // 文件指针,指向要分析的源程序char cbuffer; // 保存最新读入的字符for (i=0; i<=N; i++){label[i]=NULL; // 初始化标识符consts[i]=NULL; // 初始化常数}if((fp=fopen(sourceFile,"rb"))==NULL) // 判断源文件是否存在printf("文件%s不存在",sourceFile);else{cbuffer = fgetc(fp); // 读入字符while (cbuffer!=EOF) // 如果文件没有结束,就一直循环{if (Isletter(cbuffer)) // 若为字母cbuffer=alphaprocess(cbuffer,fp);else if (IsDigit(cbuffer)) // 若为数字cbuffer=digitprocess(cbuffer,fp);elsecbuffer=otherprocess(cbuffer,fp);}printf("over\n");getchar();}return 0;}。