实验1 词法分析程序的设计与开发

合集下载

简单词法分析程序设计

实验一简单词法分析程序设计一、实验目的了解词法分析程序的基本构造原理，掌握词法分析程序的手工构造方法。

二、实验内容1、了解编译程序的词法分析过程。

2、根据PASCAL S言的说明语句形式，用手工方法构造一个对说明语句进行词法分析的程序。

该程序能对从键盘输入或从文件读入的形如：“ const count=10,sum=81.5,char1= ' f ' ,string1= ” hj ” , max=169 ；”的常量说明串进行处理，分析常量说明串中各常量名、常量类型及常量值，并统计各种类型常量个数。

三、实验要求1、输入的常量说明串，要求最后以分号作结束标志；2、根据输入串或读入的文本文件中第一个单词是否为“const ”判断输入串或文本文件是否为常量说明内容；3、识别输入串或打开的文本文件中的常量名。

常量名必须是标识符，定义为字母开头，后跟若干个字母，数字或下划线；4、根据各常量名紧跟等号“ =”后面的内容判断常量的类型。

其中：字符型常量定义为放在单引号内的一个字符；字符串常量定义为放在双引号内所有内容；整型常量定义为带或不带+、- 号，不以0 开头的若干数字的组合；实型常量定义为带或不带+、- 号，不以0 开头的若干数字加上小数点再后跟若干数字的组合；5、统计并输出串或文件中包含的各种类型的常量个数；6、以二元组( 类型,值)的形式输出各常量的类型和值；7、根据常量说明串置于高级语言源程序中时可能出现的错误情况，模仿高级语言编译器对不同错误情况做出相应处理。

四、运行结果1、输入如下正确的常量说明串：const count=10,sum=81.5,char1= ‘f ' ,max=169,str1= “ h*54 2..4S!AAsj ” char2=‘@' ,str2= “ aa!+h ”；输出：count(integer,10)sum(float,81.5)char1(char, ‘ f ' )max(integer,169)str1(string, “ h*54 2..4S!AAsj ” )char2(char, ‘ @' )str2(string, “ aa!+h ” )int_num=2; char_num=2; string_num=2; float_num=1.2、输入类似如下的保留字const 错误的常量说明串：Aconstt count=10,sum=81.5,char1= ‘f ' ;输出类似下面的错误提示信息：It is not a constant declaration statement!Please input a string again!3、输入类似如下含常量名或常量值错误的常量说明串：const count=10,12sum=81.5,char1= ‘ff ' ,max=0016；输出类似下面的错误提示信息：count(integer,10)12sum(Wrong! It is not a identifier!) char1(Wrong! There are more than one char in‘' .)max(Wrong! The integer can ' t be started with ‘0'.)int_num=1; char_num=0; string_num=0; float_num=0.4、其他类型的错误处理情况(略) 。

词法分析程序设计与实现

实验一词法分析程序设计与实现一、实验目的及内容调试并完成一个词法分析程序，加深对词法分析原理的理解。

二、实验原理（状态转换图）1、C语言子集（1）关键字：begin if then while do end所有关键字都是小写。

（2）运算符和界符：:= + – * / < <= <> > >= = ; ( ) # （3）其他单词是标识符（ID）和整型常数（NUM），通过以下正规式定义：ID=letter（letter| digit）*NUM=digit digit *（4）空格由空白、制表符和换行符组成。

空格一般用来分隔ID、NUM,运算符、界符和关键字，词法分析阶段通常被忽略。

2、各种单词符号对应的种别码3、词法分析程序的功能输入：所给文法的源程序字符串。

输出：二元组（syn，token或sum）构成的序列。

其中：syn为单词种别码；token为存放的单词自身字符串；sum为整型常数。

二、软件平台及工具PC机以及VISUAL C++6.0软件。

三、实验方法、步骤（或：程序代码或操作过程）（1）程序代码：#include<stdio.h>#include<string.h>#include<iostream.h>char prog[80],token[8];char ch;int syn,p,m=0,n,row,sum=0;char *rwtab[6]={"begin","if","then","while","do","end"};void scaner(){for(n=0;n<8;n++) token[n]=NULL;ch=prog[p++];while(ch==' '){ch=prog[p];p++;}if((ch>='a'&&ch<='z')||(ch>='A'&&ch<='Z'))m=0;while((ch>='0'&&ch<='9')||(ch>='a'&&ch<='z')||(ch>='A'&&ch<='Z')) {token[m++]=ch;ch=prog[p++];}token[m++]='\0';p--;syn=10;for(n=0;n<6;n++)if(strcmp(token,rwtab[n])==0){syn=n+1;break;}}else if((ch>='0'&&ch<='9')){{sum=0;while((ch>='0'&&ch<='9')){sum=sum*10+ch-'0';ch=prog[p++];}}p--;syn=11;if(sum>32767)syn=-1;}else switch(ch)case'<':m=0;token[m++]=ch;ch=prog[p++];if(ch=='>'){syn=21;token[m++]=ch;}else if(ch=='='){syn=22;token[m++]=ch;}else{syn=23;p--;}break;case'>':m=0;token[m++]=ch;ch=prog[p++];if(ch=='='){syn=24;token[m++]=ch;}else{syn=20;p--;}break;case':':m=0;token[m++]=ch;。

词法分析程序实验报告

词法分析程序实验报告篇一：词法分析器_实验报告词法分析器实验报告实验目的：设计、编制、调试一个词法分析子程序－识别单词，加深对词法分析原理的理解。

实验要求：该程序要实现的是一个读单词过程，从输入的源程序中，识别出各个具有独立意义的单词，即基本保留字、标识符、常数、运算符、分界符五大类。

并依次输出各个单词的内部编码及单词符号自身值。

（一）实验内容（1）功能描述：对给定的程序通过词法分析器弄够识别一个个单词符号，并以二元式(单词种别码，单词符号的属性值)显示。

而本程序则是通过对给定路径的文件的分析后以单词符号和文字提示显示。

（2）程序结构描述：函数调用格式:参数含义：String string;存放读入的字符串 String str; 存放暂时读入的字符串 char ch; 存放读入的字符 int rs 判断读入的文件是否为空 char []data 存放文件中的数据 int m；通过switch用来判断字符类型，函数之间的调用关系图:函数功能：Judgement（）判断输入的字符并输出单词符号，返回值为空； getChar() 读取文件的，返回值为空；isLetter(char c) 判断读入的字符是否为字母的，返回值为Boolean类型； switch (m) 判断跳转输出返回值为空；isOperator(char c)判断是否为运算符的，返回值为Boolean类型； isKey(String string)判断是否为关键字的，返回值为Boolean类型； isDigit(char c) 判断读入的字符是否为数字的，返回值为Boolean类型。

（二）实验过程记录：本次实验出错3次，第一次无法输出双运算符，于是采用双重if条件句进行判断，此方法失败，出现了重复输出，继续修改if语句，仍没有成功。

然后就采用了直接方法调用解决此问题。

对于变量的判断，开始忘了考虑字母和数字组成的变量，结果让字母和数字分家了，不过改变if语句的条件，解决了此问题。

编译原理实验报告

编译原理实验报告一、实验目的本次编译原理实验的主要目的是通过实践加深对编译原理中词法分析、语法分析、语义分析和代码生成等关键环节的理解，并提高实际动手能力和问题解决能力。

二、实验环境本次实验使用的编程语言为 C/C+＋，开发工具为 Visual Studio 2019，操作系统为 Windows 10。

三、实验内容（一）词法分析器的设计与实现词法分析是编译过程的第一个阶段，其任务是从输入的源程序中识别出一个个具有独立意义的单词符号。

在本次实验中，我们使用有限自动机的理论来设计词法分析器。

首先，我们定义了单词的种类，包括关键字、标识符、常量、运算符和分隔符等。

然后，根据这些定义，构建了相应的状态转换图，并将其转换为程序代码。

在实现过程中，我们使用了字符扫描和状态转移的方法，逐步读取输入的字符，判断其所属的单词类型，并将其输出。

（二）语法分析器的设计与实现语法分析是编译过程的核心环节之一，其任务是在词法分析的基础上，根据给定的语法规则，判断输入的单词序列是否构成一个合法的句子。

在本次实验中，我们采用了自顶向下的递归下降分析法来实现语法分析器。

首先，我们根据给定的语法规则，编写了相应的递归函数。

每个函数对应一种语法结构，通过对输入单词的判断和递归调用，来确定语法的正确性。

在实现过程中，我们遇到了一些语法歧义的问题，通过仔细分析语法规则和调整函数的实现逻辑，最终解决了这些问题。

（三）语义分析与中间代码生成语义分析的任务是对语法分析所产生的语法树进行语义检查，并生成中间代码。

在本次实验中，我们使用了四元式作为中间代码的表示形式。

在语义分析过程中，我们检查了变量的定义和使用是否合法，类型是否匹配等问题。

同时，根据语法树的结构，生成相应的四元式中间代码。

（四）代码优化代码优化的目的是提高生成代码的质量和效率。

在本次实验中，我们实现了一些基本的代码优化算法，如常量折叠、公共子表达式消除等。

通过对中间代码进行分析和转换，减少了代码的冗余和计算量，提高了代码的执行效率。

编译原理综合性实验：词法分析的设计

编译过程中编译程序需要不断汇集和反复查证出现在源程序中各种名字的属性和特征等有关信息。这些信息通常记录在符号表中。符号表中的每一项一般包含两部分：名字，与此名字有关的信息，如类型，种属，值等。符号表主要在词法或语法分析阶段生成，可能用于语义检查、产生中间代码以及最终生成目标代码等不同阶段。
对数字常数的处理如下：先查符号表 VAL 栏，若发现相同的常数则直接输出其二元式。若表内无相同的常数，则将数字常数填入符号表内，在 TYPE 栏内填入整型或实型，然后输出其二元式。二元式中包含该常数在符号表中的入口。
1.3 词法分析程序的详细设计
图 1-3 的数据流图属于输入-变换-输出形式的变换型数据流图，但加工 1.3—1.9 构成了典型的事务处理型数据流图。根据数据流图，可以得到词法分析程序的总体框架，如图 1-4。
图 1-3 词法分析程序的详细数据流图在上面的数据流图中，各个加工处理完成的功能如下：加工 1.1(读一行并打印)：收到读下一行命令后，从源程序读入一行，装入缓冲区，行计数，并打印。在这里需要注意的是，回车换行在源程序（文本文件）中用两个字符 0D0AH 来表示，而用高级语言（C 语言）读入内存后，就用一个字符 0AH 来表示，这是在用高级
查找函数可以使用顺序查找，也可以使用折半查找。例如：使用顺序查找方法查找给定单词 key 是否是关键字的函数原型和算法描述如下：
int iskeyword (char * str)/*设 keyword 为所有关键字列表*/ /*该函数返回 0 表示 str 不是关键字，不为 0 表示 str 是关键字*/
词不能跨行书写； (4) 关键字都是保留字。
1.2 词法分析程序的总体设计
图 1-2 词法分析程序的顶层数据流图图 1-2 是词法分析程序的顶层数据流图，即是词法分析程序的输入输出界面图，由此可以看出词法分析程序的功能就是从源程序中读入一个个字符，依据一定的构词规则，识别出各类有用的单词。其中源程序清单和错误信息从屏幕、打印机或文件输出，其余文件均以顺序文件的形式输出到外存储器上，以供下一阶段使用。由此可以得到更详细的数据流图，如图 1-3。

实验一词法分析程序的设计与实现

实验一词法分析程序的设计与实现一、实验内容【实验目的和要求】设计、编制、调试一个具体的词法分析程序，加深对词法分析原理的理解。

【实验内容】通过对PL/0词法分析程序（GETSYM）的分析，并在此基础上按照附录A中给出的PL/0语言的语法描述，编写一个PL/0语言的词法分析程序。

此程序应具有如下功能：输入为字符串（待进行词法分析的源程序），输出为单词串，即由（单词、类别）所组成的二元组序列。

有一定检查错误的能力，例如发现2A这类不能作为单词的字符串。

【实验环境】Windows PC机，任何语言。

【提交内容】提交实验报告，报告内容如下：目的要求、算法描述、程序结构、主要变量名说明、程序清单、调试情况、设计技巧、心得体会。

提交源程序和可执行文件。

【学时】4课时。

二、实验说明词法分析程序的任务就是扫描源程序，依据词法规则识别单词并报告构词错误信息。

通常将单词分为5种类型。

1）基本字：也叫关键字、保留字，是程序设计语言用来表示特定语法含义的一种标识符，如if、begin等。

2）运算符：如+、-、*、/、:=、>、<等。

3）标识符：用户定义的变量名、常数名、函数名等。

不同的高级程序设计语言对关键字是否可以作为普通标识符有不同的要求，有的语言允许程序员使用关键字作为普通标识符，有的程序设计语言则不允许程序员将关键字用着普通标识符（如C/C++、Pascal等都不允许）。

在允许程序员将关键字用作普通标识符的程序设计语言的编译器中，编译器必须具备能够区分一个标识符到底是关键字还是普通标识符的功能。

4）常数：如23、6等。

5）界符：如“，”、“；”、“（”、“）”、“.”等。

注意事项●空格的作用仅仅是将一个个单词分割开来，源程序中的空格不具备别的语法意义，在语法分析及其后续阶段都没有任何作用，因此，词法分析的另一个工作是过滤空格。

●注释对整个源程序的编译也没有任何语法意义，只是为了便于阅读和交流，因此，有的编译程序的词法分析程序也负责过滤注释。

编译实验1 编写词法分析程序

实验1：编写词法分析程序
本实验进行词法分析程序的编程与调试。

1 实验类型
验证型实验。

2 实验目的和要求
通过设计、调试词法分析程序，实现从源程序中分出各种单词的方法；熟悉词法分析程序所用的工具自动机，进一步理解自动机理论。

掌握文法转换成自动机的技术及有穷自动机实现的方法。

确定词法分析器的输出形式及标识符与关键字的区分方法。

加深对课堂教学的理解；提高词法分析方法的实践能力。

通过本实验，应达到以下目标：
1、掌握从源程序文件中读取有效字符的方法和产生源程序的内部表示文件的方法。

2、掌握词法分析的实现方法。

3、上机调试编出的词法分析程序。

3 背景知识
词法分析是作为相对独立的阶段来完成的（对源程序或中间结果从头到尾扫描一次，并作相应的加工处理，生成新的中间结果或目标程序）。

在词法分析过程中，编译程序是通过操作系统从外部介质中读取源程序文件中的各个字符的。

同时，为正确地识别单词，有时还需进行超前搜索和回退字符等操作。

因此，为了提高读盘效率和便于扫描器进行工作，通常可采用缓冲输入的方案，即在内存中设置一个适当大小的输入缓冲区，让操作系统直接将磁盘上的源程序字符串分批送入此缓冲区中，供扫描器进行处理。

词法分析程序的一般设计方案是：
1、词法规则⇒正规表达式⇒FA；
2、NFA 确定化⇒DFA；
3、最小化DFA；
4、确定单词符号输出形式；
5、构造词法分析程序。

4 实验
设计一个程序，可以实现任意正则式的最小化DFA二维表输出，并能进行单词的识别和输出。

实验1：词法分析程序

实验1 词法分析程序一、实验目的与要求1.复习正规文法、正规式、有限自动机之间的相互转换的原理及技术；2.学会使用Visual C++等高级语言编程实现上述转换，并能合理显示结果；3.以C++的一个真子集为案例，具体分析词法分析程序的设计步骤、基本架构及代码编制，并通过一定实例验证其可行性，以加深对词法分析原理的理解；4.通过本次实验，使学生理解模块化程序设计的思想，从而从全局角度领会一个完整软件的设计精髓，为后续试验的顺利完成奠定坚实的基础。

二、实验仪器及设备1.微型电子计算机80台2.配置Windows 2000及以上版本操作系统3.安装Visual C++6.0/Visual C#2000/Delphi6.0等以上版本的开发环境三、实验内容及步骤（一）正规文法与有限自动机的相互转换1．正规文法⇒有限自动机已知某正规文法G[S]如下：S→aAS→bBS→εA→aBA→bAB→aSB→bAB→ε请编程实现：（1）将G[S]转换为NFA；（2）将上述得到的NFA确定化为DFA；（3）再将DFA最简化为MFA。

2．有限自动机⇒正规文法已知某有限自动机NFA M=（Q,∑,f,q0,Z）如下：状态集：Q={1,2,3,4,5,6,7,8,9}字母表：∑={a,b}转移函数：f(1,a)=5f(1,ε)=2f(1,a)=4f(5,ε)=6f(2,b)=3f(4,ε)=7f(6,ε)=2f(6,b)=9f(3,ε)=8f(8,a)=9f(7,b)=9初态：q0=1终态集：Z={6,7,9}请编程实现：（1）首先将此NFA确定化为DFA；（2）再将得到的DFA最简化为MFA；（3）最后，将MFA转化为正规文法（左线性或右线性均可）。

（二）编程实现MiniC++的词法分析这里的MiniC++为C++语言的一个真子集，其语法结构与C++类似。

基本组成如下：（1）关键字有18个，分别为：void、int、char、bool、float、double、if、else、switch、case、default、break、continue、do、while、for、return以及struct等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

编译原理实验报告
一、实验目的
• 深入理解有限自动机及其应用 • 掌握词法分析程序的开发。

• 掌握根据语言的词法规则构造识别其单词的有限自动机的方法 • 深入理解词法分析程序自动生成原理
二、实验要求
• 掌握各类单词的形式描述
•用直接转向法实现有限自动机的代码编写。

• 独立完成PL0语言的词法分析器。

• 掌握词法分析程序自动生成工具LEX 的使用。

三、实验原理
词法分析是编译过程的第一阶段。

它的任务就是对输入的字符串形式的源程序按顺序进行扫描，根据源程序的词法规则识别具有独立意义的单词（符号），并输出与其等价的Token 序列。

有限自动机是描述程序设计语言单词构成的工具，而状态转换图是有限自动机的比较直观的描述方法。

我们使用确定的有限状态自动机，简记为DFA 。

PL/0的语言的词法分析器将要完成以下工作：（1）跳过分隔符（如空格，回车，制表符）；（2）识别诸如begin ，end ，if ，while 等保留字；
（3）识别非保留字的一般标识符，此标识符值（字符序列）赋给全局量id ，而全局量sym 赋值为SYM_IDENTIFIER 。

（4）识别数字序列，当前值赋给全局量NUM ，sym 则置为SYM_NUMBER ；（5）识别:=，<=，>=之类的特殊符号，全局量sym 则分别被赋值为SYM_BECOMES ，SYM_LEQ ，SYM_GEQ 等。

课程名称：编译原理
班级：计算1614
实验成绩：
指导教师：付永钢姓名：施心萍
实验项目名称：实验一词法分析程序设计与开发
学号： 201621121097 上机实践日期：
识别PL0单词的DFA表示
相关过程（函数）有getsym()，getch()，其中getch()为获取单个字符的过程，除此之外，它还完成：
（1）识别且跳过行结束符；
（2）将输入源文件复写到输出文件；
（3）产生一份程序列表，输出相应行号或指令计数器的值。

下面给出能够识别PL0语言中各类单词的DFA：
根据语言的词法规则构造出识别其单词的确定有限自动机DFA, 仅仅是词法分析程序的一个形式模型，距离词法分析程序的真正实现还有一定的距离。

状态转换图的程序实现通常是采用直接转向法。

直接转向法又称为程序中心法，是把状态转换图看成一个流程图，从状态转换图的初态开始，对它的每一个状态结点都编写一段相应的程序。

四、实验步骤
一、构造识别单词的自动机
1.根据给定的词法构成规则对程序语言的单词按类构造出相应的状态转换图，并根据具体需求对该状态转换图进行完善。

2. 对各类单词的状态转换图合并，构成一个能识别语言所有单词的状态转换图。

合并步骤为：
(1) 将各类单词的状态转换图的初始状态合并为一个唯一的初态；
(2) 化简调整状态冲突和对冲突状态重新编号；
(3) 对上述形成的状态图进行修正，以满足识别合适单词的要求。

(4) 如有必要，在合适的位置增加出错状态。

二、用直接转向法实现有限自动机的代码，生成对应的词法分析程序。

要
严格按照给出的DFA，对每个状态编写对应的识别代码，然后对每个状
态的代码用合适的分支、循环等语句进行整合，完成整个代码的合成
工作，并上机进行调试。

对实现的代码进行测试，给出合适的测试用
例（要求至少有3个用例，二个正确识别所有的保留字、标识符、分
界符、数字等；另外一个识别错误的单词。

1.样例1
输入
输出生成的txt程序列表
2.样例2
输入（部分）
输出（部分）
生成的txt程序列表（部分）
3.样例3（小数）
三、用自动生成工具LEX生成上述给定DFA所对应的PL0语言的词法分析
程序。

并进行调试，用上述3个测试用例进行测试，给出测试结果。

编写LEX文件
运用flex生成lex.yy.c文件
运行结果
样例1
样例2（部分）
样例3（小数）
五、实验小结
FLEX通过对LEX源文件的扫描自动生成相应的语法分析函数，生成lex.yy.c 程序。

LEX具有“最长匹配原则”和“最先匹配原则”，能够使用简洁的正规表达式去实现语法分析程序，而且lex.yy.c中定义了很多用户可定义的全局变量以及在LEX源文件的动作中可调用的函数和宏，具有良好的可移植性。

但是LEX 对源文件的格式要求非常严格，而且LEX本身的查错能力很弱，所以书写时一定要特别注意。

C语言提供大量的函数，其中包括系统生成的函数和用户定义的函数，语法也很容易理解，使用C语言实现语法分析程序可以较好地掌握程序的分支和流程，但是代码量很多，容易出现错误，书写的时候需要特别细心。

实验的处理单词集(仅供参考)
（注：单词种类统一分类如下：）
单词符号单词种类
空0
标识符 1
整数 2
+ 3
- 4
* 5
/ 6
= 7
> 8
< 9
<> 10
<= 11
>= 12
( 13
) 14 { 15
} 16
; 17
， 18
“ 19
:= 20
var 21
if 22 then 23 else 24 while 25
for 26 begin 27 writeln 28 procedure 29 end 30
出错 100。