东南大学编译原理词法分析器实验报告

合集下载

编译原理词法分析实验报告

编译原理词法分析实验报告实验名称:词法分析器的设计与实现一、实验目的：1.熟悉编译原理中词法分析的基本概念和原理；2.掌握正则表达式的使用方法；3.实现一个简单的词法分析器。

二、实验内容：1.设计一个简单的编程语言，包含如下几种类型的词法单元：关键字、标识符、常量、运算符和界符。

2.使用正则表达式定义每种词法单元的模式。

3.设计一个词法分析器，将源代码中的每个词法单元识别出来并输出。

三、实验步骤：1. 确定编程语言的词法单元类型和正则表达式模式，定义相应的单词类型（如 TokenType）和模式（如 regex）。

2. 实现一个词法分析器的类 Lexer，包含以下方法：(1)一个构造方法，用于初始化词法分析器的输入源代码。

(2) 一个getNextToken方法，用于获取源代码中的下一个词法单元。

3. 在getNextToken方法中，使用正则表达式逐个识别源代码中的词法单元，并返回相应的Token对象。

4. 设计一个Token类，包含以下属性：词法单元类型、词法单元的值和位置信息等。

5.在主程序中使用词法分析器，将源代码中的每个词法单元识别出来并输出。

四、实验结果：1.设计一个简单的编程语言，包含如下词法单元类型（示例）：(1) 关键字：if、else、while、for等；(2)标识符：变量名等；(3)常量：整数、浮点数、字符串等；(4)运算符：+、-、*、/、=等；(5)界符：(、)、{、}、;等。

2. 实现一个词法分析器，识别出源代码中的每个词法单元，并输出相应的Token对象。

五、实验总结：通过本次实验，我熟悉了编译原理中词法分析的基本概念和原理，并掌握了正则表达式的使用方法。

我成功完成了一个简单的词法分析器的设计与实现，实现了源代码中每个词法单元的识别与输出。

这次实验对我深化了对编译原理中词法分析的理解，并提高了我的编程能力。

编译原理词法分析器实验报告

《编译原理》实验报告——词法分析器院系：班级：姓名：学号：词法分析器实验报告一、实验目的：设计一个词法分析程序，理解词法分析器实现的原理，掌握程序设计语言中的各类单词的词法分析方法，加深对词法分析原理的理解。

二、实验原理：词法分析是从左向右扫描每行源程序的符号，拼成单词，换成统一的二元式(单词种别码，单词符号的属性值)表示。

对给定的程序通过词法分析器识别一个个单词符号，并以二元式(单词种别码，单词符号的属性值)显示，本程序则是通过对给定路径的文件的分析后以单词符号和文字提示显示）三、实验说明:(1)关键字："begin","end","if","then","else","while","write","read", "do", "call","const","char","until","procedure","repeat"(2)运算符："+","-","*","/","="(3)界符："{","}","[","]",";",",",".","(",")",":"(4)其他标记如字符串，表示以字母开头的标识符(5)空格、回车、换行符跳过(6)运行结果在屏幕上以如下格式显示：1 $无符号整数begin $关键字if $关键字+ $运算符；$界符a $普通标识符//“$“为美元符号，不是大写字母S测试功能时，可以多次设置包含不同字符，关键字的待解析文件，但要保证输入文件和后缀名时准确无误，仔细察看运行结果，检测该分析器的分析结果是否正确四、源代码：#include <iostream>#include<string>using namespace std;#define MAX 22char ch =' ';string key[15]={"begin","end","if","then","else","while","write","read","do", "call","const","char","until","procedure","repeat"};int Iskey(string c){ //关键字判断int i;for(i=0;i<MAX;i++) {if(key[i].compare(c)==0) return 1;}return 0;}int IsLetter(char c) { //判断是否为字母if(((c<='z')&&(c>='a'))||((c<='Z')&&(c>='A'))) return 1;else return 0;}int IsDigit(char c){ //判断是否为数字if(c>='0'&&c<='9') return 1;else return 0;}void analyse(FILE *fpin){string arr="";while((ch=fgetc(fpin))!=EOF) {arr="";if(ch==' '||ch=='\t'||ch=='\n'){}else if(IsLetter(ch)){while(IsLetter(ch)||IsDigit(ch)) {if((ch<='Z')&&(ch>='A')) ch=ch+32;arr=arr+ch;ch=fgetc(fpin);}fseek(fpin,-1L,SEEK_CUR);if (Iskey(arr)){cout<<arr<<"\t$关键字"<<endl;}else cout<<arr<<"\t$普通标识符"<<endl;}else if(IsDigit(ch)){while(IsDigit(ch)||ch=='.'&&IsDigit(fgetc(fpin))){arr=arr+ch;ch=fgetc(fpin);}fseek(fpin,-1L,SEEK_CUR);cout<<arr<<"\t$无符号实数"<<endl;}else switch(ch){case'+':case'-' :case'*' :case'=' :case'/' :cout<<ch<<"\t$运算符"<<endl;break;case'(' :case')' :case'[' :case']' :case';' :case'.' :case',' :case'{' :case'}' :cout<<ch<<"\t$界符"<<endl;break;case':' :{ch=fgetc(fpin);if(ch=='=') cout<<":="<<"\t$运算符"<<endl;else {cout<<"="<<"\t$运算符"<<endl;;fseek(fpin,-1L,SEEK_CUR);}}break;case'>' :{ch=fgetc(fpin);if(ch=='=') cout<<">="<<"\t$运算符"<<endl;if(ch=='>')cout<<">>"<<"\t$输入控制符"<<endl;else {cout<<">"<<"\t$运算符"<<endl;fseek(fpin,-1L,SEEK_CUR);}}break;case'<' :{ch=fgetc(fpin);if(ch=='=')cout<<"<="<<"\t$运算符"<<endl;else if(ch=='<')cout<<"<<"<<"\t$输出控制符"<<endl;else if(ch=='>') cout<<"<>"<<"\t$运算符"<<endl;else{cout<<"<"<<"\t$运算符"<<endl;fseek(fpin,-1L,SEEK_CUR);}}break;default : cout<<ch<<"\t$无法识别字符"<<endl;}}}void main(){char in_fn[30];FILE * fpin;cout<<"请输入源文件名（包括路径和后缀名）:";for(;;){cin>>in_fn;if((fpin=fopen(in_fn,"r"))!=NULL) break;else cout<<"文件路径错误！请输入源文件名（包括路径和后缀名）:";}cout<<"\n********************分析如下*********************"<<endl;analyse(fpin);fclose(fpin);cout<<endl;cout<<"按任意键结束"<<endl;int a;cin>>a;}运行结果截图：输入：输出：生成的单词表目标文件：。

编译原理词法分析程序实验报告

编译原理实验报告实验名称：编写词法分析程序实验类型：设计性实验指导教师：*****专业班级：软件工程1401姓名：****学号：**********实验地点：东六E座301实验成绩：_________________日期：2016 年5 月8 日实验一编写词法分析程序一、实验目的1.通过设计、调试词法分析程序，掌握词法分析程序的设计工具（有穷自动机），进一步理解自动机理论2.掌握正则文法和正则表达式转换成有穷自动机的方法及有穷自动机实现的方法3.确定词法分析程序的输出形式及标识符与关键字的区分方法4.加深对理论知识的理解二、实验设计1.设计原理：对源程序代码从头到尾扫描，将符合词法语言规则的单词输出，包括：标识符、保留字、无符号整数、分界符、运算符、注释分离；判断程序的词法是否正确TEST语言的词法规则如下：1）、标识符：字母打头，后接任意字母或数字。

2）、保留字：标识符的子集，包括：if,else,for,while,do, int,write,read。

3）、无符号整数：由数字组成，但最高位不能为0，允许一位的0。

4）、分界符：(、)、;、{、}5）、运算符：+、-、*、/、=、<、>、>=、<=、!=、==6）、注释符：/* */2.设计方法：1)用正则表达式或正则文法描述程序设计语言的词法规则，通常采用正则表达式；一个正则表达式对应一条词法规则2)为每个正则表达式构造一个NFA，用来识别正则表达式描述的单词将每一个NFA合并、化简得到最简的DFA3)将多个NFA合并为一个NFA4)将NFA转换成等价的DFA。

5)最小化DFA6)确定单词的输出形式。

7)化简后的DFA＋单词输出形式⇒构造词法分析程序3.设计过程：1)将TEST语言的六个语法规则分别转换成正则表达式2)为每个正则表达式构造一个NFA，用来识别正则表达式描述的单词3)将5个NFA转换成一个NFA，再将NFA化简确定化。

编译原理-词法语法分析实验报告

编译原理词法分析一、实验目的设计、编制并调试一个词法分析程序，加深对词法分析原理的理解。

二、实验要求2.1 待分析的简单的词法（1）关键字：begin if then while do end所有的关键字都是小写。

（2）运算符和界符：= + - * / < <= <> > >= = ; ( ) #（3）其他单词是标识符（ID）和整型常数（SUM），通过以下正规式定义：ID = letter (letter | digit)*NUM = digit digit*（4）空格有空白、制表符和换行符组成。

空格一般用来分隔ID、SUM、运算符、界符和关键字，词法分析阶段通常被忽略。

2.2 各种单词符号对应的种别码：2.3 词法分析程序的功能：输入：所给文法的源程序字符串。

输出：二元组（syn,token或sum）构成的序列。

其中：syn为单词种别码；token为存放的单词自身字符串；sum为整型常数。

例如：对源程序begin x:=9: if x>9 then x:=2*x+1/3; end #的源文件，经过词法分析后输出如下序列：(1,begin)(10,x)(18,:=)(11,9)(26,;)(2,if)……三、词法分析程序的C语言程序源代码：#include <stdio.h>#include <string.h>char prog[80],token[8],ch;int syn,p,m,n,sum;char *rwtab[6]={"begin","if","then","while","do","end"};scaner();void scanner_example (FILE *fp);main(){FILE *fp;fp=fopen("D:\\1.txt","r");//打开文件scanner_example (fp);scaner();}void scanner_example (FILE *fp){do{ch=fgetc (fp);prog[p++]=ch;}while (ch!='#');p=0;do{scaner();switch(syn){case 11:printf("( %-10d%5d )\n",sum,syn);break;case -1:printf("you have input a wrong string\n");default: printf("( %-10s%5d )\n",token,syn);break;}}while(syn!=0);}scaner(){ sum=0;for(m=0;m<8;m++)token[m++]=NULL;ch=prog[p++];m=0;while((ch==' ')||(ch=='\n'))ch=prog[p++];if(((ch<='z')&&(ch>='a'))||((ch<='Z')&&(ch>='A'))){ while(((ch<='z')&&(ch>='a'))||((ch<='Z')&&(ch>='A'))||((ch>='0')&&(ch<='9'))) {token[m++]=ch;ch=prog[p++];}p--;syn=10;for(n=0;n<6;n++)if(strcmp(token,rwtab[n])==0){ syn=n+1;break;}}else if((ch>='0')&&(ch<='9')){ while((ch>='0')&&(ch<='9')){ sum=sum*10+ch-'0';ch=prog[p++];}p--;syn=11;}else switch(ch){ case '<':token[m++]=ch;ch=prog[p++];if(ch=='='){ syn=22;token[m++]=ch;}else{ syn=20;p--;}break;case '>':token[m++]=ch;ch=prog[p++];if(ch=='='){ syn=24;token[m++]=ch;}else{ syn=23;p--;}break;case '+': token[m++]=ch;ch=prog[p++];if(ch=='+'){ syn=17;token[m++]=ch;}else{ syn=13;p--;}break;case '-':token[m++]=ch;ch=prog[p++];if(ch=='-'){ syn=29;token[m++]=ch;}else{ syn=14;p--;}break;case '!':ch=prog[p++];if(ch=='='){ syn=21;token[m++]=ch;}else{ syn=31;p--;}break;case '=':token[m++]=ch;ch=prog[p++];if(ch=='='){ syn=25;token[m++]=ch;}else{ syn=18;p--;}break;case '*': syn=15;token[m++]=ch;break;case '/': syn=16;token[m++]=ch;break;case '(': syn=27;token[m++]=ch;break;case ')': syn=28;token[m++]=ch;break;case '{': syn=5;token[m++]=ch;break;case '}': syn=6;token[m++]=ch;break;case ';': syn=26;token[m++]=ch;break;case '\"': syn=30;token[m++]=ch;break;case '#': syn=0;token[m++]=ch;break;case ':':syn=17;token[m++]=ch;break;default: syn=-1;break;}token[m++]='\0';}四、结果分析：输入begin x:=9: if x>9 then x:=2*x+1/3; end # 后经词法分析输出如下序列：(begin 1)(x 10)(：17)(= 18)(9 11)(；26)(if 2)……如图所示：五、总结：词法分析的基本任务是从字符串表示的源程序中识别出具有独立意义的单词符号，其基本思想是根据扫描到单词符号的第一个字符的种类，拼出相应的单词符号。

编译原理词法分析实验报告

编译原理词法分析实验报告实验一词法分析一、实验目的通过设计编制调试一个具体的词法分析程序，加深对词法分析原理的理解。

并掌握在对程序设计语言源程序进行扫描过程中将其分解为各类单词的词法分析方法。

编制一个读单词过程，从输入的源程序中，识别出各个具有独立意义的单词，即基本保留字、标识符、常数、运算符、分隔符五大类。

并依次输出各个单词的内部编码及单词符号自身值。

二、实验内容（1）功能描述：该程序是实现一个词法分析器，词法分析器的功能是输入源程序，输出单词符号。

词法分析器的单词符号常常表示成以下的二元式(单词种别码，单词符号的属性值)。

本实验中，采用的是将单词分为五种的方法。

识别关键字：main、if、int、for、while、do、return、break、continue；单词种别码为1。

标识符：单词种别码为2。

常数：为无符号整形数；单词种别码为3。

运算符：包括：+、-、*、/、=、>、<、>=、<=、!= ；单词种别码为4。

分隔符：包括：,、;、{、}、(、)；单词种别码为5。

（2）程序结构描述：输入：从控制台输入一段源程序代码，对输入的代码进行词法分析,处理：分离出关键字、标识符、数值、运算符和界符。

输出：在词法分析结果表中输出每个单词所在行号、类型以及它所对应的编码。

其中，编码是自定义的,一种类型对应一个编码。

词法分析结果显示在控制台上。

（3）程序设计思路1、定义编码表，用ArrayList集合存放单词，如：关键字、运算符、分界符。

这三种单词是固定的，标示符和数字这两种单词不存放在集合中。

编码表是固定的，只需要初始化一次就够了，所以将集合定义为static类型，使其在类加载时，进行一次初始化。

2、static char allstr[] = new char[100000];该数组用于存储用户从控制台输入的所有字符。

3、//从键盘获取一个一个的字符public char Getchar() {try {ch = (char) System.in.read();} catch (Exception e) {e.printStackTrace();}return ch;}4、用while循环遍历allstr数组中存放的字符，判断分离出关键字、标示符、数字、运算符、标示符。

编译原理实验整体(2)词法分析器实验报告

{
int index = stIndexOf("//");
String tmpstr=line.substring(index);
int tmpint = tmpstr.length();
for(int k=0;k<tmpint;k++)
{
i++;
}
token = tmpstr;
{"if",6,"IF"}, {"int",7,"INT"}, {"return",8,"RETURN"},
{"void",9,"VOID"}, {"while",10,"WHILE"},
{"printf",41,"OUTPUT"}, {"scanf",42,"INPUT"},
{"main",43,"MAIN"}, {"function",44,"function"}
if (ch == '\0') {
haveMistake = true;
break;
}
for (int k = 0; k < 4; k++) {
char tmpstr[] = stConDFA[s].toCharArray();
if (in_stConDFA(ch, tmpstr[k])) {
token1 += ch;
理论基础：有限自动机、正规文法
词法分析器：执行词法分析的程序

编译原理词法分析器实验报告

一、实验目的设计一个简单的词法分析器，从而进一步加深对词法分析器工作原理的明白得。

二、实验要求一、该个词法分析器要求至少能够识别以下几类单词：(1)关键字：else if int return void while共6个，所有的关键字都是保留字，而且必需是小写；(2)标识符：识别与C语言词法规定相一致的标识符，通过以下正那么表达式概念：ID = letter (letter | digit)*；(3)常数：NUM = digit digit*(.digit digit* |ε)(e(+ | - |ε) digit digit* |ε)，letter = a|..|z|A|..|Z|，digit = 0|..|9，包括整数，如123等；小数，如123.45等；科学计数法表示的常数，如1.23e3，2.3e-9等；(4)专用符号：+ - * / < <= > >= == != = ; , ( ) [ ] { } /* */；二、分析器的输入为由上述几类单词组成的程序，输出为该段程序的机内表示形式，即关键字、运算符、界限符变成其对应的机内符，常数利用二进制形式，标识符利用相应的标识符表指针表示。

3、词法分析器应当能够指出源程序中的词法错误，如不可识别的符号、错误的词法等。

三、实验环境实验环境为win7系统、vs2005。

四、实验内容1、词法分析程序的功能：输入：所给文法的源程序字符串。

输出：二元组（syn,token）或（sum或fsum,对应二进制）组成的序列。

其中：syn为单词类别码；token为寄存的单词自身字符串；sum为整型常数；fsum为浮点型常数。

二、各类单词符号类别码如下表：五、要紧函数说明一、程序全局变量char inputstr[300],token[8];//别离寄存程序段、组成单词符号的字符串char ch;//输入字符int syn;//单词字符的类别码int p;//缓冲区inputstr的指针int sum;//整型常量float fsum;//浮点型常量char *rwtab[6]={"else","if","int","return","void","while"};//关键字数组二、语法分析函数void scaner()该函数完成所有的语法分析，关于输入的程序片段，第一去掉空格和换行，然后逐字符分析，找出各个单词（存入token[8]），判别它们的类型（确信syn 值，若是是整数那么是sum值，若是是浮点数那么是fsum）。

编译原理_词法分析器_实验报告

词法分析器实验报告实验目的：设计、编制、调试一个词法分析子程序－识别单词，加深对词法分析原理的理解。

功能描述：该程序要实现的是一个读单词过程，从输入的源程序中，识别出各个具有独立意义的单词，即基本保留字、标识符、常数、运算符、分隔符五大类。

并依次输出各个单词的内部编码及单词符号自身值。

（遇到错误时可显示“Error！”，然后跳过错误部分继续进行）设计思想：设计该词法分析器的过程中虽然没有实际将所有的状态转移表建立出来，但是所用的思想是根据状态转移表实现对单词的识别。

首先构造一个保留字表,然后,每输入一个字符就检测应该进入什么状态,并将该字符连接到d串后继续输入,如此循环,最后根据所在的接受状态以及保留字表识别单词。

符号表：记号类别属性值ws - -const 保留字 1var 保留字 1call 保留字 1begin 保留字 1if 保留字 1while 保留字 1do 保留字 1odd 保留字 1end 保留字 1then 保留字 1procedure 保留字 1= 运算符 2< 运算符 2<= 运算符 2<> 运算符 2> 运算符 2>= 运算符 2* 运算符 2+ 运算符 2- 运算符 2/ 运算符 2:= 运算符 2ident 标识符 3number 常数 4 ( 分隔符 5) 分隔符 5; 分隔符 5, 分隔符 5. 分隔符 5状态转换图：①标识符及保留字：letter or digittStart letter②number:③关系操作符：0 21 435startdigit.digit E+ | -digitdigitdigitdigitEdigit otherother④分隔符：start< other =(<=, 2) >= other>=* * (<>, 2)(<,2)(=, 2)(>=, 2)(>, 2)：=（：=，2）⑤算术运算符：使用环境：Windows xp 下的visual c++6.0程序测试： input1 : int a,b;start;( ),.( ; ,5)( (,5)( ),5) ( , ,5)( . ,5)start+- * /( + ,2) ( -,2)( *,2) ( / ,2). a=b+2;input2:while(a>=0)do7x=x+6.7E+23;end;input3:begin:x:=9if x>0 then x:=x+1;while a:=0 dob:=2*x/3,c:=a;end;output1: 3,int 3,a 5,,3,b 5,;3,a2,=3,b2,+4,2 5,; output2:output2:1,while5,(3,a2,>=4,05,)1,doerror line 32,=3,x2,+4,6.7E+235,;1,end5,;output3:output3:1,beginerror line 13,x2,:=4,91,if3,x2,>4,01,then3,x2,:=3,x2,+4,15,;1,while3,a2,:=4,01,do 3,b 2,:= 4,2 2,* 3,x 2,/4,35,,3,c2,:=3,a5,;1,end5,;测试结果与预期结果一致源程序代码：#include<stdio.h>#include<string.h>void main(){int i=0,j,k=0,state=1,f=0,linenum=1;chara[11][10]={"const","var","call","begin","if","while","do","odd","end","then","proc edure"};char b,d[40]={"\0"};freopen("input.txt","r",stdin);freopen("output.txt","w",stdout);b=getchar();while(b!=EOF)/*判断所输入字符是否为结束符*/{if(b==' '||b=='\n'||b=='\t')/*滤过空格、换行等分隔符号*/{ if(b='\n') linenum++;b=getchar();}else if((b>='a'&&b<='z')||(b>='A'&&b<='Z'))/*识别标识符以及保留字*/{d[i++]=b;b=getchar();while((b>='a'&&b<='z')||(b>='A'&&b<='Z')||(b>='0'&&b<='9')){d[i++]=b;b=getchar();}for(j=0;j<11;j++)/*查询保留字表确定该单词是否是保留字*/{ if(strcmp(d,a[j])==0){ printf("1,%s\n",d);k=1;break;}}if(k==0)/*在保留字表中没有查到该单词，是标识符*/printf("3,%s\n",d);for(j=0;j<=i;j++)d[j]='\0';i=0;k=0;}else if(b>='0'&&b<='9')/*识别常数*/{ d[i++]=b;b=getchar();while(f!=1){switch (state) {case 1:if(b>='0'&&b<='9') {state=1;d[i++]=b;b=getchar();}else if(b=='.') { state=2;d[i++]=b;b=getchar();}else if(b=='E') { state=4;d[i++]=b;b=getchar();}else state=7;break;case 2:if(b>='0'&&b<='9') {state=3;d[i++]=b;b=getchar();}else state=8;break;case 3:if(b>='0'&&b<='9') {state=3;d[i++]=b;b=getchar();}else if(b=='E') { state=4;d[i++]=b;b=getchar();}else state=7;break;case 4:if(b=='+'||b=='-') { state=5;d[i++]=b;b=getchar();}else if(b>='0'&&b<='9'){ state=6;d[i++]=b;b=getchar();} else state=8;break;case 5:if(b>='0'&&b<='9'){ state=6;d[i++]=b;b=getchar();}else state=8;break;case 6:if(b>='0'&&b<='9'){ state=6;d[i++]=b;b=getchar();}else state=7;break;case 7: f=1;break;case 8: f=1;break;}}if(state==7&&(b<'a'||b>'z')&&(b<'A'||b>'Z'))printf("4,%s\n",d);else if(state==7&&(b>='a'&&b<='z')||(b>='A'&&b<='Z'))/*数字后接字母的出错控制*/{while((b>='a'&&b<='z')||(b>='A'&&b<='Z')){ d[i++]=b;b=getchar();}printf("error line %d\n",linenum);}else printf("error line %d\n",linenum);for(j=0;j<=i;j++)d[j]='\0';i=0;f=0;state=1;}else if(b=='<')/*识别'<'、'<='和'<>'*/{ d[i++]=b;b=getchar();if(b=='='||b=='>'){ d[i++]=b;b=getchar();printf("2,%s\n",d);for(j=0;j<=i;j++)d[j]='\0';i=0;}else{ printf("2,%s\n",d);for(j=0;j<=i;j++)d[j]='\0';i=0;}}else if(b=='>')/*识别'>'和'>='*/{ d[i++]=b;b=getchar();if(b=='='){ d[i++]=b;b=getchar();printf("2,%s\n",d);for(j=0;j<=i;j++)d[j]='\0';i=0;}else{ printf("2,%s\n",d);for(j=0;j<=i;j++)d[j]='\0';i=0;}}else if(b==':')/*识别':='*/{ d[i++]=b;b=getchar();if(b=='='){ d[i++]=b;b=getchar();printf("2,%s\n",d);}else printf("error line %d\n",linenum);for(j=0;j<=i;j++)d[j]='\0';i=0;}else if(b=='*'||b=='+'||b=='-'||b=='/'||b=='=')/*识别运算符*/{ printf("2,%c\n",b);b=getchar();}else if(b=='('||b==')'||b==','||b==';'||b=='.')/*识别分隔符*/{ printf("5,%c\n",b);b=getchar();}else{ printf("error line %d\n",linenum);b=getchar();}}}实验心得：此次实验让我了解了如何设计、编制并调试词法分析程序，并加深了我对词法分析器原理的理解；熟悉了直接构造词法分析器的方法和相关原理，并学会使用c语言直接编写词法分析器；同时更熟练的掌握用c语言编写程序，实现一定的实际功能。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

词法分析设计1. 实验目的通过本实验的编程实践，了解词法分析的任务，掌握词法分析程序设计的原理和构造方法，对编译的基本概念、原理和方法有完整的和清楚的理解，并能正确地、熟练地运用。

2. 实验内容用C++语言实现对C++语言子集的源程序进行词法分析。

通过输入源程序从左到右对字符串进行扫描和分解，依次输出各个单词的内部编码及单词符号自身值；若遇到错误则显示“Error”，然后跳过错误部分继续显示；同时进行标识符登记符号表的管理。

3. 实验原理本次实验采用NFA->DFA->DFA0的过程:对待分析的简单的词法（关键词/id/num/运算符/空白符等）先分别建立自己的FA，然后将他们用产生式连接起来并设置一个唯一的开始符，终结符不合并。

待分析的简单的词法（1）关键字："asm","auto","bool","break","case","catch","char","class","const","const_cast"等（2）界符（查表）";",",","(",")","[","]","{","}"（3）运算符"*","/","%","+","-","<<","=",">>","&","^","|","++","--"," +=","-=","*=","/=","%=","&=","^=","|="relop：（4）其他单词是标识符（ID）和整型常数（SUM），通过正规式定义。

id/keywords:digit:（5）空格有空白、制表符和换行符组成。

空格一般用来分隔ID、SUM、运算符、界符和关键字，词法分析阶段通常被忽略。

空白、制表符和换行符:4. 相关自动机描述DFA:DFA0：5.流程图5. 核心数据结构描述（1）生成的token序列由name、type、attr保存。

struct token{string name;string type;int attr;};（2）本文的大多数数据结构都用map来保存，优点是查找方便，大大提高时间复杂度。

map<string,int> Keywords; //保存关键字map<string,int> Sep; //保存界符map<string,int> Relop; //保存比较运算符map<string,int> Op; //保存其他运算符map<string,int>id; //保存输入字符串中的idmap<string,int>num; //保存数字vector<token>Token; //保存token序列，大小未知，所以采用vector保存6. 核心算法描述（1）void addToken(string s,int type）s为找到的字符串，type 为可能类型。

将分析出来的token()序列添加到Token序列表中。

如果是类型为1，查看关键词表，若找到，其类型为关键词并将其以类型为关键词存储到Token表中；若未找到，则查找id表，若找到，说明该id 已经出现过，否则添加新的id到id表中，将该i字符串以类型为id添加到Token表中。

如果类型为2，在界符表中查找，如果找到以类型为界符存储到Token表中，同理其他几种类型。

可能类型为1--5，如果出现其他类型表示是词法分析器中发现额错误，将错误信息记录下来。

void addToken(string s,int type){switch(type){case 1:l_it=Keywords.find(s);if (l_it!=Keywords.end()){token t={s,"keywords",l_it->second};Token.push_back(t);}else{l_it=id.find(s);if (l_it==id.end()){id[s]=idNum;token t={s,"id",idNum++};Token.push_back(t);}else {token t={s,"id",l_it->second};Token.push_back(t);}}break;case 2:l_it=Sep.find(s);if (l_it!=Sep.end()){token t={s,"separatrix",l_it->second};Token.push_back(t);}break;case 3:l_it=Op.find(s);if (l_it!=Op.end()){token t={s,"op",l_it->second};Token.push_back(t);}break;case 4:l_it=Relop.find(s);if (l_it!=Relop.end()){token t={s,"relop",l_it->second};Token.push_back(t);}break;case 5:l_it=num.find(s);if (l_it==num.end()){num[s]=nNum;token t={s,"num",nNum++};Token.push_back(t);}else {token t={s,"num",l_it->second};Token.push_back(t);}break;default: //errortoken t={s,"id",-1};Token.push_back(t);break;}}（2）void lexical() 词法分析器，按字符读入文法并对其进行处理。

从状态0开始处理，如果是空白符则一直在状态0，如果第一个字符为字母，继续往后寻找，直至不是字母或是数字结束；若第一个字符为数字，将其拼凑成一个数字，数字可以有小数点等，详细见状态转换图，注意以数字开头容易出现一种例如3a类型的错误，所以以数字开头的一定要往下多找一个，看最后一个数字后面是否为空白符或界符或者其他允许出现的符号，如果后面紧跟着字母则报错。

如上同理分析运算符等。

注意每次处理完遇到一个字符串都要将其送到addToken()添加到Token表中并回到状态0，继续往下处理。

void lexical(){fstream ln("E:\ln.txt");char ch,tempch;int state=0;string s="",key="";while(!ln.eof()){switch(state){case 0: ch=ln.get();s=ch;if (ch==13||ch==10||ch==32||ch==9) {state=0; s="";}else if (ch=='<') state=1;else if (ch=='=') state=6;else if (ch=='>') state=9;else if (isLetter(ch)) state=13;else if (isDigit(ch)) state=15;else if(ch=='+'||ch=='-'||ch=='*'||ch=='/'||ch=='&'||ch=='|'){ state=20; tempch=ch;}else if (ch=='^') state=44;else if (isSep(ch)!=-1) state=47;else if (isOp(s)!=-1) state=48;else if (isRelop(s)!=-1) state=49;else state=50; //errorbreak;case 1: ch=ln.get();if(ch=='='||ch=='>') state=2;else if(ch=='<') state=4;else state=5;break;case 2:s+=ch;addToken(s,4);state=0;break;case 4:s+=ch;addToken(s,3);state=0;break;case 5: //* addToken(s,4);ln.seekg(-1,ios::cur);state=0;break;case 6: ch=ln.get();if(ch=='=') state=7;else state=8;break;case 7:s+=ch;addToken(s,4);state=0;break;case 8: //* addToken(s,3);ln.seekg(-1,ios::cur);state=0;break;case 9: ch=ln.get();if(ch=='=') state=10;else if(ch=='>') state=11;else state=12;break;case 10:s+=ch;addToken(s,4);state=0;break;case 11:s+=ch;addToken(s,3);state=0;break;case 12: //* state=0;addToken(s,4);ln.seekg(-1,ios::cur);break;case 13: ch=ln.get();if(isDigit(ch)||isLetter(ch)) s+=ch;else state=14;break;case 14: //*state=0;addToken(s,1);ln.seekg(-1,ios::cur);break;case 15: ch=ln.get();if (isDigit(ch)) s+=ch;else if (ch=='.'){s+=ch;state=16;}else state=18;break;case 16: ch=ln.get();s+=ch;if (isDigit(ch)) state=17;else state=50; //error break;case 17: ch=ln.get();if (isDigit(ch)){s+=ch;state=17;}else state=18;break;case 18: //*if (isLetter(ch)){s+=ch;state=50;}else{addToken(s,5);ln.seekg(-1,ios::cur);state=0;}break;case 20: ch=ln.get();if(ch==tempch||ch=='=') state=21;else state=23;break;case 21:s+=ch;addToken(s,3);state=0;break;case 23:addToken(s,3);ln.seekg(-1,ios::cur);state=0;break;case 44: ch=ln.get();if (ch=='=') state=45;else state=46;break;case 45:s+=ch;addToken(s,3);break;case 46:addToken(s,3);break;case 47:addToken(s,2);state=0;break;case 48:addToken(s,3);state=0;break;case 49:addToken(s,4);state=0;break;case 50: //errorwhile((ch=ln.get())!=EOF){if(isSep(ch)!=-1||ch==13||ch==10||ch==32||ch==9) break;else s+=ch;}addToken(s,6); //errorstate=0;break;default:break;}}}7. 测试用例待测字符串：void fun(){int a=2,b=3,3a;a++;b--;a+=b;b*=a;int c=a+4;int d=b*5;}产生结果在out.txt中（注意，无论输入输出文件都要保存在E盘根目录下）8. 出现的问题与解决方案本实验的难点就是进行有效地进行状态如转换，先对每一个简单部分，如空白符、id 、digit 等画出自动机状态，然后由NFA->DFA ，添加一个唯一的初始状态，产生式连接。