词法分析实验报告

合集下载

编译原理词法分析实验报告

编译原理词法分析实验报告实验名称:词法分析器的设计与实现一、实验目的：1.熟悉编译原理中词法分析的基本概念和原理；2.掌握正则表达式的使用方法；3.实现一个简单的词法分析器。

二、实验内容：1.设计一个简单的编程语言，包含如下几种类型的词法单元：关键字、标识符、常量、运算符和界符。

2.使用正则表达式定义每种词法单元的模式。

3.设计一个词法分析器，将源代码中的每个词法单元识别出来并输出。

三、实验步骤：1. 确定编程语言的词法单元类型和正则表达式模式，定义相应的单词类型（如 TokenType）和模式（如 regex）。

2. 实现一个词法分析器的类 Lexer，包含以下方法：(1)一个构造方法，用于初始化词法分析器的输入源代码。

(2) 一个getNextToken方法，用于获取源代码中的下一个词法单元。

3. 在getNextToken方法中，使用正则表达式逐个识别源代码中的词法单元，并返回相应的Token对象。

4. 设计一个Token类，包含以下属性：词法单元类型、词法单元的值和位置信息等。

5.在主程序中使用词法分析器，将源代码中的每个词法单元识别出来并输出。

四、实验结果：1.设计一个简单的编程语言，包含如下词法单元类型（示例）：(1) 关键字：if、else、while、for等；(2)标识符：变量名等；(3)常量：整数、浮点数、字符串等；(4)运算符：+、-、*、/、=等；(5)界符：(、)、{、}、;等。

2. 实现一个词法分析器，识别出源代码中的每个词法单元，并输出相应的Token对象。

五、实验总结：通过本次实验，我熟悉了编译原理中词法分析的基本概念和原理，并掌握了正则表达式的使用方法。

我成功完成了一个简单的词法分析器的设计与实现，实现了源代码中每个词法单元的识别与输出。

这次实验对我深化了对编译原理中词法分析的理解，并提高了我的编程能力。

词法分析程序实验报告

词法分析程序实验报告篇一：词法分析器_实验报告词法分析器实验报告实验目的：设计、编制、调试一个词法分析子程序－识别单词，加深对词法分析原理的理解。

实验要求：该程序要实现的是一个读单词过程，从输入的源程序中，识别出各个具有独立意义的单词，即基本保留字、标识符、常数、运算符、分界符五大类。

并依次输出各个单词的内部编码及单词符号自身值。

（一）实验内容（1）功能描述：对给定的程序通过词法分析器弄够识别一个个单词符号，并以二元式(单词种别码，单词符号的属性值)显示。

而本程序则是通过对给定路径的文件的分析后以单词符号和文字提示显示。

（2）程序结构描述：函数调用格式:参数含义：String string;存放读入的字符串 String str; 存放暂时读入的字符串 char ch; 存放读入的字符 int rs 判断读入的文件是否为空 char []data 存放文件中的数据 int m；通过switch用来判断字符类型，函数之间的调用关系图:函数功能：Judgement（）判断输入的字符并输出单词符号，返回值为空； getChar() 读取文件的，返回值为空；isLetter(char c) 判断读入的字符是否为字母的，返回值为Boolean类型； switch (m) 判断跳转输出返回值为空；isOperator(char c)判断是否为运算符的，返回值为Boolean类型； isKey(String string)判断是否为关键字的，返回值为Boolean类型； isDigit(char c) 判断读入的字符是否为数字的，返回值为Boolean类型。

（二）实验过程记录：本次实验出错3次，第一次无法输出双运算符，于是采用双重if条件句进行判断，此方法失败，出现了重复输出，继续修改if语句，仍没有成功。

然后就采用了直接方法调用解决此问题。

对于变量的判断，开始忘了考虑字母和数字组成的变量，结果让字母和数字分家了，不过改变if语句的条件，解决了此问题。

词法分析实验报告

词法分析实验报告词法分析实验报告引言词法分析是自然语言处理中的一个重要环节，它负责将输入的文本分割成一个个的词语，并确定每个词语的词性。

本次实验旨在通过实现一个简单的词法分析器，来探索词法分析的原理和实践。

实验内容本次实验中，我们使用Python编程语言来实现词法分析器。

我们选取了一段简单的英文文本作为输入，以便更好地理解和演示词法分析的过程。

1. 文本预处理在进行词法分析之前，我们首先需要对输入文本进行预处理。

预处理的目的是去除文本中的标点符号、空格和其他无关的字符，以便更好地进行后续的分词操作。

2. 分词分词是词法分析的核心步骤之一。

在这个步骤中，我们将文本分割成一个个的词语。

常见的分词方法包括基于规则的分词和基于统计的分词。

在本次实验中，我们选择了基于规则的分词方法。

基于规则的分词方法通过事先定义一系列的分词规则来进行分词。

这些规则可以是基于语法的，也可以是基于词典的。

在实验中，我们使用了一个简单的基于词典的分词规则，即根据英文单词的常见前缀和后缀来进行分词。

3. 词性标注词性标注是词法分析的另一个重要步骤。

在这个步骤中，我们为每个词语确定其词性。

词性标注可以通过事先定义的规则和模型来进行。

在本次实验中，我们使用了一个简单的基于规则的词性标注方法。

基于规则的词性标注方法通过定义一系列的词性标注规则来进行词性标注。

这些规则可以是基于词法的，也可以是基于语法的。

在实验中，我们使用了一个简单的基于词法的词性标注规则，即根据英文单词的后缀来确定其词性。

实验结果经过实验，我们得到了输入文本的分词结果和词性标注结果。

分词结果如下：- I- love- natural- language- processing词性标注结果如下：- I (代词)- love (动词)- natural (形容词)- language (名词)- processing (名词)讨论与总结通过本次实验，我们深入了解了词法分析的原理和实践。

词法分析器实验报告

词法分析器实验报告词法分析器实验报告一、引言词法分析器是编译器中的重要组成部分，它负责将源代码分解成一个个的词法单元，为之后的语法分析提供基础。

本实验旨在设计和实现一个简单的词法分析器，以深入理解其工作原理和实现过程。

二、实验目标本实验的目标是设计和实现一个能够对C语言代码进行词法分析的程序。

该程序能够将源代码分解成关键字、标识符、常量、运算符等各种词法单元，并输出其对应的词法类别。

三、实验方法1. 设计词法规则：根据C语言的词法规则，设计相应的正则表达式来描述各种词法单元的模式。

2. 实现词法分析器：利用编程语言（如Python）实现词法分析器，将源代码作为输入，根据词法规则将其分解成各种词法单元，并输出其类别。

3. 测试和调试：编写测试用例，对词法分析器进行测试和调试，确保其能够正确地识别和输出各种词法单元。

四、实验过程1. 设计词法规则：根据C语言的词法规则，我们需要设计正则表达式来描述各种词法单元的模式。

例如，关键字可以使用'|'操作符将所有关键字列举出来，标识符可以使用[a-zA-Z_][a-zA-Z0-9_]*的模式来匹配，常量可以使用[0-9]+的模式来匹配等等。

2. 实现词法分析器：我们选择使用Python来实现词法分析器。

首先，我们需要读取源代码文件，并将其按行分解。

然后，针对每一行的代码，我们使用正则表达式进行匹配，以识别各种词法单元。

最后，我们将识别出的词法单元输出到一个结果文件中。

3. 测试和调试：我们编写了一系列的测试用例，包括各种不同的C语言代码片段，以测试词法分析器的正确性和鲁棒性。

通过逐个测试用例的运行结果，我们可以发现和解决词法分析器中的问题，并进行相应的调试。

五、实验结果经过多次测试和调试，我们的词法分析器能够正确地将C语言代码分解成各种词法单元，并输出其对应的类别。

例如，对于输入的代码片段：```cint main() {int a = 10;printf("Hello, world!\n");return 0;}```我们的词法分析器将输出以下结果：```关键字：int标识符：main运算符：(运算符：)运算符：{关键字：int标识符：a运算符：=常量：10运算符：;标识符：printf运算符：(常量："Hello, world!\n"运算符：)运算符：;关键字：return常量：0运算符：;```可以看到，词法分析器能够正确地将代码分解成各种词法单元，并输出其对应的类别。

实验一词法分析实验报告1

实验一词法分析一、实验目的通过设计编制调试一个具体的词法分析程序，加深对词法分析原理的理解。

并掌握在对程序设计语言源程序进行扫描过程中将其分解为各类单词的词法分析方法。

编制一个读单词过程，从输入的源程序中，识别出各个具有独立意义的单词，即基本保留字、标识符、常数、运算符、分隔符五大类。

并依次输出各个单词的内部编码与单词符号自身值。

（遇到错误时可显示“Error”，然后跳过错误部分继续显示）二、实验要求使用一符一种的分法关键字、运算符和分界符可以每一个均为一种标识符和常数仍然一类一种三、实验内容功能描述：1、待分析的简单语言的词法（1）关键字：begin if then while do end（2）运算符和界符：（3）其他单词是标识符（ID）和整型常数（NUM），通过以下正规式定义：ID=letter（letter| digit）*NUM=digit digit *（4）空格由空白、制表符和换行符组成。

空格一般用来分隔ID、NUM,运算符、界符和关键字，词法分析阶段通常被忽略。

2、各种单词符号对应的种别码图 1程序结构描述：符号界符等符号四、实验结果输入begin x:=9: if x>9 then x:=2*x+1/3; end # 后经词法分析输出如下序列：(begin 1)(x 10)(：17)(= 18)(9 11)(；26)(if 2)……如图3所示：图3输入private x:=9;if x>0 then x:=2*x+1/3; end#后经词法分析输出如下序列：(private 10)(x 10)(：17)(= 18)(9 11)(；26)(if 2)……如图4所示：图4显然，private是关键字，却被识别成了标示符，这是因为图1中没有定义private关键字的种别码，所以把private当成了标示符。

输入private x:=9;if x>0 then x:=2*x+1/3; @ end#后经词法分析输出如下序列：(private 10)(x 10)(：17)(= 18)(9 11)(；26)(if 2)……如图5所示图5显然，@没有在图一中定义种别，所以输出了“Error in row 1!”的报错信息。

词法分析实验报告

词法分析实验报告一、实验目的和背景词法分析是编译原理中的重要部分之一，其主要作用是将源程序中的字符序列转化为有意义的单词序列，以便于后续的处理和分析。

为了更好地理解词法分析的实现原理以及掌握相关算法和工具，本次词法分析实验旨在通过手动编写正则表达式、确定有限自动机的状态转移函数和实现词法分析程序来实现词法分析。

二、实验内容在本次实验中，我们需要完成以下任务：1.手动编写正则表达式；2.确定有限自动机的状态转移函数；3.实现词法分析程序。

三、实验过程1.手动编写正则表达式对于给定的源程序，我们首先需要根据其语法规则手动编写正则表达式。

例如，对于一个简单的算术表达式，其正则表达式可以如下所示：i. 数字（0-9）：[0-9]+ii. 加号（+）：\+iii. 减号（-）：-iv. 乘号（*）：\*v. 除号（/）：/vi. 左括号（（）：$vii. 右括号（））：$2.确定有限自动机的状态转移函数根据正则表达式，我们可以确定有限自动机的状态转移函数。

例如，对于上述算术表达式的正则表达式，其有限自动机的状态转移函数如下所示：i. 初始状态（S）：判断下一个字符，如果是数字则进入数字状态，如果是左括号则进入左括号状态；ii. 数字状态（D）：继续判断下一个字符，如果是数字则保持在数字状态，如果是运算符则输出数字记号，返回初始状态，如果是右括号则输出数字记号，返回初始状态；iii. 左括号状态（L）：输出左括号记号，返回初始状态；iv. 右括号状态（R）：输出右括号记号，返回初始状态。

3.实现词法分析程序根据以上的正则表达式和有限自动机的状态转移函数，我们可以编写一个简单的词法分析程序。

该程序的主要流程如下所示：i. 读取源程序的字符序列；ii. 根据有限自动机的状态转移函数，逐个字符进行状态转移；iii. 如果当前状态为接受状态，则输出相应的记号；iv. 继续进行状态转移，直至读取完整个源程序。

四、实验结果通过以上步骤，我们成功完成了对给定源程序的词法分析。

词法分析器实验报告_4

实验一词法分析1．实验要求（1）从源程序文件中读取有效字符和并将其转换成二元组内部表示形式输出。

（2）掌握词法分析的实现方法。

（3）实验时间4学时。

（4）实验完成后，要上交实验报告（包括源程序清单）。

2．实验内容2.1主程序设计考虑：主程序的说明部分为各种表格和变量安排空间（关键字和特殊符号表）。

id 和ci 数组分别存放标识符和常数；还有一些为造表填表设置的变量。

主程序的工作部分建议设计成便于调试的循环结构。

每个循环处理一个单词；接收键盘上送来的一个单词；调用词法分析过程；输出每个单词的内部码（种别编码，属性值）。

2.2词法分析过程考虑该过程根据输入单词的第一个有效字符（有时还需读第二个字符），判断单词种别，产生种别编码。

对于标识符和常数，需分别与标识符表和常数表中已登记的元素相比较，如表中已有该元素，则记录其在表中的位置，如未出现过，将标识符按顺序填入数组id 中，将常数存入数组中ci 中，并记录其在表中的位置。

注：所有识别出的单词都用二元组表示。

第一个表示单词的种别编码。

例如：关键字的t=1；标识符的t=2；常数t=3；运算符t=4；界符t=5。

第二个为该单词在各自表中的指针或内部码值（常数表和标识符表是在编译过程中建立起来的。

其i 值是根据它们在源程序中出现的顺序确定的）。

将词法分析程序设计成独立一遍扫描源程序的结构。

其主流程图如下：图1 词法分析程序流程图程序源代码：#include<stdio.h>#include<stdlib.h>#include<string.h>char *keychar[14]={"int","char","float","void","const","if", "else","do","while","scanf","printf","return","main","read"};//关键字表，全局变量(种别编码为1)char *operatchar[18]={"+","-","*","/","%","=","==",">","<","!=",">=","<=","&&","||","!","<>","++","--"};//运算符表，全局变量（种别编码为2）char *boundschar[8]={"(",")","{","}",";",",","\"","'"};//保留字表，全局变量（种别编码为3）char *markchar[40];//标示符数组（种别编码为4）int markc=0;//记录已经记录的标示符的个数char *conster[40];//常数数组（种别编码为5）int markn=0;//记录已经记录的常数的个数char tempchar[40];//临时用来存放读入的字符int already=0;//全局变量，记录从文件中读出字符的个数char Read()//从文件中读出一个字符{FILE * fcode;char temp;if((fcode=fopen("code.txt","r"))==NULL){printf("无法打开此文件！\n");exit(0);}fseek(fcode,already*sizeof(char),0);//将文件位置移动到标记位置while(!feof(fcode)){already++;temp=fgetc(fcode);if(feof(fcode)){fclose(fcode);exit(0);}fclose(fcode);return temp;}}void ShowCode()//显示文件中的代码{printf("文件中的代码为：\n\n");FILE * fcode;if((fcode=fopen("code.txt","r"))==NULL){printf("无法打开此文件！\n");exit(0);}rewind(fcode);while(!feof(fcode)){putchar(fgetc(fcode));}putchar('\n');fclose(fcode);}void FirstLetter()//处理当程序的首字符为字母时的情况{void Judge();int i=1;char tempch;tempch=Read();while (((tempch>='A'&&tempch<='Z')||(tempch>='a'&&tempch<='z')) ||tempch>='0'&&tempch<='9'){tempchar[i]=tempch;tempch=Read();i++;}if (tempch!=' '){already--;//读出的文件的位置退1}printf("读出的字符为：%s\n",tempchar);int flag=0;for (int j=0;j<14;j++){if (!(strcmp(keychar[j],tempchar)))//若该字符串为关键字{printf("该字符为关键字,二元组为：");printf("<%s,->\n\n",tempchar);flag=1;break;}}if (flag==0)//若字符串为标示符{int flag1=0;char *p;for (int k=0;k<markc;k++)//查找标示符表，是否已存在该标示符{if (!(strcmp(markchar[k],tempchar))){p=markchar[k];flag1=1;break;}if (flag1==0){markchar[markc]=(char*)malloc(strlen(tempchar));strcpy(markchar[markc],tempchar);p=markchar[markc];markc++;}printf("该字符为标示符，二元组为：");printf("<2,%d>\n\n",p);}int l0=strlen(tempchar);for (int l=0;l<l0;l++)//将临时字符数组清零{tempchar[l]='\0';}Judge();}void FirstNum()//处理当程序的首字符为数字时的情况{void Judge();char *p;int i=1;char tempch;tempch=Read();while ((tempch>='0'&&tempch<='9')||tempch=='.'){tempchar[i]=tempch;tempch=Read();i++;}if (tempch!=' '){already--;//读出的文件的位置退1}int flag=0;printf("读出的字符为：%s\n",tempchar);for (int j=0;j<markn;j++){if (!strcmp(conster[j],tempchar)){p=conster[j];flag=1;break;}if (flag==0){conster[markn]=(char*)malloc(strlen(tempchar));strcpy(conster[markn],tempchar);p=conster[markn];markn++;}printf("该字符为常数，二元组为：");printf("<3,%d>\n\n",p);int l0=strlen(tempchar);for (int l=0;l<l0;l++)//将临时字符数组清零{tempchar[l]='\0';}Judge();}void FirstBound()//处理处理当程序的首字符为界符时的情况{void Judge();int i=0;printf("读出的字符为：%s\n",tempchar);printf("该字符为界符，二元组为：");printf("<%s,->\n\n",tempchar);if(tempchar[0]=='"'){do{i++;tempchar[i]=Read();} while (tempchar[i]!='"');if (tempchar[i-1]!='\\'){char*temp1=(char*)malloc(i*sizeof(char));int n=0;for (int j=0;j<i-1;++j){*(temp1+j)=tempchar[j+1];n++;}temp1[i-1]='\0';printf("读出的字符为：%s\n",temp1);conster[markn]=(char*)malloc((i-1)*sizeof(char));strcpy(conster[markn],temp1);char*p=conster[markn];markn++;printf("该字符为常量，二元组为：<3,%d>\n\n",p);free(temp1);}printf("读出的字符为：%c\n",tempchar[i]);printf("该字符为界符，二元组为：<%c,->\n\n",tempchar[i]);}for (int j=0;j<=i;j++){tempchar[j]='\0';}Judge();}void Firstoperat()//处理处理当程序的首字符为界符时的情况{void Judge();tempchar[1]=Read();int flag=0;for (int i=0;i<18;i++){if(!strcmp(tempchar,operatchar[i])){printf("读出的字符为：%s\n",operatchar[i]);printf("该字符为运算符，二元组为：<%s,->\n\n",operatchar[i]);tempchar[1]='\0';flag=1;break;}}if (flag==0){already--;tempchar[1]='\0';for (int i=0;i<18;i++){if (!strcmp(tempchar,operatchar[i])){printf("读出的字符为：%s\n",operatchar[i]);printf("该字符为运算符，二元组为：<%s,->\n\n",operatchar[i]);flag=2;break;}if (flag==0){printf("读出的字符为：%s\n",tempchar);printf("警告！该字符无法识别！\n\n");}}tempchar[0]='\0';Judge();}void Judge() //用来判断第一个读入的字符是数字，字母或者其他字符{do{tempchar[0]=Read();}while ((tempchar[0]==' ')||(tempchar[0]=='\n'));//判断字符类型，并作出处理if ((tempchar[0]>='A'&&tempchar[0]<='Z')||(tempchar[0]>='a'&&tempchar[0]<='z')){FirstLetter();}else if (tempchar[0]>='0'&&tempchar[0]<='9'){FirstNum();}elseif(tempchar[0]=='('||tempchar[0]==')'||tempchar[0]=='{'||tempchar[0]=='}'||tempchar[0]==';'||tempchar[0]==',' ||tempchar[0]=='"'||tempchar[0]=='\''){FirstBound();}else{Firstoperat();}}void main(){ShowCode();Judge();}实验心得：通过此次上机实验，是我掌握了词法分析器的实现过程，以前只是在课堂上学习词法分析器的理论，通过实践，也真正了解到了它的原理，为以后的语法分析打下基础，同时也熟悉了C语言，夯实了C语言的功底！。

词法分析实验报告(实验一)

编译原理词法分析实验报告软工082班兰洁200831104044一、实验内容二、实验目的三、实验预期四、程序规定五、实验原理●程序流程图●判别浮点功能扩展流程图●状态转换图六、程序代码与浮点判别功能扩展七、测试用例●扩展功能测试用例；●普通功能测试用例八、输出结果九、实验心得一、实验内容：词法分析：1、识别简单语言的单词符号；2、识别关键字、标识符、数字、运算符等。

并扩展浮点识别功能。

二、实验目的调试词法分析程序，加深对词法分析原理的理解，掌握编写简单词法分析程序的一般步骤。

三、实验预期结果：经过调试源代码程序，程序能够成功运行编译，对输入的简单字符串，能够别关键字、标识符、数字、运算符等，并且给出单词符号的对应编码。

四、程序规定：1、关键字："function","if","then","while","do","endfunc"；2、算术运算符：”+”,”-”,”*”,”/”,”=”；3、关系运算符："<" ">" "<=" ">=" "==" "!="；4、界符："(" ")" ";" "#"；5、标识符规定以字母开头,字母均为小写；6、空格和换行符跳过；7、单词对应编码：十、实验原理：输入串--------------------〉词法分析程序————————〉单词符号串输入：字符串以#结束。

输出：单词的二元组(syn，token/sum)程序流程图分析浮点数功能扩展部分流程图：shuzi()函数状态转换图六、程序代码：备注：红色字体部分为程序功能的功能扩展，使程序能够分析浮点数！我把浮点数的syn设置为80！/*词法分析源代码*/#include<stdio.h>#include<string.h>scaner();char prog[80],token[8];char ch;int syn,p,m,n,sum;char * rwtab[6]={"function","if","then","while","do","endfunc"}; int i=0,k,c,sumint,f;char fenshu[80],sum1[80];double sumf=0,fudian;int shuzi(){if(ch>='0' && ch<='9')syn=80;elsesyn=-2;return syn;}main(){p=0;printf("\n please input string :\n");do{scanf("%c",&ch);prog[++p]=ch;}while(ch!='#');p=0;do{scaner();switch(syn){ case 11:printf("\n(%d,%d)",syn,sum);break;case -1:printf("\n error");break;case 80:printf("\n(%d,%f)",syn,fudian);break; default:printf("\n(%d,%s)",syn,token);}}while(syn!=0);}scaner(){for(n=0;n<8;n++)token[n]=NULL;//if(1+2!=3)ch=prog[++p];while(ch==' ' || ch=='\n')ch=prog[++p];//跳过空格if(ch>='a' && ch<='z'){m=0;while(ch>='a' && ch<='z' || ch>='0' && ch<='9') {token[m++]=ch;//token[0]=f,m=1ch=prog[++p];}token[m]='\0';ch=prog[--p];syn=10;for(n=0;n<6;n++){if(strcmp(token,rwtab[n])==0){syn=n+1;break;}}}elseif(ch>='0' && ch<='9'){c=p;k=0;do{ sum1[k]=ch;ch=prog[++c]; //ch取后一个数字k++;shuzi();//这个函数用来分析浮点数的整数部分是否已经输入到数组里f=syn;} while(f==80)if(ch=='.'){for(n=0;n<k;n++){sumint=sumint*10+sum1[n]-'0';} //计算整数部分i=0;do{ch=prog[++c];fenshu[i]=ch;i++;shuzi();//这个函数用来分析浮点数的小数部分是否已经输入到数组里} while(syn==80);sumf=0;for(k=i-2;k>=0;k--){sumf=sumf*0.1+(fenshu[k]-'0')*0.1;} //计算浮点数的小数部分fudian=sumint+sumf; //浮点数计算syn=80;p=--c;}else{ch=prog[p];//若是整数，ch等于原来的值 sum=0;while(ch>='0' && ch<='9'){sum=sum*10+ch-'0';ch=prog[++p];}ch=prog[--p];syn=11;}}elseswitch(ch){case'<':m=0;token[m++]=ch;ch=prog[++p];if(ch=='='){syn=22;token[m++]=ch;}elseif(ch=='>'){syn=21;token[m++]=ch;}else{syn=20;ch=prog[--p];}break;case'>':m=0;token[m++]=ch;ch=prog[++p];if(ch=='='){syn=24;token[m++]=ch;}else{syn=23;ch=prog[--p];}break;case'=':m=0;token[m++]=ch;ch=prog[++p];if(ch=='='){syn=25;token[m++]=ch;}else{syn=18;ch=prog[--p];}break;case'!':m=0;token[m++]=ch;ch=prog[++p];if(ch=='='){syn=22;token[m++]=ch;}else{syn=-1;p--;}break;case'+':syn=13;token[0]=ch;break;case'-':syn=14;token[0]=ch;break;case'*':syn=15;token[0]=ch;break;case'/':syn=16;token[0]=ch;break;case';':syn=26;token[0]=ch;break;case'(':syn=27;token[0]=ch;break;case')':syn=28;token[0]=ch;break; case'#':syn=0;token[0]=ch;break;default:syn=-1;}}七、测试用例：补充：功能扩展测试用例：八、程序输出结果：功能扩展测试用例输出结果用例一：用例二：用例三：普通功能测试用例显示结果九、实验心得通过编译原理实验一词法分析实验，使得自己对词法分析的流程有了更深刻的了解，虽然源代码并非由自己设计，但是在调试程序的过程中，尤其是进行测序功能扩展的过程中，想了很多种办法，终于找到了最合适的方法，而且还进行了代码的优化，这个过程虽然有时有些枯燥，但是更多时候是欣喜的，不仅复习了c语言的许多内容，并且有了更深的理解。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

编译原理实验一姓名：朱彦荣学号：专业：软件工程2实验题目：词法分析完成语言：C/C++上级系统：VC++6.0日期：2015/11/7词法分析设计题目：手工设计c语言的词法分析器（可以是c语言的子集）设计内容：处理c语言源程序，过滤掉无用符号，判断源程序中单词的合法性，并分解出正确的单词，以二元组形式存放在文件中。

设计目的：了解高级语言单词的分类，了解状态图以及如何表示并识别单词规则，掌握状态图到识别程序的编程。

结果要求：课程设计报告。

完成日期：第十五周提交报告一．分析要想手工设计词法分析器，实现C语言子集的识别，就要明白什么是词法主要是对源程序进行编译预处理（去除注释、无用的回车换行找到包含的文件等）之后，对整个源程序进行分解，分解成一个个单词，这些单词有且只有五类，分别是标识符、保留字、常数、运算符、界符。

以便为下面的语法分析和语义分析做准备。

可以说词法分析面向的对象是单个的字符，目的是把它们组成有效的单词（字符串）；而语法的分析则是利用词法分析的结果作为输入来分析是否符合语法规则并且进行语法制导下的语义分析，最后产生四元组(中间代码)，进行优化（可有可无）之后最终生成目标代码。

可见词法分析是所有后续工作的基础，如果这一步出错，比如明明是‘<=’却被拆分成‘<’和‘=’就会对下文造成不可挽回的影响。

因此，在进行词法分析的时候一定要定义好这五种符号的集合。

下面是我构造的一个C语言子集。

第一类：标识符letter(letter | digit)* 无穷集第二类：常数(digit)+ 无穷集第三类：保留字(32)auto break case char const continuedefault do double else enum externfloat for goto if int longregister return short signed sizeof staticstruct switch typedef union unsigned voidvolatile while第四类：界符‘/*’、‘//’、() { } [ ] " " ' 等第五类：运算符<、<=、>、>=、=、+、-、*、/、^、等对所有可数符号进行编码：<$,0><auto,1>...<while,32><+，33><-,34><*,35></,36><<,37><<=,38><>,39><>=,40><==,42><!=,43><;,44><(,45><),46><^,47><,,48><",49><',50><#,51><&,52><&&,53><|,54><||,55><%,56><~,57><<<,58>左移<>>,59>右移<[,60><],61><{,62><},63><\,64><.,65><?,66><:,67><!,68>"[","]","{","}"<常数99 ,数值><标识符100 ，标识符指针>上述二元组中左边是单词的符号，右边为其种别码，其中常数和标识符有点特别，因为是无穷集合，因此常数用自身来表示，种别码为99，标识符用标识符符号表的指针表示（当然也可用自身显示，比较容易观察），种别码100。

根据上述约定，一旦见到了种别码syn=63,就唯一确定了‘}’这个单词。

下面是一些变量的约定：//全局变量，保留字表static char reserveWord[32][20] = {"auto", "break", "case", "char", "const", "continue","default", "do", "double", "else", "enum", "extern","float", "for", "goto", "if", "int", "long","struct", "switch", "typedef", "union", "unsigned", "void","volatile", "while"};//界符运算符表,根据需要可以自行增加static char operatorOrDelimiter[36][10]={"+","-","*","/","<","<=",">",">=","=","==","!=",";","(",")","^",",","\"","\'","#","&","&&","|","||","%","~","<<",">>","[","]","{","}","\\",".","\?",":","!"};static char IDentifierTbl[1000][50]={""};//标识符表char resourceProject[10000];//输入的源程序存放处，最大可以存放10000个字符。

char token[20]={0};//每次扫描的时候存储已经扫描的结果。

int syn=-1;//syn即为种别码，约定‘$’的种别码为0，为整个源程序的结束符号一旦扫描到这个字符代表扫描结束int pProject = 0;//源程序指针，始终指向当前源程序待扫描位置。

几个重要函数：//查找保留字，若成功查找，则返回种别码//否则返回-1，代表查找不成功，即为标识符int searchReserve(char reserveWord[ ][20], char s[])/*********************判断是否为字母********************/bool IsLetter(char letter)/*****************判断是否为数字************************/bool IsDigit(char digit)/********************编译预处理，取出无用的字符和注释**********************/void filterResource(char r[],int pProject)/****************************分析子程序，算法核心***********************/void Scanner(int &syn,char resourceProject[],char token[],int &pProject)下面说一下整个程序的流程：1.词法分析程序打开源文件，读取文件内容，直至遇上’$’文件结束符，然后读取结束。

2.对读取的文件进行预处理，从头到尾进行扫描，去除//和/* */的内容，以及一些无用的、影响程序执行的符号如换行符、回车符、制表符等。

但是千万注意不要在这个时候去除空格，因为空格在词法分析中有用，比如说int i=3;这个语句，如果去除空格就变成了“inti=3”,这样就失去了程序的本意，因此不能在这个时候去除空格。

3.选下面就要对源文件从头到尾进行扫描了，从头开始扫描，这个时候扫描程序首先要后询问这个字符是不是字母，若是则进行标识符和保留字的识别；若这个字符为数字，则进行数字的判断。

否则，依次对这个字符可能的情况进行判断，若是将所有可能都走了一遍还是没有知道它是谁，则认定为错误符号，输出该错误符号，然后结束。

每次成功识别了一个单词后，单词都会存在token[ ]中。

然后确定这个单词的种别码，最后进行下一个单词的识别。

这就是扫描程序进行的工作，可以说这个程序彻底实现了确定有限自动机的某些功能，比如说识别标识符，识别数字等。

为了简单起见，这里的数字只是整数。

4.主控程序主要负责对每次识别的种别码syn进行判断，对于不同的单词种别做出不同的反应，如对于标识符则将其插入标识符表中。

对于保留字则输出该保留字的种别码和助记符，等等吧。

直至遇到syn=0;程序结束。

二．流程图下面是程序的流程图：三．运行与测试比如说，就拿这个源程序的一部分进行测试：运行程序后结果为：同样单词也写入了文件如下：。

综上分析，达到了预期的结果。

四．实验体会每做一次比较大的实验，都应该写一下实验体会，来加深自己对知识的认识。

其实这次的实验，算法部分并不难，只要知道了DFA，这个模块很好写，比较麻烦的就是五种类型的字符个数越多程序就越长。

但为了能识别大部分程序，我还是用了比较大的子集，还是值得的。