词法分析实验报告

合集下载

编译原理词法分析实验报告

编译原理词法分析实验报告实验名称:词法分析器的设计与实现一、实验目的：1.熟悉编译原理中词法分析的基本概念和原理；2.掌握正则表达式的使用方法；3.实现一个简单的词法分析器。

二、实验内容：1.设计一个简单的编程语言，包含如下几种类型的词法单元：关键字、标识符、常量、运算符和界符。

2.使用正则表达式定义每种词法单元的模式。

3.设计一个词法分析器，将源代码中的每个词法单元识别出来并输出。

三、实验步骤：1. 确定编程语言的词法单元类型和正则表达式模式，定义相应的单词类型（如 TokenType）和模式（如 regex）。

2. 实现一个词法分析器的类 Lexer，包含以下方法：(1)一个构造方法，用于初始化词法分析器的输入源代码。

(2) 一个getNextToken方法，用于获取源代码中的下一个词法单元。

3. 在getNextToken方法中，使用正则表达式逐个识别源代码中的词法单元，并返回相应的Token对象。

4. 设计一个Token类，包含以下属性：词法单元类型、词法单元的值和位置信息等。

5.在主程序中使用词法分析器，将源代码中的每个词法单元识别出来并输出。

四、实验结果：1.设计一个简单的编程语言，包含如下词法单元类型（示例）：(1) 关键字：if、else、while、for等；(2)标识符：变量名等；(3)常量：整数、浮点数、字符串等；(4)运算符：+、-、*、/、=等；(5)界符：(、)、{、}、;等。

2. 实现一个词法分析器，识别出源代码中的每个词法单元，并输出相应的Token对象。

五、实验总结：通过本次实验，我熟悉了编译原理中词法分析的基本概念和原理，并掌握了正则表达式的使用方法。

我成功完成了一个简单的词法分析器的设计与实现，实现了源代码中每个词法单元的识别与输出。

这次实验对我深化了对编译原理中词法分析的理解，并提高了我的编程能力。

词法分析程序实验报告

词法分析程序实验报告篇一：词法分析器_实验报告词法分析器实验报告实验目的：设计、编制、调试一个词法分析子程序－识别单词，加深对词法分析原理的理解。

实验要求：该程序要实现的是一个读单词过程，从输入的源程序中，识别出各个具有独立意义的单词，即基本保留字、标识符、常数、运算符、分界符五大类。

并依次输出各个单词的内部编码及单词符号自身值。

（一）实验内容（1）功能描述：对给定的程序通过词法分析器弄够识别一个个单词符号，并以二元式(单词种别码，单词符号的属性值)显示。

而本程序则是通过对给定路径的文件的分析后以单词符号和文字提示显示。

（2）程序结构描述：函数调用格式:参数含义：String string;存放读入的字符串 String str; 存放暂时读入的字符串 char ch; 存放读入的字符 int rs 判断读入的文件是否为空 char []data 存放文件中的数据 int m；通过switch用来判断字符类型，函数之间的调用关系图:函数功能：Judgement（）判断输入的字符并输出单词符号，返回值为空； getChar() 读取文件的，返回值为空；isLetter(char c) 判断读入的字符是否为字母的，返回值为Boolean类型； switch (m) 判断跳转输出返回值为空；isOperator(char c)判断是否为运算符的，返回值为Boolean类型； isKey(String string)判断是否为关键字的，返回值为Boolean类型； isDigit(char c) 判断读入的字符是否为数字的，返回值为Boolean类型。

（二）实验过程记录：本次实验出错3次，第一次无法输出双运算符，于是采用双重if条件句进行判断，此方法失败，出现了重复输出，继续修改if语句，仍没有成功。

然后就采用了直接方法调用解决此问题。

对于变量的判断，开始忘了考虑字母和数字组成的变量，结果让字母和数字分家了，不过改变if语句的条件，解决了此问题。

词法分析实验报告

词法分析实验报告词法分析实验报告引言词法分析是自然语言处理中的一个重要环节，它负责将输入的文本分割成一个个的词语，并确定每个词语的词性。

本次实验旨在通过实现一个简单的词法分析器，来探索词法分析的原理和实践。

实验内容本次实验中，我们使用Python编程语言来实现词法分析器。

我们选取了一段简单的英文文本作为输入，以便更好地理解和演示词法分析的过程。

1. 文本预处理在进行词法分析之前，我们首先需要对输入文本进行预处理。

预处理的目的是去除文本中的标点符号、空格和其他无关的字符，以便更好地进行后续的分词操作。

2. 分词分词是词法分析的核心步骤之一。

在这个步骤中，我们将文本分割成一个个的词语。

常见的分词方法包括基于规则的分词和基于统计的分词。

在本次实验中，我们选择了基于规则的分词方法。

基于规则的分词方法通过事先定义一系列的分词规则来进行分词。

这些规则可以是基于语法的，也可以是基于词典的。

在实验中，我们使用了一个简单的基于词典的分词规则，即根据英文单词的常见前缀和后缀来进行分词。

3. 词性标注词性标注是词法分析的另一个重要步骤。

在这个步骤中，我们为每个词语确定其词性。

词性标注可以通过事先定义的规则和模型来进行。

在本次实验中，我们使用了一个简单的基于规则的词性标注方法。

基于规则的词性标注方法通过定义一系列的词性标注规则来进行词性标注。

这些规则可以是基于词法的，也可以是基于语法的。

在实验中，我们使用了一个简单的基于词法的词性标注规则，即根据英文单词的后缀来确定其词性。

实验结果经过实验，我们得到了输入文本的分词结果和词性标注结果。

分词结果如下：- I- love- natural- language- processing词性标注结果如下：- I (代词)- love (动词)- natural (形容词)- language (名词)- processing (名词)讨论与总结通过本次实验，我们深入了解了词法分析的原理和实践。

【编译原理】词法分析（CC++源代码+实验报告）

【编译原理】词法分析（CC++源代码+实验报告）⽂章⽬录1 实验⽬的和内容1.1实验⽬的（1）根据 PL/0 语⾔的⽂法规范，编写PL/0语⾔的词法分析程序；或者调研词法分析程序的⾃动⽣成⼯具LEX或FLEX，设计并实现⼀个能够输出单词序列的词法分析器。

（2）通过设计调试词法分析程序，实现从源程序中分离出各种类型的单词；加深对课堂教学的理解；提⾼词法分析⽅法的实践能⼒。

（3）掌握从源程序⽂件中读取有效字符的⽅法和产⽣源程序的内部表⽰⽂件的⽅法。

（4）掌握词法分析的实现⽅法。

（5）上机调试编出的词法分析程序。

1.2实验内容根据PL/0语⾔的⽂法规范，编写PL/0语⾔的词法分析程序。

要求：（1）把词法分析器设计成⼀个独⽴⼀遍的过程。

（2）词法分析器的输出形式采⽤⼆元式序列，即：(单词种类, 单词的值)2 设计思想2.1单词种类及其正规式（1）基本字单词的值单词类型正规式rbegin beginsym begincall callsym callconst constsym constdo dosym doend endsym endif ifsym ifodd oddsym oddprocedure proceduresym procedureread readsym readthen thensym thenvar varsym varwhile whilesym whilewrite writesym write（2）标识符单词的值单词类型正规式r标识符ident(字母)(字母|数字)*（3）常数单词的值单词类型正规式r常数number(数字)(数字)*（4）运算符单词的值单词类型正规式r+plus+-minus-*times*/slash/=eql=<>neq<><lss<<=leq<=>gtr>>=geq>=:=becomes:=（5）界符单词的值单词类型正规式r(lparen()rparen)，comma，；semicolon；.period.2.2 根据正规式构造NFA下⾯我们根据上述的正规式来构造该⽂法的NFA，如下图所⽰，其中状态0为初态，凡带双圈的状态均为终态，状态24是识别不出单词符号的出错情形，其他状态的识别情况如下图中右边的注释所⽰。

实验一词法分析实验报告1

实验一词法分析一、实验目的通过设计编制调试一个具体的词法分析程序，加深对词法分析原理的理解。

并掌握在对程序设计语言源程序进行扫描过程中将其分解为各类单词的词法分析方法。

编制一个读单词过程，从输入的源程序中，识别出各个具有独立意义的单词，即基本保留字、标识符、常数、运算符、分隔符五大类。

并依次输出各个单词的内部编码与单词符号自身值。

（遇到错误时可显示“Error”，然后跳过错误部分继续显示）二、实验要求使用一符一种的分法关键字、运算符和分界符可以每一个均为一种标识符和常数仍然一类一种三、实验内容功能描述：1、待分析的简单语言的词法（1）关键字：begin if then while do end（2）运算符和界符：（3）其他单词是标识符（ID）和整型常数（NUM），通过以下正规式定义：ID=letter（letter| digit）*NUM=digit digit *（4）空格由空白、制表符和换行符组成。

空格一般用来分隔ID、NUM,运算符、界符和关键字，词法分析阶段通常被忽略。

2、各种单词符号对应的种别码图 1程序结构描述：符号界符等符号四、实验结果输入begin x:=9: if x>9 then x:=2*x+1/3; end # 后经词法分析输出如下序列：(begin 1)(x 10)(：17)(= 18)(9 11)(；26)(if 2)……如图3所示：图3输入private x:=9;if x>0 then x:=2*x+1/3; end#后经词法分析输出如下序列：(private 10)(x 10)(：17)(= 18)(9 11)(；26)(if 2)……如图4所示：图4显然，private是关键字，却被识别成了标示符，这是因为图1中没有定义private关键字的种别码，所以把private当成了标示符。

输入private x:=9;if x>0 then x:=2*x+1/3; @ end#后经词法分析输出如下序列：(private 10)(x 10)(：17)(= 18)(9 11)(；26)(if 2)……如图5所示图5显然，@没有在图一中定义种别，所以输出了“Error in row 1!”的报错信息。

词法分析实验报告

词法分析实验报告一、实验目的和背景词法分析是编译原理中的重要部分之一，其主要作用是将源程序中的字符序列转化为有意义的单词序列，以便于后续的处理和分析。

为了更好地理解词法分析的实现原理以及掌握相关算法和工具，本次词法分析实验旨在通过手动编写正则表达式、确定有限自动机的状态转移函数和实现词法分析程序来实现词法分析。

二、实验内容在本次实验中，我们需要完成以下任务：1.手动编写正则表达式；2.确定有限自动机的状态转移函数；3.实现词法分析程序。

三、实验过程1.手动编写正则表达式对于给定的源程序，我们首先需要根据其语法规则手动编写正则表达式。

例如，对于一个简单的算术表达式，其正则表达式可以如下所示：i. 数字（0-9）：[0-9]+ii. 加号（+）：\+iii. 减号（-）：-iv. 乘号（*）：\*v. 除号（/）：/vi. 左括号（（）：$vii. 右括号（））：$2.确定有限自动机的状态转移函数根据正则表达式，我们可以确定有限自动机的状态转移函数。

例如，对于上述算术表达式的正则表达式，其有限自动机的状态转移函数如下所示：i. 初始状态（S）：判断下一个字符，如果是数字则进入数字状态，如果是左括号则进入左括号状态；ii. 数字状态（D）：继续判断下一个字符，如果是数字则保持在数字状态，如果是运算符则输出数字记号，返回初始状态，如果是右括号则输出数字记号，返回初始状态；iii. 左括号状态（L）：输出左括号记号，返回初始状态；iv. 右括号状态（R）：输出右括号记号，返回初始状态。

3.实现词法分析程序根据以上的正则表达式和有限自动机的状态转移函数，我们可以编写一个简单的词法分析程序。

该程序的主要流程如下所示：i. 读取源程序的字符序列；ii. 根据有限自动机的状态转移函数，逐个字符进行状态转移；iii. 如果当前状态为接受状态，则输出相应的记号；iv. 继续进行状态转移，直至读取完整个源程序。

四、实验结果通过以上步骤，我们成功完成了对给定源程序的词法分析。

词法分析实验报告(实验一)

编译原理词法分析实验报告软工082班兰洁200831104044一、实验内容二、实验目的三、实验预期四、程序规定五、实验原理●程序流程图●判别浮点功能扩展流程图●状态转换图六、程序代码与浮点判别功能扩展七、测试用例●扩展功能测试用例；●普通功能测试用例八、输出结果九、实验心得一、实验内容：词法分析：1、识别简单语言的单词符号；2、识别关键字、标识符、数字、运算符等。

并扩展浮点识别功能。

二、实验目的调试词法分析程序，加深对词法分析原理的理解，掌握编写简单词法分析程序的一般步骤。

三、实验预期结果：经过调试源代码程序，程序能够成功运行编译，对输入的简单字符串，能够别关键字、标识符、数字、运算符等，并且给出单词符号的对应编码。

四、程序规定：1、关键字："function","if","then","while","do","endfunc"；2、算术运算符：”+”,”-”,”*”,”/”,”=”；3、关系运算符："<" ">" "<=" ">=" "==" "!="；4、界符："(" ")" ";" "#"；5、标识符规定以字母开头,字母均为小写；6、空格和换行符跳过；7、单词对应编码：十、实验原理：输入串--------------------〉词法分析程序————————〉单词符号串输入：字符串以#结束。

输出：单词的二元组(syn，token/sum)程序流程图分析浮点数功能扩展部分流程图：shuzi()函数状态转换图六、程序代码：备注：红色字体部分为程序功能的功能扩展，使程序能够分析浮点数！我把浮点数的syn设置为80！/*词法分析源代码*/#include<stdio.h>#include<string.h>scaner();char prog[80],token[8];char ch;int syn,p,m,n,sum;char * rwtab[6]={"function","if","then","while","do","endfunc"}; int i=0,k,c,sumint,f;char fenshu[80],sum1[80];double sumf=0,fudian;int shuzi(){if(ch>='0' && ch<='9')syn=80;elsesyn=-2;return syn;}main(){p=0;printf("\n please input string :\n");do{scanf("%c",&ch);prog[++p]=ch;}while(ch!='#');p=0;do{scaner();switch(syn){ case 11:printf("\n(%d,%d)",syn,sum);break;case -1:printf("\n error");break;case 80:printf("\n(%d,%f)",syn,fudian);break; default:printf("\n(%d,%s)",syn,token);}}while(syn!=0);}scaner(){for(n=0;n<8;n++)token[n]=NULL;//if(1+2!=3)ch=prog[++p];while(ch==' ' || ch=='\n')ch=prog[++p];//跳过空格if(ch>='a' && ch<='z'){m=0;while(ch>='a' && ch<='z' || ch>='0' && ch<='9') {token[m++]=ch;//token[0]=f,m=1ch=prog[++p];}token[m]='\0';ch=prog[--p];syn=10;for(n=0;n<6;n++){if(strcmp(token,rwtab[n])==0){syn=n+1;break;}}}elseif(ch>='0' && ch<='9'){c=p;k=0;do{ sum1[k]=ch;ch=prog[++c]; //ch取后一个数字k++;shuzi();//这个函数用来分析浮点数的整数部分是否已经输入到数组里f=syn;} while(f==80)if(ch=='.'){for(n=0;n<k;n++){sumint=sumint*10+sum1[n]-'0';} //计算整数部分i=0;do{ch=prog[++c];fenshu[i]=ch;i++;shuzi();//这个函数用来分析浮点数的小数部分是否已经输入到数组里} while(syn==80);sumf=0;for(k=i-2;k>=0;k--){sumf=sumf*0.1+(fenshu[k]-'0')*0.1;} //计算浮点数的小数部分fudian=sumint+sumf; //浮点数计算syn=80;p=--c;}else{ch=prog[p];//若是整数，ch等于原来的值 sum=0;while(ch>='0' && ch<='9'){sum=sum*10+ch-'0';ch=prog[++p];}ch=prog[--p];syn=11;}}elseswitch(ch){case'<':m=0;token[m++]=ch;ch=prog[++p];if(ch=='='){syn=22;token[m++]=ch;}elseif(ch=='>'){syn=21;token[m++]=ch;}else{syn=20;ch=prog[--p];}break;case'>':m=0;token[m++]=ch;ch=prog[++p];if(ch=='='){syn=24;token[m++]=ch;}else{syn=23;ch=prog[--p];}break;case'=':m=0;token[m++]=ch;ch=prog[++p];if(ch=='='){syn=25;token[m++]=ch;}else{syn=18;ch=prog[--p];}break;case'!':m=0;token[m++]=ch;ch=prog[++p];if(ch=='='){syn=22;token[m++]=ch;}else{syn=-1;p--;}break;case'+':syn=13;token[0]=ch;break;case'-':syn=14;token[0]=ch;break;case'*':syn=15;token[0]=ch;break;case'/':syn=16;token[0]=ch;break;case';':syn=26;token[0]=ch;break;case'(':syn=27;token[0]=ch;break;case')':syn=28;token[0]=ch;break; case'#':syn=0;token[0]=ch;break;default:syn=-1;}}七、测试用例：补充：功能扩展测试用例：八、程序输出结果：功能扩展测试用例输出结果用例一：用例二：用例三：普通功能测试用例显示结果九、实验心得通过编译原理实验一词法分析实验，使得自己对词法分析的流程有了更深刻的了解，虽然源代码并非由自己设计，但是在调试程序的过程中，尤其是进行测序功能扩展的过程中，想了很多种办法，终于找到了最合适的方法，而且还进行了代码的优化，这个过程虽然有时有些枯燥，但是更多时候是欣喜的，不仅复习了c语言的许多内容，并且有了更深的理解。

编译原理词法分析报告

实验一：词法分析一、实验目的：1、通过设计编制调试一个具体的词法分析程序，加深对词法分析原理的理解。

并掌握在对程序设计语言源程序进行扫描过程中将其分解为各类单词的词法分析方法。

2、编制一个读单词过程，从输入的源程序中，识别出各个具有独立意义的单词，即基本关键字、标识符、常数、运算符、分隔符五大类。

并依次输出各个单词的内部编码及单词符号自身值。

（遇到错误时可显示“Error”，然后跳过错误部分继续显示）二、实验预习提示1、词法分析器的功能和输出格式词法分析器的功能是输入源程序，输出单词符号。

词法分析器的单词符号常常表示成以下的二元式(单词种别码，单词符号的属性值)。

本实验中，采用的是一类符号一种别码的方式。

2、单词的BNF表示<标识符>-> <字母><字母数字串><字母数字串>-><字母><字母数字串>|<数字><字母数字串>|<下划线><字母数字串>|ε<无符号整数>-> <数字><数字串><数字串>-> <数字><数字串> |ε<加法运算符>-> +<减法运算符>->-<大于关系运算符>->><大于等于关系运算符>-> >=3、“超前搜索”方法词法分析时，常常会用到超前搜索方法。

如当前待分析字符串为“a>+”,当前字符为’>’，此时，分析器到底是将其分析为大于关系运算符还是大于等于关系运算符呢？显然，只有知道下一个字符是什么才能下结论。

于是分析器读入下一个字符’+’，这时可知应将’>’解释为大于运算符。

但此时，超前读了一个字符’+’，所以要回退一个字符，词法分析器才能正常运行。

在分析标识符，无符号整数等时也有类似情况。

实验一词法分析报告

实验一词法分析1．实验要求（1）从源程序文件中读取有效字符并将其转换成二元组内部表示形式输出。

（2）掌握词法分析的实现方法。

（3）实验时间4学时。

（4）实验完成后，要提交实验报告（包括源程序清单）。

2．实验内容2.1主程序设计考虑：主程序的说明部分为各种表格和变量安排空间（关键字和特殊符号表）。

id 和ci 数组分别存放标识符和常数；还有一些为造表填表设置的变量。

主程序的工作部分建议设计成便于调试的循环结构。

每个循环处理一个单词；调用词法分析过程；输出每个单词的内部码（种别编码，属性值）。

建议从文件中读取要分析的符号串。

2.2词法分析过程考虑该过程根据输入单词的第一个有效字符（有时还需读第二个字符），判断单词种别，产生种别编码。

对于标识符和常数，需分别与标识符表和常数表中已登记的元素相比较，如表中已有该元素，则记录其在表中的位置，如未出现过，将标识符按顺序填入数组id 中，将三：主流程图如下：四：实验思路（1）我首先把这个单词的种类分成了五类，包括：关键字、标识符、常数、算符、界符。

然后利用状态转换图进行单词的识别（2）对于关键字、算符、界符。

因为这些单词的个数有限。

所以我单独给每个单词一个种别编码。

能够做到每个单词的种别编码是不一样的。

而对于常数和标识符，我先把它们分别单独的作为一类，然后定义一个二维数组，分别存放这个单词的名称和编码。

而这个编码就是这个单词在这个二维数组中的位置；当遇到新的标识符或常数，就把这个单词放入到相应的数组中。

（3）然后构造一个状态转换图的程序。

把每次得到的单词先暂时存放在temp 二维数组中。

然后用这个临时的二维数组去确定这个单词是何种类别五：实验代码using System;using System.Collections.Generic;using ponentModel;using System.Data;using System.Drawing;using System.Linq;using System.Text;using System.Threading.Tasks;using System.Windows.Forms;namespace Word{public partial class Form1 : Form{public Form1(){InitializeComponent();}char[] receive; //从输入得到的源程序char ch; //这是从源程序读取的一个字符string cache; //暂存的单词int index; //记录取到哪个位置了key_word temp; //用来临时存放得到这个单词struct key_word{public string key_name;public int number;}struct num_word{public string num_name;public int number;}struct ID_word{public string ID_name;public int number;}public int num_index;public int ID_index;DataTable dt;private void button1_Click(object sender, EventArgs e){dt = new DataTable();dt.Columns.Add("助记符");dt.Columns.Add("外部编码");dt.Columns.Add("内部编码");dt.Columns.Add("类型");receive = textBox1.Text.ToCharArray();index = 0;num_index = 0;ID_index = 0;;while (index < receive.Length){cache = null;Get_Word();if (temp.number == 1){int i = 0;int flag = 0;if (num_index == 0){Num[num_index].num_name = temp.key_name;Num[num_index].number = num_index;num_index++;}else{for (i = 0; i < num_index; i++){if (Num[i].num_name == temp.key_name){flag = i;break;}}if (i >= num_index){Num[num_index].num_name = temp.key_name;Num[num_index].number = num_index;flag = num_index;num_index++;}}DataRow dr = dt.NewRow();dt.Rows.Add(dr);dr["助记符"] = temp.key_name;dr["内部编码"] = +Num[flag].number;dr["类型"] = "常数";}else if (temp.number == 0){int i = 0;int flag = 0;if (ID_index == 0){ID[ID_index].ID_name = temp.key_name;ID[ID_index].number = ID_index;ID_index++;}else{for (i = 0; i < ID_index; i++){if (ID[i].ID_name == temp.key_name){flag = i;break;}}if (i >= ID_index){ID[ID_index].ID_name = temp.key_name;ID[ID_index].number = ID_index;flag = ID_index;ID_index++;}}DataRow dr = dt.NewRow();dt.Rows.Add(dr);dr["助记符"] = temp.key_name;dr["外部编码"] = temp.number;dr["内部编码"] = ID[flag].number;dr["类型"] = "标识符";}else{DataRow dr = dt.NewRow();dt.Rows.Add(dr);dr["助记符"] = temp.key_name;if (temp.number >= 15 && temp.number <= 30){dr["类型"] = "运算符";}else if (temp.number >= 31 && temp.number <= 40){dr["类型"] = "界符";}else{dr["类型"] = "关键字";}}}this.dataGridView1.DataSource = dt;}key_word[] Key;num_word[] Num;ID_word[] ID;private void Form1_Load(object sender, EventArgs e){index = 0;Key = new key_word[41];Key[0].key_name = "$ID"; Key[0].number = 0; //标识符Key[1].key_name = "$INT"; Key[1].number = 1; //数Key[2].key_name = "int"; Key[2].number = 2; Key[3].key_name = "float"; K ey[3].number = 3;Key[4].key_name = "void"; Key[4].number = 4; Key[5].key_name = "const"; Key[5].number = 5; Key[6].key_name = "if"; Key[6].number = 6; Key[7].key_name = "el se"; Key[7].number = 7;Key[8].key_name = "do"; Key[8].number = 8; Key[9].key_name = "while"; Key[9].number = 9; Key[10].key_name = "scanf"; Key[10].number = 10; Key[11].key_nam e = "printf"; Key[11].number = 11;Key[12].key_name = "return"; Key[12].number = 12; Key[13].key_name = " main"; Key[13].number = 13; Key[14].key_name = "read"; Key[14].number = 14;Key[15].key_name = "+"; Key[15].number = 15;Key[16].key_name = "-"; Key[16].number = 16; Key[17].key_name = "*"; K ey[17].number = 17; Key[18].key_name = "/"; Key[18].number = 18; Key[19].key_name = "%"; Key[19].number = 19;Key[20].key_name = "="; Key[20].number = 20; Key[21].key_name = "=="; Key[21].number = 21; Key[22].key_name = ">"; Key[22].number = 22; Key[23].key_name = "<"; Key[23].number = 23;Key[24].key_name = "!="; Key[24].number = 24; Key[25].key_name = ">="; Key[25].number = 25; Key[26].key_name = "<="; Key[26].number = 26; Key[27].key_na me = "&&"; Key[27].number = 27;Key[28].key_name = "||"; Key[28].number = 28; Key[29].key_name = "!"; K ey[29].number = 29; Key[30].key_name = "<>";Key[30].number = 30;Key[31].key_name = "("; Key[31].number = 31;Key[32].key_name = ")"; Key[32].number = 32; Key[33].key_name = "{"; K ey[33].number = 33;Key[34].key_name = "}"; Key[34].number = 34; Key[35].key_name = ";"; K ey[35].number = 35;Key[36].key_name = ","; Key[36].number = 36; Key[37].key_name = "\""; K ey[37].number = 37; Key[38].key_name = "'"; Key[38].number = 38; Key[39].key_name = "++"; Key[39].number = 39;Key[40].key_name = "--"; Key[40].number = 40;Num = new num_word[1024];ID = new ID_word[1024];}public void GetChar() //得到一个字符{if (index < receive.Length){ch = receive[index];index++;}else{ch = '\0';}}public void GetNotKong() //得到一个不是空的字符{while (index < receive.Length){ch = receive[index];index++;if (ch != ' ' && ch != '\r' && ch != '\0' && ch != '\n'){break;}}}public void ConCat() //连接{cache += ch;}public bool IsLetter() //判断是不是字母{if (ch >= 'A' && ch <= 'Z' || ch >= 'a' && ch <= 'z') {return true;}else{return false;}}public bool IsDigit() //判断是不是数字{if (ch >= '0' && ch <= '9'){return true;}else{return false;}}public int Get_Number() //得到这个单词的编码{for (int i = 0; i < 41; i++){if (string.Equals(cache, Key[i].key_name)){return Key[i].number;}}{return 0;}}public void retrace() //退回一个单词{if (ch != '\0'){index--;}private void Get_Word(){int count;GetNotKong();if (ch >= 'A' && ch <= 'Z' || ch >= 'a' && ch <= 'z') {ConCat();GetChar();while (IsLetter() || IsDigit()){ConCat();GetChar();}retrace();count = Get_Number();temp.key_name = cache;if (count == 0){temp.number = 0;}else{temp.number = Key[count].number;}}else if (ch >= '0' && ch <= '9'){ConCat();GetChar();while (IsDigit()){ConCat();GetChar();}retrace();temp.key_name = cache;temp.number = 1;}else if (ch == '+')ConCat();GetChar();if (ch == '+'){ConCat();temp.key_name = cache;temp.number = 39;}else{retrace();temp.key_name = cache;temp.number = Get_Number();}}else if (ch == '-'){ConCat();GetChar();if (ch == '-'){ConCat();temp.key_name = cache;temp.number = 40;}else{retrace();temp.key_name = cache;temp.number = Get_Number();}}else if (ch == '<'){ConCat();GetChar();if (ch == '='){ConCat();temp.key_name = cache;temp.number = 26;}else{retrace();temp.key_name = cache;temp.number = Get_Number();}}else if (ch == '>'){ConCat();GetChar();if (ch == '='){ConCat();temp.key_name = cache;temp.number = 25;}else{retrace();temp.key_name = cache;temp.number = Get_Number();}}else if (ch == '='){ConCat();GetChar();if (ch == '='){ConCat();temp.key_name = cache;temp.number = 21;}else{retrace();temp.key_name = cache;temp.number = Get_Number();}}else if (ch == '!'){ConCat();GetChar();if (ch == '='){ConCat();temp.key_name = cache;temp.number = 24;}else{retrace();temp.key_name = cache;temp.number = Get_Number();}}else if (ch == '&'){ConCat();GetChar();if (ch == '&'){ConCat();temp.key_name = cache;temp.number = 27;}else{retrace();temp.key_name = cache;temp.number = Get_Number();}}else if (ch == '|'){ConCat();GetChar();if (ch == '|'){ConCat();temp.key_name = cache;temp.number = 28;}else{retrace();temp.key_name = cache;temp.number = Get_Number();}}else{ConCat();temp.key_name = cache;temp.number = Get_Number();}}}}六：实验截图（1）我测试的程序为void main(){ int a=20;int b=15;if(a==20)printf("A");if(b==20)printf("B");}七：实验心得通过这次实验、我对于词法分析需要做的任务有了一个更加深刻的理解。

词法分析实验报告文献

一、实验目的1. 深入理解词法分析的基本原理和过程。

2. 掌握词法分析器的设计与实现方法。

3. 熟悉C语言编程，并能够将其应用于词法分析程序的开发。

4. 培养问题分析和解决能力，提高编程技能。

二、实验原理词法分析是编译过程中的第一步，其主要任务是将源程序中的字符序列转换为一系列具有独立意义的单词符号（Token）。

词法分析器通过识别单词的构词规则，将源程序分解为一个个单词符号，为后续的语法分析和语义分析提供基础。

三、实验内容1. 词法分析器的设计本实验采用C语言实现一个简单的词法分析器，主要功能如下：- 识别并分类单词符号，包括关键字、标识符、常量、运算符和界符等。

- 对输入的源程序进行词法分析，输出每个单词符号及其对应的种别码。

- 处理词法错误，并给出错误提示。

2. 词法分析器的实现（1）数据结构- 关键字表：存储C语言中的关键字。

- 标识符表：存储用户自定义的标识符。

- 常量表：存储整型常量。

- 运算符表：存储C语言中的运算符。

- 界符表：存储C语言中的界符。

（2）主要函数- `isLetter(char c)`：判断字符是否为字母。

- `isDigit(char c)`：判断字符是否为数字。

- `alpha(char c)`：识别字母。

- `number(char c)`：识别整数。

- `anotation(char c)`：处理除号、注释以及其他特殊字符。

- `other(char c)`：处理其他字符。

（3）词法分析过程- 读取源程序中的字符。

- 根据字符类型调用相应的函数进行识别。

- 将识别出的单词符号及其种别码存储在相应的表中。

四、实验步骤1. 编写源程序，实现词法分析器。

2. 编写测试用例，对词法分析器进行测试。

3. 分析测试结果，验证词法分析器的正确性。

五、实验结果与分析1. 测试用例- 测试用例1：包含关键字、标识符、常量、运算符和界符的简单C程序。

- 测试用例2：包含错误标识符和运算符的C程序。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

编译原理实验一姓名：朱彦荣学号：20132184 专业：软件工程2 实验题目：词法分析完成语言：C/C++上级系统：VC++6.0日期：2015/11/7词法分析设计题目：手工设计c语言的词法分析器（可以是c语言的子集）设计容：处理c语言源程序，过滤掉无用符号，判断源程序中单词的合法性，并分解出正确的单词，以二元组形式存放在文件中。

设计目的：了解高级语言单词的分类，了解状态图以及如何表示并识别单词规则，掌握状态图到识别程序的编程。

结果要求：课程设计报告。

完成日期：第十五周提交报告一．分析要想手工设计词法分析器，实现C语言子集的识别，就要明白什么是词法分析器，它的功能是什么。

词法分析是编译程序进行编译时第一个要进行的任务，主要是对源程序进行编译预处理（去除注释、无用的回车换行找到包含的文件等）之后，对整个源程序进行分解，分解成一个个单词，这些单词有且只有五类，分别是标识符、保留字、常数、运算符、界符。

以便为下面的语法分析和语义分析做准备。

可以说词法分析面向的对象是单个的字符，目的是把它们组成有效的单词（字符串）；而语法的分析则是利用词法分析的结果作为输入来分析是否符合语法规则并且进行语法制导下的语义分析，最后产生四元组(中间代码)，进行优化（可有可无）之后最终生成目标代码。

可见词法分析是所有后续工作的基础，如果这一步出错，比如明明是‘<=’却被拆分成‘<’和‘=’就会对下文造成不可挽回的影响。

因此，在进行词法分析的时候一定要定义好这五种符号的集合。

下面是我构造的一个C语言子集。

第一类：标识符 letter(letter | digit)* 无穷集第二类：常数 (digit)+ 无穷集第三类：保留字(32)auto break case char const continuedefault do double else enum externfloat for goto if int longregister return short signed sizeof staticstruct switch typedef union unsigned voidvolatile while第四类：界符‘/*’、‘//’、 () { } [ ] " " ' 等第五类：运算符 <、<=、>、>=、=、+、-、*、/、^、等对所有可数符号进行编码：<$,0><auto,1>...<while,32><+，33><-,34><*,35></,36><<,37><<=,38><>,39><>=,40><=,41><==,42><!=,43><;,44><(,45><),46><^,47><,,48><",49><',50><#,51><&,52><&&,53><|,54><||,55><%,56><~,57><<<,58>左移<>>,59>右移<[,60><],61><{,62><},63><\,64><.,65><?,66><:,67><!,68> "[","]","{","}"<常数99 ,数值><标识符100 ，标识符指针>上述二元组中左边是单词的符号，右边为其种别码，其中常数和标识符有点特别，因为是无穷集合，因此常数用自身来表示，种别码为99，标识符用标识符符号表的指针表示（当然也可用自身显示，比较容易观察），种别码100。

根据上述约定，一旦见到了种别码syn=63,就唯一确定了‘}’这个单词。

下面是一些变量的约定：//全局变量，保留字表static char reserveWord[32][20] = {"auto", "break", "case", "char", "const", "continue","default", "do", "double", "else", "enum", "extern","float", "for", "goto", "if", "int", "long","register", "return", "short", "signed", "sizeof", "static","struct", "switch", "typedef", "union", "unsigned", "void","volatile", "while"};//界符运算符表,根据需要可以自行增加static char operatorOrDelimiter[36][10]={"+","-","*","/","<","<=",">",">=","=","==","!=",";","(",")","^",",","\"","\'","#","&","&&","|","||","%","~","<<",">>","[","]","{","}","\\",".","\?",":","!"};static char IDentifierTbl[1000][50]={""};//标识符表char resourceProject[10000];//输入的源程序存放处，最大可以存放10000个字符。

char token[20]={0};//每次扫描的时候存储已经扫描的结果。

int syn=-1;//syn即为种别码，约定‘$’的种别码为0，为整个源程序的结束符号一旦扫描到这个字符代表扫描结束int pProject = 0;//源程序指针，始终指向当前源程序待扫描位置。

几个重要函数：//查找保留字，若成功查找，则返回种别码//否则返回-1，代表查找不成功，即为标识符int searchReserve(char reserveWord[ ][20], char s[])/*********************判断是否为字母********************/bool IsLetter(char letter)/*****************判断是否为数字************************/bool IsDigit(char digit)/********************编译预处理，取出无用的字符和注释**********************/void filterResource(char r[],int pProject)/****************************分析子程序，算法核心***********************/ void Scanner(int &syn,char resourceProject[],char token[],int &pProject)下面说一下整个程序的流程：1.词法分析程序打开源文件，读取文件容，直至遇上’$’文件结束符，然后读取结束。

2.对读取的文件进行预处理，从头到尾进行扫描，去除//和/* */的容，以及一些无用的、影响程序执行的符号如换行符、回车符、制表符等。

但是千万注意不要在这个时候去除空格，因为空格在词法分析中有用，比如说int i=3;这个语句，如果去除空格就变成了“inti=3”,这样就失去了程序的本意，因此不能在这个时候去除空格。

3.选下面就要对源文件从头到尾进行扫描了，从头开始扫描，这个时候扫描程序首先要询问当前的字符是不是空格，若是空格，则继续扫描下一个字符，直至不是空格，然后询问这个字符是不是字母，若是则进行标识符和保留字的识别；若这个字符为数字，则进行数字的判断。

否则，依次对这个字符可能的情况进行判断，若是将所有可能都走了一遍还是没有知道它是谁，则认定为错误符号，输出该错误符号，然后结束。

每次成功识别了一个单词后，单词都会存在token[ ]中。

然后确定这个单词的种别码，最后进行下一个单词的识别。

这就是扫描程序进行的工作，可以说这个程序彻底实现了确定有限自动机的某些功能，比如说识别标识符，识别数字等。

为了简单起见，这里的数字只是整数。

4.主控程序主要负责对每次识别的种别码syn进行判断，对于不同的单词种别做出不同的反应，如对于标识符则将其插入标识符表中。

对于保留字则输出该保留字的种别码和助记符，等等吧。

词法分析实验报告

编译原理词法分析实验报告

词法分析程序实验报告

词法分析实验报告

【编译原理】词法分析（CC++源代码+实验报告）

实验一词法分析实验报告1

词法分析实验报告

词法分析实验报告(实验一)

编译原理词法分析报告

实验一 词法分析报告

词法分析实验报告文献

实验一词法分析报告