词法分析器实验报告

合集下载

编译技术实验报告词法(3篇)

第1篇一、实验目的本次实验旨在通过实践加深对编译技术中词法分析阶段的理解，掌握词法分析的基本原理和方法，能够实现一个简单的词法分析器，并对源代码进行初步的符号化处理。

二、实验环境1. 操作系统：Windows 102. 编程语言：Java3. 开发工具：Eclipse IDE4. 实验素材：实验提供的C语言源代码三、实验原理词法分析是编译过程中的第一个阶段，其主要任务是将源代码中的字符序列转换成一系列的词法单元（Token）。

词法单元是构成源程序的基本单位，如标识符、关键字、运算符等。

词法分析的基本原理如下：1. 字符流：从源代码中逐个读取字符，形成字符流。

2. 状态转换：根据字符流中的字符，在有限状态自动机（FSM）中转换状态。

3. 词法单元生成：当状态转换完成后，生成对应的词法单元。

4. 错误处理：在分析过程中，如果遇到无法识别的字符或状态，进行错误处理。

四、实验步骤1. 设计词法分析器：根据C语言的语法规则，设计有限状态自动机，定义状态转换图。

2. 实现状态转换函数：根据状态转换图，实现状态转换函数，用于将字符流转换为词法单元。

3. 实现词法单元生成函数：根据状态转换结果，生成对应的词法单元。

4. 测试词法分析器：使用实验提供的C语言源代码，测试词法分析器的正确性。

五、实验结果与分析1. 词法分析器设计：根据C语言的语法规则，设计了一个包含26个状态的状态转换图。

状态转换图包括以下状态：- 初始状态：用于开始分析。

- 标识符状态：用于分析标识符。

- 关键字状态：用于分析关键字。

- 运算符状态：用于分析运算符。

- 数字状态：用于分析数字。

- 字符串状态：用于分析字符串。

- 错误状态：用于处理非法字符。

2. 状态转换函数实现：根据状态转换图，实现了状态转换函数。

该函数用于将字符流转换为词法单元。

3. 词法单元生成函数实现：根据状态转换结果，实现了词法单元生成函数。

该函数用于生成对应的词法单元。

编译原理词法分析实验报告

编译原理词法分析实验报告实验名称:词法分析器的设计与实现一、实验目的：1.熟悉编译原理中词法分析的基本概念和原理；2.掌握正则表达式的使用方法；3.实现一个简单的词法分析器。

二、实验内容：1.设计一个简单的编程语言，包含如下几种类型的词法单元：关键字、标识符、常量、运算符和界符。

2.使用正则表达式定义每种词法单元的模式。

3.设计一个词法分析器，将源代码中的每个词法单元识别出来并输出。

三、实验步骤：1. 确定编程语言的词法单元类型和正则表达式模式，定义相应的单词类型（如 TokenType）和模式（如 regex）。

2. 实现一个词法分析器的类 Lexer，包含以下方法：(1)一个构造方法，用于初始化词法分析器的输入源代码。

(2) 一个getNextToken方法，用于获取源代码中的下一个词法单元。

3. 在getNextToken方法中，使用正则表达式逐个识别源代码中的词法单元，并返回相应的Token对象。

4. 设计一个Token类，包含以下属性：词法单元类型、词法单元的值和位置信息等。

5.在主程序中使用词法分析器，将源代码中的每个词法单元识别出来并输出。

四、实验结果：1.设计一个简单的编程语言，包含如下词法单元类型（示例）：(1) 关键字：if、else、while、for等；(2)标识符：变量名等；(3)常量：整数、浮点数、字符串等；(4)运算符：+、-、*、/、=等；(5)界符：(、)、{、}、;等。

2. 实现一个词法分析器，识别出源代码中的每个词法单元，并输出相应的Token对象。

五、实验总结：通过本次实验，我熟悉了编译原理中词法分析的基本概念和原理，并掌握了正则表达式的使用方法。

我成功完成了一个简单的词法分析器的设计与实现，实现了源代码中每个词法单元的识别与输出。

这次实验对我深化了对编译原理中词法分析的理解，并提高了我的编程能力。

词法分析实验报告

词法分析实验报告词法分析实验报告引言词法分析是自然语言处理中的一个重要环节，它负责将输入的文本分割成一个个的词语，并确定每个词语的词性。

本次实验旨在通过实现一个简单的词法分析器，来探索词法分析的原理和实践。

实验内容本次实验中，我们使用Python编程语言来实现词法分析器。

我们选取了一段简单的英文文本作为输入，以便更好地理解和演示词法分析的过程。

1. 文本预处理在进行词法分析之前，我们首先需要对输入文本进行预处理。

预处理的目的是去除文本中的标点符号、空格和其他无关的字符，以便更好地进行后续的分词操作。

2. 分词分词是词法分析的核心步骤之一。

在这个步骤中，我们将文本分割成一个个的词语。

常见的分词方法包括基于规则的分词和基于统计的分词。

在本次实验中，我们选择了基于规则的分词方法。

基于规则的分词方法通过事先定义一系列的分词规则来进行分词。

这些规则可以是基于语法的，也可以是基于词典的。

在实验中，我们使用了一个简单的基于词典的分词规则，即根据英文单词的常见前缀和后缀来进行分词。

3. 词性标注词性标注是词法分析的另一个重要步骤。

在这个步骤中，我们为每个词语确定其词性。

词性标注可以通过事先定义的规则和模型来进行。

在本次实验中，我们使用了一个简单的基于规则的词性标注方法。

基于规则的词性标注方法通过定义一系列的词性标注规则来进行词性标注。

这些规则可以是基于词法的，也可以是基于语法的。

在实验中，我们使用了一个简单的基于词法的词性标注规则，即根据英文单词的后缀来确定其词性。

实验结果经过实验，我们得到了输入文本的分词结果和词性标注结果。

分词结果如下：- I- love- natural- language- processing词性标注结果如下：- I (代词)- love (动词)- natural (形容词)- language (名词)- processing (名词)讨论与总结通过本次实验，我们深入了解了词法分析的原理和实践。

编译原理实验词法分析实验报告

编译原理实验词法分析实验报告一、实验目的词法分析是编译过程的第一个阶段，其主要任务是从左到右逐个字符地对源程序进行扫描，产生一个个单词符号。

本次实验的目的在于通过实践，深入理解词法分析的原理和方法，掌握如何使用程序设计语言实现词法分析器，提高对编译原理的综合应用能力。

二、实验环境本次实验使用的编程语言为_____，开发工具为_____。

三、实验原理词法分析的基本原理是根据编程语言的词法规则，将输入的字符流转换为单词符号序列。

单词符号通常包括关键字、标识符、常量、运算符和界符等。

词法分析器的实现方法有多种，常见的有状态转换图法和正则表达式法。

在本次实验中，我们采用了状态转换图法。

状态转换图是一种有向图，其中节点表示状态，有向边表示在当前状态下输入字符的可能转移。

通过定义不同的状态和转移规则，可以实现对各种单词符号的识别。

四、实验步骤1、定义单词符号的类别和编码首先，确定实验中要识别的单词符号种类，如关键字（if、else、while 等）、标识符、整数常量、浮点数常量、运算符（＋、、、／等）和界符（括号、逗号等）。

为每个单词符号类别分配一个唯一的编码，以便后续处理。

2、设计状态转换图根据单词符号的词法规则，绘制状态转换图。

例如，对于标识符的识别，起始状态为“起始状态”，当输入为字母时进入“标识符中间状态”，在“标识符中间状态”中，若输入为字母或数字则继续保持该状态，直到遇到非字母数字字符时结束识别，确定为一个标识符。

3、编写词法分析程序根据状态转换图，使用所选编程语言实现词法分析器。

在程序中，通过不断读取输入字符，根据当前状态进行转移，并在适当的时候输出识别到的单词符号。

4、测试词法分析程序准备一组包含各种单词符号的测试用例。

将测试用例输入到词法分析程序中，检查输出的单词符号是否正确。

五、实验代码以下是本次实验中实现词法分析器的核心代码部分：｀｀｀include ＜stdioh>include ＜ctypeh>／／单词符号类别定义typedef enum ｛KEYWORD,IDENTIFIER,INTEGER_CONSTANT,FLOAT_CONSTANT,OPERATOR,DELIMITER｝ TokenType;／／关键字列表char keywords ＝｛＂if"，＂else"，＂while"，＂for"，＂int"，＂float"，＂void"｝；／／状态定义typedef enum ｛START,IN_IDENTIFIER,IN_INTEGER,IN_FLOAT,IN_OPERATOR｝ State;／／词法分析函数TokenType getToken(char token, int tokenLength) ｛State state ＝ START;int i ＝ 0;while （1) ｛char c ＝ getchar(）；switch （state) ｛case START:if （isalpha(c)）｛state ＝ IN_IDENTIFIER;tokeni+＋＝ c;｝ else if （isdigit(c)）｛state ＝ IN_INTEGER;tokeni+＋＝ c;｝ else if （c ＝＝＇＋＇｜｜ c ＝＝＇＇｜｜ c ＝＝＇＇｜｜ c ＝＝＇／＇｜｜ c ＝＝＇（＇｜｜ c ＝＝＇）＇｜｜ c ＝＝＇；＇｜｜ c ＝＝＇，＇）｛state ＝ IN_OPERATOR;tokeni+＋＝ c;｝ else if （c ＝＝＇＇）｛state ＝ IN_FLOAT;tokeni+＋＝ c;｝ else if （c ＝＝ EOF) ｛tokeni ＝＇＼0'；tokenLength ＝ i;return －1;｝ else ｛tokeni ＝＇＼0'；tokenLength ＝ i;return －2;｝break;case IN_IDENTIFIER:if （isalpha(c) ｜｜ isdigit(c)）｛tokeni+＋＝ c;｝ else ｛ungetc(c, stdin)；tokeni ＝＇＼0'；tokenLength ＝ i;／／检查是否为关键字for （int j ＝ 0; j ＜ sizeof(keywords) ／ sizeof(keywords0)； j+＋）｛if （strcmp(token, keywordsj) ＝＝ 0) ｛return KEYWORD;｝｝return IDENTIFIER;｝break;case IN_INTEGER:if （isdigit(c)）｛tokeni+＋＝ c;｝ else if （c ＝＝＇＇）｛state ＝ IN_FLOAT;tokeni+＋＝ c;｝ else ｛ungetc(c, stdin)；tokeni ＝＇＼0'；tokenLength ＝ i;return INTEGER_CONSTANT;｝break;case IN_FLOAT:if （isdigit(c)）｛tokeni+＋＝ c;｝ else ｛ungetc(c, stdin)；tokeni ＝＇＼0'；tokenLength ＝ i;return FLOAT_CONSTANT;｝break;case IN_OPERATOR: tokeni ＝＇＼0'；tokenLength ＝ i;return OPERATOR; break;｝｝｝int main(）｛char token100;int tokenLength;TokenType tokenType;while （（tokenType ＝ getToken(token, ＆tokenLength)）！＝－1) ｛switch （tokenType) ｛case KEYWORD:printf(＂Keyword: ％s\n"， token)；break;case IDENTIFIER:printf(＂Identifier: ％s\n"， token)；break;case INTEGER_CONSTANT:printf(＂Integer Constant: ％s\n"， token)；break;case FLOAT_CONSTANT:printf(＂Float Constant: ％s\n"， token)；break;case OPERATOR:printf(＂Operator: ％s\n"， token)；break;case DELIMITER:printf(＂Delimiter: ％s\n"， token)；break;｝｝return 0;｝｀｀｀六、实验结果对准备的测试用例进行输入，得到的词法分析结果如下：测试用例 1：｀｀｀int main(）｛int num ＝ 10;float pi ＝ 314;if （num ＞ 5) ｛printf(＂Hello, World!＼n"）；｝｝｀｀｀词法分析结果：｀｀｀Keyword: int Identifier: main Delimiter: （Delimiter: ）｛Identifier: num Operator: ＝Integer Constant: 10；Identifier: float Identifier: pi Operator: ＝Float Constant: 314；Keyword: ifDelimiter: （Identifier: numOperator: ＞Integer Constant: 5）｛Identifier: printfDelimiter: （String: ＂Hello, World!＼n" Delimiter: ）；｝｀｀｀测试用例 2：｀｀｀for （int i ＝ 0; i ＜ 10; i+＋）｛double result ＝ i 25;｀｀｀词法分析结果：｀｀｀Keyword: for Delimiter: （Keyword: int Identifier: i Operator: ＝Integer Constant: 0；Identifier: i Operator: ＜Integer Constant: 10；Identifier: i Operator: ＋＋）Identifier: doubleIdentifier: resultOperator: ＝Identifier: iOperator:Float Constant: 25；｝｀｀｀通过对多个测试用例的分析，词法分析器能够正确识别出各种单词符号，实验结果符合预期。

词法分析器实验报告

词法分析器实验报告引言：词法分析器（Lexical Analyzer）是编译器的重要组成部分，其主要任务是将源代码转化为一个个独立的词法单元，为语法分析器提供输入。

在本次实验中，我们设计并实现了一个简单的词法分析器，通过对其功能和性能的测试，评估其在不同场景下的表现。

实验目的：1. 确定词法分析器的输入和输出要求；2. 通过构建适当的正则表达式规则，匹配不同类型的词法单元；3. 实现一个高效的词法分析器，确保在处理大型源代码时性能不受影响；4. 对词法分析器的功能和性能进行测试和评估。

实验过程：1. 设计词法分析器的接口：1.1 确定输入：源代码字符串。

1.2 确定输出：词法单元流，每个词法单元包含类型和对应的字符串值。

2. 构建正则表达式规则：2.1 识别关键字：根据编程语言的关键字列表构建正则表达式规则，将关键字与标识符区分开。

2.2 识别标识符：一般由字母、下划线和数字组成，且以字母或下划线开头。

2.3 识别数字：整数和浮点数可以使用不同的规则来识别。

2.4 识别字符串：使用引号（单引号或双引号）包裹的字符序列。

2.5 识别特殊符号：各类操作符、括号、分号等特殊符号需要单独进行规则设计。

3. 实现词法分析器：3.1 读取源代码字符串：逐个字符读取源代码字符串，并根据正则表达式规则进行匹配。

3.2 保存词法单元：将匹配到的词法单元保存到一个词法单元流中。

3.3 返回词法单元流：将词法单元流返回给调用者。

4. 功能测试：4.1 编写测试用例：针对不同类型的词法单元编写测试用例，包括关键字、标识符、数字、字符串和特殊符号。

4.2 执行测试用例：将测试用例作为输入传递给词法分析器，并检查输出是否和预期一致。

4.3 处理错误情况：测试词法分析器对于错误输入的处理情况，如非法字符等。

5. 性能测试：5.1 构建大型源代码文件：生成包含大量代码行数的源代码文件。

5.2 执行词法分析：使用大型源代码文件作为输入，测试词法分析器的性能。

词法分析器实验报告

词法分析器实验报告词法分析器设计一、二、实验目的：对C语言的一个子集设计并实现一个简单的词法分析器，掌握利用状态转换图设计词法分析器的基本方法。

利用该词法分析器完成对源程序字符串的词法分析。

输出形式是源程序的单词符号二元式的代码，并保存到文件中。

二、实验内容：1. 设计原理词法分析的任务：从左至右逐个字符地对源程序进行扫描，产生一个个单词符号。

理论基础：有限自动机、正规文法、正规式词法分析器(Lexical Analyzer) 又称扫描器(Scanner)：执行词法分析的程序2. 词法分析器的功能和输出形式功能:输入源程序、输出单词符号程序语言的单词符号一般分为以下五种：关键字、标识符、常数、运算符,界符3. 输出的单词符号的表示形式:单词种别用整数编码，关键字一字一种，标识符统归为一种，常数一种，各种符号各一种。

4. 词法分析器的结构5. 状态转换图实现三、程序设计1．总体模块设计/*用来存储目标文件名*/string file_name;/*提取文本文件中的信息。

*/string GetText();/*获得一个单词符号,从位置i开始查找。

并且有一个引用参数j，用来返回这个单词最后一个字符在str的位置。

*/string GetWord(string str,int i,int& j);/*这个函数用来除去字符串中连续的空格和换行int DeleteNull(string str,int i);/*判断i当前所指的字符是否为一个分界符，是的话返回真，反之假*/bool IsBoundary(string str,int i);/*判断i当前所指的字符是否为一个运算符，是的话返回真，反之假*/bool IsOperation(string str,int i);/*此函数将一个pair数组输出到一个文件中*/void OutFile(vector<pair<int,string> > v);/*此函数接受一个字符串数组，对它进行词法分析，返回一个pair型数组*/vector<pair<int,string> > analyst(vector<string> vec);/*此函数判断传递的参数是否为关键字，是的话，返回真，反之返回假*/bool IsKey(string str);2．各模块设计（1）.首先根据上面单词符号表及ID和NUM的正规定义式，构造出状态转换图；（2）.定义相关的变量和数据结构。

词法分析器实验报告

词法分析器实验报告⼀、实验⽬的通过设计⼀个词法分析程序，对词法进⾏分析，加强对词法的理解，掌握对程序设计语⾔的分解和理解。

⼆、实验内容和要求在原程序中输⼊源代码对字符串表⽰的源程序从左到右进⾏扫描和分解根据词法规则识别出⼀个⼀个具有独⽴意义的单词符号以供语法分析之⽤发现词法错误，则返回出错信息在源程序中，⾃动识别单词，把单词分为五种，并输出对应的单词种别码。

1. 识别关键字：main if int for while do return break continue，该类的单词码为1.2. 识别标识符：表⽰各种名字，如变量名、数组名、函数名等，如char ch, int syn, token,sum，该类的单词码为2.3. 运算符：+、-、*、/、=、>、<、>=、<=、!=4. 分隔符：,、;、{、}、(、)5. 常数，例：123各种单词符号对应的种别码。

输出形式：⼆元式– （单词种别，单词⾃⾝的值）单词种别，表明单词的种类，语法分析需要的重要信息– 整数码关键字、运算符、界符：⼀符⼀码标识符：10, 常数：11单词⾃⾝的值– 标识符token、常数sum– 关键字、运算符、界符token三、实验⽅法、步骤及结果测试1.源程序#include <stdio.h>#include <string.h>char string[80],simbol[8],ch;int wordID,index,m,n,sum;char *rwtab[6]={"begin","if","then","while","do","end"};void scaner(void);main(){int index=0;printf("请输⼊代码，并以串#号键结束:\n");do{scanf("%c",&ch);string[index++]=ch;}while(ch!='#');index=0;do{scaner();switch(wordID)case11:printf("( %-10d%5d )\n",sum,wordID);break;case -1:printf("错误\n");return0;break;default:printf("( %-10s%5d )\n",simbol,wordID);break;}}while(wordID!=0);return0;}void scaner(void){sum=0;for(m=0;m<8;m++)simbol[m++]= NULL;ch=string[index++];m=0;while((ch=='')||(ch=='\n'))ch=string[index++];if(((ch<='z')&&(ch>='a'))||((ch<='Z')&&(ch>='A')))//判断输⼊的字符是否为英⽂字母 {while(((ch<='z')&&(ch>='a'))||((ch<='Z')&&(ch>='A'))||((ch>='0')&&(ch<='9'))){simbol[m++]=ch;ch=string[index++];}index--;wordID=10;for(n=0;n<6;n++)if(strcmp(simbol,rwtab[n])==0){wordID=n+1;break;}}else if((ch>='0')&&(ch<='9'))//判断输⼊的字符是否为数字{while((ch>='0')&&(ch<='9')){sum=sum*10+ch-'0';ch=string[index++];}index--;wordID=11;}else{switch(ch)//通过循环判断输⼊的字符是否为运算符{case'<':simbol[m++]=ch;ch=string[index++];if(ch=='='){wordID=22;simbol[m++]=ch;}else{wordID=20;index--;}break;case'>':simbol[m++]=ch;ch=string[index++];if(ch=='='){wordID=24;simbol[m++]=ch;else{wordID=23;index--;}break;case'+':simbol[m++]=ch;ch=string[index++];if(ch=='+'){wordID=17;simbol[m++]=ch;}else{wordID=13;index--;}break;case'-':simbol[m++]=ch;ch=string[index++];if(ch=='-'){wordID=29;simbol[m++]=ch;}else{wordID=14;index--;}break;case'!':ch=string[index++];if(ch=='='){wordID=21;simbol[m++]=ch;}else{wordID=31;index--;}break;case'=':simbol[m++]=ch;ch=string[index++];if(ch=='='){wordID=25;simbol[m++]=ch;}else{wordID=18;index--;}break;case'*':wordID=15;simbol[m++]=ch;break;case'/':wordID=16;simbol[m++]=ch;break;case'('://判断输⼊的字符是否为分隔符 wordID=27;simbol[m++]=ch;break;case')':wordID=28;simbol[m++]=ch;break;case'{':wordID=5;simbol[m++]=ch;break;case'}':wordID=6;simbol[m++]=ch;break;case';':wordID=26;simbol[m++]=ch;break;case'\"':wordID=30;simbol[m++]=ch;break;case'#':wordID=0;simbol[m++]=ch;break;case':':wordID=17;simbol[m++]=ch;break;default:wordID=-1;break;}}simbol[m++]='\0'; }四.运⾏结果及分析。

词法分析器实验报告

词法分析器实验报告词法分析器实验报告一、引言词法分析器是编译器中的重要组成部分，它负责将源代码分解成一个个的词法单元，为之后的语法分析提供基础。

本实验旨在设计和实现一个简单的词法分析器，以深入理解其工作原理和实现过程。

二、实验目标本实验的目标是设计和实现一个能够对C语言代码进行词法分析的程序。

该程序能够将源代码分解成关键字、标识符、常量、运算符等各种词法单元，并输出其对应的词法类别。

三、实验方法1. 设计词法规则：根据C语言的词法规则，设计相应的正则表达式来描述各种词法单元的模式。

2. 实现词法分析器：利用编程语言（如Python）实现词法分析器，将源代码作为输入，根据词法规则将其分解成各种词法单元，并输出其类别。

3. 测试和调试：编写测试用例，对词法分析器进行测试和调试，确保其能够正确地识别和输出各种词法单元。

四、实验过程1. 设计词法规则：根据C语言的词法规则，我们需要设计正则表达式来描述各种词法单元的模式。

例如，关键字可以使用'|'操作符将所有关键字列举出来，标识符可以使用[a-zA-Z_][a-zA-Z0-9_]*的模式来匹配，常量可以使用[0-9]+的模式来匹配等等。

2. 实现词法分析器：我们选择使用Python来实现词法分析器。

首先，我们需要读取源代码文件，并将其按行分解。

然后，针对每一行的代码，我们使用正则表达式进行匹配，以识别各种词法单元。

最后，我们将识别出的词法单元输出到一个结果文件中。

3. 测试和调试：我们编写了一系列的测试用例，包括各种不同的C语言代码片段，以测试词法分析器的正确性和鲁棒性。

通过逐个测试用例的运行结果，我们可以发现和解决词法分析器中的问题，并进行相应的调试。

五、实验结果经过多次测试和调试，我们的词法分析器能够正确地将C语言代码分解成各种词法单元，并输出其对应的类别。

例如，对于输入的代码片段：```cint main() {int a = 10;printf("Hello, world!\n");return 0;}```我们的词法分析器将输出以下结果：```关键字：int标识符：main运算符：(运算符：)运算符：{关键字：int标识符：a运算符：=常量：10运算符：;标识符：printf运算符：(常量："Hello, world!\n"运算符：)运算符：;关键字：return常量：0运算符：;```可以看到，词法分析器能够正确地将代码分解成各种词法单元，并输出其对应的类别。

词法分析器的实验报告

词法分析器的实验报告词法分析器的实验报告引言：词法分析器是编译原理中的重要组成部分，它负责将源代码中的字符序列转换为有意义的词法单元，为后续的语法分析提供基础。

本实验旨在设计和实现一个简单的词法分析器，并对其进行测试和评估。

实验设计：1. 词法规则设计：在开始实验之前，我们首先需要设计词法规则，即定义源代码中的合法词法单元。

例如，对于一门类C的语言，我们可以定义关键字（如if、while、int等）、标识符、运算符（如+、-、*等）、分隔符（如()、{}等）等。

2. 有限自动机（DFA）的设计：基于词法规则，我们可以设计一个有限自动机，用于识别和分析源代码中的词法单元。

有限自动机是一个状态转换图，其中每个状态代表一种词法单元，而边表示输入字符的转换关系。

3. 实现代码：根据有限自动机的设计，我们可以使用编程语言（如Python、C++等）实现词法分析器的代码。

代码的主要功能包括读取源代码文件、逐个字符进行词法分析、识别和输出词法单元。

实验过程：1. 词法规则设计：我们以一门简单的算术表达式语言为例，设计了以下词法规则：- 数字：由0-9组成的整数或浮点数。

- 运算符：包括+、-、*、/等。

- 分隔符：包括括号()和逗号,。

- 标识符：以字母开头，由字母和数字组成的字符串。

2. 有限自动机（DFA）的设计：我们基于词法规则，设计了一个简单的有限自动机。

该自动机包含以下状态：- 初始状态：用于读取和识别源代码中的字符。

- 数字状态：用于识别和输出数字。

- 运算符状态：用于识别和输出运算符。

- 分隔符状态：用于识别和输出分隔符。

- 标识符状态：用于识别和输出标识符。

3. 实现代码：我们使用Python编程语言实现了词法分析器的代码。

代码主要包括以下功能：- 读取源代码文件。

- 逐个字符进行词法分析，根据有限自动机的设计进行状态转换。

- 识别和输出词法单元。

实验结果：我们对几个测试样例进行了词法分析，并对结果进行了评估。

编译原理实验报告——词法分析器(内含源代码)

编译原理实验（一）——词法分析器一．实验描述运行环境：vc++2008对某特定语言A ，构造其词法规则。

该语言的单词符号包括：12状态转换图3程序流程：词法分析作成一个子程序，由另一个主程序调用，每次调用返回一个单词对应的二元组，输出标识符表、常数表由主程序来完成。

二．实验目的通过动手实践，使学生对构造编译系统的基本理论、编译程序的基本结构有更为深入的理解和掌握；使学生掌握编译程序设计的基本方法和步骤；能够设计实现编译系统的重要环节。

同时增强编写和调试程序的能力。

三．实验任务编制程序实现要求的功能，并能完成对测试样例程序的分析。

四．实验原理char set[1000],str[500],strtaken[20];//set[]存储代码,strtaken[]存储当前字符char sign[50][10],constant[50][10];//存储标识符和常量定义了一个Analyzer类class Analyzer{public:Analyzer(); //构造函数 ~Analyzer(); //析构函数int IsLetter(char ch); //判断是否是字母，是则返回 1，否则返回 0。

int IsDigit(char ch); //判断是否为数字，是则返回 1，否则返回 0。

void GetChar(char *ch); //将下一个输入字符读到ch中。

void GetBC(char *ch); //检查ch中的字符是否为空白，若是，则调用GetChar直至ch进入一个非空白字符。

void Concat(char *strTaken, char *ch); //将ch中的字符连接到strToken之后。

int Reserve(char *strTaken); //对strTaken中的字符串查找保留字表，若是一个保留字返回它的数码，否则返回0。

void Retract(char *ch) ; //将搜索指针器回调一个字符位置，将ch置为空白字符。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、实验目的1.1总体目的1.1.1 掌握词法分析的基本原理；1.1.2. 理解词法分析在编译程序过程中的作用；1.1.3. 熟悉关键字表等相关的数据结构与单词的分类方法；1.1.4. 加深对编译原理的理解，掌握词法分析器的实现方法和技术，同时，将JA VA的理论知识结合实际，锻炼编程技术，强调良好的程序设计风格。

1.2程序目的利用JA VA语言针对C语言编制一个一遍扫描的编译程序。

从文件中识别出各个单词，识别出所取的单词的类型，并且对代码中的词法错误进行提示。

二、实验内容根据编译原理中的词法分析原理，利用Java语言针对C语言编写一个词法分析程序：输入：打开一个C语言程序的源代码文件，将其读入程序输入框。

处理：对输入框中的代码进行词法分析,分离出关键字、标识符、数值、运算符和界符。

输出：在词法分析结果表中输出每个单词所在行号、类型以及它所对应的编码。

其中，编码是自定义的,一种类型对应一组编码。

词法分析结果显示在词法分析错误信息栏，提示错误个数、错误所在行号，并对某些词法错误原因进行说明。

三、实验需求针对C语言程序代码进行词法分析器，从指定文件中读入预分析的源程序，从左至右扫描源程序的字符串，按照词法规则（正则文法规则）识别出一个个正确的单词，并转换成该单词相应的二元式（种别码、属性值）以便之后进行语法分析使用。

同时，按照给定的规则，识别出单词符号作为输出，发现其中的语法错误，不同类别的字符通过相应的函数模块来分析识别，使程序能够正确识别文法所规定的任何组织形式的字符组合，将所有的分析状态显示在词法分析器中。

最后在错误分析栏中显示该文件中C语言代码的词法错误个数、错误所在行，并对错误原因进行说明。

四、主要数据结构介绍4.1关键字编码4.2标识符统一编码1004.3数值统一编码2004.4界符编码4.5运算符编码4.6全局变量含义int row：语法错误出现的所在列数int line：语法错误出现的所在行数int err：语法错误的个数int begin：当前程序扫描在字符串中的开始位置int end：当前程序扫描在字符串中的结束位置4.7局部变量定义int i ：选择第i 个字符进行检测 int state ：单词类型判断标志 int N ：文件长度 char c ：当前遍历的字符 string str ：输入字符串 int flag ：退出标志五、主要模块算法介绍5.1总体流程介绍说明：state 为输入字符状态标志，根据输入字符不同类型选择不同处理。

5.2主要分支选择算法介绍 5.2.1 case0情况算法否图5.1 程序总体流程图图5.2 case 0情况流程图5.2.2 case 1情况算法if(c == '+'){state = 0;error_text.append("\t运算符\t\t401 "+"\t++"+'\n');} else if(c == '='){state = 0;error_text.append("\t运算符\t\t402 "+"\t+="+'\n');}else{state = 0;if(isDigit(content.charAt(i - 2)))//isDigit函数判断是否为数值error_text.append("\t数值\t" +"\t200 "+content.substring(begin, i-1) + '\n'); error_text.append("\t运算符\t\t403 "+"\t+"+'\n');//输出结果i--;row--;}说明：对运算符++、+=、+以及数值进行判断结果输出。

5.2.3 case 2情况算法if(c == '-') error_text.append("\t运算符\t\t404 "+"\t--"+'\n');else if(c == '=') error_text.append("\t运算符\t\t405 "+"\t-="+'\n');else if(c=='>') error_text.append("\t运算符\t\t423 "+"\t->"+'\n');else{ error_text.append("\t运算符\t\t406 "+"\t-"+'\n');i--;row--;}state = 0;说明：对运算符--、-= 、->、-，进行判断结果输出。

5.2.4 case 3情况算法if(c == '=')error_text.append("\t运算符\t\t407 "+"\t*="+'\n');else{error_text.append("\t运算符\t\t408 "+"\t*"+'\n');i--;row--;}state = 0;说明：对运算符*=，*，进行判断结果输出。

5.2.5 case 4情况算法if(c == '/'){while((c) != '\n'){c = content.charAt(i);i++;}state = 0;error_text.append("\t注释部分\t\t// \n");}else if(c == '='){state = 0;error_text.append("\t运算符\t\t409 "+"\t/="+'\n');} else{state = 0;error_text.append("\t运算符\t\t410 "+"\t/"+'\n');i--;row--;}说明：对注释、运算符/=、/，进行判断结果输出。

5.2.6 case 5情况算法if(c == '='){error_text.append("\t运算符\t\t411 "+"\t!="+'\n');state = 0;} else{state = 0;i--;row--;error_text.append("\t运算符\t\t412 "+"\t!"+'\n');}说明：对运算符!=、!，进行判断结果输出。

5.2.7 case 6情况算法if(c == '='){error_text.append("\t运算符\t\t413 "+"\t>="+'\n');state = 0;} if(c=='>') {error_text.append("\t运算符\t\t426 "+"\t>>"+'\n');state=0;}else{state = 0;i--;row--;error_text.append("\t运算符\t\t414 "+"\t>"+'\n');} 说明：对运算符>=、>>、>，进行判断结果输出。

5.2.8 case 7情况算法if(c == '='){error_text.append("\t运算符\t\t415 "+"\t<="+'\n');state = 0;}if(c=='<') {error_text.append("\t运算符\t\t427 "+"\t<<"+'\n');state=0;}else{state = 0;i--;row--;error_text.append("\t运算符\t\t416 "+"\t<"+'\n');}说明：对运算符<=、<<、<，进行判断结果输出。

5.2.9 case 8情况算法if(c == '='){error_text.append("\t运算符\t\t417 "+"\t=="+'\n');state = 0;}else{state=0;i--;row--;error_text.append("\t运算符\t\t418 "+"\t="+'\n');}说明：对运算符==、=，进行判断结果输出。

5.2.10 case 9情况算法state = 0;i--;row = 1;line ++;说明：如果输入的字符是回车，直接将行数加1，列数为1。

5.2.11 case 10情况算法if(isLetter(c) || isDigit(c)){state = 10;}else{end = i;String id = content.substring(begin, end);if(isKey(id)!=0) {int t=isKey(id);error_text.append("\t关键字\t\t"+t+ id + '\n'); } elseerror_text.append("\t标志符\t" +"\t100"+id + '\n');i--;row--;state = 0;} 说明：如果输入的是字母或者数字，state=10,否则，该字母或数字结束，取出，判断是否为关键字，输出判断结果。

其中isKey()为判断单词是否为关键字的函数。