词法分析实验报告

合集下载

词法分析器实验报告

词法分析器实验报告实验名称: 编写词法分析器实验类型: 验证型实验指导教师:专业班级:姓名:学号:电子邮件:实验地点:实验成绩:日期: 2012 年3 月 22 日目录一、实验目的。

2 二、实验过程。

21、背景知识。

22、程序总体设计。

23、各种类型表。

4、程序流程图。

5 4三、试验结果。

5 四、讨论与分析。

6 五、附录。

7 六、试验者自评。

131一、实验目的通过设计、调试词法分析程序，实现从源程序中分出各种单词的方法;熟悉词法分析程序所用的工具自动机，进一步理解自动机理论。

掌握文法转换成自动机的技术及有穷自动机实现的方法。

确定词法分析器的输出形式及标识符与关键字的区分方法。

加深对课堂教学的理解;提高词法分析方法的实践能力。

通过本实验，掌握从源程序文件中读取有效字符的方法和产生源程序的内部表示文件的方法以及掌握词法分析的实现方法，并可以成功的上机调试编出的词法分析程序。

二、实验过程我们在设计词法分析器时，应该首先对词法分析器相关的背景知识有足够的了解以及熟练的掌握。

从而在脑海里形成词法分析的一般方案，根据方案一步步所要实现的目的，形成对词法分析器程序的模块划分和整体规划。

1、背景知识词法分析是作为相对独立的阶段来完成的(对源程序或中间结果从头到尾扫描一次，并作相应的加工处理，生成新的中间结果或目标程序)。

在词法分析过程中，编译程序是通过操作系统从外部介质中读取源程序文件中的各个字符的。

同时，为正确地识别单词，有时还需进行超前搜索和回退字符等操作。

因此，为了提高读盘效率和便于扫描器进行工作，通常可采用缓冲输入的方案，即在内存中设置一个适当大小的输入缓冲区，让操作系统直接将磁盘上的源程序字符串分批送入此缓冲区中，供扫描器进行处理。

程序总体设计 2、主程序的说明部分为各种表格和变量安排空间。

二维数组k:关键字表，采用定长的方式，较短的关键字后面补空格。

一维数组p:分界符表。

一维数组s: 运算符表。

二维数组id:存放标识符，在程序运行中，产生标示符表二维数组ci:存放常数。

词法分析程序实验报告

词法分析程序实验报告篇一：词法分析器_实验报告词法分析器实验报告实验目的：设计、编制、调试一个词法分析子程序－识别单词，加深对词法分析原理的理解。

实验要求：该程序要实现的是一个读单词过程，从输入的源程序中，识别出各个具有独立意义的单词，即基本保留字、标识符、常数、运算符、分界符五大类。

并依次输出各个单词的内部编码及单词符号自身值。

（一）实验内容（1）功能描述：对给定的程序通过词法分析器弄够识别一个个单词符号，并以二元式(单词种别码，单词符号的属性值)显示。

而本程序则是通过对给定路径的文件的分析后以单词符号和文字提示显示。

（2）程序结构描述：函数调用格式:参数含义：String string;存放读入的字符串 String str; 存放暂时读入的字符串 char ch; 存放读入的字符 int rs 判断读入的文件是否为空 char []data 存放文件中的数据 int m；通过switch用来判断字符类型，函数之间的调用关系图:函数功能：Judgement（）判断输入的字符并输出单词符号，返回值为空； getChar() 读取文件的，返回值为空；isLetter(char c) 判断读入的字符是否为字母的，返回值为Boolean类型； switch (m) 判断跳转输出返回值为空；isOperator(char c)判断是否为运算符的，返回值为Boolean类型； isKey(String string)判断是否为关键字的，返回值为Boolean类型； isDigit(char c) 判断读入的字符是否为数字的，返回值为Boolean类型。

（二）实验过程记录：本次实验出错3次，第一次无法输出双运算符，于是采用双重if条件句进行判断，此方法失败，出现了重复输出，继续修改if语句，仍没有成功。

然后就采用了直接方法调用解决此问题。

对于变量的判断，开始忘了考虑字母和数字组成的变量，结果让字母和数字分家了，不过改变if语句的条件，解决了此问题。

词法分析实验报告

词法分析实验报告词法分析实验报告引言词法分析是自然语言处理中的一个重要环节，它负责将输入的文本分割成一个个的词语，并确定每个词语的词性。

本次实验旨在通过实现一个简单的词法分析器，来探索词法分析的原理和实践。

实验内容本次实验中，我们使用Python编程语言来实现词法分析器。

我们选取了一段简单的英文文本作为输入，以便更好地理解和演示词法分析的过程。

1. 文本预处理在进行词法分析之前，我们首先需要对输入文本进行预处理。

预处理的目的是去除文本中的标点符号、空格和其他无关的字符，以便更好地进行后续的分词操作。

2. 分词分词是词法分析的核心步骤之一。

在这个步骤中，我们将文本分割成一个个的词语。

常见的分词方法包括基于规则的分词和基于统计的分词。

在本次实验中，我们选择了基于规则的分词方法。

基于规则的分词方法通过事先定义一系列的分词规则来进行分词。

这些规则可以是基于语法的，也可以是基于词典的。

在实验中，我们使用了一个简单的基于词典的分词规则，即根据英文单词的常见前缀和后缀来进行分词。

3. 词性标注词性标注是词法分析的另一个重要步骤。

在这个步骤中，我们为每个词语确定其词性。

词性标注可以通过事先定义的规则和模型来进行。

在本次实验中，我们使用了一个简单的基于规则的词性标注方法。

基于规则的词性标注方法通过定义一系列的词性标注规则来进行词性标注。

这些规则可以是基于词法的，也可以是基于语法的。

在实验中，我们使用了一个简单的基于词法的词性标注规则，即根据英文单词的后缀来确定其词性。

实验结果经过实验，我们得到了输入文本的分词结果和词性标注结果。

分词结果如下：- I- love- natural- language- processing词性标注结果如下：- I (代词)- love (动词)- natural (形容词)- language (名词)- processing (名词)讨论与总结通过本次实验，我们深入了解了词法分析的原理和实践。

词法分析器实验报告

词法分析器实验报告引言：词法分析器（Lexical Analyzer）是编译器的重要组成部分，其主要任务是将源代码转化为一个个独立的词法单元，为语法分析器提供输入。

在本次实验中，我们设计并实现了一个简单的词法分析器，通过对其功能和性能的测试，评估其在不同场景下的表现。

实验目的：1. 确定词法分析器的输入和输出要求；2. 通过构建适当的正则表达式规则，匹配不同类型的词法单元；3. 实现一个高效的词法分析器，确保在处理大型源代码时性能不受影响；4. 对词法分析器的功能和性能进行测试和评估。

实验过程：1. 设计词法分析器的接口：1.1 确定输入：源代码字符串。

1.2 确定输出：词法单元流，每个词法单元包含类型和对应的字符串值。

2. 构建正则表达式规则：2.1 识别关键字：根据编程语言的关键字列表构建正则表达式规则，将关键字与标识符区分开。

2.2 识别标识符：一般由字母、下划线和数字组成，且以字母或下划线开头。

2.3 识别数字：整数和浮点数可以使用不同的规则来识别。

2.4 识别字符串：使用引号（单引号或双引号）包裹的字符序列。

2.5 识别特殊符号：各类操作符、括号、分号等特殊符号需要单独进行规则设计。

3. 实现词法分析器：3.1 读取源代码字符串：逐个字符读取源代码字符串，并根据正则表达式规则进行匹配。

3.2 保存词法单元：将匹配到的词法单元保存到一个词法单元流中。

3.3 返回词法单元流：将词法单元流返回给调用者。

4. 功能测试：4.1 编写测试用例：针对不同类型的词法单元编写测试用例，包括关键字、标识符、数字、字符串和特殊符号。

4.2 执行测试用例：将测试用例作为输入传递给词法分析器，并检查输出是否和预期一致。

4.3 处理错误情况：测试词法分析器对于错误输入的处理情况，如非法字符等。

5. 性能测试：5.1 构建大型源代码文件：生成包含大量代码行数的源代码文件。

5.2 执行词法分析：使用大型源代码文件作为输入，测试词法分析器的性能。

词法分析器实验报告

词法分析器实验报告词法分析器实验报告一、引言词法分析器是编译器中的重要组成部分，它负责将源代码分解成一个个的词法单元，为之后的语法分析提供基础。

本实验旨在设计和实现一个简单的词法分析器，以深入理解其工作原理和实现过程。

二、实验目标本实验的目标是设计和实现一个能够对C语言代码进行词法分析的程序。

该程序能够将源代码分解成关键字、标识符、常量、运算符等各种词法单元，并输出其对应的词法类别。

三、实验方法1. 设计词法规则：根据C语言的词法规则，设计相应的正则表达式来描述各种词法单元的模式。

2. 实现词法分析器：利用编程语言（如Python）实现词法分析器，将源代码作为输入，根据词法规则将其分解成各种词法单元，并输出其类别。

3. 测试和调试：编写测试用例，对词法分析器进行测试和调试，确保其能够正确地识别和输出各种词法单元。

四、实验过程1. 设计词法规则：根据C语言的词法规则，我们需要设计正则表达式来描述各种词法单元的模式。

例如，关键字可以使用'|'操作符将所有关键字列举出来，标识符可以使用[a-zA-Z_][a-zA-Z0-9_]*的模式来匹配，常量可以使用[0-9]+的模式来匹配等等。

2. 实现词法分析器：我们选择使用Python来实现词法分析器。

首先，我们需要读取源代码文件，并将其按行分解。

然后，针对每一行的代码，我们使用正则表达式进行匹配，以识别各种词法单元。

最后，我们将识别出的词法单元输出到一个结果文件中。

3. 测试和调试：我们编写了一系列的测试用例，包括各种不同的C语言代码片段，以测试词法分析器的正确性和鲁棒性。

通过逐个测试用例的运行结果，我们可以发现和解决词法分析器中的问题，并进行相应的调试。

五、实验结果经过多次测试和调试，我们的词法分析器能够正确地将C语言代码分解成各种词法单元，并输出其对应的类别。

例如，对于输入的代码片段：```cint main() {int a = 10;printf("Hello, world!\n");return 0;}```我们的词法分析器将输出以下结果：```关键字：int标识符：main运算符：(运算符：)运算符：{关键字：int标识符：a运算符：=常量：10运算符：;标识符：printf运算符：(常量："Hello, world!\n"运算符：)运算符：;关键字：return常量：0运算符：;```可以看到，词法分析器能够正确地将代码分解成各种词法单元，并输出其对应的类别。

编译原理词法分析实验

编译原理词法分析实验一、实验目的本实验旨在通过编写一个简单的词法分析器，了解编译原理中词法分析的基本原理和实现方法。

二、实验材料1. 计算机编程环境2. 编程语言三、实验步骤1. 了解词法分析的概念和作用。

词法分析是编译器中的第一个阶段，它的主要任务是将源代码中的字符序列转化为有意义的标识符，如关键字、操作符、常量和标识符等。

2. 设计词法分析器的流程和算法。

词法分析器的主要原理是通过有限状态自动机来识别和提取标识符。

在设计过程中，需考虑各种可能出现的字符序列，并定义相应的状态转移规则。

3. 根据设计的流程和算法，使用编程语言编写词法分析器的代码。

4. 编译并运行词法分析器程序，输入待分析的源代码文件，观察程序的输出结果。

5. 分析输出结果，检查程序是否正确地提取了源代码中的标识符。

四、实验结果经过词法分析器的处理，源代码将被成功地转化为有意义的标识符。

结果可以通过以下几个方面来验证：1. 关键字和操作符是否被正确识别和提取。

2. 常量和标识符是否被正确识别和提取。

3. 检查程序的错误处理能力，如能否发现非法字符或非法标识符。

4. 输出结果是否符合预期，可与自己编写的语法规则进行对比。

5. 对于特殊情况，如转义字符等是否正确处理。

五、实验总结通过本次实验，我深入了解了编译原理中词法分析的重要性和基本原理。

编写词法分析器的过程中，我学会了使用有限状态自动机来识别和提取标识符，并通过实践巩固了相关知识。

此外，我还对源代码的结构有了更深入的了解，并且掌握了如何运用编程语言来实现词法分析器。

通过本次实验，我不仅提升了自己的编程技术，也对编译原理有了更深入的认识和理解。

六、实验心得通过实验，我深刻体会到了词法分析在编译过程中的重要性。

合理设计和实现词法分析器，可以大大提高编译器的效率和准确性。

同时，通过编写词法分析器的代码，我不仅锻炼了自己的编程能力，还提升了对编译原理的理解和掌握。

这次实验让我更加深入地了解了编译原理中的词法分析，也为我今后在编程领域的发展打下了坚实的基础。

词法分析实验报告

词法分析实验报告一、实验目的和背景词法分析是编译原理中的重要部分之一，其主要作用是将源程序中的字符序列转化为有意义的单词序列，以便于后续的处理和分析。

为了更好地理解词法分析的实现原理以及掌握相关算法和工具，本次词法分析实验旨在通过手动编写正则表达式、确定有限自动机的状态转移函数和实现词法分析程序来实现词法分析。

二、实验内容在本次实验中，我们需要完成以下任务：1.手动编写正则表达式；2.确定有限自动机的状态转移函数；3.实现词法分析程序。

三、实验过程1.手动编写正则表达式对于给定的源程序，我们首先需要根据其语法规则手动编写正则表达式。

例如，对于一个简单的算术表达式，其正则表达式可以如下所示：i. 数字（0-9）：[0-9]+ii. 加号（+）：\+iii. 减号（-）：-iv. 乘号（*）：\*v. 除号（/）：/vi. 左括号（（）：$vii. 右括号（））：$2.确定有限自动机的状态转移函数根据正则表达式，我们可以确定有限自动机的状态转移函数。

例如，对于上述算术表达式的正则表达式，其有限自动机的状态转移函数如下所示：i. 初始状态（S）：判断下一个字符，如果是数字则进入数字状态，如果是左括号则进入左括号状态；ii. 数字状态（D）：继续判断下一个字符，如果是数字则保持在数字状态，如果是运算符则输出数字记号，返回初始状态，如果是右括号则输出数字记号，返回初始状态；iii. 左括号状态（L）：输出左括号记号，返回初始状态；iv. 右括号状态（R）：输出右括号记号，返回初始状态。

3.实现词法分析程序根据以上的正则表达式和有限自动机的状态转移函数，我们可以编写一个简单的词法分析程序。

该程序的主要流程如下所示：i. 读取源程序的字符序列；ii. 根据有限自动机的状态转移函数，逐个字符进行状态转移；iii. 如果当前状态为接受状态，则输出相应的记号；iv. 继续进行状态转移，直至读取完整个源程序。

四、实验结果通过以上步骤，我们成功完成了对给定源程序的词法分析。

词法分析器实验报告

词法分析器实验报告一、实验目的本实验旨在通过构建一个简单的词法分析器来加深对编译原理中词法分析的理解，并掌握基本的词法分析算法和程序设计技巧。

二、实验环境操作系统：Windows 10编程语言：C/C++开发环境：Visual Studio 2019三、实验内容1. 设计并实现一个词法分析器，要求具备以下功能：（1）能够识别并区分关键字、标识符、字符常量、字符串常量、整型常量和浮点型常量等基本单词；（2）能够跳过注释、空格、制表符和换行符等无用字符；（3）能够给出错误提示并指明错误所在位置。

2. 对设计的词法分析器进行测试，并记录测试结果，分析测试结果的正确性和效率。

四、实验方法1. 分析待处理的源程序，并确定需要识别的词法单元；2. 设计状态转换图或状态转换表，并将其转化为程序代码；3. 开发测试程序，对所设计的词法分析器进行测试。

五、实验结果1. 实现的词法分析器程序可以正确识别出源程序中的各个单词，并能够跳过无用字符；2. 在测试过程中发现了一些错误，比如未能正确识别一些特殊情况下的单词，或者给出了错误的错误提示等。

经过修改后，程序可以正确识别这些情况，并给出正确的错误提示信息；3. 程序的效率较高，能够在短时间内对源程序进行词法分析。

六、实验体会通过本次实验，我对编译原理中词法分析的概念、算法和程序设计技巧有了更加深入的了解和掌握。

在实践中，我遇到了许多问题，比如如何设计状态转换图，如何正确识别一些特殊的单词等。

这些问题一一解决后，我对词法分析有了更加深刻的理解。

通过本次实验，我还深刻体会到了编译器设计过程中的思维方式和技术要求。

编译器是计算机科学中的一项重要技术，对于提高程序运行效率、保证程序安全性、增强程序可读性和扩展程序功能等都有重要作用。

因此，编译原理作为计算机科学的重要组成部分，对于我以后的学习和研究具有重要意义。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

湖北工业大学工程技术学院实验报告
课程名称：编译原理实验内容：实验一词法分析
学院：工程技术学院专业班级：计算机科学与技术一班
指导教师：张慧萍
实验日期：第八周实验地点：工1-B202
1 实验目的
设计、编制并调试一个词法分析程序，加深对词法分析原理的理解。

2实验要求
2．1 待分析的简单语言的词法
（1）关键字
Begin if then while do end
所有的关键字都是小写。

（2）运算符和界符；
：= + - * / < <= <> > >= = ; ( ) #
（3）其他单词是标识符（ID）和整型常数（NUM），通过以下正规式定义：ID=letter(letter|digit)*
NUM=digit digit*
（4）空格由空白、制表符和换行符组成。

空格一般用来分隔ID、NUM、运算符、界符和关键字，词法分析阶段通常被忽略。

2．2 各种单词符号对应的种别码
2．3 词法分析程序的功能
输入：所给文法的源程序字符串。

输出：二元组（syn,token或sum）构成的序列。

其中：syn为单词种别码；
Token为存放的单词自身字符串；
Sum为整型常量。

例如：对源程序
Begin x:=9; if x>0 then x:=2*x+1/3; end #
的源文件，经词法分析后输出如下序列：
（1,begin）（10,’x’）（18,:=）（11,9）（26,;）（2,if）…
3 词法分析程序的算法思想
算法的基本任务是从字符串表示的源程序中识别出具有独立意义的单词符号，其基本思想是根据扫描到单词符号的第一个字符的种类，拼出相应的单词符号。

1．主程序示意图
主程序示意图如图1所示。

其中初值包括如下两个方面：
（1）关键字表的初值。

关键字作为特殊标识符处理，把它们预先安排在一张表格中（称为关键字表），当扫描程序识别出标识符时，查关键字表。

如能查到匹配的单词，则该单词为关键字，否则为一般标识符。

关键字表为一个字符串数组，其描述如下：Char *rwtab[6]={“begin”,”if”,”then”,”while”,”do”,”end”};
（2）程序中需要用到的主要变量为syn,token和sum。

图1 词法分析主程序示意图
2．扫描子程序的算法思想
首先设置3个变量：
(1)token用来存放构成单词符号的字符串；
(2)sum用来存放整型单词；
(3)syn用来存放单词符号的种别码。

扫描子程序主要部分流程如图2所示。

4 词法分析程序的C语言程序框架
# include<stdio.h> /*定义i/o库所用的某些宏和变量*/
#include<string.h> /*定义字符串函数*/
Char prog[80],token[8];
Char ch;
Int syn,p,m,n,sum; /*p是缓冲区prog的指针，m是token的指针*/
Char *rwtab[6]= {“begin”,”if”,”then”,”while”,”do”,”end”};
Main()
{p=0;
Printf(“\n please input string:\n”);
Do{
//输入源程序字符串，送到缓冲区prog[p++]中；
scanf(“%c”,&ch);
prog[p++]=ch;
}while(ch!=’#’);
P=0;
图2 扫描子程序流程图
Do
{ scaner();
Switch(syn)
{ case 11:printf(“(%d,%d)\n”,syn,sun);break;
Case -1:printf(“error\n”);break;
Default:printf(“(%d,%d)\n,syn,token”);
}
}while(syn!=0);
)
词法扫描程序：
scaner()
{ for ( n=0;n<8;n++) token[n]=NULL;
ch=prog[p++] ; //读下一个字符
While (ch= =＇＇)//读下一个字符
ch=prog[p++];
If ((ch<=’z’&&ch>=’a’)||(ch<=’Z’&&ch>=’A’))// 是字母字符
{while
((ch<=’z’&&ch>=’a’)||(ch<=’Z’&&ch>=’A’)||(ch<=’9’&&ch>=’0’))// 为字母字符或数字字符
{ch token;
ch=prog[p++];//读下一个字符
}
token[m++]=＇\0＇;p--;syn=10;// 回退一个字符 for(n=0;n<6;n++)
if(strcmp(token,rwtab[n])==0)
{switch(n);//给出syn值
break;
}
}
else
if(ch<=’9’&&ch>=’0’)// 是数字字符
{while(ch>=’9’&&ch<=’0’) // 为数字字符
{sum=sum*10+ch-＇0＇;
ch=prog[p++];// 读下一个字符
}
p--;syn=11;// 回退一个字符
}
else
switch(ch)
{
case＇<＇:m=0;token[m++]=ch;
ch=prog[p++];// 读下一个字符 if(ch= =＇>＇)
{syn=21;
token[m= =]=ch;
}
else if(ch= =’=’)
{syn=22;
token[m++]=ch;
}
else
{syn=20; p--;}
Break;
case＇>＇: m=0;
token[m++]=ch;
ch=prog[p++];
if(ch==＇=＇)
{ syn=24
token[m++]=ch;
}
else
{syn=23;
p--;
}
Break;
case＇:＇ :m=0;
token[m++]=ch;
ch=prog[p++];
if (ch= =＇=＇)
{syn=18;
Token[m++]=ch;
}
else
{syn=17;
p--;
}
break;
case＇+＇:syn=13;token[0]=ch; break;
case＇-＇:syn=14;token[0]=ch; break;
case＇*＇:syn=15;token[0]=ch; break;
case＇/＇:syn=16;token[0]=ch; break;
case＇=＇:syn=25;token[0]=ch; break;
case＇;＇:syn=26;token[0]=ch; break;
case＇(＇:syn=27;token[0]=ch; break;
case＇)＇:syn=28;token[0]=ch; break;
case＇#＇:syn=0;token[0]ch; break;
default:syn=-1;
}
Return syn;
}
5 程序运行结果：
执行结果错误，种别码中的字符识别0位是begin 而判别式在等于零时自动跳出。

更改后：
当输入未知的符号$时：
6实验总结：
模拟编译程序中的词法分析，了解程序的编译的词法分析过程。

实验在于多动手才能理解它真正的精髓。

实验吧，做了好多次，出错，修改，再出错，在修改，这样才能不断的进步！。