编译原理课程设计-词法语法分析器

合集下载

编译原理中的词法分析与语法分析原理解析

编译原理中的词法分析与语法分析原理解析编译原理中的词法分析和语法分析是编译器中两个基本阶段的解析过程。

词法分析（Lexical Analysis）是将源代码按照语法规则拆解成一个个的词法单元（Token）的过程。

词法单元是代码中的最小语义单位，如标识符、关键字、运算符、常数等。

词法分析器会从源代码中读取字符流，将字符流转换为具有词法单元类型和属性值的Token序列输出。

词法分析过程中可能会遇到不合法的字符序列，此时会产生词法错误。

语法分析（Syntax Analysis）是对词法单元序列进行语法分析的过程。

语法分析器会根据语法规则，将词法单元序列转换为对应的抽象语法树（Abstract Syntax Tree，AST）。

语法规则用于描述代码的结构和组织方式，如变量声明、函数定义、控制流结构等。

语法分析的过程中，语法分析器会检查代码中的语法错误，例如语法不匹配、缺失分号等。

词法分析和语法分析是编译器的前端部分，也是编译器的基础。

词法分析和语法分析的正确性对于后续的优化和代码生成阶段至关重要。

拓展部分：除了词法分析和语法分析，编译原理中还有其他重要的解析过程，例如语义分析、语法制导翻译、中间代码生成等。

语义分析（Semantic Analysis）是对代码进行语义检查的过程。

语义分析器会根据语言的语义规则检查代码中的语义错误，例如类型不匹配、变量声明未使用等。

语义分析还会进行符号表的构建，维护变量和函数的属性信息。

语法制导翻译（Syntax-Directed Translation）是在语法分析的过程中进行语义处理的一种技术。

通过在语法规则中嵌入语义动作（Semantic Action），语法制导翻译可在语法分析的同时进行语义处理，例如求解表达式的值、生成目标代码等。

中间代码生成（Intermediate Code Generation）是将高级语言源代码转换为中间表示形式的过程。

中间代码是一种抽象的表示形式，可以是三地址码、四元式等形式。

编译原理词法分析器

一、实验目的和要求：设计并实现一个PL/0语言(或其它语言,如C语言)的词法分析程序，加深对词法分析原理的理解。

二、实验原理：词法分析是从左向右扫描每行源程序的符号，拼成单词，换成统一的机内表示形式——TOKEN字，送给语法分析程序。

TOKEN字是一个二元式：（单词种别码，自身值）。

PL/0语言单词的种别码参见教材（或自行设定），单词自身值按如下规则给出：1 标识符的自身值是它在符号表的入口地址。

2常数的自身值是常数本身（或它的二进制数值）。

3关键字和界限符的自身值为本身。

三、实验步骤与要求1、设计的词法分析器符合软件工程的要求。

2、编制程序,此程序应具有如下功能:1）输入:字符串(待进行词法分析的源程序),输出:由(种别码,自身值)所组成的二元组序列。

2）功能:a.滤空格b.识别保留字c.识别标识符d.拼数e.拼复合单词: 例如：>=、 <=、 :=3）检查如下错误：a.程序语言的字符集以外的非法字符b.单词拼错,如9A88,而对于将begin拼写成begon的错误,只须把begon当成标识符即可3、请指导教师检查程序和运行结果，评定成绩。

4、撰写并上交实验报告。

四、试验设计和算法分析：实验原理：程序流程：置初值→调用扫描子程序→输出串结束→输出单词二元组→是→否→结束词法分析主程序示意图待分析的简单语言的词法(1) 关键字：begin if then while do end所有关键字都是小写。

（2）运算符和界符：：= + - * / < > <= <> >= ; ( ) #(3)：其他单词是标识符（ID）和整型常数（NUM），通过以下正规式定义：ID=letter(letter | digit)*NUM=digit digit*(4)空格由空白、制表符和换行符组成。

空格一般用来分隔ID、NUM、运算符、界符和关键字，词法分析阶段通常被忽略。

、设计的词法分析器符合软件工程的要求。

编译原理课程设计词法分析器文档

2011—2012学年第一学期《编译原理》课程设计报告专业：计算机科学与技术学生姓名：张金荣指导教师：孔繁茹完成时间：2017年8月15日目录第 1 节课程设计目的 (1)第 2 节课程设计要求 (1)第 3 节课程设计内容 (2)第 4 节状态转换图 (4)第 5 节实现工具 (4)第 6 节实现函数 (4)第7 节测试结果 (5)第8 节实验源代码 (6)第9 节参考文献 (9)致谢感设计目的①理解词法分析器的基本功能。

词法分析的任务是：从左至右逐个字符地对源程序进行扫描，产生一个个的单词符号（token），把作为字符串的源程序改造成单词符号串的中间程序。

因此，词法分析是编译的基础。

②理解词法规则的描述方法。

程序设计语言一般可以用标识符、关键字、运算符、分隔符、常量、字符串和注释符来描述④理解状态转换图及其实现。

一个状态转换图可用于识别（或接受)一定的字符。

大多数程序语言的单词符号都可以用转换图予以识别。

转换图非常易于用程序实现，最简单的办法是让每个状态结对应一小段程序。

④能够编写简单的词法分析器。

2.课程设计的要求手工构造一个简单的词法分析程序, 能够识别标识符、整数、关键字、算符、界符。

①画出识别单词的状态转换图。

(若状态转换图过于复杂,可以只画出主要部分；若依旧复杂，可只识别标识符和整数)②根据状态转换图手工构造词法分析程序。

从以下方法中选一：✧词法分析器作为独立的一遍。

词法分析结果输出到屏幕上或存入文件。

✧词法分析器作为一个子程序被语法分析器调用。

每次调用返回一个单词同时将单词及属性存入符号表③实现状态转换图。

从以下方法中选一：✧直接转向法✧表驱动法四、选做实验☻使用缓冲技术3.课程设计内容程序语言的单词符号一般可分为下列五种。

(1)关键字是由程序语言定义的具有固定意义的标志符。

本程序定义char,short,int,unsigned,long,float,double,struct,union,void,enum,cons t,typedef,auto,static,break,case,continue,default,do,else,for,if,retu rn,switch,while,sizeof,printf,FILE,fopen,NULL,fclose,exit,read,closef ，printf为关键字。

编译原理词法分析器语法分析器实验报告

opt2:
printf("请输入各终结符（#号表示结束）Vt[i]:\n");
for(i=0;i<100;i++)
{
scanf("%c",&Vt[i]);
if(Vt[i]=='#')
{
r=i;
break;
}
}
printf("请输入非终结符个数:\n");
scanf("%d",&n);
getchar();
p=s->next;
while(p!=NULL)
{
st[i++]=p->data;
p=p->next;
}
for(j=i-1;j>=0;j--)
printf("%c",st[j]);
for(j=0;j<16-i;j++) //打印对齐格式
printf("%c",' ');
}
char gettop(stackk *s) //返回栈顶元素值
{
stackk *p;
p=(stackk *)malloc(sizeof(stackk));
p->data=x;
p->next=s->next;
s->next=p;
}
void display(stackk *s) //打印现实显示栈内元素
{
stackk *p;
int i=0,j;
char st[100];
#include<string.h>
#include<malloc.h>

编译原理报告—词法分析器

词法分析器的作用词法分析是编译的第一阶段。

词法分析器的主要任务是读入源程序的输入字符，将它们组成词素，生成并输出一个词法单元序列，这个词法单元序列被输出到语法分析器进行语法分析。

另外，由于词法分析器在编译器中负责读取源程序，因此除了识别词素之外，它还会完成一些其他任务，比如过滤掉源程序中的注释和空白，将编译器生成的错误消息与源程序的位置关联起来等。

总而言之，词法分析器的作用如下：1.读入源程序的输入字符，将它们组成词素，生成并输出一个词法单元序列；2.过滤掉源程序中的注释和空白；3.将编译器生成的错误消息与源程序的位置关联起来；4.其它。

词法分析过程首先，对某个正则语言L，构造能够描述其的正则表达式r；然后，需要将r 转换成一个有穷自动机。

这里有三种方法，一是直接转换成NFA，而是直接转换成DFA，三是先转换成NFA，再把NFA 转换成DFA；最后，如果将r 转换成了一个DFA，需要将此DFA 的状态数最小化。

正则表达式正则表达式可以用来描述词素的模式，一个正则表达式可以由较小的正则表达式递归的构建。

对于符号集合∑={a，b}，有：-正则表达式a 表示语言{a}；-正则表达式a|b 表示语言{a，b}；-正则表达式(a|b)(a|b)表示语言{aa，ab，ba，bb}；-正则表达式a*表示语言{ε，a，aa，aaa，…}；-正则表达式(a|b)*表示语言{ε，a，b，aa，ab，ba，bb，aaa，…}；-正则表达式a|a*b 表示语言{a，b，ab，aab，aaab，…}。

上面通过基本的并、连接和闭包运算递归定义了正则表达式有穷自动机一个有穷自动机可以把一个描述词素的模式变成一个词法分析器，从本质上来讲，有穷自动机是与状态转换图相类似的图，它有以下特点：有穷自动机是一个识别器，它只能对每个输入符号串简单的输出“yes”或“no”，表示是否能够识别此符号串；有穷自动机和状态转换图类似，它具有有限个数的结点，每个结点表示一个状态，并且这些状态中有一个初始状态和若干个终止状态。

编译原理设计c语言的词法分析器

编译原理课程设计报告题目：学院：教师：：学号：班级：评分：签字：编译原理课程设计一：设计c语言的词法分析器一、实验目的了解高级语言单词的分类，了解状态图以及如何表示并识别单词规则，掌握状态图到识别程序的编程，加深对词法原理的理解。

二、实验要求了解高级语言单词的分类，了解状态图以及如何表示并识别单词规则，掌握状态图到识别程序的编程。

三、实验设计3.1．单词分类及表示3.1.1 C语言的子集分类（1）标识符：以字母开头的字母数字串（2）整数或浮点型。

（3）保留字：for,while,do,else,if,static,int,sizeof,break,continue（4）运算符：+，-，*，/，%,>,<,=,!=,==,<=,>=,!,&,&&,||;（5）界符："(",")",",",":",";","{","}"3.1.2单词二元组（单词分类号、单词自身值）3.2 词法分析器的设计3.2.1算法设计3.2.1.1概要设计从文件中逐个读取字符，只要这五大类的状态序列则继续读取，否则回退字符，在对应类别进行查找，输出单元二次组至另一文件夹。

3.2.1.2状态图设计开始打开txt文件读取c语言代码扫描是否读取到相应字符常数？标识符保留字运算符记录标号结束界符？YY Y3.2.2输入输出设计输入：通过文件指针从文件中一个一个读取字符输出：输出单词二元组至文件。

格式为（种别码，值）3.2.3主要函数void Getchar(FILE *fp ) //读入一个字符void GetBC(FILE *fp)//读入一个非空字符void contacat()//连接字符int letter()//判断是否为字母int digit()//判断是否为字母void retract(FILE *fp,char *c)//回退int reserve (char **k)//处理保留字int sysmbol(identifier *id)//处理标识符，查找符号表并存放位置若没有则添加int constant(constnumber *con)//存入常数表，并返回它在常数表中的位置void Tofile(int num, int val, identifier *id, constnumber *con, FILE *fw)//写到文件void WordAnalyze(char **k,char *c, char **CODE, identifier *id, constnumber *con, FILE *fp, FILE *fw)//词法分析函数四、结果测试文件输入int main(){int a=1,b=3;if(a>1)b=b-2;}输出结果：结论：程序输出结果与期望输出结果相符。

编译原理实验词法分析器与语法分析器实现

编译原理实验词法分析器与语法分析器实现词法分析器与语法分析器是编译器的两个重要组成部分，它们在编译过程中扮演着至关重要的角色。

词法分析器负责将源代码转化为一个个标记（token）序列，而语法分析器则根据词法分析器生成的标记序列构建语法树，验证源代码的语法正确性。

本实验旨在实现一个简单的词法分析器和语法分析器。

实验一：词法分析器实现在实现词法分析器之前，需要定义所需词法项的规则。

以C语言为例，常见的词法项包括关键字（如int、if、for等）、标识符、运算符（如+、-、*、/等）、常量（如整数、浮点数等）和分隔符（如括号、逗号等）。

接下来，我们来实现一个简单的C语言词法分析器。

1. 定义词法项的规则在C语言中，关键字和标识符由字母、数字和下划线组成，且首字符不能为数字。

运算符包括各种数学运算符和逻辑运算符。

常量包括整数和浮点数。

分隔符包括括号、逗号等。

2. 实现词法分析器的代码下面是一个简单的C语言词法分析器的实现代码：```pythondef lexer(source_code):keywords = ['int', 'if', 'for'] # 关键字列表operators = ['+', '-', '*', '/'] # 运算符列表separators = ['(', ')', '{', '}', ',', ';'] # 分隔符列表tokens = [] # 标记序列列表current_token = '' # 当前标记for char in source_code:if char.isspace(): # 如果是空格，则忽略continueelif char.isalpha(): # 如果是字母，则可能是关键字或标识符的一部分current_token += charelif char.isdigit(): # 如果是数字，则可能是常量的一部分current_token += charelif char in operators or char in separators: # 如果是运算符或分隔符，则当前标记结束if current_token:tokens.append(current_token)current_token = ''tokens.append(char)else: # 如果是其他字符，则当前标记结束if current_token:tokens.append(current_token)current_token = ''return tokens```以上代码通过遍历源代码的字符，根据定义的规则生成一个个标记，存储在`tokens`列表中。

编译原理课程设计报告——词法分析器

精选课程设计任务书引言 (4)第一章概述 (5)1.1设计内容 (5)1.2设计要求 (5)第二章设计的基本原理 (6)2.1 (6)2.2 (6)第三章程序设计 (7)3.1 总体方案设计 (7)3.2 各模块设计 (8)第四章程序测试 (9)4.1一般测试4.2出错处理测试第五章结论 (10)参考文献 (10)附录程序清单 (11)引言《编译原理》是国内外各高等院校计算机科学技术类专业，特别是计算机软件专业的一门重要专业课程。

该课程系统地向学生介绍编译程序的结构、工作流程及编译程序各组成部分的设计原理和实现技术。

由于该课程理论性和实践性都比较强，内容较为抽象复杂，涉及到大量的软件设计算法，因此，一直是一门比较难学的课程。

为了使学生更好地理解和掌握编译技术的基本概念、基本原理和实现方法，实践环节非常重要，只有通过上机进行程序设计，才能使学生对比较抽象的教学内容产生具体的感性认识，增强学生综合分析问题、解决问题的能力，并对提高学生软件设计水平大有益处。

编译原理涉及词法分析，语法分析，语义分析及优化设计等各方面。

词法分析阶段是编译过程的第一个阶段，是编译的基础。

这个阶段的任务是从左到右一个字符一个字符地读入源程序，即对构成源程序的字符流进行扫描然后根据构词规则识别单词（也称单词符号或符号）。

词法分析程序实现这个任务。

词法分析程序可以使用 Lex 等工具自动生成。

从左到右逐个字符对构成源程序的字符串进行扫描，依据词法规则，识别出一个一个的标记（token ），把源程序变为等价的标记串序列。

执行词法分析的程序称为词法分析器，也称为扫描器。

词法分析是所有分析优化的基础，涉及的知识较少，如状态转换图等，易于实现。

本次课程设计，我的选题是词法分析， C++ 代码实现。

第一章概述1.1 设计内容对 C 语言的一个子集设计并实现一个简单的词法分析器，掌握利用状态转换图设计词法分析器的基本方法。

1.2设计要求利用该词法分析器完成对源程序字符串的词法分析。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

编译原理课程设计Course Design of Compiling（课程代码3273526）半期题目：词法和语法分析器实验学期：大三第二学期学生班级：2014级软件四班学生学号：2014112218学生姓名：何华均任课教师：丁光耀信息科学和技术学院2017.6课程设计1-C语言词法分析器1.题目C语言词法分析2.内容选一个能正常运行的c语言程序，以该程序出现的字符作为单词符号集，不用处理c语言的所有单词符号。

将分析到的单词符号对应的二元组输出到文件中保存可以将扫描缓冲区和输入缓冲区合成一个缓冲区，一次性输入源程序后就可以进行预处理了 3.设计目的掌握词法分析算法，设计、编制并调试一个词法分析程序，加深对词法分析原理的理解4.设计环境（电脑语言环境）语言环境:C 语言 CPU:i7HQ6700 内存：8G5.概要设计（单词符号表，状态转换图） 5.1 词法分析器的结构词法分析程序的功能：输入：所给文法的源程序字符串。

输出：二元组（syn,token 或sum ）构成的序列。

词法分析程序可以单独为一个程序；也可以作为整个编译程序的一个子程序，当需要一个单词时，就调用此法分析子程序返回一个单词.为便于程序实现,假设每个单词间都有界符或运算符或空格隔开,并引入下面的全局变量及子程序:1) ch 存放最新读进的源程序字符 2) strToken 存放构成单词符号的字符串 3) Buffer 字符缓冲区4）struct keyType 存放保留字的符号和种别 5.2 待分析的简单词法（1）保留字break 、case 、char 、const 、int 、do 、while …（2）运算符和界符= 、+、 -、 * 、/、%、，、；、（、）、？、# 5.3 各种单词符号对应的种别码单词符号种别码单词符号种别码 ID 0 sizeof 24INT 1static25 auto 2 struct 26 break 3switch27case 4 typedef 28 char 5 union 29 const 6 unsigned 30 continue 7 void31 default 8 volatile 32 do 9 while 33 double 10 = 34 else11+35源程序输入缓冲区预处理子程序扫描缓冲区1 扫描缓冲区2 词法分析子程序返回一个单词调用数据enum 12 - 36extern 13 *37float 14 / 38for 15 % 39goto 16 , 40if 17 ; 41int 18 ( 42long 19 ) 43register 20 ? 44return 21 clear 45short 22 # 46signed 23 lettet（letter|digit）*47dight dight* 486.详细设计（数据结构，子程序）算法思想：首先设置3个变量：①strToken用来存放构成单词符号的字符串；②ch用来字符；③struct keyType用来存放单词符号的种别码。

扫描子程序主要部分流程如下图所示。

子程序名功能GETCHAR()读一个字符到 ch 中GETBC() 读一个非空白字符到ch 中CONCAT() 把CHAR 中字符连接到strToken 之后LETTER() 判断CHAR 中字符是否为字母DIGIT() 判断ch 中字符是否为数字RESERVE() 用strToken中的字符串查找保留字表,并返回保留字种别码,若返回零,则非保留字RETRACT() 把CHAR 中字符回送到缓冲区7.程序清单// ConsoleApplication1.cpp : 定义控制台使用程序的入口点。

//#include"stdafx.h"#include"stdio.h"#include"stdlib.h"#include"conio.h"#include"string.h"#define N 47char ch;char strToken[20];//存放构成单词符号的字符串char buffer[1024]; //字符缓冲区struct keyType {char keyname[256];int value;}Key[N] = { { "$ID",0 },{ "$INT",1 },{ "auto",2 },{ "break",3 },{ "case",4 }, { "char",5 },{ "const",6 },{ "continue",7 },{ "default",8 },{ "do",9 }, { "double",10 },{ "else",11 },{ "enum",12 },{ "extern",13 },{ "float",14 }, { "for",15 },{ "goto",16 },{ "if",17 },{ "int",18 },{ "long",19 },{ "register",20 }, { "return",21 },{ "short",22 },{ "signed",23 },{ "sizeof",24 },{ "static",25 }, { "struct",26 },{ "switch",27 },{ "typedef",28 },{ "union",29 },{ "unsigned",30 }, { "void",31 },{ "volatile",32 },{ "while",33 },{ "=",34 },{ "+",35 },{ "-",36 },{ "*",37 },{ "/",38 },{ "%",39 },{ ",",40 },{ ";",41 },{ "(",42 },{ ")",43 },{ "?",44 },{ "clear", 45 },{ "#",46 } };void GetChar() //读一个字符到ch中{int i;if (strlen(buffer)>0) {ch = buffer[0];for (i = 0; i<256; i++)buffer[i] = buffer[i + 1];}elsech = '\0';}void GetBC()//读一个非空白字符到ch中{int i;while (strlen(buffer)) {i = 0;ch = buffer[i];for (; i<256; i++) buffer[i] = buffer[i + 1];if (ch != ' '&&ch != '\n'&&ch != '\0') break;}}void ConCat()//把ch连接到strToken之后{char temp[2];temp[0] = ch;temp[1] = '\0';strcat(strToken, temp);}bool Letter()//判断ch是否为字母{if (ch >= 'A'&&ch <= 'Z' || ch >= 'a'&&ch <= 'z')return true;elsereturn false;}bool Digit()//判断ch是否为数字{if (ch >= '0'&&ch <= '9')return true;elsereturn false;}int Reserve()//用strToken中的字符查找保留字表，并返回保留字种别码，若返回0，则非保留字{int i;for (i = 0; i<N; i++)if (strcmp(strToken, Key[i].keyname) == 0)return Key[i].value;return 0;}void Retract()//把ch中的字符回送到缓冲区{int i;if (ch != '\0') {buffer[256] = '\0';for (i = 255; i>0; i--)buffer[i] = buffer[i - 1];buffer[0] = ch;}ch = '\0';}keyType ReturnWord(){strcpy(strToken, "\0");int c;keyType tempkey;GetBC();if (ch >= 'A'&&ch <= 'Z' || ch >= 'a'&&ch <= 'z') { ConCat();GetChar();while (Letter() || Digit()) {ConCat();GetChar();}Retract();c = Reserve();strcpy(tempkey.keyname, strToken);if (c == 0)tempkey.value = 0;elsetempkey.value = Key[c].value;}else if (ch >= '0'&&ch <= '9') {ConCat();GetChar();while (Digit()) {ConCat();GetChar();}Retract();strcpy(tempkey.keyname, strToken);tempkey.value = 1;}else {ConCat();strcpy(tempkey.keyname, strToken);tempkey.value = Reserve();}return tempkey;}/*主函数*/int main() {//文件操作FILE *fp;if ((fp = fopen("E:\\作业\\编译原理\\Ccode.txt", "r")) == NULL) { printf("cannot open file/n"); exit(1);}while (!feof(fp)) {if (fgets(buffer, 250, fp) != NULL){printf("E:\\作业\\编译原理\\Ccode.txt\n");}}keyType temp;printf("单词\t种别号\n");while (strlen(buffer)) {temp = ReturnWord();printf("%s\t %d\n\n", temp.keyname, temp.value);}printf("the end!\n");getch();return 0;}8.运行结果E:/作业/编译原理/Code.txt运行结果九、实验体会通过本次次法分析设计实验，我加深了对词法分析过程的理解。