编译原理词法分析报告(C++)

合集下载

编译原理词法分析实验报告

编译原理词法分析实验报告实验名称:词法分析器的设计与实现一、实验目的：1.熟悉编译原理中词法分析的基本概念和原理；2.掌握正则表达式的使用方法；3.实现一个简单的词法分析器。

二、实验内容：1.设计一个简单的编程语言，包含如下几种类型的词法单元：关键字、标识符、常量、运算符和界符。

2.使用正则表达式定义每种词法单元的模式。

3.设计一个词法分析器，将源代码中的每个词法单元识别出来并输出。

三、实验步骤：1. 确定编程语言的词法单元类型和正则表达式模式，定义相应的单词类型（如 TokenType）和模式（如 regex）。

2. 实现一个词法分析器的类 Lexer，包含以下方法：(1)一个构造方法，用于初始化词法分析器的输入源代码。

(2) 一个getNextToken方法，用于获取源代码中的下一个词法单元。

3. 在getNextToken方法中，使用正则表达式逐个识别源代码中的词法单元，并返回相应的Token对象。

4. 设计一个Token类，包含以下属性：词法单元类型、词法单元的值和位置信息等。

5.在主程序中使用词法分析器，将源代码中的每个词法单元识别出来并输出。

四、实验结果：1.设计一个简单的编程语言，包含如下词法单元类型（示例）：(1) 关键字：if、else、while、for等；(2)标识符：变量名等；(3)常量：整数、浮点数、字符串等；(4)运算符：+、-、*、/、=等；(5)界符：(、)、{、}、;等。

2. 实现一个词法分析器，识别出源代码中的每个词法单元，并输出相应的Token对象。

五、实验总结：通过本次实验，我熟悉了编译原理中词法分析的基本概念和原理，并掌握了正则表达式的使用方法。

我成功完成了一个简单的词法分析器的设计与实现，实现了源代码中每个词法单元的识别与输出。

这次实验对我深化了对编译原理中词法分析的理解，并提高了我的编程能力。

编译原理实验报告

编译原理实验报告一、实验目的本次编译原理实验的主要目的是通过实践加深对编译原理中词法分析、语法分析、语义分析和代码生成等关键环节的理解，并提高实际动手能力和问题解决能力。

二、实验环境本次实验使用的编程语言为 C/C+＋，开发工具为 Visual Studio 2019，操作系统为 Windows 10。

三、实验内容（一）词法分析器的设计与实现词法分析是编译过程的第一个阶段，其任务是从输入的源程序中识别出一个个具有独立意义的单词符号。

在本次实验中，我们使用有限自动机的理论来设计词法分析器。

首先，我们定义了单词的种类，包括关键字、标识符、常量、运算符和分隔符等。

然后，根据这些定义，构建了相应的状态转换图，并将其转换为程序代码。

在实现过程中，我们使用了字符扫描和状态转移的方法，逐步读取输入的字符，判断其所属的单词类型，并将其输出。

（二）语法分析器的设计与实现语法分析是编译过程的核心环节之一，其任务是在词法分析的基础上，根据给定的语法规则，判断输入的单词序列是否构成一个合法的句子。

在本次实验中，我们采用了自顶向下的递归下降分析法来实现语法分析器。

首先，我们根据给定的语法规则，编写了相应的递归函数。

每个函数对应一种语法结构，通过对输入单词的判断和递归调用，来确定语法的正确性。

在实现过程中，我们遇到了一些语法歧义的问题，通过仔细分析语法规则和调整函数的实现逻辑，最终解决了这些问题。

（三）语义分析与中间代码生成语义分析的任务是对语法分析所产生的语法树进行语义检查，并生成中间代码。

在本次实验中，我们使用了四元式作为中间代码的表示形式。

在语义分析过程中，我们检查了变量的定义和使用是否合法，类型是否匹配等问题。

同时，根据语法树的结构，生成相应的四元式中间代码。

（四）代码优化代码优化的目的是提高生成代码的质量和效率。

在本次实验中，我们实现了一些基本的代码优化算法，如常量折叠、公共子表达式消除等。

通过对中间代码进行分析和转换，减少了代码的冗余和计算量，提高了代码的执行效率。

编译原理----词法分析程序----C语言版

编译原理----词法分析程序----C语⾔版#include<stdio.h>#include<string.h>#include<stdlib.h>char KeyWord[20][100]={"begin","end","if","while","var","procedure","else","for","do","int","read","write"};char yunsuanfu[]="+-*/<>%=";char fenjiefu[]=",;(){}:";int main(){char test[]="var a=10;\nvar b,c;\nprocedure p; \n\tbegin\n\t\tc=a+b\n\tend\n";int len_yunsuanfu=strlen(yunsuanfu);int len_fenjiefu=strlen(fenjiefu);puts(test);int length=strlen(test),i,j,k;for(i=0;i<length;i++){if(test[i]==' '||test[i]=='\n'||test[i]=='\t')continue;int tag=0;for(j=0;j<len_fenjiefu;j++){if(fenjiefu [j]==test[i]){printf("分界符\t%c\n",test[i]);tag=1;break;}}if(tag==1)continue;tag=0;for(j=0;j<len_yunsuanfu;j++){if(yunsuanfu[j]==test[i]){printf("运算符\t%c\n",test[i]);tag=1;break;}}if(tag==1)continue;if(test[i]>='0'&&test[i]<='9'){printf("数字\t");while(test[i]>='0'&&test[i]<='9'){printf("%c",test[i]);i++;}printf("\n");continue;}char temp[100];j=0;while(test[i]>='0'&&test[i]<='9'||test[i]>='a'&&test[i]<='z'||test[i]>='A'&&test[i]<='Z'||test[i]=='_') {temp[j++]=test[i];i++;}i--;temp[j++]='\0';tag=0;for(j=0;j<20;j++){if(strcmp(temp,KeyWord[j])==0){tag=1;printf("关键字\t%s\n",temp);break;}}if(tag==0)printf("标识符\t%s\n",temp);}}。

编译原理课程设计C编译器词法分析与语法分析的实现

编译原理课程设计报告课落款称： C-编译器词法分析与语法分析的实现提交文档学生姓名：黄臻旸提交文档学生学号： 1043041227 同组成员名单：无指导教师姓名：金军指导教师评阅成绩：指导教师评阅意见：..提交报告时刻：2021年 6 月 5 日编译原理课程设计报告 (1)一、课程设计目标 (3)二、分析与设计 (3)2.一、说明所用的方式： (3)2.二、系统总图： (3)2.2.一、scanner部份： (3)2.2.二、parse部份： (5)2.2.3、代码设计说明 (7)3、程序代码实现 (10)3.一、获取输入部份（在main.c中）： (10)3.二、词法分析部份（在scan.c中）： (10)3.3、语法分析部份（在parse.c中）： (15)3.4、输出与结点的成立（在util.c中） (29)3.五、TokenType、treeNode与结点类型的声明（在globals.h中） (35)4、测试结果 (36)五、总结 (40)5.一、收成 (43)5.二、不足 (43)一、课程设计目标本次实验，本C- 编译器要紧设计而且实现了C- 编译器的词法分析功能与语法分析功能。

二、分析与设计2.一、说明所用的方式：各部份的实现方式（scanner：手工实现、Lex；parser：递归下降、LL(1)、LR(0)、SLR(1)、2.二、系统总图：2.2.一、scanner部份：2.2.1.一、实验原理：扫描程序的任务是从源代码中读取字符并形成由编译器的以后部份（一般是分析程序）处置的逻辑单元。

由扫描程序生成的逻辑单元称作记号（token），将字符组合成记号与在一个英语句子中将字母将字母组成单词并确信单次的含义很相像。

在此程序中，我将记号分成了以下类型：typedef enum {ENDFILE,ERROR,IF,ELSE,INT,RETURN,VOID,WHILE,ID,NUM,ASSIGN,PLUS,MINUS,TIMES,OVER,L T,LET,BT,BET,EQ,NEQ,// = + - * / < <= > >= == !=LPAREN_1,RP AREN_1,SEMI,COM,LPAREN_2,RP AREN_2,LPAREN_3,RP AREN_3,LIN,RIN// { } ; , [ ] ( ) /*} TokenType;其中，关键字有：else、if、int、return、void、while；专用符号有：+、-、*、/、<、<=、>、>=、==、~=、=、;、,、(、)、[、]、{、}、/*、*/其他标记是ID、NUM，通过以下正那么表达式概念：ID = letter letter*NUM = digit digit*letter = a|..|z|A|..|Zdigit = 0|..|9小写大写字母是有区别的。

C语言编译原理词法分析和语法分析

C语言编译原理词法分析和语法分析编程语言的编写和使用离不开编译器的支持，而编译器的核心功能之一就是对代码进行词法分析和语法分析。

C语言作为一种常用的高级编程语言，也有着自己的词法分析和语法分析规则。

一、词法分析词法分析是编译器的第一阶段，也是将源代码拆分为一个个独立单词（token）的过程。

在C语言中，常见的单词包括关键字（如if、while等）、标识符（如变量名）、常量（如数字、字符常量）等。

词法分析器会根据预定义的规则对源代码进行扫描，并将扫描到的单词转化为对应的符号表示。

词法分析的过程可以通过有限自动机来实现，其中包括各种状态和状态转换规则。

词法分析器通常会使用正则表达式和有限自动机的方法来进行实现。

通过词法分析，源代码可以被分解为一个个符号，为后续的语法分析提供基础。

二、语法分析语法分析是编译器的第二阶段，也是将词法分析得到的单词序列转换为一棵具有语法结构的抽象语法树（AST）的过程。

在C语言中，语法分析器会根据C语言的文法规则，逐句解析源代码，并生成相应的语法树。

C语言的语法规则相对复杂，其中包括了各种语句、表达式、声明等。

语法分析的过程主要通过递归下降分析法、LR分析法等来实现。

语法分析器会根据文法规则建立语法树的分析过程，对每个语法结构进行逐步推导和分析，最终生成一棵完整的语法树。

三、编译器中的词法分析和语法分析在编译器中实现词法分析和语法分析是一项重要的技术任务。

编译器通常会将词法分析和语法分析整合在一起，形成一个完整的前端。

在C语言编译器中，词法分析和语法分析器会根据C语言的词法规则和文法规则，对源代码进行解析，并生成相应的中间表示形式，如语法树或者中间代码。

词法分析和语法分析的结果会成为后续编译器中各个阶段的输入，如语义分析、中间代码生成、目标代码生成等。

编译器的优化和错误处理也与词法分析和语法分析有密切关系。

因此，对词法分析和语法分析的理解和实现对于编译器开发者而言是非常重要的。

编译原理词法分析和语法分析报告+代码(C语言版)[1]

词法分析一、实验目的设计、编制并调试一个词法分析程序，加深对词法分析原理的理解。

二、实验要求2.1 待分析的简单的词法（1）关键字：begin if then while do end所有的关键字都是小写。

（2）运算符和界符：= + - * / < <= <> > >= = ; ( ) #（3）其他单词是标识符（ID）和整型常数（SUM），通过以下正规式定义：ID = letter (letter | digit)*NUM = digit digit*（4）空格有空白、制表符和换行符组成。

空格一般用来分隔ID、SUM、运算符、界符和关键字，词法分析阶段通常被忽略。

2.2 各种单词符号对应的种别码：输入：所给文法的源程序字符串。

输出：二元组（syn,token或sum）构成的序列。

其中：syn为单词种别码；token为存放的单词自身字符串；sum为整型常数。

例如：对源程序begin x:=9: if x>9 then x:=2*x+1/3; end #的源文件，经过词法分析后输出如下序列：(1,begin)(10,x)(18,:=)(11,9)(26,;)(2,if)……三、词法分析程序的算法思想：算法的基本任务是从字符串表示的源程序中识别出具有独立意义的单词符号，其基本思想是根据扫描到单词符号的第一个字符的种类，拼出相应的单词符号。

3.1 主程序示意图：主程序示意图如图3-1所示。

其中初始包括以下两个方面：⑴关键字表的初值。

关键字作为特殊标识符处理，把它们预先安排在一张表格中（称为关键字表），当扫描程序识别出标识符时，查关键字表。

如能查到匹配的单词，则该单词为关键字，否则为一般标识符。

关键字表为一个字符串数组，其描述如下：Char *rwtab[6] = {“begin”, “if”, “then”, “while”, “do”, “end”,};图3-1（2）程序中需要用到的主要变量为syn,token和sum3.2 扫描子程序的算法思想：首先设置3个变量：①token用来存放构成单词符号的字符串；②sum用来整型单词；③syn用来存放单词符号的种别码。

编译原理词法分析器实验报告

一、实验目的设计一个简单的词法分析器，从而进一步加深对词法分析器工作原理的明白得。

二、实验要求一、该个词法分析器要求至少能够识别以下几类单词：(1)关键字：else if int return void while共6个，所有的关键字都是保留字，而且必需是小写；(2)标识符：识别与C语言词法规定相一致的标识符，通过以下正那么表达式概念：ID = letter (letter | digit)*；(3)常数：NUM = digit digit*(.digit digit* |ε)(e(+ | - |ε) digit digit* |ε)，letter = a|..|z|A|..|Z|，digit = 0|..|9，包括整数，如123等；小数，如123.45等；科学计数法表示的常数，如1.23e3，2.3e-9等；(4)专用符号：+ - * / < <= > >= == != = ; , ( ) [ ] { } /* */；二、分析器的输入为由上述几类单词组成的程序，输出为该段程序的机内表示形式，即关键字、运算符、界限符变成其对应的机内符，常数利用二进制形式，标识符利用相应的标识符表指针表示。

3、词法分析器应当能够指出源程序中的词法错误，如不可识别的符号、错误的词法等。

三、实验环境实验环境为win7系统、vs2005。

四、实验内容1、词法分析程序的功能：输入：所给文法的源程序字符串。

输出：二元组（syn,token）或（sum或fsum,对应二进制）组成的序列。

其中：syn为单词类别码；token为寄存的单词自身字符串；sum为整型常数；fsum为浮点型常数。

二、各类单词符号类别码如下表：五、要紧函数说明一、程序全局变量char inputstr[300],token[8];//别离寄存程序段、组成单词符号的字符串char ch;//输入字符int syn;//单词字符的类别码int p;//缓冲区inputstr的指针int sum;//整型常量float fsum;//浮点型常量char *rwtab[6]={"else","if","int","return","void","while"};//关键字数组二、语法分析函数void scaner()该函数完成所有的语法分析，关于输入的程序片段，第一去掉空格和换行，然后逐字符分析，找出各个单词（存入token[8]），判别它们的类型（确信syn 值，若是是整数那么是sum值，若是是浮点数那么是fsum）。

编译原理词法分析报告

实验一：词法分析一、实验目的：1、通过设计编制调试一个具体的词法分析程序，加深对词法分析原理的理解。

并掌握在对程序设计语言源程序进行扫描过程中将其分解为各类单词的词法分析方法。

2、编制一个读单词过程，从输入的源程序中，识别出各个具有独立意义的单词，即基本关键字、标识符、常数、运算符、分隔符五大类。

并依次输出各个单词的内部编码及单词符号自身值。

（遇到错误时可显示“Error”，然后跳过错误部分继续显示）二、实验预习提示1、词法分析器的功能和输出格式词法分析器的功能是输入源程序，输出单词符号。

词法分析器的单词符号常常表示成以下的二元式(单词种别码，单词符号的属性值)。

本实验中，采用的是一类符号一种别码的方式。

2、单词的BNF表示<标识符>-> <字母><字母数字串><字母数字串>-><字母><字母数字串>|<数字><字母数字串>|<下划线><字母数字串>|ε<无符号整数>-> <数字><数字串><数字串>-> <数字><数字串> |ε<加法运算符>-> +<减法运算符>->-<大于关系运算符>->><大于等于关系运算符>-> >=3、“超前搜索”方法词法分析时，常常会用到超前搜索方法。

如当前待分析字符串为“a>+”,当前字符为’>’，此时，分析器到底是将其分析为大于关系运算符还是大于等于关系运算符呢？显然，只有知道下一个字符是什么才能下结论。

于是分析器读入下一个字符’+’，这时可知应将’>’解释为大于运算符。

但此时，超前读了一个字符’+’，所以要回退一个字符，词法分析器才能正常运行。

在分析标识符，无符号整数等时也有类似情况。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

词法分析实验报告
一、实验目的
1. 掌握词法分析的原理。 2. 熟悉保留字表等相关的数据结构与单词的分类方法。 3. 掌握词法分析器的设计与调试。
二、实验内容
根据编译中的分词原理,用C++语言编写一个C语言的词法分析程序:.
三、实验要求
1. 输入:任意一个C语言程序的源代码。 2. 处理:对输入进行分析,分离出保留字、标识符、常量、算符和界符。 3. 输出:对应的二元式
{ m_words.GrammarWords='t'; } if(L"printf"==strTemp) { m_words.GrammarWords='u'; } if(L"while"==strTemp) { m_words.GrammarWords='k'; } } m_words.type=currenttoken; m_words.str=strTemp; m_words.row=m_row; m_words.col=m_col-m_words.str.GetLength(); m_wordList.AddTail(m_words); } else if(m_ch>='0' && m_ch<='9') { m_words.str=getNumber(); m_words.type=tokentype::NUM; m_words.GrammarWords='h'; m_words.row=m_row; m_words.col=m_col-m_words.str.GetLength(); m_wordList.AddTail(m_words); m_constList[m_constListIndex].val=m_words.str; m_constList[m_constListIndex].place=g_place; m_constList[m_constListIndex].type="int"; g_place+=4; m_constListIndex++; } else if(m_ch=='\'') { m_words.str=getChar(); if(m_words.str!="') { m_row++; } strTemp+=m_ch; m_ch=getnextchar(); m_col++; if(m_ch=='\t') { m_col+=3; } } return strTemp; } // 获取字符串 CString CScanner::getChar(void) { CString strTemp;//保存字符串变量 m_ch=m_cChar[m_nCount-1];//获取当前字符 if(m_nCount==m_nLength) { return strTemp; } m_ch=getnextchar(); m_col++; while(m_ch!='\'') { strTemp+=m_ch; if(m_ch=='\n') { return strTemp; } if(m_nCount==m_nLength) { return strTemp; }
reservedWords[0].tok=tokentype::_VOID; reservedWords[1].str=L"char"; reservedWords[1].tok=tokentype::CHAR; reservedWords[2].str=L"const"; reservedWords[2].tok=tokentype::_CONST; reservedWords[3].str=L"double"; reservedWords[3].tok=tokentype::DOUBLE; reservedWords[4].str=L"else"; reservedWords[4].tok=tokentype::ELSE; reservedWords[5].str=L"float"; reservedWords[5].tok=tokentype::FLOAT; reservedWords[6].str=L"for"; reservedWords[6].tok=tokentype::FOR; reservedWords[7].str=L"if"; reservedWords[7].tok=tokentype::IF; reservedWords[8].str=L"int"; reservedWords[8].tok=tokentype::INT; reservedWords[9].str=L"main"; reservedWords[9].tok=tokentype::MAIN; reservedWords[10].str=L"scanf"; reservedWords[10].tok=tokentype::SCANF; reservedWords[11].str=L"printf"; reservedWords[11].tok=tokentype::PRINTF; reservedWords[12].str=L"while"; reservedWords[12].tok=tokentype::WHILE; m_error=FALSE; m_strText=str; m_nLength=m_strText.GetLength(); m_cChar=m_strText.GetBuffer(m_nLength);//数组化字符串 m_nCount=0; m_row=1; m_col=0; } CScanner::~CScanner() { }
m_words.GrammarWords = '#'; m_words.type=tokentype::OVER; m_words.row=m_row; m_words.col=m_col+1; m_wordList.AddTail(m_words); return; } while(m_ch==32 || m_ch=='\t' || m_ch=='\n') { if(m_ch=='\n') { m_row++; m_col=0; } if('\t'==m_ch) { m_col+=4; } if(m_nCount>m_nLength) { m_words.str="#"; m_words.GrammarWords = '#'; m_words.type=tokentype::OVER; m_words.row=m_row; m_words.col=m_col+1; m_wordList.AddTail(m_words); return ; } m_ch=getnextchar(); m_col++; } if((m_ch>='A' && m_ch<='Z') || m_ch>='a' && m_ch<='z') { strTemp=getidentifier(); currenttoken=reservedlookup(strTemp); if(currenttoken ==tokentype::ID) {
m_words.GrammarWords='g'; } else { if(L"void"==strTemp) { m_words.GrammarWords='a'; } if(L"main"==strTemp) { m_words.GrammarWords='b'; } if(L"char"==strTemp) { m_words.GrammarWords='c'; } if(L"int"==strTemp) { m_words.GrammarWords='d'; } if(L"if"==strTemp) { m_words.GrammarWords='i'; } if(L"else"==strTemp) { m_words.GrammarWords='j'; } if(L"const"==strTemp) { m_words.GrammarWords='v'; } if(L"for"==strTemp) { m_words.GrammarWords='l'; } if(L"scanf"==strTemp)
m_ch=getnextchar(); m_col++; } return strTemp; } // 获取数字串 CString CScanner::getNumber(void) { CString strTemp;//保存数字串 m_ch=m_cChar[m_nCount-1];//获取当前字符 strTemp+=m_ch; m_ch=getnextchar(); m_col++; while(!(m_ch=='\n' || m_ch==32/*空格*/ || m_ch=='\t' || m_ch=='+' || m_ch=='-'|| m_ch=='*'|| m_ch=='/'|| m_ch=='%'|| m_ch=='(' || m_ch==')'|| m_ch=='='|| m_ch==','|| m_ch==';'|| m_ch=='&' || m_ch=='|'|| m_ch=='!'|| m_ch=='^'|| m_ch=='~'|| m_ch=='[' || m_ch==']'|| m_ch=='{'|| m_ch=='}'|| m_ch=='?'|| m_ch==':')) { strTemp+=m_ch; m_ch=getnextchar(); m_col++; } return strTemp; } // //词法分析主程序 void CScanner::morphologyAnalyse() { m_nCount=0;//记录当前扫描数字的下标 m_ch=getnextchar(); CString strTemp;//当前分析的标识符 tokentype currenttoken;//当前分析单词的类型 while(1) { if(m_strText=="" || m_nCount>m_nLength) { m_words.str="#";