《编译原理》课程设计报告--词法分析器
编译原理词法分析实验报告

编译原理词法分析实验报告实验名称:词法分析器的设计与实现一、实验目的:1.熟悉编译原理中词法分析的基本概念和原理;2.掌握正则表达式的使用方法;3.实现一个简单的词法分析器。
二、实验内容:1.设计一个简单的编程语言,包含如下几种类型的词法单元:关键字、标识符、常量、运算符和界符。
2.使用正则表达式定义每种词法单元的模式。
3.设计一个词法分析器,将源代码中的每个词法单元识别出来并输出。
三、实验步骤:1. 确定编程语言的词法单元类型和正则表达式模式,定义相应的单词类型(如 TokenType)和模式(如 regex)。
2. 实现一个词法分析器的类 Lexer,包含以下方法:(1)一个构造方法,用于初始化词法分析器的输入源代码。
(2) 一个getNextToken方法,用于获取源代码中的下一个词法单元。
3. 在getNextToken方法中,使用正则表达式逐个识别源代码中的词法单元,并返回相应的Token对象。
4. 设计一个Token类,包含以下属性:词法单元类型、词法单元的值和位置信息等。
5.在主程序中使用词法分析器,将源代码中的每个词法单元识别出来并输出。
四、实验结果:1.设计一个简单的编程语言,包含如下词法单元类型(示例):(1) 关键字:if、else、while、for等;(2)标识符:变量名等;(3)常量:整数、浮点数、字符串等;(4)运算符:+、-、*、/、=等;(5)界符:(、)、{、}、;等。
2. 实现一个词法分析器,识别出源代码中的每个词法单元,并输出相应的Token对象。
五、实验总结:通过本次实验,我熟悉了编译原理中词法分析的基本概念和原理,并掌握了正则表达式的使用方法。
我成功完成了一个简单的词法分析器的设计与实现,实现了源代码中每个词法单元的识别与输出。
这次实验对我深化了对编译原理中词法分析的理解,并提高了我的编程能力。
编译原理实验词法分析实验报告

编译原理实验词法分析实验报告一、实验目的词法分析是编译过程的第一个阶段,其主要任务是从左到右逐个字符地对源程序进行扫描,产生一个个单词符号。
本次实验的目的在于通过实践,深入理解词法分析的原理和方法,掌握如何使用程序设计语言实现词法分析器,提高对编译原理的综合应用能力。
二、实验环境本次实验使用的编程语言为_____,开发工具为_____。
三、实验原理词法分析的基本原理是根据编程语言的词法规则,将输入的字符流转换为单词符号序列。
单词符号通常包括关键字、标识符、常量、运算符和界符等。
词法分析器的实现方法有多种,常见的有状态转换图法和正则表达式法。
在本次实验中,我们采用了状态转换图法。
状态转换图是一种有向图,其中节点表示状态,有向边表示在当前状态下输入字符的可能转移。
通过定义不同的状态和转移规则,可以实现对各种单词符号的识别。
四、实验步骤1、定义单词符号的类别和编码首先,确定实验中要识别的单词符号种类,如关键字(if、else、while 等)、标识符、整数常量、浮点数常量、运算符(+、、、/等)和界符(括号、逗号等)。
为每个单词符号类别分配一个唯一的编码,以便后续处理。
2、设计状态转换图根据单词符号的词法规则,绘制状态转换图。
例如,对于标识符的识别,起始状态为“起始状态”,当输入为字母时进入“标识符中间状态”,在“标识符中间状态”中,若输入为字母或数字则继续保持该状态,直到遇到非字母数字字符时结束识别,确定为一个标识符。
3、编写词法分析程序根据状态转换图,使用所选编程语言实现词法分析器。
在程序中,通过不断读取输入字符,根据当前状态进行转移,并在适当的时候输出识别到的单词符号。
4、测试词法分析程序准备一组包含各种单词符号的测试用例。
将测试用例输入到词法分析程序中,检查输出的单词符号是否正确。
五、实验代码以下是本次实验中实现词法分析器的核心代码部分:```include <stdioh>include <ctypeh>//单词符号类别定义typedef enum {KEYWORD,IDENTIFIER,INTEGER_CONSTANT,FLOAT_CONSTANT,OPERATOR,DELIMITER} TokenType;//关键字列表char keywords ={"if","else","while","for","int","float","void"};//状态定义typedef enum {START,IN_IDENTIFIER,IN_INTEGER,IN_FLOAT,IN_OPERATOR} State;//词法分析函数TokenType getToken(char token, int tokenLength) {State state = START;int i = 0;while (1) {char c = getchar();switch (state) {case START:if (isalpha(c)){state = IN_IDENTIFIER;tokeni++= c;} else if (isdigit(c)){state = IN_INTEGER;tokeni++= c;} else if (c =='+'|| c ==''|| c ==''|| c =='/'|| c =='('|| c ==')'|| c ==';'|| c ==','){state = IN_OPERATOR;tokeni++= c;} else if (c ==''){state = IN_FLOAT;tokeni++= c;} else if (c == EOF) {tokeni ='\0';tokenLength = i;return -1;} else {tokeni ='\0';tokenLength = i;return -2;}break;case IN_IDENTIFIER:if (isalpha(c) || isdigit(c)){tokeni++= c;} else {ungetc(c, stdin);tokeni ='\0';tokenLength = i;//检查是否为关键字for (int j = 0; j < sizeof(keywords) / sizeof(keywords0); j++){if (strcmp(token, keywordsj) == 0) {return KEYWORD;}}return IDENTIFIER;}break;case IN_INTEGER:if (isdigit(c)){tokeni++= c;} else if (c ==''){state = IN_FLOAT;tokeni++= c;} else {ungetc(c, stdin);tokeni ='\0';tokenLength = i;return INTEGER_CONSTANT;}break;case IN_FLOAT:if (isdigit(c)){tokeni++= c;} else {ungetc(c, stdin);tokeni ='\0';tokenLength = i;return FLOAT_CONSTANT;}break;case IN_OPERATOR: tokeni ='\0';tokenLength = i;return OPERATOR; break;}}}int main(){char token100;int tokenLength;TokenType tokenType;while ((tokenType = getToken(token, &tokenLength))!=-1) {switch (tokenType) {case KEYWORD:printf("Keyword: %s\n", token);break;case IDENTIFIER:printf("Identifier: %s\n", token);break;case INTEGER_CONSTANT:printf("Integer Constant: %s\n", token);break;case FLOAT_CONSTANT:printf("Float Constant: %s\n", token);break;case OPERATOR:printf("Operator: %s\n", token);break;case DELIMITER:printf("Delimiter: %s\n", token);break;}}return 0;}```六、实验结果对准备的测试用例进行输入,得到的词法分析结果如下:测试用例 1:```int main(){int num = 10;float pi = 314;if (num > 5) {printf("Hello, World!\n");}}```词法分析结果:```Keyword: int Identifier: main Delimiter: (Delimiter: ){Identifier: num Operator: =Integer Constant: 10;Identifier: float Identifier: pi Operator: =Float Constant: 314;Keyword: ifDelimiter: (Identifier: numOperator: >Integer Constant: 5){Identifier: printfDelimiter: (String: "Hello, World!\n" Delimiter: );}```测试用例 2:```for (int i = 0; i < 10; i++){double result = i 25;```词法分析结果:```Keyword: for Delimiter: (Keyword: int Identifier: i Operator: =Integer Constant: 0;Identifier: i Operator: <Integer Constant: 10;Identifier: i Operator: ++)Identifier: doubleIdentifier: resultOperator: =Identifier: iOperator:Float Constant: 25;}```通过对多个测试用例的分析,词法分析器能够正确识别出各种单词符号,实验结果符合预期。
编译原理课程设计_词法分析器设计

编译方法课程设计词法分析器设计学院:计算机与信息工程学院专业:软件工程学号:姓名:指导教师:职称:设计报告日期:二О一二年十二月目录1设计概述 (2)1.1设计题目 (2)1.2 设计目的 (3)1.3 设计任务内容: (3)1.4 设计时间 (3)2 设计环境与工具 (3)3设计要求 (3)4分析与概要设计 (4)5算法描述与框图 (4)6 源程序清单 (6)7 软件测试 (10)7.1 设计的测试题目 (10)7.2测试结果截图 (10)8 总结 (10)8 参考文献 (11)1设计概述1.1设计题目词法分析器的设计与实现。
1.2 设计目的词法分析是编译程序第一个阶段的工作,它的任务是对输入的字符串形式的源程序进行扫描,在扫描的同时,根据源语言的词法规则识别具有独立意义的单词。
本设计是C++高级程序语言,数据结构和变异原理中词法分析原理等知识的综合运用。
掌握生成词法分析器的方法,加深对词法分析原理的理解,掌握设计,编制并调试词法分析程序的思想和方法。
1.3 设计任务内容:1、格式输入:将C++语言的源代码从文本文档中读入。
处理:对输入框中的代码进行词法分析,分离出关键字、标示符、数值、运算符和界符。
输出:在文本文档中输出每个单词对应的编码和值。
2、编译对象声明和其他标记赋值语句分支结构语句循环语句1.4 设计时间2012年12月23日至2012年12月28日2 设计环境与工具Windows7环境下使用 C++语言。
3设计要求1、使用任何一种编程语言编制一个词法分析程序。
2、该程序能够识别的单词有5类:(1)关键字:"long", "float", "static", "char", "short", "switch", "int", "const", "if", "then", "else", "for", "while", "break"。
编译原理词法分析器报告

编译原理课程设计1一、题目:词法分析器二、运行环境:JAVA jdk1.6.0_21三、设计思路:编译程序的工作过程一般划分为五个阶段:词法分析、语法分析、语义分析与中间代码产生、优化、目标代码生成。
作为本次课程设计的词法分析器的主要任务是,对输入的源程序字符串进行扫描和分解,识别出一个个的单词,如基本字(include、if、while、for等),标识符、常数、算符和界符。
本次课程设计词法分析我选取的目标语言为C语言。
关于种别码的分配,我对关键字采用一字一种,对运算符采用一符一种,对界符采用一符一种,整型常量为一种,浮点常量为一种,字符常量为一种,字符串常量为一种。
(详情参加附录1)本次词法分析器工作的第一步是输入源程序文本。
通过调用预处理子程序去除程序两端多余的空格、注释,再将处理得到的串存放在一个缓冲区中。
第二步是对关键字、标示符、数字以及算符和界符的识别过程,并返回识别出的单词的种别码和内容(单词值,种别码),在过程中进行必要的出错处理。
第三步即将所识别出来的单词及种别码输出到文件保存。
四、基本工具UML及JAVA语言五、状态转换图:六、程序源码:import java.util.ArrayList;import java.io.*;//记法分析器类class Lex{char ch[] = new char[300];String token;int flag;ArrayList<String> buffer = new ArrayList<String>();ArrayList<String> errorqueue = new ArrayList<String>();ArrayList<String> queue = new ArrayList<String>();int buffer_current,buffer_advance,index_queue,index_error,line,buffersize;public Lex(){buffer_current=buffer_advance=index_queue=index_error = buffersize = 0;line = 1;flag = 0;}//判断是否为字母public boolean isletter(char cc){if ((cc>='a'&&cc<='z')||(cc>='A'&&cc<='Z')){return true;}else{return false;}}//判断是否为数字public boolean isdigit(char cc){if (cc>='0'&&cc<='9'){return true;}else{return false;}}//预处理子程序,读入源程序,并装入bufferpublic void prepare(){int k ;String sub;try{FileReader filein = new FileReader("in.txt");filein.read(ch);String str = new String(ch);k = 0;while(k<300){buffer.add(sub);buffersize++;k++;filein.close();}}catch (Exception e){String err = e.toString();System.out.println(err);}}//result_out函数将所有识别了的单词输出到文件out.txt public void result_out(){int k;if (index_queue == 0){System.out.println("The queue is empty!");return;}try{FileWriter fileout = new FileWriter("out.txt");fileout.write("\t符号(值)\t种别码\n");for (k =0; k<index_queue ; k++ ){fileout.write(queue.get(k));}fileout.close();}catch (Exception e){String err = e.toString();System.out.println(err);}}//error_out函数将所有识别了的错误情形输出到文件error.txtpublic void error_out(){int k;if (index_error == 0){System.out.println("The errorqueue is empty!");return;}try{FileWriter errorout = new FileWriter("error.txt");for (k =0; k<index_error ; k++ ){errorout.write(queue.get(k));}errorout.close();}catch (Exception e){String err = e.toString();System.out.println(err);}}//判断是否为保留字public int isreserve(String s){String str[] = {"define","include","char","double","enum","float","int","long","short","signed","struct","union","unsigned","void","for","do","while","break","continue","if", "else","goto","switch","case","default","return","auto","extern","register","static","const","sizeof","typedef","volatile"};int k;for ( k =0 ; k < 34 ; k++ ){if (str[k].equals(s)){return (k+4);}}return 0;}//往queue队列添加一个新识别的单词public void insert_queue(String s){queue.add(s);index_queue++;}//往errorqueue队列添加一个新发现的错误public void insert_error(String s){errorqueue.add(s);index_error++;}//读掉空格public void space(){String s;do{s = queue.get(buffer_advance);if (s.equals(" ")){if (buffer_advance+1 == buffersize){flag = 1;return;}buffer_advance++;}else{break;}}while(true);buffer_current = buffer_advance;}// 读掉形如的//.... \n 注释public void comment1(){String s;do{s = queue.get(buffer_advance);if (s.equals("\n")){line++;break;}{if (buffer_advance+1 == buffersize){flag = 1;return;}buffer_advance++;}}while(true);buffer_current = buffer_advance;}// 读掉形如的/*.... */ 注释public void comment2(){String s1,s2;do{s1 = queue.get(buffer_advance);s2 = queue.get(buffer_advance+1);if (s1.equals("\n")){buffer_advance++;line++;}else if (s1.equals("*")&&s2.equals("/")){buffer_advance = buffer_advance + 2;break;}else{if (buffer_advance+1 == buffersize){flag = 1;return;}buffer_advance++;}}while(true);buffer_current = buffer_advance;}//实现单词识别public void dfa(){int flag2;String s1,s2;prepare();while ( flag == 0 ){flag2 = 0;token = "";//存放识别出来的单词space();do{s1 = queue.get(buffer_advance);s2 = queue.get(buffer_advance+1);if (s1.equals("/")&&s2.equals("/")){if (buffer_advance+2 == buffersize){flag = 1;break;}buffer_advance = buffer_advance+2;comment1();}else if (s1.equals("/")&&s2.equals("*")){if (buffer_advance+2 == buffersize){flag = 1;break;}buffer_advance = buffer_advance+2;comment2();}else if (s1.equals("\n")){if (buffer_advance+1 == buffersize){flag = 1;break;}buffer_advance++;line++;}else{break;}space();}while (true);//下面是数值常量识别主要是实数和整数的识别if (isdigit(s1.charAt(0))){flag2 = 2;token = token + s1;buffer_advance++;s1 = buffer.get(buffer_advance);while (isdigit(s1.charAt(0))){token = token + s1;if (buffer_advance+1 != buffersize){buffer_advance++;s1 = buffer.get(buffer_advance);}else{insert_queue("\t"+token+"\t2\n");break;}}/*如果数字后碰到小数点,小数点后不是数字,则要捕捉错误异常;如果还是数字,则和上面的方法一样,将一串数字连为一个实数*/if(s1.equals(".")){flag = 3;token = token + s1;buffer_advance++;s1 = buffer.get(buffer_advance);if (!isdigit(s1.charAt(0))){insert_error("\n程序第("+line+")行有错误错误单词为:"+token+"\n");continue;}while (isdigit(s1.charAt(0))){token = token + s1;if (buffer_advance+1 != buffersize){buffer_advance++;s1 = buffer.get(buffer_advance);}else{insert_queue("\t"+token+"\t3\n");break;}}}//如果碰到科学计数法中的e,要取出它面的符号,然后再取出数值部分if (s1.equalsIgnoreCase("e")){token = token + s1;buffer_advance++;if (buffer_advance!= buffersize){s1 = buffer.get(buffer_advance);}else{insert_queue("\t"+token+"\t3\n");break;}if (s1.equals("-")){token = token + s1;buffer_advance++;if (buffer_advance != buffersize){s1 = buffer.get(buffer_advance);}else{insert_error("\n程序第("+line+")行有错误错误单词为:"+token+"\n");break;}}else if (s1.equals("+")){token = token + s1;buffer_advance++;if (buffer_advance != buffersize){s1 = buffer.get(buffer_advance);}else{insert_error("\n程序第("+line+")行有错误错误单词为:"+token+"\n");break;}}if (!isdigit(s1.charAt(0))){insert_error("\n程序第("+line+")行有错误错误单词为:"+token+"\n");continue;}while (isdigit(s1.charAt(0))){flag = 3;token = token + s1;buffer_advance++;if (buffer_advance != buffersize){s1 = buffer.get(buffer_advance);}else{insert_queue("\t"+token+"\t3\n");continue;}}}//科学eif(flag == 2){insert_queue("\t"+token+"\t2\n");continue;}if(flag == 3){insert_queue("\t"+token+"\t3\n");continue;}}//数字识别//下面是标志符及保留字识别if (isletter(s1.charAt(0))||s1.charAt(0)=='_'){token = token +s1;int t;do{buffer_advance++;if (buffer_advance!=buffersize){s1 = buffer.get(buffer_advance);}else{break;}if (isletter(s1.charAt(0))||s1.charAt(0)=='_'||isdigit(s1.charAt(0))){token = token +s1;}else{break;}}while (true);if ((t = isreserve(token))!=0){insert_queue("\t"+token+"\t"+t+"\n");}else{insert_queue("\t"+token+"\t71\n");}continue;}// if (isletter(s1.charAt(0))||s1.charAt(0)=='_')//下面是识别字符常量如'a'if (s1.charAt(0) == '\''){token = token + s1;if (buffer_advance +2>=buffersize){insert_error("\n程序第("+line+")行有错误错误单词为:"+token+"\n");continue;}else{buffer_advance++;s1 = buffer.get(buffer_advance);token = token + s1;}s2 = buffer.get(buffer_advance);if (s2.charAt(0)== '\''){token = s1;buffer_advance++;insert_queue("\t"+token+"\t0\n");}else{insert_error("\n程序第("+line+")行有错误错误单词为:"+token+"\n");}continue;}// 下面是识别字符串常量if (s1.charAt(0) == '\"'){do{buffer_advance++;s1 = queue.get(buffer_advance);if (s1.equals("\"")){insert_queue("\t"+token+"\t1\n");buffer_advance++;break;}else{if (buffer_advance+1 == buffersize){insert_error("\n程序第("+line+")行有错误错误单词为:"+token+"\n");flag = 1;break;}token = token + s1;}}while(true);continue;}//下面是识别运算符+ 或++if (s1.charAt(0)=='+'){token =token + s1;buffer_advance++;{insert_queue("\t+"+"\t38\n");break;}else{s1 = buffer.get(buffer_advance);if (s1.equals("+")){buffer_advance++;insert_queue("\t++"+"\t46\n");}else{insert_queue("\t+"+"\t38\n");}}continue;}//下面是识别运算符- 或-- 或->if (s1.charAt(0)=='-'){token =token + s1;buffer_advance++;if (buffer_advance == buffersize){insert_queue("\t-"+"\t39\n");break;}else{s1 = buffer.get(buffer_advance);if (s1.equals("-")){buffer_advance++;insert_queue("\t--"+"\t47\n");}else if (s1.equals(">")){buffer_advance++;insert_queue("\t->"+"\t68\n");}else{}}continue;}//下面是识别运算符* 或者**if (s1.charAt(0)=='*'){token =token + s1;buffer_advance++;if (buffer_advance == buffersize){insert_queue("\t*"+"\t40\n");break;}else{s1 = buffer.get(buffer_advance);if (s1.equals("*")){buffer_advance++;insert_queue("\t**"+"\t50\n");}else{insert_queue("\t*"+"\t40\n");}}continue;}//下面是识别运算符/if (s1.charAt(0)=='/'){insert_queue("\t/"+"\t41\n");buffer_advance++;if (buffer_advance == buffersize){break;}continue;}//下面是识别运算符& 或者&&if (s1.charAt(0)=='&'){token =token + s1;if (buffer_advance == buffersize){insert_queue("\t&"+"\t42\n");break;}else{s1 = buffer.get(buffer_advance);if (s1.equals("&")){buffer_advance++;insert_queue("\t&&"+"\t48\n");}else{insert_queue("\t&"+"\t42\n");}}continue;}//下面是识别运算符| 或者||if (s1.charAt(0)=='|'){token =token + s1;buffer_advance++;if (buffer_advance == buffersize){insert_queue("\t|"+"\t43\n");break;}else{s1 = buffer.get(buffer_advance);if (s1.equals("|")){buffer_advance++;insert_queue("\t||"+"\t49\n");}else{insert_queue("\t|"+"\t43\n");}}continue;//下面是识别运算符! 或者!=if (s1.charAt(0)=='!'){token =token + s1;buffer_advance++;if (buffer_advance == buffersize){insert_queue("\t!"+"\t44\n");break;}else{s1 = buffer.get(buffer_advance);if (s1.equals("=")){buffer_advance++;insert_queue("\t!="+"\t54\n");}else{insert_queue("\t!"+"\t44\n");}}continue;}//下面是识别运算符%if (s1.charAt(0)=='%'){insert_queue("\t%"+"\t45\n");buffer_advance++;if (buffer_advance == buffersize){break;}continue;}//下面是识别运算符> 或者>=if (s1.charAt(0)=='>'){token =token + s1;buffer_advance++;if (buffer_advance == buffersize){insert_queue("\t>"+"\t51\n");}else{s1 = buffer.get(buffer_advance);if (s1.equals("=")){buffer_advance++;insert_queue("\t>="+"\t56\n");}else{insert_queue("\t>"+"\t51\n");}}continue;}//下面是识别运算符< 或者<=if (s1.charAt(0)=='<'){token =token + s1;buffer_advance++;if (buffer_advance == buffersize){insert_queue("\t<"+"\t52\n");break;}else{s1 = buffer.get(buffer_advance);if (s1.equals("=")){buffer_advance++;insert_queue("\t<="+"\t57\n");}else{insert_queue("\t<"+"\t52\n");}}continue;}//下面是识别运算符= 或者==if (s1.charAt(0)=='='){buffer_advance++;if (buffer_advance == buffersize){insert_queue("\t="+"\t53\n");break;}else{s1 = buffer.get(buffer_advance);if (s1.equals("=")){buffer_advance++;insert_queue("\t=="+"\t55\n");}else{insert_queue("\t="+"\t53\n");}}continue;}//下面是识别界符(if (s1.charAt(0)=='('){insert_queue("\t("+"\t58\n");buffer_advance++;if (buffer_advance == buffersize){break;}continue;}//下面是识别界符)if (s1.charAt(0)==')'){insert_queue("\t)"+"\t59\n");buffer_advance++;if (buffer_advance == buffersize){break;}continue;}//下面是识别界符#insert_queue("\t#"+"\t60\n");buffer_advance++;if (buffer_advance == buffersize){break;}continue;}//下面是识别界符;if (s1.charAt(0)==';'){insert_queue("\t;"+"\t61\n");buffer_advance++;if (buffer_advance == buffersize){break;}continue;}//下面是识别界符,if (s1.charAt(0)==','){insert_queue("\t,"+"\t62\n");buffer_advance++;if (buffer_advance == buffersize){break;}continue;}//下面是识别界符:if (s1.charAt(0)==':'){insert_queue("\t:"+"\t63\n");buffer_advance++;if (buffer_advance == buffersize){break;}continue;}//下面是识别界符{insert_queue("\t{"+"\t64\n");buffer_advance++;if (buffer_advance == buffersize){break;}continue;}//下面是识别界符}if (s1.charAt(0)=='}'){insert_queue("\t}"+"\t65\n");buffer_advance++;if (buffer_advance == buffersize){break;}continue;}//下面是识别界符[if (s1.charAt(0)=='['){insert_queue("\t["+"\t66\n");buffer_advance++;if (buffer_advance == buffersize){break;}continue;}//下面是识别界符]if (s1.charAt(0)==']'){insert_queue("\t]"+"\t67\n");buffer_advance++;if (buffer_advance == buffersize){break;}continue;}//下面是识别界符.if (s1.charAt(0)=='.')insert_queue("\t."+"\t69\n");buffer_advance++;if (buffer_advance == buffersize){break;}continue;}}//while(flag == 1)if (index_queue>0){result_out();}if (index_error>0){error_out();}}}public class startLex{public static void main ( String args[] ){Lex l = new Lex();l.dfa();}}七、运行结果:运行前源程序存放在in.txt中,如图(1)所示,运行后得到的识别单词结果存放在out.txt中,如图(2)所示,识别过程中发现的错误存放在error.txt中,如图(3)所示。
编译原理报告—词法分析器

词法分析器的作用词法分析是编译的第一阶段。
词法分析器的主要任务是读入源程序的输入字符,将它们组成词素,生成并输出一个词法单元序列,这个词法单元序列被输出到语法分析器进行语法分析。
另外,由于词法分析器在编译器中负责读取源程序,因此除了识别词素之外,它还会完成一些其他任务,比如过滤掉源程序中的注释和空白,将编译器生成的错误消息与源程序的位置关联起来等。
总而言之,词法分析器的作用如下:1.读入源程序的输入字符,将它们组成词素,生成并输出一个词法单元序列;2.过滤掉源程序中的注释和空白;3.将编译器生成的错误消息与源程序的位置关联起来;4.其它。
词法分析过程首先,对某个正则语言L,构造能够描述其的正则表达式r;然后,需要将r 转换成一个有穷自动机。
这里有三种方法,一是直接转换成NFA,而是直接转换成DFA,三是先转换成NFA,再把NFA 转换成DFA;最后,如果将r 转换成了一个DFA,需要将此DFA 的状态数最小化。
正则表达式正则表达式可以用来描述词素的模式,一个正则表达式可以由较小的正则表达式递归的构建。
对于符号集合∑={a,b},有:-正则表达式a 表示语言{a};-正则表达式a|b 表示语言{a,b};-正则表达式(a|b)(a|b)表示语言{aa,ab,ba,bb};-正则表达式a*表示语言{ε,a,aa,aaa,…};-正则表达式(a|b)*表示语言{ε,a,b,aa,ab,ba,bb,aaa,…};-正则表达式a|a*b 表示语言{a,b,ab,aab,aaab,…}。
上面通过基本的并、连接和闭包运算递归定义了正则表达式有穷自动机一个有穷自动机可以把一个描述词素的模式变成一个词法分析器,从本质上来讲,有穷自动机是与状态转换图相类似的图,它有以下特点:有穷自动机是一个识别器,它只能对每个输入符号串简单的输出“yes”或“no”,表示是否能够识别此符号串;有穷自动机和状态转换图类似,它具有有限个数的结点,每个结点表示一个状态,并且这些状态中有一个初始状态和若干个终止状态。
编译原理实验报告——词法分析器(内含源代码)

编译原理实验(一)——词法分析器一.实验描述运行环境:vc++2008对某特定语言A ,构造其词法规则。
该语言的单词符号包括:12状态转换图3程序流程:词法分析作成一个子程序,由另一个主程序调用,每次调用返回一个单词对应的二元组,输出标识符表、常数表由主程序来完成。
二.实验目的通过动手实践,使学生对构造编译系统的基本理论、编译程序的基本结构有更为深入的理解和掌握;使学生掌握编译程序设计的基本方法和步骤;能够设计实现编译系统的重要环节。
同时增强编写和调试程序的能力。
三.实验任务编制程序实现要求的功能,并能完成对测试样例程序的分析。
四.实验原理char set[1000],str[500],strtaken[20];//set[]存储代码,strtaken[]存储当前字符char sign[50][10],constant[50][10];//存储标识符和常量定义了一个Analyzer类class Analyzer{public:Analyzer(); //构造函数 ~Analyzer(); //析构函数int IsLetter(char ch); //判断是否是字母,是则返回 1,否则返回 0。
int IsDigit(char ch); //判断是否为数字,是则返回 1,否则返回 0。
void GetChar(char *ch); //将下一个输入字符读到ch中。
void GetBC(char *ch); //检查ch中的字符是否为空白,若是,则调用GetChar直至ch进入一个非空白字符。
void Concat(char *strTaken, char *ch); //将ch中的字符连接到strToken之后。
int Reserve(char *strTaken); //对strTaken中的字符串查找保留字表,若是一个保留字返回它的数码,否则返回0。
void Retract(char *ch) ; //将搜索指针器回调一个字符位置,将ch置为空白字符。
编译原理 设计c语言的词法分析器

编译原理课程设计报告题目:学院:教师::学号:班级:评分:签字:编译原理课程设计一:设计c语言的词法分析器一、实验目的了解高级语言单词的分类,了解状态图以及如何表示并识别单词规则,掌握状态图到识别程序的编程,加深对词法原理的理解。
二、实验要求了解高级语言单词的分类,了解状态图以及如何表示并识别单词规则,掌握状态图到识别程序的编程。
三、实验设计3.1.单词分类及表示3.1.1 C语言的子集分类(1)标识符:以字母开头的字母数字串(2)整数或浮点型。
(3)保留字:for,while,do,else,if,static,int,sizeof,break,continue(4)运算符:+,-,*,/,%,>,<,=,!=,==,<=,>=,!,&,&&,||;(5)界符:"(",")",",",":",";","{","}"3.1.2单词二元组(单词分类号、单词自身值)3.2 词法分析器的设计3.2.1算法设计3.2.1.1概要设计从文件中逐个读取字符,只要这五大类的状态序列则继续读取,否则回退字符,在对应类别进行查找,输出单元二次组至另一文件夹。
3.2.1.2状态图设计开始打开txt文件读取c语言代码扫描是否读取到相应字符常数?标识符保留字运算符记录标号结束界符?YY Y3.2.2输入输出设计输入:通过文件指针从文件中一个一个读取字符输出:输出单词二元组至文件。
格式为(种别码,值)3.2.3主要函数void Getchar(FILE *fp ) //读入一个字符void GetBC(FILE *fp)//读入一个非空字符void contacat()//连接字符int letter()//判断是否为字母int digit()//判断是否为字母void retract(FILE *fp,char *c)//回退int reserve (char **k)//处理保留字int sysmbol(identifier *id)//处理标识符,查找符号表并存放位置若没有则添加int constant(constnumber *con)//存入常数表,并返回它在常数表中的位置void Tofile(int num, int val, identifier *id, constnumber *con, FILE *fw)//写到文件void WordAnalyze(char **k,char *c, char **CODE, identifier *id, constnumber *con, FILE *fp, FILE *fw)//词法分析函数四、结果测试文件输入int main(){int a=1,b=3;if(a>1)b=b-2;}输出结果:结论:程序输出结果与期望输出结果相符。
编译原理_词法分析器_实验报告

词法分析器实验报告实验目的:设计、编制、调试一个词法分析子程序-识别单词,加深对词法分析原理的理解。
功能描述:该程序要实现的是一个读单词过程,从输入的源程序中,识别出各个具有独立意义的单词,即基本保留字、标识符、常数、运算符、分隔符五大类。
并依次输出各个单词的内部编码及单词符号自身值。
(遇到错误时可显示“Error!”,然后跳过错误部分继续进行)设计思想:设计该词法分析器的过程中虽然没有实际将所有的状态转移表建立出来,但是所用的思想是根据状态转移表实现对单词的识别。
首先构造一个保留字表,然后,每输入一个字符就检测应该进入什么状态,并将该字符连接到d串后继续输入,如此循环,最后根据所在的接受状态以及保留字表识别单词。
符号表:记号类别属性值ws - -const 保留字 1var 保留字 1call 保留字 1begin 保留字 1if 保留字 1while 保留字 1do 保留字 1odd 保留字 1end 保留字 1then 保留字 1procedure 保留字 1= 运算符 2< 运算符 2<= 运算符 2<> 运算符 2> 运算符 2>= 运算符 2* 运算符 2+ 运算符 2- 运算符 2/ 运算符 2:= 运算符 2ident 标识符 3number 常数 4 ( 分隔符 5) 分隔符 5; 分隔符 5, 分隔符 5. 分隔符 5状态转换图:①标识符及保留字:letter or digittStart letter②number:③关系操作符:0 21 435startdigit.digit E+ | -digitdigitdigitdigitEdigit otherother④分隔符:start< other =(<=, 2) >= other>=* * (<>, 2)(<,2)(=, 2)(>=, 2)(>, 2):=(:=,2)⑤算术运算符:使用环境:Windows xp 下的visual c++6.0程序测试: input1 : int a,b;start;( ),.( ; ,5)( (,5)( ),5) ( , ,5)( . ,5)start+- * /( + ,2) ( -,2)( *,2) ( / ,2). a=b+2;input2:while(a>=0)do7x=x+6.7E+23;end;input3:begin:x:=9if x>0 then x:=x+1;while a:=0 dob:=2*x/3,c:=a;end;output1: 3,int 3,a 5,,3,b 5,;3,a2,=3,b2,+4,2 5,; output2:output2:1,while5,(3,a2,>=4,05,)1,doerror line 32,=3,x2,+4,6.7E+235,;1,end5,;output3:output3:1,beginerror line 13,x2,:=4,91,if3,x2,>4,01,then3,x2,:=3,x2,+4,15,;1,while3,a2,:=4,01,do 3,b 2,:= 4,2 2,* 3,x 2,/4,35,,3,c2,:=3,a5,;1,end5,;测试结果与预期结果一致源程序代码:#include<stdio.h>#include<string.h>void main(){int i=0,j,k=0,state=1,f=0,linenum=1;chara[11][10]={"const","var","call","begin","if","while","do","odd","end","then","proc edure"};char b,d[40]={"\0"};freopen("input.txt","r",stdin);freopen("output.txt","w",stdout);b=getchar();while(b!=EOF)/*判断所输入字符是否为结束符*/{if(b==' '||b=='\n'||b=='\t')/*滤过空格、换行等分隔符号*/{ if(b='\n') linenum++;b=getchar();}else if((b>='a'&&b<='z')||(b>='A'&&b<='Z'))/*识别标识符以及保留字*/{d[i++]=b;b=getchar();while((b>='a'&&b<='z')||(b>='A'&&b<='Z')||(b>='0'&&b<='9')){d[i++]=b;b=getchar();}for(j=0;j<11;j++)/*查询保留字表确定该单词是否是保留字*/{ if(strcmp(d,a[j])==0){ printf("1,%s\n",d);k=1;break;}}if(k==0)/*在保留字表中没有查到该单词,是标识符*/printf("3,%s\n",d);for(j=0;j<=i;j++)d[j]='\0';i=0;k=0;}else if(b>='0'&&b<='9')/*识别常数*/{ d[i++]=b;b=getchar();while(f!=1){switch (state) {case 1:if(b>='0'&&b<='9') {state=1;d[i++]=b;b=getchar();}else if(b=='.') { state=2;d[i++]=b;b=getchar();}else if(b=='E') { state=4;d[i++]=b;b=getchar();}else state=7;break;case 2:if(b>='0'&&b<='9') {state=3;d[i++]=b;b=getchar();}else state=8;break;case 3:if(b>='0'&&b<='9') {state=3;d[i++]=b;b=getchar();}else if(b=='E') { state=4;d[i++]=b;b=getchar();}else state=7;break;case 4:if(b=='+'||b=='-') { state=5;d[i++]=b;b=getchar();}else if(b>='0'&&b<='9'){ state=6;d[i++]=b;b=getchar();} else state=8;break;case 5:if(b>='0'&&b<='9'){ state=6;d[i++]=b;b=getchar();}else state=8;break;case 6:if(b>='0'&&b<='9'){ state=6;d[i++]=b;b=getchar();}else state=7;break;case 7: f=1;break;case 8: f=1;break;}}if(state==7&&(b<'a'||b>'z')&&(b<'A'||b>'Z'))printf("4,%s\n",d);else if(state==7&&(b>='a'&&b<='z')||(b>='A'&&b<='Z'))/*数字后接字母的出错控制*/{while((b>='a'&&b<='z')||(b>='A'&&b<='Z')){ d[i++]=b;b=getchar();}printf("error line %d\n",linenum);}else printf("error line %d\n",linenum);for(j=0;j<=i;j++)d[j]='\0';i=0;f=0;state=1;}else if(b=='<')/*识别'<'、'<='和'<>'*/{ d[i++]=b;b=getchar();if(b=='='||b=='>'){ d[i++]=b;b=getchar();printf("2,%s\n",d);for(j=0;j<=i;j++)d[j]='\0';i=0;}else{ printf("2,%s\n",d);for(j=0;j<=i;j++)d[j]='\0';i=0;}}else if(b=='>')/*识别'>'和'>='*/{ d[i++]=b;b=getchar();if(b=='='){ d[i++]=b;b=getchar();printf("2,%s\n",d);for(j=0;j<=i;j++)d[j]='\0';i=0;}else{ printf("2,%s\n",d);for(j=0;j<=i;j++)d[j]='\0';i=0;}}else if(b==':')/*识别':='*/{ d[i++]=b;b=getchar();if(b=='='){ d[i++]=b;b=getchar();printf("2,%s\n",d);}else printf("error line %d\n",linenum);for(j=0;j<=i;j++)d[j]='\0';i=0;}else if(b=='*'||b=='+'||b=='-'||b=='/'||b=='=')/*识别运算符*/{ printf("2,%c\n",b);b=getchar();}else if(b=='('||b==')'||b==','||b==';'||b=='.')/*识别分隔符*/{ printf("5,%c\n",b);b=getchar();}else{ printf("error line %d\n",linenum);b=getchar();}}}实验心得:此次实验让我了解了如何设计、编制并调试词法分析程序,并加深了我对词法分析器原理的理解;熟悉了直接构造词法分析器的方法和相关原理,并学会使用c语言直接编写词法分析器;同时更熟练的掌握用c语言编写程序,实现一定的实际功能。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1. 课程设计的目的 (1) 编写词法分析器 (2) 加深对词法分析器工作原理的了解和 认识 2.课程设计的内容和要求 编写词法分析器,词法分析器能够识别关系算 符,词法分析器能够识别标识符和关键字,词法 分析器能够识别无符号数。 3.问题分析和相关知识介绍 构成词法分析器的一种简单方法是用状态转换
else { if (a == '+' || a == '-' || a == '/' || a == '*') { temp = temp + a.ToString(); j++; a = code[j]; //Console.WriteLine("运算符"+temp); if (!ys.Contains(temp)) { //Console.WriteLine("添加成功标识 符=="); ys.Add(temp ); } } else { j++; } } } } //判断是不是保留字的IsKey方法 static bool isKey(string key) { bool flag = false; for (int i = 0; i < keys.Length; i++) if (keys[i] == key) { flag = true;
201X-201X学年第x学期
《编译原理》课程设计报告
院 系: 班 级: 学生姓名: 学 号: 指导老师:
计算机科学与技术 XX级XX 班 XXXXXX XXXXXXXX XXXXXX
பைடு நூலகம்
计算机科学与技术学院监制 20XX年X月
目录
1.课程设计的目的 2.课程设计的内容和要求 3.问题分析和相关知识介绍 4.设计思路和关键问题及其解决方案 5.测试和结果分析 6.总结和心得体会 附件1:参考文献 附件2:核心源代码
6.总结和心得体会 通过本次试验,不仅仅是我学会了C#基础知 识,而且还是我对词法分析器有了更深入的认识, 虽然在编写词法分析器过程中遇到了很多困难,例 如:C#语言不熟悉,对此法分析器的工作原理分析 的不透彻,但在老师和同学的帮助下,我有了很大 的提高,通过不断的努力最终顺利的完成了课程设 计,很感谢帮助我的XX同学和XX老师。 附件1:参考文献
=="); gx.Add(temp); } } else if (a == '=') { temp = temp + a.ToString(); j++; a = code[j]; // Console.WriteLine("关系符"+temp); if (!gx.Contains(temp)) { //Console.WriteLine("添加成功关系=="); gx.Add(temp); } } else if (a == '>') { temp = temp + a.ToString(); j++; a = code[j]; if (a == '=') { temp = temp + a.ToString(); j++; a = code[j]; } // Console.WriteLine("关系符"+temp); if (!gx.Contains(temp)) { //Console.WriteLine("添加成功标识符 =="); gx.Add(temp); } }
图来描述源语言词法记号的结构,然后手工把这种 状态转换图翻译成为识别词法记号的程序。词法分 析器的任务是把构成源程序的字符流翻译成词法记 号流。 4.设计思路和关键问题及其解决方案 把自然语言构造成正规式,把正规式构造成有 限自动机NFA,然后根据子集构造法把有限自动机 构造成无限自动机DFA,根据极小化DFA状态数算法 把DFA构造成最简DFA,其次根据最简DFA画出转换 表,根据转换表画出装换图,最后根据装换图就可 以编写词法分析器。 5.测试和结果分析
j++; a = code[j]; } } } // Console.WriteLine("数字:"+temp); if (!sz.Contains(temp)) { //Console.WriteLine("添加成功标识符 =="); sz.Add(temp); } } else if (a == '<') { temp = temp + a.ToString(); j++; a = code[j]; if (a == '=') { temp = temp + a.ToString(); j++; a = code[j]; } else if (a == '>') { temp = temp + a.ToString(); j++; a = code[j]; } //Console.WriteLine("关系符"+temp); if (!gx.Contains(temp)) { //Console.WriteLine("添加成功标识符
//是否为标
temp = temp + a.ToString(); j++; a = code[j]; } if (isKey(temp)) { //Console.WriteLine("保留字:"+temp);
if (!key.Contains(temp)) { // Console.WriteLine("添加成 功"); key.Add(temp); }
} Console.WriteLine("算数运算符,输入回车"); 出所有的算数运算符 Console.ReadLine(); foreach (string id in ys) { Console.WriteLine(id); } Console.WriteLine("输入回车退出"); Console.ReadLine(); } static void analysisByLine(string code) { char a = ' '; string temp = ""; int j = 0; while (j < code.Length) { a = code[j]; temp = ""; if (Char.IsLetter(a) || a == '_') 识符 { temp = temp + a.ToString(); j++; a = code[j]; while (Char.IsLetterOrDigit(a)) { //输
//Console.WriteLine(key+"是不是key"+flag); break; } else { flag = false; } //Console.WriteLine(key+"是不是key"); // Console.WriteLine(flag+"是不是key"); return flag; } } }
} else { //Console.WriteLine("标识符:"+temp); if (!bsf.Contains(temp)) { //Console.WriteLine("添加成功标识 符=="); bsf.Add(temp); } }
} else if (Char.IsDigit(a)) { temp = temp + a.ToString(); j++; a = code[j]; while (Char.IsDigit(a)) { temp = temp + a.ToString(); j++; a = code[j]; } //判断是否是小数 if (a.Equals('.')) { temp = temp + a.ToString(); j++; a = code[j]; while (Char.IsDigit(a)) { temp = temp + a.ToString(); j++; a = code[j]; } //判读是否是科学记数法 if (a.Equals('E') || a.Equals('e')) { temp = temp + a.ToString(); j++; a = code[j]; while (Char.IsDigit(a)) { temp = temp + a.ToString();
namespace LexicalAnalysis { class Program { static string[] keys = { "static", "true", "return", "string", "Length", "break", "Console", "WriteLine", "bool", "false", "ture", "void", "if", "else", "while", "int", "float", "for", "enum", "default", "case", "double", "do" }; static List<String> key = new List<string>(); 关键字 static List<String> bsf = new List<string>(); 标识符 static List<String> sz = new List<string>(); 数字 static List<String> gx = new List<string>(); 关系运算符 static List<String> ys = new List<string>(); 数字运算符 //数字,标识符,空白,关系符,运算符 static void Main(string[] args) { string[] date = File.ReadAllLines(@"d:\\code.txt"); //路径,并存入data //保存 //保存 //保存 //保存 //保存