词法分析程序的设计与实现

合集下载

词法分析程序实验报告

词法分析程序实验报告篇一：词法分析器_实验报告词法分析器实验报告实验目的：设计、编制、调试一个词法分析子程序－识别单词，加深对词法分析原理的理解。

实验要求：该程序要实现的是一个读单词过程，从输入的源程序中，识别出各个具有独立意义的单词，即基本保留字、标识符、常数、运算符、分界符五大类。

并依次输出各个单词的内部编码及单词符号自身值。

（一）实验内容（1）功能描述：对给定的程序通过词法分析器弄够识别一个个单词符号，并以二元式(单词种别码，单词符号的属性值)显示。

而本程序则是通过对给定路径的文件的分析后以单词符号和文字提示显示。

（2）程序结构描述：函数调用格式:参数含义：String string;存放读入的字符串 String str; 存放暂时读入的字符串 char ch; 存放读入的字符 int rs 判断读入的文件是否为空 char []data 存放文件中的数据 int m；通过switch用来判断字符类型，函数之间的调用关系图:函数功能：Judgement（）判断输入的字符并输出单词符号，返回值为空； getChar() 读取文件的，返回值为空；isLetter(char c) 判断读入的字符是否为字母的，返回值为Boolean类型； switch (m) 判断跳转输出返回值为空；isOperator(char c)判断是否为运算符的，返回值为Boolean类型； isKey(String string)判断是否为关键字的，返回值为Boolean类型； isDigit(char c) 判断读入的字符是否为数字的，返回值为Boolean类型。

（二）实验过程记录：本次实验出错3次，第一次无法输出双运算符，于是采用双重if条件句进行判断，此方法失败，出现了重复输出，继续修改if语句，仍没有成功。

然后就采用了直接方法调用解决此问题。

对于变量的判断，开始忘了考虑字母和数字组成的变量，结果让字母和数字分家了，不过改变if语句的条件，解决了此问题。

一个简单的词法分析器

实验一词法分析程序设计与实现一、实验目的：加深对词法分析器的工作过程的理解；加强对词法分析方法的掌握；能够采用一种编程语言实现简单的词法分析程序；能够使用自己编写的分析程序对简单的程序段进行词法分析。

二、实验内容：自定义一种程序设计语言，或者选择已有的一种高级语言(C语言)，编制它的词法分析程序。

词法分析程序的实现可以采用任何一种编程工具。

三、实验要求：1. 对单词的构词规则有明确的定义；2. 编写的分析程序能够正确识别源程序中的单词符号；3. 识别出的单词以<种别码，值>的形式保存在符号表中；4. 词法分析中源程序的输入以.c格式，分析后的符号表保存在.txt文件中。

5. *对于源程序中的词法错误，能够做出简单的错误处理，给出简单的错误提示，保证顺利完成整个源程序的词法分析；6. 实验报告要求用自动机或者文法的形式对词法定义做出详细说明，说明词法分析程序的工作过程，说明错误处理的实现*。

四、实验学时：12学时五、实验步骤：1. 定义目标语言的可用符号表和构词规则；2. 依次读入源程序符号，对源程序进行单词切分和识别，直到源程序结束；3. 对正确的单词，按照它的种别以<种别码，值>的形式保存在符号表中；4. *对不正确的单词，做出错误处理*。

词法分析（Lexical Analysis) 是编译的第一阶段。

词法分析器的主要任务是读入源程序的输入字符、将他们组成词素，生成并输出一个词法单元序列，每个词法单元对应一个词素。

这个词法单元序列被输出到语法分析器进行语法分析。

知识储备词法单元：由一个词法单元名和一个可选的属性值组成。

词法单元名是一个表示某种词法单位的抽象符号，比如一个特定的关键字，或者代表一个标识符的输入字符序列。

词法单元名字是由语法分析器处理的输入符号。

模式：描述了一个词法单元的词素可能具有的形式。

词素：源程序中的一个字符序列，它和某个词法单元的模式匹配，并被词法分析器识别为该词法单元的一个实例。

词法分析程序设计与实现

实验一词法分析程序设计与实现一、实验目的及内容调试并完成一个词法分析程序，加深对词法分析原理的理解。

二、实验原理（状态转换图）1、C语言子集（1）关键字：begin if then while do end所有关键字都是小写。

（2）运算符和界符：:= + –＊/ 〈<= <> 〉>= = ; ( ) ＃（3）其他单词是标识符（ID）和整型常数（NUM），通过以下正规式定义: ID=letter（letter| digit）*NUM=digit digit *（4）空格由空白、制表符和换行符组成。

空格一般用来分隔ID、NUM,运算符、界符和关键字，词法分析阶段通常被忽略。

2、各种单词符号对应的种别码3、词法分析程序的功能输入：所给文法的源程序字符串。

输出：二元组（syn,token或sum）构成的序列。

其中：syn为单词种别码；token为存放的单词自身字符串；sum为整型常数.二、软件平台及工具PC机以及VISUAL C++6.0软件。

三、实验方法、步骤(或:程序代码或操作过程) （1）程序代码：#include<stdio.h>＃include〈string。

h>#include〈iostream.h〉char prog[80］，token[8］;char ch；int syn,p，m=0，n，row，sum=0;char *rwtab［6]=｛"begin”，"if",”then","while”,”do”,”end"｝;void scaner（）{for（n=0;n<8;n++) token[n］=NULL;ch=prog[p++］;while(ch==' '）{ch=prog[p］;p++;｝if((ch>=’a'&＆ch〈=’z’)|｜（ch〉=’A’&＆ch〈=’Z’)）｛m=0;while(（ch〉=’0'&&ch〈=’9’）||（ch〉=’a'＆＆ch<=’z'）||（ch>='A’＆&ch<=’Z’））｛token［m++］=ch；ch=prog[p++];｝token［m++]='\0’；p--；syn=10;for（n=0;n〈6;n++）if(strcmp（token,rwtab［n］)==0）｛syn=n+1；break；}｝else if（(ch>='0’＆&ch<=’9')){{sum=0;while(（ch〉=’0'＆&ch〈=’9')){sum=sum＊10+ch-'0’；ch=prog[p++];}}p-—;syn=11;if(sum〉32767）syn=—1;}else switch(ch)｛case'〈’：m=0;token［m++］=ch;ch=prog［p++］;if（ch==’>'）{syn=21;token[m++]=ch；}else if（ch=='=’）｛syn=22;token[m++］=ch；}else{syn=23；p-—;}break；case’〉’：m=0；token[m++］=ch；ch=prog[p++］；if(ch==’=’)｛syn=24；token［m++］=ch；｝else｛syn=20；p-—；}break；case’:’:m=0；token[m++]=ch；ch=prog[p++];if（ch=='='）syn=18;token［m++]=ch；}else{syn=17；p——;}break；case'*’：syn=13；token[0]=ch；break; case'/’:syn=14;token[0］=ch；break；case’+'：syn=15;token[0]=ch;break; case’—':syn=16；token［0］=ch；break；case’=’：syn=25;token［0］=ch;break；case’；’:syn=26；token[0］=ch;break; case'(’:syn=27；token[0]=ch;break；case’)’:syn=28;token[0]=ch;break;case'＃’:syn=0;token［0]=ch;break;case'\n':syn=—2;break；default: syn=—1;break;｝｝void main(){p=0；row=1;cout<〈"Please input string：”〈〈endl;do{cin.get(ch）；prog[p++］=ch；while(ch!='#’);p=0；do｛scaner（)；switch(syn）｛case 11: cout〈〈”（"〈<syn〈〈”,"〈<sum〈<”)”<〈endl；break;case —1: cout〈<"Error in row ”〈〈row〈〈”!"<<endl；break；case -2: row=row++；break；default: cout〈<"（"〈〈syn〈〈",”〈<token<〈”）”〈〈endl;break；}}while （syn!=0）;｝（2）创建编辑程序（3)连接、编译和调试程序（4）运行程序五、实验过程原始记录（测试数据、图表、计算等)（1)给定源程序begin x:=8；if x>0 then x：=2*x+1/5；end#输出结果（2）源程序（包括上式未有的while、do以及判断错误语句）: beginx〈=＄;whilea<0dob<>9—x;end＃。

词法分析器的实现与设计

题目：词法分析器的设计与实现一、引言................................ 错误!未定义书签。

二、词法分析器的设计 (3)2.1词的内部定义 (3)2.2词法分析器的任务及功能 (3)32.2.2 功能： (4)2.3单词符号对应的种别码： (4)三、词法分析器的实现 (5)3.1主程序示意图： (5)3.2函数定义说明 (6)3.3程序设计实现及功能说明 (6)错误!未定义书签。

77四、词法分析程序的C语言源代码： (7)五、结果分析： (12)摘要：词法分析是中文信息处理中的一项基础性工作。

词法分析结果的好坏将直接影响中文信息处理上层应用的效果。

通过权威的评测和实际应用表明,IRLAS是一个高精度、高质量的、高可靠性的词法分析系统。

众所周知,切分歧义和未登录词识别是中文分词中的两大难点。

理解词法分析在编译程序中的作用，加深对有穷自动机模型的理解，掌握词法分析程序的实现方法和技术，用c语言对一个简单语言的子集编制一个一遍扫描的编译程序，以加深对编译原理的理解,掌握编译程序的实现方法和技术。

Abstract:lexical analysis is a basic task in Chinese information processing. The results of lexical analysis will directly affect the effectiveness of the application of Chinese information processing. The evaluation and practical application show that IRLAS is a high precision, high quality and high reliability lexical analysis system. It is well known that segmentation ambiguity and unknown word recognition are the two major difficulties in Chinese word segmentation. The understanding of lexical analyse the program at compile, deepen of finite automata model for understanding, master lexical analysis program implementation method and technology, using C language subset of a simple language compilation of a scanned again compiler, to deepen to compile the principle solution, master compiler implementation method and technology.关键词：词法分析器?扫描器?单词符号?预处理Keywords: lexical analyzer word symbol pretreatment scanner一、引言运用C语言设计词法分析器，由指定文件读入预分析的源程序，经过词法分析器的分析，将结果写入指定文件。

北邮-编译原理-词法分析

实验报告编译原理与技术ytinrete程序设计1题目：词法分析程序的设计与实现。

实验内容：设计并实现C语言的词法分析程序，要求如下。

（1）、可以识别出用C语言编写的源程序中的每个单词符号，并以记号的形式输出每个单词符号。

（2）、可以识别并读取源程序中的注释。

（3）、可以统计源程序汇总的语句行数、单词个数和字符个数，其中标点和空格不计算为单词，并输出统计结果（4）、检查源程序中存在的错误，并可以报告错误所在的行列位置。

（5）、发现源程序中存在的错误后，进行适当的恢复，使词法分析可以继续进行，通过一次词法分析处理，可以检查并报告源程序中存在的所有错误。

|实验要求：方法1：采用C/C++作为实现语言，手工编写词法分析程序。

方法2：通过编写LEX源程序，利用LEX软件工具自动生成词法分析程序。

算法思路：首先通过遍历，统计行号和字符数，并记录所有的注释。

其次，再次读取，利用一个字符数组作为buffer保存一行的数据，在对其中的数据进行处理，完成之后再读下一行，跳过注释。

对于整行数据的处理，依靠空格将其分成单个单词再具体处理。

对于查错问题实在是一个难题，只能根据一些规则判定有错并记录。

&程序源代码：==*p || 'E'==*p || 'e'==*p)//小数和指数形式{(1,*p);p++;while(isdigit(*p)){(1,*p);p++;}}{sum_word++;(temp_word);cout<<endl<<"第"<<sum_word<<"个单词："<<" 无符号数：" <<temp_word<<endl;}}elseif('#'==*p)//预处理文件特殊处理{while('\0'!=*p){(1,*p);》p++;}//p指向换行，完成直接退出(temp_word);}elseif('"'==*p)//字符串{();p++;while('"'!=*p)<{(1,*p);p++;}p++;sum_word++;cout<<endl<<"第"<<sum_word<<"个单词："<<" 字符串：" <<temp_word<<endl;}elseif('+'==*p)//处理符号{。

北邮-编译原理-词法分析

实验报告编译原理与技术ytinrete程序设计1题目：词法分析程序的设计与实现。

实验内容：设计并实现C语言的词法分析程序，要求如下。

（1）、可以识别出用C语言编写的源程序中的每个单词符号，并以记号的形式输出每个单词符号。

（2）、可以识别并读取源程序中的注释。

（（5）、发现源程序中存在的错误后，进行适当的恢复，使词法分析可以继续进行，通过一次词法分析处理，可以检查并报告源程序中存在的所有错误。

实验要求：方法1：采用C/C++作为实现语言，手工编写词法分析程序。

方法2：通过编写LEX源程序，利用LEX软件工具自动生成词法分析程序。

算法思路：首先通过遍历，统计行号和字符数，并记录所有的注释。

其次，再次读取，利用一个字符数组作为buffer保存一行的数据，在对其中的数据进行处理，完成之后再读下一行，跳过注释。

对于整行数据的处理，依靠空格将其分成单个单词再具体处理。

对于查错问题实在是一个难题，只能根据一些规则判定有错并记录。

-程序源代码：==*p || 'E'==*p || 'e'==*p)//小数和指数形式{(1,*p);p++;while(isdigit(*p)){(1,*p);—p++;}}sum_word++;(temp_word);cout<<endl<<"第"<<sum_word<<"个单词："<<" 无符号数：" <<temp_word<<endl;}}elseif('#'==*p)//预处理文件特殊处理&while('\0'!=*p){(1,*p);p++;}//p指向换行，完成直接退出(temp_word);}else-if('"'==*p)//字符串{();p++;while('"'!=*p){(1,*p);p++;}p++;：sum_word++;cout<<endl<<"第"<<sum_word<<"个单词："<<" 字符串：" <<temp_word<<endl;elseif('+'==*p)//处理符号{();if('='==*(p+1))//自加{temp_word = "+=";￥(temp_word);sum_word++;cout<<endl<<"第"<<sum_word<<"个单词："<<" 自加号：" <<temp_word<<endl;p+=2;//推进}elseif('+'==*(p+1))//自加1{temp_word = "++";(temp_word);—sum_word++;cout<<endl<<"第"<<sum_word<<"个单词："<<" 自加1号：" <<temp_word<<endl;p+=2;//推进}elseif(isdigit(*(p+1)))//有符号数{temp_word="+";for(int j=1; isdigit(*(p+j));j++)(1,*(p+j));,(temp_word);sum_word++;cout<<endl<<"第"<<sum_word<<"个单词："<<" 有符号数：" <<temp_word<<endl;p+=2;//推进}else{temp_word = "+";(temp_word);sum_word++;,cout<<endl<<"第"<<sum_word<<"个单词："<<" 加号：" <<temp_word<<endl;p+=2;//推进}}elseif('-'==*p)//处理符号{();if('='==*(p+1))//自减{—temp_word = "-=";(temp_word);sum_word++;cout<<endl<<"第"<<sum_word<<"个单词："<<" 自减号：" <<temp_word<<endl;p+=2;//推进}elseif('-'==*(p+1))//自减1{temp_word = "--";、(temp_word);sum_word++;cout<<endl<<"第"<<sum_word<<"个单词："<<" 自减1号：" <<temp_word<<endl;p+=2;//推进}elseif(isdigit(*(p+1)))//有符号数{temp_word="-";for(int j=1; isdigit(*(p+j));j++)~(1,*(p+j));(temp_word);sum_word++;cout<<endl<<"第"<<sum_word<<"个单词："<<" 有符号数：" <<temp_word<<endl;p+=2;//推进}else{temp_word = "-";(temp_word);：sum_word++;cout<<endl<<"第"<<sum_word<<"个单词："<<" 减号：" <<temp_word<<endl;p+=2;//推进}}elseif('*'==*p)//处理符号{();if('='==*(p+1))//自乘！{temp_word = "*=";(temp_word);sum_word++;cout<<endl<<"第"<<sum_word<<"个单词："<<" 自乘号：" <<temp_word<<endl;p+=2;//推进}else{temp_word = "*";[(temp_word);sum_word++;cout<<endl<<"第"<<sum_word<<"个单词："<<" 乘号：" <<temp_word<<endl;p+=2;//推进}}elseif('/'==*p)//处理符号{'();if('='==*(p+1))//自除{temp_word = "*=";(temp_word);sum_word++;cout<<endl<<"第"<<sum_word<<"个单词："<<" 自除号：" <<temp_word<<endl;p+=2;//推进}else|if('/'==*(p+1))//行注释return;// 直接跳出elseif('*'==*(p+1))//多行注释{in_comment=true;p+=2;while('\0'!=*p)//判断这行为止注释能不能结束{if(('*'==*p)&&('/')==*(p+1)),{in_comment = false;break;}p++;}}else{temp_word = "/";—(temp_word);sum_word++;cout<<endl<<"第"<<sum_word<<"个单词："<<" 除号：" <<temp_word<<endl;p+=2;//推进}}elseif('='==*p)//处理等号{();￥if('='==*(p+1))//比较{temp_word = "==";(temp_word);sum_word++;cout<<endl<<"第"<<sum_word<<"个单词："<<" 比较号："<<temp_word<<endl;p+=2;//推进}else{}temp_word = "=";(temp_word);sum_word++;cout<<endl<<"第"<<sum_word<<"个单词："<<" 赋值号：" <<temp_word<<endl;p+=2;//推进}}elseif('>'==*p)){();if('='==*(p+1)){temp_word = ">=";(temp_word);sum_word++;<<temp_word<<endl;p+=2;//推进}·else{temp_word = ">";(temp_word);sum_word++;cout<<endl<<"第"<<sum_word<<"个单词："<<" 大于号：" <<temp_word<<endl;p+=2;//推进}}《elseif('<'==*p){();if('='==*(p+1)){temp_word = "<=";(temp_word);sum_word++;<<temp_word<<endl;&p+=2;//推进}else{temp_word = "<";(temp_word);sum_word++;cout<<endl<<"第"<<sum_word<<"个单词："<<" 小于号：" <<temp_word<<endl;p+=2;//推进}[}elseif('!'==*p){();if('='==*(p+1)){temp_word = "!=";(temp_word);；sum_word++;cout<<endl<<"第"<<sum_word<<"个单词："<<" 不等于号：" <<temp_word<<endl;p+=2;//推进}else{temp_word = "!";(temp_word);sum_word++;cout<<endl<<"第"<<sum_word<<"个单词："<<" 取反号：" <<temp_word<<endl;'p+=2;//推进}}elseif(':'==*p || '('==*p || ')'==*p || ';'==*p || '{' ==*p|| '}'==*p || ','==*p||'['==*p||']'==*p||'\0'==*p||'\n'==*p)//标点不算单词{if('('==*p)small_bracket++;//查错`if(')'==*p)small_bracket--;//查错if('{'==*p)big_bracket++;//查错if('}'==*p)big_bracket--;//查错p++;//推进}else//非法字符{`cout<<endl<<"error: 在第"<<current_line<<"行，出现非法字符："<<*p<<endl;p++;}}}void analyse(void)//循环填充buffer并进行词法分析{char *p=buffer;(0);//文件指针回到头]while(!()){(*p);if('\n'==*p)//充满一句{*(p+1)='\0';*(p+2)='\0';current_line++;word_analyse();if(0!=small_bracket)，{cout<<endl<<"error: 在第"<<current_line<<"行，小括号不匹配！"<<endl;small_bracket=0;}p=buffer;//重新填充}elsep++;{}if(0!=big_bracket)cout<<endl<<"error: 大括号不匹配！"<<endl;}void show_result(void)//显示统计结果{cout<<endl<<"the number of words is:"<<sum_word<<endl;cout<<endl<<"the number of char is:"<<sum_char<<endl;cout<<endl<<"the number of line is:"<<sum_line<<endl;￥cout<<"the followings are header:"<<endl;for(int i=0; i<(); i++){cout<<(i);}cout<<"the followings are comment:"<<endl;for(int i=0; i<(); i++){cout<<(i);}$}int main(void){("");if(NULL==file)》cout<<endl<<"找不到文件！"<<endl;else{//开始处理init();//初始化关键字analyse();();sum();//统计行数字节数注释show_result();//显示统计结果}int test;cin>>test;return 0;}实验结果测试：正常文件运行结果：有问题文件：运行结果：。

词法分析器实验报告

词法分析器实验报告词法分析器实验报告一、引言词法分析器是编译器中的重要组成部分，它负责将源代码分解成一个个的词法单元，为之后的语法分析提供基础。

本实验旨在设计和实现一个简单的词法分析器，以深入理解其工作原理和实现过程。

二、实验目标本实验的目标是设计和实现一个能够对C语言代码进行词法分析的程序。

该程序能够将源代码分解成关键字、标识符、常量、运算符等各种词法单元，并输出其对应的词法类别。

三、实验方法1. 设计词法规则：根据C语言的词法规则，设计相应的正则表达式来描述各种词法单元的模式。

2. 实现词法分析器：利用编程语言（如Python）实现词法分析器，将源代码作为输入，根据词法规则将其分解成各种词法单元，并输出其类别。

3. 测试和调试：编写测试用例，对词法分析器进行测试和调试，确保其能够正确地识别和输出各种词法单元。

四、实验过程1. 设计词法规则：根据C语言的词法规则，我们需要设计正则表达式来描述各种词法单元的模式。

例如，关键字可以使用'|'操作符将所有关键字列举出来，标识符可以使用[a-zA-Z_][a-zA-Z0-9_]*的模式来匹配，常量可以使用[0-9]+的模式来匹配等等。

2. 实现词法分析器：我们选择使用Python来实现词法分析器。

首先，我们需要读取源代码文件，并将其按行分解。

然后，针对每一行的代码，我们使用正则表达式进行匹配，以识别各种词法单元。

最后，我们将识别出的词法单元输出到一个结果文件中。

3. 测试和调试：我们编写了一系列的测试用例，包括各种不同的C语言代码片段，以测试词法分析器的正确性和鲁棒性。

通过逐个测试用例的运行结果，我们可以发现和解决词法分析器中的问题，并进行相应的调试。

五、实验结果经过多次测试和调试，我们的词法分析器能够正确地将C语言代码分解成各种词法单元，并输出其对应的类别。

例如，对于输入的代码片段：```cint main() {int a = 10;printf("Hello, world!\n");return 0;}```我们的词法分析器将输出以下结果：```关键字：int标识符：main运算符：(运算符：)运算符：{关键字：int标识符：a运算符：=常量：10运算符：;标识符：printf运算符：(常量："Hello, world!\n"运算符：)运算符：;关键字：return常量：0运算符：;```可以看到，词法分析器能够正确地将代码分解成各种词法单元，并输出其对应的类别。

词法分析程序的设计与实现

词法分析程序的设计与实现方法1：采用C作为实现语言，手工编制一．文法及状态转换图1．语言说明：C语言有以下记号及单词：（1）标识符：以字母开头的、后跟字母或数字组成的符号串。

（2）关键字：标识符集合的子集，该语言定义的关键字有32个，即auto,break,case,char,const,continue,default,do,double,else,enum, extern,float,for,goto,if,int,long,register,return,short,signed,static, sizeof,struct,switch，typedef ,union,unsigned ,void, volatile和while。

（3）无符号数：即常数。

（4）关系运算符：<,<=,==,>,>=,！=。

（5）逻辑运算符：&&、||、！。

（6）赋值号：=。

（7）标点符号：+、++、-、--、*、：、；、（、）、？、/、%、#、&、|、“”、，、.、{}、[]、_、^等（8）注释标记：以“/*”开始，以“*/”结束。

（9）单词符号间的分隔符：空格。

2．记号的正规文法：仅给出各种单词符号的文法产生式（1）标识符的文法id->letter ridrid->ε|letter rid|digit rid（2）无符号整数的文法digits->digit remainderremainder->ε|digit remainder（3）无符号数的文法num->digit num1num1->digit num1|. num2|E num4|εnum2->digit num3num3->digit num3|E num4|εnum4->+digits|-digits|digit num5digits->digit num5num5->digit num5|ε（4）关系运算符的文法relop-> <|<=|==|>|>=|!=（5）赋值号的文法assign_op->=（6）标点符号的文法special_symbol->+|-|*|%|#|^|(|)|{|}|[|]|:|;|”|?|/|,|.& （7）逻辑运算符的文法logic->&&| || | !（8）注释头符号的文法note->/starstar->*3.状态转换图其中，状态0是初始状态，若此时读入的符号是字母，则转换到状态1，进入标识符识别过程；如果读入的是数字，则转换到状态2，进入无符号数识别过程；……；若读入的符号是/，转换到状态11，再读入下一个符号，如果读入的符号是*，则转换到状态12，进入注释处理状态；如果在状态0读入的符号不是语言所定义的单词符号的开始字符，则转换到状态13，进入错误处理状态。

编译原理实验一词法分析

《编译系统设计实践》实验项目一：词法分析指导老师：陈晖组长：许堃组员：一、实验目的词法分析的目的是将输入的源程序进行划分，给出基本符号（token）的序列，并掠过注解和空格等分隔符号。

基本符号是与输入的语言定义的词法所规定的终结符。

二、实验内容本实验要求学生编制一个读单词过程，从输入的源程序中，识别出各个具有独立意义的单词，即基本保留字、标识符、常数、运算符、分隔符五大类。

并依次输出各个单词的内部编码及单词符号自身值。

（遇到错误时可显示“Error”，然后跳过错误部分继续进行）三、程序设计与实现程序功能描述：程序从文本读入一段程序代码，对每一个字符进行分析，识别出各个具有独立意义的单词，并依次输出各个单词的内部编码及单词符号自身值。

过程描述：过程描述：先从文本中读入字符，定义两个指针begin和forward，begin指向每一个词素的首个字符，forward一直向前扫描，直到发现某个单词被匹配为止，一旦确定了下一个单词，forward指针将指向该词素结尾的字符，确定词素后，根据内部编号输出其编号和自身值。

数据结构：数组程序流程图：正则表达式：标识符 id->letter_(letter_|digit)*无符号数 number->digit optitionalfraction optionalexponent 空白符 ws->(blank|tab|newline)+ 关系运算符 relop-> <|>|<=|>=|=|<> 运算符 operator->+|-|*|/DFA 图：=|<>|<|>|<=|>=|+|-|*|/ a —z A--Z0--9;| ( | ) | ,| [ | ] | .开始（每个词素首个字符）符号转化符号转化符号转化符号转化关键字？标识符？结束startdelim22other24 23*19 12141316151817 startotherdigit. digit E+ | -digitdigit digitdigit Edigit *startletter9other 11 10letter/dig*start<other= 67 8return(relop, LE) 54>= 123other>=* * return(relop, NE)return(relop, LT)return(relop, EQ)return(relop, GE)return(relop, GT)10四、程序测试第一组测试：输入：输出：第二组测试：输入：输出：第三组测试：输入：输出：五、小组成员分工与实验小结由于有一段时间没有编程序，而且实验本身也有些难度，所以在实验初期遇到了很大阻碍，不知道该从何下手。

实验1-3-《编译原理》词法分析程序设计方案

实验1－3 《编译原理》S语言词法分析程序设计方案一、实验目的了解词法分析程序的两种设计方法之一:根据状态转换图直接编程的方式;二、实验内容ﻩ1．根据状态转换图直接编程编写一个词法分析程序，它从左到右逐个字符的对源程序进行扫描,产生一个个的单词的二元式，形成二元式(记号）流文件输出。

在此,词法分析程序作为单独的一遍，如下图所示。

具体任务有:（1)组织源程序的输入(２)拼出单词并查找其类别编号，形成二元式输出,得到单词流文件（3）删除注释、空格和无用符号（4)发现并定位词法错误,需要输出错误的位置在源程序中的第几行。

将错误信息输出到屏幕上。

（5）对于普通标识符和常量,分别建立标识符表和常量表(使用线性表存储），当遇到一个标识符或常量时,查找标识符表或常量表,若存在，则返回位置，否则返回０并且填写符号表或常量表。

标识符表结构:变量名，类型（整型、实型、字符型),分配的数据区地址注：词法分析阶段只填写变量名,其它部分在语法分析、语义分析、代码生成等阶段逐步填入。

常量表结构：常量名，常量值三、实验要求1.能对任何S语言源程序进行分析ﻩ在运行词法分析程序时,应该用问答形式输入要被分析的S源语言程序的文件名,然后对该程序完成词法分析任务。

2．能检查并处理某些词法分析错误词法分析程序能给出的错误信息包括：总的出错个数，每个错误所在的行号,错误的编号及错误信息。

本实验要求处理以下两种错误（编号分别为1,2)：1:非法字符:单词表中不存在的字符处理为非法字符,处理方式是删除该字符，给出错误信息,“某某字符非法”。

２:源程序文件结束而注释未结束。

注释格式为:/* …… */四、保留字和特殊符号表单词的构词规则:字母=[A-Za-z]数字=[0-９]标识符=(字母｜＿)（字母|数字）*数字=数字（数字)＊(.数字+| )四、Ｓ语言表达式和语句说明ﻩ1.算术表达式：+、－、*、/、%ﻩ2．关系运算符：>、>＝、<、<＝、==、！＝3.赋值运算符:=,＋=、-＝、＊=、／=、％=ﻩ4．变量说明:类型标识符变量名表;5.类型标识符:int char flｏaｔﻩ6．If语句：iｆ表达式tｈen 语句[ｅlsｅ语句] ﻩ７.For语句：for(表达式１;表达式２；表达式３) 语句ﻩ8.Whilｅ语句：whｉle表达式ｄo 语句9.S语言程序：由函数构成,函数不能嵌套定义。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

static private char digitprocess(char buffer) throws Exception {
StringBuffer sb = new StringBuffer();
char temp = buffer;
while(Character.isDigit(temp)){
sb.append(temp);
if((temp = (char) reader.read()) == -1) {
isOver = true;
}
}
search(sb.toString(), 3);//处理一个数字r来自turn temp;}
//其他字符
static private char otherprocess(char buffer) throws Exception {
import java.io.Reader;
@SuppressWarnings("unused")
public class shiyan1 {
static public Reader reader = null;
//关键字
static public String[] keyWords = { "if", "else", "for", "while", "do",
1）基本字：也叫关键字、保留字，是程序设计语言用来表示特定语法含义的一种标识符，如if、begin等。
2）运算符：如+、-、*、/、:=、>、<等。
3）标识符：用户定义的变量名、常数名、函数名等。不同的高级程序设计语言对关键字是否可以作为普通标识符有不同的要求，有的语言允许程序员使用关键字作为普通标识符，有的程序设计语言则不允许程序员将关键字用着普通标识符（如C/C++、Pascal等都不允许）。在允许程序员将关键字用作普通标识符的程序设计语言的编译器中，编译器必须具备能够区分一个标识符到底是关键字还是普通标识符的功能。
sb.append(temp);
if((temp = (char) reader.read()) == -1) {
isOver = true;
}
}
if(!search(sb.toString(), 1)){
search(sb.toString(),2);
}
return temp;
}
//处理数字开头的词
有一定检查错误的能力，例如发现2A这类不能作为单词的字符串。
【实验环境】
Windows PC机，任何语言。
【提交内容】
提交实验报告，报告内容如下：
目的要求、算法描述、程序结构、主要变量名说明、程序清单、调试情况、设计技巧、心得体会。
提交源程序和可执行文件。
【学时】
4课时。
二、实验说明
词法分析程序的任务就是扫描源程序，依据词法规则识别单词并报告构词错误信息。通常将单词分为5种类型。
4）常数：如23、6等。
5）界符：如“，”、“；”、“（”、“）”、“.”等。
注意事项
空格的作用仅仅是将一个个单词分割开来，源程序中的空格不具备别的语法意义，在语法分析及其后续阶段都没有任何作用，因此，词法分析的另一个工作是过滤空格。
注释对整个源程序的编译也没有任何语法意义，只是为了便于阅读和交流，因此，有的编译程序的词法分析程序也负责过滤注释。
输出的单词符号采用[单词类别，单词自身值]的二元组形式来表示。
为了使扫描程序尽可能的高效，在进行词法分析程序的设计和实现时还需十分注意扫描程序结构的实际细节问题。
用于间隔单词的空格和我们通常所说的键盘上的空格是不同的，这里的空格指的是所有能引起一个单词结束的字符，它们包括空格、制表或回车换行符。
a*（b+c）这样的没有空格间隔的情况时要正确地识别出所有的单词
//关系符1
static public String[] relation1 = { "<", "=", ">" };
//关系符2
static public String[] relation2 = { "<=", ">=", "<>" };
static public boolean isOver = false;
//处理一个字母开头的词
static private char alphaprocess(char buffer) throws Exception {
int i = -1;
StringBuffer sb = new StringBuffer();
char temp = buffer;
while (Character.isLetter(temp) || Character.isDigit(temp)) {
StringBuffer sb = new StringBuffer();
char temp = buffer;
sb.append(temp);
if((temp = (char) reader.read()) == -1) {
isOver = true;
}
if(search(sb.toString(), 4)){return temp;}//界符
实验一
一、实验内容
【实验目的和要求】
设计、编制、调试一个具体的词法分析程序，加深对词法分析原理的理解。
【实验内容】
通过对PL/0词法分析程序（GETSYM）的分析，并在此基础上按照附录A中给出的PL/0语言的语法描述，编写一个PL/0语言的词法分析程序。此程序应具有如下功能：
输入为字符串（待进行词法分析的源程序），输出为单词串，即由（单词、类别）所组成的二元组序列。
"return", "break", "continue" };
//界符
static public String[] borders = { ",", ";", "{", "}", "(", ")" };
//运算符
static public String[] arithmetic = { "+", "-", "*", "/" };
123ab这样的字符串时，一般字符串的首字符必须为字母，不要将123识别为数字，将ab识别为标识符
转换图说明
程序代码参考
package cffx;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;

词法分析程序的设计与实现

词法分析程序实验报告

一个简单的词法分析器

词法分析程序设计与实现

词法分析器的实现与设计

北邮-编译原理-词法分析

北邮-编译原理-词法分析

词法分析器实验报告

词法分析程序的设计与实现

编译原理 实验一 词法分析

实验1-3-《编译原理》词法分析程序设计方案

编译原理实验一词法分析