词法分析器实验报告及源代码

合集下载

词法分析器实验报告

词法分析器实验报告引言：词法分析器（Lexical Analyzer）是编译器的重要组成部分，其主要任务是将源代码转化为一个个独立的词法单元，为语法分析器提供输入。

在本次实验中，我们设计并实现了一个简单的词法分析器，通过对其功能和性能的测试，评估其在不同场景下的表现。

实验目的：1. 确定词法分析器的输入和输出要求；2. 通过构建适当的正则表达式规则，匹配不同类型的词法单元；3. 实现一个高效的词法分析器，确保在处理大型源代码时性能不受影响；4. 对词法分析器的功能和性能进行测试和评估。

实验过程：1. 设计词法分析器的接口：1.1 确定输入：源代码字符串。

1.2 确定输出：词法单元流，每个词法单元包含类型和对应的字符串值。

2. 构建正则表达式规则：2.1 识别关键字：根据编程语言的关键字列表构建正则表达式规则，将关键字与标识符区分开。

2.2 识别标识符：一般由字母、下划线和数字组成，且以字母或下划线开头。

2.3 识别数字：整数和浮点数可以使用不同的规则来识别。

2.4 识别字符串：使用引号（单引号或双引号）包裹的字符序列。

2.5 识别特殊符号：各类操作符、括号、分号等特殊符号需要单独进行规则设计。

3. 实现词法分析器：3.1 读取源代码字符串：逐个字符读取源代码字符串，并根据正则表达式规则进行匹配。

3.2 保存词法单元：将匹配到的词法单元保存到一个词法单元流中。

3.3 返回词法单元流：将词法单元流返回给调用者。

4. 功能测试：4.1 编写测试用例：针对不同类型的词法单元编写测试用例，包括关键字、标识符、数字、字符串和特殊符号。

4.2 执行测试用例：将测试用例作为输入传递给词法分析器，并检查输出是否和预期一致。

4.3 处理错误情况：测试词法分析器对于错误输入的处理情况，如非法字符等。

5. 性能测试：5.1 构建大型源代码文件：生成包含大量代码行数的源代码文件。

5.2 执行词法分析：使用大型源代码文件作为输入，测试词法分析器的性能。

词法分析实验报告代码

一、实验目的1. 理解词法分析的概念和作用。

2. 掌握词法分析器的设计和实现方法。

3. 通过实验加深对编译原理中词法分析阶段的理解。

二、实验环境1. 操作系统：Windows 102. 编程语言：Python3.83. 开发工具：PyCharm三、实验内容1. 设计一个简单的词法分析器，能够识别并输出源代码中的单词。

2. 实现词法分析器的关键功能，包括：- 字符串预处理- 单词识别- 生成词法分析表四、实验步骤1. 字符串预处理- 读取源代码字符串。

- 移除字符串中的空白字符（空格、制表符、换行符等）。

- 转义字符串中的特殊字符。

2. 单词识别- 使用正则表达式匹配单词。

- 根据正则表达式匹配结果，将单词分类为关键字、标识符、常量等。

3. 生成词法分析表- 创建一个列表，用于存储词法分析表中的每个单词及其对应的类别。

- 遍历源代码字符串，将识别出的单词添加到词法分析表中。

五、实验代码```pythonimport re# 定义词法分析表结构class Token:def __init__(self, type, value):self.type = typeself.value = value# 单词识别函数def tokenize(source_code):# 移除空白字符source_code = re.sub(r'\s+', '', source_code)# 转义特殊字符source_code = re.sub(r'\\', '\\\\', source_code)# 使用正则表达式匹配单词tokens = re.findall(r'\b\w+\b', source_code)# 生成词法分析表token_table = []for token in tokens:if re.match(r'\bint\b', token):token_table.append(Token('KEYWORD', token))elif re.match(r'\bfloat\b', token):token_table.append(Token('KEYWORD', token))elif re.match(r'\bchar\b', token):token_table.append(Token('KEYWORD', token))elif re.match(r'\bif\b', token):token_table.append(Token('KEYWORD', token))elif re.match(r'\belse\b', token):token_table.append(Token('KEYWORD', token))elif re.match(r'\breturn\b', token):token_table.append(Token('KEYWORD', token))elif re.match(r'\b\w+\b', token):token_table.append(Token('IDENTIFIER', token)) else:token_table.append(Token('CONSTANT', token)) return token_table# 主函数def main():# 读取源代码source_code = '''int main() {int a = 10;float b = 3.14;char c = 'A';if (a > b) {return a;} else {return b;}}'''# 进行词法分析token_table = tokenize(source_code)# 输出词法分析结果for token in token_table:print(f'Type: {token.type}, Value: {token.value}') if __name__ == '__main__':main()```六、实验结果运行实验代码后，输出如下：```Type: KEYWORD, Value: intType: IDENTIFIER, Value: mainType: KEYWORD, Value: (Type: KEYWORD, Value: )Type: KEYWORD, Value: intType: IDENTIFIER, Value: a Type: KEYWORD, Value: = Type: CONSTANT, Value: 10 Type: KEYWORD, Value: ; Type: KEYWORD, Value: float Type: IDENTIFIER, Value: b Type: KEYWORD, Value: = Type: CONSTANT, Value: 3.14 Type: KEYWORD, Value: ; Type: KEYWORD, Value: char Type: IDENTIFIER, Value: c Type: KEYWORD, Value: = Type: CONSTANT, Value: A Type: KEYWORD, Value: ; Type: KEYWORD, Value: if Type: IDENTIFIER, Value: ( Type: IDENTIFIER, Value: a Type: KEYWORD, Value: > Type: IDENTIFIER, Value: b Type: KEYWORD, Value: ) Type: KEYWORD, Value: { Type: KEYWORD, Value: return Type: IDENTIFIER, Value: aType: KEYWORD, Value: ;Type: KEYWORD, Value: }Type: KEYWORD, Value: elseType: KEYWORD, Value: {Type: KEYWORD, Value: returnType: IDENTIFIER, Value: bType: KEYWORD, Value: ;Type: KEYWORD, Value: }```七、实验总结通过本次实验，我们成功地设计并实现了一个简单的词法分析器，能够识别并输出源代码中的单词。

词法分析报告设计实验报告材料(附代码)

实验一词法分析设计实验学时：4实验类型：综合实验要求：必修一、实验目的通过本实验的编程实践，使学生了解词法分析的任务，掌握词法分析程序设计的原理和构造方法，使学生对编译的基本概念、原理和方法有完整的和清楚的理解，并能正确地、熟练地运用。

二、实验容用VC++/VB/JAVA语言实现对C语言子集的源程序进行词法分析。

通过输入源程序从左到右对字符串进行扫描和分解，依次输出各个单词的部编码及单词符号自身值；若遇到错误则显示“Error”，然后跳过错误部分继续显示；同时进行标识符登记符号表的管理。

以下是实现词法分析设计的主要工作：（1）从源程序文件中读入字符。

（2）统计行数和列数用于错误单词的定位。

（3）删除空格类字符，包括回车、制表符空格。

（4）按拼写单词，并用（码，属性）二元式表示。

(属性值——token的机表示) （5）如果发现错误则报告出错（6）根据需要是否填写标识符表供以后各阶段使用。

单词的基本分类：◆关键字：由程序语言定义的具有固定意义的标识符。

也称为保留字例如if、for、while、printf ；单词种别码为1。

◆标识符：用以表示各种名字，如变量名、数组名、函数名；◆常数：任何数值常数。

如125, 1,0.5,3.1416；◆运算符：+、-、*、/；◆关系运算符：<、<=、= 、>、>=、<>；◆分界符：；、，、（、）、[、]；三、实验要求1、编程时注意编程风格：空行的使用、注释的使用、缩进的使用等。

2、将标识符填写的相应符号表须提供给编译程序的以后各阶段使用。

3、根据测试数据进行测试。

测试实例应包括以下三个部分:◆全部合法的输入。

◆各种组合的非法输入。

◆由记号组成的句子。

4、词法分析程序设计要求输出形式:例：输入VC++语言的实例程序：If i=0 then n++;a﹤= 3b %);输出形式为：单词二元序列类型位置（行，列）（单词种别，单词属性）for (1,for ) 关键字（1，1）i ( 6,i ) 标识符（1，2）= ( 4，= ) 关系运算符（1，3）0 ( 5，0 ) 常数（1，4）then ( 1，then) 关键字（1，5）n (6,n ) 标识符（1，6）++ Error Error （1，7）；( 2, ; ) 分界符（1，8）a (6,a ) 标识符（2，1）﹤= (4,<= ) 关系运算符（2，2）3b Error Error （2，4）% Error Error （2，4）) ( 2, ) ) 分界符（2，5）；( 2, ; ) 分界符（2，6）实验报告正文：◆功能描述：该程序具有词法分析功能，即面对一段程序源代码，通过该程序，能检查出源代码是否由词法错误。

词法分析器实验报告

词法分析器实验报告词法分析器实验报告一、引言词法分析器是编译器中的重要组成部分，它负责将源代码分解成一个个的词法单元，为之后的语法分析提供基础。

本实验旨在设计和实现一个简单的词法分析器，以深入理解其工作原理和实现过程。

二、实验目标本实验的目标是设计和实现一个能够对C语言代码进行词法分析的程序。

该程序能够将源代码分解成关键字、标识符、常量、运算符等各种词法单元，并输出其对应的词法类别。

三、实验方法1. 设计词法规则：根据C语言的词法规则，设计相应的正则表达式来描述各种词法单元的模式。

2. 实现词法分析器：利用编程语言（如Python）实现词法分析器，将源代码作为输入，根据词法规则将其分解成各种词法单元，并输出其类别。

3. 测试和调试：编写测试用例，对词法分析器进行测试和调试，确保其能够正确地识别和输出各种词法单元。

四、实验过程1. 设计词法规则：根据C语言的词法规则，我们需要设计正则表达式来描述各种词法单元的模式。

例如，关键字可以使用'|'操作符将所有关键字列举出来，标识符可以使用[a-zA-Z_][a-zA-Z0-9_]*的模式来匹配，常量可以使用[0-9]+的模式来匹配等等。

2. 实现词法分析器：我们选择使用Python来实现词法分析器。

首先，我们需要读取源代码文件，并将其按行分解。

然后，针对每一行的代码，我们使用正则表达式进行匹配，以识别各种词法单元。

最后，我们将识别出的词法单元输出到一个结果文件中。

3. 测试和调试：我们编写了一系列的测试用例，包括各种不同的C语言代码片段，以测试词法分析器的正确性和鲁棒性。

通过逐个测试用例的运行结果，我们可以发现和解决词法分析器中的问题，并进行相应的调试。

五、实验结果经过多次测试和调试，我们的词法分析器能够正确地将C语言代码分解成各种词法单元，并输出其对应的类别。

例如，对于输入的代码片段：```cint main() {int a = 10;printf("Hello, world!\n");return 0;}```我们的词法分析器将输出以下结果：```关键字：int标识符：main运算符：(运算符：)运算符：{关键字：int标识符：a运算符：=常量：10运算符：;标识符：printf运算符：(常量："Hello, world!\n"运算符：)运算符：;关键字：return常量：0运算符：;```可以看到，词法分析器能够正确地将代码分解成各种词法单元，并输出其对应的类别。

词法分析器源代码

词法分析器源代码#include <iostream> #include <vector> #include <string> #include<fstream>/*单词种别码*/#define _CHAR 1 #define _INT 2#define _SHORT 3 #define _LONG 4 #define _SIGNED 5 #define _UNSIGNED 6 #define _FLOAT 7 #define _DOUBLE 8 #define _CONST 9 #define _VOID 10 #define _VOLATILE 11 #define _ENUM 12 #define _STRUCT 13 #define _UNION 14 #define _TYPEDEF 15 #define _AUTO 16 #define _EXTERN 17 #define_STATIC 18 #define _REGISTER 19 #define _IF 20#define _ELSE 21 #define _SWITCH 22 #define _CASE 23 #define_DEFAULT 24 #define _WHILE 25 #define _DO 26#define _FOR 27 #define _BREAK 28 #define _CONTINUE 29 #define _GOTO 30 #define _RETURN 31 #define _SIZEOF 32 #define _INCLUDE 33 #define_DEFINE 34 /*以上为关键字的种别码*/#define _ID 40 //标识符#define _NUM 50 //数#define _AS 51 //= #define _PLUS 52 //+ #define _SUB 53 //- #define _TIMES 54 // * #define _DIV 55 // / #define _LP 56 // ( #define _RP 57 // ) #define _LB1 58 // [ #define _RB1 59 // ] #define _LB2 60 //{ #define _RB2 61 // } #define _COM 62 // , #define _COL 63 // : #define_SEM 64 // #define _POINT 65 // . #define _LG 66 // > #define _LT 67 // < #define _ME 68 // >= #define _LE 69 // <= #define _EQ 70 // == #define _NE 71 // != #define _A 72 // >> #define _B 73 // >>= #define _C 74 // << #define _D 75 // <<= #define _E 76 // & #define _F 76 // && #define _G 77 // &= #define _H 78 // | #define _I 79 // || #define _J 80 // |= #define _K 81 // ~ #define _L 82 // ++ #define _M 83 // -- #define _N 84 // -> #define _O 85 // += #define _P 86 // -= #define _Q 87 // *=#define _R 88 // /= #define _S 89 // %=#define _T 90 // ^=#define _U 91 // %#define _V 92 // "#define _W 93 // '#define _X 94 // ?#define _EROOR -1 // 错误using namespace std;int ERROR_NUM=0; //记载词法编译错误个数bool isnum(string str) //判断是不是合法的数字{int y;int i;int j=0;int k=0;for(i=0;i<str.size();i++){if(!(str[i]<='9'&&str[i]>='0')){k++;if((k-j)>1){cout<<"数字串"<<str<<"出现词法错误～"<<endl;return false;} if(str[i]=='.') {j++;if(j>1) {cout<<"数字串"<<str<<"出现词法错误～"<<endl;return false;} }else if((str[i]=='E'||str[i]=='e')&&(str[i-1]<='9'&&str[i-1]>='0')&&((str[i+1]<='9'&&str[i+1]>='0')||(y=i+1)==str.size())) continue;else{cout<<"数字串"<<str<<"出现词法错误～"<<endl;return false;} }}return true;}/*该函数用来略过空格和换行符，找到有效字符的位置第一个参数为目标字符串，第二个参数为开始位置返回值为连续的空格和换行后的第一个有效字符在字符串的位置*/int valuable(string str,int i) {while(true){if(str[i]!=' '&&str[i]!='\n')return i;i++;}}int isexp(string str,int i) {if(str[i]=='/'&&str[i+1]=='/'){while(str[i]!='\n'){i++;}}return i;}int iskey(string str) //判断是不是关键字{stringp[34]={"char","int","short","long","signed","unsigned","float","double", "const","void","volatile","enum","struct","union","typedef","auto"," extern","static","register","if","else","switch","case","default","while","do", "for","break","continue","goto","return","size of","#include","#define"};vector<string> ppp(p,p+34); int u;for(u=0;u<ppp.size();u++)if(!pare(ppp[u]))return u+1;return 0;}vector<pair<int,string> > scan(vector<string> vec)//本次程序的主要分析程序 {vector<pair<int,string> > temp;int i;for(i=0;i<vec.size();i++){if(vec[i].size()==1){if(vec[i]==">"){if(vec[i+1]=="="){string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(_ME,jk);temp.push_back(pp);continue;}else if(vec[i+1]==">"&&vec[i+2]!="=") { string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(_A,jk);temp.push_back(pp);continue; }else if(vec[i+1]==">"&&vec[i+2]=="="){ string jk=vec[i];jk.append(vec[++i],0,1);jk.append(vec[++i],0,1);pair<int,string> pp(_B,jk);temp.push_back(pp);continue;}else {pair<int,string> pp(_LG,vec[i]);//标识符temp.push_back(pp);}}else if(vec[i]=="<") {if(vec[i+1]=="=") {string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(_LE,jk);temp.push_back(pp);continue; }else if(vec[i+1]=="<"&&vec[i+2]!="=") { string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(_C,jk);temp.push_back(pp);continue;}else if(vec[i+1]=="<"&&vec[i+2]=="=") { string jk=vec[i];jk.append(vec[++i],0,1);jk.append(vec[++i],0,1);pair<int,string> pp(_D,jk);temp.push_back(pp);continue; }else {pair<int,string> pp(_LT,vec[i]);//标识符temp.push_back(pp);}}else if(vec[i]=="!") {if(vec[i+1]=="=") {string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(_LE,jk);temp.push_back(pp);continue;}else {pair<int,string> pp(_NE,vec[i]);//标识符temp.push_back(pp);}else if(vec[i]=="=") {if(vec[i+1]=="="){string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(_EQ,jk);temp.push_back(pp);continue; }else {pair<int,string> pp(_AS,vec[i]);//标识符temp.push_back(pp); }}else if(vec[i]=="&") {if(vec[i+1]=="&") {string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(_F,jk);temp.push_back(pp);continue;}else if(vec[i+1]=="=") {string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(_G,jk);temp.push_back(pp);continue;}else {pair<int,string> pp(_E,vec[i]);//标识符temp.push_back(pp);}}else if(vec[i]=="|"){if(vec[i+1]=="|") {string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(_I,jk);temp.push_back(pp);continue;}else if(vec[i+1]=="="){string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(_J,jk);temp.push_back(pp);continue;}else {pair<int,string> pp(_H,vec[i]);//标识符temp.push_back(pp);}}else if(vec[i]=="(") {{pair<int,string> pp(_LP,vec[i]);//标识符temp.push_back(pp);}}else if(vec[i]==")"){{pair<int,string> pp(_RP,vec[i]);//标识符temp.push_back(pp); }}else if(vec[i]=="["){{pair<int,string> pp(_LB1,vec[i]);//标识符temp.push_back(pp); } }else if(vec[i]=="]") {{pair<int,string> pp(_RB1,vec[i]);//标识符temp.push_back(pp); } }else if(vec[i]=="~") {{pair<int,string> pp(_K,vec[i]);//标识符temp.push_back(pp); } }else if(vec[i]==",") {{pair<int,string> pp(_COM,vec[i]);//标识符temp.push_back(pp); } }else if(vec[i]=="{") {{pair<int,string> pp(_LB2,vec[i]);//标识符temp.push_back(pp);} }else if(vec[i]==":") {{pair<int,string> pp(_COL,vec[i]);//标识符temp.push_back(pp); } }else if(vec[i]==";") {{pair<int,string> pp(_SEM,vec[i]);//标识符temp.push_back(pp); } }else if(vec[i]=="}") {{pair<int,string> pp(_RB2,vec[i]);//标识符temp.push_back(pp); } }else if(vec[i]=="*") {if(vec[i+1]=="="){string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(_Q,jk);temp.push_back(pp);continue; }else {pair<int,string> pp(_TIMES,vec[i]);//标识符temp.push_back(pp); } }else if(vec[i]=="/") {if(vec[i+1]=="=") {string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(_R,jk);temp.push_back(pp);continue; }else if(vec[i+1]=="*") {i=i+4;while(i<vec.size()&&(vec[i-1]!="*"||vec[i]!="/"))i++; cont inue; }else {pair<int,string> pp(_DIV,vec[i]);//标识符temp.push_back(pp); }}else if(vec[i]=="%") {if(vec[i+1]=="=") {string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(_S,jk);temp.push_back(pp);continue; }else {pair<int,string> pp(_U,vec[i]);//标识符temp.push_back(pp); } }else if(vec[i][0]=='"') {pair<int,string> pp(_V,vec[i]);//标识符temp.push_back(pp);}else if(vec[i][0]=='\'') {pair<int,string> pp(_W,vec[i]);//标识符temp.push_back(pp);}else if(vec[i][0]=='?'){pair<int,string> pp(_X,vec[i]);//标识符temp.push_back(pp); }else if(vec[i]=="+") {if(vec[i+1]=="=") {string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(_O,jk);temp.push_back(pp);continue; }else if(vec[i+1]=="+") {string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(_L,jk);temp.push_back(pp);continue; }else if((vec[i-1]=="="||vec[i-1]=="(")&&isnum(vec[i+1])) {string jk=vec[i]; jk.append(vec[++i]);pair<int,string> pp(_NUM,jk);temp.push_back(pp);continue; }else{pair<int,string> pp(_PLUS,vec[i]);//标识符temp.push_back(pp); } }else if(vec[i]=="-"){if(vec[i+1]=="=") {string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(_P,jk);temp.push_back(pp);continue;}else if(vec[i+1]=="-") {string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(_M,jk);temp.push_back(pp);continue; }else if(vec[i+1]==">") {string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(_N,jk);temp.push_back(pp);continue;} else if((vec[i-1]=="="||vec[i-1]=="(")&&isnum(vec[i+1])) { string jk=vec[i]; jk.append(vec[++i]);pair<int,string> pp(_NUM,jk);temp.push_back(pp);continue; }else {pair<int,string> pp(_SUB,vec[i]);//标识符temp.push_back(pp);}}else if(vec[i][0]<='9'&&vec[i][0]>='0'){pair<int,string> pp(_NUM,vec[i]);temp.push_back(pp);}else{pair<int,string> pp(_ID,vec[i]);//标识符temp.push_back(pp);}}else if((vec[i][0]<='9'&&vec[i][0]>='0')||vec[i][0]=='.'){if(!isnum(vec[i]))ERROR_NUM++;else if((vec[i+1][0]=='+'||vec[i+1][0]=='-')&&isnum(vec[i+2])) { string jk=vec[i];jk.append(vec[++i]);jk.append(vec[++i]);pair<int,string> pp(_NUM,jk);temp.push_back(pp);continue;}else{pair<int,string> pp(_NUM,vec[i]);temp.push_back(pp);}}else if(iskey(vec[i])){pair<int,string> pp(iskey(vec[i]),vec[i]);temp.push_back(pp);}else{pair<int,string> pp(_ID,vec[i]);temp.push_back(pp);}}return temp;}void OutFile(vector<pair<int,string> > v) {int i;for(i=0;i<v.size();i++)outfile<<"<"<<v[i].first<<" , \""<<v[i].second<<"\">"<<endl; return;}。

实验一、词法分析器(含源代码)

词法分析器实验报告一、实验目的及要求本次实验通过用C语言设计、编制、调试一个词法分析子程序，识别单词，实现一个C语言词法分析器，经过此过程可以加深对编译器解析单词流的过程的了解。

运行环境：硬件：windows xp软件：visual c++6.0二、实验步骤1.查询资料，了解词法分析器的工作过程与原理。

2.分析题目，整理出基本设计思路。

3.实践编码，将设计思想转换用c语言编码实现，编译运行。

4.测试功能，多次设置包含不同字符，关键字的待解析文件，仔细察看运行结果，检测该分析器的分析结果是否正确。

通过最终的测试发现问题，逐渐完善代码中设置的分析对象与关键字表，拓宽分析范围提高分析能力。

三、实验内容本实验中将c语言单词符号分成了四类：关键字key（特别的将main说明为主函数）、普通标示符、常数和界符。

将关键字初始化在一个字符型指针数组*key[]中，将界符分别由程序中的case列出。

在词法分析过程中，关键字表和case列出的界符的内容是固定不变的（由程序中的初始化确定），因此，从源文件字符串中识别出现的关键字，界符只能从其中选取。

标识符、常数是在分析过程中不断形成的。

对于一个具体源程序而言，在扫描字符串时识别出一个单词，若这个单词的类型是关键字、普通标示符、常数或界符中之一，那么就将此单词以文字说明的形式输出．每次调用词法分析程序，它均能自动继续扫描下去，形成下一个单词，直到整个源程序全部扫描完毕，从而形成相应的单词串。

输出形式例如：void $关键字流程图、程序流程图：程序：#include<string.h>#include<stdio.h>#include<stdlib.h>#include<ctype.h>//定义关键字char*Key[10]={"main","void","int","char","printf","scanf","else","if","return"}; char Word[20],ch; // 存储识别出的单词流int IsAlpha(char c) { //判断是否为字母if(((c<='z')&&(c>='a'))||((c<='Z')&&(c>='A'))) return 1;else return 0;}int IsNum(char c){ //判断是否为数字if(c>='0'&&c<='9') return 1;else return 0;}int IsKey(char *Word){ //识别关键字函数int m,i;for(i=0;i<9;i++){if((m=strcmp(Word,Key[i]))==0){if(i==0)return 2;return 1;}}return 0;}void scanner(FILE *fp){ //扫描函数char Word[20]={'\0'};char ch;int i,c;ch=fgetc(fp); //获取字符，指针fp并自动指向下一个字符if(IsAlpha(ch)){ //判断该字符是否是字母Word[0]=ch;ch=fgetc(fp);i=1;while(IsNum(ch)||IsAlpha(ch)){ //判断该字符是否是字母或数字Word[i]=ch;i++;ch=fgetc(fp);}Word[i]='\0'; //'\0' 代表字符结束(空格)fseek(fp,-1,1); //回退一个字符c=IsKey(Word); //判断是否是关键字if(c==0) printf("%s\t$普通标识符\n\n",Word);//不是关键字else if(c==2) printf("%s\t$主函数\n\n",Word);else printf("%s\t$关键字\n\n",Word); //输出关键字 }else //开始判断的字符不是字母if(IsNum(ch)){ //判断是否是数字Word[0]=ch;ch=fgetc(fp);i=1;while(IsNum(ch)){Word[i]=ch;i++;ch=fgetc(fp);}Word[i]='\0';fseek(fp,-1,1); //回退printf("%s\t$无符号实数\n\n",Word);}else //开始判断的字符不是字母也不是数字{Word[0]=ch;switch(ch){case'[':case']':case'(':case')':case'{':case'}':case',':case'"':case';':printf("%s\t$界符\n\n",Word); break;case'+':ch=fgetc(fp);Word[1]=ch;if(ch=='='){printf("%s\t$运算符\n\n",Word);//运算符“+=”}else if(ch=='+'){printf("%s\t$运算符\n\n",Word); //判断结果为“++”}else {fseek(fp,-1,1);printf("%s\t$运算符\n\n",Word); //判断结果为“+”}break;case'-':ch=fgetc(fp);Word[1]=ch;if(ch=='='){printf("%s\t$运算符\n\n",Word); }else if(ch=='-'){printf("%s\t$运算符\n\n",Word); //判断结果为“--”}else {fseek(fp,-1,1);printf("%s\t$运算符\n\n",Word); //判断结果为“-”}break;case'*':case'/':case'!':case'=':ch=fgetc(fp);if(ch=='='){printf("%s\t$运算符\n\n",Word);}else {fseek(fp,-1,1);printf("%s\t$运算符\n\n",Word);}break;case'<':ch=fgetc(fp);Word[1]=ch;if(ch=='='){printf("%s\t$运算符\n\n",Word); //判断结果为运算符“<=”}else if(ch=='<'){printf("%s\t$运算符\n\n",Word); //判断结果为“<<”}else {fseek(fp,-1,1);printf("%s\t$运算符\n\n",Word); //判断结果为“<”}break;case'>':ch=fgetc(fp);Word[1]=ch;if(ch=='=') printf("%s\t$运算符\n\n",Word);else {fseek(fp,-1,1);printf("%s\t$运算符\n\n",Word);}break;case'%':ch=fgetc(fp);Word[1]=ch;if(ch=='='){printf("%s\t$运算符\n\n",Word);}if(IsAlpha(ch)) printf("%s\t$类型标识符\n\n",Word);else {fseek(fp,-1,1);printf("%s\t$取余运算符\n\n",Word);}break;default:printf("无法识别字符!\n\n"); break;}}}main(){char in_fn[30]; //文件路径FILE *fp;printf("\n请输入源文件名（包括路径和后缀名）:");while(1){gets(in_fn);//scanf("%s",in_fn);if((fp=fopen(in_fn,"r"))!=NULL) break; //读取文件内容，并返回文件指针，该指针指向文件的第一个字符else printf("文件路径错误!请重新输入:");}printf("\n******************* 词法分析结果如下 *******************\n");do{ch=fgetc(fp);if(ch=='#') break; //文件以#结尾，作为扫描结束条件else if(ch==' '||ch=='\t'||ch=='\n'){} //忽略空格，空白，和换行else{fseek(fp,-1,1); //回退一个字节开始识别单词流scanner(fp);}}while(ch!='#');return(0);}4.实验结果解析源文件：void main(){int a=3;a+=b;printf("%d",a);return;}#解析结果：5.实验总结分析通过本次实验，让再次浏览了有关c语言的一些基本知识，特别是对文件，字符串进行基本操作的方法。

词法分析器源代码

1.实验目的及要求设计、编制并调试一个词法分析程序，加深对词法分析原理的理解。

2.实验要求一、词法分析程序的功能：二、输入：所给文法的源程序字符串。

三、输出：二元组（syn,token或sum）构成的序列。

四、其中：syn为单词种别码；五、token为存放的单词自身字符串；六、sum为整型常数。

各种单词符号对应的种别码单词符号种别码单词符号种别码begin 1 : 17if 2 := 18then 3 > 20while 4 <> 21do 5 <= 22end 6 < 23 letter(letter| digit)* 10 >= 24 digit digit * 11 = 25 * 13 ; 26/ 14 ( 27+ 15 ) 28- 16 # 03源代码#include<stdio.h>#include<string.h>#include<iostream.h>char prog[80],token[8];char ch;int syn,p,m=0,n,row,sum=0;char *rwtab[6]={"begin","if","then","while","do","end"};void scaner(){for(n=0;n<8;n++) token[n]=NULL;ch=prog[p++];while(ch==' '){ch=prog[p];p++;}if((ch>='a'&&ch<='z')||(ch>='A'&&ch<='Z')){m=0;while((ch>='0'&&ch<='9')||(ch>='a'&&ch<='z')||(ch>='A'&&ch<='Z')){token[m++]=ch;ch=prog[p++];}token[m++]='\0';p--;syn=10;for(n=0;n<6;n++)if(strcmp(token,rwtab[n])==0){syn=n+1;break;}}else if((ch>='0'&&ch<='9')){{sum=0;while((ch>='0'&&ch<='9')){sum=sum*10+ch-'0';ch=prog[p++];}}p--;syn=11;if(sum>32767)syn=-1;}else switch(ch){case'<':m=0;token[m++]=ch;ch=prog[p++];if(ch=='>'){syn=21;token[m++]=ch;}else if(ch=='='){syn=22;token[m++]=ch;}else{syn=23;p--;}break;case'>':m=0;token[m++]=ch;ch=prog[p++];if(ch=='='){syn=24;token[m++]=ch;}else{syn=20;p--;}break;case':':m=0;token[m++]=ch;ch=prog[p++];if(ch=='='){syn=18;token[m++]=ch;}else{syn=17;p--;}break;case'*':syn=13;token[0]=ch;break; case'/':syn=14;token[0]=ch;break; case'+':syn=15;token[0]=ch;break; case'-':syn=16;token[0]=ch;break; case'=':syn=25;token[0]=ch;break; case';':syn=26;token[0]=ch;break; case'(':syn=27;token[0]=ch;break; case')':syn=28;token[0]=ch;break;case'#':syn=0;token[0]=ch;break;case'\n':syn=-2;break;default: syn=-1;break;}}void main(){p=0;row=1;cout<<"请输入字符串:"<<endl;do{cin.get(ch);prog[p++]=ch;}while(ch!='#');p=0;do{scaner();switch(syn){case 11: cout<<"("<<syn<<","<<sum<<")"<<endl; break;case -1: cout<<"Error in row "<<row<<"!"<<endl; break;case -2: row=row++;break;default: cout<<"("<<syn<<","<<token<<")"<<endl;break;}}while (syn!=0);}4 结果验证给定源程序begin x:=12; if x>0 then x:=3-4*2+3/2; end#源程序（包括上式未有的while、do以及判断错误语句）：begin x<=$; while a<0 do b<..>9-x; end#5 心得体会通过此次实验，我更加深入的了解了词法构造，词法分析编制程序并调试，熟悉了构造词法分析程序的手工方式的相关原理，还有特别要注意种别码不能写错，必须一一对应，否则会很难检查出来。

编译原理实验报告——词法分析器(内含源代码)

编译原理实验（一）——词法分析器一．实验描述运行环境：vc++2008对某特定语言A ，构造其词法规则。

该语言的单词符号包括：12状态转换图3程序流程：词法分析作成一个子程序，由另一个主程序调用，每次调用返回一个单词对应的二元组，输出标识符表、常数表由主程序来完成。

二．实验目的通过动手实践，使学生对构造编译系统的基本理论、编译程序的基本结构有更为深入的理解和掌握；使学生掌握编译程序设计的基本方法和步骤；能够设计实现编译系统的重要环节。

同时增强编写和调试程序的能力。

三．实验任务编制程序实现要求的功能，并能完成对测试样例程序的分析。

四．实验原理char set[1000],str[500],strtaken[20];//set[]存储代码,strtaken[]存储当前字符char sign[50][10],constant[50][10];//存储标识符和常量定义了一个Analyzer类class Analyzer{public:Analyzer(); //构造函数 ~Analyzer(); //析构函数int IsLetter(char ch); //判断是否是字母，是则返回 1，否则返回 0。

int IsDigit(char ch); //判断是否为数字，是则返回 1，否则返回 0。

void GetChar(char *ch); //将下一个输入字符读到ch中。

void GetBC(char *ch); //检查ch中的字符是否为空白，若是，则调用GetChar直至ch进入一个非空白字符。

void Concat(char *strTaken, char *ch); //将ch中的字符连接到strToken之后。

int Reserve(char *strTaken); //对strTaken中的字符串查找保留字表，若是一个保留字返回它的数码，否则返回0。

void Retract(char *ch) ; //将搜索指针器回调一个字符位置，将ch置为空白字符。

词法分析器的实验报告

词法分析器的实验报告词法分析器的实验报告引言：词法分析器是编译原理中的重要组成部分，它负责将源代码中的字符序列转换为有意义的词法单元，为后续的语法分析提供基础。

本实验旨在设计和实现一个简单的词法分析器，并对其进行测试和评估。

实验设计：1. 词法规则设计：在开始实验之前，我们首先需要设计词法规则，即定义源代码中的合法词法单元。

例如，对于一门类C的语言，我们可以定义关键字（如if、while、int等）、标识符、运算符（如+、-、*等）、分隔符（如()、{}等）等。

2. 有限自动机（DFA）的设计：基于词法规则，我们可以设计一个有限自动机，用于识别和分析源代码中的词法单元。

有限自动机是一个状态转换图，其中每个状态代表一种词法单元，而边表示输入字符的转换关系。

3. 实现代码：根据有限自动机的设计，我们可以使用编程语言（如Python、C++等）实现词法分析器的代码。

代码的主要功能包括读取源代码文件、逐个字符进行词法分析、识别和输出词法单元。

实验过程：1. 词法规则设计：我们以一门简单的算术表达式语言为例，设计了以下词法规则：- 数字：由0-9组成的整数或浮点数。

- 运算符：包括+、-、*、/等。

- 分隔符：包括括号()和逗号,。

- 标识符：以字母开头，由字母和数字组成的字符串。

2. 有限自动机（DFA）的设计：我们基于词法规则，设计了一个简单的有限自动机。

该自动机包含以下状态：- 初始状态：用于读取和识别源代码中的字符。

- 数字状态：用于识别和输出数字。

- 运算符状态：用于识别和输出运算符。

- 分隔符状态：用于识别和输出分隔符。

- 标识符状态：用于识别和输出标识符。

3. 实现代码：我们使用Python编程语言实现了词法分析器的代码。

代码主要包括以下功能：- 读取源代码文件。

- 逐个字符进行词法分析，根据有限自动机的设计进行状态转换。

- 识别和输出词法单元。

实验结果：我们对几个测试样例进行了词法分析，并对结果进行了评估。

词法分析器(含完整源码)

}//error
void Scanner(char ch[],int chLen,Table table[Max],int nLine) {
int chIndex = 0;
while(chIndex < chLen) //对输入的字符扫描 { /**************************处理空格和 tab ************************/
六、总结：
词法分析是构造编译器的起始阶段，也是相应比较简单的一个环节。词法分析的主要任务是：根据构造的状态转换图，从左到右逐个字符地対源程序进行扫描，识别开源程序中具有独立含义的最小语法单位——符号或单词，如变量标识符，关键字，常量，运算符，界符等。
然后将提取出的标识符以内码的形式表示，即用 int 类型的数字来表示其类型和在 display 表中的位置，而无须保留原来标识符本身的字符串，这不仅节省了内存空间，也有利于下一阶段的分析工作。
typedef struct DisplayTable {
int Index; //标识符所在表的下标 int type; //标识符的类型 int line; //标识符所在表的行数 char symbol[20]; //标识符所在表的名称 }Table;
int TableNum = 0; //display 表的下标 char Word[WordMaxNum][20]; //标识符表 char Digit[WordMaxNum][20]; //数字表 int WordNum = 0; //变量表的下标 int DigNum = 0; //常量表的下标 bool errorFlag = 0; //错误标志
当然，在扫描源程序串的同时，进行一些简单的处理，如删除空格、tab、换行等无效字符，也进行了一些基本的错误处理，如变量长度的判别，有些不合词法规则的标识符判别等。总之，严格说来，词法分析程序只进行和词法分析相关的工作。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数学与软件科学学院实验报告学期：13至14__ 第_2 学期 2014年3月17 日课程名称:编译原理专业:2011级5_班实验编号：01 实验项目：词法分析器指导教师_王开端姓名：张世镪学号： 2011060566 实验成绩：一、目的学习编译原理，词法分析是编译的第一个阶段，其任务是从左至右挨个字符地对源程序进行扫描，产生一个个单词符号，把字符串形式的源程序改造成单词符号串形式的中间程序。

执行词法分析的程序称为词法分析程序，也称为词法分析器或扫描器。

词法分析器的功能是输入源程序，输出单词符号做一个关于C的词法分析器，C++实现二、任务及要求1．词法分析器产生下述C的单词序列这个C的所有的单词符号，以及它们的种别编码和内部值如下表：－* / & ＜＜＝＞＞＝＝＝!＝ && || , : ; { } [ ] ( )ID和NUM的正规定义式为：ID→letter(letter | didit)*NUM→digit digit*letter→a | … | z | A | … | Zdigit→ 0 | … | 9如果关键字、标识符和常数之间没有确定的算符或界符作间隔，则至少用一个空格作间隔。

空格由空白、制表符和换行符组成。

三、大概设计1. 设计原理词法分析的任务：从左至右逐个字符地对源程序进行扫描，产生一个个单词符号。

理论基础：有限自动机、正规文法、正规式词法分析器又称扫描器：执行词法分析的程序2. 词法分析器的功能和输出形式功能:输入源程序、输出单词符号程序语言的单词符号一般分为以下五种：关键字、标识符、常数、运算符、界符。

3. 输出的单词符号的表示形式:(单词种别，单词符号的属性值) 单词种别用整数编码，关键字一字一种，标识符统归为一种，常数一种，各种符号各一种。

4. 状态转换图实现三、程序设计1. 词法分析器的流程图2. 总体模块设计/*用来存储目标文件名*/ string file_name;/*提取文本文件中的信息。

*/string GetText();/*获得一个单词符号,从位置i开始查找。

//并且有一个引用参数j，用来返回这个单词最后一个字符在str的位置。

*/string GetWord(string str,int i,int& j);/*这个函数用来除去字符串中连续的空格和换行int DeleteNull(string str,int i);/*判断i当前所指的字符是否为一个分界符，是的话返回真，反之假*/bool IsBoundary(string str,int i);/*判断i当前所指的字符是否为一个运算符，是的话返回真，反之假*/bool IsOperation(string str,int i);/*此函数将一个pair数组输出到一个文件中*/void OutFile(vector<pair<int,string> > v);/*此函数接受一个字符串数组，对它进行词法分析，返回一个pair型数组*/vector<pair<int,string> > analyst(vector<string> vec);/*此函数判断传递的参数是否为关键字，是的话，返回真，反之返回假*/bool IsKey(string str);4. 各模块设计1.首先根据上面单词符号表及ID和NUM的正规定义式，构造出状态转换图；2.定义相关的变量和数据结构。

关键字作为特殊标识符处理，把它们预先安排在一张表格中（称为关键字表），当扫描程序识别出标识符时，查关键字表。

如能查到匹配的单词，则该单词为关键字，否则为一般标识符。

关键字表为一个字符串数组，其描述如下：char KEY_WORDS[7]={″main″,″int″,″char″,″if″,″else″,″for″,″while″}；用以存放单词符号二元式的数据结构可如下定义：class Word_Analyzer{public:char Content[MAXLENGTH] ;int val ;void print();} ;5.按照编译程序一遍扫描的要求，把词法分析器Scaner作为一个独立的子程序来设计，通过对Scaner的反复调用识别出所有的单词符号；6.当Scaner识别出一个单词符号时，则将该单词符号的二元式写入到输出文件中。

若Scaner 无法识别出一个单词符号时，则调用错误处理程序PrintError，显示当前扫描到的字符及其所在行、列位置，并跳过该字符重新开始识别单词符号。

四、程序测试测试该设计词法分析器，可对下面的源程序进行词法分析：main(){int i = 10;while(i) i = i - 1;}输出如下二元式代码序列：(1,main) (26,() (27,)) (30,{) (2,int) (10,i) (21,=) (20,10) (34,;) (7,while) (26,() (10,i) (27,)) (10,i) (21, =) (10,i) (23,-) (20,1) (34,;) (31,})五、结论该词法分析器功能良好，可以完成预定的要求。

六、程序代码#include <iostream> #include <vector>#include <string>#include <fstream> using namespace std;/*用来存储目标文件名*/ string file_name;/*提取文本文件中的信息。

*/ string GetText();/*获得一个单词符号,从位置i开始查找。

//并且有一个引用参数j，用来返回这个单词最后一个字符在str的位置。

*/string GetWord(string str,int i,int& j);/*这个函数用来除去字符串中连续的空格和换行//第一个参数为目标字符串，第二个参数为开始位置//返回值为连续的空格和换行后的第一个有效字符在字符串的位置*/int DeleteNull(string str,int i);/*判断i当前所指的字符是否为一个分界符，是的话返回真，反之假*/bool IsBoundary(string str,int i);/*判断i当前所指的字符是否为一个运算符，是的话返回真，反之假*/bool IsOperation(string str,int i);/*此函数将一个pair数组输出到一个文件中*/void OutFile(vector<pair<int,string> > v);/*此函数接受一个字符串数组，对它进行词法分析，返回一个pair型数组*/vector<pair<int,string> > analyst(vector<string> vec);/*此函数判断传递的参数是否为关键字，是的话，返回真，反之返回假*/bool IsKey(string str);int main(){string com1=" ";string com2="\n";string fileline=GetText();int begin=0,end=0;vector<string> array;do{begin=DeleteNull(fileline,begin);string nowString;nowString=GetWord(fileline,begin,end); if(end==-1)break;if(pare(com1)&&nowString.c ompare(com2))array.push_back(nowString); begin=end+1;}while(true);vector<pair<int,string> > mid_result;mid_result=analyst(array);OutFile(mid_result);cout<<"******************************** **************************************\ n";cout<<"***程序已完成词法分析，分析结果已经存储在文件"<<file_name<<"中！！！***\n";cout<<"******************************** **************************************\ n";system("pause");return 0;}/*提取文本文件中的信息*/string GetText(){string file_name1;cout<<"请输入源文件名（包括路径和后缀名）：";cin>>file_name1;ifstreaminfile(file_name1.c_str(),ios::in);if (!infile){cerr<<"无法打开文件! "<<file_name1.c_str()<<" !!!"<<endl;exit(-1);}cout<<endl;char f[1000];infile.getline(f,1000,EOF);infile.close();return f;}/*获得一个单词符号,从位置i开始查找。

//并且有一个引用参数j，用来返回这个单词最后一个字符在原字符串的位置。

*/string GetWord(string str,int i,int& j) {string no_use("(){} , ; \n+=*/-<>\"");j=str.find_first_of(no_use,i);if(j==-1)return "";if(i!=j)j--;return str.substr(i,j-i+1);}/*这个函数用来除去字符串中连续的空格和换行//第一个参数为目标字符串，第二个参数为开始位置//返回值为连续的空格和换行后的第一个有效字符在字符串的位置*/int DeleteNull(string str,int i){for(;;i++)if(str[i]!=' '&&str[i]!='\n')return i;}/*判断i当前所指的字符是否为一个分界符，是的话返回真，反之假*/bool IsBoundary(string str,int i){int t;chararr[7]={',',';','{','}','(',')','\"'}; for (t=0;t<7;t++) if(str[i]==arr[t])return true;return false;}/*判断i当前所指的字符是否为一个运算符，是的话返回真，反之假*/bool IsOperation(string str,int i){int t;chararr[7]={'+','-','*','/','=','<','>'};for (t=0;t<7;t++)if(str[i]==arr[t])return true;return false;}/*此函数将一个个字符串数组输出到一个文件中*/void OutFile(vector<pair<int,string> > v){cout<<"请输入目标文件名（包括路径和后缀名）：";cin>>file_name;ofstreamoutfile(file_name.c_str(),ios::out);if (!outfile){cerr<<"无法打开文件! "<<file_name.c_str()<<" !!!"<<endl;exit(-1);}cout<<endl;int i;for(i=0;i<v.size();i++)outfile<<"<"<<v[i].first<<" , \""<<v[i].second<<"\">"<<endl;outfile<<"\n\n************************* ********\n";outfile.close();return;}/*此函数接受一个字符串数组，对它进行词法分析，返回一个pair型数组*/vector<pair<int,string> > analyst(vector<string> vec){vector<pair<int,string> > temp;int i;for(i=0;i<vec.size();i++){if(vec[i].size()==1){if((vec[i]==">"||vec[i]=="<"||vec[i]==" !")&&vec[i+1]=="="){string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(4,jk); temp.push_back(pp);continue;}if((vec[i]=="+"&&vec[i+1]=="+")||(vec[i ]=="-"&&vec[i+1]=="-")){string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(4,jk); temp.push_back(pp);continue;}if(IsBoundary(vec[i],0)){pair<int,string>pp(5,vec[i]);temp.push_back(pp);}else if(IsOperation(vec[i],0)) {pair<int,string>pp(4,vec[i]);temp.push_back(pp);} elseif(vec[i][0]<='9'&&vec[i][0]>='0'){pair<int,string>pp(3,vec[i]);temp.push_back(pp);}else{pair<int,string>pp(2,vec[i]);temp.push_back(pp);}}elseif(vec[i][0]<='9'&&vec[i][0]>='0'){pair<int,string> pp(3,vec[i]); temp.push_back(pp);}else if(IsKey(vec[i])){pair<int,string> pp(1,vec[i]); temp.push_back(pp);}else{pair<int,string> pp(2,vec[i]); temp.push_back(pp);}}return temp;}/*此函数判断传递的参数是否为关键字，是的话，返回真，反之返回假*/bool IsKey(string str){stringp[16]={"char","double","int","long","do uble","float","for","while","do","break ","continue","switch","short","case","r eturn","if"};vector<string> ppp(p,p+16);int u;for(u=0;u<ppp.size();u++) if(!pare(ppp[u])) return true;return false; }/*finished*/。