编译原理实践5—PL0的词法分析程序构造

合集下载

编译原理词法分析五种类别识别程序含实现代码cpp

实验一词法分析一、实验目的和要求通过设计编制调试一个具体的词法分析程序，加深对词法分析原理的理解。

并掌握在对程序设计语言源程序进行扫描过程中将其分解为各类单词的词法分析方法。

编制一个读单词过程，从输入的源程序中，识别出各个具有独立意义的单词，即基本保留字、标识符、常数、运算符、分隔符五大类。

并依次输出各个单词的内部编码及单词符号自身值。

（遇到错误时可显示“Error”，然后跳过错误部分继续显示）二、实验过程（1）程序思路这里以开始定义的C语言子集的源程序作为词法分析程序的输入数据。

在词法分析中，自文件头开始扫描源程序字符，一旦发现符合“单词”定义的源程序字符串时，将它翻译成固定长度的单词内部表示，并查填适当的信息表。

经过词法分析后，源程序字符串（源程序的外部表示）被翻译成具有等长信息的单词串（源程序的内部表示），并产生两个表格：常数表和标识符表，它们分别包含了源程序中的所有常数和所有标识符。

0.定义部分：定义常量、变量、数据结构。

1.初始化：从文件将源程序全部输入到字符缓冲区中。

2.取单词前：去掉多余空白。

3.取单词后：去掉多余空白。

4.取单词：利用实验一的成果读出单词的每一个字符，组成单词，分析类型。

循环取字符，直到遇到“#”字符就停止扫描。

5.显示结果。

（2）程序实现部分代码char *table[7]={" ","main","int","if","then","else","return"}; //定义关键字char *table1[5]={"++",">=","<=","!=","=="}; //定义运算符符号int lookup(char *TOKEN) //关键字匹配函数,查询所述程序中的关键字{int m,i;for(i=0;i<=6;i++){if((m=strcmp(TOKEN,table[i]))==0)return 1;}return 0;}int lookup1(char *TOKEN) //判断>= <= != ==，方法与lookup()相似int lookup2(int i,char *TOKEN) //判断数字加字母的情况{int j;for(j=1;j<i;j++){if(TOKEN[j]>='a'||TOKEN[j]>='A')return 1;}return 0;}bool zimu(char ch) //bool类型函数，判断是否为字母{if(ch>='a'&&ch<='z'||ch>='A'&&ch<='Z')return true;elsereturn false;}bool shuzi(char ch) //判断是否为数字，方法与zimu()类似bool fuhao(char ch) //判断双字符{if(ch=='+'||ch=='>'||ch=='<'||ch=='!'||ch=='=')return true;elsereturn false;}void out(int c,char *TOKEN) //输出函数形式为（c，“TOKEN”）{printf("( %d,“%s”)\n",c,TOKEN);}void scanner(FILE *fp) //扫描函数{char TOKEN[20]={'\0'};int i;ch=fgetc(fp); //获取字符，指针fp并自动指向下一个字符if(zimu(ch)) //判断该字符是否是字母{TOKEN[0]=ch;ch=fgetc(fp); //fgetc(fp)从数据流中读取一个字符i=1;while(shuzi(ch)|| zimu(ch)) //判断该字符是否是字母或数字{TOKEN[i]=ch;ch=fgetc(fp);i++;}fseek(fp,-1,1);if(lookup(TOKEN)) //判断是关键字还是普通的标识符out(1,TOKEN);elseout(2,TOKEN);}else if(shuzi(ch)){TOKEN[0]=ch;ch=fgetc(fp); //fgetc(fp)从数据流中区下一个字符i=1;while(shuzi(ch)||zimu(ch)) //判断该字符是否是字母或数字{ TOKEN[i]=ch;ch=fgetc(fp);i++; }fseek(fp,-1,1);if(lookup2(i,TOKEN)) //如果出现2a的情况下，判断为错误语法printf("(error,“%s”)\n",TOKEN);elseout(3,TOKEN);}else if(fuhao(ch)) //符号函数，用来判断是否是双运算符{TOKEN[0]=ch;ch=fgetc(fp);i=1;while(fuhao(ch)){TOKEN[i]=ch;ch=fgetc(fp);i++;}fseek(fp,-1,1);//调用lookpu1()判断符号是否为table1[5]里的双运算符if(lookup1(TOKEN))out(4,TOKEN);elseout(4,TOKEN);}//判断一般运算符，一般运算符有+、－、*、/、=等，这里以“+”为例else if(ch=='+'){TOKEN[0]=ch;out(4,TOKEN);}//判断分隔符，分隔符有,、;、{、}、[、]、(、)等，这里以“;”为例else if(ch==';'){TOKEN[0]=ch;out(5,TOKEN);}}//main()函数在此省略三、调试错误在程序初步完成时，运行程序就出现了错误，文件读取错误，后来仔细分析了mian()函数的代码，也没有检查出来什么，别人的这种错误都是因为把文件名写成了123.txt.txt，我的并没有这种错误还是打不开，最后还是看了看前面的代码，发现在判断数字的函数那里我把并且符号&&写成了或者符号||，改正之后程序正常运行。

编译原理实验--词法分析器

实验一词法分析器设计【实验目的】1．熟悉词法分析的基本原理，词法分析的过程以及词法分析中要注意的问题。

2．复习高级语言，进一步加强用高级语言来解决实际问题的能力。

3．通过完成词法分析程序，了解词法分析的过程。

【实验内容】用C语言编写一个PL/0词法分析器，为语法语义分析提供单词，使之能把输入的字符串形式的源程序分割成一个个单词符号传递给语法语义分析，并把分析结果（基本字，运算符，标识符，常数以及界符）输出。

【实验流程图】【实验步骤】1．提取pl/0文件中基本字的源代码while((ch=fgetc(stream))!='.'){int k=-1;char a[SIZE];int s=0;while(ch>='a' && ch<='z'||ch>='A' && ch<='Z'){if(ch>='A' && ch<='Z') ch+=32;a[++k]=(char)ch;ch=fgetc(stream);}for(int m=0;m<=12&&k!=-1;m++)for(int n=0;n<=k;n++){if(a[n]==wsym[m][n]) ++s;else s=0;if(s==(strlen(wsym[m]))) {printf("%s\t",wsym[m]);m=14;n=k+1;} }2．提取pl/0文件中标识符的源代码while((ch=fgetc(stream))!='.'){int k=-1;char a[SIZE]=" ";int s=0;while(ch>='a' && ch<='z'||ch>='A' && ch<='Z'){if(ch>='A' && ch<='Z') ch+=32;a[++k]=(char)ch;ch=fgetc(stream);}for(int m=0;m<=12&&k!=-1;m++)for(int n=0;n<=k;n++){if(a[n]==wsym[m][n]) ++s;else s=0;if(s==(strlen(wsym[m]))) {m=14;n=k+1;}}if(m==13) for(m=0;a[m]!=NULL;m++) printf("%c ",a[m]);3．提取pl/0文件中常数的源代码while((ch=fgetc(stream))!='.'){while(ch>='0' && ch<='9'){num=10*num+ch-'0';ch=fgetc(stream);}if(num!=0) printf("%d ",num);num=0;}4．提取pl/0文件中运算符的源代码int ch=fgetc(stream);while(ch!='.'){switch(ch){case'+': printf("+ ");break;case'-': printf("- ");break;case'*': printf("* ");break;case'/': printf("/ ");break;case'>': if(fgetc(stream)=='=')printf(">= "); else printf("> ");break;case'<': if(fgetc(stream)=='=')printf("<= "); else printf("< ");break;case':': printf(":= ");break;case'#': printf("# ");break;case'=': printf("= ");break;default: break;}ch=fgetc(stream);5．提取pl/0文件中界符的源代码int ch=fgetc(stream);while(ch!='.'){switch(ch){case',': printf(", ");break;case';': printf("; ");break;case'(': printf("( ");break;case')': printf(") ");break;default: break;}ch=fgetc(stream);}【实验结果】1．pl/0文件（222.txt）内容const a=10;var b,c;procedure p;beginc:=b+a;end;beginread(b);while b#0 dobegincall p;write(2*c);read(b)endend .2．实验运行结果【实验小结】1.了解程序在运行过程中对词法分析，识别一个个字符并组合成相应的单词，是机器能过明白程序，定义各种关键字，界符。

词法分析程序(C语言编写,针对PL_0语言)

#include <stdio.h>#include <stdlib.h>#include <string.h>#define NORW 13 /* of reserved words */#define TXMAX 100 /* length of identifier table */#define NMAX 14 /* max number of digits in numbers */#define AL 10 /* length of identifiers */#define AMAX 2047 /* maxinum address */#define LEVMAX 3 /* max depth of block nesting */#define CXMAX 200 /* size of code array */#define STACKSIZE 500char *symbol[32]= {"nul","ident","number","plus","minus","times","slash","oddsym","eql","neq","lss","leq","gtr","geq","lparen","rparen","comma","semicolon","period","becomes","beginsym","endsym","ifsym","thensym","whilesym","writesym","readsym","dosym","callsym","constsym","varsym","procsym"}; /* type of symbols */c har *word[NORW]={"begin","call","const","do","end","if","odd","procedure","read","then","var","while","write"}; /* table of reserved words */ char *wsym[NORW]={ "beginsym","callsym","constsym","dosym","endsym","ifsym", "oddsym","procsym","readsym","thensym","varsym","whilesym","writesym"};char *mnemonic[8]= {"lit","opr","lod","sto","cal","ini","jmp","jpc"};char ch; /* last char read */char id[AL+1]; /*last identifier read */char sym[10]; /* last symbol read */char line[81];char a[AL+1],fname[AL+1];enum object{constant,variable,procedur};enum object kind;enum fct{lit,opr,lod,sto,cal,ini,jmp,jpc};enum listswitcher{false,true}; /*true set list object code */enum listswitcher listswitch;FILE *fa;FILE *fa1, *fa2;FILE *fin, *fout;int num; /* last number read */int cc; /* character count */int ll; /* line length */int cx; /* code allocation index */int err;int lev=0,tx=0,dx=3;int linecnt=0;struct instruction{enum fct f; /* function code */int l; /* level */int a; /* displacement addr */}; /* lit 0,a: load constant aopr 0,a: execute opr alod l,a: load variable 1, asto l,a: store variable 1, acal l,a: call procedure a at level 1int 0,a: increment t-register by ajmp 0,a: jump to ajpc 0,a: jump conditional to a */ struct instruction code[CXMAX+1];struct table1{char name[AL+1];enum object kind;int val,level,adr,size;};struct table1 table[TXMAX+1];struct node{c har *pa[32];}*declbegsys,*statbegsys,*facbegsys,*tempsetsys; int in(str, set)char *str;struct node *set;{i nt i=0;w hile(set->pa[i]!=NULL){if(strcmp(str,set->pa[i])==0)return( 1 );elsei++;}r eturn( 0 );}struct node *add(set1,set2)struct node *set1,*set2;{i nt i=0,j=0,k=0,cnt;s truct node *pt;p t=(struct node *)malloc(sizeof(struct node));f or(cnt=0; cnt < 32; cnt++)pt->pa[cnt]=(char*)malloc(10*sizeof(char));w hile(set1->pa[i]!=NULL)strcpy(pt->pa[j++],set1->pa[i++]);w hile(set2->pa[k]!=NULL){if (in(set2->pa[k],set1)==0)strcpy(pt->pa[j++],set2->pa[k++]);elsek++;}p t->pa[j]=NULL;r eturn( pt );}error(int n){i nt i;p rintf ("***");f puts ("***", fa1);f or (i=0;i<cc;i++){printf (" ");}f or (i=0;i<cc;i++){fputs (" ",fa1);}p rintf ("error%d\n",n);f printf (fa1, "error%d\n",n);e rr=err+1;}void get_ch( ){i f (cc==ll+1){if (feof(fin)){printf ("program incomplete");}ll= 0;cc= 0;while ((!feof(fin)) && ((ch=fgetc(fin))!='\n')){putchar(ch);fputc(ch,fa1);line[ll++]=ch;}printf ("\n");line[ll]=ch;fprintf (fa1,"\n");}c h=line[cc++];}void getsym( ){i nt i,j,k;w hile(ch==' '||ch=='\t'||ch=='\n')get_ch( );i f (ch>='a'&&ch<='z'){ /* id or reserved word */k=0;do {if(k<AL){a[k]=ch;k=k+1;}get_ch( );}while((ch>='a'&&ch<='z')||(ch>='0'&&ch<='9'));a[k]='\0';strcpy(id,a);i=0;j=NORW-1;do { /* look up reserved words by binary search */k=(i+j)/2;if (strcmp(id,word[k])<=0) j=k-1;if (strcmp(id,word[k])>=0) i=k+1;}while (i<=j);if (i-1>j) strcpy(sym,wsym[k]);else strcpy(sym,"ident");}e lse if (ch>='0'&&ch<='9'){ /* number */k=0;num=0;strcpy(sym,"number");do {num=10*num+(int)ch-'0';k=k+1;get_ch( );}while(ch>='0'&&ch<='9');if(k>NMAX) error(30);}e lse if (ch==':'){get_ch( );if (ch=='='){strcpy(sym,"becomes");get_ch( );}else strcpy(sym,"nul");}e lse if (ch=='<'){get_ch( );if (ch=='='){strcpy(sym,"leq");get_ch( );}else strcpy(sym,"lss");}e lse if (ch=='>'){get_ch( );if (ch=='='){strcpy(sym,"geq");get_ch( );}else strcpy(sym,"gtr");}e lse {switch(ch){case '+': strcpy(sym,"plus");break;case '-': strcpy(sym,"minus");break;case '*': strcpy(sym,"times");break;case '/': strcpy(sym,"slash");break;case '(': strcpy(sym,"lparen");break;case ')': strcpy(sym,"rparen");break;case '=': strcpy(sym,"eql");break;case ',': strcpy(sym,"comma");break;case '.': strcpy(sym,"period");break;case '#': strcpy(sym,"neq");break;case ';': strcpy(sym,"semicolon");break;}get_ch( );}}void gen(x,y,z)enum fct x;int y,z;{i f (cx>CXMAX){printf("program too long");}c ode[cx].f=x;c ode[cx].l=y;c ode[cx].a=z;c x++;}void test(s1,s2,n)struct node *s1,*s2;int n;{i f (in(sym,s1)==0){error(n);s1=add(s1,s2);while(in(sym,s1)==0) getsym( );}}void enter(k) /* enter object into table */ enum object k;{t x=tx+1;s trcpy(table[tx].name,id);t able[tx].kind=k;s witch(k){case constant:if (num>NMAX){error(31);num=0;}table[tx].val=num;break;case variable:table[tx].level=lev;table[tx].adr=dx;dx++;break;case procedur:table[tx].level=lev;break;}}int position(id) /* find identifier in table */ char id[10];{i nt i;s trcpy(table[0].name,id);i=tx;w hile (strcmp(table[i].name,id)!=0)i--;r eturn i;}void constdeclaration( ){i f (strcmp(sym,"ident")==0){getsym( );if (strcmp(sym,"eql")==0||strcmp(sym,"becomes")==0){if (strcmp(sym,"becomes")==0) error(1);getsym( );if (strcmp(sym,"number")==0){enter(constant);getsym( );}else error(2);}else error(3);}e lse error(4);}void vardeclaration( ){i f (strcmp(sym,"ident")==0){enter(variable);getsym( );}e lse error(4);}void listcode(int cx0) /* list code generated for this block */ {i nt i;i f (listswitch==true){for(i=cx0;i<=cx-1;i++){printf("%2d %5s %3d %5d\n",i,mnemonic[(int)code[i].f],code[i].l,code[i].a);fprintf(fa,"%2d %5s %3d %5d\n",i,mnemonic[(int)code[i].f],code[i].l,code[i].a);}}}void factor(fsys)struct node *fsys;{v oid expression( );i nt m=0,n=0,i;c har *tempset[ ]={"rparen",NULL};s truct node *temp;t emp=(struct node *)malloc(sizeof(struct node));w hile(tempset[m]!=NULL)temp->pa[n++]=tempset[m++];t emp->pa[n]=NULL;t est(facbegsys,fsys,24);w hile(in(sym,facbegsys)==1){if (strcmp(sym,"ident")==0){i=position(id);if (i==0) error(11);else switch(table[i].kind){case constant: gen(lit,0,table[i].val);break; /*some thing error here(lev)*/ case variable: gen(lod,lev-table[i].level,table[i].adr);/*must use para pass in*/break;case procedur: error(21);break;}getsym( );}else if (strcmp(sym,"number")==0){if (num>AMAX){error(31);num=0;}gen(lit,0,num);getsym( );}else if (strcmp(sym,"lparen")==0){getsym( );expression(add(temp,fsys));if (strcmp(sym,"rparen")==0) getsym( );else error(22);}test(fsys,facbegsys,23);}}void term(fsys)struct node *fsys;{i nt i=0,j=0;c har mulop[10];c har *tempset[ ]={"times","slash",NULL};s truct node *temp;t emp=(struct node *)malloc(sizeof(struct node));w hile(tempset[i]!=NULL)temp->pa[i++]=tempset[j++];t emp->pa[i]=NULL;f actor(add(temp,fsys));w hile (in(sym,temp)==1){strcpy(mulop,sym);getsym( );factor(add(temp,fsys));if (strcmp(mulop,"times")==0) gen(opr,0,4);else gen(opr,0,5);}}void expression(fsys)struct node *fsys;{i nt m=0,n=0;c har addop[10];c har *tempset[ ]={"plus","minus",NULL};s truct node *temp;t emp=(struct node *)malloc(sizeof(struct node));w hile(tempset[m]!=NULL)temp->pa[n++]=tempset[m++];t emp->pa[n]=NULL;i f(in(sym,temp)==1){strcpy(addop,sym);getsym( );term(add(fsys,temp));if (strcmp(addop,"minus")==0) gen(opr,0,1);}e lse term(add(fsys,temp));w hile (in(sym,temp)==1){strcpy(addop,sym);getsym( );term(add(fsys,temp));if (strcmp(addop,"plus")==0) gen(opr,0,2);else gen(opr,0,3);}}void condition(fsys)struct node *fsys;{i nt i=0,j=0;c har relop[10];c har *tempset[ ]={"eql","neq","lss","leq","gtr","geq",NULL}; s truct node *temp;t emp=(struct node *)malloc(sizeof(struct node));w hile(tempset[i]!=NULL)temp->pa[j++]=tempset[i++];t emp->pa[j]=NULL;i f (strcmp(sym,"oddsym")==0){getsym( );expression(fsys);gen(opr,0,6);}e lse {expression(add(temp,fsys));if (in(sym,temp)==0) error(20);else {strcpy(relop,sym);getsym( );expression(fsys);if(strcmp(relop,"eql")==0) gen(opr,0,8);if(strcmp(relop,"neq")==0) gen(opr,0,9);if(strcmp(relop,"lss")==0) gen(opr,0,10);if(strcmp(relop,"geq")==0) gen(opr,0,11);if(strcmp(relop,"gtr")==0) gen(opr,0,12);if(strcmp(relop,"leq")==0) gen(opr,0,13);}}}void statement(fsys,plev)struct node *fsys;int plev;{i nt i,cx1,cx2,m=0,n=0;c har *tempset1[ ]={"rparen","comma",NULL};c har *tempset2[ ]={"thensym","dosym",NULL};c har *tempset3[ ]={"semicolon","endsym",NULL};c har *tempset4[ ]={"semicolon",NULL};c har *tempset5[ ]={"dosym",NULL};c har *tempset6[ ]={NULL};s truct node *temp1,*temp2,*temp3,*temp4,*temp5,*temp6; t emp1=(struct node *)malloc(sizeof(struct node));t emp2=(struct node *)malloc(sizeof(struct node));t emp3=(struct node *)malloc(sizeof(struct node));t emp4=(struct node *)malloc(sizeof(struct node));t emp5=(struct node *)malloc(sizeof(struct node));t emp6=(struct node *)malloc(sizeof(struct node));w hile(tempset1[m]!=NULL)temp1->pa[n++]=tempset1[m++];t emp1->pa[n]=NULL;m=0;n=0;w hile(tempset2[m]!=NULL)temp2->pa[n++]=tempset2[m++];t emp2->pa[n]=NULL;m=0;n=0;w hile(tempset3[m]!=NULL)temp3->pa[n++]=tempset3[m++];t emp3->pa[n]=NULL;m=0;n=0;w hile(tempset4[m]!=NULL)temp4->pa[n++]=tempset4[m++];t emp4->pa[n]=NULL;m=0;n=0;w hile(tempset5[m]!=NULL)temp5->pa[n++]=tempset5[m++];t emp5->pa[n]=NULL;m=0;n=0;w hile(tempset6[m]!=NULL)temp6->pa[n++]=tempset6[m++];t emp6->pa[n]=NULL;m=0;n=0;i f (strcmp(sym,"ident")==0){i=position(id);if (i==0)error(11);else {if (table[i].kind!=variable){error(12);i=0;}}getsym( );if (strcmp(sym,"becomes")==0) getsym( );else error(13);expression(fsys);if (i!=0)gen(sto,plev-table[i].level,table[i].adr);}e lse if (strcmp(sym,"readsym")==0){getsym( );if (strcmp(sym,"lparen")!=0) error(24);else {do{getsym( );if (strcmp(sym,"ident")==0) i=position(id);else i=0;if (i==0) error(35);else {gen(opr,0,16);gen(sto,plev-table[i].level,table[i].adr);}getsym( );}while(strcmp(sym,"comma")==0);}if (strcmp(sym,"rparen")!=0) {error(22);while(in(sym,fsys)==0) getsym( );}else getsym( );}e lse if (strcmp(sym,"writesym")==0){getsym( );if (strcmp(sym,"lparen")==0){do{getsym( );expression(add(temp1,fsys));gen(opr,0,14);}while(strcmp(sym,"comma")==0);if (strcmp(sym,"rparen")!=0) error(33);else getsym( );}gen(opr,0,15);}e lse if (strcmp(sym,"callsym")==0){getsym( );if (strcmp(sym,"ident")!=0) error(14);else {i=position(id);if (i==0) error(11);else {if (table[i].kind==procedur)gen(cal,plev-table[i].level,table[i].adr);else error(15);}getsym( );}}e lse if (strcmp(sym,"ifsym")==0){getsym( );condition(add(temp2,fsys));if (strcmp(sym,"thensym")==0) getsym( );else error(16);cx1=cx;gen(jpc,0,0);statement(fsys,plev);code[cx1].a=cx;}e lse if (strcmp(sym,"beginsym")==0){getsym( );statement(add(temp3,fsys),plev);while(in(sym,add(temp4,statbegsys))==1){if (strcmp(sym,"semicolon")==0) getsym( );else error(10);statement(add(temp3,fsys),plev);}if (strcmp(sym,"endsym")==0) getsym( );else error(17);}e lse {if (strcmp(sym,"whilesym")==0){cx1=cx;getsym( );condition(add(temp5,fsys));cx2=cx;gen(jpc,0,0);if (strcmp(sym,"dosym")==0) getsym( );else error(18);statement(fsys,plev);gen(jmp,0,cx1);code[cx2].a=cx;}}t est(fsys,temp6,19);}void block(plev,fsys)int plev;struct node *fsys;{i nt m=0,n=0;i nt dx0=3; /* data allocation index */ i nt tx0; /* initial table index */i nt cx0; /* initial code index */c har *tempset1[ ]={"semicolon","endsym",NULL};c har *tempset2[ ]={"ident","procsym",NULL};c har *tempset3[ ]={"semicolon",NULL};c har *tempset4[ ]={"ident",NULL};c har *tempset5[ ]={NULL};s truct node *temp1,*temp2,*temp3,*temp4,*temp5;t emp1=(struct node *)malloc(sizeof(struct node));t emp2=(struct node *)malloc(sizeof(struct node));t emp3=(struct node *)malloc(sizeof(struct node));t emp4=(struct node *)malloc(sizeof(struct node));t emp5=(struct node *)malloc(sizeof(struct node));w hile(tempset1[m]!=NULL)temp1->pa[n++]=tempset1[m++];t emp1->pa[n]=NULL;m=0;n=0;w hile(tempset2[m]!=NULL)temp2->pa[n++]=tempset2[m++];t emp2->pa[n]=NULL;m=0;n=0;w hile(tempset3[m]!=NULL)temp3->pa[n++]=tempset3[m++];t emp3->pa[n]=NULL;m=0;n=0;w hile(tempset4[m]!=NULL)temp4->pa[n++]=tempset4[m++];t emp4->pa[n]=NULL;m=0;n=0;w hile(tempset5[m]!=NULL)temp5->pa[n++]=tempset5[m++];t emp5->pa[n]=NULL;m=0;n=0;l ev=plev;t x0=tx;t able[tx].adr=cx;g en(jmp,0,1);i f (plev>LEVMAX) error(32);d o{if (strcmp(sym,"constsym")==0){getsym( );do{constdeclaration( );while(strcmp(sym,"comma")==0){getsym( );constdeclaration( );}if (strcmp(sym,"semicolon")==0) getsym( );else error(5);}while(strcmp(sym,"ident")==0);}if (strcmp(sym,"varsym")==0){getsym( );do{dx0++;vardeclaration( );while (strcmp(sym,"comma")==0){getsym( );dx0++;vardeclaration( );}if (strcmp(sym,"semicolon")==0) getsym( );else error(5);}while(strcmp(sym,"ident")==0);}while (strcmp(sym,"procsym")==0){getsym( );if (strcmp(sym,"ident")==0){enter(procedur);getsym( );}else error(4);if (strcmp(sym,"semicolon")==0) getsym( );else error(5);block(plev+1,add(temp3,fsys));lev=lev-1;if (strcmp(sym,"semicolon")==0){getsym( );test(add(statbegsys,temp2),fsys,6);}else error(5);}test(add(statbegsys,temp4),declbegsys,7);}while(in(sym,declbegsys)==1);c ode[table[tx0].adr].a=cx;t able[tx0].adr=cx;t able[tx0].size=dx0;c x0=cx;g en(ini,0,dx0);s tatement(add(temp1,fsys),plev);g en(opr,0,0);t est(fsys,temp5,8);l istcode(cx0);}int base(l,b,s)int l;int *b;int s[STACKSIZE];{int b1;b1=*b; /*find base l level down */ while(l>0){b1=s[b1];l=l-1;}return b1;}void interpret( ){i nt p=0; /* p:program register*/ i nt b=1; /* b:base register*/i nt t=0; /* t:topstack registers */ s truct instruction i;i nt s[STACKSIZE]; /* datastore */p rintf("start pl0\n");s[0]=0;s[1]=0;s[2]=0;s[3]=0;d o{i=code[p];p=p+1;switch(i.f){case lit: t=t+1;s[t]=i.a;break;case opr:switch(i.a){ /*operator*/case 0: t=b-1; /*return*/p=s[t+3];b=s[t+2];break;case 1: s[t]=-s[t];break;case 2: t=t-1; /*plus*/s[t]=s[t]+s[t+1];break;case 3: t=t-1; /*minus*/s[t]=s[t]-s[t+1];break;case 4: t=t-1; /*times*/s[t]=s[t]*s[t+1];break;case 5: t=t-1;s[t]=s[t]/s[t+1];break;case 6: if (s[t]%2==0) s[t]=0;else s[t]=1;break;case 8: t=t-1;if (s[t]==s[t+1]) s[t]=1;else s[t]=0;break;case 9: t=t-1;if (s[t]==s[t+1]) s[t]=0;else s[t]=1;break;case 10:t=t-1;if (s[t]<s[t+1]) s[t]=1;else s[t]=0;break;case 11:t=t-1;if (s[t]>=s[t+1]) s[t]=1;else s[t]=0;break;case 12:t=t-1;if (s[t]>s[t+1]) s[t]=1;else s[t]=0;break;case 13:t=t-1;if (s[t]<=s[t+1]) s[t]=1;else s[t]=0;break;case 14:printf("%d",s[t]);fprintf(fa2,"%d",s[t]);t=t-1;break;case 15:printf("\n");fprintf(fa2,"\n");break;case 16:t=t+1;printf("?");fprintf(fa2,"?");scanf("%d",&s[t]);fprintf(fa2,"%d",s[t]);break;}break;case lod: t=t+1;s[t]=s[base(i.l,&b,s)+i.a];break;case sto: s[base(i.l,&b,s)+i.a]=s[t]; /*ptrintf("%d",s[t])*/t=t-1;break;case cal: s[t+1]=base(i.l,&b,s); /*generate new block mark */ s[t+2]=b;s[t+3]=p;b=t+1;p=i.a;break;case ini:t=t+i.a;break;case jmp:p=i.a;break;case jpc:if (s[t]==0) p=i.a;t=t-1;break;}}while(p!=0);f close(fa2);}main( ){i nt m=0,n=0;c har *declbeg[ ]={"constsym","varsym","procsym",NULL};c har *statbeg[ ]={"beginsym","callsym","ifsym","whilesym",NULL};c har *facbeg[ ]={"ident","number","lparen",NULL};c har *tempset[ ]={"period","constsym","varsym","procsym",NULL};d eclbegsys=(struct node *)malloc(sizeof(struct node));s tatbegsys=(struct node *)malloc(sizeof(struct node));f acbegsys=(struct node *)malloc(sizeof(struct node));t empsetsys=(struct node *)malloc(sizeof(struct node));w hile(declbeg[m]!=NULL)declbegsys->pa[n++]=declbeg[m++];d eclbegsys->pa[n]=NULL;m=0;n=0;w hile(statbeg[m]!=NULL)statbegsys->pa[n++]=statbeg[m++];s tatbegsys->pa[n]=NULL;m=0;n=0;w hile(facbeg[m]!=NULL)facbegsys->pa[n++]=facbeg[m++];f acbegsys->pa[n]=NULL;m=0,n=0;w hile(tempset[m]!=NULL)tempsetsys->pa[n++]=tempset[m++];t empsetsys->pa[n]=NULL;i f((fa1=fopen("fa1.txt","w"))==NULL){printf("Cannot open file\n");exit( 0 );}p rintf("Input file?\n");f printf(fa1,"Input file?\n");s canf("%s",fname);f printf(fa1,"%s",fname);i f((fin=fopen(fname,"r"))==NULL){printf("Cannot open file according to given filename\n");exit( 0 );}p rintf("list object code?\n");s canf("%s",fname);f printf(fa1,"list object code?\n");i f (fname[0]=='y')listswitch=true;e lselistswitch=false;e rr=0;c c=1; cx=0; ll=0;c h=' ';g etsym( );i f((fa=fopen("fa.txt","w"))==NULL){printf("Cannot open fa.txt file\n");exit( 0 );}i f((fa2=fopen("fa2.txt","w"))==NULL){printf("Cannot open fa2.txt file\n");exit( 0 );}b lock(0,add(statbegsys,tempsetsys));f close(fa);f close(fa1);i f (strcmp(sym,"period")!=0)error(9);i f (err==0)interpret( );elseprintf("%d errors in PASCAL program\n",err);f close (fin);}。

PL0编译器源程序分析

PL/0编译器源程序分析PL/0语言是Pascal语言的一个子集，我们这里分析的PL/0的编译程序包括了对PL/0语言源程序进行分析处理、编译生成类PCODE代码，并在虚拟机上解释运行生成的类PCODE代码的功能。

PL/0语言编译程序采用以语法分析为核心、一遍扫描的编译方法。

词法分析和代码生成作为独立的子程序供语法分析程序调用。

语法分析的同时，提供了出错报告和出错恢复的功能。

在源程序没有错误编译通过的情况下，调用类PCODE解释程序解释执行生成的类PCODE代码。

词法分析子程序分析：词法分析子程序名为getsym，功能是从源程序中读出一个单词符号（token），把它的信息放入全局变量sym、id和num中，语法分析器需要单词时，直接从这三个变量中获得。

（注意！语法分析器每次用完这三个变量的值就立即调用getsym子程序获取新的单词供下一次使用。

而不是在需要新单词时才调用getsym过程。

）getsym过程通过反复调用getch子过程从源程序过获取字符，并把它们拼成单词。

getch过程中使用了行缓冲区技术以提高程序运行效率。

词法分析器的分析过程：调用getsym时，它通过getch过程从源程序中获得一个字符。

如果这个字符是字母，则继续获取字符或数字，最终可以拼成一个单词，查保留字表，如果查到为保留字，则把sym变量赋成相应的保留字类型值；如果没有查到，则这个单词应是一个用户自定义的标识符（可能是变量名、常量名或是过程的名字），把sym置为ident，把这个单词存入id变量。

查保留字表时使用了二分法查找以提高效率。

如果getch获得的字符是数字，则继续用getch获取数字，并把它们拼成一个整数，然后把sym置为number，并把拼成的数值放入num变量。

如果识别出其它合法的符号（比如：赋值号、大于号、小于等于号等），则把sym则成相应的类型。

如果遇到不合法的字符，把sym置成nul。

语法分析子程序分析：语法分析子程序采用了自顶向下的递归子程序法，语法分析同时也根据程序的语意生成相应的代码，并提供了出错处理的机制。

PL0编译程序原理实验报告

编译原理实验报告——理解PL/0编译程序原理实验4.1 理解PL/0编译程序原理一、实验目的1.学习使用教学辅助软件THPL0CAI2.掌握PL/0源程序的编译和解释过程二、实验平台Windows + THPL0CAI三、实验内容1．运行THPL0CAI 程序（1）选择0 - Static Link 方式进入；（2）选择Open/Create a source file 打开一个PL/0源程序，如Test2.pl0：const a=10;var b,c;procedure p;var k;beginc:=b+10;end;beginread(b);while b#0 dobegincall p;write(2*c);read(b)endend.2．按F9键开始单步编译Test2.pl0 程序（1）观察符号表的构造过程Table.dat 窗口；（2）观察目标代码的构造过程Code.dat 窗口。

3．按F9键开始单步执行编译Test2.pl0 生成的代码（1）观察运行栈的变化过程Stack.dat 窗口；（2）观察数据的输入输出Result.dat 窗口。

四、实验分析1．PL/0编译程序结构（a）PL/0编译程序的结构图（b）PL/0的解释执行结构PL/0语言是PASCAL语言的子集 ----指令功能表2．给出编译过程中符号表的建立过程Code.dat：符号表table.dat如图所示：符号表建立过程：（1）运行主程序，“main”存入符号表，类型为procedure，地址：8，大小：6；（2）常量a存入符号表，值为10；（3）存入b,c，类型为variable,地址分别为3,4；（4）执行p程序，存入p，类型为procedure,地址为1；（5）存入k,类型为variable,地址为3；被引用变量或过程所在层次为1；3．给出运行过程中运行栈的变化过程，只给出部分说明即可程序开始(1)输入b=5，将变量b的取值取至栈顶。

编译原理词法分析

编译原理词法分析
编译原理的词法分析是编译器中的一个重要过程，它负责将源代码分
割成一个个的词法单元（Token）。

词法单元是程序中的最小语法单位，
如标识符、关键字、运算符、常数等。

词法分析的主要任务是从左到右扫描源代码字符流，逐个字符进行解析，并根据预先定义的词法规则识别出各种词法单元。

为了实现词法分析，通常会采用有限自动机（DFA）或正则表达式来描述词法规则。

具体的词法分析过程包括以下几个步骤：
1.建立输入缓冲区：将源代码存储在缓冲区中，方便逐个字符进行读
取和处理。

2.扫描字符流：从缓冲区中逐个字符读取并处理，跳过空白字符（空格、制表符、换行符等）。

3.根据词法规则识别词法单元：根据预先定义的词法规则，将字符序
列转换为词法单元，并记录其类型和属性信息。

4.错误处理：如果遇到无法识别的字符序列或不符合词法规则的情况，进行相应的错误处理并报告错误。

5.输出词法单元流：将识别出的词法单元按照顺序输出，作为下一步
的输入。

词法分析是编译器的前端处理阶段，它为语法分析提供了基础数据，
将源代码转化为一个个的词法单元，为后续的语法分析、语义分析和代码
生成等阶段提供支持。

PL0编译原理词法语法分析介绍

PL0编译原理词法语法分析介绍PL/0语言是Pascal语言的一个子集，我们这里分析的PL/0的编译程序包括了对PL/0语言源程序进行分析处理、编译生成类PCODE 代码，并在虚拟机上解释运行生成的类PCODE代码的功能。

PL/0语言编译程序采用以语法分析为核心、一遍扫描的编译方法。

词法分析和代码生成作为独立的子程序供语法分析程序调用。

语法分析的同时，提供了出错报告和出错恢复的功能。

在源程序没有错误编译通过的情况下，调用类PCODE解释程序解释执行生成的类PCODE 代码。

（注意！语法分析器每次用完这三个变量的值就立即调用getsym子程序获取新的单词供下一次使用。

而不是在需要新单词时才调用getsym过程。

）getsym过程通过反复调用getch子过程从源程序过获取字符，并把它们拼成单词。

getch过程中使用了行缓冲区技术以提高程序运行效率。

词法分析器的分析过程：调用getsym时，它通过getch过程从源程序中获得一个字符。

查保留字表时使用了二分法查找以提高效率。

如果getch获得的字符是数字，则继续用getch 获取数字，并把它们拼成一个整数，然后把sym置为number，并把拼成的数值放入num变量。

如果识别出其它合法的符号（比如：赋值号、大于号、小于等于号等），则把sym则成相应的类型。

如果遇到不合法的字符，把sym置成nul。

语法分析子程序分析：语法分析子程序采用了自顶向下的递归子程序法，语法分析同时也根据程序的语意生成相应的代码，并提供了出错处理的机制。

《编译原理》课程实验报告(词法分析)

信息科学与工程学院__《编译原理》_实验报告系别计算机科学与工程专业计算机科学与应用班级_____计122_______学号_____10123544_____姓名_____ 陈柏君_________指导教师金登男2014学年第二学期1.实验题目：词法分析2.实验日期：2015.4.9-2015.4.163.实验环境（操作系统，开发语言）操作系统：Windows开发语言：C4.实验要求4.1.用C语言开发词法分析程序PL0Compiler。

4.2.修改PL/0词法，将其定义为一种新的语言，例如称其为PL/1语言，并完成PL/1语言的词法分析程序。

5.实验步骤5.1.用PL/0语言编写PL/0测试用例源程序，将其命名为Test0.pl。

5.2.用C语言开发PL/0词法分析程序PL0Compiler。

PL0Compiler读入Test0.pl，识别出一个个单词，并将这些单词流依序同时输出到屏幕和文件中。

被输出的每个单词应包括（1）单词序号（2）单词字符串（3）单词类型（4）单词值（如果是标识符，其值是字符串；如果是数，其值是数值；如果是符号，其值是ASCII代码…）在程序开发过程中，应设立断点，单步运行词法分析程序，依次输出一个个单词。

分析和理解词法分析程序，解释词法分析程序中的数据和变量变化的原因和输出结果。

5.3.研究其他程序设计语言，找出与PL/0词法不同的构词法则（例如C语言的标识符的组成规则与PL/0标识符的组成规则有所不同）。

据此修改PL/0的某些词法（例如，将PL/0标识符组成规则修改为C语言的标识符的组成规则），将其定义为一种新的语言，例如称其为PL/1语言。

5.4.用PL/1语言编写PL/1测试用例源程序，将其命名为Test1.pl。

5.5.开发PL/1词法分析程序PL1Compiler。

（可通过修改原PL0Compiler，实现PL/1语言的词法分析功能）。

5.6.PL1Compiler读入Test1.pl，识别出一个个单词，并将这些单词流依序同时输出到屏幕和文件中。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

辅助过程getch
getsym需要一个辅助过程getch，每被调用一次就读入下一个字符除此之外的任务:
识别行结束标志，作为空格符处理拷贝原文输出在输出文件每行开始添加坐标（书中例子程序没有体现）
3.词法分析程序的设计
每调用一次getsym，首先用循环结构在源程序上向前读入一个非空格字符，然后对此字符进行分析，转相应部分处理 getsym大致可以分为三个部分
字符语法分析安排在同一遍中
，此时词法分析作为语法分析程序的一个子程序。每当语法分析需要一个新的符号时，就调用词法分析子程序，词法分析子程序从字符串源程序中识别出一个具有独立意义的单词，将其符号返给语法分析。这种方法避免了中间文件，省去了送取符号工作，有利于提高编译程序的效率。书中采用这种方案。
取符号
字符串源程序
词法分析器
送符号
语法分析器
程序getsym
本课程采用第2种方案，程序名getsym，预先审视源程序下一个符号，并将读入的符号放在变量sym中，语法分析的判断分析将以这个读入的符号为基础具体任务：
跳过空格字符识别像begin、end、if、while等这样的保留字识别非保留字，作为标识符处理识别数字识别专用符号组合，如:=、<=、>= 识别特殊的单个字符，如+、-、/、* 跳过注释行（书中例子程序没有体现）
本课程采用第二种方法，Lex方法将在后续时间补充介绍
2.词法分析程序的任务
词法分析程序的任务：对源程序进行扫描，提供一个个符号给语法分析程序。简称为扫描器(scanner)或扫描程序词法分析程序实现的2种方案： 1.先单独工作一遍，把字符流源程序先变为符号序列，输出到一个中间文件上，然后将这个文件作为语法分析程序的输入继续第二遍的编译过程
if k>=kk then kk:=k else repeat a[kk]:=' '; kk:=kk-1 until kk=k;
id:=a; i:=1; j:=norw; (*二分查找法*)
repeat k:=(i+j)div 2; (*k指向中间的保留字*) if id<=word[k] then j:=k-1; if id>=word[k] then i:=k+1 until i>j; (*循环直到找完保留字表*)
处理保留字和标识符处理常数处理组合字符和单个字符
• 过程getch的功能：getch被getsym每调用一次，就在inf 输入文件上向前读取一个字符给ch变量(程序P84) • getch相关变量说明 inf:text (*inf文本文件用于指向输入的源程序文件*) ch:char (*最近一次从文件中读出的字符*) cc:integer (*行缓冲区指针，初始为0*) ll:integer (*行缓冲区长度，初始为0 *) line:array[1..81] of char (*行缓冲区*)
编译原理实践 --PL/0的词法分析程序
构造
词法分析方法的构造方法分类词法分析程序的任务词法分析程序的设计
1.词法分析程序的构造方法分类
1. 讲述正规式（正则表达式）和有穷自动机理论，目的是为了介绍词法分析程序自动构造工具Lex的原理。词法分析程序不是通过编程，而是执行Lex产生 2. 采用“Loop-and-Swtich”（循环和分支）方法
词法分析举例
三个全程量： sym:symbol; id:alfa; num:integer; const m=7;
序号 1 2 3 4 5 字符串 const m = 7 ; 7 id const m num sym constsym ident eql number semicolon
完整的词法分析程序getsym在下一章 program4中，program4是PL/0语言完整的语法分析程序
procedure getch; begin if cc = ll then begin if eof(inf) then begin write('program incomplete'); halt end; ll:= 0; cc:= 0; while not eoln(inf) do begin ll:=ll+1; read(inf,ch); write(ch); line[ll]:= ch end; writeln; ll:=ll+1; readln(inf); line[ll]:=' ' end; cc:=cc+1; ch:=line[cc] end
4)处理组合字符和单个字符
组合字符 := <= >= 单个字符 + - * / 等等
词法分析过程getsym总结：从源文件中读出若干有效字符，组成一个token串，识别它的类型为保留字/标识符/数字或是其它符号。如果是保留字，把sym置成相应的保留字类型，如果是标识符，把sym置成ident表示是标识符，于此同时，id变量中存放的即为保留字字符串或标识符名字。如果是数字，把sym置为number,同时num变量中存放该数字的值。如果是其它的操作符，则直接把 sym置成相应类型
if ch in ['a'..'z'] then begin (* identifier or reserved word *) k:=0; repeat if k < al then begin k:=k+1; a[k]:=ch end; getch until not (ch in ['a'..'z','0'..'9']);
if i-1>j then sym:=wsym[k] else sym:=ident end else…
3)处理常数
相关变量/常量说明 num:integer (*词法分析器输出结果之用*) nmax=14 (*数字允许的最长位数*)
if ch in ['0'..'9'] then begin (* number *) k:=0; num:=0; sym:=number; repeat num:=10*num+(ord(ch)-ord('0')); k:=k+1; getch; until not (ch in ['0'..'9']); if k> nmax then error(30) end else…
2)处理保留字和标识符
在词法分析程序getsym中，当读入的字符为a-z的字母时候，就进入处理保留字和标识符的程序部分(程序P84) 相关类型说明：
symbol=(nul,ident,number,plus,minus,times,slas h,…) alfa=packed array [1..al] of char (*alfa类型用于标识符*)
相关常量说明：
al=10 (*标识符最长长度*) norw=11 (*保留字个数*)
word:array[1..norw] of alfa word[1]~word[11] (*保留字表，长度为10的保留字，多余用空格填充，以便词法分析时用二分法查找保留字*) wsym:array[1..norw] of symbol wsym[1]~wsym[11] (*在上面的保留字表中找到保留字后可以在本表中相应位置找到保留字类型*) ssym:array [char] of symbol ssym[‘+’]~ssym[‘;’] (*符号表，把可能出现的符号赋予上相应的类型，其余符号为nul*) 相关变量说明 sym:symbol (*词法分析器输出结果之用*) id:alfa (*词法分析器输出结果之用*) num:integer (*词法分析器输出结果之用*) i,j,k:integer (*局部变量*) a:alfa (*词法分析器中用于临时存放正在分析的词*) kk:integer (*引入此变量为了性能，初始为10 *)
补充：另一个版本的词法分析
C语言实现先单独工作一遍，把字符流源程序先变为符号序列，输出到一个中间文件上增加了去除注释的处理/*…*/，但注释不能嵌套没有优化，容易理解，可供大家参考