第五章语法分析-自底向上分析方法

合集下载

第五章语法分析-自底向上分析方法

构造LRSM的思想：如果在状态项目集ISi 中有项目A→B，且B→是B的产生式，则在ISi 中增加项目 B→；对于ISi 这个过程继续到不可再扩充为止。
构造LR(0)活前缀状态机LRSM的算法要点
构造初始状态 IS0：IS0=CLOSURE({Z→S})，并给 IS0标
Stack
LR分析模型
LR分析表
Action矩阵：行代表状态，列代表输入符，而矩阵元素则表示相应的分析动作： Shift / Reduce / Accept / Error 。 GoTo矩阵：行代表状态，而列则代表语法符号（非终极符，终极符），而矩阵元素则表示移入或归约后的转向状态。定义若IS是一个LR(0)项目集，X是一个文法符号，函数GO（IS, X）定义为 GO（IS, X）=CLOSURE（IS(X)），其中 IS(X)为LR(0)项目集IS的投影。
id
E→E+ T T→ id T→ (E)
E
7
S→E $ E→E +T
+
T→(E ) E→E +T
$
2 4
T
8
)
T→(E)
S→E $
E→E+T
GE的LRSM
LRSM给出了所有的可归活前缀
LRSM中的每个状态将对应一个饱和项目集：（1）其中一部分是由先驱状态分出来 (称为基本项目)；（2）一部分则是由基本项目扩展出来的 (称为扩展项目或派生项目)。派生部分项目的特点是其中的“”出现在产生式右部的最左侧。

识别规约活前缀的LRSM的构造
派生定理

开始符产生式的右部是归约活前缀。如果A是归约活前缀，且A→是产生式，则也是归约活前缀。任何归约活前缀，都可按上述方式被派生。设文法开始符的产生式是： S →1|2|…|n RPSG={1,…,n}{|ARPSG,A→P}

编译原理_05自底向上的语法分析方法

4
例1：文法:
SaAcBe
A b A Ab
B d 输入串abbcde#分析最右推导：
SaAcBe aAcde aAbcde abbcde
规约分析过程如下：
5
步骤 1 2 3 4 5 6 7 8 9 10 11
符号栈 # #a #ab #aA #aAb #aA #aAc #aAcd #aAcB #aAcBe #S
11
步骤 1） 2） 3） 4） 5） 6） 7） 8） 9） 10） 11）
符号栈输入符号串 # i+i*i# #i +i*i# #E +i*i# #E+ i*i# #E+i *i# #E+E *i# #E+E* i# #E+E*i # #E+E*E # #E+E # #E #
12
优先关系 #<i #<i>+ #<+ +<i +<i>* +<* *<i *<i># +<*># #<+>#
教学总结
算符优先关系表是指用表格形式来表示各终结符号的优先关系的表。为分析算符之间的优先关系，引入两个概念： firstVT集合和lastVT集合：对于非终结符B，有 firstVT (B)={b|Bb… 或 BCb…} lastVT(B)={a|B…a 或 B…aC} 为解决在算符优先分析过程中如何寻找句柄，引进最左素短语的概念。算符优先分析法只适用于对表达式的分析，其特点是分析速度快。
对输入符号串自左向右进行扫描并将输入符自底向上分析方法的基本思想4逐个移入一个后进先出栈中边移入边分析一旦栈顶符号串形成某个句型的句柄时就用该产生式的左部非终结符代替相应右部的文法符号串称为归约

5第五章自底向上语法分析法1

• 总结：采用图的遍历完成自底向上的分析。
分析过程中有个急需解决的问题：谁先规约？
解决方法：通过比较终结符号之间的优先关系来确定谁先规约。由于自底向上的分析过程就是一个图的遍历过程，因此分析程序通常会使用一个分析栈来辅助分析。自底向上的分析开始时栈是空的，在成功分析的末尾就只有开始符号。
文法G[A]={A→(A) | a}分隔如下：
A→.(A)
表示正准备开始分析
A→(.A)
表示(已被吸收，准备吸收A
A→(A.)
表示(A已被吸收，准备吸收)
A→(A).
表示(A)已被吸收，可以归约了
A→.a
表示正准备开始分析
A→a.
表示a已被吸收，可以归约了
有两个开始的地方,到底从谁开始? 解决方法:引入新的开始符号，扩充文法。
• LR(0)文法(LR(0) grammar)： LR(0) 项DFA图的所有状态均不存在移进-归约冲突(shift-reduce conflict) 和归约-归约冲突(reduce-reduce conflict) 。
移进-归约冲突：即某个状态不能既包含一个“移进的”项目A→.X （X是一个终结符)，又包含一个如B→.的归约项。
$V+V *n
$V+V* n
$V+V*n
$V+V*V
$V+V
$V
• 试分析文法G[A]={A→(A) | a}所对应的串((a))。
（1）构造终结符优先关系表（2）分析过程
分析栈 $ $( $(( $((a $((A $((A) $(A $(A) $A
输入串 ((a)) (a)) a)) )) )) ) )
主要内容

第5章语法分析——自底向上分析

(d) aAcBe归约为S
(e)
5.2自底向上分析方法的一般过程
自底向上分析方法，也称为移进归约法，其过程是：设置一个寄存符号的先进后出栈，称为符号栈。在分析进行时，把输入符号逐个按扫描顺序移进栈里，当栈顶符号串形成句柄(即为某条规则的右部)时，就归约，把栈顶构成句柄的那个符号串用相应规则左部的非终结符号来代替。再检查栈顶是否又出现了新的句柄，若有，继续归约；若没有形成新的句柄，则再从输入符号串移进新的符号，如此继续直到整个输入符号串处理完毕。最终如果栈里只有识别符号，则所分析的输入符号串为合法的句子，报告成功；否则，输入串是不合法的符号串，报告错误。
5.3.2 LR分析表的构成
分析表的动作有下列四种：
1. 移进(Sn)：将输入符号aj移进符号栈，将状态n移进状态栈，输入指针指向下一个输入符号。
2. 归约(R)：当栈顶形成句柄时，按照相应的产生式U→W进行归约。若产生式右部W的长度为n，则将符号栈栈顶n个符号和状态栈栈顶n个状态出栈，然后将归约后的文法符号 U移入符号栈，并根据此时状态栈顶的状态Si及符号栈顶的符号U，查GOTO标，将GOTO[Si，U]移入状态栈。
第5章语法分析——自底向上分析
在自底向上的分析方法中，分析过程从输入符号串开始，通过反复查找当前句型的句柄，并使用规则，将找到的句柄归约成相应的非终结符号，直到归约到开始符号。
5.1 规范推导、规范句型和规范归约
规范推导就是最右推导，而通过规范推导能得到的句型就是规范句型。规范归约也称为最左归约，是规范推导的逆过程，即在分析的每一步，将当前句型的句柄归约成相应的非终结符号。
5.3.2 LR分析表的构成
LR分析表是LR分析器的核心部分，它由两部分组成，一是动作部分ACTION表，二是状态转换部分GOTO表。表中S1、S2、…、Sn 为分析器的各个状态；a1、a2、…、am为文法的全部终结符号及右界符#；X1、X2、…、Xk为文法的非终结符号。

语法分析--自底向上分析技术

5.3.3算符优先关系与算符优先文法 5.3.4算符优先文法句型的识别
• 质短语 • 算符优先识别算法
第五章语法分析----自底向上分析技术
5.3算符优先分析技术
5.3.4算符优先文法句型的识别
• 质短语 • 算符优先识别算法
例文法G[Z]: Z∷=E E∷=T|E+T T∷=F|T*F F∷=(E)|i 设有输入符号串i+(i+i)*i，试识别它是否是文法的句子。
第五章语法分析----自底向上分析技术
5.2 简单优先分析技术
5.2.1 优先关系与优先文法
5.2.2 简单优先分析技术的实现 5.2.3 简单优先分析技术的局限性及克服
第五章语法分析----自底向上分析技术
5.2 简单优先分析技术
5.2.1优先关系与优先文法
• 寻找句柄的基本思想 • 优先关系及其应用 • 简单优先文法
5.3.1算符优先分析技术的引进 Tj＜Ti 当且仅当文法G中存在形如U∷=…TjV…的规则，其中V=>Ti…或V=>WTi…；
+
Tj ＞Ti 当且仅当文法G中存在形如U∷=…VTi…的规则，其中V=>…Tj 或V=>…TjW。
+ 5.3.2算符文法 Z∷=E E∷=T|E+T T∷=F|T*F F∷=(E)|i 例设有文法G[Z]:
例5.1
步骤（ 1）（ 2）（ 3）（ 4）（ 5）（ 6）（ 7）（ 8）（ 9）（ 10）（ 11）
设有文法G[E]：E∷=E+E|E*E|(E)|i
栈 # #i #E #E* #E*i #E*E #E #E+ #E+i #E+E #E 输入 i*i+i# *i+i# *i+i# i+i# +i# +i# +i# i# # # # 动作移入归约移入移入归约归约移入移入归约归约接受 E∷ =i E∷ =E+E E∷ =i E∷ =E*E E∷ =i 规则

第五章自下向上分析语法分析方法(LR)

S3 S5 S5 S11 r6 9 r5 9 r5 r2 acc 7 1
25
§５.５
SLR（1）分析
若有效项目集中存在冲突动作: 将b移进栈 I = { X . b, A . , 将归约为A B . }
将归约为B
设当前输入符号为a, 1. 若a = b, 则移进; 2. 若aFollow(A), 则用A 进行归约; 3. 若aFollow(B), 则用B 进行归约; 4. 其余情况报错.
26
构造SLR(1)分析表的方法是: 1 根据文法构造识别规范句型活前缀的有穷自动机DFA( 同LR(0) ) 2 由DFA构造SLR（1）分析表
27
2 由DFA构造SLR(1)分析表
令包含S‘→ • S 的项目集Ik的下标k为分析器的初态 LR(0)分析表的ACTION和GOTO表的构造步骤如下： a) 若项目A→ • a属于Ik，且转换函数GOTO(Ik,a)= Ij ，当a为终结符时，则置ACTION[k,a]为Sj b) 若项目A→ •属于Ik ，则对a为任何终结符或‘#’，且满足aFOLLOW(A)时置ACTION[k,a] = rj ，j为产生式在文法G‘中的编号 c) 若GO(Ik,A)= Ij ，则置GOTO[k,A]=j，其中A为非终结符， j为某一状态号 d) 若项目S‘→S •属于Ik ，则置ACTION[k,#] = acc e) 其它填上“报错标志”
S
E
E T
#
(
E )
T
E, E-, E-(, E-(i 是句型E-(i)# 的活前缀。
i
6
6
识别活前缀的有穷自动机例:G[S]:S→aAcBe[1] A→Ab[2] A→b[3] B→d[4] (S'→S[0]) 对句子abbcde,其可归前缀为： ab[3],aAb[2],aAcd[4],aAcBe[1],S[0]

语法分析自下而上分析

同理，可构造计算LASTVT的算法。使用每个非终结符P的FIRSTVT(P)和
LASTVT(P)，就能够构造文法G的优先表。构造优先表的算法是：
.
FOR 每条产生式P→X1X2…Xn DO FOR i:=1 TO n-1 DO
BEGIN
IF Xi和Xi+1均为终结符 THEN 置Xi Xi+1
.
文法G(E) (1) E→E+T | T (2) T→T*F | F (3) F→P F | P (4) P→(E) | i
的优先函数如下表
+ *↑( ) i # F2440660 G1 3 5 5 0 5 0
.
有许多优先关系表不存在优先函数，如：
ab a b
不存在对应的优先函数f和g 假定存在f和g，则有
TN
LA ( P ) S { a |P T a , 或 V P T a ,a Q V T 而 Q V N }
.
有了这两个集合之后，就可以通过检查每
所有终结符对。
➢假定有个产生式的一个候选形为 …aP…
那么，对任何bFIRSTVT(P)，有 a b。 ➢假定有个产生式的一个候选形为
…Pb… 那么，对任何aLASTVT(P)，有 a b。
栈STACK，把所有初值为真的数组元素F[P， a]的符号对(P，a)全都放在STACK之中。
.
运算：
如果栈STACK不空，就将顶项逐出，记此项为(Q，a)。对于每个形如 P→Q… 的产生式，若F[P，a]为假，则变其值为真且将(P，a)推进STACK栈。
上述过程必须一直重复，直至栈STACK拆空为止。
17
ELSE ERROR /*调用出错诊察程序*/

编译原理讲义(第五章语法分析--自底向上分析技术)

优先关系
• 和书上的写法不一样，凑合用。 SiSj Si Sj Si Sj • 注意：，，之间不同于=，>和<。由Si Sj不能导出Sj Si。
优先关系的例子
• 文法：Z::=bMb M::=(L|a L::=Ma) • 语言：{bab, b(aa)b, b((aa)a)b, …} • 可以从语法树里面导出部分优先关系。
关系闭包和Warshall算法
• Warshall算法是利用矩阵计算关系传递闭包的方法。计算B的传递闭包的算法伪代码如下：对于外层循环，当 A = B; i=K的循环结束的时 for (i = 1; i<=n; i++) 候，满足：如果Si和 for (j=1; j<=n; j++) Sj满足Si R Si1, Si1 R { Si2, … Sin R Sj，并 if (A[j,i]==1) 且im<K, 那么现在 for(k=1; k<=n; k++) A[i,j] = 1; A[j,k] = A[j,k]+A[i,k] }
基本方法（续）
• 归约中的动作有4类
– 移入：读入一个符号并把它归约入栈。 – 归约：当栈中的部分形成一个句柄（栈顶的符号序列）时，对句柄进行归约。 – 接受：当栈中的符号仅有#和识别符号的时候，输入符号也到达结尾的时候，执行接受动作。 – 当识别程序觉察出错误的时候，表明输入符号串不是句子。进行错误处理。
计算优先关系的例子P136
• 文法：S::=Wa W::=Wb W::=a • 将文法中的符号按照S，W，a，b排列。
0100 BHEAD= 0110 0000 0000
0010 0011 0000 0000

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

构造LRSM的思想：如果在状态项目集ISi 中有项目A→B，且B→是B的产生式，则在ISi 中增加项目 B→；对于ISi 这个过程继续到不可再扩充为止。
构造LR(0)活前缀状态机LRSM的算法要点
构造初始状态 IS0：IS0=CLOSURE({Z→S})，并给 IS0标
# X1 X2 … Xk A Si0 Si1 Si2 … Sik
Sik的A输出边所指向的状态设为S*，则格局变为：
# X1 X2 … Xk A Si0 Si1 Si2 … Sik S*

LR(0)分析
Input a1 … ai … an #
St Xt … …
LR分析驱动器
Output
action
goto

⊳

⊲
⊲

定理：设X1…XiXi+1…Xj…Xn是一个句型，若有 Xi ⊲Xi+1 Xi+2 … Xj-1 Xj ⊳Xj+1 则Xi+1Xi+2…Xj-1Xj一定是该句型的简单短语。结论： ⊲用来确定句柄的头；用来确定句柄的内部； ⊳用来确定句柄的结束。

简单优先分析算法要点

线性正则式状态机－LRSM

线性正则式：不含*符号的正则表达式
LRSM：(Linear Regular States Machine) (1)从LRSM可构造出恰好接受给定所有正则式的确定自动机DA； (2)从LRSM的终止状态可判定接受的是哪个正则式； (3)从LRSM的状态可判定一个正则式是不是另一正则式的前缀。
项目：假设[P]是一个正则式，则我们称形如[P]的表示为项目，其中P是正则式编号。其中黑点可出现于任何位置上。项目集：用IS表示 IS(X) ： SubItems(IS,X)= {X[P]|X[P]IS,XSymbSet} 简记为IS(X)

假设有线性正则项集:
[1] 对每个符号XSymbSet：
若ISiX非空，给ISiX标上NO，并在ISi和ISiX之间画有向X边:ISi → ISiX。 [2] 给ISi标上OK。 ■ 重复上述步骤二，直至在LRSM中没有被标记为NO的
状态（项目集）节点为止。
S0 •abc[1] •abd[2] a •ad[3] •bec[4] •bed[5] b S2 b•ec[4] b•ed[5]
#b
#b( #b(a #b(M #b(Ma #b(Ma) #b(L #bM #bMb #Z
⊲ ⊲ ⊲ ⊳

(aa)b#
aa)b# a)b# a)b# )b# b# b# b# # #
⊳ ⊳

⊳ ⊳
5.3 LR类分析方法
•规范句型：用最右推导导出的句型(也称右句
型）。 •规范前缀：若存在规范句型，且是终极符串或空串，则称为规范前缀。 •规范活前缀：若规范前缀不含句柄或含一个句柄并且具有形式=(是句柄)，则称规范前缀为规范活前缀(简称活前缀）。 •归约规范活前缀：若活前缀是含句柄的活前缀，即有=，且是句柄，则称活前缀为归约规范活前缀（简称归约活前缀）。

例：构造LR(0)状态机 SE$ EE+T ET T id T ( E )
0
T (
9
T
6
S→ E $ E→ E+T E→ T T→ id T→ ( E )
E→T
5
id
+
T→id
id
(
T→( E) E→ E+T E→ T T→ id T→ ( E )
(
E
1 3
简单优先分析中的三种关系
Y ：当且仅当存在一个产生式A→…XY… X ⊲ Y ：当且仅当存在一个产生式A→…XB… 并有B+Y…。 X ⊳ Y ：当且仅当存在一个产生式A→…BC… 并有B+…X，C*Y…。
X 文法G为简单优先文法如果满足：
对于任意两个语法符号X和Y，至多成立一种优先关系；任意两个产生式都具有不同的右部。

识别规约活前缀的LRSM的构造
派生定理

开始符产生式的右部是归约活前缀。如果A是归约活前缀，且A→是产生式，则也是归约活前缀。任何归约活前缀，都可按上述方式被派生。设文法开始符的产生式是： S →1|2|…|n RPSG={1,…,n}{|ARPSG,A→P}
展望符：Lookup(S) 有效前缀集 Prefix(S) 状态Si中的项目•[P]表示部分已被输入，而且是Si的前缀的后缀，表示待输入部分。可构造接受给定正则式集合的DA 严格前缀：某状态中既含有定位点在尾处的项目又含有定位点不在尾处的项目，则一个正则式是另一个正则式的严格前缀。

例有文法G[S]: S → aAc[1] A → Abb[2] A → b[3]
可归前缀集： aAc aAbb ab
LR(0)项目：若A→是产生式，则称A→为LR(0)项目(简称项目），也写作[p]形式。项目集的投影：假设IS是LR(0)项目集，则称下面IS(X) 为IS关于X的投影集： IS(X) = {A→X |A→XIS, X(VTVN)}. 项目集的闭包：假设IS是LR(0)项目集，则称下面CLOSURE(IS)为IS的闭包集： CLOSURE(IS)= IS {A→ | Y→ACLOSURE(IS) A→是产生式 }
设当前格局是：
# X1 X2 … Xk … Xt Si0 Si1 Si2 … Sik … Sit
# X1 X2 … Xk … Xt ai Si0 Si1 Si2 … Sik … Sit S*
aiai+1…an #
移入动作：设Sit的ai输入边所指向的状态为S*
归约动作：设按A→Xk+1Xk+2…Xt进行归约，则首先归约为A
id
E→E+ T T→ id T→ (E)
E
7
S→E $ E→E +T
+
T→(E ) E→E +T
$
2 4
T
8
)
T→(E)
S→E $
E→E+T
GE的LRSM
LRSM给出了所有的可归活前缀
LRSM中的每个状态将对应一个饱和项目集：（1）其中一部分是由先驱状态分出来 (称为基本项目)；（2）一部分则是由基本项目扩展出来的 (称为扩展项目或派生项目)。派生部分项目的特点是其中的“”出现在产生式右部的最左侧。
活前缀的描述性定义：形成可归前缀之前，包括可归前缀在内所有规范句型的前缀都称为活前缀。活前缀为一个或若干规范句型的前缀。在规范归约过程中的任何时刻已分析过的部分，即在分析栈（符号栈）中的符号串均为规范句型的活前缀，表明输入串的已被分析过的部分是该文法某规范句型的一个正确部分。
Stack
LR分析模型
LR分析表
Action矩阵：行代表状态，列代表输入符，而矩阵元素则表示相应的分析动作： Shift / Reduce / Accept / Error 。 GoTo矩阵：行代表状态，而列则代表语法符号（非终极符，终极符），而矩阵元素则表示移入或归约后的转向状态。定义若IS是一个LR(0)项目集，X是一个文法符号，函数GO（IS, X）定义为 GO（IS, X）=CLOSURE（IS(X)），其中 IS(X)为LR(0)项目集IS的投影。
(aA,cde)
(aAc,de) (aAcd,e) (aAcB,e) (aAcBe,-)
S aAcBe[1]

aAcd[4]e[1]
aAb[3]cd[4]e[1]
ab[2]b[3]cd[4先分析
一种shift-reduce分析方法根据文法符号的优先关系确定句柄文法符号的优先关系的确定
上NO。从已构造的 LRSM 部分图选择被标为 NO 的任一状态 IS，并做 [1] 对每个符号XVTVN，做下面动作： 1) 令ISj = CLOSURE( IS(X))，若非空。 2) 若在LRSM部分图中已有ISk与ISj有相同项目集，则令m=k；否则构造ISj的状态点ISj，并给ISj标上NO，同时令m=j。 x 3) 在IS和ISm之间画有向X边：IS ISm 。 [2] 给IS标上OK。重复上一步骤，直至没有被标记为 NO 的状态节点为止。

优先关系矩阵一个文法的全部优先关系可以用矩阵来表示，称作优先关系矩阵。

例： Z bMb Z Ma Z M (L L Ma) M
L b ( a ) #
Z FIRST b LAST b
M a( aL)
L M( a )
M L
b

(
a

)
#
⊳
⊳ ⊲ ⊲ ⊲ ⊲ ⊳ ⊳ ⊳ ⊳ ⊲ ⊳
6 S1=S0a S3 S c abc•[1] a•bc[1] b ab•c[1] ab•d[2] 7 a•bd[2] S d abd•[2] a•d[3] S4 d ad•[3] S5 c S8 bec•[4] e be•c[4] be•d[5] S9 d bed•[5]
正则式到LRSM的转换例
LRSM的性质

形如A→•[P]的项目称为归约型项目形如A→•[P]的项目称为移入型项目移入－归约冲突归约－归约冲突
LRSM不能直接用于LR分析 LRSM提供的信息：
（1）合法性检查信息 [A→a] （2）移入/归约信息 [A→a]； [A→] （3）移入/归约后的转向状态信息
第五章自底向上分析方法
主要内容自底向上分析的基本思想简单优先分析方法 LR类分析方法
5.1 自底向上语法分析方法介绍

第五章 语法分析-自底向上分析方法