第3章上下文无关文法与下推自动机

合集下载

第三章：上下文无关文法与下推自动机

上一页下一页退出
19
②构造P1: 如果B→α∈P且不是单产生式，则对于B∈NA中的所有 A，把A→α加入P1中， ③得G1＝( N1,T1, P1 ,S) 结论：对于每个单产生式得CFG G，存在一个等效的无单产生式的文法G1 。例: G=({E,T,F},{+,*, (,),a}，p，E) E→ E+T∣T P: T→ T*F∣F F→ (E)∣a 解：G是无ε产生式文法，但有单生成式E → T,T → F ①N0＝{E} ②因为E→ T ∈P, F→ T ∈P,则N’＝{E,T,F}=NE ③同理：NT＝{T,F}，NF＝{F}，
2
上下文无关文法和它所描述的上下文无关语言，在定义程序设计语言、语法分析、简化程序设计语言的翻译等方面有重要的意义. 内容：1、上下文无关文法 2、两个范式:Chomsky 范式,Greibach范式 3、确定的下推自动机、非确定下推自动机(PA)
(Pushdown Automaton)
4、对任何CFA都能找到一种具有特有形式的等价的CFG (Context-Free Grammar) 与上下文无关文法相应的识别器是下推自动机. 确定的下推自动机对应于上下文无关语言的一个子集(大部分程序设计语言) 例如:程序设计语言中的嵌套结构,用CFG描述而RG不行
10
例：N＝｛S,A,B｝ T＝｛0,1｝ P＝｛S→ 0,A→ 1,B→ 0｝解： (1)N0＝φ (2)N＇＝｛S，A，B ｝ (3)N0≠N‘∴N0＝N‘ P＝｛S→ 0，A→ 1，B→ 0｝ (4)N＇＝N0∪{ }＝N0 ∴有用非终结符集＝N0＝｛S，A，B｝
上一页
下一页
退出
11
定理2：CFG：G＝(N，T，P，S)则必可找到等效的 G1＝(N1，T1，P1，S) 对ｘ∈N1∪T1 * 存在α ，β∈(N1∪T1)*，有S⇒ α x β (证：从文法起始S能推出含X的句型) 证明：构造G1： S∈N1 (1)若A∈N1且A→ α ∈P，则含α中的非终结符是属于N1，终结符∈T1。 (2)重复(1),直到再没有新的符号加入N1，T1为止 (3)P1={A→α |A→α ∈P,A∈N1, α ∈(N1∪T1)*｝由G1的构造可知:

(22)第三章第五讲上下文无关文法与下推自动机(简介)

END
RETURN
三、上下文无关语言的判定问题 1. 空问题上下文无关语言的空问题是可以判定的。
2. 成员问题
上下文无关语言的成员问题也是可以判定的。 3. 等价问题上下文无关语言的等价问题是不可以判定的。
四、上下文无关文法的二义性
1. 定义
若对于上下文无关文法G产生的语言L(G),如果有句子 w∈L(G),存在两个不同的推导树，或者说对w存在两个不同的最左或最右推导，那么就称文法G是二义的。
2={ 2 k a |k≥1}
都不是
二、上下文无关语言的性质
1.上下文无关语言的封闭性定理21：若L1和L2是上下文无关语言，则L1∪L2也是上下文无关语言。
（证明略）定理22：若L1和L2是上下文无关语言，则L1L2也是上下文无关语言。（证明略）定理23：若L是上下文无关语言，则L的闭包L*也是上下文无关语言。（证明略）
特例：在定义中只要取w2=ε，则生成式的形式变为： A→w1C ， A→w3 。这显然是右线性文法。因此，右线性文法是线性文法的特例。
五、受限型上下文无关文法
2. 顺序文法
定义：对于上下文无关文法G , 如果非终结符可以排序为： A1,A2,A3,......,An ，当P中有生成式Ak→β时,若β内不含有l < k的Al，则称G是顺序文法。实例：设文法G=({A2},{a,b},P,A2),其中生成式P如下： A2→aA2b ， A2→ε 由定义可知，该文法G是顺序文法，由它产生的语言为： L(G)={anbn | n≥0}。(参考书第181页的例2有错) 结论：线性文法总可以设法转换为顺序文法。利用顺序文法进行文法分析是比较方便的。这样一来，前面所有的有关右线性文法的分析都可以转换为对顺序文法的分析。

(21)第三章第四讲下推自动机

b b b b b b
..........
显然，上述无限状态的模型是无法用有限状态自动机来表示的，因此需要扩充机器的能力。下推自动机拥有一个容量不受限制的下推“栈”，所以它可以解决许多实际问题。例如：对于非正则语言L(M)={anbn|n≥1}，由于 PDA能够利用栈容量的无界性保存大量的信息，可以动态跟踪保存 a的个数，从而PDA能够识别这个语言。
注意1：上述定义中，“只含一个元素”保证了δ函数的“确定性”,
同时①②避免了在同样的状态、同样的栈顶元素下，在读入一个符号时发生状态转移和在不读入字符时发生状态转移之间作选择的可能性。也即在任何一个格局状态下只有唯一的一个后继格局。
注意2：不满足条件①②的PDA 即为不确定的PDA。与有限自动机
b b b b b b
..........
显然，上述无限状态的模型是无法用有限状态自动机来表示的，因此需要扩充机器的能力。
一、有关概念
1、下推自动机的特点引例：前面曾用泵浦定理(定理6）证明：L(M)={anbn|n≥1}不是正则
集。这就表明无法用有限自动机来识别该语言。这是因为：对于任意的正整数k，至少必须有一个状态用以记住“k个a”，则用状态转换图表示这种情况，在对任意大的n来说，有如下无限状态转换图： a a a a ..........
δ(q2,b,a)={(q2,ε)}, δ(q2,ε,Z0)={(q0,ε )} 。
一、有关概念
在q2状态下，一旦遇见栈底元素Z0， 2、不确定的下推自动机且此时剩余输入串恰好为空串，则弹 nbn|n≥1}。构造一个PDA M，能够接受语言 L(M)={a 实例：出Z0使栈为空，同时进入终止状态q0 从而以终止状态接受输入字符串。设 PDA M=（Q , T , Γ,δ, q0 , Z0 , F)，其中： Q={q0,q1,q2} , T={a,b} , Γ={Z0,a} , F={q0} ，δ定义如下： δ(q0,a,Z0)={(q1,aZ0)}, δ(q1,a,a)={(q1,aa)}, δ(q1,b,a)={(q2,ε)},

形式语言和自动机上下文无关文法与下推自动机课堂PPT

(3)由(q1,)(q1, 1, X) 得 [q1 ,X ,q1] 1;
(4)由(q2,)(q1, , Z0) 得 [q1 ,Z0 ,q2] ;
(5)由(q0,XZ0)(q0, 0, Z0) 得 [q0 ,Z0 ,qj] 0[q0 ,X ,qi] [qi ,Z0 ,qj] , i, j = 0,1,2;
从上下文无关文法构造等价的下推自动机
定理4.5.1（由CFG可导出PDA）：设上下文无关文法G＝（N，T，P，S），产生语
言L（G），则存在PDA M，以空栈接受语言Lφ(M), 使Lφ(M)=L(G)。
证明：构造下推自动机M，使M按文法G的最左推导方式工作。
1
从上下文无关文法构造等价的下推自动机
q0 b, A/ε
b, A/ε ε, A/ε
q1 ε, z0/ε
（3）对①式δ（q0,a,z0）={( q0, A z0)} ， ∵所有可能的状态序列为：q0q0，q1q0，q0q1，q1q1 ∴可构造出产生式：
[q0,z0,q0]→ a [ q0,A, q0 ][ q0,z0, q0 ] [q0,z0,q0]→ a [ q0,A, q1 ][ q1,z0, q0 ] [ q0,z0,q1]→ a [ q0,A, q0 ][ q0,z0, q1 ] [ q0,z0,q1]→ a [ q0,A, q1 ][ q1,z0, q1 ]
then A w.
归纳于 (q, w,A)├*(q, , ) 的步数 n.
基础 n=1，必有 w = ，且 A 为 G 的产生式，所以 A w.
归纳 n>1，设第一步使用产生式 AX1X2…Xm ，可以将w 分为 w = w 1 w 2… w m ，满足 (q, wi , Xi )├*(q, , )，

计算理论第3章

下面证明此算法的有效性。显然对任何变元A∈NEWＶＮ,不论A是在第⑵步还是在第 ⑸步加入到NEWＶＮ中的,都有派生A*w,其中w∈ＶＴ*。只证明G中任何派生A*w，w∈ＶＴ*,必有A∈NEWＶＮ。 (对派生的步数归纳证明) a)若此派生是一步完成的，即有Aw，则说明P中有产生式Aw，于是A在算法的第⑵步被添加到NEWＶＮ中。 b)假设G中派生A*w是少于k步完成的,则A∈NEWＶＮ。 c)当G中有k步派生AX1X2 …Xnk-1w，不妨设 w=w1w2 …wn，其中Xi*wi，(i=1,2,…,n)，而且由于这些派生的步数少于k步，如果Xi是变元，则根据假设b）得Xi 最终会加入到NEWＶＮ中。在执行算法的第⑷步时 OLDＶＮ:=NEWＶＮ,当最后一个Xi加入OLDＶＮ时，在执行算法的第⑸步时，就将A加入到NEWＶＮ中。
149
2．构造P’：是由P中只含有(ＶＮ’∪ＶＴ’)中的符号的产生式构成的。 3．证明L(G)=L(G’) a）显然有L(G’)L(G)，因为ＶＮ’ＶＮ，ＶT’ＶT， P’ Ｐ，所以G’中任何派生S*w，在G中也有S*w。所以 L(G’)L(G)。 b）证明L(G)L(G’)，任取w∈L(G)，不妨设w在G中的派生为S*αXβ*w，其中α,β∈(ＶＮ∪ＶＴ)*，由上述算法可知，在此派生中出现的所有符号，都不会因为对G使用此引理而被去掉，所以这些符号必在ＶＮ’∪ＶＴ’ 中，此派生中所用到的产生式也在P’中，所以这个派生在G’中也可以实现，因而必有w∈L(G’)。故 150 L(G)L(G’)。
解：先对G应用引理3-2.1方法处理，执行此算法得到的结果如表3-2.2所示。循环次数i OLDＶＮ NEWＶＮ初值 Φ {S,A} 1 {S,A} {S,A }
152

第三章：上下文无关语法

AS
Bb
A1 SA Ua
After Step 4 Grammar is in CNF
第三章：上下文无关语法
6
第三章：上下文无关语法
26
主要内容
2.1 上下文无关文法概述
2.2 下推自动机
2.3 非上下文无关语言
第三章：上下文无关语法
27
下推自动机
考虑语言 { 0n1n | n≥0} 的识别装置
, $
q1
q2
1, 0
q4
q3
, $
0, 0 1, 0
M = ({q1,q2,q3,q4}, {0,1}, {0,$}, , q1, {q1,q4}),
(q1, , ) = { (q2, $) }, (q2, 0, ) = { (q2, 0) }
(q2, 1, 0) = { (q3, ) }, (q3, 1, 0) = { (q3, ) }
S ASA | aB | a | SA | AS
Ab|S B b
Before removing
After removing
A B
第三章：上下文无关语法
A B
23
例题
Then, we remove A S
S0 ASA | aB | a | SA | AS
S ASA | aB | a | SA | AS
第三章：上下文无关语法
18
例题
S ASA | aB AB|S Bb|
S0 S S ASA | aB AB|S Bb|
第三章：上下文无关语法
19
例题
After that, we remove B
S0 S S ASA | aB AB|S Bb|

3第三章上下文无关文法及分析1

例设有文法 G2=（VN，VT，P，S）其中，VN={A}、VT={a}、P={ A→Aa, A→ } 试问：此文法描述的语言L(G2)=?
解：由于从开始符号A出发，可以有 AAaa=a AAa Aaa aa=aa AAa Aaa Aaaa =aaa =aaa 得L(G2)={a，aa，aaa，aaaa，}={an，n>1}
其中符号“*”表示经过0步或多步推导（S=u则称为0步推导，而Su则称为1步推导，“+”则称为一步或多步推导）。
仅含终结符的句型称为句子。
• 语言的形式化定义
文法G所描述的语言用L(G)表示，它由文法G所产生的全部句子组成，即：
L(G)=｛w|wVT+ 且S+w ｝这个定义式的意义如下：（1）符号串w是从开始符号推导出来的；（2）w仅由终结符号组成；（3）w称为该语言的句子；（4）L(G)是由所有这样的句子构成的。
• 问题：属于VT+的符号串x,是否一定属于L(G)？
例设有文法 G1=（VN，VT，P，S）其中，VN={A}、VT={a}、P={A→a} 试问：此文法描述的语言L(G1)=?
解：由于从开始符号A出发，只能推导出一个句子 a，所以 L(G1)={a}，因此文法G1所定义的语言 L(G1)是有穷语言。由于VT+ ={a，aa，aaa， }，因此L(G1)只是 VT+ 的一个真子集。
第3章
语言和上下文无关文法及分析
主要内容
文法及语言的表示及定义分析过程分析树与抽象语法树二义性文法的扩展表示：EBNF和语法图 TINY语言的语法
• 什么是语言？ • 如何描述语言？ • 如何识别语言中的句子？
• 语言的定义

计算理论复习课2习题---答案

第三章上下文无关语言与下推自动机a. {w | w 至少含有3个1} S →A1A1A1A A →0A|1A|εb. {w | w 以相同的符号开始和结束}S →0A0|1A1 A →0A|1A|εc. {w | w 的长度为奇数}0, ε→ε0,ε→ε 0,ε→ε1,ε→ε0,ε→εS →0A|1A A →0B|1B|ε B →0A|1Ad.{w | w 的长度为奇数且正中间的符号为0} S →0S0|1S1|0S1|1S0|0e.{w | wS →A1AA →0A1|1A0|1A|AA|εf.{w | w=w R }S →0S0|1S1|1|0g.空集 S →S3.6 给出产生下述语言的上下文无关文法： a ．字母表{a,b}上a 的个数是b 的个数的两倍的所有字符串组成的集合。

S →bSaSaS|aSbSaS|aSaSbS|εb ．语言{a n b n |n ≥0}的补集。

见问题3.25中的CFG: S →aSb|bY|Ta T →aT|bT|εc ．{w#x | w, x ∈{0,1}*且w R 是x 的子串}。

S →UV0,ε→0,0→0,ε→1,0→0,1→0,ε→0,0→U→0U0|1U1|WW→W1|W0|#V→0V|1V|εd．{x1#x2#⋯#x k|k≥1, 每一个x i∈{a,b}* , 且存在i和j使得x i＝x j R}。

S→UVWU→A|εA→aA|bA|#A|#V→aVa|bVb|#B|#B→aB|bB|#B|#W→B|ε3.14解：添加新起始变元S0, 去掉B→εS0→A S0→AA→BAB|B|εA→BAB|AB|BA|B|εB→00|εB→00去掉A→ε, 去掉A→BS0→A S0→AA→BAB|AB|BA|B|BB A→BAB|AB|BA|00|BBB→00 B→00去掉S0→A, 添加新变元S0→BAB|AB|BA|00|BB S0→VB|AB|BA|UU|BBA→BAB|AB|BA|00|BB A→VB|AB|BA|UU|BBB→00 B→UUV→BAU→03.15 证明上下文无关语言类在并,连接和星号三种正则运算下封闭---答案。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

*
情况 2：对 (V T)* ，若 S ，则中不含 X 。即 X 是不出现在任何句型中的字符。这种情况下的无用符号 X 既可能是变量，也可以是终极符。算法 3.2 是寻找这种不出现在任何句型中的变量或终极符的算法。这个算法的基本思想是 1）所有出现在 S 产生式右边的变量和终极符都可以出现在句型中； 2）若已知 A 是可以出现在句型中的变量，则所有出现在 A 产生式右边的变量和终极符都是可以出现在句型中的字符； 3）反复使用 2）直到找不出新的字符为止，，剩下的变量或终极符就是那些不出现在任何句型中的字符。在文法中删去无用字符时，同时要删去包含这些字符的产生式。
* *
3.2.3 最左推导与最右推导
再进一步考察前面给出的文法 G 和 G 的一个推导树 Tr 。这个推导树产生的终极符串为 aabbaa 。前面我们给出了这个终极符串的一个推导。另外，我们还可以给出这个串的另一些推导，如： S aAS aAa aSbAa aSbbaa aabbaa (3.2) S aAS aSbAS aSbbaS aSbbaa aabbaa (3.3) 推导式（3.1）（3.2）和（3.3）的推导过程显见是不一样的。不过、仔细观察可以发现，它们都是通过 5 步推导从 S 推导出 aabbaa 。而且这 3 个推导过程中，所使用到的产生式（包括每个产生式的重复使用次数）都是一样的，只是顺序不一样而已。（3.1）式的推导过程中，每一步推导都是对句型中最左边的变量使用产生式；（3.2）式的推导过程中，每一步推导都是对句型中最右边的变量使用产生式；（3.3）式的推导过程中，各步推导使用产生式的变量在句型中的位置则是随意的。
3）若节点 n 的标注符号为，则 n 必为叶节点，且是其父节点的唯一子节点。例 3.3 设有一个上下文无关文法 G ({S , A},{a, b}; P, S ) P: S AS | a 其中 A SbA | SS | ba 下面给出的是文法 G 的一个推导树
1
S A
4
a 2 S 5
3.3 上下文无关文法的化简
对于一个上下文无关语言 L ，可能有多个上下文无关文法产生它。这其中可能不是最简的。所谓不是最简的，是指文法中包含无用的字符或无用的产生式。本节就是讨论怎样在一个文法中删去无用的字符和无用的产生式。
3.3.1
无用字符
设 G (V , T ; P, S ) 为一个 CFG，字符 X V T ，如果存在一个推导：
上下文无关文法最早是用于描述自然语言的一些规则。例如，自然语言中的一个句子可以通过下列规则来确定：句子名词短语动词短语
名词短语形容词名词短语名词短语名词然而，对于自然语言，这种描述并不是完美无缺的。还涉及到语义是否明确的问题（例如“桌子唱歌”虽然符合上述规则，语义却不够明确）。把这种规则应用于计算机语言，却更为合适。例如，用 Backus 范式来表示程序设计语言的规则
算术表达式算术表达式算术表达式算术表达式算术表达式算术表达式算术表达式算术表达式算术表达式 id

这些规则比用自然语言来说明“什么是算术表达式”更为明确、清晰和简明。定义 3.1 设 G (V , T ; P, S ) 为一个文法，如果 G 中的产生式都有 A A V , (V T )*
例 3.1 构造一个上下文无关文法 G ，它所产生的语言为字母表 {0,1}上的全体回文的集合，即
L(G) w {0,1}*| w wR
(3.1)
为求解这个问题，我们先分析一下回文的特点。当一个回文 w 的长度为偶数时，设| w | 2n, w的第 n 个字符与第 n 1个字符相同，第 n 1个字符与第 n 2 个字符相同，„余类推。当回文 w 的长度为奇数时，设 | w | 2n 1，那么 w 的第 n 1个字符可以是字母表中的任意一个字符，第 n 个字符与第 n 2 个字符相同，„余类推。因此，我们只须找出长度为偶数的最短回文和长度为奇数的最短回文。然后从这些出发，通过产生式规则，在任意一个回文的前后都加上相同的字符，就可以得到一个新的回文。这样可以得到全体回文。
3.2 推导树（derivation tree）
对于一个上下文无关文法 G ，如果 w L(G) ，那么从初始符 S 推导出 w 的过程可以用一个节点带标注符号的树来描述。
3.2.1
推导树的定义和例子
定义 3.2 设 G (V , T ; P, S ) 为一个上下文无关文法， G 的推导树是指满足下列条件的一个节点带标注符号的树Tr ： 1）Tr 中的每个节点都有一个标注符号，其中根节点的标注符号为初始符 S ，内节点的标注符号为变量集V 的元素，叶节点的标注符号为终极符集T 的元素或者空串； 2）若内节点 n 的标注符号为 A ， n 的子节点从左到右依次为 n1 , n2 ,, nk ，它们的标注符号分别为 X1 , X 2 ,, X k ，那么 A X1 X 2 X k 是 G 的一个产生式；
S X w
* *
, (V T ) *
w T *
那么就说 X 是文法 G 中的一个有用字符，否则说 X 是一个无用字符。
上下文无关文法化简的任务之一，就是要删去文法中出现的无用字符。对文法中的无用字符，可以分成两种情况来讨论：情况 1 ：对 A V ，不存在 w T * 使得 A w 。这种情况的无用字符只可能是变量。算法 3.1 是找出那些不能推导出终极符串的变量的算法。这个算法的基本思想是： 1）若存在产生式 A w， w T *）（，那么从 A 可以推导出终极符串； 2）若已求出部分可以推导出终极符串的变量，且有产生式 A ，其中只含终极符和那些已知可推导出终极符串的变量，则从 A 也可以推导出终极符串； 3）反复使用 2）直到再也不能求出新的可推出终极符串的，变量。剩下的变量就为所求。
形式语言与自动机理论
2010-2011
第3章上下文无关文法与下推自动机
本章讨论第 2 种类型的语言：上下文无关语言（context-free language）
上下文无关文法上下文无关语言下推自动机
上下文无关语言在程序设计语言和编译程序中有广泛的应用。
3.1 上下文无关文法（context-free grammer）
定义 3.3
设 G (V , T ; P, S ) 为一个 CFG， L(G) 。如果在 S x x
*
的推导过程中，每一步都是对句型中最右（左）边的变量使用产生式，则称这个推导为最右（左）推导。
3.2.4
上下文无关文法的歧义性
再次考察前面的文法 G 。显然有多个推导过程推出 L(G) 中的一个串 aabbaa ，但它们所对应的推导树都是一样的，都是前面给出的Tr 。换句话，我们可以说 aabbaa 只一个推导树。有些 CFG 中，可能有这样的情况：一个终极符串对应两个（或两个以上）不同的推导树。例如， G1 ({S , A, B},{a, b}; P, S )
S a S a A b b S A a a
3.2.2
推导树与推导的关系
上面给出的文法 G 的一个推导树，这个推导树的叶节点的标注符号从左到右按顺序排成的终极符串为 aabbaa 。我们就说 aabbaa 是由这个推导树产生的。另一方面， G 中也存在一个推导 S aAS aSbAS aabAS aabbaS aabbaa (3.1) 从 S 推导出串 aabbaa 。这种推导树与推导之间的关系不是偶然的。下面的定理说明这一点。定理 3.1 设 G (V , T ; P, S ) 为一个上下文无关文法， x T *。那么 S x 当且仅当存在一个推导树产生 x 。书上对这个定理给出了证明，这里不作细述。只是顺便指出，书上证明的是一个更强的结论：对任意变量 A ： A x 当且仅当存在一个 A 树（以 A 为根节点标注符号的子推导树）产生 S 。由于 S 也是一个变量，因此所证明的结论涵盖了定理的内容。
把上述分析归纳为 3 条： 1）空串是回文，0 是回文，1 也是回文； 2）如果 w 是回文，那么 0w0 是回文，1w1也是回文； 3）除此之外，字母表{0,1}上再没有其它回文。把这 3 点转化为形式表示，就可以得到产生{0,1}上的全体回文的集合（即（3.1））的文法如下： G ({S},{0,1}, P, S ) P: S | 0 |1 S 0S 0 |1S1 例 3.2 自己阅读（堂上给 5 分钟阅读）
其中
P:
S SA | SB | a Ab B b
容易知道 ab L(G) ，而且这个终极符串可以由两个不同的推导树产生：
S
S
S
A
S

B
a
b
a
b
我们说它是两个不同的推导树，是因为它们所对应的推导过程中所使用的产生式是不一样的。左边的推导树对应的产生式有 S S A S , a 和 A ；b 右边的推导树对应的产生式有 S S B S , 和 a B 。b 由此，可以引出上下文无关文法和上下文无关语言的歧义性定义。定义 3.4 设 G (V , T ; P, S ) 为一个 CFG。若存在 x L(G) ，使得有两个不同的推导树产生 x ，则称 G 为一个歧义文法。定义设 L 为一个 CFL，如果产生 L 的每一个 CFG 都是歧义文法，则称 L 为一个固有歧义的 CFL。
这个文法共有 8 个产生式，每个产生式都有定义 3.1 所规定的形式。因此，它是一个上下文无关文法。它所产生的语言（第 1 章已证明）：
L(G2 ) w {a, b} | w中a的个数等于b的个数