形式语言基本知识.

合集下载

形式语言基本知识.

基本概念(续)
• 4. 符号串的运算
– a. 字符串的连接：
• 字符串αβ称为字符串α和β的连接
– 符号串的长度 :符号串中符号的个数，例如: 某符号串中有m个符号,则称其长度为m，表示为｜x｜=m，如001110的长度是6。 – 空符号串: 即不包含任何符号的符号串，用ε表示，其长度为0，即｜ε｜=0。用Σ *表示Σ上所有的符号串的全体(长度为0，1， 2，…)。
P , E)
(i+i)*i的最左推导过程： E E*E (E)*E (E + E)*E (i + E)*E (i + i)*E (i + i)*i 最右推导过程： E E*E E*i (E + E)*i (E+ i)*i (i + i)*i
2.3 语法树和文法的二义性
• 语法树：推导的形式化表示，有助于理解句子语法结构的层次 • 每个结点都有一个标记，该标记属字母集中的一个符号，根由开始符号Ｓ标记。
• 当某个非终结符被它的某个候选式所替换时，就产生相应的下一层的结点，候选式中自左至右的每个符号对应一个新的结点，并标记它，画出其与父结点之间的连线。
例：对文法G = ({E}, {i, +, *, (, ) } , P , E) P： E E + E | E * E | ( E ) | i 句子(i+i)*i 的语法树： • 在语法树的推导过程中的任何时刻，没有后代的端末结点自左至右排列起来就是一个句型
• 在推导之前确定推导的顺序，是对句子进行确定性分析所必须的 • 最左推导: 在整个推导过程中,任何一步推导 α =>β 都是对α 中最左边的非终结符进行替换。 • 最右推导:

第2章形式语言的基本知识

例：Σ ={a,b} Σ *={ε ,a,b,aa,ab,ba,bb,aaa,aab,…} Σ +={a,b,aa,ab,ba,bb,aaa,aab,…}
• 7.符号串的前缀：s为符号串,把s从尾部删去若干个（包括0个）符号后所余下的部分称为s的前缀。
符号串abc的前缀是什么？
• 8.符号串的后缀：s为符号串,把s从前部删去若干个（包括0个）符号后所余下的部分称为s的后缀。
文法
<赋值语句>::=<标识符>“=”<表达式> <表达式>::=<表达式>“+”<表达式> | <表达式>“*”<表达式 > <表达式>::=“(”<表达式>“)” | <标识符> | <整数> | < 实数>
赋值语句
标识符
表达式
=
y
表达式 + 表达式
y =x+r*6
标识符表达式
表达式
*
x 标识符
推导方法：从一个要识别的符号开始推导，即用相应规则的右部来替代规则的左部，每次仅用一条规则去进行推导。
<句子> => <主语><谓语> => < 代词><谓语>
<句子>::=<主语><谓语> <主语>::=<代词>|<名词> <代词> ::=你|我|他 <名词>::= 王民|大学生|工人|英语 <谓语>::=<动词><直接宾语> <动词>::=是|学习 <直接宾语>::=<代词>|<名词>

第二章形式语言概论

语言的有穷表示有两个途经
生成方式（文法）
语言中的每个句子可以用严格定义的规则来构造。
识别方式（自动机）
用一个过程，当输入的一任意串属于语言时，该过程经有限次计算后就会停止并回答“是”，若不属于，要么能停止并回答“不是”，要么永远继续下去。
§2.2 文法及其分类
2.2.1 文法的定义
A*＝∪Ai(i≥0)＝A0∪A1∪A2∪A3∪…
例如：A＝{a,b}
则A*＝{ε,a,b,aa,ab,ba,bb, aaa,aab,aba,abb, …}
A*与A+的关系：
A*＝A0∪A+
A+=AA*＝A*A
由此得出结论：n语言是由句子组成的集合,是由一组符号所构成的集合。换言之,字母表S上的一个语言是S上的一些符号串的集合。(字母表S上的每个语言是S*的一个子集)。
的规则（或说是P中的一个产生式），和是V*中的任意符号，若有符号串v,w，满足v= ，w= ，则称v （应用规则）直接产生w，或v直接推导出w，或 w是v的直接推导，或w直接归约到v，记作v w。
例：
文法G[S]由如下规则组成： SA A AB|B B 0|1|2|…|9 其中S是文法 G [S] 的识别符号，该文法的字母表为：V={S,A, B,0,1,…,9} 用这些规则和直接推导的定义可以推出所有正整数，如可推导出24：
P15~P16例2.6~例2.10的文法类型。

2型文法可改写成3型文法。
例：将如下的上下文无关文法改写为等价的正规文法。 G[S]：SabcA AbcB Ba 改写后G[S]： AbE SaM EcB MbN Ba NcA
文法分类的意义
文法分类对于实现程序设计语言的编译程序具有重要意义。

编译原理实践2—形式语言基本知识

问题一：回溯Backtracking ---〉编译器效率严重低下，一般都在指数的数量级上，只有理论上的意义而无实际意义问题二：文法的左递归性例：S→Sa ---〉可能陷入无限循环怎么办？
3.简单辨认算法
简单辨认算法（LL(1)分析法）：采用自顶向下的分析方法，语句分析的每个步骤仅允许由当时的分析状态（追踪的目标）和下一个要读入的符号决定，不允许有回溯的步骤。 LL(1) ：第一个L是指对输入符号串的分析总是自左(left)向右，第二个L是指对生成式目标的追踪也是自左(left)向右，括号中的1是指不论目标符号的追踪，还是对终结符号的读入都只是一个符号，从而决定生成规则的选择。
20世纪50年代语言学家noamchomsky乔姆斯基提出了一个用来描述语言的数学系统把用一组数学符号和规则来描述语言的方式叫做形式描述而把能用数学符号和规则描述的语言称为形式语言
编译原理实践 --形式语言基本知识
编译过程的核心就是翻译，这是一个十分复杂的信息加工过程，其加工的对象是用某种高级语言编写的程序。对于一个英文翻译来说，首先必须对英文有很深的了解，掌握英文的语法和词汇，才能进行翻译。而编译程序的任务就是将高级语言编写的程序翻译成机器语言程序，因此，在学习和掌握编译技术之前，就需要对高级语言有深刻的了解。
自底向上：从所给符号串x开始，在其中寻找与文法的某条规则右部相匹配的子串，并用该规则的左部取代此子串，重复此过程，步步向上规约，最后设法将符号串x规约到文法的起始符号Z。本课程对自底向上不做进一步讨论
自顶向下的语法分析的一般过程
例：文法G： S → cAd A → ab A→ a 识别输入串w=cabd是否为该文法的句子
编译原理实践 --语句分析

第二章形式语言的基本知识

第二章形式语言的基本知识第二章形式语言的基本知识2-1什么是形式语言2-2字母表和符号串的基本概念2-3用文法产生法描述语言2.3.1通过文法产生语言的方式2.3.2为已知的语言构造相应的文法2-4句型分析2.4.1短语和简单短语2.4.2文法的二义性和语言的二义性2-5文法和语言的分类2-6文法的其他表示方法2-7C--语言的形式定义2-8小结2-1什么是形式语言2-2字母表和符号串的基本概念2-3用文法产生法描述语言2.3.1通过文法产生语言的方式2.3.2为已知的语言构造相应的文法2-4句型分析2.4.1短语和简单短语2.4.2文法的二义性和语言的二义性2-5文法和语言的分类2-6文法的其他表示方法2-7C--语言的形式定义2-8小结2- 1什么是形式语言一、形式语言的提出目标程序源程序编译程序如何确切地描述或定义高级程序设计语言形式语言2-1什么是形式语言一、形式语言的提出形式语言是研究符号的语言，它仅考虑符号间的关系，不考虑含义。

即用数学方法（主要是代数方法）对语言进行形式化描述。

从非形式化的角度来讲，语言是人们交流思想的工具，从语言学本身来说，也是一门古老的科学，在很早以前人们就用数学方法开始对语言学进行研究。

1847年，俄国数学家布拉库夫斯基就用概率论进行语法词源及语言历史比较研究。

1904年，波兰语言学家指出，语言学家不仅要掌握初等数学而且还要掌握高等数学。

1931年，俄国数学家就用概率论研究俄语元音字母和辅音字母序列。

特别是1946年电子计算机问世以来更加促使数学和语言学结合研究。

2-1什么是形式语言一、形式语言的提出1956年，28岁的N.Chomsky（乔姆斯基）在《信息论杂志》上发表了《语言描写的三个模型》，他首次采用Markov模型来描写自然语言，对于有限状态模型、短语结构模型和转换模型等三个模型，从语言学和数学的角度进行了理论上的分析，建立了形式语言理论，具有划时代意义。

第2章形式语言的基础知识

字符串：字母表中符号的有穷序列。
字符串的长度：组成该字符串的符号的个数。字符串的长度记作||。例如字符串banana的长度为6。空字符串记作，由0个符号组成，故||=0。

字符串的前缀：该字符串领头的若干符号。字符串的后缀：该字符串结尾的若干符号。例如，字符串abc具有前缀，a，ab和abc；其后缀有，c，bc，abc。
S aSBE aaBEBE aabEBE aabBEE aabbEE aabbeE aabbee
(SaSBE) (SaBE) (aBab ) (EBBE ) (bBbb) (bEbe) (eEee)
S aSBEaaSBEBEaaaBEBEBE
第2章形式语言的基础知识
内容提要

形式语言文法和语言分析树
2.1 形式语言

符号和字符串

符号：抽象实体，不加以形式定义。就像几何学中的“点”。或者叫原子概念，凭直觉去体会。字母表：有限个符号的集合。字母表一般用记。例如,英语的字母表 ={a,b,…,z,A,B,…,Z}；汉语的字母表由汉字构成。

例2.1 文法G=(VN, VT, P, S)，其中VN={S}， VT={0,1}，P={S0S1, S01}。

例2.2 文法G=(VN, VT, P, S)，其中VN={<标识符>,<字母>, <数字>}，VT={a,,z,0,,9}， P={<标识符><字母> <标识符><标识符><字母> <标识符><标识符><数字> <字母>a||z <数字>0||9} S=<标识符>

形式语言学_Ch1_基础知识

A∪B={a|a∈A或者a∈B}
n
A1∪A2∪…∪An={a|i，1≤i≤n，使得a∈Ai} i1 Ai
A1∪A2∪…∪An ∪…={a|i，i∈N,使得a∈Ai} Ai i 1
当一个集合中的元素都是集合时,我们将这样的集合称为集族. 设S是一个集族,则S中的所有元素的并为
A {a | A S, a A}
本专业人员4种基本的专业能力计算思维能力算法的设计与分析能力程序设计和实现能力计算机软硬件系统的认知、分析、设计与应用能力
计算思维能力逻辑思维能力和抽象思维能力构造模型对问题进行形式化描述理解和处理形式模型
课程目的和基本要求
知识掌握正则语言、上下文无关语言的文法、识别模型及其基本性质、图灵机的基本知识。
形式语言与自动机理论的产生与作用
语言学家乔姆斯基，最初从产生语言的角度研究语言。 1956年，他将语言L定义为
一个字母表∩中的字母组成的一些串的集合： L∩*。字母表上按照一定的规则定义一个文法(grammar)，该文法所能产生的所有句子组成的集合就是该文法产生的语言。
形式语言与自动机理论的产生与作用
A-B={a|a∈A且aB} ‚-‛为减(差)运算符，A-B读作A减B
⑴ A-A=Φ ⑵ A-Φ=A
⑶ A-B ≠ B-A
⑷ A-B=A iff A∩B=Φ
⑸ A∩(B-C)=(A∩B)-(A∩C) ⑹ |A-B|≤|A|
对称差(symmetric difference)
属于A但不属于B，属于B但不属于A的所有元素组成的集合叫A与B的对称差，记作A⊕B
1951年到1956年间，克林(Kleene) 在研究神经细胞中，从识别的角度，建立了识别语言的系统——有穷状态自动机。 1959年，乔姆斯基发现文法和自动机分别从生成和识别的角度去表达语言，而且证明了文法与自动机的等价性，这一成果被认为是将形式语言臵于了数学的光芒之下，使得形式语言真正诞生了。

第二章形式语言基础

1
第二章形式语言基础知识
§2.1 引言
一、形式语言提出二、语言描述方法八、递归文法九、短语和简单短语十、最左推导和最右推导十一、文法二义性
§2.2 用文法生成法对语言进行描述
一、巴科斯范式二、语法和语义三、语法树
§2.4 语法分析初步
一、自顶向下语法分析二、自底向上语法分析
§2.3 形式语言基本概念和术语
§2.1 引言
一、形式语言提出二、语言描述方法八、递归文法九、短语和简单短语十、最左推导和最右推导十一、文法二义性
§2.2 用文法生成法对语言进行描述
一、巴科斯范式二、语法和语义三、语法树
§2.4 语法分析初步
一、自顶向下语法分析二、自底向上语法分析
§2.3 形式语言基本概念和术语
9
3. 自动机识别法：用自动机对语言中的句子进行识别，自动机是描述离散变量的一个系统（数学模型），因在形式语言中称为识别器，也可看成是一个识别程序。不同语言对应不同自动机，对应某个语言的自动机能接受该语言的句子，否则不接受。
下面我们着重讨论用文法生成法来描述语言。
10
第二章形式语言基础知识
三、语法树
除了上面可以根据语言语法规则来推导出句子，还可以用图解形式来表示。以图解（树）形式来描述句子语法结构关系，称语法树。
26
句子 the man has a book的推导过程及对应的语法树
<句子>
27
句子 the man has a book的推导过程及对应的语法树
<句子> <主语> <谓语>
16
巴科斯范式是描述语法规则的一种表示方法，它是由巴科斯为了描述 ALGOL 语言在 ALGOL60 报告中首先提出的。采用这种形式定义语法规则，可以用简洁的公式把各种语法规则严格而清晰描述出来。例如，在高级语言中大家所熟知的〈标识符〉这种语法成分，它用巴科斯范式描述为: 〈标识符〉∷=〈字母〉|〈标识符〉〈字母〉|〈标识符〉〈数字〉〈字母〉∷= A|B|C|D|…|Z 〈数字〉∷= 0|1|2|…|9 这样便刻画出了〈标识符〉是以字母开始的一串字母和数字

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第二章
形式语言基本知识
本章要求
• 主要内容：符号串，文法的概念及分类，语言的定义过程
• 重点掌握：上下文无关文法、推导、句型、句子、语言，语法树、二义性文法、文法的语言生成过程
• 以C和PASCAL为例复习高级语言
– 1 语言的基本字符集的定义(字母, 数字, 界符) – 2 单词集的定义 – 3 数据类型的定义 – 4 表达式的定义 – 5 语句的定义 – 6 程序定义
文法的形式定义(续)
• 一个文法G抽象地表示为四元组 G=（Vn,Vt,P,S） –其中Vn表示非终结符号 –Vt表示终结符号，Vn∪Vt=Ｖ(字母表)， Vn∩Vt=φ –S是开始符号， –P是产生式，形如：α β (α ∈V+且至少含有一个非终结符号，β ∈V*)
–上例中： G=（Vn,Vt,P,<句子>） Vn=（<句子>，<主语>，<谓语>，<代词>，<动词>， <名词>，<直接宾语>） Vt= (我，是，大学生) P =
(1.1)
E (E) (i) E E*E (E)*E (E + E)*E (i + E)*E (i + i)*E (i + i)*i E E E E E (i + i)*i (i + i)*i (E) 0步推导 6步推导 6步推导直接推导
• 句型：设Ｇ(s)是一文法，如果符号串x是从开始符 * 号推导出来的，即有s=>x, 则称x是文法G(s)的一个句型。即: 任何由开始符Ｓ推导出来的符号串都是句型。 • 句子：若x仅由终结符号组成，则称x为G(S)的句子 • 练习文法G：SaAcB | Bd AAaB | c BbScA | b 写出句型aAcbBdcc和句子acabcbbdcc的推导过程。
V={0,1} V* = ? V+ = ?
2.2 上下文无关文法及其语言
• 文法是描述语言的语法结构的形式规则。是一种工具，它可用于严格定义句子的结构；用有穷的规则刻划无穷的集合 • 文法是被用来精确而无歧义地描述语言的句子的构成方式. • 文法描述语言的时候不考虑语言的含义。
引
例1：有如下规则
• 一棵语法树表示了一个句型很多可能的不同推导过程。(包括最左推导和最右推导)
并不是任何情况下一个句型就唯一地对应一棵语法树。
例3： G = ({E}, {i, +, *, (, ) } , P , E)
P： E E + E | E * E | ( E ) | i
句子 ( i * i + i)的语法树： (2) (iE) *E + + (iE) * i + E) (ii) *i + i) (1) E E (E) (E) (E (E* +E) E) (i*E) (E * E+ (iE) *E (i *i +
• 推导: 连续使用产生式右部去替换左部某个非终结符的过程,得到的连续序列称为一个推导。 • 直接推导：又称一步推导(用符号=>表示), 就是用某条规则的右部去替换该规则的左部
几个概念的形式定义
• 直接推导: 如果α β 是文法 G=（Vn,Vt,P,S）的产生式，γ 和δ 是Ｖ*中的任意符号，若有符号串v,w满足： v=γ α δ ,w=γ β δ ,则说v直接产生w，(w是v的直接推导)记作：v=>w 例：S01, 0S0=>0010(直接推导γ ＝０,δ ＝０)
• 如果存在v=>w0=>w1=>w2...=>Wn=w(n>0) ，则称v + 推导出w（长度为n），记作v=>w(至少一步)
* • 若有ｖ=>w或v=w，则记作v=>w(0 步或若干步)
• 例3 : G = ({E}, {i, +, *, (, ) } , P , E) P： E E+E | E*E | (E) | i 表达式(i)和(i+i)*i的推导：
• 集合的运算
– b. Σ*的子集U、V的积：
• UV = {αβ | α∈U & β∈V }长度相加
即: 集合UV中的符号串是由U和V的符号串连接而成。
U = {aa,bb} V={00,11} 则UV=?
– c. 集合的方幂：n个相同符号连接 n 0 •V =VVVV …. V 规定V = {ε} – d. 闭包、正闭包的运算
• 文法G所产生的语言定义为： L(G)={x|S=>x,其中S为文法的开始符号，x∈Vt*} 。即: 一个文法G可以推导出的所有句子构成的一个集合, 就确定了一个语言。
*
• 例2.1 (P30) 考虑文法G1: 它定义了什么语言。
推导过程：S=>bA =>ba
S bA
A aA|a
S AB A aA|a
• 它定义的语言是：
B bB|b
L(G2) = {ambn |m,n≥1}
• 思考：构造一个文法G3使得：
L(G3) = {anbn |n≥1 }
a,b的个数相同,则文法G3为：
S aSb S ab
• 文法等价：
若文法G1和文法G2所产生的语言相同，即L(G1) = L(G2)，则称文法G1和文法G2等价。
例：有如下两个文法，判断它们是否等价？
G1=（{S}，{0}，S，{S0S，S0}） G2=（{S}，{0}，S，{SS0，S0}）对于G1 ：
S0 S0S00 …………… S0S 00S… 000……0
L(G1) = {0n | n≥1}
对于G2： SS0 S00… 000……0 L(G2) = {0n | n≥1} G1G2，但L(G1) = L(G2)，文法G1和G2等价
例
(表示由…组成)
<句子><主语><谓语> <主语><代词>|<名词> <代词>我 <名词>大学生 <谓语><动词><直接宾语> <动词>是 <直接宾语><代词>|<名词>
• 现要求根据如上规则得出句子：我是大学生
<句子>=><主语><谓语> => <代词><谓语> =><代词><动词><直接宾语>=><代词><动词><名词> =>我是大学生
• 符号是该语言能识别的符号，字母表是该语言能识别的所有符号的全体（字符集）。
基本概念(续) • 3. 符号串: 由字母表中的符号组成的任何有穷
序列称为符号串，例如00 11 10 是字母表 =｛0， 1｝上的符号串. 字母表A=｛a,b,c｝上的一些符号串有： a,b,c,ab,aaca等。在符号串中，符号的顺序是很重要的，符号串 ab就不同于ba,abca和aabc也不同。符号串 STR表示“由符号S、T和R，并按此顺序组成.
<句子><主语><谓语> <主语> <代词>|<名词>
<代词> 我
<名词> 大学生 <谓语> <动词><直接宾语> <动词> 是 <直接宾语> <代词>|<名词>
• 产生式的形式为：A α
左部符号，非终结符右部，可以含有非终结符和终结符
又称为一条规则
有时一个产生式不足以描述该语法范畴，就用多个产生式，如算术表达式的描述为：(递归定义)
• 语法树：推导的形式化表示，有助于理解句子语法结构的层次 • 每个结点都有一个标记，该标记属字母集中的一个符号，根由开始符号Ｓ标记。
• 当某个非终结符被它的某个候选式所替换时，就产生相应的下一层的结点，候选式中自左至右的每个符号对应一个新的结点，并标记它，画出其与父结点之间的连线。
例：对文法G = ({E}, {i, +, *, (, ) } , P , E) P： E E + E | E * E | ( E ) | i 句子(i+i)*i 的语法树： • 在语法树的推导过程中的任何时刻，没有后代的端末结点自左至右排列起来就是一个句型
基本概念(续)
• 4. 符号串的运算
– a. 字符串的连接：
• 字符串αβ称为字符串α和β的连接
– 符号串的长度 :符号串中符号的个数，例如: 某符号串中有m个符号,则称其长度为m，表示为｜x｜=m，如001110的长度是6。 – 空符号串: 即不包含任何符号的符号串，用ε表示，其长度为0，即｜ε｜=0。用Σ *表示Σ上所有的符号串的全体(长度为0，1， 2，…)。
• 在推导之前确定推导的顺序，是对句子进行确定性分析所必须的 • 最左推导: 在整个推导过程中,任何一步推导 α =>β 都是对α 中最左边的非终结符进行替换。 • 最右推导:
例3： G = ({E}, {i, +, *, (, ) } , P： E E + E | E * E | ( E ) | i
E E+E | E*E | (E) | i
• 上下文无关文法产生句子的方法:从文法的开始符号出发,反复连续使用产生式,对左边的非终结符进行替换和展开 • 例：表达式定义规则
EE+E EE*E E(E) Ei
( i+i )
E=>( E ) =>( E+E ) =>( i+E ) =>( i + i )

形式语言基本知识.