编译原理第十章目标程序运行时的存储组织

第十章目标程序运行时的存储组织

课前索引

【课前思考】

◇回顾一般的编译过程,能否找到本章所讲内容在哪个过程？

◇为什么编译程序要考虑目标程序运行时存储区的管理和组织？

◇请归纳C语言和PASCAL语言的程序结构和数据类型的不同点

【学习目标】

全面了解目标程序运行时存储区的整体布局；每种存储区的组织方式和管理方法；并通过实例着重掌握，对允许过程嵌套定义的情况，栈式动态存储分配的组织方式和运行时进栈退栈的活动实现方法。

【学习指南】

在代码生成前，编译程序必须进行目标程序运行环境的配置和数据空间的分配。一般来讲，假如编译程序从操作系统中得到一块存储区以使目标程序在其上运行，该存储区需容纳生成的目标代码和目标代码运行时的数据空间。我们这里所说的运行时的存储区组织，是指目标程序运行时的数据空间的管理和组织。

【难重点】

◇目标程序运行时，存储区域的整体布局，以及各区域的作用。

◇各种不同类型的数据表示。

◇允许过程嵌套定义的情况，栈式动态分配的组织管理。

◇对过程的调用，进入和退出时，栈式动态分配的工作原理。

◇过程活动纪录的各项内容和它们的作用，以及活动纪录的组织方式。

◇过程参数传递的不同方式。

【知识结构】

从逻辑上看，在代码生成前，编译程序必须进行目标程序运行环境的配置和数据空间的分配。一般来讲，假如编译程序从操作系统中得到一块存储区以使目标程序在其上运行，该存储区需容纳生成的目标代码和目标代码运行时的数据空间。数据空间应包括：用户定义的各种类型的数据对象（变量和常数）所需的存储空间，作为保留中间结果和传递参数的临时工作单元，调用过程时所需的连接单元，以及组织输入/输出所需的缓冲区。目标代码所占用空间的大小在编译时能确定。有些数据对象所占用的空间也能在编译时确定，其地址可以编译进目标代码中。而有些数据对象具有可变体积和待分配性质，无法在编译时确定存储空间的位置。

因此运行时的存储区常常划分成：目标区、静态数据区、栈区和堆区，如图10.1就是一种典型划分，代码(code)区用以存放目标代码，这是固定长度的，即编译时能确定的；静态数据区(static data)用以存放编译时能确定所占用空间的数据；堆栈区(stack and heap)

用于可变数据以及管理过程活动的控制信息。

图10.1 目标程序运行时存储区的典型划分

code

static data

stack

↓

↑

heap

所谓数据空间的分配，本质上看，是将程序中的每个名字与一个存储位置关联起来，该存储位置用以容纳名字的值。编译程序分配目标程序运行时的数据空间的基本依据是程序语言设计时对程序运行中存储空间的使用和管理办法的规定。我们知道，即便有些名字在程序中只声明了一次，但该名字可能对应运行时不同的存储位置，比如，一个递归调用的过程，在执行时，其同一个局部名字应该对应不同的运行空间位置以容纳每次执行时的值。在程序设计语言语义学中，使用术语environment表示将一个名字映射到一个存储位置的函数，术语state表示存储位置到值的映射，使用术语

environment函数表示

env: N→S (N到S的映射)

如图10.2所示。

图10.2 名字到存储、到值的映射

编译程序分配目标程序运行时的数据空间的基本依据是程序语言设计时对程序运行中存储空间的使用和管理办法的规定。决定存储管理复杂程度的因素--源语言本身，比如源语言允许的数据类型有多少？语言中允许的数据项是静态确定还是动态确定？程序结构有什么特点，是段结构还是分程序结构？过程定义是否允许嵌套？等等。

源语言的结构特点、源语言的数据类型、源语言中决定名字作用域的规则等因素影响存储空间的管理和组织的复杂程度，决定数据空间分配的基本策略。

本章将介绍存储空间的使用管理方法，重点针对栈式动态存储分配的实现进行讨论。

10.1 数据空间的三种不同使用方法和管理方法

数据空间的使用和管理方法分成三种：静态存储分配、栈式动态存储分配和堆式动态存储分配。

10.1.1 静态存储分配

这种存储分配非常简单，如果在编译时能确定目标程序运行中所需的全部数据空间的大小，编译时安排好目标程序运行时的全部数据空间，确定每个数据对象的存储位置，称这种分配策略为静态存储分配。如果一个名字的性质通过说明语句或隐式或显式规则而定义，则称这种性质是"静态"确定的。

像FORTRAN这样的语言，其程序是段结构的，即由主程序段和若干子程序段组成。各程序段中定义的名字一般是彼此独立的（除公共块和等价语句说明的名字以外），也即各段的数据对象名的作用域在各段中，同一个名字在不同的程序段表示不同的存储单元，不会在不同段间互相引用、赋值。另外它的每个数据名所需的存储空间大小都是常量（即不许含可变体积的数据，如可变数组），且所有数据名的性质是完全确定的。这样，整个程序所需数据空间的总量在编译时完全确定，从而每个数据名的地址就可静态进行分配。换句话说，一旦存储空间的某个位置分配给了某个数据名（关联起来）之后，在目标程序的整个运行过程中，此位置（地址）就属于该数据名了。

图10.4给出一个FORTRAN 77的程序例子。在图10.5中描述了该程序中局部变量的静态存储位置。

图10.4 一个FORTRAN 77的例子

(1) PROGRAM SUME

(2) CHARACTER * 50 BUF //程序体所拥有的静态量BUF

(3) INTEGER NEXT //程序体所拥有的静态量NEXT

(4) CHARACTER C, PRDUCE //程序体所拥有的静态量C

(5) DATA NEXT /1/, BUF / ' ' /

(6) 6 C=PRDUCE()

(7)BUF(NEXT:NEXT)=C

(8) NEXT=NEXT+1

(9)IF(C .EN. ' ' )GOTO 6

(10)WRITE ( *,' (A)' )BUF

(11) END

(12) CHARACTER FUNCTION PRDUCE()

(13) CHARACTER * 80 BUFFER

(14) INTEGER NEXT

(15) SAVE BUFFER, NEXT

//PRDUCE函数体所拥有的静态量BUFFER, NEXT

(16) DATA NEXT /81/

(17) IF (NEXT .GT.80)THEN

(18) READ ( *,' (A)' )BUFFER

(19) NEXT=1

(20) END IF

(21)PRDUCE=BUFFER(NEXT:NEXT)

(22) NEXT=NEXT+1

(23)END

图10.5 FORTRAN77的静态存储分配

10.1.2 动态存储分配

如果一个程序设计语言允许递归过程、可变数组或允许用户自由申请和释放空间，那么，就需要采用动态存储管理技术。因为对于这种程序在编译时无法知道它在运行时需要多大的存储空间，它所需要的数据空间的大小需待程序运行时动态地确定。

若一个数组所需的存储空间的大小在编译时就已知道，则称它为确定数组，否则称为可变数组。

例:

procedure A(m,n:integer);

begin real z;

array B[m:n];

begin

· ·

· end;

end;

B[m:n] 为可变数组，B的上下界是过程A的实参，A被调用时才能确定。动态存储管理技术有两种方式：栈式（stack）和堆式（heap）。下面简述这两种方式的原则。

1.栈式动态存储分配

这种分配策略是将整个程序的数据空间设计为一个栈。在具有递归结构的语言程序中，每当调用一个过程时，它所需的数据空间就分配在栈顶，每当过程工作结束时就释放这部分空间。过程所需的数据空间包括两部分：一部分是生存期在本过程这次活动中的数据对象，如局部变量、参数单元、临时变量等等；另一部分则是用以管理过程活动的记录信息。即当一次过程调用出现时，调用该过程的那个过程的活动即被中断，当前机器的状态信息，诸如程序计数器（返回地址）、寄存器的值等等，也都必须保留在栈中。当控制从调用返回时，便根据栈中记录的信息恢复机器状态，使该过程的活动继续进行。至于在这种分配策略下，如何实现动态地分配和释放一个过程的数据空间，如何实现对非局部变量的引用、参数传递以及对可变数据结构（如可变数组）的空间分配办法等等，将在后面几节给予详细讨论。

栈式动态存储分配策略适用于PASCAL，C，ALGOL之类具有递归结构的语言的实现。2．堆式动态存储分配

如果一个程序语言提供用户自由地申请数据空间和退还数据空间的机制（如Ｃ++中的

new，delete，PASCAL的new，等机制），或者不仅有过程而且有进程的程序结构的情况下，空间的使用未必服?quot;先申请后释放，后申请先释放"的原则，那么栈式的动态分配方案就不适用了。通常使用一种称为堆式的动态存储分配方案。

Pascal语言中，标准过程new能够动态建立一个新记录，它实际上是从未使用的自由区（空闲空间）中找一个大小合适的存储空间并相应地置上指针。标准过程dispose是释放记录new与dispose不断改变着堆存储器的使用情况。

这种分配方式的存储管理技术甚为复杂，我们这里举出这种分配方法必须考虑的几个问题。

首先，当运行程序要求一块体积为N的空同时，我们应该分配哪一块给它呢？理论上说，应从比N稍大一点的一个空闲块中取出N个单元，以便使大的空闲块派更大的用场。但这种做法较麻烦。因此，常常仍采用"先碰上哪块比N大就从其中分出N个单元"的原则。但不论采用什么原则，整个大存区在一个定时间之后必然会变面零碎不堪。总有一个时候会出现变样的情形：运行程序要求一块体积为N的空间，但发现没有比N大的空闲块了，然而所有空闲块的总和却要比N大得多！出现这种情形时怎么办呢？这是一个比前面的问题难得多的问题。解决办法似乎很简单，这就是，把所有空闲块连接在一起，形成一片可分配的连续空间。这里主要问题是，我们必须调整运行程序对各占用块的全部引用点。

还有，如果运行程序要求一块体积为N的空间，但所有空闲块的总和也不够N，那又应怎么办呢？有的管理系统采用一种吊做废品回收的办法来对付这种局面。即寻找那些运行程序业己无用但尚未释放在占用块，或者那些行程序目前很少使用的点用块，把这此占用块收回来，重新分配。但是，我们如何知道哪些块运行时在使用或者目前很少使用呢？即便知道了，一经收回后运行程序在某个时候又要用它时又应该怎么办呢？要使用废品回收技术，除了在语言上要有明确的具体限制外，还需要有特别的硬件措施，否则回收几乎不能实现。

堆式动态储分配的实现通常有如下三种途径：

1 定长块管理

堆式动态储分配最简单的实现是按定长块进行。初始化时，将堆存储空间分成长度相等的若干块，每块中指定一个链域，按照邻块的顺序把所有块链成一个链表，用指针available指向链表中的第一块。

分配时每次都分配指针available所指的块，然后available指向相邻的下一块。归还时，把所归还的块插入链表。考虑插入方便，可以把所归还的块插在available所指的块之前，然后available指向新归还的块。

2 变长块管理

除了按定长块进行分配之外，还可以根据需要分配长度不同的存储块，可以随要求而变。按这种方法，初始化时存储空间是一个整块。按照用户的需要，分配时先是从一个整块里分割出满足需要的一小块，以后，归还时，如果新归还的块能和现有的空间能合并，则合并成一块；如果不能和任何空闲块合并，则可以把空闲块链成一个链表。再进行分配时，从空闲块链表中找出满足需要的一块，或者整块分配出去，或者从该块上分割一小块分配出去。若空闲块表中有若干个满足需要的空闲块时，该分配哪一块呢？通常有三种不同的分配策：

①首次满足去：只要在空闲块链表中找到满足需要的一块，就进行分配。如果该块很大，则按申请的大小进行分割，剩余的块仍留在空闲块链表中；如果该块不很大，比如说，比申请的块大不了几个字节，则整块分配出去，以免使空闲链表中留下诈多无用的小碎块。

②最优满足法：将空闲块链表中一个不小于申请块且最接近于申请块的空闲块分配给用户，则系统在分配前首先要对空闲块链表从头至尾描一遍，然后从中找出一块不小于申

请块且最接近于申请块的空闲块分配，在用最优满足法进行分配时，为避免每次分配都要扫描整个链表，通常将空闲块链表空间的大小从小到大排序。这样，只要找到第一块大小申请块的空闲块即可进行分配。当然，在回收时变需将释放在空闲块插入到链表的适当位置上去。

③最差满足法：将空闲块表中不小于申请块且是最大的空闲的一部全分配给用户。此时的空闲块链表按空闲的块的大小从大到小排序。这样每次分配无需查找，只需从链表中删除第一个结点，并将其中一部分分配给用户，而其它部分作为一个新的结点插入到空闲块表的适当置上去。上述三种分配策略各有所长。一般来说，最优满足法适用于请求分配的内存大小X围较广的系统。因为按最优满足法分配时，总是找大小最接近于请求的空闲块，系统中可能产生一些存储量很小而无法利用的小片内存，事时也保留那些很大的内存块以备响应后面可能发生的内存量较大的请求。反之，由于最差满足法每次都是从内存最大的结点开始分配，从而使链表中的结点趋于均匀。因此，它适用于请求分配的内存大小X围较窄的系统，而首次满足法的分配是随机的，因此它介于两者之间，通常适用于系统事先不掌握运行期间可能出现的请求分配和释放的信息情况。从时间上来比较，首次满足法在分配时需查询空闲块链表，而回收时仅需插入到表头即可，最差满足法恰好相反，分配时无需查表，回收时则为将新的空闲块插入表中适当的位置，需先进行查找，最优满足法则不论分配与回收，均需查找链表，因此最费时间。

不同的情况应采用不同的方法。通常在选择时需考虑下列因素：用户的要求；请求分配量的大小分布；分配和释放的频率以及效率对系统的重要性等等。

至于存储回收的实现我们这里不进行讨论。

10.2 栈式存储分配的实现

前面提到，使用栈式存储分配策略意味着，运行时每当进入一个过程，就在栈顶为该过程的临时工作单元，局部变量，机器状态及返回地址等信息分配所需的数据空间，当一个过程工作完毕返回时，它在栈顶的数据空间也即释放。本节我们将以三种语言结构为例，详细讨论栈式存储分配的实现。

为讨论方便，首先引入一个术语--过程的活动记录AR(Activation Record)。过程的活动记录是一段连续的存储区，用以存放过程的一次执行所需要的动态信息，这些信息可以如图10.6所示。

图10.6 过程的活动记录

对它们的简单描述如下：

①临时工作单元：比如计算表达式过程中需存放中间结果用的临时值单元。

②局部变量：一个过程的局部变量。

③机器状态信息：保存该过程执行前关于机器状态的信息，诸如程序计数器、寄存器的值，这些值都需要在控制从该过程返回时给予恢复。

④存取链：用以存取非局部变量，这些变量存放于其它过程的活动记录中。并不是所有语言需要该信息。

⑤控制链：指向调用该过程的那个过程的活动记录，这也不是所有语言都需要的。

⑥实参：也称形式单元，由调用过程向该被调过程提供实参的值（或地址）。当然在实际编译程序中，也常常使用机器寄存器传递实参。

⑦返回地址：保存该被调过程返回后的地址。

这些域的大小在编译时是已知的，如果局部变量中包含有可变数组，那么则采用第9.2节中所介绍的内情向量，将内情向量置于过程活动记录中。另外，有些语言的编译程序还将参数个数存放于活动记录中，以便进行参数个数的检查。

10.2.1 简单的栈式存储分配的实现

首先从一种最简单的程序设计语言结构讲起：没有分程序结构，过程定义不嵌套，但允许过程递归调用。

其程序结构如图10.7所示。

编译原理 第十章 目标程序运行时的存储组织

编译原理第十章目标程序运行时的存储组织