动态规划基础

（一）、动态规划的基本思想：

动态规划算法通常用于求解具有某种最优性质的问题。在这类问题中，可能会有许多可行解。每一个解都对应于一个值，我们希望找到具有最优值的解。动态规划算法与分治法类似，其基本思想也是将待求解问题分解成若干个子问题，先求解子问题，然后从这些子问题的解得到原问题的解。与分治法不同的是，适合于用动态规划求解的问题，经分解得到子问题往往不是互相独立的。若用分治法来解这类问题，则分解得到的子问题数目太多，有些子问题被重复计算了很多次。如果我们能够保存已解决的子问题的答案，而在需要时再找出已求得的答案，这样就可以避免大量的重复计算，节省时间。我们可以用一个表来记录所有已解的子问题的答案。不管该子问题以后是否被用到，只要它被计算过，就将其结果填入表中。这就是动态规划法的基本思路。具体的动态规划算法多种多样，但它们具有相同的填表格式。

二、设计动态规划法的步骤：

1、找出最优解的性质，并刻画其结构特征；

2、递归地定义最优值（写出动态规划方程）;

3、以自底向上的方式计算出最优值；

4、根据计算最优值时得到的信息，构造一个最优解。

步骤1-3是动态规划算法的基本步骤。在只需要求出最优值的情形，步骤4可以省略，步骤3中记录的信息也较少；若需要求出问题的一个最优解，则必须执行步骤4,步骤3

中记录的信息必须足够多以便构造最优解。

三、动态规划问题的特征：

动态规划算法的有效性依赖于问题本身所具有的两个重要性质：最优子结构性质和子问题重叠性质。

1、最优子结构：当问题的最优解包含了其子问题的最优解时，称该问题具有最优子结构性质。

2、重叠子问题：在用递归算法自顶向下解问题时，每次产生的子问题并不总是新问题，有些子问题被反复计

算多次。动态规划算法正是利用了这种子问题的重叠性质，对每一个子问题只解一次，而后将其解保存在一个表格中，在以后尽可能多地利用这些子问题的解。

（二）、动态规划算法的基本步骤

设计一个标准的动态规划算法，通常可按以下几个步骤进行：

1. 划分阶段：按照问题的时间或空间特征，把问题分为若干个阶段。注意

这若干个阶段一定要是有序的或者是可排序的（即无后向性），否则问题就无法用动态规划求解。

2. 选择状态：将问题发展到各个阶段时所处于的各种客观情况用

不同的状态表示出来。当然，状态的选择要满足无后效性。

3. 确定决策并写出状态转移方程：之所以把这两步放在一起，是因为决策

和状态转移有着天然的联系，状态转移就是根据上一阶段的状态和决策来导出本阶段的状态。所以，如果我们确定了决策，状态转移方程也就写出来了。但事实上，我们常常是反过来做，根据相邻两段的各状态之间的关系来确定决策。

4. 写出规划方程（包括边界条件）：动态规划的基本方程是规划方程的通

用形式化表达式。一般说来，只要阶段、状态、决策和状态转移确定

了，这一步还是比较简单的。

动态规划的主要难点在于理论上的设计，一旦设计完成，实现部分就会非常简单。根据动态规划的基本方程可以直接递归计算最优值，但是一般将其改为递推计算，实现的大体上的框架如下：

标准动态规划的基本框架frame〉

1. 对f n+1(X n+1)初始化；{ 边界条件}

2. for k:=n dow nto 1 do

3. for 每一个X k € X k do

4. for 每一个U k € U(X k) do

begi n

5. f k(x k):= 一个极值；

6. X k+1 :=T k(X k,u k); {

7. t:= ? (f k+1(X k+1),v k(x k,u k));

8. if t 比f k(x k)更优then f 的最优值}

end;

9. t:= 一个极值；

10. for 每一个X1 € X do

状态转移方程｝

基本方程（9）

｝

k(x k):=t; { 计算f k(X k)

oo 或一oo }

11. if f 1(x1)比t 更优then t:=f 1(x1); { 按照10 式求

出最优指标}

12. 输出t;

但是，实际应用当中经常不显式地按照上面步骤设计动态规划，而是按以下几个步骤进行：

1. 分析最优解的性质，并刻划其结构特征。

2. 递归地定义最优值。

3. 以自底向上的方式或自顶向下的记忆化方法(备忘录法)计算出最优值。

4. 根据计算最优值时得到的信息，构造一个最优解。

步骤(1)--(3)是动态规划算法的基本步骤。在只需要求出最优值的情形，步骤⑷可以省略，若需要求出问题的一个最优解，则必须执行步骤(4)。此时，在步骤(3)中计算最优值时，通常需记录更多的信息，以便在步骤(4)中，根据所记录的信息，快速地构造出一个最优解。

(三)、动态规划概述

1. 基本思想：将问题分解为若干小问题，解子问题，然后从子问题得到原问题的解。

2. 特点：将问题分解为子问题，这些子问题往往不相互独立。(如果可以用分治法求解，分解的子问题太多，因此，用分治法时间代价太高，消耗指数时间)

3. 且某些子问题可能被重复多次计算，因此将计算过的子问题的结果保存。一般，放入表中。

4. 应用：往往求解具有某种最优性质的问题，此类问题往往具有多个解，我们要找到具有最优值的那个解。

5. 步骤：

找出最优解的性质，刻画其特征；

递归地定义最优值；

以自底向上的方式计算出最优值；

根据计算最优值时得到的信息，构造一个最优解。

(四)、动态规划问题中的术语

阶段：把所给求解问题的过程恰当地分成若干个相互联系的阶段，以便于求解，过程不同，阶段数就可能不同.描述阶段的变量称为阶段变量。在多数情况下，阶段变量是离散的，用k表示。此外，也有阶段变量是连续的情形。如果过程可以在任何时刻作出决策，且在任意两个不同的时刻之间允许有无穷

多个决策时，阶段变量就是连续的。

在前面的例子中，第一个阶段就是点A,而第二个阶段就是点A到点B,第三个阶段是点B到点C,而第四个阶段是点C到点D 状态：状态表示每个阶段开始面临的自然状况或客观条件，它不以人们的主观意志为转移，也称为不可控因素。在上面的例子中状态就是某阶段的出发位置，它既是该阶段某路的起点，同时又是前一阶段某支路的终点。

在前面的例子中，第一个阶段有一个状态即A,而第二个阶段有两个状态B1和B2,第三个阶段是三个状态C1, C2和C3,而第四个阶段又是一个状态Do

过程的状态通常可以用一个或一组数来描述，称为状态变量。一般，状态是离散的，但有时为了方便也将状态取成连续的。当然，在现实生活中，由于变量形式的限制，所有的状态都是离散的，但从分析的观点，有时将状态作为连续的处理将会有很大的好处。此外，状态可以有多个分量（多维情形），因而用向量来代表；而且在每个阶段的状态维数可以不同。

当过程按所有可能不同的方式发展时，过程各段的状态变量将在某一确定的范围内取值。状态变量取值的集合称为状态集合。

无后效性：我们要求状态具有下面的性质：如果给定某一阶段的状态，则在这一阶段以后过程的发展不受这阶段以前各段状态的影响，所有各阶段都确定时，整个过程也就确定了。换句话说，过程的每一次实现可以用一个状态序列表示，在前面的例子中每阶段的状态是该线路的始点，确定了这些点的序列，整个线路也就完全确定。从某一阶段以后的线路开始，当这段的始点给定时，不受以前线路（所通过的点）的影响。状态的这个性质意味着过程的历史只

能通过当前的状态去影响它的未来的发展，这个性质称为无后效性。

决策：一个阶段的状态给定以后，从该状态演变到下一阶段某个状态的一种选择（行动）称为决策。在最优控制中，也称为控制。在许多间题中，决策可以自然而然地表示为一个数或一组数。不同的决策对应着不同的数值。描述决策的变量称决策变量，因状态满足无后效性，故在每个阶段选择决策时只需考虑当前的状态而无须考虑过程的历史。

决策变量的范围称为允许决策集合。

策略：由每个阶段的决策组成的序列称为策略。对于每一个实际的多阶段决策过程，可供选取的策略有一定的范围限制，这个范围称为允许策略集合。允许策略集合中达到最优效果的策略称为最优策略。

给定k阶段状态变量x(k)的值后，如果这一阶段的决策变量一经确定，第k+1阶段的状态变量x(k+1)也就完全确定，即x(k+1)的值随x(k)和第k阶段的决策u(k)的值变化而变化，那么可以把这一关系看成(x(k)，u(k))与x(k+1)确定的对应关系，用

x(k+1)=Tk(x(k),u(k)) 表示。这是从k阶段到k+1阶段的状态转移规律，称为

状态转移方程。

最优性原理：作为整个过程的最优策略，它满足：相对前面决策所形成的状态而言，余下的子策略必然构成“最优子策略”。

最优性原理：实际上是要求问题的最优策略的子策略也是最优。让我们通过对前面的例子再分析来具体说明这一点：从A到D,我们知

道，最短路径是A d Bi d C2d D,这些点的选择构成了这个例子的最优策略，根据最优性原理，这个策略的每个子策略应是最优：A d Bi d C2是A到C2的最短路径，Bi d C2d也是B1到D的最短路径……——事实正是如此，因此我们认为这个例子满足最优性原理的要求。

(五)、标号法

标号法是一种最佳算法，多用于求图的最短路问题。

一、标号法的概念：

所谓标号，是指与图的每一个顶点相对应的一个数字。标号法可以说是动态规划，它采用顺推的方法，对图的每一边检测一次，没有重复的回溯搜索，因此标号法是一种最佳算法。

二、标号法的算法流程：

现有一图G求从起点Vs到终点Ve的最短距

离。设：

Sum(j) -------- 顶点Vj的标号，代表的是Vs到Vj的最短

距离。

Vj?已标味着Vs到Vj的最短路以及这条路径的长度已求出。

M(i,j) ---------- Vi到Vj的非负长度。

H(j) --------- 顶点Vj的前趋结点。标号法的算法流程如

下：

sum (s )—0

Vs 进入队列L

L 的队首V 心

Sum(j )— Sj

计算结束打印路径 Vk 是不是Ve

Nl Y I

I Vj I 连) I j) I

由Vk 扩展出结点

(Vk 与Vj 之间相

Sj — Sum(k)+M(k,

I (j ) I

Sj 小于 I

Sum

| Vj加入队列L并对队列L按Sum值由小到大排

序

注意：1.只有两个顶点间的距离为非负时，才可用标号法。 2.只

有队列的首结点是目标结点时，才可停止计算。？否则得出的不一定是最优解。

三、例题解析：

1. 相邻项序列(GDOI97第四题)

问题描述：

对于一个N*N(v=100)的正整数矩阵M 存在从M[A1, ?B1] ?开始到M[A2, B2]结束的相邻项序列.两个项M[l , J]和M[K, L]?相邻的件是指满足如下情况之一：

(1)I=K+-1 和J=L

(2)I=K 和J=L+-1。

任务：从文件中输入矩阵M再读入K(K<=4)组M[A1,

B1]和M[A2, B2]的值。对于每一组M[A1, B1]和M[A2, B2]，求一相邻项序列，使得相邻项之差的绝对值之和为最小。

输入格式:

4 -----------N

19612 ———每行N个数据，共N行

8735

591111

7326

2 ----------- K

4 114 ----------------- 表示A1,B1禾口A2,B2的值，共K

行2 2 3 4

输出格式：

1 17 ------------- 第一组数据相邻项之差的绝对值之和的最小

值是17

7 5 8 7 9 6 12 --------------------- 第一组数据的相邻项序列