15《运筹学》(第四版)连续动态规划

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

A 18 14 10
2.1 引例 B C D
38 35 31 24 22 21 34 31 25
因 U 4 ( x4 ) 2,3,4，又 x 4的可能值为 2 x 4 6，故由已知数据，可得
下表的结果。再联合考虑对 C 、 D 两个部位派巡逻队，即 k 3。这时有
f 3 ( x3 ) min
2 24+34 24+31 24+25 24+25 24+25 3 4
x3 4 5 6 7 8
f 3 (x3) 58 55 49 47 46
u3 * 2 2 2 3 莉 4
2 3 4 5 6
34 34 34 31 31 34 31 25 25 34 31 25 25 34水电与数字化工程学院 31 25 25
型可以分为离散型决策过程和连续型决策过程；
根据决策过程的演变性态又可以分为确定型决策
过程和随机型过程。组合起来有下列类型：
离散确定型、离散随机型、连续确定型、连
续随机型。本章主要介绍离散确定型决策过程。
水电与数字化工程学院
莫莉
前节回顾
例. (最短路径问题) 下图表示从起点A到终点E之间各点的距离。求A到E的最短路径。
8 38＋49 35＋55 31＋58 9 38＋47 35＋49 31＋55 水电与数字化工程学院 10 38＋46 35＋47 31＋49
莫莉
部位预期损失巡逻队数 2 3 4
A B
C
D
u2 x2
8 9 10
v2(x2, u2)+f 3 (x2-u2)
2.1 引例
4
f 2 (x2) u2* 87 84 80 2 3 4
水电与数字化工程学院莫莉
2.2 动态规划的特点
⑵ 可以得到一族最优解。与非线性规划只能得到全过程的一个最优解不同，动态规划得到的是全过程及所有后部子过程的各个状态的一族最优解。有些实际的问题需要这样的解族，即使不需要，它们在分析最优策略和最优值对于状态的稳定性时也是很有用的。当最优策略由于某种原因不能实现时，这样的解族可以用来寻找次优策略。 ⑶ 能够利用经验提高求解效率。如果实际问题本身就是动态的，
• 阶段的编号与递推的方向
• 一般采用反向递推，所以阶段的编号也是逆向的 • 当然也可以正向递推
水电与数字化工程学院莫莉
作业
参照公共邮箱的电子版教材中的页码，完成第3次、第4次作业，于2015年6月17日完成。
序号
第1次作业第2次作业
课后作业
页码、题号
备注
图解法，基解，单纯形法大 M法
对偶问题，对偶问题性质求最优解对偶单纯形法判定凸规划，斐波那契法，0.618法最速下降法，共轭梯度法变尺度法，Kuhn-Tucker条件 SUMT外点法，SUMT内点法最短路线
f 3 ( x3 )
u3
25 25 25
34 31 25 25 25
2 3 4 4 4
24+34 24+31 24+25 24+25 24+25
22+34 22+31 21+34 22+25 21+31 22+25 21+25
u2
x2
8 9 10
u 4 因此，故 x2 12 4 8 ， 1 v2 ( x2 , u2 ) f3 ( x2 u2 ) f 2 ( x2 ) u 2 u 2 所以，因而 x3 8 2 6， 2 2 3 4 u 2，推算得再由前面表知 3 38＋49 35＋55 31＋58 87 2
2 3 4 4 4
22+34 22+31 21+34 22+25 21+31 22+25 21+25
莫
部位预期损失巡逻队数 2 3 4
A B
C
D
x3
4 5 6 7 8
u 3 v3 ( x3 , u3 ) f 4 ( x3 u3 )
2
24+34 24+31 24+25 24+25 24+25
第三章动态规划(Dynamic Programming)
主讲人：莫莉
moli@hust.edu.cn
2015 年 6 月
水电与数字化工程学院莫莉
前节回顾
温
引例
故
多种应用
知
引例
新
动态规划基本概念
离散动态规划
动态规划优劣
经营管理中的应用
水电与数字化工程学院
莫莉
前节回顾
v1(x1, u1)+f 2 (x1-u1)
v1 ( x1 , u1 ) u U ( x )
1
f 2 ( x2 )
2 18+80
3 14+84
4 10+87
f 1 (x1)
u1 *
12
97
4
因 x1 12，又 U 1 ( x1 ) 2,3,4 ，计算得右表。
水电与数字化工程学院莫莉
前节回顾
温
引例
故
多种应用
知
引例
新
动态规划基本概念
离散动态规划
动态规划优劣
经营管理中的应用
水电与数字化工程学院
莫莉
第三章动态规划
1 2 基本概念介绍离散动态规划★
3
连续动态规划
4
在水库调度中的应用
水电与数字化工程学院
莫莉
2.1 引例
例某警卫部门共有12支巡逻队，负责4个要害部位 A, B ,C , D
动态规划所解决的问题：多阶段问题
动态规划的核心:
在于将问题公式化，也可以说，动态规划是将多阶段决策问题进行公式化的一种技术。
动态规划的优缺点:
适用范围广，模型算法一体化，方便编程。由于没有统一的标准模型，使得动态规划的应用
难度增加。
水电与数字化工程学院莫莉
前节回顾
动态规划根据多阶段决策过程的时间参量类
u4
v4 ( x 4 , u 4 )
2 3 31 31 31 31 4 34 34 34 34 34
x4
2 3 4 5 6
f 4 ( x4 ) u 4
x3
4 5 6 7 8
u3
v3 ( x3 , u3 ) f 4 ( x3 u3 )
2 3 4
2.1 引例
58 55 49 47 46 2 2 2 3 4
水电与数字化工程学院
u 4 U 4 ( x4 )
min
v4 ( x4 , u4 )
f 5 ( x5 )
u 4 U 4 ( x4
min
v4 ( x4 , u4 ) )
莫莉
f 4 ( x4 )
u 4 U 4 ( x4
min
v4 ( x4 , u4 ) )
部位预期损失巡逻队数 2 3 4
水电与数字化工程学院莫莉
2.2 动态规划的特点
动态规划的优越性与静态规划相比，动态规划的优越性在于：
（1）能够得到全局最优解。由于约束条件确定的约束集合往往很复杂，即使指标函数较简单，用非线性规划方法也很难求出全局最优解，而动态规划方法把全过程化为一系列结构相似的子问题，每个子问题的变量个数大大减少，约束集合也简单得多，易于得到全局最优解。特别是对于约束集合、状态转移和指标函数不能用分析形式给出的优化问题，可以对每个子过程用枚举法求解，而约束条件越多，决策的搜索范围越小，求解也越容易。对于这类问题，动态规划通常是求全局最优解的唯一方法。
水电与数字化工程学院
莫莉
前节回顾
基本概念
• 状态(每阶段初始的出发点)
• 最短路问题中，各个节点就是状态 • 生产库存问题中，库存量是状态 • 物资分配问题中，剩余的物资量是状态
• 控制变量(决策变量)
• 最短路问题中，走哪条路 • 生产库存问题中，各阶段的产品生产量 • 物资分配问题中，分配给每个地区的物资量
U k ( xk ) {uk 2 uk 4}, (k 1,2,3,4) 状态转移方程：xk＋1＝ xk－uk
若用 vk ( xk , uk ) 表示 k 阶段派出的巡逻队数为u k 时，该阶段的部位的预期损失值，
水电与数字化工程学院莫莉
2.1 引例
设用 f k ( xk ) 表示 k阶段状态为 x k，以此出发采用最优子策略到过
3
4
u f 3 ( x引例 3 2.1 3)
18 38 24 34 14 35 22 31 10 31 21 25
22+34 22+31 21+34 22+25 21+31 22+25 21+25
58 55 49 47 46
2 2 2 3 4
下面考虑对 B 、 C、D 三个部位派巡逻队，即 k 2，这时有
莫莉
P44-1.1(1),1.3,1.4 P45-1.6(1)(2)
P74-2.3(1)(2),2.7 P75-2.8 P187-7.3,7.4,7.5 P187-7.7,7.13 P188-7.13(3),7.17 P189-7.21,7.23 P211-8.2,8.3
第3次作业第4次作业
水电与数字化工程学院
2 3 4
水电与数字化工程学院 18+80 14+84 10+87
x1
12
f1 ( x1 ) u1
97 4
2.2 动态规划的特点
动态规划与静态规划的关系
动态规划与静态规划（线性与非线性规划等）研究的对象本质上都是在若干约束条件下的函数极值问题，两种规划在很多情况下
原则上可以相互转换。
1．动态规划可以看作求决策 u1 , u2 ,, un 使指标函数 V1n ( x1 , u1 , x2 ,, xn ) 达到最优(最大或最小)的极值问题，状态转移方程、端点条件以及允许状态集、允许决策集等是约束条件，原则上可以用非线性规划方法求解。 2．一些静态规划只要适当引入阶段变量、状态、决策等就可以用动态规划方法求解。
u3U 3 ( x3 )
v3 ( x3 , u3 )
u3
f 4 ( x4 )
因有 U 3 ( x3 ) 2,3,4，又 4 x3 8，故可得到下表的计算结果。
u4 x4 2 v4(x4, u4) 3 4 f 4 (x4) u4
*
v3(x3, u3) + f 4 (x3-u3)
水电与数字化工程学院
莫莉
2.1 引例
解：阶段数：把12支巡逻队往各部位派遣看成依次分四个阶段。
部位预期损失巡逻队数 2 3 4 A 18 14 10 B 38 35 31 C 24 22 21 D 34 31 25
状态变量：xk表示每个阶段初
拥有的可派遣的巡逻队数。集合为：
决策变量：uk表示对各部位派出的巡逻队数，各阶段允许的决策
的警卫巡逻。对每个部位可分别派出2～4支巡逻队，并且派出
巡逻队数的不同，各部位预期在一段时期内可能造成的损失有
差别，具体数字见下表。问该警卫部门应往各部位分别派多少
巡逻队，使总的预期损失为最小。
部位预期损失巡逻队数 2 3 4 A 18 14 10 B 38 35 31 C 24 22 21 D 34 31 25
f 2 ( x2 ) min
u 2 U 2 ( x2 )
v2 ( x2 , u2 ) f 3 ( x3 )
同样有 U 2 ( x2 ) 2,3,4 ，又 8 x2 10 ，故可得到下表的计算结果。
u2 x2
v2(x2, u2)+f 3 (x2-u2)
2 3 4
f 2 (x2) u2* 87 84 80 2 3 4
2
3
18 38 24 34 14 35 22 31 10 31 21 25
38＋49 35＋55 31＋58 38＋47 35＋49 31＋55 38＋46 35＋47 31＋49
最后考虑对 A, B, C , D 四个部位派巡逻队，即 k 1，有
f1 ( x1 ) min
1 1
u1 x1
38＋47 35＋49 31＋55 38＋46 35＋47 31＋49
84 80
3 4
x4 6 2 4
因此该警卫部门的派巡逻队的最优策略为：A部位４支， B 部位２支，部位 C部位２支，D ４支，总预期损失为97莫单位。莉
u1
v1 ( x1 , u1 ) f 2 ( x1 u1 )
程结束时的预期损失值，则有:
f k ( xk ) min {vk ( xk , uk ) f k 1 ( xk 1 )}
u k U k ( xk )
k 4，则上式可写为：采用后向算法，先考虑给 D 部位派巡逻队，
f 4 ( x4 )
f 5 ( x5 ) 0
f 4 ( x4 )
B1 4
4
2
1 6 7 2 8
C1
8
6
D1 7 C2 5
10
Ewk.baidu.com
A
2
3
B2
4
3 1
C3 1 6 B3 7 5
D2
6
3
水电与数字化工程学院
B4
莫莉
前节回顾
用穷举法的计算量:
如果从A到E的站点有k个，除A、E之外每站有3个位
置则总共有3k条路径；计算各路径长度总共要进行3k-1 次比较。随着 k 的值增加时，需要进行的加法和比较的次数将迅速增加；例如当 k=20时，加法次数为 4.2550833966227×1015 次，比较 1.3726075472977×1014 次。若用1亿次/秒的计算机计算需要约508天。