15《运筹学》(第四版)连续动态规划

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

A 18 14 10
2.1 引例 B C D
38 35 31 24 22 21 34 31 25
因 U 4 ( x4 ) 2,3,4,又 x 4的可能值为 2 x 4 6,故由已知数据,可得
下表的结果。 再联合考虑对 C 、 D 两个部位派巡逻队,即 k 3。这时有
f 3 ( x3 ) min
2 24+34 24+31 24+25 24+25 24+25 3 4
x3 4 5 6 7 8
f 3 (x3) 58 55 49 47 46
u3 * 2 2 2 3 莉 4
2 3 4 5 6
34 34 34 31 31 34 31 25 25 34 31 25 25 34水电与数字化工程学院 31 25 25
型可以分为离散型决策过程和连续型决策过程;
根据决策过程的演变性态又可以分为确定型决策
过程和随机型过程。组合起来有下列类型:
离散确定型、离散随机型、连续确定型、连
续随机型。本章主要介绍离散确定型决策过程。
水电与数字化工程学院
莫 莉
前节回顾
例. (最短路径问题) 下图表示从起点A到终点E之间各点的距离。 求A到E的最短路径。
8 38+49 35+55 31+58 9 38+47 35+49 31+55 水电与数字化工程学院 10 38+46 35+47 31+49
莫 莉
部位 预期损失 巡逻队数 2 3 4
A B
C
D
u2 x2
8 9 10
v2(x2, u2)+f 3 (x2-u2)
2.1 引例
4
f 2 (x2) u2* 87 84 80 2 3 4
水电与数字化工程学院 莫 莉
2.2 动态规划的特点
⑵ 可以得到一族最优解。与非线性规划只能得到全过程的一个 最优解不同,动态规划得到的是全过程及所有后部子过程的 各个状态的一族最优解。有些实际的问题需要这样的解族, 即使不需要,它们在分析最优策略和最优值对于状态的稳定 性时也是很有用的。当最优策略由于某种原因不能实现时, 这样的解族可以用来寻找次优策略。 ⑶ 能够利用经验提高求解效率。如果实际问题本身就是动态的,
• 阶段的编号与递推的方向
• 一般采用反向递推,所以阶段的编号也是逆向的 • 当然也可以正向递推
水电与数字化工程学院 莫 莉
作业
参照公共邮箱的电子版教材中的页码,完成第3次、第4次作 业,于2015年6月17日完成。
序号
第1次作业 第2次作业
课后作业
页码、题号
备注
图解法,基解,单纯形法 大 M法
对偶问题,对偶问题性质求最优解 对偶单纯形法 判定凸规划,斐波那契法,0.618法 最速下降法,共轭梯度法 变尺度法,Kuhn-Tucker条件 SUMT外点法,SUMT内点法 最短路线
f 3 ( x3 )
u3
25 25 25
34 31 25 25 25
2 3 4 4 4
24+34 24+31 24+25 24+25 24+25
22+34 22+31 21+34 22+25 21+31 22+25 21+25
u2
x2
8 9 10
u 4 因此 ,故 x2 12 4 8 , 1 v2 ( x2 , u2 ) f3 ( x2 u2 ) f 2 ( x2 ) u 2 u 2 所以 ,因而 x3 8 2 6, 2 2 3 4 u 2,推算得 再由前面表知 3 38+49 35+55 31+58 87 2
2 3 4 4 4
22+34 22+31 21+34 22+25 21+31 22+25 21+25

部位 预期损失 巡逻队数 2 3 4
A B
C
D
x3
4 5 6 7 8
u 3 v3 ( x3 , u3 ) f 4 ( x3 u3 )
2
24+34 24+31 24+25 24+25 24+25
第三章 动态规划(Dynamic Programming)
主讲人:莫 莉
moli@hust.edu.cn
2015 年 6 月
水电与数字化工程学院 莫 莉
前节回顾

引例

多种应用

引例

动态规划基本概念
离散动态规划
动态规划优劣
经营管理中的应用
水电与数字化工程学院
莫 莉
前节回顾
v1(x1, u1)+f 2 (x1-u1)
v1 ( x1 , u1 ) u U ( x )
1
f 2 ( x2 )
2 18+80
3 14+84
4 10+87
f 1 (x1)
u1 *
12
97
4
因 x1 12,又 U 1 ( x1 ) 2,3,4 , 计算得右表。
水电与数字化工程学院 莫 莉
前节回顾

引例

多种应用

引例

动态规划基本概念
离散动态规划
动态规划优劣
经营管理中的应用
水电与数字化工程学院
莫 莉
第三章 动态规划
1 2 基本概念介绍 离散动态规划★
3
连续动态规划
4
在水库调度中的应用
水电与数字化工程学院
莫 莉
2.1 引例
例某警卫部门共有12支巡逻队,负责4个要害部位 A, B ,C , D
动态规划所解决的问题:多阶段问题
动态规划的核心:
在于将问题公式化,也可以说 ,动态规划是将多阶段决策问 题进行公式化的一种技术。
动态规划的优缺点:
适用范围广,模型算法一体化,方便编程。 由于没有统一的标准模型,使得动态规划的应用
难度增加 。
水电与数字化工程学院 莫 莉
前节回顾
动态规划根据多阶段决策过程的时间参量类
u4
v4 ( x 4 , u 4 )
2 3 31 31 31 31 4 34 34 34 34 34
x4
2 3 4 5 6
f 4 ( x4 ) u 4
x3
4 5 6 7 8
u3
v3 ( x3 , u3 ) f 4 ( x3 u3 )
2 3 4
2.1 引例
58 55 49 47 46 2 2 2 3 4
水电与数字化工程学院
u 4 U 4 ( x4 )
min
v4 ( x4 , u4 )
f 5 ( x5 )
u 4 U 4 ( x4
min
v4 ( x4 , u4 ) )
莫 莉
f 4 ( x4 )
u 4 U 4 ( x4
min
v4 ( x4 , u4 ) )
部位 预期损失 巡逻队数 2 3 4
水电与数字化工程学院 莫 莉
2.2 动态规划的特点
动态规划的优越性 与静态规划相比,动态规划的优越性在于:
(1)能够得到全局最优解。由于约束条件确定的约束集合往往 很复杂,即使指标函数较简单,用非线性规划方法也很难求出 全局最优解,而动态规划方法把全过程化为一系列结构相似的 子问题,每个子问题的变量个数大大减少,约束集合也简单得 多,易于得到全局最优解。特别是对于约束集合、状态转移和 指标函数不能用分析形式给出的优化问题,可以对每个子过程 用枚举法求解,而约束条件越多,决策的搜索范围越小,求解 也越容易。对于这类问题,动态规划通常是求全局最优解的唯 一方法。
水电与数字化工程学院
莫 莉
前节回顾
基本概念
• 状态(每阶段初始的出发点)
• 最短路问题中,各个节点就是状态 • 生产库存问题中,库存量是状态 • 物资分配问题中,剩余的物资量是状态
• 控制变量(决策变量)
• 最短路问题中,走哪条路 • 生产库存问题中,各阶段的产品生产量 • 物资分配问题中,分配给每个地区的物资量
U k ( xk ) {uk 2 uk 4}, (k 1,2,3,4) 状态转移方程:xk+1= xk-uk
若用 vk ( xk , uk ) 表示 k 阶段派出的巡逻队数为u k 时,该阶段的部位的预 期损失值,
水电与数字化工程学院 莫 莉
2.1 引例
设用 f k ( xk ) 表示 k阶段状态为 x k,以此出发采用最优子策略到过
3
4
u f 3 ( x引例 3 2.1 3)
18 38 24 34 14 35 22 31 10 31 21 25
22+34 22+31 21+34 22+25 21+31 22+25 21+25
58 55 49 47 46
2 2 2 3 4
下面考虑对 B 、 C、D 三个部位派巡逻队,即 k 2,这时有
莫 莉
P44-1.1(1),1.3,1.4 P45-1.6(1)(2)
P74-2.3(1)(2),2.7 P75-2.8 P187-7.3,7.4,7.5 P187-7.7,7.13 P188-7.13(3),7.17 P189-7.21,7.23 P211-8.2,8.3
第3次作业 第4次作业
水电与数字化工程学院
2 3 4
水电与数字化工程学院 18+80 14+84 10+87
x1
12
f1 ( x1 ) u1
97 4
2.2 动态规划的特点
动态规划与静态规划的关系
动态规划与静态规划(线性与非线性规划等)研究的对象本质上 都是在若干约束条件下的函数极值问题,两种规划在很多情况下
原则上可以相互转换。
1.动态规划可以看作求决策 u1 , u2 ,, un 使指标函数 V1n ( x1 , u1 , x2 ,, xn ) 达到最优(最大或最小)的极值问题,状态转移方程、端点条件 以及允许状态集、允许决策集等是约束条件,原则上可以用非 线性规划方法求解。 2. 一些静态规划只要适当引入阶段变量、状态、决策等就可以 用动态规划方法求解。
u3U 3 ( x3 )
v3 ( x3 , u3 )
u3
f 4 ( x4 )
因有 U 3 ( x3 ) 2,3,4,又 4 x3 8,故可得到下表的计算结果。
u4 x4 2 v4(x4, u4) 3 4 f 4 (x4) u4
*
v3(x3, u3) + f 4 (x3-u3)
水电与数字化工程学院
莫 莉
2.1 引例
解: 阶段数:把12支巡逻队往各部 位派遣看成依次分四个阶段。
部位 预期损失 巡逻队数 2 3 4 A 18 14 10 B 38 35 31 C 24 22 21 D 34 31 25
状态变量:xk表示每个阶段初
拥有的可派遣的巡逻队数。 集合为:
决策变量:uk表示对各部位派出的巡逻队数,各阶段允许的决策
的警卫巡逻。对每个部位可分别派出2~4支巡逻队,并且派出
巡逻队数的不同,各部位预期在一段时期内可能造成的损失有
差别,具体数字见下表。问该警卫部门应往各部位分别派多少
巡逻队,使总的预期损失为最小。
部位 预期损失 巡逻队数 2 3 4 A 18 14 10 B 38 35 31 C 24 22 21 D 34 31 25
f 2 ( x2 ) min
u 2 U 2 ( x2 )
v2 ( x2 , u2 ) f 3 ( x3 )
同样有 U 2 ( x2 ) 2,3,4 ,又 8 x2 10 ,故可得到下表的计算结果。
u2 x2
v2(x2, u2)+f 3 (x2-u2)
2 3 4
f 2 (x2) u2* 87 84 80 2 3 4
2
3
18 38 24 34 14 35 22 31 10 31 21 25
38+49 35+55 31+58 38+47 35+49 31+55 38+46 35+47 31+49
最后考虑对 A, B, C , D 四个部位 派巡逻队,即 k 1,有
f1 ( x1 ) min
1 1
u1 x1
38+47 35+49 31+55 38+46 35+47 31+49
84 80
3 4
x4 6 2 4
因此该警卫部门的派巡逻队的 最优策略为:A部位4支, B 部位2支, 部位 C部位2支,D 4支,总预期损失为97莫 单位。 莉
u1
v1 ( x1 , u1 ) f 2 ( x1 u1 )
程结束时的预期损失值,则有:
f k ( xk ) min {vk ( xk , uk ) f k 1 ( xk 1 )}
u k U k ( xk )
k 4,则上式可写为: 采用后向算法,先考虑给 D 部位派巡逻队,
f 4 ( x4 )
f 5 ( x5 ) 0
f 4 ( x4 )
B1 4
4
2
1 6 7 2 8
C1
8
6
D1 7 C2 5
10
Ewk.baidu.com
A
2
3
B2
4
3 1
C3 1 6 B3 7 5
D2
6
3
水电与数字化工程学院
B4
莫 莉
前节回顾
用穷举法的计算量:
如果从A到E的站点有k个,除A、E之外每站有3个位
置则总共有3k条路径; 计算各路径长度总共要进行3k-1 次比较。随着 k 的值增加时,需要进行的加法和比较的 次数将迅速增加; 例如当 k=20时,加法次数为 4.2550833966227×1015 次,比较 1.3726075472977×1014 次。若用1亿次/秒的计 算机计算需要约508天。
相关文档
最新文档