运筹学 第05章 动态规划

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Uk表示k阶段决策可能 的取值范围,称为决策
k 1,2, , n
允许集合
动态规划建模
确定阶段 ➢ 根据实际情况进行阶段划分
明确状态变量xk和状态可能集合Xk U 确定决策变量uk(xk )和决策允许集合 k
确定状态转移方程xk+1=Tk(xk , uk ) 明确阶段效应rk(xk , uk )和目标R
u
x1
决策
x2
Z
动态规划概念(4)
如果上例中的生产计划不是只在一天里进行,而是连续一周,每天投入一定量 的原料,剩余的原料后面可以继续使用,每天只允许生产一种产品并获得相应 的利润。问怎样决策才能使一周的总利润最大?
解决这样的问题需要将决策过程分为多个阶段,本问题需要分为如下的7个阶段 。
➢ 在采用最优策略时,系统从x1开始所经过的状态序列称为最优路线,记为
{x1*, x2*,…, xn+1*}
(件)
原料P1
2
原料P2
0
原料P3
3
产品的利润 (千元/ 件)
3
产品Q2
(件)
3 2 2
5
产品Q3
(件)
0 4 5
4
原料可用量 (公斤/日)
1500 800 2000
动态规划概念(3)
设每天生产三种产品的 件数分别为x1、x2、x3
其线性规划模型为
在这个模型中 ➢ 模型中的A、b和C就是x1 ➢ 模型中的X就是u ➢ 模型中的f(X)=CX就是Z ➢ A、C和剩余的原料为x2
u1
u2
u7
x1 周日 x2 周一 x3 … x7 周六 x8
r1
r2
r7
动态规划概念(5)
uk(k=1,2,3,4,5,6,7)表示第k天生产三种产品中的哪一种以及生产多少 x1=技术环境A、市场环境C和原料b xk+1=技术环境A、市场环境C和原料b +第k天剩余的原料 (k=1,2,3,4,5,6,7) rk=第k天生产产品获得的利润 总利润=r1+ r2+ r3+ r4+ r5+ r6+ r7
多阶段决策过程(3)
在具有无后效性的多阶段决策过程中,uk由xk 决定,rk 和xk+1 由xk 和uk 决定 ,因此 ➢ 决策可以写为 uk(xk ) ➢ 阶段效应可以写为 rk(xk , uk ) ➢ 状态xk+1=Tk(xk , uk ) 称为状态转移方程, 其中Tk 是已知函数
多阶段决策过程中,从第k阶段到最终阶段的过程称为k-后部子过程,简称k子过程
✓ 一般把输入状态称为该阶段的阶段状态
多阶段决策过程(2)
➢ uk 代表k 阶段对第k 子问题进行的决策,称uk为k阶段的决策变量,uk的一组 确定的取值称为一个决策
➢ rk 表示k 阶段从状态xk 出发做决策uk 之后产生的后果,称为k 阶段的阶段效 应
若在上述的多阶段决策过程中,系统 k 阶段以后的决策只与 k 阶段系统的状态 x注k :有动关,态而规与划系的统建以模前和的求决解策都无是关针,对则具称有该无多后阶效段性决的策多过阶程段具决有策无过后程效性
动态规划就是解决这种多阶段决策过程的方法
多阶段决策过程(1)
一般的多阶段决策过程表示如下
u1
u2
uk
x1 T1 x2 T2 x3 … xk Tk xk+1… xn
un Tn xn+1
r1
r2
rk
rn
➢ 其中包含n个决策子问题,每个子问题称为一个阶段,用变量k表示,称 为阶段变量
➢ xk描述k 阶段初系统的状况,称为状态变量 ✓ 每个阶段有一个输入状态和一个输出状态
2 3 0
令A 0 2 4,b 1500, 800, 200T,C 3, 5, 4
3 2 5
示例(5.1-3)
7
max R cuk vk k 1
x1 b
s.t.
xk 1 Puk vk
b
xk xk ,
k
Puk vk , k 1,2, 1,2, ,7
运筹学
第五章 动态规划
本章重点
动态规划的四大要素、一个方程 动态规划问题的建模与求解
动态规划概念(1)
前面介绍的线性规划研究的是一次性的决策 线性规划决策过程可以总结为
➢ 在给定资源和环境的情况下,决定变量的取值,使某个目标达到最大或最 小值
这个决策过程可以表示如下图
u
x1
决策
示例(5.1-1)
前面讲过的生产计划问题
➢ 某工厂用三种原料生产三种产品,已知的条件如下表所示
,如连续生产一周,每天投入一定量的原料,剩余的原料
后面可以继续使用,每天只允许生产一种产品并获得相应
的利润。试制订总利润最大的周生产计划(只建模,不求解
)产品所需原料数量 产品Q1 产品Q2 产品Q3 原料可用量
Z
其中u 表示决策变量
x2 x1 表示决策所依赖的资源和环境
Z表示目标函数 x2 表示决策后的资源和环境状况
动态规划概念(2)
例如,前面讲过的生产计划问题就是一次决策 ➢ 某工厂用三种原料生产三种产品,已知的条件如下表所示,试制订总利润最 大的日生产计划
产品所需原料数量 产品Q1
(公斤/ 件)
动态规划模型
动态规划模型如下
n
表示求和或加权求和
opt
u1 , ,un
R


k 1
rk
xk , uk
opt表示求最优(最大值 或最小值)
xk1 Tk xk , uk
s.t.uxkk
Xk Uk
Xk表示k阶段状态可能 的取值范围,称为状态 可能集合
(公斤/ 件)
(件) (件) (件) (公斤/日)
原料P1
2
3
0 1500
原料P2
0
2
4
800
原料P3
3
2
5 Fra Baidu bibliotek000
产品的利润 (千元/ 件)
3
5
4
示例(5.1-2)
设uk 1,2,3表示第k天生产三种产品的哪一种
设xk xk1,xk2,xk3 T 表示第k天开始生产前三种原料的数量
,7
vk 0且为整数, k 1,2, ,7
uk 1,2,3, k 1,2, ,7
动态规划解的概念(1)
最优目标值
➢ 在多阶段决策过程中,从起始状态x1开始,进行一系列的决策,使得目标R
达到最优,我们把这种目标的值称为最优目标值,记为R* 最优策略
➢ 把使目标达到最优的决策序列称为最优策略,记为 {u1*, u2*,…, un*} 最优路线
相关文档
最新文档