运筹学 第05章 动态规划复习过程

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

k 1,2, ,7
u k 1,2,3, k 1,2, ,7
动态规划解的概念(1)
最优目标值
在多阶段决策过程中,从起始状态x1开始,进行 一系列的决策,使得目标R达到最优,我们把这 种目标的值称为最优目标值,记为R*
最优策略
把使目标达到最优的决策序列称为最优策略, 记为 {u1*, u2*,…, un*}
动态规划就是解决这种多阶段决策过程的方法
多阶段决策过程(1)
一般的多阶段决策过程表示如下
u1
u2
uk
x1 T1 x2 T2 x3 … xk Tk xk+1… xn
un Tn xn+1
r1
r2
rk
rn
其中包含n个决策子问题,每个子问题称为一 个阶段,用变量k表示,称为阶段变量
xk描述k 阶段初系统的状况,称为状态变量
u1
u2
u7
x1 周日 x2 周一 x3 … x7 周六 x8
r1
r2
r7
动态规划概念(5)
uk(k=1,2,3,4,5,6,7)表示第k天生产三种产 品中的哪一种以及生产多少
x1=技术环境A、市场环境C和原料b xk+1=技术环境A、市场环境C和原料b +第k
天剩余的原料 (k=1,2,3,4,5,6,7) rk=第k天生产产品获得的利润 总利润=r1+ r2+ r3+ r4+ r5+ r6+ r7
注:动态规划的建模和求解都是针对具有无 后效性的多阶段决策过程
多阶段决策过程(3)
在具有无后效性的多阶段决策过程中,uk由 xk 决定,rk 和xk+1 由xk 和uk 决定,因此
决策可以写为 uk(xk ) 阶段效应可以写为 rk(xk , uk ) 状态xk+1=Tk(xk , uk ) 称为状态转移方程, 其中
最优路线
在采用最优策略时,系统从x1开始所经过的状态 序列称为最优路线,记为{x1*, x2*,…, xn+1*}
动态规划解的概念(2)
求解动态规划问题就是要找到最优策略、 最优路线和最优目标值
动态规划最优性原理(1)
一个多阶段决策过程的最优策略具有这样 的性质
无论其初始状态及其初始决策如何,对于前面 决策所形成的某一状态而言,下余的决策序列 必定构成最优策略
令 A 024 , b15,0 80 0 , 2 00 T, 0C3, 5, 4
3 2 5
示例(5.1-3)
7
max R cuk vk k 1
x1 b
s
.t
.
xk Pu
1 vk k
b
xk xk ,
k
Puk v k , k 1,2, ,7
1, 2 ,
,7
v
k
0且为整数
,
原料P3
3
产品的利润 (千元/ 件)
3
产品Q2
(件)
3 2 2
5
产品Q3
(件)
0 4 5
4
原料可用量 (公斤/日)
1500 800 2000
动态规划概念(3)
设每天生产三种产品的 件数分别为x1、x2、x3
其线性规划模型为
在这个模型中
u
模型中的A、b和C就是x1
模型中的X就是u
x1
决策
x2
模型中的f(X)=CX就是Z
决策
x2 x1 表示决策所依赖的资源和环境
Z表示目标函数
Z
x2 表示决策后的资源和环境状况
动态规划概念(2)
例如,前面讲过的生产计划问题就是一次决策
某工厂用三种原料生产三种产品,已知的条件如 下表所示,试制订总利润最大的日生产计划
产品所需原料数量 产品Q1
(公斤/ 件)
(件)
原料P1
2
原料P2
0
Байду номын сангаас
(公斤/ 件)
(件) (件) (件) (公斤/日)
原料P1
2
3
0 1500
原料P2
0
2
4
800
原料P3
3
2
5 2000
产品的利润 (千元/ 件)
3
5
4
示例(5.1-2)
设 uk1,2,3表示 k天 第生产三种产 种品的哪
设 xkxk1, xk2, xk3T表示 k天 第 开始生产 的前 数
2 3 0
A、C和剩余的原料为x2
Z
动态规划概念(4)
如果上例中的生产计划不是只在一天里进行, 而是连续一周,每天投入一定量的原料,剩 余的原料后面可以继续使用,每天只允许生 产一种产品并获得相应的利润。问怎样决策 才能使一周的总利润最大?
解决这样的问题需要将决策过程分为多个阶 段,本问题需要分为如下的7个阶段。
示例(5.1-1)
前面讲过的生产计划问题
某工厂用三种原料生产三种产品,已知的条件如下表所示, 如连续生产一周,每天投入一定量的原料,剩余的原料后 面可以继续使用,每天只允许生产一种产品并获得相应的 利润。试制订总利润最大的周生产计划(只建模,不求解)
产品所需原料数量 产品Q1 产品Q2 产品Q3 原料可用量
Tk 是已知函数
多阶段决策过程中,从第k阶段到最终阶段 的过程称为k-后部子过程,简称k-子过程
动态规划模型
动态规划模型如下
n
表示求和或加权求和
opt R
u 1 , ,u n
k
1
rk
xk ,u k
opt表示求最优(最大值 或最小值)
x k 1 T k x k , u k
s
.t
运筹学
第五章 动态规划
本章重点
动态规划的四大要素、一个方程 动态规划问题的建模与求解
动态规划概念(1)
前面介绍的线性规划研究的是一次性的决策
线性规划决策过程可以总结为
在给定资源和环境的情况下,决定变量的取值, 使某个目标达到最大或最小值
这个决策过程可以表示如下图
u
其中u 表示决策变量
x1
.
x u
k k
X U
k k
k 1 , 2 , , n
Xk表示k阶段状态可能 的取值范围,称为状态 可能集合
Uk表示k阶段决策可能 的取值范围,称为决策 允许集合
动态规划建模
确定阶段
根据实际情况进行阶段划分
明确状态变量xk和状态可能集合Xk 确定决策变量uk(xk )和决策允许集合Uk 确定状态转移方程xk+1=Tk(xk , uk ) 明确阶段效应rk(xk , uk )和目标R
➢每个阶段有一个输入状态和一个输出状态
➢一般把输入状态称为该阶段的阶段状态
多阶段决策过程(2)
uk 代表k 阶段对第k 子问题进行的决策,称uk为k
阶段的决策变量,uk的一组确定的取值称为一个
决策
rk 表示k 阶段从状态xk 出发做决策uk 之后产生的
后果,称为k 阶段的阶段效应
若在上述的多阶段决策过程中,系统 k 阶段 以后的决策只与 k 阶段系统的状态 xk 有关, 而与系统以前的决策无关,则称该多阶段决 策过程具有无后效性
相关文档
最新文档