运筹学第五章动态规划

合集下载

运筹学第05章动态规划

动态规划模型
动态规划模型如下
u1 ,,u n
opt R rk xk , u k
n k 1
表示求和或加权求和 opt表示求最优(最大值或最小值) Xk表示k阶段状态可能的取值范围，称为状态可能集合 Uk表示k阶段决策可能的取值范围，称为决策允许集合
x1
决策 Z
x2 x1 表示决策所依赖的资源和环境
Z表示目标函数
x2 表示决策后的资源和环境状况
动态规划概念(2)
例如，前面讲过的生产计划问题就是一次决策
某工厂用三种原料生产三种产品，已知的条件如下表所示，试制订总利润最大的日生产计划
产品所需原料数量（公斤/ 件）原料P1 原料P2 原料P3 产品的利润（千元/ 件）产品Q1
贝尔曼方程
对于无后效性的多阶段决策过程，根据最优性原理和贝尔曼函数定义，可得
f k xk optrk xk , uk f k 1 xk 1 其中，xk 1 Tk xk , uk 称为动态规划基本方程，也称为贝尔曼方程
uk
动态规划问题求解步骤(1)
k阶段决策uk是决定下一步走到哪里，有
u1∈{a,b,c} u2(a)∈{d,f}，u2(b)∈{d,e} ，u2(c)∈{d,e,f} u3∈{t}
示例(5.2-3)
状态转移方程
xk+1=uk
阶段效应rk(xk , uk ) 取为从xk 走到uk 的路线长度，如r1(s , a) =9 贝尔曼函数 fk(xk ) 定义为从xk 走到 t 的最短路线贝尔曼方程
f k xk opt ri xi , ui
n u k ,,u n i k
为了将从初始状态xk 出发的k-后部子过程的最优策略和最终的最优策略相区别，称前者为条件最优策略

管理运筹学第5章动态规划

递推关系的建立
根据阶段划分、状态转移方程和最优解的性质，建立递推关系。
递推关系的求解
通过递推关系求解各阶段的最优解，最终得到整个问题的最优解。
03
动态规划的求解方法
逆推法
总结词
逆推法是从目标状态出发，逆向推算出达到目标状态的最优决策，逐步推算出初始状态的最优决策。
详细描述
逆推法的基本思想是将问题分解为若干个相互联系的阶段，从最后阶段开始，依次向前推算出每个阶段的最优决策，直到达到初始状态。这种方法适用于具有重叠子问题和最优子结构的问题，可以避免重复计算，提高求解效率。
详细描述
资源分配问题通常需要考虑资源的约束条件、各部门或个体的需求和优先级，以及如何平衡各方利益。动态规划通过将问题分解为一系列子问题，逐一求解最优解，最终得到整体最优解。
生产与存储问题
总结词
生产与存储问题主要研究在生产过程中如何平衡生产与库存的关系，以最小化生产成本和库存成本。
详细描述
特点
动态规划适用于具有重叠子问题和最优子结构特性的问题，通过将原问题分解为子问题，逐个求解并存储子问题的解，避免了重复计算，提高了求解效率。
动态规划的重要性
解决复杂问题
动态规划能够解决一些复杂的问题，如资源分配、生产计划、物流调度等，这些问题通常难以通过传统方法求解。
提高计算效率
通过避免重复计算，动态规划能够显著提高计算效率，尤其在处理大规模问题时，能够大大减少计算时间和资源消耗。
05
动态规划的优化策略
多阶段决策优化
01
02
03
阶段划分
将问题划分为若干个相互关联的阶段，每个阶段都有自己的决策变量和状态转移方程。
状态转移

管理运筹学第5章动态规划

第一阶段：
* * * * 最优解： x = 0 x = 1 x = 0 x = 1 1 2 3 4
练习.
1.石油输送管道铺设最优方案的选择问题.下图中A为出发点,E为目的地,B,C,D分别为三个必须建立油泵加压站的地区,图中的线段表示管道可铺设的位置,线段旁的数字为铺设管道线所需的费用.问如何铺设管道才使总费用最小.
－
－－
0
0 0
0
0 0
－
－
0
0
0
0 1 1 1 1
20 20 20 20
20 20 20 1
第三阶段：
s3
0 1 2 3 4
x3
r ( s , x ) f ( s 4 x ) 3 3 3 4 3 3
0 1 2 －－－－－
f 3 ( s3 )
0 0 0 0 11
x *3
0 0 0 0 1
咨询项目类型待处理客户数处理每个客户所处理每个客需工作日数户所获利润
1 3 4 7 2 8 11 20
1 2 3 4
4 3 2 2
解：用动态规划来求解此题。我们把此问题分成四个阶段，第一阶段我们决策将处理多少个第一种咨询项目类型中的客户，第二阶段决策将处理多少个第二种咨询项目类型中的客户，第三阶段、第四阶段我们也将作出类似的决策。我们设 s k ＝分配给第k种咨询项目到第四种咨询项目的所有客户的总工作日（第k阶段的状态变量）。 x k =在第k种咨询项目中处理客户的数量（第k阶段的决策变量）。已知 s 1 ＝10 并有 s T ( s , x ) s 3 x , T ( s , x ) s x ,s 3 2 2 2 2 2
件重量为wi公斤，每件价值ci元。现有一只可装载重量W 公斤的背包，求各种物品应各取多少件放入背包，使背包中物品的价值最高。这个问题可以用整数规划模型来描述。设xi为第i种物品装入背包的件数（i =1, 2, …, n），背包中物品的总价值为z，则 Max z = c1x1+c2x2+ … +cnxn s.t. w1x1+w2x2+…+wnxn≤W x1, x2, …, xn0 且为整数。

运筹学与最优化方法(修改第五章动态规划精品PPT课件

10
1.多阶段决策过程的最优化
5）运输网络问题：如下页图1所示的运输网络，点间连
线上的数字表示两地距离(也可是运费、
时间等)，要求从v1 至v10的最短路线。
这种运输网络问题也是静态决策问题。但是，按照网络中点的分布，可以把它分为4个阶段，而作为多阶段决策问题来研究。
11
1.多阶段决策过程的最优化
1.多阶段决策过程的最优化
多阶段决策过程最优化的目标是要达到整个活动过程的总体效果最优。由
于各段决策间有机地联系着，本段决策的执行将影响到下一段的决策，以至于影响总体效果，所以决策者在每段决策时不应仅考虑本阶段最优，还应考虑对最终目标的影响，从而作出对全局来讲是最优的决策。动态规划就是符合这种要求的一种决策方法。
9
1.多阶段决策过程的最优化
4）资源分配问题：属于这类静态问题。如：某工业部门或公司，拟对其所属企业进行稀缺资源分配，为此需要制定出收益最大的资源分配方案。这种问题原本要求一次确定出对各企业的资源分配量，它与时间因素无关，不属动态决策，但是，我们可以人为地规定一个资源分配的阶段和顺序，从而使其变成一个多阶段决策问题(后面我们将详细讨论这个问题)。
图11 运ቤተ መጻሕፍቲ ባይዱ网络图示
12
1.多阶段决策过程的最优化
三、动态规划求解的多阶段决策问题的特点通常多阶段决策过程的发展是通过状
态的一系列变换来实现的。一般情况下，系统在某个阶段的状态转移除与本阶段的状态和决策有关外，还可能与系统过去经历的状态和决策有关。因此，问题的求解就比较困难复杂。而适合于用动态规划方法求解的只是一类特殊的多阶段决策问题，即具有“无后效性”的多阶段决策过程。所谓无后效性，又称马尔柯夫性，是指系统从某个阶段往后的发展，仅由本阶段所处的状态及其往后的决策所决定，与系统以前经历的状态和决策(历史)无关。

运筹学第5章：动态规划

x1 , x 2 , x3 i 1
10
3
例3 第一阶段：给第三市场分配
s1 有0~9种可能，第一阶段最优决策表如下：
为什么与例1 的第一阶段的表有差别？
11
例3 第二阶段：给第二市场分配
s2 有0~9种可能，第二阶段最优决策表如下：
12
例3 第三阶段：给第一市场分配
由边界条件 s3=9，第三阶段最优决策表如下：
4
1838 1768 1762 1698 1692 1686 1628 1622 1616 1610 s 2 =2 s 2 =3 s 2 =4 s 2 =5
第三阶段最优决策表
第四阶段：初始库存量 s4=0 由状态转移方程： s3=s4+x4-60 可知 x46，由阶段效果递推公式有： f4(0,6)=d4(0,6)+f3*(0,10) =706+1902=2322 得第四阶段最优决策表，如下
得第三阶段最优决策表，如下
8 9 1908 1832 1756 1680 1604 s 2 =6 10 1902* 1826* 1750* 1674* 1598* s 2 =7 x 3 * f 3 (s 3 ,x3 *) 10 10 10 10 10 1902 1826 1750 1674 1598
将 s2= s1 + x1 – 600= x1 – 600 代入 f1(s1,x1) 得：
由此回溯：得最优生产–库存方案 x1*=600，s2*=0； x2*=700，s3*=0； x3*=800，s4*=300； x4*=900。
9
5.2.2 资源分配问题
例3 某公司有9个推销员在全国三个不同市场推销货物，这三个市
第三步：(第二、三、四季度) 总效果 f2(s2,x2)=0.005 x22+s2+ f3*(s3) 将 s3= s2 + x2 - 700 代入 f2(s2,x2) 得：

运筹学——动态规划

优子策略。该原理的具体解释是，若某一全过程
最优策略为：
p1
(s1 )
{u1
(s1 ),
u 2
(s2
),
,
u
k
(sk
),
u
n
(sn
)}
则对上述策略中所隐含的任一状态而言，
第k子过程上对应于该状态的最优策略必然包
含在上述全过程最优策略p1*中，即为
pk
(sk
)
{u
k
(sk
),
u
k 1
(sk
1
),
2．正确地定义状态变量sk，使它既能正确地描述过程的状态，又能满足无后效性．动态规划中的状态与一般控制系统中和通常所说的状态的概念是有所不同的，动态规划中的状态变量必须具备以下三个特征：
20
2021/7/26
(1)要能够正确地描述受控过程的变化特征。 (2)要满足无后效性。即如果在某个阶段状态已经给定，那么在
sk 1 Tk (sk ,uk (sk ))
上式称为多阶段决策过程的状态转移方程。有些问题的状态转移方程不一定存在数学表达式，但是它们的状态转移，还是有一定规律可循的。
12
2021/7/26
(六) 指标函数用来衡量策略或子策略或决策的效果的某种数量
指标，就称为指标函数。它是定义在全过程或各子过程或各阶段上的确定数量函数。对不同问题，指标函数可以是诸如费用、成本、产值、利润、产量、耗量、距离、时间、效用，等等。
7
2021/7/26
（二）状态、状态变量和可能状态集 1.状态与状态变量。用以描述事物(或系统)在某特定的时间与空间域中所处位置及运动特征的量，称为状态。反映状态变化的量叫做状态变量。状态变量必须包含在给定的阶段上确定全部允许决策所需要的信息。按照过程进行的先后，每个阶段的状态可分为初始状态和终止状态，或称输入状态和输出状态，阶段k的初始状态记作sk，终止状态记为sk+1 。但为了清楚起见，通常定义阶段的状态即指其初始状态。

第五章物流运筹学——动态规划

即由第阶段的状态利用这个原理，可以把多阶段决策问题求解过程表示成一个连续的递推过程，由后向前逐步计算。
的单件重量和装载收费如表5-1所示，又规由于它表示了由段到段的状态转移
因此，在物流管理中，如何进行决策，制定一个最优的设备维护更新策略，是非常重要的。
第三节动态规划模型的建立与求解
定货物2和货物3都至多装两件。问如何装但假设初始状态虽已给定，终点状态有多个，需比较到达不同终点状态的各个路径及最优指标函数值，以选取总效益最正确的终点状
3
• 【例5-1】〔生产与存储问题〕工厂在3个季度中
• 安排某种产品的生产方案。假设该季度生产此
种产x
x2
• 品〔吨〕，那么本钱为元。假设当季
生产的
• 每吨产品未销售a k 掉，那么进库，季末需付存储费，
• 产品每季的存储费为1元。现估计3个季度对该产
• 品的需求量分别为100吨，110吨和120吨，
3
j 仪器
1
2
3
10
9
14
9
12
10
6
5
8
7
• 【例5-4】〔机器负荷问题〕设某机器可以在高、
• 低两种不同的负荷下进行生产。假设年初x 有台
• 机器在高负荷下进行生产，那么产品年a产 8x
量
，
0.3
y
• 机器的年折损率
低
0.1
；假设年b 初5有y 台机器在
• 负荷下进行生产，那么产品年产量
，机器
的
• 年折损率
。假设初始时有性能正常的机器
1000
• 台，要求制定机器负荷的四年分配方案，确定每
年
8
A

运筹学 CH5动态规划

的数学模型。
动态规划是求解某类问题的一种方法，是考察问题的一种途径，而不是一种算法。必须对具体问题进行具体分析，运用动态规划的原理和方法，建立相应的模型，然后再用动态规划方法去求解。
动态规划是现代企业管理中的一种重要决策方法，可用于最优路径问题、资源分配问题、生产计划和库存问题、投资问题、装载问题、排序问题及生产过程的最优控制等。
g=g(u1)
多阶段决策问题
Page 8
3.航天飞机飞行控制问题：由于航天飞机的运动的环境是不断变化的，因此就要根据航天飞机飞行在不同环境中的情况，不断地决定航天飞机的飞行方向和速度（状态），使之能最省燃料和实现目的（如软着落问题）。
4.不包含时间因素的线性规划、非线性规划等静态决策问题（本质上是一次决策问题）也可以适当地引入阶段的概念，作为多阶段的决策问题用动态规划方法来解决。
状态集合S K 。
2
A5
1
B1
12 14
10
6
B2 10
4 13
B3
12 11
C1
3
9
6
C2
5
8
C3 10
D1 5 D2 2
S 1 ={A} S 2 ={B1,B2, B 3} E S 3 ={C1,C2, C 3} S 4 ={D1,D2}
k=1
k=2
k=3
k=4
基本概念
Page 12
Hale Waihona Puke 状态应满足：（1）能描述问题的变化过程。（2）具有无后效性：当某阶段状态给定后，在这阶段以后过程的发展不受这阶段以前各状态的影响。（3）能直接或间接地计算出来。
基本概念
Page 13
3、决策：表示当过程处于某一阶段的某个状态时，可以作出不同的决定，从而确定下一阶段的状态，这种决定称为决策。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、多阶段决策问题
根据问题本身的特点，可以将其求解的全过程划分为若干个相互联系的阶段（即将问题划分为许多个相互联系的子问题），在它的每一阶段都需要做出决策，并且在一个阶段的决策确定以后再转移到下一阶段。往往前一个阶段的决策要影响到后一个阶段的决策，从而影响整个过程。这样的决策过程称作多阶段决策过程。
描述决策变化的量称为决策变量。
常用uk uk sk 表示 k 阶段状策变量的取值的容许范围。
决策变量uk sk 的允许决策集用Uk sk 表示， uk sk Uk sk ，
允许决策集合实际是决策的约束条件。
三、动态规划求解的多阶段决策问题的特点
（2）设备更新问题企业在使用设备时都要考虑设备的更新问题。现某企业要决定一台设备未来 8 年的更新计划，已预测了第 j 年购买设备的价
格为 K j ，设Gj 为设备经过 j 年后的残值，C j 为设备连续使用
j 1年后在第 j 年的维修费 j 1, 2, ,8，问应在哪些年更
新设备可使总费用最小。
（4）资源分配问题某工业部门或公司，拟对其所属企业进行稀缺资源分配，为此需要制订出收益最大的资源分配方案。
（5）运输网络问题
图5-11 运输网络图示
多阶段决策过程最优化的目标：要达到整个活动过程的总体效果最优。
v1
第二节动态规划的基本概念和基本原理
一、动态规划的基本概念（1）阶段；（2）状态；（3）决策和策略；（4）状态转移；（5）指标函数
二、多阶段决策问题举例
（1）生产与存贮过程。
某工厂每月需供应市场一定数量的产品，并将所余产品存入仓库。一般某月适当增加产品可降低生产成本，但超产部分存入仓库会增加库存费用。要求确定一个逐月的生产计划，在满足需求条件下，使一年的生产与存贮费用之和最小。
可以把每个月作为一个阶段，全年分为12 个阶段逐次决策。
一个 8 阶段决策问题，每年年初要作出决策，是继续使用旧设备，还是购买新设备
上述问题的发展过程都与时间因素有关，因此在这类多阶段决策问题中，阶段的划分常取时间区段来表示，并且各个阶段上的决策往往也与时间有关，这就使它具有了“动态”的含义，所以把处理这类动态问题的方法称为动态规划方法。
但在实际中，一些不含时间的一类“静态” 决策问题，其本质是一次决策问题，是非动态决策问题，但可以人为地引入阶段的概念，当作阶段决策问题，应用动态规划方法加以解决。
第五章动态规划
动态规划是解决多阶段决策过程最优化问题的一种方法。根据决策变量时间上的变化—连续型,离散型根据决策过程性质—确定型,随机型根据决策的相互关系—动态型，静态型此外还有阶段的个数是有限的与无限的，确定与不确定等。
本章研究：动态与静态确定型的决策过程
第一节多阶段决策过程的最优化
可能状态集—状态变量的取值范围，
即状态变量 sk 的取值集合，用 Sk 表示
可能状态集是关于状态的约束条件
可能状态集可以是一离散取值的集合，也可以为一连续的取值区间。
3.决策、决策变量和允许决策集合决策：就是指当过程处于某一阶段的某个状态时，就可以做出不同的决定，从而确定下一阶段的状态，这种决定称为决策
构成的决策序列，简称策略，表示为 p1 u1,u2 , ,un 。
k 部子策略是指从 k 阶段到第 n 阶段，依次进行的阶段决策构成的决策
序列，表示为 pk uk ,uk1, ,un 。
在实际问题中，由于在各个阶段可供选择的决策有很多，因此，它们的不同组合就构成了许多可供选择的决策序列
描述阶段的变量叫做阶段变量，一般以k表示阶段变量。
2.状态、状态变量和可能状态集（1）状态、状态变量。
状态—各阶段开始时的客观条件状态变量—描述状态变化的量，
常用 sk 表示第 k 阶段的状态变量
用以描述事物在某特定的时间与空间域中所处位置及运动特征的量
图5-11 运输网络图示
（2）可能状态集
(1)阶段指标函数（也称阶段效应）第 k 段指标函数是指第 k 段，从 sk 状态且所作决策为 uk(sk)时的效益，用 gk(sk,uk)表示简记为 gk 。
(2)过程指标函数（也称目标函数）
程用效R果k(优sk劣,u的k)数表量示指k部标子过程的指标函数，指k部子过 Rp应kk((表sskk示,)u有为k)关:不，仅因跟此当它前是状s态k和spk有k(s关k)，的还函跟数该，子严过格程说策来略，
例最短路线问题
如图 5-11 说示，给定一个线路网络图，要从 v1向 v10
铺设一条输油管道，各点间连线上的数字表示距离，问应选择什么路线，可使总距离最短？
图5-11 运输网络图示
1.阶段和阶段变量
阶段—把所给问题按时间或空间先后顺序划分为若干个相互联系又有区别的子问题
一个阶段就是需要作出一个决策的子问题。
Rk (sk , pk (sk ))
实际应用中往往表示为Rk(sk,uk)或Rk(sk) 过g可k(以程sk表指,u示标k)为累函：积数形Rk(成sk的) ，是对由于各k阶部段子的过阶程段的指指标标函函数数
Rk,n Rk,n (sk ,uk , sk1,uk1, , sn ,un )
(5-2)
gk (s k ,uk ) gk1(sk1,uk1) gn (sn ,un )
（策略）。由它们组成的集合，称为允许策略集合，记作 Pk
从允许策略集合，找出具有最优效果的策略称为最优策略。
5.状态转移方程：
sk1 Tk (sk ,uk (sk )) (5-1)
6. 指标函数
指标函数—用来衡量策略或子策略或决策的效果优劣的某种数量指标它分为阶段指标函数和过程指标函数两种。
1.无后效性又称马尔柯夫性，是指系统从某个阶段往后的发展，仅由本阶段所处的状态及其往后的决策所决定，与系统以前经历的状态和决策无关。 2. 适合于用动态规划方法求解的只是这类“无后效性”的多阶段决策过程。
4.策略和允许策略集合
全过程策略是指具有 n 个阶段的全过程，由依次进行的 n 个阶段决策

运筹学 第五章 动态规划

运筹学 第05章 动态规划

管理运筹学第5章动态规划

管理运筹学 第5章 动态规划

运筹学与最优化方法(修改第五章动态规划精品PPT课件

运筹学第5章：动态规划

运筹学——动态规划

第五章 物流运筹学——动态规划

运筹学 CH5动态规划

运筹学第五章动态规划

运筹学第05章动态规划

管理运筹学第5章动态规划

第五章物流运筹学——动态规划