第六章动态规划[46页]

合集下载

动态规划

f1(A)=MIN r(A,B1)+ f2(B1) r(A,B2)+ f2(B2)
=MIN（3+12，4+10）=14
最短路线： A—— B2 ——C2——D2——E2——F 最优解： d1*(A)= B2，最短用时14
1
B2
C3
4 2
D3
5
E2
4
A
2
C2
3 3 3
D2
2
F
3
B1
5 4
C1
4
2
E1
最优解： d2*(B1)= C1
1
B2
C3
4 2
D3
5
E2
4
A
2
C2
3 3 3
D2
2
F
3
B1
5 4
C1
4
2
E1
4
3
D1
A
B
C
D
E
F
如果S2=B2，则下一步能取C2或C3，故
f2(B2)=MIN r(B2,C2)+ f3(C2)
r(B2,C3)+ f3(C3) =MIN（2+8，1+11）=10
最短路线： B2 ——C2——D2——E2——F
1
B2
C3
4 2
D3
5
E2
4
A
2
C2
3 3 3
D2
2
F
3
B1
5 4
C1
4
2
E1
4
3
D1
A
B
C
D
E
F
如果S4=D3，则下一步只能取E2，故

动态规划

多阶段决策问题中，各个阶段采取的决策，一般来说是与时间有关的，决策依赖于当前状态，又随即引起状态的转移，一个决策序列就是在变化的状态中产生出来的，故有“动态”的含义，称这种解决多阶段决策最优化问题的方法为动态规划方法。
任何思想方法都有一定的局限性，超出了特定条件，它就失去了作用。同样，动态规划也并不是万能的。适用动态规划的问题必须满足最优化原理和无后效性。
动态规划
运筹学的分支
01 原理
03 局限性
目录
02 分类
动态规划（Dynamic Programming，DP）是运筹学的一个分支，是求解决策过程最优化的过程。20世纪50年代初，美国数学家贝尔曼（R.Bellman）等人在研究多阶段决策过程的优化问题时，提出了著名的最优化原理，从而创立了动态规划。动态规划的应用极其广泛，包括工程技术、经济、工业生产、军事以及自动化控制等领域，并在背包问题、生产经营问题、资金管理问题、资源分配问题、最短路径问题和复杂系统可靠性问题等中取得了显著的效果。
最优化原理可这样阐述：一个最优化策略具有这样的性质，不论过去状态和决策如何，对前面的决策所形成的状态而言，余下的诸决策必须构成最优策略。简而言之，一个最优化策略的子策略总是最优的。一个问题满足最优化原理又称其具有最优子结构性质。
将各阶段按照一定的次序排列好之后，对于某个给定的阶段状态，它以前各阶段的状态无法直接影响它未来的决策，而只能通过当前的这个状态。换句话说，每个状态都是过去历史的一个完整总结。这就是无后向性，又称为无后效性。
状态：状态表示每个阶段开始面临的自然状况或客观条件，它不以人们的主观意志为转移，也称为不可控因素。在上面的例子中状态就是某阶段的出发位置，它既是该阶段某路的起点，同时又是前一阶段某支路的终点。

第6章动态规划

第6章动态规划动态规划（Dynamic Programming ）是解决多阶段决策过程最优化的一种有用的数学方法。

它是由美国学者Richard .Bellman 在1951年提出的，1957年他的专著《动态规划》一书问世，标志着运筹学的一个重要分支－动态规划的诞生.动态规划也是一种将多变量问题转化为单变量问题的一种方法。

在动态规划中，把困难的多阶段决策问题变换成一系列相互联系的比较容易的单阶段问题一个个地求解。

动态规划是考察解决问题的一种途径 ,而不是一种特殊的算法，不像线性规划那样有统一的数学模型和算法（如单纯形法）.事实上，在运用其解决问题的过程中还需要运用其它的优化算法。

因此，动态规划不像其它方法局限于解决某一类问题,它可以解决各类多阶段决策问题。

动态规划在工程技术、经济管理等社会各个领域都有着广泛的应用，并且获得了显著的效果。

在经济管理方面,动态规划可以用来解决最优路径问题、资源分配问题、生产调度问题、库存管理问题、排序问题、设备更新问题以及生产过程最优控制问题等，是经济管理中一种重要的决策技术。

许多规划问题用动态规划的方法来处理,常比线性规划或非线性规划更有效。

特别是对于离散的问题，由于解析数学无法发挥作用，动态规划便成为了一种非常有用的工具。

动态规划可以按照决策过程的演变是否确定分为确定性动态规划和随机性动态规划；也可以按照决策变量的取值是否连续分为连续性动态规划和离散性动态规划。

本教材主要介绍动态规划的基本概念、理论和方法,并通过典型的案例说明这些理论和方法的应用。

6.1动态规划的基本理论6.1.1多阶段决策过程的数学描述有这样一类活动过程,其整个过程可分为若干相互联系的阶段，每一阶段都要作出相应的决策,以使整个过程达到最佳的活动效果。

任何一个阶段(stage ，即决策点)都是由输入(input ）、决策（decision ）、状态转移律（transformation function )和输出(output )构成的，如图6-1（a ）所示.其中输入和输出也称为状态(state ）,输入称为输入状态，输出称为输出状态。

运筹学额第6章：动态规划

当指标函数满足 Vk , n v j ( s j ,u j ) 时，有：
n
f k (sk ) opt
uk Dk ( sk )
vk (sk , uk ) f k 1 (sk 1 )
j k
动态规划的求解有两种基本方法：逆序解法和顺序解法。若寻优方向与实际行进方向相反，即从最后一阶段开始计算，逐段前推，求得全过程的最优解，则称为逆序解法。若寻优方向与实际行进方向相同，计算时从第一阶段开始向后递推，计算后一阶段要用到前一阶段的结果，最后一阶段的结果就是全过程的最优结果，则称为顺序解法。
下面我们用例6-4来说明顺序解法。将求s至t的最短路问题视为一个四阶段决策问题，设： sk ——第k阶段的初始状态。 sk+1 ——第k阶段的终止状态。
uk ——第k阶段选择的路线。状态转移方程：sk＝uk(sk+1)
vk(sk+1，uk)——第k阶段选择路线uk时增加的距离，即从初始状态sk到sk+1的距离。
【例6-2】设备更新问题。企业在使用设备时都要考虑设备的更新问题，因为设备越陈旧所需的维修费用越多，但购买新设备则要一次性支出较大的费用。现某企业要决定一台设备未来8年的更新计划，已预测了第j 年购买设备的价格为Ki，设Gj 为设备经过j年后的残值，Cj为设备连续使用j-1年后在第j年的维修费(j=1，2，…，n)，问应在哪些年更新设备可使总费用最小。【例6-3】投资决策问题。某公司现有资金Q万元，在今后5 年内考虑给A、B、C、D四个项目投资，这些项目投资的回收期限、回报率均不相同，问该公司应如何确定这些项目每年的投资额，使到第5年年末拥有资金的本利总额最大。这是一个5阶段决策问题。
j k

第6章-动态规划

f*n(Sn)为从第n个阶段到终点的最短距离， f*n+1(Sn+1)为从第n+1个阶段到终点的最短距离， dn(Sn,Xn)为第n个阶段的距离，f*5(S5)为递推的起点，通常为已知的。
求解过程
由最后一个阶段的优化开始，按逆向顺序逐步向前一阶段扩展，并将后一阶段的优化结果带到扩展后的阶段中去，以此逐步向前推进，直至得到全过程的优化结果。
f1
(
A)
min
dd11
( (
A, A,
B1) B2 )
ff22((BB12))
min
4 9
9 11
13
d1( A, B3) f2 (B3)
5 13
其最短路线是A→ B1→C2 →D2 →E ，相应的决策变量是u1(A)=B1
因此，最优策略序列是：
u1(A) =B1, u2(B1)=C2, u3(C2)=D2, u4(D2)=E
5 8 C2 4 6 4
4 C3 2
C3
D1 4 2 6
D2 9 7
D3 5
D4
E1 1 F
E2 2
E5
F
动态规划的逆序解法与顺序解法
逆序（递推）解法：即由最后一段到第一段逐步求出各点到终点的最短路线,最后求出A点到E点的最短路线。运用逆序递推方法的好处是可以始终盯住目标,不致脱离最终目标。顺序解法：其寻优方向与过程的行进方向相同，求解时是从第一段开始计算逐段向后推进，计算后一阶段时要用到前一段求优的结果，最后一段的计算结果就是全过程的最优结果。
B1
A
4+9=13
d(u1)+f2
B2
B3
f1(s1) u1*

动态规划

动态规划内容要点：1、动态规划的基本概念2、各种动态规划问题建模与应用动态规划是解决多阶段决策过程最优化问题的一种方法。

该方法是由美国数学家贝尔曼等人在20世纪50年代提出的。

他们针对多阶段决策问题的特点，提出了解决这类问题的“最优化原理”，并成功地解决了生产管理、工程技术等方面的许多实际问题，从而建立了运筹学的一个新分支，即动态规划。

他的名著《动态规划》于1957年出版，该书是动态规划的第一本著作。

在实际的决策问题中，由于涉及的参数比较多，往往需要将问题分成若干个阶段，对不同阶段采取不同的决策，从而使整个决策过程达到最优。

显然，由于各个阶段的策略不同，对应的整个过程就可以有一系列不同的策略。

动态规划是解决多阶段决策过程最优化的一种方法。

这种方法并不困难得多阶段决策问题变换成一系列互相联系的比较容易的单阶段问题，解决了这一西里比较容易的单阶段问题，也就解决了困难得多阶段问题。

优势阶段可以用时间表示，在各个时间段，采用不同决策，他随时间而变动，这就有动态的含义。

同台规划就是要在时间的推移过程中，在每个时间段选择适当的决策，以使整个系统达到最优。

动态规划是把难解决的大问题分解为通常较为容易解决的子问题的一种解决问题的方法。

由于它独特的解题思路，在处理某些优化问题时，比线性规划或非线性规划更有效。

特别是对于离散性的问题，由于解析数学无法施展其术，而动态规划的方法就成为了非常有用的工具。

应该指出的是，动态规划师求解某类问题的一种求解方法，是考查问题的一种途径，而不是一种算法。

因而，他不想线性规划那样有一个标准的数学表达式和明确定义的一组规则，而必须对具体问题进行具体分析处理。

动态规划是现代企业管理中的一个重要决策方法，我们着重利用微软Excel软件在“公式”和“规划求解”两方面的强大功能，对装在问题、生产经营问题、资金管理问题和资源分配问题等进行分析、建模和求解，解决了实际经营中的优化问题，迅速准确地得出决策结果。

第6章_动态规划ppt课件

gg(u1)
这时，机器的年完好率为a，即如果年初完好机器的数量为u，到年终时完好的机器就为au， 0<a<1。在低负荷下进行生产时，产品的年产量和投入生产的机器数量u2的关系为
hh(u2)
PPT学习交流
7
这时，机器的年完好率为b，0<b<1 。
假定开始生产时完好的机器数量为s，要求制定一个五年计划，在每年开始时，决定如何重新分配完好的机器在两种不同的负荷下生产的数量，使在五年内产品的总产量达到最高？
PPT学习交流
15
2．在多阶段决策过程中，动态规划方法是既把前一段和未来各段分开，又把当前效益和未来效益结合起来考虑的一种最优化方法。因此，每段决策的选取是从全局来考虑的，与该段的最优选择答案一般是不同的。
3．在求整个问题的最优策略时，由于初始状态是已知的，而每段的决策都是该段状态的函数，故最优策略所经过的各段状态便可逐次变换得到，从而确定了最优路线。
因f3是x3线性单调下降函数，故得最优解 x3*=0，相应的有f3(s3)=18s3
PPT学习交流
36
K=2时
f2(s2)0 m x 2 s2 [4 a x 2 x6 s2f3(s3) ]0 m x 2 s2(4 a x 2x 6 s2 1s3 8 ) 0 m x 2 s2 4 a x 2x 6 s2 1(5 4 8 s21 3x 0 2) 0 m x 2 s2(2 a5 2 0 x s27 5x 2)
sk1T k(sk,xk(sk))
PPT学习交流
12
PPT学习交流
13
PPT学习交流
14
§3 动态规划的基本方法
一、动态规划方法的基本原理
动态规划方法的基本思想：

第六章动态规划

库存容量为3单位，计划开始和期末库存量均为0。请制定
四个月的生产计划，在满足市场需求下总费用最小。
（1）阶段：k= 1, 2, 3, 4 每个月为一个阶段（2）状态sk 表示第 k 月初的库存量，[0, 3] （3）决策xk 表示第 k 月的生产量，[0, 6]
（4）状态转移sk+1 =sk + xk – dk
能够达到总体最优的策略叫做最优策略。
5）指标函数
指标函数和最优值函数：用来衡量所实现过程优劣的一种数量指标，为指标函数。指标函数的最优值，称为最优值函数，记作f1(s1)或fk(sk) 。在不同的问题中，指标函数的含义是不同的，它可能是距离、利润、成本、产量或资源消耗等。
6）状态转移方程（状态转移率）
Sk xk vk
DE
5
1
DE
2
2
C1
D 1
3
D
9
2
C2
D 1
6
D
5
2
C3
D 1
8
D 10
2
C1 3
9 6 C2 5
D1 5 2E
8 10
D2
C3
vkn=vk+fk+1 fk
P
50 20
35 92 65 52 85 10 2
5
DE
1
2
DE
28C1D1E7C2D2E12
C3D2E
k
Sk xk vk vkn=vk+fk+1 fk
（5）阶段指标vk =C(xk) + E(sk) 表示第 k 月的费用
指标函数
4
v k4
v i
(
x i

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

机器数，使三年的总产量达到最大。
4
整数规划
第一节动态规划的数学模型
一、多阶段决策问题
例6—3 旅行售货员问题。设某人想到城市1、2、3、4去旅游，四个城市之间的距离可以用如下距离矩阵D=(dij)表示，其中dij表示从城市i到城市j之间的距离，问此人从城市1出发经过其它城市依次且仅一次然后回到城市1如何走才能使得距离最短。
) )
3 4 min 2 7
7
对应的路线为：
B2C1D1E；
d(B2 ,C3 ) f (C3 )
6 5
f (B3 )
min
dd((BB33
, C1 ,C2
) )
f f
(C1 (C2
) )
5 4 min 1 7
8
对应的路线为：
B3C2D2E；
d(B3 , C3 ) f (C3 )
9 5
0 8 5 6
D
6 7 9
0 9 7
8 0 8
5
5 0
5
整数规划
第一节动态规划的数学模型
一、多阶段决策问题
例 4—1 （装载问题）有一辆卡车的最大载重量为b 吨,现有n 种货物可供装载。设第j 种货物每件重吨,每件的装载费用为元 (j=1,…n)。问应该采用怎样的装载方案才能使卡车一次装载货物的收入最大?
第六章动态规划
动态规划问题的数学模型动态规划问题的求解方法动态规划的软件求解方法动态规划的应用案例分析
1
整数规划
第一节动态规划的数学模型
一、多阶段决策问题
动态规划是一种用于处理多阶段决策问题的数学方法。所谓多阶段决策问题是指这样一类问题：它可以分成若干个相互联系而且性质相同的阶段，在每个阶段都需要做出决策，这个决策不仅决定这一阶段的效益，而且决定下一阶段的初始状态。当每个阶段的决策确定以后，把各个阶段的决策综合起来构成的决策序列就是解决整个问题的一个方案，称为一个策略。不同的策略会产生不同的效果（效果可以用数值来衡量），多阶段决策问题就是在所有可行的策略中选择一个在给定标准下能达到最好效果的最优策略。
解：设 x j为卡车装载第j 种货物的件数(j=1,2,…,,n), z表示卡车一次装载的收
入,则该问题的数学模型为：
max z c1x1 c2 x2 ... cn xn
s.t.
a1x1 a2 x2 ... an
x
j
0, 且为整数
xn
b
6
整数规划
第一节动态规划的数学模型
二、动态规划问题的解题思路
一、多阶段决策问题
例6—2 机器负荷分配问题。设有某种机器设备，可以在高低两种不同的负荷下进行生产，若第k年初完好机器的数量为sk,若以数量xk用于高负荷生产，
余下的sk-xk用于低负荷生产，则该年的产量为 g(xk ) h(sk x，k )其中g(xk ) 和 h(sk xk )是已知函数，并且g(0) h(0) 0。设机器用于高负荷生产时，一年
1．考虑一个阶段的选择。
f (D1) d (D1, E) 2 D1 E
f (D2 ) d (D2 , E) 4 D2 E
2．联合考虑两个阶段的最优选择。
f
(C1
)
min
dd((CC11,,
D1 D2
) )
f f
( (
D1 D2
) )
min
2 1
2
4
4对应的路线为C1D1E；
f (C2 )
3．再联合起来考虑三个阶段的最优选择。
f (B1 )
min
dd((BB11,,CC21
) )
f f
(C1 (C2
) )

7 4 min 5 7
11对应的路线为：
B1C1D1E；
d(B1,C3 ) f (C3 )
8 5
f
(B2 )
min
dd((BB22
, C1 ,C2
) )
f f
(C1 (C2
三、动态规划的基本概念
1．阶段与阶段变量
阶段是指一个问题需要做出决策的步数。动态规划是求解多阶段决策问题的，首先要根据问题需要作出决策的步数，把问题恰当地分成若干相互联系的阶段，以便按次序求解。阶段一般是根据时间和空间的自然特征来划分的。描述阶段的变量称为阶段变量，常用k表示。
2．状态与状态变量
min
dd((CC22
, ,
D1 D2
) )
f f
( (
D1 D2
) )
min
7 3
2 4
7 对应的路线为：C2D2E；
f
(C3
)
min
dd((CC33
, ,
D1 D2
) )
f f
( (
D1 D2
) )
3 2 min 2 4
5
对应的路线为：为C3D1E；
7
整数规划
第一节动态规划的数学模型
2
整数规划
第一节动态规划的数学模型
一、多阶段决策问题
例6—1 最短路径问题。设有一个旅行者从图中的A点出发，途中要经过B、C、 D等处，最后到达终点E。从A到E有很多条路可以选择，各点之间的距离如图所示，问该旅行者应该选择哪一条路线，使从A到E的总路程最短。
3
整数规划
第一节动态规划的数学模型
8
整数规划
第一节动态规划的数学模型
4．四个阶段联合考虑时从A到E的最优选择。
f ( A)
min
d( d (
A, A,
B1 B2
) )
f f
( (
B1 B2
) )
2 11
min
4
7
11
d( A, B3 ) f (B3 )
6 8
对应的路线为：AB2C1D1E；
9
整数规划
第一节动态规划的数学模型
10
整数规划
第一节动态规划的数学模型
三、动态规划的基本概念
3．决策和决策变量
当过程处于某一阶段的某一状态时，决策者在面临的若干种不同方案中
作出选择，这种选择称为决策。描述决策的变量称为决策变量，用xk（sk）表示第k阶段状态下的决策变量。第k阶段状态为时决策变量允许的取值
状态表示每个阶段开始所处的自然状况和客观条件，它描述了研究问题过程的状况，是动态规划中最关键的一个参数。状态是动态规划问题各阶段信息的传递点和结合点，既反映前面各阶段决策的结局，又是本阶段作出决策的出发点和依据。随着每个阶段决策的选择，状态就会发生转移。描述状态的变量称为状态变量，常用sk表示，它的取值可以是一个数、一个数组或一个向量。状态变量所有可能的取值构成的集合称为允许状态集，用Sk表示。
后能继续使用的完好机器数占年初投入量的a倍 (0 a 1) ，若用于低负荷生产，一年后能继续使用的完好机器数占年初投入量的b倍 (0 b 1) ，即下一年初能继续用于生产的机器数为 sk1 axk b(sk xk )。设第一年初完好的机器
数为 s1 ，问在连续三年内，每年应如何分配在两种负荷下进行生产的完好

第六章 动态规划[46页]

动态规划

动态规划

第6章动态规划

运筹学额 第6章：动态规划

第6章-动态规划

动态规划

第6章_动态规划ppt课件

第六章动态规划

第六章动态规划[46页]

运筹学额第6章：动态规划