5.2动态规划的基本概念和基本方程

合集下载

动态规划

动态规划
f1(A)=MIN r(A,B1)+ f2(B1) r(A,B2)+ f2(B2)
=MIN(3+12,4+10)=14
最短路线: A—— B2 ——C2——D2——E2——F 最优解: d1*(A)= B2,最短用时14
1
B2
C3
4 2
D3
5
E2
4
A
2
C2
3 3 3
D2
2
F
3
B1
5 4
C1
4
2
E1
最优解: d2*(B1)= C1
1
B2
C3
4 2
D3
5
E2
4
A
2
C2
3 3 3
D2
2
F
3
B1
5 4
C1
4
2
E1
4
3
D1
A
B
C
D
E
F
如果S2=B2,则下一步能取C2或C3,故
f2(B2)=MIN r(B2,C2)+ f3(C2)
r(B2,C3)+ f3(C3) =MIN(2+8,1+11)=10
最短路线: B2 ——C2——D2——E2——F
1
B2
C3
4 2
D3
5
E2
4
A
2
C2
3 3 3
D2
2
F
3
B1
5 4
C1
4
2
E1
4
3
D1
A
B
C
D
E
F
如果S4=D3,则下一步只能取E2,故

动态规划的基本概念

动态规划的基本概念

且也必然对目标函数给予影响,阶段效应就是执行阶段 决策时给目标函数的影响。
多阶段决策过程关于目标函数的总效应是各阶段的阶段 效应累积形成的。常见的全过程目标函数有以下两种形式: (1)全过程的目标函数等于各阶段目标函数的和,即:

R=r1 (x1, u1) +r2 (x2, u2) +…+rn(xn, un) (2)全过程的目标函数等于各阶段目标函数的积,即: R=r1 (x1, u1) ×r2 (x2, u2) ×…×rn(xn, un)
例2(带回收的资源分配问题)某厂新购某种机床125台。据 估计,这种设备5年后将被其它设备所代替。此机车如在高负荷状 态下工作,年损坏率为1/2,年利润为10万元;如在低负荷状态下 工作,年损坏率为1/5,年利润为6万元。问应如何安排这些机床 的生产负荷,才能使5年内获得的利润最大? 本问题具有时间上的次序性,在五年计划的每一年都要作出 关于这些机床生产负荷的决策,并且一旦作出决策,不仅影响到 本年利润的多少,而且影响到下一年初完好机床数,从而影响以 后各年的利润。所以在每年初作决策时,必须将当年的利润和以 后各年利润结合起来,统筹考虑。 与上面例1、例2类似的多阶段决策问题还有资源分配、生产 存贮、可靠性、背包、设备更新问题等等。
在基本方程中, rk(xk, uk), xk+1=T(xk, uk)都是已知函数,
最优子策略fk(xk)与fk+1(xk+1)之间是递推关系, 要求出fk(xk)及uk(xk),需要先求出fk+1(xk+1),这 就决定了应用动态规划基本方程求最优策略总是逆着 阶段的顺序进行的。
另一方面,由于k+1阶段的状态xk+1=T(xk, uk)是由前面的状态 和决策所形成的,在计算fk+1(xk+1)时还不能具体确定xk+1的,这 就要求必须就k+1阶段的各个可能状态计算fk+1(xk+1),因此动态 规划不但能求出整个问题的最优策略和最优目标值,而且还能求 出决策过程中所有可能状态的最优策略及最优目标值。

动态规划的基本思想和基本方程

动态规划的基本思想和基本方程
物流运筹学
2
结合最短路线问题介绍动态规划方法的基本思想。
生活中的常识告诉我们,最短路线有一个重要特性:如果由起点A经 过P点和H点而到达终点G是一条最短路线,则由点P出发经过H点到达 终点G的这条子路线,对于从点P出发到达终点的所有可能选择的不同 路线来说,必定也是最短路线。例如,在最短路线问题中,若找到了 A→B1→C2→D1→E2→F2→G是由A到G的最短路线,则D1→E2→F2→G 应该是由D1出发到G点的所有可能选择的不同路线中的最短路线。
ff22((BB12)) u1( A) B1 。于是得到从起点A到终点G的最短距离为18。
7
为了找出最短路线,再按计算的顺序反推之,可求出最优决
策函数序列 uk ,即由
u1( A) B1, u2 (B1) C2 ,u3 (C2 ) D1,u4 (D1) E2 ,u5 (E2 ) F2 , u6 (F2 ) G
组成一个最优策略。因而,找出相应的最短路线为
A B1 C2 D1 E2 F2 G
8
从上面的计算过程中可以看出,在求解的各个阶段,我们利用了
k阶段与k+1阶段之间的递推关系:
fk
(sk
)
min
uk Dk (sk
)
dk (sk ,uk (sk )) fk1(uk (sk ))
f7 (s7 ) 0(或写成 f6 (s6 ) d6 (s6,G))
u3 (C1) D1 u3 (C2 ) D1 u3 (C3 ) D2 u3 (C4 ) D3
当k=2时,有
f2 (B1) 13 f2 (B2 ) 16
u2 (B1) C2 u2 (B2 ) C3
当k=1时,出发点有一个A点,则
f1(A) min

动态规划的基本原理和基本概念

动态规划的基本原理和基本概念

)
=
max/
min
n

d
j
(S
j
,
x
j

)
j=k

7)指标递推方程(动态规划的基本方程):
fk (Sk ) = max/ min{dk (Sk , xk ) + fk+1(Sk+1)}, k = 1,2,..., n

f
n+1
(Sn+1
)
=
0
例 投资金额分配问题.某公司有4百万元资金需要投资,有三个投资 项目可以选择。经市场调查预测,如果向项目 i 投资 j 百万元,则每年
所得到的利润(万元/年)因投资额的不同而有差异,如下表所示。问
应如何投资才能使总的利润最大?
投资额
利润
0
1
2
3
4
项目
项目1
0
16 25 30 32
项目2
0
12 17 21 22
项目3
0
10 14 16 17
解:令每给一个项目考虑投资多少资金为一个决策阶段,则该投资
决策问题可分为三个阶段.决策顺序为:
最优 决策
0 1 1
2 2,3
目标 值
0 12 22
27 31
项目1(阶段1):
状态 0 4 0+31
决策
1
2
3
16+27 25+22* 30+12
4 32+0
最优 决策
2
目标 值
47
S1
x1 S2
x2
S3
x3
47 4
31 4

2_1动态规划的基本方程和基本定理

2_1动态规划的基本方程和基本定理
(2.1.4) (2.1.5)
k 1 ,2,, n,
边界条件是
f 0 x0 0.
递推过程时从k=1开始,从前往后推移,直到求出fn(xn). 同样,第一编的(1.5),(1.6)就是(2.1.5)在最短线路中的具体形式。 以后,凡是要求“给出问题的DP模型”,则意味着:
1. 定义恰当的最优值函数;
动态规划和数学规划的关系

动态规划的优点和存在的问题
§1 动态规划的术语
一、阶段
把所给问题的过程恰当地分成若干个相互联系的阶段,以便于求解,
过程不同,阶段数就可能不同,描述阶段的变量称阶段变量。 阶段可以是离散的,也可以是连续的,但是多数情况下是离散的。 二、状态 状态表示每个阶段开始面临的自然状况或客观条件,它不以人们
是定义在
xk , uk , xk 1, uk 1,... 上的函数,要构成动态规划模型,这个
Vk ( xk ,u k , xk 1, uk 1,...) [ xk , uk ,Vk ( xk 1, uk 1,...)]
函数还需要满足递推关系:
常见的指标函数的形式是: 1. 过程和它的任一子过程的指标是它所包含的各阶段指标之和,即
Vk ( xk ,...) v j ( x j , u j )
j k
n 1
其中 v j ( x j , u j ) 表示第j阶段的指标,这时
Vk ( xk ,...) vk ( xk , uk ) Vk 1 ( xk 1 ,...);
2. 过程和它的任一子过程的指标是它所包含的各阶段的指标的乘积,即
的主观意志为转移,也称为不可控因素。
过程的状态通常可以用一个或一组变数据描述,称为状态变量。 常用 xk 表示第K个阶段的某一状态。

动态规划的基本概念与方法

动态规划的基本概念与方法

动态规划的基本概念与方法动态规划(Dynamic Programming,简称DP)是解决一类最优化问题的一种方法,也是算法设计中的重要思想。

动态规划常用于具有重叠子问题和最优子结构性质的问题。

它将问题分解为子问题,并通过求解子问题的最优解来得到原问题的最优解。

动态规划的基本概念是“最优子结构”。

也就是说,一个问题的最优解可以由其子问题的最优解推导出来。

通过分解问题为若干个子问题,可以形成一个递归的求解过程。

为了避免重复计算,动态规划使用一个表格来保存已经计算过的子问题的解,以便后续直接利用。

这个表格也被称为“记忆化表”或“DP表”。

动态规划的基本方法是“状态转移”。

状态转移指的是,通过已求解的子问题的解推导出更大规模子问题的解。

常用的状态转移方程可以通过问题的递推关系定义。

通过定义好状态转移方程,可以通过迭代的方式一步步求解问题的最优解。

在动态规划中,通常需要三个步骤来解决问题。

第一步,定义子问题。

将原问题划分为若干个子问题。

这些子问题通常与原问题具有相同的结构,只是规模更小。

例如,对于计算斐波那契数列的问题,可以定义子问题为计算第n个斐波那契数。

第二步,确定状态。

状态是求解问题所需要的所有变量的集合。

子问题的解需要用到的变量就是状态。

也就是说,状态是问题(解决方案)所需要的信息。

第三步,确定状态转移方程。

状态转移方程通过已求解的子问题的解推导出更大规模子问题的解。

通常情况下,状态转移方程可以通过问题的递推关系确定。

在实际应用中,动态规划常用于求解最优化问题。

最优化问题可以归纳为两类:一类是最大化问题,另一类是最小化问题。

例如,最长递增子序列问题是一个典型的最大化问题,而背包问题是一个典型的最小化问题。

动态规划的优势在于可以解决许多复杂问题,并且具有可行的计算复杂度。

但是,动态规划也有一些限制。

首先,动态规划要求问题具有重叠子问题和最优子结构性质,不是所有问题都能够满足这两个条件。

其次,动态规划需要存储计算过的子问题的解,对于一些问题来说,存储空间可能会非常大。

动态规划的基本概念

动态规划的基本概念

动态规划的基本概念基本概念设我们研究某一个过程,这个过程可以分解为若干个互相联系的阶段。

每一阶段都有其初始状态和结束状态,其结束状态即为下一阶段的初始.状态。

第一阶段的初始状态就是整个过程的初始状态,最后一阶段的结束状态就是整个过程的结束状态。

在过程的每一个阶段都需要作出决策,而每一阶段的结束状态依赖于其初始状态和该阶段的决策。

动态规划问题就是要找出某种决策方法, 使过程达到某种最优效果。

这种把问题看作前后关联的多阶段过程称为多阶段决策过程, 可用图9.1表示。

下面介绍动态规划的术语和基本概念。

(l)阶段 把所研究的过程恰当地分为若干个互相联系的相对独立过程。

(2)状态变量 用来描述系统所处状态的变量称为状态变量。

通常用s k 表示第k 阶段的初始状态,则s k +1表示第k 阶段结束时(也就是第k+l 阶段开始时)过程的状态。

通常要求状态变量具有无后效性, 即过程在第k 阶段以后的变化只与该阶段结束时的状态有关, 而与系统如何到达此状态的过程无关。

(3)决策变量的状态转移方程。

系统在第k 阶段中的变化过程, 通常我们并不关心,但我们希望知道该阶段的初始状态与结束状态之间的关系。

我们用以影响该系统的手段,也用一个变量x k 表示,称为决策变量, 则第k 阶段结束时的状态s k +1是决策变量x k 和初始状态s k 的函数, 即s k +1=T (s k ,x k ) (9-1)(9-1)称为状态转移方程。

(4)权函数 反映第k 阶段决策变量x k 的效益函数W k (s k ,x k ) 称为权函数。

(5)指标函数 判断整个过程优劣的数量指标称为指标函数。

当第k 阶段初始状态为s k 时,设我们在此阶段及以后各阶段均采取最优策略时,所获得的效益为f k (s k ), 那么有 ))}(),,(({)(11++∈=k k k k k k D x k k s f x s W F opt s f kk (9-2) 其中opt 表示最优,按具体问题可取为max 或min , D k 是决策变量x k 的定义域;F k 是某一个函数; s k +1=T (s k ,x k ).图9.1例如,描述一质点在已知力场中的运动,若我们选取该质点的坐标(x,y,z)作为状态变量, 则不能满足无后效性要求, 因质点的运动不仅与它当前的坐标有关,还与它如何来到此点的过程有关。

动态规划基本概念

动态规划基本概念

最短路问题(2) 第四阶段 k=4
d4(D1,E)=30 f4(D1)=30
状态变量s4可取D1,D2
d4(D2,E)=40 f4(D2)=40
例1.
s4 D1 D2
u4(s4) E E
f4(s4)=d4 30 40
u4*(s4) E E
最短路问题(3) 第三阶段 k=3 f4(D1)=30 s3 C1 u3
3.确定决策uk,及每个阶段的允许决策集合Dk(sk) 4.写出状态转移方程: sk+1=Tk(sk,uk )
5.列出阶段效益vk(sk,uk)及效益函数 fk(sk)
二.动态规划的基本概念(4) 在不同问题中,最优指标函数fk( sk)表示的意义不一样, 可以是费用,成本,距离
6.状态转移方程:
确定由一个状态到另一个状态的演变过程. 若给定第k阶段状态变量sk的值,且该阶段的决策变量uk 一经确定 ,则第k+1阶段的状态变量sk+1也随之确定, 即sk+1是sk和uk的函数,记为sk+1=Tk(sk,uk), 它描述了由第k阶段到第k+1阶段的状态转移规律,
例1.最短路问题 设某公司自外国进口一台大型机床,由工厂至出口港,有 三港口可供选择,而进口港又有三个可供选择,进口后可 经由两个城市到达目的地,其间的运输路线如下图,试求 总距离最短的路线?
出口港 B1 20 A 40 进口港 70 C1 10 40 C2
40 60 30
B2 20
60 D1
D2
最优策略 在允许策略集合中,使整个问题达到最优效果的策略
k子过程 由第k阶段开始到终点为止的过程,称为原问题的 k后部子过程(或称为k子过程)
k子过程策略 k子过程的决策函数序列。简称子策略
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

K=3 ……
7
k=1 = d(A ,B1) +f2(B1) f1(A)=min = d(A ,B2) +f2(B2) 5+13 =min 3+16
8
=18 u1(A)= B1
(三)基本方程 三 基本方程 fk(Sk)=min{d(Sk , uk)+ fk+1(Sk+1)} k=6, …1 = f7(S7)=0 = 或 fk(Sk)=min{d(Sk , uk)+ fk+1(Sk+1)} k=5, …1 = f6(S6)= min{d(S6 , u6)} =
0≤u5≤S5
u5 * =S5
14
K=4 f4(S4)= max{3u4+5S4 + f5(S5)} =
0 ≤ u4 ≤ S4
= max{3u4+5S4 +8(0.9S4- 0.2u4)}
0 ≤ u4 ≤ S4
= max{1.4u4+12.2S4}
0 ≤ u4 ≤ S4
= 13.6S4
u4 * =S4
2
(5)最优指标函数: 最优指标函数: 最优指标函数 fk (Sk):第k段,在Sk状态时到终点 的最 状态时到终点G的最 : 段 短距离 (6)阶段效益: 阶段效益: 阶段效益 d(Sk ,uk)为第 段,采取策略 k 到下一状 为第k段 采取策略u 为第 态的距离
3
例1 最短路径问题
1 5
C1
15
K=3 f3(S3)= max{3u3+5S3 + f4(S4)} =
0 ≤ u3 ≤ S3
= max{3u3+5S3 +13.6(0.9S3- 0.2u3)}
0 ≤ u3 ≤ S3
= max{0.28u3+17.24S3}
0 ≤ u3 ≤ S3
= 17.5S3
u3 * =S3
16
K=2 f2(S2)= max{20.7S2-0.5u2} =
§5.2
动态规划的基本概念和基本方程
(一)基本概念 一 基本概念 (1)阶段:k 阶段: 阶段 (2)状态变量:Sk 状态变量: 状态变量 (3)决策变量: uk(Sk) 决策变量: 决策变量 (4)策略 策略 (5)状态转移方程: Sk+1 =T (Sk , uk) 状态转移方程: + 状态转移方程 (6)指标函数: Vk,n (Sk) 指标函数: , 指标函数 (7)最优指标函数: fk (Sk) 最优指标函数: 最优指标函数
9
例2 已知某种完好的机器1000台, 台 已知某种完好的机器 高负荷时 低负荷时 S1=8y1 S2=5y2 a=0.7 b=0.9
问:每年初应如何安排分配机器, 每年初应如何安排分配机器, 可使得5年总收益最大? 可使得 年总收益最大? 年总收益最大
10
解 (1)阶段:k=1,2,3,4,5 n=5 阶段: 阶段 (2)状态变量 k :第k年初始的完好设备数 状态变量S 状态变量 年初始的完好设备数 (3)决策变量 k:第k年初始分到高负荷下 决策变量u 决策变量 年初始分到高负荷下 的机器数 Sk- uk:第k年初始分到低负荷下 年初始分到低负荷下 的机器数
1
(二)前例 二 前例 前例1 (1)阶段:k=1,2,…,6 n=6 阶段: = , , , 阶段 (2)状态变量:Sk-第k阶段所处的位置 状态变量: 状态变量 阶段所处的位置 状态集合 如S2 : (B1 , B2) (3)决策变量 k :在第 段Sk状态时决定选 决策变量u 在第k段 决策变量 取的下一段的某点 (4)状态转移方程 :Sk+1 =uk 状态转移方程 +
18
第四年567台投入高负荷 台投入高负荷 第四年 S5= 0.9S4-0.2u4= 0.7S4 =397 第五年397台投入高负荷 台投入高负荷 第五年 基本方程 fk(Sk)=OPT{d(Sk uk)+ fk+1(Sk+1)} k=n, …1 = fk+1(Sk+1)=0 =
19
12
基本方程 fk(Sk)=max{d(Sk uk)+ fk+1(Sk+1)} k=5, …1 = f6(S6)=0 =
uk
即 fk(Sk)=max{(3uk+5Sk)+ fk+1(0.9Sk- 0.2uk)} =
uk
k=4, …1 f5(S5)= max{3uk+5Sk} =
uk
13
K=5 f5(S5)= max{3u5+5S5}=8S5 = =
3 8
6 3 5
D1
2 2
E1
5 5 E2 2 6
3
B1
8
6 7 6
C2 C3 C4
F1
4
A
3
D2 1 3
2 3
G F2
6 3
B2
3 8 4
D3 3
E3
4
k=6, f6(F1)=4 f6(F2)=3 = , = = k=5 = d(E1 ,F1) +f6(F1) f5(E1)=min )= d(E1 ,F2) +f6(F2) 3+4 =min 5+3
11
(4)状态转移方程: 状态转移方程: 状态转移方程 Sk+1 =0.7 uk+0.9(Sk - uk)= 0.9Sk - 0.2 uk + (5)最优指标函数: 最优指标函数: 最优指标函数 fk (Sk)—从第 年末采取最优策略的最大收益 从第k-5年末采取最优策略的最大收益 从第 (6)一年收益: 一年收益: 一年收益 d(Sk , uk)=8uk+5(Sk - uk)= 3uk +5Sk
0 ≤ u2 ≤ S2
= 20.7S2 K=1 f1(S1)=23.7 S1 = 当S1=1000时 时
u2* =0
u1* =0 f1(1000)=23700 =
17
结论 第一年1000台投入低负荷 台投入低负荷 第一年 S2= 0.9S1-0.2u1= 0.9S1 = 900 第二年900台投入低负荷 第二年 台投入低负荷 S3= 0.9S2-0.2u2= 0.9S2 = 810 第三年810台投入高负荷 台投入高负荷 第三年 S4= 0.9S3-0.2u3= 0.7S3 = 567
5
=7 u5(E1)= F1
同理 k=4 =
f5(E2)=5 u5(E2)= F2 = = f5(E3)=9 u5(E3)= F2 = = d(D1 ,E1) +f5(E1)
f4(D1)=min = d(D1 ,E2) +f5(E2) 2+7 =min 2+5 =7 u4(D1)= E2
6
同理
f4(D2)=6 u4(D2)= E2 = = f4(D3)=8 u4(D3)= E2 = =
相关文档
最新文档