1.多阶段决策过程2.Bellman最优性原理3.动态规划的数学描述
OR8

解: 把对每一个部位派出 巡逻队数量的决策,看成 是一个阶段,可归结成4 个阶段的决策问题。
2 3 4
A 18 14 10
B 38 35Biblioteka 31C 24 22 21D 34 31 25
2007/08
--20--
--第8章 动态规划--
一、建立模型
(1)阶段变量:k=1, 2, 3, 4 (2)状态变量:xk——第k阶段可用于分配的巡逻队数量; (3)决策变量:uk——第k阶段派出的巡逻队数量; 允许决策集合D(xk)={2, 3, 4} (4)状态转移律:xk+1=xk-uk ; (5)阶段指标函数:vk(uk)——预期损失函数,如表示; (6)基本方程:fk ( xk )= min{vk(uk)+ fk+1(xk+1)} (7)边界条件:f5 ( x5 )=0
3+ 3 3+ 4
=6,u3 * (C3) = C3D1
3)k=2, f2(x2)=min{v2(x2,u2) + f3(x3)}, B1C1+ f3(C1) f2(x2=B1)= min B1C2+ f3(C2) B1C3+ f3(C3) B2C1+ f3(C1) f2(x2=B2)= min B2C2+ f3(C2) B2C3+ f3(C3) = min = min 7+4 5+7 6+6 3+4 2+7 4+6 =7, u2 * (B2) = B2C1 =11,u2 * (B1) = B1C1
2007/08 --8--
--第8章 动态规划--
(3)决策(decision):指在某阶段从给定的状态出发,决策者从面 临的若干种不同的方案中所做出的选择。 决策变量uk(xk) ∈Dk(xk)——允许决策集合, uk(xk)取值范围。 要点: ① 决策变量是对活动过程控制的手段; ② 决策变量取值可以是连续型的,也可以是离散型的; ③ 允许决策集合相当于可行域。 (4)策略(policy)与子策略(subpolicy):各阶段决策组成的序列 总体称为策略;从某一阶段开始到过程最终的决策序列称为子策 略。 n 阶段策略可记为 {u1(x1), u2(x2) , … , un(xn)}, 子策略可记为 {uk(xk), uk+1(xk+1) , … , un(xn)}。 (5)状态转移律:状态参数变化的规律。从第k阶段的某一状态值xk 出发,当决策变量uk的取值确定之后,下一阶段的状态值xk+1按 某种规律T(xk , uk)确定。 第k+1阶段状态是第k阶段状态xk和变量uk的函数 xk+1 = T(xk , uk), 又称状态转移方程。
动态规划算法

2级
n=4时:有3大类归并法。前1堆后3堆、前2堆后2堆、前3堆后1堆。
因3堆有2种归并法,所以一共5小类归并法。前1堆第1种情况:
4级 3级 2级 1级 13 序号 1
44 31 15 7
2
f(1, 4) = 15 + 31 + 44 = 90 = f(2, 4) + g(1, 4) w不变 = f(2, 3) + g(2, 4) + g(1, 4)
若f(2,4)越小,则f(1,4)就越小。 8
3
16
4
n=4 时:前1堆的第2种情况。
4级 44 31 24 7 2 8 3 f(1, 4) = 24 + 31 + 44 = 99 = f(2, 4) + g(1, 4) w不变 = f(3, 4) + g(2, 4) + g(1, 4) 若f(2,4)越小,则f(1,4)就越小。 16 4 f(1, 4) = 20 + 24 + 44 = 88
的一种通用方法,对最优化问题提出最优性原则,从而创建最优化问题
的一种新算法设计技术——动态规划,它是一种重要的应用数学工具。 至少在计算机科学圈子里,人们不仅用它解决特定类型的最优化问题, 而最终把它作为一种通用的算法设计技术,即包括某些非最优化问题。 多阶段决策过程最优化: 现实世界里有许多问题属于这种情况:它有很多解,应用要求最优解。 穷举法通过找出全部解,再从中选出最优解。这种方法对于那些计算
动态规划-动态规划-美国数学家贝尔曼-动态规划领域

物品
1 2 … j …n
重量(公斤/件) a1 a2 … aj … an
每件使用价值 c1 c2 … cj … cn
类似问题:工厂里的下料问题、运输中的 货物装载问题、人造卫星内的物品装载问题等。
生产决策问题:企业在生产过程中,由于需求 是随时间变化的,因此企业为了获得全年的最佳 生产效益,就要在整个生产过程中逐月或逐季度 地根据库存和需求决定生产计划。
描述状态的变量称为状态变量,它可用一个数、 一组数或一向量(多维情形)来描述,第k阶段 的状态变量常用sk表示,通常一个阶段有若干个 状态。
第k阶段的状态就是该阶段所有始点的集合, 用Sk表示。在第1阶段状态变量s1是确定的,称初 始状态。如引例中:
S1 A,S2 B1, B2, B3,S3 C1,C2,C3,S4 D1, D2
min
4
9
12
决策点为B3
AB3
f2
B3
3 9*
f1(A)=12说明从A到E的最短距离为12,最短路 线的确定可按计算顺序反推而得。即
A→B3→C2→D2→E 上述最短路线问题的计算过程,也可借助于图
形直观的表示出来:
12 2 A4
3
11
B1
7 4
6
93
B2 2
4
96
B3
2 5
6
C1 3
多阶段决策过程特点:
(1)根据过程的特性可以将过程按空 间、时间等标志分为若干个互相联系又互相 区别的阶段。
(2)在每一个阶段都需要做出决策,从 而使整个过程达到最好的效果。
(3)在处理各阶段决策的选取上,不仅只 依赖于当前面临的状态,而且还要注意对以后 的发展。即是从全局考虑解决局部(阶段)的 问题。
动态规划算法实现多段图的最短路径问题算法设计与分析实验报告

动态规划算法实现多段图的最短路径问题算法设计与分析实验报告算法设计与分析实验报告实验名称 动态规划算法实现多段图的最短路径问题 评分 实验日期 年 月 日 指导教师 姓名 专业班级 学号一.实验要求1. 理解最优子结构的问题。
有一类问题的活动过程可以分成若干个阶段,而且在任一阶段后的行为依赖于该阶段的状态,与该阶段之前的过程如何达到这种状态的方式无关。
这类问题的解决是多阶段的决策过程。
在50年代,贝尔曼(Richard Bellman )等人提出了解决这类问题的“最优化原理”,从而创建了最优化问题的一种新的算法设计方法-动态规划。
对于一个多阶段过程问题,是否可以分段实现最优决策,依赖于该问题是否有最优子结构性质,能否采用动态规划的方法,还要看该问题的子问题是否具有重叠性质。
最优子结构性质:原问题的最优解包含了其子问题的最优解。
子问题重叠性质:每次产生的子问题并不总是新问题,有些子问题被反复计算多次。
问题的最优子结构性质和子问题重叠性质是采用动态规划算法的两个基本要素。
2.理解分段决策Bellman 方程。
每一点最优都是上一点最优加上这段长度。
即当前最优只与上一步有关。
U s 初始值,u j 第j 段的最优值。
⎪⎩⎪⎨⎧+==≠}.{min ,0ijiji js w u u u3.一般方法1)找出最优解的性质,并刻画其结构特征;2)递归地定义最优值(写出动态规划方程);3)以自底向上的方式计算出最优值;4)根据计算最优值时得到的信息,构造一个最优解。
步骤1-3是动态规划算法的基本步骤。
在只需要求出最优值的情形,步骤4可以省略,步骤3中记录的信息也较少;若需要求出问题的一个最优解,则必须执行步骤4,步骤3中记录的信息必须足够多以便构造最优解。
二.实验内容1.编程实现多段图的最短路径问题的动态规划算法。
2.图的数据结构采用邻接表。
3.要求用文件装入5个多段图数据,编写从文件到邻接表的函数。
4.验证算法的时间复杂性。
北交大交通运输学院《管理运筹学》知识点总结与例题讲解第7章 动态规划

两级决策问题,从城市④到 E 有两条路线,需加以比较,取其中最短的,即
f3 (4)
=
min
⎧d ⎩⎨d
(4, 7) + (4,8) +
f
4
(7)⎫ ⎬
f4 (8) ⎭
表 7-1
i月
1
2
3
4
yi (需求)
2
3
2
4
这也是一个 4 阶段决策问题。 例 3 投资决策问题
某公司现有资金 Q 万元,在今后 5 年内考虑给 A、B、C、D 四个项目投资,这些项目 的投资期限、回报率均不相同,问应如何确定这些项目每年的投资额,使到第五年末拥有资
金的本利总额最大。 这是一个 5 阶段决策问题。
c(
j)
=
⎧ ⎨⎩a
0 + bj
( j = 0) ( j = 1, 2,3,L , m)
(千元)
其中 a 为生产的固定费用, b 为可变生产费率, m 为生产能力。供应需求所剩余产品应存 入仓库,每月库存 j 单位产品的费用为
E( j) = c * j (千元)
计划开始和计划期末库存量都是 0。试制定 4 个月的生产计划,在满足用户需求的条件下使 总费用最小。
现在我们利用动态规划最优性原理,由最后一段路线开始,向最初阶段递推求解,逐
步求出各段各点到终点 E 的最短路线,最后求得 A 点到 E 点的最短路线。 上面我们已经规定了本例的阶段数、状态变量、决策变量,给出了转移方程、指标函数
等。再用 d (sk , uk ) 表示由状态 s k 点出发,采用决策 uk 到达下一阶段 sk+1 点时的两点间距离。 第一步从 k=4 开始,状态变量 s4 可取两种状态⑦、⑧,它们到 E 点的路长分别为 4,3。
运筹学动态规划

特别注意:动态规划是求解某类问题的一种 方法,是考察问题的一种途径,而不是一种算法 (如线性规划是一种算法)。
因而,动态规划没有标准的数学表达式和明 确定义的一组规则,而必须对具体问题进行具体 分析处理.
动态规划
8.1 多阶段决策过程及实例 8.2 动态规划的基本概念和
基本方程 8.3 动态规划的最优性定理 8.4 动态规划与静态规划关系
综述
动态规划是运筹学的一个分支,是解决多 阶段决策过程最优化问题的一种数学方法。
该方法是由美国数学家贝尔曼(R.Bellman)等 人在本世纪50年代初提出的。
他们针对多阶段决策问题的特点,把多阶段 决策问题变换为一系列互相联系单阶段问题,然 后逐个加以解决。
1
2
3
始点
5
B1
6 3
A
4 B2 4 6
2
5
B3 6
C1
1 2
2
C2 2
3
C3
3
4 终点
D1 2
D2 3
E
4
D3
2、状态
5
B1
6 3
A 4 B246
25
B3 6
C1
1 2
2
C2 2
C3 3 3
D1 2
D2 3 E 4
D3
各个阶段开始时所处的自然状况和客观条件称为
状态,描述了研究问题过程的状况(称不可控因素).
一些与时间没有关系的静态规划(如线性 规划,非线性规划)问题,只要人为地引进 “时间”因素,也可把它视为多阶段决策问题, 用动态规划方法去处理。
运筹学胡运权

§1 多阶 段决 策过 程的 最优
化
本章 内容
多阶段决策过程的最优化 动态规划的基本概念和基本原理 动态规划模型的建立与求解 动态规划在经济管理中的应用 马氏决策规划简介
为了便于求解和表示决策及过程的 发展顺序,而把所给问题恰当地划分为 若干个相互联系又有区别的子问题,称 之为多段决策问题的阶段。一个阶段, 就是需要作出一个决策的子问题,通常, 阶段是按决策进行的时间或空间上先后 顺序划分的。用以描述阶段的变量叫作 阶段变量,一般以k表示阶段变量.阶 段数等于多段决策过程从开始到结束所 需作出决策的数目,图7—1所示的最短 路问题就是一个四阶段决策过程。
策略(Policy)也叫决策序列.策略有全过
程策略和k部子策略之分,全过程策略是指具有 n个阶段的全部过程,由依次进行的n个阶段决
策构成的决策序列,简称策略,表示为
p1,n{u1,u2,…,un}。从k阶段到第n阶段,依次进 行的阶段决策构成的决策序列称为k部子策略, 表示为pk,n{uk,uk+1,…,un} ,显然当k=1时的k部
本章 内容
多阶段决策过程的最优化 动态规划的基本概念和基本原理 动态规划模型的建立与求解 动态规划在经济管理中的应用 马氏决策规划简介
创始时间 创始人
上个世纪50年代
美国数学家贝尔曼 (Richard. Bellman)
是运筹学的一个主要分支 是解决多阶段决策过程的最优化的一
种方法多阶段决策过程: 多阶段决策过程的最优化的目标: 达到整个活动过程的总体效果最优 •主要用于解决:
化
例1:某厂与用户签订了如表所示
Bellman最优性原理在多阶段不确定最优控制中的应用

Bellman最优性原理在多阶段不确定最优控制中的应用康玉洁;贾利新;王亚子【摘要】Optimal control is the core of modern control theory.A multi-stage uncertain optimal control model is built for a multi-stage optimal system which is disturbed by an uncertain variable at every stage.Based on the model,a set of recursive formula is obtained by using Bellman's principle of optimality in dynamic programming.%最优控制是现代控制理论的核心.在多阶段最优控制系统中,当不确定变量对状态转移方程里的状态变量干扰时,建立多阶段不确定最优控制系统模型.对所得模型,运用动态规划中Bellman最优性原理,证明得出一组递推公式.【期刊名称】《河南科学》【年(卷),期】2017(035)001【总页数】4页(P13-16)【关键词】多阶段不确定最优控制;状态转移方程;Bellman最优性原理【作者】康玉洁;贾利新;王亚子【作者单位】周口师范学院数学与统计学院,河南周口466001;郑州升达管理学院,郑州451191;周口师范学院数学与统计学院,河南周口466001【正文语种】中文【中图分类】O23220世纪中叶,在现代控制理论中,最优控制是其中主要研究的问题之一.所谓最优控制问题[1],就是为了使得目标函数求得最优值,在待求解的决策中找到一个最优决策.在实际应用中,速度最优问题[2]就是工程上的最优控制中一个常见的问题.在航天领域,时间最优、燃料最优、时间-燃料最优问题[1-11]也是人们研究的最优控制的热点.随着研究的不断深入,人们逐渐关注起多阶段最优控制问题[12-14].2007年,刘宝碇提出满足正规性、自对偶性、单调性和次可数可加性的不确定性理论[15],包括不确定规划、不确定过程、不确定微分、动态不确定现象等.至此,在实践运用和理论研究中,不确定变量的测度开始被正式使用,逐渐成为数学中的一个重要领域.本文在多阶段最优控制系统中,考虑当状态转移方程从前一个状态转移到后一个状态时,如果有不确定变量进行干扰,就可以建立多阶段不确定最优控制系统模型.最后运用动态规划中Bellman最优性原理[15],证明得出一组递推公式.不确定性理论是本文所研究的多阶段不确定最优系统的基础,所以首先介绍不确定性理论的相关概念.定义1[16-20]称在L上定义的σ-代数的函数M为不确定测度,若M符合以下公理:公理1(正规性)对全集Γ,有公理2(自对偶性)对任意L上的事件Λ,有公理3(次可数可加性)对一个有限的序列定义2[16-20]若对任意实Borel集合B1,B2,…,Bm,有则称ξ1,ξ2,…,ξm是独立的不确定变量.定理1[17]对于两个独立的不确定变量ξ和η,对任意的实数a和b,成立注对不独立的不确定变量,其期望值E一般不具有此性质.2.1 多阶段最优控制系统模型最优控制问题,就是为了使得目标函数求得最优值,在待求解的决策中找到一个最优决策,其一般模型如下:其中∶f是目标函数;x(j)是状态变量;u(j)是控制变量;x0是模型的初始状态.2.2 多阶段不确定最优控制系统模型在多阶段不确定系统最优控制系统中,当状态转移方程从前一个状态转移到后一个状态时,如果有不确定变量的干扰,此时,目标函数f也受到不确定变量的干扰,为了度量目标函数具体的值,本文采用不确定变量的期望值来求解.采用上述方法,就可以建立多阶段不确定最优控制系统模型,其一般模型如下:其中不确定变量C1,C2,…,CN是相互独立的.如果初始阶段是第k个阶段,对任意的0≤k≤N,J(xk,k)是[k,N]上期望值最大的值,则有如下模型:其中:x(k)=xk是第k个阶段的状态.在多阶段不确定系统最优控制系统模型(1)和(2)中,应用动态规划中Bellman最优性原理,可以证明得到如下定理.定理2 对于模型(1),有下列递推公式成立:其中:k=N-1,N-2,…,1,0.证明对于模型(1),由所给条件很明显可以得到对任意的k=N-1,N-2,…,1,0,由定理1,有对任意的的表达式,有进一步,对于k+1≤i≤N,则有对不等式(5)两边同时关于u(k)取最大值,有联合(4)式和(6)式,即可得递推公式(3),定理2即证.根据前面所考虑的模型(2),递推公式(3)还可以表示为其中:k=N-1,N-2,…,1,0.本文在多阶段最优控制系统中,考虑状态转移方程从前一个状态转移到后一个状态时,如果有不确定变量的干扰,建立多阶段不确定最优控制系统模型,并运用动态规划中Bellman最优性原理,证明得出一组递推公式.在此递推公式的基础上,可以对具体的多阶段不确定最优控制问题,如线性和非线性多阶段不确定最优控制问题,求解其最优控制和最优值.【相关文献】[1]李训经,雍炯敏,周渊.控制理论基础[M].2版.北京:高等教育出版社,2010.[2] Lasalle J P.Functional analysis and time optimal control[M].New York:Academic Press,1969.[3]解学书.最优控制理论与应用[M].北京:清华大学出版社,1986.[4]雍炯敏.动态规划方法与Hamilton-Jacobic-Bellman方程[M].3版.上海:上海科学技术出版社,1992.[5]雍炯敏,楼卫红.最优控制理论简明教程[M].4版.北京:高等教育出版社,2006.[6]周凤岐.现代控制理论及应用[M].3版.成都:电子科技大学出版社,1994.[7]赵纯均,詹一辉.控制理论基础[M].3版.北京:清华大学出版社,1991.[8]郭尚来.随机控制[M].北京:清华大学出版社,1999.[9]蔡尚峰.随机控制理论[M].上海:上海交通大学出版社,1987.[10]钟秋海.现代控制理论[M].北京:高等教育出版社,2004.[11]解学书.最优控制理论与应用[M].北京:清华大学出版社,1986.[12] Zhu Y.Fuzzy optimal control for multi-stage fuzzy systems[J].IEEE Transactions on Systems,Man&Cybernetics:Part B,2011,41(4):964-975.[13] Zhu Y,Ji X.Expected values of functions of fuzzy variables[J].Journal of Intelligent Fuzzy Systems,2006,17(5):471-478.[14] Zhu Y.On para-normed space with fuzzy variables based on expected valued operator[J].International Journal of Uncertainty,Fuzziness and Knowledge-based Systems,2008,16(1):95-106.[15] Liu B.Uncertainty Theory[M].Berlin:Springer-Verlag,2007.[16] Liu B.Uncertainty Theory:A branch of mathematics for modeling human uncertainty[M].Berlin:Springer-Verlag,2010.[17] Liu B.Theory and practice of uncertain programming[M].Heidelberg:Physica-Verlag,2002.[18] Liu B.Some research problems in uncertainty theory[J].Journal of Uncertain Systems,2009,3(1):3-10.[19] Liu B.A survey of entropy of fuzzy variables[J].Journal of Uncertain Systems,2007,1(1):4-13.[20] Liu B.Fuzzy process,hybrid process and uncertain process[J].Journal of Uncertain Systems,2008,2(1):195-215.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2019/3/8
例7-3的求解
依此类推可求得:
*u3=S3 f3 (S3 ) = 17.5S3 *u2= 0 f2 (S2 ) = 20.8S2 *u1= 0 f1 (S1 ) = 23.7S1 =23700(件)
计算结果表明,前两年应把全部完好设备均投入低负荷生产; 而后三年应把全部完好设备均投入高负荷生产。这样所得的产 量最高,其最高产量为23700件。各年年初的状态为: S1 =
[例7-2]: 第119页 某公司拟将500万元的资本投入所属的甲、乙、丙 三个工厂,各工厂获得投资后年利润将有相应的增 长,一定投资下的利润增长额如下表所示,试确定 最优的投资分配方案,使公司年利润增长额最大。 投资(百万元) 1 2 3 4 5 甲 0.3 0.7 0.9 1.2 1.3 乙 0.5 1.0 1.1 1.1 1.1 丙 0.4 0.6 1.1 1.2 1.2
2019/3/8
阶段指标函数
阶段指标函数是对应某一阶段决 策的效率度量,用gk=rk (Sk, dk)来 加以表示。
2019/3/8
过程指标函数
过程指标函数是用来衡量所实现过程优劣的数量 指标,它是定义在全过程(策略)或后续子过程 (子策略)上的数量函数。过程指标函数常用 Rk,,N 来表示,构成动态规划的过程指标函数应具 有可分性并满足递推关系,即Rk,,N 可表示为rk 和 Rk+1,N二者的函数。最常见的过程指标函数与阶段 指标函数的关系有如下两种: 1.过程指标函数是阶段指标函数的和,此时 Rk,,N =rk +Rk+1,N 2.过程指标函数是阶段指标函数的积,此时 Rk,,N =rk Rk+1,N
2019/3/8
例7-2的求解
按工厂分为三个阶段: 甲 乙 丙 k:1 2 3 设Sk为第k个工厂至第3个工厂可利用的投资额, xk为第k个工厂获得的投资额,则Sk+1=Sk - xk。因而 有最优指标函数: fk(Sk)=max{rk(xk)+fk+1(Sk-xk)} f4(S4)=0
2019/3/8
K=4:
f4 (S4 )=max {8u4+ 5(S4 - u4 )+ f5 [0.7u4+0.9(S4 - u4 )]} =max {8u4+ 5(S4 - u4 )+ 8[0.7u4+0.9(S4 - u4 )]} =max {1.4u4+ 12.2S4} f4 (S4 )是关于u4的单调增函数*u4=S4 f4 (S4 )= 13.6S4
2019/3/8
决策
决策是指决策者在若干可行方案中所 作出的选择。决策变量dk(Sk)表示第k 阶段、 状态为Sk时的决策。决策变量的取值会受 到一定的限制,用Dk(Sk)表示第k 阶段、 状态为Sk 时决策变量允许的取值范围,称 为允许决策集合,因而有dk(Sk) Dk(Sk) 。
2019/3/8
2019/3/8
多阶段决策过程
决策 dn sn(in) n sn(out) 阶段
输入
输出
转移律
gn= rn(sn, dn)
图6-1(a)
2019/3/8
图6-1(b)
多阶段决策过程
d1 s1
1
d2 s2
2
dN s 3 sN
N
sN+1
g1
g2
图 6-2 N 阶段决策系统示意图
gN
2019/3/8
2019/3/8
例7-2的求解
x2
S2
0
0+0 0+.4 0+.6 0+1.1 0+1.2
r2(x2)+f3(S2-x2) 1 2 3
4
5
f2(S2) *x2
0 0.5 1.0 1.4 1.6 0 1 2 2 1,2
2
0 1 2 3 4
5
.5+0 .5+.4 1+0 .5+.6 1+.4 .5+1.1 1+.6
2019/3/8
例1
A B C D
B1
6
12 9
C1
15
A
4 8
B2
20 16
D
10
C2
9
16
2019/3/8
B3
例1的构模
阶段:k=1, 2, 3 状态:选各阶段所处的位置为状态变量,因此有S1= A。 决策:所选择的路线; D1(S1)={ B1, B2, B3 } 状态转移:目前状态一定,选择的线路一定,下一个状态一定。 阶段指标函数:该阶段行进的路程 过程指标函数:阶段指标函数的和 最优指标函数: fk(Sk)=min{rk + fk+1(Sk+1)} 其中,边界条件fk+1(Sk+1)=0。
1.1+.4
1.1=0
1.1+.4 1.1+0
0+1.2 .5+1.2 1+1.1 1.1+.6
2.1
2019/3/8
例7-2的求解
k =1: f1(S1)=max{r1(x1)+f2(S1-x1)} x1 r1(x1)+f2(S1-x1) S1 0 1 2 3 4 5 0+2.1 .3+1.6 .7+1.4 .9+1.0 1.2+0.5
1.多阶段决策过程 2.Bellman最优性原理 3.动态规划的数学描述 4.例6.1 5.确定性动态规划问题 6.随机性动态规划问题
2019/3/8
多阶段决策过程
多阶段决策问题是指这样一类问题,其整个过 程可分为若干相互联系的阶段,每一阶段都要作 出相应的决策,从而使整个过程达到最佳的活动 效果。任何一个阶段(Stage,决策点)都是由输入 (Input)、决策(Decision)、转移律(Transformation) 和输出(output)构成的,如图6-1(a)所示。由于每 一阶段都对应一个决策,所以每一阶段都应存在 一个衡量决策效益大小的指标函数,这一指标函 数称为阶段指标函数,用gn表示。显然gn是状态 变量sn和决策变量dn的函数,即gn= rn(sn, dn),如 图6-1(b)所示。
状态转移律
状态转移律是确定由一个状态到另一个状 态演变过程的关系式,这种演变的对应关 系记为Sk+1=Tk (Sk, dk)。
2019/3/8
策略与子策略
各阶段决策所组成的决策序列称为一 个策略,具有N个阶段的动态规划问 题的策略可表示为{d1(S1), d2(S2), …, dN(SN)}。 从某一阶段开始到过程终点为止的决 策序列,称为子过程策略或子策略。 从第k个阶段起的子策略可表示为 {dk(Sk), dk+1(Sk+1), …, dN(SN)}。
某鞋店销售一种雪地防潮鞋,以往的销售经历表明,此种 鞋的销售季节是从10月1日至3月31日。下一个销售季节各月的 需求量预测值为: 月 份 10 11 12 1 2 3 需求(双) 40 20 30 40 30 20 该鞋店直接从生产商进货,基础进货价为每双4美元。进 货批量有10、20、30、40和50双五种规模,对应不同的进货批 量享受一定的价格折扣,具体数值如下: 批 量 10 20 30 40 50 折扣(%) 4 5 10 20 25
2019/3/8
确定性动态规划问题
给出Sk 和dk的取值后,状态Sk+1的取值唯一确定 的动态规划问题称为确定性动态规划问题。确定 性动态规划有广泛的应用领域,这些领域可概括 为: 1.最短路问题:见117页例7-1 2.资源分配问题 3.存贮控制问题 4.非线性规划问题
2019/3/8
资源分配问题
例7-2的求解
k =3: f3(S3)=max{r3(x3)+f4(S4)}=max{r3(x3)} S3 0 1 2 3 4 *x3 0 1 2 3 4 f3(S3) 0 0.4 0.6 1.1 1.2 5 4, 5 1.2
k =2: f2(S2)=max{r2(x2)+f3(S2 - x2)}
Bellman最优性原理
作为整个过程的最优策略具有这样的性 质: 即无论过去的状态和决策如何,对前 面的决策所形成的状态而言,余下的诸决 策必须构成最优子策略。简而言之,一个 最优策略的任一子策略都是最优子策略。
2019/3/8
动态规划的数学描述
1.阶段 2.状态 3.决策 4.状态转移律 5.策略与子策略 6.阶段指标函数 7.过程指标函数 8.最优指标函数
2019/3/8
阶段
在多阶段决策过程中,决策点将整个 过程划分为若干部分,其中的每一部 分即为一个阶段。描述阶段的变量称 为阶段变量,常用 k 来表示。阶段的 划分一般是根据时间和空间的自然特 征来进行的,一个N 个阶段的多阶段 决策问题其阶段变量 k =1,2,, N。
2019/3/8
状态
状态表示每个阶段开始所处的自然状况或客观条 件,它描述了研究问题过程的状况。状态反映前 面各阶段决策的结局,又是本阶段决策的出发点 和依据。状态是各阶段信息的传递点和结合点, 各阶段的状态通常用状态变量Sk来描述。作为状 态应具有这样的性质:在某阶段的状态给定后, 该阶段以后过程的发展不受此阶段以前各阶段状 态的影响。换句话说,过程的历史只能通过当前 的状态来影响未来,当前的状态是过程以往历史 的一个总结。这个性质称为无后效性或健忘性。
2019/3/8
例7-3的求解
构造动态规划模型: 设阶段序数k表示年度,状态变量Sk 为第k年初拥有的完好机器数 量,同时也是第k-1年度末时的完好机器数量。决策变量uk为第k年 度中分配到高负荷下生产的机器数量,于是Sk - uk为第k年度中分 配到低负荷下生产的机器数量。 状态转移方程: Sk +1=auk+b(Sk - uk )=0.7uk+0.9(Sk - uk ) 允许决策集合: Dk(Sk )={0ukSk } 设vk(Sk , uk )为第k年度的产量,则vk= 8uk+ 5(Sk - uk ) 过程指标函数: V1,5= vk(Sk , uk ) 边界条件: f5 (S6 )=0 最优递推函数: fk (Sk )=max {8uk+ 5(Sk - uk )+ fk+1 [0.7uk+0.9(Sk - uk )]}