§7.4动态规划与离散系统最优控制
第七章--最优控制

Optimal Control Theory
同济大学汽车学院:赵治国 教授 Prof. Zhiguo Zhao School of Automotive Studies, Tongji University Tel:69589117(O) E-mail: Zhiguozhao@
*
x(t ) x* (t )上的变分等于零,即 J [ x* (t )] 0
§7-3 泛函与变分的基本概念
证明:对于任意给定的
x(t ) 来说,J [ x* (t ) x(t )]是实变量 的 * * J [ x ( t )] 函数。泛函 在 x (t ) 达到极值,即函数 J [ x (t ) x(t )] 在 0 时达到极值,所以它的导数在 0 时应为零,即
二. 最优控制问题的一般提法 用数学语言描述最优控制问题,应包括以下几个方面的内容: 1. 受控系统的数学模型 用状态方程描述:x (t ) f [ x(t ), u (t ), t ] 2. 受控系统的始端和终端条件,即状态方程的边界条件 对最优控制问题始端条件通常是已知的:x(t0 ) x0 终端条件可以用一个目标集表示:
J J [ x()] J [ x(t ) x(t )] 中的 x(t ) 应理解为某一特定函数的整体,而不是对应于 的
dx(t ) J ( x (t ) t )dt 0 dt 1 5 2 J (t t )dt 0 6 2 1 e J (e 2t tet )dt 1 0 2
1 2
若 x (t ) t 有
t x ( t ) e 若 有
§7-3 泛函与变分的基本概念
2.泛函自变量的变分 泛函 J [ x (t )] 的自变量函数 x (t ) 与标称函数 x* (t )之间的差值函数
离散控制系统的最优控制理论

离散控制系统的最优控制理论离散控制系统的最优控制理论是控制工程领域中的一个重要研究方向。
离散控制系统是指在时间上只能在特定时间点进行操作的系统,相比连续控制系统,离散控制系统需要使用离散时间模型进行建模和控制设计。
最优控制理论是研究如何设计控制策略以使系统能够在某种指标下达到最优性能的一门学科。
离散控制系统的最优控制理论旨在寻找最优的控制策略,使得系统的性能指标如稳定性、响应速度、能耗等在给定约束条件下达到最优。
1. 离散控制系统的建模离散控制系统的建模是进行最优控制设计的基础。
在离散控制系统中,系统的状态在一系列离散时间点上进行更新。
离散控制系统的建模通常使用差分方程或状态空间模型。
差分方程描述了系统的状态在每个时间点的更新关系,而状态空间模型则将系统的状态和输入表示为向量,并使用矩阵形式描述系统的动态特性。
根据具体问题的需要,选择合适的建模方法可以更好地描述系统的动态行为。
2. 离散控制系统的性能指标离散控制系统的性能指标是评价系统控制性能的定量指标。
常见的性能指标包括稳定性、响应速度、能耗等。
稳定性是系统重要的性能指标之一,用于评估系统是否能够在有限时间内达到稳定状态。
响应速度是指系统对输入变化的快速响应能力。
能耗则是指系统在完成特定任务时所消耗的能源。
通过选取合适的性能指标,可以更好地评估和改进离散控制系统的性能。
3. 最优控制理论的基本原理最优控制理论的基本原理是寻找一组最优控制策略,使得系统的性能指标达到最优。
最优控制问题通常可以通过数学方法建立为一个优化问题。
其中,最常见的方法是最小化或最大化一个性能指标的数学表达式。
为了求解这些优化问题,可以使用动态规划、最优化理论等数学工具。
最优控制理论提供了一种系统优化设计的方法,可以帮助工程师设计更优秀的控制策略。
4. 最优控制策略的设计方法最优控制策略的设计方法取决于具体的离散控制系统和性能指标。
常见的设计方法包括经典控制方法和现代控制方法。
最优控制-第七章-动态规划法

当∆t很小时,有
t t
t
Lx, u, t d t Lx, u, t t
J x, t min
*
min
uU
uU
tf
t0
Lx, u, t d t Φ xt f
tf t t
t t
t
Lx, u, t d t
Lx, u, t d t Φ xt f
P1 11
7
P2 4 2
P3 4 4
12 A 4 8 Q1
4 3 2 2 Q3 B
5 Q2
第一段:P1、Q1的前站是始发站A。显见从
A到B的最优值为12,故得最优路线为AQ1P2Q3B。
综上可见,动态规划法的特点是: 1) 与穷举算法相比,可使计算量大大减少。如
上述最优路线问题,用动态规划法只须做10次
J x, t min Lx, u, t t J xt t , t t
* * uU
(8)
* J x , t J x, t * * J x x, t t J x, t t (12) x t x * T
A城出发到B城的行车时间最短。
P1 3 A 4 Q1 1
7
P2
2
P3 4
4
6 8 2 Q2
3 3 3
2 Q3 4
2
B
现将A到B分成四段,每一段都要作一最优决 策,使总过程时间为最短。所以这是一个多段最 优决策问题。 由图2可知,所有可能的行车路线共有8条。 如果将各条路线所需的时间都一一计算出来,并 作一比较,便可求得最优路线是AQ1P2Q3B,历时 12。这种一一计算的方法称为穷举算法。这种方 法计算量大,如本例就要做3×23=24次加法和7次 比较。如果决策一个n段过程,则共需(n-1)2n-1次 加法和(2n-1-1)次比较。可见随着段数的增多,计 算量将急剧增加。
动态规划与最优控制模型

第四章 最优控制模型(管理、决策方面应用,因此可说管理决策模型)§1 最优控制的问题提法: §1.1 最优控制问题举例 §1.2 最优控制数学模型一、例,详见最优控制课听课笔记第一节; 二、问题的数学描述――最优控制模型.寻找U )t (*u ∈(开,闭)[]f f 0t ,t ,t 可以固定或自由,使得: [][])t ( u J min )t (*u J Uu∈= (){()()0t ),t ( x g 0 t ),t ( x g ,R )t (x )t (x M x )t (x x )t ( x t ),t ( u ),t (x f dt (t) x d :t .s f f 2f f1f f f f 00≤=∈=∈==其中: n R )t (x ∈ ,且1C )t (x ∈ (一个连续可微), R U )t (u m ≤∈,[] t ,u (t), x f:向量值函数,且)( f ⋅ 对t ),t ( u ),t ( x 连续,对t ),t ( x 连续可微. []()()()[]。
都可微 t (t), x 对 t (t), u (t), x L ,t ),t ( x,dt t ),t ( u ),t ( x L t ),t ( x )t ( u J f f tt f f fϕ+ϕ=⎰最优控制问题的求解方法:1. 古典变分法:U 开集;2. 极大值原理:U 闭集;现代变分法,把古典变分法看作特例 3. 动态规划:便于数值计算,并有通用算法; 发展了变分法,结果要充分条件.§2 最优控制模型的动态规划解法 §2.1 动态规划方法概述§2.2 生产——库存——销售管理系统的解法§2.1 动态规划方法概述某一类管理问题的数学模型(状态方程)是一个差分方程:()⎩⎨⎧∈==+M )(k x x )0( x k ),k ( u ),k ( x f )1k ( x f 0 使 ()∑-==1N 0i i ),i ( u ),i ( x L J 达到最小. 此为一个N 阶决策问题:动态规划法是求这一决策问题的有效办法,具有明显优点:(ⅰ)将一个N 阶决策问题转化为多次一步决策问题,即数学上的嵌入原理——将求一条极值曲线问题,嵌入到求一族极值曲线的更广泛的类似问题中;(ⅱ)大大简化了计算量;(ⅲ)具有局部优,就是整体优的最优性原理:可广泛应用于运输系统、生产库存管理系统、生产计划制定及最优投资分配问题、最优价格制定问题.下面以最短路问题举例说明这种方法: 一、最短路问题(最小时间问题)1.问题:若有一辆汽车以S 城出发经过若干城市到达F 城,如图:3 ,2 ,1i ,Q ,P i i =,是一些可以通过的城镇.·P 1 6 ·P 2 1 ·P 3 4 4 1 2 4S · ·F 5 6 3 ·Q 1 7 · Q 2 2 ·Q 3图中两点间的数字:可以表示两城镇之间的距离(单位10公里),也可以表示行驶两城镇所用时间(应综合考虑:距离远近,路面好坏,是否拥挤等情况).于是:汽车从S 到F 可经多种途径选择到达F . 问题是:从多种途径选择方案中,决定一种使S 到F 所走路线最短.或者若图中数字表示时间,则决定一种路径使从S 到F 所用时间最短.2.方法:Ⅰ决策树法(穷举法):决策树法是最容易想到的一种方法,但运算量很大——即把所有可能选择的路途所用的时间都求出来,然后取最小值,即有最优策略(最优决策).即: {}3 ,2 ,1i F Q SP min F *Q *SP i i i i == 因此有:1 P 3 4 F 15P 26 1 Q 3 3 F 14P 1 62 P34 F 164 Q 22 Q3 3 F 15S1 P 3 4 F 145 P 24 1 Q 3 3 F 13Q 1 7 2 P 3 4 F 18Q 22 Q3 3 F 17因此,最终得出:{}3 ,2 ,1i F Q SP min F P P SQ i i 321== 困难:这样共有8条线路可选择,每条线路要作3次运算.第1次:22211Q Q /P Q /P S →→→;第2次:3322Q /P Q /P →; 第3次:F Q P 33→或因此,共需24次运算:2438=⨯次,若阶段更多,则计算量更大. 2.“走一步瞧一步”(瞎子爬山?)法:第一步:从S 到1P 或1Q :显然 5SQ 4SP 11=<=,因此取决策1SP ;第二步:从1P 到2P 或2Q :显然 2121Q P 6P P ==,因此取2121Q Q ,P P 均可,但从2P 到3P 或3Q 距离为1,而2Q 到32P P 距离为2,因此,第2步决策为2P ,因此取21P P ;第三步:2P 到3P 或2P 到3Q ,均有1Q P P P 3232==,但3Q 到F 的距离为3,因此第3步取路线32Q P .因此使用这种方法得到的决策为:143164F Q P SP 321=+++= 显然不是“最优决策”,同时还有:14F P P SQ 321=问题出现在“局部优不能代替整体优”的问题. 3.动态规划:即可把每一步决策都看成一个状态的转移,而每一种状态的转移又影响到下一阶段的状态,因此又是动态的,故称为动态规划法.将上述问题分为四个阶段的多阶决策问题,故可将问题分为四阶段问题来考虑:第一阶段问题:11Q /P S →; 第二阶段问题:2211Q /P Q /P →; 第三阶段问题:3322Q /P Q /P →; 第四阶段问题:F Q /P 33→ 解题方法从最后一个阶段开始:1° 分别计算33Q ,P 到F 的最小代价,此处花费代价为时间,记为J ,用[][]33Q J ,P J 分别表示3P 或3Q 到F 的代价,则显然有:[][]3Q *J 4P *J 33==2° 由后往前,考虑倒数第二阶段(即第三阶段),再把第三阶段和第四阶段联合作为一个子问题来考虑,若从2P 出发到F ,则有两种可能:[][]431Q *J 2J F Q P 541P *J 1J F P P 332332=+=+==+=+=∴ 线路F Q P 32最短,且[]4P *J 2=,故将线路F Q P 32记成P 2④Q 3.类似以2Q 出发到F ,则有两种可能:[][]532Q J 2J F Q Q 642P J 2J F P Q 332332=+=+==+=+=∴ 线路F Q Q 32最短,则[]5Q *J J 2==,故将线路F Q Q 32记成2Q ⑤3Q .3° 再由2、3、4这三个阶段构成的子问题:若从1P 出发到F 有两种可能:[][]1156Q *J 6J F Q P 61046P *J 6J F P P 221221=+=+==+=+=∴ 有线路F P P 21最短,且[]10P *J 1=,故将F P P 21记成:1P ⑩2P若从1Q 出发到F 有两种可能:[][]1257Q *J 7J F Q Q 844P *J 4J F P Q 221221=+=+==+=+=∴ 有线路F P Q 21最短,则[]8Q *J 1=,故将F P Q 21记成:1Q ⑧2P4° 把由1、2、3、4阶段作为子问题来考虑:从S 出发到F 有两种可能:[][]1385Q *J 5J F SQ 14104P *J 4J F SP 1111=+=+==+=+=且且故: F SQ 1最短,且[]13S *J = 5° 因此有最优策略:F SQ 1即: []13S *J F Q P SQ F SQ 3211==,除“二决一”比较之外,且运算只用了10次,而穷举法则算了24次,上次这种动态规划的办法:是将把一个四阶段决策问题化为四个互相嵌入子问题,逐一进行简化的计算方法,即数学上嵌入定理. 3.最优性原理“最优策略的一部分也是最优策略”例如:上例中知:F Q P SQ 321是最优决策,则F Q P Q 321也一定是从Q 1出发到F 的最优决策:证明[反证法]:设SQ 1P 2Q 3F 是最优决策,则Q 1P 2Q 3F 不是最优决策,则必存在另一个最优决策,不妨设为Q 1Q 2Q 3F 为最优决策.因而,SQ 1Q 2Q 3F 是整体最优决策,因而与SQ 1P 2.)1N (*u , ),1(*- 是N 阶决策问题的最优策略序列,那么:)1N (*u , ),1(*u - 也是一个最优策略序列,其初始状态为:())0(*u ),0(x f )1(x =证明:同最短路4. 多阶决策问题的一般想法:设某系统的状态方程为:()⎩⎨⎧==+0x )0(x )i (u ),i (x f )1i (x目标函数为:()∑-==1N 0i N i ),i (u ),i (x L J ,NJ表示控制N 步时的目标函数值.最优控制问题,即:求最优决策序列{}{})1N (u , ),0(*u )i (*u -= ,使N J 取最小(大)值.为简化假定为定常状态,即L 不明显还有时间变量i因而有:()⎩⎨⎧==+0x )0( x )i (u ),i (x f )1i ( x()∑-==1N 0i N )i (u ),i ( x L J对目标函数(3)逐次应用(1)式有:()()()()()()()()()()())1N (u ),2N (u ,u(1) ,)0(u ),0(x f f f L ,u(1) ,)0(u ),0(x f L )0(u ),0(x L ,)1N ( u ),1N ( x L )1(u ),1(x L )0(u ),0(x L J N --+++=--+++=因此,可以由上式看出:N J 只依赖于)1N (u , ),1(u ),0(x - 因而可写成:())1N (u , ),1(u ),0(x J J N N -=又若用某种方法求出了最优决策)1N (*u , ),0(*u - ,则N J 的最小值只依赖于初始值)0(x ,记为() )0( x *J N ,它可用下式来定义:()())1N (u , ),1(u ),0( x J min)0(x *J N )1N (u ,),1(u ),0(u N -=-初始值是可变化的,因此:() )0( x *J N 表示初始状态为)0(x 时,控制N 步的目标函数最小值.5.动态规划的基本方程:动态规划的基本方程,给出N 阶决策问题的目标函数最优值与它的子问题)1N (阶决策问题-目标函数最优值之间的递推关系式,它是用动态规划解一切多阶决策问题的基础.设)0(*u 已求出,则求序列{})1N (*u , ),2(*u ),1(*u - 的问题,构成一个以() )0(u ),0( x f )1( x =为初始条件的1N -阶决策问题,若记这一子问题的目标函数最小值为:() )1(x *J 1N -;又若记() )0( x *J N 为N 阶决策问题最小值,则我们可以导出() )0( x *J N 与() )1(x *J 1N -之间的关系:()()() (k)u (k), x L ) )1(u ),0(x ( L min u(k) x(k),L min )0(x *J 1-N 1k 1)-u(N -u(0)1-N 0k )1N (u ,),1(u ),0(u N ⎭⎬⎫⎩⎨⎧+=⎭⎬⎫⎩⎨⎧=∑∑==- 由于则第一项:()())0(u ),0(x L min )0(u ),0(x L min)0(u )1N (u , ),0(u =-第二项: ()⎭⎬⎫⎩⎨⎧∑-=-1N 1k )1N (u , u(1) ),0(u )k ( u ),k ( x L min 并不明显依赖)0(u ,()())2N (u ),2N (x f )1N (x )0(u ),0(x f )1(x --=-=但由状态方程:可知:实际上第二项仍依赖于)1N (u , ),1(u ),0(u - ,因此,第二项可写成:()()(){})1( x J min (k)u (k), x L min min (k)u (k),x L min *1N )0(u 1-N 1k )1N (u ,),1(u )0(u 1-N 0k )1N (u ,),0(u ---=-=⎭⎬⎫⎩⎨⎧=⎭⎬⎫⎩⎨⎧∑∑此给出了())1(x J *1N -与())0(x J*N 之间的递推关系.它是动态规划的基本方程.类似有动态规划更一般的基本方程:(**) 因此依据基本递推方程的递推关系:可以把一个多阶决策问题化为若干个子问题,而在决策的每一个阶段中只须对一个变量进行最优化决策即可.例如:()(){})1N (u ),1N (x L min )1N (x J )1N (u *1--=-- 是对一个单变量)1N (u -的优化问题,当())1N (x J *1-求出后,由基本递推方程(**)式可得:()()(){})1N (x J )2N (u ),2N (x L min )2N (xJ *1)2N (u *2-+--=--这又是对)2N (u -的最优化决策问题,因而把原来N 阶决策问题化成一系列对单变量的最优化决策问题,从而使问题简化.§2.2 生产库存——库存管理决策问题的解设某工厂生产某种产品,四个季度定货量为:生产费用与产品平方成正比,即比例系数为0.005,)( u 005.0)x (C 2元= 库存费每件每季为:1.0元. 第i 季度库存量为:)i (x 件; 第i 季度生产量为:)i (u 件; 第i 季度销售量为:定货量=)i (s 因此有:下季度库存是 :)i (S )i (u )i (x )1i (x -本季销售量本季生产量本季度库存量是+=+且要求年初、年终都没有存货即销售已空.x (0)=x (5)=0最优管理问题:求每季度的最优生产量)4(u ),3(u ),2(u ),1(u ,使之能正好完成订货计划且使生产费与库存费总和最小.即:求 {})i (*u 使[][][]∑=+=≤41i 240)i (x )i (u005.0)i (u J )i (*u J (1)⎪⎩⎪⎨⎧===+=+ (4) 0x(5)(3) 0x(0)(2) ,4 1,2,3is(i)-u(i)x(i)1)x(i t .s解:使用动态规划的办法:1. 先由最后一个季度考虑起:)4(x )4(u 005.0J 21+=由(2) 0 x(5))4)4(s )4(u )4(x )14(x =-+=+及(得 200u(4)-(4)-1x(4)0+=得 )4(x 1200)4(*u -=代入(1)[]())4(x 005.0)4(x 117200)4(x )4(x 1200005.0)4(x J 22*4+-=+-= 2. 再考虑3-4两个季度,由基本递推方程知:()()[]{}(){}{})4(x 005.0)4(x 117200)3(x )3(u005.0min )4(x J )3(x )3(u 005.0min )4(x J )3(u ),3(x L min )3(x J 22)3(u *12)3(u *1)3(u *2+-++=++=+=其中 500)3(u )3(x )3(s )3(u )3(x )4(x -+=-+= 代入上式 即有:()()(){}22)3(u *2500)3(u )3(x 005.0500)3(u )3(x 117200)3(x )3(u 005.0min )3(x J -++-+-++=而)3(u 应使上式取最小值,因此有: {}0)3(u /=∂∙∂即:{}0)3(x 01.016)3(u 02.0)3(u =+-=∂∙∂即有: )3(x 5.0800)3(*u -= 为使0)3(*u ≥,必须有1600)3(x ≤,把)3(*u 代入())3(x J *2()()())3(x 0025.0)3(x 77550500)3(*u )3(x 005.0500)3(*u )3(x 117200)3(x )3(*u 005.0)3(x J 22*2+-=-++-+-++=3.再考虑2-3-4,由递推基本方程知:()()(){}{})3(x 0025.0)3(x 77550)2(x )2(u005.0min )3(x J )2(u ),2(x L min )2(x J 22)2(u *2)2(u *3+-++=+=其中 700)2(u )2(x )3(x -+= 代入上式 ())2(x J *3()()(){}22)2(u *3700)2(u )2(x 0025.0700)2(u )2(x 77550)2(x )2(u 005.0min )2(x J --+---++= 令 ()0)2(u /)2(x J *3=∂∂ 得(){}()0700)2(x 005.07)2(u 015.0)2(u )2(u )2(x J *3=-+-=∂∙∂=∂∂得 )2(x 31700)2(*u -= 再代 ())2(x J *3 得 ())2(x 3005.0)2(x 6000,10)2(x J 2*3+-= 4.再考虑1-2―3―4季度,由递推基本方程知:()()(){}⎭⎬⎫⎩⎨⎧+-++=+=)2(x 3005.0)2(x 6000,10)1(x )1(u 005.0min )2(x J )1(u ),1(x L min )1(x J 22)1(u *3)1(u *4 又由于 600)1(u 600)1(u 0)1(s )1(u )1(x )2(x -=-+=-+=并代入上式 ())1(x J *4得:()()()⎭⎬⎫⎩⎨⎧-+--++=22*4600)1(u 3005.0600)1(u 6000,10)1(x )1(u 005.0min )1(x J 令 ()0)1(u )1(x J *4=∂∂ 得()0600)1(u 301.06)1(u 01.0=-+- 得 600)1(*u =得 ()800,11)1(x J *4=(即四个季度总和的生产费用库存费) 于是:由)1(x ),1(*u 代入 )1(s )1(u )1(x )2(x -+=可得 )2(x ,由)2(x 可得 )2(x 31700)2(*u -= 于是由600)1(*u0)1(x == 及方程 )i (s )i (u )i (x )1i (x -+=+ 及 )4(x 1200)4(*u )3(x 5.0800)3(*u )2(x 31700)2(*u -=-=-=可得900)4(*u ,800)3(*u ,700)2(*u ,600)1(*u 0)5(x ,300)4(x ,0)3(x ,0)2(x ,0)1(x =========即有以上最优决策序列:{})i (*u 若不按以上最优决策,按每季销售量生产1200)4(s )4(u 500)3(s )3(u 700)2(s )2(u ,100)1(s )1(u ========则显然总有存为总量0,但总费用: ()∑=+=4124700,12)i (x )i (u005.0J 要多用900元.。
离散控制系统中的最优控制方法

离散控制系统中的最优控制方法离散控制系统是一种在时间和状态上都是离散的控制系统,相对于连续控制系统来说,其最优控制方法也有所不同。
本文将介绍离散控制系统中的最优控制方法,主要包括动态规划、最优化算法和强化学习。
一、动态规划动态规划是一种基于状态转移的最优化方法,在离散控制系统中有着广泛的应用。
其基本思想是将原问题分解为若干子问题,并通过求解子问题的最优解来得到原问题的最优解。
在离散控制系统中,我们可以将状态和控制变量转化为状态转移方程,然后利用动态规划递推求解,得到最优的控制策略。
二、最优化算法最优化算法是一种通过迭代优化来求解最优控制问题的方法,常见的有梯度下降法、牛顿法等。
在离散控制系统中,我们可以将控制问题转化为一个优化问题,并使用最优化算法来求解最优的控制策略。
例如,在离散时间马尔可夫决策过程中,我们可以利用值迭代或策略迭代等最优化算法来求解最优策略。
三、强化学习强化学习是一种通过试错学习来求解最优控制问题的方法,其核心思想是智能体通过与环境的交互来学习最优的行为策略。
在离散控制系统中,我们可以将控制问题抽象为一个马尔可夫决策过程,并使用强化学习算法如Q-learning、SARSA等来求解最优策略。
强化学习在离散控制系统中具有较好的应用效果,在复杂的离散控制系统中能够找到近似最优的控制策略。
综上所述,离散控制系统中的最优控制方法包括动态规划、最优化算法和强化学习。
这些方法在不同的离散控制系统中有着广泛的应用,能够求解出最优的控制策略。
在实际应用中,我们需要根据具体的控制问题选择合适的方法,并结合系统的特点和需求进行调整和优化。
离散控制系统中的最优控制方法在提高系统性能和效率方面具有重要意义,对于实际工程应用具有较大的价值。
动态规划原理与最优控制(2024版)

式中
Ut
Ut {u(s), t s t f }
t f [x(s),u(s), s]ds
t
(4) (5)
而x(s)是在区间[t,t f ] 上和最优控制函数有关的轨线,
其中
t ,s 且t f
给x(t定0 ) 。
34
显然
V[x(t f ), t f ] [x(t f ), t f ]
(6)
加法次数: 4 * (n-2) + 2 次 n = 4时, 4 * (4-2) + 2 = 10 次
13
各个状态到终点的最短距离
J*[S] = 13 J*[X1(1) ] = 10 J*[X2(1) ] = 8 J*[X1(2) ] = 4 J*[X2(2) ] = 5 J*[X1(3) ] =4 J *[X2(3)] =3
(9)
上式称为Hamilton-Jacobi方程
或者称为 Hamilton-Jacobi-Bellman方程
38
对于所给最优控制问题,重复以上讨论,导致
V [ x(t ), t ] t
[
x(t
V
[
x(t t
),
t
]
t
V [ x(t ), t x(t)
]
T
f [x(t),u(t),t]t H.O.T.(t)}
36
min V[x(t),t] Ut
[x(t f ),t f ]
t f [x(s),u(s), s]ds
t
V
[
x(t
),t
]
V
[
x(t t
),
t
]
t
min u( )
J
*k
离散系统最优控制

k 0,1,2, , k f 1, k f 固定
(4-8)
令Hamilton函数H为
H[x(k), u(k), (k 1), k] 1 xT (k)Q(k)x(k) 1 uT (k)R(k)u(k)
2
2
T (k 1)[Φ(k)x(k) Γ (k)u(k)]
由协态方程
(k) H
x(k )
(
x(k
),
x(k
1),
k
)
k k0
x(k 1)
kf
1
xT
(k)
( x(k
1), x(k),k
1)
xT
(k)
( x(k
1), x(k),k
1)
k k0
x(k)
x(k) kf
xT (k) (x(k 1), x(k),k 1)
x(k) k0
kf xT (k) (x(k 1), x(k),k 1) xT (k) (x(k 1), x(k),k 1)
xT
(k
) (k )
k
f
k k0
k0
这相当于“分部积分”。从这里可看出(k 1)
x(k 1) 相对应
所以,泛函极值存在的必要条件为
xT
(k
f
)[[x(k f
x(k
),k f)
f
]
(k
f
)]
0
xT
(k )[ H x(k )
(k )]
0
uT (k ) H 0
u(k )
(横截条件) (Euler方程)
最优轨线为
x (k) 1 k 10
C
1
10
2
4.3 连续变分法与离散变分法求解结果的对比
最优控制理论及应用讲解

第4章 动态规划
求解动态最优化问题的两种基本方法:极小值原理和动态规划。
动态规划:是一种分级最优化方法,其连续形式与极小值原理相 辅相成,深化了最优控制的研究。
Optimal Control Theory & its Application
主要内容
1
多级决策过程和最优性原理
2
离散控制系统的动态规划
3
连续控制系统的动态规划
4 动态规划与变分法、极小值原理的关系
5
本章小结
Optimal Control Theory
Dong Jie 2012. All rights reserved.
Dong Jie 2012. All rights reserved.
Date: 09.05.2019 File: OC_CH4.7
Optimal Control Theory & its Application
Optimal Control Theory
Dong Jie 2012. All rights reserved.
特点:1)将一个多阶段决策问题化为多个单阶段决策问题,易于分析 2)每阶段评估只与前一阶段结果有关,计算量减小
Optimal Control Theory
Dong Jie 2012. All rights reserved.
Date: 09.05.2019 File: OC_CH4.5
Optimal Control Theory & its Application
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§ 7.4 动态规划与离散系统最优控制1. 动态规划基本原理最优性原则应有如此性质:即无论(整个过程的)初始状态和初始决策如何,其余(后段)各决策对于由第一个决策(后)所形成的状态作为(后段)初始状态来说,必须也是一个最优策略。
AB CDE最优性原则图7.5用式表示1()()min{(,())(())},1,2,,n n n n n u x J x R x u x J u x n N -=+=阶段变量n (分析次序) 状态变量x 决策变量()n u x 决策组11{,,,}n n u u u -损失(效益)函数:(,)n R x u 对x 用决策n u 所付代价(效益) 后部最优策略函数()n J x 由x 至终最小损失(最大效益)A 到D 的最短路线解 3阶段的决策过程,在CD 段(首), (分析)阶段变量1n =;7.6图A2C 1B D2B 3B 1C 3C 4555633)b (A2C 1B D2B 3B 1C 3C 445555566677733(a)3=n 1=n 2=n111111*********()(,)3,();()(,)5,();()(,)3,().J C R C D u C D J C R C D u C D J C R C D u C D ========= 在BC 段(首), (分析)阶段变量2n =; 21111,2,3()min{(,)()}min{73,65,53}8i i i J B R B C J C ==+=+++=,213()u B C =;22211,2,3()min{(,)()}min{63,55,73}9i i i J B R B C J C ==+=+++=,221()u B C =;23311,2,3()min{(,)()}min{53,65,73}8i i i J B R B C J C ==+=+++=,231()u B C =;在AB 段,阶段变量3n =;321,2,3()min{(,)()}min{48,49,58}12i i i J A R A B J B ==+=+++=,31()u A B =;所以整个过程的最优策略为:31()u A B =,213()u B C =,13()u C D =,即最优路线为13A B C D →→→。
穷举算法:共有13N -个策略,每策略做1N -次加法13(1)N N --次加,有131N --次比较,动态规划:在N 段, 有3个加, 2 个比较运算, 在(1N -)~2段, 有9(2)N -加,6(2)N -个比较运算, 在1段, 无加, 也无比较运算, → 有915N -次加,610N -次比较(是N 的线性) → 确定最优策略;2. 离散系统最优控制 设(1)()()x k x k u k ΦΓ+=+,0(0)x x =, (7.21)1[()()()(1)(1)(1)]NTTk J x k V k x k u k W k u k ==+---∑(7.22)求(),0,1,,1u k k N *=-,使(7.22)式最小.(),()V k W k 常取1()()()n v k V k v k ⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦,1()()()n w k W k w k ⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦. 或()0V k Q =≥(半正定),()0W k R =>(正定).意: ()x k 与()u k 的各个分量上的权值,称为权矩阵。
1[()()(1)(1)]NTTk J x k Qx k u k Ru k ==+--∑。
控制次序 011011N NN x x x x u u u --⎧⎧⎧⎧⇒⇒⇒⇒⎨⎨⎨⎨⎩⎩⎩⎩公式推导 (i)时标在下标处,(ii) x N 分离出来,权矩阵改记为S ,(iii)添常数项(0)(0)Tx Qx (影响极值,但不影响极值点),100(,,)[]N T T T NN kk kk k J x x u x Sx x Qx u Ru -==++∑ (7.23)定理7.4 系统 (7.21),使指标(7.23)为最小的最优控制,0,1,2,,1kk k u F x k N *=-=-。
其中:11111,[],[],1,2,,1,0.N T Tk k k TT Tk k kk k P S F R P P P P F R P F Q k N N ΓΓΓΦΦΦΓΓ-++++==+=-++=-- (7.24)证 运用(7.20)式,最后一段的损失为11111111111()()T T T T N N N N N N N N N TT N N N N N N N R x Sx u Ru x P x uRu x u P x u u Ru ΦΓΦΓ----------=+=+=+++1111112().T TT TT TN N N N N N N N N xP x uP x uR P u ΦΦΓΦΓΓ------=+++是1N u -的二次型函数, 因T N R H P H +是正定的,故必有唯一最小值,由多元极值的必要条件,得111122()0T TN N N N N R P x R P u u ΓΦΓΓ---∂=++=∂, 由TN R H P H +正定,知其可逆,从而得11(),T TN N N F R P P ΓΓΓΦ--=+1N u*-11.N N F x --=- (7.25)因此最后一段的最小损失为11111111min 2()T TT TT TN N N N N N N N N J R xP x uP x uR P uΦΦΓΦΓΓ****------==+++()111112(),T TT TT TN N N N N N N N xP FP FR P F x ΦΦΓΦΓΓ-----=-++(7.26)由公式组(7.25)中第一个公式得1()T TN N N P R P F ΓΦΓΓ-=+ (7.27)将(7.27)代入(7.26),经整理后,有()111111()(),T TT TN N N N N N N J x xP FR P F x ΦΦΓΓ*-----=-+逆向第二段的最优化。
根据动态规划最优化原则, 得2222211111122()min{()}min{(())},N N N N u T TT TT N N N N N N N N u J x R J x xQ P F R P F x u Ru ΦΦΓΓ--**--------=+=+-++记111()TT TN N N N N P Q P FR P F ΦΦΓΓ---=+-+, (7.28)则最后二阶段的性能指标},{min )(22111222------*+=-N TN N N TN N R P J N u u x x x u与最后一段指标2211111()min min{},N N T T N NN N N N u u J x R x P x uRu --*---==+类比, 可得1211222(),.TTN N N N N N F R P P uF x ΓΓΓΦ----*---=+=-其中1N P -由(7.28)所确定, 最后二段的最小损失值为()22212122()()T TT TN N N N N N N J x xP FR P F x ΦΦΓΓ*-------=-+,以此类推, 可得公式组(7.24)。
推论 若状态矩阵Φ是可逆的,则有111111,(),()(),1,2,,1,0.N TT k k TT k k kk k P S P PR Q F R P Q u F x k N N ΦΓΓΦΓΦ---+--*==++=-=-=-- (7.29)(证明略)。
(1) 预先逆序计算,k k P F , (从已知{Ф,Г}和{S ,Q ,R }) (2) 然后顺序控制. 例7.9 设一维101.50.2,10,k k k x x u x +=+=指标12220(4)kkk J x u ==+∑,计算k F 、k P 、k x 和k u 。
解 这里1.5,0.2,0,4,1S Q R ΦΓ=====,由递推公式,得130,P S ==110.310.04k k k P F P ++=+2112.25[10.04]4,12,11,,2,1,0.k k k kP P P F k ++=-++=逆向计算表1k1312 11 10 9 8 7 6 5 4 3 2 1 0 k F 0 1.03 2.39 3.51 4.11 4.36 4.46 4.49 4.52 4.52 4.52 4.52 4.52 kP 0 4 11.75 21.99 30.32 4.83 36.74 37.47 37.74 37.83 37.87 37.88 37.88 37.88顺向最优控制和最优状态如表2,表2k1 2 3 4 5 6 7 8 9 10 11 12 13 k x 10 5.98 3.58 2.14 1.28 0.76 0.46 .28 0.18 0.12 0.10 0.10 0.13 0.19 *-ku 45.10 26.97 16.15 9.65 5.77 3.41 2.05 1.22 0.74 0.42 0.24 0.10 0趋于常值.定理.7.5 若 (7.21)完全能控,对于无限时间指标00(,,)[]T T kk kk k J x x u x Qx u Ru ∞==+∑,必有 lim N k N k NF F -→∞→=和lim N k N k NP P -→∞→=。
(7.30)(证明略)定值控制称为调节.由此得到最优控制 为最优调节, 最优调节器的表达式为,0,1,2,, 1.kk k u F x k N *=-=- 用(7.30)中F 代k F ,所得的状态反馈控制,0,1,2,,1kk u Fx k N *=-=-称为稳态最优调节器,F 称为稳态最优反馈增益。
F 的计算(1) 用计算机编程求得;(2) 据定理7.5极限的存在性,在 (7.29)两边求极限11111(),()()T T TT P P R Q F R P Q ΦΓΓΦΓΦ-----=++=- (7.31)中解出F 。
其中P 为非负定。
(3) 也可对公式组7.24的两边求极限而得。
例 7.10 例7.9中的指标改为220(4)kkk J x u ∞==+∑求稳态最优调节器。
解 一维系统,由0.20Γ=≠,故[,][0.2,0.3]c Q ΓΦΓ==满秩,系统完全能控, 由定理7.5稳态最优增益必存在。
各参数代入(7.31)得2211.50.24P P ⎛⎫=++ ⎪⎝⎭, 整理为 20.04 1.4140P P --=, 求得21.41 1.410.6437.890.08P ++=≈和第 21 页 共 21 页 0.2(4) 4.521.5P F -=≈。