连续控制部分第七章最优控制

合集下载

第七章--最优控制

第七章– 最优控制理论
Optimal Control Theory
同济大学汽车学院：赵治国教授 Prof. Zhiguo Zhao School of Automotive Studies, Tongji University Tel：69589117(O) E-mail: Zhiguozhao@
*
x(t ) x* (t )上的变分等于零，即 J [ x* (t )] 0
§7－3 泛函与变分的基本概念
证明：对于任意给定的
x(t ) 来说，J [ x* (t ) x(t )]是实变量的 * * J [ x ( t )] 函数。泛函在 x (t ) 达到极值，即函数 J [ x (t ) x(t )] 在 0 时达到极值，所以它的导数在 0 时应为零，即
二. 最优控制问题的一般提法用数学语言描述最优控制问题，应包括以下几个方面的内容： 1. 受控系统的数学模型用状态方程描述：x (t ) f [ x(t ), u (t ), t ] 2. 受控系统的始端和终端条件，即状态方程的边界条件对最优控制问题始端条件通常是已知的：x(t0 ) x0 终端条件可以用一个目标集表示：
J J [ x()] J [ x(t ) x(t )] 中的 x(t ) 应理解为某一特定函数的整体，而不是对应于的
dx(t ) J ( x (t ) t )dt 0 dt 1 5 2 J (t t )dt 0 6 2 1 e J (e 2t tet )dt 1 0 2
1 2
若 x (t ) t 有
t x ( t ) e 若有
§7－3 泛函与变分的基本概念
2.泛函自变量的变分泛函 J [ x (t )] 的自变量函数 x (t ) 与标称函数 x* (t )之间的差值函数

最优控制-第七章-动态规划法

当∆t很小时，有

t t
t
Lx, u, t d t Lx, u, t t
J x, t min
*
min
uU

uU

tf
t0
Lx, u, t d t Φ xt f
tf t t

t t
t
Lx, u, t d t
Lx, u, t d t Φ xt f
P1 11
7
P2 4 2
P3 4 4
12 A 4 8 Q1
4 3 2 2 Q3 B
5 Q2
第一段：P1、Q1的前站是始发站A。显见从
A到B的最优值为12，故得最优路线为AQ1P2Q3B。
综上可见，动态规划法的特点是： 1) 与穷举算法相比，可使计算量大大减少。如
上述最优路线问题，用动态规划法只须做10次
J x, t min Lx, u, t t J xt t , t t
* * uU

(8)
* J x , t J x, t * * J x x, t t J x, t t (12) x t x * T
A城出发到B城的行车时间最短。
P1 3 A 4 Q1 1
7
P2
2
P3 4
4
6 8 2 Q2
3 3 3
2 Q3 4
2
B
现将A到B分成四段，每一段都要作一最优决策，使总过程时间为最短。所以这是一个多段最优决策问题。由图2可知，所有可能的行车路线共有8条。如果将各条路线所需的时间都一一计算出来，并作一比较，便可求得最优路线是AQ1P2Q3B，历时 12。这种一一计算的方法称为穷举算法。这种方法计算量大，如本例就要做3×23=24次加法和7次比较。如果决策一个n段过程，则共需(n-1)2n-1次加法和(2n-1-1)次比较。可见随着段数的增多，计算量将急剧增加。

最优控制理论

智能优化方法
对于越来越多的复杂控制对象，一方面，人们所要求的控制性能不再单纯的局限于一两个指标；另一方面，上述各种优化方法，都是基于优化问题具有精确的数学模型基础之上的。但是许多实际工程问题是很难或不可能得到其精确的数学模型的。这就限制了上述经典优化方法的实际应用。随着模糊理论、神经网络等智能技术和计算机技术的发展。近年来，智能式的优化方法得到了重视和发展。 (1)神经网络优化方法人工神经网络的研究起源于1943年和Mc Culloch和Pitts的工作。在优化方面，1982年Hopfield首先引入Lyapuov能量函数用于判断网络的稳定性，提出了Hopfield单层离散模型；Hopfield和Tank又发展了Hopfield单层连续模型。1986年，Hopfield和Tank将电子电路与Hopfield模型直接对应，实现了硬件模拟；Kennedy和Chua基于非线性电路理论提出了模拟电路模型，并使用系统微分方程的Lyapuov函数研究了电子电路的稳定性。这些工作都有力地促进了对神经网络优化方法的研究。根据神经网络理论，神经网络能量函数的极小点对应于系统的稳定平衡点，这样能量函数极小点的求解就转换为求解系统的稳定平衡点。随着时间的演化，网络的运动轨道在空间中总是朝着能量函数减小的方向运动，最终到达系统的平衡点——即能量函数的极小点。因此如果把神经网络动力系统的稳定吸引子考虑为适当的能量函数（或增广能量函数）的极小点，优化计算就从一初始点随着系统流到达某一极小点。如果将全局优化的概念用于控制系统，则控制系统的目标函数最终将达到希望的最小点。这就是神经优化计算的基本原理。与一般的数学规划一样，神经网络方法也存在着重分析次数较多的弱点，如何与结构的近似重分析等结构优化技术结合，减少迭代次数是今后进一步研究的方向之一。由于Hopfield模型能同时适用于离散问题和连续问题，因此可望有效地解决控制工程中普遍存在的混合离散变量非线性优化问题。 (2)遗传算法遗传算法和遗传规划是一种新兴的搜索寻优技术。它仿效生物的进化和遗传，根据“优胜劣汰”原则，使所要求解决的问题从初始解逐步地逼近最优解。在许多情况下，遗传算法明显优于传统的优化方法。该算法允许所求解的问题是非线性的和不连续的，并能从整个可行解空间寻找全局最优解和次优解，避免只得到局部最优解。这样可以为我们提供更多有用的参考信息，以便更好地进行系统控制。同时其搜索最优解的过程是有指导性的，避免了一般优化算法的维数灾难问题。遗传算法的这些优点随着计算机技术的发展，在控制领域中将发挥越来越大的作用。目前的研究表明，遗传算法是一种具有很大潜力的结构优化方法。它用于解决非线性结构优化、动力结构优化、形状优化、拓扑优化等复杂优化问题，具有较大的优势。 (3)模糊优化方法最优化问题一直是模糊理论应用最为广泛的领域之一。自从Bellman和Zadeh在 70年代初期对这一研究作出开创性工作以来，其主要研究集中在一般意义下的理论研究、模糊线性规划、多目标模糊规划、以及模糊规划理论在随机规划及许多实际问题中的应用。主要的研究方法是利用模糊集的a截集或确定模糊集的隶属函数将模糊规划问题转化为经典的规划问题来解决。模糊优化方法与普通优化方法的要求相同，仍然是寻求一个控制方案（即一组设计变量），满足给定的约束条件，并使目标函数为最优值，区别仅在于其中包含有模糊因素。普通优化可以归结为求解一个普通数学规划问题，模糊规划则可归结为求解一个模糊数学规划(fuzzymathematicalprogramming)问题。包含控制变量、目标函数和约束条件，但其中控制变量、目标函数和约束条件可能都是模糊的，也可能某一方面是模糊的而其它方面是清晰的。例如模糊约束的优化设计问题中模糊因素是包含在约束条件（如几何约束、性能约束和人文约束等）中的。求解模糊数学规划问题的基本思想是把模糊优化转化为非模糊优化即普通优化问题。方法可分为两类：一类是给出模糊解（fuzzysolution）；另一类是给出一个特定的清晰解（crispsolution）。必须指出，上述解法都是对于模糊线性规划（fuzzylinearprogramming）提出的。然而大多数实际工程问题是由非线形模糊规划（fuzzynonlinearprogramming）加以描述的。于是有人提出了水平截集法、限界搜索法和最大水平法等，并取得了一些可喜的成果。在控制领域中，模糊控制与自学习算法、模糊控制与遗传算法相融合，通过改进学习算法、遗传算法，按给定优化性能指标，对被控对象进行逐步寻优学习，从而能够有效地确定模糊控制器的结构和参数

最优控制的计算方法

5
1、梯度法
3、用UK(t)、XK(t)和横截条件求得的终端值(tf)，从tf 到t0反向积分协态方程，求出协态向量K(tf)。 4、计算哈密顿函数H对U的梯度向量 H K g ( )K U H K ( ) K 表示在 U K 、X K 、处取值。当这些量非最优值 U 时， g K 0 。
U
（iii）边界条件（包括横截条件）最优控制的计算方法一般是先求出满足上面三个条件中某两个的解，然后用合适的迭代计算形式逐次改变这个解，以达到满足剩下的另一个条件的解（即最优解）。
4
一、直接法
1、梯度法这是一种直接方法，应用比较广泛。它的特点是：先猜测任意一个控制函数U(t)，它可能并不满足H 取极小的必要条件，然后用迭代算法根据H 梯度减小的方向来改善U(t)，使它最后满足必要条件。计算步骤如下： 1、先猜测[t0, tf]中的一个控制向量UK(t)=U0(t)，K是迭代步数，初始时K=0。U0 的决定要凭工程经验，猜得合理，计算收敛得就快 2、在第K步，以估计值UK和给定的初始条件X(t0)，从t0 到tf 顺向积分状态方程，求出状态向量XK(t)。
(2) 以 X (t 0 ) 为初值，从 t 0 到 t f 积分状态方程，得出状态轨迹 X K (t )。 (3) 以 (t f )为终值，从 t f 到 t 0 反向积分协态方程，求得协态轨迹 K (t ) 。 H (4) 计算梯度向量 g K ( ) u u k u
(5) 计算共轭系数
8
1、梯度法
0 1、选初始估计 u (t ) 0 。
2、将 u 0 (t ) 0 代入状态方程可得 dx dt 2 x 1 t c 积分上式可得 x 代入初始条件： x(0) 10 ，确定积分常数 1 c 10 10 0 可得 x(t ) x (t ) 10t 1

最优控制

四、最优控制在控制领域中的应用
模拟退火算法 1983年,Kirkpatrick与其合作者提出了模拟退火(SA)的方法,它是求解单目标多变量最优化问题的一项Monte-Caula技术。该法是一种物理过程的人工模拟,它基于液体结晶或金属的退火过程。液体和金属物体在加热至一定温度后,它们所有的分子、原子在状态空间D中自由运动。随着温度的下降,这些分子、原子逐渐停留在不同的状态。当温度降到相当低时,这些分子、原子则重新以一定的结构排列,形成了一个全部由有序排列的原子构成的晶体结构。模拟退火法已广泛应用于生产调度、神经网络训练、图像处理等方面。
三、最优控制的研究方法
古典变分法:古典变分法是研究泛函求极值的一种数字方法。古典变分法只能用在控制变量的取值范围不受限制的情况。在许多实际控制问题中,控制函数的取值常常三、最优控制的研究方法
古典变分法:
古典变分法是研究泛函求极值的一种数字方法。古典变分法只能用在控制变量的取值范围不受限制的情况。在许多实际控制问题中,控制函数的取值常常受到封闭性的边界限制,如方向舵只能在2个极限值范围内转动,电动机的力矩只能在正负的最大值范围内产生等。因此,古典变分法的应用范围十分有限。
二、最优控制问题的一般性描述
实际上，终端约束规定了状态空间的一个时变或非时变的集合，此满足终端约束的状态集合称为目标集M，并可表示为：
M {x(t f ) | x(t f ) Rn , N1[ x(t f ), t f ] 0, N2[ x(t f ), t f ] 0}
为简单起见，有时将上式称为目标集。
三、最优控制的研究方法
极小值原理:
极小值原理是对分析力学中古典变分法的推广,能用于处理由于外力源的限制而使系统的输入（即控制）作用有约束的问题。极小值原理的突出优点是可用于控制变量受限制的情况,能给出问题中最优控制所必须满足的条件。如高夯、汪更生、楼红卫等人论述了多种类型的抛物型方程和退化拟线性、半线性椭圆方程的极小值原理。

最优控制全部PPT课件

J
（x(t f ),t f）
tf t0
F（x(t),u(t),t)dt
为最小。
这就是最优控制问题。
如果问题有解，记为u*(t), t∈ [t0,tf],则u*(t)叫做最优控制（极值控制），相应的轨线X*(t)称为最优轨线（极值轨线），而性能指标J*=J（u*(·)）则称为最优性能指标。
第11页/共184页
目标质心的位置矢量和速度矢量为： xM xM
F(t)为拦截器的推力
x xL xM v xL xM
则拦截器与目标的相对运动方程为：
x v v a(t) F (t)
m(t)
m F (t) c
其中a(t)是除控制加速度外的固有相对加速度，是已知的。
初始条件为： x(t0 ) x0 v(t0 ) v0 m(t0 ) m0 终端条件为： x(t f ) 0 v(t f )任意 m(t f ) me
至于末态时刻，可以事先规定，也可以是未知的。有时初态也没有完全给定，这时，初态集合可以类似地用初态约束来表示。
第9页/共184页
3：容许控制在实际控制问题中，大多数控制量受客观条件的限制，只能在一定范围内取值，这种限制通常可以用如下不等式约束来表示：
0 u(t) umax 或ui i 1,2p
给定一个线性系统，其平衡状态X(0)=0，设计的目的是保持系统处于平衡状态，即这个系统应能从任何初始状态返回平衡状态。这种系统称为线性调节器。
线性调节器的性能指标为：
J
tf t0
n
xi 2 (t)dt
i 1
加权后的性能指标为：
J
tf t0
n
qi xi 2 (t)dt
i1
对u(t)有约束的性能指标为： J t f 1 [ X T (t)QX (t) uT (t)Ru(t)]dt

第7章随机系统最优控制

1 GQ' 2 0
τ >0 τ =0 τ <0
2．系统状态的随机型性能指标仍考虑系统 x(t) = A(t)x(t) + G(t)w(t)
及其初始状态
（7-4-10’）（7-4-11’）（7-4-13）
x(t0 ) = x0
（7-4-14）
由于 x(t)是在白噪声 w(t)作用下动力学系统的响应，是一个随机过程，如果采用与确定性二次型性能指标相同的表示方法，即
(7-4-2)
其中 x(t)是 n 维随机状态向量；x0 是 n 维随机初始状态向量，其统计性能为
E[x(t0 )] = E[x0 ] = µ0
(7-4-3)
Var[x(t0 )] = E{[x0 − µ0 ][x0 − µ0 ]T } = Px (t0 ) = Px0
(7-4-4)
w(t)是 m 维零均值高斯白噪声过程，统计性能为 Cov[w(t), w(τ )] = E[w(t)w(τ )T ] = Q'(t)δ (t −τ )
（7-4-7’）（7-4-8’）
APx + Px AT + GQ'GT＝0
iii’) x(t)的协方差阵为
（7-4-9’）
Px (τ ) = Φ(τ )Px Px (−τ ) = PxΦ T (τ )
τ
≥
0

iv’) x(t +τ ) 与 w(t)的协方差阵为
Φ(τ )GQ'
Pxw
(τ
)
=
（7-4-5）
其中
δ
(t
−τ
)
=

1 ε
,
τ

最优控制-极大值原理

近似算法
针对极大值原理的求解过程，开发了一系列近似算法，如梯度法、牛顿法等，提高了求解效率。
鲁棒性分析
将极大值原理应用于鲁棒性分析，研究系统在不确定性因素下的最优控制策略，增强了系统的抗干扰能力。
极大值原理在工程领域的应用
航空航天控制
在航空航天领域，利用极大值原理进行最优控制设计，实现无人机、卫星等的高精度姿态调整和轨道优化。
03
极大值原理还可以应用于经济学、生物学等领域，为这些领域的研究提供新的思路和方法。
02
最优控制理论概述
最优控制问题定义
01
确定一个控制输入，使得某个给定的性能指标达到最优。
02
性能指标通常由系统状态和控制输入的函数来描述。
03
目标是在满足系统约束的条件下，找到最优的控制策略。
最优控制问题的分类
1 2
确定型
已知系统的动态模型和控制约束，求最优控制输入。
随机型
考虑系统的不确定性，如随机干扰、参数不确定性等。
3
鲁棒型
考虑系统模型的不确定性，设计鲁棒控制策略。
最优控制问题通过求解优化问题得到最优解的解析表达式。
数值法
02
通过迭代或搜索方法找到最优解。
极大值原理
03
基于动态规划的方法，通过求解一系列的子问题来找到最优解。
03
极大值原理
极大值原理的概述
极大值原理是现代控制理论中的基本原理之一，它为解决最优控制问题提供了一种有效的方法。该原理基于动态系统的状态和性能之间的关系，通过寻求系统状态的最大或最小变化，来达到最优的控制效果。
在最优控制问题中，极大值原理关注的是在给定的初始和终端状态约束下，如何选择控制输入使得某个性能指标达到最优。它适用于连续和离散时间系统，以及线性或非线性系统。

最优控制笔记

最优控制又叫动态优化工程技术领域里的过程（物理过程或化学过程），通常都是可以控制的过程控制：使过程的发展变化按人们的需要进行动态优化问题的四个要素：1.建立过程的动态模型（动态系统的状态方程）2.指定所需的初始状态和结束状态（状态方程的边界条件）3.确立在可行控制策略4.性能指标动态系统的变化，可以看成对应状态的变化，其中每一个状态对应着n维状态空间中的一个点，系统的运动将在状态空间中画出一条状态曲线动态系统的状态方程：1.是对研究对象的动态数学建模2.体现了系统运动时应遵循的规律,反映了系统的动态特征3.一般是微分方程组描述状态方程f[x(t),u(t),t]的数学性质：1.f[x(t),u(t),t]是向量函数，维数与状态变量维数相同2.f[x(t),u(t),t]是关于x(t)/u(t)/t的连续函数3.f[x(t),u(t),t]是关于x(t)/t的连续可微函数4.u(t)是关于t的分段连续函数，只有有限个第一类间断点系统的初始时刻t0和初始状态x0一般都是已知的系统的结束时刻tf：固定或者不固定系统的结束状态xf：全部固定/全部不固定/部分固定性能指标：1.要根据实际任务确定，例如过程持续的时间最少/过程消耗的能量最少/成本最小/利益最大等等2.种类：终值型/积分型/复合型,它们都是关于x(t)/t的连续可微函数最优控制一定是容许控制，即最优控制策略（最优控制函数）在控制函数空间中的一个子集中选择当最优控制轨迹确定后，通过系统的状态方程，可以确立对应的最优状态轨迹现代控制理论相对于经典控制理论的优点：1.从时不变系统延伸到时变系统2.从单输入单输出系统延伸到多输入多输出系统3.从频域回到时域，采用能够揭示系统内部各状态变化规律的状态空间描述法最优控制理论属于现代控制理论的分支从数学角度来看，最优控制问题本质上是求泛函极值的变分学问题变分法分为古典变分法和现代变分法（最大值原理/动态规划）古典变分法只能解决容许控制集为开集的最优控制问题实际最优控制问题的容许控制集都是闭集，可以用现代变分法解决函数分为两类：普通函数和泛函普通函数随自变量t变化有确定值对应泛函随普通函数（称为泛函的宗量函数）的形式变化有确定值对应，t已确定或不产生影响复合函数也是普通函数，随自变量t变化有确定值对应具有某些相同特征的所有函数组成一个函数类，或称函数空间在函数空间内，每一个函数（形式不同的）成为函数空间的一个点，例如sin(x)和sin(2x)是正弦函数空间的两个点泛函宗量的变分：1.同一函数空间中的两个函数的差（t已确定或不产生影响）2.宗量的变分仍然是一个普通函数3.这里“变分”的意思是改变量宗量的维数为m时，则宗量的变分在m维函数空间中进行，其中每一维函数空间各自是具有某些相同特征的函数类两个普通函数k阶相近的定义，从几何上来看就是曲线的相似程度两个普通函数间的k阶距离定义，从几何上来看就是曲线的差异程度m维函数空间中，与点[x0(t),x1(t),...xm(t)]距离相同的点构成m维空间中的一个球面泛函k阶连续的定义（利用两个普通函数间的k阶距离来定义）线性泛函的定义：满足齐次性与可加性泛函的变分：1.是泛函增量的关于宗量变分的线性主部2.是关于宗量变分的线性连续泛函3.仍然是一个泛函4.泛函的变分是唯一的5.这里变分的意思相当于普通函数的微分泛函变分的计算公式，是关于宗量变分的泛函，也是关于alpha的普通函数，从普通函数极值条件出发推导得到泛函极值条件求普通函数的极值，必要条件是：极值在稳定点获得，稳定点即普通函数导数为0的点求泛函的极值，必要条件是：极值在泛函变分为0的点取得Lagrange/Mayer/Bolza形式指标的相互转换欧拉--拉格朗日方程的推导过程欧拉--拉格朗日方程是一个二阶微分方程欧拉--拉格朗日方程成立的前提：1.宗量函数对自变量的二阶导数存在2.积分函数二阶连续可微欧拉--拉格朗日方程的能积分出最优解的特殊情况含有多个宗量函数的欧拉--拉格朗日方程组形式等式约束条件下的泛函极值问题采用拉格朗日乘子思想等式约束下的多变量普通函数极值问题，拉格朗日乘子是m维常向量等式约束下的泛函极值问题，拉格朗日乘子是m维普通函数，称为协态变量拉格朗日乘子法的步骤：原问题-->辅助泛函-->解等式约束+欧拉方程-->用边界条件确定未知系数-->判断极大/极小/鞍点等式约束下的泛函极值问题中，拉格朗日乘子（本质上是普通函数）的欧拉方程就是原问题的等式约束条件对于最优控制问题，控制函数u(t)和状态函数x(t)都看成是泛函的宗量，系统的动态方程作为等式约束条件Hamilton函数是泛函，其t的范围由x(t)/u(t)中的t范围确定，可以看成是mayer型泛函Hamilton函数的作用：积分型泛函J对u(t)的等式约束条件极值问题，转换成H对u(t)的无约束条件机制问题Hamilton函数方法解决最优控制问题，是基于必要条件，而不是充分条件Hamilton函数沿着最优空之轨迹和最优状态轨迹，对时间t的全导数等于偏导数当Hamilton函数不显含t时，H是不依赖于t的常数基础数理化：数学是理路，物理和化学是实践；工程中的物理和化学变化过程都是可控的；过程：与时间有关，随着时间推荐的变化，又叫动态过程；动态过程的数学模型又称状态方程，为OEDs或者DAEs形式对一个过程实施控制往往可以选择的策略不唯一，为了使得任务完成得最好，需要选择最优控制策略；最优的意义：根据任务确定的技术或者经济指标，可以是时间上最快、能量上最省、成本最低、利润最大等；状态微分方程f[x(t),u(t),t]是关于u(t),x(t),t的连续函数，是关于x(t),t的连续可微函数，u(t)只有有限个第一类间断点；状态、状态空间、动态系统的变化过程对应于状态空间中的点运动轨迹、点运动轨迹的起始点和结束点就是状态方程的边界条件；系统的初始时间t0和初始状态x0通常是给定的；系统的结束状态根据结束时间tf是否固定和结束状态是否固定可分为6种情况；性能指标的类型：终值型（Mayer型）、积分型（Lagrange型）、复合型（Bolza型；）终值型（Mayer型）是x(t),t的连续可微函数；积分型（Lagrange型）是u(t),x(t)，t的连续函数，是x(t),t的连续可微函数，u(t)只有有限个第一类间断点；注意终值型（Mayer型）指标中不含u(t)；最优控制轨迹往往在m维控制函数空间的一个子集omiga中选择；经典控制论的特点：针对SISO、线性、时不变（定常）、集中参数系统，以laplace变换作为分析工具，频域内；现代控制论的特点：针对MIMO、非线性、时变、分布参数系统，以状态空间分析方法为分析工具，时域内分析；对系统的状态空间描述，最大好处在于能够反映系统内部各状态变量之间的关系；最优控制理论属于现代控制理论的一部分；最优控制问题在数学上来说属于求泛函极值的变分学领域；古典变分法的局限性：只能处理u(t)无约束或者为开集的泛函极值问题；现代变分学的两个代表：最大值原理（苏联，Pontryagin提出）和动态规划（美国，Bellman 提出）；现代计算机的发展推动了控制理论和优化理论的发展与应用，增加了基于计算的科研活动方式；函数分为一般函数和泛函两类；一般函数：自变量形式唯一，当自变量确定为某一值时，函数值也随之确定；泛函：自变量形式和取值（范围）已经确定，当宗量函数形式确定时，泛函值也随之确定；复合函数属于一般函数；终值型泛函中，tf能被确定，所以泛函值取决于终值型泛函的宗量形式；积分型泛函中，被积函数往往是u(t),x(t),dx(t)/dt,t的函数，u(t),x(t)都属于积分型泛函的宗量；积分型泛函中，由于宗量的维数大于1：宗量为u(t),x(t)，且各自维数也可能大于1，所以积分型泛函属于多维泛函（宗量为多维，在多维函数空间内取值）；Hamiltonian属于多维泛函，自变量取值范围为t0~tf，宗量包括控制函数u(t),状态函数x(t)，协态函数y(t);函数空间：具有相同性质的函数类（按函数不同形式区分函数类中的单个函数），构成了一维函数空间（一根轴），每个属于该函数类的具体形式函数都是该一维函数空间（轴）上的一个点；宗量函数的变分deltax(t)：是同一函数类中两个一般函数的差，或者说是某一维函数空间中两个点之间的距离，本质上仍然是一个一般函数；一般函数相近的几何意义：曲线形态相似；泛函连续性的定义及与宗量函数相近（宗量函数的变分趋于0）的关系；线性泛函的定义：满足针对宗量函数的齐次性和可加性（将宗量看成一般函数的自变量）；泛函变分detalJ[x(t)]：是泛函增量关于“宗量函数变分”的线性主部，是关于“宗量函数变分”的线性连续泛函，本质是泛函；泛函的变分具有唯一形式；求一个泛函的变分不直接使用定义，而用偏导数方法获得，这与一般函数的微积分知识相似；泛函达到极值的必要条件：泛函在宗量函数x*(t)处的变分为0，有三种情况：非极值，极大值，极小值；古典变分法中的欧拉方程由积分型泛函变分为0的必要条件推出，所以欧拉方程也是泛函达到极值的必要条件；欧拉方程本质上是一个二阶偏微分方程；欧拉方程成立的前提是:L[x(t),dx(t)/dt,t]对宗量函数x(t)、宗量函数的导数dx(t)/dt、自变量t存在二阶偏导数；注意L[x(t),dx(t)/dt,t]本身不能称为泛函（自变量的值没有给定），也不能称为宗量函数（宗量函数是x(t)）；欧拉方程可以求解的条件：L[x(t),dx(t)/dt,t]中不显含x(t)、dx(t)/dt、t三者其一或其二；宗量函数为向量函数时，欧拉方程也成为向量二阶偏微分方程（二阶偏微分方程组）；phi(tf)这条终端曲线实际靠测试获得，并作为已知曲线；横街条件反应的是：极值曲线终端斜率与给定曲线斜率之间的关系横街条件成立的前提：L[x(t),dx(t)/dt,t]对宗量函数x(t)、宗量函数的导数dx(t)/dt、自变量t存在二阶偏导数；phi(t)对自变量t存在一阶偏导数；终端点可变情况下，泛函极值的必要条件共有两个：欧拉方程、横街条件；Lagrange型泛函的一阶变分和二阶变分的表达式；泛函极值属性的判断需要借助二阶变分表达式，它是一个对称函数矩阵；涉及到最优控制问题时，最优状态轨迹不仅要使目标函数最优，更重要的是满足系统的状态方程；系统的状态方程（等式）可以看成是求泛函极值问题时的微分等式约束；带等式约束的泛函极值问题，处理思想和一般函数的等式约束极值问题思路一样，采用拉格朗日乘子法思想；带等式约束的泛函极值问题，拉格朗日乘子是一般函数（一般函数的等式约束极值问题中，拉格朗日乘子是常数）；带等式约束的泛函极值问题，与一般函数的等式约束极值问题相比，梯度为0的必要条件进化成为变分为0（欧拉方程的满足）；带等式约束的泛函极值问题，原等式约束可以视为F[x(t),dx(t)/dt,lamda(t),t]对宗量函数lamda(t)的欧拉方程；利用古典变分法求解最优控制问题，是将控制函数u(t)和拉格朗日乘子函数lamda(t)都作为泛函的宗量函数；Hamiltonian的作用是将dx(t)/dt从F[u(t),x(t),dx(t)/dt,lamda(t),t]中分离出去，它们的关系是：H[u(t),x(t),lamda(t),t]=F[u(t),x(t),dx(t)/dt,lamda(t),t]-lamda(t)dx(t)/dt正则方程组的推导既可以从F[u(t),x(t),dx(t)/dt,t]的欧拉方程推导，也可以直接从变分=0的必要条件推导（欧拉方程从变分=0的必要条件中推导出来）；推导tf固定、tf自由时的最优控制问题必要条件时，辅助函数的做法：终态约束等式约束放在积分号外面，状态方程等式约束放在积分号里面；tf固定时的三种情况：x(tf)固定（仅需要欧拉方程无需横截条件）属于x(tf)自由的特殊情况，x(tf)自由又属于x(tf)受约束的情况；tf自由时的三种情况：x(tf)固定（仅需要欧拉方程无需横截条件）属于x(tf)自由的特殊情况，x(tf)自由又属于x(tf)受约束的情况；tf固定又属于tf自由时的特殊情况，仅缺少关于最优时间的方程，所以6种情况最终都可以归类为tf自由、x(tf)受约束的情况处理；Hamiltonian沿着最优控制轨迹和最优状态轨迹（即H[u(t),x(t),lamda(t),t]中的u(t),x(t),lamda(t)都在最优轨迹上取值）时，对时间的偏导数等于对时间的全导数；以上性质说明：沿着最优控制轨迹和最优状态轨迹时，若Hamiltonian不显含t，则Hamiltonian为常数；不等式约束泛函极值问题？古典变分法要求u(t)属于一个全函数空间或者一个函数空间中的开集；现代变分法从实际出发，u(t)可以属于一个函数空间中的闭集；现代变分法中的代表：极小值原理（苏联，Pontryagin）和动态规划（美国，Bellman）极小值原理比古典变分法的进步：u(t)可以属于一个函数空间内的闭集，不要求Hamiltonian对u(t)可微；当u(t)属于一个函数空间内的闭集时，H对u(t)的偏导数可能不为0（在闭函数空间内取不到极点）、deltau(t)可以为0，两方面原因造成古典变分法不再适用；与古典变分法对应的是，极小值原理也有6种情况，最普遍的是tf可变、x(tf)受约束的情况；对于tf可变的情况，需要增加一个确定tf的方程（属于横截条件的一部分）；Hamiltonian达到极小值的定义？极小值原理仅是最优控制问题的必要条件；如果x(tf)有终端约束，那么两点边值问题的求解难度会增加很多，常用方法为打靶法（扫描法）；协态变量就是等式约束泛函极值问题的拉格朗日乘子函数；状态变量终态的自由与固定，对应协态变量终态的固定与自由；状态变量微分方程求解联合协态变量微分方程求解体现了原问题--对偶问题的共同求解思想？目标泛函对u(t)求偏导，实际是泛函对宗量函数求偏导；从理论分析可以得到，目标泛函对u(t)的梯度（偏导数）在最优控制问题中与Hamiltonian 对u(t)的梯度（偏导数）等价；最优控制（动态优化）问题转换成静态优化问题的理论：通过对u(t)的离散化，将函数空间变为向量空间？从而可以直接使用静态优化算法；处理x(tf)受约束的方法除了惩罚函数法还有其他方法没？[文档可能无法思考全面，请浏览后下载，另外祝您生活愉快，工作顺利，万事如意!]。

第7章经济系统的最优控制1

2)] min {L[x(N 2),u(N 2)] u( N 2)
1)] min {L[x(N 1),u(N 1)]} u( N 1)
J1*[ x( N
1)]}
19
① 求第N级的最优控制u*(N-1)
J
* 1
[x
(
N

1)]

min
u ( N 1)
L[x(N

1),
即要求出 u(1)、u(2) 、u(3)、u(4)使目标函数
4
J 4 [au 2 (k) bx(k)] min k 1
J4—生产库存系统的目标函数（反映成本构成）。 N-1＝4 称为最优控制问题的时间水平/决策阶段数。
5
归纳上例分析：
一个动态系统的最优控制问题应包括两组变量：状态变量、控制变量；还包括：系统的状态方程、目标函数，初始条件、末端条件。
J*N
j[x(
j)]

min{L[x(
u( j)
j),
u(
j)]

J*N
j1[x
(
j

1)]}
由状态方程得：x(j+1)=f[x(j),u(j)]，
可求出 u*(j)， J*Nj[x(j)]，均为 x(j)的函数。

22
④ 求第2级的最优控制u*(1)
J
* N
1[x
(1)]

min{L[x(1),
第七章经济系统的最优控制
第一节、最优控制问题的提法第二节、动态规划法第三节、生产库存系统的最优控制第四节、设备的最优分配问题
第一节最优控制问题的提法
生产库存问题：
设某企业生产产品 A，四个季度的销售订单分别为 600、700、500、1200 件。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

问题6-2 对于问题6-1中的直流他励电动机，如果电动机从初始
时刻 t0 0 的静止状态转过一个角度又停下，求控制 ID (t（) ID (t)是
受到限制的），使得所需时间最短。
这也是一个最优控制问题：
系统方程为
x1
x2
0 0
1 0
x1
x2
0 Km
JD
I
D
0 1
JD
拉方程
L x
d dt
L x
0
及横截条件
L T
x
tf
x(t f
)
L x
T
x(t0 ) 0
t0
注意：满足欧拉方程是必要条件，不是充分条件。
6.2 用变分法求解最优控制问题
6.2.1 末值时刻固定、末值状态自由情况下的最优控制
非线性时变系统状态方程为
x f (x,u,t)
（6）
初始状态
x(t) tt0 x(t0 )
因为如果令
λ H L f λ x x x
H 0 u
L f λ 0 u u
H ( x, u, λ,t) L( x, u, λ,t) λT (t)[ f ( x, u,t) x ]
简记成
H L λT [ f x ]
由欧拉方程得到
H x
d dt
H x
0
L f λ (λ) 0 x x
（10）
则 J [x(t f )] t f [H (x, u, λ,t) λT (t)x]d t
t0
[x(t f )] t f H (x, u, λ,t) d t t f λT (t)x d t
t0
t0
（11）
对（11）式中的第三项进行分部积分，得
J [x(t f )] t f H (x, u, λ,t) d t λT (t)x t0
TF
初始状态
x1(0)
x2
(0)
0 0
末值状态
x1(t f )
x2
(t
f
)
0
I D (t) ≤ I D max
（5）
性能指标 J t f d t t f 0
（6）
最优控制问题为：在状态方程的约束下，寻求最优控制 I D (t)≤ I Dmax
，将 x(t f ) 转移到 x(0) ，使J 为极小。
6.2.2 末值时刻固定，末端状态固定情况下的最优控制
非线性时变系统状态方程为
x f (x,u,t)
（27）
初始状态末值状态
x(t) tt0 x(t0 ) x(t) tt f x(t f )
（28）（29）
性能指标
J t f L(x, u,t) d t
（30）
t0
寻求最优控制 u* ，在 [t0 , t f ] 内，将系统从 x(t0 )转移到 x(t f ) ，
当 t t0 时，代入上式，求得 c1 x(t0 ) ，所以
x(t) cx(t f )(t t0 ) x(t0 )
当 t t f 时，
x(t
f
)
1
x(t0 ) (t f
t0
)
最优性能指标为
J
*
1 2
cx2
(t
f
)
1 2
tf t0
u2 d t 1 cx2 (t0 ) 2 1 c(t f t0 )
引言
什么是最优控制？以下通过直流他励电机的控制问题来说明
问题电动机的运动方程为
KmID
TF
JD
d
dt
（1）
其中，Km为转矩系数；J D为转动惯量；为恒T定F 的负载转矩；
tf (t) d t const 0
（2）
希望：在时间区间[0，tf]内，电动机从静止起动，转过一定角度
后停止，使电枢电阻 RD 上的损耗 E
2
由伴随方程 H 0
x
const
(t
f
)
x(t
f
)
1 2
cx2 (t
f
)
cx(t
f
)
因为 const
(t) (t f ) cx(t f )
由控制方程
H u 0
u
即
u* (t) cx(t f )
将 u* 代入状态方程 x u cx(t f )
解为 x(t) cx(t f )(t t0 ) c1
对于一个任意小正数，总是可以找到，当 x(t) x0(t) 时，有
J[x(t)] J[x0(t)] 就称泛函J[ x(t)]在 x(t) x0 (t) 处是连续的。
2、泛函的变分
所谓泛函 J[x(t)]的宗量 x(t) 的变分是指两个函数间的差。
δ x x(t) x0 (t)
x(t), x0 (t) Rn
第6章最优控制
最优控制是控制系统设计的一种方法。它所研究的中心问题是如何选择控制信号，才能保证控制系统的性能在某种意义下最优。本章内容为： 1. 引言
2. 用变分法求解最优控制问题
3. 极小值原理及其在快速控制中的应用
4. 用动态规划法求解最优控制问题 5. 线性状态调节器 6. 线性伺服机问题
t f
tf
t0
t0
λT (t)x d t （12）
当泛函J 取极值时，其一次变分等于零。即
δJ 0
可以变分的量： u(t) u(t) δ u
x(t f ) x(t f ) δ x(t f )
x(t) x(t) δ x
不可以变分的量： t0 t f x(t0 ) λ(t)
求出J 的一次变分并令其为零
最优控制问题的一般性提法为
系统状态方程为 x f ( x,u,t) 初始状态为 x(t0 )
其中，x 为n 维状态向量； u 为r 维控制向量； f 为n 维向量函数，它是 x 、u 和t 的连续函数，并且对x 、t 连续可微。
寻求在[t0 , t f ]上的最优控制 u Rr或 uU Rr ，以将系统状态从 x(t0 ) 转移到 x(t f ) 或 x(t f ) 的一个集合，并使性能指标
同时使性能指标J 取极小值。
定义：设J[ x]是线性赋泛空间 Rn 上的连续泛函，其增量可表示为
Δ J[x] J[x δ x] J[x] L[x, δ x] r[x,δ x]
其中，L[x, δ x]是关于 δ x 的线性连续泛函，r[x,δ x] 是关于δ x 的高阶无穷小。则 δ J L[x,δ x] 称为泛函 J[x]的变分。
即
λ L f λ
x x
（18）（19）（20）
（21）
H u
d dt
H u
0
L f λ 0 u u
（22）
可见（21）式和（18）式相同，（22）式和（19）式相同。因此，（14）式和（17）就是欧拉方程，而（7）式和（15）就是横截条件。
2） δ J 0 是泛函取极值的必要条件是否为极小值还需要二次变分 δ2 J 来判断， δ2 J 0 则泛函J 取极小值。
δ J[x0,δ x] 0
欧拉方程：
定理：设有如下泛函极值问题：
min J[x] x(t)
t f L(x, x,t)dt
t0
其中， L(x, x,t) 及 x(t) 在 [t0,t f ] 上连续可微， t0 和 t f 给定，
已知 x(t0 ) x0，x(t f ) x f ，x(t) Rn ，则极值轨线 x* (t) 满足如下欧
δ J
x(t f
T
)
δ
x(t f
)
λT
(t f
)δ
x(t f
)
tf t0
H x
T
δ
x
H u
T
δ
u
λT
δ
xd t
0
将上式改写成
T
δ
J
x(t f
)
λ(t f
)
δ x(t f )
tf t0
H x
T
λ
δ
x
H u
T
δ ud t
0
（13）
由于 λ(t) 未加限制，可以选择λ(t) 使上式中 δ x 和 δ x(t f ) 的系数
J [ x(t f ),t f ] t f L(x, u,t) d t t0
最优。其中 L(x, u,t) 是 x 、u 和t 的连续函数
最优控制问题就是求解一类带有约束条件的条件泛函极值问题。
补充：泛函与变分法
一、泛函与变分
1、泛函的基本定义：
如果对于某个函数集合x(t)中的每一个函数 x(t)，变量J 都有一个
x0 D ，若在 x0 的某领域内 U(x0, ) x
x x0 , x Rn
在 x U (x0, ) D 时，均有
Δ J[ x] J[ x] J[ x0 ] ≤0 或 Δ J[ x] J[ x] J[ x0 ] ≥0
则称 J (x) 在x x0处达到极大值或极小值。
定理：设J[ x] 是在线性赋泛空间 Rn 上某个开子集D 中定义的可微泛函，且在 x x0 处达到极值，则泛函 J[ x] 在 x x0 处必有
值与之对应，则称变量J 为依赖于函数 x(t)的泛函，记作 J x(t)
可见，泛函为标量，可以理解为“函数的函数”
例如：
3
J[x] x(t) d t
0
（其中，x(t)为在[0,3]上连续可积函数）
当x(t) t 时，有 J 4.5 ；当x(t) et 时，有 J e3 1 。
泛函 J [ x(t )]如果满足以下条件时，称为线性泛函： 1） J[cx(t)] cJ[x(t)] ，其中c 为任意常数； 2） J[ x1(t) x2 (t)] J[ x1(t)] J[ x2 (t)]