非线性系统自学习最优控制：自适应动态规划方法(英文版)思维导图

合集下载

自适应控制的基本概念

2. 自适应控制提出当不确定因素难以事先预知，又要设计满意的控制系统，由此提出自适应控制思想。自适应调节器就是期望修正自己的特性以补偿过程和扰动的动力学变化。
四、自适应控制思想雏形
观测运行指标系统参数再认识系统（不确定）决策修正控制器参数控制器结构控制作用
性能指标
2. 模型参考自适应控制系统 a. 线性模型跟随系统
参考模型给出了期望闭环响应特性
参考模型
es Gm 1 GcG p GcG p u s 1 GcG p G p G f
y p s GcG p GmG p G f u s 1 GcG p G p G f

二、控制问题的几种情况
1. 无扰动，系统模型确定
系统模型
属于确定性控制可以采用开环控制 2. 有扰动，系统模型确定属于随机控制当扰动不确定采用闭环控制扰动确定可以采用补偿控制 3. 可能有扰动，系统模型不确定
采用闭环控制？扰动√ 系统模型不确定×
扰动
系统模型
扰动
系统模型
ym
模型跟随调节器
e
yp
+
u
－
控制器
＋
－
被控对象
已知被控对象的数学模型√ 未知被控对象的数学模型或变化×
b. 模型参考自适应控制系统
参考模型
+
－
e
u
－－
前馈调节器
被控对象
反馈调节器
参数调整信号综合
自适应机构
美国Minorsky研制船舶驾驶伺服结构，提出PID控制(1922)
美国MIT的Vannevar Bush研制成大型模拟计算机 (1928)

控制工程基础ppt课件第一章控制工程基础概论

性理论。 1895年：A. Hurwitz提出赫尔维茨稳定性判据。
1932年：H. Nyquist提出乃奎斯特稳定性判据。 1945年：H. W. Bode提出反馈放大器的一般设计方法
第一章概论
1948年：N. Wiener发表《控制论》，标志经典控制理论基本形成；经典控制理论以传递函数为基础，主要研究单输入—单输出（SISO）系统的分析和控制问题；
第一章概论
根据自动控制理论的内容和发展的不同阶段，控制理论可分为“经典控制理论”和“现代控制理论”两大部分。
“经典控制理论”的内容是以传递函数为基础，以频率法和根轨迹法作为分析和综合系统基本方法，主要研究单输入，单输出这类控制系统的分析和设计问题。
第一章概论第一颗人造卫星（苏联，1957年）
机电工业是我国最重要的支柱产业之一，而传统的机电产品正在向机电一体化（Mechatronics）方向发展。机电一体化产品或系统的显著特点是控制自动化。
机电控制型产品技术含量高，附加值大，在国内外市场上具有很强的竞争优势，形成机电一体化产品发展的主流。当前国内外机电结合型产品，诸如典型的工业机器人，数控机床，自动导引车等都广泛地应用了控制理论。
第一章概论勇气号、机遇号火星探测器（美国，2004年）
第一章概论土卫六探测器（欧盟，2005年）
第一章概论坦普尔1号彗星深度撞击（美国，2005年）
第一章概论
常娥一号（2007年，中国）
第一章概论
导弹击中卫星（中国，2007年；美国，2008年）
第一章概论
“作为技术科学的控制论，对工程技术、
u2 放大器
ua 控制电机
n
减速器

第十章动态系统的最优控制方法

其中 x Rn , u R p ，求 u* J min max
构造Harmilton函数：
H x, u,,t L x, u,t T t f x, u,t
式中： Rn ——拉格朗日乘子分量
Modern Control Theory
Page: 20
变分法求解最优控制问题
求最优解的必要条件
Page: 21
变末分法端求固解定最终优端控制自问由题
现
代
控
一、末端时刻 t f 固定, x t f 任意(终端自由)
制理
定理:对于最优控制问题
论
min J x
tf
tf L x, u,t dt
t0
s.t. xt f x,u,t, xt0 x0
最优解的必要条件:
1. xt t 满足正则方程
t0 x
x
Modern Control Theory
Page: 8
最优控制中的变分法
现
代
控
制理论
[例] J tf x2 (t)dt J ? t0
解: J[x] 1 x2 (t)dt 0
J
1
[
F
x]dt
0 x
1
[2x x]dx
0
Modern Control Theory
Page: 9
记作J x t
(2)函数的变分
泛函J x t 的变量x t 变分 x : x x t x0 t , 它表示x t 与x0 t 之间的差
Modern Control Theory
Page: 5
线性泛函
现
代 (3)泛函的连续性：控
制理
对于任意给定的 0, 存在 0，当 x x0 时，

控制理论的产生与发展讲义(PPT 34张)

如果要追朔自动控制技术的发展历史,早在两千年前中国就有了自动控制技术的萌芽。
1. 两千年前我国发明的指南车，就是一种开环自动调节系统。
指南车
2. 公元1086－1089年（北宋哲宗元祐初年），我国发明的水运仪象台，就是一种闭环自动调节系统。
水运仪象台
二起步阶段
随着科学技术与工业生产的发展，到十八世纪，自动控制技术逐渐应用到现代工业中。其中最卓越的代表是瓦特（J.Watt）发明的蒸汽机离心调速器，加速了第一次工业革命的步伐。
ห้องสมุดไป่ตู้
瓦特
三发展阶段
1. 1868年马克斯韦尔（J.C.Maxwell）解决了蒸汽机调速系统中出现的剧烈振荡的不稳定问题，提出了简单的稳定性代数判据。
马克斯韦尔（J.C.Maxwell）
2. 1895年劳斯（Routh）与赫
尔维茨（Hurwitz）把马克斯韦尔的思想扩展到高阶微分方程描述的更复杂的系统中,各自提出了两个著名
1.五十年代后期，贝尔曼（Bellman）等人提出了状态分析法；在1957年提出了动态规划。
2.1959年卡尔曼（Kalman）和布西创建了卡尔曼滤波理论；1960年在控制系统的研究中成功地应用了状态空间法，并提出了可控性和可观测性的新概念。卡尔曼
3. 1961年庞特里亚金（俄国人）提出了极小（大）值原理。
奈奎斯特
4.1948年伊万斯（W.R.Ewans）提出了复数域内研究系统的根轨迹法。建立在奈奎斯特的频率响应法和伊万斯的根轨迹法基础上的理论，称为经典（古典）控制理论（或自动控制理论）。
四标志阶段
1.1947年控制论的奠基人美国数学家韦纳（N.Weiner）把控制论引起的自动化同第二次产业革命联系起来，并与1948年出版了《控制论—关于在动物和机器中控制与通讯的科学》，书中论述了控制理论的一般方法，推广了反馈的概念，为控制理论这门学科奠定了基础。

2024版第2章自动控制理论基础

根据控制信号的性质，自动控制系统可分为模拟控制系统和数字控制系统；根据被控对象的特性，可分为线性系统和非线性系统；根据系统参数是否随时间变化，可分为定常系统和时变系统；根据系统输入输出的数量，可分为单输入单输出系统和多输入多输出系统。
自动控制应用领域
工业自动化
自动控制技术在工业自动化领域应用广泛，如自动化生产线、工业机器人、自动化仓储等。
建模方法包括机理建模和实验建模两种。机理建模是根据系统的物理或化学原理建立数学模型，适用于对系统内部机理有深入了解的情况。实验建模则是通过系统输入输出数据的测量和分析，建立系统的数学模型，适用于对系统内部机理了解不足的情况。
线性系统稳定性分析
稳定性的概念与分类
稳定性分析方法
稳定性是指系统在受到扰动后，能否恢复到原来的平衡状态或趋近于某个稳定的平衡状态。根据稳定性的不同特点，可以将稳定性分为渐近稳定、指数稳定、有界稳定等。
04
智能家居
自动控制技术在智能家居领域的应用包括智能照明、智能空调、智能安防等。
02
自动控制基本原理
反馈控制原理
03
反馈控制定义
通过将被控对象的输出信号与期望信号进行比较，产生误差信号，再利用误差信号对被控对象进行控制的方式。
反馈控制特点
具有抑制干扰、减小误差、提高系统稳定性等优点，但可能产生滞后现象。
稳定性分析方法包括时域分析法、频域分析法和根轨迹法等。其中，时域分析法是通过求解系统的微分方程，分析系统的时间响应来判断稳定性；频域分析法是通过分析系统的频率响应特性来判断稳定性；根轨迹法是通过绘制系统特征方程的根轨迹图来判断稳定性。
稳定性判据
稳定性判据是用来判断线性系统稳定性的重要依据，包括劳斯判据、赫尔维茨判据、奈奎斯特判据等。这些判据可以通过分析系统的特征方程或频率响应特性，得出系统稳定的条件。

非线性系统自适应最优切换控制方法

非线性系统自适应最优切换控制方法毛艳岭 1富月1摘要针对具有未知动态和M 个平衡点的连续时间非线性系统, 将线性自适应最优切换控制器和未建模动态补偿器相结合, 基于嵌入转换技术和近似动态规划思想, 提出一种自适应最优切换控制方法. 首先在非线性系统的M 个平衡点建立M 个线性化模型, 当模型参数已知时, 提出由线性最优切换控制器、切换准则、未建模动态补偿器以及非线性系统组成的控制系统结构; 当模型参数未知时, 在每个平衡点附近采集输入和状态数据, 利用黎卡提方程的迭代求解公式、最小二乘方法、极小值原理以及二次规划技术得到非线性系统的自适应最优切换控制器和最优切换序列; 最后进行仿真实验, 实验结果验证了所提方法的有效性、优越性和实际可应用性.关键词非线性系统, 切换控制, 自适应最优控制, 嵌入转换引用格式毛艳岭, 富月. 非线性系统自适应最优切换控制方法. 自动化学报, 2023, 49(10): 2122−2135DOI 10.16383/j.aas.c220180Adaptive Optimal Switching Control of Nonlinear SystemsMAO Yan-Ling 1 FU Yue 1Abstract In this paper, for continuous-time nonlinear systems with unknown dynamics and M equilibrium points,based on embedding-transformation and approximate dynamic programming, an adaptive optimal switching control method is proposed by combining a linear adaptive optimal switching controller and an unmodeled dynamic com-pensator. Firstly, M linearized models are established at M equilibrium points of the nonlinear system. When the model parameters are known, a control system structure consisting of a linear optimal switching controller, a switching mechanism, an unmodeled dynamic compensator, and the nonlinear system is proposed. When the model parameters are unknown, the input and state data are collected at the neighborhood of each equilibrium point.Then the adaptive optimal switching controller and optimal switching sequence are obtained by using the iterative Riccati equation, least square method, minimum principle, and quadratic programming. Finally, simulations are conducted, and the results verify the effectiveness, superiority and applicability of the proposed method.Key words Nonlinear systems, switching control, adaptive optimal control, embedding-transformationCitation Mao Yan-Ling, Fu Yue. Adaptive optimal switching control of nonlinear systems. Acta Automatica Sin-ica , 2023, 49(10): 2122−2135实际工业过程的被控对象大多是非线性的, 比如电镕镁砂熔炼过程的电极、钢球磨煤机制粉过程的磨机等等. 非线性系统结构复杂, 往往难以得到精确的数学模型, 其控制问题一直是控制领域相关学者和工程师的研究难点和热点之一.经典的非线性控制方法, 如反馈线性化方法[1−2],由于需要已知精确的数学模型, 无法应用到实际的工业过程中. 为了解决这个问题, 文献[3]针对具有全状态约束的高阶非线性随机系统, 利用模糊逻辑系统逼近未知非线性函数, 提出了一种新的模糊自适应反步控制方法. 文献[4]在文献[3]的基础上,针对具有指数型性能函数的高阶非线性随机系统,提出了基于模糊逻辑系统和反步法的模糊自适应有限时间跟踪控制方法. 当被控对象的非线性较弱或在某一平衡点附近运行时, 通常采用近似线性模型进行描述, 并针对该模型设计控制器. 例如, 文献[5]利用递归近似理论, 将非线性系统看作线性时变序列系统的极限, 针对线性时变序列系统设计线性二次最优序列控制器, 从而实现原非线性系统的二次最优控制. 文献[6]利用泰勒公式将非线性系统在某一平衡点附近表示为线性模型与高阶非线性项的组合, 将开环解耦补偿器、非线性神经网络补偿器和一步超前最优加权自适应控制器结合, 提出了非线性系统基于神经网络的自适应动态解耦控制方法. 文献[7]考虑到模型阶次的不匹配问题, 通过引入降阶模型, 采用带死区的归一化投影算法对线性收稿日期 2022-03-16 录用日期 2023-02-24Manuscript received March 16, 2022; accepted February 24,2023国家自然科学基金(62333004, 61991403, 61991400, 61873052)资助Supported by National Natural Science Foundation of China (62333004, 61991403, 61991400, 61873052)本文责任编委赵旭东Recommended by Associate Editor ZHAO Xu-Dong1. 东北大学流程工业综合自动化国家重点实验室沈阳 1108191. State Key Laboratory of Synthetical Automation for Pro-cess Industries, Northeastern University, Shenyang 110819第 49 卷第 10 期自动化学报Vol. 49, No. 102023 年 10 月ACTA AUTOMATICA SINICAOctober, 2023模型参数进行辨识, 利用高阶神经网络估计高阶非线性项, 将带有滤波器的极点配置自适应比例积分微分(Proportional integral derivative)控制器与神经网络补偿器相结合, 提出了非线性系统基于神经网络的自适应PID 控制方法. 神经网络收敛速度较慢且容易陷入局部极小点, 高阶非线性项的估计精确度较低. 为了解决这一问题, 文献[8]首次引入了控制器驱动模型和虚拟未建模动态的概念, 基于线性控制器驱动模型构造一步超前最优自适应控制器, 结合虚拟未建模动态补偿器, 提出了非线性系统自适应切换控制方法. 文献[9]针对复杂的热交换过程, 设计了具有虚拟未建模动态补偿的一步最优比例积分(Proportional integral)控制器, 并提出了数据驱动的双速率控制方法. 上述控制方法虽然能够取得良好的控制效果, 但是当系统的非线性较强或平衡点发生变化时, 这种只考虑单一平衡点的控制方法往往会使控制性能下降甚至导致整个系统失稳.M k -很多实际工业过程的平衡点都会随着工况的不同而发生变化, 比如电熔镁砂熔炼过程的平衡点随着原料成分和加料阶段的不同会发生变化; 钢球磨煤机制粉系统中磨机的平衡点随着原煤成分和湿度的不同而发生变化. 本文针对一类具有个平衡点的非线性系统, 研究基于多模型切换的自适应控制方法. 多模型自适应控制方法一般用于改善系统的暂态性能或解决参数跳变系统的控制问题, 如文献[10]针对一类连续时间线性系统, 为改善系统的暂态性能, 提出了基于直接模型参考自适应控制的多模型切换控制方法. 文献[11]针对一类参数跳变离散时间线性系统, 提出了基于间接自校正控制的多模型切换控制方法. 文献[12]针对一类参数跳变离散时间非线性系统, 通过引入差分算子, 分别设计了线性自适应控制器和基于神经网络的非线性自适应控制器, 通过两个控制器之间的切换, 可以提高系统的性能和稳定性. 为了避免不良切换行为,文献[13]采用滞后切换逻辑消除了参数估计器对初始条件的依赖, 通过利用鲁棒线性时不变工具实现高性能的控制目标, 结合控制器混合策略, 提出了多模型自适应混合控制方法. 针对文献[13]所提方法需要模型数量大的问题, 文献[14]采用分离处理原则, 充分利用所有辨识模型信息, 采用二级自适应方法建立自适应控制器. 为了消除系统非线性项对控制输入应严格线性的限制, 文献[15]针对离散时间非线性系统, 采用极点配置控制方法, 提出了由线性间接自校正控制器、基于神经网络的非线性间接自校正控制器和切换机制组成的多模型自适应控制器. 很多研究将多模型自适应控制方法应用到实际系统中, 并且取得了较好的控制效果. 文献[16]将多模型自适应切换控制方法应用于电力系统低频振荡中, 建立了不同工况下的线性小信号模型, 采用递归贝叶斯方法计算每个模型代表实际电力系统的概率, 根据这个概率得到每个控制器输出的占比权重, 最终的控制输出即为每个控制器输出的概率加权平均值. 文献[17]针对动态特性随不同负载状态而变化的柔性传送系统, 分别在不同负载状态处建立线性模型, 提出了基于闭环输出误差最小化的参数估计算法和基于极点配置的多模型自适应切换控制方法. 文献[18]以钢球磨煤机制粉系统为例, 针对一类具有多变量强耦合强非线性且动态特性随不同运行条件而变化的复杂工业过程, 将其在不同平衡点处用不同的线性模型和非线性未建模动态项组成的估计模型来描述, 提出了由非线性解耦控制器、线性解耦控制器和多模型切换机制组成的智能解耦控制方法. 文献[19]针对串联电容补偿输电线路的风力系统次同步谐振问题, 采用传统线性控制方法设计控制器, 根据系统条件设计该控制器的监控控制器, 该方法之后被拓展到了双馈异步发电机在串联补偿输电系统中的次同步振荡问题[20].上述多模型控制方法中, 用于切换的控制器是针对单一时刻的性能指标设计的, 具有次优性, 无法保证切换序列和控制系统的最优性.M M M M M 在实际工业生产过程中, 保证控制系统性能最优对实现工业过程整体优化控制是至关重要的. 本文针对具有未知动态和个平衡点的连续时间非线性系统, 将嵌入转换法和近似动态规划技术相结合, 提出了一种自适应最优切换控制方法, 一方面能够保证切换序列的最优性, 另一方面可以实现控制系统的最优性能, 改善控制系统的动态品质. 首先在非线性系统的个平衡点附近采集组输入和状态数据, 利用黎卡提方程的迭代求解公式和最小二乘方法得到针对每个线性模型的最优控制器增益的估计, 利用极小值原理得到个近似线性化模型. 然后利用嵌入转换法将个近似线性化模型嵌入到一个连续时间大系统中, 通过二次规划技术得到非线性系统的线性自适应最优切换控制器和最优切换序列. 最后, 将线性自适应最优切换控制器和未建模动态补偿器相结合, 实现了控制目标. 仿真实验验证了本文所提方法的有效性、优越性和实际可应用性.M 本文针对具有未知动态和个平衡点的连续时间非线性系统, 提出了自适应最优切换控制方法.主要创新点如下:1) 提出了由线性最优切换控制器、切换准则和未建模动态补偿器组成的控制器结构;10 期毛艳岭等: 非线性系统自适应最优切换控制方法2123M M 2) 模型参数已知时, 基于嵌入转换技术提出了由个模型、个最优控制器和切换准则组成的线性最优切换控制器;M M 3) 模型参数未知时, 基于嵌入转换技术和近似动态规划思想提出了由个近似线性化模型、个自适应最优控制器和切换准则组成的线性自适应最优切换控制器.1 问题描述M 考虑由如下模型描述的具有个平衡点的连续时间非线性非仿射系统:x (t )=[x 1(t ),x 2(t ),···,x n (t )]T n u (t )=[u 1(t ),u 2(t ),···,u m (t )]T m f (x (t ),u (t ))=[f 1(·,·),f 2(·,·),···,f n (·,·)]T :R n ×R m →R n 其中是维状态向量, 是维控制输入向量, 表示连续可微的未知非线性向量函数.M u (t )本文的目标是针对具有个平衡点的未知非线性系统(1), 寻找最优切换序列和自适应最优切换控制律 , 使得闭环系统渐近稳定.M i ∈{1,2,···,M }(x i ,u i )非线性非仿射系统结构复杂, 很难直接根据它的模型设计控制器. 通常的做法是将非线性系统在某一平衡点附近线性化, 针对等价的近似线性模型设计控制器, 从而实现对原非线性系统的有效控制,如文献[4−5]等. 为此本文将非线性系统(1)在个平衡点附近泰勒展开, 得到第个平衡点附近的等价近似线性模型:˙x (t )=A i x (t )+B i u (t )i i A i =∂f ∂xu =u i x =x iB i=∂f ∂uu =u i x =x i(A i ,B i )v i (t )i M 等价模型(2)包括两部分, 第一部分表示第个平衡点附近的线性化模型 , 其中和为适当维数的未知常值矩阵且可控; 第二部分为第个平衡点附近的未建模动态. 为建立非线性系统(1)在个平衡点附近的控制器设计模型, 引入如下单位脉冲序列记号b 其中是整数, 则系统(1)可表示为σ(t )∈{1,2,···,M }其中表示切换信号. 与此同时,本文所提出的控制器结构也包括两部分, 第一部分根据基于线性化模型建立的如下控制器设计模型进行设计:第二部分根据线性化产生的建模误差来设计, 用于消除未建模动态影响, 实现闭环系统渐近稳定.∑M i =1δ(σ(t )−i )∑i δ(σ(t )−i )在不引起混淆的情况下, 接下来我们将简化为 .2 自适应最优切换控制器设计2.1 参数已知时的最优切换控制器A iB i i =1,···,M 当和 ( )已知时, 我们提出了如图1所示的由线性最优切换控制器、切换准则、未建模动态补偿器以及非线性系统组成的控制系统结构, 其中线性最优切换控制器和切换准则根据控制器设计模型(4), 利用嵌入转换法[21]、极小值原理和二次规划方法获得; 未建模动态补偿器根据非线性系统状态和最优模型状态之间的误差设计.δ(σ(t )−i )首先令在区间[0, 1]内连续变化, 利用嵌入转换法将式(4)嵌入到一个连续时间大系统中. 然后根据该嵌入式连续时间大系统的最优控制问题:δ(σ(t )−i )∈[0,1]Q 、R (A σ(t ),√Q )其中 ,为适当维数的参数矩阵且可观, 采用极小值原理和二次规划方法得到切换准则函数:P σ(t )其中根据如下黎卡提方程求解:J σ(t )J σ(t )每一时刻,比较 , 选择与最小的对应的线性最优切换控制律:σ(t )K σ(t )其中为最优切换序列, 表示线性最优切换控制器的增益, 通过下式求解:接下来, 为消除未建模动态对控制系统性能的影响, 我们设计了如下未建模动态补偿器:2124自动化学报49 卷a 1∈R m ×n a 2e m =x −x ∗x ∗σ(t )其中为可调参数矩阵, 为可调参数, 为建模误差, 为最优线性化模型的状态.A iB i i =1,···,M 综上, 和 ( )已知时最优切换控制律为:注 1. 线性最优切换控制律和最优切换序列推导过程见附录A.δ(σ(t )−i )δ(σ(t )−i )注 2. 针对控制器设计模型(4), 通过嵌入扩大的取值范围, 令在区间[0, 1]内连续变化, 将由多个近似线性模型组成的式(4)嵌入到一个连续时间大系统中; 通过转换将针对控制器设计模型(4)的最优切换控制问题转化为针对该嵌入式连续时间大系统的最优切换控制问题.2.2 参数未知时的自适应最优切换控制器A i B i (i =1,···,M )P σ(t )M M σ(t )ˆKσ(t )ˆPσ(t )P σ(t )A σ(t )M M 当和未知时, 无法通过式(7)得到 , 无法得到如式(6)所示的切换准则函数和式(8)所示的线性最优切换控制律. 为解决这一问题, 本文提出了一种自适应最优切换控制方法. 首先在非线性系统的个平衡点附近采集组输入、状态数据, 利用黎卡提方程的迭代求解公式和最小二乘算法得到针对线性化模型的自适应最优控制器增益以及黎卡提方程近似解, 并根据贝尔曼方程得到的估计, 从而得到个平衡点附近的个线性化模型; 然后M 将个线性化模型嵌入到一个连续时间大系统中,针对该嵌入式连续时间大系统基于极小值原理和二次规划技术设计线性二次型最优控制律, 进而得到最优切换序列和线性自适应最优切换控制律; 最后将线性自适应最优切换控制律和未建模动态补偿器相结合应用到非线性系统中, 实现对未知动态非线性系统的自适应最优切换控制.A iB i i =1,···,M 针对控制器设计模型(4), 当和 ( )已知时, 根据Kleinman 定理[22], 很容易得到如下推论:K σ(t ),0∈R m ×n σ(t )P σ(t ),k 推论 1. 令为针对线性化模型的稳定反馈控制器增益矩阵, 为下面李雅普诺夫方程的对称正定解:δ(σ(t )−i )∈{0,1}i δ(σ(t )−i )=1k =1,2,···K σ(t ),k 其中且 , 表示迭代次数, 满足K σ(t ),k P σ(t ),k σ(t )K σ(t )P σ(t )则和分别收敛于针对线性化模型的最优控制器增益和黎卡提方程解 , 即A iB i 图 1 和已知时的控制系统结构A iB i Fig. 1 Control system structure when and are known10 期毛艳岭等: 非线性系统自适应最优切换控制方法2125∑∑A iB i(i =1,···,M )定理 1. 针对控制器设计模型(4), 当和未知时, 使性能指标最小的切换准则函数为:ˆKσ(t )σ(t )K σ(t )N σ(t )P σ(t )A σ(t )其中是针对线性化模型的最优控制器增益的估计, 根据式(17)求解; 是矩阵的估计, 根据式(18)求解:Θσ(t )ˆ¯Pσ(t )Ξσ(t )vec (C )m ×n C mn ⊗其中 , 和的定义见后文, 是把维矩阵按列的顺序一列接一列地组成的维向量, 代表克罗内克积,线性自适应最优切换控制律为:σ(t )J σ(t )其中为与最小的对应的最优切换序列.M σ(t )ˆKσ(t )ˆP σ(t )证明. 首先根据离线采集的组输入、状态数据, 计算针对线性化模型的自适应最优控制器增益以及黎卡提方程近似解 . 受文献[23]启发, 将式(4)等价表示为:A σ(t ),k =A σ(t )−B σ(t )K σ(t ),k 其中 . 根据式(12)和式(13), 沿着式(20)的解, 可以得到∫Q σ(t ),k =Q +i δ(σ(t )−i )K Tσ(t ),k RK σ(t ),k A σ(t )B σ(t )∑i δ(σ(t )−i )[x T (A T σ(t ),k P σ(t ),k +P σ(t ),k A σ(t ),k )x ]−x T×Q σ(t ),k x B σ(t )∑i δ(σ(t )−i )B Tσ(t )P σ(t ),k ∑i δ(σ(t )−i )RK σ(t ),k +1其中 . 由此, 可以将包含未知矩阵和的项用代替. 同理, 可以将包含未知矩阵的用代替.由克罗内克积的定义, 可知I n n 其中, 表示维单位矩阵. 定义如下运算l 对于正整数 , 定义矩阵2126自动化学报49 卷[∫∫0≤t 0<t 1<···<t l 其中 . 由式(22)和式(23)可知, 式(21)可等价表示为:Θσ(t),k 当为列满秩矩阵时,σ(t )k K σ(t ),k +1由此, 可以得到线性化模型第次迭代的自适应最优控制器增益 .ˆKσ(t )K σ(t )Θσ(t )Ξσ(t )ˆKσ(t )ˆ¯Pσ(t )¯P σ(t )ˆPσ(t )令为迭代终止时的自适应最优控制器增益并作为的估计, 和为迭代终止时的数据向量, 可以得到的计算公式如式(17)所示. 令为迭代终止时的的估计, 由此可以得到黎卡提方程的近似解 .σ(t )P σ(t )B σ(t )P σ(t )A σ(t )M M A i B i 接下来, 针对线性化模型求解矩阵和的估计, 从而得到个平衡点附近的个线性化模型. 当和已知时, 易知A iB i L σ(t )P σ(t )B σ(t ) 计, 则Pσ(t )A σ(t )σ(t ) 的估计可根据线性化模型的贝尔曼方程得到, 易知σ(t )P σ(t )A σ(t )N σ(t )D σ(t )N σ(t )ˆPσ(t )M 将式(27)代入上式, 利用离线采集的第组输入、状态数据, 通过求取最小二乘解可以得到如式(18)所示的矩阵的估计 . 根据 , 以及 , 可以很容易得到个平衡点附近的近似控制器设计模型:δ(σ(t )−i )[0,1]δ(t )=[δ(σ(t )−1),···,δ(σ(t )−M )]T W ={δ∈R M :∑i δ(σ(t )−i )=1,δ(σ(t )−i )≥0}最后求取最优切换序列和线性自适应最优切换控制律. 针对模型(29), 应用嵌入变换法, 使在内连续变化, 为此令并记. 定义哈密顿函数:易知, 针对嵌入式近似控制器设计模型的最优控制律为:将式(31)代入式(30), 化简可得δ(σ(t )−i )H (x,δ)下面将作为决策变量, 通过最小化, 可以得到最优切换序列.δ(σ(t )−i )H (x,δ)实际上, 选择使最小等价为使式(33)最小W ¯Hδ(σ(t )−i )∈{0,1}σ(t )这是一个二次规划问题, 由于是凸集, 是凹函数, 该问题的全局极小值一定在取得[21], 且该全局极小值对应的即为最优切换序列. 由此可以得到如式(16)的切换准则函数和式(19)的线性自适应最优切换控制律. □L σ(t )ˆKσ(t )注3. 由式(27)可知的估计精度由 10 期毛艳岭等: 非线性系统自适应最优切换控制方法2127ˆK σ(t )K σ(t )L σ(t )P σ(t )B σ(t )N σ(t )ˆKσ(t )的估计精度决定. 由文献[23]易知, 收敛于参数已知时的最优控制器增益 , 因此收敛于 . 由式(28)可知的估计精度由最小二乘估计算法的精度和的估计精度共同决定.l 0l ≥l 0rank ([I xx ,I xu ])=n (n +1)2+mn Θσ(t ),k {P σ(t ),k }∞k =0{K σ(t ),k }∞k =0P σ(t )K σ(t )注4. 在每个平衡点附近, 如果存在正整数 ,使得对于任意 , 都有 , 即矩阵是满秩的, 那么序列和分别收敛到黎卡提方程的解和最优控制器增益 [23].未建模动态补偿器的设计与线性模型参数已知时的情况类似, 即a 1∈R m ×n a 2ˆe m =x −ˆx ∗ˆx ∗σ(t )其中为可调参数矩阵, 为可调参数,为建模误差, 为最优线性化模型的状态.A iB i (i =1,···,M )综上, 和未知时自适应最优切换控制律为:自适应最优切换控制器设计流程如图2所示.3 仿真实验为了验证本文所提方法的有效性, 我们分别进行了模型参数已知时最优切换控制和模型参数未知时自适应最优切换控制的数值仿真实验, 并分别与单一的针对一个模型的最优控制器和自适应最优控制器进行了对比. 除此之外, 为了验证本文所提方法的实际可应用性, 我们进行了模型参数未知时双容水箱液位系统的自适应最优切换控制仿真实验.3.1 参数已知时最优切换控制数值仿真实验考虑如下连续时间非线性系统:x =[x 1,x 2]T ∈R 2u =[u 1,u 2]T ∈R 2其中是状态向量, 是输入向量.u =[u 1,u 2]T =[−3,10]T ,[−2,10]T [−1,10]T ˙x=[˙x 1,˙x 2]T =[0,0]T [u r 1,u r 2,x r 1,x r 2]T [−3,10,−4.4685,0.5592]T [−2,10,−4.2642,0.7565]T [−1,10,我们的目标是针对已知的非线性系统(36), 寻找最优切换序列和最优切换控制律, 使得闭环系统渐近稳定. 为此, 首先分别将和施加到非线性系统(36)上, 并令得到非线性系统(36)的三个平衡点, 即 = , 和 −4.0264,1.1119]T δ(σ(t )−i )∈{0,1}∑3i =1δ(σ(t )−i )=13. 将式(36)分别在上述三个平衡点处泰勒展开, 并令且 , 可以得到非线性系统(36)在个平衡点附近的控制器设计模型:其中图 2 自适应最优切换控制器设计算法流程Fig. 2 Flow chart of adaptive optimal switchingcontrol algorithm2128自动化学报49 卷[]x (0)=[x 1(0),x 2(0)]T =[−4.4685,0.5592]T 接下来给定随机初始状态 , 并选择控制器参数矩阵和未建模动态补偿器参数t =50s t =100s 最后将最优切换控制器(6) ~ (11)加入到系统(36), 得到如图3所示的状态曲线, 如图4所示的控制输入曲线和如图5所示的最优切换序列. 结合图3和图4, 在和时, 虽然系统的平衡点发生变化, 但是采用本文提出的最优切换控制方法仍能够将状态很快调节到平衡点附近并保持不变.[u r 1,u r 2,x r 1,x r 2]T [−1,10,−4.0264,1.1119]T x (0)=[x 1(0),x 2(0)]T =[−4.4685,0.5592]T 为了验证本文所提最优切换控制方法的优越性, 我们与单一的针对一个模型的最优控制方法进行了对比实验. 以针对平衡点 = 处的线性化模型为例,给定初始状态 , 选择控制器参数矩阵如式(38)所示, 未建模动态补偿器参数如式(39)所示.[u r 1,u r 2,x r 1,x r 2]T [−1,10,−4.0264,1.1119]T 图6和图7分别为所得到的状态曲线和控制输入曲线. 根据图6和图7可以看出, 针对平衡点 = 处的线性化模型设计的控制器只能将状态调节到对应的平衡点附近. 当平衡点发生变化时, 系统的状态存在稳态误差. 但是由于平衡点的变化引起的建模误差可近似为常数, 因此状态曲线虽然偏离平衡点但恒定不变.3.2 参数未知时自适应最优切换控制数值仿真实验本节的目标是针对未知非线性系统(36), 寻找[u r 1,u r 2,x r 1,x r 2]T =[−2,10,−4.2642,0.7565]T [u r 1,u r 2,x r 1,x r 2]T =[2,10,−2.5517,3.6570]T [u 1,u 2]T =[sin (0.1t ),sin (0.5t )]T t =0s t =2s δxx ,I xx ,I xu 最优切换序列和自适应最优切换控制律, 使得闭环系统渐近稳定. 不失一般性, 这里我们以两个平衡点为例进行仿真实验. 结合图2, 首先分别在平衡点和附近施加激励输入信号, 即 ,从到 , 以0.01 s 为采样周期, 分别采集201组输入和状态数据, 计算 . 选择−3.8−4.24−4.01−4.081.151.08100101100.8−4.290.760.7550.05050.6−4.2−4.61.4050100150050100150x 1, x r 1x 2, x r 20.90.4Time /sx 2x r 2x 1x r 1图 3 采用最优切换控制器时系统的状态Fig. 3 State curves of the system when usingthe optimal switching controller−u 1u 2Time /s图 4 采用最优切换控制器时系统的控制输入Fig. 4 Input curves of the system when usingthe optimal switching controller01234s (t )50100150Time /s图 5 采用最优切换控制器时系统的最优切换序列Fig. 5 Optimal switching sequence of the system whenusing the optimal switching controller10 期毛艳岭等: 非线性系统自适应最优切换控制方法2129控制器参数矩阵||P σ(t ),k −P σ(t ),k −1||≤10−3σ(t )=1,2k ˆPσ(t )ˆK σ(t )终止循环的条件为 , 其中 ; 代表迭代次数. 根据式(17)分别得到针对两个模型的和 , 即:N σ(t )然后利用所采集的输入和状态数据求解式(18),分别得到针对两个模型的 , 即:[]最后, 根据式(29)可以得到两个线性化模型如下式所示:x (0)=[x 1(0),x 2(0)]T =[−4,0]T t 0=0s t max =100s 将两个线性化模型嵌入到一个连续时间大系统中, 结合图2, 给定初始状态和初始时间 , 设置 , 选择未建模动态补偿器参数t ≥t max t =50s 将自适应最优切换控制器(35)加入到非线性系统, 当满足时, 可以得到如图8所示的状态曲线, 如图9所示的控制输入曲线和如图10所示的切换序列. 在 , 由于平衡点突变, 切换序列发生改变, 导致系统的状态震荡, 经过1.8 s 的调节时间, 系统的状态被调节到平衡点附近并保持不变.[u r 1,u r 2,x r 1,x r 2]T =[−2,10,−4.2642,0.7565]T ˆP1ˆK 1N 1[u r 1,u r 2,x r 1,x r 2]T =[−2,10,−4.2642,0.7565]T t =50s 为了验证本文所提自适应最优切换控制方法的优越性, 我们以平衡点为例, 与单一的针对一个模型的自适应最优控制方法进行了对比实验. 选择控制器参数矩阵如式(40), 根据式(17)和式(18)可以得到 , 和分别如式(41)和式(42)所示, 根据式(29)可以得到线性化模型如式(43)所示, 选择未建模动态补偿器参数如式(44)所示. 所得到的状态曲线和控制输入曲线如图11和图12所示. 从图11和图12可以看出, 针对平衡点设计的自适应最优控制器只能将状态调节到对应的平衡点附近. 与模型参数已知时情况相同, 当时, 平衡点发生变化, 系统状态存在稳态误差. 但是由于平衡点的变化引起的建模误差可近似为常数, 因此状态曲−4.6−4.2−3.80.40.91.4x 1, x r 1x 2, x r 2x 1x r 1x 2x r 250100150050100150Time /s图 6 采用最优控制器时系统的状态Fig. 6 State curves of the system when usingthe optimal controller−Time /su 1u 2图 7 采用最优控制器时系统的控制输入Fig. 7 Input curves of the system when usingthe optimal controller2130自动化学报49 卷。

第1章绪论

5
主要经历三个阶段：经典控制理论现代控制理论智能控制理论
6
1.1.1 经典控制理论
1 自动装置的发明与应用
公元前 1500 年，埃及人（ Egyptians ）和巴比伦人（Babylonian.）发明了世界上最早的计时器－水钟，又称漏刻、漏滴、漏壶或漏等。
7
图1-1 铜壶漏刻
Control
Systems》
Benjamin
高教出版社
6.《Modern
等
Control
Systems》
Richard C.Dorf 高教出版社
2
第一章
绪论
主要内容：
1.1 引言
1.2
1.3 1.4 1.5 1.6
自动控制的基本概念
自动控制系统的组成自动控制系统的分类自动控制系统的应用实例对自动控制系统的基本要求及教学内容
4
自动化的应用领域：
工农业生产（如压力、张力、温度、流量、位移、湿度、粘度等自动控制）国防建设（如飞机自动驾驶、火炮自动跟踪、导弹、卫星、宇宙飞船等自动控制）社会经济（如模拟经济管理过程、经济控制论、大系统、交通管理、图书管理等）人类生活（如生物控制论、波斯顿假肢、人造器官等）
8
1642年，法国物理学家帕斯卡（B. Pascal）发明了第一台机械式十进制加法器，解决了自动进位这一关键问题，也第一次确立了计算器的概念，因此他被公认为制造机械计算机的第一人。 1657年，荷兰科学家惠更斯（C. Huygens）应用伽利略（G. Galilei， 1564-1642）的理论设计了钟摆，在他的指导下年轻的钟匠考斯特（S.
同时，由于有反馈的存在，整个控制过程是闭合的，故也称为闭环控制。

现代控制理论ppt

求解方法
通过利用拉格朗日乘子法或Riccati方程，求解线性二次调节器问题，得到最优控制输入
。
动态规划与最优控制策略
动态规划的基本思想
将一个多阶段决策问题转化为一系列单阶段问题，通过求解单阶段问题得到多阶段的最优解。
பைடு நூலகம்
VS
最优控制策略的确定
根据动态规划的递推关系，逐步求解每个阶段的优化问题，最终得到最优控制策略。
总结词
稳定性分析是研究非线性系统的重要方法，主要关注系统在受到扰动后能否恢复到原始状态或稳定状态。
详细描述
稳定性分析通过分析系统的动态行为，判断系统是否具有抵抗外部干扰的能力。对于非线性系统，稳定性分析需要考虑系统的初始状态、输入信号以及系统的非线性特性等因素。
非线性系统的控制设计方法
总结词
要点二
详细描述
线性系统是指在输入和输出之间满足线性关系的系统，即系统的输出量可以用输入量的线性组合来表示。线性系统的性质包括叠加性、均匀性和时不变性等。叠加性是指多个输入信号的响应等于各自输入信号响应的总和；均匀性是指系统对不同频率信号的响应是一样的；时不变性是指系统对时间的变化不敏感，即系统在不同时刻的响应是一样的。
量随时间的变化规律，输出方程描述了输出量与状态变量之间的关系。
线性系统的稳定性分析
• 总结词：稳定性是控制系统的重要性能指标之一，线性系统的稳定性分析是现代控制理论的重要研究内容。
• 详细描述：稳定性是控制系统的重要性能指标之一，如果一个系统受到扰动后能够自我恢复到原来的状态，那么这个系统就是稳定的。线性系统的稳定性分析是现代控制理论的重要研究内容，常用的方法有劳斯赫尔维茨稳定判据和奈奎斯特稳定判据等。劳斯-赫尔维茨稳定判据是一种基于系统极点的判据，通过判断系统的极点是否都在复平面的左半部分来判断系统的稳定性；奈奎斯特稳定判据是一种基于频率域的判据，通过判断系统的频率响应是否在复平面的右半部分来判断系统的稳定性。

自适应动态规划（ADP）基础

⾃适应动态规划（ADP）基础1 基础概念动态规划是利⽤最优性原理来解决最优和最优控制问题的⼀个⾮常有⽤的⼯具。

最优性原则可以表⽰为：“最优策略具有这样的性质:⽆论初始状态和初始决策是什么，其余决策都必须构成与第⼀个决策产⽣的状态相关的最优策略。

”动态规划有⼏个⽅⾯。

⼈们可以考虑离散时间系统或连续时间系统，线性系统或⾮线性系统，时不变系统或时变系统，确定性系统或随机系统，等等。

1.1 举例说明A.⾮线性离散时间(时变)动态(确定性)系统(1)系统定义x(k+1)=F[x(k),u(k),k],k=0,1,⋯（1）其中x∈R n代表系统的状态向量，u∈R n表⽰控制动作，F是系统函数。

(2)代价函数的定义（⽤于衡量控制控制系统的性能好坏，越⼩越好）J(x(i),i)=∞∑k=iγk−i U[x(k),u(k),k](2)其中U表⽰效⽤函数，γ为折扣因⼦，其取值范围为，0<γ≤1。

这⾥代价函数依赖于初始时间i和初始状态x(i)。

(3)动态规划的⽬标选择⼀个控制序列u(k),k=i,i+1,.....，使得代价函数J最⼩化(4)贝尔曼最优⽅程根据贝尔曼最优性原理，可以得出k时刻的最优代价等于：J⋆(x(k))=minu(k)(U(x(k),u(k))+γJ⋆(x(k+1)))(3)在k时刻的最优控制u⋆(k)是达到上述最⼩值的u(k)u⋆(k)=arg min u(k){U(x(k),u(k))+γJ∗(x(k+1))}(4)⽅程(3)是离散时间系统的最优性原则。

它的重要性在于，它允许通过回溯时间来⼀次优化⼀个控制向量。

B.在⾮线性连续时间的情况下(1)系统定义˙x(t)=F[x(t),u(t),t],t≥t0(5)(2)代价函数J(x(t))=∫∞t U(x(τ),u(τ))dτ(6)(3)最优代价满⾜哈密顿-雅可⽐-贝尔曼⽅程(Hamilton-Jacobi-Bellman Equation)−∂J⋆(x(t))∂t=minu∈U(U(x(t),u(t),t)+(∂J⋆(x(t))∂x(t))T×F(x(t),u(t),t)) =U(x(t),u⋆(t),t)+(∂J⋆(x(t))∂x(t))T×F(x(t),u⋆(t),t))(7)⽅程(3)和(7)称为动态规划的最优性⽅程，是实现动态规划的基础。

最优控制(动态求解)

06
最优控制在现实生活中的应用
经济问题
投资组合优化
通过最优控制理论，投资者可以确定最佳的投资组合策略，以最大化收益或最小化风险。
生产调度
在生产过程中，企业可以使用最优控制理论来优化生产调度，以提高生产效率并降低成本。
商业决策
商业决策者可以使用最优控制理论来制定最佳的商业策略，例如定价、库存管理和营销策略。
内点法
内点法是一种基于梯度下降的求解方法，通过迭代逼近最优解，适用于大规模的优化问题。
最优控制的线性规划问题
最优控制问题可以转化为线性规划问题，通过建立状态方程、目标函数和约束条件，利用线性规划求解方法找到最优控制策略。
在实际应用中，最优控制的线性规划问题广泛应用于生产调度、物流优化、金融投资等领域。
03
其中，V(x)表示状态x的价值函数，R(x,a)表示在状态x采取行动a的即时奖励，p(x′∣x,a)表示从状态x采取行动a转移到状态x′的概率。
递归求解方法
01
02
03
递归求解方法是动态规划的常用求解方法，通过递归地求解子问题来得到原问题的最优解。
递归求解方法的基本步骤是：将原问题分解为若干个子问题，分别求解每个子问题的最优解，然后利用子问题的最优解来求解原问题的最优解。
03
状态方程的解可以给出系统在任意时刻的状态，是进行最优控制的基础。
性能指标函数
01
性能指标函数用于衡量控制策略的效果，通常表示为系统状态和控制输入的函数。
02
性能指标函数的目标是最小化或最大化，例如控制能量、时间、
误差等。
性能指标函数的选取应根据具体问题的需求来确定，不同的性
03

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。