非线性不确定系统最优控制的自适应动态规划法研究

合集下载

非线性系统事件触发自适应动态规划理论与方法研究

非线性系统事件触发自适应动态规划理论与方法探究关键词：非线性系统；事件触发；自适应动态规划；控制器设计；优化1.引言非线性控制是现代控制领域中的重要探究方向之一。

由于非线性系统具有复杂的动态特性和难以求解的数学模型，对其进行有效的控制一直是学术界和工业界共同关注的难点问题之一。

近年来，基于智能控制和优化算法的非线性控制方法得到了广泛应用。

其中，自适应动态规划作为一种高效的优化算法，得到了越来越多的关注。

然而，传统的自适应动态规划算法在控制非线性系统时，由于需要在线进修系统的动态特性和优化策略，导致计算开销较大。

在解决非线性系统控制中计算开销大的问题时，事件触发控制方法成为了探究热点。

事件触发控制以系统状态的变化为触发机制，只在触发事件发生时才更新控制器状态，降低了系统的计算频率，从而提高了计算效率和控制性能。

事件触发控制与自适应动态规划算法结合，可以实现对非线性系统进行高效控制和优化。

本文接受事件触发自适应动态规划的方法，针对非线性系统控制问题进行探究。

起首，通过建立系统的数学模型，并分析系统的动态特性，设计合适的控制器结构。

然后，基于事件触发机制，设计控制器状态的更新策略，并接受自适应动态规划算法，进修系统的动态特性和控制策略，实现控制器的自适应。

最后，通过理论分析和仿真试验验证了该方法的有效性和优越性。

2.非线性系统建模本文思量一类常见的非线性系统，其数学模型可以表示为：$$\dot{x} = f(x,u)$$其中，$x$为系统的状态向量，$u$为控制输入向量，$f(x,u)$为非线性函数。

针对该系统，接受反馈线性化和状态反馈控制方法，设计控制器的结构如下：$$u = k(x) = -Kx$$其中，$K$为反馈矩阵。

3.事件触发控制策略事件触发控制以系统状态的变化为触发机制，实现对系统状态和控制指令的节约和优化。

本文接受基于误差阈值的事件触发策略，其更新规则为：$$e = x-x_k \\\Delta t_k =\begin{cases}\Delta t_a, & |e| \geq \epsilon \\\Delta t_r, & |e| < \epsilon\end{cases}$$其中，$x_k$为上一次控制器状态更新时的状态值，$\Deltat_k$为本次更新时间间隔，$\Delta t_a$和$\Delta t_r$为控制器的活动和保持时间，$\epsilon$为误差阈值。

自动控制中最优控制方法在非线性系统中的应用

自动控制中最优控制方法在非线性系统中的应用自动控制是一门研究如何设计、实现和优化自动化系统的学科。

随着科技的进步和工业的发展，自动控制在各个领域中的应用越来越广泛。

为了提高控制系统的性能和效率，研究者们不断探索和发展各种控制方法。

其中，最优控制方法在非线性系统中的应用受到了广泛关注。

最优控制是一种寻找使系统性能指标达到最优的控制策略的方法。

在传统的线性系统中，最优控制方法已经得到了广泛的应用和研究。

然而，实际控制系统往往是非线性的，在面对复杂的实时问题时，线性控制方法往往无法满足要求。

因此，研究者们开始将最优控制方法引入非线性系统中，并致力于寻找适用于非线性系统的最优控制策略。

在非线性系统中，最优控制方法可以分为两类：数值方法和优化方法。

数值方法使用数值计算的方式来求解控制问题，常见的方法有动态规划、最优置信域、神经网络等。

优化方法则是通过构建性能指标和约束条件来寻找最优控制策略，其中最常见的方法是变分法和极大极小值原理。

动态规划是一种常用的数值方法，它将非线性系统的优化问题转化为动态系统的最优化问题。

动态规划通过将整个时间段划分为离散的时间步长，在每一个时间步长上进行最优决策，最终得到整个时间段上的最优控制策略。

动态规划在非线性系统中的应用需要考虑状态变量的连续性和约束条件的非线性性，通过将系统模型进行离散化和适当的数值计算方法，可以求解非线性系统的最优控制策略。

最优置信域是一种基于数值优化技术的最优控制方法。

它通过构建性能指标、约束条件和一个合适的置信域来寻找最优控制策略。

最优置信域方法在非线性系统中的应用需要考虑系统模型的非线性性和约束条件的复杂性。

通过采用适当的数值优化算法，可以在保证满足性能指标要求的前提下，求解非线性系统的最优控制策略。

神经网络是一种基于人工神经元构建的模型，能够模拟人脑的学习和适应能力。

神经网络在非线性系统中的应用主要是利用其强大的模型拟合能力和优化算法，通过学习系统的输入和输出数据，建立模型并优化模型参数，从而得到最优控制策略。

非线性不确定系统鲁棒自适应控制研究

非线性不确定系统鲁棒自适应控制研究【摘要】本文基于Lyapunov稳定性理论和线性矩阵不等式（LMI）方法，对不确定时滞系统分析输出反馈控制器的设计方法，研究了不确定系统设动态特性以及如何保证系统渐近稳定，运用MATLAB进行仿真实例分析控制器设计方法能够达到较好的控制效果，而且具有较强的鲁棒性和稳定性，证明了设计方法的有效性。

【关键词】鲁棒控制自适应控制线性矩阵不等式不确定性鲁棒控制是利用系统模型的一些不确定信息来设计一个控制器，使得闭环系统对所有的不确定性是稳定的，且具有一定的动态性能。

鲁棒控制主要研究具有未知有界不确定性的系统模型，通过鲁棒控制的手段使系统具有鲁棒性，即系统在不确定因素作用下维持其稳定性的能力。

在实际生产过程中，对各种过程及环节的控制系统设计总是不可避免的要利用到被控对象的有关信息，这些信息的获得总是要利用一些试验或推导得到我们要据此设计控制器的所谓“模型”，这些模型的精确性由于信息获得过程的局限性往往会受到影响。

因此，对不确定性系统的稳定性和控制进行研究具有较大的意义和实际价值。

1 系统的不确定性系统的不确定性因素包括有外界噪声、干扰信号、传递函数的建模误差以及未建模的非线性动态特性。

MATLAB的鲁棒控制系统工具箱可以找到系统在这些不确定性条件下的多变量稳定裕度的度量。

不确定性包括很多方面，但其中最重要的是指系统的外界干扰信号和系统传递函数的建模误差。

鲁棒控制系统设计问题的一般描述如下：假定一个多变量系统P（s），寻找某个稳定的控制器F（s），使得闭环系统的传递函数满足下面的关系：（1）（2）（3）公式（1）（2）（3）为鲁棒条件，KM称为最小不确定性的大小，由于每个频率对于的奇异值来度量，函数KM又称为对角扰动的多变量稳定裕度（MSM），即为（4）如果Δn不存在，该问题又被称为鲁棒镇定问题（Robust stability problem）。

上述问题的求解涉及到Δ的非凸优化问题，它不能通过标准的非线性梯度下降方法计算得到，因为此时的算法收敛性无法保证。

非线性系统控制的自适应算法研究

非线性系统控制的自适应算法研究一、引言非线性系统控制是现代控制理论中的重要研究领域，其研究对象包括机电一体化系统、化工过程、交通工具等。

非线性系统具有复杂的动力学特性，传统的控制方法往往难以有效地控制这些系统。

因此，为了提高控制系统的性能和鲁棒性，自适应控制算法逐渐成为热门的研究方向。

本文将从非线性系统控制的需要入手，介绍自适应控制算法的基本思想和应用研究现状。

二、非线性系统控制的需求随着科技的发展，人们对控制系统的性能要求日益提高。

但是，传统的控制方法往往很难控制非线性系统。

非线性系统具有以下特点：（1）系统参数和外部扰动经常会导致系统的非线性行为。

（2）非线性规律难以穷尽，存在多种状态或行为。

（3）系统的输入和输出之间存在复杂的关系，不易直接控制。

（4）系统动态响应的速度慢，存在滞后现象。

这些特点使得非线性系统不易受到常规控制方法的控制，为了更好地解决这些问题，需要使用自适应控制算法。

三、自适应控制算法的基本思想自适应控制是指控制器能够根据系统的非线性特性和状态变化情况，自主调整控制参数，满足控制系统对不确定性的适应性。

自适应控制算法基本思想是通过反馈控制把系统状态和控制量联系在一起，建立实时的系统动态模型，然后根据这个模型更新控制器参数，实现控制系统的自适应控制。

自适应控制算法依赖于系统状态的实时测量和反馈，因此需要合理的传感器和数据采集系统。

自适应控制算法通常包括以下几个步骤：（1）建立控制系统的动态模型。

（2）根据系统模型选择合适的控制器类型。

（3）设计控制器的参数自适应调节法则。

（4）对控制系统进行实时控制和参数调整。

四、自适应控制算法的应用研究现状（1）模型参考自适应控制算法模型参考自适应控制算法是自适应控制的一种重要方法。

它基于系统动态模型，将系统响应和控制器输出之间的误差作为系统的模型偏差，然后通过实时更新控制器参数来最小化这个误差。

目前，模型参考自适应控制算法已经应用于多种非线性系统中，如飞行器控制、机器人等。

一类不确定非线性系统的鲁棒自适应控制

一类不确定非线性系统的鲁棒自适应控制的报告，800字
鲁棒自适应控制技术是解决不确定非线性系统的一种重要技术，它可以有效地调整系统参数，使系统能够适应不断变化的运行条件。

本文将讨论鲁棒自适应控制在不确定非线性系统中的应用情况及其优势，并提出应用策略建议。

首先，对于不确定非线性系统，不可避免的存在误差和噪声，很难准确估计输入与输出之间的关系，这就需要采用鲁棒自适应控制技术调节系统参数，以保证系统的稳定和精确性。

一般情况下，用于鲁棒自适应控制的方法包括自适应神经网络、模糊控制和模型预测控制。

其次，鲁棒自适应控制在不确定非线性系统中具有许多优势。

首先，它可以自动调整系统以适应环境变化，而无需人工干预，大大减少了系统的调整时间。

其次，它的参数估计技术可以更准确地估计输入和输出之间的关系，从而提高系统的稳定性和精确性。

最后，自适应技术可以有效抑制系统中的噪声，从而提高系统的可靠性。

最后，基于上述，本文提出了应用鲁棒自适应控制技术解决不确定非线性系统的建议：首先，选择一种合适的鲁棒自适应控制方法；其次，根据实际情况配置相应的参数；最后，根据实际需求开发相应的程序，进行实时调整系统参数，以保证系统的稳定性和精确性。

总之，鲁棒自适应控制技术在不确定非线性系统中具有多种优势，可以有效调整系统参数，提高系统的稳定性和精确性，抑
制系统输出的噪声，有效抑制和减轻系统变化带来的影响。

因此，在不确定非线性系统中应用鲁棒自适应控制技术，可以提高系统的可靠性，更好地满足实际应用的需求。

全状态约束下非线性系统自适应优化跟踪控制

全状态约束下非线性系统自适应优化跟踪控制目录一、内容综述 (2)1.1 非线性系统控制现状 (3)1.2 全状态约束下跟踪控制的重要性 (5)1.3 研究目标与价值 (6)二、非线性系统基础理论 (7)三、全状态约束下的跟踪控制问题 (9)3.1 问题描述与定义 (9)3.2 状态约束条件分析 (10)3.3 跟踪控制策略设计 (12)四、自适应优化技术在跟踪控制中的应用 (13)4.1 自适应优化概述 (15)4.2 自适应优化算法介绍 (16)4.3 自适应优化在跟踪控制中的实施步骤 (17)五、全状态约束下非线性系统自适应优化跟踪控制策略设计 (18)5.1 策略设计原则与目标 (20)5.2 策略设计框架与流程 (21)5.3 关键技术与实现方法 (22)5.3.1 状态估计与预测技术 (24)5.3.2 优化算法选择与改进 (25)5.3.3 控制指令生成与优化 (26)六、仿真实验与性能分析 (28)6.1 仿真实验设计 (29)6.2 实验结果与分析 (30)6.2.1 跟踪性能分析 (31)6.2.2 稳定性分析 (33)6.2.3 鲁棒性分析 (33)七、实际应用及前景展望 (34)7.1 实际应用案例分析 (35)7.2 效益评估与前景展望 (37)八、结论与展望 (38)一、内容综述“全状态约束下非线性系统自适应优化跟踪控制”是一个涉及控制理论、优化算法和非线性系统分析等多个领域的综合性课题。

随着科学技术的飞速发展，对于复杂非线性系统的控制精度和适应性要求越来越高，使得对该领域的研究显得尤为关键和必要。

本文档主要围绕这一主题展开综述，概述相关背景、研究现状和发展趋势。

在当前工业界和学术界的研究中，非线性系统的控制问题一直是一个热点和难点。

特别是在全状态约束条件下，系统的动态性能和稳定性更容易受到挑战。

传统的线性控制方法在很多情况下难以达到理想的控制效果，研究并设计适用于全状态约束下的非线性系统自适应优化跟踪控制策略具有重要的理论和实践意义。

基于动态规划的非线性优化算法研究与应用

基于动态规划的非线性优化算法研究与应用动态规划（Dynamic Programming）作为一种重要的求解最优化问题的数学方法，在解决非线性优化问题中有着不可替代的作用。

它最初是由理查德·贝尔曼在1953年创立的，用于解决离散的最优化问题，而在后来的发展中，动态规划已经广泛应用于不同的非线性优化问题的解决中。

一、动态规划的基本概念动态规划是一种基于递推的问题求解方法，可以看作一种在“自底向上”的方式寻找最优解的思路。

动态规划问题一般定义为长度为n的序列，在每个状态下采取某种策略所带来的最大或最小效益，求出最优效益或方案，并对状态进行重建。

动态规划的核心概念有“最优子结构”和“重叠子问题”。

最优子结构指的是问题的最优解所包含的子问题的解也一定是最优的。

而重叠子问题指的是，在求解问题的过程中，不止一次计算求解的子问题，需要通过备忘录或动态规划表来避免重复计算。

二、基于动态规划的非线性优化算法基于动态规划方法的非线性优化算法常见有“割平面法”、“分支定界法”、“动态规划极值法”等。

1. 割平面法对于非线性优化问题，可以引入一些额外的线性约束来缩小可行域，将问题转化为线性规划问题。

而对于不等式约束，常采用割平面法来求解问题。

割平面法的基本思路是构造一条过当前点的直线，将其与非线性优化问题的可行域相交得到更紧的可行域，从而找到更优的解。

2. 分支定界法分支定界法的基本思路是将非线性优化问题进行分治，将问题不断地划分为多个子问题求解，直到得到最优解为止。

在求解过程中，将当前问题分解为几个子问题，并为每个子问题分别定义一个可行域，寻找可行域中的最优解，再通过最优解来划分新的子问题，遍历整个树结构直到得到最优解。

3. 动态规划极值法动态规划极值法是一种解决非线性优化问题的算法，它主要针对满足动态规划问题特点的非线性优化问题，通过构造动态规划状态转移方程，将原问题转化为一个二维表格中的多阶段决策问题。

三、动态规划在实际应用中的例子1.项目投资分配在投资决策中，动态规划算法可用于实现最优的投资路径和策略，以达到最大化收益的目标。

非线性系统自适应最优切换控制方法

非线性系统自适应最优切换控制方法毛艳岭 1富月1摘要针对具有未知动态和M 个平衡点的连续时间非线性系统, 将线性自适应最优切换控制器和未建模动态补偿器相结合, 基于嵌入转换技术和近似动态规划思想, 提出一种自适应最优切换控制方法. 首先在非线性系统的M 个平衡点建立M 个线性化模型, 当模型参数已知时, 提出由线性最优切换控制器、切换准则、未建模动态补偿器以及非线性系统组成的控制系统结构; 当模型参数未知时, 在每个平衡点附近采集输入和状态数据, 利用黎卡提方程的迭代求解公式、最小二乘方法、极小值原理以及二次规划技术得到非线性系统的自适应最优切换控制器和最优切换序列; 最后进行仿真实验, 实验结果验证了所提方法的有效性、优越性和实际可应用性.关键词非线性系统, 切换控制, 自适应最优控制, 嵌入转换引用格式毛艳岭, 富月. 非线性系统自适应最优切换控制方法. 自动化学报, 2023, 49(10): 2122−2135DOI 10.16383/j.aas.c220180Adaptive Optimal Switching Control of Nonlinear SystemsMAO Yan-Ling 1 FU Yue 1Abstract In this paper, for continuous-time nonlinear systems with unknown dynamics and M equilibrium points,based on embedding-transformation and approximate dynamic programming, an adaptive optimal switching control method is proposed by combining a linear adaptive optimal switching controller and an unmodeled dynamic com-pensator. Firstly, M linearized models are established at M equilibrium points of the nonlinear system. When the model parameters are known, a control system structure consisting of a linear optimal switching controller, a switching mechanism, an unmodeled dynamic compensator, and the nonlinear system is proposed. When the model parameters are unknown, the input and state data are collected at the neighborhood of each equilibrium point.Then the adaptive optimal switching controller and optimal switching sequence are obtained by using the iterative Riccati equation, least square method, minimum principle, and quadratic programming. Finally, simulations are conducted, and the results verify the effectiveness, superiority and applicability of the proposed method.Key words Nonlinear systems, switching control, adaptive optimal control, embedding-transformationCitation Mao Yan-Ling, Fu Yue. Adaptive optimal switching control of nonlinear systems. Acta Automatica Sin-ica , 2023, 49(10): 2122−2135实际工业过程的被控对象大多是非线性的, 比如电镕镁砂熔炼过程的电极、钢球磨煤机制粉过程的磨机等等. 非线性系统结构复杂, 往往难以得到精确的数学模型, 其控制问题一直是控制领域相关学者和工程师的研究难点和热点之一.经典的非线性控制方法, 如反馈线性化方法[1−2],由于需要已知精确的数学模型, 无法应用到实际的工业过程中. 为了解决这个问题, 文献[3]针对具有全状态约束的高阶非线性随机系统, 利用模糊逻辑系统逼近未知非线性函数, 提出了一种新的模糊自适应反步控制方法. 文献[4]在文献[3]的基础上,针对具有指数型性能函数的高阶非线性随机系统,提出了基于模糊逻辑系统和反步法的模糊自适应有限时间跟踪控制方法. 当被控对象的非线性较弱或在某一平衡点附近运行时, 通常采用近似线性模型进行描述, 并针对该模型设计控制器. 例如, 文献[5]利用递归近似理论, 将非线性系统看作线性时变序列系统的极限, 针对线性时变序列系统设计线性二次最优序列控制器, 从而实现原非线性系统的二次最优控制. 文献[6]利用泰勒公式将非线性系统在某一平衡点附近表示为线性模型与高阶非线性项的组合, 将开环解耦补偿器、非线性神经网络补偿器和一步超前最优加权自适应控制器结合, 提出了非线性系统基于神经网络的自适应动态解耦控制方法. 文献[7]考虑到模型阶次的不匹配问题, 通过引入降阶模型, 采用带死区的归一化投影算法对线性收稿日期 2022-03-16 录用日期 2023-02-24Manuscript received March 16, 2022; accepted February 24,2023国家自然科学基金(62333004, 61991403, 61991400, 61873052)资助Supported by National Natural Science Foundation of China (62333004, 61991403, 61991400, 61873052)本文责任编委赵旭东Recommended by Associate Editor ZHAO Xu-Dong1. 东北大学流程工业综合自动化国家重点实验室沈阳 1108191. State Key Laboratory of Synthetical Automation for Pro-cess Industries, Northeastern University, Shenyang 110819第 49 卷第 10 期自动化学报Vol. 49, No. 102023 年 10 月ACTA AUTOMATICA SINICAOctober, 2023模型参数进行辨识, 利用高阶神经网络估计高阶非线性项, 将带有滤波器的极点配置自适应比例积分微分(Proportional integral derivative)控制器与神经网络补偿器相结合, 提出了非线性系统基于神经网络的自适应PID 控制方法. 神经网络收敛速度较慢且容易陷入局部极小点, 高阶非线性项的估计精确度较低. 为了解决这一问题, 文献[8]首次引入了控制器驱动模型和虚拟未建模动态的概念, 基于线性控制器驱动模型构造一步超前最优自适应控制器, 结合虚拟未建模动态补偿器, 提出了非线性系统自适应切换控制方法. 文献[9]针对复杂的热交换过程, 设计了具有虚拟未建模动态补偿的一步最优比例积分(Proportional integral)控制器, 并提出了数据驱动的双速率控制方法. 上述控制方法虽然能够取得良好的控制效果, 但是当系统的非线性较强或平衡点发生变化时, 这种只考虑单一平衡点的控制方法往往会使控制性能下降甚至导致整个系统失稳.M k -很多实际工业过程的平衡点都会随着工况的不同而发生变化, 比如电熔镁砂熔炼过程的平衡点随着原料成分和加料阶段的不同会发生变化; 钢球磨煤机制粉系统中磨机的平衡点随着原煤成分和湿度的不同而发生变化. 本文针对一类具有个平衡点的非线性系统, 研究基于多模型切换的自适应控制方法. 多模型自适应控制方法一般用于改善系统的暂态性能或解决参数跳变系统的控制问题, 如文献[10]针对一类连续时间线性系统, 为改善系统的暂态性能, 提出了基于直接模型参考自适应控制的多模型切换控制方法. 文献[11]针对一类参数跳变离散时间线性系统, 提出了基于间接自校正控制的多模型切换控制方法. 文献[12]针对一类参数跳变离散时间非线性系统, 通过引入差分算子, 分别设计了线性自适应控制器和基于神经网络的非线性自适应控制器, 通过两个控制器之间的切换, 可以提高系统的性能和稳定性. 为了避免不良切换行为,文献[13]采用滞后切换逻辑消除了参数估计器对初始条件的依赖, 通过利用鲁棒线性时不变工具实现高性能的控制目标, 结合控制器混合策略, 提出了多模型自适应混合控制方法. 针对文献[13]所提方法需要模型数量大的问题, 文献[14]采用分离处理原则, 充分利用所有辨识模型信息, 采用二级自适应方法建立自适应控制器. 为了消除系统非线性项对控制输入应严格线性的限制, 文献[15]针对离散时间非线性系统, 采用极点配置控制方法, 提出了由线性间接自校正控制器、基于神经网络的非线性间接自校正控制器和切换机制组成的多模型自适应控制器. 很多研究将多模型自适应控制方法应用到实际系统中, 并且取得了较好的控制效果. 文献[16]将多模型自适应切换控制方法应用于电力系统低频振荡中, 建立了不同工况下的线性小信号模型, 采用递归贝叶斯方法计算每个模型代表实际电力系统的概率, 根据这个概率得到每个控制器输出的占比权重, 最终的控制输出即为每个控制器输出的概率加权平均值. 文献[17]针对动态特性随不同负载状态而变化的柔性传送系统, 分别在不同负载状态处建立线性模型, 提出了基于闭环输出误差最小化的参数估计算法和基于极点配置的多模型自适应切换控制方法. 文献[18]以钢球磨煤机制粉系统为例, 针对一类具有多变量强耦合强非线性且动态特性随不同运行条件而变化的复杂工业过程, 将其在不同平衡点处用不同的线性模型和非线性未建模动态项组成的估计模型来描述, 提出了由非线性解耦控制器、线性解耦控制器和多模型切换机制组成的智能解耦控制方法. 文献[19]针对串联电容补偿输电线路的风力系统次同步谐振问题, 采用传统线性控制方法设计控制器, 根据系统条件设计该控制器的监控控制器, 该方法之后被拓展到了双馈异步发电机在串联补偿输电系统中的次同步振荡问题[20].上述多模型控制方法中, 用于切换的控制器是针对单一时刻的性能指标设计的, 具有次优性, 无法保证切换序列和控制系统的最优性.M M M M M 在实际工业生产过程中, 保证控制系统性能最优对实现工业过程整体优化控制是至关重要的. 本文针对具有未知动态和个平衡点的连续时间非线性系统, 将嵌入转换法和近似动态规划技术相结合, 提出了一种自适应最优切换控制方法, 一方面能够保证切换序列的最优性, 另一方面可以实现控制系统的最优性能, 改善控制系统的动态品质. 首先在非线性系统的个平衡点附近采集组输入和状态数据, 利用黎卡提方程的迭代求解公式和最小二乘方法得到针对每个线性模型的最优控制器增益的估计, 利用极小值原理得到个近似线性化模型. 然后利用嵌入转换法将个近似线性化模型嵌入到一个连续时间大系统中, 通过二次规划技术得到非线性系统的线性自适应最优切换控制器和最优切换序列. 最后, 将线性自适应最优切换控制器和未建模动态补偿器相结合, 实现了控制目标. 仿真实验验证了本文所提方法的有效性、优越性和实际可应用性.M 本文针对具有未知动态和个平衡点的连续时间非线性系统, 提出了自适应最优切换控制方法.主要创新点如下:1) 提出了由线性最优切换控制器、切换准则和未建模动态补偿器组成的控制器结构;10 期毛艳岭等: 非线性系统自适应最优切换控制方法2123M M 2) 模型参数已知时, 基于嵌入转换技术提出了由个模型、个最优控制器和切换准则组成的线性最优切换控制器;M M 3) 模型参数未知时, 基于嵌入转换技术和近似动态规划思想提出了由个近似线性化模型、个自适应最优控制器和切换准则组成的线性自适应最优切换控制器.1 问题描述M 考虑由如下模型描述的具有个平衡点的连续时间非线性非仿射系统:x (t )=[x 1(t ),x 2(t ),···,x n (t )]T n u (t )=[u 1(t ),u 2(t ),···,u m (t )]T m f (x (t ),u (t ))=[f 1(·,·),f 2(·,·),···,f n (·,·)]T :R n ×R m →R n 其中是维状态向量, 是维控制输入向量, 表示连续可微的未知非线性向量函数.M u (t )本文的目标是针对具有个平衡点的未知非线性系统(1), 寻找最优切换序列和自适应最优切换控制律 , 使得闭环系统渐近稳定.M i ∈{1,2,···,M }(x i ,u i )非线性非仿射系统结构复杂, 很难直接根据它的模型设计控制器. 通常的做法是将非线性系统在某一平衡点附近线性化, 针对等价的近似线性模型设计控制器, 从而实现对原非线性系统的有效控制,如文献[4−5]等. 为此本文将非线性系统(1)在个平衡点附近泰勒展开, 得到第个平衡点附近的等价近似线性模型:˙x (t )=A i x (t )+B i u (t )i i A i =∂f ∂xu =u i x =x iB i=∂f ∂uu =u i x =x i(A i ,B i )v i (t )i M 等价模型(2)包括两部分, 第一部分表示第个平衡点附近的线性化模型 , 其中和为适当维数的未知常值矩阵且可控; 第二部分为第个平衡点附近的未建模动态. 为建立非线性系统(1)在个平衡点附近的控制器设计模型, 引入如下单位脉冲序列记号b 其中是整数, 则系统(1)可表示为σ(t )∈{1,2,···,M }其中表示切换信号. 与此同时,本文所提出的控制器结构也包括两部分, 第一部分根据基于线性化模型建立的如下控制器设计模型进行设计:第二部分根据线性化产生的建模误差来设计, 用于消除未建模动态影响, 实现闭环系统渐近稳定.∑M i =1δ(σ(t )−i )∑i δ(σ(t )−i )在不引起混淆的情况下, 接下来我们将简化为 .2 自适应最优切换控制器设计2.1 参数已知时的最优切换控制器A iB i i =1,···,M 当和 ( )已知时, 我们提出了如图1所示的由线性最优切换控制器、切换准则、未建模动态补偿器以及非线性系统组成的控制系统结构, 其中线性最优切换控制器和切换准则根据控制器设计模型(4), 利用嵌入转换法[21]、极小值原理和二次规划方法获得; 未建模动态补偿器根据非线性系统状态和最优模型状态之间的误差设计.δ(σ(t )−i )首先令在区间[0, 1]内连续变化, 利用嵌入转换法将式(4)嵌入到一个连续时间大系统中. 然后根据该嵌入式连续时间大系统的最优控制问题:δ(σ(t )−i )∈[0,1]Q 、R (A σ(t ),√Q )其中 ,为适当维数的参数矩阵且可观, 采用极小值原理和二次规划方法得到切换准则函数:P σ(t )其中根据如下黎卡提方程求解:J σ(t )J σ(t )每一时刻,比较 , 选择与最小的对应的线性最优切换控制律:σ(t )K σ(t )其中为最优切换序列, 表示线性最优切换控制器的增益, 通过下式求解:接下来, 为消除未建模动态对控制系统性能的影响, 我们设计了如下未建模动态补偿器:2124自动化学报49 卷a 1∈R m ×n a 2e m =x −x ∗x ∗σ(t )其中为可调参数矩阵, 为可调参数, 为建模误差, 为最优线性化模型的状态.A iB i i =1,···,M 综上, 和 ( )已知时最优切换控制律为:注 1. 线性最优切换控制律和最优切换序列推导过程见附录A.δ(σ(t )−i )δ(σ(t )−i )注 2. 针对控制器设计模型(4), 通过嵌入扩大的取值范围, 令在区间[0, 1]内连续变化, 将由多个近似线性模型组成的式(4)嵌入到一个连续时间大系统中; 通过转换将针对控制器设计模型(4)的最优切换控制问题转化为针对该嵌入式连续时间大系统的最优切换控制问题.2.2 参数未知时的自适应最优切换控制器A i B i (i =1,···,M )P σ(t )M M σ(t )ˆKσ(t )ˆPσ(t )P σ(t )A σ(t )M M 当和未知时, 无法通过式(7)得到 , 无法得到如式(6)所示的切换准则函数和式(8)所示的线性最优切换控制律. 为解决这一问题, 本文提出了一种自适应最优切换控制方法. 首先在非线性系统的个平衡点附近采集组输入、状态数据, 利用黎卡提方程的迭代求解公式和最小二乘算法得到针对线性化模型的自适应最优控制器增益以及黎卡提方程近似解, 并根据贝尔曼方程得到的估计, 从而得到个平衡点附近的个线性化模型; 然后M 将个线性化模型嵌入到一个连续时间大系统中,针对该嵌入式连续时间大系统基于极小值原理和二次规划技术设计线性二次型最优控制律, 进而得到最优切换序列和线性自适应最优切换控制律; 最后将线性自适应最优切换控制律和未建模动态补偿器相结合应用到非线性系统中, 实现对未知动态非线性系统的自适应最优切换控制.A iB i i =1,···,M 针对控制器设计模型(4), 当和 ( )已知时, 根据Kleinman 定理[22], 很容易得到如下推论:K σ(t ),0∈R m ×n σ(t )P σ(t ),k 推论 1. 令为针对线性化模型的稳定反馈控制器增益矩阵, 为下面李雅普诺夫方程的对称正定解:δ(σ(t )−i )∈{0,1}i δ(σ(t )−i )=1k =1,2,···K σ(t ),k 其中且 , 表示迭代次数, 满足K σ(t ),k P σ(t ),k σ(t )K σ(t )P σ(t )则和分别收敛于针对线性化模型的最优控制器增益和黎卡提方程解 , 即A iB i 图 1 和已知时的控制系统结构A iB i Fig. 1 Control system structure when and are known10 期毛艳岭等: 非线性系统自适应最优切换控制方法2125∑∑A iB i(i =1,···,M )定理 1. 针对控制器设计模型(4), 当和未知时, 使性能指标最小的切换准则函数为:ˆKσ(t )σ(t )K σ(t )N σ(t )P σ(t )A σ(t )其中是针对线性化模型的最优控制器增益的估计, 根据式(17)求解; 是矩阵的估计, 根据式(18)求解:Θσ(t )ˆ¯Pσ(t )Ξσ(t )vec (C )m ×n C mn ⊗其中 , 和的定义见后文, 是把维矩阵按列的顺序一列接一列地组成的维向量, 代表克罗内克积,线性自适应最优切换控制律为:σ(t )J σ(t )其中为与最小的对应的最优切换序列.M σ(t )ˆKσ(t )ˆP σ(t )证明. 首先根据离线采集的组输入、状态数据, 计算针对线性化模型的自适应最优控制器增益以及黎卡提方程近似解 . 受文献[23]启发, 将式(4)等价表示为:A σ(t ),k =A σ(t )−B σ(t )K σ(t ),k 其中 . 根据式(12)和式(13), 沿着式(20)的解, 可以得到∫Q σ(t ),k =Q +i δ(σ(t )−i )K Tσ(t ),k RK σ(t ),k A σ(t )B σ(t )∑i δ(σ(t )−i )[x T (A T σ(t ),k P σ(t ),k +P σ(t ),k A σ(t ),k )x ]−x T×Q σ(t ),k x B σ(t )∑i δ(σ(t )−i )B Tσ(t )P σ(t ),k ∑i δ(σ(t )−i )RK σ(t ),k +1其中 . 由此, 可以将包含未知矩阵和的项用代替. 同理, 可以将包含未知矩阵的用代替.由克罗内克积的定义, 可知I n n 其中, 表示维单位矩阵. 定义如下运算l 对于正整数 , 定义矩阵2126自动化学报49 卷[∫∫0≤t 0<t 1<···<t l 其中 . 由式(22)和式(23)可知, 式(21)可等价表示为:Θσ(t),k 当为列满秩矩阵时,σ(t )k K σ(t ),k +1由此, 可以得到线性化模型第次迭代的自适应最优控制器增益 .ˆKσ(t )K σ(t )Θσ(t )Ξσ(t )ˆKσ(t )ˆ¯Pσ(t )¯P σ(t )ˆPσ(t )令为迭代终止时的自适应最优控制器增益并作为的估计, 和为迭代终止时的数据向量, 可以得到的计算公式如式(17)所示. 令为迭代终止时的的估计, 由此可以得到黎卡提方程的近似解 .σ(t )P σ(t )B σ(t )P σ(t )A σ(t )M M A i B i 接下来, 针对线性化模型求解矩阵和的估计, 从而得到个平衡点附近的个线性化模型. 当和已知时, 易知A iB i L σ(t )P σ(t )B σ(t ) 计, 则Pσ(t )A σ(t )σ(t ) 的估计可根据线性化模型的贝尔曼方程得到, 易知σ(t )P σ(t )A σ(t )N σ(t )D σ(t )N σ(t )ˆPσ(t )M 将式(27)代入上式, 利用离线采集的第组输入、状态数据, 通过求取最小二乘解可以得到如式(18)所示的矩阵的估计 . 根据 , 以及 , 可以很容易得到个平衡点附近的近似控制器设计模型:δ(σ(t )−i )[0,1]δ(t )=[δ(σ(t )−1),···,δ(σ(t )−M )]T W ={δ∈R M :∑i δ(σ(t )−i )=1,δ(σ(t )−i )≥0}最后求取最优切换序列和线性自适应最优切换控制律. 针对模型(29), 应用嵌入变换法, 使在内连续变化, 为此令并记. 定义哈密顿函数:易知, 针对嵌入式近似控制器设计模型的最优控制律为:将式(31)代入式(30), 化简可得δ(σ(t )−i )H (x,δ)下面将作为决策变量, 通过最小化, 可以得到最优切换序列.δ(σ(t )−i )H (x,δ)实际上, 选择使最小等价为使式(33)最小W ¯Hδ(σ(t )−i )∈{0,1}σ(t )这是一个二次规划问题, 由于是凸集, 是凹函数, 该问题的全局极小值一定在取得[21], 且该全局极小值对应的即为最优切换序列. 由此可以得到如式(16)的切换准则函数和式(19)的线性自适应最优切换控制律. □L σ(t )ˆKσ(t )注3. 由式(27)可知的估计精度由 10 期毛艳岭等: 非线性系统自适应最优切换控制方法2127ˆK σ(t )K σ(t )L σ(t )P σ(t )B σ(t )N σ(t )ˆKσ(t )的估计精度决定. 由文献[23]易知, 收敛于参数已知时的最优控制器增益 , 因此收敛于 . 由式(28)可知的估计精度由最小二乘估计算法的精度和的估计精度共同决定.l 0l ≥l 0rank ([I xx ,I xu ])=n (n +1)2+mn Θσ(t ),k {P σ(t ),k }∞k =0{K σ(t ),k }∞k =0P σ(t )K σ(t )注4. 在每个平衡点附近, 如果存在正整数 ,使得对于任意 , 都有 , 即矩阵是满秩的, 那么序列和分别收敛到黎卡提方程的解和最优控制器增益 [23].未建模动态补偿器的设计与线性模型参数已知时的情况类似, 即a 1∈R m ×n a 2ˆe m =x −ˆx ∗ˆx ∗σ(t )其中为可调参数矩阵, 为可调参数,为建模误差, 为最优线性化模型的状态.A iB i (i =1,···,M )综上, 和未知时自适应最优切换控制律为:自适应最优切换控制器设计流程如图2所示.3 仿真实验为了验证本文所提方法的有效性, 我们分别进行了模型参数已知时最优切换控制和模型参数未知时自适应最优切换控制的数值仿真实验, 并分别与单一的针对一个模型的最优控制器和自适应最优控制器进行了对比. 除此之外, 为了验证本文所提方法的实际可应用性, 我们进行了模型参数未知时双容水箱液位系统的自适应最优切换控制仿真实验.3.1 参数已知时最优切换控制数值仿真实验考虑如下连续时间非线性系统:x =[x 1,x 2]T ∈R 2u =[u 1,u 2]T ∈R 2其中是状态向量, 是输入向量.u =[u 1,u 2]T =[−3,10]T ,[−2,10]T [−1,10]T ˙x=[˙x 1,˙x 2]T =[0,0]T [u r 1,u r 2,x r 1,x r 2]T [−3,10,−4.4685,0.5592]T [−2,10,−4.2642,0.7565]T [−1,10,我们的目标是针对已知的非线性系统(36), 寻找最优切换序列和最优切换控制律, 使得闭环系统渐近稳定. 为此, 首先分别将和施加到非线性系统(36)上, 并令得到非线性系统(36)的三个平衡点, 即 = , 和 −4.0264,1.1119]T δ(σ(t )−i )∈{0,1}∑3i =1δ(σ(t )−i )=13. 将式(36)分别在上述三个平衡点处泰勒展开, 并令且 , 可以得到非线性系统(36)在个平衡点附近的控制器设计模型:其中图 2 自适应最优切换控制器设计算法流程Fig. 2 Flow chart of adaptive optimal switchingcontrol algorithm2128自动化学报49 卷[]x (0)=[x 1(0),x 2(0)]T =[−4.4685,0.5592]T 接下来给定随机初始状态 , 并选择控制器参数矩阵和未建模动态补偿器参数t =50s t =100s 最后将最优切换控制器(6) ~ (11)加入到系统(36), 得到如图3所示的状态曲线, 如图4所示的控制输入曲线和如图5所示的最优切换序列. 结合图3和图4, 在和时, 虽然系统的平衡点发生变化, 但是采用本文提出的最优切换控制方法仍能够将状态很快调节到平衡点附近并保持不变.[u r 1,u r 2,x r 1,x r 2]T [−1,10,−4.0264,1.1119]T x (0)=[x 1(0),x 2(0)]T =[−4.4685,0.5592]T 为了验证本文所提最优切换控制方法的优越性, 我们与单一的针对一个模型的最优控制方法进行了对比实验. 以针对平衡点 = 处的线性化模型为例,给定初始状态 , 选择控制器参数矩阵如式(38)所示, 未建模动态补偿器参数如式(39)所示.[u r 1,u r 2,x r 1,x r 2]T [−1,10,−4.0264,1.1119]T 图6和图7分别为所得到的状态曲线和控制输入曲线. 根据图6和图7可以看出, 针对平衡点 = 处的线性化模型设计的控制器只能将状态调节到对应的平衡点附近. 当平衡点发生变化时, 系统的状态存在稳态误差. 但是由于平衡点的变化引起的建模误差可近似为常数, 因此状态曲线虽然偏离平衡点但恒定不变.3.2 参数未知时自适应最优切换控制数值仿真实验本节的目标是针对未知非线性系统(36), 寻找[u r 1,u r 2,x r 1,x r 2]T =[−2,10,−4.2642,0.7565]T [u r 1,u r 2,x r 1,x r 2]T =[2,10,−2.5517,3.6570]T [u 1,u 2]T =[sin (0.1t ),sin (0.5t )]T t =0s t =2s δxx ,I xx ,I xu 最优切换序列和自适应最优切换控制律, 使得闭环系统渐近稳定. 不失一般性, 这里我们以两个平衡点为例进行仿真实验. 结合图2, 首先分别在平衡点和附近施加激励输入信号, 即 ,从到 , 以0.01 s 为采样周期, 分别采集201组输入和状态数据, 计算 . 选择−3.8−4.24−4.01−4.081.151.08100101100.8−4.290.760.7550.05050.6−4.2−4.61.4050100150050100150x 1, x r 1x 2, x r 20.90.4Time /sx 2x r 2x 1x r 1图 3 采用最优切换控制器时系统的状态Fig. 3 State curves of the system when usingthe optimal switching controller−u 1u 2Time /s图 4 采用最优切换控制器时系统的控制输入Fig. 4 Input curves of the system when usingthe optimal switching controller01234s (t )50100150Time /s图 5 采用最优切换控制器时系统的最优切换序列Fig. 5 Optimal switching sequence of the system whenusing the optimal switching controller10 期毛艳岭等: 非线性系统自适应最优切换控制方法2129控制器参数矩阵||P σ(t ),k −P σ(t ),k −1||≤10−3σ(t )=1,2k ˆPσ(t )ˆK σ(t )终止循环的条件为 , 其中 ; 代表迭代次数. 根据式(17)分别得到针对两个模型的和 , 即:N σ(t )然后利用所采集的输入和状态数据求解式(18),分别得到针对两个模型的 , 即:[]最后, 根据式(29)可以得到两个线性化模型如下式所示:x (0)=[x 1(0),x 2(0)]T =[−4,0]T t 0=0s t max =100s 将两个线性化模型嵌入到一个连续时间大系统中, 结合图2, 给定初始状态和初始时间 , 设置 , 选择未建模动态补偿器参数t ≥t max t =50s 将自适应最优切换控制器(35)加入到非线性系统, 当满足时, 可以得到如图8所示的状态曲线, 如图9所示的控制输入曲线和如图10所示的切换序列. 在 , 由于平衡点突变, 切换序列发生改变, 导致系统的状态震荡, 经过1.8 s 的调节时间, 系统的状态被调节到平衡点附近并保持不变.[u r 1,u r 2,x r 1,x r 2]T =[−2,10,−4.2642,0.7565]T ˆP1ˆK 1N 1[u r 1,u r 2,x r 1,x r 2]T =[−2,10,−4.2642,0.7565]T t =50s 为了验证本文所提自适应最优切换控制方法的优越性, 我们以平衡点为例, 与单一的针对一个模型的自适应最优控制方法进行了对比实验. 选择控制器参数矩阵如式(40), 根据式(17)和式(18)可以得到 , 和分别如式(41)和式(42)所示, 根据式(29)可以得到线性化模型如式(43)所示, 选择未建模动态补偿器参数如式(44)所示. 所得到的状态曲线和控制输入曲线如图11和图12所示. 从图11和图12可以看出, 针对平衡点设计的自适应最优控制器只能将状态调节到对应的平衡点附近. 与模型参数已知时情况相同, 当时, 平衡点发生变化, 系统状态存在稳态误差. 但是由于平衡点的变化引起的建模误差可近似为常数, 因此状态曲−4.6−4.2−3.80.40.91.4x 1, x r 1x 2, x r 2x 1x r 1x 2x r 250100150050100150Time /s图 6 采用最优控制器时系统的状态Fig. 6 State curves of the system when usingthe optimal controller−Time /su 1u 2图 7 采用最优控制器时系统的控制输入Fig. 7 Input curves of the system when usingthe optimal controller2130自动化学报49 卷。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

非线性不确定系统最优控制的自适应动态规划法研究
非线性系统的最优控制问题一直备受关注.最优控制问题的核心是求解哈密尔顿-雅可比-贝尔曼(HJB)方程.自适应/近似动态规划(ADP)作为求解HJB方程的有效方法,能够克服传统动态规划引起的计算复杂性问题.ADP算法融合了加
强学习,自适应技术,动态规划理论,神经网络,此算法由于可以按照时间正向求解最优控制问题而获得广泛关注.本文基于自适应动态规划,研究了含有控制约束的未知系统有限时间最优控制,含有饱和执行器的局部未知系统的非零和问题,含有外部扰动和控制约束的非线性不确定系统的H∞跟踪控制,未知时滞系统的有限时间最优控制.文章主要内容如下:(1)针对带有饱和执行器且局部未知的非线性连续系统的有限时间最优控制问题,设计了一种基于自适应动态规划(ADP)的在线积分增强学习算法,并给出算法的收敛性证明.首先,引入非二次型函数处理控制饱和问题.其次,设计一种由常量权重和时变激活函数构成的单一网络,来逼近未知连续的值函数,与传统双网络相比减少了计算量.同时,综合考虑神经网络产生的残差和终端误差,应用最小二乘法更新神经网络权重,并且给出基于神经网络的迭代值函数收敛到最优值的收敛性证明.最后,通过两个仿真例子验证了算法的有效性.(2)设计了基于自适应动态规划的最优在线学习算法,用以解决局部未知且含有控制约束的非线性动态系统的多人非零和问题.首先,证明了在线的策略迭代(PI)算法等价于牛顿迭代算法.其次,针对每个执行者,采用具有时变激活函数的单一神经网络近似时变的哈密尔顿-雅可比-贝尔曼(HJB)方程组的解.神经网络权重以在线方式按照时间正向迭代更新.控制受限这一条件通过引入非二次型函数得到解决.对于多人非零和问题,给出了基于神经网络的在线学习算法的收敛性证明.最后,我们通过仿真算例验证了提出算法的有效性.(3)提
出了一个基于神经网络且不依赖于策略的在线学习算法,进而解决一类非线性连续时滞系统的有限时间最优控制问题.这个不依赖于策略的在线学习算法用来学习时变HJB方程的两阶段解,本算法不需要时滞系统的动态知识.采用具有时变的激活函数的执行-评价神经网络结构实现算法的在线调节.同时考虑残差误差和终端误差实时调节两个神经网络的权重.给出两个仿真算例来验证算法的可应用性.(4)针对含有外部扰动和输入限制的非线性不确定系统,设计了H∞跟踪控制器.引入了含折扣因子的非二次型函数作为H∞性能指标,因此可将控制输入编译到性能指标中.求解H∞跟踪控制问题的难点在于求解跟踪哈密尔顿-雅可比-艾萨克(HJI)方程,此方程是偏微分方程.即使是简单的系统,此方程的分析解也很难获得.为了克服这一困难,提出了一种不依赖于模型的积分加强在线学习算法,进而在线学习跟踪HJI方程的解,而且这里无需系统的动态信息.为了实施此算法,采用评价网-执行网-扰动网神经网络结构,并且三网络同时进行调节.借助李亚普诺夫稳定性理论,给出系统稳定性和收敛性证明.另外,添加鲁棒控制项去抑制神经网络逼近误差,于是闭环系统可达到渐进稳定.最后,给出两个仿真例子来验证提出算法的有效性.(5)针对一类带有外部扰动和饱和执行器的不确定非线性连续系统,提出一种基于神经网络的无模型积分加强在线学习算法,用以解决有限时间H∞最优跟踪控制问题.借助跟踪误差系统和信号产生系统,组建成一个增广的系统.相对于这个增广后的系统,能够推导出对应的时变HJI方程.然而这个方程由于内在的非线性性和时变的特点,此方程的求解极其困难.因此,设计了一种基于执行-评价-扰动网络结构的算法,此算法在不需要系统动态信息的情况下,能够得到时变HJI方程的近似解.因为时变HJI方程的解是依赖于时间的,于是采用具有时变特点的激活函数的神经网络进行逼近.其次,为了满足终端
约束条件,在设计神经网络权重更新率时,额外的终端误差项被考虑进去.最后,借助李亚普诺夫稳定性理论,给出了收敛性和跟踪误差系统的稳定性证明.两个仿真算例验证了本章提出算法的有效性.最后,对全文进行了总结.提出自适应动态规划中一些尚未解决的问题,并给出未来的研究方向.。