含未知信息的轮式移动机器人编队确定学习控制
《多智能体系统的几类编队控制问题研究》

《多智能体系统的几类编队控制问题研究》一、引言多智能体系统由多个可以互相通信与合作的智能体组成,其应用领域广泛,包括无人驾驶车辆、无人机群、机器人集群等。
编队控制是多智能体系统研究的重要方向之一,它通过协调各智能体的运动,实现整体协同的编队行为。
本文将针对多智能体系统的几类编队控制问题进行研究,旨在为相关领域的研究与应用提供理论支持。
二、多智能体系统编队控制基本理论编队控制是多智能体系统协同控制的核心问题之一,它要求各智能体在动态环境中协同完成任务,形成特定的几何形状或空间布局。
编队控制的基本理论包括编队结构、通信机制、协同策略等。
编队结构是编队控制的基础,它决定了智能体的空间布局和运动轨迹。
常见的编队结构包括线性编队、环形编队、星形编队等。
通信机制是实现智能体之间信息交互的关键,它包括无线通信、视距通信等多种方式。
协同策略则是根据任务需求和系统状态,制定合适的控制策略,实现编队的稳定性和灵活性。
三、几类多智能体系统编队控制问题研究1. 固定环境下多智能体编队控制问题在固定环境下,多智能体需要形成稳定的编队结构,并按照预定的路径进行运动。
针对这一问题,可以采用基于规则的编队控制方法、基于优化的编队控制方法等。
其中,基于规则的编队控制方法通过设计合适的规则,使智能体根据自身状态和邻居状态进行决策;基于优化的编队控制方法则通过优化算法,求解最优的编队结构和控制策略。
2. 动态环境下多智能体编队跟踪问题在动态环境下,多智能体需要实时调整编队结构,以适应环境变化。
针对这一问题,可以采用基于领航者的编队跟踪方法、基于分布式控制的编队跟踪方法等。
其中,基于领航者的编队跟踪方法通过领航者引导智能体进行运动;而基于分布式控制的编队跟踪方法则通过分布式控制器实现各智能体的协同运动。
3. 异构多智能体编队控制问题异构多智能体系统中,各智能体的性能、能力等存在差异。
针对这一问题,需要研究异构智能体的协同策略、任务分配等问题。
不确定非完整轮式移动机器人的运动控制研究

不确定非完整轮式移动机器人的运动控制研究非完整轮式移动机器人(wheeled mobile robot,WMR)是典型的多输入多输出耦合欠驱动非线性系统, 其运动控制问题极具挑战性。
轮式移动机器人大多工作在复杂未知环境之下, 容易受到多种不确定性和扰动的综合影响, 因此, 解决复杂不确定下非完整轮式移动机器人的运动控制问题意义深刻且现实需求迫切。
本文研究了轮式机器人包含定位不确定性、参数和非参数不确定性、侧滑和打滑干扰等情形下的运动控制策略, 探讨了非完整单链系统的有限时间控制以及力矩受限下轮式移动机器人的动力学控制。
主要的研究成果包括: (1)研究了定位不确定的轮式移动机器人路径跟随问题, 提出一种基于改进遗传算法优化自适应扩展卡尔曼滤波的全局一致渐进稳定控制器。
(2)提出了一类n维不确定非完整单链系统的鲁棒有限时间镇定控制律。
通过不连续变换将原系统分解为1阶和n-1阶两个解耦的独立子系统, 对1阶子系统采用分段控制策略解决不连续变换引起n-1阶子系统奇异问题, 保证控制律的全局性, 对n-1阶子系统采用反演(backstepping)设计方法, 降低设计复杂度, 设计过程基于有限时间Lyapunov理论, 保证系统的有限时间稳定。
(3)研究了本体动力学模型包含参数和非参数不确定性的轮式移动机器人轨迹跟踪问题, 提出基于自适应反演滑模控制的全局渐进稳定饱和控制方案。
通过运动学输入-输出非线性反馈和动力学输入变换, 建立包含系统总体不确定性项的线性模型, 采用一种动态调整机制实现控制输入饱和约束, 基于幂次趋近律提高了滑模控制的平滑性和快速性, 自适应估计总体不确定性的上界有效削弱了滑模控制的抖振现象。
(4)提出了执行器动力学模型包含参数和非参数不确定性的轮式移动机器人轨迹跟踪与镇定统一控制方法。
通过backstepping分别设计系统的运动学、本体动力学和执行器动力学控制器, 运动学控制器引入了时变控制量, 使跟踪误差模型用于镇定控制时不存在奇异, 本体和执行器动力学控制器分别采用带鲁棒项的强化学习自适应模糊控制补偿系统的复杂不确定性, 采用非线性跟踪-微分器避免了backstepping过程的“计算膨胀”, 闭环系统为最终一致有界收敛。
轮式机器人的路径规划与控制技术研究

轮式机器人的路径规划与控制技术研究随着科技的不断进步,轮式机器人已经成为了人工智能领域中的重要组成部分。
轮式机器人可广泛应用于各种环境下,包括室内、室外、平地、山地、水下等多种环境,使其具有广泛的应用前景。
但是,要让轮式机器人能够在复杂的环境下进行准确的路径规划并执行动作,需要借助于强大的技术支持。
本文将主要介绍轮式机器人的路径规划与控制技术研究。
一、路径规划技术路径规划是一项基本但十分关键的技术,它需要根据机器人所处的环境及任务需求,选择适当的路径来实现任务。
对于轮式机器人,我们通常采用三种不同的技术来完成路径规划:传统的基于轨迹的技术、图形化的技术以及基于学习的强化学习技术。
1. 基于轨迹的路径规划基于轨迹的路径规划是一种较为传统且较为简单的路径规划方式,适用于较为简单的环境。
该方法通过计算机模拟机器人的运动轨迹,进而进行路径规划。
这种方法的优点是计算速度较快,适用于较为简单的机器人应用场合。
但是该方法在复杂环境下的精度会受到很大的影响。
2. 图形化的路径规划图形化的路径规划方法是一种基于图形化交互的路径规划技术。
这种方法主要利用计算机程序来模拟出机器人及其周围的环境,通过交互式屏幕及热键的控制来对机器人进行路径规划。
相对于传统的基于轨迹的路径规划方法,该方法克服了精度不够高的问题,具有更好的精度和适用性。
但是该方法需要进行大量的手动操作,并且需要较高的人机交互能力。
3. 基于学习的强化学习技术基于学习的强化学习技术是一种先进而全新的路径规划技术,该技术运用了神经网络的方法,对机器人进行实时学习,使其能够适应更加复杂的环境,并识别出各种条件下的最佳路径。
该方法不仅可以减少规划过程的工作量,而且还能够自动对机器人进行学习和优化,大大提高了机器人的工作效率和速度。
但是由于该方法需要高度的计算能力和运算时间,所以目前还不引导广泛使用。
二、控制技术控制技术是机器人完成任务的基本技术之一,对于轮式机器人这样的移动式机器人,准确的控制其运动轨迹是十分重要的。
《不确定非完整动力学系统控制研究》

《不确定非完整动力学系统控制研究》作者简介:董文杰,男,1970年12月出生,xx年09月师从于北京航空航天大学霍伟教授,于xx年12月获博士学位。
摘要非完整约束是指含有系统广义坐标导数且不可积的约束。
典型的受非完整约束系统(简称非完整系统)包括车辆、移动机器人、某些空间机器人、水下机器人、欠驱动机器人和运动受限机器人等。
因此,非完整系统的控制研究具有广泛应用背景和重要应用价值。
19世纪末20世纪初在经典力学中已对非完整系统做了基础性研究。
自1960年代以来,科技发展和生产实际的需要促使非完整系统的基础和应用研究都有了进一步发展。
从xx年代末起,由于机器人及车辆控制的需要,使得国外开始对非完整系统的控制问题进行深入研究。
由于非完整约束是对系统广义坐标导数的约束,它不减少系统的位形自由度,这使得系统的独立控制个数少于系统的位形自由度,给其控制设计带来很大困难。
另外,利用非线性控制系统理论的微分几何方法已证明:非完整系统不能用连续的状态反馈镇定。
因此以研究连续状态反馈为主的现代控制理论中大量成熟的结果无法直接用于非完整系统的镇定控制研究,使得非完整控制系统研究成为当今控制领域最具挑战性的难题之一。
国际上xx年代至xx年代中期对非完整系统的控制研究主要是针对由非完整约束方程导出的非完整运动学系统进行的,提出的反馈镇定控制方法主要有时变反馈控制策略、不连续控制策略及以各种方式将二者结合的混合控制策略。
在非完整运动学系统的轨迹跟踪控制研究中,基于不同的分析工具和方法也提出了多种控制方案。
由于实际系统是动力学系统,在对系统性能要求较高的情况下通常不能忽略系统的动力学部分,故基于运动学模型设计出的以广义速度为控制量的控制律不能直接用于以广义力为控制量的实际动力学系统。
因此自xx年代后期起国际上更加注重非完整动力学系统的控制研究,通常采用速度跟踪的思想将对非完整运动学系统设计的控制律推广到非完整动力学系统,这种研究一般依赖于非完整系统的准确动力学模型。
轮式移动机器人的运动控制算法研究

轮式移动机器人的运动控制算法研究一、引言随着科技的不断发展,移动机器人在工业、医疗、农业等领域的应用越来越广泛。
轮式移动机器人作为一种常见的移动机器人形式,其运动控制算法的研究对于机器人的稳定性和灵活性至关重要。
本文将分析和探讨轮式移动机器人的运动控制算法,旨在提高机器人的运动精度和效率。
二、轮式移动机器人的构成及运动模型轮式移动机器人通常由车身和多个轮子组成。
其中,车身是机器人的主要构成部分,承载着各种传感器和控制器。
轮子是机器人的运动装置,通过轮子的不同运动方式实现机器人的运动。
轮式移动机器人的运动可以通过综合考虑轮子之间的相对运动得到。
通常,可以使用正运动学和逆运动学模型来描述轮式移动机器人的运动。
正运动学模型是通过已知车体姿态和轮子转速来计算机器人的位姿。
逆运动学模型则是通过给定车体姿态和期望位姿来计算轮子转速。
根据机器人的结构和机械特性,可以选择不同的运动控制算法来实现轮式移动机器人的运动控制。
三、经典的轮式移动机器人运动控制算法1. 基于编码器的闭环控制算法基于编码器的闭环控制算法是一种常见的轮式移动机器人运动控制算法。
它通过测量轮子的转速,并结合期望速度,计算控制指令,控制轮子的转动。
该算法可以提高机器人的速度控制精度和跟踪性能。
2. PID控制算法PID控制算法是一种经典的控制算法,常用于轮式移动机器人的运动控制中。
它根据偏差信号的大小和变化率来调整控制指令,使机器人在运动过程中保持稳定。
PID控制算法具有简单、易理解和易实现等优点,但在一些复杂情况下可能需要进一步优化。
3. 最优控制算法最优控制算法是指在给定一组约束条件下,使机器人的目标函数最优化的控制算法。
在轮式移动机器人的运动控制中,最优控制算法可以通过解决优化问题,提高机器人的运动效率和能耗。
最优控制算法可以结合局部规划和全局规划来实现机器人的路径规划和运动控制。
四、轮式移动机器人运动控制算法的发展趋势随着机器人技术的不断发展和应用需求的不断提高,轮式移动机器人运动控制算法也在不断演进和改进。
基于事件触发的多智能体分布式编队控制

Feb. 2021Vdl.2& No.22021年2月 第28卷第2期控制工程Control Engineering of China文章编号:1671 -7848(2021 )02-0319-08DOI: 10.14107/ki.kzgc.20190149基于事件触发的多智能体分布式编队控制张志晨,秦正雁,张朋朋,刘腾飞(东北大学流程工业综合自动化国家重点实验室,辽宁沈阳110819)摘 要:研究具有有向通信拓扑的多智能体分布式编队事件触发控制问题,被控对象采用两轮差速轮式机器人。
首先,建立轮式机器人运动学模型,并利用动态反馈线性化方法将 模型转化为线性双积分器模型。
其次,根据通信拓扑关系设计分布式编队控制器。
然后,基于李雅普诺夫稳定性定理,在满足稳定性的前提下设计事件触发器,从而实现分布式编队事件触发控制,并且保证系统不存在Zeno 行为。
最后,通过仿真实验与物理实验验证 了控制昇法的有效性,智能体间通信量显著降低。
关键词:轮式机器人;动态反馈线性化;编队;事件触发中图分类号:TP273 文献标识码:ADistributed Formation Control of Multi-agent Based on Event TriggerZHANG Zhi-chen, QIN Zheng-yan, ZHANG Peng-peng, LIU Teng-fei(State Key Laboratory of Synthetical Automation for Process Industries, Northeastern University, Shenyang 110819 China)Abstract: This paper studies the distributed formation event trigger control problem of multi-agent with adirected communication topology and the agents use the two-wheel differential robot. Firstly, the kinematic model of wheeled robot is developed and transformed into a linear double integrator model through dynamic feedback linearization. Then the distributed formation controller is designed based on communication topology.Based on Lyapunov stability theorem, this paper designs the event trigger on the premise of stability. Thereby, the distributed formation event trigger control is implemented. And it ensures that there is no Zeno behavior in the system. Lastly, the effectiveness of the control algorithm is verified by simulation experiments and physicalexperiments, and communication frequency between agents is significantly reduced.Key words: Wheeled robots; dynamic feedback linearization; formation; event trigger1引言由于单个智能体在执行任务时受到自身能力 的限制,因此多智能体集群控制得到了广泛关注⑴。
轮式移动机器人动力学建模与运动控制技术

WMR具有结构简单、控制方便、运动灵活、维护容易等优点,但也存在一些局限性,如对环境的适应性、运动稳定性、导航精度等方面的问题。
轮式移动机器人的定义与特点特点定义军事应用用于生产线上的物料运输、仓库管理等,也可用于执行一些危险或者高强度任务,如核辐射环境下的作业。
工业应用医疗应用第一代WMR第二代WMR第三代WMRLagrange方程控制理论牛顿-Euler方程动力学建模的基本原理车轮模型机器人模型控制系统模型030201轮式移动机器人的动力学模型仿真环境模型验证性能评估动力学模型的仿真与分析开环控制开环控制是指没有反馈环节的控制,通过输入控制信号直接驱动机器人运动。
反馈控制理论反馈控制理论是运动控制的基本原理,通过比较期望输出与实际输出之间的误差,调整控制输入以减小误差。
闭环控制闭环控制是指具有反馈环节的控制,通过比较实际输出与期望输出的误差,调整控制输入以减小误差。
运动控制的基本原理PID控制算法模糊控制算法神经网络控制算法轮式移动机器人的运动控制算法1 2 3硬件实现软件实现优化算法运动控制的实现与优化路径规划的基本原理路径规划的基本概念路径规划的分类路径规划的基本步骤轮式移动机器人的路径规划方法基于规则的路径规划方法基于规则的路径规划方法是一种常见的路径规划方法,它根据预先设定的规则来寻找路径。
其中比较常用的有A*算法和Dijkstra算法等。
这些算法都具有较高的效率和可靠性,但是需要预先设定规则,对于复杂的环境适应性较差。
基于学习的路径规划方法基于学习的路径规划方法是一种通过学习来寻找最优路径的方法。
它通过对大量的数据进行学习,从中提取出有用的特征,并利用这些特征来寻找最优的路径。
其中比较常用的有强化学习、深度学习等。
这些算法具有较高的自适应性,但是对于大规模的环境和复杂的环境适应性较差。
基于决策树的路径规划方法基于强化学习的路径规划方法决策算法在轮式移动机器人中的应用03姿态与平衡控制01传感器融合技术02障碍物识别与避障地图构建与定位通过SLAM(同时定位与地图构建)技术构建环境地图,实现精准定位。
面向未知环境的移动机器人路径规划算法研究

面向未知环境的移动机器人路径规划算法研究一、绪论移动机器人是一种具有自主控制能力,具有移动能力和进行信息处理的机器人。
它可以根据预先确定的任务自主控制各种移动设备的动作,并获取、处理和传输信息。
移动机器人广泛应用于许多领域,如工业、环保、医疗等。
其中,移动机器人的路径规划算法是机器人导航系统的核心问题之一。
随着技术的不断发展,越来越多的移动机器人需要在未知环境中进行路径规划。
因此,本文旨在研究面向未知环境的移动机器人路径规划算法。
二、面向未知环境的移动机器人路径规划算法概述移动机器人的路径规划算法是指为机器人在未知环境中寻找最优路径的方法。
在未知环境中,机器人必须利用各种传感器从环境中获取信息,根据信息来解决路径规划问题。
基于图搜索的移动机器人路径规划算法是一种常用的算法。
在这种算法中,机器人将环境分成很多小格子,每个小格子代表一个节点,形成一个图。
机器人将自身所在节点作为起点,目标节点作为终点,通过搜索算法寻找最短路径。
基于学习的移动机器人路径规划算法是另一种常用的算法。
在这种算法中,机器人通过学习以前的行动和体验,形成一系列规则或直接选择一条路径。
渐进式路径规划算法是一种集成了“生成-测试”策略的移动机器人路径规划算法。
首先,从初始位置和目标位置出发,机器人按照随机行走的方式进行探测。
在探测过程中,机器人不断更新全局地图,从而更加精确地描述环境。
一旦机器人找到一条通向目标位置的路径,就会继续探测其它未知部分,直到找到所有路径或者探测次数达到上限。
总体而言,面向未知环境的移动机器人路径规划算法可以分为基于图搜索的算法、基于学习的算法以及渐进式路径规划算法三类。
三、基于图搜索的移动机器人路径规划算法基于图搜索的移动机器人路径规划算法是一种广泛应用的算法。
该算法将移动机器人所处的环境分成一个个小格子,形成一个网格图。
机器人将自身所处的格子称为起点,目的地所处的格子称为终点,在这个网格图中搜索最短路径。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
含未知信息的轮式移动机器人编队确定学习控制彭滔;刘成军【摘要】This paper investigates the formation control of wheeled mobile robots(WMR)with unknown information under nonholonomic constraints.Firstly,based on the leader-follower method and the virtual structure method,the forma-tion control is transformed into the problem that the followers track their virtual leader. Secondly,a radial basis function neural network(RBF NN)is used to learning the unknowninformation(closed-loop system dynamics)of WMR,and a stable adaptive RBF NN controller and the stable adaptive tuning law of RBF NN parameters are derived in the sense of the Lyapunov stabilitytheory.According to deterministic learning,a partial persistentexcitation(PE)condition of some inter-nal signals in the closed-loop system is satisfied in the control process of tracking a recurrent reference trajectory,and an accurate approximation of the unknown closed-loop system dynamics is achieved by the RBF NN parameters convergence to their optimal weights. Finally,a RBF NN learning controller which effectively utilizes the learned knowledge without re-adapting the RBF NN parameters is proposed to achieve the closed-loop stability and improve the control performance, and simulation studies are included to demonstrate the correctness and effectiveness of the proposed approach.%本文研究含未知信息的轮式移动机器人(wheeled mobile robots,WMR)的编队控制问题.首先,基于领航-跟随法和虚拟结构法,将WMR编队控制问题转化为跟随机器人对参考虚拟机器人的跟踪控制问题.然后,利用径向基函数神经网络(radial basis function neural networks,RBF NN)对WMR的未知系统动态进行学习,以及根据李雅普诺夫稳定性理论设计了稳定的自适应RBF NN控制器和RBF NN权值估计的学习率.依据确定学习理论,闭环系统内部信号在对回归轨迹实现跟踪控制的过程中满足部分持续激励(persistent excitation,PE)条件.随着PE条件的满足,RBF NN权值估计收敛到其理想权值,实现了对未知闭环系统动态的准确学习.最后,利用学习结果设计了RBF NN学习控制器,保证了控制系统的稳定与收敛,实现了闭环稳定性和改进了控制性能,并通过仿真验证了所提控制方法的正确性和有效性.【期刊名称】《控制理论与应用》【年(卷),期】2018(035)002【总页数】9页(P239-247)【关键词】未知信息;移动机器人编队;非完整约束;系统动态;学习控制【作者】彭滔;刘成军【作者单位】重庆理工大学电气与电子工程学院,重庆400054;重庆理工大学电气与电子工程学院,重庆400054【正文语种】中文【中图分类】TP2421 引言(Introduction)近30年来,移动机器人编队因具有广泛的应用前景,使其成为机器人领域中的研究热点[1–2].经过多年的研究,现在已经形成了领航–跟随法(leader-follower)[3–4]、基于行为法(behavior based)[5–7]和虚拟结构法(virtual structure)[8–9]3种最常用的方法,其中领航–跟随法具有数学分析简单,机器人编队运动安全高效和易于形成和保持队形等优点,已广泛应用于移动机器人编队控制研究的各领域.现有的研究结果主要是基于机器人的线速度和角速度为控制输入的运动学模型,设计运动学控制器完成编队控制.这使得跟踪速度控制器决定了系统控制的稳定性,为达到编队控制目标需要“完美的”速度跟踪控制[10].这些研究结果大多没有考虑移动机器人的动力学特性,缺乏对高度非线性,不确定性和系统干扰等的鲁棒性;而在实际情况中存在诸多的非线性、扰动和不确定性等因素,例如作用于移动机器人的噪声、扰动、摩擦、负载变化以及未建模动态等.为保证移动机器人跟踪期望速度达到编队控制误差收敛到零,需要考虑机器人的动力学特性.在文献[11]和[12]中,Dierks等通过联合多层神经网络将单移动机器人的轨迹跟踪控制扩展到编队领航跟随控制,该方法用神经网络学习机器人编队的完整动力学和神经网络观测器估计机器人的线速度和角速度,设计了神经网络输出反馈控制器实现了稳定.在文献[13]中,Hou等利用反步技术(backsteping)和模糊逻辑方法为含有不确定动力学和外部扰动的移动机器人提出了自适应控制方法,该方法通过模糊系统在线学习机器人平台的动力学和运动学,使得这些信息不再为必须的先验知识;在文献[14]中利用神经网络对含有不确定动力学和外部扰动的多智能体一致性问题提出了鲁棒自适应控制方法,并将该方法推广到多智能体的编队控制中.在文献[15]中,Defoort等对含有界不确定扰动时变机器人编队问题设计了二阶滑模鲁棒控制器,该方法只需要测量机器人之间的相对构形而不必要测量或估计领航机器人的速度.在文献[16]中,申动斌等对打滑状态下的多机器人编队控制采用领导者–跟随者策略协调各机器人的运动,利用二阶滑模控制方法设计了控制器,使得机器人编队在运动过程中能够形成期望的队形.在文献[17]和[18]中,李艳东等利用神经网络对动力学不确定部分进行了在线估计,设计了自适应控制器和滑模控制器.这些研究结果包含了移动机器人的动力学模型,所提方法中的神经网络单纯地是一个逼近器,每次(即便重复相同的控制任务)都要对神经网络重新训练,对于系统未知动力学的学习问题都未研究.上述文献中所提出的自适应神经网络控制方法都是基于神经网络的通用逼近性展开的,对神经网络是否真的逼近了机器人系统中的未知信息没有进行深入的探讨.本文研究含未知信息轮式移动机器人(WMR)的编队控制问题,基于确定学习方法综合运用移动机器人的运动学和动力学模型,利用径向基函数神经网络(RBF NN)学习WMR的未知闭环系统动态,依据李雅普诺夫稳定性理论设计了稳定的自适应RBF NN控制器和RBF NN权值估计的学习率.闭环系统内部信号在对回归轨迹实现跟踪控制的过程中,满足部分持续激励(PE)条件,使得RBF NN权值估计收敛到其理想权值,实现了对未知闭环系统动态的准确学习.最后,利用学习结果设计了RBF NN学习控制器,保证了控制系统的稳定与收敛,实现了闭环稳定性和改善了控制性能,并用仿真研究验证了所提控制方法的正确性和有效性.2 系统模型(System model)2.1 移动机器人模型(WMR model)如图1中所示的WMR,其运动学和动力学模型为[19]其中:q=[x y θ]T为位姿向量,(x,y)表示后轴中点在全局坐标系中的坐标,θ为方向角;驱动轮间距为2R,半径为r,d为后轴到前端的距离;V=[υ ω]T为广义速度向量,υ和ω分别为线速度和角速度;为惯性矩阵,为向心力和哥氏力矢量,为重力矢量,为表面摩擦力矢量,τd为未知扰动,为控制转换矩阵,τ为控制输入向量.一般地,已知,和难以准确获知.当WMR在水平二维平面内运动时,有矩阵其中:m是WMR的质量,I为WMR的绕轮轴参考点的转动惯量.WMR的动力学方程(1)可改写为其中式(2)中的未知部分可以用一个非线性函数表示为则式(2)可写为图1 领航–跟随机器人编队结构示意图Fig.1 Leader–follower formation sketch 2.2 编队模型(Formation model)如图1所示,对WMR编队用领航–跟随法和虚拟结构法,设队形规划中期望距离为ld,期望角度为φd,用Rl,Rf和Rr分别表示领航WMR和跟随WMR和参考虚拟目标WMR(注下标l代表领航,f代表跟随和r代表参考),则Rf跟踪Rl可转化为跟踪Rr,Rr的姿态可描述为qr=[xryrθr]T,可定义运动学误差系统为由于WMR受非完整约束,每个WMR的方向角在队形变换时不相等,选择θr满足[20]其中βr=θl−θr∈ (−π,π].对式(4)两边微分可得其中:ϕ=φd− β,β =θl− θf.令WMR编队满足下列假设条件:假设1 WMR编队成员间有无延迟的无线通信.假设2Rl的参考线速度和角速度是有界的,并能将测得的Vl通过通讯传递给Rf. 假设 3Rf能测得l,φ和Vf,且Vf有界.3 控制目标(Control objective)本文的研究内容不包括WMR的路径规划,队形规划和避障等问题.根据领航–跟随法可知,Rf的位姿qf=[xfyfθf]T可由Rl的位姿qf=[xlylθl]T及(ld,φd)唯一决定.因此,只要控制(l,φ)使和则可达到期望队形.根据虚拟结构法,控制任务转化为设计一个光滑的速度控制器V使时,WMR编队从当前队形趋近目标队形,即为误差系统(5)渐近稳定时,设计动力学控制器对含未知信息的动力学系统(1)(或(3))稳定.4 自适应神经网络控制(Adaptive neural network control)为了镇定运动学误差系统(5),使Rf到达Rr的位姿,文献[20]中提出了如下速度控制Vfc,可以使得式(5)渐近稳定:其中:定义速度误差Ef为则式(5)可转换为其中对式(7)两边微分,并将式(3)代入可得定义则式(9)可写成由RBF NN的万能逼近性质,对未知闭环系统动态Hf存在一个理想权值向量W∗使得其中:S(Z)=diag{S1(Z),···,Sn(Z)},S(·)为高斯函数,为逼近误差,且‖ϵ(Z)‖≤ ϵ∗(ϵ∗>0);∀Z∈Ω⊂ R5(Ω为紧集).对动力学误差系统(10),设计控制输入和权值估计学习率为其中:控制增益矩阵Kf=diag{kfi},kfix>0;为RBF NN权值估计,是用来逼近的;Γ为常数对角矩阵,σ为较小的正常数.对于式(8)(10)和(11)构成的闭环系统,选取如下李雅普诺夫函数:其中对V1求导得因为对∀θe∈ (−π,π)成立,则有当时,式(14)严格小于零.利用三角不等式可得又因为其中0<k4<2,则其中选择适当的Kf以使得Kf1> 0.让由控制对象(3)(5)和(10),控制器(6)和(11)构成的闭环误差系统为其中定理1 考虑闭环误差系统(16),对给定的从初始条件q(0)∈Ω0(Ω0为紧集)出发的任一回归参考轨迹ψ(q(0)),有初始条件q(0)∈Ω0和可得:1)闭环系统(16)中的所有信号保持最终一致有界;2)适当选择设计参数,存在一个有限时间T,使误差信号Ef收敛到零的小领域内,∀t≥T.证 1)从式(15)可知,当t→∞,有所以Ef和最终一致有界,又因为Z和S(Z)有界,则输入τ有界.由此可得,闭环系统中的所有信号都最终一致有界.2)选取李雅普诺夫函数求导得利用三角不等式有其中s∗为‖S(Z)‖的上界[21].于是式(17)可表示为其中选择适当的Kf以使得Kf2> 0.让显然,选择足够大的k5可使得δ2足够小.由式(18)可得不等式(19)意味着对给定的存在一个有限时间T,使得∀t≥ T,Ef满足‖Ef‖ <ι1,ι1为小的残差集.通过选取大的Kf可使Ef足够小,即通过选取适当的设计参数,可使Ef在有限时间T内收敛到零的小领域内[22]. 证毕.5 确定学习(Deterministic learning)根据确定学习理论[23],系统(16)在时间T后利用RBF NN的局部特性,沿着跟踪轨迹ψ(q(t))|t≥T可表示为其中:Sξ(Z)为S(Z)的子向量,为相应权值子向量,下标ξ和分别代表靠近和远离轨迹ψ(q(t))|t≥T的区域,ϵξ为局部逼近误差,且‖ϵξ‖是很小的值.定理2 考虑闭环误差系统(20),对任意给定的从初始条件q(0)∈Ω0(Ω0为紧集)出发的任一回归参考轨迹ψ(q(0)),有初始条件q(0)∈Ω0和合理地选取控制参数,则沿着跟踪轨迹ψ(q(t))|t≥T,RBF NN权值收敛到理想权值的小领域内,未知闭环系统动态Hf可由和来局部准确逼近,其中证令则式(20)可表示为将上式写成矩阵形式为由定理1知,RBF NN的输入Z(t)时间T后为回归轨迹,回归子向量Sξ(Z)满足PE条件[23],根据文献[24]中的引理1可知系统(21)的标称系统一致指数稳定.对于系统(21)根据文献[25]的引理4.6,权值误差在有限时间T1(T1>T)内指数收敛到零的小领域内,领域的大小由NN逼近能力和状态跟踪误差决定.未知闭环系统动态可由整个RBF神经网络和准确逼近,即其中‖ϵ′‖和‖ϵ′′‖是很小的值,表明整个RBF神经网络和沿着轨迹ψ(q(t))|t≥T能够逼近未知闭环系统动态到任意准确度.从式(22)可知,对于经历的回归轨迹ψ(q(t)),存在小的正常数ι2,沿着ψ(q(0))存在一个局部区域Ωψ满足[23]其中ϵ∗2接近ϵ∗. 证毕.6 学习控制(Learning control)运用学习结果,对动力学误差系统(10),可用RBF NN学习控制器(23)替代自适应RBF NN控制器(11)实现学习控制其中:为未知闭环系统动态的局部准确逼近,是学习过程中存储的RBF NN常数权值. 定理3 由控制对象(3),控制器(6)和(23)构成的闭环系统,对任意给定的从初始条件q(0)∈Ω0(Ω0为紧集)出发的任一回归参考轨迹ψ(q(0)),有初始条件q(0)∈ Ω0和可得:1)闭环系统中的所有信号保持最终一致有界;2)适当选择设计参数,存在一个有限时间T2,使误差信号Ef收敛到零的小领域内,∀t≥T2.证将式(23)代入式(10)得选取李雅普诺夫函数为对V3求导化简可得由三角不等式可得其中k6>0,由此可得其中选择适当的Kf以使得Kf3> 0.取令由于学习阶段的准确逼近使ϵ∗2很小,因此ι3和δ3也很小.从式(25)可得则有类似定理1的证明,可得闭环系统中所有信号保持最终一致有界.从式(26)可知,不用选择大的设计参数k6,Ef能指数收敛到零的一个小领域内,即存在一个有限时间T2>0,对任意的t>T2,误差Ef收敛到零的一个小领域内. 证毕.7 系统控制性能分析((The analysis of system control performance)综合上述分析,对比自适应RBF NN控制器(11)和RBF NN学习控制器(23)的控制性能有:i)使用自适应RBF NN控制器(11)时不满足PE条件,与许多自适应NN控制的文献获得的结果一样,能保证有界,但不能保证它收敛到零的一个小区域内.为保证误差Ef 收敛到零的一个小领域内,须选择足够大的k5(即足够大的Kf),以使δ2足够小.然而,较大的k5容易引起高增益控制,应在实际应用中避免.ii)使用RBF NN学习控制器(23),由于学习阶段的准确逼近,不需选择大的控制参数k6(即Kf)就能保证ι3和δ3足够小,从而保证误差Ef收敛到零的一个小领域内.同时,RBF NN学习控制器(23)采用了无需在控制过程中更新的常数权值,比自适应RBF NN控制器(11)能在软硬件实现时节约时间和能量,这在实际应用中有优势.8 仿真研究((Simulation studies)为了验证所提控制方法的正确性和有效性,本部分运用MATLAB进行仿真研究.选取WMR参数为控制目标为ld=1m,选取领航机器人Rl的轨迹为初值为跟随机器人Rf的初值设为参考虚拟目标机器人Rr的轨迹可由如下方程组计算得到选择控制参数为k1=1,k2=0.5,kv=5;RBF NN节点数N=1600,初值W=zeros(N,1),Γ=2∗eye(N),σ=0.0001;RBF NN中心点均匀分布在[−2:1:2],[−2:1:2],[−1:1:2],[−1.5:1.5:3],[−4:1:1]网格点上.设置=[0.06m(v2f+2ω2f)|θf|,0.06m(2v2f+ω2f)|θf|]T,=0.在自适应RBF NN控制阶段设干扰为τd=0.1∗[sint cost]T,在RBF NN学习控制阶段τd=1∗[sint cost]T[26].仿真研究结果如图2–13所示.图2–6展示了自适应RBF NN控制的控制效果,其中图2–3是线速度和角速度跟踪曲线.图2 自适应神经网络控制线速度跟踪Fig.2 Adaptive NN control linear velocity tracking图3 自适应神经网络控制角速度跟踪Fig.3 Adaptive NN control angular velocity tracking图4–6是轨迹跟踪和姿态误差曲线.从图2–6中可以看出,在前25s误差相对较大,从图2–5可以看出25s后两条曲线几乎重合,从图6中可以看出特别是前10s的最大误差超过了0.5,在10∼25s的最大误差也接近0.5,25s过后误差一直保持在0.15以内,这表明Rf稳定的跟踪上Rr.分析原因是前25s RBF NN权值处于在线调整中,没有收敛到稳定值,这导致误差相对较大,这吻合图7中的RBF NN权值收敛过程.图4 自适应神经网络控制轨迹跟踪(2维)Fig.4 Adaptive NN control trajectory图5 自适应神经网络控制轨迹跟踪(3维)Fig.5 Adaptive NN control trajectory tracking(three dimensional)图6 自适应神经网络控制姿态跟踪误差Fig.6 Adaptive NN control posture tracking error未知闭环系统动态的RBF NN学习效果如图7–8所示,其中图7是部分RBFNN权值收敛,图8是未知闭环系统动态的学习误差曲线.从图7中可以看出,RBF NN络权值经过25s的调整收敛到常值.未知闭环系统动态的RBF NN学习效果如图8所示,在权值调整过程中学习误差偏大,当权值收敛之后学习误差大大减少,这意味着学习效果改善.因此,图7和图8表明本文提出的自适应RBF NN控制方法在Rf稳定跟踪Rr的过程中,实现了对未知闭环系统动态的准确学习.图7 部分神经网络权值收敛Fig.7 The partial NN weights convergence图8 未知闭环系统动态学习误差Fig.8 Unknown closed-loop system dynamics learning error图9–13展示了RBF NN学习控制的控制效果,图9–10是线速度和角速度跟踪曲线,图11–13是轨迹跟踪和姿态误差曲线.从图9–12中可以看出两条曲线没有调整过程始终保持几乎重合,从图13中可以看出姿态跟踪误差几乎一直保持在0.15以内,这表明Rf稳定的跟踪上Rr所需时间较采用自适应RBF NN控制器少了许多,分析原因是RBF NN学习控制利用了已学到的知识使得RBF NN权值无需再调整. 图9 学习控制线速度跟踪Fig.9 Learning control line velocity tracking图10 学习控制角速度跟踪Fig.10 Learning control angular velocity tracking 图11 学习控制轨迹跟踪(2维)Fig.11 Learning control trajectory tracking(two dimensional)图12 学习控制轨迹跟踪(3维)Fig.12 Learning control trajectory图13 学习控制姿态跟踪误差Fig.13 Learning control posture tracking error 通过上述对比分析两种控制效果,使用了学过知识的RBF NN学习控制器,实现了系统的稳定控制,并节约了资源和改善了性能.9 结论(Conclusions)本文针对含未知信息的WMR研究了编队控制,利用RBF NN提出了自适应神经网络控制器和学习控制器,实现了闭环系统的所有信号最终一致有界.由于对回归轨迹满足部分PE条件,在稳定的闭环动态控制过程中RBF NN准确学习到未知闭环系统动态,并且以时不变且空间分布的方式表达和常数权值的方式存储.调用存储的RBF NN常数权值建立的学习控制器中包含已学到的系统未知信息,避免了RBF NN权值的重新训练和更新,实现了系统良好的控制.这在工程实践中能节约软硬件资源,是非常有用的.参考文献(References):【相关文献】[1]DONG X,YU B,SHI Z,et al.Time-varying formation control for unmanned aerial vehicles:theories and applications[J].IEEE Transactions on Control Systems Technology,2015,23(1):340–348.[2]WANG Yintao,YAN Weisheng.Consensus formation tracking control of multiple autonomous underwater vehicle systems[J].Control Theory&Applications,2013,30(3):379–384.(王银涛,严卫生.多自主水下航行器系统一致性编队跟踪控制[J].控制理论与应用,2013,30(3):379–384.)[3]DESAI J P,OSTROWSKI J,KUMAR V.Controlling formations of multiple mobilerobots[C]//Proceedings of IEEE International Conference on Robotics and Automation.Leuven:IEEE,1998:2864–2869.[4]LORIA A,DASDEMIR J,JARQUIN N A.Leader–follower formation and tracking control ofmobile robots along straight paths[J].IEEE Transactions on Control Systems Technology,2016,24(2):727–732.[5]BALCH T,ARKIN R C.Behavior-based formation control for multirobot teams[J].IEEE Transactions on Robotics and Automation,1998,14(6):926–939.[6]KUPPAN CHETTY R M,SINGAPERUMAL M,NAGARAJAN T.Behavior based multi robot formations with active obstacle avoidance based on switching controlstrategy[J].Advanced Materials Research,2012,433(440):6630–635.[7]QIU Huaxin,DUAN Haibin,FAN Yanming.Multiple unmanned aerialvehicleautonomousformationbasedonthebehaviormechanism in pigeonflocks[J].Control Theory&Applications,2015,32(10):1298–1304.(邱华鑫,段海滨,范彦铭.基于鸽群行为机制的多无人机自主编队[J].控制理论与应用,2015,32(10):1298–1304.)[8]BENZERROUK A,ADOUANE L,MARTINET P.Stable navigation in formation for a multi-robot system based on a constrained virtual structure[J].Robotics and Autonomous Systems,2014,62(12):1806–1815.[9]LEWIS M A,TAN K H.High precision formation control of mobile robots using virtual structures[J].Autonomous Robots,1997,4(4):387–403.[10]DAS A K,FIERRO R,KUMAR V.A vision based formation control framework[J].IEEE Transactions on Robotics and Automation,2002,18(5):813–825.[11]DIERKS T,JAQANNATHAN S.Neural network control of mobile robot formations using RISE feedback[J].IEEE Transactions on Systems,Man,and Cybernetics,PartB(Cybernetics),2009,39(2):332–347.[12]DIERKS T,JAQANNATHAN S.Neural network output feedback control of robot formations[J].IEEE Transactions on Systems,Man,and Cybernetics,PartB(Cybernetics),2010,40(2):383–399.[13]HOU Z G,ZOU A M,CHENG L,et al.Adaptive control of an electrically driven nonholonomic mobile robot via backstepping and fuzzy approach[J].IEEE Transactions on Control Systems Technology,2009,17(4):803–815.[14]HOU Z G,CHENG L,TAN M.Decentralized robust adaptive control for the multiagent system consensus problem using neural networks[J].IEEE Transactions onSystems,Man,and Cybernetics,Part B(Cybernetics),2009,39(3):636–647.[15]DEFOORT M,FLOQUET T,KOKOSY A,et al.Sliding-mode formation control for cooperative autonomous mobile robots[J].IEEE Transactions on Industrial Electronics,2008,55(11):3944–3953.[16]SHEN Dongbin,SUN Weijie.Multirobot formation control under slippingcondition[J].Journal of Mechanical Engineering,2012,48(23):30–35.(申动斌,孙伟杰.打滑状态下的多机器人编队控制[J].机械工程学报,2012,48(23):30–35.)[17]LIYandong,ZHULing,SUNMing.Adaptivecontrolofmobilerobot formations includingactuator dynamics[J].Computer Engineering and Applications,2014,50(1):235–239.(李艳东,朱玲,孙明.含驱动器动力学的移动机器人编队自适应控制[J].计算机工程与应用,2014,50(1):235–239.)[18]ZHU Ling,LI Yandong,SUN Ming,et al.Sliding mode control of mobile robot formations based on neural networks[J],Electric Machines and Control,2014,18(3):113–118.(朱玲,李艳东,孙明,等.移动机器人编队的神经网络滑模控制[J].电机与控制学,2014,18(3):113–118.)[19]FIERRO R,LEWIS F L.Control of a nonholonomic mobile robot using neuralnetworks[J].IEEE Transactions on Neural Network,1998,9(4):589–600.[20]WU K Y.Multiple mobile robots formation control and obstacleavoidance[C]//Proceedings of International Conference on Advanced Computer Control.Harbin:IEEE,2011:639–643.[21]AJ K,JD W,FJ N.Persistency of excitation in identification using radial basis function approximants[J].SIAM Journal on Control&Optimization,1995,33(2):625–642.[22]SLOTINE J E,LI W P.Applied Nonlinear Control[M].New Jersey,American:Prentice Hall,1991.[23]WANG C,HILL D J.Deterministic Learning Theory for Identification,Recognition,and Control[M].Boca Raton,American:CRC Press,2009.[24]LIU T F,WANG C,HILL D J.Learning from neural control of nonlinear systems in normal form[J].Systems&Control Letters,2009,58(9):633–638.[25]KHALIL H K.Nonlinear Systems[M].3rd edition.Englewood Cliffs:Prentice Hall,2002.[26]ZHOU Yong,WANG Cong,GU Wujun,et al.Deterministic learning and control of mobile robots[J].Control Theory&Applications 2012,29(1):119–124.(周勇,王聪,顾武军,等.移动机器人的确定学习与控制[J].控制理论与应用,2012,29(1):119–124.)。