几类时滞神经网络稳定性及多智能体系统一致性研究

合集下载

基于零和博弈方法的多智能体系统h∞一致性

基于零和博弈方法的多智能体系统h∞一致性
第 38 卷 第 4 期 2020 年 4 月
文章编号:1004-3918(2020)04-0546-09
河南科学 HENAN SCIENCE
Vol.38 No.4 Apr. 2020
基于零和博弈方法的多智能体系统 H∞ 一致性
弓镇宇, 李庆奎
(北京信息科技大学 自动化学院,北京 100192)
摘 要:针对存在外部扰动情形下离散多智能体系统的 H∞ 一致性问题,利用二人零和博弈方法,一致性协议和外
收稿日期:2019-11-06 基金项目:国家自然科学基金项目资助(61573230);北京信息科技大学促进高校内涵发展科研水平提高重点研究培育项目
资助(5211910949) 作者简介:弓镇宇(1996-),男,硕士研究生,研究方向为多智能体系统、博弈论 通信作者:李庆奎(1971-),男,教授,博士,研究方向为多智能体系统、博弈论
引用格式:弓镇宇,李庆奎. 基于零和博弈方法பைடு நூலகம்多智能体系统 H∞ 一致性[J]. 河南科学,2020,38(4):546-554.
经网络学科的发展,与 Actor-Critic 神经网络结合的在线策略迭代算法[10-12]和值迭代算法[13]也受到了众多关 注 . 在多智能体框架下,文献[14]研究了二人零和图博弈问题,并给出了与 Actor-Critic 神经网络结合的双 环策略迭代算法进行求解;文献[15]研究了多智能体系统存在输入饱和以及输出限制时的二人零和博弈问 题,并且结合了自适应动态规划方法 .
由于多智能体系统应用的广泛性,其相关研究在数学、生物、经济、控制科学等众多学科领域获得了长 足的发展 . 其中多智能体系统的一致性问题一直是研究热点,它在飞行器编队控制[1-2]、机器人协作[3-4]和网 络系统同步[5-6]等实际问题中起着重要作用 . 解决一致性问题的关键在于设计合理的控制策略或控制协议, 使得各个智能体与邻居能够进行特定的信息交换,并最终实现状态的统一 .

二阶领导跟随多智能体系统事件触发一致性

二阶领导跟随多智能体系统事件触发一致性

第31卷第1期2021年3月湖南工程学院学报Journal of Hunan Institute of EngineeringVol.31.No.1March 2021罗毅平,蔡聪,肖星,林国汉(湖南工程学院电气与信息工程学院,湘潭411104)摘要:针对一类时滞二阶多智能体系统领导跟随模型,研究了在无向拓扑结构下一类二阶多智能体系统领导跟随一致性控制问题.考虑系统内部非线性因素,在给定事件触发策略的条件下,设计了与时滞相关的控制器,通过矩阵不等式等分析技术,利用lyapunov-krasovskii 稳定性定理得到了该系统实现一致性的充分条件.最后,在仿真阶段验证了控制器设计的合理性.关键词:事件触发;二阶多智能体系统;一致性;输入时滞;非线性中图分类号:TP13∶TP18文献标识码:A文章编号:1671-119X (2021)01-0001-07收稿日期:2020-09-26项目基金:国家自然科学基金资助项目(11972156);湖南省自然科学基金资助项目(2017JJ4004);湖南省研究生科研创新项目(CX20190958);湖南省教育厅科研资助项目(19A117).作者简介:罗毅平(1966-),男,博士,教授,研究方向:复杂网络、多智能体系统.二阶领导跟随多智能体系统事件触发一致性0前言多智能体系统一致性在许多领域有着广泛的应用,如电网[1]、无人机编队[2-3]、生物系统[4]等领域.由于其通信成本低、效率高,受到了大量科研人员的关注,成为了控制领域的研究热点.大量科研人员投入到智能体的研究热潮中,并通过不同的角度、不同的模型充分地研究一阶多智能体系统,并获得了许多成果[5-7].然而在上述成果中,考虑的都是一阶智能体系统.但在实际应用中,大多数都是二阶甚至高阶系统,仅仅考虑位移一致性是远远不够的,特别是同时受位置和速度控制的智能体,比如编队控制中的无人机,必须同时保证智能体的位移和速度一致,才能精确地保证状态一致.Ren 等[8]也指出二阶智能体系统与一阶系统不同,生成树的存在并不是二阶智能体系统实现一致的充要条件.由此表明,将一阶一致性算法简单地应用在二阶系统上是不合适的,换句话说,从一阶系统扩展到二阶系统,并不是在一阶模型上的简单延伸,因此,研究二阶系统是非常有挑战性的,也是很有必要的.近年来,已有许多学者对二阶多智能系统的一致性控制进行了研究[9-12],研究内容主要围绕一致性算法展开,一般来说,二阶智能一致性算法分为无领导跟随一致性算法和只有一个领导者的领导跟随一致性算法.例如文献[9-10],就是通过无领导跟随一致性算法解决了二阶系统达成一致性问题.文献[11-12]讨论了在一个领导者的情况下,跟随者在控制协议作用下追踪领导者,最后与领导者状态达成一致.需要注意的是在上述文献中都是基于多智能体系统是线性的前提下进行研究的.然而,在智能体系统模型中各个智能体内部诸因素之间更多地呈现出一种非线性关系,如在无人机编队控制系统中,各个无人机内部因素肯定是一个非线性因素.因此,研究带有非线性因素的智能体系统是非常有实际意义的.为了解决非线性因素对一致性问题带来的影响,Li 等[13]利用Lipschitz 公式对非线性因素进行线性化处理,最后得出多智能体系统达成二阶一致的充分条件,在Li 的基础上,Wang 等[14]研究了非均匀扰动的二阶非线性系统的一致性问题,提出线性化处理的前提,并不再要求非线性函数满足任何全局Lipschitz 条件,这也大大弱化了线性化处理的要求.这样,线性化处理很快地被湖南工程学院学报2021年引入到多智能体系统控制中,并迅速地产生了大量研究成果.然而,上述研究成果都没有考虑系统中的时延.由于智能体之间需要相互通信,这样智能体之间的信息传输就不可避免的产生时间延迟.时延的产生必将影响系统的稳定性和控制性能.目前,已有许多论文研究了带有时滞的多智能体系统一致性控制问题,如Li等[15]研究离散系统中的步长和时滞参数一致性,给出了系统达成一致的参数集,并证明了该研究结果也适用于具有输入时滞的系统中.需要指出的是,以上分析带有时滞的多智能体一致性控制的文献中,都只是关注一阶系统的一致性.涉及时延二阶系统中的一致性控制这方面的研究很少.Ma等[16]研究在不确定时滞下,二阶智能体系统鲁棒一致性,但仅限于非领导跟随模型.目前,具有时滞的二阶智能体系统仍有许多问题需要更深入地研究.在研究智能体通信时滞的同时,还需要考虑智能体之间信息传输的通道信道容量,由于通信资源是有限的,所以每个智能体与相邻智能体之间的通信不可能一直持续.为了节约通信成本,许多科学家提出采样数据控制.传统的采样系统是通过预先设定采样周期,同步触发控制器更新[17-18],由于其设计的便利性,得到了广泛应用.传统的采样控制设计重点在于采样周期取值,若采样的周期过短,则会造成通信资源大量浪费,并且产生数据冗余,阻塞信道.相反,周期设定过长,系统的控制性能将大大降低.因此时间触发通信系统的采样周期设定是保守的,资源利用率较低.为了提高通信资源利用率,提出事件触发通信方式来提高通信资源利用率,并减少通信负担[19-20].不同于时间触发方案,事件触发不需要预先设定触发周期,而是设定一个系统可承受的误差阈值,一旦智能体的局部误差超过这一阈值,控制器才进行更新.这样大大减少了通信资源损耗,并有效地缓解通信通道的阻塞,同时又保证了控制性能.近年来科研人员对事件触发机制进行了充分的研究,并迅速产生大量的成果[21-24].Liu等[21]基于无向拓扑结构下,提出事件触发机制,研究了一阶系统的平均一致性.Yang等[22]则研究了高阶系统下基于观测器的领导跟踪输出一致性问题,并同时考虑事件触发方案.在二阶系统中,Xie等[23]分别通过集中式事件触发策略和分散式事件触发策略对二阶领导跟随系统的一致性问题进行了研究,然而,Xie等人并没有考虑系统时滞和系统的非线性因素,而现实应用系统中,往往这二者都同时存在,然而在现有的二阶一致性文献中,几乎都没有将二者同时考虑在内,现有的方法可能无法同时处理系统中的时滞与非线性项.受上述启发,本文研究一类同时具有输入时滞和非线性动力学因素的二阶多智能体系统的事件触发一致性控制问题,本文的贡献有三个方面:首先,本文研究的是一类二阶领导跟随模型,在考虑了系统固有的非线性动力学因素基础上,同时考虑输入时滞对系统的影响.其次,针对具有输入时滞和非线性因素的二阶领导跟随模型,获得了实现事件触发策略下该系统一致性的充分条件,并排除了Zeno行为,有效地降低了通信成本.最后,在仿真结果中验证了领导者的加速度设定的大小对系统稳定性产生影响.1预备知识与系统描述1.1图论知识由N个智能体和1个领导者构成的无向拓扑连通图,其中-G=G⋃{0},其中{}0相当于领导者,而G={V,E}表示N个跟随者所构成的拓扑图,V= {1,2,⋯,N}称为顶点集,如果节点i与j之间存在一条边,则称为i,j相邻.边集E={(i,j)∈V×V;i,j相邻}. A=[]a ij N×N是N个多智能体的邻接矩阵,若i,j相邻,则a ij>0,反之,a ij=0.如果(i,j)∈E,则可以称j 是i的邻居.第i节点的邻居集可以用N i= {j∈V|(j,i)∈E,j≠i}表示.此外我们定义一个度矩阵为D=dig{d1,d2,⋯,d N}.如果领导者{}0能够连接到i,则d i>0,反之,d i<0,其中d i=∑j∈N ia ij,并且定义拉普拉斯矩阵L=D-A.为了方便问题描述,给出以下定义:R n和R n×m 分别代表n维实数矩阵和n×m实数矩阵,I和0分2第1期别表示为合适维度的单位矩阵和零矩阵.1N 表示所有元素为1的列向量,sup 表示最小上确界.1.2系统问题描述领导者的动力学行为:{ẋ0(t )=v 0(t )v̇0(t )=p (t )+f (v 0(t ),t ) (1)跟随者的动力学行为:{ẋi (t )=v i (t )v̇i (t )=u i (t ) + p (t )+f (v i (t ),t ) (2)其中t ∈(-τ,+∞),x i (t ),v i (t )∈R N ,分别代表跟随多智能体i 的位置、速度状态量.x 0(t )、v 0(t )分别代表领导者的位置、速度状态量.p (t ) ∈R N 代表智能体i 的驱动函数以及u i (t )∈R N代表智能体i 的控制输入.f (v i (t ),t )、f (v 0(t ),t )代表跟随者智能体i 的动力学特性的连续可微非线性向量函数和领导者的动态输入.定义1二阶领导跟随系统如果满足下列条件就说明该系统(1)(2)达到一致性.lim x →∞x i (t )- x 0(t )=0lim x →∞v i(t )- v 0(t )=0i =1,2,⋯,N引理1对于任意具有合适维度的向量x ,y 以及合适维度的对称正定矩阵Z ,都具有下列不等式:±x T y ≤x T Zx +y T Z -1y引理2具有合适维度的矩阵A 、B 、C 、D ,利用克罗内克积公式,可以得到:(1)(A +B )⊗C =A ⊗C +B ⊗C (2)(A ⊗B )T =A T ⊗B T(3)(A ⊗B )(C ⊗D )=(AC )⊗(BD )引理3舒尔定理:下列对称线性不等式:éëêùûús (x )z (x )z T (x )c (x )>0等价于下列式子:s (x )>0,c (x )-z T(x )s -1(x )z (x )>0c (x )>0,s (x )-z (x )c -1(x )z T (x )>0假设1非线性函数f (v i (t ),t )是连续可微的向量函数,存在一个正的标量ρ,使得满足下列不等式:||f (v i(t ),t )-f (v j(t ),t )≤ρ||v i(t )-v j(t )2主要结果在本篇文章中,将通过设计合适的控制器以及提出集中式事件触发机制来解决在无向连接拓扑图下的二阶领导跟随系统(1)(2)的一致性问题.2.1集中式事件触发控制策略在假设控制器输入时滞为固定常时滞下,提出集中式事件触发策略,智能体在满足事件触发条件时触发通信采样,一般来说,事件触发条件是一个包含全局状态测量误差阈值的不等式,当实际测量误差超过这一阈值便触发控制器更新.其触发函数具体表达式在式(6)中给出.为了解决系统(1)(2)的一致性问题,设计的控制器目的为了解决控制输入常时滞与智能体内部的非线性因素的影响,其具体控制协议如(3)式:u i (t )=κ(∑j ∈Niaij(x j (t k -τ)-x i (t k -τ)+v j (t k -τ)-v i (t k -τ))-b i (x i (t k -τ)-x j (t k -τ)+v i (t k -τ)-v 0(t k -τ)))∀t ∈[t k ,t k +1) (3)其中,κ代表控制增益,且κ>0,τ为大于0的常数,代表控制器输入时滞,a ij >0为智能体i ,j 相连的耦合强度,b i >0以及j ∈N i .t k ,t k +1分别代表第k 次、第k +1触发时刻.T k =t k +1-t k 代表的是采样周期,当t ∈[t k ,t k +1),每个智能体i 在这一期间广播其状态x i (t k )、x 0(t k )、v i (t k )和x 0(t k ),即在两次相邻触发时刻之间,系统的控制输入保持不变.将(3)式中控制器带入(2)式,设ξi (t )=x i (t )-x 0(t ),ηi (t )=v i (t )-v 0(t ).e 1(t )=ξ(t k )-ξ(t ),e 2(t )=η(t k )-η(t ),其中误差量e 1(t ),e 2(t )∈R N .将误差量代入,并令e (t )=[]e T 1(t ),e T2(t )T,再设置y (t )为[]ξT(t ),ηT (t )T,所以我们得到:ẏ(t )=Cy (t )+Fy (t -τ)+He (t -τ)+F ˉ (4)其中对应的矩阵表达式如下:C =éëêùûú0I N 00F =éëêùûú00-κ(L +B )-κ(L +B )H =éëêùûú00-κ(L +B )-κ(L +B )F ˉ=éëêùûú0f -1N ⊗f 0罗毅平,等:二阶领导跟随多智能体系统事件触发一致性3湖南工程学院学报2021年2.2事件触发机制触发函数:g (t ,e (t ))=e T (t )Qe (t )-k 1∗y T (t )M 1y (t ) -k 2∗y T (t -τ)M 2y (t -τ)-k 3∗e T (t -τ)M 3e (t -τ) (5)触发条件为:g (t ,e (t ))=0(6)在式(5)(6)中,其中k 1、k 2、k 3都是大于0的常数,Q 、M 1、M 2、M 3为合适维度的矩阵.在式(6)中的集中式触发条件,实际上是设定了一个全局状态误差阈值e (t ),也称为系统(1)(2)在一致性下所能忍耐的最大误差值,一旦系统误差超过此值,系统一致性便会被破坏,为了维持系统一致性的稳定,此刻事件机制会迅速触发控制器(3)更新输入,此刻测量误差将重置为0.定理1对于无向连通拓扑下的二阶多智能体系统(1)(2),如果存在正定对称矩阵P ,R ,Q ,W 和矩阵M 1,M 2,M 3,使得下列线性矩阵不等式成立,当触发函数(5)在满足触发条件(6)下将触发控制器(3)更新,该系统达成一致性.J =éëêêùûúúJ 11J 12J 13∗J 22J 23∗∗J 33<0 (7)J 11=C T P +PC +R +τC T WC -τ-1W +PR -1P +τC T WQ -1WC +ρR +ρW +τρQ +2τρP +k 1∗M 1J 12=τC T WF +τ-1W +PF J 13=PH +τC T WHJ 22=-R -τ-1W +τF T WF +τF T WP -1WF +k 2∗M 2J 23=τF T WHJ 33=-Q +τH T WH +τH T WP -1WH +k 3∗M 3上式子中k 1,k 2,k 3均大于0,当g (e (t ),t )渐近于0时,所有跟随者的控制器将会被触发,每个多智能体的控制输入将会被更新.证明:对于闭环系统(4),构造李雅普诺夫函数如下:v (t )=y T (t )Py (t )+∫t -τty T(s )Ry (s )d s +∫t -τt eT(s )Qe (s )d s +∫-τ∫t +θtẏT(s )Wy ̇(s )d s d θ(8)对时间t 求导后再根据Jensen 不等式可得:v̇(t )≤y ̇T (t )Py (t )+y T (t )Py ̇(t )+y (t )Ry (t )-y (t -τ)Ry (t -τ)+e T (t )Qe (t )-e T (t -τ)Qe (t -τ)+τẏT (t )Wy ̇(t )-τ-1(y (t )-y (t -τ))T ∗W ∗(y (t )-y (t -τ)) (9)将(4)式代入(9)式后,根据引理1,并通过假设1和引理2中的克罗内克积公式可以将带有||Fˉ的式子进行转化,最后为了方便计算,设定δ(t )=[]y T (t )y T (t -τ)e T (t -τ)T,化简写成矩阵形式:v̇(t )≤δT (t )J ˉδ(t )+ e T (t )Qe (t )(10)其中J ˉ=éëêêêêùûúúúúJˉ11J 12J 13∗J ˉ22J 23∗∗J ˉ33Jˉ11=C T P +PC +R +τC T WC -τ-1W +PR -1P +τC T WQ -1WC +ρR +ρW +τρQ +2τρPJˉ22=-R -τ-1W +F T WF +τF T WP -1WF Jˉ33=-Q +τH T WH +τH T WP -1WH 在t ∈(t i k ,t i k +1)时,我们可知:e T (t )Qe (t )<k 1∗y T (t )M 1y (t )+k 2∗y T (t -τ)M 2y (t -τ)+k 3∗e T (t -τ)M 3e (t -τ)(11)根据式(11)可以得到v ̇(t )≤δT (t )Jδ(t )≤0,因此闭环系统(4)渐近稳定一致,这也意味着跟随者智能体位移,速度状态与领导者的差值在全局状态误差阈值e (t )范围内,即满足定义1中lim x →∞x i (t )- x 0(t )=0,lim x →∞v i (t )- v 0(t )=0.证明成立.另外需要注意的,除了保证系统(1)(2)在控制器(3)下达成一致性外,还需要确保在时间轴上没有事件的累积点,即没有Zeno 行为,这点可以通过严格采样周期T k 来保证,以下给出定理2.定理2对于二阶多智能体系统(1)(2),假设无向拓扑图论G 是连通的,在任意初始条件下,控制协议(3)与集中式事件触发策略(5)(6)渐进解决了多智能体系统的一致性问题,另外,通过式(12)计算采样周期的最小值,闭环系统不会出现Zeno 行为.θˉ≥{p 1 y (t )+p 2 y (t -τ)+p 3 e (t -τ)}×{ C μ1+ F μ2+ H ε1+ Fˉ}-1(12)4第1期证明如下:我们从触发函数(6)中可以得到:e (t )≤p 1 y (t )+p 2 y (t -τ)+p 3e (t -τ)(13)其中:p 1=λmax (M 3/Q ),p 2=λmax (M 2/Q ),p 3=λmax (M 3/Q )从(5)式中,我们可以得到 ẏ(t )≤ C y (t )+ F y (t -τ)+H e (t -τ)+ Fˉ(14)为了得到采样区间的正下界,计算了t >t k 时的测量误差e (t )的上界,又因为测量误差e ̇(t )<-y ̇(t ), e (t )≤-∫t kt y ̇(t )d s .所以:e (t )≤(t -t k){ C y (t )+ F y (t -τ)+H e (t -τ)+ Fˉ}(15)定义2:μ1=sup t ≥0 y (t ),μ2=sup t ≥0 y (t -τ),ε1=sup t ≥0 e (t -τ).上式(15)可以变成:e (t )≤(t -t k ){ C μ1+ F μ2+ H ε1+Fˉ}(17)联立式(13)、式(16)可以得到:t -t k ≥{p 1 y (t )+p 2 y (t -τ)+p 3 e (t -τ)}*{ C μ1+ F μ2+ H ε1+ Fˉ}-1(18)3数值仿真在本章节中,主要通过数值仿真来验证该集中式事件触发协议的有效性.该仿真研究的是由1个领导者和5个跟随者构成的多智能体系统,其智能体系统拉普拉斯矩阵L 和局部度B 如下所示.系统的无向拓扑图如图1所示,其中0代表领导者,数字1~5代表跟随者智能体.L =éëêêêêêêêêùûúúúúúúúú5-30-20-33000006-4-2-20-49-300-2-35B =éëêêêêêêêêùûúúúúúúúú200000300000200000200图1智能体系统的无向连接拓扑图为了验证系统(1)(2)在控制协议(3)作用下能够达成一致性,我们设定智能体的初始状态,各智能体的位移分别:x 0(t )=1.2683 ,x 1(t )=2.7346,x 2(t )=-2.432,x 3,(t )=4.8951,x 4(t )=7.1191,x 5(t )=-4.732.各智能体速度分别为:v 0(t )=-2.71,v 1(t )=0.7329,v 2(t )=-3.1691, v 3(t )=4.112,v 4(t )=2.7316,v 5(t )=-8.511对于系统中的非线性参数,我们设定为f (v i (t ),t )=sin(10t )-0.12v i (t ),输入时滞τ=0.01.系统中领导者的加速度p (t )=0.2t sin(10t ).控制器参数k =7.68,定理1中的参数k 1=k 2=k 3=9.4.其仿真图如图2~图5所示.通过仿真验证了本文思路的可行性.Time(sec)Time (sec )456图2智能体位移状态变化图罗毅平,等:二阶领导跟随多智能体系统事件触发一致性5湖南工程学院学报2021年图3智能体速度状态变化图图4测量误差范数 e (t )变化Time(sec)Time (sec )456图5事件触发时间间隔图4结束语本文研究的是一类二阶多智能体领导跟随一致性控制问题,给出了该系统达成一致性的充分条件.该系统同时考虑了输入时滞和存在非线性因素的情况,基于李雅普诺夫稳定性理论与矩阵不等式设计了与时滞相关的控制器,并利用事件触发机制,有效地降低了通信成本,提高了资源利用率和系统的控制性能.最后数值仿真验证了该方法的可行性,然而考虑到每个智能体在执行任务供给的能量有限,如何权衡能量的消耗与性能的优化是我们下一步需要进行研究和解决的问题.参考文献[1]Mengchen Z ,Ning W ,Meijuan W ,et al .Design of Self-adaption Protection Scheme for Micro-grid Based on Multi-agent [J ].Journal of Yanshan University ,2019.[2]Neto AMDS ,Romero RAF .A Decentralized Approachto Drone Formation Based on Leader-Follower Technique [C ]//2019Latin American Robotics Symposium (LARS ),2019Brazilian Symposium on Robotics (SBR )and 2019Workshop on Robotics in Education (WRE ).2019.DOI :10.1109/LARS-SBR-WRE48964.2019.00069.[3]Li X ,Er MJ ,Yang G ,et al .Bearing-Based FormationManoeuvre Control of Nonholonomic Multi-agent Sys-tems [J ].International Journal of Systems Ence ,2019,50(3):1-10.[4]Kaur G ,Burroughs AM ,Iyer LM ,et al .Highly-Regulat-ed ,Diversifying NTP-based Biological Conflict Systems with Implications for Emergence of Multicellularity [J ].eLife Ences ,2020,9.[5]Wang H ,Yu W ,Wen G ,et al .Fixed-Time Consensus ofNonlinear Multi-Agent Systems with General Directed Topologies [J ].IEEE Transactions on Circuits and Sys-tems II:Express Briefs ,2019,66(9):1587-1591.[6]Hu T ,He Z ,Zhang X ,et al .Leader-Following Consensusof Fractional-or der Multi-agent Systems Based on Event-Triggered Control [J ].Nonlinear Dynamics ,2020,99(3):2219-2232.[7]Sinha A ,Mishra R K .Consensus in First Order NonlinearHeterogeneous Multi-agent Systems with Event-Based Sliding Mode Control [J ].International Journal of Con-trol ,2020,93(4):858-871.[8]Ren W ,Beard R W .Consensus Seeking in Multiagent Sys-tems Under Dynamically Changing Interaction Topologies [J ].IEEE Transactions on Automatic Control ,2005,50(5):655-661.6第1期[9]Ge S Y,Zhou Y J,Jiang G P,et al.Prescribed-Time Leader-Following Consensus Tracking Control for Second-Order Multi-Agent Systems[C]//2019Chinese Automa-tion Congress(CAC).2019.DOI:10.1109/CAC48633.2019.8996401.[10]Guo W,Jinhu L,Chen S,et al.Second-Order Tracking Control for Leader-Follower Multi-Agent Flocking in Di-rected Graphs with Switching Topology[J].Systems&Control Letters,2011,60(12):1051-1058.[11]Liu K,Ji Z,Ren W.Necessary and Sufficient Condi-tions for Consensus of Second-Order Multiagent Sys-tems Under Directed Topologies Without Global GainDependency[J].IEEE Transactions on Cybernetics,2017,47(8):2089-2098.[12]Zheng D,Zhang H,Andrew Zhang J,et al.Consensus of the Second-order Multi-Agent Systems Under Asyn-chronous Switching with a Controller Fault[J].Interna-tional Journal of Control Automation&Systems,2019,17(1):136-144.[13]Li H,Liao X,Chen G.Leader-Following Finite-Time Consensus in Second-order Multi-Agent Networks withNonlinear Dynamics[J].International Journal of Con-trol Automation and Systems,2013,11(2):422-426.[14]Wang C,Ji H.Robust Consensus Tracking for a Class of Heterogeneous Second-Order Nonlinear Multi-AgentSystems[J].International Journal of Robust&Nonlin-ear Control,2015,25(17):3367-3383.[15]Li X,Liu J C,Li X G.Consensus of First-Order Dis-crete-time Multi-Agent Systems with Time Delays[J].Journal of the Franklin Institute,2019,356(10):5315-5331.[16]Ma D,Tian R,Zulfiqar A,et al.Bounds on Delay Con-sensus Margin of Second-Order Multi-Agent SystemsWith Robust Position and Velocity Feedback Protocol[J].IEEE Transactions on Automatic Control,2019,64(9):3780-3787.[17]Yan X S,Wang Q L,Sun C Y,Self-triggered Consensus Control for Linear Multi-Agent Systems With Input Sat-uration[J].自动化学报英文版,2020,15(1):150-157.[18]Duan G,Xiao F,Wang L.Hybrid Event-and Time-Trig-gered Control for Double-Integrator Heterogeneous Net-works[J].Ence China(Information ences),2019,62(2):73-84.[19]Cameron,Nowzari,et al.Event-Triggered Communica-tion and Control of Networked Systems for Multi-agentConsensus[J].Automatica,2019,105(105):1-27.[20]Zhang A,Zhou D,Yang P,et al.Event-Triggered Fi-nite-time Consensus with Fully Continuous Communica-tion Free for Second-Order Multi-Agent Systems[J].In-ternational Journal of Control Automation&Systems,2019,17(4):836-846.[21]Liu Z,Chen Z,Yuan Z.Event-Triggered Average-Con-sensus of Multi-Agent System with Weighted and DirectTopology[J].Journal of Systems Science&Complexi-ty,2012,25(5):845-855.[22]Yang Q,Li J,Wang B.Leader-Following Output Con-sensus for High-order Nonlinear Multi-agent Systems byDistributed Event-triggered Strategy Via Sampled DataInformation[J].IEEE Access,2018,7:70799-70810.[23]Xie D,Yuan D,Lu J,et al.Consensus Control of Sec-ond-order Leader-Follower Multi-agent Systems withEvent-Triggered Strategy[J].Transactions of the Insti-tute of Measurement and Control,2013,35(4):426-436.Event-triggered Consensus of Second-order Leader-followerMulti-agent SystemLUO Yi-ping,CAI Cong,XIAO Xing,LIN Guo-han(College of Electrical and Information Engineering,Hunan Institute of Engineering,Xiangtan411104,China)Abstract:The problem of leader-following consensus control for a class of second-order multi-agent system in undirected topology is studied.A delay-related controller is designed for the leader-following model of a class of second-order multi-agent system with delay,considering the internal nonlinear factors of the system and under the condition of given event triggering strategy.Through matrix inequality and other analysis tech-niques,sufficient conditions for the consistency of the system are obtained by using lyapunov-KrasovskII sta-bility theorem.Finally,the rationality of controller design is verified in the simulation stage.Keywords:event-triggered;second-order multi-agent system;consensus;time-delay;nonlinear罗毅平,等:二阶领导跟随多智能体系统事件触发一致性7。

江苏省2012年度优秀硕博士论文名单

江苏省2012年度优秀硕博士论文名单
李兰娟
南京大学
刘福强
11
烟雾病患者外周血中SDF-1α和CD34+CXCR4+细胞水平和相关性研究
倪冠中
南京大学
徐格林
12
首席执行官的变革型领导行为与企业绩效——公司企业家精神的中介作用
孙秀丽
南京大学
蒋春燕
13
实验室科学知识生成研究-以江苏省生物材料与器件重点实验室为例
沈培
东南大学
吕乃基
14
复杂网络同步和多智能体系统一致性研究
黄灿
东南大学
郑建勇
20
200V功率SOI-LIGBT器件热载流子退化机理及寿命模型研究
刘斯扬
东南大学
时龙兴
21
8位40 MS/s低功耗ADC设计
顾俊辉
东南大学
吴建辉
22
量子可逆逻辑综合算法研究及应用
万四爽
东南大学
陈汉武
23
螺旋藻中叶绿素a的提取工艺研究
童洋
东南大学
肖国民
24
基于贝叶斯网的实时交通事件检测与评估方法研究
何程
南京大学
陈延峰
16
演化计算理论分析与学习算法的研究
俞扬
南京大学
周志华
17
供应链研究计算实验平台及其应用研究
李静
南京大学
盛昭瀚
18
新型碳质材料对抗生素类药物的吸附机制研究
纪靓靓
南京大学
朱东强
19
突发事件情境下冗余资源与企业绩效的关系研究:基于威胁情境
李晓翔
南京大学
刘春林
20
强不定问题的变分方法与同宿轨问题
武黎嵩
南京大学
颜世安

《基于深度强化学习的多智能体协同研究》范文

《基于深度强化学习的多智能体协同研究》范文

《基于深度强化学习的多智能体协同研究》篇一一、引言随着人工智能技术的不断发展,多智能体系统(Multi-Agent System,MAS)的应用日益广泛。

多智能体系统由多个智能体组成,通过协同工作实现复杂任务。

然而,多智能体系统的协同问题一直是研究的难点和热点。

深度强化学习(Deep Reinforcement Learning,DRL)作为一种新兴的机器学习方法,在处理复杂、高维度、非线性问题中具有显著优势。

因此,基于深度强化学习的多智能体协同研究成为了当前研究的热点。

本文旨在探讨深度强化学习在多智能体协同中的应用,并提出一种基于深度强化学习的多智能体协同算法。

二、相关工作多智能体系统的协同问题涉及多个智能体的信息交互、决策协同和行为协调等问题。

传统的协同方法主要包括基于规则的协同、基于通信的协同等。

然而,这些方法在处理复杂、高维度、非线性问题时存在局限性。

近年来,深度学习和强化学习在多智能体协同中得到了广泛应用。

深度学习可以提取复杂问题的特征,强化学习可以解决决策问题。

基于这两种方法的结合,即深度强化学习,为多智能体协同提供了新的思路。

三、基于深度强化学习的多智能体协同算法算法包括以下几个方面:1. 智能体模型设计:每个智能体都包含一个深度神经网络模型,用于提取环境特征和决策。

2. 深度强化学习模型:采用深度强化学习算法训练每个智能体的决策模型,使其能够在复杂环境中自主学习并做出最优决策。

3. 信息交互机制:通过设计信息交互协议,实现多个智能体之间的信息共享和协作。

4. 协同策略:基于信息交互结果,通过分布式决策方式实现多智能体的协同工作。

四、实验与分析本文采用仿真实验对所提算法进行验证。

实验中,我们将多个智能体置于一个二维网格环境中,每个智能体需要完成一定的任务。

通过对比不同算法的性能,我们发现基于深度强化学习的多智能体协同算法在处理复杂、高维度、非线性问题时具有显著优势。

具体表现在以下几个方面:1. 任务完成率:所提算法的任务完成率较高,能够有效提高多智能体系统的整体性能。

非参数不确定多智能体系统一致性误差跟踪学习控制

非参数不确定多智能体系统一致性误差跟踪学习控制

非参数不确定多智能体系统一致性误差跟踪学习控制严求真;孙明轩;李鹤【摘要】This paper presents a consensus-error-tracking iterative learning control method to tackle the consensus problem for a class of leader-following non-parametric uncertain multi-agent systems, which perform a given repetitive task over a finite interval with arbitrary initial error. The iterative learning controllers are designed by applying Lyapunov synthesis. As the iteration increases, each following multi-agent’s consensus-error can track its desired consensus-error trajectory, and the all following multi-agents’ states perfectly track the leader’s state on the specified interval. The robust learning technique is applied to deal with the nonparametric uncertainties, and the hyperbolic tangent function is used to design feedback terms, in order to compensate the cycle-varying but bounded uncertainty. Numerical results demonstrate the effectiveness of the learning control scheme.%针对一类在有限时间区间上执行重复任务的主−从型非参数不确定多智能体系统,提出一致性误差跟踪学习控制方法,用于解决在任意初始误差情形下的一致性问题。

神经网络原理与应用课件.ppt

神经网络原理与应用课件.ppt

f(x) 1

1ex p(x)
f(x)1(1th( x))
2
x0
f(x) +1
0
x
-1
这类曲线可连续取值,反映了神经元 的饱和特性。
2024/11/24
神经网络与模式识别研究室
21
• 3.神经网络的连接方式
神经网络是由大量的神经元以不同的 方式连接而成的大规模复杂系统,不同的 网络模型可能具有不同的连接方式,常用 的连接方式有:
2024/11/24
神经网络与模式识别研究室
2
•从第一台数字计算机问世(1946年),
计算机系统几经更新换代,经历了由电 子管、晶体管、LSI、VLSI,到后来的 奔腾4、双核技术等发展阶段。
•近年来,软件方面也在不断升级更新, 计算机性能越来越优越,应用也越来越 广泛。
•尽管如此,但计算机系统并非万能,它 存在着自身的局限性和物理极限(小型 化),其特点是串行运算,输入输出存 在线性的和确定性的关系。
2024/11/24
神经网络与模式识别研究室
28
• 而另一阶段则是工作期,此时神经网络 已经训练好,连接权值保持不变,即通 过信息的不断传递,使各神经元状态发 生变化,从而使网络最终达到一个稳定 平衡态,这就像人脑寻找记忆的过程, 这一过程相对较快,各神经元的状态也 称之为短期记忆。
2024/11/24
2024/11/24
神经网络与模式识别研究室
13
• NN的问世标志着认知科学、计算机科学 及人工智能的发展又处于一个新的转折 点,它的应用和发展,不但会推动神经 动力学本身,而且将影响新一代计算机 的设计原理,可能为新一代计算机和人 工智能开辟一条崭新的途径,并为信息 科学带来革命性的变化。

《基于深度强化学习的多智能体协同研究》范文

《基于深度强化学习的多智能体协同研究》范文

《基于深度强化学习的多智能体协同研究》篇一一、引言随着人工智能技术的不断发展,多智能体系统(Multi-Agent System,MAS)的协同控制问题成为了研究热点。

多智能体系统由多个能够独立决策、相互协作的智能体组成,它们在复杂的动态环境中共同完成任务。

然而,由于智能体之间的协同问题,使得多智能体系统的研究和应用面临诸多挑战。

近年来,深度强化学习(Deep Reinforcement Learning,DRL)在解决复杂决策问题上取得了显著的成果,为多智能体协同研究提供了新的思路和方法。

本文旨在探讨基于深度强化学习的多智能体协同研究,分析其研究现状、方法及挑战,并提出未来研究方向。

二、多智能体协同研究现状多智能体系统具有广泛的应用领域,如无人驾驶、机器人协作、智能电网等。

传统的多智能体协同控制方法主要依赖于基于规则、模型预测等算法,然而这些方法难以应对复杂多变的动态环境。

近年来,深度学习与强化学习的结合为解决这一问题提供了新的思路。

深度强化学习通过学习智能体的策略来优化其决策过程,使得智能体能够在复杂的动态环境中自主地与其他智能体进行协同合作。

三、基于深度强化学习的多智能体协同方法基于深度强化学习的多智能体协同方法主要包括以下步骤:首先,通过构建多智能体系统模型,定义各智能体的行为空间和动作空间;其次,利用深度神经网络对智能体的策略进行建模;然后,利用强化学习算法优化各智能体的策略,使其能够在协同任务中达到最优的决策效果;最后,通过与其他智能体的信息交互和协作,实现整个系统的协同控制。

四、深度强化学习在多智能体协同中的应用深度强化学习在多智能体协同中具有广泛的应用。

首先,在无人驾驶领域,通过将深度强化学习应用于自动驾驶车辆的决策和协同控制,提高车辆在复杂交通环境中的行驶安全性和效率;其次,在机器人协作领域,利用深度强化学习优化机器人的协作策略,实现多个机器人之间的协同操作和任务完成;此外,在智能电网领域,通过深度强化学习优化电力系统的调度和控制策略,提高电力系统的稳定性和效率。

【国家自然科学基金】_通信时滞_基金支持热词逐年推荐_【万方软件创新助手】_20140729

【国家自然科学基金】_通信时滞_基金支持热词逐年推荐_【万方软件创新助手】_20140729

科研热词 推荐指数 指数稳定 3 鲁棒稳定 2 混沌同步 2 时滞系统 2 时滞 2 变时滞 2 鲁棒镇定 1 鲁棒h∞控制 1 驱动-响应方法 1 随机延时 1 阻尼控制 1 通信网络 1 通信时滞 1 通信优化 1 脉冲稳定性 1 脉冲 1 网络化系统 1 细胞神经网络(cnns) 1 细胞神经网络 1 线性矩阵不等式 1 系统稳定性 1 竞争神经网络 1 相关矩阵 1 盲信号分离 1 白化 1 电力系统 1 状态观测器 1 特征窗 1 漏泄时滞 1 滤波器设计 1 混沌神经网络 1 混沌保密通信 1 流量控制 1 检验算法 1 极点配置技术 1 时滞混沌系统 1 时滞双向联想记忆神经网络 1 时滞偏微分方程系统 1 时滞依赖准则 1 时变时滞 1 数据局部性 1 数据丢失 1 故障检测 1 广域测量系统 1 广域控制 1 局部指数收敛 1 多路复用器 1 多时滞 1 多周期性 1 反馈控制 1 反同步 1 双向联想记忆神经网络 1
2011年 科研热词 推荐指数 时滞 2 非线性参数化系统 1 非抢占 1 通信时滞 1 输出反馈控制 1 载波通信 1 路径跟踪 1 自适应迭代学习控制 1 自适应控制 1 网络化系统 1 网络化控制系统 1 编队飞行 1 编队控制 1 纳什均衡 1 系统测试 1 特性建模 1 滑模控制 1 混沌电路 1 混沌同步 1 混沌 1 有限理性 1 时间延迟 1 时滞系统 1 时滞混沌系统 1 时滞lorenz系统 1 时滞lorenz混沌系统 1 时变时滞 1 时变时延 1 时变参数 1 数据丢失 1 收敛性 1 工业以太网 1 寡头竞争 1 实时 1 多uuv 1 复合能量函数 1 图像保密通信 1 同步电路 1 同步控制 1 反同步控制 1 参数依赖的lyapunov-krasovskii泛函 1 协调控制 1 协同控制 1 保性能控制 1 保密通信 1 低压电力线 1 rbf神经网络 1 profinet 1 pd控制器 1 lyapunov函数 1 l2增益扰动抑制 1 h∞控制 1
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

几类时滞神经网络稳定性及多智能体系统一致性研究
几类时滞神经网络稳定性及多智能体系统一致性研究
摘要:随着智能化技术的快速发展和应用,研究人员们对多智能体系统的研究也越来越多。

时滞神经网络是多智能体系统中一种重要的神经网络模型,其稳定性对于系统的运行和应用至关重要。

本文通过对几类常见的时滞神经网络稳定性和多智能体系统一致性研究进行综述,总结了各类研究方法和在实际应用中的效果,并提出了未来可能的研究方向。

1. 引言
随着人工智能和机器学习的发展,多智能体系统在各领域的应用日益广泛。

多智能体系统由多个智能体组成,每个智能体具有自主性和互联互动性。

时滞神经网络作为多智能体系统的一种重要的数学模型,能够帮助实现智能体之间的协调和一致性,对于系统的稳定性非常关键。

2. 时滞神经网络模型和稳定性
2.1 时滞神经网络模型
时滞神经网络模型是一种特殊的神经网络模型,其模拟了神经元之间的时间延迟。

常见的时滞神经网络模型包括离散时滞神经网络模型和连续时滞神经网络模型。

2.2 时滞神经网络的稳定性
时滞神经网络的稳定性分为局部稳定性和全局稳定性。

局部稳定性是指在某个范围内存在稳定解,而全局稳定性则要求系统在整个状态空间内都能够保持稳定。

3. 几类时滞神经网络稳定性研究
3.1 时滞神经网络的Lyapunov稳定性
Lyapunov稳定性是一种常见的稳定性分析方法,通过构造
Lyapunov函数来判断系统的稳定性。

时滞神经网络的稳定性
可以通过构造合适的Lyapunov函数来进行判断。

3.2 时滞神经网络的矩阵不等式稳定性
矩阵不等式稳定性是一种基于线性矩阵不等式理论的稳定性分析方法。

时滞神经网络的稳定性可以通过求解一系列矩阵不等式来判断。

3.3 时滞神经网络的控制稳定性
控制稳定性是指通过设计合适的控制器来实现系统的稳定。

时滞神经网络的稳定性可以通过设计合适的控制器来实现。

4. 多智能体系统一致性研究
4.1 多智能体系统的一致性问题
多智能体系统的一致性问题是指如何使得系统中的多个智能体在一定的协议和条件下实现一致性行为。

4.2 多智能体系统的一致性算法
多智能体系统的一致性问题可以通过设计合适的协议和算法来实现。

常见的一致性算法包括Leader-following算法、Consensus算法等。

5. 实际应用和展望
时滞神经网络稳定性和多智能体系统一致性研究在各个领域都具有重要的应用价值。

未来,可以进一步研究基于时滞神经网络的智能体协调和协作控制方法,以应对更加复杂的实际问题。

总结:本文综述了几类时滞神经网络稳定性和多智能体系统一致性研究,包括Lyapunov稳定性、矩阵不等式稳定性和
控制稳定性等。

通过对各种研究方法和在实际应用中的效果进行总结,为进一步研究提供了参考和指导。

未来可以进一步关注时滞神经网络在智能体系统中的应用,以推动智能化技术的发展和应用
综合考虑,时滞神经网络的控制稳定性和多智能体系统的一致性研究在现代智能化技术的发展中具有重要的应用价值。

通过设计合适的控制器和算法,可以实现时滞神经网络的稳定和多智能体系统的一致性行为。

这对于智能交通系统、智能制造系统和智能机器人等领域的实际应用具有积极的影响。

未来,我们可以进一步研究基于时滞神经网络的智能体协调和协作控制方法,以解决更加复杂的实际问题,推动智能化技术的发展和应用。

相关文档
最新文档