基于交替迭代算法神经网络评价岩石边坡稳定性
离散非线性零和博弈的事件驱动最优控制方案

离散非线性零和博弈的事件驱动最优控制方案张欣;薄迎春;崔黎黎【摘要】In order to reduce the network communication and controller execution frequency while guarantee a desired control performance, an event-triggered optimal control scheme is proposed for solving the optimal control pair of discrete-time nonlinear zero-sum games in this paper. Firstly, an event-triggered condition with new event-triggered threshold is designed. The expression of the optimal control pair is obtained based on the Bellman optimality principle. Then, a single network value iteration algorithm is proposed to solve the optimal value function in this expression. A neural network is used to construct the critic network. Novel weight update rule of the critic network is derived. Through the iteration between the critic network, the control policy and the disturbance policy, the optimal value function and the optimal control pair can be solved. Further, the Lyapunov theory is used to prove the stability of the event-triggered closed-loop system. Finally, the event-triggered optimal control mechanism is applied to two examples to verify its effectiveness.%在求解离散非线性零和博弈问题时,为了在有效降低网络通讯和控制器执行次数的同时保证良好的控制效果,本文提出了一种基于事件驱动机制的最优控制方案.首先,设计了一个采用新型事件驱动阈值的事件驱动条件,并根据贝尔曼最优性原理获得了最优控制对的表达式.为了求解该表达式中的最优值函数,提出了一种单网络值迭代算法.利用一个神经网络构建评价网.设计了新的评价网权值更新规则.通过在评价网、控制策略及扰动策略之间不断迭代,最终获得零和博弈问题的最优值函数和最优控制对.然后,利用Lyapunov稳定性理论证明了闭环系统的稳定性.最后,将该事件驱动最优控制方案应用到了两个仿真例子中,验证了所提方法的有效性.【期刊名称】《控制理论与应用》【年(卷),期】2018(035)005【总页数】8页(P619-626)【关键词】博弈论;事件驱动;自适应动态规划;最优控制【作者】张欣;薄迎春;崔黎黎【作者单位】中国石油大学(华东)信息与控制工程学院,山东青岛266580;中国石油大学(华东)信息与控制工程学院,山东青岛266580;沈阳师范大学科信软件学院,辽宁沈阳110034【正文语种】中文【中图分类】TP2731 引言(Introduction)近年来,零和博弈问题在博弈论领域和最优控制领域获得了广泛关注[1–3].这是由于零和博弈具有两个决策者,一方面要求控制输入使性能指标取极小,而在干扰影响较大时,又必须考虑干扰信号使性能指标取极大.这样的对抗性设计既能保证系统在取最优性的同时又具有较好的抗干扰能力.然而现有的求解零和博弈问题的方法大都采用时间驱动机制,即控制器是连续更新的,在每一个采样时刻系统状态与控制器之间都要进行数据通讯,控制输入都需要计算并执行.这就大大增加了通讯网络和执行器的负担.与传统的采样方法不同,事件驱动机制采用一种非周期采样模式[4–7].文献[4]证明了这种非周期采样比周期采样在计算方面更加有利.事件驱动机制预先设定了一个事件驱动条件,只有当该条件不被满足时,才对系统状态进行采样,更新系统的控制输入,在两次更新之间采用零阶保持器保证控制器的输出.因此,能够有效地降低网络通讯和控制器执行次数,同时还能保证系统具有良好的控制性能.文献[5]研究了线性系统的事件驱动控制.文献[6]设计了事件驱动光电跟踪系统.Shaoo等人在文献[7]中研究了连续非线性系统的事件驱动状态反馈控制方案.文献[8]将事件驱动控制带入到了最优控制领域.事件驱动控制在求解连续系统的零和博弈问题方面也有了相应的成果,文献[9]将H∞问题转化为零和博弈问题,然后基于事件驱动机制进行求解.据笔者所知,目前还没有文献利用事件驱动机制求解离散非线性系统的零和博弈问题. 离散非线性系统的零和博弈问题需要求解离散Hamilton-Jacobi-Isaacs(HJI)方程来获得Nash平衡点,即最优控制对.但是对于非线性系统来说,HJI方程的解析解很难获得.Werbos在文献[10]中提出了一种有效的求解最优控制问题的方法——自适应动态规划(adaptive dynamic programming,ADP)算法,并且得到了广泛应用[11–13].文献[11]利用ADP算法处理鲁棒近似最优跟踪问题.王鼎等人在文献[12]中综述了连续时间非线性系统的自适应评判鲁棒控制设计的最新研究成果.文献[13]研究了离散非线性系统的事件驱动控制问题.ADP算法自其诞生之日起产生了一系列的同义词,例如:自适应评价设计、启发式动态规划、近似动态规划、神经元动态规划和增强学习等等.2006年在美国科学基金会组织的“2006 NSF Workshop and Outreach Tutorials on Approximate Dynamic Programming”研讨会上,建议将该方法统称为“adaptive/approximatedynamicprogramming(自适应/近似动态规划)”.ADP算法已经在一些文献中被用来处理零和博弈问题,并取得了一定的理论研究成果[14–17].然而这些研究都是基于时间驱动机制进行的.本文将事件驱动机制、ADP算法和神经网络各自优势相结合,提出了一种求解离散非线性零和博弈问题的事件驱动单网络值迭代控制方案.首先设计了一个新型的事件驱动阈值.根据贝尔曼最优性原理获得了最优控制对表达式.然而,由于HJI固有的非线性其解析解难以获得,导致该最优控制对无法直接求解.因此,一种单网络值迭代算法被提出.只利用一个神经网络构建评价网,从而代替了典型ADP算法中的评价——控制双网结构,有效减少了神经网络的训练次数.然后,根据HJI方程和梯度下降法设计了评价网的权值更新规则.接着,利用Lyapunov稳定性理论证明了闭环系统的稳定性.最后,将事件驱动最优控制方案应用到了两个仿真例子中,验证了所提方案既能够有效地降低网络通讯和控制器执行次数,减少神经网络的训练次数,又能够保证具有良好的性能.2 问题描述(Problem descriptions)考虑如下离散非线性系统的零和博弈问题,其状态方程描述为相应的性能指标函数为普通二次型形式其中:xk∈Ω⊆Rn为状态向量;uk∈Rm1为控制输入,控制目标是使得性能指标函数最小,而扰动输入wk∈Rm2则希望使得性能指标函数最大;f(),g()和h()为光滑可微函数;x0为系统初始状态;是对应的效用函数,矩阵Q,R和S是具有适当维数的对称正定矩阵.假设1 系统(1)是可控的,即存在连续控制策略能够渐近镇定系统(1),f(0)=0,xk=0是系统(1)唯一的平衡点[17].假设2 f+gu+hw在紧集Ω⊆Rn上李普希兹连续[17].定义1 容许控制是指控制输入uk在紧集Ω⊆Rm1上连续且u(0)=0,能够控制系统(1)稳定并且保证性能指标函数(2)有界,∀x0∈Ω[17].由容许控制uk和扰动输入wk定义值函数求解由式(1)–(2)描述的离散非线性系统的零和博弈问题的最优控制对,要求最优值函数满足根据Bellman最优性原理,最优值函数V∗(xk)满足离散HJI方程[16]其中最优控制对应该满足为汉密尔顿函数其中协状态.因此,3 事件驱动最优控制方案(Event-triggered optimal control mechanism)3.1 事件驱动条件(Event-triggered condition)在事件驱动机制中,定义是一个单调递增序列,ki代表第i个采样时刻,i=0,1,2,3,….这个采样系统的输出是由系统(1)在ki时刻的状态xki组成的序列.定义事件驱动误差为事件驱动条件为其中eT为事件驱动阈值.只有当∥ek∥>eT时,驱动条件不再满足,系统进行采样.事件驱动误差重置为零,eki=0.反馈控制输入u(xki)=µ(xki)更新,并且通过零阶保持器,该控制输入在k∈[ki,ki+1)时间段内保持不变u(xk)=µ(xki),直到下一个采样时刻.需要注意的是,在本文中假设事件驱动只对控制器uk有影响,而对扰动输入wk没有影响.根据式(9),可得因此,系统状态方程(1)重写为在事件驱动机制中,控制输入只在采样时刻更新,即只在ki时刻生成.因此,状态反馈控制策略(8a)应该表示为假设3 存在正数L,满足[13]当最后一次采样时刻为ki,k∈[ki,ki+1),根据式(9),可得ek+1=xki−xk+1.显然利用其递归性可得为了确保等比数列收敛,要求2L<1,即L<0.5.由于在每一个采样时刻eki =0,则式(16)变为定义事件驱动阈值为其中α∈(0,1]为常数.3.2 单网络ADP值迭代算法及神经网络实现(Single network ADP value iteration algorithm and neural network implementation)对于非线性系统来说,HJI方程(5)的解很难直接求解.为了获得式(8b)和式(13)中最优值函数的值,根据贝尔曼最优性原理,利用ADP值迭代算法来近似求解.首先,给定一个初始值函数V0(xk),一般情况选择V0(xk)=0.u0和w0可以通过下式计算获得:那么迭代的值函数V1(xk)为以此类推,相应的迭代策略uj和wj迭代规则为值函数Vj+1(xk)的迭代规则为其中j表示迭代次数.本文采用的是单神经网络结构,只利用一个评价网来近似值函数.该评价网由以下3层神经网络构成:其中Wc∗∈RNc×1为未知的隐含层到输出层的理想神经网络权值,Vc∗∈RNc×n 为输入层到隐含层的理想神经网络权值,Nc是隐含层节点数,ϕc()为评价网激活函数,εck∈R为评价网近似误差.在评价网训练过程中,输入层到隐含层的权值保持不变.仅训练隐含层到输出层的权值,定义为其估计值,则实际的评价网输出为其中.根据值函数的迭代规则(22)和评价网输出(24)以及HJI方程(5),设计评价网的训练误差为其中:,uj和wj的值由式(21)计算获得.定义最小化目标函数为利用梯度下降法,可得评价网的权值更新规则为其中αc为评价网学习率.假设4 存在常数θ,α,β满足其中:0<θ<∞,0<η1<1,16η2<∞,V0为任意初始值函数[17].若假设4成立,当迭代次数j趋于无穷大时,Vj(xk)将收敛到最优值函数V∗(xk),控制对(uj,wj)收敛到最优控制对(u∗,w∗).评价网权值收敛到Wc,.为了避免神经网络权值在训练过程中陷入到局部极小值,在训练中需要加入持续激励信号.注1 根据假设2,f+gu+hw是李普希兹连续的.并且有限的控制输入不可能使得系统状态在一步之内跳变到无穷大,因此f(xk)+g(xk)uk+h(xk)wk是有限的.考虑到V∗(xk)对于任意有限的系统状态和控制输入都是有限的,因此一定存在0<θ<∞能够保证不等式(28)成立.此外,由于任意的初始值函数V0(xk)是有界的,那么不等式(29)也很容易得到满足.注2 与典型的ADP算法不同,本文采用的是单网络结构,只利用一个评价网来近似值函数,省略掉了用来近似控制策略和扰动策略的两个控制网.由于本文研究的是模型完全已知仿射非线性系统,因而模型网也被省略.系统状态方程具有的仿射结构保证了控制策略和扰动策略可以根据最优性原理直接通过计算获得.如果系统模型未知或者是非仿射结构,可以通过增加模型网来构建仿射结构的系统状态方程.单网络ADP值迭代算法具体执行步骤如下:步骤1 初始化参数Q,R,S,ξ,αc,jmax,神经网络权值;步骤2 令,使得V0(xk)=0;步骤3 根据式(19)计算u0和w0;步骤4 令j=j+1;步骤5 根据式(12)计算xk+1;步骤6 根据式(27)更新权值;步骤7 根据式(24)计算Vj+1(xk);步骤8 根据式(21)计算uj和wj;步骤9 如果或者迭代次数j>jmax,跳转步骤10,否则跳转步骤4;步骤10 近似最优的控制对已获得,算法结束.3.3 事件驱动单网络值迭代算法(Event-triggered single network value iteration algorithm,ETSNVI)根据第3.1节可知,事件驱动阈值为eT,事件驱动条件为∥ek∥6eT.当驱动条件不再满足时,事件驱动误差被重置为零,控制输入µ∗(xki)更新.控制输入和扰动输入的计算公式如式(13)和式(8b)所示,其中的最优值函数V∗(xk)可通过第3.2节中的单网络值迭代算法逼近.因此,最终获得了基于事件驱动的零和博弈问题的近似最优解为其中协状态λki+1x和λk+1中的最优值函数由评价网的输出近似.假设5 存在正常数α,β和L1,K∞类函数α1和α2能够使得下列不等式满足[13]:定理1 对于离散系统(12),如果假设5成立,对于…,满足下列不等式:其中:则系统(12)是渐近稳定的.证由式(33)可知将式(18)和式(35)代入到式(32)中,可得求解式(36),可得将式(37)代入式(36),可得应用式(31),可得因此,当不等式(34)成立时,∆V<0.根据Lyapunov稳定性理论系统(12)渐近稳定. 证毕.本文提出的事件驱动最优控制方案结构图如图1所示,其具体步骤如下:步骤1 初始化参数α,L,ϵ和imax.令i=0,k=0;步骤2 根据式(9)和式(18)计算事件驱动误差ek和阈值eT;步骤3 判断∥ek∥是否大于eT,如果大于执行步骤4,如果小于等于跳转步骤6;步骤4 i=i+1,xki=xk,ek=0;步骤5 根据式(30a)计算µ(xk);步骤6 根据式(30b)计算w(xk);步骤7 根据式(12)计算xk+1;步骤8 如果∥xk+1−xk∥6ϵ,或者i>imax,跳转步骤9,否则跳转步骤2;步骤9 算法结束.注3 将值函数V(xk)定义为系统的李雅普诺夫函数.根据HJI方程(5)和公式(22),值函数V(xk)可以表述为系统状态xk的相关函数.如果系统是一个线性系统,值函数V(xk),其中P为黎卡提方程的解.显然,其满足假设5中的不等式(31).当系统为一个非线性系统的时候,用评价网来逼近V(xk).适当的选择激活函数ϕc()也能够保证不等式(31)成立.注4 本文提出的事件驱动单网络值迭代算法是一种离线的算法,通过在评价网、控制策略和扰动策略之间的不断迭代,最终获得全局最优控制对,该最优控制对可以在线直接应用在每一个事件驱动时刻.而且该算法一般取初始迭代值函数V0(xk)=0,不要求提供一个初始稳定增益.这对非线性系统来说是非常重要的,因为非线性系统的初始稳定增益并不容易获得.图1 事件驱动最优控制方案结构图Fig.1 The structure of the event-triggered optimal control scheme4 仿真验证(Simulation)为验证本文所提的事件驱动最优控制方案的有效性,本小节将该方案应用到了F--16战斗机和一个非线性系统的仿真例子中.例1 F–16战斗机.考虑如下的F–16战斗机的离散数学模型[16]:其中:xk=[αkqkδek]T,αk为攻击角度,qk为俯仰角速度,δek为升降舵偏转角,u为制动器电压,w为作用到攻击角度上的阵风.性能指标函数如式(2)所示,其中:Q∈R3×3,R∈R1×1和S∈R1×1为单位阵.飞行器的初始状态设定为x0=[4 2 5]T.采用一个3--8--1的3层神经网络来构成评价网,评价网的初始权值Vc在[−1,1]之间随机生成.设定为零,从而保证初始迭代值函数V0(xk)=0.激活函数ϕc()选为tansig函数.评价网学习率αc=0.2.计算精度为ξ=10−5.评价网训练了2000次,为了避免神经网络权值陷入局部极小值,在前800迭代步中加入了持续激励.评价网权值的收敛轨迹如图2所示.图2 评价网权值收敛轨迹Fig.2 The convergent trajectories of critic network weights由式(18)可知,事件驱动阈值eT与α和L的值有关.为了选择适当的α和L,作者进行了一系列的试验.当L=0.2时,α取不同的值时,累计采样次数和系统状态曲线如图3所示.图中箭头指向的方向为α增大的方向.从图3中可以看出,随着α的增大,累计采样次数逐渐减少,系统状态x1和x2逐渐接近最优状态轨迹.但是系统状态x3随着α的增大,距离最优状态轨迹越来越远.在综合考虑了累计采样次数和系统性能之后,最终选择α=0.1.同理,当α=0.1时,选取不同的L进行了一系列的仿真,发现随着L的增大,累计采样次数逐渐减少,但是对系统状态的影响不大.最终,本文选取了α=0.1,L=0.1来确定事件驱动阈值.当α=0.1,L=0.1时,系统的状态轨迹如图4所示.从图4可以看出,系统在796步之后能够达到精度ϵ=10−5.事件驱动误差的范数∥ek∥和阈值eT的变化情况如图5所示.图3 α取不同值时累计采样次数和系统状态轨迹Fig.3 The number of cumulative samples and the trajectories of system states with differe ntα图4 系统状态轨迹Fig.4 The trajectories of system states图5 事件驱动误差的范数和事件驱动阈值轨迹Fig.5 The trajectories of the norm of event-triggered error and event-triggered threshold由于事件驱动条件在前300步变化明显,所以在图5中给出了前300步的局部放大图.控制输入和扰动输入的变化轨迹如图6所示.图7给出了典型ADP算法和事件驱动单网络值迭代算法的累计采样次数对比图.图6 控制输入和扰动输入轨迹Fig.6 The trajectories of control input and图7 累计采样次数Fig.7 The cumulative samples如图7所示,本文所提出的事件驱动单网络值迭代算法只需要进行80次采样,而典型的时间驱动的ADP算法则需要进行796次采样.本文所提算法能够减少近90%的通讯次数和计算量.同时,由于只采用了一个神经网络,省略了用来近似控制策略和扰动策略的两个控制网,所以减少了近67%的神经网络权值训练量.例2 离散非线性系统.考虑如下的离散非线性零和博弈问题,其状态方程为其中:性能指标函数如式(2)所示,其中Q,R和S为具有适当维数的单位阵.初始状态设定为x0=[4 2]T.采用一个2--8--1的3层神经网络来构成评价网,评价网的初始权值Vc在[−1,1]之间随机生成.ˆWc设定为零.激活函数ϕc()选为tansig函数.评价网学习率αc=0.1.选取α=0.1,L=0.2来确定事件驱动阈值.系统的状态轨迹如图8所示.从图8可以看出,系统在125步之后能够达到精度ϵ=10−5.图9给出了控制输入和扰动输入的变化轨迹.事件驱动误差的范数∥ek∥和事件驱动阈值eT的变化情况如图10所示.与典型的时间驱动的ADP算法需要进行125次采样相比,本文所提的事件驱动最优控制方法只进行了63次采样,减少了近50%的网络通讯量和控制器计算以及执行次数.图8 系统状态轨迹Fig.8 The trajectories of system states图9 控制输入和扰动输入轨迹Fig.9 The trajectories of control input and图10 事件驱动误差的范数和事件驱动阈值的轨迹Fig.10 The trajectories of the norm of event-triggered error and event-triggered threshold从上述仿真结果中可以看出,本文提出的零和博弈问题的事件驱动最优控制方案,能够很好的镇定系统,并且获得零和博弈问题的近似最优控制对.通过事件驱动机制,能够有效的减少控制输入与系统之间的数据传输次数、控制器计算次数以及执行器变动次数.并且单网络值迭代算法能够有效降低神经网络权值的训练量.5 结论(Conclusions)本文研究了博弈论中常见的零和博弈问题.为了降低数据传输和计算次数,获得最优控制对,提出了一种基于事件驱动的单网络值迭代算法.将事件驱动控制应用到零和博弈问题求解中,设计新型事件驱动阈值.采用单网络值迭代算法,利用一个神经网络构建评价网,根据Bellman最优性原理直接计算控制对,通过在评价网、控制策略和扰动策略之间进行迭代,获得最优值函数.给出了神经网络权训练步骤.接着,利用Lyapunov理论证明了闭环系统的稳定性,并给出了事件驱动最优控制方案的执行步骤.最后,将该方案应用于F–16战斗机和一个非线性系统的零和博弈问题仿真实验中,仿真结果表明所提方法能够获得近似最优控制对,并且成功地降低了网络通信频率,控制输入的执行次数以及神经网络权值的训练次数.参考文献(References):【相关文献】[1]FU Yue,CHAI Tianyou.Online solution of two-player zero-sum games for linear systems with unknown dynamics[J].Control Theory&Applications,2015,32(2):196–201.(富月,柴天佑.具有未知动态的线性系统二人零和博弈问题在线学习方案[J].控制理论与应用,2015,32(2):196–201.)[2]YVES A,PEREZ V.Iterative strategies for solving linearized discrete mean field games systems[J].Netw Heterog Media,2012,7(2):197–217.[3]FU Y,FU J,CHAI T.Robust adaptive dynamic programming of two-player zero-sum games for continuous-time linear systems[J].IEEE Transactions on Neural Networks and Learning Systems,2015,26(12):3314–3319.[4]ASTROM K J,BERNHARDSSON B parison of Riemann and Lebesgue sampling for first order stochastic systems[C]//Pro-ceedings of the 41st IEEE Conference on Decision s Vegas:IEEE,2002,2:2011–2016.[5]HEEMELES W,DONKERS M,TEEL A.Periodic event-triggered control for linear systems[J].IEEE Transactions on Automatic Control,2013,58(4):847–861.[6]LIANG Yuan,QI Guoqing,LI Yinya,et al.Design and application of event-triggered mechanism for a kind of optical-electronic tracking system[J].ControlTheory&Applications,2017,34(10):1328–1338.(梁苑,戚国庆,李银伢,等.一类光电跟踪系统中事件触发机制的设计及应用[J].控制理论与应用,2017,34(10):1328–1338.)[7]SAHOOA,XUH,JAGANNATHANS.Neuralnetwork-basedeventtriggeredstatefeedbackcontrolofnonlinearcontinuous-timesystems[J].IEEE Transactions on Neural Networks and Learning Systems,2016,27(3):497–509.[8]VAMVOUDAKIS K G.Event-triggered optimal adaptive control algorithm for continuous-time nonlinear systems[J].IEEE/CAA Journal of AutomaticaSinica,2014,1(3):282–293.[9]ZHANG Q,ZHAO D,ZHU Y.Event-triggeredH∞control for continuous-time nonlinear system via concurrent learning[J].IEEE Transactions on Systems,Man,and Cybernetics,2017,47(7):1071–1081.[10]WERBOS P J.Approximate dynamic programming for real-time control and neural modeling[M]//Handbook of Intelligent Control:Neural,Fuzzy and Adaptive Approaches.New York:Van Nostrand Reinhold,1992.[11]QU Qiuxia,LUO Yanhong,ZHANG Huaguang.Robust approximate optimal tracking control of time-varying trajectory for nonlinear affine systems[J].ControlTheory&Applications,2016,33(1):77–84.(屈秋霞,罗艳红,张化光.针对时变轨迹的非线性仿射系统的鲁棒近似最优跟踪控制[J].控制理论与应用,2016,33(1):77–84.)[12]WANG D,HE H,LIU D.Adaptive critic nonlinear robust control:a survey[J].IEEE Transactions on Cybernetics,2017,47(10):3429–3451.[13]DONG L,ZHONG X N,SUN C Y,et al.Adaptive event-triggered control based on heuristic dynamic programming for nonlinear discrete-time systems[J].IEEE Transactions on Neural Networks and Learning Systems,2017,28(7):1594–1605.[14]LUO B,WU H N,HUANG T.Off-policy reinforcement learning for H∞controldesign[J].IEEE Transactions on Cybernectics,2015,45(1):65–76.[15]ZHANG X,ZHANG H G,WANG F Y.A new iteration approach to solve a class of Finite-horizon continuous-time nonaffine nonlinear zero-sum game[J].International Journal of Innovative,Computing,Information and Control,2011,7(2):597–608.[16]AL-TAMIMI A,KHALAF M,LEWIS F L.Adaptive critic designs for discrete-time zero-sum games with application toH∞control[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics,2007,37(1):240–247.[17]LIU D,LI H,WANG D.Neural-network-based zero-sum game for discrete-time nonlinear systems via iterative adaptive dynamic programmingalgorithm[J].Neurocomputing,2013,110(8):92–100.[18]JIANG Z P,WANG Y.Input-to-state stability for discretetime nonlinearsystems[J].Automatica,2001,37(6):857–869.。
均热炉温度神经网络迭代学习控制算法

第29卷第2期 2008年4月 河南科技大学学报:自然科学版
Journal of Henan University of Science and Technology:Natural Science Vo1.29 No.2
Apr. 2008
文章编号:1672—6871(2008)02—0017—03 均热炉温度神经网络迭代学习控制算法
张 茜,李书臣,翟春艳,张 囡 (辽宁石油化工大学信息与控制工程学院,辽宁抚顺113001)
摘要:针对具有不确定性的重复非线性均热炉温度控制系统,提出基于神经网络的迭代学习控制算法.该算法 采用神经网络作为迭代学习控制器,以前馈方式作用于被控系统,并引入PID反馈控制器来提高系统的性能。 仿真结果表明,针对过程存在的重复干扰,该算法比单纯反馈控制具有更好的控制效果。 关键词:神经网络;迭代学习控制;反馈控制 中图分类号:TP389.1 文献标识码:A
0 前言 均热炉是将固化成型并冷却后的钢锭,加热至轧机所要求的均匀分布的温度,然后送至轧机开坯, 其加热过程是周期性的,同时要消耗大量的能量。显然,均热炉的燃料消耗主要依赖于钢锭装炉时的热 状态、以及均热炉温度的燃料控制状况。 不少研究者试图寻求均热炉的最佳控制策略,以降低能耗,并使温控效果达到最佳,其中以Yooichi 等提出的逆L型策略和Lu等提出的改进逆L型策略为典型代表…。近几十年来,随着计算机自动控 制技术的应用和普及,在均热炉应用生产中提出采用建立钢锭热过程数学模型 、钢锭优化加热控制、 多目标专家寻优控制以及各种加热制度等控制方案和策略 】,这些都是以降低烧钢过程的燃料消耗为 目的。实际生产过程中均热炉是一个时变、分布参数、非线性的大惯性、大滞后控制对象,很难用数学方 法建立精确的模型结构。某初轧厂烧钢温度控制是根据操作人员的烧钢经验设定煤气供入量,这种经 验控制方法既浪费能源又达不到良好的控制质量 。 迭代学习控制适用于具有重复运动性质的被控系统,它的目标是实现有限区间上的完全跟踪任务, 它通过对被控系统过去发生信息的学习,用以修正当前的控制信号,使得系统的跟踪性能得以提高 , 文献[6]研究了在离散状态下迭代学习控制的稳定性,与迭代学习和神经网络控制成果相比,有关神经 网络迭代学习控制¨ 的文章还很少。因此,针对均热炉的温度控制提出一种基于神经网络的迭代学 习控制算法,此控制器包括反馈和前馈两部分,其中反馈部分采用PID控制器,前馈为一个多层神经网 络迭代学习控制器,通过多次迭代来减小误差,更好的跟踪给定轨迹。
基于L-BFGS算法的BP神经网络在温度补偿中的应用

基于L-BFGS算法的BP神经网络在温度补偿中的应用张根宝;谢晓静;刘晓勇【摘要】In this paper,the electrochemical ammonia transmitter was designed based on microprocessor MK 60DN512VLQ10 and BP neural network was selected to proceed software compensation .For BP network defects of slow convergence speed ,low preci-sion,and easy to produce a local minima ,when the iteration of the BP network algorithm is close tothe optimal ,L-BFGS algorithm was introduced to speed up the convergence .Meanwhile,this paper solved the overflow problem by selecting suitable weight revision method to improve the solver of quasi Hesse inverse matrix ,and achieved the global convergencealgorithm .Experiments show that , the ammonia transmitter solves temperature drift problem ,and has many advantages of short response time ,high measuring preci-sion,and good stability .%为了解决氨气传感器温漂问题,设计了一种基于微处理器MK60DN512VLQ10电化学氨气变送器,采用BP神经网络算法进行软件补偿。
对基于变动量项前馈神经网络盲源分离算法的研究

S IT C N O C- E H I F RMA IN D VE OP N TO E L ME T& E ON MY C O 文章编 号
20 0 7年
第l 7卷
第 9期
:0 5 6 3 (0 7 0 - 13 0 10 - 0 3 2 0 )9 0 6 - 2
标 , 达式 如下 : 表
肌
W(+ )W() t t1= t4 AW()c  ̄ t4t -AW(— ) t 1
() 6
本文采用文 献[ ] 3 中利用 动最项的变化修 正权 值 的方 法 , 定义 动量 项函数 。 a t [- “] () 1 e 1 () 7
耋(幽 一 { . 毫 ・ 毫
2 O
{ 1 I
I
lo 0 2o 0
-
y t= t t () W()()
() 2
1 O
. I
3o 0 4O O
1
50 0
式中 , t为神 经网络 的连接权矢量。在文献[ ] , w() 1中 为将独立的混 合信号分 离, 即输出分量之 间的互信息量最小 , 以系统 输 出的互 信息作 为代价函数, 用最陡下降法求权值 。 使 代价 函数 为:
一】 ・ )
13 6
式 中, 酹表示矩阵 G 的第 i 行第 列元素
维普资讯
宋
蕾, 张立毅 对基于变动量项前馈神经 网络 盲源分离算法的研究
本刊 E m ib @ a . i o e - a : b m is n . t lj lx fn
科技研讨
s()s ("/0)o('t 0 l = i 3r5 cs6 '5 ) t n r t a/ 3()s (o( 0  ̄/00 ) 2t=i cs4 0 ' 0 0) n t 5 s()s (r5 )  ̄ =i '/0 t nr t
基于遗传算法优化BP神经网络圆柱壳结构可靠度分析

基于遗传算法优化BP神经网络圆柱壳结构可靠度分析目录一、内容概括 (1)(一)基于遗传算法的优化方法介绍 (2)(二)BP神经网络介绍与应用场景分析 (2)(三)圆柱壳结构可靠度分析方法探讨 (4)二、圆柱壳结构基础理论知识概述 (5)(一)圆柱壳结构的组成及特点分析 (6)(二)圆柱壳结构的力学特性研究 (7)(三)圆柱壳结构可靠度评价指标介绍 (9)三、BP神经网络在圆柱壳结构可靠度分析中的应用 (9)(一)BP神经网络模型的构建与训练过程 (10)(二)基于BP神经网络的圆柱壳结构可靠度预测模型建立与实施步骤介绍11 (三)BP神经网络模型的优缺点分析及对策建议 (13)四、遗传算法在优化BP神经网络模型中的应用 (14)(一)遗传算法的基本原理及特点介绍 (16)(二)基于遗传算法的BP神经网络模型优化过程与实施步骤解析..16(三)案例分析 (18)一、内容概括介绍了BP神经网络的基本原理及其在当前圆柱壳结构可靠度分析中的局限性。
BP神经网络是一种通过反向传播算法进行权值和阈值调整的多层前馈网络,广泛应用于各种工程领域。
传统的BP神经网络在解决复杂结构优化问题时,往往存在易陷入局部最优解、收敛速度慢等问题。
阐述了遗传算法的基本原理和特性,遗传算法是一种模拟自然选择和遗传机制的优化搜索算法,具有全局优化能力,能够解决复杂的非线性问题。
将遗传算法与BP神经网络相结合,有望提高圆柱壳结构可靠度分析的准确性和效率。
详细描述了基于遗传算法优化BP神经网络的流程和方法。
通过遗传算法优化BP神经网络的权值和阈值,提高网络的性能和准确性。
将优化后的BP神经网络应用于圆柱壳结构可靠度分析,通过大量的数据训练和测试,验证该方法的可行性和有效性。
通过实例分析,展示了基于遗传算法优化BP神经网络在圆柱壳结构可靠度分析中的实际应用效果。
该方法能够显著提高圆柱壳结构可靠度分析的准确性和效率,为工程实践提供了一种新的思路和方法。
基于闭区间上的神经网络迭代计算模型与方法

基于闭区间上的神经网络迭代计算模型与方法
林 道珠 周永 权 李 陶深 , ,
(.广 西大 学 计算机 与 电子信 息学 院 ,பைடு நூலகம்西 南宁 50 0 ; 1 30 4
2 西民族 大学 数 学与 计算 机科 学 学院 ,广 西 南宁 500) .广 306
摘 要 : 代 算法被 广泛应 用 于代 数 方程 求解 中, 传统 的迭代 方 法通 常对 初值 的选取 要 求很 高 , 迭代 过程 中不能给 出 迭 但 在 迭 代误差 ,计算得到 的单一近似 解也 具有 一定 的局 限性 。把 区 间迭代 算法 与神经 网络相 结合 , 出了一种 基 于闭 区间上神 提 经 网络迭代 计算模型 与方法 , 该方 法与传统 的迭代方 法相 比, 具有 收敛速度 快 误 差 小等 特点 . 最后 , 通过数值 算 例表 明, 该 方法是有效 的 可行 的, 能够快速 地获得任 意代数 方程 的根 。 关键词 : 区间算法; 迭代:神 经 网络 ;计 算模 型; 代数 方程 ;. 根
i t a u n o p o i i gi r t r r n i r t r c s . f s v l ea dn r v d n e a ie e o ea i ep o e s Usn e a i emeh d t o u i g sn l p r x mae v l eh ss me r t v i t v i g i r t t o c mp t ig e a p o i t au a o t v o n l t t n . Co i i gi tr a e ai eag r h wi e r l ewo k e a e o k c mp t gm o e dme o a e ni tr a i ai s mi o mb n n e v lt rtv l o i m t n u a t r ,an u l t r o u i d l n i t h n r nw n n a t d sdo e l h b n v i r t eag rtm r p s d Co a i gwi a i o a e a i eme o , i c n e g n e u c l d ir d c de r r . T ee a l t ai l o i e v h i po o e . s mp r t t dt n l tr t t d t o v r e c ik y a u e ro s n hr i i v h q n te h x mp e s o dt ev l i f e r p s dmo e d me o n n ea b t r o so b ta y ag b ac e u to . h we ai t o o o e d l h dy t p h n a t d i f d g t r i a y r t fa i r l e r i q ai n h ni i h r o r r Ke r s it r a l o i m ; i r t e n u a e o k c mp tt nm o e; l e r i q a in r o s ywo d : n e l g rt t a i ; e l t r ; o u a i d l v a h e v r nw o a g b a ce u t ; o t o
基于粒子群优化的深度神经网络分类算法
基于粒子群优化的深度神经网络分类算法董晴;宋威【摘要】针对神经网络分类算法中节点函数不可导,分类精度不够高等问题,提出了一种基于粒子群优化(PSO)算法的深度神经网络分类算法.使用深度学习中的自动编码机,结合PSO算法优化权值,利用自动编码机对输入样本数据进行编解码,为提高网络分类精度,以编码机本身的误差函数和Softmax分类器的代价函数加权求和共同作为PSO算法的评价函数,使编码后的数据更加适应分类器.实验结果证明:与其他传统的神经网络相比,在邮件分类问题上,此分类算法有更高的分类精度.%Aiming at problem that classification precision of neural network algorithm is not very high and node function doesn't have derivate,a new classification algorithm of deep neural network based on particle swarm optimization(PSO) is e autoencoder of deep study,and combined with PSO algorithm to optimize the weight,coder and decoder for input sample data using autoencoder.In order to improve the classification precision of network,take the error function of autoencoder and cost function of softmax classifier weight sum as evaluation function of PSO algorithm in common,making coded data more adapter to the classifier.The experimental results show that compared with other traditional neural network,the classification algorithm has higher classification precision on Email classification.【期刊名称】《传感器与微系统》【年(卷),期】2017(036)009【总页数】5页(P143-146,150)【关键词】深度神经网络;自动编码机;粒子群优化算法;分类【作者】董晴;宋威【作者单位】江南大学物联网工程学院,江苏无锡214122;江南大学物联网工程学院,江苏无锡214122【正文语种】中文【中图分类】TP183近年来,神经网络的研究一直受到学者们的关注,如感知机[1],反向传播(back propogation,BP)神经网络[2],径向基函数(radial basis function,RBF)神经网络及其各种改进算法[3~5]等。
三维信号重建的方法
三维信号重建的方法介绍三维信号重建是一种将二维观测数据转化为三维原始数据的过程。
在许多领域,包括医学成像、地质勘探和计算机视觉等,三维信号重建都是一个重要的研究领域。
本文将介绍三维信号重建的方法,包括传统方法和深度学习方法。
传统方法传统的三维信号重建方法主要基于数学模型和统计学理论。
这些方法通常需要对信号进行传感器测量,并利用测量数据进行重建。
以下是一些常用的传统方法:直接方法直接方法是指直接测量目标信号的物理量,并使用逆问题的求解方法来重建原始信号。
常见的直接方法有:1.迭代重建方法:使用迭代算法,如最小二乘法(Least Square Method)或迭代最小二乘法(Iterative Least Square Method)来逐步逼近原始信号。
2.正则化方法:在迭代过程中引入正则化项,以提高重建的稳定性和精度。
投影方法投影方法是通过测量目标信号的投影数据来重建三维信号。
常见的投影方法有:1.单次投影重建方法:直接使用一次投影数据进行重建,如传统的CT扫描技术。
2.多次投影重建方法:通过多次不同方向的投影数据进行叠加,以获得更精确的重建结果。
反射方法反射方法是通过反射系数和传播模型来重建三维信号。
这些方法通常基于物理反射模型,如声波的反射、光线的反射等。
常见的反射方法有:1.反射系数估计:通过测量目标信号的反射系数,使用反演算法来重建原始信号。
2.波动方程反演:根据波动方程的传播模型,使用正演和反演算法来重建原始信号。
深度学习方法深度学习方法在三维信号重建中取得了显著的成果。
深度学习方法通过训练神经网络来实现信号的重建。
以下是一些常用的深度学习方法:自编码器自编码器是一种无监督学习方法,用于将输入数据压缩到潜在空间并重建输出。
在三维信号重建中,自编码器可以用于将高维的观测数据映射到低维潜在空间,并通过解码器将其重建为三维信号。
卷积神经网络卷积神经网络(Convolutional Neural Network,CNN)在图像处理领域有很好的表现。
基于LM-BP神经网络的高铁建设环境中短期影响综合评价研究
b i a n) 矩阵, 它 里面包 括 了 E对 于 权 重 w 和 阈值
的一 阶 微 分 ; / 1为 自适 应 因 子 , 当 很 小 时 , L M
算 法 接近 高斯一 牛顿 迭代 法 ; 当 很大 时 , 则 接近
梯 度法 。对 于 有 如下 调 整 方 法 : 若 E( n+1 ) ≥ E( ) , 则有 / 1 =1 0 ; 若 E( n+1 ) <E( ) , 则有 =
第 7卷
第 4期
、
石 家庄 铁 道 大学 学 报 ( 社会 科 学 版 )
Vo 1 . 7 N o . 4
De c . 2 0 1 3
2 0 1 3年 1 2月
J OUR NAI OF S HI J I AZ HUANG TI EDA0 UNI VER S I TY( S 0C I AL S C I ENCE )
了单一使 用梯 度算 法 造 成局 部 极 小 、 收 敛 速 度慢 的缺 陷 ; 另一 方 面 降低 了使用 牛 顿一 高 斯 迭 代算 法 时 海 塞 矩 阵 在 运 算 过 程 中 变 成 奇 异 矩 阵 的
概率 。
型, 但传 统 的 B P 网络 在 运算 过 程 中采 用 的单 一 梯 度算 法容 易 出现 局部极 小 、 收敛速 度慢等 缺 陷 ,
B P神 经 网 络 , 即 L M— B P神经 网络 , 一 方 面 克 服
降低 了评 价模 型 的准确性 和有效性 ; 指标权 重主要
依靠 人为打分确 定 , 主观性 强 ; 该 类模 型 对评 价 的 非 线性 拟合 的差 异不 稳定 , 且 可衡量 性 较差 ; 基 于 此类模 型开发 的评价 系统泛化 能力弱 、 没 有学 习能 力, 灵 活性 、 开放性 、 适应性也都较差_ 1 ] 。 人 工神经 网络 能 模 拟人 的大 脑 活动 , 在 非 线 性 逼近 、 大规模 并行 处理 、 自组织 和容错 等方 面具 有 极强 的能 力 , 所 以在 高铁 建 设 环境 干 扰 评 价建 模 过程 中应 用人工 神经 网络会 非常有 效 。在 评价 建模时, B P神 经 网络是应 用最广 泛 的一类 网络模
基于BP神经网络PID整定原理和算法步骤
基于BP神经网络PID整定原理和算法步骤PID(比例、积分、微分)控制是一种常用的控制算法,用于调节系统的输出使其接近期望值。
BP(Back Propagation)神经网络是一种具有强大机器学习能力的神经网络模型。
基于BP神经网络的PID整定方法结合了PID控制算法和神经网络的优点,通过神经网络的学习能力优化PID 参数的选择,提高了控制系统的鲁棒性和适应性。
以下是基于BP神经网络的PID整定原理和算法步骤:一、原理:1.神经网络模型:建立一个具有输入层、隐藏层和输出层的BP神经网络模型,其中输入层接收系统的输入信号,输出层输出控制信号的PID 参数,隐藏层的神经元通过学习调整连接权重以优化参数选择。
2.参数训练:基于反向传播算法,通过输入输出样本对神经网络进行训练,使其学习输入输出之间的映射关系。
训练过程是一个迭代过程,通过不断调整连接权重和偏置,使神经网络的输出结果逼近期望值。
3.PID原理:PID控制算法根据系统当前误差,通过比例、积分和微分项生成控制信号。
调节PID参数可以改变控制信号的响应特性,使其更好地适应控制对象的动态特性。
二、算法步骤:1.数据采集:收集系统的输入输出数据,用于训练神经网络模型。
2.数据预处理:对采集到的数据进行预处理,包括去除噪声、归一化等处理,以提高神经网络的训练效果。
3.网络构建:根据需要构建BP神经网络模型,包括输入层、隐藏层和输出层。
隐藏层的神经元数量和层数可以根据实际情况进行选择。
4.神经网络训练:将预处理后的数据输入到神经网络中,利用反向传播算法对神经网络进行训练。
根据实际需求设置训练的轮数和学习率等参数。
5.训练结果评估:通过评估神经网络的训练结果,包括误差曲线、训练时间等指标,来判断训练是否达到预期效果。
6.PID参数优化:根据神经网络的输出结果调整PID的比例、积分和微分参数。
可以通过试错法或者自适应控制方法对参数进行调整。
7.控制性能评估:利用调整后的PID参数进行控制,通过评估系统的性能指标,例如超调量、调整时间等,来判断PID参数的选择是否合理。