A Neural Network Approach to Adaptive Pattern Analysis the Deformable Feature Map)
神经网络 论文

摘要神经网络是一门发展十分迅速的交叉学科,它是由大量的处理单元组成非线性的大规模自适应动力系统。
神经网络具有分布式存储、并行处理、高容错能力以及良好的自学习、自适应、联想等特点。
目前已经提出了多种训练算法和网络模型,其中应用最广泛的是前馈型神经网络。
前馈型神经网络训练中使用最多的方法是误差反向传播(BP)学习算法。
但随着使用的广泛,人们发现BP网络存在收敛速度缓慢、易陷入局部极小等缺陷。
于是我们就可以分析其产生问题的原因,从收敛速度和局部极小两个方面分别提出改进的BP网络训练方法。
关键字:神经网络,收敛速度,局部极小,BP网络,改进方法AbstractNeural network is a cross discipline which now developing very rapidly, it is the nonlinearity adaptive power system which made up by abundant of the processing units . The neural network has features such as distributed storage, parallel processing, high tolerance and good self-learning, adaptive, associate, etc. Currently various training algorithm and network model have been proposed , which the most widely used type is Feedforward neural network model. Feedforward neural network training type used in most of the method is back-propagation (BP) algorithm. But with the use of BP network, people find that the convergence speed is slow, and easy fall into the local minimum. So we can analyze the causes of problems, from the two aspects respectively we can improve the BP training methods of neural network. Keywords:neural network,convergence speed,local minimum,BP neural network improving methods目录1 神经网络概述 (3)1.1生物神经元模型............................. 错误!未定义书签。
离散非线性零和博弈的事件驱动最优控制方案

离散非线性零和博弈的事件驱动最优控制方案张欣;薄迎春;崔黎黎【摘要】In order to reduce the network communication and controller execution frequency while guarantee a desired control performance, an event-triggered optimal control scheme is proposed for solving the optimal control pair of discrete-time nonlinear zero-sum games in this paper. Firstly, an event-triggered condition with new event-triggered threshold is designed. The expression of the optimal control pair is obtained based on the Bellman optimality principle. Then, a single network value iteration algorithm is proposed to solve the optimal value function in this expression. A neural network is used to construct the critic network. Novel weight update rule of the critic network is derived. Through the iteration between the critic network, the control policy and the disturbance policy, the optimal value function and the optimal control pair can be solved. Further, the Lyapunov theory is used to prove the stability of the event-triggered closed-loop system. Finally, the event-triggered optimal control mechanism is applied to two examples to verify its effectiveness.%在求解离散非线性零和博弈问题时,为了在有效降低网络通讯和控制器执行次数的同时保证良好的控制效果,本文提出了一种基于事件驱动机制的最优控制方案.首先,设计了一个采用新型事件驱动阈值的事件驱动条件,并根据贝尔曼最优性原理获得了最优控制对的表达式.为了求解该表达式中的最优值函数,提出了一种单网络值迭代算法.利用一个神经网络构建评价网.设计了新的评价网权值更新规则.通过在评价网、控制策略及扰动策略之间不断迭代,最终获得零和博弈问题的最优值函数和最优控制对.然后,利用Lyapunov稳定性理论证明了闭环系统的稳定性.最后,将该事件驱动最优控制方案应用到了两个仿真例子中,验证了所提方法的有效性.【期刊名称】《控制理论与应用》【年(卷),期】2018(035)005【总页数】8页(P619-626)【关键词】博弈论;事件驱动;自适应动态规划;最优控制【作者】张欣;薄迎春;崔黎黎【作者单位】中国石油大学(华东)信息与控制工程学院,山东青岛266580;中国石油大学(华东)信息与控制工程学院,山东青岛266580;沈阳师范大学科信软件学院,辽宁沈阳110034【正文语种】中文【中图分类】TP2731 引言(Introduction)近年来,零和博弈问题在博弈论领域和最优控制领域获得了广泛关注[1–3].这是由于零和博弈具有两个决策者,一方面要求控制输入使性能指标取极小,而在干扰影响较大时,又必须考虑干扰信号使性能指标取极大.这样的对抗性设计既能保证系统在取最优性的同时又具有较好的抗干扰能力.然而现有的求解零和博弈问题的方法大都采用时间驱动机制,即控制器是连续更新的,在每一个采样时刻系统状态与控制器之间都要进行数据通讯,控制输入都需要计算并执行.这就大大增加了通讯网络和执行器的负担.与传统的采样方法不同,事件驱动机制采用一种非周期采样模式[4–7].文献[4]证明了这种非周期采样比周期采样在计算方面更加有利.事件驱动机制预先设定了一个事件驱动条件,只有当该条件不被满足时,才对系统状态进行采样,更新系统的控制输入,在两次更新之间采用零阶保持器保证控制器的输出.因此,能够有效地降低网络通讯和控制器执行次数,同时还能保证系统具有良好的控制性能.文献[5]研究了线性系统的事件驱动控制.文献[6]设计了事件驱动光电跟踪系统.Shaoo等人在文献[7]中研究了连续非线性系统的事件驱动状态反馈控制方案.文献[8]将事件驱动控制带入到了最优控制领域.事件驱动控制在求解连续系统的零和博弈问题方面也有了相应的成果,文献[9]将H∞问题转化为零和博弈问题,然后基于事件驱动机制进行求解.据笔者所知,目前还没有文献利用事件驱动机制求解离散非线性系统的零和博弈问题. 离散非线性系统的零和博弈问题需要求解离散Hamilton-Jacobi-Isaacs(HJI)方程来获得Nash平衡点,即最优控制对.但是对于非线性系统来说,HJI方程的解析解很难获得.Werbos在文献[10]中提出了一种有效的求解最优控制问题的方法——自适应动态规划(adaptive dynamic programming,ADP)算法,并且得到了广泛应用[11–13].文献[11]利用ADP算法处理鲁棒近似最优跟踪问题.王鼎等人在文献[12]中综述了连续时间非线性系统的自适应评判鲁棒控制设计的最新研究成果.文献[13]研究了离散非线性系统的事件驱动控制问题.ADP算法自其诞生之日起产生了一系列的同义词,例如:自适应评价设计、启发式动态规划、近似动态规划、神经元动态规划和增强学习等等.2006年在美国科学基金会组织的“2006 NSF Workshop and Outreach Tutorials on Approximate Dynamic Programming”研讨会上,建议将该方法统称为“adaptive/approximatedynamicprogramming(自适应/近似动态规划)”.ADP算法已经在一些文献中被用来处理零和博弈问题,并取得了一定的理论研究成果[14–17].然而这些研究都是基于时间驱动机制进行的.本文将事件驱动机制、ADP算法和神经网络各自优势相结合,提出了一种求解离散非线性零和博弈问题的事件驱动单网络值迭代控制方案.首先设计了一个新型的事件驱动阈值.根据贝尔曼最优性原理获得了最优控制对表达式.然而,由于HJI固有的非线性其解析解难以获得,导致该最优控制对无法直接求解.因此,一种单网络值迭代算法被提出.只利用一个神经网络构建评价网,从而代替了典型ADP算法中的评价——控制双网结构,有效减少了神经网络的训练次数.然后,根据HJI方程和梯度下降法设计了评价网的权值更新规则.接着,利用Lyapunov稳定性理论证明了闭环系统的稳定性.最后,将事件驱动最优控制方案应用到了两个仿真例子中,验证了所提方案既能够有效地降低网络通讯和控制器执行次数,减少神经网络的训练次数,又能够保证具有良好的性能.2 问题描述(Problem descriptions)考虑如下离散非线性系统的零和博弈问题,其状态方程描述为相应的性能指标函数为普通二次型形式其中:xk∈Ω⊆Rn为状态向量;uk∈Rm1为控制输入,控制目标是使得性能指标函数最小,而扰动输入wk∈Rm2则希望使得性能指标函数最大;f(),g()和h()为光滑可微函数;x0为系统初始状态;是对应的效用函数,矩阵Q,R和S是具有适当维数的对称正定矩阵.假设1 系统(1)是可控的,即存在连续控制策略能够渐近镇定系统(1),f(0)=0,xk=0是系统(1)唯一的平衡点[17].假设2 f+gu+hw在紧集Ω⊆Rn上李普希兹连续[17].定义1 容许控制是指控制输入uk在紧集Ω⊆Rm1上连续且u(0)=0,能够控制系统(1)稳定并且保证性能指标函数(2)有界,∀x0∈Ω[17].由容许控制uk和扰动输入wk定义值函数求解由式(1)–(2)描述的离散非线性系统的零和博弈问题的最优控制对,要求最优值函数满足根据Bellman最优性原理,最优值函数V∗(xk)满足离散HJI方程[16]其中最优控制对应该满足为汉密尔顿函数其中协状态.因此,3 事件驱动最优控制方案(Event-triggered optimal control mechanism)3.1 事件驱动条件(Event-triggered condition)在事件驱动机制中,定义是一个单调递增序列,ki代表第i个采样时刻,i=0,1,2,3,….这个采样系统的输出是由系统(1)在ki时刻的状态xki组成的序列.定义事件驱动误差为事件驱动条件为其中eT为事件驱动阈值.只有当∥ek∥>eT时,驱动条件不再满足,系统进行采样.事件驱动误差重置为零,eki=0.反馈控制输入u(xki)=µ(xki)更新,并且通过零阶保持器,该控制输入在k∈[ki,ki+1)时间段内保持不变u(xk)=µ(xki),直到下一个采样时刻.需要注意的是,在本文中假设事件驱动只对控制器uk有影响,而对扰动输入wk没有影响.根据式(9),可得因此,系统状态方程(1)重写为在事件驱动机制中,控制输入只在采样时刻更新,即只在ki时刻生成.因此,状态反馈控制策略(8a)应该表示为假设3 存在正数L,满足[13]当最后一次采样时刻为ki,k∈[ki,ki+1),根据式(9),可得ek+1=xki−xk+1.显然利用其递归性可得为了确保等比数列收敛,要求2L<1,即L<0.5.由于在每一个采样时刻eki =0,则式(16)变为定义事件驱动阈值为其中α∈(0,1]为常数.3.2 单网络ADP值迭代算法及神经网络实现(Single network ADP value iteration algorithm and neural network implementation)对于非线性系统来说,HJI方程(5)的解很难直接求解.为了获得式(8b)和式(13)中最优值函数的值,根据贝尔曼最优性原理,利用ADP值迭代算法来近似求解.首先,给定一个初始值函数V0(xk),一般情况选择V0(xk)=0.u0和w0可以通过下式计算获得:那么迭代的值函数V1(xk)为以此类推,相应的迭代策略uj和wj迭代规则为值函数Vj+1(xk)的迭代规则为其中j表示迭代次数.本文采用的是单神经网络结构,只利用一个评价网来近似值函数.该评价网由以下3层神经网络构成:其中Wc∗∈RNc×1为未知的隐含层到输出层的理想神经网络权值,Vc∗∈RNc×n 为输入层到隐含层的理想神经网络权值,Nc是隐含层节点数,ϕc()为评价网激活函数,εck∈R为评价网近似误差.在评价网训练过程中,输入层到隐含层的权值保持不变.仅训练隐含层到输出层的权值,定义为其估计值,则实际的评价网输出为其中.根据值函数的迭代规则(22)和评价网输出(24)以及HJI方程(5),设计评价网的训练误差为其中:,uj和wj的值由式(21)计算获得.定义最小化目标函数为利用梯度下降法,可得评价网的权值更新规则为其中αc为评价网学习率.假设4 存在常数θ,α,β满足其中:0<θ<∞,0<η1<1,16η2<∞,V0为任意初始值函数[17].若假设4成立,当迭代次数j趋于无穷大时,Vj(xk)将收敛到最优值函数V∗(xk),控制对(uj,wj)收敛到最优控制对(u∗,w∗).评价网权值收敛到Wc,.为了避免神经网络权值在训练过程中陷入到局部极小值,在训练中需要加入持续激励信号.注1 根据假设2,f+gu+hw是李普希兹连续的.并且有限的控制输入不可能使得系统状态在一步之内跳变到无穷大,因此f(xk)+g(xk)uk+h(xk)wk是有限的.考虑到V∗(xk)对于任意有限的系统状态和控制输入都是有限的,因此一定存在0<θ<∞能够保证不等式(28)成立.此外,由于任意的初始值函数V0(xk)是有界的,那么不等式(29)也很容易得到满足.注2 与典型的ADP算法不同,本文采用的是单网络结构,只利用一个评价网来近似值函数,省略掉了用来近似控制策略和扰动策略的两个控制网.由于本文研究的是模型完全已知仿射非线性系统,因而模型网也被省略.系统状态方程具有的仿射结构保证了控制策略和扰动策略可以根据最优性原理直接通过计算获得.如果系统模型未知或者是非仿射结构,可以通过增加模型网来构建仿射结构的系统状态方程.单网络ADP值迭代算法具体执行步骤如下:步骤1 初始化参数Q,R,S,ξ,αc,jmax,神经网络权值;步骤2 令,使得V0(xk)=0;步骤3 根据式(19)计算u0和w0;步骤4 令j=j+1;步骤5 根据式(12)计算xk+1;步骤6 根据式(27)更新权值;步骤7 根据式(24)计算Vj+1(xk);步骤8 根据式(21)计算uj和wj;步骤9 如果或者迭代次数j>jmax,跳转步骤10,否则跳转步骤4;步骤10 近似最优的控制对已获得,算法结束.3.3 事件驱动单网络值迭代算法(Event-triggered single network value iteration algorithm,ETSNVI)根据第3.1节可知,事件驱动阈值为eT,事件驱动条件为∥ek∥6eT.当驱动条件不再满足时,事件驱动误差被重置为零,控制输入µ∗(xki)更新.控制输入和扰动输入的计算公式如式(13)和式(8b)所示,其中的最优值函数V∗(xk)可通过第3.2节中的单网络值迭代算法逼近.因此,最终获得了基于事件驱动的零和博弈问题的近似最优解为其中协状态λki+1x和λk+1中的最优值函数由评价网的输出近似.假设5 存在正常数α,β和L1,K∞类函数α1和α2能够使得下列不等式满足[13]:定理1 对于离散系统(12),如果假设5成立,对于…,满足下列不等式:其中:则系统(12)是渐近稳定的.证由式(33)可知将式(18)和式(35)代入到式(32)中,可得求解式(36),可得将式(37)代入式(36),可得应用式(31),可得因此,当不等式(34)成立时,∆V<0.根据Lyapunov稳定性理论系统(12)渐近稳定. 证毕.本文提出的事件驱动最优控制方案结构图如图1所示,其具体步骤如下:步骤1 初始化参数α,L,ϵ和imax.令i=0,k=0;步骤2 根据式(9)和式(18)计算事件驱动误差ek和阈值eT;步骤3 判断∥ek∥是否大于eT,如果大于执行步骤4,如果小于等于跳转步骤6;步骤4 i=i+1,xki=xk,ek=0;步骤5 根据式(30a)计算µ(xk);步骤6 根据式(30b)计算w(xk);步骤7 根据式(12)计算xk+1;步骤8 如果∥xk+1−xk∥6ϵ,或者i>imax,跳转步骤9,否则跳转步骤2;步骤9 算法结束.注3 将值函数V(xk)定义为系统的李雅普诺夫函数.根据HJI方程(5)和公式(22),值函数V(xk)可以表述为系统状态xk的相关函数.如果系统是一个线性系统,值函数V(xk),其中P为黎卡提方程的解.显然,其满足假设5中的不等式(31).当系统为一个非线性系统的时候,用评价网来逼近V(xk).适当的选择激活函数ϕc()也能够保证不等式(31)成立.注4 本文提出的事件驱动单网络值迭代算法是一种离线的算法,通过在评价网、控制策略和扰动策略之间的不断迭代,最终获得全局最优控制对,该最优控制对可以在线直接应用在每一个事件驱动时刻.而且该算法一般取初始迭代值函数V0(xk)=0,不要求提供一个初始稳定增益.这对非线性系统来说是非常重要的,因为非线性系统的初始稳定增益并不容易获得.图1 事件驱动最优控制方案结构图Fig.1 The structure of the event-triggered optimal control scheme4 仿真验证(Simulation)为验证本文所提的事件驱动最优控制方案的有效性,本小节将该方案应用到了F--16战斗机和一个非线性系统的仿真例子中.例1 F–16战斗机.考虑如下的F–16战斗机的离散数学模型[16]:其中:xk=[αkqkδek]T,αk为攻击角度,qk为俯仰角速度,δek为升降舵偏转角,u为制动器电压,w为作用到攻击角度上的阵风.性能指标函数如式(2)所示,其中:Q∈R3×3,R∈R1×1和S∈R1×1为单位阵.飞行器的初始状态设定为x0=[4 2 5]T.采用一个3--8--1的3层神经网络来构成评价网,评价网的初始权值Vc在[−1,1]之间随机生成.设定为零,从而保证初始迭代值函数V0(xk)=0.激活函数ϕc()选为tansig函数.评价网学习率αc=0.2.计算精度为ξ=10−5.评价网训练了2000次,为了避免神经网络权值陷入局部极小值,在前800迭代步中加入了持续激励.评价网权值的收敛轨迹如图2所示.图2 评价网权值收敛轨迹Fig.2 The convergent trajectories of critic network weights由式(18)可知,事件驱动阈值eT与α和L的值有关.为了选择适当的α和L,作者进行了一系列的试验.当L=0.2时,α取不同的值时,累计采样次数和系统状态曲线如图3所示.图中箭头指向的方向为α增大的方向.从图3中可以看出,随着α的增大,累计采样次数逐渐减少,系统状态x1和x2逐渐接近最优状态轨迹.但是系统状态x3随着α的增大,距离最优状态轨迹越来越远.在综合考虑了累计采样次数和系统性能之后,最终选择α=0.1.同理,当α=0.1时,选取不同的L进行了一系列的仿真,发现随着L的增大,累计采样次数逐渐减少,但是对系统状态的影响不大.最终,本文选取了α=0.1,L=0.1来确定事件驱动阈值.当α=0.1,L=0.1时,系统的状态轨迹如图4所示.从图4可以看出,系统在796步之后能够达到精度ϵ=10−5.事件驱动误差的范数∥ek∥和阈值eT的变化情况如图5所示.图3 α取不同值时累计采样次数和系统状态轨迹Fig.3 The number of cumulative samples and the trajectories of system states with differe ntα图4 系统状态轨迹Fig.4 The trajectories of system states图5 事件驱动误差的范数和事件驱动阈值轨迹Fig.5 The trajectories of the norm of event-triggered error and event-triggered threshold由于事件驱动条件在前300步变化明显,所以在图5中给出了前300步的局部放大图.控制输入和扰动输入的变化轨迹如图6所示.图7给出了典型ADP算法和事件驱动单网络值迭代算法的累计采样次数对比图.图6 控制输入和扰动输入轨迹Fig.6 The trajectories of control input and图7 累计采样次数Fig.7 The cumulative samples如图7所示,本文所提出的事件驱动单网络值迭代算法只需要进行80次采样,而典型的时间驱动的ADP算法则需要进行796次采样.本文所提算法能够减少近90%的通讯次数和计算量.同时,由于只采用了一个神经网络,省略了用来近似控制策略和扰动策略的两个控制网,所以减少了近67%的神经网络权值训练量.例2 离散非线性系统.考虑如下的离散非线性零和博弈问题,其状态方程为其中:性能指标函数如式(2)所示,其中Q,R和S为具有适当维数的单位阵.初始状态设定为x0=[4 2]T.采用一个2--8--1的3层神经网络来构成评价网,评价网的初始权值Vc在[−1,1]之间随机生成.ˆWc设定为零.激活函数ϕc()选为tansig函数.评价网学习率αc=0.1.选取α=0.1,L=0.2来确定事件驱动阈值.系统的状态轨迹如图8所示.从图8可以看出,系统在125步之后能够达到精度ϵ=10−5.图9给出了控制输入和扰动输入的变化轨迹.事件驱动误差的范数∥ek∥和事件驱动阈值eT的变化情况如图10所示.与典型的时间驱动的ADP算法需要进行125次采样相比,本文所提的事件驱动最优控制方法只进行了63次采样,减少了近50%的网络通讯量和控制器计算以及执行次数.图8 系统状态轨迹Fig.8 The trajectories of system states图9 控制输入和扰动输入轨迹Fig.9 The trajectories of control input and图10 事件驱动误差的范数和事件驱动阈值的轨迹Fig.10 The trajectories of the norm of event-triggered error and event-triggered threshold从上述仿真结果中可以看出,本文提出的零和博弈问题的事件驱动最优控制方案,能够很好的镇定系统,并且获得零和博弈问题的近似最优控制对.通过事件驱动机制,能够有效的减少控制输入与系统之间的数据传输次数、控制器计算次数以及执行器变动次数.并且单网络值迭代算法能够有效降低神经网络权值的训练量.5 结论(Conclusions)本文研究了博弈论中常见的零和博弈问题.为了降低数据传输和计算次数,获得最优控制对,提出了一种基于事件驱动的单网络值迭代算法.将事件驱动控制应用到零和博弈问题求解中,设计新型事件驱动阈值.采用单网络值迭代算法,利用一个神经网络构建评价网,根据Bellman最优性原理直接计算控制对,通过在评价网、控制策略和扰动策略之间进行迭代,获得最优值函数.给出了神经网络权训练步骤.接着,利用Lyapunov理论证明了闭环系统的稳定性,并给出了事件驱动最优控制方案的执行步骤.最后,将该方案应用于F–16战斗机和一个非线性系统的零和博弈问题仿真实验中,仿真结果表明所提方法能够获得近似最优控制对,并且成功地降低了网络通信频率,控制输入的执行次数以及神经网络权值的训练次数.参考文献(References):【相关文献】[1]FU Yue,CHAI Tianyou.Online solution of two-player zero-sum games for linear systems with unknown dynamics[J].Control Theory&Applications,2015,32(2):196–201.(富月,柴天佑.具有未知动态的线性系统二人零和博弈问题在线学习方案[J].控制理论与应用,2015,32(2):196–201.)[2]YVES A,PEREZ V.Iterative strategies for solving linearized discrete mean field games systems[J].Netw Heterog Media,2012,7(2):197–217.[3]FU Y,FU J,CHAI T.Robust adaptive dynamic programming of two-player zero-sum games for continuous-time linear systems[J].IEEE Transactions on Neural Networks and Learning Systems,2015,26(12):3314–3319.[4]ASTROM K J,BERNHARDSSON B parison of Riemann and Lebesgue sampling for first order stochastic systems[C]//Pro-ceedings of the 41st IEEE Conference on Decision s Vegas:IEEE,2002,2:2011–2016.[5]HEEMELES W,DONKERS M,TEEL A.Periodic event-triggered control for linear systems[J].IEEE Transactions on Automatic Control,2013,58(4):847–861.[6]LIANG Yuan,QI Guoqing,LI Yinya,et al.Design and application of event-triggered mechanism for a kind of optical-electronic tracking system[J].ControlTheory&Applications,2017,34(10):1328–1338.(梁苑,戚国庆,李银伢,等.一类光电跟踪系统中事件触发机制的设计及应用[J].控制理论与应用,2017,34(10):1328–1338.)[7]SAHOOA,XUH,JAGANNATHANS.Neuralnetwork-basedeventtriggeredstatefeedbackcontrolofnonlinearcontinuous-timesystems[J].IEEE Transactions on Neural Networks and Learning Systems,2016,27(3):497–509.[8]VAMVOUDAKIS K G.Event-triggered optimal adaptive control algorithm for continuous-time nonlinear systems[J].IEEE/CAA Journal of AutomaticaSinica,2014,1(3):282–293.[9]ZHANG Q,ZHAO D,ZHU Y.Event-triggeredH∞control for continuous-time nonlinear system via concurrent learning[J].IEEE Transactions on Systems,Man,and Cybernetics,2017,47(7):1071–1081.[10]WERBOS P J.Approximate dynamic programming for real-time control and neural modeling[M]//Handbook of Intelligent Control:Neural,Fuzzy and Adaptive Approaches.New York:Van Nostrand Reinhold,1992.[11]QU Qiuxia,LUO Yanhong,ZHANG Huaguang.Robust approximate optimal tracking control of time-varying trajectory for nonlinear affine systems[J].ControlTheory&Applications,2016,33(1):77–84.(屈秋霞,罗艳红,张化光.针对时变轨迹的非线性仿射系统的鲁棒近似最优跟踪控制[J].控制理论与应用,2016,33(1):77–84.)[12]WANG D,HE H,LIU D.Adaptive critic nonlinear robust control:a survey[J].IEEE Transactions on Cybernetics,2017,47(10):3429–3451.[13]DONG L,ZHONG X N,SUN C Y,et al.Adaptive event-triggered control based on heuristic dynamic programming for nonlinear discrete-time systems[J].IEEE Transactions on Neural Networks and Learning Systems,2017,28(7):1594–1605.[14]LUO B,WU H N,HUANG T.Off-policy reinforcement learning for H∞controldesign[J].IEEE Transactions on Cybernectics,2015,45(1):65–76.[15]ZHANG X,ZHANG H G,WANG F Y.A new iteration approach to solve a class of Finite-horizon continuous-time nonaffine nonlinear zero-sum game[J].International Journal of Innovative,Computing,Information and Control,2011,7(2):597–608.[16]AL-TAMIMI A,KHALAF M,LEWIS F L.Adaptive critic designs for discrete-time zero-sum games with application toH∞control[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics,2007,37(1):240–247.[17]LIU D,LI H,WANG D.Neural-network-based zero-sum game for discrete-time nonlinear systems via iterative adaptive dynamic programmingalgorithm[J].Neurocomputing,2013,110(8):92–100.[18]JIANG Z P,WANG Y.Input-to-state stability for discretetime nonlinearsystems[J].Automatica,2001,37(6):857–869.。
一类输入受限的不确定非线性系统自适应 Backstepping变结构控制

一类输入受限的不确定非线性系统自适应 Backstepping变结构控制李飞;胡剑波;王坚浩;汪涛【摘要】针对一类输入受限的不确定非线性系统,提出了一种自适应Backstepping变结构控制器设计方法.建立了受未知非线性特征约束的执行器故障模型,可以描述系统存在死区、齿隙、饱和、滞回等输入受限情形以及可能发生的执行器失效、卡死等故障情形.设计径向基函数神经网络补偿未建模动态项,引入一阶低通滤波器避免了Backstepping控制中的计算复杂性问题.自适应近似变结构控制能够有效削弱控制信号抖振.理论分析和仿真实验结果证明,提出的自适应鲁棒控制律能够在输入受限的情况下自适应地调节控制输入,使得闭环系统稳定且满足控制性能要求.%An adaptive Backstepping sliding mode control method is proposed for a class of uncertain nonlinear systems with input constraints.A model for the nonlinear actuator is developed, which includes input constrained situations such as dead zone, backlash, saturation, hysteresis, and unknown faults such as partial loss of effectiveness fault and actuator stuck fault.Radial basis function neural network is employed to approximate the unknown nonlinear functions.The explosion of complexity is avoided in the traditional Backstepping design method by introducing a first order filter.Adaptive approximate variable structure control is effective to reduce the chatting of the control signal.Theoretical analysis and simulation results are presented to demonstrate the effectiveness of this method by adaptively adjusting control input.【期刊名称】《系统工程与电子技术》【年(卷),期】2017(039)008【总页数】11页(P1823-1833)【关键词】未知非线性;未知故障;不确定性;自适应Backstepping控制;径向基函数神经网络【作者】李飞;胡剑波;王坚浩;汪涛【作者单位】空军工程大学理学院, 陕西西安 710051;空军工程大学装备管理与安全工程学院, 陕西西安 710051;空军工程大学装备管理与安全工程学院, 陕西西安710051;空军工程大学装备管理与安全工程学院, 陕西西安 710051【正文语种】中文【中图分类】TP273物理器件的固有特性、机械设计和制造偏差、外部环境干扰以及安全因素的制约,使得死区、齿隙、饱和以及滞回等非线性特征不可避免地存在于机械系统、伺服系统、压电系统等实际控制系统中,使得系统控制信号受到一定的约束限制,影响被控系统的性能,甚至会造成系统出现发散、震荡等不稳定情况。
神经网络模型中灾难性遗忘研究的综述

第47卷第5期2021年5月北京工业大学学报JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGYVol.47No.5May 2021神经网络模型中灾难性遗忘研究的综述韩纪东1,李玉鑑1,2(1.北京工业大学信息学部,北京 100124;2.桂林电子科技大学人工智能学院,广西桂林 541004)摘 要:近年来,神经网络模型在图像分割㊁目标识别㊁自然语言处理等诸多领域都取得了巨大的成功.但是,神经网络模型仍有很多关键性的问题尚未得到解决,其中就包括灾难性遗忘问题.人类在学习新知识后不会对旧知识发生灾难性遗忘,神经网络模型则与之相反.神经网络模型在适应新任务之后,几乎完全忘记之前学习过的任务.为了解决这一问题,很多相应的减缓神经网络模型灾难性遗忘的方法被提出.对这些方法进行了归纳总结,以促进对该问题的进一步研究.主要贡献包括3个方面:对现有的减缓神经网络模型灾难性遗忘的方法进行了详细的介绍,并将不同方法分为4类,即基于样本的方法㊁基于模型参数的方法㊁基于知识蒸馏的方法和其他方法.介绍了不同的评估方案,以评估不同方法对减缓神经网络模型灾难性遗忘的效果.对神经网络模型中的灾难性遗忘问题进行了开放性的讨论,并给出了一些研究建议.关键词:神经网络模型;灾难性遗忘;样例;模型参数;知识蒸馏;增量学习中图分类号:TP 389.1文献标志码:A文章编号:0254-0037(2021)05-0551-14doi :10.11936/bjutxb2020120014收稿日期:2020⁃12⁃21基金项目:国家自然科学基金资助项目(61876010)作者简介:韩纪东(1992 ),男,博士研究生,主要从事深度学习和计算机视觉方面的研究,E⁃mail:hanjd@通信作者:李玉鑑(1968 ),男,教授,博士生导师,主要从事模式识别与图像处理㊁机器学习与数据挖掘㊁人工智能与自然语言处理方面的研究,E⁃mail:liyujian@ Survey of Catastrophic Forgetting Research in Neural Network ModelsHAN Jidong 1,LI Yujian 1,2(1.Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China;2.School of Artificial Intelligence,Guilin University of Electronic Technology,Guilin 541004,Guangxi,China)Abstract :In recent years,neural network models have achieved great success in some fields,such as image segmentation,object detection,natural language processing (NLP),and so on.However,many key problems of neural network models have not been solved,for example,catastrophic forgetting.Human beings have the ability of continuous learning without catastrophic forgetting,but neural network models do not.Neural network models almost completely forget the previously learned tasks when it adapts to the new task.To solve this problem,many methods have been proposed.This paper summarized these methods to promote further research on this issue.The existing methods of mitigatingcatastrophic forgetting of neural network models were introduced in detail,and all methods were divided into four categories,namely exemplar⁃based methods,parameter⁃based methods,distillation⁃based methods and other methods.Different evaluation schemes were introduced to evaluate the effect ofdifferent methods on alleviating catastrophic forgetting of neural network models.An open discussion on the catastrophic forgetting problem in neural network models was carried out,and some research suggestions were given.北 京 工 业 大 学 学 报2021年Key words:neural network models;catastrophic forgetting;exemplar;model parameters;knowledge distillation;incremental learning 近年来,神经网络模型在很多方面已经远远超过人类大脑,如在围棋领域AlphaGo战胜人类顶尖高手[1⁃2],在大规模视觉比赛ImageNet中表现出更强的图像识别能力[3⁃4],在电子游戏中战胜专业顶级游戏玩家[5⁃6].注意,本文中的神经网络泛指所有的神经网络.这不仅使得神经网络模型受到广泛的关注,还极大地促进了神经网络模型的进一步发展,使得神经网络模型在更多领域取得了更加不凡的成就,如图像分割[7⁃10]㊁目标检测[11⁃13]㊁自然语言处理[14⁃17]㊁姿态估计[18⁃21]等.神经网络模型的快速发展,并没有使其克服所有缺陷.神经网络模型依然有很多不足,如灾难性遗忘㊁广受争议的黑箱子操作等,但是瑕不掩瑜,神经网络在很多方面的惊艳表现使它依然备受学者们的青睐.一个显而易见的事实是,人类在学习新知识后不会对旧知识发生灾难性遗忘,而这既是神经网络模型的一个重大缺陷,也是它的一个遗憾.该问题在很久之前就已经引起了学者们的注意.20世纪八九十年代,连接网络时期,Carpenter等[22]已经提到了神经网络模型中的灾难性遗忘问题,并且用了一个形象的比喻来说明,一个出生在波士顿的人搬到洛杉矶,他再回到波士顿时,仍然不会忘记他在波士顿的一切;也即他在洛杉矶学会新知识后,仍然会记得之前在波士顿的旧知识,而不会发生灾难性遗忘;McCloskey等[23]描述了神经网络在序列学习中遇到的灾难性遗忘问题,在文中称该问题为灾难性干扰(catastrophic interference).注意:当时,神经网络常被称为连接网络.当时,有很多学者提出了相关的方案试图解决该问题,如有学者认为灾难性遗忘是由于存储在神经网络内部表征重叠造成的,因此使用稀疏向量㊁输入正交编码等方法来避免神经网络模型中的灾难性遗忘[24⁃25];有学者使用双网络来解决神经网络模型中的灾难性遗忘[26⁃27];也有学者使用伪训练数据预演的方法来减少神经网络模型中的灾难性遗忘[28].现在,神经网络模型的参数量已经达到十几亿[16]㊁几百亿[29],甚至一千多亿[17,30];但是神经网络模型中的灾难性遗忘问题依然广泛存在,如卷积神经网络(convolutional neural networks,CNN)[31⁃32]㊁长短期记忆网络(long short⁃term memory,LSTM)[33]㊁生成对抗网络(generative adversarial network,GAN)[34⁃35]等.这是由于同20世纪相比,神经网络模型的思想变化并不大,变化最大的是训练神经网络模型所使用的硬件设备及所使用的数据量.目前,神经网络模型依然使用反向传播算法进行反复迭代优化,直到损失函数的值收敛,具体的优化策略可能更丰富了,如自适应梯度法(adaptive gradient,AdaGrad)[36]㊁AdaDelta[37]㊁RMSprop[38]㊁自适应矩估计(adaptive moment estimation,Adam)[39]等.为了克服神经网络模型中的灾难性遗忘问题,最近,很多学者提出了他们的解决方案.如Rebuffi等[40]提出iCaRL方法,该方法选择性地存储之前任务的样本;Sarwar等[41]提出基于部分网络共享的方法,该方法使用 克隆-分支”技术;Li等[42]提出LwF方法,该方法主要以知识蒸馏的方式保留之前任务的知识;Zeng等[43]提出使用正交权重修改结合情景模块依赖的方法;von Oswald等[44]提出任务条件超网络,该网络表现出了保留之前任务记忆的能力;Li等[45]结合神经结构优化和参数微调提出一种高效简单的架构.也有学者研究了神经网络中的训练方法㊁激活函数及序列学习任务之间的关系怎样影响神经网络中的灾难性遗忘的问题,如Goodfellow等[46]就发现dropout方法在适应新任务和记住旧任务中表现最好,激活函数的选择受两任务之间关系的影响比较大.目前对神经网络模型中灾难性遗忘的研究主要是增量学习(incremental learning),在很多情况下,也被称为持续学习(continous learning)或终身学习(lifelong learning)等.这里如没有特别说明统一称为增量学习,但是有时为与原论文保持一致也可能使用持续学习或终身学习.还有一些其他神经网络模型方法对灾难性遗忘问题的研究非常有意义且与增量学习有一定的交叉,如多任务学习(multi⁃task learning)㊁迁移学习(transfer learning).多任务学习是同时学习多个任务,利用不同任务的互补,相互促进对方的学习[47];迁移学习主要是将之前学习的知识迁移到新任务上[48],但是这种学习方式不关心学习到新知识后是否发生灾难性遗忘,也即该方法主要的关注点是怎样将之前任务上的知识迁移到新任务上.多任务学习㊁迁移学习和增量学习如图1所示.图1(a)表示多任务学习的一个实例,model a和255 第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述model b分别针对task A㊁task B,涵盖2个模型的蓝色背景代表model a和model b在同时训练2个任务时的某种联系,如共享神经网络的前几层等;图1(b)表示迁移学习,model1表示已经使用任务task A的数据训练好的模型,model2表示针对任务task B的模型且尚未被训练,迁移学习就是将model1的知识迁移到model2;图1(c)表示增量学习,在t时刻, model I学习任务task A,在t+1时刻model I学习任务task B,增量学习要求model I在学习过task B后不能忘记task A .图1 多任务学习㊁迁移学习和增量学习Fig.1 Multi⁃task learning,transfer learning and incremental learning 显然,神经网络模型中的灾难性遗忘问题已经成为阻碍人工智能发展的绊脚石,该问题的解决无疑将是人工智能发展史上的一个重要里程碑.为促进该问题的早日解决,本文对神经网络模型中灾难性遗忘问题的相关研究做了一个综述.该综述的主要目的是为了总结之前在这方面的研究和对该问题提出一些研究建议.1摇相关工作之前的连接网络模型中,French[49]对连接网络的灾难性遗忘的问题做了一个综述.该文献不仅详细地分析了造成连接神经网络灾难性遗忘的原因,而且介绍了多种解决连接神经网络灾难性遗忘问题的方案.该作者最后指出解决神经网络的灾难性遗忘问题需要2个单独的相互作用的单元,一个用于处理新信息,另一个用于存储先前学习的信息.但是该文献作者分析的是早期的神经网络模型,随着神经网络技术的快速发展,现在的神经网络模型与连接神经网络模型在神经网络的结构㊁深度以及优化策略,甚至是训练神经网络模型的数据量等方面都有很大不同.最近,为了总结对神经网络模型中灾难性遗忘的研究,也有部分学者做了一些综述性研究.de Lange等[50]对持续学习中的图像分类任务做了一个对比性研究,首先对持续学习的方法进行了综合的介绍,如介绍很多持续学习的方法,将各种持续学习的方法进行了总结并归为基于回放的方法㊁基于正则化的方法和基于参数隔离的方法;其次,为了公正地对比不同持续学习方法的效果,还提出了一种对比性研究持续学习性能的框架.Lesort等[51]综合性地研究了机器人中的增量学习.Parisi等[52]对基于神经网络的持续性终身学习做了一个综述,首先对生物的终身学习做了详细的介绍,如人类怎样解决弹性-稳定性困境㊁赫布弹性稳定性㊁大脑互补的学习系统,这是该综述与其他类似综述最大的不同;然后,分析了神经网络模型中的终身学习方法,并将其分为:正则化方法㊁动态架构方法和互补学习系统及记忆回放.Belouadah等[53]对视觉任务的类增量学习做了一个综合性研究,提出了增量学习的6个通用属性,即复杂度㊁内存㊁准确率㊁及时性㊁弹性和伸缩性,并将增量学习的方法分为基于微调的方法和基于固定表征的增量学习方法.Masana等[54]提出了类增量学习所面临的挑战,即权重偏移㊁激活值偏移㊁任务间混淆和新旧任务失衡,并将类增量学习分为3类,基于正则化的方法㊁基于预演的方法和基于偏置-校正的方法.文献[50⁃54]虽然都对神经网络中的克服灾难性遗忘的方法做了综述性研究,但是它们均有一定的局限性,如文献[50]仅介绍了持续学习中关于图像分类的方法,且用来对比不同持续学习方法性能的框架也是针对图像分类任务的,文献[51]仅研究了针对机器人的增量学习.另外,文献[50⁃54]都没有涉及生成对抗模型或强化学习克服灾难性遗忘方法的介绍.355北 京 工 业 大 学 学 报2021年2 减缓灾难性遗忘问题的方法针对神经网络模型中的灾难性遗忘问题,相关学者提出了很多解决方法.尽管相关文献大都声称提出的方法可以克服灾难性遗忘的问题,但实际上仅是不同程度地减缓神经网络模型中的灾难性遗忘问题,为了表述的严谨,本章的标题为减缓灾难性遗忘问题的方法.由第1节的内容可以看出,不同的综述文献依据不同的规则,对减缓灾难性遗忘问题方法的分类并不相同,本节将减缓灾难性遗忘问题的方法分为4类,即基于样本的方法㊁基于模型参数的方法㊁基于知识蒸馏的方法和其他方法.为方便下文的叙述,这里对下文中的符号进行统一,符号及其含义具体如表1所示.表1 符号及其含义Table1 Symbols and definition符号含义Task pre已经被神经网络模型学习过的任务的集合,等价于{T1pre,T2pre, ,T n pre} Tdata pre Task pre相对应的各任务样本的集合,等价于{T d1pre,T d2pre, ,T d n pre} Tdata select由Tdata pre中抽取的部分样本的集合,等价于{T d1select,T d2select, ,T d n select} Task new将要被神经网络模型学习的新任务的集合,等价于{T1new,T2new, ,T p new} Tdata new Task new相对应的各新任务样本的集合,等价于{T d1new,T d2new, ,T d p new} Class pre已经被神经网络模型学习过的类的集合,等价于{C1pre,C2pre, ,C n pre} Cdata pre Class pre相对应的各类的样本的集合,等价于{C d1pre,C d2pre, ,C d n pre} Cdata select由Cdata pre中抽取的部分样本,等价于{C d1select,C d2select, ,C d n select} Class new将要被神经网络模型学习的新类的集合,等价于{C1new,C2new, ,C p new} Cdata new Class new相对应的各新类的样本的集合,等价于{C d1new,C d2new, ,C d p new}Θs神经网络模型的共享参数ΘTi神经网络模型针对任务T i的特定参数Θ神经网络模型的全部参数Model pre添加新任务或新类之前的神经网络模型Model target添加新任务或新类之后的神经网络模型 考虑到很多被提出的减缓灾难性遗忘的方法将共享参数Θs模块与特定任务参数ΘTi模块分开,这里有必要进行提前说明.以卷积神经网络的图像分类任务为例,如图2所示,淡红色方框的参数共享模块是指卷积神经网络中的前几层,这几层被认为提取图像的通用特征;浅绿色方框的特定任务模块是网络的分支,每个网络分支分别对应一个固定的任务T i pre,且仅用于任务T i pre的图像分类;浅蓝色方框的特定任务模块是为新任务添加的新网络分支,该模块用于新任务的图像分类.这样划分是由于文献[55]已经指出卷积神经网络的前面几层学习的是不同任务所共享的通用知识,而之后的几层学习每个任务所专有的知识.注意,由于增加新任务与增加新类非常相似,在下文中不做特别区分,均使用增加新任务表示;图2 参数共享模块和特定任务模块Fig.2 Parameter sharing module and task⁃specificmodule有些时候为与原论文表述一致,也会使用增加新类表示.455 第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述2.1 基于样本的方法本文将直接或间接地用到Tdata pre样本集中数据的方法称为基于样本的方法.直接使用即为使用额外的内存存储Tdata pre样本集中的部分数据Tdata select,在学习新任务时,将Tdata select与Tdata new混合,最后使用混合后的数据训练Model target.间接使用主要指生成伪数据或保存Tdata pre的特征,然后使用它们与Tdata new或Tdata new的特征混合训练Model target.在文献[50,52]中也将该方法称为回放.注意:有些方法中虽然用到了Tdata pre中的部分样本数据,考虑到论文作者在克服灾难性遗忘中的主要思想是使用其他方法,因此这部分方法并没有被认为是基于样本的方法.2.1.1 直接使用样本的方法Guo等[56]为解决增量学习中的灾难性遗忘问题,提出了支持样本表征的增量学习(exemplar⁃supported representation for incremental learning, ESRIL)方法.ESRIL包括3个部分:1)记忆感知突触(memory aware synapses,MAS)模块,该模块使用ImageNet数据集预训练的深度卷积神经网络(deep convolutional neural network,DCNN),是为了维持用之前任务Task pre数据集训练的特征;2)基于样例的字空间聚类(exemplar⁃based subspace clustering, ESC)模块,该模块是为了提取每个任务中的样本;3)多质心最近类(the nearest class multiple centroids,NCMC)模块,该模块作为一个辅助分类器,当增加的新类数据与ImageNet数据很相似时,使用该分类器替代MAS中全连接层,减少训练时间.ESRIL的关键是每类数据中代表样本的选择, Guo等采用文献[57]中的方法进行样本的选择,通过迭代的方式不断优化fη(z j,Z k new)=min h j∈R(N‖h j‖1+η2z j-∑z j∈Z k new h ij z i)22(1)式中:z j表示样本x j∈Cd k new被DCNN提取的特征; Z k new是X k new样本集的特征集合;η为一个超参数;N 为C d k new样本的数量;h j=[h1j,h2j, ,h Nj]T,为子空间保持的稀疏形式[57].Belouadah等[58]提出了一种基于双内存的增量学习方法,称为IL2M.与普通基于样本的方法不同,该方法使用2个记忆模块:1)第1个记忆模块存储之前任务Task pre的部分样本Tdata select;2)记忆模块存储之前任务Task pre每类样本初次学习时的统计量.存储之前任务Task pre部分样本Tdata select的目的非常简单,是为了与新任务Task new的数据混合,然后作为更新网络的训练数据;存储每类样本初次学习时的统计量,是由于初次训练时,该类样本的数据最全,相应地统计量也最准确;该统计量的作用是为了矫正更新网络时由于数据失衡(新任务Task new 的数据多,而之前任务Task pre的数据少)所造成的偏差.Isele等[59]提出了一种选择性存储所有任务样本的方法,避免强化学习的灾难性遗忘.该方法包括长时存储模块和短时存储模块.长时存储模块称为情景记忆,存储的样本基于样本的等级(使用排序函数对样本排序).短时记忆模块是一个先进先出(first⁃in⁃first⁃out,FIFO)区,该部分不断刷新,以确保网络能接触到所有的输入数据.2.1.2 间接使用样本的方法Hayes等[60]提出了一种别样的基于样本的模型,该模型称为使用记忆索引的回放(replay using memory indexing,REMIND).REMIND模型并不存储之前任务Task pre的原始样本,而是存储样本的特征.REMIND模型将样本的特征经过量化后给予索引号并存储,增加新任务Task new时,将随机抽取r个存储的特征进行回放.Atkinson等[61]提出了RePR(reinforcement⁃Pseudo⁃Rehearsal)模型.RePR模型使用伪数据-预演的方式避免神经网络中的灾难性遗忘.RePR包括短时记忆(short⁃term memory,STM)和长时记忆模块(long⁃term memory,LTM).STM模块使用当前任务Task new的数据Tdata new训练针对当前任务的深度强化网络(deep Q⁃networks,DQNs);LTM模块包括拥有之前所有任务Task pre的知识和能生成之前所有任务伪数据的GAN.结合迁移学习,将DQNs的知识迁移到Model pre中;在知识迁移的过程中,真实的数据使得Model target学习到新知识,GAN生成的伪数据维持Model pre中之前任务的知识. Atkinson等[62]和Shin等[63]均使用中GAN生成相应的伪数据.Atkinson等[62]使用GAN生成伪图像代替随机生成的伪图像,因为随机生成的伪图像明显不同于自然的图像,这将导致网络能学习到很少的之前任务的知识.当训练第T1任务时,GAN 被训练T1的数据集D T1,增加了T2任务后,GAN被训练使用T2的数据集D T2;增加了T3任务后,该方法显然就出现了问题,前一步中,GAN仅使用数据集D T2,意味着GAN生成的伪数据也是T2的伪数555北 京 工 业 大 学 学 报2021年据.为了不增加内存的消耗,作者将GAN也使用伪标签进行训练,这样GAN生成的数据就代表之前所有任务的数据.Shin等[63]提出的模型具有双架构〈G,S〉,G是深度生成器模型用来生成伪样本,S是解算器用来处理每个任务.2.2 基于模型参数的方法基于模型参数的方法根据是否直接使用模型参数进行分类:1)选择性参数共享,该方法直接使用模型的参数;2)参数正则化,该方法约束模型的重要参数进行小幅度变动,以保证对之前已学习知识的记忆.2.2.1 选择性共享参数该方法在预训练神经网络模型Model pre后,增加新任务Task new时选择性地使用神经网络模型的参数.虽然神经网络模型的参数没有发生改变,由于针对不同任务所选择性激活神经网络中参数的不同,导致不同任务使用的神经网络的模型参数不同,进而使同一个神经网络模型的参数适应不同的任务.可以看出,这种方式换一个角度解决神经网络中的灾难性遗忘问题.这种方式的优点:1)不需要使用之前任务Task pre的数据Tdata pre;2)没有对神经网络模型进行较大的改进.这种方式也有一个显著的缺点,虽然不需要使用先前任务的数据进行训练,但是需要针对不同任务存储一个激活参数,即使在相关文献中,作者一再强调存储的激活参数很小,但当任务量非常多时,即使逐渐小幅度定量的增加也是非常可怕的.Mallya等[64]提出了一种共享参数的方法,该方法不改变预训练骨干网络的参数Θ,而仅对每个任务训练掩模m,具体如图3所示.以第k个任务为例进行说明:首先训练得到掩模mask′k;然后通过将掩模mask′k二值化处理得到二值化掩模mask k,如图3中mask k所示(红色实方框为表示1,深灰色实方框表示0);最后将二值化掩模mask k与预训练骨干网络的参数Θbackbone逐元素运算得到适用于任务k 的参数集Θk,如图3中Θbackbone和Θk所示(Θbackbone 中绿色实方框表示具体的参数,Θk中绿色实方框表示激活的参数,深灰色实方框表示未被激活的参数).Singh等[65]提出了校准卷积神经网络的终身学习(calibrating CNNs for lifelong learning,CCLL),该模型是一个与众不同的网络.该网络重复使用训练的参数,不同之处在于该网络在每层卷积神经网络的输出位置添加一个校准模块,通过校准模块使该图3 共享参数的方法[64]Fig.3 Method of sharing parameters[64]网络避免灾难性遗忘问题,同时适应新的任务.该网络在神经网络的每层后面加一个任务适应校准模块CM t i(t表示第t个任务,i表示第i层卷积神经网络),该模块包括由针对网络中的单个参数的空间校准模块和针对网络参数通道的通道校准模块.空间校准模块计算式为M t*i=GCONVα(M t i)⊕M t i(2)式中:M t*i表示第t个任务中第i层神经网络空间校准模块的输出;GCONVα表示组卷积,每个组卷积有α个通道;M t i表示表示第t个任务中第i层神经网络的输出;⊕表示逐元素相乘.空间校准模块的输出M t*i作为通道校准模块的输入,通道校准模块计算式为M t**i=σ(BN(GCONVβ(GAP(M t*i))))⊗M t*i(3)式中:M t**i表示第t个任务中第i层神经网络通道校准模块的输出;BN表示批归一化;GCONVα表示组卷积,每个组卷积有β个通道;GAP表示全局均值池化;⊗表示逐通道相乘.2.2.2 参数正则化使用该方法时,Model pre在添加新任务后,需要对神经网络进行重新训练;但是,由于添加了参数正则项,神经网络在训练的过程中会保证对重要参数进行小幅度的改变,以保证对之前任务Task pre的效果.Kirkpatrick等[66]参考生物对特定任务的突触巩固原理,提出了类似于该原理的人工智能算法,即可塑权重巩固(elastic weight consolidation,EWC).655 第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述小鼠在学习新任务后,一定比例的突触会增强,并且能保持一段时间;相应地,神经网络模型的参数并非全是等价的,有些参数可能是有用的,有些参数可能作用非常低甚至是没有作用.因此,作者提出缓慢改变神经网络模型中的重要参数,以使得模型不忘记之前学习的知识.EWC使用损失函数来实现该目的,即L(θ)=L B(θ)+∑iλ2F i(θi-θ*A,i)2(4)式中:L B(θ)表示针对task B的分类损失函数;λ表示之前学习的task A的重要性;F表示费雪矩阵;i是参数的索引;θ表示模型的参数;θ*A,i表示之前任务A 的参数.Chang等[35]为了使GAN避免灾难性遗忘,提出了记忆保护生成对抗模型(memory protection GAN, MPGAN),并设计了一种参数正则化方法(second derivative preserver,SDP).考虑到已存在的参数正则化方法使用输出函数的一阶导数不能准确地评估参数的重要性,SDP使用输出函数的二阶导数.使用F表示输出函数,θ表示模型的参数,则SDP表示为I SDP(θ)(=∂F∂)θTδθ+12δθ(T∂2F∂θ)2δθ(5)由于汉森矩阵计算较为复杂,在实际操作中使用费雪信息E[(∂F/∂θ)2]近似汉森矩阵.SDP使用I SDP(θ)(=∂F∂)θTδθ+12δθT[(E∂F∂)θ]2δθ(6) El等[67]借用参数正则化的思想,提出了一种方式约束增加新任务后模型参数的改变.作者将卷积神经网络的特征提取模块称为编码器,在编码器后由有2个分支网络,一个分支网络为了图像分类,另一个分支网络称为解码器,使用反卷积进行样本的重建.为了训练该网络,作者在损失函数中添加了一个非监督重建损失,该损失的作用等同于参数正则化.优化网络中的损失函数L=L cls(^y,y)+λL rec(^x,x)(7)式中:L cls(^y,y)是图像分类的交叉熵损失,y为图像的真实标签,^y网络输出的预测标签;λ是超参数; L rec(^x,x)是重建损失,^x为重建样本,x为样本.L rec 表示为L rec(^x,x)=-1ND㊃∑N n=1∑ijk[x ijk log a^x ijk+(1-x ijk)(1-log a^x ijk)]式中:N为样本x的数量;i㊁j㊁k三个索引分别为样本x的3个维度,D是样本x三个维度数的乘积;x ijk 为图像在索引(i,j,k)处的灰度值;^x ijk为重建后图像在索引(i,j,k)处的灰度值.2.3 基于知识蒸馏的方法Hinton等[68]于2015年提出了一种模型压缩的方法,即知识蒸馏.该方法使用软目标辅助硬目标进行训练小模型model small,软目标即将样本x i输入到预训练的大模型model big中得到的输出q i,硬目标即为样本的真实标签y i.之所以这样做,是因为软目标中包含的信息量巨大;而硬目标包含的信息量较低.如果model big中真实类的输出结果远远大于其他类的结果,那就不能很好地使用软目标中的信息了,因此需要平滑softmax的输出结果,即q i=exp(z i/T)∑j exp(z j/T)(9)式中:z i为softmax前一层(该层的神经元个数已被映射为训练任务的类别数)的输出;T为温度,T越大model big输出的结果越软.知识蒸馏的方法被广泛应用于模型压缩[69⁃71]㊁迁移学习[72⁃74]等领域,也被广泛应用于解决神经网络模型的灾难性遗忘问题中[75⁃79].图4为知识蒸馏的示意图,将训练样本data同时输入到model big和model small,通过知识蒸馏的方式将model big的知识迁移到model small .图4 知识蒸馏Fig.4 Knowledge distillationLi等[42]结合知识蒸馏设计了学而不忘模型(learning without forgetting,LwF),该模型在增加新类Class new时,仅需要使用新类Class new的数据训练模型,且能避免对之前学习知识的遗忘.LwF模型使用前几层作为特征提取模块,为所有任务共享;之后几层作为特定任务模块,为不同任务的单独所有. LwF使用的损失函数L=λ0L old(Y0,^Y0)+L new(Y n,^Y n)+R(^θs,^θo,^θn)(10)755。
Matlab中的神经网络预测方法

Matlab中的神经网络预测方法引言神经网络是一种模拟人脑神经元的计算模型,通过构建输入层、隐藏层和输出层之间的连接,可以对复杂的非线性问题进行建模和预测。
在Matlab中,有丰富的神经网络工具箱,提供了多种神经网络预测方法和算法。
本文将介绍一些常用的神经网络预测方法,并说明其在Matlab中的实现原理和应用场景。
一、前馈神经网络(Feedforward Neural Network)前馈神经网络是最常见的神经网络模型,也是最基本的一种。
其模型结构包括输入层、隐藏层和输出层,信号在网络中只能向前传播,不会回流。
前馈神经网络使用反向传播算法进行训练,通过不断调整连接权值和阈值来提高网络的预测能力。
在Matlab中,可以使用feedforwardnet函数创建前馈神经网络模型。
该函数的输入参数包括隐藏层节点数、训练算法和激活函数等。
例如,以下代码创建一个具有10个隐藏层节点的前馈神经网络模型:```matlabnet = feedforwardnet(10);```创建好的神经网络模型可以通过train函数进行训练,如下所示:```matlabnet = train(net, X, Y);```其中X和Y为训练数据的输入和输出。
训练完成后,可以使用sim函数对新的数据进行预测,如下所示:```matlabY_pred = sim(net, X_pred);```Y_pred为预测结果,X_pred为待预测的输入数据。
二、递归神经网络(Recurrent Neural Network)递归神经网络是另一种常见的神经网络模型,不同于前馈神经网络,递归神经网络允许信号在网络中进行循环传播,使得模型可以处理序列数据和时间序列数据。
递归神经网络拥有记忆功能,可以通过上一时刻的输出来影响当前时刻的输出。
在Matlab中,可以使用narnet函数创建递归神经网络模型。
该函数的输入参数包括隐藏层节点数、训练算法和激活函数等。
边缘计算下的联邦学习挑战及进展

文献 场景
表 1 通信资源受限问题研究总结 Tab.1 Summary of research on communication resource limitation
技术特点
测试数据集
参照
提升
[2]
H-FEEL
子信道分配和助手调度问题的非线性 规划理论分析
MNIST
-
-
[3]
H-FEEL
同步客户端 - 边缘聚合 + 异步边缘 云聚合
1.1 资源受限 首先,在联邦学习中,设备之间需要频繁交换模型 参数和梯度信息,由于边缘设备的带宽通常很有限,无 法同时处理大量数据和传输数据,设备之间的通信可能 会出现较高的延迟,从而影响模型的训练效率和准确性。 其次,边缘计算设备的计算能力、存储资源也有限,另 外,边缘计算设备对能耗也有着更高的要求,这些限制 对联邦学习这种分布式机器学习方法提出了挑战。 1.2 异构 数据异构,特别是数据非独立同分布,一直是联邦 学习的一个挑战,而这个问题在边缘计算下由于边缘设 备的异构性而变得更加突出。边缘设备不仅本身的差异 非常大,例如,智能传感器、边缘智能路由、ICT 融合 网关等,这些设备产生的数据更是复杂多样,并且由于 受到设备性能及网络等因素影响,边缘设备可能产生数 据缺失,以及产生的数据往往还具有实时性的特征,也 容易引起数据时效性问题。另外,边缘设备还存在移动 性和不稳定性,边缘网络中链路的带宽资源可能发生变 化,不仅影响链路的实际带宽,甚至还可能出现连接中 断的情况,这些给联邦学习带来了更大的挑战。 1.3 隐私安全 联邦学习在隐私安全方面的研究一直是一个热门话 题,因此,在边缘计算背景下的联邦学习隐私安全问题 也同样受到关注。另外,对边缘服务器本地子网络进行
MINIST;FashionMNIST;CIFAR-10
大脑解决问题的不同方法英语作文

大脑解决问题的不同方法英语作文The Versatility of the Brain in Problem-Solving.The human brain, a complex organ with an astounding capacity for processing information, is remarkable for its adaptability and diversity in problem-solving. Its ability to generate innovative solutions to challenges is what sets it apart from other biological systems. The brain's problem-solving strategies are not limited to a single pathway or method; instead, it employs a range of cognitive processes, often simultaneously, to arrive at solutions.One of the key factors in the brain's problem-solving arsenal is its plasticity, or the ability to reorganize itself in response to new information or challenges. Neural networks within the brain are constantly being reshaped and rewired as we encounter novel situations, allowing for flexible thinking and adaptive behaviour. This plasticity is crucial for creative thinking, as it enables the brain to connect unrelated concepts and generate novel ideas.Another important aspect of the brain's problem-solving capabilities is its ability to work both analytically and intuitively. Analytical thinking involves a step-by-step approach, where the brain breaks down a problem into smaller, manageable parts and solves them individually. This is useful for logical problems that require precision and accuracy. On the other hand, intuitive thinking involves a more spontaneous, non-linear process, where the brain quickly identifies patterns and solutions without conscious effort. This is often seen in artistic orcreative endeavors, where new ideas and insights seem to come from nowhere.The brain's problem-solving abilities are also enhanced by its ability to collaborate with other brain regions. Different areas of the brain specialize in different cognitive functions, and when faced with a complex problem, they work together to share information and process it efficiently. For instance, the prefrontal cortex is responsible for executive functions like planning and decision-making, while the amygdala and hippocampus areinvolved in emotional processing and memory retrieval. By整合 these different cognitive processes, the brain can generate more comprehensive and innovative solutions.Moreover, the brain's problem-solving strategies are not static; they evolve over time as we accumulate experience and knowledge. As we encounter similar problems repeatedly, the brain develops efficient shortcuts or heuristics to speed up the problem-solving process. This is known as cognitive automation, and it allows us to quickly and accurately solve problems that we have encountered before.In conclusion, the brain's diversity in problem-solving is remarkable and fascinating. Its ability to adapt, innovate, and collaborate with different brain regions makes it a powerful tool for navigating the complexities of the world. As we continue to explore the mysteries of the brain, we will undoubtedly uncover more fascinatinginsights into its problem-solving capabilities and the potential they hold for human progress.。
数据缺失下的IFCM-Slope One协同过滤推荐算法

D01:10.13546/ki.tjyjc.2020.09.040Ct理送愛]数据缺失下的IFCM-Slope One协同过滤推荐算法张艳菊",陆畅小(辽宁工程技术大学a.工商管理学院;b.管理科学与工程研究院,辽宁葫芦岛125105)摘要:为了提高数据缺失情况下的推荐准确性,保证服务的质量,给用户提供更加准确与实时的个性化信息,文章将直觉模糊C均值聚类(IFCM)和协同过滤推荐算法相结合,构建了IFCM-Slope One协同过滤推荐算法。
通过引入直觉模糊C均值聚类对用户进行分类,减小邻居用户的搜索范围,降低计算的复杂度,再利用Slope One对用户喜好矩阵缺失数据进行填补,避免由于数据缺失导致推荐偏差,最后基于协同过滤推荐算法计算相似邻居集,并将相似邻居集中的用户喜好隶属度进行从大到小的排序,形成Top-n项目推荐集,生成用户推荐结果。
关键词:直觉模糊C均值聚类(IFCM);协同过滤推荐:Slope One中图分类号:0159文献标识码:A文章编号:1002-6487(2020)09-0185-040引言实时准确的个性化推荐是电子商务行业运营管理水平的体现,是大数据时代发展的重要方面。
但现在互联网信息呈指数增长,全世界现存网站已到达10亿以上,我国网民数量也已经超过7亿,庞大的数据量加大了推荐的难度,如何提高推荐的准确性成为亟待解决的问题'“。
国内学者中,邓爱林等'通过对用户评分项目集中的空缺进行填充,并运用领域最近邻方法进行预测推荐%古凌岚°」针对传统的协同过滤推荐算法的稀疏性问题利用基因表达式预测局部用户一项目的缺失评分。
高灵渲网通过对样本用户利用分类策略进行分类,再对目标用户的具体推荐项目进行预测评分。
李小浩E针对协同过滤推荐算法的缺陷,提出了SCFCM推荐算法,提高推荐精度。
国外学者中Xue等冋通过预估缺失数据进行填充,减小稀疏性问题。
Kim等回利用预测模型,对已有评分预估和实际评分比较得预测偏差,进而进行结果修正。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ESANN'2000 proceedings - European Symposium on Artificial Neural Networks Bruges (Belgium), 26-28 April 2000, D-Facto public., ISBN 2-930307-00-5, pp. 189-194
ESANN'2000 proceedings - European Symposium on Artificial Neural Networks Bruges (Belgium), 26-28 April 2000, D-Facto public., ISBN 2-930307-00-5, pp. 189-194
1. Introduction
F unction appro ximation is a classical problem of neural netw ork computation. V arious algorithms ha e been proposed to solve this problem, e.g. multi-la yerv perceptrons trained by the error-back-propagation algorithm 7] or (generalized) radial-basis-functions netw orks ((G)RBFnet w orks, see e.g. 2], 5], 1]). These algorithms are based on the supervised training of a sample data set by adapting the neural netw ork parameters in order to represen an appropriate t model of the target function. The (G)RBF approach decouples the function approximation problem into tw o di eren computational steps: an initial unt supervised vector quantization (VQ) step is followed by a supervised training of the output weights. In this paper, we refer tothe problem of training a changing target function. F or instance, the target function may represent a dynamical system in a changing environment involving an inevitable temporal shift of parameters. A di erent example are apparent similarities within pattern analysis problems when comparing di erent, but similar objects. In biomedical research data sets, this phenomenon can be observed frequently (see e.g. 9]). One may think of
Given are t w o similar, but not iden data distributions in the n-dimensional tical feature spaces X and Y . Here, the total number of raw data vectors may di er betw een X and Y , i.e. \similarity" refers to probability densities. Let x 2 X ( 2 f1 : : : qg) denote the so-called source distribution, and y 2 Y ( 2 f1 : : : pg) the target distribution. Given this situation, the basic problem in this article can be addressed as follows: How can X and Y be matched onto eac h other in a somewhat optimal manner, including local nonlinear deformations. In other words, how can we de ne a mapping S : X ! Y that satis es the follo wing constraints: (i) optimal correspondence of probability densities f and R f 0 before and after the match, i.e. minimization of X kf 0(S (x)) ; f (x)k dnx, where k k denotes an appropriate norm in IRn , e.g. the Euclidean norm, (ii) R minimization of the total deformation X kS (x) ; xk dnx, and (iii) topology perserv ation,i.e. neighboring points of the source distribution in X should be mapped on neighboring points of the target distribution in Y . There is no unique, optimal solution to this tough optimization problem, as the constraints may be weighted di erently. In the following, we present an algorithm that can at least provide suboptimal solutions. The target distribution in Y can be represented b y a setCY of prototypical \codebook vectors" rj , i.e. CY = frj 2 IRn j j 2 f1 : : : N gg as a result of a suitable V Qprocedure, e.g. Kohonen`s self-organizing map (SOM) algorithm 4] or minimal free energy VQ 6], 1] etc. The basic idea of the DM algorithm is the sligh tadaption of the original codebook vector positions rj 2 CY of the target space Y by re-training the codebook vectors with the data points of the source space X . This procedure
Hale Waihona Puke A Neural Network Approach to Adaptive Pattern Analysis | the Deformable Feature Map )
Axel Wismuller1 , Frank Vietze1 , Dominik R. Dersch2 , Klaus Hahn1 , and Helge Ritter3 1 Institut fur Radiologische Diagnostik, Ludwig-Maximilians-Universitat Munchen, Klinikum Innenstadt, Ziemssenstr. 1, D-80336 Munc hen, German y email: Axel.Wismueller@physik.uni-muenchen.de 2 Integral Energy Corp., Sydney, Australia 3 A G Neuroinformatik, Univ ersit at Bielefeld, Germany
the in terindividual v riabilit y of anatomical features:there are no completely a iden tical biological individuals, but there ma be obvious anatomical \resemy blances" (see e.g. g.3.a,b). These examples imply the need for adaptive plasticit y in order to a oid a v complete re-training of the function approximation netw ork.Within the framew ork of (G)RBF function appro ximation, it is usually the sup ervise dtraining of the output weigh ts whic is kept exible in order to meet the needs of learning h a changing target function, whereas the parameters obtained in the initial VQ procedure are preserved. F or example, this approach is frequently chosen in the so-called mixture-of-experts solution of time-series prediction by competing RBF netw orks (see e.g. 3 This is motivated by the observation that the ]). V Q step is computationally more expensiv than the adaptive training of the e output w eigh ts.However, there may be situations in which repetitiv e supervised training is a critical issue, as an appropriate training data set (i) may be expensive, e.g. require human working pow er, (ii) ma not be available at all. y In this paper, we present an algorithm that provides a reverse, alternative approach to adaptive function approximation: The output weights of a (G)RBF net work are kept constant, whereas the adaptive training is performed on the VQ level. Hereby, the explicit supervised training is restricted to a single data set. F rom a theoretical poin of view, this approach reduces a class of \similar" t function approximation problems to the one-shot training of a single data set, follo wed by an appropriate subsequent similarity transformation.