Levenberg_Marquardt神经网络算法研究_董一芬

合集下载

Levenberg-Marquardt算法的建模及在水敏损害预测中应用

（）
础：ｇ）（（一）：１２，
ｍ
计算到某一步产生了更小的ＦＷ），（则在下一步
被除以０，样算法就接近于牛顿法。这就得到了这
一
＝
．
∑ 础＋：１，，＝，，）ｃ＋＝，一（２１，・２ …
于零，使目标函数下降缓慢；牛顿法９可在最优致而｛《值附近产生一个理想的搜索方向。鉴于此，Ｍ算Ｉ法将两者结合，这种结合变成程序参数，｝序本使｝程身随着当前形态的改变而趋于梯度下降法或牛顿法，点是在极小点附近有较快的收敛速度，而很优从
由于神经网络由三部分组成，输入层、隐藏层、
输出层。例如现有一套非线性样本数据得到，输组
收稿日期：０９）４２修改稿）２０４２（）
基金项目：Ｉ省教育厅（湖：ＥＢ类）目项
第４期
宋文广．ｅｅｂｒ— ａｑａｄ算法的建模及在水敏损害预测中应用ＬｖｎｅｇＭｒｕｒｔ
法开始时取值较小，某步不能减少Ｅ），若（值则将乘上一个因子００＞１后再重复这步。若（）
对应隐藏单元的输出
，预测结果单元Ｙ的计 “
算公式如下：
＝
∑
＋＋（＝， …，），１，２
１引言
入、出，输构造其模型见式（）２。

基于Levenberg-Marquardt算法的串联协作机器人精度标定研究

第21卷第3期 2021年3月黑龙江工业学院学报JOURNAL OF HEILONGJIANG UNIVERSITY OF TECHNOLOGYVol.21 No. 3Mar. 2021文章编号:2096 -3874(2021)03-0112 -06基于 Levenberg- Marquardt算法的串联协作机器人精度标定研究李杨1，金小飞2，刘国锋1，吴明明1(1.安徽三联学院机械工程学院，安徽合肥230000;2.哈工大机器人(合肥）国际创新研究院，安徽合肥230000)摘要：目前研究的串联协作机器人精度标定方法标定误差较大，导致定位精度较低。

为解决上述问题，基于Levenberg - M arquardt算法研究了一种新的串联协作机器人精度标定方法，参照空间坐标系转换原理和运动行为参数，将多个机器人的每个关节看作标杆，机器人通过思维规划完成需要执行的运行指令，并将指令拆分，转化为坐标的形式，通过共享模式与其他机器人行为互通，保证串联协作机器人精度标定行为的连贯性，根据Levenberg - M arquardt算法对协作机器人精度标定模型结果进行优化处理，将机器人在完成任务的基础上，需要移动的范围内固定好标定板，实现精度标定。

实验结果表明，基于Levenberg - M arquardt算法的串联协作机器人精度标定方法能够有效减少标定误差，提高定位精度。

关键词：Levenberg - M arquardt算法；串联协作机器人;标定原理;机器人行为中图分类号:TP242 文献标识码:A随着科技的发展，针对机器人的程序化和思维单一的特点，在工作过程中会出现一定的偏差,因此机器人研究人员制定一系列的串联协作机器人精度标定方法来制约机器人的行为[1<。

机器人的行为精度是评估机器人性能的重要指标之一，串联协作机器人在完成一项任务中需要两个或者两个以上的机器人共同完成，因此对于机器人的行为精度要求更加严格，一旦任意一个机器人出现错误操作，就会使任务执行失败。

求解非线性不适定算子方程的一种Landweber迭代法

求解非线性不适定算子方程的一种Landweber迭代法王美吉;潘状元【摘要】针对Landweber迭代方法在非线性不适定问题上进行研究.在非线性算子和右端数据皆为近似的前提条件下,基于Frozen Landweber迭代法,提出双扰动的双循环Landweber迭代格式.在一定的条件下,通过证明迭代格式的单调性和收敛性,得出该迭代格式是有效的.【期刊名称】《哈尔滨商业大学学报（自然科学版）》【年(卷),期】2013(029)005【总页数】4页(P588-591)【关键词】非线性不适定问题;Landweber迭代法;收敛性【作者】王美吉;潘状元【作者单位】哈尔滨理工大学应用科学学院,哈尔滨150080;哈尔滨理工大学应用科学学院,哈尔滨150080【正文语种】中文【中图分类】O2411 引言考虑非线性算子方程其中:F:D(F)⊂X→Y，X，Y为 Hilbert空间.F是Frechet可微.这里考虑算子方程的解不连续依赖于右端数据的情况.由于不稳定性并且在实际问题中只有近似数据yδ满足这里为测量误差δ＞0的界.对于此类非线性问题的解法，一般通过正则化方法来得到其解的近似.由于非线性不适定问题在生活中的广泛应用，已经成为横跨应用数学和计算数学两个学科的真正的研究领域［1］.其理论研究大致有以下几个方面如Tikhonov正则化方法，最大嫡方法，有限维逼近等［2－5］.对于非线性问题人们对Landweber迭代法给予了很大关注，文献［5］证明了Frogen Landweber 迭代法的收敛性并进行了数值试验.由于在实际问题中，算子一般也是经测量而获得的近似值，或是由离散过程而得到的原算子的一个有限维的逼近，因此真正要求解的是式(1)的一个近似方程其中:h表示Fh逼近F的程度，假定满足因此，在考虑Landweber迭代时，也应考虑算子亦有扰动的情况.假定扰动算子Fh仍保持算子F的Frechet可微且F'h在D(F)上一致收敛于F'(当h→0)，本文在前人研究成果基础上提出了非线性算子方程算子与右端皆有扰动的Landweber迭代法.迭代格式为按广义误差准则来确定迭代终止步k*，则迭代序列{xδh k*}收敛到不失一般性，假定其中:βρ(x0)为以x0为中心，ρ＞0的开球.2 单调性分析对于上述迭代格式，本文以m=2为例，理论验证此迭代格式的收敛性.则此迭代带格式可以改写成引理1 ［6］如果式(3)成立，x*是方程(1)在βρ(x0)中的一个解，那么任意解∈βρ(x0)满足，，反之亦然，N(·)表示算子的核空间.证明:由条件(3)可得满足对所有的x∈，此引理得证.引理 2［7－8］假设 x* 为式(1)在βρ(x0)中的一个解，对于扰动数据满足‖yδ－y‖≤δ，k*是按广义误差准则(4)所确定的迭代终止步.若条件(3)、(5)成立，则有当δ=h=0时证明:由引理2知，由式(4)和假设条件有证明方法见文献［5］.3 收敛性分析定理2 如果在Bρ/2(x*)中满足式(3)、(5)，算子方程(1)可解，则xk收敛到式(1)的一个解x*∈Bρ/2(x*).若x+是离x0最近的惟一解，且N(F'(x+))⊂(F'(x))，成立，则xk收敛到x+.证明:令ek:x*－xk由定理1知{‖ek‖}单调下降，下界为某ε≥0，下证{ek}是 Cauchy 列.对j≥k，取l(j≥l≥k)使成立由三角不等式，有下证明(el－ek，el)也收敛到零(当k→∞时)改写由引理 2 推知，当 k，l→∞ 时 xl，1 － xl，xk，1 － xk趋于零.令由此得{ek}为 Cauchy列，所以{xk}也为Cauchy列.设xk→x*，又因为F(xk)→y(k→∞)，从而x*为式(1)的解.若式(1)有惟一的距x0最近的解，则x+满足对任何 k=0，1，2，…若，N(F'(x+))⊂N(F'(xk))，则有证毕.定理3 在定理2的前提条件下，方程(1)可解，取h=0，扰动终止于K*(δ).那么当δ→0时，收敛到式(1)的解.证明参见文献［5］中命题3.当h≠0时，设(δ，h)为由式(4)确定的迭代终止步，令K*=max{k*(δ)，K'*(δ，h)}其中k*(δ)为定理3中的迭代终止步，则有因为)趋于零，易知(el－ek，el)趋于零.同理可证定理4 假设条件(3)(5)成立，方程(1)可解，则当h→0，δ→0 时，xδh k*收敛到(1)的解.证明用归纳法易证，上式第一项当h→0时趋于零，而由定理3，第二项当δ→0时也是趋于零的，从而4 结语针对非线性不适定问题的求解，本文首先从Frozen Landweber迭代法入手，提出非线性算子和右端数据皆有扰动的Landweber迭代法.并且对所提出的迭代格式给出了收敛性证明.从理论分析可以看出，Frozen Landweber迭代法确实是求解非线性不适定算子方程的一种简单而稳定的方法，适合于处理算子与右端数据皆有扰动的实际问题，并且避开了Tikhonov正则化方法正则参数选取困难以及传统的Langweber迭代法收敛太慢的问题.不足之处是没有对此迭代格式进行数值试验，这将是下一步进行的工作.参考文献:［1］DENG Y J，LIU Z H.New fast iteration for determining surface temperature and heat flux of general sideways parabolic equation［J］.Nonlinear Anal.Real World Appl.，2011，12(1):156 －166.［2］ZHENG G H，WEI T.Two regularization methods for solving a Riesz－Feller space－frational backward diffusion problem［J］.Inverse Problems，2010，26:1 －22.［3］JIN Q N.On a regularized Levenberg－Marquardt method for solving nonlinear inverse problems［J］.Numer.Math.，2010.115:229－259.［4］YANGQQ，LIU F W，TURNER I.Numerical methods for fraction partial differential equations with Riesz space fractional derivatives［J］.Appl Math Model.，2010，34:200 －218.［5］XU J，HAN B，LI L.Frozen Landweber Iteration for Nonlinear Ill－Posed problems［J］.Acta Mathematicae Applicatae Sinica，2007，23(2):329 －336.［6］HANKE M.Accelerated Landweber Iterations for the Solution of Ill－Posed Equations［J］.Numer.Math，1991，60(1):341 －373.［7］韩波，刘家琦，后步风.非线性不适定算子方程算子与右端项皆有扰动的Land weber迭代法［J］.计算数学，2002，24(4):479－486.［8］皮丽敏，潘状元.一族求解非线性方程的高阶迭代方法［J］.哈尔滨商业大学学报:自然科学版，2012，28(6):751－753，768.。

基于LMBP神经网络的声纳图像识别

m
3 声纳图像识别系统的特征提取
由于目前预成多波束高频声纳及高分辨率成像声纳的发展，使得用于水下目标自动识别系统的目标特征信息提取技术得以发展。由于声纳图像中含有丰富的纹理信息，因此提取图像中的纹理特征做为识别依据是声纳图像识别的有效手段之一。
-4-

m m
（13）
-3-

S m −1 j =1
n =
m i
∑ω
m i, j
−1 am + bim j
（14）
定义Marquardt信号项为：
s im ,h =
其中： h = ( q − 1) S
M
∂ ek ,q ∂ vh = m ∂ ni ,q ∂ nim ,q
如果
（6）
式中：比例系数 µ 为常数, I 是单位矩阵。从该式可看出，如果 µ = 0 ，则为高斯牛顿法；
µ 取值很大，则L-M算法接近梯度下降法，每迭代成功一步，则 µ 减小一些，这样在
接近误差目标的时候，逐渐与高斯牛顿法相似。实践证明，采用L-M算法可以比原来的梯度下降法速度提高几十甚至上百倍[2]。
（9）
x T = [ x1 x 2 L x n ]
1 1 1 1 1 2 M = [ w1 ,1 w1, 2 L wS 1 , R b1 L bS 1 w1,1 L bS M ]
（10）
雅可比矩阵的每一项可通过BP算法的一种简单改进形式来计算，即：
1 ∂E ( x) ∂ eq eq = ∂xl 2∂xl
⎧− f m (nim (i = k ) ,k ) =⎨ ⎩0 (i ≠ k )
LMBP算法反向传播的初始化计算式为：
m m sq ) = − F m (nq

第六章 Levenberg-Marquardt方法

k
T
f ( xk )
(7)
T
从而:
x
k 1
x A x
A x
k 1

k

T
A x
T
k
k I

1
A xk f (xk ) .
由于 A x A x I 正定(适当调整 ), 从而(7)产生的方向
如果
A x
k T
A x k f ( x k ) hk ,则 k 0 ;否则 k 0 .
S ( x ) f ( x ) A ( x x ) A d f ( x ) k
k k k
k k T k k [ A d f ( x ) ] [ A d f ( x ) ] , k k
k k 其中： d x x 。
2 k
2 k
k k T k k 记 ( x ) [ A d f ( x ) ] [ A d f ( x ) ] , 则可 min ( x ) k k
非线性最小二乘法
• 1.改进的Gauss-Newton法 • 2.Levenberg-Marquardt方法 • 3.信赖域(Biblioteka -M)方法一、非线性最小二乘法
1.一般形式：
min S ( x ) f ( x ) f ( x ) f ( x )
T 2
T 其中： f ( x ) ( f ( x ), f ( x ),..., f ( x )) 1 2 m T x ( x , x ,..., x ) 1 2 n ;

Step 2 : 若 S ( x z ) S ( x ), 则令：并返回 Step 1 。

Levenberg—Marquardt算法在T—S型模糊RBF神经网络训练中的应用

ＸＵＦｎ－ｏ，ＨｅｇＹｕＺＡＮＧＸｉｏＧａｇ（ｐｒｎｆｌｃｉａａｄＩｆｒｔｎＥｇｎｅｉｇＨｎｎａ－ｎＤｅａｔｔｅｔｃｌｎｏｍａｉｎｉｅｒ，ｕａｍｅｏＥｒｎｏｎ
Ｕｎｖｒｉ，ｈｎｓａ４８，ｈｎ）ｉｅｓｙＣａｇｈ０２Ｃｉａｔ１０
ｔｓｅｈｏｇｎｅｐｒｍｅｔｅｔｄｔｒｕｈａｘｅｉｎ．；ｅｅｂｒ — ｒｕｒｔａｇｒｔｍｈｂｉｅｒｉｇａｇｒｔｈＫｅｗｏｄｓＴＳｆｚｙｍｏｅ；ｙｒ：－ｕｚｄｌＲＢＦｌｖｎｅｇｍａｑａｄｌｏｉｈ；ｙｒｄｌａｎｎｌｏｉｍ
的前提下，可以使用神经网络的自学习能力优化ＴＳ — 模糊模型的参数。ＴＳ型模糊ＲＦ — Ｂ神经网络即是ＴＳ — 型模糊神经网络中的一种，因其训练便捷易行、收敛速度快，而且容易避免局部极小点，所以表现出极大的魅力。虽然如此，找到一种简单且实用的ＴＳ型模 — 糊ＲＦ神经网络的训练算法并不容易，文献【６ＢＩ３】 — 在这
Ａｂｔａｔｓｒｃ：
Ｔｏｍｐｏｔｅｆｃｅ￣ｉｒｖｅｈｅｉｎｉ
ｏｔａｎｉｇｈＴＳｆｚｙｆｒｉｎｔｅ－ｕｚｍｏｅｂｓｄｄｌａｅＲＢＦｅｒｌｅｗｏｋｔｅｎｕａｎｔｒ，ｈ
１引言
１８年Ｔｋｇ和Ｓｇｎ５９ａａｉｕｅｏ提出了一种分段线性模糊模型，Ｔｋｇ－ｕｅｏＴＳ模型【Ｉ因为它能即ａａｉＳｇｎ（ — ）１】够使用较少的模糊规则为一个复杂的非线性对象建模，所以得到的数学模型比一般模糊模型更为简洁，因而更加有利于数学分析，所ｑａｄｔａｇｒｔｍｏｈｒｉｉｇｏｅＴ－ｕｚｄｌｂｓｄＲＢＦｎｅｒｌｎｔｒｒｖｎｅｇＭｒｕｒｌｏｉｈｆｒｔｅｔａｎｎｆｔＳｆｚｙｍｏｅａｅｈｕａｅｗｏｋａｅ

1. Levenberg-Marquardt方法

k
A x k k I
正定(适当调整 ), 从而(7)产生的方向
z 是下降方向.
这种方法是由 Levenberg(1944)和 Marqurdt(1963)提出的, 称为 Levenberg-Marqurdt method. 简称 L-M 方法.
1. Gauss Newton法的迭代中，当B AT ( x ) A( x )为奇异或条件数（ B 1 B ）接近于1时，迭代无法继续！
当足够大时，总可以保证 A x A x I 是正定的，从
T

而保证其可逆. 算法的每次迭代都对进行自适应调整. 权值调整类似于高斯-牛顿法，当接近解时，逐渐减小，利用类似于二阶导数的信息，可以快速收敛到最优解. 权重调整又类似于梯度下降法，当远离解时，逐渐增大，可以进行全局搜索.所以 LM 算法同时具备了牛顿法和梯度法的优点，但计算 A x 要占用较多的内存.
所以
d k H k1 S ( x k ) x k 1 x k H k1 S ( x k )
( 5) ( 6)
(6) 式称为Gauss Newton公式，
（5）式称为Gauss Newton方向。
S ( x k ) T 令 gk AT ( x k ) f ( x k ) Ak f ( x k )。 2
Step4 : 令 x k 1 x k t k d k , 其中t k : min f ( x k td k )。
t
Step5 : 若 || Ak f ( x k ) || , 则x * x k 1 , 算法结束; 否则,
T
k : k 1, 转Step2。
Gauss-Newton 法的优缺点: 优点: (1) 对于零残量问题(即 f ( x ) 0 ),有局部二阶收敛速度. (2) 对于小残量问题 ( 即 f ( x) 较小 , 或者接近于线性 ), 有快的局部收敛速度. (3) 对于线性最小二乘问题, 一步达到极小点. 缺点: (1) 对于不是很严重的大残量问题, 有较慢的收敛速度. (2) 对于残量很大的问题或者 f ( x) 的非线性程度很大的问题,不收敛. (3) 如果 A( x ) 不满秩, 方法没有定义. (4) 不一定总体收敛.

神经网络的Levenberg-Marquardt算法研究

神经网络的Levenberg-Marquardt算法研究摘要：本文主要介绍LM(Levenberg-Marquardt)神经网络算法，LM算法是梯度下降法和高斯—牛顿法的结合，这种神经网络算法综合了这两种方法的优点，在一定程度上克服了基本的BP网络收敛速度慢和容易陷入局部最小点等问题。

对LM算法的计算步骤作了简要的阐述。

最后介绍了LM神经网络算法再监督控制上的应用。

关键词：神经网络；LM算法；计算步骤；监督控制0 引言神经网络BP学习算法在理论上具有逼近任意非线性连续映射的能力，在非线性系统的建模及控制领域里有着广泛的应用。

然而BP 算法存在一些不足，主要是收敛速度很慢；往往收敛于局部极小点；数值稳定性差，学习率、动量项系数和初始权值等参数难以调整，非线性神经网络学习算法LM可以有效地克服BP算法所存在的这些缺陷[1]。

LM算法是高斯—牛顿法和最速下降法的结合，具有高斯—牛顿法的局部收敛性和梯度下降法的全局特性。

它通过自适应调整阻尼因子来达到收敛特性，具有更高的迭代收敛速度，在很多非线性优化问题中得到了稳定可靠解。

在LM算法的计算过程中，初值是一个很重要的因素。

若选择的初值X0接近真值时，收敛速度很快且能够得到全局最优解，但如果初值远离真解时，优化结果往往过早的陷入局部最优解从而得到的结果完全背离真解。

要解决该问题，一是通过得到大量的原始信息来对真值有一个较准确的估计，但这在实际问题中往往不太可能达到；另外就是选择一种合理的全局最优化算法与其相结合，消除LM算法对初值的依赖且具有很快的收敛速度[2]。

1 神经网络神经网络具有高度的自学习、自组织和自适应能力，能通过学习和训练获取网络的权值和结构。

多层前向神经网络具有理论上可逼近任意非线性连续映射的能力，因而非常适合于非线性系统的建模及控制，是目前使用较多的一种神经网络模型[3]。

BP网络(Back Propagation Network)称为误差反向传播神经网络，它是一种能朝着满足给定的输入/输出关系方向进行自组织的神经网络，其典型的结构图如图1所示，由三部分组成：输入层、隐含层、输出层，三部分之间通过各层节点之间的连接权依次前向连接。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

３８５《商场现代化》２００９年３月（上旬刊）总第５６８期
＝０．０１，ξ＝１０。在采用Ｌｅｖｅｎｂｅｒｇ－Ｍａｒｑｕａｒｄｔ算法时，为使收敛速度更快，需要增加学习率因子α，取α为０．４。Ｌｅｖｅｎｂｅｒｇ－
（１）Ｍａｒｑｕａｒｄｔ算法的计算复杂度为
为网络权值数目，如果网
样本
定义网络的误差指标函数为：
５．若
则得到解Ｘｏｐｔ，转向７（停止计
算）；否则转向６。
６．Ｆ（Ｘ（ｋ＋１））＜Ｆ（Ｘ（ｋ）），则令
，ｋ＝ｋ＋１，
转向２；否则＝＊ ξ，转向３。７．停止计算在实际操作中，是一个试探性的参数，对于给定的，如
果求得的ｈ（ｋ）能使误差函数Ｅｐ（Ｘ）降低，则被因子ξ除；若误差函数Ｅｐ（Ｘ）增加，则乘以因子ξ。在仿真中，选取初始值
对ｉ＝１，２，…，Ｍ求得
３．解线性方程组求出搜索梯度方向ｈ（ｋ）。
４．直线搜索，
Ｊａｃｏｂｉ矩阵
其中λ 满足ｋ
参考文献：［１］徐嗣鑫戴友元：前向神经网络的一种快速学习算法及其应用．控制与决策，１９９３，８（４）：２８４～２８８［２］王耀南童调生蔡自兴：基于神经元网络的智能ＰＩＤ控制及应用。信息与控制，１９９４，２３（３）：１８５～１８９［３］张星昌：前馈神经网络的新学习算法研究及其应用。控制与决策，１９９７，１２（３），２１３～２１６
（２）
然后就可以按照各种学习算法开始对Ｘ进行训练，得到最优Ｘ，使得
ｏｐｔ
二、Ｌｅｖｅｎｂｅｒｇ－Ｍａｒｑｕａｒｄｔ神经网络算法１．给定初始点Ｘ（０），精度，σ，ｋ＝０。２．对ｉ＝１，２，…，Ｍ求ｆ（Ｘ（ｋ）），得向量
学术研讨
Ｌｅｖｅｎｂｅｒｇ－Ｍａｒｑｕａｒｄｔ神经网络算法研究
董一芬山东经贸职业学院
［摘要］前馈神经网络中的向后传播算法（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ（ＢＰ）Ａｌｇｏｒｉｔｈｍ）算法存在固有的缺陷，Ｌｅｖｅｎｂｅｒｇ－Ｍａｒｑｕａｒｄｔ神经网络算法可以有效地克服这一点ＢＰ算法的缺陷。本文给出了Ｌｅｖｅｎｂｅｒｇ－Ｍａｒｑｕａｒｄｔ算法。
参数难以调整，非线性神经网络学习算法Ｌｅｖｅｎｂｅｒｇ－Ｍａｒｑｕ陷。
一、前馈神经网络
前馈神经网络由输入层、隐层和输出层组成。令ｕ＝［ｕ１，ｕ２，Λ，ｕｍ］Ｔ，ｙ＝［ｙ１，ｙ２，Λ，ｙｎ］Ｔ络的输入、输出向量，令Ｘ＝［ｘ１，ｘ２，Λ，ｘＮ］Ｔ为网络的权及阈值的全体所组成的向量。给定Ｐ组输入输出训练
ｉ
络中权值的数目很大。则计算量和存储量都非常大。因此，当每次迭代效率显著提高时，其整体性能可以大为改善，特别是在精度要求高的时候。
三、结论前馈神经网络中，ＢＰ算法存在收敛速度很慢，收敛于局部极小点等缺陷，而Ｇａｕｓｓ－Ｎｅｗｔｏｎ的改进算法Ｌｅｖｅｎｂｅｒｇ－Ｍａｒｑｕａｒｄｔ算法能有效克服ＢＰ算法的缺陷。
［关键词］前馈神经网络Ｌｅｖｅｎｂｅｒｇ－Ｍａｒｑｕａｒｄｔ算法ＢＰ算法
前馈神经网络ＢＰ学习算法在理论上具有逼近任意非线性连续
映射的能力，在非线性系统的建模及控制领域里有着广泛的应用。
然而ＢＰ算法存在一些不足，主要是收敛速度很慢；往往收敛于
局部极小点；数值稳定性差，学习率、动量项系数和初始权值等