从-sgd-到-adam--深度学习优化算法概览(一)

合集下载

sgd和adam 用法

sgd和adam 用法SGD（Stochastic Gradient Descent）和Adam（Adaptive Moment Estimation）是两种常用的优化算法，用于训练神经网络模型。

本文将详细介绍这两种算法的原理和使用方法，并对它们的优缺点进行比较。

一、SGD（Stochastic Gradient Descent）SGD是一个基本的优化算法，它通过计算每个训练样本的梯度来更新模型的参数。

具体来说，SGD的更新规则如下：```θ' = θ - η * ∇J(θ;x)```其中，θ表示模型的参数，η表示学习率，∇J(θ;x)表示损失函数对参数的梯度，x表示训练样本。

从更新规则可以看出，SGD每次只用一个样本来更新参数，因此计算速度较快。

然而，由于每次更新都是基于单个样本的梯度，所以参数的更新方向可能并不是最优的，容易陷入局部最优解。

为了解决SGD的问题，人们引入了一种称为“Mini-batch”的方式，即每次更新不再使用单个样本，而是使用一小批样本的平均梯度。

这样，往往能够更准确地估计真实梯度，并且减少了更新的方差。

具体来说，SGD的Mini-batch更新规则如下：```θ' = θ - η * (1/m) * ∑[∇J(θ;x(i))]```其中，m表示每个Mini-batch中的样本数，∇J(θ;x(i))表示第i 个样本的梯度。

通过使用Mini-batch更新规则，SGD可以在一定程度上兼顾计算速度和参数更新的准确性。

在实际使用SGD时，我们需要设置学习率η的大小。

通常来说，较小的学习率可以使模型更加稳定，但也会导致收敛速度较慢；而较大的学习率可能导致模型无法收敛。

因此，在实践中经常使用学习率衰减的方式，即开始时使用较大的学习率，随着训练的进行逐渐减小学习率的值。

二、Adam算法（Adaptive Moment Estimation）Adam算法是一种自适应学习率的优化算法，它结合了Momentum算法和RMSprop算法的优点。

sgd和adam 用法

随机梯度下降（SGD，Stochastic Gradient Descent）和Adam 优化器是两种在深度学习领域广泛使用的优化算法。

它们用于在训练神经网络时更新权重，以最小化损失函数。

以下是SGD 和Adam 的基本用法：1. 首先，需要安装依赖：```bashpip install tensorflow```2. 导入所需库：```pythonimport tensorflow as tf```3. 初始化变量和损失函数：```python# 初始化变量W = tf.Variable(0., name='weights')b = tf.Variable(0., name='bias')# 定义损失函数loss_fn = tf.square(tf.matmul(X, W) + b - y)```4. 初始化SGD 优化器：```python# 初始化SGD 优化器sgd_op = tf.train.GradientDescentOptimizer(learning_rate=0.01)```5. 更新权重：```python# 训练循环for epoch in range(num_epochs):# 生成批数据batch_x, batch_y = ...# 计算梯度gradients = tf.gradients(loss_fn, [W, b])# 更新权重with tf.control_dependencies(gradients):sgd_op.minimize(gradients)# 更新损失值loss_val = loss_fn.eval(feed_dict={X: batch_x, y: batch_y})print('Epoch: %d, Loss: %f' % (epoch + 1, loss_val))```6. 对于Adam 优化器，首先初始化Adam 优化器：```python# 初始化Adam 优化器adam_op = tf.train.AdamOptimizer(learning_rate=0.01, beta1=0.9, beta2=0.999, epsilon=1e-8)```7. 更新权重：```python# 训练循环for epoch in range(num_epochs):# 生成批数据batch_x, batch_y = ...# 计算梯度gradients = tf.gradients(loss_fn, [W, b])# 更新权重with tf.control_dependencies(gradients):adam_op.minimize(gradients)# 更新损失值loss_val = loss_fn.eval(feed_dict={X: batch_x, y: batch_y})print('Epoch: %d, Loss: %f' % (epoch + 1, loss_val))```在上述示例中，我们使用了TensorFlow 库来实现SGD 和Adam 优化器的的基本用法。

深度学习优化算法总结——从SGD到Adam

深度学习优化算法总结——从SGD 到Adam本⽂参考⾃：上⼀篇博客总结了⼀下随机梯度下降、mini-batch 梯度下降和batch 梯度下降之间的区别，这三种都属于在Loss 这个level 的区分，并且实际应⽤中也是mini-batch 梯度下降应⽤的⽐较多。

为了在实际应⽤中弥补这种朴素的梯度下降的⼀些缺陷，有许多另外的变种算法被提出，其中⼀些由于在许多情况下表现优秀⽽得到⼴泛使⽤，包括Momentum 、Nesterov Accelerated Gradient 、Adagrad 和Adam 等。

梯度下降利⽤梯度下降求解的时候遵循这样⼀个模式，对于当前模型的参数 θ，计算在训练样本上的损失 θ，接下来计算损失函数 θ 关于参数 θ 的梯度 ∇θJ (θ)，接下来沿着 ∇θJ (θ) 的反⽅向更新。

再考虑到计算参数更新量的⽅式，可以将其⼀般化为下⾯这⼏个步骤：（1）计算损失函数关于参数 θ 的梯度：g t =∇θJ (θ)（2）根据历史梯度计算⼀阶动量和⼆阶动量：m t =ϕg 1,g 2,⋯,g tV t =ψg 1,g 2,⋯,g t（3）计算参数更新量，其中 η 为学习率，ε防⽌分母为0，通常取1e-8：Δθt=η⋅m tV t +ε（4）进⾏参数更新：θt +1=θt −Δθt 随机梯度下降SGD朴素的SGD 中没有动量的概念，即 m t =g t ，V t =I ，ε=0。

此时参数更新量就是Δθt =η⋅g t ，即θt +1=θt −η⋅g tSGD 在下降过程中会出现震荡(即使通过mini-batch 梯度下降能够缓解)，特别是容易陷⼊局部最优点或者是鞍点。

MomentumMomentum 借鉴了物理中动量的概念，能够有效的加速学习速度。

原因在于Momentum 使⽤了历史梯度的指数加权平均来调整参数更新⽅向，使得震荡⽅向的更新减慢，向最优解⽅向的更新加快，最终更快的收敛。

Momentum 使⽤了⼀阶动量来实现这个⽬的：m t =β1m t −1+(1−β1)g t没有使⽤⼆阶动量V t =I ，ε=0。

深度学习中的优化算法了解常用的优化算法

深度学习中的优化算法了解常用的优化算法深度学习已成为人工智能领域最重要的分支之一。

企业、研究机构和个人都在使用深度学习来解决各种问题。

优化算法是深度学习的重要组成部分，因为深度学习任务通常涉及到大量的训练数据和参数。

本文将介绍常用的深度学习优化算法。

一、梯度下降法（Gradient Descent）梯度下降法是深度学习中最常用的优化算法之一。

它是一种基于机器学习模型的损失函数的单调优化方法。

优化过程中，梯度下降法一直追踪损失函数梯度并沿着下降最快的方向来调整模型参数。

该优化算法非常简单，易于实现。

同时，在一些简单的任务中，也可以取得很好的结果。

但是，它也有一些缺点。

例如，当损失函数有多个局部最小值的时候，梯度下降法可能会收敛到局部最小值而不是全局最小值。

此外，梯度下降法有一个超参数学习率，这个参数通常需要根据数据和模型来进行手动调整。

二、随机梯度下降法（Stochastic Gradient Descent，SGD）随机梯度下降法是一种更为高效的优化算法。

在训练集较大时，梯度下降法需要计算所有样本的损失函数，这将非常耗时。

而SGD只需要选取少量随机样本来计算损失函数和梯度，因此更快。

此外，SGD 在每一步更新中方差较大，可能使得部分参数更新的不稳定。

因此，SGD也可能无法收敛于全局最小值。

三、动量法（Momentum）动量法是对梯度下降法进行的改进。

梯度下降法在更新参数时只考虑当前梯度值，这可能导致优化算法无法充分利用之前的梯度信息。

动量法引入了一个动量项，通过累积之前的参数更新方向，加速损失函数收敛。

因此，动量法可以在参数空间的多个方向上进行快速移动。

四、自适应梯度算法（AdaGrad、RMSProp和Adam）AdaGrad是一种适应性学习速率算法。

每个参数都拥有自己的学习率，根据其在之前迭代中的梯度大小进行调整。

每个参数的学习率都减小了它之前的梯度大小，从而使得训练后期的学习率变小。

RMSProp是AdaGrad的一种改进算法，他对学习率的衰减方式进行了优化，这使得它可以更好地应对非平稳目标函数。

机器学习中几种优化算法的比较（SGD、Momentum、RMSProp、Adam）

机器学习中⼏种优化算法的⽐较（SGD、Momentum、RMSProp、Adam）有关各种优化算法的详细算法流程和公式可以参考【】，讲解⽐较清晰，这⾥说⼀下⾃⼰对他们之间关系的理解。

BGD 与 SGD⾸先，最简单的 BGD 以整个训练集的梯度和作为更新⽅向，缺点是速度慢，⼀个 epoch 只能更新⼀次模型参数。

SGD 就是⽤来解决这个问题的，以每个样本的梯度作为更新⽅向，更新次数更频繁。

但有两个缺点：更新⽅向不稳定、波动很⼤。

因为单个样本有很⼤的随机性，单样本的梯度不能指⽰参数优化的⼤⽅向。

所有参数的学习率相同，这并不合理，因为有些参数不需要频繁变化，⽽有些参数则需要频繁学习改进。

第⼀个问题Mini-batch SGD 和 Momentum 算法做出的改进主要是⽤来解决第⼀个问题。

Mini-batch SGD 算法使⽤⼀⼩批样本的梯度和作为更新⽅向，有效地稳定了更新⽅向。

Momentum 算法则设置了动量（momentum）的概念，可以理解为惯性，使当前梯度⼩幅影响优化⽅向，⽽不是完全决定优化⽅向。

也起到了减⼩波动的效果。

第⼆个问题AdaGrad 算法做出的改进⽤来解决第⼆个问题，其记录了每个参数的历史梯度平⽅和（平⽅是 element-wise 的），并以此表征每个参数变化的剧烈程度，继⽽⾃适应地为变化剧烈的参数选择更⼩的学习率。

但 AdaGrad 有⼀个缺点，即随着时间的累积每个参数的历史梯度平⽅和都会变得巨⼤，使得所有参数的学习率都急剧缩⼩。

RMSProp 算法解决了这个问题，其采⽤了⼀种递推递减的形式来记录历史梯度平⽅和，可以观察其表达式：早期的历史梯度平⽅和会逐渐失去影响⼒，系数逐渐衰减。

Adam简单来讲 Adam 算法就是综合了 Momentum 和 RMSProp 的⼀种算法，其既记录了历史梯度均值作为动量，⼜考虑了历史梯度平⽅和实现各个参数的学习率⾃适应调整，解决了 SGD 的上述两个问题。

从SGD到Adam——常见优化算法总结

从SGD到Adam——常见优化算法总结1 概览虽然梯度下降优化算法越来越受欢迎，但通常作为⿊盒优化器使⽤，因此很难对其优点和缺点的进⾏实际的解释。

本⽂旨在让读者对不同的算法有直观的认识，以帮助读者使⽤这些算法。

在本综述中，我们介绍梯度下降的不同变形形式，总结这些算法⾯临的挑战，介绍最常⽤的优化算法，回顾并⾏和分布式架构，以及调研⽤于优化梯度下降的其他的策略。

2 Gradient descent 变体有3种基于梯度下降的⽅法，主要区别是我们在计算⽬标函数（ objective function）梯度时所使⽤的的数据量。

2.1 Batch gradient descent 批梯度下降法计算公式如下：其中η表⽰学习率。

该⽅法在⼀次参数更新时，需要计算整个数据集的参数。

优点：可以保证在convex error surfaces 条件下取得全局最⼩值，在non-convex surfaces条件下取得局部极⼩值。

缺点：由于要计算整个数据集的梯度，因此计算⽐较慢，当数据量很⼤时，可能会造成内存不⾜。

另外，该⽅法也⽆法在线（online）更新模型。

计算的伪代码如下：for i in range ( nb_epochs ):params_grad = evaluate_gradient ( loss_function , data , params )params = params - learning_rate * params_grad其中，params和params_grad均是向量（vector）。

2.2 Stochastic gradient descent（SGD）随机梯度下降计算公式如下：随机梯度下降法每次更新参数时，只计算⼀个训练样本(x(i), y(i))的梯度。

优点：计算速度快，可以⽤于在线更新模型。

缺点：由于每次只根据⼀个样本进⾏计算梯度，因此最终⽬标函数收敛时曲线波动可能会⽐较⼤。

由于SGD的波动性，⼀⽅⾯，波动性使得SGD可以跳到新的和潜在更好的局部最优。

深度学习的优化器选择（SGD、Momentum、RMSprop、Adam四种）

深度学习的优化器选择（SGD、Momentum、RMSprop、Adam四种）import torchimport torch.utils.data as Dataimport torch.nn.functional as Fimport matplotlib.pyplot as pltimport torch.nn as nnLR=0.01BATCH_SIZE=32EPOCH=5x=torch.unsqueeze(torch.linspace(-1,1,1000),dim=1)#将⼀维数据转换为⼆维数据y=x.pow(2)+0.1*torch.normal(torch.zeros(*x.size()))torch_dataset=Data.TensorDataset(x,y)loader=Data.DataLoader(dataset=torch_dataset,batch_size=BATCH_SIZE,shuffle=True)#构建⽹络class Net(nn.Module):def__init__(self):super(Net,self).__init__()self.hidden=nn.Linear(1,20)#Sequential是将⽹络的层组合到⼀起self.predict = nn.Linear(20,1)def forward(self,x):x=F.relu(self.hidden(x))#将ReLU层添加到⽹络x = F.relu(self.predict(x))return xnet_SGD=Net()net_Momentum=Net()net_RMSProp=Net()net_Adam=Net()nets=[net_SGD,net_Momentum,net_RMSProp,net_Adam]opt_SGD=torch.optim.SGD(net_SGD.parameters(),lr=LR)opt_Momentum=torch.optim.SGD(net_Momentum.parameters(),lr=LR,momentum=0.9)opt_RMSProp=torch.optim.RMSprop(net_RMSProp.parameters(),lr=LR,alpha=0.9)opt_Adam=torch.optim.Adam(net_Adam.parameters(),lr=LR,betas=(0.9,0.99))optimizers=[opt_SGD,opt_Momentum,opt_RMSProp,opt_Adam]loss_func=torch.nn.MSELoss()loss_his=[[],[],[],[]]for epoch in range(EPOCH):for step,(batch_x,batch_y) in enumerate(loader):for net,opt,l_his in zip(nets,optimizers,loss_his):output=net(batch_x)loss=loss_func(output,batch_y)opt.zero_grad()loss.backward()opt.step()l_his.append(loss.data.numpy())labels=['SGD','Momentum','RMSprop','Adam']print(loss_his)for i,l_his in enumerate(loss_his):plt.plot(l_his,label=labels[i])plt.legend(loc='best')plt.xlabel('Steps')plt.ylabel('Loss')plt.ylim((0,0.4))plt.show()最终得到的训练⽐较图，如下，可以看出各种个优化器的：。

深度学习技术中的优化器选择与调优方法

深度学习技术中的优化器选择与调优方法引言：随着深度学习技术的快速发展，优化器选择与调优方法变得越来越重要。

在深度学习中，优化是指通过调整模型的参数来最小化损失函数。

优化器则是指用于更新模型参数的算法。

本文将介绍深度学习技术中常用的优化器选择与调优方法。

一、优化器选择1. SGD（随机梯度下降法）：SGD是最简单、最常用的优化器之一。

它在每一次迭代中随机选取一个样本，并计算该样本的梯度来进行参数更新。

尽管SGD在训练初期可能具有较大的噪声，但它有助于逃离局部最小值，并且可以应用于大型数据集。

然而，SGD的缺点是梯度计算较慢，尤其在具有大量参数的深度学习模型中。

2. Momentum（动量法）：动量法通过引入一个动量项来加速SGD的收敛。

它可以理解为一个在梯度方向上积累速度的小球，从而减少了震荡和波动，以获得更平滑的收敛。

动量法不仅可以加快训练速度，还可以帮助跳出局部最小值。

3. Adagrad：Adagrad是一种自适应优化器，它可以在不同参数上自动调整学习率。

它的主要思想是根据参数在过去迭代中的梯度来自动调整逐渐缩小的学习率。

这使得Adagrad适用于稀疏数据集，并且可以自动调整学习率，以便更好地适应参数。

4. RMSprop：RMSprop是对Adagrad的改进，主要是为了解决学习率衰减过快的问题。

RMSprop使用了指数加权平均来计算梯度的移动平均值，并通过除以其平方根来缩小学习率。

这种方法可以使学习率在训练过程中适当地衰减，从而提高收敛速度。

5. Adam：Adam是一种结合了动量法和RMSprop的自适应优化器。

它不仅直接利用了梯度的一阶矩估计（均值），还使用了二阶矩估计（方差），从而更好地适应不同的数据集和任务。

Adam被广泛应用于许多深度学习任务，并取得了显著的优化效果。

二、优化器调优方法1. 学习率调整：学习率是优化器中非常重要的超参数之一。

过大的学习率可能导致模型不稳定和振荡，而过小的学习率可能导致收敛速度过慢。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

从SGD 到Adam ——深度学习优化算法概览(一)
楔子前些日在写计算数学课的期末读书报告，我选择的主题是「分析深度学习中的各个优化算法」。

在此前的工作中，自己通常就是无脑「Adam 大法好」，而对算法本身的内涵不知所以然。

一直希望能抽时间系统的过一遍优化算法的发展历程，直观了解各个算法的长处和短处。

这次正好借着作业的机会，补一补课。

本文主要借鉴了@Juliuszh 的文章[1]思路，使用一个general 的框架来描述各个梯度下降变种算法。

实际上，本文可以视作对[1]的重述，在此基础上，对原文描述不够详尽的部分做了一定补充，并修正了其中许多错误的表述和公式。

另一主要参考文章是Sebastian Ruder 的综述[2]。

该文十分有名，大概是深度学习优化算法综述中质量最好的一篇了。

建议大家可以直接阅读原文。

本文许多结论和插图引自该综述。

对优化算法进行分析和比较的文章已有太多，本文实在只能算得上是重复造轮，旨在个人学习和总结。

希望对优化算法有深入了解的同学可以直接查阅文末的参考文献。

引言最优化问题是计算数学中最为重要的研究方向之一。

而在深度学习领域，优化算法的选择也是一个模型的重中之重。

即使在数据集和模型架构完全相同的情况下，采用不同的优化算法，也很可能导致截然不同的训练效果。

梯度下降是目前神经网络中使用最为广泛的优
化算法之一。

为了弥补朴素梯度下降的种种缺陷，研究者们发明了一系列变种算法，从最初的SGD (随机梯度下降) 逐步演进到NAdam。

然而，许多学术界最为前沿的文章中，都并没有一味使用Adam/NAdam 等公认“好用”的自适应算法，很多甚至还选择了最为初级的SGD 或者SGD with Momentum 等。

本文旨在梳理深度学习优化算法的发展历程，并在一个更加概括的框架之下，对优化算法做出分析和对比。

Gradient Descent梯度下降是指，在给定待优化的模型参数和目标函数后，算法通过沿梯度的相反方向更新来最小化。

学习率决定了每一时刻的更新步长。

对于每一个时刻，我们可以用下述步骤描述梯度下降的流程：(1) 计算目标函数关于参数的梯度(2) 根据历史梯度计算一阶和二阶动量(3) 更新模型参数其中，为平滑项，防止分母为零，通常取1e-8。

Gradient Descent 和其算法变种根据以上框架，我们来分析和比较梯度下降的各变种算法。

Vanilla SGD朴素SGD (Stochastic Gradient Descent) 最为简单，没有动量的概念，即这时，更新步骤就是最简单的SGD 的缺点在于收敛速度慢，可能在鞍点处震荡。

并且，如何合理的选择学习率是SGD 的一大难点。

MomentumSGD 在遇到沟壑时容易陷入震荡。

为此，可以为其引入动量Momentum[3]，加速SGD 在正确方向的下降并抑制震荡。

SGD-M 在原步长之上，增加了与上一
时刻步长相关的，通常取0.9 左右。

这意味着参数更新方向不仅由当前的梯度决定，也与此前累积的下降方向有关。

这使得参数中那些梯度方向变化不大的维度可以加速更新，并减少梯度方向变化较大的维度上的更新幅度。

由此产生了加速收敛和减小震荡的效果。

图1(a): SGD图1(b): SGD with momentum从图1 中可以看出，引入动量有效的加速了梯度下降收敛过程。

Nesterov Accelerated Gradient图2: Nesterov update更进一步的，人们希望下降的过程更加智能：算法能够在目标函数有增高趋势之前，减缓更新速率。

NAG 即是为此而设计的，其在SGD-M 的基础上进一步改进了步骤1 中的梯度计算公式：参考图2，SGD-M 的步长计算了当前梯度（短蓝向量）和动量项（长蓝向量）。

然而，既然已经利用了动量项来更新，那不妨先计算出下一时刻的近似位置（棕向量），并根据该未来位置计算梯度（红向量），然后使用和SGD-M 中相同的方式计算步长（绿向量）。

这种计算梯度的方式可以使算法更好的“预测未来”，提前调整更新速率。

AdagradSGD、SGD-M 和NAG 均是以相同的学习率去更新的各个分量。

而深度学习模型中往往涉及大量的参数，不同参数的更新频率往往有所区别。

对于更新不频繁的参数（典型例子：更新word embedding 中的低频词），我们希望单次步长更大，多学习一些知识；对于更新频繁的参数，我们则希望
步长较小，使得学习到的参数更稳定，不至于被单个样本影响太多。

Adagrad[4] 算法即可达到此效果。

其引入了二阶动量：其中，是对角矩阵，其元素为参数第维从初始时刻到时刻的梯度平方和。

此时，可以这样理解：学习率等效为。

对于此前频繁更新过的参数，其二阶动量的对应分量较大，学习率就较小。

这一方法在稀疏数据的场景下表现很好。

RMSprop在Adagrad 中，是单调递增的，使得学习率逐渐递减至0，可能导致训练过程提前结束。

为了改进这一缺点，可以考虑在计算二阶动量时不累积全部历史梯度，而只关注最近某一时间窗口内的下降梯度。

根据此思想有了RMSprop。

记为，有其二阶动量采用指数移动平均公式计算，这样即可避免二阶动量持续累积的问题。

和SGD-M 中的参数类似，通常取0.9 左右。

Adadelta待补充AdamAdam[5] 可以认为是前述方法的集大成者。

和RMSprop 对二阶动量使用指数移动平均类似，Adam 中对一阶动量也是用指数移动平均计算。

此外，对一阶和二阶动量做偏置校正，再进行更新，可以保证迭代较为平稳。

NAdam待补充可视化分析图3: SGD optimization on loss surface contours图4: SGD optimization on saddle point图3 和图4 两张动图直观的展现了不同算法的性能。

(Image credit: Alec Radford)图3 中，我们可以看到不同算法在损失面等高线图中的学
习过程，它们均同同一点出发，但沿着不同路径达到最小值点。

其中Adagrad、Adadelta、RMSprop 从最开始就找到了正确的方向并快速收敛；SGD 找到了正确方向但收敛速度很慢；SGD-M 和NAG 最初都偏离了航道，但也能最终纠正到正确方向，SGD-M 偏离的惯性比NAG 更大。

图4 展现了不同算法在鞍点处的表现。

这里，SGD、SGD-M、NAG 都受到了鞍点的严重影响，尽管后两者最终还是逃离了鞍点；而Adagrad、RMSprop、Adadelta 都很快找到了正确的方向。

关于两图的讨论，也可参考[2]和[6]。

可以看到，几种自适应算法在这些场景下都展现了更好的性能。

讨论、选择策略读书报告中的讨论内容较为杂乱，该部分待整理完毕后再行发布。

References[1] Adam那么棒，为什么还对SGD念念不忘(1) ——一个框架看懂优化算法[2] An overview of gradient descent optimization algorithms[3] On the momentum term in gradient descent learning algorithms[4] Adaptive Subgradient Methods for Online Learning and Stochastic Optimization[5] A Method for Stochastic Optimization[6] CS231n Convolutional Neural Networks for Visual Recognition。