深度学习及其优化方法资料

合集下载

深度学习网络结构解析及优化

深度学习网络结构解析及优化深度学习网络结构是指在深度学习模型中所使用的各个层次的结构，这些结构被设计用于提取特征、学习模式，并最终实现预测和分类等任务。

随着深度学习技术的快速发展，研究人员们经过长时间的探索和实践，提出了许多不同类型的网络结构，例如卷积神经网络（Convolutional Neural Network，CNN）、循环神经网络（Recurrent Neural Network，RNN）和生成对抗网络（Generative Adversarial Network，GAN）等。

本文将对深度学习网络结构进行深入解析，并介绍一些优化方法。

一、深度学习网络结构解析1. 卷积神经网络（CNN）卷积神经网络是广泛用于图像处理任务的一类深度学习网络结构。

其核心思想是通过卷积操作和池化操作来提取图像的特征，然后将这些特征输入到全连接层进行分类或回归。

CNN的结构由多个卷积层、激活函数层、池化层和全连接层组成。

2. 循环神经网络（RNN）循环神经网络是一种特殊的神经网络结构，用于处理序列数据或时间序列数据。

RNN的主要特点是在网络中引入了一个循环连接，使得网络可以在处理每个时刻的输入时考虑到之前的状态信息。

RNN的结构由输入层、隐藏层和输出层组成。

3. 生成对抗网络（GAN）生成对抗网络是由生成网络（Generator Network）和判别网络（Discriminator Network）组成的一种网络结构。

生成网络负责生成数据样本，判别网络负责判断生成的样本与真实样本的区别。

通过两个网络的对抗学习，GAN可以生成逼真的数据样本。

GAN的结构具有一定的复杂性，需要合理设计网络层次和损失函数。

二、深度学习网络结构优化方法1. 参数初始化在训练深度学习网络之前，需要对网络的参数进行初始化。

常用的参数初始化方法包括随机初始化、预训练初始化和批量正则化初始化等。

参数的合理初始化可以加速网络的收敛过程，提高学习效率。

深度学习中的学习率调整与优化方法(九)

深度学习中的学习率调整与优化方法深度学习作为一种机器学习技术，近年来得到了广泛的应用和发展。

在深度学习模型的训练过程中，学习率调整和优化方法是非常重要的一部分。

学习率的选择和调整直接影响了模型的收敛速度和最终性能，而优化方法则决定了模型参数的更新方式。

学习率调整方法在深度学习中，学习率是一个非常重要的超参数，它决定了参数在每次迭代中的更新幅度。

通常情况下，初始的学习率会设置为一个固定的值，但是随着模型训练的进行，学习率需要进行调整以保证模型的训练效果。

常见的学习率调整方法包括指数衰减、学习率衰减和自适应学习率。

指数衰减是一种简单且有效的学习率调整方法，在训练过程中逐渐降低学习率的大小，使得模型在训练后期更加稳定。

学习率衰减则是根据训练的轮数或者损失函数的变化来调整学习率，常见的方式包括线性衰减和多项式衰减。

而自适应学习率则是根据参数的梯度大小来动态调整学习率，常见的方法包括Adagrad、RMSprop和Adam等。

这些学习率调整方法各有优劣，根据不同的任务和模型，选择合适的学习率调整方法是非常重要的。

在实际应用中，通常需要通过交叉验证等方法来选择最优的学习率调整策略。

优化方法除了学习率的调整外，优化方法也对深度学习模型的训练效果起着至关重要的作用。

优化方法的目标是通过调整模型的参数来最小化损失函数，使得模型能够更快地收敛并且达到更好的性能。

常见的优化方法包括梯度下降法、随机梯度下降法、动量法和自适应学习率方法。

梯度下降法是最基本的优化方法，它通过计算损失函数关于参数的梯度来更新参数。

随机梯度下降法则是在梯度下降法的基础上引入了随机性，每次迭代只使用一个样本来计算梯度。

动量法通过引入动量项来加速参数更新，使得模型更容易跳出局部极小值。

自适应学习率方法则是根据参数的二阶导数信息来动态调整学习率，例如Adam方法就是一种自适应学习率方法。

除了这些基本的优化方法外，还有一些针对特定问题和场景设计的优化方法，例如针对稀疏数据的优化方法、针对大规模分布式训练的优化方法等。

深度学习的训练策略与优化方法(五)

深度学习的训练策略与优化方法在当今信息时代，深度学习技术已成为人工智能领域的热点之一。

深度学习是一种基于人工神经网络的机器学习技术，通过模拟人脑的神经元网络结构，实现对大规模数据的学习和分析。

在深度学习的训练过程中，选择合适的训练策略和优化方法对模型的性能和效率至关重要。

本文将从训练策略和优化方法两个方面对深度学习进行探讨。

训练策略在深度学习中，训练策略是指在训练神经网络模型时所采用的方法和技巧。

常见的训练策略包括数据预处理、批量归一化、学习率调整、正则化等。

数据预处理是指在训练之前对数据进行处理，以提高模型的训练速度和准确性。

例如，对图像数据进行归一化处理可以将像素值缩放到0-1之间，有助于加快模型的收敛速度。

批量归一化是一种通过调整批量数据的均值和方差来加速收敛的方法，能有效缓解神经网络训练中的梯度消失和梯度爆炸问题。

学习率调整是指在训练过程中动态地调整学习率，以适应模型训练的不同阶段。

正则化是一种用来防止模型过拟合的方法，通过向损失函数中添加正则项，可以有效地限制模型的复杂度，提高泛化能力。

优化方法在深度学习中，优化方法是指通过调整模型参数，使得模型的损失函数达到最小值的方法。

常见的优化方法包括梯度下降法、随机梯度下降法、动量法、自适应学习率方法等。

梯度下降法是一种通过计算损失函数对模型参数的梯度，然后沿着梯度的反方向更新模型参数的方法。

随机梯度下降法是梯度下降法的一种变种，通过每次随机选择一个样本来计算梯度，从而加速训练过程。

动量法是一种结合了惯性的梯度下降方法，通过引入动量项来加速模型的收敛速度。

自适应学习率方法是一类根据梯度信息自适应地调整学习率的方法，例如Adagrad、RMSprop和Adam 等。

结合训练策略与优化方法在实际应用中，训练策略和优化方法常常是结合使用的。

例如，可以通过数据预处理和批量归一化来加速模型的训练速度和提高模型的准确性，同时使用学习率调整和正则化来提高模型的泛化能力。

神经网络深度学习模型优化方法

神经网络深度学习模型优化方法在深度学习领域，神经网络模型的优化是一个关键的研究方向。

神经网络模型的优化方法直接影响着模型的收敛速度、准确度和泛化能力。

本文将介绍几种常用的神经网络深度学习模型优化方法，包括梯度下降法、动量法、自适应学习率方法和正则化方法。

1. 梯度下降法梯度下降法是最基本的神经网络优化算法之一。

它通过迭代优化来最小化损失函数。

梯度下降法的主要思想是沿着负梯度的方向更新模型的参数，以减少损失函数的值。

具体而言，梯度下降法可以分为批量梯度下降法（Batch Gradient Descent，BGD）、随机梯度下降法（Stochastic Gradient Descent，SGD）和小批量梯度下降法（Mini-batch Gradient Descent）。

批量梯度下降法是指在每一轮迭代中使用整个训练数据集来计算梯度并更新模型参数。

这种方法通常能够找到全局最优解，但计算效率较低，尤其在大规模数据集上。

随机梯度下降法则是每次迭代使用一个样本来计算梯度并更新参数。

虽然计算效率高，但可能会陷入局部最优解。

小批量梯度下降法结合了批量梯度下降法和随机梯度下降法的优点，即在每一轮迭代中使用一小部分样本来更新参数。

2. 动量法动量法是一种常用的优化算法，旨在加快神经网络模型的训练速度。

它引入了一个动量项，实现参数更新的动量积累效果。

动量法的关键思想是利用历史梯度信息来调整参数更新的方向，从而在更新过程中防止频繁变化。

具体而言，动量法利用当前梯度和历史梯度的加权平均来更新参数，其中权重即动量因子。

动量法的优点是可以帮助模型跳出局部最优解，并且在参数更新过程中减少震荡。

然而，过高的动量因子可能导致参数更新过大，从而错过最优解。

因此，在应用动量法时需要合理设置动量因子。

3. 自适应学习率方法梯度下降法中学习率的选择对模型的收敛速度和准确度有着重要影响。

固定学习率的方法很容易导致模型在训练初期收敛速度慢，而在后期容易陷入震荡。

深度学习中的学习率调整与优化方法(Ⅲ)

深度学习中的学习率调整与优化方法随着深度学习技术的不断发展，人工智能应用的范围也越来越广泛。

而在深度学习训练模型中，学习率的调整和优化是非常重要的一环。

在本文中，将探讨深度学习中的学习率调整与优化方法。

学习率是深度学习中的一个重要超参数，它决定了参数更新的步长。

过大的学习率可能导致参数更新过于剧烈，从而导致模型不稳定；而过小的学习率则可能导致模型收敛速度过慢。

因此，如何有效地调整学习率至关重要。

一种常见的学习率调整方法是学习率衰减。

学习率衰减通过在训练过程中逐渐减小学习率，从而使模型在接近收敛时更加稳定。

常见的学习率衰减方法包括指数衰减、余弦衰减等。

其中，指数衰减是最为常见的一种方法，其公式为 lr =lr0 * e^(-kt)，其中lr0为初始学习率，t为当前迭代次数，k为衰减速率。

这种方法在训练初期使用较大的学习率，帮助模型快速收敛；而在训练后期逐渐减小学习率，以保证模型的稳定性。

除了学习率衰减外，还有一些更加复杂的学习率调整方法。

例如，AdaGrad、RMSprop和Adam等自适应学习率算法。

这些算法通过根据参数的历史梯度信息来调整学习率，从而更加有效地优化模型。

其中，Adam算法结合了动量和自适应学习率的特性，被广泛应用于深度学习模型的训练中。

它通过计算梯度的一阶矩估计和二阶矩估计来动态调整学习率，从而在训练过程中更加平稳地更新模型参数。

除了学习率调整外，优化方法也对深度学习模型的性能有着重要影响。

在传统的梯度下降算法中，每次更新参数都是基于整个数据集的梯度，这在大规模数据集上会导致计算量巨大。

因此，随着深度学习技术的发展，一些更加高效的优化方法也应运而生。

其中，随机梯度下降（SGD）是最为基本的一种优化方法。

它不是基于整个数据集的梯度更新参数，而是每次随机选择一个样本计算梯度。

虽然SGD在大规模数据集上有着较好的计算效率，但它可能会陷入局部最优解，训练过程也较为不稳定。

为了解决SGD的缺点，人们提出了一系列的改进算法。

深度学习中的模型优化方法

深度学习中的模型优化方法深度学习是一种以神经网络为基础的机器学习方法，已经成为人工智能领域的重要分支。

在深度学习中，提高模型的性能通常需要进行模型的优化，以便在训练数据上取得更好的结果。

在本文中，我们将讨论深度学习中的模型优化方法。

一、损失函数在深度学习中，我们需要优化一个损失函数，以便在训练数据上得到更好的结果。

损失函数可以看作是一个衡量模型在某个任务上表现的指标，通过最小化损失函数，可以使模型在这个任务上表现更好。

常见的损失函数包括均方误差、交叉熵损失、负对数似然损失等等。

选择合适的损失函数通常需要考虑所要解决的任务、模型的结构以及数据的特征等因素。

二、梯度下降梯度下降是一种常用的模型优化方法。

它利用损失函数关于模型参数的梯度信息来更新模型参数，以使得损失函数不断减小。

具体地，梯度下降算法的更新规则如下：θt+1 = θt -α∇θL(θt)其中，θ表示模型的参数，L表示损失函数，α表示学习率，∇θL(θt)表示损失函数关于θ在点θt处的梯度。

梯度下降算法是一种迭代算法，每次更新参数时都需要计算梯度。

当损失函数是凸的时，梯度下降可以保证收敛到全局最优解。

但当损失函数是非凸时，梯度下降可能会陷入局部最优解。

三、随机梯度下降随机梯度下降（Stochastic Gradient Descent，SGD）是一种变种的梯度下降方法。

与梯度下降每次都需要计算所有样本的梯度不同，SGD每次只计算一个样本的梯度，然后更新模型参数。

SGD的更新规则如下：θt+1 = θt -α∇θL(θt, xi, yi)其中，(xi, yi)表示训练集中的一个样本。

深度学习的反向传播算法及其优化方法

深度学习的反向传播算法及其优化方法深度学习是一种机器学习的分支，它通过模拟人脑神经网络的工作方式，来实现对大规模数据的学习和分析。

在深度学习中，反向传播算法是一种非常重要的技术，它能够有效地训练神经网络，提高模型的准确性和性能。

反向传播算法是一种基于梯度下降的优化方法，它通过不断地调整神经网络中的权重和偏置，来最小化预测输出与实际输出之间的误差。

具体来说，反向传播算法通过将误差从输出层向输入层逐层传播，计算每个神经元对误差的贡献，并根据贡献大小来更新权重和偏置。

这样，神经网络就能够逐渐调整自身的参数，以达到更准确的预测结果。

然而，反向传播算法也存在一些问题和挑战。

首先，它对于深度神经网络来说，计算量非常大，训练时间较长。

其次，反向传播算法容易陷入局部最优解，导致模型的泛化能力较差。

为了解决这些问题，研究者们提出了一系列的优化方法，下面将介绍其中几种常见的方法。

一种常见的优化方法是梯度下降算法的改进版——随机梯度下降（Stochastic Gradient Descent, SGD）。

传统的梯度下降算法在每一次迭代中都要计算所有样本的梯度，而SGD只使用一个样本的梯度来更新参数，大大减少了计算量。

此外，SGD还引入了学习率的概念，它控制了每次更新参数的步长，可以使得模型更快地收敛。

另一种优化方法是动量法（Momentum）。

动量法在更新参数时不仅考虑当前的梯度，还考虑了之前的梯度信息。

通过引入一个动量项，可以使得参数更新的方向更加稳定，减少了震荡现象，加快了收敛速度。

除了SGD和动量法，自适应学习率方法也是一种常见的优化方法。

自适应学习率方法根据参数的梯度大小来自动调整学习率的大小。

其中，Adagrad算法是一种常用的自适应学习率方法，它通过累积之前梯度的平方来调整学习率，使得梯度较大的参数更新较小，梯度较小的参数更新较大，从而更好地适应不同参数的更新需求。

另外，为了解决反向传播算法容易陷入局部最优解的问题，研究者们还提出了一种叫做Dropout的正则化方法。

深度学习技术中的优化器选择与调优方法

深度学习技术中的优化器选择与调优方法引言：随着深度学习技术的快速发展，优化器选择与调优方法变得越来越重要。

在深度学习中，优化是指通过调整模型的参数来最小化损失函数。

优化器则是指用于更新模型参数的算法。

本文将介绍深度学习技术中常用的优化器选择与调优方法。

一、优化器选择1. SGD（随机梯度下降法）：SGD是最简单、最常用的优化器之一。

它在每一次迭代中随机选取一个样本，并计算该样本的梯度来进行参数更新。

尽管SGD在训练初期可能具有较大的噪声，但它有助于逃离局部最小值，并且可以应用于大型数据集。

然而，SGD的缺点是梯度计算较慢，尤其在具有大量参数的深度学习模型中。

2. Momentum（动量法）：动量法通过引入一个动量项来加速SGD的收敛。

它可以理解为一个在梯度方向上积累速度的小球，从而减少了震荡和波动，以获得更平滑的收敛。

动量法不仅可以加快训练速度，还可以帮助跳出局部最小值。

3. Adagrad：Adagrad是一种自适应优化器，它可以在不同参数上自动调整学习率。

它的主要思想是根据参数在过去迭代中的梯度来自动调整逐渐缩小的学习率。

这使得Adagrad适用于稀疏数据集，并且可以自动调整学习率，以便更好地适应参数。

4. RMSprop：RMSprop是对Adagrad的改进，主要是为了解决学习率衰减过快的问题。

RMSprop使用了指数加权平均来计算梯度的移动平均值，并通过除以其平方根来缩小学习率。

这种方法可以使学习率在训练过程中适当地衰减，从而提高收敛速度。

5. Adam：Adam是一种结合了动量法和RMSprop的自适应优化器。

它不仅直接利用了梯度的一阶矩估计（均值），还使用了二阶矩估计（方差），从而更好地适应不同的数据集和任务。

Adam被广泛应用于许多深度学习任务，并取得了显著的优化效果。

二、优化器调优方法1. 学习率调整：学习率是优化器中非常重要的超参数之一。

过大的学习率可能导致模型不稳定和振荡，而过小的学习率可能导致收敛速度过慢。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

24/25
优化方法
3、Conjugate Gradients
共轭方向：
如上图，d(1) 方向与二次函数的等值线相切， d(1) 的共轭方向 d(2) 则指向椭圆的中心。对于二维二次函数，若在两个共轭方向上进行一维搜索，经过两次迭代必然达到最小点。
25/25
优化方法
3、Conjugate Gradients
牛顿法则是利用局部的一阶和二阶偏导信息，推测整个目标函数的形状；
进而可以求得出近似函数的全局最小值，然后将当前的最小值设定近似函数的最小值；相比最速下降法，牛顿法带有一定对全局的预测性，收敛性质也更优良。
20/25
优化方法
2、Newton’s method
推导过程如下：利用 Taylor 级数求得原目标函数的二阶近似：把 x 看做自变量，所有带有 xk 的项看做常量，令一阶导数为 0 ，即可求近似函数的最小值：
gt是梯度，SGD完全依赖于当前batch的其中，是学习率，梯度，可理解为允许当前batch的梯度多大程度影响参数更新。
30/25
优化方法
5、 Mini-batch Gradient Descent
面临的挑战： learning rate选取比较困难对于稀疏数据或者特征，有时我们可能想更新快一些；对于常出现的特征更新慢一些，这时候SGD就不太能满足要求了； SGD容易收敛到局部最优，并且在某些情况下可能被困在鞍点
4/25
DL训练过程
第二步：自顶向下的监督学习这一步是在第一步学习获得各层参数进的基础上，在最顶的编码层添加一个分类器（如，SVM等），而后通过带标签数据的监督学习，利用梯度下降法去微调整个网络参数。
5/25
DL训练过程
深度学习的具体模型及方法： 1、自动编码器（ AutoEncoder ） 2、稀疏自动编码器(Sparse AutoEncoder) 3、限制波尔兹曼机（Restricted Boltzmann Machine） 4、深信度网络（Deep Belief Networks） 5、卷积神经网络（Convolutional Neural Networks）
梯度下降需要把m个样本全部带入计算，迭代一次计算量为m*n2
28/25
优化方法
5、 Mini-batch Gradient Descent
介于BSD和SGD之间的一种优化算法，每次选取一定量的训练样本进行迭代；
速度比BSD快，比SGD慢；精度比BSD低，比SGD高。
选择n个训练样本（n<m，m为总训练集样本数）
核心思想：局部感受野、权值共享以及时间或空间子采样这三种结构思想结合起来获得某种程度的位移、尺度、形变不变性。
12/25
Loss Function一般形式
13/25
Loss Function一般形式
回归函数及目标函数
以均方误差作为目标函数（损失函数），目的是使其值最小化，用于优化上式。
能够减少更新；在梯度改变方向的时候，
总之，momentum项能够在相关方向加速SGD，抑制振荡，从而加快收敛。
34/25
优化方法-Nesterov
nesterov项在梯度更新时做一个校正，避免前进太快，同时提高灵敏度：并没有直接改变当前梯度，所以Nesterov的改进就是让之前的动量直接影响当前的梯度。即：
如上图，其实就是限制每次得到的表达code尽量稀疏。因为稀疏的表达往往比其他的表达要有效。
8/25
RBM
3、限制波尔兹曼机（RBM）定义：假设有一个二部图，同层节点之间没有链接，一层是可视层，即输入数据层（v)，一层是隐藏层(h)，如果假设所有的节点都是随机二值（0，1）变量节点，同时假设全概率分布p(v,h)满足Boltzmann分布，称这个模型是RBM。
如果初始值离局部极小值太远，Taylor 展开并不能对原函数进行良好的近似。
22/25
优化方法
2、Newton’s method
在牛顿法的迭代中，需要计算海赛矩阵的逆矩阵H-1这一计算比较复杂，考虑用一个n阶矩阵来近似代替H-1，这就是拟牛顿法的基本思路。 DFP(Davidon-Fletcher-Powell）使用一个n阶矩阵Gk+1 来近似H-1 BFGS(Broyden-Fletcher-Goldfarb-Shanno）使用一个n 阶矩阵Bk来逼近H L-BFGS（Limited -BFGS )：由于上述两种拟牛顿法都要保存一个n阶矩阵，对于内存消耗非常大，因此在此基础上提出了一种节约内存的方法L-BFGS。
当 f(x) 是下列形式：其中 x为列向量，A 是 n 阶对称矩阵，b 是 n 维列向量， c 是常数。f(x) 梯度是 Ax+b, Hesse 矩阵等于 A。
16/25
数学概念
3、Jacobian 矩阵
Jacobian 矩阵实际上是向量值函数的梯度矩阵，假设 F:Rn→Rm 是一个从n维欧氏空间转换到m维欧氏空间的函数。这个函数由m个实函数组成:
因此，加上nesterov项后，梯度在大的跳跃后，进行计算对当前梯度进行校正。
35/25
优化方法-Nesterov
momentum首先计算一个梯度(短的蓝色向量)，然后在加速更新梯度的方向进行一个大的跳跃(长的蓝色向量)， nesterov项首先在之前加速的梯度方向进行一个大的跳跃( 棕色向量)，计算梯度然后进行校正(绿色梯向量)：
9/25
RBM
给定隐层h的基础上，可视层的概率确定：
（可视层节点之间是条件独立的）给定可视层v的基础上，隐层的概率确定：给定一个满足独立同分布的样本集：D={v(1), v(2),…, v(N)}，我们需要学习参数θ={W,a,b}。最大似然估计：对最大对数似然函数求导，就可以得到L最大时对应的参数 W了。
14/25
数学概念
1、梯度（一阶导数）
某一点的梯度方向是在该点坡度最陡的方向，而梯度的大小告诉我们坡度到底有多陡；
对于一个含有 n 个变量的标量函数，即函数输入一个 n 维的向量，输出一个数值，梯度可以定义为：
15/25
数学概念
2、Hesse 矩阵（二阶导数）
Hesse 矩阵常被应用于牛顿法解决的大规模优化问题，主要形式如下：
10/25
DBN
DBNs由多个限制玻尔兹曼机（RBM）层组成，一个典型的神经网络类型如下图所示。
11/25
CNN 5、卷积神经网络（Convolutional Neural Networks）卷积神经网络是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成。CNNs是第一个真正成功训练多层网络结构的学习算法。
23/25
优化方法
3、Conjugate Gradients
共轭梯度法是介于最速下降法与牛顿法之间的一个方法；
它仅需利用一阶导数信息，但克服了最速下降法收敛慢的缺点；
避免牛顿法需要存储和计算Hesse矩阵并求逆的缺点.
共轭梯度法不仅是解决大型线性方程组最有用的方法之一，也是解大型非线性最优化最有效的算法之一。与最速梯度下降的不同，共轭梯度的优点主要体现在选择搜索方向上：
3/25
DL训练过程
深度学习的基本思想：对于Deep Learning，需要自动地学习特征，假设有一堆输入I，输出是O，设计一个系统S（有n层），形象地表示为： I =>S1=>S2=>.....=>Sn => O，通过调整系统中参数，使得它的输出仍然是输入 I ，那么就可以自动地获取得到输入 I 的一系列层次特征，即S1，..., Sn。用自下而上的无监督学习 1）逐层构建单层神经元。 2）每层采用wake-sleep算法进行调优。每次仅调整一层，逐层调整。
即：将当前的最小值设定近似函数的最小值(或者乘以步长)。
21/25
优化方法
2、Newton’s method
牛顿法主要存在的问题是：
Hesse 矩阵不可逆时无法计算；矩阵的逆计算复杂为 n 的立方，当问题规模比较大时，计算量很大；解决的办法是采用拟牛顿法如 BFGS, L-BFGS, DFP, Broyden’s Algorithm 进行近似；
6/25
自动编码器
1、自动编码器（ AutoEncoder ）通过调整encoder和decoder的参数，使得重构误差最小，就得到了输入input信号的第一个表示了，也就是编码 code了。
因为是无标签数据，所以误差的来源就是直接重构后与原输入相比得到。
7/25
稀疏自动编码器
2、稀疏自动编码器(Sparse AutoEncoder) AutoEncoder的基础上加上L1的Regularity限制（L1主要是约束每一层中的节点中大部分都要为0，只有少数不为0），就可以得到Sparse AutoEncoder法。
k 是第 k 次其中，pk 是第 k 次迭代我们选择移动的方向，迭代用 line search 方法选择移动的距离，每次移动的距离系数可以相同，也可以不同，有时 xk k pk
18/25
优化方法
1、Gradient Descent
该方法利用目标函数的局部性质，得到局部最优解，具有一定的“盲目性”，如果目标函数是一个凸优化问题，那么局部最优解就是全局最优解；每一次迭代的移动方向都与出发点的等高线垂直，此外，锯齿现象（ zig-zagging）将会导致收敛速度变慢:
19/25
优化方法
2、Newton’s method
深度学习(Deep Learning)及其优化方法
报告人：胡海根 E-mail: hghu@
浙江工业大学计算机学院