神经网络及深度学习简介

合集下载

深度学习基础知识

深度学习基础知识深度学习(Depth Learning)是机器学习的一个重要分支，旨在模仿人类大脑的工作方式，通过神经网络的构建和训练实现智能化的数据分析与决策。

在深度学习的背后，有一些基础知识需要我们掌握，才能更好地理解和应用深度学习技术。

一、神经网络的基本结构神经网络是深度学习的核心，它由多个神经元组成，每个神经元都有激活函数，能接收来自其他神经元的输入，并产生输出。

神经网络通常包括输入层、隐藏层和输出层，其中隐藏层可以有多个。

输入层接受外部数据输入，隐藏层负责对数据进行特征提取和转换，输出层产生最终的结果。

二、梯度下降算法梯度下降算法是深度学习中最基础且最常用的优化算法，用于调整神经网络中各个神经元之间的连接权重，以最小化损失函数。

在训练过程中，通过计算损失函数对权重的偏导数，不断地更新权重值，使得损失函数逐渐减小，模型的性能逐渐提升。

三、反向传播算法反向传播算法是神经网络中用于训练的关键算法，通过将误差从输出层倒推到隐藏层，逐层计算每个神经元的误差贡献，然后根据误差贡献来更新权重值。

反向传播算法的核心思想是链式法则，即将神经网络的输出误差按照权重逆向传播并进行计算。

四、卷积神经网络(CNN)卷积神经网络是一种主要用于图像处理和识别的深度学习模型。

它通过共享权重和局部感受野的方式，有效地提取图像中的特征。

卷积神经网络通常包括卷积层、池化层和全连接层。

其中卷积层用于提取图像中的局部特征，池化层用于降低特征的维度，全连接层用于输出最终的分类结果。

五、循环神经网络(RNN)循环神经网络是一种主要用于序列数据处理的深度学习模型。

它通过引入时间维度，并在每个时间步上传递隐藏状态，实现对序列数据的建模。

循环神经网络可以解决序列数据中的时序依赖问题，适用于音频识别、语言模型等任务。

六、生成对抗网络(GAN)生成对抗网络是一种通过让生成器和判别器相互博弈的方式，实现模型训练和生成样本的深度学习模型。

生成器负责生成与真实样本相似的假样本，判别器负责对真假样本进行分类。

深度学习神经网络的特点与优势

深度学习神经网络的特点与优势深度学习神经网络，作为一种机器学习和人工智能的领域，近年来受到了广泛的关注与研究。

它以人脑神经网络为模型，通过多层的神经元进行信息传递和处理，具有许多独特的特点和优势。

本文将探讨深度学习神经网络的特点与优势，并分析其在不同领域的应用。

一、特点：1. 多层结构：深度学习神经网络由多个层次的神经元组成，每一层都负责特定的功能和信息处理任务。

通过这种多层结构，网络可以逐层学习并提取数据的高级特征，从而实现更加准确和复杂的预测和分类。

2. 自动特征学习：与传统的机器学习方法相比，深度学习神经网络具有自动学习特征的能力。

它能够通过训练数据自行学习提取特征，不需要人工指定具体的特征参数。

这种自动特征学习的能力使得深度学习网络在处理大规模和复杂数据时更加高效和精确。

3. 非线性模型：深度学习神经网络采用非线性的激活函数，使得网络能够建模和处理非线性关系。

这种非线性模型能够更好地适应现实世界中的复杂问题，并提供更准确的预测和分类。

4. 并行计算：深度学习神经网络可以通过并行计算的方式进行训练和推理，在处理大规模数据和复杂模型时具有较高的计算效率。

这种并行计算能力使得深度学习在大数据环境下展现了巨大的潜力。

二、优势：1. 强大的预测能力：深度学习神经网络通过学习大量数据中的模式和规律，可以对未知数据进行预测和分类。

它能够从复杂的数据中提取高级特征，进而实现更准确的预测，如图像识别、语音识别等。

2. 大规模数据处理：深度学习神经网络擅长处理大规模的数据，可以从海量数据中学习和挖掘有用的信息。

这对于处理互联网、社交媒体等数据密集型应用具有重要意义，如推荐系统、广告优化等。

3. 强抗噪能力：在现实世界中，数据常常带有噪声和不完整性。

深度学习神经网络通过学习大量的数据，可以从中识别和过滤噪声，提高模型的鲁棒性和泛化能力。

4. 可解释性和可视化：深度学习神经网络的内部结构可以通过可视化技术呈现出来，使得模型的学习过程和决策过程更加可解释。

深度学习神经网络

我们希望所建立的网络可以尽可能的满足这些不变性特点。为了理解卷积神经网络对这些不变性特点的贡献，我们将用不具备这些不变性特点的前馈神经网络来进行比较。
图片识别--前馈神经网络
方便起见，我们用depth只有1的灰度图来举例。想要完成的任务是：在宽长为4x4 的图片中识别是否有下图所示的“横折”。图中，黄色圆点表示值为0的像素，深色圆点表示值为1的像素。我们知道不管这个横折在图片中的什么位置，都会被认为是相同的横折。
例子：人脸识别
物质组成视角：神经网络的学习过程就是学习物质组成方式的过程。
增加节点数：增加同一层物质的种类，比如118个元素的原子层就有118个节点。
增加层数：增加更多层级，比如分子层，原子层，器官层，并通过判断更抽象的概念来识别物体。
2.3、神经网络的训练
神经网络的学习过程就是学习控制着空间变换方式（物质组成方式）的权重矩阵 W ，那如何学习每一层的权重矩阵 W 呢？
因为环境的变化是随机的，所以进化并没有方向，但是却有增加差异性的趋势。通过自我复制的方式，能够产生的差异性还是较弱。所以自然界慢慢的开始形成了有性繁殖，两个不同的个体进行交配，增加子代的差异性。但是有性繁殖使得大范围移动成为了必然需求。环境会随着移动而变化，个体在上一环境中通过自然学习所学习到的关联，在下一个环境并不适用。
▪
▪
▪
运用BP算法的多层前馈神经网络神经网络实例：
▪
1
0
1
0.2
0.4
-0.5
-0.3
0.1
0.2
-0.3
-0.2
-0.4
0.2
0.1
▪
▪
省去中间计算过程，最后得到第一轮训练之后的新的权重与阈值：

深度学习与神经网络的区别与联系

深度学习与神经网络的区别与联系在当今人工智能的浪潮中，深度学习和神经网络是两个备受关注的话题。

虽然有很多人认为这两个名词是同义词，但实际上它们有着明显的区别和联系。

本文将从各个方面深入探讨深度学习和神经网络的异同点，希望能够帮助读者更好地理解这两个概念。

1.定义深度学习是一种机器学习模型，它通过一系列的计算单元来模拟人类神经元的工作原理，进行信息的处理和学习。

而神经网络是一个由许多神经元组成的网络，其中每个神经元都有一些输入和一个输出。

神经网络的基本结构是由一个输入层、若干个隐藏层和一个输出层组成的。

2.结构从结构上来看，深度学习与神经网络有着明显的不同。

深度学习模型可以包含多个层次，一般包括输入层、多个隐藏层和输出层。

而神经网络的层数相对较少，一般只包含一个或几个隐藏层。

这也意味着深度学习模型可以处理更加复杂的数据结构和任务，而神经网络的能力相对较弱。

3.计算原理深度学习利用反向传播算法进行训练，这种算法能够根据实际输出与预期输出之间的误差，来调整网络中每个神经元之间连接的权值，从而达到最小化误差的目的。

而神经网络的计算原理与深度学习比较相似，但是神经网络训练的过程中一般采用基于梯度下降法的反向传播算法。

4.应用场景深度学习在图像处理、自然语言处理等领域具有很广泛的应用，例如图像分类、语音识别等，在这些领域中深度学习模型取得了非常好的效果。

而神经网络的应用场景相对较为狭窄，一般只应用于图像处理等相对简单的任务。

5.优劣势分析深度学习相对于神经网络的优势在于其更加高级的结构和学习能力，可以处理更加复杂的数据结构和任务。

但同时也存在着训练时间较长、过拟合等问题。

而神经网络的优势在于其简洁的结构和速度快的训练过程，但其在处理复杂数据结构和复杂任务时表现相对较差。

6.未来发展趋势随着深度学习和神经网络的不断发展，两者之间的界限也随之模糊。

未来的研究将更加关注深度学习和神经网络之间的融合和优化，以达到更加高效和强大的人工智能模型。

计算机基础知识什么是深度学习

计算机基础知识什么是深度学习深度学习是一种机器学习的方法，它通过模拟人类大脑神经网络的结构和功能来实现对大规模数据进行有效学习和分析的能力。

与传统的机器学习方法相比，深度学习具有更强大的表达能力和自动特征提取的能力，能够从庞大的数据中发现更复杂、更抽象的规律和特征。

深度学习的基础是神经网络。

神经网络是由大量的神经元（或称为节点）组成的有向图，每个神经元都接收来自其他神经元的输入，并产生一个输出。

这些神经元按照层次结构排列，构成了一个深度的网络。

神经网络的深度决定了它的层数，而每一层神经元的数量决定了其宽度。

深度学习的特点就是使用了具有多个隐藏层的深层神经网络。

深度学习的训练过程可以简单描述为以下几个步骤：1. 数据准备：准备包含有标注信息的大规模数据集，通常需要对数据进行清洗和预处理，以便于网络的学习和训练。

2. 模型构建：选择适当的深度学习模型，根据任务需求设计网络的结构，并设置各层的参数。

3. 前向传播：将输入数据通过神经网络的各层进行计算和传递，逐层得到输出结果。

4. 反向传播：将计算得到的输出结果与真实标签进行比较，计算损失函数，然后沿着网络的反方向进行梯度下降，逐层更新网络参数，以减小损失函数的值。

5. 参数优化：通过反复迭代的训练过程，不断调整网络参数，使得模型的输出结果与真实标签更加接近，提高模型在新数据上的泛化能力。

6. 模型评估：使用验证集或测试集对训练好的模型进行评估性能，根据评估结果对模型进行调整和改进。

深度学习在各个领域都取得了显著的成果。

在计算机视觉领域，通过深度学习技术，可以实现图像分类、目标检测、人脸识别等任务。

在自然语言处理领域，可以通过深度学习技术实现语义理解、机器翻译、情感分析等任务。

此外，深度学习在推荐系统、语音识别、医学影像分析等领域也有广泛应用。

值得注意的是，深度学习需要大量的数据和计算资源来进行训练，特别是在大规模网络和复杂任务上。

同时，模型的设计和参数调整也需要经验和技巧。

深度学习中的主要网络结构与原理解析

深度学习中的主要网络结构与原理解析深度学习是一种机器学习方法，通过模拟人脑神经网络的结构和功能，实现对大规模数据的学习和处理。

在深度学习中，网络结构起到了至关重要的作用，不同的网络结构决定了模型的性能和学习能力。

本文将对深度学习中的主要网络结构与原理进行解析。

一、卷积神经网络（CNN）卷积神经网络是深度学习中最重要的网络结构之一，它主要用于图像和语音等二维数据的处理。

CNN的核心思想是通过卷积层、池化层和全连接层等组成，实现对图像特征的提取和分类。

其中，卷积层通过卷积操作提取图像的局部特征，池化层通过降采样操作减少参数数量，全连接层通过多层神经元实现分类任务。

CNN的优点在于能够自动学习图像的特征，减少了手动特征提取的工作量，因此被广泛应用于图像识别、目标检测等领域。

二、循环神经网络（RNN）循环神经网络是一种具有记忆功能的神经网络，主要用于序列数据的处理，如语音识别、自然语言处理等。

RNN的特点在于能够处理变长的输入序列，并通过隐藏层的循环连接实现对历史信息的记忆。

然而，传统的RNN在处理长序列时容易出现梯度消失或梯度爆炸的问题，限制了其在实际应用中的效果。

为了解决这个问题，研究者提出了长短期记忆网络（LSTM）和门控循环单元（GRU）等变种结构，有效地解决了梯度问题，提升了RNN在序列数据处理中的表现。

三、生成对抗网络（GAN）生成对抗网络是一种通过对抗训练的方式生成新的数据样本的网络结构。

GAN 由生成器和判别器两个部分组成，生成器通过学习真实数据的分布，生成与之相似的新样本，判别器则通过判断样本的真实性来提供反馈。

通过不断迭代训练，生成器和判别器的性能逐渐提升，最终生成器能够生成逼真的新样本。

GAN的应用非常广泛，如图像生成、图像修复、图像风格转换等。

四、自编码器（Autoencoder）自编码器是一种无监督学习的神经网络结构，主要用于数据的降维和特征提取。

自编码器由编码器和解码器两部分组成，编码器将输入数据映射到低维的隐藏层表示，解码器则将隐藏层表示重构为原始数据。

深度学习的基本概念

深度学习的基本概念
一、深度学习的基本概念
深度学习是一种新兴的机器学习技术，它通过利用多层神经网络结构来学习解决复杂问题，比传统的机器学习技术更加准确和有效。

它可以用多种模型，算法和技术来构建深度学习模型，并利用计算机的处理能力来提高模型的准确性和性能。

深度学习
二、神经网络
神经网络（Neural Network）是一种复杂的模拟人脑的计算模型，由大量的神经元组成的网络，可以实现信息的学习、处理、传输和记忆等功能。

神经网络通常由输入层、隐藏层和输出层组成，隐藏层的神经元负责处理输入层输入的信息，最终将处理后的信息传递给
三、深度学习模型
深度学习模型是一种模仿人脑中神经网络的机器学习模型，通过多层（一般分为输入层、隐藏层和输出层）可以实现复杂数据的分析和处理。

深度学习模型主要包括联想记忆网络、深度置信网络（Deep Belief Networks）、卷积神经网络（Convolutional Neural Networks）和循环神经网络
四、深度学习算法
深度学习算法是用来解决深度学习问题的有效工具，常用的算法包括反向传播、梯度下降、随机梯度下降、学习率衰减、正则技术和模型融合。

反向传播是深度学习中最常用的算法，它通过计算损失函数的梯度来更新模型参数，从而实现参数优化。

梯度下降算法是一
五、深度学习应用
深度学习应用涵盖了多个领域，其中最常见的应用有图像识别、语音识别、自然语言处理、机器翻译、推荐系统、视觉检测等。

图像识别是指将图片分辨为给定的类别，比如猫、狗等，是深度学习最常见的应用之一。

语音识别是指识别语音中的内容，比如将语音转换。

神经网络的深度学习与应用

神经网络的深度学习与应用近年来，神经网络的深度学习技术应用越来越广泛，在自然语言处理、图像识别、机器翻译等领域已取得了突破性进展。

本文将着重探讨神经网络的深度学习技术及其应用。

一、神经网络的深度学习技术简介深度学习是机器学习的分支之一，通过模拟人脑的神经元网络，实现从数据中学习和提取特征。

而神经网络则是实现深度学习的一种典型方法。

神经网络的本质就是由一系列相互连接的单元（神经元）组成的计算模型。

其中，浅层神经网络仅包含一到两层神经元，而通过添加更多的层数，就可以实现深度神经网络。

深度神经网络的训练过程基于反向传播算法，该算法可以通过对网络中每个神经元所产生的误差进行反向传递，最终实现权重的更新，从而提高网络的准确性和可靠性。

二、神经网络在语音识别中的应用在语音识别中，通过深度神经网络进行特征提取和模式识别已经成为一种主流方法。

语音信号是一种非常复杂的时序信号，因此深度学习技术的应用对于语音识别具有非常重要的意义。

通过使用深度神经网络进行特征提取，可以把语音信号转化为更有意义和可读性的表示形式。

而在模式识别方面，深度学习可以提取到更高层次的语音特征，从而改善识别准确度。

另外，深度神经网络的应用还可以提高语音识别系统的鲁棒性，使得系统能够自动适应不同的语音输入环境。

三、神经网络在图像处理中的应用在图像处理领域，深度神经网络主要用于图像分类、目标检测、图像分割等方面。

深度神经网络通过进行特征提取和模式学习，可以大大提高图像处理的准确度。

对于图像分类，深度神经网络可以将复杂的图像信息转换成更简单的特征向量。

通过在网络中添加更多的层数，深度网络可以学习到更高级别的特征，从而实现更精确的分类。

在目标检测方面，深度神经网络可以在图像中标记出各种物体，并确定它们的位置。

在图像分割中，深度神经网络可以将图像划分为不同的区域，实现更精确的图像处理。

四、神经网络在自然语言处理中的应用在自然语言处理领域，神经网络的深度学习技术主要用于文本分类、情感分析、机器翻译等方向。

神经网络和深度学习的关系

神经网络和深度学习的关系
近年来，神经网络和深度学习技术在计算机及相关领域取得了重大突破，它们也正在影响着许多不同领域的发展。

那么，神经网络和深度学习到底有何关系?
从定义上来看，神经网络是一个涉及多层神经元的模型，它可以通过调整其内部参数来实现强大的功能。

在这里，神经元可以用来储存和处理任何数据和信号，这使得它可以在大量的数据下解决复杂的问题。

它可以被用于处理各种不同的任务，包括自动驾驶、图像处理和自然语言处理等。

而深度学习技术则是基于神经网络技术的一种更加强大的技术。

深度学习技术可以在大量的数据和大量的复杂模型结构下实现比例
制和非比例制学习，从而使其具备更强大的功能。

它可以用于自动驾驶、计算机视觉任务和自然语言处理等许多领域。

因此，神经网络和深度学习技术之间有着密切的关系，神经网络是驱动深度学习技术的基础，而深度学习则是在神经网络技术之上发展起来的一种更加强大的技术。

借助深度学习，研究人员可以处理更复杂和更大规模的任务，这是神经网络技术所不能做到的。

此外，深度学习也有助于提高神经网络的性能。

结合深度学习技术，研究人员可以应用许多先进的方法，比如机器学习、自适应优化和自监督学习，来最大限度地利用神经网络的潜力，使它能够有效地处理更复杂的任务。

因此，神经网络和深度学习之间存在着千丝万缕的联系，神经网
络是深度学习发展的基础，而深度学习也可以提高神经网络的性能。

而如何更好地利用这两项技术，也是计算机和相关领域研究人员当前面临的课题之一。

深度学习中的循环神经网络(RNN)介绍及应用

深度学习中的循环神经网络（RNN）介绍及应用深度学习作为人工智能领域的重要分支，已经在各个领域取得了巨大的成就。

其中，循环神经网络（Recurrent Neural Network，简称RNN）作为一种能够处理序列数据的神经网络模型，在自然语言处理、语音识别、图像处理等领域表现出卓越的性能，受到了广泛的关注和应用。

一、循环神经网络的介绍循环神经网络是一种具有记忆功能的神经网络模型，可以处理具有时间顺序的序列数据。

相比于传统的前馈神经网络，循环神经网络通过引入循环连接，将前一时刻的状态信息传递到当前时刻，以此来处理序列数据中的时序信息。

这种设计使得循环神经网络能够对变长的输入序列进行建模，并在序列中捕捉到隐含的长期依赖关系。

循环神经网络的基本结构包括输入层、隐藏层和输出层。

隐藏层的每个神经元都拥有一个循环连接，可以接收来自上一时刻隐藏层的输出，并结合当前时刻的输入进行计算。

通过不断的迭代，循环神经网络能够逐步更新隐藏层的状态，并且在计算输出时同时考虑输入和历史信息。

这种机制使得循环神经网络能够应对序列数据中的时序变化，更好地理解和利用数据中的上下文信息。

二、循环神经网络的应用循环神经网络在多个领域展现出了强大的建模能力和广泛的应用潜力。

1. 自然语言处理在自然语言处理领域，循环神经网络被广泛应用于语言模型、机器翻译、文本分类等任务。

通过在输入端引入序列数据，如词语序列或字符序列，循环神经网络可以对语言中的上下文关系建模，实现对文本的语义理解、生成和分类。

尤其是长短时记忆网络（Long Short-Term Memory，简称LSTM）和门控循环单元（Gated Recurrent Unit，简称GRU）等改进的循环神经网络结构，有效地缓解了传统循环神经网络中的梯度消失和梯度爆炸问题，提升了对长文本的建模能力。

2. 语音识别循环神经网络在语音识别领域的应用也取得了显著的成果。

通过将语音信号转化为时序序列输入循环神经网络，可以实现对语音数据的建模和识别。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

10 /33
Reliability Research Group
深度学习框架
问题1：如何解决梯度消失以及易陷入最优解问题？
神经网络层数越多，刻画现实能力越强问题2：使用何种方法从低层次特征中学习高层次特征？
11 /33
Reliability Research Group
问题1解决方法
12 /33
Reliability Research Group
问题1解决方法
第二阶段：
第二个阶段开始的标志就是2012年IMAGENET比赛中，CNN以压倒性优势取得胜利，自此开始深度学习才真正引人关注起来。虽然都叫深度学习，但其侧重点完全不同，通过一些手段，比如relu, dropout等小技巧，第二波深度学习算法已经基本抛弃了预训练的做法。所以里面除了自编码网络基本没有逐层预训练这种东西。传统Sigmoid系激活函数稀疏性激活函数ReLU
5 /33
Reliability Research Group
举例
BP（Back Propagation）神经网络
BP神经网络是一种多层的前馈神经网络，其主要的特点是：信号是前向传播的，而误差是反向传播的。具体来说，对于如下的只含一个隐层的神经网络模型： BP神经网络的过程主要分为两个阶段，第一阶段是信号的前向传播，从输入层经过隐含层，最后到达输出层；第二阶段是误差的反向传播，从输出层到隐含层，最后到输入层，依次调节隐含层到输出层的权重和偏置，输入层到隐含层的权重和偏置。
3 /33
Reliability Research Group
人工神经网络
定义：在机器学习和认知科学领域，人工神经网络（artificial neural network，缩写ANN），简称神经网络（neural network，缩写 NN）或类神经网络，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构，是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具。
17 /33
Reliability Research Group
问题2解决方法
问题2：使用何种方法从低层次特征中学习高层次特征？
深度学习特征表示
18 /33
Reliability Research Group
卷积神经网络
卷积神经网络
卷积神经网络（convolutional neuron networks，CNN）由一个或多个卷积层和顶端的全连通层（对应经典的神经网络）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网络在图像和语音识别方面能够给出更优的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络，卷积神经网络需要估计的参数更少，使之成为一种颇具吸引力的深度学习结构。
7 /33
Reliability Research Group
BP神经网络2、隐含层的输出 Nhomakorabea如上面的三层BP网络所示，隐含层的输出为
3、输出层的输出
5、权值的更新
权值的更新公式为：
4、误差的计算我们取误差公式为：
6、偏置的更新
偏置的更新公式为：其中为期望输出。我们记，则可以表示为
8 /33
19 /33
Reliability Research Group
卷积神经网络
上图中CNN要做的事情是：给定一张图片，是车还是马未知，是什么车也未知，现在需要模型判断这张图片里具体是一个什么东西，总之输出一个结果：如果是车那是什么车
20 /33
Reliability Research Group
14 /33
Reliability Research Group
问题1解决方法
Dropout：
训练神经网络模型时，如果训练样本较少，为了防止模型过拟合， Dropout可以作为一种trikc供选择。Dropout是hintion最近2年提出的，源于其文章Improving neural networks by preventing co-adaptation of feature detectors.中文大意为：通过阻止特征检测器的共同作用来提高神经网络的性能。 Dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作，不工作的那些节点可以暂时认为不是网络结构的一部分，但是它的权重得保留下来（只是暂时不更新而已），因为下次样本输入时它可能又得工作了。
第一阶段：
2006年Hinton提出的逐层预训练方法，为了解决深层神经网络的训练问题，一种有效的手段是采取无监督逐层训练（unsupervised layerwise training），其基本思想是每次训练一层隐节点，训练时将上一层隐节点的输出作为输入，而本层隐节点的输出作为下一层隐节点的输入，这被称之为“预训练”（pre-training）；在预训练完成后，再对整个网络进行 “微调”（fine-tunning）训练。事实上，“预训练+微调”的训练方式可被视为是将大量参数分组，对每组先找到局部看起来较好的设置，然后再基于这些局部较优的结果联合起来进行全局寻优。这样就在利用了模型大量参数所提供的自由度的同时，有效地节省了训练开销。
理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。神经网络的层数直接决定了它对现实的刻画能力——利用每层更少的神经元拟合更加复杂的函数。但是随着神经网络层数的加深，优化函数越来越容易陷入局部最优解（即过拟合，在训练样本上有很好的拟合效果，但是在测试集上效果很差），并且这个“陷阱”越来越偏离真正的全局最优。利用有限数据训练的深层网络，性能还不如较浅层网络。 9 /33
神经网络简介深度学习框架简介
3. 应用实例
4. 总结
2 /33
Reliability Research Group
背景及意义
神经网络（Neural Network, NN）是机器学习的一个分支；神经网络的基本理论形成于上世纪40年代后期，心理学家唐纳德·赫布根据神经可塑性的机制创造了一种对学习的假说，现在称作赫布型学习；深度学习框架（Deep Learning）可以追溯到1980年福岛邦彦提出的新认知机；深度学习可以说是神经网络的品牌重塑；
6 /33
Reliability Research Group
BP神经网络
在知道了BP神经网络的特点后，我们需要依据信号的前向传播和误差的反向传播来构建整个网络。
1、网络的初始化假设输入层的节点个数为，隐含层的节点个数为，输出层的节点个数为。输入层到隐含层的权重，隐含层到输出层的权重为，输入层到隐含层的偏置为，隐含层到输出层的偏置为。学习速率为，激励函数为。其中激励函数为取Sigmoid 函数。形式为：
Reliability Research Group
深度学习框架
基本概念
深度学习的基础是机器学习中的分散表示（distributed representation）。分散表示假定观测值是由不同因子相互作用生成。在此基础上，深度学习进一步假定这一相互作用的过程可分为多个层次，代表对观测值的多层抽象。不同的层数和层的规模可用于不同程度的抽象。深度学习运用了这分层次抽象的思想，更高层次的概念从低层次的概念学习得到。这一分层结构常常使用贪婪算法逐层构建而成，并从中选取有助于机器学习的更有效的特征. 不少深度学习算法都以无监督学习的形式出现，因而这些算法能被应用于其他算法无法企及的无标签数据，这一类数据比有标签数据更丰富，也更容易获得。这一点也为深度学习赢得了重要的优势。
卷积神经网络
最左边是数据输入层，对数据做一些处理，比如去均值（把输入数据各个维度都中心化为0，避免数据过多偏差，影响训练效果）、归一化（把所有的数据都归一到同样的范围）、PCA/白化等等。CNN只对训练集做“去均值”这一步。 CONV：卷积计算层，线性乘积求和。 RELU：激励层，上文中有提到：ReLU是激活函数的一种。 POOL：池化层，简言之，即取区域平均或最大。 FC：全连接层
Reliability Research Group
传统神经网络问题
福岛邦彦提出的新认知机引入了使用无监督学习训练的卷积神经网络。燕乐存将有监督的反向传播算法应用于这一架构。事实上，从反向传播算法自20世纪70年代提出以来，不少研究者都曾试图将其应用于训练有监督的深度神经网络，但最初的尝试大都失败。赛普· 霍克赖特在其博士论文中将失败的原因归结为梯度消失，这一现象同时在深度前馈神经网络和递归神经网络中出现，后者的训练过程类似深度网络。在分层训练的过程中，本应用于修正模型参数的误差随着层数的增加指数递减，这导致了模型训练的效率低下。
13 /33
Reliability Research Group
问题1解决方法
Relu：
第一，对于深层网络，sigmoid函数反向传播时，很容易就会出现梯度消失的情况（在sigmoid接近饱和区时，变换太缓慢，导数趋于0，这种情况会造成信息丢失），从而无法完成深层网络的训练。第二， Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生。传统Sigmoid系激活函数稀疏性激活函数ReLU
激励函数（Activity Rule）：大部分神经网络模型具有一个短时间尺度的动力学规则，来定义神经元如何根据其他神经元的活动来改变自己的激励值。一般激励函数依赖于网络中的权重（即该网络的参数）。