深度学习-神经网络

合集下载

了解深度学习和神经网络的基本原理

了解深度学习和神经网络的基本原理深度学习和神经网络的基本原理深度学习（Deep Learning）作为人工智能领域的一个重要分支，利用神经网络来模拟人脑神经元的工作方式，实现机器对数据进行学习和理解的能力。

本文将简要介绍深度学习和神经网络的基本原理，并分点列出以下内容：1. 深度学习的基本概念- 深度学习是机器学习的一个子领域，主要以神经网络为基础，通过训练模型实现对数据的学习和预测。

- 深度学习最大的特点就是能够对大规模的数据进行处理，并从中提取有用的特征。

2. 神经网络的基本原理- 神经网络是深度学习的基石，它是由大量的神经元相互连接而成的，类似于人脑的神经元网络。

- 神经网络通常包括输入层、隐藏层和输出层。

输入层接收外部输入的数据，隐藏层通过计算和处理数据，输出层给出结果。

- 每个神经元都有多个输入和一个输出，输入通过权重和偏差进行加权求和，再经过激活函数进行处理，最后输出给下一层的神经元。

3. 深度学习的核心技术- 激活函数：激活函数在神经元中起到非线性变换的作用，常用的激活函数有sigmoid、ReLU等。

- 反向传播算法：用于对神经网络中的权重和偏差进行调整，使得神经网络的输出与实际结果更加接近。

- 损失函数：损失函数用于衡量神经网络输出结果与实际结果的差距，常用的损失函数有均方差、交叉熵等。

4. 深度学习的应用领域- 计算机视觉：深度学习在图像识别、目标检测、图像分割等方面取得了巨大的突破，例如人脸识别技术、自动驾驶等。

- 自然语言处理：深度学习在机器翻译、文本分类、情感分析等方面的应用越来越广泛，例如谷歌翻译、智能客服等。

- 语音识别：深度学习在语音识别方面具有重要的应用，例如苹果的Siri语音助手、亚马逊的Alexa等。

5. 深度学习的发展与挑战- 硬件提升：随着硬件计算能力的提升，如GPU的应用以及新型的神经网络加速器，加快了深度学习模型的训练和推断速度。

- 数据集和算法：大规模的数据集以及更加高级的算法模型，会对深度学习的发展产生积极影响。

45. 深度学习与人工神经网络的联系是什么？

45. 深度学习与人工神经网络的联系是什么？关键信息项：1、深度学习的定义与特点2、人工神经网络的概念与结构3、深度学习中人工神经网络的应用领域4、两者在算法和模型方面的相似性5、两者在数据处理和特征提取上的关联6、深度学习对人工神经网络发展的推动作用7、人工神经网络为深度学习提供的基础和启示1、引言深度学习和人工神经网络是当今人工智能领域中备受关注的重要概念。

它们之间存在着密切的联系，相互促进和影响。

深入理解两者之间的关系对于推动人工智能技术的发展和应用具有重要意义。

11 深度学习的背景和发展深度学习是一种基于多层神经网络的机器学习方法，近年来在图像识别、语音处理、自然语言处理等领域取得了显著的成果。

111 深度学习的技术突破介绍一些关键的技术突破，如大规模数据的利用、更强大的计算能力以及优化算法的改进。

112 深度学习的应用实例列举一些具体的应用场景，如自动驾驶、医疗诊断、智能推荐等，以展示其实际影响力。

12 人工神经网络的起源与演进人工神经网络的概念可以追溯到上世纪，经过多年的发展，其结构和算法不断完善。

121 早期的理论基础阐述一些早期的理论研究和实验成果。

122 现代人工神经网络的主要类型如前馈神经网络、反馈神经网络、卷积神经网络等。

2、深度学习与人工神经网络的概念解析21 深度学习的定义和核心思想详细解释深度学习如何通过多层的神经网络进行特征学习和模式识别。

211 深度学习中的层次结构说明不同层次在信息处理和特征抽象方面的作用。

212 深度学习的训练过程包括数据准备、模型构建、参数调整和优化等步骤。

22 人工神经网络的基本原理介绍神经元的工作机制、网络的连接方式以及信号传播和处理的过程。

221 人工神经网络的学习规则如误差反向传播算法、随机梯度下降等。

222 人工神经网络的拓扑结构分析不同拓扑结构对网络性能和功能的影响。

3、两者在算法和模型方面的相似性31 共同的数学基础例如线性代数、概率论、微积分等在两者中的应用。

神经网络与深度学习的区别

神经网络与深度学习的区别神经网络与深度学习是机器学习领域内的两个重要概念。

对于非专业人士来说，这两个概念可能会混淆。

虽然两者密不可分，但仍然有着显著的区别。

在本文中，我们将探讨神经网络与深度学习的这些区别。

神经网络是一种模仿人类神经系统结构与功能的计算机系统。

它由互相连接的节点组成，节点分别代表着人类大脑中的神经元。

神经网络的基本思想是，通过一系列大量的计算处理、模型迭代，使得神经网络学习到具有普遍性的规律，并能够推广至新的数据集中。

一个神经网络通常跨越多个层次，每层子节点都有许多不同的变化方式，从而使得神经网络具有拟合复杂数据的能力。

深度学习是一种机器学习的技巧，名称来源于其使用的深度神经网络。

深度学习与传统的机器学习技术不同，传统的机器学习技术（如支持向量机（SVM）或K-最近邻（KNN））通常需要手动选择特征。

而深度学习技术不需要人为干预，它能够自动地从数据中学习到可以产生更好结果的特征，并利用这些特征来进行分类或回归等任务，从而完成复杂的数据分析。

深度学习的核心思路是“层次化”，将网络的计算过程组织为不同的抽象层，每一层的输出作为下一层的输入，满足多次非线性叠加的传递过程，从而提高模型的分类准确率。

因此，神经网络和深度学习并非等同，而是具有某些联系和区别。

首先，神经网络包含浅层、深层和反馈神经网络（如循环神经网络），而深度学习则是针对深度神经网络的。

其次，在数据特征和处理方面，神经网络一般需要人工提取特征，而深度学习则是在大量数据训练中自我提取特征，使得模型具有更强的泛化能力。

最后，在使用方面，神经网络着重于分类、回归和聚类问题，而深度学习则对模式识别、语音识别、图像识别和自然语言处理等方面有很好的应用。

综上所述，神经网络和深度学习的区别在于深度学习是特别针对深度神经网络而言的，并且不需要人工手动提取特征，具有强大的模型泛化能力，能够应用于多种领域的数据分析和分类。

神经网络则更加重视数据的预处理和手动选择特征，适用于分类、回归和聚类等方面的问题。

深度学习中的神经网络优化算法

深度学习中的神经网络优化算法深度学习是一种人工智能技术，已经被广泛应用于计算机视觉、自然语言处理等领域。

在深度学习中，神经网络是最常用的模型之一。

而神经网络的训练过程，通常需要通过优化算法来不断调整模型参数。

本文将介绍深度学习中常用的神经网络优化算法。

1. 梯度下降法梯度下降法是神经网络训练中最常用的优化算法之一。

它基于每个参数的梯度大小来不断更新参数，直到找到某个局部极小值点。

具体来说，它首先计算代价函数（loss function）对每个参数的偏导数，然后根据负梯度方向不断调整参数。

该方法被广泛应用于深度学习中的监督学习。

2. 随机梯度下降法随机梯度下降法是梯度下降法的一种变体。

它每次只使用随机选择的一部分数据计算梯度，然后更新参数。

该方法的优点在于速度更快，能够更快地找到某个局部极小值点。

但缺点是由于使用随机的数据，参数更新较为不稳定，可能会出现震荡，难以达到全局最优解。

3. 动量法动量法是一种优化梯度下降法的方法。

它通过累积之前的梯度信息，给予当前梯度更大的权重。

该方法可以加速训练过程，减少震荡。

具体来说，动量法引入了一个动量因子，用来指示在当前一步更新之前，过去更新的方向和大小。

4. 自适应学习率算法自适应学习率算法是一种能够自动调整学习率的优化算法。

在深度学习中，学习率是影响训练速度和结果的关键因素之一。

传统的梯度下降方法中，通常需要人工设置学习率，而自适应学习率算法则可以根据梯度大小自动调整学习率。

典型的算法包括AdaGrad、RMSProp和Adam等。

5. 梯度裁剪梯度裁剪是为了解决梯度爆炸和消失的问题而提出的方法。

在深度神经网络中，梯度通常会出现向无穷大或零趋近的情况，导致训练不稳定。

梯度裁剪通过限制每个梯度的绝对值来避免这种问题的出现，以保证网络的稳定和鲁棒性。

总结以上介绍了深度学习中常用的神经网络优化算法，每种算法都有其独特的优点和适用范围。

在实际应用中，通常需要根据具体任务的特点选择恰当的算法。

深度学习和神经网络的关系

深度学习和神经网络的关系随着人工智能技术的不断发展，深度学习和神经网络的研究成为了人工智能领域的两个热门话题。

那么，深度学习与神经网络之间有何关系呢？深度学习是一种基于多层神经网络结构的机器学习技术，其最基本的思想就是通过神经网络来描述多层次的非线性关系，从而达到对数据的高效建模和预测。

而神经网络则是一种模仿人类神经系统功能的计算模型，通过互相连接的节点以及这些节点之间的权重来模拟人类神经元之间的相互作用。

因此，深度学习和神经网络是紧密相关的两个领域。

深度学习的核心理念在于构建多层的神经网络结构，在每一层中学习到更高级别的特征表示，并最终对整个数据集进行训练和预测。

深度学习算法通过大量的训练数据、优秀的特征表示以及高效的优化算法，可以有效地解决分类、回归和生成等多种机器学习任务。

而神经网络则是深度学习算法的计算基础，它提供了一种强大且灵活的方法来组织和处理复杂的数据集，例如图像、视频、音频和自然语言文字等等。

简单来说，深度学习是有关神经网络的一系列算法，而神经网络则是深度学习算法的计算引擎。

深度学习属于人工智能的范畴，而神经网络则是深度学习的重要工具。

深度学习和神经网络之间的紧密联系使得它们都成为人工智能领域的重要研究方向。

事实上，现在很多深度学习中的重要算法都是基于神经网络设计的，例如卷积神经网络、循环神经网络和自编码器等。

此外，深度学习和神经网络也广泛应用于自然语言处理、计算机视觉、语音识别和机器人学等领域。

总之，深度学习和神经网络之间的关系是紧密相关的，两者相互依存、相辅相成。

深度学习算法的快速发展离不开神经网络这一重要的计算引擎，而神经网络的高效应用也受益于深度学习算法的不断进步。

随着人工智能技术的不断发展，相信深度学习和神经网络仍将在未来的研究中发挥着重要作用。

深度学习与神经网络

深度学习与神经网络深度学习和神经网络是近年来在人工智能领域取得重大突破的两个概念。

它们的出现改变了传统机器学习的方式，为我们提供了更强大、更高效的算法和模型。

本文将介绍深度学习与神经网络的基本概念和原理，并探讨它们在各个领域的应用。

一、深度学习的基本概念深度学习是一种基于神经网络模型的机器学习方法。

它的核心思想是通过多层次、逐层抽象的方式，从数据中自动学习特征，并用于任务的求解。

与传统机器学习相比，深度学习能够处理大规模的数据集，并能够自主学习和提取复杂高级特征。

神经网络是深度学习的基本构件，它是由人工神经元相互连接而成的网络模型。

神经网络的节点称为神经元，它们通过权重、偏置和激活函数来计算输入信号的输出。

通过调整权重和偏置，神经网络能够自我适应地学习和调整参数，达到更好的拟合数据和解决问题的效果。

二、深度学习的原理与算法深度学习的原理基于反向传播算法。

反向传播算法通过计算误差的梯度，以梯度下降的方式，不断调整神经网络的参数，使得网络输出尽可能接近实际标签。

例如，在图像识别任务中，反向传播算法能够让神经网络自动学习到图像的边缘、纹理等特征。

为了提高神经网络的性能和训练效率，人们提出了一系列深度学习算法和模型。

其中，卷积神经网络（CNN）是处理图像和视觉任务的经典模型；循环神经网络（RNN）则适用于语言处理和时序数据分析；生成对抗网络（GAN）则能够生成逼真的图像样本。

这些模型的结构和算法都经过不断改进和优化，使得深度学习在多个领域中都取得了令人瞩目的成果。

三、深度学习的应用领域深度学习的应用领域非常广泛，包括计算机视觉、自然语言处理、语音识别、医学影像分析等多个方向。

在计算机视觉中，深度学习可以用于图像分类、物体检测、人脸识别等诸多任务。

在自然语言处理中，深度学习能够实现文本分类、机器翻译、情感分析等任务。

在医疗领域，深度学习可以帮助医生进行病理判断、癌症检测等。

这些应用不仅提高了工作效率，也改善了我们的生活质量。

深度学习神经网络的特点与优势

深度学习神经网络的特点与优势深度学习神经网络，作为一种机器学习和人工智能的领域，近年来受到了广泛的关注与研究。

它以人脑神经网络为模型，通过多层的神经元进行信息传递和处理，具有许多独特的特点和优势。

本文将探讨深度学习神经网络的特点与优势，并分析其在不同领域的应用。

一、特点：1. 多层结构：深度学习神经网络由多个层次的神经元组成，每一层都负责特定的功能和信息处理任务。

通过这种多层结构，网络可以逐层学习并提取数据的高级特征，从而实现更加准确和复杂的预测和分类。

2. 自动特征学习：与传统的机器学习方法相比，深度学习神经网络具有自动学习特征的能力。

它能够通过训练数据自行学习提取特征，不需要人工指定具体的特征参数。

这种自动特征学习的能力使得深度学习网络在处理大规模和复杂数据时更加高效和精确。

3. 非线性模型：深度学习神经网络采用非线性的激活函数，使得网络能够建模和处理非线性关系。

这种非线性模型能够更好地适应现实世界中的复杂问题，并提供更准确的预测和分类。

4. 并行计算：深度学习神经网络可以通过并行计算的方式进行训练和推理，在处理大规模数据和复杂模型时具有较高的计算效率。

这种并行计算能力使得深度学习在大数据环境下展现了巨大的潜力。

二、优势：1. 强大的预测能力：深度学习神经网络通过学习大量数据中的模式和规律，可以对未知数据进行预测和分类。

它能够从复杂的数据中提取高级特征，进而实现更准确的预测，如图像识别、语音识别等。

2. 大规模数据处理：深度学习神经网络擅长处理大规模的数据，可以从海量数据中学习和挖掘有用的信息。

这对于处理互联网、社交媒体等数据密集型应用具有重要意义，如推荐系统、广告优化等。

3. 强抗噪能力：在现实世界中，数据常常带有噪声和不完整性。

深度学习神经网络通过学习大量的数据，可以从中识别和过滤噪声，提高模型的鲁棒性和泛化能力。

4. 可解释性和可视化：深度学习神经网络的内部结构可以通过可视化技术呈现出来，使得模型的学习过程和决策过程更加可解释。

深度学习神经网络

我们希望所建立的网络可以尽可能的满足这些不变性特点。为了理解卷积神经网络对这些不变性特点的贡献，我们将用不具备这些不变性特点的前馈神经网络来进行比较。
图片识别--前馈神经网络
方便起见，我们用depth只有1的灰度图来举例。想要完成的任务是：在宽长为4x4 的图片中识别是否有下图所示的“横折”。图中，黄色圆点表示值为0的像素，深色圆点表示值为1的像素。我们知道不管这个横折在图片中的什么位置，都会被认为是相同的横折。
例子：人脸识别
物质组成视角：神经网络的学习过程就是学习物质组成方式的过程。
增加节点数：增加同一层物质的种类，比如118个元素的原子层就有118个节点。
增加层数：增加更多层级，比如分子层，原子层，器官层，并通过判断更抽象的概念来识别物体。
2.3、神经网络的训练
神经网络的学习过程就是学习控制着空间变换方式（物质组成方式）的权重矩阵 W ，那如何学习每一层的权重矩阵 W 呢？
因为环境的变化是随机的，所以进化并没有方向，但是却有增加差异性的趋势。通过自我复制的方式，能够产生的差异性还是较弱。所以自然界慢慢的开始形成了有性繁殖，两个不同的个体进行交配，增加子代的差异性。但是有性繁殖使得大范围移动成为了必然需求。环境会随着移动而变化，个体在上一环境中通过自然学习所学习到的关联，在下一个环境并不适用。
▪
▪
▪
运用BP算法的多层前馈神经网络神经网络实例：
▪
1
0
1
0.2
0.4
-0.5
-0.3
0.1
0.2
-0.3
-0.2
-0.4
0.2
0.1
▪
▪
省去中间计算过程，最后得到第一轮训练之后的新的权重与阈值：

深度学习与神经网络的区别与联系

深度学习与神经网络的区别与联系在当今人工智能的浪潮中，深度学习和神经网络是两个备受关注的话题。

虽然有很多人认为这两个名词是同义词，但实际上它们有着明显的区别和联系。

本文将从各个方面深入探讨深度学习和神经网络的异同点，希望能够帮助读者更好地理解这两个概念。

1.定义深度学习是一种机器学习模型，它通过一系列的计算单元来模拟人类神经元的工作原理，进行信息的处理和学习。

而神经网络是一个由许多神经元组成的网络，其中每个神经元都有一些输入和一个输出。

神经网络的基本结构是由一个输入层、若干个隐藏层和一个输出层组成的。

2.结构从结构上来看，深度学习与神经网络有着明显的不同。

深度学习模型可以包含多个层次，一般包括输入层、多个隐藏层和输出层。

而神经网络的层数相对较少，一般只包含一个或几个隐藏层。

这也意味着深度学习模型可以处理更加复杂的数据结构和任务，而神经网络的能力相对较弱。

3.计算原理深度学习利用反向传播算法进行训练，这种算法能够根据实际输出与预期输出之间的误差，来调整网络中每个神经元之间连接的权值，从而达到最小化误差的目的。

而神经网络的计算原理与深度学习比较相似，但是神经网络训练的过程中一般采用基于梯度下降法的反向传播算法。

4.应用场景深度学习在图像处理、自然语言处理等领域具有很广泛的应用，例如图像分类、语音识别等，在这些领域中深度学习模型取得了非常好的效果。

而神经网络的应用场景相对较为狭窄，一般只应用于图像处理等相对简单的任务。

5.优劣势分析深度学习相对于神经网络的优势在于其更加高级的结构和学习能力，可以处理更加复杂的数据结构和任务。

但同时也存在着训练时间较长、过拟合等问题。

而神经网络的优势在于其简洁的结构和速度快的训练过程，但其在处理复杂数据结构和复杂任务时表现相对较差。

6.未来发展趋势随着深度学习和神经网络的不断发展，两者之间的界限也随之模糊。

未来的研究将更加关注深度学习和神经网络之间的融合和优化，以达到更加高效和强大的人工智能模型。

神经网络和深度学习的关系

神经网络和深度学习的关系
近年来，神经网络和深度学习技术在计算机及相关领域取得了重大突破，它们也正在影响着许多不同领域的发展。

那么，神经网络和深度学习到底有何关系?
从定义上来看，神经网络是一个涉及多层神经元的模型，它可以通过调整其内部参数来实现强大的功能。

在这里，神经元可以用来储存和处理任何数据和信号，这使得它可以在大量的数据下解决复杂的问题。

它可以被用于处理各种不同的任务，包括自动驾驶、图像处理和自然语言处理等。

而深度学习技术则是基于神经网络技术的一种更加强大的技术。

深度学习技术可以在大量的数据和大量的复杂模型结构下实现比例
制和非比例制学习，从而使其具备更强大的功能。

它可以用于自动驾驶、计算机视觉任务和自然语言处理等许多领域。

因此，神经网络和深度学习技术之间有着密切的关系，神经网络是驱动深度学习技术的基础，而深度学习则是在神经网络技术之上发展起来的一种更加强大的技术。

借助深度学习，研究人员可以处理更复杂和更大规模的任务，这是神经网络技术所不能做到的。

此外，深度学习也有助于提高神经网络的性能。

结合深度学习技术，研究人员可以应用许多先进的方法，比如机器学习、自适应优化和自监督学习，来最大限度地利用神经网络的潜力，使它能够有效地处理更复杂的任务。

因此，神经网络和深度学习之间存在着千丝万缕的联系，神经网
络是深度学习发展的基础，而深度学习也可以提高神经网络的性能。

而如何更好地利用这两项技术，也是计算机和相关领域研究人员当前面临的课题之一。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

进化核心:繁殖、变异、筛选的动态循环关键在于，关联的更新速度>环境的变化速度。
刚才的描述是蛋白质层面上的低等智能，通过自我繁殖来进行进化。自然界无法瞬间产生特别复杂的功能，高等智能都是由低等智能迭代生成的。高等智能最具代表性的就是可以思考。但是思考的原理实在难以解读。还是用老方法，转而问为什么会进化出意识允许我们思考，它能够解决什么问题？因为环境的变化是随机的，所以进化并没有方向，但是却有增加差异性的趋势。通过自我复制的方式，能够产生的差异性还是较弱。所以自然界慢慢的开始形成了有性繁殖，两个不同的个体进行交配，增加子代的差异性。但是有性繁殖使得大范围移动成为了必然需求。环境会随着移动而变化，个体在上一环境中通过自然学习所学习到的关联，在下一个环境并不适用。
需要新的学习方式：
•生长周期：无法自然选择试错 • 大脑模拟：预测未来事件 • 神经网络：寻找过去事件到未来事件的关联f (任意两个空间)
2、神经网络
2.1、神经元

每层神经网络的数学理解：用线性变换跟随着非线性变化，将输入空间投向另一个空间。

每层神经网络的物理理解：通过现有的不同物质的组合形成新物质。
图片识别--卷积神经网络卷积神经网络就是让权重在不同位置共享的神经网络。
局部连接
空间共享
过滤器是共享的。
输出表达
如先前在图像表达中提到的，图片不用向量去表示是为了保留图片平面结构的信息。同样的，卷积后的输出若用上图的排列方式则丢失了平面结构信息。所以我们依然用矩阵的方式排列它们，就得到了下图所展示的连接：
Sigmoid
此外，sigmoid函数的输出均大于0，使得输出不是0均值，这称为偏移现象，这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。
Tanh
ReLU
可以看到，当x<0时，ReLU硬饱和，而当x>0时，则不存在饱和问题。所以， tanh也是一种非常常见的激活函数。 ReLU 能够在x>0时保持梯度不衰减，与sigmoid相比，它的输出均值是0，从而缓解梯度消失问题。然而，随着使得其收敛速度要比sigmoid快，减少训练的推进，部分输入会落入硬饱和迭代次数。然而，从途中可以看出，区，导致对应权重无法更新。这种现 tanh一样具有软饱和性，从而造成梯象被称为“神经元死亡”。度消失。
0 -0.3 -0.4

1 0.1 0.2
0.2 0.2 0.1
0.4 -0.3

省去中间计算过程，最后得到第一轮训练之后的新的权重与阈值：
0.192
-0.306 0.4
0.1 -0.508 0.194 -0.261 -0.138 0.218 0.194 -0.408
4.1、视觉感知
4.1.1、画面识别是什么任务？卷积神经网络最初是服务于画面识别的，所以我们先来看看画面识别的实质是什么。
通过上面的两组对比图可以知道，即便是相同的图片经过不同的视觉系统，也会得到不同的感知。任何视觉系统都是将图像反光与脑中所看到的概念进行关联。画面识别实际上是寻找（学习）人类的视觉关联方式��，并再次应用。
4.1.2、图片被识别成什么取决于哪些因素？
图片被识别成什么不仅仅取决于图片本身，还取决于图片是如何被观察的。
3.2.4、具体流程
①
② ③ ④ ⑤ ⑥
收集训练集：也就是同时有输入数据以及对应标签的数据。
设计网络结构：确定层数、每一隐藏层的节点数和激活函数，以及输出层的激活函数和损失函数。数据预处理：将所有样本的输入数据和标签处理成能够使用神经网络的数据，标签的值域符合激活函数的值域。权重初始化：每层的权重在训练前不能为空，要初始化才能够计算损失值从而来降低。训练网络：训练过程就是用训练数据的输入经过网络计算出输出，再和标签计算出损失，再计算出梯度来更新权重的过程。预测新值：训练过所有样本后，打乱样本顺序再次训练若干次。训练完毕后，当再来新的数据输入，就可以利用训练的网络来预测了。
上面是一层神经网络可以做到的，如果把一层神经网络的输出当做新的输入再次用这5种操作进行第二遍空间变换的话，网络也就变为了二层。设想网络拥有很多层时，对原始输入空间的“扭曲力”会大幅增加，如下图，最终我们可以轻松找到一个超平面分割空间。
当然也有如下图失败的时候，关键在于“如何扭曲空间”。所谓监督学习就是给予神经网络网络大量的训练例子，让网络从训练例子中学会如何变换空间。每一层的权重W 就控制着如何变换空间，我们最终需要的也就是训练好的神经网络的所有层的权重矩阵。线性可分视角：神经网络的学习就是学习如何利用矩阵的线性变换加激活函数的非线性变换，将原始输入空间投向线性可分/稀疏的空间去分类/回归。增加节点数：增加维度，即增加线性转换能力。增加层数：增加激活函数的次数，即增加非线性转换次数。
ELU
Maxout
这个激活函数有点大一统的感觉，因为 maxout网络能够近似任意连续函数，且当 w2,b2,…,wn,bn为0时，退化为ReLU。 Maxout能够缓解梯度消失，同时又规避了 ReLU神经元死亡的缺点，但增加了参数和计算量。
融合了sigmoid和ReLU，左侧具有软饱和性，右侧无饱和性。右侧线性部分使得 ELU能够缓解梯度消失，而左侧软饱能够让ELU对输入变化或噪声更敏感。ELU的输出均值接近于零，所以收敛速度更快。
反向传播算法
• 局部极小值
梯度下降不一定能够找到全局的最优解，有可能是一个局部最优解。
解决办法：
1.调节步伐：调节学习速率，使每一次的更新“步伐”不同。（1）随机梯度下降(SGD)：每次只更新一个样本所计算的梯度（2）小批量梯度下降（MGD）：每次更新若干样本所计算的梯度的平均值（3）动量（Momentum）：不仅仅考虑当前样本所计算的梯度，还考虑到Nesterov动量（4）Adagrad、RMSProp、Adadelta、Adam：这些方法都是训练过程中依照规则降低学习速率，部分也综合动量 2.优化起点：合理初始化权重、预训练网络，使网络获得一个较好的“起始点”。常用方法有：高斯分布初始权重（Gaussian distribution）均匀分布初始权重（Uniform distribution） Glorot 初始权重、 He初始权重稀疏矩阵初始权重（sparse matrix）
2.2.2、物理视角：“物质组成” 回想上文由碳氧原子通过不同组合形成若干分子的例子。从分子层面继续迭代这种组合思想，可以形成DNA，细胞，组织，器官，最终可以形成一个完整的人。不同层级之间都是以类似的几种规则再不断形成新物质。
例子：人脸识别
物质组成视角：神经网络的学习过程就是学习物质组成方式的过程。增加节点数：增加同一层物质的种类，比如118个元素的原子层就有118个节点。增加层数：增加更多层级，比如分子层，原子层，器官层，并通过判断更抽象的概念来识别物体。
感知机（perceptron）是由两层神经元组成的结构，输入层用于接受外界输入信号，输出层（也被称为是感知机的功能层）就是MP神经元。感知机能容易的实现逻辑与、或、非运算。一般的，对于给定训练集，所需的权重以及阈值都可以通过学习得到。
感知器只能做简单的线性分类任务。
4.1多层前馈神经网络要解决非线性可分问题，就要使用多层神经网络。最基础的多层神经网络就是多层前馈神经网络。
4.2、BP算法多层网络的学习能力显然要比单层感知机强的多。但是简单的感知机学习就不够了，需要更强大的学习算法。不得不提其中最杰出、最成功的代表——误差逆传播（error BackPropagation，简称BP）算法。

运用BP算法的多层前馈神经网络神经网络实例：

1 -0.5 -0.2
2.3、神经网络的训练
神经网络的学习过程就是学习控制着空间变换方式（物质组成方式）的权重矩阵 W ，那如何学习每一层的权重矩阵 W 呢？ 2.3.1、激活函数
激活函数的主要作用是提供网络的非线性建模能力。如果没有激活函数，那么该网络仅能够表达线性映射，此时即便有再多的隐藏层，其整个网络跟单层神经网络也是等价的。因此也可以认为，只有加入了激活函数之后，深度神经网络才具备了分层的非线性映射学习能力。
图片识别--前馈神经网络
方便起见，我们用depth只有1的灰度图来举例。想要完成的任务是：在宽长为4x4 的图片中识别是否有下图所示的“横折”。图中，黄色圆点表示值为0的像素，深色圆点表示值为1的像素。我们知道不管这个横折在图片中的什么位置，都会被认为是相同的横折。
若训练前馈神经网络来完成该任务，那么表达图像的三维张量将会被摊平成一个向量，作为网络的输入，即(width, height, depth)为(4, 4, 1)的图片会被展成维度为16 的向量作为网络的输入层。再经过几层不同节点个数的隐藏层，最终输出两个节点，分别表示“有横折的概率”和“没有横折的概率”，如下图所示。

画面不变性在决定如何处理“数字长方体”之前，需要清楚所建立的网络拥有什么样的特点。我们知道一个物体不管在画面左侧还是右侧，都会被识别为同一物体，这一特点就是不变性，如下图所示：
我们希望所建立的网络可以尽可能的满足这些不变性特点。为了理解卷积神经网络对这些不变性特点的贡献，我们将用不具备这些不变性特点的前馈神经网络来进行比较。
解决办法是用大量物体位于不同位置的数据训练，同时增加网络的隐藏层个数从而扩大网络学习这些变体的能力。然而这样做十分不效率，因为我们知道在左侧的“横折”也好，还是在右侧的 “横折”也罢，大家都是“横折”。为什么相同的东西在位置变了之后要重新学习？有没有什么方法可以将中间所学到的规律也运用在其他的位置？换句话说，也就是让不同位置用相同的权重。
1.
2. 3.
可微性：当优化方法是基于梯度的时候，这个性质是必须的。