深度学习-CNN卷积神经网络

合集下载

深度学习中的卷积神经网络与循环神经网络

深度学习中的卷积神经网络与循环神经网络深度学习是目前人工智能领域最为炙手可热的技术之一，它在图像识别、语音识别、自然语言处理等领域都取得了显著的成就。

而在深度学习领域中，卷积神经网络和循环神经网络是两个重要的模型，它们在不同的任务中展现出了卓越的性能。

本文将重点介绍卷积神经网络和循环神经网络的原理、结构和应用，旨在帮助读者更好地理解这两种神经网络模型。

一、卷积神经网络(Convolutional Neural Network，CNN)1.1原理卷积神经网络是受到生物视觉系统的启发而提出的一种深度学习模型，它模拟了人类视觉皮层的工作原理。

在卷积神经网络中，包含了卷积层、池化层和全连接层等组件。

卷积层是卷积神经网络的核心组件，它通过卷积操作从输入数据中提取特征。

卷积操作可以有效地减少参数数量，并且能够捕捉数据中的局部特征。

此外，卷积操作还具有平移不变性，能够识别特征在不同位置的模式。

池化层通常紧跟在卷积层后面，它的作用是降低特征图的尺寸，并减少模型对位置的敏感度。

常见的池化操作有最大池化和平均池化，它们分别选择特征图中的最大值和平均值作为输出。

全连接层是卷积神经网络中的最后一层，它将特征图展平成一维向量，并通过全连接操作将提取的特征进行分类或回归。

1.2结构卷积神经网络通常由多个卷积层、池化层和全连接层构成，其中卷积层和池化层交替出现，而全连接层通常出现在网络的最后一部分。

卷积神经网络的结构可以根据具体的任务进行调整，以达到更好的性能。

1.3应用卷积神经网络在图像识别、物体检测、人脸识别等领域取得了巨大的成功。

以ImageNet图像识别比赛为例，卷积神经网络模型始终是各种比赛的最佳选择，它在复杂的图像数据上展现了出色的识别性能。

此外，卷积神经网络还被广泛应用于医学影像识别、自动驾驶、智能安防等领域。

二、循环神经网络(Recurrent Neural Network，RNN)2.1原理循环神经网络是一种能够处理时序数据的神经网络模型，它具有记忆能力，能够对序列数据进行建模。

深度学习网络结构解析及优化

深度学习网络结构解析及优化深度学习网络结构是指在深度学习模型中所使用的各个层次的结构，这些结构被设计用于提取特征、学习模式，并最终实现预测和分类等任务。

随着深度学习技术的快速发展，研究人员们经过长时间的探索和实践，提出了许多不同类型的网络结构，例如卷积神经网络（Convolutional Neural Network，CNN）、循环神经网络（Recurrent Neural Network，RNN）和生成对抗网络（Generative Adversarial Network，GAN）等。

本文将对深度学习网络结构进行深入解析，并介绍一些优化方法。

一、深度学习网络结构解析1. 卷积神经网络（CNN）卷积神经网络是广泛用于图像处理任务的一类深度学习网络结构。

其核心思想是通过卷积操作和池化操作来提取图像的特征，然后将这些特征输入到全连接层进行分类或回归。

CNN的结构由多个卷积层、激活函数层、池化层和全连接层组成。

2. 循环神经网络（RNN）循环神经网络是一种特殊的神经网络结构，用于处理序列数据或时间序列数据。

RNN的主要特点是在网络中引入了一个循环连接，使得网络可以在处理每个时刻的输入时考虑到之前的状态信息。

RNN的结构由输入层、隐藏层和输出层组成。

3. 生成对抗网络（GAN）生成对抗网络是由生成网络（Generator Network）和判别网络（Discriminator Network）组成的一种网络结构。

生成网络负责生成数据样本，判别网络负责判断生成的样本与真实样本的区别。

通过两个网络的对抗学习，GAN可以生成逼真的数据样本。

GAN的结构具有一定的复杂性，需要合理设计网络层次和损失函数。

二、深度学习网络结构优化方法1. 参数初始化在训练深度学习网络之前，需要对网络的参数进行初始化。

常用的参数初始化方法包括随机初始化、预训练初始化和批量正则化初始化等。

参数的合理初始化可以加速网络的收敛过程，提高学习效率。

深度学习中的主要网络结构与原理解析

深度学习中的主要网络结构与原理解析深度学习是一种机器学习方法，通过模拟人脑神经网络的结构和功能，实现对大规模数据的学习和处理。

在深度学习中，网络结构起到了至关重要的作用，不同的网络结构决定了模型的性能和学习能力。

本文将对深度学习中的主要网络结构与原理进行解析。

一、卷积神经网络（CNN）卷积神经网络是深度学习中最重要的网络结构之一，它主要用于图像和语音等二维数据的处理。

CNN的核心思想是通过卷积层、池化层和全连接层等组成，实现对图像特征的提取和分类。

其中，卷积层通过卷积操作提取图像的局部特征，池化层通过降采样操作减少参数数量，全连接层通过多层神经元实现分类任务。

CNN的优点在于能够自动学习图像的特征，减少了手动特征提取的工作量，因此被广泛应用于图像识别、目标检测等领域。

二、循环神经网络（RNN）循环神经网络是一种具有记忆功能的神经网络，主要用于序列数据的处理，如语音识别、自然语言处理等。

RNN的特点在于能够处理变长的输入序列，并通过隐藏层的循环连接实现对历史信息的记忆。

然而，传统的RNN在处理长序列时容易出现梯度消失或梯度爆炸的问题，限制了其在实际应用中的效果。

为了解决这个问题，研究者提出了长短期记忆网络（LSTM）和门控循环单元（GRU）等变种结构，有效地解决了梯度问题，提升了RNN在序列数据处理中的表现。

三、生成对抗网络（GAN）生成对抗网络是一种通过对抗训练的方式生成新的数据样本的网络结构。

GAN 由生成器和判别器两个部分组成，生成器通过学习真实数据的分布，生成与之相似的新样本，判别器则通过判断样本的真实性来提供反馈。

通过不断迭代训练，生成器和判别器的性能逐渐提升，最终生成器能够生成逼真的新样本。

GAN的应用非常广泛，如图像生成、图像修复、图像风格转换等。

四、自编码器（Autoencoder）自编码器是一种无监督学习的神经网络结构，主要用于数据的降维和特征提取。

自编码器由编码器和解码器两部分组成，编码器将输入数据映射到低维的隐藏层表示，解码器则将隐藏层表示重构为原始数据。

深度学习技术中的卷积神经网络结构和特点解析

深度学习技术中的卷积神经网络结构和特点解析卷积神经网络（Convolutional Neural Network，CNN）是当今深度学习技术中最重要的模型之一。

它被广泛应用于计算机视觉、自然语言处理、语音识别等领域。

本文将解析卷积神经网络的结构和特点，帮助读者更好地理解和运用这一强大的深度学习工具。

一、卷积神经网络的结构卷积神经网络由多层神经网络组成，每一层由多个神经元组成。

其中，最重要的几层是卷积层（Convolutional Layer）、池化层（Pooling Layer）和全连接层（Fully Connected Layer）。

1. 卷积层：卷积层是卷积神经网络的核心层之一。

它通过使用一组可学习的滤波器（或称为卷积核）对输入数据进行卷积操作，并生成特征图（Feature Map）。

卷积操作通过在输入数据中滑动卷积核，并在每个位置上执行点乘运算，得到对应位置的特征。

卷积层的特点在于共享权重。

这意味着在同一层的不同位置使用的卷积核是相同的，因此卷积层的参数量大大减少，使得网络更加简化。

2. 池化层：池化层用于对卷积层的特征进行降维和抽象。

它通过固定大小的滑动窗口在特征图上进行采样，并将采样结果汇聚为一个值。

常见的池化方法有最大池化和平均池化。

池化层能够减少参数数量，降低过拟合的风险，同时也增强特征的不变性和鲁棒性，使得网络对于输入数据的微小变化具有更好的鲁棒性。

3. 全连接层：全连接层是卷积神经网络的最后一层，也是输出层。

它将前面的隐藏层与最终的分类器相连，将特征转化为概率或标签。

全连接层的每个神经元与前一层中的所有神经元都有连接关系。

全连接层的作用是将抽取到的特征与实际标签进行匹配，从而进行最终的分类判断。

二、卷积神经网络的特点1. 局部感知性：卷积神经网络通过卷积操作对输入数据进行特征提取，并利用池化操作定位和提取最显著的特征。

这种局部感知性使得网络对于局部信息具有更好的提取和理解能力。

深度学习模型和算法分析

深度学习模型和算法分析深度学习在计算机视觉、自然语言处理、语音识别等领域取得了很大的成功，而深度学习模型和算法正是深度学习的核心。

本文将从深度学习模型和算法的角度分析深度学习技术。

一、深度学习模型深度学习模型是指神经网络模型，神经网络模型是由许多神经元组成的，每个神经元都有多个输入和一个输出。

神经元的输入和输出可以是数字、图像、文本等多种形式。

神经元通过输入和输出之间的关系进行计算，通过改变神经元之间的连接来实现不同的计算任务。

1. 卷积神经网络(CNN)CNN是深度学习中最重要的模型之一，其主要应用于计算机视觉领域。

CNN的核心思想是“权值共享”，即对于输入数据的不同局部，使用相同的卷积核来提取特征。

CNN通过多个卷积层进行特征提取，再通过全连接层进行分类或回归。

2. 递归神经网络(RNN)RNN是一种序列模型，能够对序列数据进行建模，是自然语言处理和语音识别领域非常重要的模型。

RNN通过记住之前的信息来处理序列数据。

它通过将先前的状态和当前输入进行组合，生成当前状态和输出。

3.生成对抗网络(GAN)GAN是一种生成模型，其核心思想是通过生成器和判别器两个模型进行对抗学习。

生成器用于生成新的数据，判别器用于对真实数据和生成的数据进行判别。

两个模型进行对抗学习，使得生成器可以生成更逼真的数据。

二、深度学习算法深度学习算法是指用于训练神经网络的算法，深度学习算法的选择和调整对神经网络的训练效果有很大的影响。

1.反向传播算法反向传播算法是目前深度学习中最常用的算法，用于训练神经网络，在训练时利用误差信号来反向传播更新神经网络的权重和偏置。

反向传播算法通过链式法则来计算误差信号的梯度，再利用梯度下降算法来更新神经网络的参数。

2.随机梯度下降算法(SGD)SGD是一种常用的最优化算法，用于最小化损失函数。

SGD 在每一次迭代中随机选取一部分样本来计算梯度，再根据梯度更新模型参数。

与传统的梯度下降算法不同，SGD可以应用于大规模数据集，因为它只计算一部分数据的梯度。

深度学习中的卷积神经网络与循环神经网络

深度学习中的卷积神经网络与循环神经网络深度学习已经成为了人工智能技术领域的热点，它涉及到很多的算法和模型，其中卷积神经网络和循环神经网络是两种广泛应用的模型，它们分别对应于不同的应用场景。

一、卷积神经网络卷积神经网络，英文名Convolutional Neural Network，简称CNN，是一种非常适合图像处理领域的算法模型。

CNN主要是用来解决图像分类、目标检测等问题，它采用了一种称为卷积的运算来处理图像数据。

卷积操作是将一组滤波器应用于图像的不同部分，生成一组新的图像特征，这样可以减少图像的冗余、提取出更加本质的图像信息。

CNN的基本结构由卷积层、池化层和全连接层组成，其中卷积层是CNN的核心组成部分。

在卷积层中，由于图像是二维的，滤波器大小也是二维的，即宽和高都有一个大小，也称为卷积核。

卷积核可以应用于图像的不同部分，并生成一组新的特征图。

池化层的作用是对特征图进行下采样操作，减小特征图的大小，同时保留最显著的特征。

全连接层则将池化层得到的特征图进行分类或检测。

CNN与传统的神经网络相比，最大的优点就是能够处理局部图像信息，提取出图像中的特征。

而其在处理图像数据方面的卓越表现，也使其被广泛应用于自然语言处理和语音处理等领域。

二、循环神经网络与CNN不同，循环神经网络（Recurrent Neural Network，RNN）主要用于解决序列数据方面的问题，例如语音识别、文本生成、机器翻译等。

与CNNS的卷积核对图像进行局部处理不同，RNN是对序列数据进行处理，通过对前几个时刻的输入进行处理，得出当前时刻的输出结果，同时还可以利用当前时刻的结果影响后续的输出结果。

RNN由一系列的时间步组成，每个时间步都会产生一个输出和一个隐藏状态。

其中隐藏状态会被传递到下一个时间步，从而实现信息的传递。

RNN中最常用的模型是长短时记忆网络（Long Short-Term Memory，LSTM），它可以在长时间序列上保存和传递信息，解决了传统RNN存在的“梯度消失”和“梯度爆炸”问题。

深度学习技术中卷积神经网络的参数设置

深度学习技术中卷积神经网络的参数设置深度学习技术中卷积神经网络（Convolutional Neural Network, CNN）是一种广泛应用于计算机视觉和自然语言处理等领域的深度学习模型。

卷积神经网络的参数设置对于网络性能的影响至关重要，正确的参数设置可以显著提高网络的准确性和效率。

卷积神经网络的参数主要包括卷积核大小、步长、填充、通道数等。

在设置这些参数时，需要综合考虑网络的结构、数据集以及任务的要求。

首先，卷积核大小是一个重要的参数，它决定了卷积层中感受野的大小。

对于图像处理任务，通常选择较小的卷积核，例如3x3或5x5，可以提取更细粒度的特征。

而对于文本处理任务，较大的卷积核，例如1x10或1x20，可以捕捉更长的特征。

在设置卷积核大小时，需要根据任务的特性选择合适的大小。

其次，步长是控制卷积层输出的尺寸缩小程度的参数。

较大的步长可以减小输出特征图的尺寸，加速计算，但可能会导致信息丢失。

小的步长可以保留更多的信息，但计算成本较高。

在选择步长时，需要根据任务的要求和网络的设计进行权衡。

填充是指在输入特征图周围添加0值像素，以保持输出特征图的尺寸与输入一致。

常见的填充方式有'valid'和'same'两种。

'valid'表示不填充，输出特征图的尺寸会缩小；'same'表示填充，输出特征图的尺寸与输入一致。

填充的选择与任务和网络结构有关。

对于需要保留边缘信息的任务，可以选择适当的填充。

通道数是指卷积核的数量，也可被视为输出特征图的深度。

较多的通道数可以增加网络的容量，提高学习能力，但也会增加计算复杂度。

对于复杂的任务或大规模数据集，可以选择较多的通道数。

而对于简单的任务或小规模数据集，可以适当减少通道数。

除了上述参数，还有一些其他的参数设置也有一定的影响。

例如激活函数的选择、池化操作的方式、网络的层数和宽度等。

在实际的应用中，这些参数需要考虑任务的特点和数据集的属性，通过实验调优来找到最佳的参数设置。

神经网络与卷积神经网络(CNN)

神经网络与卷积神经网络（CNN）神经网络和卷积神经网络（Convolutional Neural Network, CNN）是两种常用的深度学习模型，被广泛应用于图像识别、语音识别、自然语言处理等领域。

本文将介绍神经网络和CNN的原理、应用以及优缺点。

一、神经网络神经网络是一种模拟人脑神经元间连接的计算模型，由输入层、隐藏层和输出层组成。

每个神经元接收上一层神经元传递的信息，并通过激活函数进行非线性变换，最终计算出输出结果。

通过不断调整神经元之间的连接权重，神经网络能够学习并逼近复杂的非线性函数。

神经网络的训练通常基于梯度下降算法，通过最小化损失函数，反向传播误差更新权重。

训练完成后，神经网络可以用于预测和分类任务。

神经网络的优点在于可以处理非线性关系，具有强大的逼近能力。

然而，它在图像处理任务上的表现并不理想，主要因为传统的神经网络无法充分利用图像的空间结构信息。

二、卷积神经网络（CNN）卷积神经网络是一种专门用于处理二维结构数据（如图像）的深度学习模型。

与传统神经网络不同的是，CNN引入了卷积层和池化层，通过局部感知和参数共享的方式提取图像的特征。

卷积层利用一组可学习的卷积核对输入数据进行卷积操作，提取出不同位置的特征。

卷积核的参数共享使得CNN对输入数据的平移不变性更强，可以减少模型的复杂性。

池化层则负责对卷积结果进行下采样，减小特征图的尺寸。

常用的池化操作有最大池化和平均池化，能够提取更具有鲁棒性的特征。

除了卷积层和池化层，CNN通常还包括全连接层和激活函数。

全连接层用于将特征图转化为分类结果，激活函数引入非线性变换。

CNN在图像处理任务上具有突出优势。

通过卷积和池化操作，CNN能够自动提取出图像的局部特征和整体形状，并且具有一定的平移不变性和尺度不变性。

三、神经网络与CNN的应用比较1. 图像识别：神经网络在图像识别上的表现相对较差，因为它不能有效利用图像的空间结构信息。

而CNN能够通过卷积和池化操作提取图像特征，具有更好的识别准确率。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

这里的Roberts算子只是一个一阶算子，提取的边缘信息还很有限，还有其他的二阶算子，比如拉普拉斯算子。而且这里Roberts算子只提取了某个像素对角线的梯度，而没有提取垂直方向和水平方向的梯度，所以还有其他的算子用于提取多个方向梯度，比如Sobel算子，Prewitt 算子等。
-1 0
0 1
Convolutional Layer
convolution
pooling
sparse connectivity
parameter sharing
equivariant representation
卷积层--convolution
池化层--pooling
全连接层—fully connected
Convolutional Layer
Convolution
右图的卷积核大小是2乘以2的，这可以看成是一个Roberts边缘检测算子，和左面的Input中的 2*2矩阵做卷积运算相当于对点e的边缘检测。 Roberts算子是一种最简单的算子，它利用局部差分算子来寻找边缘信息，它采用对角线方向相邻两像素之差来近似梯度检测边缘。
这里的Roberts算子只是一个一阶算子，提取的边缘信息还很有限，还有其他的二阶算子，比如拉普拉斯算子。而且这里Roberts算子只提取了某个像素对角线的梯度，而没有提取垂直方向和水平方向的梯度，所以还有其他的算子用于提取多个方向梯度，比如Sobel算子，Prewitt 算子等。
Convolution
CNN的一个重要操作卷积是CNN的核心思想，就是这个卷积有效的提取了图像特征用于后面的图像识别。右图就是一个2维卷积的示意图，这里因为是离散的卷积，所以可以直接把卷积理解为矩阵相乘，即两个矩阵相乘，一个是输入矩阵，一个是卷积核矩阵。输入矩阵一般都表示二维的输入图像，而卷积核其实可以理解为图像处理里面的算子，比如这些算子可以实现一些边缘检测或者高斯模糊的效果，那么其实卷积操作可以理解为对图像进行一些特征处理。如图所示，一个卷积操作就是指卷积核和同样大小的一个图像矩阵相乘，然后再向下或者向右滑动卷积核，执行下一个卷积操作。这样用卷积核在整个图像上面滑动一遍便生成了一个卷积层。
Parameters
C1有156个参数：(5*5+1)*6=156
S2有12个参数：因为S2中每个map中的每个点都与C1的四个点相连接进行池化，一般做完池化操作比如取最大或平均，还要乘以一个数，再加一个bias，再非线性变换 C3有1516个参数：C3也是通过5*5的卷积核由14*14的map得到10*10的map，不过这里连接方式有点复杂，共有(5*5*3+1)*6+(5*5+1)*6+(5*5*4+1)*3+(5*5*6+1)*1=1516个参数。 S4有32个参数：因为有16个池化层，每层都要两个参数，一个池化函数的系数和一个偏置 C5有48120个参数：(5*5*16+1)*120=48120 F6有10164个参数：120+1)*84=10164 output840个参数：84*10=840 共有60,840个参数
上图就是max pooling导致的局部平移不变性，我们可以看到下面的卷积层的输入向右平移了一个神经元，即输入层对应神经元的值都变了，可是上面的pooling层的值只有部分改变了。这里只是对一个feature map做池化，其实对多个feature map做池化还可能解决旋转不变性的问题。
Pooling Layer
Convolutional Layer
convolution
pooling
sparse connectivity
parameter sharing
equivariant representation
卷积层--convolution
池化层--pooling
全连接层—fully connected
Fully-connected Layer
ResNet(2015)—champion of ILSVRC 2015
上述这些神经网络一个很重要的趋势就是deeper，其中ResNet的深度是AlexNet的20倍，是 VGGNet的8倍。随着深度的增加，网络能够更好的逼近非线性目标方程，并且能够学习到更加有效的特征。当然这也增加了模型的复杂度，使得模型很难训练并且容易过拟合。所以有很多方法被提出来用于解决CNNs的训练和过拟合问题。
0 1
-1 0
Sparse Connectivity
这么做是有道理的，就是根据一些生物学的研究我们的视觉感知细胞其实是局部感知的，比如我们用很小的卷积核来提取整幅图像的布局边缘信息，这时候采用全连接的意义并不大，不能学到很好的图像特征信息，而且模型复杂度还很高。
上图中红色框里面的表示稀疏连接上图中蓝色框里面表示非稀疏连接
我们现在了解了卷积操作和稀疏连接以及权值共享的思想，由这些其实就可以产生卷积层了。因为权值共享，即一个卷积核其实只能提取图像的一种特征，那想要提取图像的多种特征，就需要多个卷积核，每一个卷积核产生一个feature map，如下图是LeNet-5，它的第一个卷积层含有6的feature map，每一个feature map对应一个卷积核，也就对应提取了图像的一种特征。这里注意最终的feature map并不是做完卷积后的结果，然后还要加一个非线性激活的操作，一般用ReLU函数，这个过程一般叫做detector stage。
-1 0
0 1
0 1
-1 0
Convolution
右图的卷积核大小是2乘以2的，这可以看成是一个Roberts边缘检测算子，和左面的Input中的 2*2矩阵做卷积运算相当于对点e的边缘检测。 Roberts算子是一种最简单的算子，它利用局部差分算子来寻找边缘信息，它采用对角线方向相邻两像素之差来近似梯度检测边缘。
经过几次的卷积以及池化操作，网络得到了C5层，它由120个神经元组成，F6即为全连接层和 FNN一样。共有(120+1)*84个参数。注意这里F6层最后还要做一次sigmoid非线性变换，最后得到一个84维的二值向量。最后一层是由欧式径向基函数单元组成，每类1个单元，每个单元有84个输入。即每个RBF单元计算输入向量和参数向量之间的距离，距离越远，RBF越大。最后损失函数就是F6层的神经元与某个RBF神经元的输入权值的差，目标是最小化这个差值。这种表示方法其实对仅仅识别数字不是很有用，但是如果想要识别ASCII集中的字符很有用。
池化层--pooling
全连接层—fully connected
CNN-Overview
卷积神经网络是一种受到视觉感知机制启发的深度学习结构。1959年Hubel和Wiesel发现动物的视觉皮质细胞负责在感知域内探测光照，受其启发，1980年Kunihiko Fukushima提出了一种新型认知机并被认为是CNN的先驱。 1990年，LeCun发表了一篇奠定现在CNN结构的重要文章，他们构建了一个叫做LeNet-5的多层前馈神经网络，并将其用于手写体识别。就像其他前馈神经网络，它也可以使用反向传播算法来训练。它之所以有效，是因为它能从原始图像学习到有效的特征，几乎不用对图像进行预处理。然而由于当时训练数据量的缺乏以及计算能力的不足，LeNet-5无法在复杂问题上表现的很好，比如大规模图像分类以及视频分类处理。自2006年以来，又有很多方法被提出来以克服在训练 deep CNNs时遇到的困难。其中很重要的一个是AlexNet 网络，它和LeNet-5很相似，但是在图像分类任务上有了很大的提升。随着AlexNet的成功，又有很多新的神经网络被提出来以提升它的性能。
我们可以看到，假设上面的图左下角有个人脸，那么绿色的块中将会在各层的左下角检测到眼，鼻子，嘴等器官，而黄色的快将会在左下角检测到一张人脸。而下面的图人脸在左上角，那么最后就会在左上角检测到一张人脸。虽然两张图最终检测到人脸的位置不同，但是经过全连接层以后，都是有某一个神经元被激活，表示检测到了人脸。
ZFNet(2014)
ቤተ መጻሕፍቲ ባይዱ
VGGNet(2015)
GoogleNet(2014)
ResNet(2015)—champion of ILSVRC 2015
Yann LeCun: 纽约大学/Facebook
CNN-Overview
LeNet-5(1990) ZFNet(2014) VGGNet(2015) AlexNet(2012) GoogleNet(2014)
Convolutional Neural Networks
江南大学-数媒学院-许鹏
Outline
Overview
convolution
pooling
sparse connectivity
parameter sharing
equivariant representation
卷积层--convolution
Parameter Sharing
上图中的红色框中，黑色的箭头表示，在一个卷积网络中一个三维的卷积核的其中一个元素由于左图的权值共享，导致对于所有输入神经元，黑色箭头的值都是相同的。而下面的蓝色框中，黑色箭头表示全连接层中所有权值最中心的一个权值，它只使用了一次，没有被任何神经元再次共享。
CNN-Overview
上面提到CNN和FNN很重要的差异就是隐藏层的差异，CNN有convolutional layer和pooling layer，然后和最后的fully-connected layer共同构成卷积神经网络。而中间的隐藏层的连接方式又有三个重要的思想：
convolution operation and pooling operation sparse connectivity and parameter sharing and equivariant representation