卷积神经网络CNN

合集下载

简述卷积神经网络(CNN)和循环神经网络(RNN)的原理及应用场景

简述卷积神经网络(CNN)和循环神经网络(RNN)的原理及应用场景卷积神经网络(CNN)和循环神经网络(RNN)是当前深度学习领域最为重要和广泛应用的两种神经网络模型。

它们分别在计算机视觉和自然语言处理等领域取得了巨大的成功。

本文将从原理和应用场景两个方面进行详细介绍。

一、卷积神经网络(CNN)的原理及应用场景卷积神经网络(CNN)是一种专门用于处理具有网格结构数据的深度学习模型。

它最初是为了解决计算机视觉中的图像分类问题而提出的，但现在已经广泛应用于图像识别、目标检测、语义分割等多个领域。

1.1 原理卷积神经网络(CNN)主要由卷积层、池化层和全连接层组成。

其中，卷积层是CNN最重要的组成部分，它通过一系列滤波器对输入数据进行特征提取。

滤波器通过与输入数据进行点乘操作，得到特征图(feature map)，从而捕捉到输入数据中的局部特征。

池化层用于减小特征图的尺寸，并保留重要特征。

常见的池化操作有最大池化和平均池化。

最大池化选择每个区域中的最大值作为输出，平均池化则选择每个区域的平均值作为输出。

这样可以减小特征图的尺寸，减少参数数量，从而降低计算复杂度。

全连接层将特征图转换为一维向量，并通过一系列全连接层进行分类或回归等任务。

全连接层中的每个神经元都与上一层中所有神经元相连，这样可以充分利用上一层提取到的特征进行分类。

1.2 应用场景卷积神经网络(CNN)在计算机视觉领域有着广泛应用。

其中最典型的应用场景是图像分类和目标检测。

在图像分类任务中，CNN可以通过学习到的特征提取器将输入图像分为不同类别。

例如，在ImageNet数据集上进行分类任务时，CNN可以实现对1000个不同类别进行准确分类。

在目标检测任务中，CNN可以识别并定位输入图像中存在的多个目标。

通过在卷积网络之后加入额外的回归和分类层，可以实现对目标位置和类别进行同时预测。

此外，在语义分割、人脸识别、图像生成等领域，CNN也有着广泛的应用。

图像识别中的深度学习方法详解

图像识别中的深度学习方法详解深度学习是一种通过模拟人脑神经网络的工作原理来处理大量数据的人工智能技术。

在图像识别领域，深度学习方法已经取得了令人瞩目的成就。

本文将详细介绍图像识别中的深度学习方法，包括卷积神经网络（CNN）、循环神经网络（RNN）以及生成对抗网络（GAN）等。

一、卷积神经网络(CNN)卷积神经网络是图像识别中最常用的模型之一。

它通过不断的卷积和池化操作，提取图像中的特征，并用这些特征进行分类。

CNN的核心思想是局部感知和共享权值。

具体来说，CNN通过在输入图像上滑动卷积核，提取局部特征。

这种局部感知的方式使得CNN对于图像的平移、缩放和旋转等变换具有一定的鲁棒性。

此外，CNN使用了权值共享的策略，即不同的特征图共享同一组权值，减少了网络参数的数量，提高了网络的泛化能力。

二、循环神经网络(RNN)循环神经网络是一种能够处理序列数据的神经网络。

在图像识别中，RNN可以用于处理图像中的时序信息，例如图像中的运动轨迹和动作序列等。

RNN中最重要的组件是循环单元，它通过自循环的方式传递信息，保存并利用历史信息。

在图像识别中，RNN可以结合CNN一起使用，形成一种融合了时间信息和空间信息的混合模型。

这种融合模型可以有效地处理时序信息，并提升图像识别的准确性和鲁棒性。

三、生成对抗网络(GAN)生成对抗网络是一种用于生成新样本的深度学习模型。

GAN由生成器网络和判别器网络组成，二者通过对抗的方式相互训练，以求得生成器能够生成与真实样本相似的新样本。

在图像识别中，GAN可以用于生成缺失的图像部分，或者扩充已有的训练样本数量。

通过让生成器网络学习真实样本的分布，GAN不仅能够生成逼真的新样本，还能够提供更多的训练数据，从而提高图像识别的能力。

总结深度学习方法在图像识别领域发挥着重要的作用。

本文介绍了图像识别中的三种常用深度学习方法：卷积神经网络(CNN)、循环神经网络(RNN)和生成对抗网络(GAN)。

神经网络中的卷积神经网络模型详解

神经网络中的卷积神经网络模型详解神经网络是一种模拟人脑神经元的数学模型，通过多层神经元的连接和传递信息来实现各种任务。

而卷积神经网络（Convolutional Neural Network，简称CNN）是一种在图像识别和处理领域中广泛应用的神经网络模型。

1. CNN的基本结构CNN的基本结构由输入层、卷积层、池化层和全连接层组成。

输入层接收原始图像数据，并将其转化为神经网络能够处理的形式。

卷积层是CNN的核心部分，通过卷积操作提取图像的特征。

池化层用于减少特征图的尺寸，提高计算效率。

全连接层将特征图映射到输出层，实现对图像的分类或回归。

2. 卷积操作卷积操作是CNN中最重要的操作之一。

它通过将图像与一组卷积核进行卷积运算，得到特征图。

卷积核是一个小的矩阵，通过滑动窗口的方式与图像进行逐元素相乘并求和，从而得到特征图中的每个像素值。

卷积操作的好处在于它能够保留图像的空间关系和局部特征。

通过不同的卷积核，CNN可以学习到不同的特征，例如边缘、纹理和形状等。

这使得CNN在图像识别任务中具有很强的表达能力。

3. 池化操作池化操作是CNN中的另一个重要操作。

它通过将特征图的某个区域进行统计汇总，得到一个更小的特征图。

常见的池化操作有最大池化和平均池化。

池化操作的目的是减少特征图的尺寸，提高计算效率，并且具有一定的平移不变性。

通过池化操作，CNN可以对图像的细节进行抽象，从而更好地捕捉到图像的整体特征。

4. 全连接层全连接层是CNN中的最后一层，它将特征图映射到输出层，实现对图像的分类或回归。

全连接层的每个神经元都与前一层的所有神经元相连接，通过学习权重参数来实现对不同类别的判别。

全连接层在CNN中起到了决策的作用，通过学习到的权重参数，可以将特征图的信息转化为对图像类别的预测。

5. CNN的训练过程CNN的训练过程主要包括前向传播和反向传播两个阶段。

在前向传播中，输入图像通过卷积层、池化层和全连接层的计算，得到输出结果。

卷积神经网络原理

卷积神经网络原理卷积神经网络（Convolutional Neural Network，简称CNN）是一种深度学习的机器学习模型，广泛应用于图像识别、语音识别、自然语言处理等领域。

CNN以其良好的特征提取能力而著名。

CNN的核心思想是局部感知和权重共享。

它通过使用卷积层来对输入数据进行滤波和特征提取，然后使用池化层来降低特征图的空间维度。

这一过程不仅能够减少参数数量，还能提取图像的空间局部性特征。

在CNN中，卷积层通过滑动窗口的方式对输入图像进行扫描，并使用一组可学习的过滤器（也称为卷积核）对输入图像进行卷积操作。

每个过滤器与输入图像的一个局部区域进行卷积计算，并生成一个特征图。

这些特征图反映了输入图像在不同位置上的不同特征。

卷积操作的关键之处在于权重共享。

在卷积操作中，每个过滤器的参数在整个输入图像上是共享的，这意味着无论输入图像的哪个位置，同一个过滤器都会使用相同的参数进行卷积计算。

这种权重共享的方式大大减少了需要学习的参数数量，提高了模型的训练效率。

池化层通常紧跟在卷积层之后，用于减小特征图的维度，同时保留重要的特征信息。

最常用的池化操作是最大池化，它通过在每个局部区域中选择最大的特征值来降低特征图的空间维度。

这种方式能够有效地减少参数数量，并减轻模型过拟合的风险。

CNN通常还包括全连接层和激活函数层。

全连接层将特征图展平为一个向量，并通过全连接操作学习出输入和输出之间的非线性映射关系。

激活函数层则引入非线性变换，增加模型的表达能力。

通过反向传播算法，CNN能够自动学习特征提取过程中的参数，并根据给定的标签进行训练。

训练完毕后，CNN可以对未知的输入数据进行预测和分类。

总之，卷积神经网络是一种在计算机视觉和其他领域中广泛应用的深度学习模型。

它通过卷积层和池化层实现特征提取，通过全连接层和激活函数层实现分类和预测。

通过权重共享和非线性变换等机制，CNN能够有效地处理图像识别和其他复杂任务。

一文看懂卷积神经网络-CNN（基本原理独特价值实际应用）

⼀⽂看懂卷积神经⽹络-CNN（基本原理独特价值实际应⽤）卷积神经⽹络 – CNN 最擅长的就是图⽚的处理。

它受到⼈类视觉神经系统的启发。

CNN 有2⼤特点：能够有效的将⼤数据量的图⽚降维成⼩数据量能够有效的保留图⽚特征，符合图⽚处理的原则⽬前 CNN 已经得到了⼴泛的应⽤，⽐如：⼈脸识别、⾃动驾驶、美图秀秀、安防等很多领域。

CNN 解决了什么问题？在 CNN 出现之前，图像对于⼈⼯智能来说是⼀个难题，有2个原因：图像需要处理的数据量太⼤，导致成本很⾼，效率很低图像在数字化的过程中很难保留原有的特征，导致图像处理的准确率不⾼下⾯就详细说明⼀下这2个问题：需要处理的数据量太⼤图像是由像素构成的，每个像素⼜是由颜⾊构成的。

现在随随便便⼀张图⽚都是 1000×1000 像素以上的，每个像素都有RGB 3个参数来表⽰颜⾊信息。

假如我们处理⼀张 1000×1000 像素的图⽚，我们就需要处理3百万个参数！1000×1000×3=3,000,000这么⼤量的数据处理起来是⾮常消耗资源的，⽽且这只是⼀张不算太⼤的图⽚！卷积神经⽹络 – CNN 解决的第⼀个问题就是「将复杂问题简化」，把⼤量参数降维成少量参数，再做处理。

更重要的是：我们在⼤部分场景下，降维并不会影响结果。

⽐如1000像素的图⽚缩⼩成200像素，并不影响⾁眼认出来图⽚中是⼀只猫还是⼀只狗，机器也是如此。

保留图像特征图⽚数字化的传统⽅式我们简化⼀下，就类似下图的过程：图像简单数字化⽆法保留图像特征图像的内容假如有圆形是1，没有圆形是0，那么圆形的位置不同就会产⽣完全不同的数据表达。

但是从视觉的⾓度来看，图像的内容（本质）并没有发⽣变化，只是位置发⽣了变化。

（本质）并没有发⽣变化，只是位置发⽣了变化所以当我们移动图像中的物体，⽤传统的⽅式的得出来的参数会差异很⼤！这是不符合图像处理的要求的。

⽽ CNN 解决了这个问题，他⽤类似视觉的⽅式保留了图像的特征，当图像做翻转，旋转或者变换位置时，它也能有效的识别出来是类似的图像。

深度学习技术中的卷积神经网络结构和特点解析

深度学习技术中的卷积神经网络结构和特点解析卷积神经网络（Convolutional Neural Network，CNN）是当今深度学习技术中最重要的模型之一。

它被广泛应用于计算机视觉、自然语言处理、语音识别等领域。

本文将解析卷积神经网络的结构和特点，帮助读者更好地理解和运用这一强大的深度学习工具。

一、卷积神经网络的结构卷积神经网络由多层神经网络组成，每一层由多个神经元组成。

其中，最重要的几层是卷积层（Convolutional Layer）、池化层（Pooling Layer）和全连接层（Fully Connected Layer）。

1. 卷积层：卷积层是卷积神经网络的核心层之一。

它通过使用一组可学习的滤波器（或称为卷积核）对输入数据进行卷积操作，并生成特征图（Feature Map）。

卷积操作通过在输入数据中滑动卷积核，并在每个位置上执行点乘运算，得到对应位置的特征。

卷积层的特点在于共享权重。

这意味着在同一层的不同位置使用的卷积核是相同的，因此卷积层的参数量大大减少，使得网络更加简化。

2. 池化层：池化层用于对卷积层的特征进行降维和抽象。

它通过固定大小的滑动窗口在特征图上进行采样，并将采样结果汇聚为一个值。

常见的池化方法有最大池化和平均池化。

池化层能够减少参数数量，降低过拟合的风险，同时也增强特征的不变性和鲁棒性，使得网络对于输入数据的微小变化具有更好的鲁棒性。

3. 全连接层：全连接层是卷积神经网络的最后一层，也是输出层。

它将前面的隐藏层与最终的分类器相连，将特征转化为概率或标签。

全连接层的每个神经元与前一层中的所有神经元都有连接关系。

全连接层的作用是将抽取到的特征与实际标签进行匹配，从而进行最终的分类判断。

二、卷积神经网络的特点1. 局部感知性：卷积神经网络通过卷积操作对输入数据进行特征提取，并利用池化操作定位和提取最显著的特征。

这种局部感知性使得网络对于局部信息具有更好的提取和理解能力。

卷积神经网络(CNN)介绍

卷积神经网络（CNN）介绍一、基本概念CNN是卷积神经网络（Convolutional Neural Network）的缩写，是目前深度学习中应用广泛的一种神经网络型号，它是一种能够处理序列数据的深度学习模型，如语音识别、自然语言处理等在许多应用中被广泛使用。

CNN是一种前馈神经网络，每个神经元只与与其之前一段距离之内的神经元相连。

它具有强大的特征提取能力和权值共享机制，可以帮助识别出图像、音频和文本中的重要特征。

CNN将输入图像分成若干个子区域，每个子区域被称为卷积核，每个卷积核由若干个神经元组成。

每个卷积核得出一个特征图，这些特征图被拼接起来形成下一层的输入。

CNN在应用中通常包含卷积层、池化层、全连接层和Softmax 层等。

卷积层用于提取图像特征，池化层用于减少特征数量，全连接层用于分类，Softmax层用于输出最终分类结果。

然而，就像其他的技术一样，CNN在实践中也会遇到各种问题。

人工智能工程师在设计和调试CNN时，经常遇到的问题包括过拟合、欠拟合、梯度消失、训练速度慢等。

此外，当CNN 不起作用时，如何快速而准确地诊断相关问题也是一个极其重要的挑战。

二、故障分析与解决方案面对CNN故障，我们可以通过以下几个方面来进行诊断，并尝试找到解决方案。

1. 数据集问题CNN模型需要大量的数据才能训练出准确的模型。

如果训练集不够大，其结果可能会出现不准确的情况。

同时，过拟合也可能出现在训练集数据少，但是特征比较多时。

解决方案：增加训练集，尽可能丰富数据覆盖的范围。

此外，有效的数据预处理方法，如旋转、翻转、缩放等，也能有效地增加训练集的样本。

2. 设计问题CNN模型的设计非常重要，关系到CNN在应用中的准确性。

解决方案：对于CNN的设计，可以采用预训练模型，或选择较好的网络结构和优化算法。

3. 训练问题CNN模型需要进行“拟合”和“调整”，使其能够正确的分类图像。

解决方案：可以尝试增加训练次数或者采用其他的优化方法，如随机梯度下降（SGD）。

深度学习中的卷积神经网络与循环神经网络

深度学习中的卷积神经网络与循环神经网络深度学习已经成为了人工智能技术领域的热点，它涉及到很多的算法和模型，其中卷积神经网络和循环神经网络是两种广泛应用的模型，它们分别对应于不同的应用场景。

一、卷积神经网络卷积神经网络，英文名Convolutional Neural Network，简称CNN，是一种非常适合图像处理领域的算法模型。

CNN主要是用来解决图像分类、目标检测等问题，它采用了一种称为卷积的运算来处理图像数据。

卷积操作是将一组滤波器应用于图像的不同部分，生成一组新的图像特征，这样可以减少图像的冗余、提取出更加本质的图像信息。

CNN的基本结构由卷积层、池化层和全连接层组成，其中卷积层是CNN的核心组成部分。

在卷积层中，由于图像是二维的，滤波器大小也是二维的，即宽和高都有一个大小，也称为卷积核。

卷积核可以应用于图像的不同部分，并生成一组新的特征图。

池化层的作用是对特征图进行下采样操作，减小特征图的大小，同时保留最显著的特征。

全连接层则将池化层得到的特征图进行分类或检测。

CNN与传统的神经网络相比，最大的优点就是能够处理局部图像信息，提取出图像中的特征。

而其在处理图像数据方面的卓越表现，也使其被广泛应用于自然语言处理和语音处理等领域。

二、循环神经网络与CNN不同，循环神经网络（Recurrent Neural Network，RNN）主要用于解决序列数据方面的问题，例如语音识别、文本生成、机器翻译等。

与CNNS的卷积核对图像进行局部处理不同，RNN是对序列数据进行处理，通过对前几个时刻的输入进行处理，得出当前时刻的输出结果，同时还可以利用当前时刻的结果影响后续的输出结果。

RNN由一系列的时间步组成，每个时间步都会产生一个输出和一个隐藏状态。

其中隐藏状态会被传递到下一个时间步，从而实现信息的传递。

RNN中最常用的模型是长短时记忆网络（Long Short-Term Memory，LSTM），它可以在长时间序列上保存和传递信息，解决了传统RNN存在的“梯度消失”和“梯度爆炸”问题。

一文带你了解CNN（卷积神经网络）

⼀⽂带你了解CNN（卷积神经⽹络）⽬录前⾔⼀、CNN解决了什么问题？⼆、CNN⽹络的结构2.1 卷积层 - 提取特征卷积运算权重共享稀疏连接总结：标准的卷积操作卷积的意义1x1卷积的重⼤意义2.2 激活函数2.3 池化层(下采样) - 数据降维，避免过拟合2.4 全连接层 - 分类，输出结果三、Pytorch实现LeNet⽹络3.1 模型定义3.2 模型训练（使⽤GPU训练）3.3 训练和评估模型前⾔在学计算机视觉的这段时间⾥整理了不少的笔记，想着就把这些笔记再重新整理出来，然后写成Blog和⼤家⼀起分享。

⽬前的计划如下（以下⽹络全部使⽤Pytorch搭建）：专题⼀：计算机视觉基础介绍CNN⽹络(计算机视觉的基础)浅谈VGG⽹络，介绍ResNet⽹络（⽹络特点是越来越深）介绍GoogLeNet⽹络（⽹络特点是越来越宽）介绍DenseNet⽹络（⼀个看似⼗分NB但是却实际上⽤得不多的⽹络）整理期间还会分享⼀些⾃⼰正在参加的⽐赛的Baseline专题⼆：GAN⽹络搭建普通的GAN⽹络卷积GAN条件GAN模式崩溃的问题及⽹络优化以上会有相关代码实践，代码是基于Pytorch框架。

话不多说，我们先进⾏专题⼀的第⼀部分介绍，卷积神经⽹络。

⼀、CNN解决了什么问题？在CNN出现之前，对于图像的处理⼀直都是⼀个很⼤的问题，⼀⽅⾯因为图像处理的数据量太⼤，⽐如⼀张512 x 512的灰度图，它的输⼊参数就已经达到了252144个，更别说1024x1024x3之类的彩⾊图，这也导致了它的处理成本⼗分昂贵且效率极低。

另⼀⽅⾯，图像在数字化的过程中很难保证原有的特征，这也导致了图像处理的准确率不⾼。

⽽CNN⽹络能够很好的解决以上两个问题。

对于第⼀个问题，CNN⽹络它能够很好的将复杂的问题简单化，将⼤量的参数降维成少量的参数再做处理。

也就是说，在⼤部分的场景下，我们使⽤降维不会影响结果。

⽐如在⽇常⽣活中，我们⽤⼀张1024x1024x3表⽰鸟的彩⾊图和⼀张100x100x3表⽰鸟的彩⾊图，我们基本上都能够⽤⾁眼辨别出这是⼀只鸟⽽不是⼀只狗。

神经网络与卷积神经网络(CNN)

神经网络与卷积神经网络（CNN）神经网络和卷积神经网络（Convolutional Neural Network, CNN）是两种常用的深度学习模型，被广泛应用于图像识别、语音识别、自然语言处理等领域。

本文将介绍神经网络和CNN的原理、应用以及优缺点。

一、神经网络神经网络是一种模拟人脑神经元间连接的计算模型，由输入层、隐藏层和输出层组成。

每个神经元接收上一层神经元传递的信息，并通过激活函数进行非线性变换，最终计算出输出结果。

通过不断调整神经元之间的连接权重，神经网络能够学习并逼近复杂的非线性函数。

神经网络的训练通常基于梯度下降算法，通过最小化损失函数，反向传播误差更新权重。

训练完成后，神经网络可以用于预测和分类任务。

神经网络的优点在于可以处理非线性关系，具有强大的逼近能力。

然而，它在图像处理任务上的表现并不理想，主要因为传统的神经网络无法充分利用图像的空间结构信息。

二、卷积神经网络（CNN）卷积神经网络是一种专门用于处理二维结构数据（如图像）的深度学习模型。

与传统神经网络不同的是，CNN引入了卷积层和池化层，通过局部感知和参数共享的方式提取图像的特征。

卷积层利用一组可学习的卷积核对输入数据进行卷积操作，提取出不同位置的特征。

卷积核的参数共享使得CNN对输入数据的平移不变性更强，可以减少模型的复杂性。

池化层则负责对卷积结果进行下采样，减小特征图的尺寸。

常用的池化操作有最大池化和平均池化，能够提取更具有鲁棒性的特征。

除了卷积层和池化层，CNN通常还包括全连接层和激活函数。

全连接层用于将特征图转化为分类结果，激活函数引入非线性变换。

CNN在图像处理任务上具有突出优势。

通过卷积和池化操作，CNN能够自动提取出图像的局部特征和整体形状，并且具有一定的平移不变性和尺度不变性。

三、神经网络与CNN的应用比较1. 图像识别：神经网络在图像识别上的表现相对较差，因为它不能有效利用图像的空间结构信息。

而CNN能够通过卷积和池化操作提取图像特征，具有更好的识别准确率。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

VGG Net (2014)
几种配置
Cov3-64:
3x3感受野 64个channel
K. Simonyan, A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014
GoogLeNet (2014)
超大规模24层网络 Inception结构
提取不同scale的特征然后串接起来
1x1 convolutions
AlexNet for ImageNet (2012)
ImageNet物体分类任务上
1000类，1,431,167幅图像
Rank 1 2 3 4
Name Error rates(TOP5)
U. Toronto
0.153
U. Tokyo
0.261
U. Oxford
0.270
Xerox/INRIA
10个神经元
总连接数
5*5*12*64+5*5*8*12*16+192*30，约66,000个
LeCun-CNN1989—用于字符识别
Tied weights
对同一个feature map，kernel对不同位置是相同的！
LeCun-CNN1989—用于字符识别
1998年LeNet——数字/字符识别
VGG Net (2014)
多个stage
每个stage多个卷积层
卷积采样间隔1x1 卷积核大小3x3
1个Pooling层(2x2)
16-19层多尺度融合
K. Simonyan, A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014
VGG Net (2014)
K. Simonyan, A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014
GoogLeNet (2014)
有限连接，Kernel比输入小连接数少很多，学习难度小，计算复杂度低
m个节点与n个节点相连O(mn) 限定k(<<m)个节点与n个节点相连，则为O(kn)
卷积——why?
1. sparse interactions
有限(稀疏)连接
Kernel比输入小局部连接
连接数少很多
学习难度小计算复杂度低
K. Simonyan, A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014
C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, A.Rabinovich. Going deeper with convolutions. CVPR2015 (&arXiv:1409.4842, 2014)
0.5 0.3 0.02
1
0.4
0.3
0.6 0.3 0.1
Pooling与下采样结合
更好的获取平移不变性更高的计算效率（减少了神经元数）
从全连接到有限连接
部分链接权重被强制设置为0
通常：非邻接神经元，仅保留相邻的神经元全连接网络的特例，大量连接权重为0
Why Convolution & Pooling？
0.271
Description
Deep learning
Hand-crafted features and learning models.
Bottleneck.
Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems. 2012.
源起：Neocognitron (1980)
源起：Neocognitron (1980)
训练方法
分层自组织
competitive learning
无监督
输出层
独立训练有监督
LeCun-CNN1989—用于字符识别
简化了Neocognitron的结构训练方法
监督训练 BP算法
Lower orderhigh order
Local Connection
K. Fukushima, “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position,” Biological Cybernetics, vol. 36, pp. 193–202, 1980
AlexNet for ImageNet
深度的重要性
网络深度
8
参数数量
60M
性能损失
0%
7 44M 1.1%
6 10M 5.7%
6 59M 3.0%
4 10M 33.5%
Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems. 2012.
Why Pooling?
获取不变性
小的平移不变性：有即可，不管在哪里旋转不变性？
9个不同朝向的kernels（模板）
0.2
0.6
1
0.1 0.5 0.3
0.02 0.05 0.1
Why Pooling?
获取不变性
小的平移不变性：有即可，不管在哪里旋转不变性？
9个不同朝向的kernels（模板）
卷积神经网络CNN
DL时代的CNN扩展
A Krizhevsky, I Sutskever, GE Hinton. ImageNet classification with deep convolutional neural networks. NIPS2012
Y. Jia et al. Caffe: Convolutional Architecture for Fast Feature Embedding. ACM MM2014
模型参数的先验概率分布(No free lunch)
在见到任何数据之前，我们的信念（经验）告诉我们，什么样的模型参数是合理的
Local connections；对平移的不变性；tied weigts
来自生物神经系统的启发
源起：Neocognitron (1980)
Simplecomplex
AlexNet for ImageNet (2t for ImageNet (2012)
实现
2块GPU卡输入层150,528 其它层253,440186,624 64,896
64,896 43,264 4096 4096 1000.
Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems. 2012.
种类
max pooling (weighted) average pooling
Why Pooling?
获取不变性
小的平移不变性：有即可，不管在哪里
很强的先验假设The function the layer learns must be invariant to small translations
卷积——示例
卷积——形式化
卷积——why?
1. sparse interactions
有限连接，Kernel比输入小连接数少很多，学习难度小，计算复杂度低
m个节点与n个节点相连O(mn) 限定k(<<m)个节点与n个节点相连，则为O(kn)
卷积——why?
1. sparse interactions
超大规模
22个卷积层的网络计算复杂度是AlexNet的4倍左右
C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, A.Rabinovich. Going deeper with convolutions. CVPR2015 (&arXiv:1409.4842, 2014)
LeNet-5
Feature map
a set of units whose weighs are constrained to be identical.