深度神经网络2PPT课件
合集下载
深度学习-神经网络PPT学习课件

神经网络的学习过程就是学习控制着空间变换方式(物质组成方式)的权重矩阵 W , 那如何学习每一层的权重矩阵 W 呢? 2.3.1、激活函数
激活函数的主要作用是提供网络的非线性建模能力。如果没有激活函数,那么该网络 仅能够表达线性映射,此时即便有再多的隐藏层,其整个网络跟单层神经网络也是等价 的。因此也可以认为,只有加入了激活函数之后,深度神经网络才具备了分层的非线性 映射学习能力。
线性可分视角:神经网络的学习就是学习如何利用矩阵的线性变换加激活函数的非 线性变换,将原始输入空间投向线性可分/稀疏的空间去分类/回归。
增加节点数:增加维度,即增加线性转换能力。 增加层数:增加激活函数的次数,即增加非线性转换次数。
2/29/2020
13
2.2.2、物理视角:“物质组成”
回想上文由碳氧原子通过不同组合形成若干分子的例子。从分子层面继续迭代这种 组合思想,可以形成DNA,细胞,组织,器官,最终可以形成一个完整的人。不同层级之 间都是以类似的几种规则再不断形成新物质。
2/29/2020
16
➢Sigmoid
sigmoid 是使用范围最广的一类激活函数,具 有指数函数形状,它在物理意义上最为接近生物神 经元。此外,(0, 1) 的输出还可以被表示作概率, 或用于输入的归一化,代表性的如Sigmoid交叉熵 损失函数。
然而,sigmoid也有其自身的缺陷,最明显的 就是饱和性。 软饱和激活函数:
2/29/2020
17
➢Tanh
➢ReLU
可以看到,当x<0时,ReLU硬饱和,
tanh也是一种非常常见的激活函数。 与sigmoid相比,它的输出均值是0, 使得其收敛速度要比sigmoid快,减少 迭代次数。然而,从途中可以看出, tanh一样具有软饱和性,从而造成梯 度消失。
激活函数的主要作用是提供网络的非线性建模能力。如果没有激活函数,那么该网络 仅能够表达线性映射,此时即便有再多的隐藏层,其整个网络跟单层神经网络也是等价 的。因此也可以认为,只有加入了激活函数之后,深度神经网络才具备了分层的非线性 映射学习能力。
线性可分视角:神经网络的学习就是学习如何利用矩阵的线性变换加激活函数的非 线性变换,将原始输入空间投向线性可分/稀疏的空间去分类/回归。
增加节点数:增加维度,即增加线性转换能力。 增加层数:增加激活函数的次数,即增加非线性转换次数。
2/29/2020
13
2.2.2、物理视角:“物质组成”
回想上文由碳氧原子通过不同组合形成若干分子的例子。从分子层面继续迭代这种 组合思想,可以形成DNA,细胞,组织,器官,最终可以形成一个完整的人。不同层级之 间都是以类似的几种规则再不断形成新物质。
2/29/2020
16
➢Sigmoid
sigmoid 是使用范围最广的一类激活函数,具 有指数函数形状,它在物理意义上最为接近生物神 经元。此外,(0, 1) 的输出还可以被表示作概率, 或用于输入的归一化,代表性的如Sigmoid交叉熵 损失函数。
然而,sigmoid也有其自身的缺陷,最明显的 就是饱和性。 软饱和激活函数:
2/29/2020
17
➢Tanh
➢ReLU
可以看到,当x<0时,ReLU硬饱和,
tanh也是一种非常常见的激活函数。 与sigmoid相比,它的输出均值是0, 使得其收敛速度要比sigmoid快,减少 迭代次数。然而,从途中可以看出, tanh一样具有软饱和性,从而造成梯 度消失。
神经网络学习PPT课件

不断迭代,权重逐渐调整到最优解附近。
牛顿法
总结词
牛顿法是一种基于二阶泰勒级数的优化算法,通过迭 代更新参数,以找到损失函数的极小值点。在神经网 络训练中,牛顿法可以用于寻找最优解。
详细描述
牛顿法的基本思想是,利用二阶泰勒级数近似损失函数 ,并找到该函数的极小值点。在神经网络训练中,牛顿 法可以用于寻找最优解。具体来说,根据二阶导数矩阵 (海森矩阵)和当前点的梯度向量,计算出参数更新的 方向和步长,然后更新参数。通过不断迭代,参数逐渐 调整到最优解附近。与梯度下降法相比,牛顿法在迭代 过程中不仅考虑了梯度信息,还考虑了二阶导数信息, 因此具有更快的收敛速度和更好的全局搜索能力。
07
未来展望与挑战
深度学习的发展趋势
模型可解释性
随着深度学习在各领域的广泛应用,模型的可解释性成为研究热 点,旨在提高模型决策的透明度和可信度。
持续学习与终身学习
随着数据不断增长和模型持续更新,如何实现模型的持续学习和终 身学习成为未来的重要研究方向。
多模态学习
随着多媒体数据的普及,如何实现图像、语音、文本等多模态数据 的融合与交互,成为深度学习的另一发展趋势。
深度学习
通过构建深层的神经网络结构, 提高了对复杂数据的处理能力。
循环神经网络
适用于序列数据,如自然语言 处理和语音识别等领域。
02
神经网络的基本结构
感知机模型
感知机模型是神经网络的基本单 元,由一个输入层和一个输出层 组成,通过一个或多个权重和偏
置项来计算输出。
感知机模型只能实现线性分类, 对于非线性问题无法处理。
详细描述
反向传播算法的基本思想是,首先计算神经网络的输出层与实际值之间的误差,然后将误差逐层反向传播,并根 据梯度下降法更新每一层的权重。通过不断迭代,权重逐渐调整,使得神经网络的输出逐渐接近实际值,从而降 低误差。反向传播算法的核心是计算每一层的梯度,即权重的导数,以便更新权重。
牛顿法
总结词
牛顿法是一种基于二阶泰勒级数的优化算法,通过迭 代更新参数,以找到损失函数的极小值点。在神经网 络训练中,牛顿法可以用于寻找最优解。
详细描述
牛顿法的基本思想是,利用二阶泰勒级数近似损失函数 ,并找到该函数的极小值点。在神经网络训练中,牛顿 法可以用于寻找最优解。具体来说,根据二阶导数矩阵 (海森矩阵)和当前点的梯度向量,计算出参数更新的 方向和步长,然后更新参数。通过不断迭代,参数逐渐 调整到最优解附近。与梯度下降法相比,牛顿法在迭代 过程中不仅考虑了梯度信息,还考虑了二阶导数信息, 因此具有更快的收敛速度和更好的全局搜索能力。
07
未来展望与挑战
深度学习的发展趋势
模型可解释性
随着深度学习在各领域的广泛应用,模型的可解释性成为研究热 点,旨在提高模型决策的透明度和可信度。
持续学习与终身学习
随着数据不断增长和模型持续更新,如何实现模型的持续学习和终 身学习成为未来的重要研究方向。
多模态学习
随着多媒体数据的普及,如何实现图像、语音、文本等多模态数据 的融合与交互,成为深度学习的另一发展趋势。
深度学习
通过构建深层的神经网络结构, 提高了对复杂数据的处理能力。
循环神经网络
适用于序列数据,如自然语言 处理和语音识别等领域。
02
神经网络的基本结构
感知机模型
感知机模型是神经网络的基本单 元,由一个输入层和一个输出层 组成,通过一个或多个权重和偏
置项来计算输出。
感知机模型只能实现线性分类, 对于非线性问题无法处理。
详细描述
反向传播算法的基本思想是,首先计算神经网络的输出层与实际值之间的误差,然后将误差逐层反向传播,并根 据梯度下降法更新每一层的权重。通过不断迭代,权重逐渐调整,使得神经网络的输出逐渐接近实际值,从而降 低误差。反向传播算法的核心是计算每一层的梯度,即权重的导数,以便更新权重。
《深度学习PPT》第3章 人工神经网络与深度学习

9 of 57
3.1 探秘大脑的工作原理
第3章 人工神经网络与深度学习
3.1.2 人脑神经元的结构
神经元的基本结构包括细胞体和突起两部分。细胞体包括细胞核、细胞质、细胞 膜。细胞膜内外电位差称为膜电位。神经元的突起一般包括数条短而呈树状分支 的树突和一条长而分支少的轴突。长的突起外表大都套有一层鞘,组成神经纤维, 神经纤维末端的细小分支叫作神经末梢。神经纤维集结成束,外面包有膜,构成 一条神经。
6 of 57
3.1 探秘大脑的工作原理
(5)深度学习算法 数据输 出
外部环 境
第3章 人工神经网络与深度学习
数据输入
执行
深度学习(端到端网络,一组函数集)
知识库
学习
深度学 习
深度学习的基本模型
人的活动过程伴随信息传递、知识处理和智能的形成过程,其信息 传输模型如图所示
7 of 57
3.1 探秘大脑的工作原理
22 of 57
3.4 人脑神经网络的互连结构
第3章 人工神经网络与深度学习
3.4.1 前馈神经网络
前馈神经网络(feedforward neural network),简称前馈网络,是人 工神经网络的一种。在此种神经网络中,各神经元从输入层开始,接 收前一级输入,并输入到下一级,直至输出层。整个网络中无反馈, 可用一个有向无环图表示
输出
hw.b
3.2 人脑神经元模型
3.2.2 激活函数
常用激活函数主要有:线性函数、 非线性函数(sigmoid型函数)、 概率型函数。
y
x 0
(a)线性函数 y
x 0
(c) ReLU函数 y
1 x
0 (e) sigmoid函数
深度学习-CNN卷积神经网络PPT课件

右图就是一个2维卷积的示意图,这里因为是 离散的卷积,所以可以直接把卷积理解为矩阵 相乘,即两个矩阵相乘,一个是输入矩阵,一 个是卷积核矩阵。输入矩阵一般都表示二维的 输入图像,而卷积核其实可以理解为图像处理 里面的算子,比如这些算子可以实现一些边缘 检测或者高斯模糊的效果,那么其实卷积操作 可以理解为对图像进行一些特征处理。
卷积层--convolution 池化层--pooling 全连接层—fully connected
江南大学-数媒学院-许鹏
2
CNN-Overview
卷积神经网络是一种受到视觉感知机制启发的深度学习结构。1959年Hubel和Wiesel发现动物 的视觉皮质细胞负责在感知域内探测光照,受其启发,1980年Kunihiko Fukushima提出了一种 新型认知机并被认为是CNN的先驱。
Pooling Layer
有了pooling操作,我们就可以产生CNN的另外一种隐藏层了,就是pooling layer,这一层的产 生思想明确清晰,操作也简单。 如下图所示,由原始图像应用6个卷积核提取了6个feature map,然后针对这6个feature map做 pooling,还有一种叫法就是subsampling,即子采样,其实就和前面提到的稀疏连接和权值共 享一样,池化操作也会大大减少模型的参数。
这里的Roberts算子只是一个一阶算子,提取的 边缘信息还很有限,还有其他的二阶算子,比
如拉普拉斯算子。而且这里Roberts算子只提取 了某个像素对角线的梯度,而没有提取垂直方
向和水平方向的梯度,所以还有其他的算子用
于提取多个方向梯度,比如Sobel算子,Prewitt 算子等。
-1
0
0
1
0
-1
卷积层--convolution 池化层--pooling 全连接层—fully connected
江南大学-数媒学院-许鹏
2
CNN-Overview
卷积神经网络是一种受到视觉感知机制启发的深度学习结构。1959年Hubel和Wiesel发现动物 的视觉皮质细胞负责在感知域内探测光照,受其启发,1980年Kunihiko Fukushima提出了一种 新型认知机并被认为是CNN的先驱。
Pooling Layer
有了pooling操作,我们就可以产生CNN的另外一种隐藏层了,就是pooling layer,这一层的产 生思想明确清晰,操作也简单。 如下图所示,由原始图像应用6个卷积核提取了6个feature map,然后针对这6个feature map做 pooling,还有一种叫法就是subsampling,即子采样,其实就和前面提到的稀疏连接和权值共 享一样,池化操作也会大大减少模型的参数。
这里的Roberts算子只是一个一阶算子,提取的 边缘信息还很有限,还有其他的二阶算子,比
如拉普拉斯算子。而且这里Roberts算子只提取 了某个像素对角线的梯度,而没有提取垂直方
向和水平方向的梯度,所以还有其他的算子用
于提取多个方向梯度,比如Sobel算子,Prewitt 算子等。
-1
0
0
1
0
-1
深度学习CNN卷积神经网络入门PPT课件

softmax
softmax直白来说就是将原来输出是3,1,-3通过softmax函数一作用,就映射成为 (0,1)的值,而这些值的累和为1
VGG刺猬特征图可视化
第一层卷积核学 到的图片特征
VGG刺猬特征图可视化
第一层特征图的细节比较清晰和输入图片较为相似,提取出了输入 图片的边缘。
VGG刺猬特征图可视化
结束语
当你尽了自己的最大努力时,失败也是伟大的, 所以不要放弃,坚持就是正确的。
When You Do Your Best, Failure Is Great, So Don'T Give Up, Stick To The End
感谢聆听
不足之处请大家批评指导
Please Criticize And Guide The Shortcomings
参数数目计算
C1有156个参数:(5*5+1)*6=156
S2有12个参数:因为S2中每个map中的每个点都与C1的四个点相连接进行池化,一般做完 池化操作比如取最大或平均,还要乘以一个数,再加一个bias,再非线性变换
C3有1516个参数:C3也是通过5*5的卷积核由14*14的map得到10*10的map,不过这里连接 方式有点复杂,共有(5*5*3+1)*6+(5*5*4+1)*9+(5*5*6+1)*1=1516个参数。
逻辑回归
过拟合与欠拟合
基础知识
过拟合与欠拟合
正则化
λ=1
λ=0
λ=100
过拟合与欠拟合解决方案
解决欠拟合(高偏差)的方法 1.增加神经网络的隐藏层数和隐藏单元数等 2.增加更多的特征 3.调整参数和超参数 超参数包括: 神经网络中:学习率、学习衰减率、隐藏层数、隐藏层的单元数、batch_size、正则化参数λ等 4.降低正则化约束
深度学习之神经网络(CNN-RNN-GAN)算法原理+实战课件PPT模板可编辑全文

8-1图像生成文本问题引入入
8-5showandtell模型
8-2图像生成文本评测指标
8-4multi-modalrnn模型
8-6showattendandtell模型
8-10图像特征抽取(1)-文本描述文件解析
8-8图像生成文本模型对比与总结
8-9数据介绍,词表生成
8-7bottom-uptop-downattention模型
第6章图像风格转换
06
6-1卷积神经网络的应用
6-2卷积神经网络的能力
6-3图像风格转换v1算法
6-4vgg16预训练模型格式
6-5vgg16预训练模型读取函数封装
6-6vgg16模型搭建与载入类的封装
第6章图像风格转换
单击此处添加文本具体内容,简明扼要的阐述您的观点。根据需要可酌情增减文字,与类别封装
06
7-12数据集封装
第7章循环神经网络
7-13计算图输入定义
7-14计算图实现
7-15指标计算与梯度算子实现
7-18textcnn实现
7-17lstm单元内部结构实现
7-16训练流程实现
第7章循环神经网络
7-19循环神经网络总结
第8章图像生成文本
08
第8章图像生成文本
02
9-9文本生成图像text2img
03
9-10对抗生成网络总结
04
9-11dcgan实战引入
05
9-12数据生成器实现
06
第9章对抗神经网络
9-13dcgan生成器器实现
9-14dcgan判别器实现
9-15dcgan计算图构建实现与损失函数实现
9-16dcgan训练算子实现
9-17训练流程实现与效果展示9-14DCGAN判别器实现9-15DCGAN计算图构建实现与损失函数实现9-16DCGAN训练算子实现9-17训练流程实现与效果展示
8-5showandtell模型
8-2图像生成文本评测指标
8-4multi-modalrnn模型
8-6showattendandtell模型
8-10图像特征抽取(1)-文本描述文件解析
8-8图像生成文本模型对比与总结
8-9数据介绍,词表生成
8-7bottom-uptop-downattention模型
第6章图像风格转换
06
6-1卷积神经网络的应用
6-2卷积神经网络的能力
6-3图像风格转换v1算法
6-4vgg16预训练模型格式
6-5vgg16预训练模型读取函数封装
6-6vgg16模型搭建与载入类的封装
第6章图像风格转换
单击此处添加文本具体内容,简明扼要的阐述您的观点。根据需要可酌情增减文字,与类别封装
06
7-12数据集封装
第7章循环神经网络
7-13计算图输入定义
7-14计算图实现
7-15指标计算与梯度算子实现
7-18textcnn实现
7-17lstm单元内部结构实现
7-16训练流程实现
第7章循环神经网络
7-19循环神经网络总结
第8章图像生成文本
08
第8章图像生成文本
02
9-9文本生成图像text2img
03
9-10对抗生成网络总结
04
9-11dcgan实战引入
05
9-12数据生成器实现
06
第9章对抗神经网络
9-13dcgan生成器器实现
9-14dcgan判别器实现
9-15dcgan计算图构建实现与损失函数实现
9-16dcgan训练算子实现
9-17训练流程实现与效果展示9-14DCGAN判别器实现9-15DCGAN计算图构建实现与损失函数实现9-16DCGAN训练算子实现9-17训练流程实现与效果展示
深度卷积神经网络ppt课件

简洁、普适的结构模型。 特征提取与分类器可以一起学习。
神经网络简要介绍
人类视觉机理:
David Hubel 和 TorstenWiesel 发现了视觉系 统的信息处理 方式,即视皮 层的分级特性, 获得1981年诺 贝尔生理学或 医学奖。
Low-level sensing
Preprocessing
人工神经网络发展历程
• 发展基础:
数据爆炸:图像数据、文本数据、语音数 据、社交网络数据、科学计算等
计算性能大幅提高
• 为什么有效
– 浅层神经网络可以近似任意函数,为何多层?
深层网络结构中,高层可以综合应用低层信息。 低层关注“局部”,高层关注“全局”、更具有语
义化信息。 为自适应地学习非线性处理过程提供了一种可能的
感知机(Perceptron)
通过查找超平面解决二类分类问题(通过二值函数解决二类分类问题)
公式表达:
f (x) sign(w x)
w x 可看作对输入的空间变换
四种空间变换:维度、缩放、旋转、平移
感知机中的线性映射限制了模型的表达能力,线 性变化的组合仍为线性变化。
神经网络简要介绍
ANN基本构成:感知机(Perceptron)+激活函数
1、计算每层中每个节点的输出
y
m j
h(s
m j
)
h(
wimj
y m1 i
)
h()
为激活函数
2、在输出层计算损失
m j
h' (smj )(Tj
yi m j
)
Tj 为目标参考输出,一般从样本训练中得到。
神经网络简要介绍
神经网络简要介绍
人类视觉机理:
David Hubel 和 TorstenWiesel 发现了视觉系 统的信息处理 方式,即视皮 层的分级特性, 获得1981年诺 贝尔生理学或 医学奖。
Low-level sensing
Preprocessing
人工神经网络发展历程
• 发展基础:
数据爆炸:图像数据、文本数据、语音数 据、社交网络数据、科学计算等
计算性能大幅提高
• 为什么有效
– 浅层神经网络可以近似任意函数,为何多层?
深层网络结构中,高层可以综合应用低层信息。 低层关注“局部”,高层关注“全局”、更具有语
义化信息。 为自适应地学习非线性处理过程提供了一种可能的
感知机(Perceptron)
通过查找超平面解决二类分类问题(通过二值函数解决二类分类问题)
公式表达:
f (x) sign(w x)
w x 可看作对输入的空间变换
四种空间变换:维度、缩放、旋转、平移
感知机中的线性映射限制了模型的表达能力,线 性变化的组合仍为线性变化。
神经网络简要介绍
ANN基本构成:感知机(Perceptron)+激活函数
1、计算每层中每个节点的输出
y
m j
h(s
m j
)
h(
wimj
y m1 i
)
h()
为激活函数
2、在输出层计算损失
m j
h' (smj )(Tj
yi m j
)
Tj 为目标参考输出,一般从样本训练中得到。
神经网络简要介绍
深度学习与卷积神经网络基础理论与实例分析ppt课件

11
目录
0 1
概述与背景
人脑视觉机理 与特征表示
0 2
0 3
卷积神经 网络
TensorFlow的 相关介绍
0 4
12
3.1 初探----LeNet框架
3.卷积神经网络-CNN
LeCun 1998年,LeCun提出LeNet,并成功应用于美国手写数字识别。测试误差小于1%。 麻雀虽小,但五脏俱全,卷积层、pooling层、全连接层,这些都是现代CNN网络的基本组件。
第三次兴起(2012年):深度学习的兴 起,一直到现在。
• 发展基础: 数据爆炸:图像数据、文本数据、 语音数据、社交网络数据、科学计 算等 计算性能大幅提高
3
目录
0 1
概述与背景
人脑视觉机理 与特征表示
0 2
0 3
卷积神经 网络
TensorFlow的 相关介绍
0 4
4
2.人脑视觉机理与特征表示
3.2 基本单元-----卷积层
3.卷积神经网络-CNN
如上图是LeNet-5,它的第一个卷积层含有6的feature map,每一个feature map对应一个卷积核,也就
对应提取了图像的一种特征。这里注意最终的feature map并不是做完卷积后的结果,然后还要加一个 非线性激活的操作,一般用ReLU函数,这个过程一般叫做detector stage。
Top Layer: the neurons respond to highly complex, abstract concepts that we would identify as different animals
输出: The network predicts what the
目录
0 1
概述与背景
人脑视觉机理 与特征表示
0 2
0 3
卷积神经 网络
TensorFlow的 相关介绍
0 4
12
3.1 初探----LeNet框架
3.卷积神经网络-CNN
LeCun 1998年,LeCun提出LeNet,并成功应用于美国手写数字识别。测试误差小于1%。 麻雀虽小,但五脏俱全,卷积层、pooling层、全连接层,这些都是现代CNN网络的基本组件。
第三次兴起(2012年):深度学习的兴 起,一直到现在。
• 发展基础: 数据爆炸:图像数据、文本数据、 语音数据、社交网络数据、科学计 算等 计算性能大幅提高
3
目录
0 1
概述与背景
人脑视觉机理 与特征表示
0 2
0 3
卷积神经 网络
TensorFlow的 相关介绍
0 4
4
2.人脑视觉机理与特征表示
3.2 基本单元-----卷积层
3.卷积神经网络-CNN
如上图是LeNet-5,它的第一个卷积层含有6的feature map,每一个feature map对应一个卷积核,也就
对应提取了图像的一种特征。这里注意最终的feature map并不是做完卷积后的结果,然后还要加一个 非线性激活的操作,一般用ReLU函数,这个过程一般叫做detector stage。
Top Layer: the neurons respond to highly complex, abstract concepts that we would identify as different animals
输出: The network predicts what the
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4
回顾:Deep Belief Network, DBN
▪ 概率生成模型 ▪ 深层结构——多层
▪ 二值随机神经元
▪ 非监督的预学习 ▪ 监督微调(fine-tuning)
5
DBN Greedy training
6
RBM
▪ 学习目标:极大似然
N
max logp((vi)) i1
▪ 能量函数 E(v,h) = −vTWh − bTv − aTh ▪ 波尔兹曼分布
22
局部连接
▪ 局部感知野
▪ 图像的空间联系也是局部的像素联系较为紧密,而距离较远的像素 相关性则较弱。
▪ 减少了需要训练的权值数目
23
局部连接
▪ 参数共享
▪ 图像的一部分的统计特性与其 他部分是一样的。
▪ 在输入的不同位置检测同一种 特征
▪ 平移不变性
24
Convolution卷积
▪ 一维卷积
▪ Deep Boltzmann Machines, DBM ▪ Convolutional Neural Network, CNN ▪ Recurrent Neural Networks, RNN
▪ 深度学习的使用
3
Deep Learning的常用模型
——Deep Boltzmann Machines, DBM
cj mTxj|m|1:j
c: x:
▪ 二维卷积
25
▪ 稀疏连接 ▪ 参数共享
卷积
26
多卷积核
▪ 每个卷积核都会将图像生成为另一幅图像。
▪ 两个卷积核就可以将生成两幅图像,这两幅图像可以看做是一张图 像的不同的通道。
由4个通道卷积得到2个通道的过程
27
Pooling池化
▪通过卷积获得了特征 之后,下一步利用这些特征去做分类。
▪Discriminative fine-tuning:
▪backpropagation
Deep Boltzmann Machine
15
例:两层BM
▪ MNIST: 2-layer BM
60,000 training and 10,000 testing examples 0.9 million parameters Gibbs sampler for 100,000 steps
深度神经网络 II
Deep Neural Networks
gaowei.wu@ 2015-10-27
1
第一部分
整体概述
THE FIRST PART OF THE OVERALL OVERVIEW, PLEASE SUMMARIZE THE CONTENT
2
内容
▪ 深度学习常用模型
—Convolutional Neural Networks, CNN
20
Convolutional Neural Networks卷积神经网络
▪20世纪60年代,Hubel和Wiesel研究猫脑皮层
▪用于局部敏感和方向选择的神经元,其独特的网络结构可以有效地 降低反馈神经网络的复杂性
▪卷积神经网络是一种特殊的深层神经网络模型
After discriminative fine-tuning: 0.95% error rate Compare with DBN 1.2%, SVM 1.4%
16
例:NORB dataset
▪ NORB dataset
17
例:NORB dataset
18
R. Salskhutdinov
Why Greedy Layer Wise Training Works
▪ 多层模型中,层间的无向连接构成完全的Boltzmann机
Deep Boltzmann Machine
Deep Belie1f2Network
DBM
▪ 训练
▪ 训练时采用双方向(上下两层) ▪ 在训练单层时需同时考虑两个或者
多个隐含层 ▪ 能量模型与RBM不一样
13
两层DBM
14
DBM
▪Pre-training:
▪Can (must) initialize from stacked RBMs
▪Generative fine-tuning:
▪Positive phase: variational approximation (mean-field) ▪Negative phase: persistent chain (stochastic approxiamtion)
▪使用卷积时是利用了图像的“静态”特征 ▪Pooling, 对不同位置的特征进行聚合统计
▪ Regularization Hypothesis
▪ Pre-training is “constraining” parameters in a region relevant to unsupervised dataset
▪ Better generalization
▪ Representations that better describe unlabeled data are more discriminative for labeled data
▪ Optimization Hypothesis
▪ Unsupervised training initializes lower level parameters near localities of better minima than random initialization can
19
Deep Learning的常用模型
▪它的神经元间的连接是非全连接的 ▪同一层中某些神经元之间的连接的权重是共享的(即相同的)。
21
Hubel-Wiesel结构
▪ 基于猫的初级视皮层(VI区)的研究。
▪ 简单细胞 ▪ 复杂细胞
▪ 两层神经网络模拟初级视皮层中的简单细胞和复杂细胞
▪ 每层的神经元被组织成二维平面 ▪ “简单细胞”层提取其输入中的局部特征 ▪ “复杂细胞”层组合“简单细胞”层中相应的子区域,使得整个网络 对局部变换具有一定的不变性。
7
▪ CD-K算法
RBM
8
▪ CD-1算法
RBM
9
AutoEncoder vs. RBM
10
Deep Boltzmann Machines
▪所有层间无向连接
▪ 同层神经元间无连接
▪高层表示由无标注数据建立 ▪标注数据仅用来微调网络
11Salakhutdinov & Hinton, 2009
DBM vs DBN
回顾:Deep Belief Network, DBN
▪ 概率生成模型 ▪ 深层结构——多层
▪ 二值随机神经元
▪ 非监督的预学习 ▪ 监督微调(fine-tuning)
5
DBN Greedy training
6
RBM
▪ 学习目标:极大似然
N
max logp((vi)) i1
▪ 能量函数 E(v,h) = −vTWh − bTv − aTh ▪ 波尔兹曼分布
22
局部连接
▪ 局部感知野
▪ 图像的空间联系也是局部的像素联系较为紧密,而距离较远的像素 相关性则较弱。
▪ 减少了需要训练的权值数目
23
局部连接
▪ 参数共享
▪ 图像的一部分的统计特性与其 他部分是一样的。
▪ 在输入的不同位置检测同一种 特征
▪ 平移不变性
24
Convolution卷积
▪ 一维卷积
▪ Deep Boltzmann Machines, DBM ▪ Convolutional Neural Network, CNN ▪ Recurrent Neural Networks, RNN
▪ 深度学习的使用
3
Deep Learning的常用模型
——Deep Boltzmann Machines, DBM
cj mTxj|m|1:j
c: x:
▪ 二维卷积
25
▪ 稀疏连接 ▪ 参数共享
卷积
26
多卷积核
▪ 每个卷积核都会将图像生成为另一幅图像。
▪ 两个卷积核就可以将生成两幅图像,这两幅图像可以看做是一张图 像的不同的通道。
由4个通道卷积得到2个通道的过程
27
Pooling池化
▪通过卷积获得了特征 之后,下一步利用这些特征去做分类。
▪Discriminative fine-tuning:
▪backpropagation
Deep Boltzmann Machine
15
例:两层BM
▪ MNIST: 2-layer BM
60,000 training and 10,000 testing examples 0.9 million parameters Gibbs sampler for 100,000 steps
深度神经网络 II
Deep Neural Networks
gaowei.wu@ 2015-10-27
1
第一部分
整体概述
THE FIRST PART OF THE OVERALL OVERVIEW, PLEASE SUMMARIZE THE CONTENT
2
内容
▪ 深度学习常用模型
—Convolutional Neural Networks, CNN
20
Convolutional Neural Networks卷积神经网络
▪20世纪60年代,Hubel和Wiesel研究猫脑皮层
▪用于局部敏感和方向选择的神经元,其独特的网络结构可以有效地 降低反馈神经网络的复杂性
▪卷积神经网络是一种特殊的深层神经网络模型
After discriminative fine-tuning: 0.95% error rate Compare with DBN 1.2%, SVM 1.4%
16
例:NORB dataset
▪ NORB dataset
17
例:NORB dataset
18
R. Salskhutdinov
Why Greedy Layer Wise Training Works
▪ 多层模型中,层间的无向连接构成完全的Boltzmann机
Deep Boltzmann Machine
Deep Belie1f2Network
DBM
▪ 训练
▪ 训练时采用双方向(上下两层) ▪ 在训练单层时需同时考虑两个或者
多个隐含层 ▪ 能量模型与RBM不一样
13
两层DBM
14
DBM
▪Pre-training:
▪Can (must) initialize from stacked RBMs
▪Generative fine-tuning:
▪Positive phase: variational approximation (mean-field) ▪Negative phase: persistent chain (stochastic approxiamtion)
▪使用卷积时是利用了图像的“静态”特征 ▪Pooling, 对不同位置的特征进行聚合统计
▪ Regularization Hypothesis
▪ Pre-training is “constraining” parameters in a region relevant to unsupervised dataset
▪ Better generalization
▪ Representations that better describe unlabeled data are more discriminative for labeled data
▪ Optimization Hypothesis
▪ Unsupervised training initializes lower level parameters near localities of better minima than random initialization can
19
Deep Learning的常用模型
▪它的神经元间的连接是非全连接的 ▪同一层中某些神经元之间的连接的权重是共享的(即相同的)。
21
Hubel-Wiesel结构
▪ 基于猫的初级视皮层(VI区)的研究。
▪ 简单细胞 ▪ 复杂细胞
▪ 两层神经网络模拟初级视皮层中的简单细胞和复杂细胞
▪ 每层的神经元被组织成二维平面 ▪ “简单细胞”层提取其输入中的局部特征 ▪ “复杂细胞”层组合“简单细胞”层中相应的子区域,使得整个网络 对局部变换具有一定的不变性。
7
▪ CD-K算法
RBM
8
▪ CD-1算法
RBM
9
AutoEncoder vs. RBM
10
Deep Boltzmann Machines
▪所有层间无向连接
▪ 同层神经元间无连接
▪高层表示由无标注数据建立 ▪标注数据仅用来微调网络
11Salakhutdinov & Hinton, 2009
DBM vs DBN