深度学习讲义
合集下载
深度学习的基本理论与方法通用课件

推荐系统:深度学习通过挖掘用 户历史行为和数据,实现个性化 推荐,提高推荐效果。
计算机视觉:深度学习在计算机 视觉领域取得了显著成果,如图 像分类、目标检测、人脸识别等 。
语音识别:基于深度学习的语音 识别技术大大提高了语音识别的 准确率和鲁棒性。
以上仅是深度学习应用的一部分 领域,实际上,深度学习正在渗 透到越来越多的领域,不断推动 着人工智能技术的进步。
• 应用场景:Transformer及其变种广泛应用于各种自然语言处理任务,如机器 翻译、文本分类、问答系统、文本生成等。它们通常作为核心组件,结合其他 技术构建更复杂的模型。
• 优势与改进:Transformer具有并行计算能力强、能够捕捉长程依赖关系等优 点。然而,它也面临着计算量大、对于某些任务可能过于复杂等问题。针对这 些问题,一些轻量级的Transformer模型被提出,如MobileBERT、TinyBERT 等,它们在保持性能的同时降低了计算成本。
机器翻译
基于深度学习技术的神经机器翻译方法,如基于循环神经 网络(RNN)的Seq2Seq模型、基于Transformer的GPT 和BERT等模型,实现了高质量的机器翻译。
THANKS
感谢观看
Keras
Keras是一个高级神经网络API, 可运行于TensorFlow、Theano 等后端,以简洁易用受到广泛欢
迎。
深度学习在计算机视觉中的应用
1 2 3
图像分类
通过训练深度神经网络,实现对图像的分类和识 别,如ImageNet挑战赛中的图像分类任务。
目标检测
利用深度学习技术,实现在图像中准确快速地检 测出目标物体的位置和类别,如R-CNN、YOLO 等算法。
在卷积神经网络末尾,通常加入全连接层,对特征图进行高维 抽象和分类器设计,输出最终的分类或回归结果。
深度学习讲义

深度学习概述
谯平 2016年07月21日
目录
• 什么是深度学习 • 为什么需要深度学习 • 深度学习如何进行训练 • 深度学习常用模型 • 深度学习框架Caffe
什么是深度学习-概述
• 深度学习:一种基于无监督特征学习和特征 层次结构的学习方法
• 基本原理:深度学习的概念源于人工神经网 络的研究。深度学习通过组合低层特征形成 更加抽象的高层表示属性类别或特征,以发 现数据的分布式特征表示。
为什么需要深度学习-深层
• 结构性特征表示
为什么需要深度学习-深层
• 浅层学习的局限 ✓ 人工神经网络(BP算法) —虽被称作多层感知机,但实际是种只含有一层隐层
节点的浅层模型 ✓ SVM、Boosting、最大熵方法(如LR,Logistic
Regression) —带有一层隐层节点(如SVM、Boosting),或没有
传统的模式识别方法:
底层感知
预处理
特征提取 特征选择 预测与识别
• 良好的特征表达,对最终算法的准确性起了非常关键的作用; • 识别系统主要的计算和测试工作耗时主要集中在特征提取部分; • 特征的样式目前一般都是人工设计的,靠人工提取特征。
为什么需要深度学习-特征
• 机器学习中,获得好的特征是识别成功的关键 • 目前存在大量人工设计的特征,不同研究对象特
孔发现了眼前的物体的边缘,而且这个边缘指向某个方向 时,这种神经元细胞就会活跃
为什么需要深度学习-源头
• 由此可知人的视觉系统的信息处理是分级的,高层的特征 是低层特征的组合,从低层到高层的特征表示越来越抽象 ,越来越能表现语义或者意图,抽象层面越高,存在的可 能猜测就越少,就越利于分类。
为什么需要深度学习-特征
谯平 2016年07月21日
目录
• 什么是深度学习 • 为什么需要深度学习 • 深度学习如何进行训练 • 深度学习常用模型 • 深度学习框架Caffe
什么是深度学习-概述
• 深度学习:一种基于无监督特征学习和特征 层次结构的学习方法
• 基本原理:深度学习的概念源于人工神经网 络的研究。深度学习通过组合低层特征形成 更加抽象的高层表示属性类别或特征,以发 现数据的分布式特征表示。
为什么需要深度学习-深层
• 结构性特征表示
为什么需要深度学习-深层
• 浅层学习的局限 ✓ 人工神经网络(BP算法) —虽被称作多层感知机,但实际是种只含有一层隐层
节点的浅层模型 ✓ SVM、Boosting、最大熵方法(如LR,Logistic
Regression) —带有一层隐层节点(如SVM、Boosting),或没有
传统的模式识别方法:
底层感知
预处理
特征提取 特征选择 预测与识别
• 良好的特征表达,对最终算法的准确性起了非常关键的作用; • 识别系统主要的计算和测试工作耗时主要集中在特征提取部分; • 特征的样式目前一般都是人工设计的,靠人工提取特征。
为什么需要深度学习-特征
• 机器学习中,获得好的特征是识别成功的关键 • 目前存在大量人工设计的特征,不同研究对象特
孔发现了眼前的物体的边缘,而且这个边缘指向某个方向 时,这种神经元细胞就会活跃
为什么需要深度学习-源头
• 由此可知人的视觉系统的信息处理是分级的,高层的特征 是低层特征的组合,从低层到高层的特征表示越来越抽象 ,越来越能表现语义或者意图,抽象层面越高,存在的可 能猜测就越少,就越利于分类。
为什么需要深度学习-特征
深度学习介绍 ppt课件

自编码器的建立
建立AutoEncoder的方法是:
对于m个数据的输入,有:
Code编码:使用非线性激活函数,将维输入数据映射到维隐含层(隐含节点表示特 征)
其中W是一个的权重矩阵,b是一个d'维的偏移向量 Decode解码:通过反向映射,对映射后的数据进行重建
hi
yi
SAE网络每一次训练输入都会得到映射后的 与解码后的 。通过对代价函数的最优
深层带来的好处
为什么采用层次网络
预训练与梯度消失现象
主要内容
自编码器结构
单层自动编码器网络(AutoEncoder)实质上是一个三层的反向传播神经网络。它逐 层采用无监督学习的方式,不使用标签调整权值,将输入映射到隐含层上,再经过反 变换映射到输出上,实现输入输出的近似等价。
X1 X2 X3 X4 X5 +1
RBM网络有几个参数,一个是可视层与隐含 层之间的权重矩阵,一个是可视节点的偏移 量b,一个是隐含节点的偏移量c,这几个参 数决定了RBM网络将一个m维的样本编码成 一个什么样的n维的样本。
受限玻尔兹曼机
RBM介绍
RBM训练
一般地,链接权重Wij可初始化为来自正态分布N(0,0.01)的随机数,隐 单元的偏置cj初始化为0; 对于第i个可见单元,偏置bj初始化为log[pi/(1-pi)] 。pi表示训练样本中 第i个特征处于激活状态所占的比率 学习率epsilon至关重要,大则收敛快,但是算法可能不稳定。小则 慢。为克服这一矛盾引入动量,使本次参数值修改的方向不完全由当 前样本似然函数梯度方向决定,而是上一次参数值修改方向与本次梯 度方向的结合可以避免过早的收敛到局部最优点
激活函数
y f (x)
深度学习讲义-bib

Bibliograp(1997). Neural learning in structured parameter spaces - natural Riemannian gradien gradient. t. In In Advanc dvances es in Neur Neural al Information Pr Pro ocessing Systems , pages 127–133. MIT Press. Amari, S. (1997). Neural learning in structured parameter spaces - natural Riemannian gradient. In In A. Advanc es in Neur al Information Processing Systems , pages 127–133. MIT Press. Barron, E. (1993). Universal appro approximation ximation b ounds for superp superpositions ositions of a sigmoidal function. IEEE Trans. on Information The Theory ory , 39, 930–945. Barron, A. E. (1993). Universal approximation b ounds for superp ositions of a sigmoidal function. IEEE T rans. on Information The ory , 39, 930–945. Bastien, F., Lam Lamblin, blin, P., Pascanu, R., Bergstra, J., Go Goodfellow, o
深度学习的常用模型和方法ppt课件

2.4 循环神经网络(RNN)与LSTM
根据上个输出和 当前的输入决定更新 哪些属性以及新属性 的内容
执行之前的决定, 更新当前的状态
根据上个输出和 当前的状态决定现在 输出什么
病原体侵入机体,消弱机体防御机能 ,破坏 机体内 环境的 相对稳 定性, 且在一 定部位 生长繁 殖,引 起不同 程度的 病理生 理过程
病原体侵入机体,消弱机体防御机能 ,破坏 机体内 环境的 相对稳 定性, 且在一 定部位 生长繁 殖,引 起不同 程度的 病理生 理过程
目录
1 深度学习的背景
2 深度学习常用模型和方法
1
自动编码器
2
稀疏编码
3
卷积神经网络
4
RNN与LSTM
3 总结与展望
病原体侵入机体,消弱机体防御机能 ,破坏 机体内 环境的 相对稳 定性, 且在一 定部位 生长繁 殖,引 起不同 程度的 病理生 理过程
MIN | I – O |,其中,I 为输入,O 为输出
通过求解这个最优化式子,可以求得Φi和ai,也就能得出 输入的特征表示。
如果我们加上稀疏规则限制,得到:
MIN | I – O | + λ(|a1| + |a2| + … + |ai |)
这种方法就是稀疏编码。
病原体侵入机体,消弱机体防御机能 ,破坏 机体内 环境的 相对稳 定性, 且在一 定部位 生长繁 殖,引 起不同 程度的 病理生 理过程
然而,手工地选取特征是一件非常费力、启发式的方法, 能不能选取好很大程度上靠经验和运气。
自动地学习特征的方法,统称为Deep Learning。
病原体侵入机体,消弱机体防御机能 ,破坏 机体内 环境的 相对稳 定性, 且在一 定部位 生长繁 殖,引 起不同 程度的 病理生 理过程
根据上个输出和 当前的输入决定更新 哪些属性以及新属性 的内容
执行之前的决定, 更新当前的状态
根据上个输出和 当前的状态决定现在 输出什么
病原体侵入机体,消弱机体防御机能 ,破坏 机体内 环境的 相对稳 定性, 且在一 定部位 生长繁 殖,引 起不同 程度的 病理生 理过程
病原体侵入机体,消弱机体防御机能 ,破坏 机体内 环境的 相对稳 定性, 且在一 定部位 生长繁 殖,引 起不同 程度的 病理生 理过程
目录
1 深度学习的背景
2 深度学习常用模型和方法
1
自动编码器
2
稀疏编码
3
卷积神经网络
4
RNN与LSTM
3 总结与展望
病原体侵入机体,消弱机体防御机能 ,破坏 机体内 环境的 相对稳 定性, 且在一 定部位 生长繁 殖,引 起不同 程度的 病理生 理过程
MIN | I – O |,其中,I 为输入,O 为输出
通过求解这个最优化式子,可以求得Φi和ai,也就能得出 输入的特征表示。
如果我们加上稀疏规则限制,得到:
MIN | I – O | + λ(|a1| + |a2| + … + |ai |)
这种方法就是稀疏编码。
病原体侵入机体,消弱机体防御机能 ,破坏 机体内 环境的 相对稳 定性, 且在一 定部位 生长繁 殖,引 起不同 程度的 病理生 理过程
然而,手工地选取特征是一件非常费力、启发式的方法, 能不能选取好很大程度上靠经验和运气。
自动地学习特征的方法,统称为Deep Learning。
病原体侵入机体,消弱机体防御机能 ,破坏 机体内 环境的 相对稳 定性, 且在一 定部位 生长繁 殖,引 起不同 程度的 病理生 理过程
《机器学习与深度学习》PPT课件讲义

训练神经元网络 -- Back Propagation
梯度下降迭代算法
输出层误差: δki 隐含层误差: smi
BP 算法
初始化参数 θ 两阶段算法: Two-Pass
前向 Forward-Pass: 给定参数,计算输出值 后向 Backward-Pass: 计算输出层误差, 计算隐含层误差,更新
• 一个BN 是一个由随机变量 组成的有向非循环图
• 一部分变量为可观察已知 变量
• 如何由已知变量推断出非 观察变量的状态
• 调整变量之间连接的参数 优化:最大可能重新生成 观察变量
可信任, 信任什么?
随机的二元单元
(Bernoulli variables)
• 隐含层的神经元的状态 为0或1
• 该神经元激活的概率为 输入层加权和的 sigmoid 函数
什么为最佳匹配?
参数估计方法一: 最小化误差平方和
机器学习背景
RSS()
0
正则化 L2 (Ridge) Regularization
限制参数的大小 , 以避免过拟合
正则化 L1 Regularization (Lasso)
| j | j1...p
No closed form for β 限制参数的大小 , 以避免过拟合
➢ Still Perceptron ➢ 一个特殊的单隐含层网络 ➢ 每个训练案例用于构造一个
特征,该特征用于测量改训 练案例和测试案例的距离 ➢ SVM训练选择自由特征集以 及特征的权重 ➢ 1990-2010 很多让放弃NN, 选择 SVM
深层信任网络(Deep Belief Net,DBN) 是 部分解决了以上问题的神经元网络
小结一个基础的DBN网络
深度学习介绍 ppt课件

从数学的角度来说,稀疏编码是一种多维数据描述方法,数据 经稀疏编码后仅有少数分量同时处于明显激活状态。在实际应 用中,稀疏编码有如下几个优点:稀疏编码方案存储能力大, 具有联想记忆能力,并且计算简便;使自然信号的结构更加清 晰;事实上,这一简单的自编码神经网络通常可以学习出一个 跟主成分分析(PCA)结果非常相似的输入数据的低维表示。
2016年10月,NVIDIA 发布了新版本的通用并行计算架构库:统一计算设备架构(Compute Unified Device Architecture,CUDA)8.0,以及深度学习专用GPU 加速库:cuDNN 5.0;
2016年11月,在2016全球超级计算机大会(SC16)上,AMD 宣布推出新版Radeon开放计算平台
求误差梯度
求期望和实际 的偏差E
计算隐含层 单元误差
E满足要求?
Y
N
达到最大训练次数?
N Y
结束
BP算法流程
13
主要问题
主要问题
训练过程易陷入局部极小值,从而得不到全局最优解; 计算量大,训练次数多,使得学习效率低,收敛速度慢; 对于隐含层个数和隐含层神经元节点的个数选择,至今还没有一个具体的定论,缺乏理论指导; 训练时,学习新样本有遗忘旧样本的趋势
常用改进方法
添加动量项,Dropout等规则化算法等; 采用改进的梯度下降法,使用硬件辅助计算; RNN,LSTM等改进模型和神经元。
2020/12/27
14
主要内容
现状
神经网络
深度学习
介绍 常见模型
• Stacked Auto-Encoder • Convolutional Neural Network • Deep Belief Network
2016年10月,NVIDIA 发布了新版本的通用并行计算架构库:统一计算设备架构(Compute Unified Device Architecture,CUDA)8.0,以及深度学习专用GPU 加速库:cuDNN 5.0;
2016年11月,在2016全球超级计算机大会(SC16)上,AMD 宣布推出新版Radeon开放计算平台
求误差梯度
求期望和实际 的偏差E
计算隐含层 单元误差
E满足要求?
Y
N
达到最大训练次数?
N Y
结束
BP算法流程
13
主要问题
主要问题
训练过程易陷入局部极小值,从而得不到全局最优解; 计算量大,训练次数多,使得学习效率低,收敛速度慢; 对于隐含层个数和隐含层神经元节点的个数选择,至今还没有一个具体的定论,缺乏理论指导; 训练时,学习新样本有遗忘旧样本的趋势
常用改进方法
添加动量项,Dropout等规则化算法等; 采用改进的梯度下降法,使用硬件辅助计算; RNN,LSTM等改进模型和神经元。
2020/12/27
14
主要内容
现状
神经网络
深度学习
介绍 常见模型
• Stacked Auto-Encoder • Convolutional Neural Network • Deep Belief Network
深度学习技术介绍PPT课件

根据Marr(1982)年理论,理解一个信息处理系统,具有三个被称为分析层面的内容: 计算理论(computational theory)对应计算目标和任务的抽象定义。 表示和算法(representation and algorithm)是关于输人和输出如何表示和从输入到输
出变换的算法说明。 硬件实现(hardware implementation)是系统的实物物理实现。
29
29
M40 GPU加速特性
30
GPU与CPU连接
通过PCIe与CPU连接, 最大理论带宽8GB/s(gen2.0)、16GB/s(gen3.0) CPU称为主机(host), 显卡(GPU)称为设备(device)
31
31
最优连接数量:4
32
32
目前的GPU使用方案
33
33
CPU困境
34
机器学习还可以进行压缩(compression)。用规则拟合数据,我们能得到比数据更简 单的解释,需要的存储空间更少,处理所需要的计算更少,例如,一旦你掌握了加法 规则,你就不必记忆每对可能数字的和是多少。
机器学习的另一种用途是离群点检测(outlier detection),即发现那些不遵守规则的 例外实例。在这种情况下,学习规则之后,我们感兴趣的不是规则,而是规则未能覆 盖的例外,他们可能暗示出我们需要注意的异常,如诈骗等。
具体应用-人脸识别
对于人脸识别(face recognition)。输入是人脸 图像,类是需要识别的人,并且学习程序应当 学习人脸图像与身份之间的关联性。人脸会有 更多的类,输入图像也更大一些,并且人脸是 三维的,不同的姿势和光线等都会导致图像的 显著变化。另外,对于特定人脸的输人也会出 现问题,比如说眼镜可能会把眼睛和眉毛遮住 ,胡子可能会把下巴盖住等。
出变换的算法说明。 硬件实现(hardware implementation)是系统的实物物理实现。
29
29
M40 GPU加速特性
30
GPU与CPU连接
通过PCIe与CPU连接, 最大理论带宽8GB/s(gen2.0)、16GB/s(gen3.0) CPU称为主机(host), 显卡(GPU)称为设备(device)
31
31
最优连接数量:4
32
32
目前的GPU使用方案
33
33
CPU困境
34
机器学习还可以进行压缩(compression)。用规则拟合数据,我们能得到比数据更简 单的解释,需要的存储空间更少,处理所需要的计算更少,例如,一旦你掌握了加法 规则,你就不必记忆每对可能数字的和是多少。
机器学习的另一种用途是离群点检测(outlier detection),即发现那些不遵守规则的 例外实例。在这种情况下,学习规则之后,我们感兴趣的不是规则,而是规则未能覆 盖的例外,他们可能暗示出我们需要注意的异常,如诈骗等。
具体应用-人脸识别
对于人脸识别(face recognition)。输入是人脸 图像,类是需要识别的人,并且学习程序应当 学习人脸图像与身份之间的关联性。人脸会有 更多的类,输入图像也更大一些,并且人脸是 三维的,不同的姿势和光线等都会导致图像的 显著变化。另外,对于特定人脸的输人也会出 现问题,比如说眼镜可能会把眼睛和眉毛遮住 ,胡子可能会把下巴盖住等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
This is the “learning” of machines in deep learning …… Even alpha go using this approach.
People image ……
Actually …..
I hope you are not too disappointed :p
……
xN
is 0
……
You need to decide the network structure to let a good function in your function set.
FAQ
• Q: How many layers? How many neurons for each layer? Intuition Trial and Error + • Q: Can the structure be automatically determined?
……
xN
……
Hidden Layers
……
……
Output Layer
yM
Deep = Many hidden layers
22 layers
http://cs231n.stanford.e du/slides/winter1516_le cture8.pdf
19 layers
8 layers 7.3% 6.7%
Backpropagation
libdnn
台大周伯威 同學開發
Ref: .tw/~tlkagk/courses/MLDS_2015_2/Lecture/DNN%20b ackprop.ecm.mp4/index.html
Three Steps for Deep Learning
Deep Learning
Hung-yi Lee 主讲:李宏毅
Deep learning attracts lots of attention.
• I believe you have seen lots of exciting results before.
Deep learning trends at Google. Source: SIGMOD 2016/Jeff Dean
Ups and downs of Deep Learning
• 1958: Perceptron (linear model) • 1969: Perceptron has limitation • 1980s: Multi-layer perceptron • Do not have significant difference from DNN today • 1986: Backpropagation • Usually more than 3 hidden layers is not helpful • 1989: 1 hidden layer is “good enough”, why deep? • 2006: RBM initialization • 2009: GPU • 2011: Start to be popular in speech recognition • 2012: win ILSVRC image competition • 2015.2: Image recognition surpassing human-level performance • 2016.3: Alpha GO beats Lee Sedol • 2016.10: Speech recognition system as good as humans
Step 1: define a set Neural of function Network Step 2: goodness of function Step 3: pick the best function
Deep Learning is so simple ……
Acknowledgment
16.4%
AlexNet (2012)
VGG (2014)
GoogleNet (2014)
Deep = Many hidden layers
152 layers 101 layers
Special structure
Ref: https:///watch?v= dxB6299gpvI
Step 1: define a set Neural of function Network Step 2: goodness of function Step 3: pick the best function
Deep Learning is so simple ……
Loss for an Example
• E.g. Evolutionary Artificial Neural Networks
• Q: Can we design the network structure? Convolutional Neural Network (CNN)
Three Steps for Deep Learning
16 x 16 = 256
……
Ink → 1 No ink → 0
0.2 y10
is 0
Each dimension represents the confidence of a digit.
Example Application
• Handwriting Digit Recognition
x1
y1
Three Steps for Deep Learning
Step 1: define a set Neural of function Network Step 2: goodness of function Step 3: pick the best function
Deep Learning is so simple ……
Deep Learning is so simple ……
Gradient Descent
0.2 0.15
-0.1
0.05
……
0.3
0.2
……
gradient
Gradient Descent
0.2 0.15 0.09
……
-0.1
0.05
0.15
……
0.3
……
0.2 0.10
……
……
Gradient Descent
Neural Network
z
z
z
z
“Neuron”
Neural Network
Different connection leads to different network structures
Fully Connect Feedforward Network
Given network structure, define a function set
Fully Connect Feedforward Network
neuron Input Layer 1 Layer 2 Layer L Output
x1
…… …… ……
y1 y2 ……
x2
Input Layer
-2
0.83 2
-1
1
-1 0
4
Fully Connect Feedforward Network
0 1 0.73 2 0.72 -1 1 3 -1
0.51 -2
-2 -1
0.5
0
-2 0.12 0 -1
0.85
2
0
1
-1 0
4
This is a function. Input vector, output vector
• 感謝 Victor Chen 發現投影片上的打字錯誤
x1
…… …… A function set containing the candidates for Handwriting Digit Recognition …… …… …… ……
Hidden Layers Output Layer
y1
is 1
x2
“2”
…… y10
y2
is 2
Input Layer
Neural Machine Network
What is needed is a function ……
is 1 is 2
x2
“2”
…… y10
y2
x256
Input: 256-dim vector
……
is 0
output: 10-dim vector
……
Example Application
Input Layer 1 Layer 2 Layer L Output
Input Layer
x2
……
……
……
Hidden Layers
xK
yM
Output = Multi-class Layer Classifier
Example Application
Input
x1
Output
y1 0.1
0.7 y2
is 1
is 2
x2
The image is “2”
……
……
x256
1 1 4 0.98
-2
1
-1 -1
1
-2
0.12
0
Sigmoid Function
z
1 z 1 ez
z
Fully Connect Feedforward Network
1 1 4 0.98 2 -1 1
People image ……
Actually …..
I hope you are not too disappointed :p
……
xN
is 0
……
You need to decide the network structure to let a good function in your function set.
FAQ
• Q: How many layers? How many neurons for each layer? Intuition Trial and Error + • Q: Can the structure be automatically determined?
……
xN
……
Hidden Layers
……
……
Output Layer
yM
Deep = Many hidden layers
22 layers
http://cs231n.stanford.e du/slides/winter1516_le cture8.pdf
19 layers
8 layers 7.3% 6.7%
Backpropagation
libdnn
台大周伯威 同學開發
Ref: .tw/~tlkagk/courses/MLDS_2015_2/Lecture/DNN%20b ackprop.ecm.mp4/index.html
Three Steps for Deep Learning
Deep Learning
Hung-yi Lee 主讲:李宏毅
Deep learning attracts lots of attention.
• I believe you have seen lots of exciting results before.
Deep learning trends at Google. Source: SIGMOD 2016/Jeff Dean
Ups and downs of Deep Learning
• 1958: Perceptron (linear model) • 1969: Perceptron has limitation • 1980s: Multi-layer perceptron • Do not have significant difference from DNN today • 1986: Backpropagation • Usually more than 3 hidden layers is not helpful • 1989: 1 hidden layer is “good enough”, why deep? • 2006: RBM initialization • 2009: GPU • 2011: Start to be popular in speech recognition • 2012: win ILSVRC image competition • 2015.2: Image recognition surpassing human-level performance • 2016.3: Alpha GO beats Lee Sedol • 2016.10: Speech recognition system as good as humans
Step 1: define a set Neural of function Network Step 2: goodness of function Step 3: pick the best function
Deep Learning is so simple ……
Acknowledgment
16.4%
AlexNet (2012)
VGG (2014)
GoogleNet (2014)
Deep = Many hidden layers
152 layers 101 layers
Special structure
Ref: https:///watch?v= dxB6299gpvI
Step 1: define a set Neural of function Network Step 2: goodness of function Step 3: pick the best function
Deep Learning is so simple ……
Loss for an Example
• E.g. Evolutionary Artificial Neural Networks
• Q: Can we design the network structure? Convolutional Neural Network (CNN)
Three Steps for Deep Learning
16 x 16 = 256
……
Ink → 1 No ink → 0
0.2 y10
is 0
Each dimension represents the confidence of a digit.
Example Application
• Handwriting Digit Recognition
x1
y1
Three Steps for Deep Learning
Step 1: define a set Neural of function Network Step 2: goodness of function Step 3: pick the best function
Deep Learning is so simple ……
Deep Learning is so simple ……
Gradient Descent
0.2 0.15
-0.1
0.05
……
0.3
0.2
……
gradient
Gradient Descent
0.2 0.15 0.09
……
-0.1
0.05
0.15
……
0.3
……
0.2 0.10
……
……
Gradient Descent
Neural Network
z
z
z
z
“Neuron”
Neural Network
Different connection leads to different network structures
Fully Connect Feedforward Network
Given network structure, define a function set
Fully Connect Feedforward Network
neuron Input Layer 1 Layer 2 Layer L Output
x1
…… …… ……
y1 y2 ……
x2
Input Layer
-2
0.83 2
-1
1
-1 0
4
Fully Connect Feedforward Network
0 1 0.73 2 0.72 -1 1 3 -1
0.51 -2
-2 -1
0.5
0
-2 0.12 0 -1
0.85
2
0
1
-1 0
4
This is a function. Input vector, output vector
• 感謝 Victor Chen 發現投影片上的打字錯誤
x1
…… …… A function set containing the candidates for Handwriting Digit Recognition …… …… …… ……
Hidden Layers Output Layer
y1
is 1
x2
“2”
…… y10
y2
is 2
Input Layer
Neural Machine Network
What is needed is a function ……
is 1 is 2
x2
“2”
…… y10
y2
x256
Input: 256-dim vector
……
is 0
output: 10-dim vector
……
Example Application
Input Layer 1 Layer 2 Layer L Output
Input Layer
x2
……
……
……
Hidden Layers
xK
yM
Output = Multi-class Layer Classifier
Example Application
Input
x1
Output
y1 0.1
0.7 y2
is 1
is 2
x2
The image is “2”
……
……
x256
1 1 4 0.98
-2
1
-1 -1
1
-2
0.12
0
Sigmoid Function
z
1 z 1 ez
z
Fully Connect Feedforward Network
1 1 4 0.98 2 -1 1