基于深度学习的图像识别

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于深度学习的图像识别

摘要:本文讨论了两种实现图像识别的深度学习(Deep Learning,DL)方法:卷积神经网络(Convolution Neural Network,CNN)与深度信念网络(Deep Belief Network,DBN)。

关键词:深度学习,卷积神经网络,深度信念网络

1前言

在计算机图像处理中,最困难但又最让人兴奋的任务就是让机器可以实现图像分类,从而通过图像识别物体的种类。

这项任务很难实现。在数据库中的图像总是在不同状态下记录的。这意味这光线与角度的多变性。

而可运用的计算能力的限制是一大障碍。我们不可能像让人类识别图像一样让机器识别图像。计算能力的限制导致可供训练与测试的数据有限,而模型的复杂程度也受到限制。

但是,目前这种情况得到极大的改善。综合多CPU/综合多GPU系统(multi-CPU/multi-GPU systems)使得运行高速神经网络成为现实,而费用也可以负担得起。人们对深度学习模型在图像识别与机器学习中的应用兴趣渐浓,而与之对抗的传统模型日渐式微。目前最具意义的研究方向就是运用深度学习模型,处理综合数据库中的图像识别问题。

本文主要关注深度神经网络(DNN)在图像识别在的作用。

深度神经系统主要有多层特征提取单元组成。低层特征提取单元提取了简单特征,之后依照该单元的规模进行学习,并按该单元的权重或参照物将特征反馈给高层特征提取单元。而高层特征提取单元可以提取更复杂的特征。

目前有一些实现深层学习网络的方法。深度信念网络(DBN)一个多层生成模型,而每一层都是一个统计编码器(statistical encoder)。这些统计编码器都是基于附属于它的更低层的结点(unit)。而这种训练主要关注训练数据中的最大化概率。

DBN在众多领域都有成功运用,如手写数据识别与人类手势识别。

另一个深度学习模型是卷积神经网络(CNN),与相似层次尺寸的标准化前向反馈网络不同,这个模型所需的连接与参照物比较少,使其训练也更简单。

层次深,规模大的DNN结构往往可以产生最好的结果。这意味这我们需要数量巨大的基础样本与种类丰富的训练样本,以确保面对状况多变的数据时,我们的训练数据仍代表性。

2 模型介绍

人类的视觉系统可以在多种情况下高效识别物体,而对计算机算法,这个任务并不简单。

深度神经网络便是模拟哺乳动物视觉网络。这已被验证为这项任务的最佳实现方案。目前,有人已运用这种模型,设计出识别准确性可能高于人类的机器图像识别系统。

2.1 卷积神经网络(CNN)

卷积神经网络系统(CNNs)是专注处理图案识别的多层网络系统。它是多层感知器(Multi-Layer Percentrons,MLPs)的变体,灵感来自于生物系统。 CNNs是分层型(hierarchical)神经网络。通过运用卷积计算(convolution)将集成层(pooling layers)交织起来,CNNs可以实现特征信息的自动提取,形成可完成最终分类的一系列全连接的网络层次。

卷积神经网络

结构:输入,卷积,深层取样(sub-sampling)/总集成与分类层(max-pooling and classification layers)

2.1.1 卷积层(Convolution layer)

卷积成通常可由特征图(feature map)的数目,核(kernel)的大小(sizes),与先前层的联系来展现。

每一层都包含了相同维度的特征图M,如

)

,

(

y

x

M

M;这些特征图可以通过先前层的一系列卷积运算得到。而在这些运算中,它们之间有相互关

联的核(corresponding kernel ),一个线性滤波器(linear filter ),同时还加上了一个偏差项(bias term ),并运用了一个非线性函数(non-linear function )

其中,k 代表第k 个特征图,而W 是其权重,b 是偏差项,tanh 是使用的函数。 接着我们可以得到特征图的表达

其中,参数k 表示该层层数,y x K K ,是核的大小,

y x S S ,是在卷积运算中消去的像素。

卷积运算在一维信号处理时为

而在以上CNNs 运用的二维卷积运算为

来自于一个特征图的神经元(neurons)共享它们的权重;这减少了需学习的参照物数目,更加高效。

2.1.2 总集成层(Max-pooling layer) 总集成层是CNNs 中典型的深层取样层

(sub-sampling )的变式,在神经模型中紧随着卷积层。

这层处理减少了图的大小,从而减少了计算量,加快了收敛速度。它还在广大的范围内设定了恒定性,从而提升了归纳能力。

该层结果是由激活最大的非重合的核区域得到,这与典型深层取样不同。在典型深层取样中,我们只是将这些输入平均化。该层通过一个与核的大小在各个轴都等同的因子,将输入图的样本进行降维、

2.1.3 分类层

我们运用了一些参照物,进行了卷积运算,深层抽样/总集成将样本降维。并且经过最后一层卷积层

后,样本将成为一个一维特征向量。

这个一维特征向量将成为一系列分类层的输入。这一系列分类层是具有典型前向反馈性的全连接层。它将完成分类工作。

2.2 深层信念网络(Deep Belief Network,DBN) 深度信念网络(DBN )一个多层生成模型,而每一层都是一个统计编码器。而这些统计编码器都是基于附属于它的更低层的结点。这可以学习在训练数据中的分层型(hierarchical )表现。

它模拟了输入向量x 与l 隐藏层k

h 的联合分布

),())|((),...,(112

1

l l l l k k l

h h P h h P h h x P ---=∏=

其中)|(,1

0k k h h

P h x -=是受限制波尔兹曼机

(Restricted Boltzmamn Machine,RBM)的可见结点和隐藏结点在第k 层的条件概率。而),(1

l l h h

P -是最

顶层RBM 中可见结点与隐藏结点的联合概率。

DBN 结构

相关文档
最新文档