基于深度学习的图像识别进展百度的若干实践
基于深度学习的图像识别技术的研究

基于深度学习的图像识别技术的研究1.引言随着互联网技术的高速发展,图像数据的数量呈现出爆炸式增长,图像识别技术也成为了一个备受关注和研究的领域。
图像识别技术可以帮助用户快速识别出图像中所包含的物品和场景,并进行分类和标注,减轻人工分类和标注的工作负担。
本文将回顾基于深度学习的图像识别技术的研究现状,并提出一些未来的发展方向。
2.深度学习与图像识别技术深度学习是一种机器学习的方法,其核心思想是通过多层次的神经网络模型来实现对大规模复杂数据的深层次学习和表征。
深度学习技术已经在图像识别中得到了广泛的应用,并在大规模图像分类、目标检测、图像语义分割等方面取得了重大成就。
(1)卷积神经网络(CNN)卷积神经网络是一种深度学习中广泛使用的神经网络模型,在图像识别领域取得了极大的成功。
它通过卷积、池化等操作对图像数据进行特征提取,并分层进行分类或预测。
在CNN中,使用卷积核对图像进行卷积运算,得到特征图。
池化层用于对特征图进行降维处理,提取图像的局部特征。
在分类层中,使用全连接层将特征向量映射到对应的类别标签上。
经过训练的CNN模型可以对输入的图像进行分类。
(2)循环神经网络(RNN)循环神经网络是另一种深度学习中常用的神经网络模型,它主要用于处理序列数据问题。
循环神经网络通过对数据进行循环处理,实现对序列数据的建模。
在图像识别领域,RNN通常用于图像描述生成,它可以根据输入的图像生成对应的文本描述,有助于将图像信息转化为自然语言。
(3)生成对抗网络(GAN)生成对抗网络是一种新兴的深度学习技术,其主要思想是通过两个神经网络模型进行对抗,从而实现数据的生成。
在图像识别领域,GAN可以用于图像生成,其生成的图像与真实图像难以区分。
3.基于深度学习的图像识别技术应用深度学习的图像识别技术已经被广泛应用于各种领域。
(1)自然场景图像识别自然场景图像识别是指对自然环境中的图像进行分类和识别,例如对街道、建筑物、车辆、天空、云彩等进行识别。
基于深度学习的图像识别技术研究

基于深度学习的图像识别技术研究深度学习技术在图像识别领域具有广泛的应用前景。
本文将根据任务名称,探讨基于深度学习的图像识别技术的研究进展、原理和应用。
一、介绍图像识别是计算机视觉领域的重要研究方向之一。
而深度学习技术作为计算机视觉和人工智能的核心技术之一,以其强大的识别能力和适应性,正逐渐取代传统的图像识别方法。
基于深度学习的图像识别技术能够自动提取和学习图像的特征表示,从而实现高准确性和鲁棒性的识别性能。
二、研究进展1. 卷积神经网络(CNN)卷积神经网络是目前深度学习领域最重要的技术之一。
其通过多层卷积和池化操作,能够有效地提取图像的特征表示。
深度卷积神经网络结构的出现,如ResNet、VGG和Inception等,进一步提升了图像识别的准确率。
2. 循环神经网络(RNN)循环神经网络是另一种被广泛应用于图像识别的深度学习模型。
RNN通过引入内部记忆状态,能够对图像序列进行建模,适用于场景解析、语义分割和目标检测等任务。
长短时记忆网络(LSTM)和门控循环单元(GRU)是常用的RNN变种。
3. 迁移学习迁移学习是一种利用已经训练好的模型在新任务上进行重用的方法。
基于深度学习的图像识别技术通常需要大量的标注数据和计算资源。
而迁移学习能够通过将预训练的模型在新任务上进行微调,实现在小样本条件下的图像识别。
4. 强化学习强化学习在图像识别方面的应用也日益增多。
通过建立图像识别任务与环境的交互,强化学习能够通过试错和奖励反馈机制来优化图像识别模型。
深度Q网络(DQN)和策略梯度方法是常用的强化学习算法。
三、原理基于深度学习的图像识别技术的原理主要基于神经网络的建模和训练。
深度学习模型通过多层非线性变换将图像数据映射到低维特征空间,并利用反向传播算法进行模型优化。
卷积神经网络通常利用卷积层和池化层来提取图像的局部特征和空间关系。
循环神经网络则通过迭代地更新内部状态来建模图像序列的上下文信息。
四、应用基于深度学习的图像识别技术在许多领域都有广泛的应用。
基于深度学习的智能图像检索技术的研究与实践

基于深度学习的智能图像检索技术的研究与实践近年来,随着计算机技术的不断发展,基于深度学习的智能图像检索技术逐渐成为热门研究领域。
这种技术能够对图像进行自动化处理和分析,将图像转化为计算机能够理解和处理的形式,并在大量的图像数据库中进行智能搜索和比对,能够广泛应用于生活、医疗、教育等各个领域的图像处理和管理。
一、深度学习的基本原理深度学习是一种机器学习技术,它模仿人类大脑的神经网络进行模型设计和训练。
深度学习的基本原理是通过多层次的神经网络结构,自动地从数据中学习图像特征和模式,从而实现对图像进行分类、识别和检索等功能。
深度学习技术所处理的数据可以是各种类型的图片、视频、语音、文本等内容。
二、深度学习图像检索的基本框架深度学习图像检索的基本框架包括以下步骤:1、数据收集与清洗:在开始进行深度学习图像检索之前,需要准备大量的图像数据,并对数据进行清洗和预处理。
数据清洗是指将不符合要求的数据进行去除;预处理是指将数据进行标准化、归一化、降噪等操作,以便于后续的特征提取和计算。
2、特征提取:在深度学习图像检索中,如何提取和表达图像的特征是关键问题。
一般地,可以使用一些已经训练好的深度神经网络模型,或者采用自己设计的神经网络模型,从图像中提取低维度的特征信息。
3、特征编码:特征编码是指将被提取出来的图像特征转换为一种计算机容易读取的格式。
在日常的图像处理中,常用的编码方式有 Bag-of-visual-Words (BoW) 和 Fisher Vector (FV) 等。
4、检索与匹配:深度学习图像检索的核心就是建立一个查询函数,通过输入一个图像作为查询条件,返回与查询图像最相似的一组图像。
目前最常用的检索方法有 KNN 检索、基于语义相关性的检索等。
三、深度学习图像检索技术在医疗领域的应用随着医疗行业的不断发展,人们对医疗图像的需求越来越高,要求医务人员能够快速地、准确地诊断和判断病情。
深度学习图像检索技术正是为此而生的。
基于深度学习的图像识别技术研究及应用案例

基于深度学习的图像识别技术研究及应用案例图像识别技术在当代社会中扮演了重要的角色,而基于深度学习的图像识别技术则是目前最先进和最有效的方法之一。
本文将探讨深度学习在图像识别领域的研究和应用案例,并着重介绍了几个成功的实例。
深度学习是一种利用多层神经网络进行学习和训练的机器学习方法。
在图像识别领域,深度学习通过构建具有多个隐层的卷积神经网络(CNN)来模拟人类视觉系统的工作原理。
这些神经网络能够从原始图像数据中自动学习特征,并用于图像分类、目标检测、物体识别等任务。
一项成功的基于深度学习的图像识别技术研究案例是人脸识别。
人脸识别是指通过计算机技术对图像或视频中的人脸进行自动识别和识别的过程。
基于深度学习的人脸识别技术已取得了巨大突破,具有更高的准确性和鲁棒性。
例如,FaceNet是一种基于CNN的人脸识别系统,它能够从大量的人脸图像中学习人脸的特征表示,并能够在不同角度、光照条件和姿势下准确地进行人脸匹配。
另一个基于深度学习的图像识别技术应用案例是自动驾驶。
近年来,自动驾驶技术成为汽车行业的研究热点。
深度学习在自动驾驶领域的应用主要集中在目标检测和场景理解方面。
通过深度学习训练的卷积神经网络可以识别和跟踪道路上的车辆、行人和交通标志,并将这些信息用于自动驾驶决策。
例如,Google的自动驾驶汽车使用了一种名为Inception的CNN模型来检测和识别道路上的不同交通参与者,以实现安全驾驶。
此外,基于深度学习的图像识别技术还可以应用于医学影像诊断。
医学影像诊断是一项重要的医疗工作,但由于影像数据复杂、数量庞大,传统的人工诊断方法存在一定的局限性。
深度学习可以从医学影像数据中自动学习疾病特征,提供更准确和可靠的诊断结果。
例如,基于CNN的深度学习模型已被应用于肺部结节识别和乳腺癌检测等任务中,取得了与经验丰富的医生相媲美的诊断准确率。
总之,基于深度学习的图像识别技术在各个领域都有广泛的应用。
无论是人脸识别、自动驾驶还是医学影像诊断,深度学习都展现出了巨大的潜力和优势。
基于深度学习技术的图像识别技术研究

基于深度学习技术的图像识别技术研究近年来,随着深度学习技术的快速发展,图像识别技术也得到了突破性的进展。
基于深度学习技术的图像识别技术在人类视觉领域已经达到了一定的成熟度,应用领域也愈加广泛。
本文将围绕基于深度学习技术的图像识别技术展开探讨。
一、深度学习技术在图像识别中的应用基于深度学习技术的图像识别技术主要分为两类:基于监督学习和非监督学习。
其中,基于监督学习的图像识别技术是这一领域的主流。
在基于监督学习的图像识别技术中,通常会使用卷积神经网络(Convolutional Neural Network,CNN)进行特征提取和分类。
CNN在图像识别领域得到广泛应用的原因是它对输入数据特征的可适应性非常强。
除此之外,CNN还能通过多层的卷积和池化等操作实现图像的抽象和分类。
在实际应用中,基于监督学习的图像识别技术已成功运用于各领域,如人脸识别、车辆识别等。
此外,图像识别技术在医学领域也有广泛的应用。
比如,通过基于CNN的图像识别技术实现肺结节的识别,可以辅助医生提高诊疗准确率,有效地挽救病人的生命。
二、基于深度学习技术的图像识别技术的优势基于深度学习技术的图像识别技术相比于传统的图像识别技术具有以下几个优势:1. 鲁棒性强:基于深度学习技术的图像识别技术对输入数据的兼容性非常强,能够识别各种形状、角度、光照等不同的图像。
此外,基于深度学习技术的图像识别技术还具有噪音鲁棒性,能够在输入的数据中去掉无关信息。
2. 准确率高:深度学习技术中的神经网络具有非常强的自适应性,能够自动学习特征并进行分类。
相比于传统的图像识别技术,基于深度学习技术的图像识别技术的准确率更高。
3. 能够扩展应用领域:传统的图像识别技术需要针对每一种具体应用定制算法,开发成本高。
而基于深度学习技术的图像识别技术只需要以类似于人脑的方式进行学习,就能够完成各类的图像识别任务。
因此,基于深度学习技术的图像识别技术在扩展应用领域上有更大的优势。
深度学习技术在图像识别中的新进展与应用

深度学习技术在图像识别中的新进展与应用近年来, 深度学习技术在各个领域取得了巨大的突破,并在图像识别领域中得到广泛应用。
深度学习技术基于神经网络模型,通过自动学习特征和模式来解决图像识别问题。
本文将介绍深度学习技术在图像识别中的新进展和应用,并探讨其在计算机视觉领域的潜力和未来发展方向。
首先,深度学习技术在图像识别中的新进展主要体现在网络模型的改进上。
传统的神经网络模型如多层感知器(Multilayer Perceptron,MLP)和卷积神经网络(Convolutional Neural Networks,CNN)已经取得了很好的成果,但也存在一些限制。
近年来,研究人员提出了一系列新的网络模型,如残差网络(Residual Networks,ResNet)、注意力机制网络(Attention Mechanism Networks)和生成对抗网络(Generative Adversarial Networks,GANs)。
这些新模型通过引入更深的网络结构、更强的特征学习能力和更灵活的生成方式,进一步提高了图像识别的准确性和稳健性。
其次,深度学习技术在图像识别中的应用非常广泛。
以人脸识别为例,深度学习技术已经取得了显著的成果。
通过训练深度神经网络模型,可以实现人脸检测、人脸关键点标定、人脸属性分析和人脸识别等多个任务。
深度学习技术还可以应用于物体识别和目标检测领域,可以自动识别和定位图像中的物体或目标,为机器视觉和自动驾驶等领域提供技术支持。
此外,深度学习技术还可以应用于医学影像识别、图像生成和图像增强等领域,为医疗诊断、艺术创作和图像处理等提供新的解决方案。
深度学习技术在图像识别中的新进展和应用离不开大数据和强大的计算能力的支持。
深度学习技术需要大量的标注数据来训练模型,而互联网的快速发展使得获取大规模图像数据变得更加容易。
同时,深度学习技术对计算资源的要求也很高,需要大规模的并行计算和存储来进行模型训练和推理。
基于深度学习技术的图像识别算法研究与应用

基于深度学习技术的图像识别算法研究与应用近年来,随着计算机技术的不断发展,人工智能得到了广泛的关注和应用。
其中,基于深度学习技术的图像识别算法成为了人工智能领域中的热点问题。
本文将就基于深度学习技术的图像识别算法进行研究与应用进行探讨。
一、基于深度学习技术的图像识别算法的研究现状深度学习技术是人工智能领域中最具有发展前途的技术之一。
基于深度学习技术的图像识别算法是其中的一个重要应用方向。
目前,基于深度学习技术的图像识别算法已经得到了广泛的研究和应用。
在深度学习技术的框架下,卷积神经网络(CNN)已经成为了图像识别中最常用的一种神经网络结构。
通过CNN,计算机可以自动学习图像中的特征信息,并建立对应的分类模型。
目前,基于CNN的图像识别算法已经应用于各个领域,如人脸识别、车辆识别、物体识别等。
二、基于深度学习技术的图像识别算法的研究与应用基于深度学习技术的图像识别算法可以应用于各种领域。
以下将介绍基于深度学习技术的图像识别算法在人脸识别和智能家居领域的应用。
1、基于深度学习技术的人脸识别算法人脸识别是近年来得到广泛发展的一项技术。
人脸识别技术的应用场景很广泛,如安全监控、身份验证等。
基于深度学习技术的人脸识别算法可以自动学习人脸的特征信息,提高识别准确率和鲁棒性。
在人脸识别领域中,基于CNN的深度学习算法已经得到了广泛的应用。
常用的CNN结构包括LeNet、AlexNet、VGG等。
这些算法的共性是在前几层通过卷积、池化等操作学习到了数据的局部特征,而在后面的层次中,则通过全连接层进行最终权重的学习,完成对数据的判别。
2、基于深度学习技术的智能家居算法随着智能家居的逐渐普及,人们也对智能家居的安全性提出了更高的要求。
基于深度学习技术的智能家居算法则可以使用图像识别技术实现对家居环境的智能监控。
在应用中,基于CNN的深度学习算法可以对家居环境的图像进行实时监测,并通过学习到的特征进行异常检测和事件提醒。
基于深度学习的图像识别技术研究

基于深度学习的图像识别技术研究摘要图像识别技术在计算机视觉领域发挥着重要的作用。
近年来,深度学习算法的发展为图像识别带来了重大突破。
本文通过对基于深度学习的图像识别技术进行研究,分析了其在各个领域中的应用,并探讨了其未来发展趋势。
1. 引言随着计算机视觉技术的不断进步,图像识别已经成为一个热门研究领域。
传统的图像识别方法通常依赖于手工提取特征,并使用传统机器学习算法进行分类。
然而,这种方法在处理大规模数据和复杂场景时存在一定局限性。
近年来,深度学习算法在计算机视觉领域取得了突破性进展,成为图像识别领域中最具潜力和前景的技术。
2. 深度学习在图像识别中的应用2.1 目标检测目标检测是一种常见而重要的图像识别任务。
传统方法通常使用手工提取特征,如Haar特征、HOG特征等,然后使用机器学习算法进行分类。
然而,这种方法对于目标的尺度、姿态和光照变化较为敏感。
基于深度学习的目标检测算法通过使用卷积神经网络(CNN)对图像进行端到端的学习,从而实现了更准确和鲁棒的目标检测。
2.2 图像分类图像分类是图像识别中最基本和最常见的任务之一。
传统方法通常使用手工提取特征,并将其输入到机器学习算法中进行分类。
然而,这种方法对于复杂场景和大规模数据处理效果较差。
基于深度学习的图像分类算法通过使用卷积神经网络(CNN)对图像进行端到端的训练,并通过多层次抽象来提取更高级别的特征,从而实现了更准确和鲁棒的图像分类。
2.3 图像分割图像分割是将一幅图像划分为若干个不同区域或对象的过程。
传统方法通常依赖于手工设计的特征,并使用机器学习算法进行分割。
然而,在处理复杂场景和大规模数据时存在一定困难。
基于深度学习的图像分割算法通过使用卷积神经网络(CNN)对图像进行端到端的学习,从而实现了更准确和鲁棒的图像分割。
3. 基于深度学习的图像识别技术的挑战尽管基于深度学习的图像识别技术取得了显著进展,但仍面临一些挑战。
首先,深度神经网络通常需要大量标注数据进行训练,而标注数据获取和标注过程成本较高。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音搜索、图像识别等领域,涵盖几十项产品。
今天,用户在百度平台上的几乎每个服务请求,都被深度学习系统所处理。
人工智能的特征之一是学习的能力,即系统的性能是否会随着经验数据的积累而不断提升。
所以,大数据时代的到来给人工智能的发展提供前所未有的机遇。
在这个时代背景下,深度学习在包括图像识别等方面所取得的突破性进展并非偶然。
在百度的实践中,我们认识到深度学习主要在以下三个方面具有巨大优势:1.从统计和计算的角度看,深度学习特别适合处理大数据。
在很多问题上,深度学习是目前我们能找到的最好方法。
它集中体现了当前机器学习算法的三个大趋势:用较为复杂的模型降低模型偏差(model bias),用大数据提升统计估计的准确度,用可扩展(scalable)的梯度下降算法求解大规模优化问题。
2.深度学习不是一个黑箱系统。
它像概率模型一样,提供一套丰富的、基于联接主义的建模语言(建模框架)。
利用这套语言系统,我们可以表达数据内在的丰富关系和结构,比如用卷积处理图像中的二维空间结构,用递归神经网络(Recurrent Neu-ral Network, RNN)处理自然语言等数据中的时序结构。
3.深度学习几乎是唯一的端到端机器学习系统。
它直接作用于原始数据,自动逐层进行特征学习,整个过程直接优化某个目标函数。
而传统机器学习往往被分解为几个不连贯的数据预处理步骤,比如人工抽取特征,这些步骤并非一致地优化某个整体的目标函数。
让计算机识别和理解图像,是人工智能最重要的目标之一。
尤其是在移动互联网时代,智能手机上的摄像头将人们日常看到的世界捕捉下来,图像和视频数据暴增,造就了图像大数据时代。
概述:深度学习和图像识别近年来在人工智能领域最受关注的,非深度学习莫属。
自2006年吉奥夫雷·辛顿(Geoffery Hinton)等在《科学》(Science )杂志发表那篇著名的论文[1]开始,深度学习的热潮从学术界席卷到了工业界。
2012年6月,《纽约时报》披露“谷歌大脑(Google Brain)”项目,由著名的斯坦福大学机器学习教授吴恩达(Andrew Ng)和大规模计算机系统世界顶级专家杰夫·迪恩(Jeff Dean)共同主导,用1.6万个CPU 核的并行计算平台训练深度神经网络(Deep Neural Networks, DNN)的机器学习模型,在语音和图像识别等领域获得巨大成功。
国内方面,2013年1月,百度成立深度学习研究院,公司CEO 李彦宏担任院长。
短短两年时间,深度学习技术被应用到百度的凤巢广告系统、网页搜索、基于深度学习的图像识别进展:百度的若干实践关键词:深度学习 图像分类 物体检测都大龙 余轶南 罗 恒 等百度公司计算机视觉的主要内容就是图像识别:一方面,这个技术使得计算机像人类视觉系统一样,具有“看懂”世界的能力,从而能自主适应环境、改造环境;另一方面,依靠识别图像内容,可以帮助我们更好地了解人,比如,通过用户产生的拍照内容了解用户的行为和喜好,或者通过识别用户手势理解用户的意图。
借助图像识别让互联网服务更好地理解世界、洞察用户,也是百度深度学习研究院重点投入的技术研发方向之一。
有意思的是,深度学习研究的初衷主要就是应用于图像识别。
迄今为止,尽管深度学习已经被应用到语音、图像、文字等方面,但深度学习领域发表的论文中大约70%是关于图像识别的。
从2012年的ImageNet[2]竞赛开始,深度学习在图像识别领域发挥出巨大威力,在通用图像分类、图像检测、光学字符识别(Optical Character Recognition, OCR)、人脸识别等领域,最好的系统都是基于深度学习的。
前面所述深度学习的三大优势,在最近图像识别的进展中体现得淋漓精致:模型结构越来越复杂,训练数据规模也不断增加;各种关于数据结构的先验知识被体现到新的模型结构中;端到端学习让我们越来越摒弃基于人工规则的中间步骤。
百度深度学习研究院在基于深度学习的图像识别课题上开展了大量工作,并取得丰硕成果。
在将基于深度学习的图像识别应用于图像搜索、网页搜索、百度魔图、涂书笔记、作业帮、百度街景等互联网产品以及百度眼镜(BaiduEye)、自动驾驶等创新性研究项目方面,也积累了丰富经验。
下面与大家分享若干个技术实践。
基于深度学习的图像分类和物体检测算法图像分类(image classifica-tion)和物体检测(object detec-tion)是图像识别的两个核心问题。
前者主要对图像整体的语义内容进行类别判定,后者则定位图像中特定物体出现的区域并判定其类别。
与图像分类相比,物体检测更加关注图像的局部区域和特定的物体类别集合,被视为更加复杂的图像识别问题。
两项技术在信息检索、广告投放、用户分析、商品推荐等互联网应用中大有用武之地。
传统图像分类算法中具有代表性的是杨(Yang)等人[3]在2009年提出的采用稀疏编码(sparse coding)表征图像、通过大规模数据训练支持向量机(sup-port vector machine)进行图像分类的方法。
这类方法在2010年和2011年的ImageNet[1]图像分类竞赛中取得了最好成绩,其主要缺陷在于稀疏编码和分类模型是在不同目标函数的监督下分开训练得到的,两者无法有效地联合训练。
变革发生于2012年,辛顿等人[4]采用卷积神经网络(Convolutional Neural Network,CNN)将ImageNet图像Top5分类识别错误率从之前的25%降低到15%。
随后,以卷积神经网络为代表的各种深度学习算法被广泛应用于传统的图像识别中,不断刷新纪录。
截至2014年,Ima-图1 2010年到2014年ImageNet竞赛的识别错误率变化以及人的识别错误率识别错误率30%25%20%15%10%5%0%2010 2011 2012 2013 2014 人geNet 图像Top5分类的识别错误率已经降低到6.73%[5]。
斯坦福大学的安德烈·卡帕西(Andrej Karpathy)等人[6]对比了卷积神经网络和人在ImageNet 数据库上的性能,发现目前最好的卷积神经网络模型距离人的识别率仅一步之遥(见图1)。
而目前在较小的CIFAR-10数据库上,卷积神经网络的性能已经超过了人[7]。
在物体检测方面,如图2所示,目前主流的算法大都采用扫描窗或是候选窗方法[8],选取图像中许多大小位置不同的子区域进行分类(某种物体或是背景),最终得到感兴趣的物体出现的位置区域。
扫描窗方法能够在相邻窗口之间共享特征,可以快速地扫描较大面积的图像;候选窗方法能够高效地在图像候选区域内进行识别,更为灵活地处理物体长宽比的变化,从而获得较高的交并比覆盖率。
扫描窗和候选窗都是将物体检测问题归结为图像分类问题予以解决,因此,卷积神经网络同样可以在物体检测中大放异彩。
在ImageNet 2014[2]的物体检测竞赛中,百度研发的物体检测算法在采用优化的候选框产生算法基础上,加上一个10层卷积神经网络模型,结合图像的上下文信息,平均精度达到40.3%。
近几年,深度学习在图像识别中的发展主要有以下几个趋势:1.模型层次不断加深。
2012年,艾利克斯(Alex)获得当年ImageNet 竞赛冠军时用的网络使用了5个卷积层(另外包括3个pool 层和2个norm层)。
而到2014年,获得冠军的GoogleNet [5]使用了59个卷积层(另外包括16个pool 层和2个norm 层)。
第二名的VGG [9]也使用19个卷积层,并获得较好的性能。
模型深度的重要性不言而喻。
2.模型结构日趋复杂。
传统的卷积神经网络模型多使用简单的conv-pool-norm 结构进行堆砌,GoogleNet [5]的结果表明,并行多分辨率的inception 结构能够融合图像在不同尺度上的有效信息,而NIN(network-in-network)[10]结构则通过低秩分解对较大参数规模的卷积层进行参数压缩,大大减小模型参数规模。
这样做,一方面能够降低过拟合程度,提高模型的推广能力,另一方面则为大规模并行训练提供非常有利的条件。
3.海量的标注数据和适当的数据扰动。
ImageNet 2012分类竞赛的训练数据包含120万左右的标注样本,而ImageNet 全库目前已经收集将近2.2万个类别共约1420万图像。
但仅有这些数据仍不足以避免参数规模庞大的深度学习模型的过训练现象。
结合图像数据的特点,包括平移、水平翻转、旋转、缩放等数据扰动方式被用于产生更多有效的训练数据,能够普遍提高识别模型的推广能力。
值得一提的是,百度利用并行分布式深度学习平台(PArallel Distributed Deep LEarning, PAD-DLE),收集建立起规模更大、更符合个人电脑和移动互联网特点的图像数据仓库,这些数据结合深度学习算法产出的各种图像分类和物体检测模型,已经广泛服务于许多与图像有关的百度产品线。
以互联网色情图片过滤为例,我们的训练数据囊括了1.2亿幅色情图像,分类精度达99.4%。
基于端到端的序列学习:对传统光学字符识别框架的改造光学字符识别的概念早在20世纪20年代便被提出,一直是模式识别领域研究中极具代表性的重要课题。
近些年,随着移动互联网的发展,光学字符识别技术的应用场景也从传统的办公领域(例如邮政编码、书籍扫描和图2 区域卷积神经网络流程图[9]3.计算卷积神经 网络特征1.输入图像2.提取子区域(extractregion proposals(~2k))4.区域分类扭曲的区域(warped region)aeroplane?no.person?yes.tvmonitor?no.CNN文档传真)逐渐渗入日常生活,产生出许多以手机拍照光学字符识别作为入口的文字信息录入及查询类应用。
经典的光学字符识别系统的流程和技术框架如图3所示,从输入图像到输出最终的文字识别结果,历经版面分析、行分割、字分割、单字识别、语言模型解码和后处理。
涉及的技术分为基于经验制定的规则和基于统计学习的模型[11]两大类。
前者包括系统预处理阶段(版面分析、行分割、字分割)的二值化、连通域分析、投影分析等,以及后处理阶段的规则噪声过滤器;后者包括基于类方向梯度直方图(Histogram of Oriented Gradient, HOG)特征的单字识别引擎[12]和基于N-gram 的语言模型,用于单字识别和语言模型解码阶段。
在以印刷体文档扫描识别为代表的光学字符识别传统应用场景中,版面结构的规则性较强,字形、字体的一致性较高,而文字同背景的区分性又较好。
在数据简单、条件可控的情况下,经典的光学字符识别技术架构通过细致的人工规则制定和适量的模型参数学习,便可以达到比较理想的识别精度。