基于深度学习的图像字幕生成方法研究

发表时间：2019-02-28T15:08:21.577Z 来源：《基层建设》2018年第36期作者：王珊珊

[导读] 摘要：几年之前，由于计算能力的不足以及大规模图像字幕数据集的缺少，这就导致了国外很少有人做这方面的研究，其所得到的结果也让人不尽满意，在国内更是鲜有人涉及这个方向。

华风气象影视技术中心北京 100000

摘要：几年之前，由于计算能力的不足以及大规模图像字幕数据集的缺少，这就导致了国外很少有人做这方面的研究，其所得到的结果也让人不尽满意，在国内更是鲜有人涉及这个方向。不过，随着近两年计算机运算能力的提高、深度学习（DL）的发展以及众多大规模图像字幕数据集的出现，这才使得这项任务重新回归到人们的视野并逐渐成为了计算机视觉与自然语言处理领域中的一个研究热点。本文就图像字幕生成任务中所涉及的深度学习算法，在总结前人提出的各种网络及其成效的基础上，研究适合图像字幕生成任务的深度学习模型，为该研究方向提供一定的指导意义。

关键词：深度学习；图像字幕；生成方法

1图像字幕生成概述

图像字幕生成是继图像识别、目标定位、图像分割后又一新型计算机视觉任务。在计算机视觉发展的初期，研究者们尝试利用计算机程序来模拟人类视觉系统，并让其告诉我们它看到了什么，这也就是最基本的图像识别。继图像识别之后，人们又提出更高的要求，即在识别的基础上确定目标在图像中的位置或将其从图像中分割出来。但是，上述任务都是将图像划分到一个或者多个离散的标签中去，它既没有描述出图像中各个对象的关系，也没有给出图像中正在发生的事情。为此，图像字幕生成应运而生，图像字幕生成方法也开始逐渐产生、发展并不断成熟起来。上个世纪七十年代，研究者们认为要让计算机理解它所看到的是什么东西时，必须像人眼一样具有立体视觉。在这种认知的情况下，研究者们希望把物体的三维结构从图像中恢复出来，并在此基础上再让计算机理解和判断。到了八九十年代，研究人员发现要让计算机理解图像，不一定要先恢复物体的三维结构，而是靠物体所具有的一些表面或局部特征。例如，当计算机识别一个苹果时，假设计算机事先知道苹果的形状纹理等特征，并且建立了这样一个先验知识库，那么计算机就可以将看到的物体的特征与先验知识库中的特征进行匹配。如果能够匹配，计算机就可以被认为理解了这个物体。随后，研究者们又利用这些特征，设计各种分类器来达到理解图像的目的。在计算机理解图像的基础上，研究者们又设计不同的算法来实现目标定位、图像分割、简单的图像字幕生成。其中，传统的图像字幕生成方法就是在得到图像里面的不同物体的基础上，采用自然语言处理技术通过一些检索的方法生成对应的字幕描述。

2基于深度学习的图像字幕生成方法研究

深度学习是机器学习（ML）领域中的一个新的研究方向，它的概念来源于人工神经网络（ANN）的研究，其实质就是通过构建机器学习模型和利用海量的训练数据，来逐层变化特征，以提升分类或者预测的准确性。同传统的机器学习方法一样，深度学习也有监督学习和无监督学习之分，不同学习框架下建立的学习模型也是不同的。

2.1基于卷积与循环神经网络的图像字幕生成

2.1.1基于卷积神经网络的图像特征提取

图像特征提取是指计算机经过一系列算法将一幅原始RGB图像转化成一个特征向量或一个特征矩阵，该向量或矩阵就在其空间中代表了这幅图像。图像特征一般包括低级特征和高级特征。常见的低级特征包括颜色特征、纹理特征、形状特征、空间关系特征。低级特征的优点是计算简单直接，缺点是对图像敏感，不能反映图像本身所包含的对象信息。图像的高级特征是指该特征包含了一定的语义信息，利用该特征可以更加容易地识别该图像所包含的内容。本文将利用最先进的卷积神经网络结构进行图像特征提取，常见的有AlexNet、VGG、GoogleNet、ResNet等，这些网络在ImageNet图像分类比赛（ImageNet是由美国斯坦福大学计算机视觉实验室建立的，目前世界上最大的图像识别数据库）中可以达到与人类相媲美的优异结果。本文同大多数计算机视觉应用一样，将采用在ImageNet数据集上预训练好的卷积神经网络，然后通过迁移学习的方法将其用于图像字幕生成任务。对于上述任何一个卷积神经网络可以将其简化成如下图的结构：

2.1.2基于循环神经网络的语言建模与生成

图像可以通过卷积神经网络转变成含有高级语义信息的特征向量。类似的，对于句子也要将其转换成向量才能方便后续处理。一般的，句子往往是由很多个单词组成，将每个单词转变成成一个有意义的词向量比向量化整个句子处理起来更加灵活。有了词向量以后，句子则可以通过一系列按顺序排列的词向量表示。为了能表示出所有字幕，本章将字幕集出现过的所有单词组成一个集合，并将该集合形象化地称为“字典（V ocabulary）”。对于字典里的所有单词，可以将其按顺序排列，并将其序号作为其唯一索引。假设字典的大小为V，即字典共包含V个单词。对于每一个单词，为了方便可以将其进行独热（One-hot）编码，即用长度为V的向量S表示，该向量除了单词对应的索引位为1以外其余全部为0。one-hot编码只是给出了单词的唯一索引信息，想要将其应用在其他任务中就必须将其特征向量化，即word2vec （Word to Vector）。常见的word2vec模型有CBoW（Continuous Bag of Words）模型、Skip-grams模型，采用这些模型就必须单独将其在语料库上训练，这同样会导致模型不能进行端到端训练。近些年，研究证明循环神经网络是一种非常适合该任务的时序模型，它不仅可以根据语句的上下文信息完成word2vec，还可以非常方便地生成新的句子。

2.2基于注意力机制模型的图像字幕生成

2.2.1图像特征提取

上一节的图像字幕生成模型所提取的图像特征是来自卷积神经网络最后的全连接层，它是一个一维向量。因此，它只包含了图像全局的语义信息，而丢失了图像内容之间的位置信息。对于图像的卷积运算来说，它有一个很好的特点，就是卷积的结果能够保留输入图像大致的位置信息。因此，不含有全连接网络的卷积神经网络同样具有这个性质。根据上述思想，为了将每个特征向量与二维图像内容的位置