语义分析的一些方法(三)_光环大数据培训

合集下载

文本分析平台TextMiner_光环大数据培训

文本分析平台TextMiner_光环大数据培训互联网上充斥着大规模、多样化、非结构化的自然语言描述的文本，如何较好的理解这些文本，服务于实际业务系统，如搜索引擎、在线广告、推荐系统、问答系统等，给我们提出了挑战。

例如在效果广告系统中，需要将Query(User or Page) 和广告 Ad 投影到相同的特征语义空间做精准匹配，如果Query 是用户，需要基于用户历史数据离线做用户行为分析，如果 Query 是网页，则需要离线或实时做网页语义分析。

文本语义分析（又称文本理解、文本挖掘）技术研究基于词法、语法、语义等信息分析文本，挖掘有价值的信息，帮助人们更好的理解文本的意思，是典型的自然语言处理工作，关键子任务主要有分词、词性标注、命名实体识别、Collection 挖掘、Chunking、句法分析、语义角色标注、文本分类、文本聚类、自动文摘、情感分析、信息抽取等。

（摘自https:///nlp/，稍作修改）在解决文本处理需求过程中，我们发现保证文本分析相关的概念、数据和代码的一致性，避免重复开发是非常关键的，所以设计并搭建一套灵活、可扩展、通用的文本分析底层处理平台，供上层应用模块使用，是非常必要的。

既然是文本分析，我们很自然的想到是否可以使用已有的自然语言处理开源代码呢？为此，我们不妨一起了解下常见的相关开源项目：Natural Language Toolkit（NLTK），/，In Python，主要支持英文Stanford CoreNLP，/software/index.shtml，In Java，主要支持英文，阿拉伯语，中文，法语，德语哈工大-语言技术平台（Language Technolgy Platform，LTP），/，In C/C++，支持中文ICTLAS 汉语分词系统，/，In C/C++，支持中文遗憾的是，我们发现尽管这些项目都极具学习和参考价值，和学术界研究结合紧密，但并不容易直接用于实际系统。

语义分析技术的使用教程及文本分类效果评估

语义分析技术的使用教程及文本分类效果评估概述：语义分析技术是一种在自然语言处理领域中广泛应用的技术，主要用于理解和解释语言中的语义信息。

本文将介绍语义分析技术的使用教程，并对其在文本分类任务中的效果进行评估。

一、语义分析技术的概念语义分析技术是指对自然语言文本进行深入分析，从中提取有关语义信息的方法和技术。

主要包括词汇消歧、句法分析、语义角色标注、实体识别等技术。

语义分析的目标是通过理解文字背后的真正意思和语义关系，从而使计算机能够更好地理解人类语言。

二、语义分析技术的使用教程1. 数据准备：首先，需要准备适量的文本数据进行语义分析的训练和测试。

数据可以来自于各种来源，例如新闻文本、社交媒体、产品评论等。

为了获得可靠的结果，建议在数据准备阶段进行数据清洗和预处理。

2. 特征提取：在进行语义分析之前，需要将原始文本数据转换为计算机能够处理的特征表示。

常用的特征提取方法包括词袋模型、TF-IDF和Word2Vec等。

通过这些方法可以将文本转化为向量形式，以便后续的分析处理。

3. 建立语义模型：建立语义模型是语义分析的核心步骤之一。

目前，有许多不同的模型可以用于语义分析，包括传统的机器学习模型如朴素贝叶斯、支持向量机，以及深度学习模型如循环神经网络（RNN）和卷积神经网络（CNN）。

选择适合任务的模型，并通过大规模的训练数据进行模型的训练。

4. 验证和调优：完成模型训练后，需要对模型进行验证和调优，以确保其在新数据上的泛化能力。

可以通过交叉验证、混淆矩阵、准确率和召回率等指标对模型进行评估。

如果发现模型性能不佳，可以调整模型结构、超参数等进行改进。

5. 应用部署：在完成模型训练和验证之后，可以将训练好的模型应用于实际的文本分类任务中。

可以利用该模型对未知的文本进行分类，从而实现对大规模文本数据的语义分析和分类。

三、文本分类效果评估为了评估语义分析技术在文本分类任务中的效果，通常采用以下指标：1. 准确率（Accuracy）：分类正确的样本数占总样本数的比例，可以直观地衡量分类器的整体性能。

语义分析法3

Company Logo
语义学中分析、描写词的语义特征的目的
２.为了凸显同属于一个语义类的不同词语间的差异。例如：动词“吃”“喝”同属一个语义类饮食类。但语义上有差别。喝【＋动作，＋对象为液体，－对象为固体，＋用容器，＋使事物消失．．．】吃【＋动作，－对象为液体，＋对象为固体，±用容器，＋使事物消失．．．】３．区别看似同义实际不同义的词看【＋凭借眼睛，－被动感知，＋自主，＋可控．．．】看见【＋凭借眼睛，＋被动感知，－自主，－可控．．．】
语法研究中的语义特征，它着眼于分析概括处于同一句法格式的各个实例中的同一关键位置上的实词所共有的语义特征。
语法学语义特征概念的含义
离开具体句式，单纯从词汇角度概括出的一些词的语义特点不一定有句法上的价值。例如：从词汇角度，可以将“自行车，卡车，公共汽车，电车，火车”归为一类，它们都具有交通工具的语义特征。词汇学上这是有价值的，但在句法学不一定有句法价值。某些实词是否具有某种语义特征要在具体的句法格式中确定和概括。例如：“名词（主语）+动词+名词1+给+名词2”这一句式中，在“动词 ”位置上出现的动词都含有“给予”的语义特征。在“张三写给李四一封信"中，”写“也就具有了”给予“的语义特征。
名词（主语）+动词+名词1+给+名词2
上述三组动词语义特征描写、比较
A类动词：【+给予，-取得，-制作】 B类动词：【-给予，+取得，-制作】 C类动词：【-给予，-取得，+制作】
关于“形容词＋（一）点儿”祈使句式
A. 虚心点儿！积极点儿！坚强点儿！主动点儿！灵活点儿！大方点儿！ B. 粗一点儿！近一点儿！高一点儿！浓一点儿！大一点儿！慢一点儿！ C. *骄傲点儿！ *悲观点儿！ *罗嗦点儿！ *胆小点儿！ *嘈杂点儿！ *蛮横点儿！ D. *可爱点儿！ *健康点儿！ *伟大点儿！ *优秀点儿！ *美丽点儿！ *高尚点儿！

语义分析的一些方法

语义分析的一些方法语义分析的一些方法(上篇)•5040语义分析，本文指运用各种机器学习方法，挖掘与学习文本、图片等的深层次概念。

wikipedia上的解释：In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents(or images)。

工作这几年，陆陆续续实践过一些项目，有搜索广告，社交广告，微博广告，品牌广告，内容广告等。

要使我们广告平台效益最大化，首先需要理解用户，Context(将展示广告的上下文)和广告，才能将最合适的广告展示给用户。

而这其中，就离不开对用户，对上下文，对广告的语义分析，由此催生了一些子项目，例如文本语义分析，图片语义理解，语义索引，短串语义关联，用户广告语义匹配等。

接下来我将写一写我所认识的语义分析的一些方法，虽说我们在做的时候，效果导向居多，方法理论理解也许并不深入，不过权当个人知识点总结，有任何不当之处请指正，谢谢。

本文主要由以下四部分组成：文本基本处理，文本语义分析，图片语义分析，语义分析小结。

先讲述文本处理的基本方法，这构成了语义分析的基础。

接着分文本和图片两节讲述各自语义分析的一些方法，值得注意的是，虽说分为两节，但文本和图片在语义分析方法上有很多共通与关联。

最后我们简单介绍下语义分析在广点通“用户广告匹配”上的应用，并展望一下未来的语义分析方法。

1 文本基本处理在讲文本语义分析之前，我们先说下文本基本处理，因为它构成了语义分析的基础。

而文本处理有很多方面，考虑到本文主题，这里只介绍中文分词以及Term Weighting。

1.1 中文分词拿到一段文本后，通常情况下，首先要做分词。

分词的方法一般有如下几种：•基于字符串匹配的分词方法。

此方法按照不同的扫描方式，逐个查找词库进行分词。

专业的语义研究方法

专业的语义研究方法语义研究是语言学中的一个重要领域，它探讨的是语言单位（如词、短语、句子）的意义和它们之间的关系。

为了进行准确的语义研究，研究者需要运用专业的语义研究方法。

本文将介绍几种常用的语义研究方法，包括字义分析、句义分析和语篇分析。

1. 字义分析字义分析是语义研究的基础，它研究的是单个词语的意义。

在进行字义分析时，研究者可以参考词典、语料库等工具和资源。

首先，研究者需要查阅各种字典，了解该词在不同语境中的意义。

其次，语料库可以提供大量真实语言数据，研究者可以通过观察和分析这些数据，探究词语的使用频率、搭配性等特征。

2. 句义分析句义分析是研究句子意义的方法。

研究者需要分析句子中词语之间的关系和句子结构对整个句子意义的影响。

在进行句义分析时，可以应用一些形式逻辑的方法，如逻辑关系分析、语法角色分析等。

此外，可以利用语义角色标注等工具和技术来帮助分析句子中各个成分在句义上的扮演角色。

3. 语篇分析语篇分析是研究文本整体意义的方法。

相比于字义分析和句义分析，语篇分析更关注词语和句子之间的上下文关系和语用信息。

在进行语篇分析时，研究者需要考虑到话语的背景、说话者的意图、听话者的推理等因素。

通过综合考虑这些因素，可以更全面地理解文本的意义。

除了上述的方法，还有其他一些专业的语义研究方法，如语义图谱分析、语义角色标注和语义关系分类等。

这些方法都有各自的特点和适用范围，研究者可以根据具体的研究目标和语料的特点选择合适的方法进行研究。

总结起来，专业的语义研究方法包括字义分析、句义分析和语篇分析等。

通过运用这些方法，研究者可以深入探究语言单位的意义，促进对语言现象的理解和解释。

在进行语义研究时，需要注意使用适当的工具和资源，并结合具体的研究目标制定研究方法和步骤，以获得准确、全面的研究成果。

语义分析技术的工作原理

语义分析技术的工作原理语义分析技术是一种利用自然语言处理和机器学习技术来识别、理解和解析文本语义的方法。

它广泛应用于文本分类、情感分析、信息检索等领域，能够帮助人们更好地理解和利用文本信息。

本文将介绍语义分析技术的工作原理，包括词向量表示、语义匹配和句法分析。

一、词向量表示在语义分析中，词向量是一种重要的表示形式，它将词语映射为实数向量，能够捕捉到词语间的语义关系。

常见的词向量表示方法有词袋模型、TF-IDF和词嵌入模型等。

其中，词嵌入模型如Word2Vec、GloVe和FastText等已成为主流方法，通过训练神经网络模型，将词语映射到低维空间上。

二、语义匹配语义匹配是指通过比较两个文本的语义相似度来判断它们是否相关的过程。

语义匹配常用于问答系统、搜索引擎中的语义搜索和信息检索等任务。

在语义匹配中，使用词向量表示的文本会根据特定的相似度度量方法，计算文本间的相似程度。

常用的相似度度量方法有余弦相似度、欧氏距离和曼哈顿距离等。

在计算相似度时，可以结合上下文信息和语境进行更加准确的处理。

三、句法分析句法分析是语义分析的重要环节，通过分析句子中词与词之间的依存关系，揭示句子的语法结构和语义信息。

常见的句法分析方法包括基于规则的方法和基于机器学习的方法。

其中，基于机器学习的方法如最大熵模型、条件随机场和图模型等能够通过训练模型，自动学习词汇和句子之间的依存关系，实现更精准的句法分析。

四、文本分类文本分类是语义分析的典型应用之一，其目标是将给定的文本分配到预定义的类别中。

文本分类可应用于垃圾邮件过滤、情感分析、新闻分类等任务中。

在文本分类中，通常采用特征提取和机器学习方法来实现。

特征提取可以基于词频、词袋模型或者词向量表示，经过特征选择和降维等过程，将文本表示为特征向量。

然后，可以使用分类算法如朴素贝叶斯、支持向量机和深度学习模型等，对文本进行分类。

五、情感分析情感分析是语义分析的另一个重要应用领域，其目标是识别和分析文本中的情感倾向。

语义分析的工作原理

语义分析的工作原理语义分析（Semantic Analysis）是自然语言处理领域中的重要研究方向，其主要目标是理解自然语言中的语义信息，并对其进行进一步的处理和分析。

本文将介绍语义分析的工作原理，讨论其主要方法和应用领域。

一、概述语义分析是自然语言处理中的核心任务之一，其主要目标是从文本中提取意义，理解語言和信息之間的關聯。

与传统的基于语法的分析方法不同，语义分析注重从文本中获取更深层次的含义。

其应用广泛，包括情感分析、问答系统、机器翻译等。

二、方法和技术1. 词义消歧词义消歧（Word Sense Disambiguation）是语义分析的一个关键步骤。

在自然语言中，一个词可能有多个不同的意义，而词义消歧的任务就是确定在特定上下文中该词的正确含义。

常用的方法包括基于知识库、统计方法和机器学习等。

2. 句法分析句法分析（Syntactic Parsing）是另一个与语义分析密切相关的任务。

它的主要目标是确定一句话中的各个词语之间的句法关系，从而提供给语义分析更准确的输入。

句法分析方法包括依存句法分析和短语结构分析等。

3. 语义角色标注语义角色标注（Semantic Role Labeling）是一项关键任务，它用于识别和标注句子中的谓词与各个论元之间的语义关系。

通过语义角色标注，我们可以更好地理解句子中不同成分之间的作用和关系。

4. 实体识别实体识别（Named Entity Recognition）是一项重要的任务，旨在识别和提取文本中的特定实体，如人名、地名、组织名等。

实体识别在文本理解和信息提取中具有重要意义，为语义分析提供了重要的输入信息。

5. 语义关系抽取语义关系抽取（Semantic Relation Extraction）是指从文本中抽取出不同实体之间的语义关系。

通过语义关系抽取，我们可以获得更深层次的语义信息，从而实现更高级别的语义分析。

三、应用领域1. 情感分析情感分析（Sentiment Analysis）是一种常见的语义分析应用，用于识别和分析文本中的情感倾向，如正面、负面或中性。

语义特征分析法

Word2Vec
通过训练神经网络，将词转化为固定维度的向量，形成语义特征。
特征匹配与分类
相似度匹配
比较文本间的相似度，如余弦相似度、 Jaccard相似度等。
分类器
使用机器学习算法对文本进行分类，如朴素贝叶斯、支持向量机、神经网络等。
结果评估与优化
01
准确率、召回率、F1值：评估分类结果的性能指标。
深度学习技术可以结合传统的语义特征分析方法，形成更为强大的语义特征分析模型，提高语义特征分析的精度和泛化能力。
深度学习技术还可以应用于多模态语义特征分析，将不同模态的数据进行融合，进一步提高语义特征分析的准确性和全面性。
多模态语义特征分析
多模态语义特征分析是指将不同模态的数据进行融合，以提取更
产品评价
02
分析用户对产品的评价和反馈，了解产品的优点和不足之处。
品牌形象评估
03
评估品牌在公众心目中的形象和声誉，为企业决策提供依据。
06 语义特征分析法的未来发展与挑战
深度学习与语义特征分析法的结合
深度学习技术为语义特征分析提供了强大的工具，能够自动提取高层次的语义特征，提高了语义特征分析的准确性和效率。
02
采用分布式计算和并行化技术可以提高大规模语义特征分析的计算效率和可扩展性。
03
利用高效的降维技术和特征选择方法可以降低大规模语义特征分析的维度和计算复杂度，提高分析效率。
THANKS FOR WATCHING
感谢您的观看
02
交叉验证：通过将数据集分成训练集和测试集，评估
模型的泛化能力。
03
特征选择与优化：根据性能指标，选择或优化特征，
提高分类效果。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

语义分析的一些方法(三)_光环大数据培训图片语义分析3.1 图片分类图片分类是一个最基本的图片语义分析方法。

基于深度学习的图片分类传统的图片分类如下图所示，首先需要先手工提取图片特征，譬如SIFT, GIST，再经由VQ coding和Spatial pooling，最后送入传统的分类模型(例如SVM等)。

图23. 传统图片分类流程图传统方法里，人工特征提取是一个巨大的消耗性工作。

而随着深度学习的进展，不再需要人工特征，通过深度学习自动提取特征成为一种可能。

接下来主要讲述卷积神经网络在图片分类上的使用。

下图是一个经典的卷积神经网络模型图，由Hinton和他的学生Alex Krizhevsky在ILSVRC(Imagenet Large Scale Visual Recognition Competition) 2012中提出。

整个网络结构包括五层卷积层和三层全连接层，网络的最前端是输入图片的原始像素点，最后端是图片的分类结果。

一个完整的卷积层可能包括一层convolution，一层Rectified Linear Units，一层max-pooling，一层normalization。

图24. 卷积神经网络结构图对于每一层网络，具体的网络参数配置如下图所示。

InputLayer就是输入图片层，每个输入图片都将被缩放成227*227大小，分rgb三个颜色维度输入。

Layer1~ Layer5是卷积层，以Layer1为例，卷积滤波器的大小是11*11，卷积步幅为4，本层共有96个卷积滤波器，本层的输出则是96个55*55大小的图片。

在Layer1，卷积滤波后，还接有ReLUs操作和max-pooling操作。

Layer6~ Layer8是全连接层，相当于在五层卷积层的基础上再加上一个三层的全连接神经网络分类器。

以Layer6为例，本层的神经元个数为4096个。

Layer8的神经元个数为1000个，相当于训练目标的1000个图片类别。

图25. CNN网络参数配置图基于Alex Krizhevsky提出的cnn模型，在13年末的时候，我们实现了用于广点通的图片分类和图片检索(可用于广告图片作弊判别)，下面是一些示例图。

图片分类示例：图26. 图片分类示例图图片检索示例：图27. 图片检索示例图图片分类上的最新进展在ILSVRC 2012中，Alex Krizhevsky基于GPU实现了上述介绍的，这个有60million参数的模型(简称为AlexNet)，赢得了第一名。

这个工作是开创性的，它引领了接下来ILSVRC的风潮。

2013年，Clarifai通过cnn模型可视化技术调整网络架构，赢得了ILSVRC。

2014年，google也加入进来，它通过增加模型的层数（总共22层），让深度更深[48]，并且利用multi-scale data training，取得第一名。

baidu最近通过更加“粗暴”的模型[44]，在GooLeNet的基础上，又提升了10%，top–5错误率降低至6%以下。

具体结果如下图所示。

图28. ImageNet Classification Result先简单分析一下“GoogLeNet”[48,51]所采用的方法：大大增加的网络的深度，并且去掉了最顶层的全连接层：因为全连接层（Fully Connected）几乎占据了CNN大概90%的参数，但是同时又可能带来过拟合（overfitting）的效果。

模型比以前AlexNet的模型大大缩小，并且减轻了过拟合带来的副作用。

Alex模型参数是60M，GoogLeNet只有7M。

对于google的模型，目前已有开源的实现，有兴趣请点击Caffe+GoogLeNet。

再分析一下“Deep Image by baidu[44]”所采用的方法：Hardware/Software Co-design。

baidu基于GPU，利用36个服务节点开发了一个专为深度学习运算的supercompter(名叫Minwa，敏娲)。

这台supercomputer具备TB级的host memory，超强的数据交换能力，使能训练一个巨大的深层神经网络成为可能。

而要训练如此巨大的神经网络，除了硬件强大外，还需要高效的并行计算框架。

通常而言，都要从data-parallelism和model-data parallelism两方面考虑。

data-parallelism：训练数据被分成N份。

每轮迭代里，各个GPU 基于各自的训练数据计算梯度，最后累加所有梯度数据并广播到所有GPU。

model-data parallelism：考虑到卷积层参数较少但消耗计算量，而全连接层参数相对比较多。

所以卷积层参数以local copy的形式被每个GPU所持有，而全连接层的参数则被划分到各个CPU。

每轮迭代里，卷积层计算可以由各个GPU独立完成，全连接层计算需要由所有GPU配合完成，具体方法请参考[46]。

Data augmentation。

训练一个如此巨大的神经网络(100billion个参数)，如果没有充分的训练数据，模型将很大可能陷入过拟合，所以需要采用众多data augmentation方法增加训练数据，例如：剪裁，不同大小，调亮度，饱和度，对比度，偏色等(color casting, vignetting, lens distortion, rotation, flipping, cropping)。

举个例子，一个彩色图片，增减某个颜色通道的intensity 值，就可以生成多张图片，但这些图片和原图的类目是一致的，相当于增加了训练数据。

Multi-scale training：训练不同输入图片尺度下(例如512*512，256*256)的多个模型，最后ensemble多个模型的输出结果。

3.2 Image2text，Image2sentence上面讲述的图片分类对图片语义的理解比较粗粒度，那么我们会想，是否可以将图片直接转化为一堆词语或者一段文本来描述。

转化到文本后，我们积累相对深的文本处理技术就都可以被利用起来。

Image2text首先介绍一种朴素的基于卷积神经网络的image to text方法。

首先它利用深度卷积神经网络和深度自动编码器提取图片的多层特征，并据此提取图片的visual word，建立倒排索引，产生一种有效而准确的图片搜索方法。

再充分利用大量的互联网资源，预先对大量种子图片做语义分析，然后利用相似图片搜索，根据相似种子图片的语义推导出新图片的语义。

其中种子图片，就是可以覆盖所有待研究图片的行业，但较容易分析语义的图片集。

这种方法产生了更加丰富而细粒度的语义表征结果。

虽说简单，但效果仍然不错，方法的关键在于种子图片。

利用比较好的种子图片(例如paipai数据)，简单的方法也可以work得不错。

下图是该方法的效果图。

图29. 图片语义tag标注示例图上面的baseline方法，在训练数据优质且充分的情况下，可以取得很不错的图片tag提取效果，而且应用也非常广泛。

但上面的方法非常依赖于训练数据，且不善于发现训练数据之外的世界。

另一个直观的想法，是否可以通过word embedding建立image与text的联系[26]。

例如，可以先利用CNN训练一个图片分类器。

每个类目label可以通过word2vec映射到一个embedding表示。

对于一个新图片，先进行分类，然后对top-n类目label所对应的embedding按照权重(这里指这个类目所属的概率)相加，得到这个图片的embedding描述，然后再在word embedding空间里寻找与图片embedding最相关的words。

Image detection接下来再介绍下image detection。

下图是一个image detection的示例，相比于图片分类，提取到信息将更加丰富。

图30. 图片detection示例目前最先进的detection方法应该是Region-based CNN(简称R-CNN)[75]，是由Jeff Donahue和Ross Girshick提出的。

R-CNN的具体想法是，将detection 分为寻找object和识别object两个过程。

在第一步寻找object，可以利用很多region detection算法，譬如selective search[76]，CPMC，objectness等，利用很多底层特征，譬如图像中的色块，图像中的边界信息。

第二步识别object，就可以利用“CNN+SVM”来做分类识别。

图31. Image detection系统框图给定一张图片，利用selective search方法[76]来产生2000个候选窗口。

然后利用CNN进行对每一个候选窗口提取特征(取全连接层的倒数第一层)，特征长度为4096。

最后用SVM分类器对这些特征进行分类（每一个目标类别一个SVM分类器），SVM的分类器的参数个数为：4096*N，其中N为目标的类别个数，所以比较容易扩展目标类别数。

这里有R-CNN的实现，请点击rcnn codeImage2sentence那能否通过深度学习方法，直接根据image产生sentence呢？我们先看一组实际效果，如下图所示(copy from 文献[43])。

图32. image2sentence示例图关于这个方向，最近一年取得了比较大的突破，工业界(Baidu[77]，Google[43]，Microsoft[80,81]等)和学术界(Stanford[35]，Borkeley[79]，UML[19]，Toronto[78]等)都发表了一系列论文。

简单归纳一下，对这个问题，主要有两种解决思路：Pipeline方法。

这个思路相对直观一点，先学习到image中visualobject对应的word(如上一节image detection所述)，再加上language model，就可以生成sentence。

这种方法各个模块可以独立调试，相对来说，更灵活一点。

如下图所示，这是microsoft的一个工作[81]，它分为三步：(1)利用上一节提到的思路detect words；(2)基于language model(RNN or LSTM)产生句子；(3)利用相关性模型对句子打分排序。

图33. “pipeline” image captioningEnd-to-end方法，即通过一个模型直接将image转换到sentence。

google基于CNN+RNN开发了一个Image Caption Generator[43]。

这个工作主要受到了基于RNN的机器翻译[27][42]的启发。