基于潜在主题融合的跨媒体图像语义标注
基于人工智能的图像语义标注技术研究

基于人工智能的图像语义标注技术研究本文将探讨基于人工智能的图像语义标注技术研究。
人类视觉是一种非常强大的工具,我们可以轻而易举地识别数千个物体和场景,而且我们可以很容易地将这些物体和场景用语言来描述。
人工智能的发展使得计算机也可以做到这一点。
通过深度学习和神经网络等人工智能技术,我们可以让计算机识别和描述图像中的物体和场景。
本文将介绍这种技术的背景、工作原理和应用。
一、技术背景图像语义标注技术是计算机视觉领域的一个热门研究方向。
相比于传统的图像识别技术,它更注重对图像的深层次理解和语义理解。
传统的图像识别算法通常只能准确识别简单的物体,而对于复杂的场景和物体,很难做到精准识别。
而基于人工智能的图像语义标注技术可以更深入地理解图像,识别和描述图像中的物体和场景,可以帮助我们更好地理解图像。
二、工作原理基于人工智能的图像语义标注技术主要分为两个步骤:图像特征提取和图像语义标注。
下面我们将分别介绍这两个步骤。
1.图像特征提取图像特征提取是图像语义标注技术的第一个关键步骤。
在这一步骤中,计算机会将图像转化为一个向量,这个向量称为图像的特征向量。
特征向量包含了图像的各种特征,如颜色、纹理、形状等。
图像特征提取有很多种方法,常用的有卷积神经网络(CNN)、循环神经网络(RNN)等。
2.图像语义标注图像语义标注是图像语义标注技术的第二个关键步骤。
在这一步骤中,计算机会利用图像特征向量对图像进行语义描述。
实现语义标注的算法有很多种,如端到端的神经网络算法、基于分类的算法和基于生成的算法等。
三、应用场景图像语义标注技术有很多应用场景。
下面我们将介绍几个常见的应用场景。
1.图像检索:图像检索是指通过图像的视觉信息来搜索相似的图像。
基于人工智能的图像语义标注技术可以帮助我们更准确地搜索相关的图像,提高图像检索的准确率和效率。
2.自动化图像注释:自动化图像注释是指通过计算机自动给图像添加注释。
基于人工智能的图像语义标注技术可以帮助我们更好地理解图像,并自动生成描述性的注释。
基于潜在主题融合的跨媒体图像语义标注

基于潜在主题融合的跨媒体图像语义标注刘杰;杜军平【期刊名称】《电子学报》【年(卷),期】2014(000)005【摘要】图像语义标注是图像语义分析研究中的一个重要问题。
在主题模型的基础上,本文提出一种新颖的跨媒体图像标注方法来进行图像间语义的传播。
首先,对训练图像使用主题模型,抽取视觉模态和文本模态信息的潜在语义主题。
然后,通过使用一个权重参数来融合两种模态信息的主题分布,从而学习到一种融合主题分布。
最后,在融合主题分布的基础上训练一个标注模型来给目标图像赋予合适的语义信息。
在标准的MSRC和Corel5K数据集上将提出的方法与最近著名的标注方法进行比较实验。
标注性能的详细评价结果表明提出方法的有效性。
%Image semantic annotation is an important issue in image semantic analysis research .Based on the topic model , this paper proposes a novel cross-media image annotation approach for propagating the semantics among images .First ,the topic model is used to capture the latent semantic topics from the visual and textual modal information in the trainingimages .Then ,a fused topic distribution is learned by merging the topic distribution of each modality using a weight parameter .Finally ,an annotation model based on the fused topic distribution is trained to assign the target images using appropriate semantics .A comparison of the proposed approach with the recent state-of-the-art annotation approaches on the standard MSRC and Corel5K datasets is presented , anda detailed evaluation of the performance shows the validity of our approach .【总页数】5页(P987-991)【作者】刘杰;杜军平【作者单位】北京邮电大学计算机学院,北京 100876; 中国电子科技集团公司第三十研究所,四川成都 610041;北京邮电大学计算机学院,北京 100876【正文语种】中文【中图分类】TP37;TP391.4【相关文献】1.基于多特征融合的图像语义标注 [J], 胡全;邱兆文;王霓虹2.应用图学习算法的跨媒体相关模型图像语义标注 [J], 李玲;宋莹玮;杨秀华;陈逸杰3.基于分类融合和关联规则挖掘的图像语义标注 [J], 秦铭;蔡明4.基于概率潜在语义分析模型的分类融合图像标注 [J], 吕海峰;蔡明;5.基于跨媒体相关模型的相似度融合图像标注 [J], 吕海峰;蔡明因版权原因,仅展示原文概要,查看原文内容请购买。
基于 Boosting学习的图片自动语义标注

基于 Boosting学习的图片自动语义标注茹立云;马少平;路晶【期刊名称】《中国图象图形学报》【年(卷),期】2006(011)004【摘要】图片自动语义标注是基于内容图像检索中很重要且很有挑战性的工作.本文提出了一种基于Boosting学习的图片自动语义标注方法,建立了一个图片语义标注系统BLIR(boosting for linguistic indexing image retrievalsystem).假设一组具有同一语义的图像能够用一个由一组特征组合而成的视觉模型来表示.2D-MHMM(2维多分辨率隐马尔科夫模型)实际上就是一种颜色和纹理特殊组合的模板.BLIR系统首先生成大量的2D-MHMM模型,然后用Boosting算法来实现关键词与2D-MHMM模型的关联.在一个包含60000张图像的图库上实现并测试了这个系统.结果表明,对这些测试图像,BLIR方法比其他方法具有更高的检索正确率.【总页数】6页(P486-491)【作者】茹立云;马少平;路晶【作者单位】清华大学计算机科学与技术系,智能技术与系统国家重点实验室,北京,100084;清华大学计算机科学与技术系,智能技术与系统国家重点实验室,北京,100084;清华大学计算机科学与技术系,智能技术与系统国家重点实验室,北京,100084【正文语种】中文【中图分类】TP37【相关文献】1.基于语义学习的自动图像标注技术研究述评 [J], 张志武;阚德涛2.基于半监督学习模型的自动图片标注研究 [J], 朱松豪;梁志伟3.基于Boosting学习的靶子自动检测算法研究 [J], 肖潇;赵明昌4.基于模糊机制和语义密度聚类的汉语自动语义角色标注研究 [J], 王旭阳; 朱鹏飞5.语义相似度领域基于XGBOOST算法的关键词自动抽取方法 [J], 王成柱;魏银珍因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于区域特征关联的图像语义标注方法

一种基于区域特征关联的图像语义标注方法
陈世亮;李战怀;袁柳
【期刊名称】《计算机工程与应用》
【年(卷),期】2007(043)002
【摘要】图像语义的标注需要解决图像高层语义和底层特征间存在的语义鸿沟.采用基于图像分割、并结合图像区域特征抽取的方法,建立图像区域语义与底层特征间的关联,采用基于距离的分类算法,计算区域特征间的相似性,并对具有相同或相近特征的区域的语义采用关联关键字的方法进行区分,用关键字实现图像语义的自动标注.
【总页数】4页(P53-56)
【作者】陈世亮;李战怀;袁柳
【作者单位】西北工业大学,计算机科学与技术学院,西安,710072;空军工程大学,导弹学院,陕西,三原,713800;西北工业大学,计算机科学与技术学院,西安,710072;西北工业大学,计算机科学与技术学院,西安,710072
【正文语种】中文
【中图分类】TP311.13
【相关文献】
1.一种基于GMM的图像语义标注方法 [J], 陈晓;张尤赛;邹维辰
2.基于分类融合和关联规则挖掘的图像语义标注 [J], 秦铭;蔡明
3.一种基于本体与描述文本的网络图像语义标注方法 [J], 陈叶旺;钟必能;王靖;李
海波
4.一种适合弱标签数据集的图像语义标注方法 [J], 田枫;沈旭昆
5.基于多模态关联图的图像语义标注方法 [J], 郭玉堂;罗斌
因版权原因,仅展示原文概要,查看原文内容请购买。
基于决策融合的图像自动标注方法

基于决策融合的图像自动标注方法欧阳宁;罗晓燕;莫建文;张彤【期刊名称】《计算机工程与应用》【年(卷),期】2013(000)021【摘要】A method for automatic image annotation based on decision fusion is proposed combining the Multimedia Descrip-tionInterface(MPEG-7)and MM(Mixture Model). In the process of image annotation, two independent MM mixture models are estimated for the images belonging to a theme and mapping is setted up from low-level features to high-level semantics space. Automatic image annotation is achieved by fusing the annotation results from color and text MM mixture model in the way of local decision fusion. The way of local decision fusion is proven to utilize fully the color feature and texture feature and improve the performance of image annotation by the experiments on the image data sets.%结合多媒体描述接口(MPEG-7)和MM(Mixture Model)混合模型,实现了基于决策融合的图像自动标注。
基于FCM聚类的跨模态人物图像标注方法

基于FCM聚类的跨模态人物图像标注方法赵昀;张翌翀【期刊名称】《微型电脑应用》【年(卷),期】2015(31)3【摘要】With the explosive growth of multimodal people image data available, how to integrate multimodal information sources to achieve more accurate people image annotation becomes an important research issue. In this paper, a new framework is developed to support more precise automatic cross-modal people image annotation. It focuses on analyzing the associated text and image contents associated with multimodal people image and extracting the valuable information from both texts and images. For enhancing the whole performance of the cross-modal people image annotation approach, it particularly emphasizes on establishing an efficient measurement and optimization mechanism by Fuzzy C-Means Clustering Algorithm to verify the feasibility of matching between names and faces involved in multimodal people images. The experiments on a large number of official public data from Yahoo News have obtained very positive results.%提出一种新颖的基于模糊C均值(Fuzzy C-Means,FCM)聚类算法的跨模态人物图像标注方法,使用相关的人脸特征及文本语义,结合具有问题针对性的算法,建立有效的跨模态人物图像标注机制,进而对人物类图像标注性能进行提升。
融合主题和视觉语义的图像自动标注方法

NO V .2 Ol 3
融 合 主 题 和 视 觉 语 义 的 图 像 自动 标 注 方 法
赵 鹏 , 王文彬 , 朱伟伟
1 ( 安 徽 大 学 计 算 智 能 与信 号 处 理教 育 部重 点 实验 室 合 肥 2 3 0 0 3 9 ) 。 , ( 安 徽 大 学 计 算 机 科 学 与技 术 学 院
第 2 5卷 第 1 1 期
2 0 1 3年 1 1月
计 算机 辅 助设 计与 图形 学学报
J o u r n a l o f Co mp u t e r — Ai d e d De s i g n& C o mp u t e r Gr a p h i c s
Vo 1 . 2 5 NO . 1 1
。 ( S c h o o l o f C o mp u t e r S c i e n c e a n d T e c h n o l o g y, An h u i Un i v e r s i t y,He f e i 2 3 0 6 0 1 )
Abs t r a c t :To r e duc e t he i nf l ue nc e o f t he s e ma nt i c ga p i n i ma ge r e t r i e v a l ,t hi s p a pe r p r e s e nt s a n
基于深度学习的图像语义标注方法

基于深度学习的图像语义标注方法图像语义标注是一种将图像与对应文本描述相对应的技术。
传统的图像标注方法主要依赖于手工设计的特征提取器和机器学习模型,但这些方法在处理复杂场景和多义词方面存在一定的局限性。
近年来,深度学习方法在图像语义标注中取得了巨大的进展。
本文将介绍基于深度学习的图像语义标注方法,并分析其应用和优缺点。
基于深度学习的图像语义标注方法主要包括两个关键步骤:图像特征提取和文本生成。
在特征提取阶段,深度卷积神经网络(CNN)被广泛用于提取图像的高层语义特征。
CNN通过多层卷积和池化操作,可以从原始图像中提取出丰富的局部和全局特征。
其中,一种常用的CNN模型是VGGNet,它通过多个卷积和池化层来实现图像特征的提取。
除了VGGNet外,还有一些其他的CNN模型,如ResNet和Inception等,它们在图像特征提取任务中也取得了很好的性能。
在图像特征提取之后,需要将特征映射到文本空间中。
为此,可以使用循环神经网络(RNN)或注意力机制来生成图像的描述。
RNN是一类特殊的神经网络,可以通过对序列数据的连续处理来建模序列之间的关系。
在图像语义标注任务中,RNN被用于将图像特征与文本描述进行建模。
具体而言,可以使用长短时记忆网络(LSTM)或门控循环单元(GRU)作为RNN的基本单元。
这些模型可以对图像特征进行编码,并生成与图像相对应的文本描述。
除了RNN,注意力机制也被广泛应用于图像语义标注中。
注意力机制通过计算图像中不同区域与对应文本描述之间的相关性,来实现加权聚焦图像的描述生成。
具体而言,首先利用CNN提取图像特征,然后通过计算特征和文本之间的相似度,得到注意力权重。
最后,将注意力权重应用于图像特征,生成描述文本。
基于深度学习的图像语义标注方法具有以下优点。
首先,深度学习方法可以自动学习特征表示,不需要手工设计特征提取器。
这使得模型更具通用性,可以适应不同的图像类型和场景。
其次,深度学习方法可以学习到更高层次的语义特征,能够更好地捕捉图像中的语义信息。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于潜在主题融合的跨媒体图像语义标注刘 杰1,2,杜军平1(1.北京邮电大学计算机学院,北京100876;2.中国电子科技集团公司第三十研究所,四川成都610041) 摘 要: 图像语义标注是图像语义分析研究中的一个重要问题.在主题模型的基础上,本文提出一种新颖的跨媒体图像标注方法来进行图像间语义的传播.首先,对训练图像使用主题模型,抽取视觉模态和文本模态信息的潜在语义主题.然后,通过使用一个权重参数来融合两种模态信息的主题分布,从而学习到一种融合主题分布.最后,在融合主题分布的基础上训练一个标注模型来给目标图像赋予合适的语义信息.在标准的MSRC和Corel5K数据集上将提出的方法与最近著名的标注方法进行比较实验.标注性能的详细评价结果表明提出方法的有效性.关键词: 图像语义标注;跨媒体;主题模型;加权融合中图分类号: TP37;TP391.4 文献标识码: A 文章编号: 0372-2112(2014)05-0987-05电子学报URL:http://www.ejournal.org.cn DOI:10.3969/j.issn.0372-2112.2014.05.024LatentTopicFusion-BasedCross-MediaImageSemanticAnnotationLIUJie1,2,DUJun-ping1(1.SchoolofComputer,BeijingUniversityofPostsandTelecommunications,Beijing100876,China;2.No.30InstituteofChinaElectronicsTechnologyGroupCorporation,Chengdu,Sichuan610041,China)Abstract: Imagesemanticannotationisanimportantissueinimagesemanticanalysisresearch.Basedonthetopicmodel,thispaperproposesanovelcross-mediaimageannotationapproachforpropagatingthesemanticsamongimages.First,thetopicmodelisusedtocapturethelatentsemantictopicsfromthevisualandtextualmodalinformationinthetrainingimages.Then,afusedtopicdistributionislearnedbymergingthetopicdistributionofeachmodalityusingaweightparameter.Finally,anannotationmodelbasedonthefusedtopicdistributionistrainedtoassignthetargetimagesusingappropriatesemantics.Acomparisonoftheproposedapproachwiththerecentstate-of-the-artannotationapproachesonthestandardMSRCandCorel5Kdatasetsispresented,andadetailedevaluationoftheperformanceshowsthevalidityofourapproach.Keywords: imagesemanticannotation;crossmedia;topicmodel;topic-weightedfusion1 引言 在图像语义分析研究中图像语义标注是一种重要的手段.其中,一个关键的问题[1]是通过建立视觉特征和语义关键词的某种关联关系来决定图像属于某个语义概念.因此,一个有效的语义标注模型,应该将目标语义空间与图像特征空间关联起来,在训练和测试数据之间有效地传播语义信息,帮助跨越“语义鸿沟”[2].基于相关模型的方法[3]是目前图像语义标注领域的一个研究热点.此种方法挖掘图像视觉特征集合与语义标注间的关联关系.该领域的一些早期工作[4]包括翻译模型(Translationmodel,TM),跨媒体相关模型(Cross-mediarelevancemodel,CMRM)和连续空间相关模型(Con-tinuous-spacerelevancemodel,CRM).后来,出现了著名的多伯努利相关模型(MultipleBernoullirelevancemodel,MBRM)[5].近期,又出现了结合空间马尔科夫核的统一相关模型(GeneralizedrelevancemodelwithspatialMarkovkernel,GRM-SMK)[6].以上工作逐步提高了图像语义标注的性能.主题模型是从文档语义分析中衍生出来的一种流行的机器学习技术[7],并被广泛的用于图像标注领域[8],其中比较有代表性的工作是PLSA-WORDS模型[9].特别的,潜在狄利克莱分配模型(LatentDirichletallocation,LDA)[10]作为一种具有代表性的主题模型被成功的用于挖掘文本和图像数据中的潜在语义主题信息[11].收稿日期:2013-01-07;修回日期:2013-06-17;责任编辑:马兰英基金项目:国家973重点基础研究发展计划(No.2012CB821200,No.2012CB821206);国家自然科学基金(No.61320106006)第5期2014年5月电 子 学 报ACTAELECTRONICASINICAVol.42 No.5May 2014 本文提出一种基于潜在主题加权融合的跨媒体图像标注模型(LDA-basedLatentTopic-WeightedFusion,LDA-LTWF).关键在于决定标注关键词和目标图像之间的内在联系,这种内在联系帮助决定了底层图像特征和高层语义之间的一个中间过渡层.本文所提出的跨媒体图像标注方法的示意图如图1所示.2 潜在主题加权融合 训练数据的标注关键词通过文本词袋模型表示[7].通过融合图像的加速稳健特征[12]和多分辨率直方图矩特征[13]来生成一种复合底层特征[14],而后用视觉词袋模型对图像进行表示[15].利用基于Gibbs抽样的LDA模型计算文本模态和视觉模态数据的潜在主题分布[16].2畅1 潜在主题加权融合在训练阶段,对每一幅图像学习融合潜在主题分布P(z|v).然后,对于每一个融合潜在主题z学习视觉词汇的后验分布P(x|z)和文本标注词的后验分布P(w|z).在标注阶段,首先生成每幅图像的视觉词汇表达vnew={x1,x2,…,xN}.然后,利用在训练阶段得到的P(x|z)为每幅图像计算融合潜在主题分布P(z|vnew).最后,根据每个潜在融合主题z的文本标注词分布P(w|z)计算测试图象的文本标注词分布P(w|vnew).选择具有最大后验概率的文本词汇作为目标图像的语义标注词.潜在主题加权融合过程如图2所示.假设视觉模态包含k个主题,文本模态包含l个主题.则融合主题空间就有t=k+l个主题.视觉模态的主题分布是Px(z|v),而文本模态的主题分布是Pw(z|v).对于图像vi,视觉模态的主题分布是Px(z|vi),而文本模态的主题分布是Pw(z|vi).该图像在融合主题空间的主题分布可由下式得出:p(zt|vi)=τpx(zt|vi), t=1,2,…,k(1-τ)pw(zt-k|vi),t=k+1,k+2,…,k+l(1)在式(1)中,τ表示图像vi的融合主题分布中视觉模态部分的权重.τ由下式计算得出:τ=α-H(x(vi))α(2)在式(2)中,H(x(vi))是图像vi的视觉词汇分布的信息熵.α是H(x(vi))的上界,通过交叉验证得出.2畅2 图像语义标注给定训练集合L={(v1,c1),(v2,c2),…,(vN,cN)},V={v1,v2,…,vN}为图像集合,C={c1,c2,…,cN}为标签集合.每个ci包含若干关键词{wi},关键词集合为W={w1,w2,…,wN}.测试集合为VT,VT∩V=.标注过程细节如下: 步骤1 对于vi∈V,计算其视觉词汇表达vi={x1,x2,…,xN}.对于标注信息ci,生成文本表达ci={w1,w2,…,wM}. 步骤2 利用LDA模型计算概率分布P(zx|v)、P(x|zx)、P(zw|v)和P(w|zw). 步骤3 使用式(2)计算权重参数τ.使用式(1)融合概率分布P(zx|v)和P(zw|v),生成融合分布P(z|v). 步骤4 由步骤三中得出的P(z|v),利用MCMC算法计算对应的视觉词分布P(x|z)和文本词分布P(w|z). 步骤5 在标注阶段,对测试图像vt∈VT,计算其视觉词汇表达vt={x1,x2,…,xN}. 步骤6 利用MCMC算法以及步骤四中得出的P(x|z)来计算其融合主题分布P(z|vt). 步骤7 计算关键词集合W中每个关键词的后验概率,计算式如下:p(w|vt)=∑Nn=1p(w|zn)p(zn|vt)(3) 步骤8 选择具有最大后验概率的关键词来标注测试图像vt.889 电 子 学 报2014年3 实验 本文使用MSRC数据集[17]和Corel5K数据集[18].使用准确率、召回率、F度量和召回率非零的关键词数量来评价标注方法的性能.3畅1 超变量和交叉验证两个超变量分别是视觉词汇的数量和潜在主题的数量.同时,还要决定视觉词汇分布信息熵的上界.首先,使用传统的K-means算法来对图像特征进行聚类.聚类数依次为100、200、400、600、700、800、900和1000,使用F度量值作为评价指标.对于MSRC数据集,使用10个主题学习文本模态,使用50个主题学习视觉模态;对于Corel5K数据集,使用50个潜在学习文本模态,使用50个主题学习视觉模态.表1显示了取自10折交叉验证平均值的比较结果.当k大于800时,两个数据集的F度量值有微弱的提高,但是计算花销却显著增加.因此,对于MSRC和Corel5K数据集,本文使用k=800作为视觉词汇数的最佳取值. 表1 不同视觉词汇数量在10折交叉验证中的平均F度量值MSRCCorel5Kk=1000.290.11k=2000.400.19k=4000.480.24k=6000.550.27k=7000.580.29k=8000.590.30k=9000.590.30k=10000.590.30 然后确定视觉词汇分布的信息熵的上界.视觉词汇分布的信息熵用H(x(vi))表示,满足0≤H(x(vi))≤lnk[16].其中,k表示视觉词汇的数目.因此,式(2)中需要的视觉词汇分布信息熵的上界为α=ln800.接着,对于MSRC和Corel5K数据集,估计最佳潜在主题的数目.其中,对于两个数据集,视觉模态的潜在主题数从10增加到120,间隔为10.对于MSRC数据集,文本模态的潜在主题数从10增加到20,间隔为1;对于Corel5K数据集,文本模态的潜在主题数从10增加到120,间隔为10.图3显示了在MSRC和Corel5K数据集上文本和视觉模态潜在主题数目的联合交叉验证中取得的F度量值比较结果.从图3(a)中可以看出,对于MSRC数据集,当文本模态的主题数为18,且视觉模态的主题数为60时,F度量值为最优.从图3(b)中可以看出,对于Corel5K数据集,当文本模态的主题数为40,且视觉模态的主题数为60时,F度量值为最优.3畅2 标注性能在MSRC数据集上,使用仅利用视觉模态成分的LDA-LTWF模型(L-VM)、MBRM模型和GRM-SMK模型与LDA-LTWF模型进行比较.不同模型的标注结果取自10折交叉验证的平均值,如表2所示.表2 MSRC数据集上的标注结果比较平均准确率平均召回率平均F度量值L-VM0.400.470.44MBRM[5]0.430.530.48GRM-SMK[6]0.610.620.62LDA-LTWF0.650.700.68 从表2中可以看出LDA-LTWF模型的标注性能大幅超过L-VM模型.这证明训练数据的视觉信息和文本信息的融合确实发挥了作用,并且能够较使用单一模态信息取得更好的标注性能.利用威尔考克森符号秩检验(P<0.05)对标注结果进行测试,LDA-LTWF模型在平均准确率、平均召回率和F度量值等指标上比其他模型中的最优者依次高出7%、13%和10%.同时,所有关键词的召回率均不为零.在Corel5K数据集上使用L-VM模型、MBRM模型、GRM-SMK模型以及PLSA-WORDS模型[9]与LDA-LTWF模型进行比较,结果如表3所示.利用威尔考克森符号秩检验(P<0.05)对标注结果进行测试.LDA-LTWF模型在平均准确率、平均召回率和F度量值等指标上比其他模型中的最优者依次高出7%、12%和10%.同时,989第 5 期刘 杰:基于潜在主题融合的跨媒体图像语义标注PLSA-WORDS模型、L-VM模型、MBRM模型、GRM-SMK模型和LDA-LTWF模型的召回率非零的关键词数依次为105、120、122、143和146.图4显示了Corel5K数据集上图像原始标注与LDA-LTWF模型标注的比较结果.LDA-LTWF模型能够为一些图像标注上原始标注中没有的关键词,并且这些关键词是合理的.表3 Corel5K数据集上的标注结果比较平均准确率平均召回率平均F度量值PLSA-W[9]0.140.200.17L-VM0.220.250.24MBRM[5]0.240.250.25GRM-SMK[6]0.300.330.31LDA-LTWF0.320.370.343畅3 权重参数的讨论用每幅图像的灰度mesh图来直观表示图像的视觉内容.在Corel5K数据集上的大量实验表明利用式(2)计算出的权重取值训练标注模型,当视觉词汇分布的信息熵小于2时,图像的语义标注性能较好.这表明潜在主题融合分布中的视觉模态成分在图像语义学习过程中发挥了主要作用.如果信息熵大于4,标注模型的性能仍然较好,则融合分布中视觉模态成分的权重较低,文本模态成分发挥较大作用.当信息熵的取值在2到4之间时,标注性能不甚令人满意.这表明视觉词汇分布的信息熵在2到4之间的图像有着很强的内容复杂性.因此,很难通过简单的权重取值来确定每种模态数据的贡献,从而难以学习到每幅图像所包含的准确的语义.本文通过测试4幅样例图像来表明权重参数τ对标注性能的影响,如图5所示. 在图5(a)中,“庭院”类图像视觉词汇分布的信息熵H(x(vi))为3.2,因此其τ值为0.52,其标注平均准确率为0.55.在图5(b)中,“马匹”类图像视觉词汇分布的信息熵H(x(vi))为2.8,因此其τ值为0.58,其标注平均准确率为0.67.所以由于上述两类图像视觉内容的复杂性,使得难以学习到合适的权重取值.在图5(c)中,“森林”类图像视觉词汇分布的信息熵H(x(vi))为5.4,因此其τ值为0.19,其标注平均准确率为0.70.这种情况中标注性能的改进是得益于文本模态数据的贡献.在图5(d)中,“飞机”类图像视觉词汇分布的信息熵H(x(vi))为0.60,因此其τ值为0.91,其标注平均准确率为0.73.这种情况中标注性能的改进是得益于视觉模态数据的贡献.4 结论 本文提出基于潜在主题加权融合的跨媒体图像语义标注方法,该方法的关键是对文本和视觉模态的潜在主题分布进行加权融合.其中,各模态信息的潜在主题分布由LDA主题模型抽取.然后利用融合潜在主题分布构建跨媒体图像语义标注模型.最后使用MSRC数据集和Corel5K数据集对该模型进行实验验证.实验结果证明了所提标注方法的有效性.参考文献[1]ATousch,SHerbin,JAudibert.Semantichierarchiesforimageannotation:Asurvey[J].PatternRecognition,2012,45(1):333-345.[2]JTang,ZZha,DTao.Semantic-gap-orientedactivelearningformulti-labelimageannotation[J].IEEETransactionsonIm-ageProcessing,2012,21(4):2354-2360.[3]DSZhang,MdMIslam,GJLu.Areviewonautomaticimageannotationtechniques[J].PatternRecognition,2012,45(1):346-362.[4]AMakadia,VPavlovic,SKumar.Baselinesforimageannota-099 电 子 学 报2014年tion[J].InternationalJournalofComputerVision,2010,90(1):88-105.[5]SFeng,RManmatha,VLavrenko.MultipleBernoullirelevancemodelsforimageandvideoannotation[A].InProc.IEEEConf.onComputerVisionandPatternRecognition[C].Wash-ington,DC,USA:IEEE,2004:1002-1009.[6]ZWLu,HSIHorace.Automaticimageannotationbasedongeneralizedrelevancemodels[J].JournalofSignalProcessingSystems,2011,65(1):23-33.[7]JZhong,QGSun,XLi,LSWen.AnovelfeatureselectionmethodbasedonprobabilitylatentsemanticanalysisforChi-nesetextclassification[J].ChineseJournalofElectronics,2011,20(2):228-232.[8]XKe,SZLi,DLCao.Atwo-levelmodelforautomaticimageannotation[J].MultimediaToolsandApplications,2012,61(1):195-212.[9]FMonay,DGPerez.Modelingsemanticaspectsforcross-me-diaimageindexing[J].IEEETrans.PatternAnalysisandMa-chineIntelligence,2007,29(10):1802-1817.[10]DMBlei.Probabilistictopicmodels[J].CommunicationsoftheACM,2012,55(4):77-84.[11]DPutthividhy,HTAttias,SSNagarajan.Topicregressionmulti-modallatentDirichletallocationforimageannotation[A].InProc.IEEEConf.onComputerVisionandPatternRecognition[C].LaJolla,CA,USA:IEEE,2010:3408-3415.[12]HBay,AEelaars,LVGool.Speed-uprobustfeatures(SURF)[J].ComputerVisionandImageUnderstanding,2008,110(3):346-359.[13]YJiang,RWang,PZhang.Texturedescriptionbasedonmul-tiresolutionmomentsofimagehistograms[J].OpticalEngi-neering,2008,47(3):037005.[14]JLiu,JPDu,XRWang.Researchontherobustimagerepre-sentationschemefornaturalscenecategorization[J].ChineseJournalofElectronics,2013,22(2):341-346.[15]WJWen,DXu,YJTang,SYLiu,SHFeng.Mutualinfor-mationbasedcodebooksconstructionfornaturalscenecatego-rization[J].ChineseJournalofElectronics,2011,20(3):419-424.[16]MBChristopher.PatternRecognitionandMachineLearning[M].NewYork,USA.Springer.2006.[17]JShotton,JWinn,CRother,ACriminisi.Textonboost:Jointappearance,shapeandcontextmodelingformulti-classobjectrecognitionandsegmentation[A].InProc9thEuropeanConf.onComputerVision[C].Graz,Austria:Elsevier,2006:1-15.[18]PDuygulu,KBarnard,JFGdeFreitas,DAForsyth.Objectrecognitionasmachinetranslation:Learningalexiconforafixedimagevocabulary[J].LectureNotesinComputerSci-ence,2006,2353:349-354.作者简介刘 杰 男,1984年出生,博士,工程师,中国电子科技集团公司第三十研究所,主要研究方向:智能信息处理、机器学习、网络通信.E-mail:sleetext2@163.com杜军平(通信作者) 女,1963年出生,博士,教授/博士生导师,北京邮电大学计算机学院,主要研究方向:人工智能、智能信息系统.E-mail:junpingdu@126.com199第 5 期刘 杰:基于潜在主题融合的跨媒体图像语义标注。