基于全局-局部策略的EMD概率主动轮廓模型
小样本条件下基于全局和局部特征融合的人脸识别

小样本条件下基于全局和局部特征融合的人脸识别
杨欣;费树岷;陈丽娟
【期刊名称】《信号处理》
【年(卷),期】2008(024)001
【摘要】针对线性判别分析的小样本空间问题,提出了一种基于类向量的融合全局和局部特征的人脸识别算法.首先,提取人脸的全局特征;然后将人脸分割成6个关键部分,并用一种新的基于Gabor小波的方法提取特征;其次,将全局和局部特征融合,得出样本的特征向量;再次,得出每类样本的类向量并据此得出一种新的投影准则;最后,将类向量和试验样本分别进行投影,根据其欧氏距离的大小得出试验人脸的最终类.试验表明本文算法不仅能有效解决小样本空间问题,而且计算速度快,识别率高,应用前景良好.
【总页数】5页(P49-53)
【作者】杨欣;费树岷;陈丽娟
【作者单位】南京航空航天大学自动化学院,南京,210016;东南大学自动化学院,南京,210096;江苏省电力公司,南京,210000
【正文语种】中文
【中图分类】TN91
【相关文献】
1.全局和局部特征相融合的人脸识别算法 [J], 李振华;郑琳川
2.基于全局与局部特征融合的人脸识别方法 [J], 兰佩;方超
3.基于全局与局部特征融合的人脸识别 [J], 王斌斌;陈立生
4.融合全局和局部特征的稀疏表示人脸识别方法 [J], 刘亚亚;程国
5.融合全局与局部特征的贝叶斯人脸识别方法 [J], 王刚;牛宏侠
因版权原因,仅展示原文概要,查看原文内容请购买。
基于自注意力机制的局部与全局特征融合的评分预测算法

基于自注意力机制的局部与全局特征融合的评分预测算法伊磊;纪淑娟【期刊名称】《计算机应用研究》【年(卷),期】2022(39)5【摘要】为了完全挖掘异质信息网络中节点的特征并且更好地融合这些特征,提高推荐算法的性能,提出一种基于自注意力机制的局部与全局特征融合的评分预测算法(rating prediction algorithm based on self-attention mechanism and fusion of local&global features,AMFL&GRec)。
首先基于LeaderRank算法提取目标节点的全局序列,基于元路径带偏置的随机游走算法提取节点的局部序列,通过skip-gram模型分别学习节点的全局特征与局部特征;通过自注意力机制学习目标节点对局部与全局特征的偏好,从而得到在单一元路径下节点的特征表示;再通过自注意力机制融合不同元路径下同一节点的表示,从而得到节点在不同元路径下的最终特征表示;最后基于多层感知器实现评分预测任务。
在两个真实数据集进行了大量实验,实验结果验证了AMFL&GRec算法不仅能够捕获具有密集连通节点的微观(局部)结构,而且还能够捕获该节点在网络中的全局结构,从而使其得到的节点特征得以体现节点的整体(局部+全局)特征。
同时,实验结果也证明了AMFL&GRec 算法评分预测性能优于对比算法,从而证明利用自注意力机制考虑异质信息网络中节点对于局部、全局特征以及元路径的偏好能够提高评分预测的准确性。
【总页数】6页(P1337-1342)【作者】伊磊;纪淑娟【作者单位】山东科技大学山东省智慧矿山信息技术重点实验室;山东建筑大学人事处【正文语种】中文【中图分类】TP391【相关文献】1.基于全局-局部特征和自适应注意力机制的图像语义描述算法2.基于全局注意力的多级特征融合目标检测算法3.全局与局部注意力机制的胃部肿瘤分割算法4.基于局部特征关联与全局注意力机制的行人重识别5.融合快速注意力机制的节点无特征网络链路预测算法因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于局部符号差能量的非局部分割模型

一种基于局部符号差能量的非局部分割模型
闫沫;王瑜
【期刊名称】《计算机工程与科学》
【年(卷),期】2016(38)5
【摘要】针对灰度非均匀的图像,提出一种基于局部符号差能量的非局部图像分割模型.该模型包含基于局部符号差能量的数据驱动项和非局部全变分正则项,具有局部可分离性和全局一致性的特点.由于本文模型是凸的,因此在数值实现上可以采用split-Bregman迭代算法,具有较快的运算速度.同经典的基于局部区域的主动轮廓分割模型相比,该方法具有以下优点:(1)该模型受初始化的影响很小;(2)采用split-Bregman迭代算法,运算速度更快;(3)能够对具有细密纹理和具有弱边缘目标的图像进行正确分割.实验结果表明,该模型对灰度非均匀图像能够进行较准确的分割,相比其他模型具有更好的鲁棒性.
【总页数】8页(P975-982)
【作者】闫沫;王瑜
【作者单位】西安建筑科技大学机电工程学院,陕西西安 710055;西安航空学院机械学院,陕西西安 710077
【正文语种】中文
【中图分类】TP391.4
【相关文献】
1.基于Wasserstein距离的局部能量分割模型 [J], 钱晓华;郭树旭;李雪妍
2.基于局部和非局部空间信息的图像分割算法 [J], 沈灏
3.对称局部能量模型:改进的局部能量模型 [J], 肖志涛;侯正信;国澄明
4.基于局部区域能量最小化模型的图像分割 [J], 徐胜军;毛建东;赵亮
5.基于非局部总变差的图像分割活动轮廓模型 [J], 张文娟;冯象初
因版权原因,仅展示原文概要,查看原文内容请购买。
结合全局与局部信息的主动轮廓分割模型

结合全局与局部信息的主动轮廓分割模型赵丽科;郑顺义;魏海涛;桂力【期刊名称】《国防科技大学学报》【年(卷),期】2018(040)001【摘要】针对传统的基于区域的主动轮廓模型在分割灰度不均匀图像和噪声图像存在效果不佳的问题,提出结合全局项与局部项的主动轮廓分割模型.全局项由CV(Chan-Vese)模型的保真项构成,局部项的构建考虑局部区域信息的同时引入反映图像灰度特性的局部熵信息.依据图像灰度的特点,选择合理的全局项和局部项参数,并加入正则项保证曲线在演化过程中保持平滑,保障分割结果的可靠性.通过变分水平集方法最小化能量泛函,依据梯度下降流迭代更新水平集,完成曲线演化.采用模拟图像和实际图像进行实验分析,结果表明,所提出的结合全局项和局部项的主动轮廓模型可以高效地分割噪声严重以及灰度分布不均匀的图像.【总页数】8页(P99-106)【作者】赵丽科;郑顺义;魏海涛;桂力【作者单位】武汉大学遥感信息工程学院,湖北武汉 430079;武汉大学遥感信息工程学院,湖北武汉 430079;地球空间信息技术协同创新中心,湖北武汉 430079;武汉大学遥感信息工程学院,湖北武汉 430079;武汉大学遥感信息工程学院,湖北武汉430079;地球空间信息技术协同创新中心,湖北武汉 430079;武汉大学电子信息学院,湖北武汉 430072【正文语种】中文【中图分类】TP391.41【相关文献】1.结合全局和局部信息的区域相似度活动轮廓模型 [J], 邓丹君;倪波2.结合全局和局部信息的活动轮廓模型 [J], 张少华; 何传扛; 陈强3.结合全局和局部信息的区域相似度活动轮廓模型 [J], 邓丹君; 倪波4.基于融合局部信息的全局划分活动轮廓模型在图像分割中的研究 [J], 熊点华;唐利明5.基于融合局部信息的全局划分活动轮廓模型在图像分割中的研究 [J], 熊点华;唐利明因版权原因,仅展示原文概要,查看原文内容请购买。
一种结合全局和局部特征的图像描述生成模型

第37卷第4期2019年7月应用科学学报JOURNAL OF APPLIED SCIENCES—Electronics and Information EngineeringVol.37No.4Jul.2019DOI:10.3969/j.issn.0255-8297.2019.04.007一种结合全局和局部特征的图像描述生成模型靳华中,刘潇龙,胡梓珂湖北工业大学计算机学院,武汉430068摘要:针对局部特征的图像描述模型存在的不足之处,提出了一种结合局部和全局特征的带有注意力机制的图像描述生成模型.在编码器-解码器结构框架下,在编码器端利用InceptionV3和VGG16网络模型分别提取图像的局部特征和全局特征,将两种不同尺度的图像特征融合形成编码结果.在解码器端,利用长短期记忆网络将提取的图像特征翻译为自然语言,借助微软COCO数据集进行模型训练和测试.实验结果表明:与基于局部特征的图像描述生成模型相比,该方法能够从图像中提取更加丰富完整的信息,生成表达图像内容更加准确的句子.关键词:图像描述生成;注意力机制;图像特征;卷积神经网络;长短期记忆中图分类号:TN391.4文章编号:0255-8297(2019)04-0501-09An Image Caption Generation Model CombiningGlobal and Local FeaturesJIN Huazhong,LIU Xiaolong,HU ZikeSchool of Computer Science,Hubei University of Technology,Wuhan430068,ChinaAbstract:An image caption generation model with attention mechanism combined with local and global features is proposed for dealing with the weakness of the image description model by the local image features.Under the framework of encoder and decoder archi-tecture,the local and global features of images are extracted by using Inception V3and VGG16network models at the encoder,and the image features of two different scales are fused to form the coding results.On the decoder side,long short-term memory(LSTM) network is used to translate the extracted image features into natural language.The pro-posed model is trained and tested on Microsoft COCO dataset.The experimental results show that the proposed method can extract more abundant and complete information from the image and generate more accurate sentences,compared with the image caption model based on local features.Keywords:image caption generation,attention mechanism,image feature,convolutional neural network(CNN),long short-term memory(LSTM)随着计算机视觉和机器翻译的发展,由图像自动生成准确的文字描述成为可能.在机器翻译过程中,注意力机制能够区别对待图片中不同的局部信息,使图像自动生成越来越准确的收稿日期:2019-03-12;修订日期:2019-05-05基金项目:国家重点研发计划项目基金(No.2016YFC0702000);湖北省教育厅基金(No.省2014277)资助作者简介:靳华中,副教授,研究方向:机器学习、物联网技术应用等,E-mail:galaxy0522@502应用科学学报第37卷描述文字,从而成为目前生成描述图像自然语句的研究热点.图像描述生成任务是计算机视觉和机器翻译两个领域的综合应用.首先,借助计算机视觉技术自动完成图像解译,接着根据机器翻译模型将解译的内容表达成一段自然语言.图像描述生成任务虽然面临诸多挑战,但应用前景较好.例如:在网络上利用图像描述生成文字进行基于语义的图像检索,能够弥补基于简单视觉特征的图像检索方法的不足,帮助人们找到内容更加准确且含义更加接近的图像;视频描述生成有助于视频内容加标注.此外,它还可以帮助视觉障碍者理解图像内容.目前,通常采用编码器-解码器的框架解决图像描述生成任务,是因为这种框架在许多领域中均优于其他传统方法.其中,编码器可以提取图像特征进行编码,形成更紧凑的形式;解码器可将编码的图像信息翻译成自然语言.解决图像描述生成任务时,注意力机制能提高语义表示的准确性,因而受到了越来越多的关注.该机制预先保留编码器对输入序列的中间输出结果和图像特征对应的位置信息,接着训练一个模型便于选择性地学习输入,最后在模型输出时将输出序列与之进行关联.也就是说,输出序列中每一项的生成概率取决于在输入序列中选择了哪些项.生成图像描述文字时,注意力模型可以自动关注图像显著物体[1],能在给定已生成单词的前提下让生成下一个单词的过程与视觉感知体验对齐[2].现有的基于注意力机制的图像描述生成模型通常基于图像局部特征提取信息,这些模型共同的缺点是忽略了图像全局特征,以致生成的句子缺少了描述图像的整体信息.为此,本文引入注意力机制并提出了一种结合图像全局特征和局部特征的图像描述生成模型,可以允许不同粒度图像特征作为模型的输入;然后搭建了图像描述生成的实验环境;最后将设计的模型在微软COCO数据集上进行训练和测试,并对比分析了不同模型的性能.实验表明,本文提出的模型在识别目标区域与生成相应语句之间的对应关系更加贴近人类理解方式,即识别目标区域与生成语言的对齐更加合理.1相关工作图像描述生成一直是计算机视觉和机器翻译领域的一个挑战性问题,描述图像不仅需要识别图像目标以及不同目标之间的关系,而且还要表示为自然语言.文献[3-7]依据预先定义的模板将检测到的视觉元素生成句子[3-7];文献[8-9]首先基于检索模型在训练集中找到类似的图像,然后检索并组成新的句子.这些方法生成的句子简单又有限,且不能描述测试图像中的特定内容.随着机器翻译和目标检测的发展,出现了基于神经网络生成图像描述的方法[10-11].这些方法在机器翻译中通过引入编码器-解码器框架将图像直接转换为句子[12],首先根据深度卷积神经网络(convolutional neural network,CNN)将图像编码为不同目标,然后通过循环神经网络(recurrent neural network,RNN)解码后生成描述图像内容的有意义句子.文献[11]提出了多模态循环神经网络(multimodal recurrent neural network,m-RNN),创造性地将CNN 和RNN结合起来,以期解决图像标注和图像语句检索等问题.传统的CNN和RNN组合模型没有明确地表示高级语义概念,而是试图直接将图像特征翻译成文本信息.针对RNN解码方面的不足,Google以长短期记忆(long short-term memory,LSTM)代替RNN提出了NIC模型.该模型采用已训练的CNN模型提取图像特征,且只在开始时输入一次[13].预测下一个单词时,解码器试图关联图片中的不同部分.基于上述构想,文献[1]将注意力机制应用到图像描述生成中,提出了soft-attention与hard-attention模型.该模型可以充分关注图像局部特征,原因是注意力机制打破了传统编码器-解码器结构在编解码时依赖于内部一个固定长度向量的限制[14].第4期靳华中,等:一种结合全局和局部特征的图像描述生成模型503现在许多方法试图改进注意力机制,以便更好地帮助人们理解语句生成过程,使得模型学习到的对齐关系接近人类的直观认知过程.文献[15]结合空间和信道方向的注意力提出了一种新的卷积神经网络.大多数方法强制要求在每个单词生成与视觉注意相关联,然而解码器在预测诸如“the”和“of”的非视觉单词时可能并不需要来自图像的视觉信息.文献[16]提出了一种具有视觉哨兵的新型自适应注意模型,在解译文字序列的每个单词时决定是否关注图像以及关注哪个图像区域,以便提取更有意义的单词序列信息.文献[17]提出了一个自下而上和自上而下的组合注意力机制,能让每个图像区域关联相应的特征向量并确定相应的特征权重,从而计算目标对象与其他显著图像区域之间的注意力权重.在编码器-解码器的框架下,已有的注意力机制方法在解码的不同时刻可以关注不同的图像区域,进而生成更合理的词,可是在面对复杂、多目标场景时仍然存在问题[18].图像生成文字描述的过程是先建立局部图像区域之间的联系,再构建图像整体内容和信息.然而,图像全局和局部特征的粒度不同,遗憾的是现有文献只考虑了图像局部特征的情形而没有将不同粒度的特征作为输入,于是本文提出将全局特征信息加入图像描述生成模型以表达诸如图像场景之类的图像整体信息,使得目标之间的关系表述得更加合理,更加准确.2结合全局和局部特征的图像描述生成模型本节介绍基于局部特征和全局特征的图像生成描述文字的模型架构,如图1所示.图1结合全局和局部特征的图像描述生成模型结构Figure1Image caption model architecture combining global and local features本文提出的模型与Oriol Vinyals等类似,也采用编码器和解码器的基础框架结构[19].编码器主要负责对输入的图像进行编码,以便捕获图像中包含的对象及其相互关系,表达各自的属性和涉及的活动.在上述结构框架中,本文分别使用InceptionV3网络和VGG16网络提取图像的局部特征和全局特征,并将全局特征和局部特征连接起来形成编码器的结果作为解码器的输入.解码器是一种语言模型,主要负责对图像进行解码,输出词汇表中单词的概率分布.本文先将编码器提取的特征和LSTM的状态输入注意力模型,得到一个图像目标的上下文信息;然后将上下文信息输入LSTM网络并计算每个单词的概率分布,完成句子的翻译[20].2.1编码器在编码器端,本文采用InceptionV3网络提取图像局部特征.具体做法是保留网络中softmax函数前的卷积层特征向量,并将原向量从8×8×512拉伸成64×512维.图像全局特征则由VGG16模型负责提取,其形状为1×4096.首先将两个特征向量输入一个包含256个单504应用科学学报第37卷元的全连接层,则全局特征和局部特征经过全连接后的输出为1×256维和64×256维的特征向量;然后将输出后的全局特征扩展为64×256维;最后将全局特征和局部特征连接起来,形成图像特征的编码结果.2.2注意力机制注意力机制保留LSTM 编码器对输入序列的中间输出结果,然后训练一个模型进行选择性的学习,最后将模型输出序列与输入序列进行关联.本文使用的注意力机制遵循了Bahdanau 的方法[21].注意力模型的输入为编码器对图片编码后的结果a (t )和LSTM 网络的前一个状态h t −1,输出为生成第t 个单词时的上下文信息context (t ).注意力模型的示意图如图2所示.图2注意力模型示意图Figure 2Diagram of attention model实现这种机制的方式如下:在时刻t 计算输入序列的每一个区域i 对应的权重a (t ).在图2中,α(t,t )表示在生成第t 个单词时上一时刻t 图像特征的权重.因满足输入序列的各个区域权重之和为1,于是有Tt =1α(t,t )=1(1)式(1)通过softmax 函数来实现,其中T 表示特征的数量,本文取T =64.context (t )的计算由两部分组成:一个是已计算的区域a (t ),它表示第t 个特征;另一个是上一时刻t 的信息α(t,t ),其计算公式为context (t )=Tt =1α(t,t )a (t )(2)2.3解码器本文将LSTM 网络作为编码器.它是一种特殊的RNN 记忆网络,可以学习并处理LSTM 信息,其优势在于能够建模并预测信息序列隐含的上下文依赖关系.本文利用LSTM 学习图像场景中目标区域的空间关系,通过训练集构建了一个5000个单词的词汇表,分析不同区域序列中隐含的上下文信息,计算词汇表中的每个单词的概率,以完成图像内容的表达.LSTM 网络结构如图3所示.第4期靳华中,等:一种结合全局和局部特征的图像描述生成模型505图3LSTM结构Figure3LSTM structure在图3中,σ表示sigmoid激活函数,σ∈(0,1);x t表示当前时刻t新信息的输入,h t−1表示上一个时刻t-1的隐藏状态,C t表示t时刻的细胞状态.3个虚线矩形框I、II、III分别表示遗忘门、输入门、输出门.LSTM的关键在于保护和控制细胞状态,在具体学习过程中通过3个门结构的不同状态确定下一步新信息是否舍弃或者存放在细胞状态中.每一时间步中细胞状态都会根据前一时间步的信息更新,并传递到下一个信息序列中去.虚线矩形框I对应的数学描述为f t=σ(W f[h t−1,x t]+b f)(3) f t根据x t和h t−1的数值来决定上一时间步中信息遗忘程度.输入门对应的数学表达式如下:i t=σ(W i[h t−1,x t]+b i)(4)C t=tanh(W C[h t−1,x t]+b C)(5)C t=f t C t−1+i t C t(6)细胞状态C t的更新由门值f t、i t以及上一个时间步细胞状态C t−1决定.由此可见,新信息输入、上文信息以及隐含状态的信息共同决定了下一步的时序信息.输出门的计算公式如下:o t=σ(W o[h t−1,x t]+b o)(7)h t=o t tanh(C t)(8)式中,W和b表示学习训练的网络参数.先将tanh函数的输出与sigmoid函数的输出相乘以确定隐藏状态应携带的信息,再将此隐藏状态作为当前细胞的输出,并把新的细胞状态和新的隐藏状态传递到下一个时间步长中去.3实验结果与分析3.1模型参数与数据集为了与现有技术进行比较,本文在tensorflow平台上搭建图像描述生成模型,通过一系列实验以多个度量指标评估模型的有效性.在编码阶段,分别采用InceptionV3网络和VGG16模型提取图像的局部特征和全局特征.在解码阶段,采用LSTM网络生成自然语言.在模型训练阶段,采用Adam优化算法训练模型,学习率为0.01,batch大小为128.本文模型在一块RTX2070显卡上进行训练,总共耗时约为15h.本文以MSCOCO作为数据源,其中训练集、验证集、测试集图片数量分别超过4万幅,每幅图像均由标注者用5个相对直观且无偏见的句子添加注释.506应用科学学报第37卷3.2评价准则与实验结果本文以常用的BLEU[22]、Meteor[23]、Rouge[24]评价指标评测机器翻译的准确性.BLEU 的优点是它匹配信息的粒度是n-gram而不是词,且考虑了更长的匹配信息;在本文的实验中,n取1~4.BLEU的缺点是不管匹配多大的n-gram,都会同等对待其重要性.Meteor是将模型给出的译文与参考译文进行词对齐处理,通过计算词汇完全匹配、词干匹配和同义词匹配的准确率、召回率和F值进行评测,其初衷是避免生成很“碎”的句子,ROUGE则是通过计算召回率来评测句子的匹配程度.针对上述3个评价准则,在COCO数据集上分别评估Google NIC、soft-attention、本文模型,评估结果如表1所示:表1不同模型在MSCOCO数据集上的得分Table1Scores for different models on MSCOCO dataset模型BLEU-1BLEU-2BLEU-3BLEU-4METEOR ROUGE_LGoogle NIC64.245.130.424.6––soft-attention70.749.234.424.323.9–our model73.154.136.828.925.353.6从评价结果来看,本文模型的各个评价指标均优于NIC和soft-attention模型.本文在MSCOCO测试集中选取了所有图像进行实验,部分实验结果如图4所示.每幅图像下方对应的句子是本文的模型描述图像生成的句子.由实验结果可知,经本文模型翻译的句子与图像实际的内容相比,句式完整,所表示的含义准确且有意义.3.3结果分析编码器的任务是描述图像所包含的对象及其相互关系,从而表达不同对象的属性、特征和所涉及的活动.从图像的局部区域来看,常常能够看到图像所包含的细节信息,比如目标及其属性等.细节信息通常描述了图像的局部特征,分布在相对不大的图像区域里.从图像的整体区域来看,往往能够发现图像的全局信息,比如目标之间的相互关系以及体现图像整体结构的场景等.这些较大尺度范围的信息反映了图像的全局特征,分布在整个图像中.本文采用InceptionV3和VGG16网络模型将提取的图像局部特征和全局特征连接起来形成编码器的结果,然后将其全部送入解码器进行句子的翻译.在MSCOCO数据集上将本文方法与基于图像局部特征的soft-attention模型进行了对比分析,其注意力权重可视化图如图4所示.图5包括3组可视化图,而每一组图下方的英文句子给出了本文模型对应原图生成的语言.左边为原图,中间图和右图分别给出了本文模型和soft-attention模型关于句中下划线单词的注意力权重可视化结果.在图(a)中,court在整体图像所占比例较大,属于图像的场景信息.与soft-attention模型相比,本文模型更加关注球场场地、球网和球拍部分,以及三者之间的关联关系,其中对球场的关注度最大.Soft-attention模型方法则更加关注图像上半部分,这部分信息包含了较少的court信息.因此,本文模型在理解图像视觉区域目标和生成描述图像的目标语句方面都更为合理而准确.在图(b)中,bear在图像所占比例很大,属于场景信息.当生成和描述bear时,本文模型比原模型更加关注图像中泰迪熊的头部.在图(c)中,当生成airplane时,本文模型更加关注飞机以及场地之间的关联性.由上述分析可知:相比于只关注图像局部信息的模型,本文模型在生成图像的描述文字时关注图像的位置更加合理,能够更第4期靳华中,等:一种结合全局和局部特征的图像描述生成模型507准确地发现图像目标之间的语义关系,也更能理解整个图像的场景信息.图4本文模型对图像的文字描述结果Figure4Results of the proposed model for image caption4结语本文针对已有图像描述生成模型存在的不足,提出了一种结合局部和全局特征的带有注意力机制的图像描述生成模型.在图像编码阶段,本文通过全局特征和局部特征相结合的方式获得了更加完整的图像信息,在这种情况下注意力机制生成的每一个单词均附带图像场508应用科学学报第37卷景的整体信息,因此本文模型输出的结果与图像场景一致性更好.将本文提出的模型在微软COCO数据集上进行模型训练和测试,实验结果表明:本文模型能够关注图像合理的位置,充分描述图像目标之间的活动关系,准确挖掘整个图像的场景信息,生成更准确、更完整、更有意义的句子.图5本文模型与soft-attention模型的注意力权重可视化图Figure5Visualization of attention weight by the proposed model and soft-attention model参考文献:[1]Xu K,Ba J,Kiros R,Cho K,Cour ville A,Salakhudinov R,Zemel R S,BengioY.Show,attend and tell:neural image caption generation with visual attention[J].Computer Science,2015:2048-2057.[2]Fu K,Jin J,Cui R,Sha F,Zhang C.Aligning where to see and what to tell:imagecaptioning with region-based attention and scene-specific contexts[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2017,39(12):2321-2334.[3]Li S,Kulkarni G,Berg T L,Berg A C,Choi posing simple image descriptions us-ing web-scale n-grams[C]//Proceedings of the Fifteenth Conference on Computational Natural Language Learning,2011:220-228.[4]Mitchell M,Han X,Dodge J,Mensch A,Goyal A,Berg A,Daume I H.Midge:generating image descriptions from computer vision detections[C]//Proceedings of the13th Conference of the European Chapter of the Association for Computational Linguistics,2012: 747-756.[5]Kulkarni G,Premraj V,Ordonez V,Dhar S,Li S,Choi Y,Berg T L.BabyTalk:understanding and generating simple image descriptions[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(12):2891-2903.[6]Yang Y,Teo C L,Daume H,Aloimonos Y.Corpus-guided sentence generation of naturalimages[C]//Conference on Empirical Methods in Natural Language Processing,2011:444-454.第4期靳华中,等:一种结合全局和局部特征的图像描述生成模型509 [7]Elliott D,Keller F.Image description using visual dependency representations[C]//Pro-ceedings of the2013Conference on Empirical Methods in Natural Language Processing,2013: 1292-1302.[8]Kuznetsov a P,Ordonez V,Berg A C,Berg T L,Choi Y.Collective generation ofnatural image descriptions[C]//Proceedings of the50th Annual Meeting of the Association for Computational Linguistics:Long Papers-Volume1.Association for Computational Linguistics, 2012:359-368.[9]Kuznetsov a P,Ordonez V,Berg T L,Choi Y.Treetalk:composition and compression oftrees for image descriptions[J].Transactions of the Association for Computational Linguistics, 2014(2):351-362.[10]Karpathy A,Li F F.Deep visual-semantic alignments for generating image descriptions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015:3128-3137.[11]Mao J,Xu W,Yang Y,W ang J,Huang Z,Yuille A.Deep captioning with multimodalrecurrent neural networks(m-RNN)[C]//ICLR,2015:1412-1423.[12]Cho K,van Merrienboer B,Gulcehre C,Bahdanau D,Bougares F,Schwenk H,Bengio Y.Learning phrase representations using RNN encoder-decoder for statistical machine translation[J].Computer Science,2014:1406.1078.[13]Vinyals O,Toshev A,Bengio S,Erhan D.Show and tell:a neural image caption generator[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015:3156-3164.[14]张宇,张鹏远,颜永红.基于注意力LSTM和多任务学习的远场语音识别[J].清华大学学报(自然科学版),2018,58(1):249-253.Zhang Y,Zhang P Y,Yan Y H.Long short-term memory with attention and multitask learn-ing for distant speech recognition[J].Journal of Tsinghua University(Science and Technology), 2018,58(1):249-253.(in Chinese)[15]Chen L,Zhang H,Xiao J,Nie L,Shao J,Liu W,Chua T S.SCA-CNN:spatial andchannel-wise attention in convolutional networks for image captioning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:5659-5667.[16]Lu J,Xiong C,Parikh D,Socher R.Knowing when to look:Adaptive attention via a visualsentinel for image captioning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:375-383.[17]Anderson P,He X,Buehler C,Teney D,Johnson M,Gould S,Zhang L.Bottom-upand top-down attention for image captioning and visual question answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2018:6077-6086.[18]李亚超,熊德意,张民.神经机器翻译综述[J].计算机学报,2018,41(12):2734-2755.Li Y C,Xiong D Y,Zhang M.A survey of neural machine translation[J].Chinese Journal of Computers,2018,41(12):2734-2755.(in Chinese)[19]Vinyals O,Toshev A,Bengio S,Erhan D.Show and tell:lessons learned from the2015mscoco image captioning challenge[J].IEEE Transactions on Pattern Analysis and Machine, 2017:39(2),652-663.[20]王红,史金钏,张志伟.基于注意力机制的LSTM的语义关系抽取[J].计算机应用研究,2018,35(3):1417-1420.Wang H,Shi J X,Zhang Z W.Text semantic relation extraction of LSTM based on attention mechanism[J].Application Research of Computers,2018,35(3):1417-1420.(in Chinese) [21]Bahdanau D,Cho K,Bengio Y.Neural machine translation by jointly learning to align andtranslate[C]//3rd International Conference on Learning Representations,San Diego,May7-9, 2015.[22]Papineni K,Roukos S,Ward T,Zhu W J.BLEU:a method for automatic evaluation ofmachine translation[C]//Proceedings of the40th Annual Meeting on Association for Compu-tational Linguistics.Association for Computational Linguistics,2012:311-318.[23]Banerjee S,La vie A.METEOR:an automatic metric for MT evaluation with improved cor-relation with human judgments[C]//Proceedings of the aclWorkshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization,2015:65-72.[24]Lin C Y.Rouge:a package for automatic evaluation of summaries[C]//Proceedings of theACL-04Workshop on Text Summarization Branches Out,Barcelona,2004:74-81.(编辑:秦巍)。
基于张量局部和全局信息的人脸识别算法

基于张量局部和全局信息的人脸识别算法
温浩;孙蕾
【期刊名称】《西安电子科技大学学报(自然科学版)》
【年(卷),期】2010(037)003
【摘要】现有的基于张量子空间的流形学习算法能够很好地利用图像的空间几何结构,但对流形的局部和全局信忠利用得不够充分,为此提出了一种新的张量子空间学习算法:基于局部和全局信息的张量子空间投影.新算法充分利用人脸图像数据的局部流形结构(即类内非线性流形结构)和人脸图像数据的全局信息,使数据在投影空间中的类间分离度最大,通过迭代和投影得到最优张量子空间.在标准人脸数据库上的实验表明,新算法识别率高于张量线性判别分析(TLDA)、张量临界Fisher分析(TMFA)、张量局部判别投影(TLDP)、张量子空间(TSA)算法.
【总页数】7页(P429-435)
【作者】温浩;孙蕾
【作者单位】西安电子科技大学,综合业务网理论及关键技术国家重点实验室,陕西,西安,710071;西安电子科技大学,经济管理学院,陕西,西安,710071
【正文语种】中文
【中图分类】TP391.41
【相关文献】
1.一种基于局部社团和全局信息的链路预测算法 [J], 杨旭华;凌非
2.基于全局和局部信息的目标跟踪算法 [J], 周明珠;周治平;孙子文
3.基于局部和全局信息的改进聚类算法 [J], 许小龙;王士同;梅向东
4.基于局部和全局的特征提取算法及在人脸识别中的应用 [J], 张国印;楼宋江;程慧杰;王庆军
5.基于局部与全局信息的自动文摘算法 [J], 王萌;王晓荣;李春贵;唐培和
因版权原因,仅展示原文概要,查看原文内容请购买。
基于多种群粒子群优化算法的主动轮廓线模型
基于多种群粒子群优化算法的主动轮廓线模型
李睿;郭义戎;郝元宏;李明
【期刊名称】《计算机应用》
【年(卷),期】2008(028)010
【摘要】主动轮廓线模型凹陷边界点的寻优属于动态优化问题,由于其复杂性,传统方法不能准确搜索到最佳边界点.若采用单一的粒子群优化算法求解,不仅耗时,而且容易陷入局部极值.针对以上问题,提出一种多种群粒子群优化算法,并将其应用于主动轮廓线模型的边界寻优过程中.该算法为每个控制点设置一个种群,各种群之间通过共享信息的方式协作寻优,从而避免采用单一PSO算法容易早熟的缺点,同时扩大了控制点的搜索区域,提高了收敛速度.将改进方法与传统方法进行了对比,实验结果证明了改进方法的有效性.
【总页数】4页(P2622-2624,2627)
【作者】李睿;郭义戎;郝元宏;李明
【作者单位】兰州理工大学,计算机与通信学院,兰州,730050;兰州理工大学,计算机与通信学院,兰州,730050;兰州理工大学,计算机与通信学院,兰州,730050;兰州理工大学,计算机与通信学院,兰州,730050
【正文语种】中文
【中图分类】TP391.41;TP181
【相关文献】
1.基于水平集及主动轮廓线模型的图像分割研究 [J], 董凯宁;胡蓉
2.基于Fuzzy的隐马尔可夫模型主动轮廓线模型 [J], 李惠光;李国友;石磊;吴惕华
3.基于主动轮廓线模型的棒材自动计数方法的实现 [J], 冯知凡;方康玲;张裕;熊志明;苏志祁
4.基于多种群多模型协同进化的粒子群优化算法 [J], 徐冰纯;葛洪伟;王燕燕
5.基于主动轮廓线模型的道路矢量与影像配准研究 [J], 江滔
因版权原因,仅展示原文概要,查看原文内容请购买。
一种组合主动轮廓线模型算法
一种组合主动轮廓线模型算法
徐牧;王润生
【期刊名称】《计算机工程与科学》
【年(卷),期】2004(26)12
【摘要】本文针对传统主动轮廓线模型(Snake模型)无法检测凹陷目标轮廓的缺陷,提出了一种由全局Snake模型和局部Snake模型两部分组成的组合Snake模型.组合模型首先使用全局Snake模型进行轮廓粗检测,并使用SUSAN算子检测目标轮廓上凹陷最"深"的凹点;然后,在凹点附近的局部区域,使用局部Snake模型进行轮廓凹陷部分的检测;其后以其替代使用全局模型检测出的目标轮廓的相应部分,形成最终检测的目标轮廓.实验结果表明,本算法具有较好的检测精度和抗噪性.
【总页数】4页(P38-41)
【作者】徐牧;王润生
【作者单位】国防科技大学,ATR国家重点实验室,湖南,长沙,410073;国防科技大学,ATR国家重点实验室,湖南,长沙,410073
【正文语种】中文
【中图分类】TP391.41
【相关文献】
1.一种新的B样条主动轮廓线模型 [J], 李培华;张田文
2.一种新的主动轮廓线跟踪算法 [J], 杨杨;张田文
3.基于多种群粒子群优化算法的主动轮廓线模型 [J], 李睿;郭义戎;郝元宏;李明
4.一种B—样条主动轮廓线模型 [J], 张爱东;张田文
5.一种新的主动轮廓线模型 [J], 谢颖;张雪飞
因版权原因,仅展示原文概要,查看原文内容请购买。
基于EMD的快速活动轮廓图像分割算法
af tat ecno rmo e b e n E rh Mo e’Di a c E ci o tu d l a d o at v r s ቤተ መጻሕፍቲ ባይዱ e( MD)i p o oe n la a td t eme t s a v s S t s rp sda dwe d pe osg n l
第 3 卷第 5 2 期
21 00年 5月
电
子
与
信
息
学
报
V_ . 2 . 0 3 No 5 1 M a 0 0 y2 1
J u n l fElc r n c o r a e t o i s& I f r a i n Te h o o y o n o m to c n l g
基 于过 分 割 的 规 则化 和 快 速 曲线 演 化 方 法 ,很 好 地 克 服 了传 统 模 型 的 冗 余 轮 廓 、计 算 复 杂 等 问题 。 合成 图像 和 遥 对
感 图像的实验结果证 明了算法的有效性。 关键词:图像分割 ;活动轮廓;相似 性测度 ;E rhMo e’ D sa c E at v r i n e(MD) S t ;过分割
中图分类号 :T 31 P 9 D I 1. 2/ P . 4 . 0. 63 0 :0 74S . 1 6 09 04 3 J1 2 0
文献标识码 :A
文章编号 :10—8621) - 9- 0959( 00 1 40 0 50 6
F s c i e Co t u o e o m a e S g e t to s d o a t A tv n o r M d lf r I g e m n a i n Ba e n EM D
Ov r e e t to e sg n a in m
主动轮廓模型的研究及其改进模型在目标检测中的应用的开题报告
主动轮廓模型的研究及其改进模型在目标检测中的应用的开题报告一、研究背景和意义:随着计算机技术和现代视觉技术的不断发展,图像处理和计算机视觉技术已经得到了广泛的应用。
其中,目标检测技术是图像处理和计算机视觉领域的一个重要问题。
目标检测就是从图像或视频中确定感兴趣物体的位置和形状。
目标检测技术在许多领域都有广泛的应用,如智能交通、视频监控、医学诊断、娱乐等等。
主动轮廓模型(Active Contour Model,ACM)是一种特殊的变分模型,常用于图像分割和目标检测。
ACM模型基于贝叶斯定理和弯曲能量,通过最小化能量函数的方法来找到轮廓。
相比于一些传统的图像分割技术,主动轮廓模型能够更好地提取图像中的轮廓信息,并且能够适应复杂的轮廓形状。
因此,研究主动轮廓模型的改进和应用具有很大的意义。
二、研究内容和目标:本文主要研究主动轮廓模型的改进方法以及在目标检测中的应用。
具体内容包括以下几个方面:1.研究当前主动轮廓模型的改进方法,对比不同的主动轮廓模型,并分析比较其优劣势。
常用的主动轮廓模型包括基于全局和局部的模型、形态学方法、Snake模型、Level Set等。
2.研究如何将主动轮廓模型应用在目标检测中。
本文将主要研究基于主动轮廓模型的目标检测算法,重点解决目标检测中遇到的问题,如遮挡、光照变化等。
3.设计和实现改进的主动轮廓模型并进行实验验证。
我们将设计一种基于Level Set方法的改进主动轮廓模型,并与传统的主动轮廓模型进行对比实验。
在此基础上,我们将开发一个基于主动轮廓模型的目标检测系统,并对其进行评估和优化。
三、研究方法和技术路线:本文将采用如下的研究方法和技术路线:1.研究和分析当前主动轮廓模型的改进方法,包括基于全局和局部的模型、形态学方法、Snake模型、Level Set等。
2.研究主动轮廓模型在目标检测中的应用,包括基于主动轮廓模型的目标检测算法,解决目标检测中的遮挡、光照变化等问题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2017,53(15)1引言图像分割是计算机视觉领域的基础问题之一,它是图像理解和分析的基本环节,主要应用于图像的模式识别和目标检测[1-2]。
图像分割的目的是将图像分割为不同的子区域,每个子区域具有相同或相似的特征属性。
主动轮廓模型通过逐步演化的平面曲线来逼近目标区域的边界,是近年来应用较多的图像分割方法。
目前主要有基于边界和基于区域的主动轮廓模型。
基于边界的主动轮廓模型最早可以追溯到1988年Kass 等提出的Snake 模型[3]和1997年Caselles 等提出的测地线主动轮廓模型[4]。
这类方法主要利用目标区域边界的局部特征,比如梯度特征等,来引导曲线的演化。
这类方法往往受到图像复杂多变的边界信息和初始化曲线的影响。
基于区域的方法则利用各个子区域内的全局信息而非边界信息来分割图像。
1989年Mumford 和Shah 提出的MS 模型[5]为基于区域的方法提供了模型框架,他们通过最小化图像区域信息与图像模型之间的差值来建立能量泛函。
2001年Chan 和Vese 提出的CV 模型[6]使用了更新的区域均值构建近似的区域模型,并结合水平集方法完成快速高效的分割。
另一类广为应用的是基于区域的概率主动轮廓模型。
1996年Zhu 和Yuille 首次建立了基于贝叶斯准则和Snakes/balloon 模型的主动轮廓模型[7]。
2009年Brox 和Cremers 进一步阐述了MS 模型在概率意义下的形式[8],把形如CV 模型等基于全局-局部策略的EMD 概率主动轮廓模型姜玉泉,史静,石冬晨JIANG Yuquan,SHI Jing,SHI Dongchen西安理工大学,西安710048Xi ’an University of Technology,Xi ’an 710048,ChinaJIANG Yuquan,SHI Jing,SHI Dongchen.Statistical active contour model based on EMD and global-local puter Engineering and Applications,2017,53(15):1-6.Abstract:Active contour model is one of the most useful tools to solve image segmentation task.It has been widely used in recent years.In this paper,some prior works are discussed and Earth Mover ’s Distance (EMD )is introduced into statistical active contour model.Then a new statistical active contour model based on EMD is proposed.However,the proposed global strategy usually leads to local segmentation error.Therefore,a new global-local strategy which combines global and local scheme into EMD is raised.The proposed strategy not only extends the application of the proposed EMD model but also further improves the performance.Key words:Earth Mover ’s Distance (EMD );global-local strategy;Bhattacharyya distance;mutual information model;statistical active contour model摘要:主动轮廓模型作为图像分割的有力工具,近年来得到了广泛的应用。
在讨论前人工作的基础上,首先将基于区域直方图的概率估计方法和EMD 距离引入主动轮廓模型,建立了基于EMD 距离的能量泛函。
为了解决图像局部的置乱现象容易产生分割误差的问题,提出一种全局-局部模型,提高分割精度,并应用于EMD 距离,不仅扩大了模型的应用范围,而且使分割效果得到了进一步的提升。
关键词:EMD 距离;全局-局部策略;巴特查利亚距离;互信息模型;概率主动轮廓模型文献标志码:A 中图分类号:TP391.4doi :10.3778/j.issn.1002-8331.1703-0498⦾热点与综述⦾基金项目:国家自然科学基金(No.61471296);国家国际科技合作项目(No.2011DRF10480)。
作者简介:姜玉泉(1981—),男,博士研究生,讲师,研究领域为图像处理、模式识别,E-mail :yqjiang@ ;史静(1983—),女,博士研究生,讲师,研究领域为数字图像处理;石冬晨(1985—),女,博士研究生,讲师,研究领域为数字信号处理。
收稿日期:2017-03-29修回日期:2017-06-07文章编号:1002-8331(2017)15-0001-06Computer Engineering and Applications 计算机工程与应用1Computer Engineering and Applications计算机工程与应用2017,53(15)的主动轮廓方法归入了贝叶斯概率模型的范畴。
自此,概率方法,尤其是贝叶斯后验概率,大大丰富了基于区域的主动轮廓模型。
2005年Kim等利用区域间的互信息建立了无参数的概率主动轮廓模型[9],2007年Michailovich等把巴特查利亚距离引入主动轮廓模型[10],用于衡量目标区域模型和背景区域模型之间的距离。
他们的核心思想都是最小化目标区域和背景区域在一定区域信息的概率密度下的相似度,无参数概率估计的引入不仅提高了模型自身的适应性,而且对很多难以分割的图像,比如部分纹理图像,也产生了良好的分割效果。
在这一思想的启发下,不少图像分割的研究人员把寻找良好性能的概率密度距离作为构建新的基于区域的主动轮廓模型的突破口。
除了上面提到的巴特查利亚距离,主要应用的还有KL散度、拉普拉斯距离和Wasserstein距离等。
不仅区域概率密度函数,另一种近似的概率模型——区域直方图也被应用于这些模型。
比如,Ni等把局部直方图应用于Wasserstein距离[11]。
虽然和无参数概率密度估计相比,直方图在计算时需要引入参数,在对区域信息的估计时会损失精确度,但是它计算的快速性是核估计无法比拟的。
而且事实证明,使用合适的参数,直方图区域信息估计的误差对实际分割效果的影响微乎其微。
这也是直方图估计在主动轮廓中仍然得到广泛应用的原因。
以上基于距离的区域模型得到的基本都是全局的分割结果,这拓宽了模型的应用范围,但是大多数图像的分割目标并不符合这一全局特性,尤其是前景目标和背景区域接触的边界附近有相似的特征时,错误的分割结果往往不可避免。
因此,局部策略应运而生。
局部策略[12-14]对前景区域和背景区域在交界处具有的相似特征有较强的识别作用,通常能够比较理想地逼近目标边界。
局部策略需要针对曲线上每个像素计算局部的信息,所以迭代过程比较缓慢,时间复杂度会有所提升,同时它需要初始曲线尽量靠近目标的实际边界,这也在一定程度上限制了局部策略的应用。
本文中,把基于区域直方图的概率估计方法和EMD距离[15]应用于主动轮廓模型,建立了基于EMD距离的能量泛函,通过变分法求得主动轮廓的梯度流迭代方程,得到了良好的分割效果。
随后,对全局策略和局部策略进行讨论,并提出了一种结合两种策略的全局-局部模型,进一步提高了分割精度,扩大了模型的应用范围。
2概率主动轮廓模型不失一般性的,把图像分割看作二分问题。
图像I:R2→R d被主动轮廓分割为前景区域R1和背景区域R2,这里d=2表示灰度级图像,d=3则是彩色图像。
两区域的信息(这里指的是统计的概率信息)分别定义为p1和p2,它们是区域R1和R2的概率密度函数。
两区域之间的分割曲线用C表示。
Zhu和Yuille提出的区域竞争算法结合了Snake模型、“气球”模型和区域生长,最早把Bayes/MDL准则引入概率模型,从而建立能量函数:J(C,I)=-∑k=12∫R kln p k d x d y+λLength(C)(1)这里Length(C)是长度惩罚项,使曲线C保持平滑;λ∈[0,1]是正则项的权重参数。
Kim等把互信息引入主动轮廓模型,他们通过最小化区域信息和区域标签之间的互信息建立能量函数:J(C,I)=-|Ω|M(I(X);L C(X))+λLength(C)(2)其中||Ω代表区域面积;M(I(X);L C(X))表示图像信息I(X)和标签L C(X)之间的互信息,这里L C(X)=i(X∈R i, i=1,2)。
Michailovich等用巴特查利亚距离来最大化区域信息p1和p2之间的距离,从而尽可能地将前景和背景的差别程度拉大:J(C,I)=∫I p1p2d x d y+λLength(C)(3)贝叶斯后验概率模型强调区域内部相似程度的最大化,可以看作MS模型的概率理解。
经典的CV模型是建立在区域信息呈标准高斯分布的假设上的贝叶斯模型。
贝叶斯模型和MS模型同样具有代表性和广泛的适用性。
互信息模型和巴特查利亚距离则着重于最大化前景和背景区域之间的差别,差别越大,分割的前景和背景就越精确。
值得注意的是,以上模型用概率密度函数来估计区域信息,实际上也可以用区域直方图,例如巴特查利亚距离就能改写成直方图的形式:J(C,I)=∫I h1h2d x d y+λLength(C)(4)这里h1和h2分别是区域R1和R2的归一化的灰度直方图。
3EMD主动轮廓模型EMD距离最早由Rubner等提出,并应用于基于内容的图像复原。
它是基于最小化两个概率分布之间的转换代价而提出的,也被认为是一种衡量两个概率分布之间距离的测度[16]。
类似于互信息和巴特查利亚距离模型,直接利用EMD距离,结合区域直方图,建立主动轮廓的能量泛函:min J EMD(C,I)=-∫I|h1-h2|d x d y+λLength(C)(5)这里|h1-h2|就是h1和h2之间的EMD距离。
接下来,推导上述能量函数的梯度流。
由于EMD 距离带有绝对值符号,定义一个二值函数:s(x,y)=ìíî1,h1(x,y)≥h2(x,y)-1,h1(x,y)<h2(x,y)(6)22017,53(15)于是,得到主动轮廓C 的梯度流:∂C (x,y )∂t =-∂J EMD (C,I )∂C (x,y )=s (x,y )[(h 1(x,y )-h 2(x,y ))N -κN ](7)这里C (x,y )表示曲线上(x,y )处的像素。