基于多尺度深度特征的视觉显著性
视觉显著性算法概述

• 其中 为使用者设定的延迟因子。
PQFT模型
• 四元组图像可以表示为下列形式
q(t ) M (t ) RG(t )1 BY (t )2 I (t )3
其中 i , i 1,2,3,满足 i2 1 ,2 3 , 1 3 , 3 12 1 2 , q(t ) 可以写成如下形式
• 其中 I 为图像特征的几何平均向量, I hc 为对原始 图像的高斯模糊,采用 5 的二项式核。 5 为 L2 范数, x, y为像素点坐标 。
SR模型
• SR(Spectral Residual)模型是由Hou等人提出 来的,基于空间频域分析的算法之一,显著 R( f ) 图通过对剩余谱 做傅里叶逆变换得到。 • 剩余谱 定义为
S (Ik )
• 其中D( I k , Ii )为像素在Lab空间的颜色距离度量。如果 忽略空间关系,使得具有相同颜色的像素归到一起 ,得到每一个颜色的显著性值
S ( I k ) S (cl ) f j D(cl , c j )
FTS模型
• FTS(Frequency-Tuned Saliency)模型是由Achanta 等人提出的一种自底向上的显著性检测方法,通 过局部颜色和亮度特征的对比多尺度方法求像素 点显著值。 • 将原始图像由SRGB颜色空间转化成CIE颜色空间, 然后显著性映射定义为
S ( x, y ) I I hc
I ( x ) log( p ( x )) 为特征的概率密度函数。
p( x)
GBVS模型
• GBVS(Graph-Based Visual Saliency)模型是 在Itti的模型基础之上运用马尔可夫随机场 的特点构建二维图像的马尔可夫链,通过 求其平衡分布而得到显著图 • 算法步骤:
一种基于显著性的多尺度图像融合模型

一种基于显著性的多尺度图像融合模型李蕴奇【摘要】This paper presents a multi-scale saliency-based image fusion model. First, the source images were decomposed into sub-image sets by contourlet transform, then the saliency of each piece of sub-image was calculated and the coefficients were selected by maximizing saliency, and finally, the fused image was obtained by inversing contourlet transform. The saliency of the image was calculated by spectral residual theory. Experimental results show that the proposed model outperforms traditional models.%提出一种基于显著性的多尺度图像融合模型,先利用轮廓波变换将输入图像分解成子图序列,然后计算每幅子图像的区域显著性,并选取显著性大的参数作为最终融合参数,最后通过反变换获得融合图像,图像的显著性通过谱冗余法获得.实验结果表明,该方法较传统方法融合效果更好.【期刊名称】《吉林大学学报(理学版)》【年(卷),期】2013(051)002【总页数】4页(P285-288)【关键词】图像融合;显著性;轮廓波变换;谱冗余【作者】李蕴奇【作者单位】吉林省经济信息中心,长春 130061【正文语种】中文【中图分类】TP391图像融合是指将多幅由不同传感器或在不同环境下获得的同一场景图像合成一张图像, 并使合成后的图像信息更丰富, 更适合后期处理[1]. 该技术目前已应用于医疗辅助诊断和治疗、遥感图像、机器人视觉等领域. 优异的融合算法应满足3个条件[2]: 1) 在融合图像中应保留所有与输入图像相关的信息; 2) 不能引入影响肉眼观察或影响下一步计算机处理的不一致性; 3) 具有平移不变性和旋转不变性.目前的融合算法按融合层次可归结为像素级、特征级和决策级3类[3]. 像素级的图像融合方法又可分为空域类和频域类两种[2], 空域类包括最大值法、最小值法和PCA法等; 而频域类相对于空域类过程更复杂, 其过程分为3个阶段:将图像融合空域变换到频域, 融合算子作用于频域参数, 频域再转换至空域. 频域类包括:塔式分解法、 Fourier变换法和小波变换法等. 这些算法的不同之处在于频域与空域的变换方式不同. 频域类算法尽管算法繁琐, 时间开销大, 但它使融合效果得到极大提高. 而产生这种优越性的原因为: 在频域内, 可将图像按频率分解, 使得高频信息(如形状、纹理等)与低频信息(如背景等平滑部分)分开, 融合算子可视具体融合参数进行选取, 针对性更强. 特征级融合类指融合算子运行在特征级[4], 一般过程为:先对图像分割, 再提取区域特征信息, 最后进行特征融合. 决策及图像融合的一般步骤为图像分割、提取区域特征信息, 再建立对同一目标的判别, 最后进行决策级融合. 本文采用在像素级别下频域内的融合模型, 在不引入额外信息的前提下将重要信息导入融合图像. 同时, 基于图像显著性信息最大化选取融合算子.1 轮廓波分解与重构多尺度信号分解方法----轮廓波变换(contourlet transform)[5]的信号分解是在离散域内通过滤波器组实现的. 该方法可分解出任意多的方向信息, 而方向性对于有效的图像表示至关重要. 轮廓波变换由于能较完整地获取信号的几何结构, 所以是一种多分辨分析的、局部的并具有方向性的表示方法.图1 轮廓波变换Fig.1 Contourlet transform轮廓波变换可通过多尺度分解和方向分解两步完成, 如图1所示. 轮廓波变换将多尺度性和多方向性有机结合. 在第一阶段的Laplace滤波过程中, 主要寻找图像中的奇异点, 使图像中的能量主要集中于奇异点上[6]. 而在图像处理过程中, 本文更关注图像的边缘纹理信息, 而不是奇异点. 因此, 需要有效地刻画出奇异点连成的曲线. 轮廓波变换第二阶段中, 方向滤波器在Laplace分解层上进一步滤波, 使图像的能量集中于奇异线段[7]. 图像经轮廓波变换后, 可表示为一个由带有不同分解尺度和方向信息的子图组成的集合.2 模型框架本文模型可分为:图像Contourlet变换、显著性计算、参数融合和逆变换4个阶段, 如图2所示.图2 模型框架Fig.2 Model frameworkn(n>1)个输入图像记为I1,I2,…, In, 模型的计算过程如下:1) 对于任意一幅原图像, 利用轮廓波变换将其分解为高频子带和低频子带, 并将每i 幅原图像对应的子带集合记为CCi;2) 计算CCi内子带中各处的显著性, 并记为集合SMi;3) 利用显著性矩阵, 为高频子带和低频子带分别选取融合系数, 并记为集合FC;4) 利用轮廓波逆变换获取最终融合图像.2.1 显著性计算本文基于谱冗余理论(spectral residual)[8]进行显著性计算. 信息可分为冗余部分和变化部分, 人们的视觉对变化部分更敏感. 视觉系统的一个基本原则是抑制对频繁出现的特征响应, 同时对非常规的特征保持敏感, 从而可将图像分为如下两部分: H(img)=H(Innovation)+H(prior Konwledge).设输入图像为I(x), 则根据谱冗余理论, 计算步骤如下:1) 对图像进行Fourier变换, 并求出振幅谱A(f)和相位谱P(f): A(f)=R(F(I)),P(f)=I(F(I));2) 计算图像log振幅谱: L(f)=log(A(f));3) 计算冗余谱: R(f)=L(f)-hn×L(f), 其中h是一个n×n均值滤波的卷积核;4) 获得图像显著性区域: S(I)=g(x)×F-1[exp(R(f)+P(f)]2, 其中g(x)为高斯核函数. 最终s(x)记为图像I(x)对应的显著性矩阵.2.2 融合规则若n(n>1)个输入图像记为I1,I2,…,In, 经轮廓波变换后, 任意一幅输入图像的第m 层包含N(m)个子图, 则第i幅输入图像可表示为{CCi(j,k)|i=1,2,…,n; j=1,2,…,L;k=1,2,…,N(j)}, 其中M表示轮廓波变换中Laplace分解层数. 同理任意一幅输入图像CCi对应的显著性矩阵可表示为集合: {SMi(j,k)|i=1,2,…,n; j=1,2,…,L;k=1,2,…,N(j)}. 融合参数可表示为{FCi(j,k)|i=1,2,…,n; j=1,2,…,L; k=1,2,…,N(j)}. 于是, 可定义融合规则为其中: x和y为图像中的横、纵坐标; αi(j,k,x,y)为各图像的权重, 计算公式为其中SM(j,k,x,y)表示所有分解层为j、排在k位的子图在坐标为(x,y)处的显著性集合.该融合规则的意义在于显著性大的像素一般在人类视觉所关注的区域出现, 而融合的目的是将输入图像中这些能引起视觉感应的信息融入到融合图像中.3 实验与讨论3.1 客观评价指标本文验证融合模型有效性时使用两项客观评估指标, 从多角度比较本文算法与其他融合算法的性能.1) 文献[9]提出使用互信息(mutual information, MI)对图像融合质量进行评价, 互信息度量在融合过程中从输入图像导入到融合图像中的信息量, 互信息越大, 表明融合图像质量越好. 融合图像的互信息定义如下:其中:2) 文献[8]提出一种基于边缘的图像融合客观评价指标QAB/F, 该评价指标度量了融合图像的边缘完整性, 计算公式为其中: QAF(n,m)和QBF(n,m)分别表示融合图像F与输入图像A,B之间在(m,n)处的相似性; ωA(n,m)和ωB(n,m)分别表示输入图像A,B在(m,n)处的权重.3.2 实验本文选取一组通用的融合图像, 并选取小波变换图像融合法作为比较对象, 如图3所示. 输入图像A和B包含相同的目标, 二者的区别在于图像A的焦点位于右侧, 图像B的焦点位于左侧. 将两者融合成一幅图像, 有利于提高图像的清晰度, 弱化原始图像中模糊的信息. 与本文模型作比较的算法为梯度金字塔变换法、形态学金字塔法和离散小波变换法, 这些方法在图像融合领域应用广泛, 并取得了较好的效果. 实验中, 利用梯度金字塔变换法、形态学金字塔法和离散小波变换法进行图像融合时, 采用3层分解结构, 高频部分的融合规则为绝对值最大法, 低频部分的融合规则为均值法.图3(F)是本文模型得到的融合结果, 与图3(C)~(E)相比, 亮度与两幅输入图像更接近, 表明在保留输入图像信息方面更优秀, 客观评价指标列于表1.图3 输入图像与融合图像Fig.3 Source images and fused images表1 客观指标评价结果Table 1 Objective evaluating results模型 MIQAB/F梯度金字塔模型6.319 00.651 5形态金字塔模型6.008 80.601 5小波变换模型5.951 80.561 2本文模型6.899 10.670 5两项客观指标越大, 表明融合效果越好. 由表1可见, 本文模型更有效. 轮廓波变换能有效捕捉图像的边缘信息, 而基于谱冗余的显著信息检测能保证有用信息尽可能多的被保存到融合图像中.综上所述, 本文提出了一种新的基于显著性的图像融合算法. 该算法首先对输入图像进行轮廓波分解, 使每幅输入图像产生一组不同分辨率的含有方向信息的子图序列;再分别在每层子图像序列上计算局部显著性, 并根据显著性大小选取相应的融合参数;最后进行轮廓波逆变换, 得到融合图像. 轮廓波变换的使用保证了图像信息的有效分解及边缘信息的充分采集, 基于显著性的融合策略则有利于将输入图像中的重要信息保存到最终融合图像中.参考文献【相关文献】[1] LI Shu-tao, YANG Bin, HU Jing-wen. Performance Comparison of Different Multi-resolution Transforms for Image Fusion [J]. Information Fusion, 2011, 12(2): 74-84.[2] Citardi Martin J, Batra Pete S. CT-MR Image Fusion for the Management of Skull Base Lesions [J]. Otolaryngol Head Neck Surg, 2006, 134(5): 868-876.[3] TU Te-ming, SU Shun-chi, SHYU Hsuen-chyun, et al. A New Look at IHS-Like Image Fusion Methods [J]. Information Fusion, 2001, 2(3): 177-186.[4] Rockinger Oliver, Fechner Thomas, Daimler Benz Ag. Pixel-Level Image Fusion: The Case of Image Sequences [C]//Proc SPIE. Bellingham: SPIE, 1998: 378-388.[5] YANG Bo, JING Zhong-liang, ZHAO Hai-tao. Review of Pixel-Level Image Fusion [J]. Journal of Shanghai Jiaotong University: Science, 2010, 15(1): 6-12.[6] Bender Edward J, Reese Colin E, Wal Gooitzen S. Comparison of Additive Image Fusion vs Feature-Level Image Fusion Techniques for Enhanced Night Driving [C]//Proceedings of SPIE. Bellingham: SPIE, 2003: 140.[7] Do Minh N, Vetterli Martin. The Contourlets Transform: An Efficient DirectionalMultiresolution Image Representation [J]. IEEE Transactions on Imege Processing, 2005, 14: 357-360.[8] Burt P, Adelson E. The Laplacian Pyramid as a Compact Image Code [J]. IEEE Transactions on Communications, 1983, 31(4): 532-540.[9] Bamberger R H, Smith M J T. A Filter Bank for the Directional Decomposition of Images: Theory and Design [J]. IEEE Transactions on Signal Processing, 1992, 40(4): 882-893.。
基于多尺度特征提取的单目图像深度估计

第50卷第1期2023年北京化工大学学报(自然科学版)Journal of Beijing University of Chemical Technology (Natural Science)Vol.50,No.12023引用格式:杨巧宁,蒋思,纪晓东,等.基于多尺度特征提取的单目图像深度估计[J].北京化工大学学报(自然科学版),2023,50(1):97-106.YANG QiaoNing,JIANG Si,JI XiaoDong,et al.Monocular image depth estimation based on multi⁃scale feature extraction [J].Journal of Beijing University of Chemical Technology (Natural Science),2023,50(1):97-106.基于多尺度特征提取的单目图像深度估计杨巧宁 蒋 思 纪晓东 杨秀慧(北京化工大学信息科学与技术学院,北京 100029)摘 要:在目前基于深度学习的单目图像深度估计方法中,由于网络提取特征不够充分㊁边缘信息丢失从而导致深度图整体精度不足㊂因此提出了一种基于多尺度特征提取的单目图像深度估计方法㊂该方法首先使用Res2Net101作为编码器,通过在单个残差块中进行通道分组,使用阶梯型卷积方式来提取更细粒度的多尺度特征,加强特征提取能力;其次使用高通滤波器提取图像中的物体边缘来保留边缘信息;最后引入结构相似性损失函数,使得网络在训练过程中更加关注图像局部区域,提高网络的特征提取能力㊂在NYU Depth V2室内场景深度数据集上对本文方法进行验证,实验结果表明所提方法是有效的,提升了深度图的整体精度,其均方根误差(RMSE)达到0.508,并且在阈值为1.25时的准确率达到0.875㊂关键词:单目图像;深度估计;多尺度特征;结构相似性损失函数中图分类号:TP391 DOI :10.13543/j.bhxbzr.2023.01.012收稿日期:20211227第一作者:女,1976年生,副教授,博士E⁃mail:yangqn@引 言近年来,人工智能技术已经大量应用到人类生活中,如自动分拣机器人[1]㊁VR 虚拟现实㊁自动驾驶[2]等㊂深度信息帮助这些应用理解并分析场景的3D 结构,提高执行具体任务的准确率㊂传统的深度信息获取方式主要有两种:一种是通过硬件设备直接测量,如Kinect [3]和LiDAR 传感器,然而该方式存在设备昂贵㊁受限多㊁捕获的深度图像分辨率低等缺点;另一种是基于图像处理估计像素点深度[4],根据视觉传感器数量的多少又可分为单目㊁双目㊁多目等深度估计方法㊂其中双目深度估计主要利用双目立体匹配原理[5]生成深度图,多目深度估计则是利用同一场景的多视点二维图像来计算深度值[6],这两种方法存在的共同缺点是对硬件设备参数要求高㊁计算量大,而且对于远距离物体会产生严重的深度精度误差㊂相比之下,单目深度估计从单幅图像估计像素深度信息,对摄像机参数方面的要求更少㊁成本低㊁应用灵活方便㊂因此,单目图像深度估计受到越来越多研究者的重视[7-16]㊂随着深度学习的快速发展,深度卷积神经网络[8]凭借其高效的图像特征提取性能和优越的表达能力不断刷新计算机视觉各领域的记录㊂在基于深度学习单目图像预测深度图的研究方面,Eigen 等[9]在2014年最先采用粗糙-精细两个尺度的卷积神经网络实现了单目图像深度估计:首先通过粗尺度网络预测全局分布的低分辨率深度图,接着将低分辨率深度图输入到精细尺度网络模块中,学习更加精确的深度值㊂次年,该团队基于深度信息㊁语义分割和法向量之间具有相关性的特点提出了多任务学习模型[10],该模型将深度估计㊁语义法向量㊁语义标签结合在一起进行训练,最终提高了深度图的分辨率和质量㊂随后,大量的团队开始利用深度神经网络进行单目深度估计的研究㊂Laina 等[11]为了提高输出深度图的分辨率,提出了全卷积残差网络(fully convolutional residual networks,FCRN),FCRN 采用更加高效的上采样模块作为解码器,同时在网络训练阶段加入了berHu 损失函数[12],通过阈值实现了L1和L2两种函数的自适应结合,进一步提高了网络的性能㊂Fu 等[13]引入了一个离散化策略来离散深度,将深度网络学习重新定义为一个有序回归问题,最终该方法使得网络收敛更快,同时提升了深度图的整体精度㊂Cao等[14]将深度估计回归任务看作一个像素级分类问题,有效避免了预测的深度值出现较大偏差的现象,获得了更准确的深度值㊂Lee等[15]提出了从绝对深度转变为相对深度的预测像素点的算法㊂Hu等[16]设计了一个新的网络架构,该架构包含编码模块㊁解码模块㊁特征融合模块㊁精细化模块4个模块,针对边缘设计了梯度损失函数,进一步提升了神经网络的训练效果㊂虽然深度学习在单目图像深度估计任务中取得了较大的进展,但是依然存在以下问题:在单目图像深度估计任务中,现实场景具有复杂性,比如物体尺寸大小不一㊁较小的物体需要背景才能被更好地识别等,这增加了网络特征提取的难度㊂现有的单目图像深度估计方法通常通过增加网络层数来提高网络提取特征能力[17-24],在这个过程中,层级之间采用固定尺度的卷积核或卷积模块对特征图提取特征,导致层级之间提取的特征尺度单一,多尺度特征提取不够充分,最终获得的深度图整体精度不高㊂针对以上问题,本文提出了一种基于多尺度特征提取的单目图像深度估计方法,该方法引入Res2Net网络作为特征提取器,以提高网络的多尺度特征提取和表达能力;其次设计了边缘增强模块,解决了网络训练过程中物体边缘像素丢失问题,提高深度图的质量;最后在损失函数中引入了结构相似性损失函数,提高网络提取局部特征的能力㊂1 基于多尺度特征提取的单目图像深度估计方法1.1 基础网络目前,大部分单目图像深度估计方法通常采用编解码结构作为网络架构,本文基于编解码结构对网络中多尺度特征提取㊁表达不够充分的问题展开研究㊂由于文献[16]通过特征融合和边缘损失函数提高了网络的性能,可获得较高的整体深度图精度,因此本文选择该文献中的网络模型作为基础网络㊂基础网络以编解码结构作为网络架构,如图1所示㊂网络结构一共分为4个模块,即编码器模块(En⁃coder)㊁解码器模块(Decoder)㊁特征融合模块(MFF)和精细化模块(Refine)㊂图1 基础网络Fig.1 The basic network 编码器作为特征提取器,主要由1个卷积层和4个下采样模块组成,分别是conv1㊁block1㊁block2㊁block3㊁block4,其对输入图像的下采样提取不同分辨率的细节特征和多尺度特征,然后将最后一个下采样模块(block4)输出的特征图传递到解码器中㊂解码器主要由1个卷积层和4个上采样层组成,分别是conv2㊁up1㊁up2㊁up3㊁up4,编码器提取的特征图经过上采样模块一方面可以恢复空间分辨率,另一方面可实现对特征不同方式的表达㊂特征融合模块主要由up5㊁up6㊁up7㊁up8这4个上采样模块组成,它对编码器中4个下采样模块输出的特征图进行空间恢复,然后将空间恢复的特征图与解码器输出的特征图串联,传递到精细化模块中㊂精细化模块主要由conv4㊁conv5㊁conv6这3个5×5的卷积组㊃89㊃北京化工大学学报(自然科学版) 2023年成,特征图经过精细化模块输出最终的深度图㊂基础网络通过多阶段的运行,有效地将浅层的细节特征与深层的全局特征进行融合,解决了深度图丢失细节信息的问题,最终提升了深度图的整体精度㊂但是该网络存在以下几个问题:(1)Res⁃Net50㊁DenseNet161㊁SENet154作为网络特征提取器,它们都有一个共性,即层级之间只使用一个固定大小的卷积核提取特征,导致层级之间的特征提取能力受限,网络提取多尺度特征不充分,最终深度估计的精度不高[25-26];(2)网络在下采样过程中丢失边缘像素信息,降低了输出的深度图质量;(3)损失函数只考虑了单个像素点之间的深度值差值,没有考虑相邻像素点间深度值具有相关性的特点,使得网络在学习的过程中无法充分提取局部特征,影响最终深度图的精度㊂1.2 方法构建1.2.1 网络模型针对基础网络存在的问题,本文提出基于多尺度特征提取的单目图像深度估计方法,以提高深度图的整体精度㊂本文方法的网络结构如图2所示,红色框表示在基础网络上所作的改进㊂输入图像经过两个分支:第一个分支是对输入图像采用Res2Net 编码器[27]提取丰富的多尺度特征,接着将编码器提取的特征传递到解码器㊁特征融合模块中恢复空间分辨率,最后将解码器和特征融合模块输出的特征进行融合,得到第一个分支输出的特征图;第二个分支是将二维图像经过一个高通滤波器提取边缘信息,然后再经过3×3的卷积得到指定尺寸的特征图㊂最后将以上两个分支的特征图融合,通过精细化模块输出深度图㊂图2 本文方法的网络模型Fig.2 The network model of the method used in this work1.2.2 Res2Net 卷积神经网络现实场景具有环境复杂和物体多样性的特点,大大增加了网络提取多尺度特征的难度㊂为了提高网络的多尺度特征提取能力,本文引入Res2Net 卷积神经网络作为特征提取器㊂Res2Net 网络是对ResNet 网络的改进,它在单个残差块之间对特征图通道进行平均划分,然后对划分出来的不同小组通道采用阶梯形卷积方式连接,使得在层级之间不再提取单一尺度的特征,实现了不同大小尺度的特征提取,提高了网络的多尺度特征提取能力㊂关于ResNet 与Res2Net 模块之间差异的详细概述如下㊂如图3所示,其中图3(a)是ResNet 残差块,图3(b)是Res2Net 残差块㊂ResNet 残差块经过一个1×1的卷积,减少输入的特征图通道数,接着对1×1卷积后的特征图通过3×3卷积提取特征,最后使用1×1的卷积对提取的特征恢复通道数㊂Res2Net 与ResNet 残差块不同的是,Res2Net 网络对1×1卷积后的特征图进行通道小组划分,除了第一组以外,每组特征图都要经过一个3×3的卷积,并且将3×3卷积后的特征图与下一组特征图融合再次经过一个3×3的卷积㊂通过这种方式,使得每组3×3的卷积不仅是对当前通道小组提取特征,同时也对之前所有小组3×3卷积后的特征图再次计算3×3的卷积㊂由此采用阶梯形3×3的卷积方式相比于ResNet 残差块中3×3的卷积可以提取更丰富的多尺度特征㊂最后将3×3卷积后的特征小组串联起来传递到1×1的卷积恢复通道数㊂Res2Net 采用这种阶梯形卷积方式可以在不增加参数量的情况下表达出更丰富的多尺度特征㊂Res2Net 模块详细计算过程可以通过式(1)㊃99㊃第1期 杨巧宁等:基于多尺度特征提取的单目图像深度估计图3 ResNet模块和Res2Net模块Fig.3 ResNet module and Res2Net module 说明㊂y i=x i,i=1K i(x i),i=2K i(x i+y i-1),2<i≤ìîíïïïïs(1)首先输入的特征图经过1×1的卷积输出特征图,然后对输出的特征图划分为s个小组,分别用x i(i∈(1,2, ,s))表示,并且每一小组的特征数为原来的通道数的1/s,图3(b)为s取4的情况㊂除了第一个小组x1的特征图外,其他小组x i(i∈(2, 3, ,s))的特征图都有3×3卷积层㊂用K i表示卷积层,并将x i(i∈(2,3, ,s))卷积后的输出用y i 表示,当前小组的特征x i与上一小组输出的特征y i-1相加作为K i的输入,因此每一个K i()的输入都包含了之前{x j,j≤i}的小组特征,并且由于采用的是阶梯形连接,所以每个y i都在y i-1基础上提取更多的尺度特征㊂由于这种组合的激发效果,Res2Net 中的残差模块可以提取更细粒度的不同尺度大小的特征,提高了网络的多尺度特征提取能力㊂最后将各个小组输出的特征串联起来,输入到1×1的卷积层中,恢复特征通道数㊂由此可以看出,Res2Net残差模块使用阶梯形卷积提取了更丰富的多尺度特征,解决了原网络中特征提取单一的问题,提高了整体的网络特征提取能力㊂1.2.3 边缘增强网络二维图像(RGB图像)经过编码器下采样提取抽象特征,然后经过上采样恢复到原来的尺寸㊂在这个过程中由于图像的分辨率不断的缩放,导致物体的结构像素不断丢失,为了更直观地加以说明,本文对文献[16]里SENet154网络中特征融合模块4个阶段的特征图进行可视化,如图4所示㊂由图4可以发现,第一阶段可以学习到更多的边缘信息,但是边缘不够清晰,包含较多的噪声,随着第二阶段㊁第三阶段㊁第四阶段网络的加深,网络可学习更多的全局特征,边缘细节信息更加模糊㊂为了解决该问题,本文设计了边缘增强网络,保留边缘像素信息,具体的网络结构如图5所示㊂图4 特征融合模块4个阶段输出的特征图Fig.4 Feature map output by four stages of the featurefusion module图5 边缘增强网络示意图Fig.5 Schematic diagram of the edge enhancement network 首先输入的RGB图像通过Sobel算子提取边缘信息,然后边缘特征依次通过3×3的卷积㊁像素值归一化㊁ReLU激活函数运算以加强边缘特征,最后将边缘特征与解码器㊁特征融合模块输出的特征图通道连接,输出最终的深度图,整体结构如图2所示㊂边缘增强模块通过提取和加强图像中物体的边缘信息,有效地保留了物体边缘像素特征㊂1.2.4 结构相似性损失函数文献[16]中采用了3个损失函数来估计深度,如式(2)~(4)所示㊂真实深度图像素值深度g i和预测深度图像素值深度d i的绝对误差为㊃001㊃北京化工大学学报(自然科学版) 2023年l depth=1n∑ni =1F (e i ),F (x )=ln(x +α)(2)式中,e i =‖d i -g i ‖1,n 是像素点总数,α是自定义参数㊂物体边缘像素点的误差为l grad =1n∑ni =1(F (d x (e i ))+F (d y (e i )))(3)式中,d x (e i )㊁d y (e i )为像素点在x 方向和y 方向的导数㊂物体表面法向量误差为l normal =1n∑ni =(11-(n d i,n g i)(n di,n d i)(n g i,n g i))(4)式中,预测深度图法向量n di=[-d x (d i ),-d y (d i ),1]T ,真实深度图法向量n g i =[-d x (g i ),-d y (g i ),1]T ㊂损失函数公式(2)~(4)都是基于真实深度图和预测深度图单个像素点之间的差值,忽略了空间域中相邻像素点之间的相关性,而这种相关性承载着视觉场景中物体结构的信息㊂因此,本文引入了结构性相似损失函数(SSIM)[28],增强网络对物体结构信息的关注度,从而提高整体深度图的精度㊂SSIM 主要从局部区域的亮度㊁对比度㊁结构这3个方面来综合度量两个图像的相似性㊂SSIM 的具体公式可以表示如下㊂F SSIM (X ,Y )=L (X ,Y )*C (X ,Y )*S (X ,Y )(5)式中,L (X ,Y )为亮度的相似度估计,计算公式为L (X ,Y )=2μx μy +c 1μ2x +μ2y +c 1(6)C (X ,Y )为对比度的相似度估计,计算公式为C (X ,Y )=2σx σy +c 2σ2x +σ2y +c 2(7)S (X ,Y )为结构的相似度估计,计算公式为S (X ,Y )=σx ,y +c 3σx σy +c 3(8)上述公式中,X 为原始图像,Y 为预测图像,μx ㊁μy 分别为图像X ㊁Y 的均值,σ2x㊁σ2y分别为图像X ㊁Y 的方差,σx ,y 为图像X ㊁Y 的协方差,c 1㊁c 2㊁c 3为常数,以防止出现分母为零的情况㊂最后的损失函数可表示为L =l depth +l grad +l normal +F SSIM(9)2 仿真实验与结果分析2.1 实验环境本文在ubuntu 16.04系统下,显存大小为11GB的NVIDIAGeForce RTX 2080Ti 显卡上进行实验㊂网络结构通过主流深度学习框架pytorch1.0.0实现㊂根据网络模型结构以及显卡的性能,设置批尺寸(batch size)为8,初始学习率为0.0001,每5个epoch 衰减10%㊂采用Adam 优化器作为网络优化器,权重衰减设置为1×10-4㊂2.2 实验数据集NYU Depth V2是常用的室内深度估计数据集[29],该深度数据通过微软公司的Kinect 深度摄像头采集得到,本文采用NYU Depth V2作为实验数据集㊂原始彩色图片及对应的深度图大小为640×480,为加速训练将原始数据下采样到320×240㊂该数据集包含464个不同室内场景的原始数据,其中249个场景用于训练,215个场景用于测试㊂由于用于训练集的数据量太少,本文对采样的原始训练数据通过水平翻转㊁随机旋转㊁尺度缩放㊁色彩干扰等数据增强方式来进行数据增广㊂2.3 评价指标在单目图像深度估计方法中,通常采用以下几个评价指标来度量方法的性能㊂1)均方根误差(RMSE)E RMSE =1N ∑Ni(d i -d *i )2(10)2)平均相对误差(REL)E REL=1N∑Ni|d i -d *i |d *i(11)3)对数平均误差(LG10)E LG10=1N ∑Ni‖log 10d i -log 10d *i ‖2(12)4)不同阈值下的准确度(Max d i d *i ,d *id )i =δ<thr ,thr ={1.25,1.252,1.253}(13)式中,d i 为像素i 的预测深度值,d *i 为像素i 的真实深度值,N 为图像中像素的总和㊂以上3个误差越小表示预测深度值越接近真实深度值,代表网络性能越好;准确度越大表示在不同阈值下,预测深度值达到指定误差范围的像素点个数越多,获得的深度图精度越高㊂2.4 实验结果及分析2.4.1 实验结果1)Res2Net 的有效性验证为了验证Res2Net 的有效性,本文将基础网络㊃101㊃第1期 杨巧宁等:基于多尺度特征提取的单目图像深度估计中的编码器ResNet50替换成Res2Net50㊂为了验证网络层数不变的情况下,对Res2Net50中的通道数进行细分可以提高网络的特征提取能力,将残差块中的通道分别划分为4㊁6㊁8个不同的小组数,每个小组的通道数为26,分别表示为Res2Net50⁃4s㊁Res2Net50⁃6s㊁Res2Net50⁃8s㊂将基础网络中的Res⁃Net50依次替换成Res2Net50⁃4s㊁Res2Net50⁃6s㊁Res2Net50⁃8s㊂为了验证增加Res2Net50的层数可以提高网络的特征提取能力,将编码器中的Res2Net50⁃4s替换成Res2Net101⁃4s(Res2Net101⁃4s 为在ResNet101基础上将单个残差块中通道数划分为4个小组)㊂实验结果如表1所示㊂表1 数据集NYU Depth V2上ResNet与Res2Net的实验结果对比Table1 Comparison between ResNet and Res2Net of experimental results on the NYU Depth V2dataset模型误差准确度RMSE REL LG10δ<1.25δ<1.252δ<1.253参数量/106ResNet50[16]0.5590.1260.0550.8430.9680.99267.57 Res2Net50⁃4s0.5500.1210.0520.8500.9690.99267.71 Res2Net50⁃6s0.5370.1190.0510.8610.9690.99279.06 Res2Net50⁃8s0.5320.1190.0510.8590.9710.99390.42 Res2Net101⁃4s0.5300.1140.0500.8660.9750.99487.24 从表1结果可以看出,Res2Net50⁃4s相比Res⁃Net50在所有指标上均有提升,其中均方根误差RMSE减小了0.9%,在阈值δ<1.25的准确度上提升了0.7%㊂同样,Res2Net50⁃6s㊁Res2Net50⁃8s与ResNet50相比在误差上均有减小,在准确度上均有所提升㊂以上实验结果说明在网络层数不变的情况下,对ResNet50中残差块的通道数进行细分可以提高网络多尺度特征的提取能力,最终提高深度图的整体精度㊂另外,由Res2Net50⁃4s㊁Res2Net50⁃6s㊁Res2Net50⁃8s结果可以看出,随着划分通道小组数增加,误差越来越小,这是因为在网络层数不变的情况下,增加通道小组数可以提高网络提取多尺度特征的能力,从而提高深度图的整体精度㊂Res2Net101⁃4s相比于Res2Net50⁃4s在均方根误差上减少了2%,在阈值δ<1.25的准确度上提升了1.6%,说明在保持通道小组数不变的情况下,进一步增加网络层数可以提高Res2Net网络的特征提取能力,提高深度值精度㊂Res2Net50⁃4s相比ResNet50[16]参数量仅增加了0.14×106,但是所得深度图的整体精度明显提升,说明在网络参数一致的条件下,Res2Net相比ResNet可以学习更丰富的特征㊂Res2Net50⁃6s相比Res2Net50⁃4s参数量增加了11.35×106,Res2Net50⁃8s相比Res2Net50⁃6s参数量增加了11.36×106,说明在通道数层数保持不变的情况下,逐步增加小组数会增加整体网络的参数量,但模型获得了更高的深度图整体精度㊂ 以上实验结果表明,与ResNet50相比, Res2Net50通过通道数的划分可以提高网络的多尺度特征提取能力,并且划分的小组数越多,提取的特征越丰富,网络整体性能越好㊂而Res2Net101相比Res2Net50在保持通道小组划分一致的条件下增加网络层数,进一步提高了网络的特征提取能力,从而提高了深度图整体精度㊂在层数不变的前提下,增加通道小组数会提高网络模型的参数量㊂为了不过多地增加模型参数量,本文选择通道小组数为4的ResNet101网络作为编码器,即Res2Net101⁃4s,继续验证结构损失函数和边缘增强模块的有效性㊂2)结构相似性损失函数和边缘增强模块的有效性验证为了验证结构相似性损失函数的有效性,本文在Res2Net101⁃4s网络模型基础上增加了结构相似性损失函数,用R2S表示该网络模型;为了验证边缘增强网络的有效性,在R2S网络模型基础上又增加了边缘增强模块,用R2SE表示该网络㊂为了验证本文设计模型的有效性,将R2S㊁R2SE与基础网络中以SENet154作为编码器的模型的实验结果进行对比,如表2所示,其中SENet154表示基础网络中以SENet154作为编码器结构的模型[16]㊂ 从表2可以看出,R2S相比Res2Net101⁃4s在均方根误差上减小了1.9%,在阈值δ<1.25的准确度上提升了0.7%,说明本文加入的结构性损失函 ㊃201㊃北京化工大学学报(自然科学版) 2023年表2 不同模型在NYU Depth V2数据集上的实验结果对比Table2 Comparison of experimental results for different models on the NYU Depth V2dataset模型误差准确度RMSE REL LG10δ<1.25δ<1.252δ<1.253参数量/106SENet154[16]0.5300.1150.0500.8660.9750.993115.09 Res2Net101⁃4s0.5300.1140.0500.8660.9750.99487.24R2S0.5110.1120.0480.8730.9760.99487.24R2SE0.5080.1120.0480.8750.9770.99487.28数可以有效提高深度图的整体精度㊂R2SE相比R2S误差更小,准确度更高,说明本文加入的边缘增强模块可以提升深度图的精度㊂此外还可以看出,Res2Net101⁃4s㊁R2SE相比SENet154误差均有所减小,准确度更高,并且需要的参数量更少㊂这一方面说明了本文引入的Res2Net相比于SENet154可以更少的参数量学习更多的特征,另一方面说明了本文方法通过引入Res2Net㊁边缘增强模块和SSIM提高了网络的整体特征提取能力,获得更高质量的深度图㊂3)与其他方法的性能对比将本文算法得到的评价指标与其他单目图像深度估计方法进行对比,结果如表3所示㊂可以发现本文方法在图像深度估计上的预测误差更小,准确度更高,表明本文方法获得的深度图的精度更高㊂表3 R2SE在NYU Depth V2数据集上与其他方法的实验结果比较Table3 Comparison between R2SE and other methods of ex⁃perimental results on the NYU Depth V2dataset模型误差准确度RMSE REL LG10δ<1.25δ<1.252δ<1.253文献[30]0.5550.1270.0530.8410.9660.991文献[13]0.5090.1150.0510.8280.9650.992文献[16]0.5300.1150.0500.8660.9750.993文献[17]0.5190.1150.0490.8710.9750.993文献[18]0.5230.1150.0500.8660.9750.993文献[19]0.5230.1130.0490.8720.9750.993文献[20]0.5280.1150.0490.8700.9740.993本文方法(R2SE)0.5080.1120.0480.8750.9770.994 2.4.2 可视化分析为了验证本文方法的有效性,选择4组图像进行实验,对不同方法得到的深度图以图像形式呈现,比较主观效果,如图6所示㊂ 从图像一实验结果可以看出,本文方法相比基础网络在两侧书柜上具有更清晰的分层,可以识别出书柜每层的上下轮廓和左右轮廓,而且颜色更加接近真实深度值㊂在电视结构上,本文方法识别的结构相比基础网络具有更清晰的上下轮廓,而且电视的整体颜色更浅,更加接近真实深度值㊂从图像二实验结果可以看出,本文方法相比基础网络可以提取更清晰的电脑轮廓,更加接近真实深度图㊂对于上方书柜,本文方法得到的深度图相比基础网络具有更清晰的分层结构,以及更多的细节信息㊂从图像三㊁图像四的实验结果可以看出,本文方法预测的远处墙壁的误差更小,更加接近真实的深度图㊂综上可知,本文方法相比基础网络可提取更多的细节特征与多尺度特征,得到更加精确的深度图㊂3 结论本文提出了一种基于多尺度特征提取的单目图像深度估计方法,该方法以Res2Net作为特征提取器,可以提取图像中更丰富的多尺度特征;引入的边缘增强模块有效解决了网络训练过程中边缘像素丢失问题;在损失函数中引入结构相似性损失函数提高了网络学习局部特征的能力㊂在NYU Depth V2室内数据集上的实验结果显示,本文提出的R2SE 比基础网络中的SENet154在均方根误差上减小了2.2%,同时在阈值δ<1.25的准确度上提升了0.9%㊂表明本文所提方法通过引入Res2Net㊁边缘增强模块和结构相似性损失函数提高了网络的特征提取能力,可得到具有更多物体结构信息的深度图,提升了深度图的整体精度㊂㊃301㊃第1期 杨巧宁等:基于多尺度特征提取的单目图像深度估计图6 在NYU Depth V2数据集上的可视化结果Fig.6 Visualization of results on the NYU Depth V2dataset参考文献:[1] 王欣,伍世虔,邹谜.基于Kinect的机器人采摘果蔬系统设计[J].农机化研究,2018,40(10):199-202,207.WANG X,WU S Q,ZOU M.Design of robot pickingfruit and vegetable system based on with Kinect sensor[J].Journal of Agricultural Mechanization Research,2018,40(10):199-202,207.(in Chinese) [2] 曾仕峰,吴锦均,叶智文,等.基于ROS的无人驾驶智能车[J].物联网技术,2020,10(6):62-63,66.ZENG S F,WU J J,YE Z W,et al.Driverless intelli⁃gent vehicle based on ROS[J].Internet of Things Tech⁃nologies,2020,10(6):62-63,66.(in Chinese) [3] OLIVA A,TORRALBA A.Modeling the shape of thescene:a holistic representation of the spatial envelope[J].International Journal of Computer Vision,2001,42(3):145-175.[4] 冯桂,林其伟.用离散分形随机场估计图像表面的粗糙度[C]∥第八届全国多媒体技术学术会议.成都,1999:378-381.FENG G,LIN Q ing DFBR field to estimate theroughness of image surface[C]∥The8th National Con⁃ference on Multimedia Technology.Chengdu,1999:378-381.(in Chinese)[5] SAXENA A,SUN M,NG A Y.Make3D:learning3Dscene structure from a single still image[J].IEEE Trans⁃actions on Pattern Analysis&Machine Intelligence,2009,31(5):824-840.[6] FURUKAWA Y,HERNÁNDEZ C.Multi⁃view stereo:atutorial[J].Foundations and Trends®in ComputerGraphics and Vision,2013,9(1-2):1-148. [7] BAIG M H,TORRESANI L.Coupled depth learning[C]∥2016IEEE Winter Conference on Applications of Comput⁃er Vision(WACV).Lake Placid,2016.[8] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Ima⁃genet classification with deep convolutional neural net⁃works[J].Communications of the ACM,2017,60(6):84-90.[9] EIGEN D,PUHRSCH C,FERGUS R.Depth map pre⁃diction from a single image using a multi⁃scale deep net⁃work[C]∥Proceedings of the27th International Confer⁃ence on Neural Information Processing Systems(ICONIPS2014).Montreal,2014.[10] EIGEN D,FERGUS R.Predicting depth,surface nor⁃mals and semantic labels with a common multi⁃scaleconvolutional architecture[C]∥2015IEEE InternationalConference on Computer Vision(ICCV).Santiago,2015.[11] LAINA I,RUPPRECHT C,BELAGIANNIS V,et al.Deeper depth prediction with fully convolutional residualnetworks[C]∥20164th International Conference on3DVision(3DV).Stanford,2016.㊃401㊃北京化工大学学报(自然科学版) 2023年。
一种基于显著性的多尺度图像融合模型

A S a l i e n c y ・ Ba s e d Mu l t i — s c a l e I ma g e Fu s i o n M o d e l
LI Y un — q i
( Ec o n o mi c I n f o r ma t i o n Ce n t e r o f J i l i n Pr o v i n c e,Ch a n g c h u n 1 3 0 0 6 1 ,C h i n a )
第5 1 卷
第 2期
吉 林 大 学 学 报 (理 学 版 )
J o u r n a l o f J i l i n Un i v e r s i t y( S c i e n c e Ed i t i o n )
Vo L 5 1 No . 2
Ma r 20 1 3
2 )不能引入影 响肉眼观察或影 响下一步计算 机处理 的不一致 性 ; 3 )具有平移不变 性和旋转不变性 .
目前 的融合 算法 按融 合层 次可 归 结为像 素 级 、特 征级 和决 策级 3 类 ] .像 素级 的图像融 合方 法 又
可 分为 空域类 和 频域类 两种 [ 2 ] ,空域类 包 括最 大值法 、最小值 法 和 P C A法 等 ; 而频 域类 相对 于空域 类
2 0 1 3年 3月
一
种 基 于 显 著 性 的 多 尺 度 图 像 融 合 模 型
李 蕴 奇
( 吉 林 省 经 济 信 息 中心 , 长春 1 3 0 0 6 1 )
摘要 : 提 出一种基 于显著 性 的 多尺 度 图像 融合 模 型.先 利用 轮 廓波 变换 将 输入 图像 分 解 成子 图序 列 ,然 后计算 每 幅子 图像 的 区域 显著性 ,并选 取 显著 性 大 的参 数 作 为最 终 融合 参 数 ,最 后通 过反 变换获 得 融合 图像 ,图像 的 显著性 通过 谱 冗余 法获 得.实验 结果 表 明,该 方 法较 传
基于深度学习的显著性检测算法研究

基于深度学习的显著性检测算法研究近年来,随着深度学习技术的不断发展和应用场景的不断扩大,基于深度学习的显著性检测算法也逐渐成为了研究热点之一。
本文将介绍深度学习在显著性检测领域的应用,并探讨一些目前常见的算法。
一、深度学习在显著性检测领域的应用深度学习是一种通过对多层神经网络进行训练从而提高模型性能的机器学习方法。
在显著性检测领域,深度学习可以通过对大量图像数据进行训练,从而提高显著性特征的提取和判别能力。
深度学习在显著性检测领域的应用主要有以下几个方面:1.特征提取:深度神经网络可以通过多个卷积层和池化层对输入图像进行特征提取,从而提高显著性检测算法的性能。
2.判别模型:深度学习可以通过多层全连接层进行分类和判别,从而对不同图像区域的显著性进行判别。
3.多任务学习:深度神经网络可以同时学习多个任务,如显著性检测和目标识别,从而提高算法的综合性能。
二、基于深度学习的显著性检测算法1.基于全卷积网络的显著性检测算法全卷积网络是一种常用的深度学习模型,其可以通过卷积和上采样操作实现输入图像和输出特征图的一一映射。
在显著性检测领域,基于全卷积网络的算法可以通过对输入图像进行多次卷积和上采样操作,从而实现对图像显著性区域的提取和判别。
该算法的优点在于模型可以通过不同层次的特征提取对显著性图像进行较为准确的定位,而且算法的参数比较少,运行速度较快。
2.基于循环神经网络的显著性检测算法循环神经网络是一种具有循环结构的神经网络,其可以通过对时间序列信号的学习和预测,实现对不同时间段内的数据判别。
在显著性检测领域,基于循环神经网络的算法可以通过对不同图像区域之间的时序关系进行编码和解码,从而实现对图像显著性区域的提取和定位。
该算法的优点在于可以对图像区域之间的时序关系进行较为准确的处理,从而提高算法的精度和鲁棒性。
3.基于注意力机制的显著性检测算法注意力机制是一种模仿人类视觉注意力机制的深度学习方法,其可以通过对输入图像中的显著性区域进行自适应加权,从而实现对显著性图像区域的提取和判别。
多尺度特征多径自适应复用的显著性目标检测

多尺度特征多径自适应复用的显著性目标检测
徐温程;周之平;程家睿;盖杉
【期刊名称】《计算机应用研究》
【年(卷),期】2023(40)2
【摘要】由于忽略了对多尺度特征的提取,以及不同层次特征之间的差异,显著性目标检测仍然存在预测结构不完整、细节丢失的问题。
为了解决这些问题,提出了一个新的显著性检测模型M3Net。
该网络主要由多尺度特征自适应融合模块和循环反馈聚合模块组成。
多尺度特征自适应融合模块旨在自适应地捕捉和聚合不同层次的多尺度特征。
循环反馈聚合模块组成可以在迭代过程中对不同层次特征聚合的同时,有效地防止特征的稀释。
在五个基准数据集上的实验结果表明,该网络在F_(β)、E_(m)、MAE三种评价指标上优于十种现有网络。
在DUT-OMRON数据集
上,F_(β)指标比排名第二的显著性检测模型提高了0.4%,E_(m)指标提高了0.3%;在ECSSD数据集上,Fβ指标比排名第二的显著性检测模型提高了0.2%,E m指标提高了0.3%,同时网络还具有优秀的速度表现。
【总页数】6页(P628-633)
【作者】徐温程;周之平;程家睿;盖杉
【作者单位】南昌航空大学信息工程学院
【正文语种】中文
【中图分类】TP391
【相关文献】
1.多尺度特征提取和多级别特征融合的显著性目标检测方法
2.多尺度特征提取和多级别特征融合的显著性目标检测方法
3.多尺度特征金字塔网格的显著性目标检测
4.基于多尺度特征解码网络的RGB显著性目标检测
5.多尺度特征深度复用的显著性目标检测算法
因版权原因,仅展示原文概要,查看原文内容请购买。
基于多尺度特征混合注意力机制的连续帧深度估计

基于多尺度特征混合注意力机制的连续帧深度估计
连续帧深度估计是计算机视觉中一个重要的任务,旨在从连续的图像序列中推测出场景的深度信息。
基于多尺度特征混合注意力机制的方法是近年来提出的一种用于解决这一问题的有效方法。
在这种方法中,首先将输入的连续帧图像通过卷积神经网络提取特征。
为了捕捉不同尺度的特征信息,常常会采用多层的卷积网络来提取多尺度的特征图。
然后,通过引入注意力机制来对不同尺度的特征进行加权融合。
注意力机制的目的是给予重要的特征更多的权重,而给予不重要的特征更少的权重。
一种常用的实现方式是使用自注意力机制,通过计算特征图中的相似度来确定每个位置的权重。
然后,将不同尺度的特征按照计算得到的权重进行加权融合,以得到最终的深度估计结果。
通过引入多尺度特征混合注意力机制,可以充分利用不同尺度的特征信息,并且能够自适应地调整不同尺度特征的权重,从而提高深度估计的准确性和鲁棒性。
实验证明,这种方法可以在连续帧深度估计任务上取得较好的性能。
总结来说,基于多尺度特征混合注意力机制的连续帧深度估计方法通过引入注意力机制对不同尺度的特征进行加权融合,以提高深度估计的准确性和鲁棒性。
这种方法在实际应用中具有广泛的潜力,并且可以进一步发展和改进。
图像处理中的拉普拉斯金字塔与显著性检测

图像处理中的拉普拉斯金字塔与显著性检测在图像处理中,拉普拉斯金字塔(Laplacian Pyramid)和显著性检测(Salient Object Detection)是两个非常重要的概念。
他们分别对于图像处理和计算机视觉有着极大的意义。
拉普拉斯金字塔是指一种多尺度表示方法,常用于图像的压缩和降采样。
它的实现方式是通过连续的高斯模糊和下采样操作,得到一组图像金字塔(Gaussian Pyramid)。
这组金字塔包含了原图像在不同尺度下的低通信息。
而拉普拉斯金字塔则是由一组差分图像构成的,差分图像即为高斯金字塔中每一层图像减去其下一层图像的上采样后的结果。
这种差分操作可以得到每一层的高频信息。
利用拉普拉斯金字塔可以对图像进行多层次的处理,从而提高图像处理的效果。
例如可以利用拉普拉斯金字塔实现图像锐化、增强等操作。
同时它也在图像压缩、图像拼接、视频编解码等领域得到了广泛应用。
另一方面,显著性检测是指在图像中寻找最具显著性的目标。
这种目标通常是指在图像中具有明显特征,能够吸引注意力的目标。
显著性检测领域的研究发展非常迅速,它被广泛应用在人类视觉注意机制模拟、物体识别、图像检索等领域。
现有的显著性检测研究主要基于两种不同方式,即自下而上(bottom-up)方法和自上而下(top-down)方法。
自下而上方法是指根据图像中像素的一些低级特征,如颜色、亮度、纹理等,来计算其显著性。
自上而下方法则侧重于使用先验知识以及高级特征,如物体的形状、语义信息来进行计算。
在基于自下而上方法的显著性检测中,通常会利用拉普拉斯金字塔来实现多尺度处理,以获取更加丰富的特征信息。
通过对不同尺度下的图像进行处理,可以更好地捕捉到图像中的细节和纹理信息。
此外,在计算显著图时,拉普拉斯金字塔可以帮助我们对图像进行加权,使得不同尺度下的图像特征能够得到更好的利用。
总之,拉普拉斯金字塔和显著性检测是图像处理和计算机视觉领域中非常重要的概念。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于多尺度深度特征的视觉显著性
视觉显著性在认知和计算科学是一个基本的问题,包括计算机视觉。在本文中,我们发现一
个高质量的视觉显著性模型可以使用深度卷积神经网络抽取多尺度特征来学习,这些在视觉
识别工作中已经有很多成功的例子。为了学习显著性模型,我们提出一种为了在三个不同的
尺度提取的特征可以和CNN的顶层充分连接的神经网络架构。接着我们提出了一个细化方
法来加强显著性结果的空间一致性。最后,融合多个显著图计算为图像分割的不同水平可以
更好的促进性能,收益率显著图比从单一分割产生的图像要好。为了促进视觉显著模型的进
一步研究和评价,我们也建立一个新的拥有4447张挑战性图片的大型数据库及其注释。实
验结果表明,我们提出的方法在所有公共基准能够实现最先进的性能,在MSRA-B数据集和我
们的新数据集(HKU-IS)改善F-Measure的效果分别为5.0%和13.2%,降低了这两个数据集平均
绝对误差分别为5.7%和35.1%。
1.介绍
总结,这篇文章有以下贡献:
一个新的视觉显著模型被提出用于从一个拥有多个完全连接层的深度神经网络的嵌套
的窗口将多尺度CNN特征提取。用于显著性估计的深度神经网络是可以用一组标记的显著
图区域来训练的。
一个完整的显著性框架是由进一步整合我们的用空间一致性模型和多级图像分割基于
CNN的显著性模型开发而成的。
HKU-IS是用来显著性模型研究和评估而创建的一个新的具有挑战的数据集。这个数据集是对外
公开的。我们提出的显著性模型已经成功地验证了这个新数据集和所有现有的数据集。
2.相关工作
视觉显著计算可以分为自底向上和自顶向下的方法或两者的混合。自底向上的模型主要是基于c
enter-surround方案,通过低级视觉属性的线性或非线性结合来计算主显著图,如颜色、强度、结构和
方向。自上而下的方法通常需要高层知识的整合,如在计算过程中目标和人脸识别检测。最近,设计
区别特征和显著先验的工作已经取得了很大成效。大多数方法基本上都遵循区域对比框架,旨在设计
更好的描述图像区域与其周边地区的特殊性的特性。在【26】中,三个新奇特征与条件随机场(
)结合。在【33】中提出了一个基于低秩矩阵恢复的模型用于整合底层视觉特征与高层
次先验。
显著先验和中心先验与边界先验一样被广泛应用于启发结合低级线索的和改善显著估计。这些显
著先验直接结合其他显著的线索权重或者用于特征学习算法。虽然这些经验对于很多图像来说可以改
变显著结果,但当显著目标偏离中心或明显在图像边界重叠就会失败。我们应该注意到目标位置线索
和基于背景的背景模型在我们的框架中并没有被忽视,而是一直通过CNN的多尺度特征提取和神经
网络训练含蓄地纳入进我们的模型。
最近,CNNs在视觉识别工作中取得了很多成就,包括图像分类、目标检测和场景解析。Dona
hue等在【11】中指出从ImageNet数据集训练的Krizhevsky的CNN提取的特征可以转化成一般的
任务。Razavian等在【30】中拓展他们的结果并得出深度学习和CNNs对于所有的视觉识别任务可
以成为一个强有力的候选的结论。然而,CNN特征并没有探索视觉显著性研究主要是因为在【11,30】
考虑到使用相同的框架并不能解决显著问题。这是与周边区域之间的差别,而不是包含在一个图像里
应该学会显著预测的内容。本文提出了一个简单但非常有效的神经网络结构使深度CNN特性适用于
显著建模和显著目标检测。
2.显著推理和深度特征
如图1所示,我们的基于视觉显著的深度特征的体系结构在三个深度CNNs上包含一个输出层
和两个完全连接隐含层。我们的显著模型需要一个输入图像分解为一组不重叠的区域,每一个都有内
部统一的显著值。三个深度CNNs负责对尺度特征提取。对于每个图像区域,他们从三个嵌套和越来
越大的矩形窗口执行自动特征提取,分别考虑的边界框的区域,其直接相邻的边界框区域和整个图像。
从三个CNNs抽取特征被送入两个完全连接层,每一层包括300个神经元。第二个完全连接层的结
果被送入执行产生一个分布在二进制显著标签的双向回归的输出层。当一个输入图片产生一个显著
图,我们运行显著模型反复训练这张图片的所有区域使这些区域产生一个显著分数。显著分数进一步
转移到该区域的所有像素。
2.1多尺度特征抽取
我们为CNN特征提取定义矩形区域
显著计算有二个重要线索,一是一个相对于图像其余部分的区域的唯一性(独特性)的程度
二是一个图像区域在整个图像的位置。
为了满足这些要求,
2.2神经网络训练