目标检测综述
《2024年特殊天气条件下的目标检测方法综述》范文

《特殊天气条件下的目标检测方法综述》篇一一、引言随着现代科技的发展,目标检测技术在各个领域得到了广泛应用,特别是在复杂多变的天气条件下。
特殊天气条件如雾、雨、雪、霾等会对目标检测的准确性和稳定性造成影响。
本文将就特殊天气条件下的目标检测方法进行综述,介绍目前主要的检测技术和策略,以及这些技术所面临的挑战与未来发展。
二、特殊天气条件下的目标检测技术1. 雾天目标检测雾天由于能见度低,导致图像中的目标信息模糊。
针对这种情况,研究人员通过引入深度学习的方法,训练出能够处理低能见度图像的模型。
同时,结合图像增强的技术,如去雾算法和图像对比度增强,以提高图像的清晰度,从而提高目标检测的准确性。
2. 雨天目标检测雨天由于雨滴对摄像头的遮挡和反射,导致图像中目标的边缘模糊。
针对这一问题,研究者采用基于特征融合的方法,将雨滴造成的模糊特征与目标特征进行融合,以提高检测的准确性。
此外,利用深度学习模型对雨滴造成的噪声进行学习,并设计相应的去噪算法也是有效的手段。
3. 雪天和霾天目标检测雪天和霾天由于大气中颗粒物较多,导致图像中的目标信息被遮挡或模糊。
针对这种情况,研究者采用基于多尺度特征融合的方法,通过提取不同尺度的特征信息,从而更加准确地定位目标位置。
同时,深度学习的方法也被广泛用于这些场景下的目标检测,以提高目标的可见度和辨识度。
三、挑战与未来发展趋势特殊天气条件下的目标检测仍面临许多挑战。
如复杂环境下的目标识别准确度问题、图像质量的改善、噪声抑制等。
未来发展方向将集中在以下几个方面:1. 深度学习与多模态信息融合:随着深度学习技术的不断发展,利用多模态信息融合技术来提高特殊天气条件下的目标检测准确率将是一个重要的发展方向。
通过结合多种传感器信息,如雷达、激光等,提高目标的辨识度和定位精度。
2. 图像增强与去噪技术:针对特殊天气条件下的图像质量下降问题,研究更加先进的图像增强和去噪技术是关键。
通过改进算法和优化模型参数,提高图像的清晰度和对比度,从而提升目标检测的准确性。
《2024年特殊天气条件下的目标检测方法综述》范文

《特殊天气条件下的目标检测方法综述》篇一一、引言随着现代科技的发展,目标检测技术在各种场景中得到了广泛的应用。
然而,在特殊天气条件下,如雾、霾、雨、雪等,目标检测的准确性和稳定性常常会受到挑战。
因此,研究特殊天气条件下的目标检测方法显得尤为重要。
本文将对特殊天气条件下的目标检测方法进行综述,以期为相关领域的研究和应用提供参考。
二、特殊天气条件对目标检测的影响特殊天气条件主要包括雾、霾、雨、雪等天气情况。
这些天气状况会对图像的采集和传输造成影响,从而影响目标检测的准确性和稳定性。
例如,雾天会导致图像对比度降低,目标特征模糊;雨天则可能造成图像模糊、噪点增多等问题。
因此,在特殊天气条件下,如何提高目标检测的准确性和稳定性成为了研究的重点。
三、特殊天气条件下的目标检测方法针对特殊天气条件下的目标检测问题,研究者们提出了多种方法。
1. 基于深度学习的目标检测方法深度学习技术在目标检测领域取得了显著的成果。
在特殊天气条件下,研究者们利用深度学习技术提取目标的特征信息,并通过训练模型提高目标检测的准确性和稳定性。
例如,可以通过使用改进的卷积神经网络(CNN)模型来提取目标的特征信息,从而提高在雾、霾等天气条件下的目标检测效果。
2. 基于图像增强的目标检测方法图像增强技术可以改善图像的质量,从而提高目标检测的准确性。
在特殊天气条件下,研究者们可以通过图像增强的方法来增强图像的对比度和清晰度,以便更好地进行目标检测。
例如,可以采用去雾算法和去噪算法来改善图像质量,从而减少特殊天气对目标检测的影响。
3. 基于多源信息融合的目标检测方法多源信息融合技术可以整合多种传感器数据来提高目标检测的准确性。
在特殊天气条件下,可以利用雷达、激光等传感器数据与视觉数据相结合,从而提高目标检测的准确性和稳定性。
例如,可以通过将雷达数据与视觉数据进行融合来提高在雨雪等恶劣天气条件下的目标检测效果。
四、不同方法的比较与评价不同方法在特殊天气条件下的目标检测中各有优劣。
目标检测综述

如上图所示,传统目标检测的方法一般分为三个阶段:首先在给定的图像上选择一些候选的区域,然后对这些区域提取特征,最后使用训练的分类器进行分类。
下面我们对这三个阶段分别进行介绍。
(1) 区域选择这一步是为了对目标的位置进行定位。
由于目标可能出现在图像的任何位置,而且目标的大小、长宽比例也不确定,所以最初采用滑动窗口的策略对整幅图像进行遍历,而且需要设置不同的尺度,不同的长宽比。
这种穷举的策略虽然包含了目标所有可能出现的位置,但是缺点也是显而易见的:时间复杂度太高,产生冗余窗口太多,这也严重影响后续特征提取和分类的速度和性能。
(实际上由于受到时间复杂度的问题,滑动窗口的长宽比一般都是固定的设置几个,所以对于长宽比浮动较大的多类别目标检测,即便是滑动窗口遍历也不能得到很好的区域)(2) 特征提取由于目标的形态多样性,光照变化多样性,背景多样性等因素使得设计一个鲁棒的特征并不是那么容易。
然而提取特征的好坏直接影响到分类的准确性。
(这个阶段常用的特征有 SIFT、 HOG 等)(3) 分类器主要有 SVM, Adaboost 等。
总结:传统目标检测存在的两个主要问题:一是基于滑动窗口的区域选择策略没有针对性,时间复杂度高,窗口冗余;二是手工设计的特征对于多样性的变化并没有很好的鲁棒性。
对于传统目标检测任务存在的两个主要问题,我们该如何解决呢?对于滑动窗口存在的问题, region proposal 提供了很好的解决方案。
region proposal (候选区域) 是预先找出图中目标可能出现的位置。
但由于 regionproposal 利用了图像中的纹理、边缘、颜色等信息,可以保证在选取较少窗口(几千个甚至几百个) 的情况下保持较高的召回率。
这大大降低了后续操作的时间复杂度,并且获取的候选窗口要比滑动窗口的质量更高(滑动窗口固定长宽比) 。
比较常用的 region proposal 算法有selective Search 和 edge Boxes ,如果想具体了解 region proposal 可以看一下PAMI2015 的“What makes for effective detection proposals?”有了候选区域,剩下的工作实际就是对候选区域进行图像分类的工作 (特征提取 +分类)。
目标检测难点问题最新研究进展综述

目标检测作为计算机视觉的基础任务之一,需要对物体进行分类,并预测其所在位置。
目标检测广泛应用于人脸检测、航空图像检测、视频监控及自动驾驶等领域。
随着深度卷积神经网络在目标检测[1]领域的应用,当前目标检测算法相较于传统方法已经取得了相当不错的效果,但是在一些特殊的检测问题上,其检测精度仍然不能满足应用需求,目标检测研究仍然存在大量的挑战和难题[2-6]。
传统的目标检测算法[7-8]主要有三个步骤:滑动窗口遍历整个图像产生候选框,提取候选框特征,使用支持向量机(Support Vector Machine,SVM[9])等分类器对候选框进行分类。
传统方法存在时间复杂度高、冗余大和鲁棒性差等问题。
随着卷积神经网络的应用,这些问题逐渐得到了解决。
近年来,目标检测算法主要分为两大类:基于边框回归的一阶段网络和基于候选区域的两阶段网络。
一阶段网络在产生候选框的同时进行分类和回归,如YOLO[10]系列和SSD[11]系列网络。
而两阶段网络首先产生区域候选框,然后提取每个候选框的特征,产生最终的位置框并预测其类别,代表性网络有R-CNN[12]、Fast R-CNN[13]和Faster R-CNN[14]。
在目标检测研究的综述[15]方面,Chahal等人[16]主要探讨了一阶段和两阶段各种检测算法、质量指标、速度/目标检测难点问题最新研究进展综述罗会兰,彭珊,陈鸿坤江西理工大学信息工程学院,江西赣州341000摘要:目标检测是计算机视觉领域最基本的问题之一,已经被广泛地探讨和研究。
虽然近年来基于深度卷积神经网络的目标检测方法使得检测精度有了很大提升,但是在实际应用中仍然存在较多挑战。
综述了目标检测领域的最新研究趋势,针对不同的目标检测挑战和难题:目标尺度变化范围大、实时检测问题、弱监督检测问题和样本不均衡问题,从四个方面综述了最近的目标检测研究方法,分析了不同算法之间的关系,阐述了新的改进方法、检测过程和实现效果,并详细比较了不同算法的检测精度、优缺点和适用场景。
单目3d目标检测综述

单目3d目标检测综述随着计算机视觉领域的发展和深度学习技术的推广,单目3D目标检测技术逐渐受到广泛关注。
本文将对单目3D目标检测进行综述,介绍其基本原理、研究方法、应用场景以及存在的问题与挑战。
1. 单目3D目标检测的基本原理单目3D目标检测是指利用单个摄像头获取的图像数据,通过计算机算法推断出物体的三维空间信息。
其基本原理是基于几何学和计算机视觉技术,通过对物体的外观、轮廓以及深度信息进行分析和建模,推断出物体的三维位置、姿态和尺寸等参数。
2. 单目3D目标检测的研究方法在单目3D目标检测的研究中,主要有以下几种方法:- 基于深度学习的方法:如基于卷积神经网络(CNN)的方法,通过训练网络来学习目标的特征表示,从而实现目标的识别和定位。
- 基于几何学的方法:如基于三角测量原理的方法,通过对图像中的特征点进行距离计算和姿态估计,实现目标的三维重构和位置定位。
- 基于特征匹配的方法:如基于SIFT、SURF等特征点检测和匹配算法,通过在图像中匹配物体的特征点,实现目标的姿态估计和定位。
3. 单目3D目标检测的应用场景单目3D目标检测技术在许多领域具有广泛的应用前景,主要包括以下几个方面:- 自动驾驶:通过对道路上的车辆、行人等目标进行三维检测和跟踪,实现自动驾驶系统的感知和决策功能。
- 增强现实:通过对现实世界中的物体进行三维建模和定位,实现虚拟物体的叠加和交互,提升用户的视觉体验。
- 机器人导航:通过对室内环境中的物体进行三维识别和定位,实现机器人的智能导航和环境感知。
4. 单目3D目标检测存在的问题与挑战尽管单目3D目标检测技术在各个领域已经取得了一定的进展,但仍然存在一些问题和挑战:- 视角变化:由于单目摄像头的视角有限,对于大角度的目标可能存在视觉信息不足的问题,导致三维建模和位置估计的准确性下降。
- 遮挡和混淆:在实际场景中,目标常常会被其他物体遮挡或者出现相似的外观,这会给目标的识别和定位带来困难。
《2024年特殊天气条件下的目标检测方法综述》范文

《特殊天气条件下的目标检测方法综述》篇一一、引言随着计算机视觉技术的快速发展,目标检测技术在多种场景下都取得了显著的成果。
然而,在特殊天气条件下,如雾天、雨天、雪天等,目标的检测往往面临极大的挑战。
本文旨在全面综述特殊天气条件下的目标检测方法,分析其技术特点及适用性,以期为未来的研究提供有益的参考。
二、雾天目标检测在雾天环境中,由于大气中悬浮微粒的散射作用,图像的对比度和清晰度都会降低,从而增加了目标检测的难度。
针对这一问题,研究者们提出了多种方法。
其中,基于深度学习的去雾技术与目标检测技术相结合的方法成为研究热点。
通过深度学习模型对雾天图像进行去雾处理,提高图像质量,从而提升目标检测的准确率。
此外,还有一些方法通过构建雾天特定场景下的目标检测模型,提高对雾天环境的适应性。
三、雨天目标检测雨天环境下,雨水会在摄像头镜头上形成水珠或水雾,导致图像模糊、失真。
针对这一问题,研究者们提出了基于雨滴模型的目标检测方法。
这种方法通过构建雨滴模型,模拟雨天环境下的图像变化,从而对目标进行准确检测。
此外,还有一些方法通过改进目标检测算法的鲁棒性,使其在雨天环境下仍能保持良好的性能。
四、雪天目标检测雪天环境下,由于雪花的遮挡和反射作用,图像的对比度和亮度都会发生变化,给目标检测带来困难。
针对雪天环境,研究者们提出了基于颜色和纹理特征的目标检测方法。
这些方法通过提取目标的颜色和纹理特征,在雪天环境下仍能实现较为准确的目标准确率。
同时,还有一些方法通过改进算法的适应性,使其在雪天环境下具有更好的性能。
五、技术特点及适用性分析特殊天气条件下的目标检测方法具有以下技术特点:一是需要结合特殊天气环境的特点进行模型构建和算法优化;二是需要提高算法的鲁棒性,以适应不同天气环境下的变化;三是需要充分利用目标的颜色、纹理等特征信息进行准确检测。
在适用性方面,不同方法适用于不同的特殊天气环境和场景。
因此,在实际应用中,需要根据具体场景和需求选择合适的目标检测方法。
《2024年特殊天气条件下的目标检测方法综述》范文

《特殊天气条件下的目标检测方法综述》篇一一、引言随着科技的不断进步,目标检测技术在众多领域中得到了广泛应用,如自动驾驶、安防监控、无人机航拍等。
然而,在特殊天气条件下,如雨雪、雾霾、强光等,目标检测的准确性和稳定性往往面临巨大的挑战。
本文旨在综述特殊天气条件下的目标检测方法,分析其发展现状与未来趋势。
二、特殊天气条件下的目标检测技术概述特殊天气条件下的目标检测主要涉及到在恶劣环境因素影响下,通过图像处理和机器学习等技术手段,实现对目标的准确识别和定位。
这些技术主要包括基于传统图像处理的方法、基于深度学习的方法以及融合多种技术的混合方法。
(一)基于传统图像处理的方法传统图像处理方法主要依赖于图像的色彩、纹理、边缘等特征进行目标检测。
在特殊天气条件下,这些方法可能需要对图像进行预处理或增强,以改善图像质量,提高目标检测的准确性。
(二)基于深度学习的方法深度学习在目标检测领域取得了显著的成果。
基于深度学习的目标检测方法主要包括卷积神经网络(CNN)和循环神经网络(RNN)等。
这些方法能够自动提取图像中的特征,实现端到端的检测,具有较强的鲁棒性。
在特殊天气条件下,深度学习方法能够通过学习大量数据中的特征信息,提高目标检测的准确性。
(三)混合方法混合方法主要结合了传统图像处理和深度学习的优点,针对特定问题设计出具有针对性的解决方案。
这种方法能够充分利用各种技术的优势,提高目标检测的准确性和稳定性。
三、特殊天气条件下的目标检测技术分析(一)雨雪天气下的目标检测雨雪天气对目标检测的挑战主要在于图像的模糊和遮挡。
针对这一问题,可以采用去噪、增强等图像预处理方法改善图像质量。
同时,结合深度学习技术,可以自动提取出目标特征,实现准确的目标检测。
(二)雾霾天气下的目标检测雾霾天气下,能见度低、对比度差是主要的挑战。
可以通过优化图像滤波和色彩校正等方法提高图像质量。
此外,利用深度学习技术对特征进行自动提取和筛选,能够进一步提高目标检测的准确性。
《2024年基于深度学习的目标检测研究综述》范文

《基于深度学习的目标检测研究综述》篇一一、引言随着深度学习技术的快速发展,其在计算机视觉领域的应用逐渐增多。
目标检测作为计算机视觉的核心任务之一,近年来已经成为了深度学习领域研究的热点。
本文将对基于深度学习的目标检测的研究进行综述,探讨其研究进展、现有方法及挑战,并对未来研究方向进行展望。
二、目标检测概述目标检测是计算机视觉领域的一项重要任务,旨在从图像或视频中检测出特定类别的目标并实现定位。
目标检测广泛应用于无人驾驶、智能监控、智能安防等领域。
传统的目标检测方法主要依赖于特征提取和分类器设计,而基于深度学习的目标检测方法则通过深度神经网络实现特征学习和分类,具有更高的准确性和鲁棒性。
三、基于深度学习的目标检测方法3.1 基于区域的目标检测方法基于区域的目标检测方法将目标检测任务划分为多个子区域,对每个子区域进行分类和回归。
代表性的算法有R-CNN系列(R-CNN、Fast R-CNN、Faster R-CNN等),这些算法通过区域提议和卷积神经网络实现目标检测。
这些方法的优点是准确率高,但计算复杂度较高,实时性较差。
3.2 基于回归的目标检测方法基于回归的目标检测方法通过卷积神经网络直接实现目标的位置回归和类别分类。
代表性的算法有YOLO(You Only Look Once)系列和SSD(Single Shot MultiBox Detector)等。
这些算法具有较高的计算效率和实时性,适用于对速度要求较高的场景。
四、深度学习目标检测的挑战与研究方向4.1 挑战(1)小目标检测:在复杂场景中,小目标的检测难度较大,易受噪声和背景干扰的影响。
(2)实时性:对于需要实时处理的场景,如无人驾驶等,如何在保证准确性的同时提高实时性是一个挑战。
(3)跨领域应用:不同领域的数据集差异较大,如何实现跨领域应用是一个亟待解决的问题。
4.2 研究方向(1)模型优化:通过改进网络结构和算法优化,提高目标检测的准确性和实时性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、传统目标检测方法如上图所示,传统目标检测的方法一般分为三个阶段:首先在给定的图像上选择一些候选的区域,然后对这些区域提取特征,最后使用训练的分类器进行分类。
下面我们对这三个阶段分别进行介绍。
(1) 区域选择这一步是为了对目标的位置进行定位。
由于目标可能出现在图像的任何位置,而且目标的大小、长宽比例也不确定,所以最初采用滑动窗口的策略对整幅图像进行遍历,而且需要设置不同的尺度,不同的长宽比。
这种穷举的策略虽然包含了目标所有可能出现的位置,但是缺点也是显而易见的:时间复杂度太高,产生冗余窗口太多,这也严重影响后续特征提取和分类的速度和性能。
(实际上由于受到时间复杂度的问题,滑动窗口的长宽比一般都是固定的设置几个,所以对于长宽比浮动较大的多类别目标检测,即便是滑动窗口遍历也不能得到很好的区域)(2) 特征提取由于目标的形态多样性,光照变化多样性,背景多样性等因素使得设计一个鲁棒的特征并不是那么容易。
然而提取特征的好坏直接影响到分类的准确性。
(这个阶段常用的特征有SIFT、HOG等)(3) 分类器主要有SVM, Adaboost等。
总结:传统目标检测存在的两个主要问题:一是基于滑动窗口的区域选择策略没有针对性,时间复杂度高,窗口冗余;二是手工设计的特征对于多样性的变化并没有很好的鲁棒性。
二、基于Region Proposal的深度学习目标检测算法对于传统目标检测任务存在的两个主要问题,我们该如何解决呢?对于滑动窗口存在的问题,region proposal提供了很好的解决方案。
region proposal(候选区域)是预先找出图中目标可能出现的位置。
但由于region proposal 利用了图像中的纹理、边缘、颜色等信息,可以保证在选取较少窗口(几千个甚至几百个)的情况下保持较高的召回率。
这大大降低了后续操作的时间复杂度,并且获取的候选窗口要比滑动窗口的质量更高(滑动窗口固定长宽比)。
比较常用的region proposal算法有selective Search和edge Boxes,如果想具体了解region proposal可以看一下PAMI2015的“What makes for effective detection proposals?”有了候选区域,剩下的工作实际就是对候选区域进行图像分类的工作(特征提取+分类)。
对于图像分类,不得不提的是2012年ImageNet大规模视觉识别挑战赛(ILSVRC)上,机器学习泰斗Geoffrey Hinton教授带领学生Krizhevsky使用卷积神经网络将ILSVRC分类任务的Top-5 error降低到了15.3%,而使用传统方法的第二名top-5 error高达26.2%。
此后,卷积神经网络占据了图像分类任务的绝对统治地位,微软最新的ResNet和谷歌的Inception V4模型的top-5 error降到了4%以内多,这已经超越人在这个特定任务上的能力。
所以目标检测得到候选区域后使用CNN对其进行图像分类是一个不错的选择。
2014年,RBG(Ross B. Girshick)大神使用region proposal+CNN代替传统目标检测使用的滑动窗口+手工设计特征,设计了R-CNN框架,使得目标检测取得巨大突破,并开启了基于深度学习目标检测的热潮。
1. R-CNN (CVPR2014, TPAMI2015) (Region-based Convolution Networks for Accurate Object detection and Segmentation)上面的框架图清晰的给出了R-CNN的目标检测流程:(1)输入测试图像(2)利用selective search算法在图像中提取2000个左右的region proposal。
(3)将每个region proposal缩放(warp)成227x227的大小并输入到CNN,将CNN的fc7层的输出作为特征。
(4)将每个region proposal提取到的CNN特征输入到SVM进行分类。
上面的框架图是测试的流程图,要进行测试我们首先要训练好提取特征的CNN模型,以及用于分类的SVM:使用在ImageNet上预训练的模型(AlexNet/VGG16)进行微调得到用于特征提取的CNN模型,然后利用CNN 模型对训练集提特征训练SVM。
对每个region proposal缩放到同一尺度是因为CNN全连接层输入需要保证维度固定。
上图少画了一个过程——对于SVM分好类的region proposal做边框回归(bounding-box regression),边框回归是对region proposal进行纠正的线性回归算法,为了让region proposal提取到的窗口跟目标真实窗口更吻合。
因为region proposal提取到的窗口不可能跟人手工标记那么准,如果region proposal跟目标位置偏移较大,即便是分类正确了,但是由于IoU(region proposal与Ground Truth 的窗口的交集比并集的比值)低于0.5,那么相当于目标还是没有检测到。
小结:R-CNN在PASCAL VOC2007上的检测结果从DPM HSC的34.3%直接提升到了66%(mAP)。
如此大的提升使我们看到了region proposal+CNN的巨大优势。
但是R-CNN框架也存在着很多问题:(1) 训练分为多个阶段,步骤繁琐: 微调网络+训练SVM+训练边框回归器(2) 训练耗时,占用磁盘空间大:5000张图像产生几百G的特征文件(3) 速度慢: 使用GPU, VGG16模型处理一张图像需要47s。
针对速度慢的这个问题,SPP-NET给出了很好的解决方案。
2. SPP-NET (ECCV2014, TPAMI2015) (Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)先看一下R-CNN为什么检测速度这么慢,一张图都需要47s!仔细看下R-CNN框架发现,对图像提完region proposal(2000个左右)之后将每个proposal 当成一张图像进行后续处理(CNN提特征+SVM分类),实际上对一张图像进行了2000次提特征和分类的过程!有没有方法提速呢?好像是有的,这2000个region proposal不都是图像的一部分吗,那么我们完全可以对图像提一次卷积层特征,然后只需要将region proposal在原图的位置映射到卷积层特征图上,这样对于一张图像我们只需要提一次卷积层特征,然后将每个region proposal的卷积层特征输入到全连接层做后续操作。
(对于CNN来说,大部分运算都耗在卷积操作上,这样做可以节省大量时间)。
现在的问题是每个region proposal的尺度不一样,直接这样输入全连接层肯定是不行的,因为全连接层输入必须是固定的长度。
SPP-NET恰好可以解决这个问题:上图对应的就是SPP-NET的网络结构图,任意给一张图像输入到CNN,经过卷积操作我们可以得到卷积特征(比如VGG16最后的卷积层为conv5_3,共产生512张特征图)。
图中的window是就是原图一个region proposal对应到特征图的区域,只需要将这些不同大小window的特征映射到同样的维度,将其作为全连接的输入,就能保证只对图像提取一次卷积层特征。
SPP-NET使用了空间金字塔采样(spatial pyramid pooling):将每个window划分为4*4, 2*2, 1*1的块,然后每个块使用max-pooling下采样,这样对于每个window经过SPP层之后都得到了一个长度为(4*4+2*2+1)*512维度的特征向量,将这个作为全连接层的输入进行后续操作。
小结:使用SPP-NET相比于R-CNN可以大大加快目标检测的速度,但是依然存在着很多问题:(1) 训练分为多个阶段,步骤繁琐: 微调网络+训练SVM+训练训练边框回归器(2) SPP-NET在微调网络的时候固定了卷积层,只对全连接层进行微调,而对于一个新的任务,有必要对卷积层也进行微调。
(分类的模型提取的特征更注重高层语义,而目标检测任务除了语义信息还需要目标的位置信息)针对这两个问题,RBG又提出Fast R-CNN, 一个精简而快速的目标检测框架。
3. Fast R-CNN(ICCV2015)有了前边R-CNN和SPP-NET的介绍,我们直接看Fast R-CNN的框架图:与R-CNN框架图对比,可以发现主要有两处不同:一是最后一个卷积层后加了一个ROI pooling layer,二是损失函数使用了多任务损失函数(multi-task loss),将边框回归直接加入到CNN网络中训练。
(1) ROI pooling layer实际上是SPP-NET的一个精简版,SPP-NET对每个proposal使用了不同大小的金字塔映射,而ROI pooling layer只需要下采样到一个7x7的特征图。
对于VGG16网络conv5_3有512个特征图,这样所有regionproposal对应了一个7*7*512维度的特征向量作为全连接层的输入。
(2) R-CNN训练过程分为了三个阶段,而Fast R-CNN直接使用softmax替代SVM分类,同时利用多任务损失函数边框回归也加入到了网络中,这样整个的训练过程是端到端的(除去region proposal提取阶段)。
(3) Fast R-CNN在网络微调的过程中,将部分卷积层也进行了微调,取得了更好的检测效果。
小结:Fast R-CNN融合了R-CNN和SPP-NET的精髓,并且引入多任务损失函数,使整个网络的训练和测试变得十分方便。
在Pascal VOC2007训练集上训练,在VOC2007测试的结果为66.9%(mAP),如果使用VOC2007+2012训练集训练,在VOC2007上测试结果为70%(数据集的扩充能大幅提高目标检测性能)。
使用VGG16每张图像总共需要3s左右。
缺点:region proposal的提取使用selective search,目标检测时间大多消耗在这上面(提region proposal 2~3s,而提特征分类只需0.32s),无法满足实时应用,而且并没有实现真正意义上的端到端训练测试(region proposal使用selective search先提取处来)。
那么有没有可能直接使用CNN直接产生region proposal并对其分类?Faster R-CNN框架就是符合这样需要的目标检测框架。