基于深度学习的目标检测研究进展

合集下载

基于深度学习的目标检测与定位技术研究与发展趋势

基于深度学习的目标检测与定位技术研究与发展趋势

基于深度学习的目标检测与定位技术研究与发展趋势深度学习在计算机视觉领域引起了广泛的关注和迅猛的发展。

目标检测与定位是计算机视觉中的重要任务之一,其在许多领域中具有重要的应用价值。

本文将探讨基于深度学习的目标检测与定位技术的研究现状和发展趋势。

一、基于深度学习的目标检测技术目标检测是计算机视觉中的一项重要任务,旨在识别图像或视频中的特定对象,并确定其在图像中的位置。

深度学习已经成为目标检测中最为流行的方法之一。

基于深度学习的目标检测技术可以分为两大类:两阶段方法和一阶段方法。

两阶段方法是最早被提出的目标检测方法之一,其主要思想是先生成一系列候选框,然后对这些候选框进行分类和位置回归。

其中最具代表性的方法是R-CNN、Fast R-CNN和Faster R-CNN。

这些方法在目标检测的准确性上取得了显著的提升,但速度较慢,不适合实时应用。

一阶段方法是近年来涌现的新方法,其主要思想是直接通过卷积神经网络(CNN)输出目标的类别和位置。

YOLO(You Only Look Once)和SSD(Single Shot MultiBox Detector)是最具代表性的一阶段目标检测方法。

它们在速度上具有优势,适合实时应用,但准确率相对较低。

二、基于深度学习的目标定位技术目标定位是在目标检测的基础上,进一步精确定位目标在图像中的位置。

基于深度学习的目标定位技术在近年来也取得了很大的进展。

一种常用的目标定位方法是使用定位框来表示目标的位置。

这些定位框可以通过回归方法或者类似于Faster R-CNN的方法来生成。

通过将目标的位置信息也纳入训练中,可以进一步提高目标定位的准确性。

此外,还有一些基于关键点的目标定位方法,旨在通过检测目标的关键点来确定其位置。

这些关键点通常是目标具有特定结构的部分,例如人脸的眼睛、鼻子和嘴巴等。

通过检测这些关键点,可以更加准确地定位目标。

三、技术研究与发展趋势目标检测与定位技术在基于深度学习的方法下得到了长足的发展。

基于深度学习的实时目标检测与识别算法研究

基于深度学习的实时目标检测与识别算法研究

基于深度学习的实时目标检测与识别算法研究近年来,随着计算机视觉领域的不断发展,基于深度学习的目标检测和识别算法越来越受到人们的关注。

这些算法以较高的准确率和较低的误报率在图像和视频领域中大放异彩,被广泛应用于人脸识别、自动驾驶、智能安防等领域。

本文将深入探讨基于深度学习的实时目标检测与识别算法的研究现状和进展。

一、深度学习在目标检测和识别中的应用传统的目标检测和识别算法主要采用传统计算机视觉技术,例如特征提取、分类器等方法,在图像或视频中实现目标的定位和分类。

然而,这种方法的准确率和效率受到提取的特征和选择的分类器等因素的影响,存在诸多局限性。

相比之下,深度学习算法以极强的适应性和泛化性著称,能够在大规模数据集中自主学习和提取特征,从而实现在图像和视频中的目标检测和识别。

基于深度学习的目标检测和识别算法主要分为两类:一是基于区域提取的算法,例如R-CNN、Fast R-CNN、Faster R-CNN等;二是基于回归的算法,例如YOLO和SSD等。

二、基于区域提取的算法基于区域提取的算法能够实现较高的检测精度,它们主要由三个组成部分构成:候选区域提取、卷积神经网络(CNN)特征提取和分类器。

其中,候选区域提取的目的是确定图像中可能存在目标的位置和尺寸,这些区域由一些算法自主提取,例如选择性搜索(Selective Search)等。

在确定好候选区域后,这些区域经过CNN网络进行特征提取,在最后的分类器中进行图像分类。

这类算法与传统的目标检测方法相比,能够在一定程度上提高检测精度和泛化性,然而速度较慢,难以满足实时目标检测的需求。

三、基于回归的算法基于回归的算法能够在保持较高检测精度的同时,大大提高实时目标检测的速度。

它们主要采用单次前向传递的方式,与区域提取方法不同,能够基于整个图像完成目标的识别和定位。

例如,YOLO(v3)算法采用了Darknet-53网络进行特征提取,通过较小的神经网络输出预测框和类别得分信息,对图像中的目标进行定位和分类。

基于深度学习的显著性目标检测技术研究

基于深度学习的显著性目标检测技术研究

基于深度学习的显著性目标检测技术研究随着计算机技术的不断发展,人们对计算机视觉的要求也越来越高。

在计算机视觉领域,显著性目标检测技术是一个非常重要的研究方向,它可以识别图像中最具有显著性的目标,为其他任务(如物体识别、图像搜索等)提供帮助。

随着深度学习技术的发展,基于深度学习的显著性目标检测技术也在不断地提升。

一、显著性目标检测技术的研究背景在传统的图像处理技术中,显著性目标检测通常使用局部特征提取的算法。

但是,这种算法表现出来的准确性和鲁棒性有限,因此无法满足大规模图像数据的要求。

深度学习作为一种新兴的技术,可以通过深度学习模型自动学习图像特征,提升图片的识别准确率。

因此,基于深度学习的显著性目标检测技术得到了研究。

二、基于深度学习的显著性目标检测技术的优势基于深度学习的显著性目标检测技术相比传统技术有以下优势:1、自动学习能力强:深度学习模型可以自动学习图像特征和模式,而不需要人为的干预。

2、检测精度高:在一些公开数据集上,基于深度学习的显著性目标检测技术取得了更好的效果,可以更为准确地检测到目标。

3、适用范围广:基于深度学习的显著性目标检测技术适用于不同类型的图像、多种尺度和不同角度的目标检测。

三、基于深度学习的显著性目标检测技术的研究进展随着深度学习技术的不断发展,基于深度学习的显著性目标检测技术也在不断地提升。

以下是一些研究进展:1、深度学习网络的选择:最初基于深度学习的显著性目标检测技术主要使用深度卷积神经网络 (CNN)。

随着研究的深入,一些研究人员提出了基于循环神经网络 (RNN)等其他类型的深度学习网络。

这些研究发现不同类型的深度学习网络在不同的数据集上可以达到更好的效果。

2、多尺度融合技术:随着目标尺寸和角度的变化,图像的显著性目标也会发生变化。

因此,多尺度融合技术已经成为基于深度学习的显著性目标检测中不可缺少的技术。

3、结合其他技术:由于深度学习模型的训练需要大量的数据和时间,一些研究人员将深度学习模型与其他传统的检测技术进行结合,以实现更好的表现。

基于深度学习的目标检测最新研究进展总结概述

基于深度学习的目标检测最新研究进展总结概述

基于深度学习的目标检测最新研究进展总结概述一、研究现状目标检测是计算机视觉领域的重要问题之一,其目标是在给定的图像中准确地定位和识别出感兴趣的目标。

在过去的几年内,基于深度学习的目标检测方法取得了巨大的进展,并在多个任务和数据集上取得了最先进的性能。

二、基于深度学习的目标检测方法1.基于区域提议的方法基于区域提议的方法将目标检测任务分为两个阶段:候选区域生成和目标分类。

首先,通过使用区域建议网络(RPN)生成候选区域,然后对这些候选区域进行分类、位置回归等操作。

这一类方法的代表有Faster R-CNN、R-FCN等。

2.单阶段方法单阶段方法将目标检测任务简化为一个端到端的模型,直接预测目标的位置和类别。

这类方法通常使用卷积神经网络(CNN)提取特征,并通过增加额外的检测层来实现目标检测。

这一类方法的代表有YOLO系列、SSD等。

三、最新研究进展近年来,基于深度学习的目标检测方法在准确性和效率方面取得了显著的进展。

以下是最新的研究进展的总结:1. 骨干网络的改进:研究者们提出了一些新的骨干网络结构,如ResNet、Inception等,这些网络具有更深的结构和更强的特征表示能力,可以有效提高目标识别和定位的准确性。

2.多尺度特征表示:为了提高对不同尺度目标的检测效果,研究者们提出了一些多尺度特征表示的方法,如金字塔金字塔(FPN)、特征金字塔网络(FPN)等。

3.单阶段方法的改进:为了提高单阶段方法的准确性,研究者们提出了一些改进方法,如使用注意力机制提升关键特征的表示能力、引入特征金字塔结构等。

4. 目标检测的实时性:为了提高目标检测方法的实时性,研究者们提出了一些轻量级网络结构,如MobileNet、Pelee等,这些网络在保持一定的准确性的同时,极大地提高了目标检测的速度。

5.跨域目标检测:研究者们提出了一些跨域目标检测方法,通过在源域和目标域之间进行知识迁移,可以在目标域上取得较好的检测结果。

深度学习驱动下的目标检测研究进展综述

深度学习驱动下的目标检测研究进展综述

深度学习驱动下的目标检测研究进展综述1. 深度学习驱动下的目标检测综述在过去的几年里,深度学习已经迅速成为人工智能领域最热门的技术之一,并且在计算机视觉领域取得了巨大的成功。

特别是在目标检测方面,深度学习的应用已经带来了革命性的进步。

目标检测是计算机视觉领域的一个重要任务,旨在识别和定位图像中的物体。

这一任务具有极大的挑战性,因为需要处理复杂的背景、不同的物体形状和尺寸、光照变化等因素。

随着深度学习的兴起,卷积神经网络(CNN)已经成为目标检测领域的核心组件。

通过构建多层次的神经网络结构,CNN能够自动学习图像中的特征表示,大大提高了目标检测的准确性。

在此基础上,一系列的目标检测算法被提出并持续优化,包括RCNN系列、YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector)等。

这些算法的发展推动了目标检测技术的不断进步。

RCNN系列算法通过区域提议和卷积神经网络相结合,实现了较高的检测准确率。

YOLO和SSD则通过单阶段的检测方式,大大提高了检测速度,并且保持了较高的准确性。

还有一些算法结合了多种技术,如锚框机制、非极大值抑制等,进一步优化了目标检测的性能。

在深度学习驱动下,目标检测技术在许多领域得到了广泛应用。

在安防领域,目标检测可以用于人脸识别、行人检测等;在自动驾驶领域,目标检测用于车辆、行人、道路标志等的识别;在医疗领域,目标检测可以用于病变识别、细胞检测等。

随着技术的不断发展,目标检测的应用场景将越来越广泛。

尽管深度学习在目标检测方面取得了显著进展,但仍面临一些挑战。

如数据的标注成本高昂、模型的复杂度高、计算资源需求大等问题。

如何进一步提高目标检测的准确性、速度和泛化能力,以及如何降低模型复杂度和计算成本,仍然是目标检测领域需要关注和研究的重要问题。

1.1 目标检测的背景和意义随着计算机视觉技术的迅速发展,目标检测作为其重要分支之一,在众多领域中发挥着越来越重要的作用。

基于深度强化学习的目标检测算法与应用研究共3篇

基于深度强化学习的目标检测算法与应用研究共3篇

基于深度强化学习的目标检测算法与应用研究共3篇基于深度强化学习的目标检测算法与应用研究1目标检测在计算机视觉领域中是一个重要的问题,它涉及到从图像或视频中自动识别出目标的位置和类别等信息。

目标检测技术的发展可以应用于很多领域,例如自动驾驶、安防、智能交通、智能制造等。

传统的目标检测算法通常使用手动设计的特征提取方法,如Haar-like 特征、HOG特征等,然后使用传统机器学习方法(如SVM、Adaboost)来训练分类器,从而实现目标检测。

这种方法存在着很多问题,如特征的设计受人因素的干扰、对于不同种类目标的不适应性、鲁棒性较差等。

近年来,深度学习技术的飞速发展为目标检测带来了新的突破。

深度神经网络可以对输入数据进行自动学习特征,从而获得更优秀的特征表示结果。

因此,基于深度学习的目标检测算法也随之崛起。

深度强化学习是近年来出现的一种新兴的深度学习技术,它将深度学习与强化学习相结合,使得机器可以通过与环境的互动,自主地学习目标任务。

基于深度强化学习的目标检测算法与传统的目标检测算法不同,它不仅学习特征表示,还可以有选择地执行一些操作,从而自主地识别目标并执行任务。

基于深度强化学习的目标检测算法通常采用卷积神经网络作为特征提取器,并结合强化学习的思想,通过学习得到最优的策略,自动选择动作(如坐标、区域大小等),从而实现目标的检测和定位。

具体来说,算法输入为原始图像,经过卷积神经网络处理后,输出由目标框的坐标、大小和目标类别组成的动作。

根据环境反馈的奖励值,可以根据奖励值调整神经网络中的权重参数。

基于深度强化学习的目标检测算法在实际应用中也取得了一些进展。

例如,在自动驾驶领域,通过学习驾驶员的行为,可以自主地理解交通信号灯、行人等信息,根据情况自主决策。

在人脸识别领域,我们可以利用基于深度强化学习的目标检测算法来识别出人脸,并完成具体的打分和验证等任务。

总之,基于深度强化学习的目标检测算法是深度学习技术与强化学习技术有机结合的结果。

基于深度学习的无人机航拍视频多目标检测与跟踪研究进展

基于深度学习的无人机航拍视频多目标检测与跟踪研究进展

基于深度学习的无人机航拍视频多目标检测与跟踪研究进展基于深度学习的无人机航拍视频多目标检测与跟踪是计算机视觉领域的重要研究课题之一、无人机航拍视频数据丰富、画面复杂,对目标检测与跟踪算法的要求高,深度学习在该领域具有很大的潜力和优势。

本文将对基于深度学习的无人机航拍视频多目标检测与跟踪的研究进展进行综述。

目标检测是无人机航拍视频处理的首要任务,旨在自动地识别出视频中存在的目标。

基于深度学习的目标检测算法在无人机航拍视频中表现出了很高的检测精度和鲁棒性。

其中,YOLO(You Only Look Once)算法是一种基于单阶段检测的目标检测方法,通过将整个图像作为输入,直接预测边界框和类别。

YOLO系列算法在速度和精度上都表现出了较好的性能,适用于无人机航拍视频的实时检测。

在目标跟踪方面,无人机航拍视频中目标的尺度变化、外观变化和速度变化都对算法提出了很大的挑战。

目前,基于深度学习的目标跟踪算法主要有两种思路:一种是通过卷积神经网络(CNN)提取目标特征,然后利用相关滤波器进行目标跟踪;另一种是采用循环神经网络(RNN)结合CNN,在时间序列上进行目标跟踪。

在卷积神经网络中,Siamese网络是一种被广泛应用的跟踪算法。

通过将目标图像和图像输入到同一个CNN中,Siamese网络可以输出目标和图像的相似度得分,从而进行目标跟踪。

在循环神经网络方面,长短期记忆(LSTM)网络被用于建模时间序列信息,提高了跟踪算法的鲁棒性和准确性。

总的来说,基于深度学习的无人机航拍视频多目标检测与跟踪领域研究进展迅速。

从目标检测到目标跟踪,再到联合目标检测与跟踪,不断有新的算法提出并取得了显著的进展。

然而,该领域还存在一些挑战,比如目标遮挡、目标识别的鲁棒性等问题,需要进一步的研究和改进。

希望随着深度学习技术的不断发展,无人机航拍视频多目标检测与跟踪算法能够在实际应用中发挥更大的作用。

《2024年基于深度学习的目标检测研究综述》范文

《2024年基于深度学习的目标检测研究综述》范文

《基于深度学习的目标检测研究综述》篇一一、引言随着深度学习技术的快速发展,其在计算机视觉领域的应用逐渐增多。

目标检测作为计算机视觉的核心任务之一,近年来已经成为了深度学习领域研究的热点。

本文将对基于深度学习的目标检测的研究进行综述,探讨其研究进展、现有方法及挑战,并对未来研究方向进行展望。

二、目标检测概述目标检测是计算机视觉领域的一项重要任务,旨在从图像或视频中检测出特定类别的目标并实现定位。

目标检测广泛应用于无人驾驶、智能监控、智能安防等领域。

传统的目标检测方法主要依赖于特征提取和分类器设计,而基于深度学习的目标检测方法则通过深度神经网络实现特征学习和分类,具有更高的准确性和鲁棒性。

三、基于深度学习的目标检测方法3.1 基于区域的目标检测方法基于区域的目标检测方法将目标检测任务划分为多个子区域,对每个子区域进行分类和回归。

代表性的算法有R-CNN系列(R-CNN、Fast R-CNN、Faster R-CNN等),这些算法通过区域提议和卷积神经网络实现目标检测。

这些方法的优点是准确率高,但计算复杂度较高,实时性较差。

3.2 基于回归的目标检测方法基于回归的目标检测方法通过卷积神经网络直接实现目标的位置回归和类别分类。

代表性的算法有YOLO(You Only Look Once)系列和SSD(Single Shot MultiBox Detector)等。

这些算法具有较高的计算效率和实时性,适用于对速度要求较高的场景。

四、深度学习目标检测的挑战与研究方向4.1 挑战(1)小目标检测:在复杂场景中,小目标的检测难度较大,易受噪声和背景干扰的影响。

(2)实时性:对于需要实时处理的场景,如无人驾驶等,如何在保证准确性的同时提高实时性是一个挑战。

(3)跨领域应用:不同领域的数据集差异较大,如何实现跨领域应用是一个亟待解决的问题。

4.2 研究方向(1)模型优化:通过改进网络结构和算法优化,提高目标检测的准确性和实时性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于深度学习的目标检测研究进展原创2016-05-30深度学习大讲堂深度学习大讲堂开始本文内容之前,我们先来看一下上边左侧的这张图,从图中你看到了什么物体?他们在什么位置?这还不简单,图中有一个猫和一个人,具体的位置就是上图右侧图像两个边框(bounding-box)所在的位置。

其实刚刚的这个过程就是目标检测,目标检测就是“给定一张图像或者视频帧,找出其中所有目标的位置,并给出每个目标的具体类别”。

目标检测对于人来说是再简单不过的任务,但是对于计算机来说,它看到的是一些值为0~255的数组,因而很难直接得到图像中有人或者猫这种高层语义概念,也不清楚目标出现在图像中哪个区域。

图像中的目标可能出现在任何位置,目标的形态可能存在各种各样的变化,图像的背景千差万别……,这些因素导致目标检测并不是一个容易解决的任务。

得益于深度学习——主要是卷积神经网络(convolution neural network: CNN)和候选区域(region proposal)算法,从2014年开始,目标检测取得了巨大的突破。

本文主要对基于深度学习的目标检测算法进行剖析和总结,文章分为四个部分:第一部分大体介绍下传统目标检测的流程,第二部分介绍以R-CNN为代表的结合region proposal和CNN分类的目标检测框架(R-CNN, SPP-NET, Fast R-CNN, Faster R-CNN); 第三部分介绍以YOLO为代表的将目标检测转换为回归问题的目标检测框架(YOLO, SSD); 第四部分介绍一些可以提高目标检测性能的技巧和方法。

一. 传统目标检测方法如上图所示,传统目标检测的方法一般分为三个阶段:首先在给定的图像上选择一些候选的区域,然后对这些区域提取特征,最后使用训练的分类器进行分类。

下面我们对这三个阶段分别进行介绍。

(1) 区域选择这一步是为了对目标的位置进行定位。

由于目标可能出现在图像的任何位置,而且目标的大小、长宽比例也不确定,所以最初采用滑动窗口的策略对整幅图像进行遍历,而且需要设置不同的尺度,不同的长宽比。

这种穷举的策略虽然包含了目标所有可能出现的位置,但是缺点也是显而易见的:时间复杂度太高,产生冗余窗口太多,这也严重影响后续特征提取和分类的速度和性能。

(实际上由于受到时间复杂度的问题,滑动窗口的长宽比一般都是固定的设置几个,所以对于长宽比浮动较大的多类别目标检测,即便是滑动窗口遍历也不能得到很好的区域)(2) 特征提取由于目标的形态多样性,光照变化多样性,背景多样性等因素使得设计一个鲁棒的特征并不是那么容易。

然而提取特征的好坏直接影响到分类的准确性。

(这个阶段常用的特征有SIFT、HOG等)(3) 分类器主要有SVM, Adaboost等。

总结:传统目标检测存在的两个主要问题:一个是基于滑动窗口的区域选择策略没有针对性,时间复杂度高,窗口冗余;二是手工设计的特征对于多样性的变化并没有很好的鲁棒性。

二. 基于Region Proposal的深度学习目标检测算法对于传统目标检测任务存在的两个主要问题,我们该如何解决呢?对于滑动窗口存在的问题,region proposal提供了很好的解决方案。

region proposal(候选区域)是预先找出图中目标可能出现的位置。

但由于region proposal利用了图像中的纹理、边缘、颜色等信息,可以保证在选取较少窗口(几千个甚至几百个)的情况下保持较高的召回率。

这大大降低了后续操作的时间复杂度,并且获取的候选窗口要比滑动窗口的质量更高(滑动窗口固定长宽比)。

比较常用的region proposal算法有selective Search和edge Boxes,如果想具体了解region proposal可以看一下PAMI2015的“What makes for effective detection proposals?”有了候选区域,剩下的工作实际就是对候选区域进行图像分类的工作(特征提取+分类)。

对于图像分类,不得不提的是2012年ImageNet大规模视觉识别挑战赛(ILSVRC)上,机器学习泰斗Geoffrey Hinton教授带领学生Krizhevsky使用卷积神经网络将ILSVRC分类任务的Top-5 error降低到了15.3%,而使用传统方法的第二名top-5 error高达 26.2%。

此后,卷积神经网络占据了图像分类任务的绝对统治地位,微软最新的ResNet和谷歌的Inception V4模型的top-5 error降到了4%以内多,这已经超越人在这个特定任务上的能力。

所以目标检测得到候选区域后使用CNN对其进行图像分类是一个不错的选择。

2014年,RBG(Ross B. Girshick)大神使用region proposal+CNN代替传统目标检测使用的滑动窗口+手工设计特征,设计了R-CNN框架,使得目标检测取得巨大突破,并开启了基于深度学习目标检测的热潮。

2 1. R-CNN (CVPR2014, TPAMI2015)(Region-based Convolution Networks for Accurate Object detection and Segmentation)上面的框架图清晰的给出了R-CNN的目标检测流程:(1) 输入测试图像(2) 利用selective search算法在图像中提取2000个左右的region proposal。

(3) 将每个region proposal缩放(warp)成227x227的大小并输入到CNN,将CNN的fc7层的输出作为特征。

(4) 将每个region proposal提取到的CNN特征输入到SVM进行分类。

针对上面的框架给出几点解释:* 上面的框架图是测试的流程图,要进行测试我们首先要训练好提取特征的CNN模型,以及用于分类的SVM:使用在ImageNet上预训练的模型(AlexNet/VGG16)进行微调得到用于特征提取的CNN模型,然后利用CNN模型对训练集提特征训练SVM。

* 对每个region proposal缩放到同一尺度是因为CNN全连接层输入需要保证维度固定。

* 上图少画了一个过程——对于SVM分好类的region proposal做边框回归(bounding-box regression),边框回归是对region proposal进行纠正的线性回归算法,为了让region proposal提取到的窗口跟目标真实窗口更吻合。

因为region proposal提取到的窗口不可能跟人手工标记那么准,如果region proposal跟目标位置偏移较大,即便是分类正确了,但是由于IoU(region proposal与Ground Truth的窗口的交集比并集的比值)低于0.5,那么相当于目标还是没有检测到。

小结:R-CNN在PASCAL VOC2007上的检测结果从DPM HSC的34.3%直接提升到了66%(mAP)。

如此大的提升使我们看到了region proposal+CNN的巨大优势。

但是R-CNN框架也存在着很多问题:(1) 训练分为多个阶段,步骤繁琐: 微调网络+训练SVM+训练边框回归器(2) 训练耗时,占用磁盘空间大:5000张图像产生几百G的特征文件(3) 速度慢: 使用GPU, VGG16模型处理一张图像需要47s。

针对速度慢的这个问题,SPP-NET给出了很好的解决方案。

3 1. SPP-NET (ECCV2014, TPAMI2015)(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition) 先看一下R-CNN为什么检测速度这么慢,一张图都需要47s!仔细看下R-CNN框架发现,对图像提完region proposal(2000个左右)之后将每个proposal当成一张图像进行后续处理(CNN提特征+SVM分类),实际上对一张图像进行了2000次提特征和分类的过程! 有没有方法提速呢?好像是有的,这2000个region proposal不都是图像的一部分吗,那么我们完全可以对图像提一次卷积层特征,然后只需要将region proposal在原图的位置映射到卷积层特征图上,这样对于一张图像我们只需要提一次卷积层特征,然后将每个region proposal的卷积层特征输入到全连接层做后续操作。

(对于CNN来说,大部分运算都耗在卷积操作上,这样做可以节省大量时间)。

现在的问题是每个region proposal的尺度不一样,直接这样输入全连接层肯定是不行的,因为全连接层输入必须是固定的长度。

SPP-NET 恰好可以解决这个问题:上图对应的就是SPP-NET的网络结构图,任意给一张图像输入到CNN,经过卷积操作我们可以得到卷积特征(比如VGG16最后的卷积层为conv5_3,共产生512张特征图)。

图中的window是就是原图一个region proposal对应到特征图的区域,只需要将这些不同大小window的特征映射到同样的维度,将其作为全连接的输入,就能保证只对图像提取一次卷积层特征。

SPP-NET使用了空间金字塔采样(spatial pyramid pooling):将每个window 划分为4*4, 2*2, 1*1的块,然后每个块使用max-pooling下采样,这样对于每个window经过SPP层之后都得到了一个长度为(4*4+2*2+1)*512维度的特征向量,将这个作为全连接层的输入进行后续操作。

小结:使用SPP-NET相比于R-CNN可以大大加快目标检测的速度,但是依然存在着很多问题:(1) 训练分为多个阶段,步骤繁琐: 微调网络+训练SVM+训练训练边框回归器(2) SPP-NET在微调网络的时候固定了卷积层,只对全连接层进行微调,而对于一个新的任务,有必要对卷积层也进行微调。

(分类的模型提取的特征更注重高层语义,而目标检测任务除了语义信息还需要目标的位置信息)针对这两个问题,RBG又提出Fast R-CNN, 一个精简而快速的目标检测框架。

4 1. Fast R-CNN(ICCV2015)有了前边R-CNN和SPP-NET的介绍,我们直接看Fast R-CNN的框架图:与R-CNN框架图对比,可以发现主要有两处不同:一是最后一个卷积层后加了一个ROI pooling layer,二是损失函数使用了多任务损失函数(multi-task loss),将边框回归直接加入到CNN网络中训练。

(1) ROI pooling layer实际上是SPP-NET的一个精简版,SPP-NET对每个proposal使用了不同大小的金字塔映射,而ROI pooling layer只需要下采样到一个7x7的特征图。

相关文档
最新文档