AI人工智能培训课件-目标检测概述-7.2

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

目标检测

目标检测简介

输入图片

输入图片问题：图片中的车在哪里？

目标检测（Object Detection）的任务是找出图像中所有感兴趣的

目标（物体），确定它们的类别和位臵，是计算机视觉领域的核心

问题之一。由于各类物体有不同的外观、形状和姿态，加上成像时光照、遮挡等因素的干扰，目标检测一直是计算机视觉领域最具有一定挑战性的问题。

目标检测的核心问题：

图像识别+定位

定位方面的问题：

目标可能出现在图像的任何位臵。目标有各种不同的大小。

目标可能有各种不同的形状。

图像识别：

定位：

定位思路一：将定位转换为分类问题，遍历所有可能的区域deer

cat

定位思路一：将定位转换为分类问题，遍历所有可能的区域

CNN deer?

cat? background?

定位思路一：将定位转换为分类问题，遍历所有可能的区域

CNN deer?

cat? background?

定位思路一：将定位转换为分类问题，遍历所有可能的区域

CNN deer?

cat? background?

定位思路一：将定位转换为分类问题，遍历所有可能的区域

定位思路一：滑动窗算法（使用固定尺寸和固定步长）

定位思路一：滑动窗算法（使用多种尺寸+步长）

3 x 257 x 257

0.5

分类概率(猫)

定位思路一：滑动窗算法（使用多种尺寸+步长）

3 x 257 x 257

0.5 0.75 分类概率(猫)

定位思路一：滑动窗算法（使用多种尺寸+步长）

3 x 257 x 257

0.5 0.75 0.6

分类概率(猫)

定位思路一：滑动窗算法（使用多种尺寸+步长）

3 x 257 x 257

0.5 0.75 0.6 0.8 分类概率(猫)

定位思路一：滑动窗算法（使用多种尺寸+步长）

3 x 257 x 257

0.5 0.75

0.6 0.8

分类概率(猫) 3 x 257 x 257

定位思路二：回归

狗 (x, y, w, h)

猫 (x, y, w, h)

鸭 (x, y, w, h)

16个数

定位思路二：回归

狗(x, y, w, h)

猫(x, y, w, h)

8个数

定位思路二：回归

猫 (x, y, w, h)

猫(x, y, w, h)

….

网络需要对变动的目标输出个数进行刻画

定位思路二：回归

和图像分类网络一样，我们需要一个提取图像特征的网络

在上述卷积神经网络的尾部作出改进，加上分类模块和回归模块回归模块用欧氏距离度量损失，网络使用梯度下降进行训练

在预测阶段合并分类模块和回归模块的结果

定位思路二：回归

目标检测分类：

1.Two stage目标检测算法

先进行候选区域生成（一个有可能包含待检物体的预选框），

再通过卷积神经网络进行样本分类。

任务：特征提取—>生成候选区域—>分类/定位回归。

常见的two stage目标检测算法有：R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN和R-FCN等。

目标检测分类：

2.One stage目标检测算法

不生成候选区域，直接在网络中提取特征来预测物体分类和位臵。任务：特征提取—>分类/定位回归。

常见的one stage目标检测算法有：OverFeat、YOLOv1、YOLOv2、YOLOv3、SSD和RetinaNet等。

目标检测的应用：

目标检测具有巨大的实用价值和应用前景。应用领域包括人脸检测、行人检测、车辆检测、飞机航拍或卫星图像中道路的检测、车载摄像机图像中的障碍物检测、医学影像在的病灶检测等。还有在安防领域中，可以实现比如安全帽、安全带等动态检测，移动侦测、区域入侵检测、物品看护等功能。

Two Stage目标检测算法

RCNN (论文：Rich feature hierarchies for accurate object detection and semantic segmentation) 是将CNN方法引入目标检测领域，提高了目标检测效果，改变了目标检测领域的主要研究思路，是当之无愧的开山之作。

R-CNN的创新点

使用CNN（ConvNet）对 region proposals 计算 feature vectors。从经验驱动特征（SIFT、HOG）到数据驱动特征（CNN feature map），提高特征对样本的表示能力。

采用大样本下（ILSVRC）有监督预训练和小样本（PASCAL）微调（fine-tuning）的方法解决小样本难以训练甚至过拟合等问题。

注：ILSVRC其实就是众所周知的ImageNet的挑战赛，数据量极大；

PASCAL数据集（包含目标检测和图像分割等），相对较小。

R-CNN介绍

R-CNN作为R-CNN系列的第一代算法，其实没有过多的使用深度学习的思想，而是将深度学习和传统的计算机视觉的知识相结合。比如R-CNN 流程中第二步和第四步其实就属于传统的计算机视觉技术。使用selective search提取region proposals，再使用SVM实现分类。