CVPR2016目标检测之识别效率篇：YOLO, G

合集下载

yolov1的原理

yolov1的原理YOLO（You Only Look Once）是一种基于卷积神经网络实现的目标检测算法，它在神经网络中直接回归边界框和类别信息，因此被称为“端到端”的目标检测算法。

YOLO被发表的第一篇论文是在2016年的CVPR上，其版本被称为YOLOv1。

YOLOv1采用了一个全卷积神经网络架构，引入了全局最大池化层将整个图像降采样成一个特征图（S*S*C），然后通过在每个格子上预测B个边界框，每个边界框包含4个坐标和一个置信度，以及类别信息得到目标检测结果。

具体地，在每个边界框所在的格子中，会预测出5+(类别数)个输出值，其中5个值分别代表每个边界框的(x, y, w, h, confidence)。

其中，(x, y)表示边界框中心点在其所在格子的位置偏移量，(w, h)代表边界框的宽度和高度，confidence表示边界框是否包含物体的概率值。

类别信息则表示物体属于哪一类别，每个类别对应一个单独的输出。

在训练过程中，YOLOv1使用均方误差作为损失函数来进行学习，以使每个预测框能够更好地匹配真实标签框。

同时，为了解决类别不平衡的问题，YOLOv1使用了一个类别平衡损失函数，使得不同类别的目标被平等对待。

YOLOv1的出色表现在当时引起了广泛关注，它得到了不错的准确率和速度，并且可以在GPU上实时运行，但它也有一些缺点：第一，YOLOv1对于小物体的检测效果不太好；第二，它倾向于对同一目标进行多次检测（即对同一目标生成多个不同的边界框）并使得检测结果不够准确。

因此，在YOLOv1的基础上，YOLOv2和YOLOv3分别进行了改进，提出了更好的网络结构和训练策略，使得它们具备更好的性能。

总体而言，YOLO系列算法已经成为了目标检测领域中一种强大和高效的算法，它们在现实世界中的应用非常广泛，例如自动驾驶、安防监控和智能家居等领域。

yolo目标检测评价指标公式

yolo目标检测评价指标公式YOLO（You Only Look Once）是一种目标检测算法，其评价指标主要包括准确率（accuracy）、mAP（mean Average Precision）和FPS（Frames Per Second）。

1.准确率准确率是指正确预测为正样本的样本数占所有预测为正样本的样本数的比例。

在目标检测任务中，准确率通常用来衡量模型对于背景和前景的分类能力。

准确率的计算公式如下：准确率 = (正确预测为正样本的样本数 / 预测为正样本的样本数) × 100%其中，正确预测为正样本的样本数是指被模型预测为正样本的样本中，真正为正样本的样本数。

预测为正样本的样本数是指被模型预测为正样本的样本总数。

2.mAPmAP（mean Average Precision）是目标检测任务中常用的一个评价指标，它通过计算每个类别的平均精确度（AP）并将其平均，得到mAP值。

mAP可以用来衡量模型对于不同类别的检测精度。

mAP的计算公式如下：mAP = (所有类别中所有AP的平均值) × 100%其中，AP是指对于每个类别，计算其不同阈值下的精确度（precision），然后根据不同的阈值绘制PR曲线，并计算PR曲线下的面积（AUC）。

3.FPSFPS（Frames Per Second）是指模型每秒钟可以处理的图像帧数。

在目标检测任务中，FPS可以用来衡量模型的处理速度和性能。

FPS的计算公式如下：FPS = (处理的总帧数 / 总时间)其中，处理的总帧数是指模型在一段时间内处理的图像帧总数，总时间是指这段时间的持续时间。

在YOLO的目标检测算法中，通常会使用上述三个指标来评估模型的性能。

准确率和mAP可以用来衡量模型对于不同类别的检测精度，而FPS则可以用来衡量模型的处理速度和性能。

通过对这些指标的分析，可以更好地了解模型的优劣和改进方向。

目标检测综述

如上图所示，传统目标检测的方法一般分为三个阶段：首先在给定的图像上选择一些候选的区域，然后对这些区域提取特征，最后使用训练的分类器进行分类。

下面我们对这三个阶段分别进行介绍。

(1) 区域选择这一步是为了对目标的位置进行定位。

由于目标可能出现在图像的任何位置，而且目标的大小、长宽比例也不确定，所以最初采用滑动窗口的策略对整幅图像进行遍历，而且需要设置不同的尺度，不同的长宽比。

这种穷举的策略虽然包含了目标所有可能出现的位置，但是缺点也是显而易见的：时间复杂度太高，产生冗余窗口太多，这也严重影响后续特征提取和分类的速度和性能。

(实际上由于受到时间复杂度的问题，滑动窗口的长宽比一般都是固定的设置几个，所以对于长宽比浮动较大的多类别目标检测，即便是滑动窗口遍历也不能得到很好的区域)(2) 特征提取由于目标的形态多样性，光照变化多样性，背景多样性等因素使得设计一个鲁棒的特征并不是那么容易。

然而提取特征的好坏直接影响到分类的准确性。

(这个阶段常用的特征有 SIFT、 HOG 等)(3) 分类器主要有 SVM, Adaboost 等。

总结：传统目标检测存在的两个主要问题：一是基于滑动窗口的区域选择策略没有针对性，时间复杂度高，窗口冗余；二是手工设计的特征对于多样性的变化并没有很好的鲁棒性。

对于传统目标检测任务存在的两个主要问题，我们该如何解决呢？对于滑动窗口存在的问题， region proposal 提供了很好的解决方案。

region proposal (候选区域) 是预先找出图中目标可能出现的位置。

但由于 regionproposal 利用了图像中的纹理、边缘、颜色等信息，可以保证在选取较少窗口(几千个甚至几百个) 的情况下保持较高的召回率。

这大大降低了后续操作的时间复杂度，并且获取的候选窗口要比滑动窗口的质量更高(滑动窗口固定长宽比) 。

比较常用的 region proposal 算法有selective Search 和 edge Boxes ，如果想具体了解 region proposal 可以看一下PAMI2015 的“What makes for effective detection proposals？”有了候选区域，剩下的工作实际就是对候选区域进行图像分类的工作 (特征提取 +分类)。

YOLO系列目标检测算法研究进展

YOLO系列目标检测算法研究进展一、本文概述随着技术的飞速发展，目标检测作为计算机视觉领域的核心任务之一，其在安防监控、自动驾驶、人机交互等实际应用中发挥着越来越重要的作用。

在众多目标检测算法中，YOLO（You Only Look Once）系列算法以其高效的速度和精确的性能，自问世以来就受到了广泛的关注与研究。

本文旨在对YOLO系列目标检测算法的研究进展进行全面的梳理和深入的探讨，以期为相关领域的研究人员和实践者提供有价值的参考。

本文将首先回顾YOLO算法的诞生背景和发展历程，分析其在目标检测领域的重要地位。

随后，本文将详细介绍YOLO系列算法的基本原理和关键技术，包括其网络结构、损失函数、训练策略等方面的改进和创新。

在此基础上，本文将重点探讨YOLO系列算法在性能提升、速度优化、小目标检测等方面的研究进展，并分析其在实际应用中的优势和挑战。

本文将展望YOLO系列算法的未来发展趋势，探讨其在深度学习、计算机视觉等领域的潜在应用前景。

通过本文的阐述，我们期望能够为读者提供一个清晰、全面的YOLO系列目标检测算法研究进展的概览，同时为推动该领域的进一步发展贡献一份力量。

二、YOLO算法基本原理YOLO（You Only Look Once）是一种目标检测算法，其基本原理是将目标检测视为回归问题，从而可以在单个网络中进行端到端的训练。

与传统的目标检测算法如R-CNN系列不同，YOLO不需要生成候选区域（Region Proposal），而是直接在输入图像上预测所有目标的位置和类别。

YOLO算法的核心思想是将目标检测视为单次前向传递（Single Forward Pass）的过程。

它首先将输入图像划分为S×S的网格，每个网格负责预测B个边界框（Bounding Box），同时预测这些边界框的置信度（Confidence Score）以及C个类别的概率。

置信度反映了模型对该边界框是否包含目标的信心，以及预测框与真实框的重叠程度。

目标检测yolo原理

目标检测yolo原理你知道有种技术，能让电脑像人一样“看”世界吗？它就叫目标检测，嗯，听起来挺高大上的。

现在说到目标检测，大家脑袋里最先浮现的可能就是YOLO。

别急，咱们先来聊聊这个YOLO是什么，它是怎么让计算机“眼观六路，耳听八方”的。

它背后的原理，说简单也不简单，说复杂也不复杂，咱们就一起来拆解拆解，看能不能让你一听就懂。

YOLO这个名字呢，很多人都知道，但大多数人对它的理解就停留在“它是个很牛的技术”这儿。

说实话，YOLO的全称是“you only look once”，意思就是“你只看一次”。

什么意思呢？简单说，就是计算机通过一次扫描，就能在图像里找出所有它能认出来的物体，像个超厉害的侦探，几乎不需要做任何多余的动作。

想象一下，如果你走进一个拥挤的市场，普通人可能得转好几圈才能看清楚各个摊位的商品，但YOLO呢，直接一眼扫过去，所有的东西都能被抓进眼里。

不过，YOLO这么强大，可是它可不是凭空就能做到的。

想要让机器“一眼看穿”，得有点“过人之处”。

它的原理，简单来说就是把图像切成网格，然后每个小网格负责找到图像里的东西，并且告诉你这个东西在哪，长什么样子。

如果网格里面有物体，YOLO就能画出框框，框出物体的位置，还能告诉你是什么东西。

比如，看到一只狗，YOLO会给你一个框框，框着那只狗的身影，还会在框上写上“dog”这俩字，告诉你：“嘿，兄弟，这是只狗！”那这技术到底是怎么做到的呢？想象一下，YOLO就像是一个精明的侦探，他观察世界的方法就是一次性看清所有细节，而不是东看看西看看再做判断。

这样一来，处理速度比起其他方法简直快得多。

不像以前那些技术，要分好几步，先找物体、再判断种类、再定位，慢得你想拍手。

YOLO一条龙服务，快速又高效。

再来一个有趣的地方，YOLO不光是“看”得快，它“看”得还准。

通过一个聪明的设计，它能够把图像中各个物体的边界框画得很精准，几乎不会错。

举个例子，咱们平时看到一个盒子，脑袋里自动就会浮现出它的形状。

计算机视觉技术中常见的目标检测算法

计算机视觉技术中常见的目标检测算法在计算机视觉领域中，目标检测是一项重要的任务，旨在从图像或视频中准确地识别和定位出特定的目标。

随着计算机技术的快速发展，目标检测算法也在不断进步和演变。

本文将介绍一些计算机视觉技术中常见的目标检测算法。

1. R-CNN（区域卷积神经网络）R-CNN是目标检测算法中的经典方法之一。

它采用两步策略来解决目标检测问题。

首先，使用选择性搜索算法生成可能包含目标的候选区域。

然后，将这些候选区域输入卷积神经网络（CNN）进行特征提取和分类。

R-CNN通过使用CNN提取图像特征，相比传统方法具有更高的准确性。

2. Fast R-CNN（快速区域卷积神经网络）Fast R-CNN是对R-CNN算法的改进。

它引入了感兴趣区域池化（RoI pooling）层，将不同大小的感兴趣区域统一为固定大小的特征向量。

这种池化操作在计算效率上具有优势，并使得Fast R-CNN比R-CNN更快速、更准确。

3. Faster R-CNN（更快速的区域卷积神经网络）Faster R-CNN是在Fast R-CNN的基础上进一步优化的算法。

它引入了候选区域生成网络（Region Proposal Network，RPN），用于自动化地生成候选区域。

通过共享特征提取和候选区域生成的过程，Faster R-CNN实现了端到端的目标检测。

相较于R-CNN和Fast R-CNN，它在准确性和速度上都有了显著的提升。

4. YOLO（你只需学会一个目标检测算法）YOLO是一种实时目标检测算法，其特点在于速度快、准确性高。

YOLO将目标检测问题转化为一个回归问题，通过在图像网格中预测边界框的坐标和类别，实现对目标的检测和分类。

YOLO算法的优点在于快速、简单，适用于实时应用。

5. SSD（单发多框检测器）SSD是一种基于卷积神经网络的目标检测算法，其主要思想是在不同尺度上检测目标。

SSD通过在不同层的特征图上应用不同大小的卷积核，实现对不同尺度目标的检测。

图像识别中的目标检测算法使用教程

图像识别中的目标检测算法使用教程目标检测是计算机视觉领域中一项重要的任务，它旨在从图像或视频中准确地识别和定位多个目标对象。

目标检测在许多领域中都有广泛的应用，包括自动驾驶、安防监控、人脸识别等。

在本篇文章中，我将为您介绍几种常用的目标检测算法及其使用方法。

一、YOLO算法YOLO（You Only Look Once）是一种基于卷积神经网络（CNN）的目标检测算法。

相比于传统的目标检测算法，YOLO算法具有较快的检测速度，在保持较高准确率的同时，能够实时地进行目标检测。

使用YOLO算法进行目标检测可以分为以下几个步骤：首先，需要下载并安装YOLO的相关环境和依赖库。

然后，使用标注工具对训练数据进行标注，生成对应的标签信息。

接着，进行数据的预处理，包括图像的大小调整、颜色通道的处理等。

之后，使用标记好的数据集进行模型的训练。

最后，利用训练好的模型对测试图像进行目标检测。

二、Faster R-CNN算法Faster R-CNN是一种基于区域提议网络（RPN）的目标检测算法，它在准确性和速度方面取得了良好的平衡。

相比于YOLO算法，Faster R-CNN在定位准确度上更加优秀，但速度稍慢一些。

使用Faster R-CNN算法进行目标检测的步骤如下：首先，下载并配置Faster R-CNN的环境和依赖库。

然后，准备训练数据集，并使用标注工具进行目标的标注。

接着，进行数据的预处理，包括图像尺寸的调整、数据增强等操作。

之后，进行模型的训练，可以使用预训练模型进行迁移学习。

最后，使用训练好的模型对测试图像进行目标检测。

三、SSD算法SSD（Single Shot MultiBox Detector）是一种结合了目标分类、目标定位和目标框回归的目标检测算法。

它在准确性和速度方面都表现出色，并且具有较高的实时性。

使用SSD算法进行目标检测的步骤如下：首先，下载并配置SSD的环境和相关依赖库。

然后，准备训练数据集，并进行标注。

yolo算法基本原理

yolo算法基本原理YOLO（You Only Look Once）是一种实时目标检测算法，由Joseph Redmon和YOLO（You Only Look Once）是一种实时目标检测算法，由Joseph Redmon和Ali Farhadi于2016年提出。

YOLO算法的主要目标是提高目标检测的速度和准确性，同时保持较低的计算复杂度。

YOLO算法的基本原理可以分为以下几个部分：1. 网络结构：YOLO算法采用了全卷积神经网络（FCN）作为基本架构。

FCN是一种可以直接处理输入图像的神经网络，不需要额外的预处理步骤。

YOLO将整个图像划分为S×S个网格，每个网格负责预测一个边界框及其对应的类别概率。

这样，YOLO可以一次性完成目标检测任务，而无需进行多次扫描或滑动窗口操作。

2. 边界框预测：YOLO算法使用一个D维向量来表示边界框的位置和大小。

D通常取值为5（表示中心点坐标x、y和宽高的一半），因此每个边界框可以用5个实数来表示。

YOLO在每个网格中预测B 个边界框及其对应的类别概率，总共有S×S×B个边界框。

3. 类别概率预测：YOLO算法使用softmax函数来预测每个边界框对应类别的概率。

对于C个类别，每个边界框的类别概率是一个C 维向量，其中第i个元素表示该边界框属于第i类的概率。

因此，每个边界框的类别概率可以用一个C维向量来表示。

4. 损失函数：YOLO算法的损失函数包括三部分：边界框损失、分类损失和总损失。

边界框损失用于衡量预测边界框与真实边界框之间的差距，分类损失用于衡量预测类别概率与真实类别概率之间的差距。

总损失是边界框损失和分类损失的加权和，权重分别为5和C。

5. 训练策略：YOLO算法采用随机梯度下降（SGD）作为优化器，并采用交叉熵损失函数作为损失函数。

YOLO的训练数据需要进行标注，包括边界框的位置和大小以及对应的类别标签。

YOLO的训练过程分为两个阶段：预训练和微调。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

CVPR2016目标检测之识别效率篇：YOLO, G1.YOLO: You Only Look Once：Unified, Real-Time Object DetectionYOLO是一个可以一次性预测多个Box位置和类别的卷积神经网络，能够实现端到端的目标检测和识别，其最大的优势就是速度快。

事实上，目标检测的本质就是回归，因此一个实现回归功能的CNN并不需要复杂的设计过程。

YOLO没有选择滑窗或提取proposal的方式训练网络，而是直接选用整图训练模型。

这样做的好处在于可以更好的区分目标和背景区域，相比之下，采用proposal训练方式的Fast-R-CNN 常常把背景区域误检为特定目标。

当然,YOLO在提升检测速度的同时牺牲了一些精度。

下图所示是YOLO检测系统流程：1.将图像Resize到448*448；2.运行CNN；3.非极大抑制优化检测结果。

有兴趣的童鞋可以按照/darknet/install/的说明安装测试一下YOLO的scoring流程，非常容易上手。

接下来将重点介绍YOLO的原理。

1.1 一体化检测方案YOLO的设计理念遵循端到端训练和实时检测。

YOLO将输入图像划分为S*S个网络，如果一个物体的中心落在某网格(cell)内，则相应网格负责检测该物体。

在训练和测试时，每个网络预测B个bounding boxes，每个bounding box对应5个预测参数，即bounding box的中心点坐标(x,y)，宽高（w,h），和置信度评分。

这里的置信度评分(Pr(Object)*IOU(pred|truth))综合反映基于当前模型bounding box内存在目标的可能性Pr(Object)和bounding box预测目标位置的准确性IOU(pred|truth)。

如果bouding box内不存在物体，则Pr(Object)=0。

如果存在物体，则根据预测的bounding box和真实的bounding box计算IOU，同时会预测存在物体的情况下该物体属于某一类的后验概率Pr(Class_i|Object)。

假定一共有C类物体，那么每一个网格只预测一次C类物体的条件类概率Pr(Class_i|Object), i=1,2,...,C;每一个网格预测B个bounding box的位置。

即这B个bounding box共享一套条件类概率Pr(Class_i|Object), i=1,2,...,C。

基于计算得到的Pr(Class_i|Object)，在测试时可以计算某个bounding box类相关置信度：Pr(Class_i|Object)*Pr(Object)*IOU(pred|truth)=Pr(Class_i)* IOU(pred|truth)。

如果将输入图像划分为7*7网格（S=7），每个网格预测2个bounding box (B=2)，有20类待检测的目标（C=20），则相当于最终预测一个长度为S*S*(B*5+C)=7*7*30的向量，从而完成检测+识别任务，整个流程可以通过下图理解。

1.1.1 网络设计YOLO网络设计遵循了GoogleNet的思想，但与之有所区别。

YOLO使用了24个级联的卷积（conv）层和2个全连接（fc）层，其中conv层包括3*3和1*1两种Kernel，最后一个fc 层即YOLO网络的输出，长度为S*S*(B*5+C)=7*7*30.此外，作者还设计了一个简化版的YOLO-small网络，包括9个级联的conv层和2个fc层，由于conv层的数量少了很多，因此YOLO-small速度比YOLO快很多。

如下图所示我们给出了YOLO网络的架构。

1.1.2 训练作者训练YOLO网络是分步骤进行的：首先，作者从上图网络中取出前20个conv层，然后自己添加了一个average pooling层和一个fc层，用1000类的ImageNet数据与训练。

在ImageNet2012上用224*224d的图像训练后得到的top5准确率是88%。

然后，作者在20个预训练好的conv层后添加了4个新的conv层和2个fc层，并采用随即参数初始化这些新添加的层，在fine-tune新层时，作者选用448*448图像训练。

最后一个fc层可以预测物体属于不同类的概率和bounding box中心点坐标x,y和宽高w,h。

Boundingbox的宽高是相对于图像宽高归一化后得到的，Bounding box的中心位置坐标是相对于某一个网格的位置坐标进行过归一化，因此x,y,w,h均介于0到1之间。

在设计Loss函数时，有两个主要的问题：1.对于最后一层长度为7*7*30长度预测结果，计算预测loss通常会选用平方和误差。

然而这种Loss函数的位置误差和分类误差是1：1的关系。

2.整个图有7*7个网格，大多数网格实际不包含物体（当物体的中心位于网格内才算包含物体），如果只计算Pr(Class_i),很多网格的分类概率为0，网格loss呈现出稀疏矩阵的特性，使得Loss收敛效果变差，模型不稳定。

为了解决上述问题，作者采用了一系列方案：1.增加bounding box坐标预测的loss权重，降低bounding box分类的loss权重。

坐标预测和分类预测的权重分别是λcoord=5,λnoobj=0.5.2.平方和误差对于大和小的bounding box的权重是相同的，作者为了降低不同大小bounding box宽高预测的方差，采用了平方根形式计算宽高预测loss，即sqrt(w)和sqrt(h)。

训练Loss组成形式较为复杂，这里不作列举，如有兴趣可以参考作者原文慢慢理解体会。

1.1.3 测试作者选用PASAL VOC图像测试训练得到的YOLO网络，每幅图会预测得到98个（7*7*2）个bouding box及相应的类概率。

通常一个cell可以直接预测出一个物体对应的bounding box,但是对于某些尺寸较大或靠近图像边界的物体，需要多个网格预测的结果通过非极大抑制处理生成。

虽然YOLO对于非极大抑制的依赖不及R-CNN和DPM，但非极大抑制确实可以将mAP提高2到3个点。

1.2 方法对比作者将YOLO目标检测与识别方法与其他几种经典方案进行比较可知：DPM(Deformable parts models): DPM是一种基于滑窗方式的目标检测方法，基本流程包括几个独立的环节：特征提取，区域划分，基于高分值区域预测bounding box。

YOLO采用端到端的训练方式，将特征提取、候选框预测，非极大抑制及目标识别连接在一起，实现了更快更准的检测模型。

R-CNN：R-CNN方案分需要先用SeletiveSearch方法提取proposal,然后用CNN进行特征提取，最后用SVM训练分类器。

如此方案，诚繁琐也！YOLO精髓思想与其类似，但是通过共享卷积特征的方式提取proposal和目标识别。

另外，YOLO用网格对proposal进行空间约束，避免在一些区域重复提取Proposal，相较于SeletiveSearch提取2000个proposal进行R-CNN训练，YOLO只需要提取98个proposal，这样训练和测试速度怎能不快？Fast-R-CNN、Faster-R-CNN、Fast-DPM: Fast-R-CNN和Faster-R-CNN分别替换了SVMs训练和SelectiveSeach提取proposal的方式，在一定程度上加速了训练和测试速度，但其速度依然无法和YOLO相比。

同理，将DPM优化在GPU上实现也无出YOLO之右。

1.3 实验1.3.1 实时检测识别系统对比1.3.2 VOC2007准确率比较1.3.3 Fast-R-CNN和YOLO错误分析如图所示，不同区域分别表示不同的指标：Correct：正确检测和识别的比例，即分类正确且IOU>0.5 Localization:分类正确，但0.1<IOU<0.5Similar:类别相似，IOU>0.1Other:分类错误，IOU>0.1Background: 对于任何目标IOU<0.1可以看出，YOLO在定位目标位置时准确度不及Fast-R-CNN。

YOLO的error中，目标定位错误占据的比例最大，比Fast-R-CNN高出了10个点。

但是，YOLO在定位识别背景时准确率更高，可以看出Fast-R-CNN假阳性很高（Background=13.6%，即认为某个框是目标，但是实际里面不含任何物体）。

1.3.4 VOC2012准确率比较由于YOLO在目标检测和识别是处理背景部分优势更明显，因此作者设计了Fast-R-CNN+YOLO检测识别模式，即先用R-CNN提取得到一组bounding box，然后用YOLO处理图像也得到一组bounding box。

对比这两组bounding box是否基本一致，如果一致就用YOLO计算得到的概率对目标分类，最终的bouding box的区域选取二者的相交区域。

Fast-R-CNN的最高准确率可以达到71.8%,采用Fast-R-CNN+YOLO可以将准确率提升至75.0%。

这种准确率的提升是基于YOLO在测试端出错的情况不同于Fast-R-CNN。

虽然Fast-R-CNN_YOLO提升了准确率，但是相应的检测识别速度大大降低，因此导致其无法实时检测。

使用VOC2012测试不同算法的mean Average Precision，YOLO的mAP=57.9%，该数值与基于VGG16的RCNN检测算法准确率相当。

对于不同大小图像的测试效果进行研究，作者发现：YOLO在检测小目标时准确率比R-CNN低大约8~10%，在检测大目标是准确率高于R-CNN。

采用Fast-R-CNN+YOLO的方式准确率最高，比Fast-R-CNN的准确率高了2.3%。

1.4 总结YOLO是一种支持端到端训练和测试的卷积神经网络，在保证一定准确率的前提下能图像中多目标的检测与识别。

[1] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection. In CVPR 2016 [2] Najibi M, Rastegari M, Davis L S. G-CNN: an Iterative Grid Based Object Detector. In CVPR 2016[3] Gidaris S, Komodakis N. LocNet: Improving Localization Accuracy for Object Detection. In CVPR 2016。