改进Faster R—CNN的小目标检测

合集下载

211051767_改进的Faster_R-CNN海洋鱼类检测模型

211051767_改进的Faster_R-CNN海洋鱼类检测模型
征图ꎬ但是随着对图片进行卷积操作ꎬ特征图的
会丢失位置信息ꎬ不利于小物体以及细小纹路的
检测. FPN 借鉴了图像金字塔的思想来融合各
维度特征图ꎬ目前 FPN 已经被广泛应用于图像
中锚点的数量.
识别任务中. Tan 等 [16] 在 EfficientDet 中使用加
2 改进的 Faster R - CNN 目标检测模型
第四步: 在全连接层判断候选区域特征图
对细颗粒度图像检测时存在不足. 因此ꎬ针对海
的类别ꎬ同时通过 Smooth L1 损失函数计算边框回
洋鱼类尺寸差异较大的问题ꎬ本文在 Faster R -
归ꎬ优化预测边框的精确位置.
CNN 基础上进行改进ꎬ使用双向特征金字塔网
络( BiFPN) ꎬ使网络得到更丰富的特征信息ꎻ应
收稿日期: 2020 - 06 - 22
作者简介: 张翔宇(1995—) ꎬ男ꎬ山东临沂人ꎬ硕士研究生在读ꎬ主要从事模式识别的研究.
通信联系人: 朱立军(1972—) ꎬ男ꎬ辽宁沈阳人ꎬ讲师ꎬ博士ꎬ主要从事模式识别的研究.
Copyright©博看网. All Rights Reserved.
第6期
张翔宇ꎬ等:改进的 Faster R - CNN 海洋鱼类检测模型
算法.
Faster R - CNN 网络模型在图片为复杂背
景时对各类别目标具有较强的鉴别能力ꎬ同时检
测速度可满足实时检测的需求. 袁红春等
[13]

563
到特 征 图 ( feature maps ) ꎬ 由 区 域 生 成 网 络
(6)
为第
四层的输出ꎻw4ꎬi 为第四层权重ꎬw4ꎬ1 ꎬw4ꎬ2 ꎬw4ꎬ3 ≥
0ꎬ通过在权重 w i 之后采用 ReLU 激活函数来保

机器学习中的目标检测与卷积神经网络模型参数调优方法及实践应用案例

机器学习中的目标检测与卷积神经网络模型参数调优方法及实践应用案例

机器学习中的目标检测与卷积神经网络模型参数调优方法及实践应用案例目标检测是机器学习领域中一个重要的任务,它被广泛应用于计算机视觉、图像处理、自动驾驶等众多领域。

而在目标检测的方法中,卷积神经网络(Convolutional Neural Networks,简称CNN)是目前被广泛使用和研究的深度学习模型。

在机器学习中,模型参数调优是十分关键的一步,它决定了模型的性能和泛化能力。

而调优卷积神经网络模型参数,尤其是用于目标检测的模型参数,是一个挑战性的任务。

本文将介绍一些常用的调优方法,并结合一个实践应用案例进行讲解。

在目标检测任务中,常用的卷积神经网络模型有Faster R-CNN、YOLO、SSD 等。

这些模型包含了许多参数,如学习率、批量大小、网络结构等。

在调优这些参数前,首先需要了解模型的性能指标和训练数据。

对于目标检测的性能指标,常见的有精确度(Precision)、召回率(Recall)和F1-score。

精确度是指被检索到的相关样本在所有检索到的样本中的比例,召回率是指被检索到的相关样本占所有相关样本的比例,F1-score是精确度和召回率的调和平均数。

训练数据则需要包含正样本和负样本的标签,用于模型的训练和评估。

针对模型参数调优,一种常用的方法是网格搜索(Grid Search)。

网格搜索将给定参数范围的所有组合都进行尝试,并通过交叉验证选择最佳的参数组合。

这种方法的优点在于简单直观,但其缺点是计算资源消耗大且耗时。

另一种常用的方法是随机搜索(Random Search)。

与网格搜索相比,随机搜索通过设置参数的分布范围,在参数空间中随机选择参数组合进行尝试。

这种方法相对于网格搜索更加高效,而且能够在有限的计算资源下得到较好的结果。

除了这些传统的调优方法,还有一些高级的优化算法也被广泛使用。

其中一种是贝叶斯优化(Bayesian Optimization),它通过构建模型来推断参数的性能,并选择最优的参数组合进行优化。

目标检测模型设计与改进综述方法比较与进步分析

目标检测模型设计与改进综述方法比较与进步分析

目标检测模型设计与改进综述方法比较与进步分析目标检测是计算机视觉领域中的重要任务,其在物体识别、智能驾驶、视频监控等方面有着广泛应用。

近年来,随着深度学习的快速发展,基于深度学习的目标检测方法取得了显著的进展。

本文将对目标检测模型的设计与改进方法进行综述,比较不同方法之间的优缺点,并分析近年来的进步。

一、基于区域建议网络(Region Proposal Networks,RPN)的目标检测方法基于RPN的目标检测方法是目前主流的检测模型之一,它通过生成一系列候选框来定位目标区域,并进行分类。

其中,Faster R-CNN 是最典型的方法之一。

Faster R-CNN采用RPN生成候选框,并利用RoI Pooling提取特征,最后通过全连接层进行分类和回归。

该方法的准确率较高,但计算量较大,检测速度较慢。

二、基于单阶段检测器的目标检测方法随着目标检测模型的发展,基于单阶段检测器的方法逐渐兴起。

YOLO(You Only Look Once)是一种较为代表性的单阶段目标检测方法。

YOLO将目标检测转化为回归问题,通过网络一次性输出目标的类别和位置信息。

相比于基于RPN的方法,YOLO具有较快的检测速度,但在小目标检测方面表现不如传统方法。

三、多尺度目标检测方法为了解决目标检测中的尺度变化问题,一些研究者提出了多尺度检测方法。

如SSD(Single Shot MultiBox Detector)通过在不同层级的特征图上进行检测,以适应不同尺度的目标。

这些方法在一定程度上提升了检测的准确率,但依然存在着小目标检测不准确等问题。

四、目标检测中的注意力机制为了解决目标检测中的分布不均衡问题,一些研究者引入了注意力机制。

在目标检测中,引入注意力机制可以使网络更加关注重要的目标区域。

比如CBAM(Convolutional Block Attention Module)通过利用通道注意力和空间注意力来提升目标检测的性能。

一种圆形锚框的Faster_R-CNN_小目标检测算法

一种圆形锚框的Faster_R-CNN_小目标检测算法

第 23卷第 1期2024年 1月Vol.23 No.1Jan.2024软件导刊Software Guide一种圆形锚框的Faster R-CNN小目标检测算法闫春相,徐遵义,刘康宁,李晨(山东建筑大学计算机科学与技术学院,山东济南 250101)摘要:小目标检测的主要任务是检测图像中尺寸小于32×32像素的目标并对其分类。

由于传统矩形锚框结构检测小目标时匹配不准确,小目标在通用数据集中数量较少且分布不均匀,导致模型检测效果较差。

为此,在Faster R-CNN的基础上,提出一种圆形锚框的小目标检测方法。

在RPN阶段采用圆形锚框定位感兴趣区域,通过新的面积交并比计算方法与损失函数减少模型参数量与锚框回归阶段的偏移计算,以增强模型对被检测目标的拟合能力,提升模型检测精度和效率。

同时,为了解决现有公开数据集中小目标占比较少及分布不均匀问题,在MS COCO 2017数据集上进行数据增强操作,仅保留其中的小目标并将标注信息修改为对小目标包裹率较高的圆形包围框。

实验表明,采用圆形锚框方法与数据增强方法在检测小目标时检测效果较好,检测效率、速度均明显优于Faster R-CNN,AP S、检测速度分别提升4.1%与4 FPS。

关键词:小目标检测;Faster R-CNN;圆形锚框;数据增强;圆交并比DOI:10.11907/rjdk.222521开放科学(资源服务)标识码(OSID):中图分类号:TP391.41 文献标识码:A文章编号:1672-7800(2024)001-0128-07A Faster R-CNN Small Object Detection AlgorithmBased on Circular AnchorYAN Chunxiang, XU Zunyi, LIU Kangning, LI Chen(College of Computer Science and Technology, Shandong Jianzhu University, Ji'nan 250101, China)Abstract:The main task of small object detection is to detect images with dimensions smaller than 32×32 pixel target and classify it. Due to the inaccurate matching of traditional rectangular anchor frame structures in detecting small targets, the number of small targets in the general dataset is small and their distribution is uneven, which will lead to poor model detection performance. Therefore, based on Faster R-CNN, a small target detection method with circular anchor frames is proposed. In the RPN stage, a circular anchor frame is used to locate the region of interest, and a new area intersection and union ratio calculation method and loss function are used to reduce the model parameter quantity and offset calculation in the anchor frame regression stage, in order to enhance the model's fitting ability to the detected target and improve the model's detection accuracy and efficiency. At the same time, in order to address the issues of low proportion and uneven distribution of small targets in existing public datasets, data augmentation was performed on the MS COCO 2017 dataset, retaining only the small targets and modi⁃fying the annotation information to a circular bounding box with a high wrapping rate for the small targets. Experiments have shown that the cir⁃cular anchor box method and data augmentation method have better detection performance in detecting small targets, with detection efficiency and speed significantly better than Faster R-CNN,AP S and detection speed have been improved by 4.1% and 4 FPS, respectively.Key Words:small target detection; Faster R-CNN; circular anchor; data augmentation; circle intersection over union收稿日期:2022-12-29基金项目:国家自然科学基金青年基金项目(62102235);山东省重点研发计划(重大科技创新工程)项目(2021CXGC011204)作者简介:闫春相(1997-),男,山东建筑大学计算机科学与技术学院硕士研究生,CCF学生会员,研究方向为计算机视觉和目标检测;徐遵义(1969-),男,博士,CCF会员,山东建筑大学计算机科学与技术学院教授、研究生导师,研究方向为计算机视觉、机器学习和数据挖掘;刘康宁(1999-),男,山东建筑大学计算机科学与技术学院硕士研究生,研究方向为计算机视觉和目标检测;李晨(2000-),女,山东建筑大学计算机科学与技术学院硕士研究生,研究方向为计算机视觉、目标检测。

基于改进Faster RCNN的目标检测方法

基于改进Faster RCNN的目标检测方法

高技术通讯2021年第31卷第5期:489499doi:10.3772/j.issn.1002-0470.2021.05.004基于改进Faster RCNN的目标检测方法①王宪保②朱啸咏姚明海(浙江工业大学信息工程学院杭州310023)摘要针对基于区域的目标检测算法中定位精度不高的问题,本文提出了一种分裂机制的改进Faster RCNN算法。

该算法首先选择特征提取能力强的卷积神经网络(CNN)作为骨干网络进行特征的提取;然后通过12种不同Anchors产生候选目标区,以进一步提升检测的精确度;最后将得到的特征分别传送到两个子网络,分别实现分类与定位。

分类网络以全连接结构为基础,定位网络则主要由卷积神经网络构成。

本文在Pascal VOC2007和Pascal VOC2012以及吸尘袋图像集上对算法的有效性进行了验证。

结果表明,提出的算法在对目标进行有效检测的同时,定位效果比Faster RCNN更加精确,实现了边界框的精准回归。

关键词目标检测;卷积神经网络(CNN);定位精度;改进Faster RCNN;分裂机制0引言目标检测,就是将目标定位和目标分类结合起来,利用图像处理、机器学习等技术,识别图片中是否存在事先定义的类别目标物体,如果存在,返回该类别目标物体的空间位置以及空间范围,一般使用矩形边框进行标定的计算机视觉技术⑷。

检测过程一般分为2个阶段,第1阶段通过目标分类判断输入的图像中是否存在目标物体,第2阶段负责将搜索到的目标物体使用边界框进行标注⑵。

这要求计算机在准确判断目标类别的同时,还要给出每个目标的准确位置。

在目标检测算法中,图像以像素矩阵的方式存储,需要从中抽象出目标类别和边框位置相关的图像特征才可以进行目标检测⑶。

传统目标检测算法,一般根据图像特征点进行匹配或是基于滑窗的框架。

首先利用图像预处理方法对输入图像进行去噪、增强、裁剪等操作,之后采用滑动窗口方法对图像进行候选区域的筛选,再采用经典特征提取方法,例如方向梯度直方图(histogram of oriented gradient, HOG)⑷,Sift⑸,可变形零件模型(deformable parts model,DPM)同等对候选区域进行特征提取,最后使用AdaBoost®和支持向量机(support vector ma­chine,SVM)⑻等机器学习算法对得到的特征进行分类,之后通过目标类别对目标进行边框回归。

目标检测的常用算法

目标检测的常用算法

目标检测的常用算法
常用的目标检测算法包括以下几种:
1. R-CNN(Regions with CNN features):该算法首先在图像
中生成候选区域,然后对每个候选区域进行卷积操作和分类,以及边界框回归。

其中,R-CNN的框架包括Selective Search、CNN特征提取和支持向量机分类。

2. Fast R-CNN:该算法是对R-CNN的改进,将候选区域和CNN特征提取合并在一起进行训练,从而增加检测速度并提
高准确率。

3. Faster R-CNN:该算法进一步优化了R-CNN和Fast R-CNN
的速度和准确率问题。

通过引入RPN(Region Proposal Network)来生成候选区域,并且在全卷积网络中进行端到端
的训练。

4. YOLO(You Only Look Once):YOLO将目标检测任务视
为一个回归问题,通过将图片网格划分为多个小网格,并预测每个小网格中是否包含目标以及目标的边界框,从而实现实时目标检测。

5. SSD(Single Shot MultiBox Detector):SSD也是一种实时
目标检测算法,类似于YOLO,它也是将目标检测任务视为
回归问题,同时使用了不同尺度的特征图来检测不同大小的目标。

6. RetinaNet:该算法通过引入Focal Loss来解决目标检测中正负样本不均衡的问题,提高了对小目标的检测能力。

以上是一些常用的目标检测算法,它们各有优劣,适用于不同的场景和需求。

嵌入CBAM的改进Faster RCNN眼底微动脉瘤检测方法

嵌入CBAM的改进Faster RCNN眼底微动脉瘤检测方法

嵌入CBAM的改进Faster RCNN眼底微动脉瘤检测方法杨丽;邵虹;崔文成
【期刊名称】《长江信息通信》
【年(卷),期】2024(37)5
【摘要】眼底微动脉瘤检测可以有效地预防和控制糖尿病性视网膜病变,在临床应用中具有重要的意义,但该病灶的目标区域较小且存在眼底出血和其他结构的干扰,同时眼底图像存在亮度、对比度不均的问题,给检测任务带来了巨大挑战。

针对此问题提出一种基于Faster RCNN网络的微动脉瘤小目标检测方法,先对数据集进行以病灶为中心的分块处理,提升目标区域的占比;再将主干网络替换为特征表达能力强的ResNet网络,并引入注意力机制,结合加入融合因子的特征金字塔模块进行多尺度特征融合,改善主干网络提取小目标特征信息的能力,增加其对目标区域的关注程度。

实验结果表明,算法在E-Ophtha MA数据集上取得了良好的检测效果,精确率为91.3%,召回率为80.2%,较原模型精确率提高了13.1%,召回率提高了8%,且与其他方法相比检测效果更好。

【总页数】4页(P40-43)
【作者】杨丽;邵虹;崔文成
【作者单位】沈阳工业大学信息科学与工程学院
【正文语种】中文
【中图分类】TP391
【相关文献】
1.改进的Faster-RCNN目标检测方法在变电站悬挂异物检测中的应用
2.基于改进特征增强Faster-RCNN的光伏电站烟雾检测方法
3.一种基于改进Faster RCNN 的通信网光交箱防尘帽智能检测方法
4.多特征尺度融合改进Faster-RCNN视网膜微动脉瘤自动检测算法
5.基于改进Faster RCNN的金属丝网缺陷检测方法
因版权原因,仅展示原文概要,查看原文内容请购买。

基于改进Faster-RCNN的自然场景人脸检测

基于改进Faster-RCNN的自然场景人脸检测

第47卷第1期Vol.47No.1计算机工程Computer Engineering2021年1月January2021基于改进Faster⁃RCNN的自然场景人脸检测李祥兵,陈炼(南昌大学信息工程学院,南昌330000)摘要:为实现对自然场景下小尺度人脸的准确检测,提出一种改进的Faster-RCNN模型。

采用ResNet-50提取卷积特征,对不同卷积层的特征图进行多尺度融合,同时将区域建议网络产生的锚框由最初的9个改为15个,以更好地适应小尺度人脸检测场景。

在此基础上,利用在线难例挖掘算法优化训练过程,采用软非极大值抑制方法解决漏检重叠人脸的问题,并在训练阶段通过多尺度训练提高模型的泛化能力。

实验结果表明,该模型在Wider Face 数据集上平均精度为89.0%,较原Faster-RCNN模型提升3.5%,在FDDB数据集上检出率也高达95.6%。

关键词:人脸检测;Faster-RCNN模型;多尺度融合;在线难例挖掘;软非极大值抑制开放科学(资源服务)标志码(OSID):中文引用格式:李祥兵,陈炼.基于改进Faster⁃RCNN的自然场景人脸检测[J].计算机工程,2021,47(1):210-216.英文引用格式:LI Xiangbing,CHEN Lian.Face detection in natural scene based on improved Faster-RCNN[J]. Computer Engineering,2021,47(1):210-216.Face Detection in Natural Scene Based on Improved Faster-RCNNLI Xiangbing,CHEN Lian(College of Information Engineering,Nanchang University,Nanchang330000,China)【Abstract】To realize accurate detection of small-scale faces in natural scene,this paper constructs an improved Faster-RCNN model.The model uses ResNet-50to extract convolution features,and performs multi-scale fusion for feature maps of different convolutional layers.At the same time,the number of Anchors generated by the Regional Proposal Network (RPN)has been changed from9to15to better adapt to the small-scale face detection scenes.On this basis,the Online Hard Example Mining(OHEM)algorithm is used to optimize the training process.Soft-Non-Maximum Suppression (Soft-NMS)method is used to reduce the missed detection of overlapping faces,and in the training phase the multi-scale training method is adopted to improve the generalization ability of the model.Experimental results show that the average precision of the proposed model is89.0%on the Wider Face dataset,which is3.5%higher than that of the original Fast-RCNN model.The relevance ratio of the proposed model reaches95.6%on the FDDB dataset.【Key words】face detection;Faster-RCNN model;multi-scale fusion;Online Hard Example Mining(OHEM);Soft-Non-Maximum Suppression(Soft-NMS)DOI:10.19678/j.issn.1000-3428.00567230概述人脸检测是计算机视觉领域的一个重要研究方向,其在实时监控、目标跟踪、安全验证等诸多场景中被广泛应用。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

D O I :10.16601/j.c n k i.is s n l001-8743.2018.02.012 文章编号:l 〇〇l-8743(2018)02-〇068-06改进Faster R-CNN 的小目标检测赵庆北、元昌安1>2,覃晓2(1广西大学计算机与电子信息学院,广西南宁530004;2.广西师范学院,广西南宁530001)摘要:Faster R-CNN 是一种比较流行的目标检测方法,由于Faster R-CNN 对小目标的识别率较低,对候选 区域生成和分类阶段对象大小的变化对网络的性能影响进行了详细的研究。

另外,还研究了特征图的分辨率对这些阶段的影响。

对于小物体,anchor 的选择是非常重要的,引入了一种改进的方案用于生成候选区域建议,提供了根据期望的定位精度来选择anchor 的标准,并且使用了多尺度RPN(Region Proposal Network)和多尺度分类网 络。

用改进后的Faster R-CNN 在Flicker 数据集上进行了验证,证明它能够提高小目标检测的性能。

关键词:Faster R-CNN RPN 目标检测公司标志中图分类号:TP391.41 文献标识码:A 2018年6月广西师范学院学报(自然科学版) Jim .2018第 35 卷第 2 期 Journal of Guangxi Teachers Education University (Natural Science Edition ) Vol .35 No . 20引言Faster R -C N N 是一种比较流行的目标检测方法,它将候选区域生成、特征提取和分类整合到一个 深度网络架构中。

公司标志一般在图片中占比较小,本研究把Faster R -C N N 应用于公司标志检测的 任务。

Faster R -C N N 的目标检测流程是建立在深层神经网络的基础上,它的卷积层通过将之前学习的 卷积应用于图像的非线性激活函数来提取抽象特征表示。

在此过程中,中间特征图通常使用最大池化 多次下采样。

本文研究了不同层次的特征层次结构对于公司标识检测问题的适用性。

小对象实例需要 比大实例更精确的定位,因此,对图像进行上采样并重复检测。

w ang [1]等人在图像分类方面以前研究过低分辨率数据。

他们得出结论,低分辨率的分类问题并没 有随着网络体系结构的加深、滤波器的增多或滤波器的增大而得到提高[1]。

并没有讨论这种做法对目 标检测有什么样的影响。

B e ll 等人[2]在Fast -R C N N 下提出了对于小目标物体的检测问题[3]。

明确地 考虑了公司标识的检测问题,并注意到感受野、对象大小和检测性能之间的关系[2]。

应用skip-pooling 等技术提取不同尺度不同抽象特征层次的特征。

他们还考虑了递归网络中获得的上下文特征。

然而, 无论是[2]和[3]只考虑网络的分类阶段。

同时,他们并没有明确地分析快速Fast R -C N N 跨越多个特 征映射和尺度的行为。

针对上述问题,本文从理论上在候选阶段研究小对象的问题。

本文推导出一个 关系,它描述了可提取的最小目标尺寸,并提供了一种选择合适的anchor 的方法。

通过详细的实验,利 用不同特征层映射的特征,将候选和分类阶段的特征作为对象大小的函数。

结果表明,对于小目标来 说,来自浅层的性能能够提供与深层的功能性能相当甚至超过深层的性能。

在最新的FlickrLogos 数 据集[4]上来评估本研究的方法。

1使用Faster R -CNN 的小目标检测当前目标检测网络通常包括两个阶段:目前检测网络的第一步就是从图像中识别ROIS (Regi 〇n of 收稿日期:2018-03-10*基金项目:国家自然科学基金资助项目(61363037)第一作者:赵庆北(1990—),男,山东聊城人,硕士生,图像处理方向.通讯作者:覃晓(1973 —),女(毛南族),副教授,研究方向:人工智能,图像处理.第2期赵庆北,等:改进Faster R-C N N的小目标检测• 69 •in te re s ts)。

这些R O I作为一个关注模型,并提出在第二阶段更为仔细地检查潜在对象位置。

在实验中,使用F a ste r R-C N N[5]的方法重新实现。

F a ste r R-C N N通过一系列的学习卷积提取图像的特征表示。

这个特征映射形成了对象候选阶段和分类阶段的基础。

第一步是由一个R P N完成,该网络通过在输入图像上生成具有指定大小和宽高比的a n c h o r开始。

对于每个anchor,作为完全卷积网络的R P N预测一个分数,该分数是包含感兴趣对象的该anchor 的概率的度量。

此外,R P N预测每个anchor的两个偏移量和比例因子,它们是精简对象位置的边界框回归机制的一部分。

这些anchor通过分数进行排序并进行非最大抑制,最佳得分anchor作为结果送到网络的第二阶段的对象建议。

在训练的时候,anchor被分为正面和负面的例子,这取决于它们与实例的重叠。

I〇U(intersection over uion)是评估定位准确率的标准。

通常,如果anchor与真实对象的Io U大于0.5,则认为是一个正例子。

Ren等人[5]使用侧面长度为2的幕的anchor,以128个像素开始。

这样的anchor选择在V〇C2007[6]等数据集上表现很好,其中对象通常相对较大,并且占总图像面积的相当大的比例。

此 外,[5]还动态地重新缩放输入图像以放大对象。

对于公司标志检测中输入图像的放大通常是不可行的。

与图像的平均边长(通常为大约1 〇〇〇像素)相比,平均物体尺寸相当小。

128长度的anchor不足以覆盖对象尺寸的范围。

为了解决这个问题,可以使用[5]的二进制方案简单地添加额外的anchor。

然而,这 种方案不适用于小物体,因为它可能无法生成具有足够重叠的anchor集。

为了说明这个问题,考虑了 图l a的情况:假设边长为sg的逼近边界框Bg和边长为sa的anchor Ba。

并且,两侧长度通过的比例因子相关。

在这些条件下,在不改变Io U的情况下可以将Bg移动到B a的任何地方(见图1)。

SgS a图1(a)IOU可以表示为在纵横比相等的对齐边框的情况下边界区域的比例(b)当使用步幅d采样anchor时,两个相等尺寸的边界框的最差情况位移在这种情况下,可以将I〇U表示为这些框包围的区域之间的比率:I心n|521t<:IoU(Bg9B a)=\------------^=+=4CD要求Io U超过一定的阈值t才能将anchor分类为正例。

因此,对于1,anchor不能覆盖足够的重叠,被归为一个正面的例子。

非二次anchor的相同关系是适用的。

因此,相邻尺度&和^的an­chor 的边长应该与心1有关。

假设存在一个位置,在该位置anchor 的拐角与真实情况完全一致。

原始图像和特征图之间的下采样因子有效地导致具有步幅d的anchor网格。

为了检查特征图分辨率对R P N识别小对象实例的影响,考虑图l b中的情况。

假设真实实例存在具有相同尺度和宽高比的anchor。

在最坏的情况下,这两个anchor彼此相隔一定距离^■。

这些anchor之间的Io U可以表示为:•70 •广西师范学院学报(自然科学版)第35卷I o U(B g,B a)(^-春)2(2)在假设d>〇且〇<i<l时求解(<I〇U(B g,B a)为忽略该二次表达式的负解,对于最小可检测物体尺寸,得到以下关系:d i t +1) -\- d ^2t{t +1) ^,、2^2t〜Sg⑶对于作为Faster R-CNN d = 16为基础的VGG16[8]架构。

假设f= 0.5,转换成最小可检测对象大小S~〜44p x。

这表明,对于尺寸分布的小端,需要更高分辨率的特征图。

对于C〇nv4特征图W=8),最小可检测物体大小由&〜22p x给出。

因为不希望用于分类的对象小于30p x,所以使用两个最小an­chor 中较小的幂作为最小anchor尺寸。

基于之前的结果,遵循[5]的推荐并设定0.5,所以 ,选择an-chor集 A = 32,45,64,90,128,181,256。

1.1 小目标的候选区域选择要评估不同对象大小的R P N的有效性。

而R P N有效性的主要标准是平均最佳重叠MABO (mean average best overlap)。

它测量R P N为每个具有高重叠度的对象生成至少一个候选区域的能力。

如果C代表一组对象类,G,是特定类,e£C,并且L代表一组对象提议真实框对象的集合,可以通过其平均最佳重叠ABO(ABO(c))来评估特定类的R P N的性能,其中Z,式子如下:A B O(e) =-----2m a x I o l K g,Z)(4)|G e |geo,其中是真实项目g和建议1之间的交集。

M A B O是对每个对象类的所有A B O值的平均值。

为了检查对象大小对R P N性能的影响,通过对每个图像应用以下算法来创建F lic k r L〇g〇s[4]数据集的不同的变体:首先选择两个非重叠的真实边界框之间具有最大距离的点。

这一点定义了将图像分割成四个部分的两个轴,并确保分割的轴不与任何其他基准项相交。

如果没有找到这样的分割,则丢弃图像。

对于包含多个真实项目的每个结果分区,该过程将被递归地应用。

应用此算法后,每个图像只包含一个对象实例,然后将其重新缩放以匹配所需的目标大小。

使用这个算法创建了测试集的11个不同比例的版本,称之为Fte s t,其中:^6{10^+20卜=0,〜,10}表示以对象区域的平方根测量的目标对象大小。

此外,本研究创建一个单一的训练数据集Ftain,其中对象被缩放,使得对象区域均匀地分布在间隔[20p x,120px]中。

为了观察R P N在不同层的性能,基于[5]使用的VGG16架构m,创建了三个RPN。

这些网络分别使用c o n v3,c o n v4和c o n v5层的特征来预测对象提案。

这些特征通过归一化层,其将标准化为具有零均值和单位方差的值。

这与批量归一化相似[8]。

然而,将 对培训集的激活归一化,而不是像[8]中的当前批次。

这样做可以轻松使用现有的Imagenet [8]预训练的V G G16网络。

那些预先训练的模型通常具有当数据通过网络进行时,激活的方差从一层到另一层逐渐减小的属性。

例如,添加不同深度的附加分支将导致每个分支中的不同比例的激活,这反过来导致每个分支中的有效学习率不同。

这种规范化方案规避了这个问题。

在这个特征规范化之上,放置一个标准的R P N,它由使用与前一层相同数量的通道的3X3卷积组成。

相关文档
最新文档