基于融合FPN和Faster R-CNN的行人检测算法
单阶段目标检测算法

单阶段目标检测算法单阶段目标检测算法是在计算机视觉领域中用于识别和定位图像中目标物体的一种算法。
与传统的两阶段目标检测算法(如Faster R-CNN)相比,单阶段目标检测算法具有简单、直接、易于实现等优点。
它将目标检测问题转化为一个回归问题或分类问题,通过一个神经网络将输入图像映射到目标的类别、位置和分数。
1. YOLO (You Only Look Once)YOLO是一种非常流行的单阶段目标检测算法,其核心思想是将目标检测任务视为一个回归问题。
YOLO将图像分割成一个S x S网格,并为每个网格预测B个边界框。
每个边界框包含了一个目标物体,同时预测其类别、位置和置信度。
YOLO使用卷积神经网络提取图像特征,并通过回归器和分类器预测目标的位置和类别。
通过将网络的输出与先验框(anchor box)相结合,YOLO可以实现对目标的定位和分类。
2. SSD (Single Shot MultiBox Detector)SSD是另一个经典的单阶段目标检测算法。
它通过在图像中应用不同尺度的卷积核来检测不同大小的目标物体。
SSD在多个特征层上进行预测,以利用来自不同尺度的特征。
每个特征层生成一组边界框,并针对每个边界框预测其类别和位置。
SSD通过使用卷积层和全连接层实现目标分类和回归。
3. RetinaNetRetinaNet是一种基于特征金字塔网络(Feature Pyramid Network,FPN)的单阶段目标检测算法。
FPN提取了高层级和低层级特征,并通过上采样和跳跃连接的方式将它们进行融合,以保留高分辨率的特征和丰富的语义信息。
RetinaNet在融合的特征上添加了一组不同尺度的卷积层,每个卷积层负责检测不同大小的目标。
RetinaNet使用分类回归头来预测每个边界框的类别和位置。
这些单阶段目标检测算法在不同的任务和场景中均取得了较好的效果,并在计算机视觉领域中得到广泛应用。
随着深度学习的快速发展,不断有新的单阶段目标检测算法涌现,以进一步提高检测准确性和速度。
基于改进SSD的行人检测算法

第34卷第3期2023年9月广西科技大学学报JOURNAL OF GUANGXI UNIVERSITY OF SCIENCE AND TECHNOLOGY Vol.34No.3 Sept.2023基于改进SSD的行人检测算法张伦,谭光兴*(广西科技大学自动化学院,广西柳州545616)摘要:针对目前主流的目标检测算法在检测行人时无法兼顾精度与实时性的问题,提出一种改进单次多框检测器(single shot multibox detector,SSD)的行人检测算法。
首先,将高效通道注意力机制引入浅层网络中并重新分配特征权重,引导网络更加关注小尺度行人的特征信息;其次,构造一种新的特征融合模块以改善浅层特征语义信息不足的问题;最后,通过优化原始先验框的参数来生成适用于检测行人的先验框。
实验结果表明,改进后的算法在PASCAL VOC2007行人测试集上的平均精度达到82.96%,较SSD提高了3.83%,在小尺度行人测试集上提高了5.48%,同时检测速度达到了69.2FPS,满足实时性的要求。
关键词:单次多框检测器(SSD);行人检测;注意力机制;特征融合中图分类号:TP391.41DOI:10.16375/45-1395/t.2023.03.0130引言行人检测作为计算机视觉领域中的研究热点之一,是指判断图像或视频帧中是否存在行人并标记其具体位置,在视频监控、智能安防以及自动驾驶等领域应用越来越广泛[1]。
虽然现有的方法在行人检测任务中已取得一些研究进展,但由于行人姿态多变、相互遮挡以及小尺度行人目标特征信息较少等因素的影响,仍然存在被误检、漏检的问题,因此对行人检测方法还需进一步研究。
近年来,随着深度学习的迅速发展,基于深度学习的行人检测方法在行人检测技术中占据了主导地位,该方法主要分为两阶段检测算法和单阶段检测算法。
两阶段检测算法首先生成目标的候选区域,然后将其送入分类器中进行分类和回归[2]。
基于深度学习的目标检测技术的研究综述

基于深度学习的目标检测技术的研究综述摘要:随着深度学习方法的快速发展,目标检测作为计算机视觉领域中最基本、最有挑战性的任务之一,取得了令人瞩目的进展。
本文总结了目标检测的研究背景、意义及难点,对基于深度学习的目标检测算法进行综述,并指出了存在问题与发展方向。
关键词:深度学习;目标检测;特征提取1.引言目标检测结合了目标定位与目标分类两大任务,被广泛应用于行人检测、自动驾驶等计算机视觉领域,为用户提供有价值的信息。
目标检测的主要任务是从图像中定位目标,然后准确地判断每个目标的类别。
当前目标检测技术已经广泛应用于日常生活、交通场景检测等领域。
由于同一类物体的不同实例间可能存在很大差异,而不同类物体间可能非常相似,以及不同的成像条件和环境因素会对物体的外观产生巨大的影响,使得目标检测具有很大的挑战性。
根据检测算法中是否手动提取特征,可以将目标检测算法分为传统方法和基于深度学习的算法。
传统的基于手工特征的目标检测算法对于一般图像中的目标识别精度差、定位不准确,因此无法满足当前实际场景中对于检测的需求。
区域选择多是采用基于滑动窗口的检测方法,特征提取采用手动选择,如颜色特征、纹理特征等。
由多种因素导致检测算法复杂度高,鲁棒性低、准确度和实时性差的缺点。
基于深度学习的目标检测技术解决了传统目标检测的缺点,通过引入卷积神经网络自学习目标特征来代替传统手动选择和提取特征的过程,引入区域候选框或直接回归方法可以提高目标检测准确度和实时性。
2.基于深度学习的目标检测的研究现状深度学习是通过多层非线性变换对高复杂性数据进行建模的算法合集。
多层指神经网络的层数,深度是超过8层的神经网络,层数越多,深度越深。
非线性是指处理实际应用中复杂的非线性可分问题,采用复杂的函数逼近,进而更加详尽地表征出数据的特性。
深度学习的本质就是采用多个隐层的机器学习模型和海量的训练数据来尽可能充分地表征和学习到有用的特征信息,进而预测或识别出结果。
基于Vision_Transformer的毫米波人体安检图像违禁品识别

基于 Vision Transformer 的毫米波人体安检图像违禁品识别贾宝芝1,2(1.厦门瑞为信息技术有限公司研究院;2.厦门市视觉感知技术及应用重点实验室 福建厦门 361000)摘要: 毫米波人体安检图像因为成像质量和遮挡等问题,使违禁品的识别难度较大。
因此采用更优的检测识别算法,提升违禁品的识别速度和精度一直是业内重点研究的方向。
将Vision Transformer (ViT )应用到毫米波图像违禁品的识别过程中,通过将无监督预训练的ViT 与经典的目标检测算法(Faster R-CNN )相结合,实现了高精度的毫米波人体安检图像违禁品识别。
为了充分训练和测试算法,制作一个包含枪支和刀具两类违禁品,共计14.5万个违禁品成像样本的毫米波人体安检数据集。
通过与经典的基于101层残差网络(ResNet-101)的Faster R-CNN 对比,该算法使mAP50提升了2.4个点,达到了89.9%。
关键词: 毫米波人体安检 无监督 违禁品识别 残差网络中图分类号: TP391.41文献标识码: A文章编号: 1672-3791(2023)23-0055-04Identification of Prohibited Items in Millimeter-Wave Human Security Inspection Images Based on the Vision TransformerJIA Baozhi 1,2(1.Research Institute of Xiamen Reconova Information Technology Co., Ltd.; 2.Xiamen Key Laboratory of VisualPerception Technology and Application, Xiamen, Fujian Province, 361000 China)Abstract: The millimeter-wave human security inspection image is difficult to identify prohibited items because of problems such as imaging quality and occlusion, so using a better detection and identification algorithm to improve the identification speed and accuracy of prohibited items has always been a key research direction in the industry. This paper applies the Vision Transformer (ViT) to the millimeter-wave image identification process of prohibited items, combines the unsupervised pre-trained ViT with the classic object detection algorithm Faster R-CNN, and achieves the high-precision millimeter-wave human security inspection image identification of prohibited items. In order to fully train and test the algorithm, this article creates a millimeter-wave human security inspection dataset which contains two kinds of prohibited items: guns and knives, with a total of 145,000 imaging samples of prohib‐ited items. Compared with the classic Faster R-CNN based on ResNet-101, the algorithm improves mAP50 by 2.4 points to 89.9%.Key Words: Millimeter-wave human security inspection; Unsupervised; Identification of prohibited items;Re‐sidual network毫米波安检是一种高级安全检查技术,用于检测隐藏在人体或物体表面的非法物品或危险物质。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ISSN1004⁃9037,CODENSCYCE4JournalofDataAcquisitionandProcessingVol.34,No.3,May2019,pp.530-537DOI:10.16337/j.1004⁃9037.2019.03.016Ⓒ2019byJournalofDataAcquisitionandProcessinghttp://sjcj.nuaa.edu.cnE⁃mail:sjcj@nuaa.edu.cnTel/Fax:+86⁃025⁃84892742
基于融合FPN和FasterR⁃CNN的行人检测算法王飞1王林2张儒良2赵勇3王全红3(1.贵州民族大学人文科技学院,贵阳,550025;2.贵州民族大学数据科学与信息工程学院,贵阳,550025;3.北京大学深圳研究生院信息工程学院,深圳,518055)
摘要:针对多尺度行人检测的问题,本文提出一种基于融合特征金字塔网络(Featurepyramidnetworks,FPN)和FasterR⁃CNN(Fasterregionconvolutionalneuralnetwork)的行人检测算法。首先,
对FPN和区域建议网络(Regionproposalnetworks,RPN)进行融合;然后,对FPN和FastR⁃CNN进行融合;最后,在Caltech数据集、KITTI数据集和ETC数据集上分别对融合FPN和FasterR⁃CNN的行人检测算法进行训练和测试。该算法在Caltech数据集、KITTI数据集和ETC数据集上的mAP(meanAveragePrecision)分别达到69.72%,69.76%和89.74%。与FasterR⁃CNN相比,该算法不仅提高了行
人检测精度,而且在多尺度行人检测的问题上也获得了较为满意的检测效果。关键词:特征金字塔网络;区域建议网络;FasterR⁃CNN;多尺度行人检测中图分类号:TP391.41文献标志码:A
PedestrianDetectionAlgorithmBasedonFusionFPNandFasterR⁃CNNWangFei1,WangLin2,ZhangRuliang2,ZhaoYong3,WangQuanhong3
(1.CollegeofHumanities&Sciences,GuizhouMinzuUniversity,Guiyang,550025,China;2.CollegeofDataScienceandInformationEngineering,GuizhouMinzuUniversity,Guiyang,550025,China;3.SchoolofElectronicandComputerEngineering,ShenzhenGraduateSchoolPekingUniversity,Shenzhen,518055,China)
Abstract:Aimingattheproblemofmulti⁃scalepedestriandetection,apedestriandetectionalgorithmbasedonfusionfeaturepyramidnetworks(FPN)andfasterR⁃CNN(Fasterregionconvolutionalneuralnetwork)isproposed.Firstly,FPNandregionproposalnetworks(RPN)arefused.Secondly,FPNandFastR⁃CNNarefused.Finally,thepedestriandetectionalgorithmwithfusionFPNandFasterR⁃CNNistrainedandtestedonCaltechdataset,KITTIdataset,andETCdataset,respectively.ThemAP(meanAveragePrecision)ofthisalgorithmreaches69.72%,69.76%and89.74%onCaltechdataset,KITTIdataset,andETCdataset,respectively.ComparedwithFasterR⁃CNN,thisalgorithmnotonlyimprovesthepedestriandetectionaccuracy,butalsoobtainssatisfactorydetectioneffectontheproblemofmulti⁃scalepedestriandetection.Keywords:featurepyramidnetworks;regionproposalnetworks;FasterR⁃CNN(Fasterregionconvolu⁃tionalneuralnetwork);multi⁃scalepedestriandetection
基金项目:贵州省教育厅创新群体重大研究项目(黔教合KY字[2018]018)资助项目;深圳市科技计划(JCYJ20160506172651253)资助项目;贵州省研究生科研基金立项课题(黔教研合KYJJ字[2016]04)资助项目;贵州民族大学人文科技学院科研基金(18rwjs016)资助项目。收稿日期:2018⁃02⁃23;修订日期:2019⁃04⁃19王飞等:基于融合FPN和FasterR⁃CNN的行人检测算法引言近年来,随着深度学习(Deeplearning,DL)这股浪潮的兴起,计算机视觉领域逐渐采用深度学习算法来研究目标检测。2013年,Sermanet等[1]提出一种基于卷积神经网络(Convolutionalneuralnetworks,CNN)的OverFeat算法,该算法主要采用滑窗来实现对目标的定位检测。2014年,Girshick等[2]
提出R⁃
CNN(Regionconvolutionalneuralnetwork)算法。该算法首先采用选择性搜索(Selectivesearch,SS)[3]
从
图像中提取2000个可能包含目标的候选区域,即感兴趣区域(Regionofinterest,RoI);然后将这些RoI压缩到统一大小(227×227),并传递给CNN进行特征提取;最后把提取到的特征送入支持向量机(Supportedvectormachine,SVM)分类器,以获得该RoI的种类。2015年,Girshick等[4]提出FastR⁃CNN算法,该算法首先采用SS算法从原始图像中提取2000个RoI,然后对整幅图像进行卷积计算,得到卷积特征图,最后使用感兴趣区域池化层从卷积特征图中提取每个候选框的特征向量。2015年,Ren等[5]提出FasterR⁃CNN算法,该算法采用区域建议网络(Regionproposalnetwork,RPN)替代SS算法进行候选框选择,使整个目标检测实现了端到端的计算。深度学习目标检测也可以采用回归的思想。最具有代表性的是YOLO[6](Youonlylookonce)和SSD[7](Singleshotmultiboxdetector)两种算法。行人检测是通用目标检测的一种特例。针对行人检测自身的特性,研究人员提出一些基于深度学习的行人检测算法。2013年,Ouyang等[8]提出Jointdeep算法,该算法将行人检测的特征提取、变形处理、遮挡处理和分类组合成一个联合的深度学习框架。2016年,Zhang等[9]提出一种结合RPN和RF(Roostedforests)的行人检测算法,该算法有效地克服了R⁃CNN用于行人检测的两个限制:处理小实例的特征映射的分辨率不足和缺乏用于挖掘难例的引导策略。2017年,Mao等[10]提出一种HyperLearner网络架构,其联合学习行人检测以及给定的额外特征。通过多任务训练,其能够利用给定特征的信息来提高检测性能,而不需要额外的推理输入。针对多尺度行人检测的问题,本文对特征金字塔网络[11](Featurepyramidnetworks,FPN)和FasterR⁃CNN进行融合,提出一种基于融合FPN和FasterR⁃CNN的行人检测算法。
1基于FasterR⁃CNN的行人检测基于FasterR⁃CNN的行人检测的整体网络结构图如图1所示,该网络结构的输入是一幅包含行人的图像,输出是行人的概率得分和边界框。RPN生成300个候选区域输入给行人检测网络FastR⁃CNN,考虑到RPN和FastR⁃CNN网络的前部分都采用若干卷积层来计算特征图。因此,此网络结构
图1基于FasterR⁃CNN的行人检测的整体网络结构图Fig.1OverallnetworkstructurediagramofpedestriandetectionbasedonFasterR⁃CNN
531数据采集与处理JournalofDataAcquisitionandProcessingVol.34,No.3,2019把这两个网络统一成一个网络,使得RPN和FastR⁃CNN卷积层参数共享,最终形成一个端到端的目标检测网络结构。1.1特征提取当前,用于图像特征提取的主流网络有AlexNet,GoogLeNet,VGGNet,ResNet和DenseNet。综合考虑网络的复杂度以及分类精度,本文采用VGG16网络来提取图像特征,即采用在ImageNet数据集上预训练的权值作为初始值进行网络训练。1.2区域建议网络FasterR⁃CNN使用CNN直接生成候选区域,该网络称之为RPN,如图2所示。在RPN中,最后一个卷积层有512个卷积核,因此,特征图有512个,特征维度为512维,每个特征图的大小约为40×60。采用3×3的滑窗来滑动特征图,当滑窗滑到每个位置时,预测输入图像3种尺度{128,256,512}和3种长宽比{1∶1,1∶2,2∶1}的候选区域,因此,每个滑动的位置有k=9个候选区域,一幅图像会生成约40×60×9个候选区域。在卷积层之后接有两个全连接层,一个为分类层(Cls⁃layer),其输出2k个得分,用于判定候选区域是行人还是背景;另
一个为边界回归层(Reg⁃layer),其输出4k个坐标,用于对候选区域的边界进行微调。虽然由RPN选取的候选区域约有2000个,但是,该网络结构依据候选区域的得分高低筛选出前300个输入到行人检测网络中。1.3感兴趣区域池化层R⁃CNN是将提前生成好的每个RoI作为一幅图像输入到网络中进行后续操作。本文先对整幅图像提取一次卷积层特征,接着把RoI在原始图像的位置映射到卷积层的特征图上,以获得各个RoI的特征图。由RoI在原始图像的位置到特征图映射任务的层,称之为感兴趣区域池化层(RoIpoolinglayer),如图3所示。在映射出每一个RoI的特征图后,需要把它们输入给全连接层,但是,全连接层要求大小一样的特征输入,而RoI的大小却是不相同的,为了通过该层映射输出大小一样的特征,本文网络结构对文献[12]中SPP⁃Layer进行了改进,采用单尺度输出7×7的特征图,若输入的候选区域为(r,c,h,w),RoIpoolinglayer首先产生7×7个r×c×(h/7)×(w/7)的块,然后利用Maxpooling方式