行人检测与目标跟踪算法研究

行人检测与目标跟踪算法研究
行人检测与目标跟踪算法研究

基于opencv中光流法的运动

行人目标跟踪与检测

一、课题研究背景及方法

行人检测具有极其广泛的应用:智能辅助驾驶,智能监控,行人分析以及智

能机器人等领域。从2005年以来行人检测进入了一个快速的发展阶段,但是也存在很多问题还有待解决,个人觉得主要还是在性能和速度方面还不能达到一个权衡。

早期以静态图像处理中的分割、边缘提取、运动检测等方法为主。例如

(1)以Gavrila为代表的全局模板方法:基于轮廓的分层匹配算法,构造了将近2500个轮廓模板对行人进行匹配, 从而识别出行人。为了解决模板数量众多而引起的速度下降问题,采用了由粗到细的分层搜索策略以加快搜索速度。另外,匹配的时候通过计算模板与待检测窗口的距离变换来度量两者之间的相似性。

(2)以Broggi为代表的局部模板方法:利用不同大小的二值图像模板来对人头和肩部进行建模,通过将输入图像的边缘图像与该二值模板进行比较从而识别行人,该方法被用到意大利Parma大学开发的ARGO智能车中。

(3)以Lipton为代表的光流检测方法:计算运动区域内的残余光流;

(4)以Heisele为代表的运动检测方法:提取行人腿部运动特征;

(5)以Wohler为代表的神经网络方法:构建一个自适应时间延迟神经网络来判断是否是人体的运动图片序列;

以上方法,存在速度慢、检测率低、误报率高的特点。

2、行人检测的研究现状

(1)基于背景建模的方法:分割出前景,提取其中的运动目标,然后进一步

提取特征,分类判别;在存在下雨、下雪、刮风、树叶晃动、灯光忽明忽暗等场

合,该方法的鲁棒性不高,抗干扰能力较差。且背景建模方法的模型过于复杂,对

参数较为敏感。

(2)基于统计学习的方法:根据大量训练样本构建行人检测分类器。提取的

特征一般有目标的灰度、边缘、纹理、形状、梯度直方图等信息,分类器包括神经

网络、SVM,adaboost等。该方法存在以下难点:

(a)行人的姿态、服饰各不相同;

(b)提取的特征在特征空间中的分布不够紧凑;

(c)分类器的性能受训练样本的影响较大;

(d)离线训练时的负样本无法涵盖所有真实应用场景的情况;

尽管基于统计学习的行人检测方法存在着诸多的缺点,但依然有很多人将注

意力集中于此。

行人检测国外研究情况:

法国研究人员Dalal在2005的CVPR发表的HOG+SVM的行人检测算法(Histograms of Oriented Gradients for Human Detection, Navneet

Dalel,Bill Triggs, CVPR2005)。

Dollar 在 2010 年 BMVC 的《The fastest pedestrian detector in the

west》一文中提出了一种新的思想,这种思想只需要训练一个标准 model,检测N/K(K ≈10)然后其余的 N-N/K 种大小的图片的特征不需要再进行这种复杂的计算,而是跟据这 N/K 次的结果,由另外一种简单的算法给估计出来,这种思

想实现的基础是大小相近的图像的特征可以被足够精确的估计出来;同年,德国

人:Stefen Walk文中使用改进的HOG,即HOF和CSS(color self similarity)特征,使用HIK SVM分类器。

2012年PAMI上发表的一篇关于行人检测的综述性文章,对常见的16种行人检测算法进行了简单描述,并在6个公开测试库上进行测试,给出了各种方法的优

缺点及适用情况。另外,指出了未来行人检测的发展方向和趋势。

加州理工学院2009年行人检测的文章:Integral Channel Features(积分通道特征)

2013年ICCV2013: 1)Joint Deep Learning for Pedestrian Detection

2)Multi-Stage Contextual Deep Learning for Pedestrian Detection 简称UDN算法,从文中描述的检测效果来看,该方法是所有方法中最好的,并且,效果

远超过其他方法。经过对论文和该算法源码的研究,该算法是与作者另外一篇论文的方法,另外的论文算法做图片扫描,得到矩形框,然后用该方法对矩形框进

行进一步确认,以及降低误警率和漏警率。另外的论文是:Multi-Stage Contextual Deep Learning for Pedestrian Detection。这篇文章是用深度学习的CNN做candidate window的确认。而主要的行人检测的算法还是

HOG+CSS+adaboost。

IJCV2014年的文章:Detection and Tracking of Occluded People,利用DPM模型,检测粘连情况很严重的行人,效果很好。

行人检测国内研究情况:

2007年,苏松志,李绍滋,陈淑媛等.行人检测技术综述[J];杜友田; 陈峰;徐文立; 李永彬;基于视觉的人的运动识别综述, 电子学报。

2008年,贾慧星,章毓晋,车辆辅助驾驶系统中基于计算机视觉的行人检测

研究综述[J]; 朱文佳,基于机器学习的行人检测关键技术研究[D].

三、基于opencv中光流算法的运动目标跟踪与检测

(1)0基于opencv的光流算法的运动目标跟踪与检测实现框图如下

(2)图像预处理

图像预处理的目的就要减少图像的噪声,以及为提取图像特征做准备,提高

图像的识别率和准确率。本研究课题主要用到的图像预处理技术主要是:彩色图像

灰度化,灰底图像高斯滤波,直方图均衡化等技术。

2、图像特征提取和检测

传统的运动目标跟踪和检测算法都是依据SVM、深度学习、adaboost等方法做分类,HOG、harr等特征作为目标跟踪和检测的前提。但是依据这些方法,实现

较复杂,依据目标提取特征也较为复杂,而且特征提取也较为繁琐,针对不同的目

标检测任务需要训练不同的分类器,这样耗时而且工作量巨大,数据量也是巨大。

本研究课题不需要大量数据,只需要一段视频图像数据作为输入,然后采用光流算

法,角点检测,视频图像中运动目标的关键点提取,以及确定目标区域大致范围。

本研究课题运动目标是行人,其他运动目标依据改算法应该也是可行的。都是运动

目标,都是对目标依据光流算法提取运动目标特征。

光流算法原理:光流是图像亮度的运动信息描述。光流法计算最初是由Horn 和Schunck于1981年提出的,创造性地将二维速度场与灰度相联系,引入光流约

束方程,得到光流计算的基本算法.光流计算基于物体移动的光学特性提出了2个假设:

①运动物体的灰度在很短的间隔时间内保持不变;

②给定邻域内的速度向量场变化是缓慢的。

假设图像上一个像素点(x,y),在t时刻的亮度为E(x+Δx,y+Δy,t+Δt),同时用u(x,y0和v(x,y)来表示该点光流在水平和垂直方向上的移动分量:

u=dx/dt v=dy/dt 在经过一段时间间隔Δt后该点对应点亮度为

E(x+Δx,y+Δy,t+Δt),当Δt很小趋近于0时,我们可以认为该点亮度不变,所以可以有:

E(x,y,t)=E(x+Δx,y+Δy,t+Δt) 当该点的亮度有变化时,将移动后点的亮度由Taylor公式展幵,可得:

忽略其二阶无穷小,由于Δt趋近于0时,有:

式中w=(u,v),所以上式就是基本的光流约束方程。

其中令

表示图像中像素点灰度沿x,y,t方向的梯度,可将上式改写成:

Lucas-Kanade是一种广泛使用的光流估计的差分方法,这个方法是由Bruce D. Lucas和Takeo Kanade发明的。它假设光流在像素点的邻域是一个常数,然后使

用最小二乘法对邻域中的所有像素点求解基本的光流方程。

通过结合几个邻近像素点的信息,卢卡斯-金出方法(简称为L-K方法)通常能够消除光流方程里的多义性。而且,与逐点计算的方法相比,L-K方法对图像噪声不敏感。不过,由于这是一种局部方法,所以在图像的均匀区域内部,L-K方法无法提供光流信息。

Lucas-Kanade改进算法

Jean-Yves Bouguet提出一种基于金字塔分层,针对仿射变换的改进Lucas-Kanade算法。

为什么要用金字塔?因为lk算法的约束条件即:小速度,亮度不变以及区域

一致性都是较强的假设,并不很容易得到满足。如当物体运动速度较快时,假设不

成立,那么后续的假设就会有较大的偏差,使得最终求出的光流值有较大的误差。

考虑物体的运动速度较大时,算法会出现较大的误差。那么就希望能减少图

像中物体的运动速度。一个直观的方法就是,缩小图像的尺寸。假设当图像为

400×400时,物体速度为[16 16],那么图像缩小为200×200时,速度变为

[8,8]。缩小为100*100时,速度减少到[4,4]。所以在源图像缩放了很多以后,原算法又变得适用了。所以光流可以通过生成原图像的金字塔图像,逐层求解,不

断精确来求得。简单来说上层金字塔(低分辨率)中的一个像素可以代表下层的两个。

假设I和J是两幅2D的灰度图像,对于图像上每个像素点的灰度值定义为:

I(x)=I(x,y) 和J(x)=j(x,y)

其中x=(x,y)是图像上像素点的图像坐标。

在实际场景中图像I和图像J可以代表前后两帧图像。对于图像特征点金字塔跟踪

来说的目的是:对于前一帧的图像I上一点u(ux,uy),要在后一帧图像J上找到一点v(ux+dx,uy+dy)与之相匹配,即灰度值最接近。那么向量d=[dx,dy]就是图像在点u处的运动速度,也就是所说像素点u的光流。为了进一步说明向量d的含义。我们假设前一帧图像经历了仿射变换到后一帧图像,定义变换矩阵为

其中四个参数dxx,dyy,dxy,dyx表征着图像中的仿射变形。所以光流计算的目

的转变成找到向量d和变换矩阵A使得图像上一块区域内灰度差最小。

定义误差

其中两个整数wx和wy设定了图像上矩形窗口的大小(2*wx+1)和(2*wy+1)。典型的wx和wy取值为1,2,3,4,5,6,7个像素,相似度的函数被在(2ωx+1, 2ωy+1)的区域内定义。注意在金字塔各层窗口的大小是保持恒定的尺寸。对于

Lucas-Kanade改进算法来说,主要的步骤有三步:建立金字塔,基于金字塔跟

踪,迭代过程。

本研究课题主要依据金字塔跟踪算法,原理如下:

总体来讲,金字塔特征跟踪算法描述如下:首先,光流和仿射变换矩阵在最

高一层的图像上计算出;将上一层的计算结果作为初始值传递给下一层图像,这一

层的图像在这个初始值的基础上,计算这一层的光流和仿射变化矩阵;再将这一层

的光流和仿射矩阵作为初始值传递给下一层图像,直到传递给最后一层,即原始图

像层,这一层计算出来的光流和仿射变换矩阵作为最后的光流和仿射变换矩阵的结

果。

对于L=0,1,2,…L,定义

是图像中像素点u在第L层对应点的坐标。根据上一步中图像金字塔的定义,可以

计算出

我们用数学的思想重新描述在L层和L+1层迭代运算,假定在第L层有对被跟踪目标的位置有个大致估计,而从第L+1层传递到L层的运动矢量,即光流计算初值为

目标跟踪算法

clc; clear; x=[0 16 25 33 50 65 75 82 100]; y=[0 172.5 227.5 324.2 330.7 286.1 237.7 201.7 0]; plot(xx,yy); 的图为 xx = 0:.01:100; yy = spline(x,y,xx); plot(xx,yy)

Matlab画平滑曲线的两种方法(拟合或插值后再用plot即可) 分类:MATLAB2012-12-02 11:15 25540人阅读评论(4) 收藏举报自然状态下,用plot画的是折线,而不是平滑曲线。 有两种方法可以画平滑曲线,第一种是拟合的方法,第二种是用spcrv,其实原理应该都一样就是插值。下面是源程序,大家可以根据需要自行选择,更改拟合的参数。 clc,clear; a = 1:1:6; %横坐标 b = [8.0 9.0 10.0 15.0 35.0 40.0]; %纵坐标

plot(a, b, 'b'); %自然状态的画图效果 hold on; %第一种,画平滑曲线的方法 c = polyfit(a, b, 2); %进行拟合,c为2次拟合后的系数 d = polyval(c, a, 1); %拟合后,每一个横坐标对应的值即为d plot(a, d, 'r'); %拟合后的曲线 plot(a, b, '*'); %将每个点用*画出来 hold on; %第二种,画平滑曲线的方法 values = spcrv([[a(1) a a(end)];[b(1) b b(end)]],3); plot(values(1,:),values(2,:), 'g');

基于meanshift的目标跟踪算法——完整版

基于Mean Shift的目标跟踪算法研究 指导教师:

摘要:该文把Itti视觉注意力模型融入到Mean Shift跟踪方法,提出了一种基于视觉显著图的Mean Shift跟踪方法。首先利用Itti视觉注意力模型,提取多种特征,得到显著图,在此基础上建立目标模型的直方图,然后运用Mean Shift方法进行跟踪。实验证明,该方法可适用于复杂背景目标的跟踪,跟踪结果稳定。 关键词:显著图目标跟踪Mean Shift Mean Shift Tracking Based on Saliency Map Abstract:In this paper, an improved Mean Shift tracking algorithm based on saliency map is proposed. Firstly, Itti visual attention model is used to extract multiple features, then to generate a saliency map,The histogram of the target based on the saliency map, can have a better description of objectives, and then use Mean Shift algorithm to tracking. Experimental results show that improved Mean Shift algorithm is able to be applied in complex background to tracking target and tracking results are stability. 1 引言 Mean Shift方法采用核概率密度来描述目标的特征,然后利用Mean Shift搜寻目标位置。这种方法具有很高的稳定行,能够适应目标的形状、大小的连续变化,而且计算速度很快,抗干扰能力强,能够保证系统的实时性和稳定性[1]。近年来在目标跟踪领域得到了广泛应用[2-3]。但是,核函数直方图对目标特征的描述比较弱,在目标周围存在与目标颜色分布相似的物体时,跟踪算法容易跟丢目标。目前对目标特征描述的改进只限于选择单一的特征,如文献[4]通过选择跟踪区域中表示目标主要特征的Harris点建立目标模型;文献[5]将初始帧的目标模型和前一帧的模型即两者的直方图分布都考虑进来,建立混合模型;文献[6]提出了以代表图像的梯度方向信息的方向直方图为目标模型;文献[7-8]提出二阶直方图,是对颜色直方图一种改进,是以颜色直方图为基础,颜色直方图只包含了颜色分布信息,二阶直方图在包含颜色信息的前提下包含了像素的均值向量和协方差。文献[9]提出目标中心加权距离,为离目标中心近的点赋予较大的权值,离目标中心远的点赋予较小的权值。文献[4-9]都是关注于目标和目标的某一种特征。但是使用单一特征的目标模型不能适应光线及背景的变化,而且当有遮挡和相似物体靠近时,容易丢失目标;若只是考虑改进目标模型,不考虑减弱背景的干扰,得到的效果毕竟是有限的。 针对上述问题,文本结合Itti 提出的视觉注意模型[5],将自底向上的视觉注意机制引入到Mean Shift跟踪中,提出了基于视觉显著图的Mean Shift跟踪方法。此方法在显著图基础上建立目标模型,由此得到的目标模型是用多种特征来描述的,同时可以降低背景对目标的干扰。 2 基于视觉显著图的Mean Shift跟踪方法

人体目标检测与跟踪算法研究

人体目标检测与跟踪算法研究 摘要:近些年以来,基于视频中人体目标的检测与跟踪技术研究越来越被重视。然而,由于受到目标自身特征多样性和目标所处环境的复杂性和不确定性的影响,现存算法的性能受到很大的限制。本文对目前所存在的问题进行了分析,并提出了三帧差分法和改进阈值分割法相结合的运动目标检测算法和多特征融合的改进运动目标跟踪算法。这两种算法不仅可以准确有效的检测出运动目标而且能够满足实时性的要求,有效的解决了因光照变化和目标遮挡等情况造成的运动目标跟踪准确度下降或跟踪目标丢失等问题。 关键词:三帧差分,Camshift,阈值分割 Research Based on Human Target Detectionand Tracking Algorithm Abstract: In recent years, human object detection and tracking become more and more important. However the complexity, uncertainty environment and the target’s own diversity limit the performance of existing algorithms. The main works of this paper is to study and analysis the main algorithm of the human object detection and tracking, and proposes a new moving target detection method based on three-frame difference method and threshold segmentation and improved Camshift tracking algorithm based on multi-feature fusion. These algorithm can satisfy the real-time, while accurately and efficiently detect moving targets, and also effectively solves the problem of tracking object lost or misplaced under illumination change or target occlusion. Keywords: three-frame difference, Camshift, threshold segmentation 一、绪论 (一)选题的背景和意义 人类和动物主要通过眼睛来感受和认知外部世界。人类通过视觉所获取的信息占了60%[1],因此,在开发和完善人工智能的过程中,赋予机器视觉的功能这一操作极不可缺少。完善上述功能需要以许多技术为基础,特别是运动目标的检测与跟踪技术。近些年以来,此技术受到了越来越多的关注[2]。目前,此技术也在各领域得到了充分的应用,涵盖的领域有智能交通、导航、智能视频监控、精确制导、人机交互和多媒体视频编码压缩技术等。

目标跟踪算法的分类

运动目标跟踪就是在一段序列图像中的每幅图像中实时地找到所感兴趣的运动目标 (包括位置、速度及加速度等运动参数)。在运动目标跟踪问题的研究上,总体来说有两种思路: a)不依赖于先验知识,直接从图像序列中检测到运动目标,并进行目标识别,最终跟踪感兴趣的运动目标; b)依赖于目标的先验知识,首先为运动目标建模,然后在图像序列中实时找到相匹配的运动目标。 一、运动目标检测 对于不依赖先验知识的目标跟踪来讲,运动检测是实现跟踪的第一步。运动检测即为从序列图像中将变化区域从背景图像中提取出来。运动目标检测的算法依照目标与摄像机之间的关系可以分为静态背景下运动检测和动态背景下运动检测。 静态背景下运动检测就是摄像机在整个监视过程中不发生移动,只有被监视目标在摄像机视场内运动,这个过程只有目标相对于摄像机的运动;动态背景下运动检测就是摄像机在整个监视过程中发生了移动 (如平动、旋转或多自由度运动),被监视目标在摄像机视场内也发生了运动,这个过程就产生了目标与摄像机之间复杂的相对运动。 1、静态背景 背景差分法 背景差分法是利用当前图像与背景图像的差分来检测运动区域的一种技术。它一般能够提供最完全的特征数据,但对于动态场景的变化,如天气、光照、背景扰动及背景物移入移出等特别敏感,运动目标的阴影也会影响检测结果的准确性及跟踪的精确性。其基本思想就是首先获得一个背景模型,然后将当前帧与背景模型相减,如果像素差值大于某一阈值,则判断此像素属于运动目标,否则属于背景图像。背景模型的建立与更新、阴影的去除等对跟踪结果的好坏至关重要。 帧间差分法 相邻帧间差分法是通过相邻两帧图像的差值计算,获得运动物体位置和形状等信息的运动目标检测方法。其对环境的适应性较强,特别是对于光照的变化适应性强,但由于运动目标上像素的纹理、灰度等信息比较相近,不能检测出完整

TLD目标跟踪算法

TLD目标跟踪算法 一、算法的背景 TLD(Tracking-Learning-Detection)是英国萨里大学的一个捷克籍博士生Zdenek 出的一种新的单目标长时间(long term tracking)跟踪算法。该算法与传统跟踪算法的显著区别在于将传统的跟踪算法和传统的检测算法相结合来解决被跟踪目标在被跟踪过程中发生的形变、部分遮挡等问题。同时,通过一种改进的在线学习机制不断更新跟踪模块的“显著特征点”和检测模块的目标模型及相关参数,从而使得跟踪效果更加稳定、鲁棒、可靠。 对于长时间跟踪而言,一个关键的问题是:当目标重新出现在相机视野中时,系统应该能重新检测到它,并开始重新跟踪。但是,长时间跟踪过程中,被跟踪目标将不可避免的发生形状变化、光照条件变化、尺度变化、遮挡等情况。传统的跟踪算法,前端需要跟检测模块相互配合,当检测到被跟踪目标之后,就开始进入跟踪模块,而此后,检测模块就不会介入到跟踪过程中。但这种方法有一个致命的缺陷:即,当被跟踪目标存在形状变化或遮挡时,跟踪就很容易失败;因此,对于长时间跟踪,或者被跟踪目标存在形状变化情况下的跟踪,很多人采用检测的方法来代替跟踪。该方法虽然在某些情况下可以改进跟踪效果,但它需要一个离线的学习过程。即:在检测之前,需要挑选大量的被跟踪目标的样本来进行学习和训练。这也就意味着,训练样本要涵盖被跟踪目标可能发生的各种形变和各种尺度、姿态变化和光照变化的情况。换言之,利用检测的方法来达到长时间跟踪的目的,对于训练样本的选择至关重要,否则,跟踪的鲁棒性就难以保证。 考虑到单纯的跟踪或者单纯的检测算法都无法在长时间跟踪过程中达到理想的效果,所以,TLD方法就考虑将两者予以结合,并加入一种改进的在线学习机制,从而使得整体的目标跟踪更加稳定、有效。 简单来说,TLD算法由三部分组成:跟踪模块、检测模块、学习模块;如下图所示 其运行机制为:检测模块和跟踪模块互补干涉的并行进行处理。首先,跟踪模块假设相邻视频帧之间物体的运动是有限的,且被跟踪目标是可见的,以此来估计目标的运动。 如果目标在相机视野中消失,将造成跟踪失败。检测模块假设每一个视帧都是彼此独立的,并且根据以往检测和学习到的目标模型,对每一帧图片进行全图搜索以定位目标可能出现的区域。同其它目标检测方法一样,TLD中的检测模块也有可能出现错误,且错误无非是错误的负样例和错误的正样例这两种情况。而学习模块则根据跟踪模块的结果对检测模块的这两种错误进行评估,并根据评估结果生成训练样本对检测模块的目标模型进行更新,同时对跟踪模块的“关键特征点”进行更新,以此来避免以后出现类似的

目标跟踪算法的分类

目标跟踪算法的分类

主要基于两种思路: a)不依赖于先验知识,直接从图像序列中检测到运动目标,并进行目标识别,最终跟踪感兴趣的运动目标; b)依赖于目标的先验知识,首先为运动目标建模,然后在图像序列中实时找到相匹配的运动目标。 一.运动目标检测 对于不依赖先验知识的目标跟踪来讲,运动检测是实现跟踪的第一步。运动检测即为从序列图像中将变化区域从背景图像中提取出来。运动目标检测的算法依照目标与摄像机之间的关系可以分为静态背景下运动检测和动态背景下运动检测 (一)静态背景 1.背景差 2.帧差 3.GMM 4.光流 背景减算法可以对背景的光照变化、噪声干扰以及周期性运动等进行建模,在各种不同情况下它都可以准确地检测出运动目标。因此对于固定

个关键技术: a)匹配法则,如最大相关、最小误差等 b)搜索方法,如三步搜索法、交叉搜索法等。 c) 块大小的确定,如分级、自适应等。 光流法 光流估计的方法都是基于以下假设:图像灰度分布的变化完全是目标或者场景的运动引起的,也就是说,目标与场景的灰度不随时间变化。这使得光流方法抗噪声能力较差,其应用范围一般局限于目标与场景的灰度保持不变这个假设条件下。另外,大多数的光流计算方法相当复杂,如果没有特别的硬件装置,其处理速度相当慢,达不到实时处理的要求。 二.目标跟踪 运动目标的跟踪,即通过目标的有效表达,在图像序列中寻找与目标模板最相似候选目标区位置的过程。简单说,就是在序列图像中为目标定位。运动目标的有效表达除了对运动目标建模外,目标跟踪中常用到的目标特性表达主要包括视觉特征 (图像边缘、轮廓、形状、纹理、区域)、统计特征 (直方图、各种矩特征)、变换系数特

视频目标跟踪算法综述_蔡荣太

1引言 目标跟踪可分为主动跟踪和被动跟踪。视频目标跟踪属于被动跟踪。与无线电跟踪测量相比,视频目标跟踪测量具有精度高、隐蔽性好和直观性强的优点。这些优点使得视频目标跟踪测量在靶场光电测量、天文观测设备、武器控制系统、激光通信系统、交通监控、场景分析、人群分析、行人计数、步态识别、动作识别等领域得到了广泛的应用[1-2]。 根据被跟踪目标信息使用情况的不同,可将视觉跟踪算法分为基于对比度分析的目标跟踪、基于匹配的目标跟踪和基于运动检测的目标跟踪。基于对比度分析的跟踪算法主要利用目标和背景的对比度差异,实现目标的检测和跟踪。基于匹配的跟踪主要通过前后帧之间的特征匹配实现目标的定位。基于运动检测的跟踪主要根据目标运动和背景运动之间的差异实现目标的检测和跟踪。前两类方法都是对单帧图像进行处理,基于匹配的跟踪方法需要在帧与帧之间传递目标信息,对比度跟踪不需要在帧与帧之间传递目标信息。基于运动检测的跟踪需要对多帧图像进行处理。除此之外,还有一些算法不易归类到以上3类,如工程中的弹转机跟踪算法、多目标跟踪算法或其他一些综合算法。2基于对比度分析的目标跟踪算法基于对比度分析的目标跟踪算法利用目标与背景在对比度上的差异来提取、识别和跟踪目标。这类算法按照跟踪参考点的不同可以分为边缘跟踪、形心跟踪和质心跟踪等。这类算法不适合复杂背景中的目标跟踪,但在空中背景下的目标跟踪中非常有效。边缘跟踪的优点是脱靶量计算简单、响应快,在某些场合(如要求跟踪目标的左上角或右下角等)有其独到之处。缺点是跟踪点易受干扰,跟踪随机误差大。重心跟踪算法计算简便,精度较高,但容易受到目标的剧烈运动或目标被遮挡的影响。重心的计算不需要清楚的轮廓,在均匀背景下可以对整个跟踪窗口进行计算,不影响测量精度。重心跟踪特别适合背景均匀、对比度小的弱小目标跟踪等一些特殊场合。图像二值化之后,按重心公式计算出的是目标图像的形心。一般来说形心与重心略有差别[1-2]。 3基于匹配的目标跟踪算法 3.1特征匹配 特征是目标可区别与其他事物的属性,具有可区分性、可靠性、独立性和稀疏性。基于匹配的目标跟踪算法需要提取目标的特征,并在每一帧中寻找该特征。寻找的 文章编号:1002-8692(2010)12-0135-04 视频目标跟踪算法综述* 蔡荣太1,吴元昊2,王明佳2,吴庆祥1 (1.福建师范大学物理与光电信息科技学院,福建福州350108; 2.中国科学院长春光学精密机械与物理研究所,吉林长春130033) 【摘要】介绍了视频目标跟踪算法及其研究进展,包括基于对比度分析的目标跟踪算法、基于匹配的目标跟踪算法和基于运动检测的目标跟踪算法。重点分析了目标跟踪中特征匹配、贝叶斯滤波、概率图模型和核方法的主要内容及最新进展。此外,还介绍了多特征跟踪、利用上下文信息的目标跟踪和多目标跟踪算法及其进展。 【关键词】目标跟踪;特征匹配;贝叶斯滤波;概率图模型;均值漂移;粒子滤波 【中图分类号】TP391.41;TN911.73【文献标识码】A Survey of Visual Object Tracking Algorithms CAI Rong-tai1,WU Yuan-hao2,WANG Ming-jia2,WU Qing-xiang1 (1.School of Physics,Optics,Electronic Science and Technology,Fujian Normal University,Fuzhou350108,China; 2.Changchun Institute of Optics,Fine Mechanics and Physics,Chinese Academy of Science,Changchun130033,China)【Abstract】The field of visual object tracking algorithms are introduced,including visual tracking based on contrast analysis,visual tracking based on feature matching and visual tracking based on moving detection.Feature matching,Bayesian filtering,probabilistic graphical models,kernel tracking and their recent developments are analyzed.The development of multiple cues based tracking,contexts based tracking and multi-target tracking are also discussed. 【Key words】visual tracking;feature matching;Bayesian filtering;probabilistic graphical models;mean shift;particle filter ·论文·*国家“863”计划项目(2006AA703405F);福建省自然科学基金项目(2009J05141);福建省教育厅科技计划项目(JA09040)

目标跟踪算法的分类

目标跟踪算法的分类主要基于 两种思路: a)不依赖于先验知识,直接从图像序列中检测到运动目标,并进行目标识别,最终跟踪感兴趣的运动目标; b)依赖于目标的先验知识,首先为运动目标建模然后在图像序列中实时找到相匹配的运动目标。 一.运动目标检测 对于不依赖先验知识的目标跟踪来讲,运动检测是实现跟踪的第一步。运动检测即为从序列图像中将变化区域从背景图像中提取出来。运动目标检测的算法依照目标与摄像机之间的关系可以分为静态背景下运动检测和动态背景下运动检测(一)静态背景

2.帧差 3.GMM 4.光流 背景减算法可以对背景的光照变化、噪声干扰以及周期性运动等进行建模,在各种不同情况下它都可以准确地检测出运动目标。因此对于固定摄像头的情形,目前大多数的跟踪算法中都采用背景减算法来进行目标检测。背景减算法的局限性在于它需要一个静态的固定摄像头。 (二)运动场通常情况下,摄像机的运动形式可以分为两种:a)摄像机的支架固定,但摄像机可以偏转、俯仰以及缩放;b)将摄像机装在某个移动的载体上。由于以上两种情况下的背景及前景图像都在做全局运动,要准确检测运动目标的首要任务是进行图像的全局运动估计与补偿。 考虑到图像帧上各点的全局运动矢量虽不尽相同(摄像机做平移运动除外),但它们均是在同一摄像机模型下的运动,因而应遵循相同的运动模型,可以用同一模型参数来表示。 全局运动的估计问题就被归结为全局运动模型参数的估计问题,通常使用块匹配法或光流估计法

来进行运动参数的估计。 块匹配 基于块的运动估算和补偿可算是最通用的算法。可以将图像分割成不同的图像块,假定同一图像小块上的运动矢量是相同的,通过像素域搜索得到最佳的运动矢量估算。块匹配法主要有如下三个关键技术: a)匹配法则,如最大相关、最小误差等 b)搜索方法,如三步搜索法、交叉搜索法等。 c)块大小的确定,如分级、自适应等。 光流法 光流估计的方法都是基于以下假设:图像灰度分布的变化完全是目标或者场景的运动引起的,也就是说,目标与场景的灰度不随时间变化。这使得光流方法抗噪声能力较差,其应用范围一般局限于目标与场景的灰度保持不变这个假设条件下。另外,大多数的光流计算方法相当复杂,如果没有特别的硬件装置,其处理速度相当慢,达不到实时处理的要求。 二.目标跟踪 运动目标的跟踪,即通过目标的有效表达,在图像序列中寻找与目标模板最相似候选目标区位置

目标跟踪的研究背景意义方法及现状

目标跟踪的研究背景意义方法及现状

目录 ? 1.课题背景与研究意义? 2.国内外研究现状 ? 3.存在的问题 ? 4.总结,发展与展望 ? 5.参考文献

1课题背景与研究意义 ?运动目标的跟踪就是在视频图像的每一幅图像中确定出我们感兴趣的运动目标的位置,并把不同帧中同一目标对应起来。 ?智能视频监控(IVS: Intelligent Video Surveillance)是计算机视觉领域近几年来发展较快,研究较多的一个应用方向。它能够利用计算机视觉技术对采集到的视频信号进行处理、分析和理解,并以此为基础对视频监控系统进行控制,从而使视频监控系统具备更好的智能性和鲁棒性。智能视频监控系统主要涉及到图像处理、计算机视觉、模式识别、人工智能等方面的科学知识,它的用途非常广泛,在民用和军事领域中都有着极大的应用前景。

2.国内外研究现状 视频目标跟踪算法 基于对比度分析基于匹配核方法运动检测其它方法 特征匹配贝叶斯 跟踪 Mean shift方法 光流法

基于对比度分析的方法 ?算法思想:基于对比度分析的目标跟踪算法利用目标与背景在对比度上的差异来提取、识别和跟踪目标。 ?分类:边缘跟踪,型心跟踪,质心跟踪。 ?优缺点:不适合复杂背景中的目标跟踪,但在空中背景下的目标跟踪中非常有效。

基于特征匹配的目标跟踪算法 ?算法思想:基于匹配的目标跟踪算法需要提取目标的特征,并在每一帧中寻找该特征。寻找的过程就是特征匹配过 程。 ?目标跟踪中用到的特征主要有几何形状、子空间特征、外形轮廓和特征点等。其中,特征点是匹配算法中常用的特征。特征点的提取算法很多,如Kanade Lucas Tomasi (KLT)算法、Harris 算法、SIFT 算法以及SURF 算法等。?优缺点:特征点一般是稀疏的,携带的信息较少,可以通过集成前几帧的信息进行补偿。目标在运动过程中,其特征(如姿态、几何形状、灰度或颜色分布等)也随之变化。 目标特征的变化具有随机性,这种随机变化可以采用统计数学的方法来描述。直方图是图像处理中天然的统计量,因此彩色和边缘方向直方图在跟踪算法中被广泛采用。

目标跟踪算法的研究毕业论文

目录 摘要 (1) ABSTRACT (2) 第一章绪论 (4) 1.1课题研究背景和意义 (4) 1.2国外研究现状 (5) 1.3本文的具体结构安排 (7) 第二章运动目标检测 (8) 2.1检测算法及概述 (8) 2.1.1连续帧间差分法 (9) 2.1.2背景去除法 (11) 2.1.3光流法 (13) 第三章运动目标跟踪方法 (16) 3.1引言 (16) 3.2运动目标跟踪方法 (16) 3.2.1基于特征匹配的跟踪方法 (16) 3.2.2基于区域匹配的跟踪方法 (17) 3.2.3基于模型匹配的跟踪方法 (18) 3.3运动目标搜索算法 (18) 3.3.1绝对平衡搜索法 (18) 3.4绝对平衡搜索法实验结果 (19) 3.4.1归一化互相关搜索法 (21)

3.5归一化互相关搜索法实验结果及分析 (22) 第四章模板更新与轨迹预测 (26) 4.1模板更新简述及策略 (26) 4.2轨迹预测 (28) 4.2.1线性预测 (29) 4.2.2平方预测器 (30) 4.3实验结果及分析: (31) 致 (36) 参考文献 (37) 毕业设计小结 (38)

摘要 图像序列目标跟踪是计算机视觉中的经典问题,它是指在一组图像序列中,根据所需目标模型,实时确定图像中目标所在位置的过程。它最初吸引了军方的关注,逐渐被应用于电视制导炸弹、火控系统等军用备中。序列图像运动目标跟踪是通过对传感器拍摄到的图像序列进行分析,计算出目标在每帧图像上的位置。它是计算机视觉系统的核心,是一项融合了图像处理、模式识别、人工只能和自动控制等领域先进成果的高技术课题,在航天、监控、生物医学和机器人技术等多种领域都有广泛应用。因此,非常有必要研究运动目标的跟踪。 本论文就图像的单目标跟踪问题,本文重点研究了帧间差分法和背景去除法等目标检测方法,研究了模板相关匹配跟踪算法主要是:最小均方误差函数(MES),最小平均绝对差值函数(MAD)和最大匹配像素统计(MPC)的跟踪算法。在跟踪过程中,由于跟踪设备与目标的相对运动, 视野中的目标可能出现大小、形状、姿态等变化, 加上外界环境中的各种干扰, 所要跟踪的目标和目标所在的场景都发生了变化, 有可能丢失跟踪目标。为了保证跟踪的稳定性和正确性, 需要对模板图像进行自适应更新。由于目标运动有一定得规律,可以采取轨迹预测以提高跟踪精度,本文采用了线性预测法。 对比分析了相关匹配算法的跟踪精度和跟踪速度;对比不采用模板更新和模板跟新的跟踪进度和差别,实验表明,跟踪算法加上轨迹预测及模板跟新在很大程度上提高了跟踪帧数,提高了跟踪精度,具有一定的抗噪声性能。

行人检测与目标跟踪算法研究

基于opencv中光流法的运动 行人目标跟踪与检测 一、课题研究背景及方法 行人检测具有极其广泛的应用:智能辅助驾驶,智能监控,行人分析以及智 能机器人等领域。从2005年以来行人检测进入了一个快速的发展阶段,但是也存在很多问题还有待解决,个人觉得主要还是在性能和速度方面还不能达到一个权衡。 早期以静态图像处理中的分割、边缘提取、运动检测等方法为主。例如 (1)以Gavrila为代表的全局模板方法:基于轮廓的分层匹配算法,构造了将近2500个轮廓模板对行人进行匹配, 从而识别出行人。为了解决模板数量众多而引起的速度下降问题,采用了由粗到细的分层搜索策略以加快搜索速度。另外,匹配的时候通过计算模板与待检测窗口的距离变换来度量两者之间的相似性。 (2)以Broggi为代表的局部模板方法:利用不同大小的二值图像模板来对人头和肩部进行建模,通过将输入图像的边缘图像与该二值模板进行比较从而识别行人,该方法被用到意大利Parma大学开发的ARGO智能车中。 (3)以Lipton为代表的光流检测方法:计算运动区域内的残余光流; (4)以Heisele为代表的运动检测方法:提取行人腿部运动特征; (5)以Wohler为代表的神经网络方法:构建一个自适应时间延迟神经网络来判断是否是人体的运动图片序列; 以上方法,存在速度慢、检测率低、误报率高的特点。 2、行人检测的研究现状

(1)基于背景建模的方法:分割出前景,提取其中的运动目标,然后进一步 提取特征,分类判别;在存在下雨、下雪、刮风、树叶晃动、灯光忽明忽暗等场 合,该方法的鲁棒性不高,抗干扰能力较差。且背景建模方法的模型过于复杂,对 参数较为敏感。 (2)基于统计学习的方法:根据大量训练样本构建行人检测分类器。提取的 特征一般有目标的灰度、边缘、纹理、形状、梯度直方图等信息,分类器包括神经 网络、SVM,adaboost等。该方法存在以下难点: (a)行人的姿态、服饰各不相同; (b)提取的特征在特征空间中的分布不够紧凑; (c)分类器的性能受训练样本的影响较大; (d)离线训练时的负样本无法涵盖所有真实应用场景的情况; 尽管基于统计学习的行人检测方法存在着诸多的缺点,但依然有很多人将注 意力集中于此。 行人检测国外研究情况: 法国研究人员Dalal在2005的CVPR发表的HOG+SVM的行人检测算法(Histograms of Oriented Gradients for Human Detection, Navneet Dalel,Bill Triggs, CVPR2005)。 Dollar 在 2010 年 BMVC 的《The fastest pedestrian detector in the west》一文中提出了一种新的思想,这种思想只需要训练一个标准 model,检测N/K(K ≈10)然后其余的 N-N/K 种大小的图片的特征不需要再进行这种复杂的计算,而是跟据这 N/K 次的结果,由另外一种简单的算法给估计出来,这种思 想实现的基础是大小相近的图像的特征可以被足够精确的估计出来;同年,德国

目标定位跟踪算法及仿真程序(修改后)

目标定位跟踪算法及仿真程序 质心算法是最简单的定位算法,如图2-1所示,四个小圆为观测站,实线三角形是目标真实的位置,假设四个圆形观测站都探测到目标的存在,则根据质心定位算法,目标的位置(x,y )可以表示为:4 4 321x x x x x +++= , 4 4 321y y y y y +++= ,这里观测站得位置为),(i i y x ,同理,当观测站数目为N 时,这时候的质心定位算法可以表示为: ???? ? ??? ????=??????∑ ∑ ==N i i N i i y N x N y x 1 1 11 图1 质心定位 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % 质心定位算法Matlab 程序 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% function main % 定位初始化 Length=100; % 场地空间,单位:米 Width=100; % 场地空间,单位:米 d=50; % 目标离观测站50米以内都能探测到,反之则不能 Node_number=6; % 观测站的个数 for i=1:Node_number % 观测站的位置初始化,这里位置是随机给定的 Node(i).x=Width*rand; Node(i).y=Length*rand; end % 目标的真实位置,这里也随机给定 Target.x=Width*rand; Target.y=Length*rand; % 观测站探测目标 X=[]; for i=1:Node_number

多目标跟踪算法

多目标跟踪算法 先来回顾下卡尔曼滤波器: 假定k k x |表示当前k 时刻目标的状态,k 1k x |+表示下一个时刻目标的状态,k z 则表示k 时刻的实际观测。一般地模型都假定为线性的: 这里的1k x +为k+1时刻目标的状态,k x 为k 时刻的状态,为状态转移矩阵,而是服从均值为0方差为的正态分布,表示由噪声等引起的干扰。卡尔曼滤波采取初步估 计: 这里的估计只是初步的估计,状态估计与实际状态的误差矩阵等于状态1k x +的的方差,即: 更新(修正): 这里已知了实际观察,同样是假定观测与状态的似然关系是线性的,即满足: 服从一个均值为0方差为 的正态分布。 卡尔曼滤波器给出了经过更新后得到的比较合理的k+1时刻的估计为: 相应地得到了更新后方差的估计: 这里: 其实这些都是通过最小二乘法推出来的,即使得误差: 最小,而初步估计也是通过最小二乘法获得,即使得: 最小。有了上述估计方程后,便可以获得一个估计流程:

下面再介绍下贝叶斯公式 先看一个定义 马氏链: 设{} ,,,k j i E =为有限集或可列集,称()0n n X ≥为定义在概率空间()P F,,Ω上,取值于空间E 的马氏链,如果满足下面的马氏性:对一切n 10i i i ,,, 有 [][]1n 1n n n 1n 1n 00n n i X i X P i X i X i X P ----======|,,| 若左边的条件概率有定义,则称[]i X j X P 1n n ==-|为在n-1时刻状态为i,在n 时刻在j 的转移概率函数,若它与n 无关,则记为ij p ,并称为时齐的或齐次的。显然这里的马氏性接近于独立性,在一定程度上可以称为无记忆性或无后效性。 下面我们来推导贝叶斯公式: 容易由条件概率公式定义知 而 ()()()()()()( ) ()() ()( ) ()() ( )() ()()() 1 k 1 k 1k k k 1 k k 1k k k 1k k 1k k k 1k k k k k 1k 1k 1k k k 1k k k k k 1k 1k 1k k k 1k 1k 1k k k 1k 1k 1k 1k 1k z x f dx x f x z f x f x z f z f dx x f x z f x z f z f x f x z f x z f dx z x f x z f z x f x z f x f +++++++++++++++++++++++== ? == ?? ?||||||||||||||||||||||||| 就得到了更新后的公式如下: 这里记 于是就可以得到贝叶斯滤波器跟踪流程如下: 实际上可以证明,卡尔曼滤波器是贝叶斯滤波器的一种特殊形式,由于假定噪声服从正态分布,同样地观测与状态估计的误差也是服从正态分布,那么不难得:

运动目标检测与跟踪算法的研究进展

运动目标检测与跟踪算法的研究进展 0 引言 人类感知的环境信息大多是通过视觉获得的,而在接受到的所有视觉信息中,人们又往往对动态信息更感兴趣。随着多媒体技术的发展,人们正在接触越来越多的视频信息。一方面,要获得较高压缩比来存储这些信息,另一方面,需要对感兴趣的区域或对象进行操作[1]。因此对视频图像中运动目标的提取、分类识别和跟踪,已成为对运动目标的行为进行理解和描述视频图像中动态信息的主要内容。 运动目标的检测与跟踪在技术上融合了计算机视觉、视频图像处理、模式识别和自动控制等相关领域的知识[2]。运动目标的检测与跟踪是视频技术的一个重要研究方向,其应用十分广泛。在交通流量的监测、安全监控、军事制导、视觉导航,以及视频编码中都有涉及。目前,运动目标的检测与跟踪已经取得了很多成果,并且不断有新技术、新算法涌现。但是,在实际环境中,由于自然环境的复杂(光照、气候的变化等),目标的高机动性,干扰了目标检测与跟踪,造成检测不准确且跟踪效率不高。因此,研究改进运动目标检测与跟踪算法有很现实的意义和应用价值。 1 运动目标检测常用算法 运动目标检测就是从视频图像中将变化的区域从背景中提取出来,此类算法依照目标与摄像机之间的关系可以分为静态背景下运动检测和动态背景下运动检测。静态背景下只有被监视目标在摄像机的视场内运动;而动态背景下摄像机也发生了运动,这个过程就产生了目标与背景之间复杂的相对运动,造成动态背景下的运动检测和跟踪难度很大。目前对于动态背景下运动检测和跟踪的研究较少,因此本文暂不涉及运动背景下的运动目标检测与跟踪。在静态背景下,运动目标检测主要算法有三种:帧间差分法、背景差分法和光流法。下面分别对这三种算法进行分析。 1.1 帧间差分法 帧间差分法[3]的基本原理就是相邻帧的图像对应像素点的灰度值相减,通过差分图像进行二值化处理以确定运动目标。帧间差分法的主要优点是:算法实现简单,程序设计复杂度低;不存在背景的获取、更新和存储的问题;对场景中光线的变化不太敏感,实时性好。但在实际环境中,当目标运动速度过快时,容易产生空洞,也可能把一个运动目标分割为两个或者多个,并且运动目标的获取存在着模糊的边缘。 针对帧间差法存在的问题,人们提出了很多方法改进,如采用三帧差分法、加入颜色信息进行判别等。例如Shahinfard 等提出对相邻5 场的视频序列作差分处理,并且综合视频序列的RGB 分量信号进行运动检测[4]。因此,该方法即适用于高速运动目标,同时也适用于低速目标。针对光线变化的环境,Crnojevic等提出将小波变换加入差分算法中[5],取得了较好的效果。聂?等提出了一种复合差分算法,利用两次差分之间的相关性来检测运动目标,并且将前景像素面积作为判别目标漏检程度的依据,有效的减少了目标漏检[6]。 1.2 光流法 光流是空间运动物体在观测成像面上的像素运动的瞬时速度。物体在光源照射下,其表面的灰度呈现一定的空间分布,称之为灰度模式。当人的眼睛观察运动物体时,物体的景象在人眼的视网膜上形成一系列连续变化的图像称之为光流。光流表达图像的变化,包含目标运动的信息,可用来确定目标的运动。光流算法评估了两幅图像的之间的变形,它假设一个物体的颜色在前后两帧没有巨大而明显的变化。基于这个思路,我们可以得到图像约束方程。不同的光流算法解决了假定了不同附加条件的光流问题。Horn 和Schunck 于1981 年创造性地将二维速度场与灰度相联系,引入光流约束方程,得到光流计算的基本算法[7]。Lucas 和Kanade 同年提出了LK 光流算法[8]。 虽然光流携带了有关物体运动和景物三维结构的丰富信息,在实际应用中,由于遮挡、多光源和噪声等原因,使得光流方程的灰度守恒假设条件得不到满足,不能正确的解出光流场;同时大多数的光流计算方法相当复杂,计算量大,难以实时应用,因此在对实时性要求较高的监控系统中一般并不采用这种算法。因此减少光流算法的运算复杂度是应用光流法的关键。为此,戴斌等人提出了最优估计的点匹配技术和光流均匀采样策 略[9],同时进行运动目标的检测和跟踪,并能在一定程度上解决光流技术中的计算量和信息量的矛盾。为改善HS 算法中最小均方差迭代的最终收

目标跟踪算法的研究

目标跟踪算法的研究 Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】

目录

摘要 图像序列目标跟踪是计算机视觉中的经典问题,它是指在一组图像序列中,根据所需目标模型,实时确定图像中目标所在位置的过程。它最初吸引了军方的关注,逐渐被应用于电视制导炸弹、火控系统等军用备中。序列图像运动目标跟踪是通过对传感器拍摄到的图像序列进行分析,计算出目标在每帧图像上的位置。它是计算机视觉系统的核心,是一项融合了图像处理、模式识别、人工只能和自动控制等领域先进成果的高技术课题,在航天、监控、生物医学和机器人技术等多种领域都有广泛应用。因此,非常有必要研究运动目标的跟踪。 本论文就图像的单目标跟踪问题,本文重点研究了帧间差分法和背景去除法等目标检测方法,研究了模板相关匹配跟踪算法主要是:最小均方误差函数(MES),最小平均绝对差值函数(MAD)和最大匹配像素统计(MPC)的跟踪算法。在跟踪过程中,由于跟踪设备与目标的相对运动, 视野中的目标可能出现大小、形状、姿态等变化, 加上外界环境中的各种干扰, 所要跟踪的目标和目标所在的场景都发生了变化, 有可能丢失跟踪目标。为了保证跟踪的稳定性和正确性, 需要对模板图像进行自适应更新。由于目标运动有一定得规律,可以采取轨迹预测以提高跟踪精度,本文采用了线性预测法。 对比分析了相关匹配算法的跟踪精度和跟踪速度;对比不采用模板更新和模板跟新的跟踪进度和差别,实验表明,跟踪算法加上轨迹预测及模板跟新在很大程度上提高了跟踪帧数,提高了跟踪精度,具有一定的抗噪声性能。

关键词:目标跟踪,目标检测,轨迹预测,模板更新

S T A P L E 目 标 跟 踪 算 法

计算机视觉中,究竟有哪些好用的目标跟踪算法(下) 在介绍SRDCF之前,先来分析下相关滤波有什么缺点。总体来说,相关滤波类方法对快速变形和快速运动情况的跟踪效果不好。 快速变形主要因为CF是模板类方法。容易跟丢这个比较好理解,前面分析了相关滤波是模板类方法,如果目标快速变形,那基于HOG的梯度模板肯定就跟不上了,如果快速变色,那基于CN的颜色模板肯定也就跟不上了。这个还和模型更新策略与更新速度有关,固定学习率的线性加权更新,如果学习率太大,部分或短暂遮挡和任何检测不准确,模型就会学习到背景信息,积累到一定程度模型跟着背景私奔了,一去不复返。如果学习率太小,目标已经变形了而模板还是那个模板,就会变得不认识目标。(举个例子,多年不见的同学,你很可能就认不出了,而经常见面的同学,即使变化很大你也认识,因为常见的同学在你大脑里面的模型在持续更新,而多年不见就是很久不更新) 快速运动主要是边界效应(Boundary Effets),而且边界效应产生的错误样本会造成分类器判别力不够强,下面分训练阶段和检测阶段分别讨论。 训练阶段,合成样本降低了判别能力。如果不加余弦窗,那么移位样本是长这样的: 除了那个最原始样本,其他样本都是“合成”的,100*100的图像块,只有1-10000的样本是真实的,这样的样本集根本不能拿来训练。如果加了余弦窗,由于图像边缘像素值都是0,循环移位过程中只要目标保持完

整那这个样本就是合理的,只有目标中心接近边缘时,目标跨越边界的那些样本是错误的,这样虽不真实但合理的样本数量增加到了大约2-3(padding= 1),即使这样仍然有1-3(3000-10000)的样本是不合理的,这些样本会降低分类器的判别能力。再者,加余弦窗也不是“免费的”,余弦窗将图像块的边缘区域像素全部变成0,大量过滤掉分类器本来非常需要学习的背景信息,原本训练时判别器能看到的背景信息就非常有限,我们还加了个余弦窗挡住了背景,这样进一步降低了分类器的判别力(是不是上帝在我前遮住了帘。不是上帝,是余弦窗)。 检测阶段,相关滤波对快速运动的目标检测比较乏力。相关滤波训练的图像块和检测的图像块大小必须是一样的,这就是说你训练了一个100*100的滤波器,那你也只能检测100*100的区域,如果打算通过加更大的padding来扩展检测区域,那样除了扩展了复杂度,并不会有什么好处。目标运动可能是目标自身移动,或摄像机移动,按照目标在检测区域的位置分四种情况来看: 1、如果目标在中心附近,检测准确且成功。 2、如果目标移动到了边界附近但还没有出边界,加了余弦窗以后,部分目标像素会被过滤掉,这时候就没法保证这里的响应是全局最大的,而且,这时候的检测样本和训练过程中的那些不合理样本很像,所以很可能会失败。 3、如果目标的一部分已经移出了这个区域,而我们还要加余弦窗,很可能就过滤掉了仅存的目标像素,检测失败。 4、如果整个目标已经位移出了这个区域,那肯定就检测失败了。

相关文档
最新文档