一种基于局部时空特征的视频异常检测方案
基于深度学习的前沿视频异常检测方法综述

基于深度学习的前沿视频异常检测方法综述目录1. 内容概括 (3)1.1 研究背景 (3)1.2 研究意义 (5)1.3 文章结构 (6)2. 视频异常检测概述 (7)2.1 异常检测基本概念 (8)2.2 视频异常检测的发展历程 (9)2.3 视频异常检测的挑战与机遇 (10)3. 基于深度学习的视频异常检测方法 (11)3.1 深度学习基本原理 (12)3.2 基于深度学习的视频异常检测方法分类 (13)3.2.1 基于特征提取的方法 (15)3.2.2 基于分类的方法 (16)3.2.3 基于生成模型的方法 (18)4. 基于深度学习的特征提取方法 (19)4.1 视频帧级特征提取 (20)4.1.1 基于卷积神经网络的方法 (22)4.1.2 基于循环神经网络的方法 (23)4.2 视频序列级特征提取 (24)5. 基于深度学习的分类方法 (26)5.1 一体化检测方法 (27)5.1.1 基于目标检测的方法 (29)5.1.2 基于行为识别的方法 (30)5.2 多阶段检测方法 (31)5.2.1 基于多尺度特征的方法 (33)5.2.2 基于注意力机制的方法 (34)6. 基于深度学习的生成模型方法 (35)6.1 基于生成对抗网络的方法 (36)6.2 基于变分自编码器的方法 (37)7. 视频异常检测方法评估 (38)7.1 评价指标 (40)7.2 评估方法与实验设计 (41)7.3 实验结果分析 (42)8. 视频异常检测的应用场景 (43)8.1 安全监控 (45)8.2 智能交通 (46)8.3 医疗健康 (48)8.4 娱乐与媒体 (49)9. 总结与展望 (50)9.1 研究总结 (51)9.2 存在问题与挑战 (52)9.3 未来研究方向 (54)1. 内容概括本文旨在对基于深度学习的前沿视频异常检测方法进行系统性的综述。
首先,文章简要介绍了视频异常检测的背景和重要性,阐述了其在安全监控、交通监控、医疗监控等领域的广泛应用。
基于时空特征点的群体异常行为检测算法

(n t u eo no ma is I si t fI f r tc ,Qig a nv riyo in ea dTeh oo y,Qig a t n d oU ie st fSce c n c n lg n d o,2 6 6 ,Ch n ) 601 ia
b g o — r s mo e su e n n r a e a irmo eig Th u sa d l GM M )b s d a — fwo d d li s d i o m lb h vo d l . n eGa sin mo e ( ae
o M s i to s i t o u e o p o u e k y wo d Afe h t e c i e ft e n r a c n E e tma i n i n r d c d t r d c e r s t rt a , a h v d o o h o m l — a
有 效 识 别 , 尺 度 变化 以及 背 景 光 照 变化 等 具 有 较好 的适 应性 。 对
关 键 词 : 体 异ຫໍສະໝຸດ 常 行 为 ;时 空特 征 点 ;关 键 词 词 袋 ;高斯 混 合 模 型 群 中 图 分 类 号 : P 9 T 31 文献标识码 : A
Ab r a o no m lCr wd d Be v o t c i n Al o ihm s d o e ha i r De e to g r t Ba e n S a i lTe p r lI e e tng Po nt p ta m o a nt r s i i s
及 时 空 Har 征 三 种 方 法 对 特征 点 构 建描 述 符 。采 用 B go— r s 略 对 正 常 行 为 建 模 , 用基 于E 估 计 的 a特 a —f wod 策 使 M 高 斯 混合 模 型 建模 产 生 关键 词 , 据 关键 词 为每 一视 频 片段 建 立一 个 带有 概 率 分 布 的编 码 向量 , 成 编码 表 。 根 形 异
基于时空数据的异常检测技术研究

基于时空数据的异常检测技术研究一、时空数据异常检测技术概述时空数据是指包含空间和时间信息的数据,如交通流量、气象数据、移动设备定位数据等。
在现代信息社会中,大量的时空数据被采集、传输和存储,这些数据在人类生产生活中起到越来越重要的作用。
然而,由于数据量大、复杂度高、噪声干扰等几个方面的问题,管理时空数据的复杂性和挑战性不断增加。
因此,时空数据异常检测技术成为了解决这些问题的一种重要手段。
时空数据异常检测技术是指通过对时空数据的分析和挖掘,发现其中不同于其他数据的异常点,以便进一步深入了解其背后的原因。
该技术可以应用于许多领域,例如交通管理、环境保护、公共安全和商业智能等领域。
常见的时空数据异常检测方法包括基于统计学、机器学习、数据挖掘和深度学习等技术。
二、基于统计学的时空数据异常检测技术基于统计学的时空数据异常检测技术是一种传统的方法,它通过对数据的概率分布进行分析,将不同于正常数据的数据点视为异常点。
常用的统计学方法包括Z-score法、Grubbs检验法和均值-方差法等。
Z-score法是指将数据点与样本均值之间的距离除以样本标准差,得到的值称为Z分数,如果Z分数超出了预设的阈值,则该数据点被认为是异常值。
Grubbs检验法则是基于极值理论的一种方法,它通过计算数据点与样本均值之间的距离,识别离群值并计算其概率。
均值-方差法则是通过计算数据点与均值之间的距离,利用高斯分布的特性来识别异常值。
这些方法在处理时空数据异常检测中都有其适用性,但是由于时空数据的高维度和复杂度,这些方法存在一些限制,如难以处理大量的数据、无法有效地捕捉数据的时空特征等。
三、基于机器学习的时空数据异常检测技术基于机器学习的时空数据异常检测技术是一种比较先进的方法,它可以捕捉到数据的时空特征,基于这些特征通过机器学习算法进行异常检测。
该方法通过先训练模型,再将新的数据输入到已训练的模型中进行异常检测。
常用的机器学习算法包括支持向量机、决策树、随机森林、神经网络和深度学习等。
基于频谱分析的视频异常检测

基于频谱分析的视频异常检测
基于频谱分析的视频异常检测是一种以图像频谱为基础,结合
时域和空域信息的视频异常检测方法。
它主要通过对视频信号频谱
的分析,提取出视频中的空间和时间特征,并对特征进行处理和比较,以发现视频中的异常区域。
具体步骤如下:
1. 采样视频信号,将其转换为时间序列。
2. 将时间序列进行频域变换,获取视频信号的频谱信息。
3. 分析频谱信息,提取频率以及幅度等特征。
4. 根据不同场景下的分析模型,对提取出的特征进行处理,比
如利用机器学习算法进行分类等。
5. 检测异常区域,并将其标记出来。
这种方法的主要优点是可以发现细微的异常,比如颜色变化等,而且不受噪声的影响。
但是,由于需要进行频域变换和复杂的特征
提取和处理,因此计算代价较高。
同时,该方法对于一些模糊图像
等情况可能会存在误判。
摄像头监控画面中的异常事件检测与识别

摄像头监控画面中的异常事件检测与识别摄像头监控系统已经广泛应用于各种场景,如银行、商场、交通等地方。
然而,在大规模监控摄像头的背后,存在着海量的监控数据,如何高效准确地识别异常事件成为了一个重要的挑战。
本文将介绍一种基于计算机视觉技术的摄像头监控画面中异常事件的检测与识别方法。
在摄像头监控画面中,异常事件可以包括多种类型,如窃盗、打架、火灾等。
这些异常事件往往表现为画面中出现不寻常的行为或物体。
传统的摄像头监控系统主要依靠人工观察和判断来发现异常事件,但这种方法需要大量的人力资源,并且存在主观性和疲劳等问题。
因此,利用计算机视觉技术来实现自动化的异常事件检测与识别成为了一个研究热点。
首先,为了检测和识别摄像头监控画面中的异常事件,需要对监控画面进行实时的目标检测。
目标检测是计算机视觉领域的一项关键技术,它能够自动地从图像或视频中检测出特定类型的物体。
例如,可以使用深度学习模型,如YOLO(You Only Look Once)或Faster R-CNN(Region-based Convolutional Neural Networks)来检测画面中的人、车、火等目标。
通过对目标检测结果进行分析,可以提取出画面中的异常事件目标。
其次,对提取出的异常事件目标进行行为分析和识别。
行为分析是指对目标在监控时间内的运动轨迹、速度、方向等信息进行分析,从而判断其是否符合正常行为模式。
例如,如果一个人在商场内几个小时内反复徘徊,可能存在嫌疑。
可以使用基于机器学习的方法,如时空特征提取和行为建模来对异常行为进行分类和识别。
此外,还可以结合其他传感器数据,如声音、温度等信息,提高异常事件的准确性和可靠性。
最后,对于检测到的异常事件,需要及时报警或触发相应的应急措施。
可以通过与报警系统或应急调度系统的集成,实现自动化的异常事件处理。
例如,当监控画面中检测到火灾或打架等异常事件时,系统可以自动触发报警,并通过邮件、手机短信等方式通知相关人员。
基于极限学习机的视频异常行为检测算法

基于极限学习机的视频异常行为检测算法 张新峰 等专栏·视频与安全1 背景目前,城市视频监控系统中视频数量动辄几千路,将操作人员从繁杂而枯燥的“盯屏幕”任务解放出来,或由机器取代人工来完成此项工作具有非常重要的意义。
同时,视频监控人员日常工作的关注点在于是否有异常事件的发生,在检测到异常行为后,应及时向相关部门迅速反应情况并进行处理。
从成本、可靠性、效率等方面考虑,利用人工完成检测任务的方法已无法满足需求,迫切需要相关技术手段能够自动地从视频图像中识别出异常行为的发生。
由于异常行为一般都是需要实时响应的,要求异常行为的检测识别速度必须满足实时应用。
因此,基于极限学习机的视频异常行为检测算法(简称算法)具有重要应用价值。
2 算法架构算法包含3部分:视频输入层、特征提取训练层及识别层。
视频输入层主要是输入被检测的视频图像帧。
特征提取训练层对每一个像素进行时空分析,即会在每个像素周围构建一个立方体,对该像素的分析将通过对以该像素为中心的时空视频体的分析实现。
在训练时,极限学习机可以利用测试视频的前数十帧来进行无监督的训练,利用底层特征,训练一个三层的极限学习机,以底层特征作为输入,以正常模式作为目标输出,而极限学习机的隐藏层就可以充当视觉属性。
识别层将这些视觉属性没有明确语义的信息进行有机组合,消除底层特征与高层语义之间的语义鸿沟。
整个训练与识别过程的基本思想也是利用现有方法中常用的思想,即正常数据会出现群聚,而异常数据一般是离群点。
3 算法的关键技术3.1 底层特征抽取首先需要对视频抽取底层特征以描述其基本信息。
基于极限学习机的视频异常行为检测算法张新峰:乌鲁木齐铁路建设指挥部,工程师,新疆 乌鲁木齐,830011肖 坦:通号通信信息集团有限公司,高级工程师,北京,100160安国成:通号通信信息集团有限公司,高级工程师,北京,100160摘 要:利用极限学习机来构建底层特征-视觉属性-高层语义三层架构,提出利用视觉属性作为中间层,克服底层特征和高层语义之间的语义鸿沟。
基于深度学习的视频行为识别与异常检测研究

基于深度学习的视频行为识别与异常检测研究深度学习在计算机视觉领域的发展为视频行为识别和异常检测提供了新的机会和挑战。
视频行为识别是指通过分析视频数据来识别和理解人类行为,而异常检测则是指检测和识别不符合正常行为模式的事件或行为。
本研究旨在探讨基于深度学习的方法来实现高效准确的视频行为识别和异常检测。
首先,深度学习是一种机器学习的方法,通过构建多层神经网络来模拟人脑的学习过程。
在视频行为识别和异常检测中,深度学习可以通过学习大量的视频数据来提取特征,并建立模型来识别和检测不同的行为或异常。
在视频行为识别方面,深度学习可以通过卷积神经网络(CNN)来提取视频的空间特征和时间特征。
空间特征包括人物、物体和场景等元素的位置和外观信息,而时间特征则是指行为的时序演变。
通过多层卷积和池化操作,CNN可以自动学习和提取视频中的特征。
此外,为了更好地捕捉时间特征,可以使用循环神经网络(RNN)或长短期记忆(LSTM)网络来建模视频的时序信息。
这些深度学习模型可以有效地捕获视频中的复杂特征,并实现准确的行为识别。
然而,在视频行为识别中还存在一些挑战。
首先,视频数据通常很庞大,需要大量的计算资源和存储空间。
为了解决这个问题,可以使用预训练的深度学习模型来提取视频特征,并利用这些特征来进行行为识别。
其次,不同的行为类别可能存在不平衡的问题,这会导致模型对于少数类别的判断效果较差。
为了解决这个问题,可以通过数据增强和重采样等方法来平衡不同类别的样本。
此外,由于视频中的人物、场景和物体等元素变化复杂,模型需要具备较强的鲁棒性和泛化能力,以应对不同的场景和环境。
在异常检测方面,深度学习同样可以发挥重要作用。
通过学习正常行为模式,深度学习模型可以识别和检测不符合正常模式的行为。
与传统的基于手工特征的方法相比,深度学习可以自动学习和提取视频中的关键特征,从而实现更高效准确的异常检测。
例如,可以使用自编码器或生成对抗网络(GAN)来学习视频的表示,并通过计算重构误差或异常分数来判断是否存在异常行为。
基于视频的行人检测及异常行为检测.doc

基于视频的行人检测及异常行为检测摘要随着计算机硬件设备的不断升级以及人们对公共场所的安全需求不断提升智能视频监控系统的重要性日益凸显而智能视频监控中的两个最基本的问题行人检测与异常行为分析也逐渐成为了计算机视觉领域的研究热点本文主要的研究内容是基于视频的行人检测与异常行为分析本文分别对这重要的两项技术提出有效的解决方案由于人体有着多变的外观以及可能出现多种状态因此在视频中进行检测行人是一项非常困难的任务首要的困难就是怎样提取一个鲁棒的人体特征集这种特征集要求能在不同光照条件的复杂背景下能够消除人体各种形态的歧义通过实验可以知道用局部正规化的梯度直方图Histogram of Oriented Gradients HOG方法提取出的特征值比用现存的其它特征提取方法提取出的特征值更加适应视频中行人检测的要求为了简单和处理速度本文采用线性SVMSupport Vector Machine分类器对训练样本进行分类实验结果表明本文所使用的方法能够满足视频中行人检测的实时性鲁棒性准确性的要求异常行为检测使用到的方法主要是用时空马尔科夫随机场模型实现了视频中的异常行为检测首先将视频序列中的帧划分成若干个区块做为MRF模型的节点紧接着为了能够求出区块的特征描述符再对区块进行划分出更小的子区域在描述帧信息时本文使用了光流法统计出每个子区域中的光流信息在对统计完的光流信息用视觉词袋做处理最后就可以得出每个节点块的特征描述符最终结合视频的时空特性通过求解MRF模型的能量函数判断出是否有异常行为发生这部分使用了光流法提取出像素点的运动方向和速度信息对视频中的帧序列进行区块划分后采取视觉词袋模型进行聚类编码表示有了编码化的特征就可以构造出了马尔科夫随机场模型的节点特征描述符这种方法并不是基于物体跟踪的方法因此在人群密集的场合更加有效本文将会对梯度方向直方图特征Lucas–Kanade 光流法视觉词袋的建立时空马尔科夫随机场模型等方法进行介绍通过实验表明本文所使用的方法能够有效的在多场景中完成行人检测与异常行为分析的任务关键词光流法视觉词袋MRF异常行为Abstractthe security needs in many public places the intelligent video surveillance system is more and more important And the two of basic problems of the intelligent video surveillance system pedestrian detection and abnormal behavior analysis have gradually become a hot research field of computer vision The main content of this paper is video-based pedestrian detection and abnormal behavior analysis Since the human body has a varied appearance and may occur for a variety of state therefore detect pedestrians is a very difficult task in the videoThe primary difficulty is how to extract a robust feature set of the human body this feature set should eliminate the various forms of ambiguity in the complex lighting conditionsBy experiments showing that locally normalized Histogram of Oriented Gradient is better than otherexisting feature extraction algorithms For the sake of simplicity and processing speed linear SVM classifier is used in this paperThe experimental results show that this method can guarantee the requirements of real-time robustness accuracyin pedestrian detectionIn this paper space-time Markov random field model is used to implement abnormal behavior detection First the frames in video should be divided into a number of local regions as the nodes of the MRF model And then in order to obtain the feature descriptor for the local regions these local regions should be divided into smaller sub-regions For the informationof frames optical flow is used Add up each sub-regions optical flow information using visual bag of words Bows to process these information and then feature descriptors in each local regions can begot Finally combining the spatial and temporal feature of the video to solving the energy function of the MRF model and determine the abnormal behavior occurred in this video Optical flow is used to extract the pixels movement information directions and speed After dividing the frames use the bag of visual words model to encode these blocks With encoding feature blocks MRF model nodes feature descriptors can be constructed Since this algorithm is not based on object tracking it works well in crowded scenes In this paperthe introduction of HOG Lucas-Kanade optical flow bows space –temporal Markov random field will be given brieflyThe experiments show that these methodsgiven by this paper can be effectively completedpedestrian detection and abnormal behavior analysis in different scenes KeywordPedestrian detection Optical flow Bag of visual wordsMRF Abnormal behavior detection目录摘要IAbstract II第1章绪论 111 课题背景 112 课题研究的目的及意义 213 国内外研究现状 414 主要研究内容及论文结构 5第2章视频中行人检测相关理论 621 引言 622 特征不变性623 梯度向量直方图724 基于霍夫变换的头部检测1125 使用HOG特征进行行人检测1326 本章小结13第3章马尔科夫随机场理论1531 引言1532 MRF模型概念与定义15321 集簇与邻域系统15322 MRF定义17323 MRF与Gibbs分布19324 常用MRF模型2033 MRF模型求解算法25331 MRF-MAP框架25332 能量函数最优化方法2634 本章小结29第4章基于光流法和MRF模型的异常行为检测 3041 引言3042 光流法 3043 视觉词袋32431 词袋模型与视觉词典33432 Kmeans聚类33433 空间视觉词典3444 异常行为检测35441 时空块模型36442 MRF时空联合检测36443 S-TMRF 的能量函数构造3745 本章小结40第5章系统的设计与实验4151 系统开发环境4152 系统程序设计架构41521 行人检测系统设计41522 异常行为识别系统设计 42523 实验环境43524 实验数据与实验结果4353 本章小结45结论46参考文献47哈尔滨工业大学硕士学位论文原创性声明49 致谢50绪论课题背景本项目来源于深圳市基础研究重点项目基于视觉的智能人机交互关键技术研究网络环境下基于视觉的智能人机交互是互联网中关键技术之一全世界众多科研机构都投入大量人力物力进行研究涉及人工智能图像处理等技术尤其在数字娱乐虚拟现实中有重要理论及应用价值符合深圳发展互联网需要自从恐怖袭击事件后几乎世界所有国家都在致力于建设一种实时的自动的全天候的智能视频监控系统用以满足对公共场所和重要部门的智能视频监控的需求因此由这种意义上来说进行深入探讨和研究是很有必要的视觉是人类认识外部世界获取信息的重要来源计算机已经在的生活中无处不在随着计算机应用技术的不断发展高性能高智能和高可用性被普遍认为是当前计算机科学发展的主要方向计算机在执行重复的数据密集型的计算任务时与人类自身相比更加的准确和高效正因为计算机有如此强大的能力很自然的应该让计算机去处理一些更加智能化的任务就比如视觉分析这种人类会在下意识中每天重复处理成百上千次而又通常不自知的行为人体行为的视觉分析是计算机视觉领域中的前沿方向它从包含人的序列中识别跟踪并对其行为进行描述和理解[1]近几年来摄像机等行为捕捉设备价格不断下降各种相关设备性能不断提升使得应用领域的需求增加利用计算机自动捕捉分析视频中的人体行为实现计算机自动识别和理解成为新的研究热点计算机视觉是用成像系统代替视觉器官作为输入手段由计算机来代替大脑完成处理人类的视觉系统是通过从视网膜上提取形成的图像信息来起作用计算机的视觉处理的发展也不可避免的对比着人类真实的视觉系统人类视觉系统的一个基本的任务是识别人和事物以及他们在空间上的相对关系类似的计算机视觉研究的主要目标之一是寻找在某种场景中定位和识别物体的方法在这个方向中更加关注人体以及人体行为尤其是人的异常行为的识别智能监控人体行为识别的重要应用不但环境中的人还要能环境中的运动通过对步态的识别可以完成对行人的访问控制实时分析视频监控数据进行人体行为识别及异常行为检测可以捕获及辨别出如偷窃斗殴抢劫等特定危险行为为安全以及社会监管提供有力的保障这很适合用于那些安全要求敏感的场合如车站银行商店军事基地等[3]课题研究的目的及意义在信息爆炸各种资讯迅速膨胀对的的人们文字更为丰富的多媒体信息视频信息量最大内容引人满足人们对资讯的需求因此人们同时科技进步和制造业的发展现代电子设备的运算能力不断增强已经能够在运算速度上保证对视频内容进行实时同步的分析与处理各种基于视频分析处理的应用如雨后春笋般层出不穷在现代社会中智能视频监控技术有着广泛的需求目前通用的方法是专门雇用若干人员观看各个区域内的摄像头反馈的视频信息多组视频同时在显示器上不能保证对的事件等因素有所忽略不能保证准确性对比来看使用智能视频监控系统能够有以下等诸多好处不间断监控人工的监控行为不能保证监控的连续性根据人的生理特征没有接受过相关方面特殊训练的成年人在一件事物上注意力只能集中60分钟左右的时间由此长时间的连续监控会使得人工监控的有效性大幅度的降低初次之外在人员交接的过程中会出现一段空白时间使得总会有若干时间内视频监控系统处在无人监管的状态如果采用智能视频监控系统就可以解决无法连续监控的问题可靠高效虽然计算机和人不能保证对视频监控内容百分之百的准确检测但是由于人对某一事物的智能视频监控系统相对来说系统得到的监控反馈也就更加可以信服除此之外使用智能视频监控系统还能够对过往的录像文件进行分析判断而人工监控只能关注当前的视频内容智能视频监控系统在部署成本在万元左右却能够多年使用同时还能节约掉人力成本让工作人员仅异常处理可以在人员成本完成异常应对的任务保护隐私使用传统的方式由人直接对所有视频信息进行监控像难免会出现隐私保护不力的情况例如在公交车上乘客常常对车载监控设备产生一种不适感操作公共摄像头监控私人场所偷窥隐私的恶意行为也是频繁发生如果采用智能视频监控系统就可以杜绝上述的行为系统能够自动提示相关工作人员去处理异常信息而其它人员将会没有机会去接触到大量涉及隐私的视频信息多样化智能化视频处理技术异常同时能够根据计算机处理的结果将视频记录分类并建立索引相关工作人员可以在智能视频监控系统的辅助下高效的对视频进行处理根据智能视频监控系统的需求目标实时跟踪特定场景中目标检测以及目标行为分析都是系统核心问题行人检测技术在智能及机器人领域都有广泛的应用价值计算机视觉视频处理和模式识别的重要研究课题[7]行人检测往往存在着复杂的背景因而必定出现光遮挡所处姿态所的非刚体形变等问题这些常见的由于行人检测通常会有辅助的特征处理手段因此可以利用系统能采集到的其他信息预测行人的行为和位置从而达到提高行人检测准确性的目的异常行为检测技术智能视频监控系统监护的场景中如果能够做到使用异常行为检测技术检测出病人发生危险可以及时的报警通知使病人的生命安全得到保障在交通用来检测例如酒驾等危害其他公共交通安全的不法行为从而保护道路安全在人员复杂的公共场所中假如使用计算机技术通过对监控视频进行分析进而对斗殴盗窃等事件的发生进行判定并及时做出相应的响应就能够对突发事件进行有效处理维护公共安全有目前使用数学模型的方法来对异常场景进行定义是很困难的除此之外因为存在着场景和尺度等变化同时又要求系统具有很高的适应性和灵活性因此视频中的异常行为检测仍是一种充满挑战性的工作视频中的行人检测以及异常行为检测在模式识别领域和计算机视觉领域中国内外研究现状对人体动作识别的最早研究可以追溯到上世纪70年代当时的心理学家做了如下实验处在黑暗的环境中的人在关节上安装光亮点通过捕获这些亮点的运动轨迹对人体的运动信息进行捕获以及分析国内外很多研究学者都在这个领域做了大量详细的研究特别是欧美国家中涌现出越来越多的成熟应用在行人检测方面使用的方法大体上可以被分为三大类主要包括基于模型匹配的方式提取Harr型特征的方式以及使用梯度方向直方图作为特征的方式使用基于模型匹配的行人检测技术首先需要对行人的运动方式进行建模并且要在连续的视频序列中分离出前景与背景模型由于行人在监控场景中出现的形态随机性很大很难存在一个稳定的模型对其行为进行概括因此使用模型匹配的方式进行行人检测缺陷相当突出使用Harr特征的方式经训练获取训练集中的Harr特征在使用初步提取到的Harr特征去对强分类器进行训练最终依靠得到的强分类器进行行人检测提取Harr特征的方法最早被用在人脸检测中并取得了较好的发展在行人检测领域在视频中行人的服装颜色光照条件所处的背景到要比人脸检测所涉及到的环境要复杂很多因此把Harr特征应用于行人检测中的表现并不如在人脸检测中那样高效现在在行人检测领域使用最多的第三种方法基于梯度直方图的方式这种方式能够很好对检测局部对象进行表示经过长期发展该方法在行人检测领域已经成为主流的方法在异常行为检测方面为了进行异常行为检测大多数算法都试图首先定义一种正常行为模式在此基础之上在判断新的观测值的偏离程度来决定是否存在异常现存的方法多种多样比如基于规则的方法和直接对正常行为模式进行学习的无监督方法等等广泛说来前人使用的非监督方法主要有基于典型轨迹的对明显有代表性的轨迹进行探测的方法基于低级特征测量的行为学习技术基于聚类的方法以及对过去发生行为建立索引的基于索引的方法等等基于轨迹的方法依照观察场景中观测体的运动轨迹来判定是否有异常发生由于轨迹是对行为直接在语义层面进行提取因此很难在人群密集的场所应用轨迹的方法使用多目标HMM 和迭代EM的方法使用一个图模型能够检测出局部发生的异常主要用于处理复杂约束条件下的原子行为的处理使用贝叶斯主题模型的方法虽然可以对局部行为进行估计但是并没有利用到行为的时空关联性比起尝试为正常行为建立模型的方法基于索引的方法将以前发生的所有行为描述存储在数据库中然后在将新的行为描述符与数据库中的行为进行一一匹配从而对新的行为进行判断虽然这种方法能够在处理具体的行为进行判断时有比较好的判断效果但是在使用这种方法时不得不面对维护一个庞大的数据库的需求主要研究内容及论文结构本课题的主要研究内容是使用梯度直方图与SVM进行行人检测使用光流法提取多尺度分块特征视觉词袋马尔科夫随机场模型的建立以及求解以及分析检测视频场景中出现的异常行为等第1章绪论主要介绍了课题的研究背景研究意义行人检测技术以及异常行为检测技术的国内外研究现状了主要的研究内容并在最后给出了本文后续内容的安排第2章视频中行人检测这是本课题的理论基础之一本章主要介绍了使用梯度直方图 HOG 支持向量机 SVM 进行行人检测的技术第3章马尔科夫随机场理论这是本课题的理论基础之一本章注重介绍了马尔科夫随机场模型的定义常用模型结构以及马尔科夫随机场模型的求解方法主要阐述了异常行为检测系统的理论依据为下文的实现部分做准备第4章基于光流法和MRF模型的异常行为检测本章主要介绍了使用分块多尺度光流信息作为视频帧的原始特征并通过视觉词袋的方法对提取出来的视觉特征进行降维以及分类从而形成马尔科夫随机场中单个节点以及节点间联系的特征构建马尔科夫随机场模型能量函数并对马尔科夫随机场随机场模型进行求解第5章系统的设计与实现系统通过使用OpenCV函数库实现列出了系统流程图实验结果等内容结论并对未来的研究进行展望视频中行人检测引言国内外的专家学者已经对行人检测技术进行了较为深入的研究然而仍然存在着各式各样的问题困扰着各国的专家学者特别是行人置身的背景复杂光变化明显行人姿态千变万化差异化明显的以及摄像机捕获的图像帧序列的分辨率较低等问题为了解决上述问题由于人体有着多变的外观以及可能出现多种状态因此在视频中进行检测行人是一项非常困难的任务首要的困难就是怎样提取一个鲁棒的人体特征集这种特征集要求能在不同光照条件的复杂背景下能够消除人体各种形态的歧义通过实验可以知道用局部正规化的梯度直方图方法提取出的特征值比用现存的其它特征提取方法提取出的特征值更加适应视频中行人检测的要求为了简单和处理速度采用线性SVMSupport Vector Machine分类器对训练样本进行分类实验结果表明本文所使用到的方法能够满足视频中行人检测的实时性鲁棒性准确性的要求图2-1行人检测数据集特征不变性特征不变性通常指的是提取到的图像中的特征不会因为图像目标位置平移尺寸缩放或者是平面内翻转而导致的特征值变化的情况发生在现实的观测场景中运动目标都会发生位置上的变化也就是位移同时因为目标的位移是相对摄像头发生的所以目标的外观尺寸必然会在位移的过程中产生变化相对复杂的变化是由于运动目标本身的原因形成的视平面内旋转或者是镜头的旋转针对上述的三种变化情况兼有平面内旋转位置平移以及尺寸缩放不变性的图像特征仍会做到很好地描述变化着的运动目标体同时对目标对象的准确分类有着重要的意义图2-2目标体变化图2-3物体相对于视平面立体旋转在图 2-2中可以看出在真实场景中目标体的旋转除了会在视平面内进行外更多的情况它能够把自己与取景镜头相背的部分旋转到正对镜头的位置还会伴随着非刚体目标体形变的出现目标体相对视平面立体旋转见图2-3这两种复杂的目标体变化对于平面内旋转尺寸缩放和目标平移不变性图像特征来说相当于图像中原本检测目标体被新的目标体代替了所以常用的不变性特征不能有效的解决立体旋转和目标体形变的问题针对视频中运动目标的跟踪检测问题近年来提出了不少具有不变性的高级统计图像特征并且这些特征对于复杂背景立体旋转和目标扭曲形变具备良好的适应能力直接使用统计直方图对图像进行特征提取通常能够保证尺度缩放平面内旋转和位移不变性但是由于这种方式不具备对目标体空间分布情况的描述能力通过图像局部重叠区域直方图的组合却获得了能够稳健描述目标外形适应形变和立体旋转的高性能特征算子例如HOGSIFTEOHEdge Orientation Histograms边缘方向直方图和 Shape Contexts 形状上下文等[8]下文主要对HOG算子进行探讨梯度向量直方图HOG是应用于图像处理和计算机视觉领域用于目标检测的技术使用这项技术可以获取出图像局部梯度的方向信息的统计值作为特征值该技术同尺度不变特征变换scale-invariant feature transform descriptors边缘方向直方图edge orientation histograms以及形状上下文方法shape contexts有着众多的相似点它们之间的不同主要表现在HOG是使用一个大小相同网格密集的细胞单元dense grid of uniformly spaced cells来计算的此外还加入了重叠的局部对比度归一化来提高性能Navneet Dalal和Bill Triggs法国国家计算机技术和控制研究所 INRIA 工作的研究员HOG方法的思想最初这种方法的应用范围主要集中在静态图像里的行人检测随着研究的深入研究人员发现也可以梯度方向直方图背后所蕴含的重要思想是在一个帧图像中局部对象的外观和形状能够被梯度的强度或者是边缘的方向的分布情况所描述可以通过将图像帧划分成一些小的联通区域这些区域被叫做细胞单元对于每个细胞单元依据细胞单元内的像素点提取出一个梯度方向或者是边缘定位的直方图这些直方图的组合就可以表示描述符为了准确率的提高可以通过计算图像中更大区域这个区域被称作块区域的强度的值然后用这个值去正规化这个块区域中的所有的细胞单元来实现对局部直方图进行规范化增强操作进过正规化之后光照和阴影的不变性会变得更好像素点细胞单元细胞核区间三者之间的组织结构由图2-4所示图中细胞单元由红色的正方形截出绿色代表每一个像素点最外围容器为细胞核区间图2-4HOG 特征的计算结构然后就可以求出每个细胞单元内对应的每个像素点的边缘或梯度的方向从而就可以得到一维的细胞单元方向直方图在点 i j 处的图像I xy 的梯度模值和方向公式为2-12-2由于图像中梯度方向的分布范围比较广所以需要将方向值域进一步划分成9 个相同的区段bin每个像素点在各个区段上的梯度方向幅值计算公式如下2-3按照一定的顺序将图像中所有的细胞单元的方向直方图拼接起来就得到了图像的特征算子考虑到特征算子适应光照变化和阴影的能力需求提高通常的做法是将若干位置上相邻的细胞组合成更大的区间在这个更大的区间内将方向直方图进行对比度归一化处理可以将区间的形状规划为圆形或矩形对比度归一化的解法为首先计算区间内各个直方图的方向幅值的和再以求和的值作为分母比上细胞单元各自的直方图方向幅值按上述方式全部计算9个方向的值计算公式为2-4其中表示第k个区段的方向累计幅值在细胞Ct中所属的区间B中所占的比例各个小区间的方向直方图的特征向量使用以下方式描述2-5HOG特征提取的算法共由下述4个步骤组成对输入图像进行预处理计算梯度值对细胞单元的梯度方向直方图进行统计最后区归一化间内直方图整个算法的流程流程图如图 2-5所示图2-5图像 HOG 特征提取算法流程框图通常将区间的滑动步长设定为细胞边长的像素点的数目来对整个梯度图像进行覆盖扫描使用这种处理方法会使得区间中大部分的细胞方向直方图都能够被重复的归一化被多次加进 HOG 特征向量中具体的操作过程见图 2-6 所示图2-6梯度方向直方图计算及其区间内归一化过程示意图。