人体行为识别技术

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

在计算机视觉领域中，人体运动行为识别是一个被广泛关注的热点问题，在智能监控、机器人、人机交互、虚拟现实，智能家居，智能安防，运动员辅助训练等方面有巨大应用价值。行为识别问题一般遵从如下基本过程：数据图像预处理，运动人体检测、运动特征提取、特征训练与分类、行为识别。着重从这几方面逐一回顾了近年来人体行为识别的发展现状和常有方法。并对当前该研究方向上待解决的问题和未来趋势做了分析。行为理解可以简单地认为是时变数据的分类问题，即将测试序列与预先标定的代表典型行为的参考序列进行匹配。通过对大量行为理解研究文献的整理发现：人行为理解研究一般遵从特征提取与运动表征、行为识别、高层行为与场景理解等几个基本过程。

特征提取与运动表征是在对目标检测、分类和跟踪等底层和中层处理的基础上，从目标的运动信息中提取目标图像特征并用来表征目标运动状态；行为识别则是将输入序列中提取的运动特征与参考序列进行匹配，判断当前的动作处于哪种行为模型；高层行为与场景理解是结合行为发生的场景信息和相关领域知识，识别复杂行为，实现对事件和场景的理解。【2】

1、行为识别的应用

从应用领域的分类来讲，可以将人体运动分析的应用分成如下几个领域：

①智能监控

这里所指的“智能”包含两个方面的含义。一种“智能”是指系统能够在一定的场景中检测是否有人的出现(如通过检测人脸的方法)防止只是简单的通过运动目标检测所造成的错误报警(例如因为动物活动或者刮风摇动树枝等等而造成误报)。另外一种“智能”是指系统能够监视一定场所中人的活动，并对其行为进行分析和识别，跟踪可疑行为(如经常在重要地点徘徊等等行为)从而采取相应的报警措施。通常把报警系统设置于银行、机场、车站、码头、超市、办公大楼、住宅小区等地，以实现对这些场所的智能监控。

②虚拟现实

跟踪现实世界人的姿态，从而创建一个虚拟的仿真场景，实现人与这个虚拟世界的交互。该领域的具体应用涉及视频游戏、虚拟摄影棚、计算机动画等方面。

③高级用户接口

指可以通过对用户手势的识别来代替传统的鼠标和键盘输入，从而实现人与计算机之间的智能交互。此外，通过对手势语言的理解，还可以进行聋人与计算机之间的手语交流。

④运动分析

人体运动分析可以运用于基于内容的视频检索领域。例如可以检索在运动会上单杠比赛中运动员的杠上动作。这样可以节省用户大量的查询视频资料的时间和精力。另外一种应用是用于各种体育项目中，提取运动员的各项技术参数(如关节位置、角度和角速度，等等)，通过分析这些信息，可以为运动员的训练提

供指导和建议，有助于提高运动员的训练水平。此外，还可以用于体育舞蹈动作的分析，以及临床矫形术的研究等领域。

⑤基于模型的视频编码

通过提取一定的静态场景中人物的形态特征参数和3D姿态参数，以较低的数据量对视频数据流加以描述，实现视频数据的压缩和低比特率传送。可以用于在因特网上展开远程视频会议以及VOD（Video-On-Demand）视频点播。

总之，人体运动跟踪的研究已涉及到计算机视觉、模式识别、视频图像处理等方面的理论问题和实际应用问题，对人体这一带有关节旋转运动的非刚体目标的跟踪与分析将会促进这些领域在理论上产生新的处理方法，并将对诸多应用领域产生潜在的影响。

2、行为识别研究难点

行为识别发展至今，取得了很大的进展，在低层，中层和高层都取得了一定的突破，但是行为识别算法并不成熟，目前不存在一个算法适合所有的行为分类，3个视觉层次中都还有很多严峻的问题有待解决。其研究的难点主要体现在以下几个方面：

1）动作类内类间的变化太大

对于大多数的动作，即使是同一动作都有不同的表现形式。比如说走路，可以在不同的背景环境中完成，走路的速度也可以从慢到快，走路的步长亦有长有短。其它的动作也有类似的结果，特别是一些非周期的运动，比如过马路时候的走路，这与平时周期性的走路步伐明显不同。由此可见，动作的种类本身就很多，再加上每一种类又有很多个变种，所以给行为识别的研究带来了不少麻烦。

2）环境背景等影响

环境问背景等因素的影响可谓是计算机视觉各个领域的最大难点。主要有视角的多样性，同样的动作从不同的视角来观察会得到不同的二维图像；人与人之间，人与背景之间的相互遮挡也使计算机对动作的分类前期特征提取带来了困难，目前解决多视觉和遮挡问题，有学者提出了多摄像机融合通过3维重建来处理；另外其影响因素还包括动态变化和杂乱的背景，环境光照的变化，图像视频的低分辨率等。

3）时间变化的影响

人体的行为离不开时间这个因素。而我们拍摄的视频其存放格式有可能不同，其播放速度有慢有快，这就导致了我们提出的系统需对视频的播放速率不敏感。

4）数据的获取和标注

既然把行为识别问题当成一个分类问题，就需要大量的数据来训练分类模型。而这些数据是视频数据，每一个动作在视频中出现的位置和时间都不确定，同时要考虑同一种动作的不同表现形式以及不同动作之间的区分度，即数据的多样性和全面性。这一收集过程的工作量不小，网上已经有一些公开的数据库供大家用来实验，这将在本文的第3部分进行介绍。

另外，手动对视频数据标注非常困难。当然，有学者也提出了一些自动标注的方法，比如说利用网页图片搜索引擎,利用视频的字幕，以及利用电影描述的文本进行匹配。

5）高层视觉的理解

上面一提到，目前对行为识别的研究尚处在动作识别这一层。其处理的行为可以分为2类，一类是有限制类别的简单规则行为，比如说走、跑、挥手、弯腰、跳等。另一类是在具体的场景中特定的行为，如检测恐怖分子异常行为，丢包后突然离开等。在这种场景下对行为的描述有严格的限制，此时其描述一般采用了运动或者轨迹。这2种行为识别的研究都还不算完善，遇到了不少问题，且离高层的行为识别要求还相差很远。因此高层视觉的理解表示和识别是一个巨大的难题。

3人体行为分析研究

一般的运动人体行为分析主要包括一下几个流程：1）数据库建立；2）运动人体检测；3）运动特征提取；4）行为理解与识别。在我们的运动人体行为分析研究中，重点研究运动人体检测和运动特征提取。如图1所示是运动行为分析研究的整体框架：

图1

运动目标检测

对于不依赖先验知识的目标跟踪来讲，运动检测是实现跟踪的第一步，运动检测即为从序列图像中将变化区域从背景图像中提取出来。目前,已有的运动目标检测方法按照算法的基本原理可以分为三类:帧间差分法、背景减除法和光流法。三类方法各有其优缺点。

(1)背景减除法

背景减除法是预先选取不含前景运动目标的背景图像，然后将当前图像帧与背景图像相减得到前景目标。最常用且有效的是背景减除法。

此类算法的缺点是由于通常需要缓冲若干帧来学习背景,因此往往需要消耗大量的内存,这使其使用范围受到了限制。此外,对于大范围的背景扰动,此类算法的检测效果也不理想。Stauffer和Grimson提出的高斯混合模型是使用最为广泛的背景建模方法。高斯混合模型通过多个高斯分布对背景建模,每个分布对应一种背景像素的模态,从而能够适应像素层面上的背景扰动问题,并能通过对背景的不断更新,使系统能对背景的变化自适应。但是,高斯混合模型对于全局光照变化、阴影非常敏感,对于缓慢的运动目标检测效果也不理想。

(2) 帧间差分法