自然的人体动作识别

合集下载

基于空间特征的BI-LSTM_人体行为识别

基于空间特征的BI-LSTM_人体行为识别

文章编号:1006-3080(2021)02-0225-08DOI: 10.14135/ki.1006-3080.20191202003基于空间特征的BI-LSTM 人体行为识别付仔蓉, 吴胜昔, 吴潇颖, 顾幸生(华东理工大学能源化工过程智能制造教育部重点实验室,上海 200237)摘要:随着微软Kinect 等深度相机的出现,使用具有简洁性、鲁棒性和视图无关表示的3D 骨架节点数据来识别人体行为的方法获得了很好的效果,但现有的针对骨骼序列数据的大多数学习方法缺少空间结构信息和详细的时空动态信息。

利用双向长短期记忆网络(BI-LSTM )模型能长时间存储骨骼序列的特点获得丰富的双向时间信息对动作的顺序进行建模,同时从3D 骨骼关节点坐标中提取关节点之间的相对距离特征和相对角度特征来加强空间结构特征,完成从骨骼数据中实现人体行为识别。

该方法有效地进行了人体行为动作分类,提高了识别准确性。

关键词:行为识别;骨骼数据;距离特征;角度特征;BI-LSTM 中图分类号:TP273文献标志码:A人体行为动作识别是以人为中心,研究人体活动的重要分支之一。

基于机器视觉的人体行为识别是自动解释图像或者视频序列中固定场景的人体正在执行什么动作或活动,如从2D 图像中提取卷积特征,利用卷积神经网络(CNN )实现自动姿势识别[1]。

人体行为识别在人机交互、智能监视系统[2]、视频搜索、游戏、行人检测、医疗保健自动化系统[3]、智能驾驶和智能家居等方面具有实际的应用前景。

在过去的几十年中,研究者广泛使用彩色图像(RGB )数据来识别人体行为动作。

如 Ciocca 等[4]利用输入的RGB 图像进行动作识别与跟踪,但由于其背景杂乱、身体遮挡、观察点角度不同、光线照明变化、执行率和生物特征变化等引起的一系列问题,造成行为识别困难。

随着具有成本效益的深度图像(RGB -D )传感器如Microsoft Kinect 和Asus Xtion 等的开发,Liu 等[5]提出了一种多模式相关表示学习(MCRL )模型,从RGB -D 视频中识别人类动作。

基于深度学习的人体动作识别与分析毕业设计

基于深度学习的人体动作识别与分析毕业设计

基于深度学习的人体动作识别与分析毕业设计基于深度学习的人体动作识别与分析随着人工智能技术的快速发展,深度学习在人体动作识别与分析领域展现出强大的应用潜力。

本文以基于深度学习的人体动作识别与分析为主题,探讨其在毕业设计中的应用。

一、引言深度学习是一种通过模拟人脑神经网络结构,实现对复杂模式的学习和识别的机器学习方法。

其应用广泛,尤其在计算机视觉领域表现突出。

而人体动作识别与分析作为计算机视觉的一个重要研究方向,也得到了深度学习方法的广泛应用。

二、深度学习在人体动作识别中的应用1. 数据采集与预处理在进行人体动作识别和分析之前,首先需要采集人体动作数据并进行预处理。

数据采集可通过传感器设备、摄像头等手段进行,采集到的数据包括人体关节点的坐标、深度图像、RGB图像等。

预处理阶段则包括数据清洗、标注和标准化等,以确保数据的质量和统一性。

2. 深度学习模型选择常用的深度学习模型如卷积神经网络(CNN)、循环神经网络(RNN)以及两者的结合(CRNN)等,都可以用于人体动作识别。

选择适合的模型需要根据实际问题的复杂程度和性能要求进行权衡。

例如,对于时间序列的动作数据,RNN和CRNN模型更适合捕捉序列之间的时序信息。

3. 模型训练与优化在选择好模型后,需要进行模型的训练与优化。

模型训练过程中,需要准备训练集和验证集,并设置合适的损失函数和优化器。

通过反向传播算法,将训练数据输入模型中进行前向传播和反向传播,更新模型的权重参数。

同时,学习率的设置、正则化和批量归一化等技术也可以用于提高模型的性能。

4. 动作识别与分类在得到训练好的模型后,可以将其应用于动作识别与分类任务中。

给定新的人体动作数据,通过模型进行特征提取和分类,从而实现对人体动作的准确识别。

同时,可以借助注意力机制、融合多模态信息等方式,进一步提高动作识别的准确性和鲁棒性。

三、人体动作识别与分析应用示例以人体动作识别应用于智能健身监测系统为例,介绍其具体实现。

基于特征融合的动作识别

基于特征融合的动作识别

基于特征融合的动作识别随着科技的不断进步和智能设备的广泛应用,动作识别技术逐渐成为了人工智能领域中的一项重要研究内容。

动作识别技术可以通过对人体姿势和动作的监测和识别,实现从图像或视频中自动识别人体动作。

这项技术在很多领域都有广泛的应用,比如安防监控、医疗康复、虚拟现实等。

而基于特征融合的动作识别技术,正是针对传统的单一特征提取手段的不足,提出的一种新的动作识别方法。

本文将从动作识别的背景与意义、特征融合技术的原理与方法、应用与发展前景等方面详细介绍基于特征融合的动作识别技术。

一、动作识别技术的背景与意义动作识别技术指的是从视频中抽取人类动作的特征,进行分类识别的一项技术。

动作识别技术的研究意义主要体现在以下几个方面:1. 安防监控领域:动作识别技术可以对监控区域内的异常动作进行自动分析和识别,发现潜在的安全隐患。

比如在银行、商场、地铁等场所,可以通过动作识别技术实现对可疑行为的自动识别和报警。

2. 医疗康复领域:动作识别技术可以帮助医生对患者进行康复训练的监控和评估,实现对患者康复情况的全面记录和分析。

3. 虚拟现实领域:动作识别技术可以实现对用户姿势和动作的实时捕捉和识别,帮助用户与虚拟世界进行更加自然和直观的交互。

动作识别技术在多个领域都有着广泛的应用前景和市场需求,因此对于研究和发展动作识别技术具有重要的意义。

二、特征融合技术的原理与方法在传统的动作识别技术中,通常采用的是对视频序列进行预处理后,提取出某些特定的特征,如颜色特征、运动特征、形状特征等,然后通过机器学习算法对这些特征进行分类和识别。

这种单一特征提取的方式在一些复杂的情况下可能会导致准确率不高的问题。

为了解决这一问题,研究人员提出了基于特征融合的动作识别技术。

特征融合技术的原理是将来自多种特征提取方法的特征进行融合,以增强对视频序列中人体动作的表达和识别能力。

常见的特征融合方法主要包括以下几种:1. 特征级融合:将来自不同特征提取方法的特征直接进行拼接或加权求和,得到整合后的特征向量。

如何利用AI技术进行肢体动作识别

如何利用AI技术进行肢体动作识别

如何利用AI技术进行肢体动作识别一、引言肢体动作识别是指通过计算机视觉和人工智能技术,对人类的肢体运动进行分析和识别。

在众多领域中,如虚拟现实、医疗康复、安防监控等,肢体动作识别都扮演着重要的角色。

本文将探讨利用人工智能技术进行肢体动作识别的方法和应用。

二、传感器数据采集与预处理1. 使用传感器采集数据为了进行肢体动作识别,首先需要获取相关的肢体运动数据。

目前常用的传感器包括加速度计、陀螺仪和磁力计等,可通过这些传感器实时捕捉运动过程中产生的相关数据。

2. 数据预处理获得的原始数据通常需要经过预处理以提高后续处理的效果。

预处理操作可以包括滤波去噪、缺失值填充和坐标系转换等。

这些操作旨在减少数据中的噪声和干扰,并确保数据具有一定的可靠性和连续性。

三、特征提取与选择1. 特征提取方法在进行肢体动作识别时,由于原始数据的维度通常非常高,因此需要提取合适的特征来表示和描述肢体运动。

常用的特征提取方法包括时域特征、频域特征和空间域特征等。

时域特征可以通过统计指标如均值、方差和斜度等来反映时间序列数据的整体趋势;频域特征则可通过傅里叶变换将时域数据转换为频谱分布来揭示不同频率成分的贡献程度;而空间域特征则涉及到对多个传感器之间的关系进行建模和分析。

2. 特征选择方法提取到的所有特征可能包含冗余和无关信息,为了减少处理开销并提高分类性能,需要进行特征选择。

常用的特征选择方法有相关系数法、卡方检验法和互信息法等。

这些方法可以根据各个特征与目标变量之间的相关性来评估不同特征对分类任务的贡献程度,并选取出最具代表性且相关性较强的特征子集。

四、模型训练与优化1. 模型选择在利用AI技术进行肢体动作识别时,需要选择合适的模型进行训练。

常用的模型包括支持向量机(SVM)、决策树和深度学习模型等。

其中,深度学习模型如卷积神经网络(CNN)在肢体动作识别中表现出色。

2. 数据划分与交叉验证为了评估模型的性能,通常将数据集划分为训练集、验证集和测试集。

211171401_基于跨尺度图对比学习的人体骨架动作识别方法

211171401_基于跨尺度图对比学习的人体骨架动作识别方法

第47卷第2期燕山大学学报Vol.47No.22023年3月Journal of Yanshan UniversityMar.2023㊀㊀文章编号:1007-791X (2023)02-0164-11基于跨尺度图对比学习的人体骨架动作识别方法张雪莲1,2,徐增敏1,2,3,∗,陈家昆1,2,王露露1,2(1.桂林电子科技大学数学与计算科学学院,广西桂林541004;2.桂林电子科技大学广西高校数据分析与计算重点实验室,广西桂林541004;3.桂林安维科技有限公司,广西桂林541010)㊀㊀收稿日期:2022-06-16㊀㊀㊀责任编辑:唐学庆基金项目:国家自然科学基金资助项目(61862015);广西科技基地和人才专项资助项目(AD21220114);广西重点研发计划资助项目(AB17195025)㊀㊀作者简介:张雪莲(1997-),女,黑龙江绥化人,硕士研究生,主要研究方向为自监督学习㊁应用数学;∗通信作者:徐增敏(1981-),男,广西梧州人,博士,副教授,主要研究方向为计算机视觉㊁人工智能,Email:xzm@㊂摘㊀要:传统基于人体骨架的自监督学习方法常用对比学习模块进行表征学习,而现有对比学习模块使用数据增强方法来构建相似的正样本,其余样本皆为负样本,这限制了同类样本的语义信息表达㊂针对上述问题,提出一种图对比学习与跨尺度一致性知识挖掘的动作识别算法㊂首先,基于骨架图结构设计了一种新的数据增强方法,对输入的骨架序列进行随机边裁剪,得到两个不同的扩增视图,加强了同一骨架序列不同视图间的语义相关性表达;其次,为缓解同类样本嵌入相似度较低的问题,引入自监督协同训练网络模型,利用同一骨架数据源的不同尺度间的互补信息,从一个骨架尺度获取另一个骨架尺度的正类样本,实现了单尺度内关联及多尺度间语义协同交互;最后,基于线性评估协议对模型效果进行评估,在NTURGB +D60与NTURGB +D120数据集的实验结果表明,本文所提方法在识别精度上较前沿主流方法平均提升了2%~3.5%㊂关键词:图对比学习;数据增强;跨尺度一致性知识挖掘;协同训练;人体骨架中图分类号:TP391㊀㊀文献标识码:A㊀㊀DOI :10.3969/j.issn.1007-791X.2023.02.0090 引言人体动作识别是目前计算机视觉领域非常热门的研究方向,它主要从视频片段中分辨不同类的动作,然后对视频的多帧图像进行处理,并利用全连接层来获得最终的分类结果[1]㊂作为该领域的研究热点,动作识别在视频监控㊁人体交互㊁视频理解等领域[2-3]发挥重要作用㊂在过去的工作中,许多基于RGB 视频的动作识别技术已经取得了显著成果,但在提取RGB 视频数据时,其易受到遮挡㊁环境变化与阴影干扰,导致深度图中颜色和纹理特征容易缺失,且处理起来相对耗时㊂另一种模态数据,人体骨架数据集,利用骨骼关节点的三维坐标来表示人体,实现了一种更加轻量级的表示方法,且骨架数据对于视角变换㊁人物外貌以及环境变化具有较强的鲁棒性㊂因此,近年来,基于骨架数据的人体动作识别方法得到了广泛关注,Yan 等人[4]提出一种时空图卷积网络模型(ST-GCN),更好地表述了人体骨骼关节之间的依赖关系;Lei 等人[5]提出了一种双流自适应图卷积网络(2S-AGCN),更加合理地构建了邻接矩阵策略,增强了网络对空间特征的抽取能力;Liu 等人[6]提出了一种多尺度时空聚合方案(MS-G3D),有效地解决有偏加权问题㊂以上构建的模型虽然取得了较好的识别效果,但都属于全监督学习框架,需要依赖大量人工标注数据,而标注数据是繁琐且昂贵的㊂针对以上问题,自监督学习被广泛应用,其无需标注训练样本,可以通过数据增强方法低成本扩充数据集,凭借这一优势,越来越多的研究人员第2期张雪莲等㊀基于跨尺度图对比学习的人体骨架动作识别方法165㊀将目光投入到自监督模型构建中㊂其中,Lin等人[7]提出一种基于骨架的自监督动作识别方法,可以使编码器学习更多的鉴别特性,解决从单个重建任务中学习骨架表示的过拟合问题;Zheng等人[8]通过结合编码器,解码器和生成式对抗网络,重新构建了被掩码的3D骨架序列;Yang等人[9]设计了一种骨骼云着色技术,将从未标记的骨架序列中学习到的特征表示用于骨架动作识别的自监督表示方法中㊂然而,以上基于骨架数据的自监督模型,利用对比学习方法进行建模,没有考虑骨架数据是一种离散数据结构,需要进行图结构学习,且利用数据增强获取正样本的想法过于单一,较少将跨尺度信息联合方法应用到自监督模型中,难以克服单一尺度特征信息不足的缺陷,不利于模型聚类效果㊂鉴于此,本文提出基于图对比学习与跨尺度一致性知识挖掘的自监督动作识别方法㊂所提方法首先结合多种数据增强理论,以获得无标签骨架序列的不同视图,并对不同视图进行编码,建立图对比学习网络;其次将原始骨架序列转化为多尺度骨架图序列,结合跨尺度一致性知识挖掘模块,构建基于骨架的跨尺度图对比学习网络;最后将多尺度骨架图序列输入到所构建的网络模型中,通过个体多尺度映射间的协同关联模式,实现单尺度内关联及多尺度间语义协同交互㊂基于以上所述,本文所作贡献可简述如下: 1)为解决传统方法在扩增骨架数据过程中,存在泛化性不足和传递性不强的问题,融合图数据增强思想,建立图对比自监督动作识别网络㊂2)引入多尺度图来建模三维骨骼特征表示,聚集骨骼关节点的关键相关特征,结合跨尺度一致性知识挖掘方法,实现多尺度信息间的交互㊂3)结合图对比自监督动作识别网络和跨尺度一致性知识挖掘方法,提出一种新的模型框架,并基于线性评估协议对模型效果进行评估㊂1㊀相关工作1.1㊀基于骨架的监督动作识别方法基于骨架的监督动作识别方法旨在从一系列时间连续及有标签的人体骨架序列中识别正在执行的动作[10]㊂早期人体骨架动作识别算法大多是基于手工特征㊂近年来,随着机器学习与深度学习的发展,人们将其与骨架序列联系起来,提出许多基于循环神经网络[11-12]的方法,虽然有效地利用了骨架序列的时序信息,但考虑到循环神经网络存在梯度消失等问题,研究者们逐渐将目光转移到卷积神经网络[13-14]上,其可以从不同时间区间内提取到骨架特征的特定局部模式,然而鉴于该网络需要将骨架序列转换成特定的RGB图像形式,不利于骨架数据的特征表达,人们又提出了图卷积神经网络[4,15],通过建模骨架数据的自身图结构,进而实现基于骨骼点的动作识别任务㊂本文受前人启发,采用基于图卷积网络方法,将ST-GCN[4]作为提取骨架特征的主要组成网络㊂1.2㊀基于自监督对比学习的动作识别方法对比学习方法着重于学习同类实例之间的共同之处,区分非同类之间的不同之处[16]㊂最近,研究人员提出许多基于生成实例的自监督对比学习方法[17-20]㊂其中,MoCo[17]模型建立一个动态字典,用动量对比的学习方法做自监督的表征学习任务,SimCLR[18]模型通过去除存储库(memory bank),简化了MoCo[17]模型提出的自监督对比学习算法,SimSiam[19]模型通过最大化同一样本不同视图间的相似度,来解决自监督对比学习中出现崩溃解(collapsing solutions)的问题㊂与本文相似的工作CoCLR[20]模型是基于RGB视频数据与光流数据进行的跨模态自监督行为识别,相对骨架数据,提取RGB视频数据与光流数据需要较长的时间,往往导致其复杂度过高㊂1.3㊀基于骨架的自监督动作识别方法自监督学习是指从大规模未标记数据中学习自身语义信息,为模型及算法提供监督信息㊂研究人员探索各种模型构建策略,如拼图[21-22]㊁着色[23]㊁预测和修复掩码词[24-26]等㊂相比图像和RGB视频,基于骨架数据的用于人体动作识别的自监督学习仍然是一个较新的㊁值得被关注的问题㊂其中,MS2L[7]模型提出一种基于骨架序列表示的多任务自监督学习方法,可以同时解决多个166㊀燕山大学学报2023辅助任务,例如运动预测和骨架拼图等,AS-CAL [27]模型利用未标记骨架序列的不同扩增视图,以自监督对比学习的方式来学习动作表示,AimCLR [28]模型探索极端数据增强带来的不同运动模式,缓解正样本选取的不合理性㊂以上工作积极探索基于3D 骨骼的自监督学习方法,并从无标记骨架数据中学习到有效的动作表示㊂1.4㊀多尺度骨架图文献[29-30]通过构建不同骨架视图,例如:关节㊁运动㊁骨骼等,利用不同视图间的特征相似性,学习丰富的内部监督信息,并将其作为描述身体结构和运动的判别特征㊂然而,在建立不同骨架视图过程中,往往只从骨架的单一尺度空间中提取这些特征,这将限制从不同身体分区中捕获高层结构信息的能力㊂例如CrosSCLR [31]模型是基于骨架的跨视图对比学习,DMGNN [32]模型从单一空间尺度和拓扑结构的骨架中提取特征,PoseGait [33]模型将人体关节运动轨迹和预定义的姿态描述符编码为特征向量㊂本文是在SM-SGE [34]模型的启发下,充分挖掘了身体组成部分中潜在的结构特征,利用一种跨尺度一致性知识挖掘的方法来表达不同层次的骨架结构信息,并结合协同训练,构建跨尺度图对比学习网络模型㊂2㊀跨尺度图对比学习虽然3D 骨架数据在动作识别领域起着至关重要的作用,但在自监督骨架表示方面尚未得到长足发展㊂数据增强作为对比学习的先决条件,影响着网络模型的最终拟合效果,如何构建适合骨架数据的扩增方法成为本章的研究重点㊂骨架图是由一系列的骨骼关节点相连组成,通过改变骨架图结构,可以更好地学习骨架的高级语义信息,且包含骨架信息的多尺度图较易获取㊂因此,本章利用图对比学习方法与多尺度特征间的语义相关性,结合协同训练,构建基于骨架动作表示的跨尺度图对比学习框架㊂本文主要包括两个关键模块:1)SGCLR:一个用于单尺度自监督学习表示的图对比学习框架(Graph Contrastive Learning forSkeleton-based action Representation,SGCLR );2)CrosScale-SGCLR:该算法将一个尺度的特征信息传递给另一个尺度,通过引入互补的伪标签约束,促进多尺度特征间的信息共享(Cross-ScaleGraph Contrastive Learning framework for Skeleton-based action Representation,CrosScale-SGCLR)㊂2.1㊀SGCLR 算法给定一个包含l 帧连续的3D 骨架序列X =(X 1, ,X l ),其中X i ɪR W ˑJ ˑD ,W 为人的总数,J 为骨骼关节点数,D 为位置向量维度(X i 的位置向量维度为3)㊂训练集Φ=X i {}B i =1包含了从多个视图和多个人中采集的B 种不同动作的骨架序列㊂每个骨架序列X i 对应一个标签y i ,其中y i ɪa 1, ,a c {},a i 表示第i 种动作类别,c 表示动作类别的总个数,每次输入网络中的样本数据批量大小(batch size)为N ㊂不同于SkeletonCLR [31]模型利用对比学习建模的方法,本节方法虽然同样使用了该方法的基本组成框架来构建网络模型,但在此基础上融合了图对比学习方法,在数据扩增上进行了相应改进,使得同一样本扩增后得到的两个实例具有不同的邻接矩阵㊂2.1.1㊀图对比学习本文在GraphCL [35]与SimGRACE [36]模型的启发下,为解决传统基于对比学习的动作识别算法在扩增骨架数据过程中,存在泛化性不足和传递性不强的问题,融合图数据增强思想,提出一种基于图对比学习的人体骨架动作识别算法㊂该算法基于人体骨架数据自身的图结构关系,分别在双路径中处理输入骨架序列,即原路径与图对比路径,两条路径使用相同的自编码图卷积神经网络,将人体骨架数据的不同数据增强得到的实例作为正样本,将存储库中的其他人体骨架序列视为负样本㊂在每次训练过程中,构成负样本的张量坚持先进先出原则,不断更新存储库中的批量嵌入信息,并利用图对比损失函数训练模型参数,以拉近正样本的距离,远离负样本的距离㊂SGCLR 的总体架构如图1所示㊂第2期张雪莲等㊀基于跨尺度图对比学习的人体骨架动作识别方法167㊀图1㊀单尺度SGCLR 的算法结构图Fig.1㊀Architecture of single-scale SGCLR2.1.2㊀算法的实现2.1.1节介绍了本节中所提方法的原理和结构,主要步骤如下所示:1)获取3D 骨架序列X ,该张量维度为[N ,D ,l ,J ,W ],为避免数据冗余和降低计算复杂度,在人体骨架数据集中,统一将骨架序列的连续帧数l 取为50,批量大小N =128,位置向量维度D =3,骨骼关节点数J =25,人的总数W =2㊂2)利用数据增强模块τ和τ+mask _edg 来获取不同实例Q 与K ,使其作为正样本集,主要步骤如下所示:①在步骤1)获得无标签骨架数据的基础上,分别在原路径与图对比路经上引入剪切(shear)与时序裁剪(temporal crop)的数据增强方法,以得到不同视图Q 和x ~,具体方法概述如下㊂剪切:剪切变换是通过构建相应的仿射矩阵,使人体关节的三维坐标形状呈任意角度倾斜㊂仿射矩阵的公式为Ryt ,β=1syxs z xs xy 1s z y s x zs y z1éëêêêêùûúúúú,(1)其中,s y x ,s z x ,s x y ,s z y ,s x z ,s yz 是6个错切因子,取值范围在-β到β之间㊂时序裁剪是在时间维度上的数据增强,它将一些帧对称地填充到序列中,然后随机地将其裁剪到原始长度㊂填充长度定义为l /r ,r 为填充比(取值为正整数)㊂②接下来对视图x ~进行随机边裁剪(mask _edg ),得到不同的图表示向量K ㊂具体思想:利用随机掩码[0~ξ],去掉关节点间的连接边,形成新的骨架图结构㊂3)将不同实例Q 与K 分别嵌入到编码器f θ和f ~θ~中,得到编码特征h 与h ~,其中θ与θ~为两个编码器所需参数,θ~遵循动量更新:θ~ѳαθ~+(1-α)θ,α为动量系数,h ,h ~ɪR Ch ,SGCLR 使用ST-GCN [4]作为编码器网络㊂4)将得到的编码特征h 与h ~分别输入到投影层g 和g ~中,获得较低维空间向量:z =g (h ),z ~=g ~(h ~),其中z ,z ~ɪR Cz ㊂投影层是由一个全连接(FC)层与线性(ReLU)层组成㊂5)存储库M ={M i }M i =1中储存大量的负样本,避免了嵌入的冗余计算㊂它是一个先进先出队列,每次迭代时由z ~更新㊂具体来看,在每次更新迭代之后,z ~将进入队列成为新的负样本,而早期嵌入M 中的实例将退出队列㊂6)在图对比学习过程中,当一个骨架序列以不同实例输入到两条不同的路径中时,其输出的特征是相似的,本文将InfoNCE 损失函数作为图对比学习的损失函数,公式如下:L SGCLR =-logexp(z ㊃z ~/t )exp(z ㊃z ~/t )+ðM i =1exp(z ㊃M i /t ),(2)式中,M i ɪM 为存储库中的负样本集,t 是超参数,z ㊃z ~表示两个向量的点积,其结果表明两个实例间的相似程度,其中z 与z ~已被归一化㊂在图对比损失L SGCLR 的约束下,对自监督网络模型进行训练,以区分训练集中的每个样本实例,最后通过线性评估方法验证该模型的有效性㊂SGCLR 方法的伪代码如算法1所示㊂168㊀燕山大学学报2023算法1㊀SGCLR方法的伪代码输入:批量输入骨骼点的坐标数据矩阵X[N,D,l,J,W]数据增强参数β,r和ξ,动量更新参数α超参数t,f_q=fθ,f_k=f~θ~,X_q=Q,X_k=K㊀㊀输出:N维损失值向量编码器函数参数更新f_k.params=f_q.params#初始化编码器函数for X in loader:#加载带有N个样本的minibatch X㊀㊀X_q=aug(X)#使用随机数据增强τ,根据2.1.2节2)①㊀㊀X_k=aug(X)#使用随机数据增强τ,根据2.1.2节2)①㊀㊀X_k=mask_edg(X_k)㊀㊀#随机边裁剪mask_edg,根据2.1.22)②q=f_q.forward(X_q)#得到编码特征h:NˑCq=F.normalize(q,dim=1)#正则化编码特征h:NˑCk=f_k.forward(X_k)#得到编码特征h~:NˑCk=F.normalize(k,dim=1)#正则化编码特征h~:NˑCk=k.detach()#编码特征h~不进行梯度计算l_pos=einsum(ᶄnc,nc->nᶄ,[q,k]).unsqueeze(-1)#正样本logits:Nˑ1l_neg=einsum(ᶄnc,ck->nkᶄ,[q,self.queue.clone().detach()]) #负样本logits:NˑK#queue:储存负样本的队列,采用逐步更新方法(NˑK)#logits:Nˑ(1+K)logits=cat([l_pos,l_neg],dim=1)labels=zeros(logits.shape[0],dtype=torch.long)#生成伪标签loss=CrossEntropyLoss(logits/t,labels)#公式(2)▷L SGCLR#求解图对比损失,t=t是超参数取值为0.07loss.backward()#根据loss来计算网络参数的梯度update(f_q.params)#f_q采用SGD更新参数f_k.params=m∗f_k.params+(1-m)∗f_q.params#f_k采用动量更新参数,m=α是动量系数取值为0.999 self.dequeue_and_enqueue(k)#更新字典2.2㊀CrosScale-SGCLR算法鉴于人体的运动主要是通过骨骼围绕各个关节进行旋转而实现,可以根据骨骼关节点的分布,将人体分割成粗细粒度不同的功能部件[34]㊂本文将人体关节点作为基本构件,将空间上相邻的关节点进行组合,形成不同尺度的骨架图,并基于各尺度间具有语义信息互补的特性,提出跨尺度一致性知识挖掘方法,利用一个尺度图中特征信息的相似性,来促进另一个尺度图中相似特征进行有效聚类㊂相比于CrosSCLR[31]方法,本文在不使用骨架视图(motion,bone)的情况下,通过构建多尺度骨架图来实现不同尺度间的信息融合,也可以很好地学习到不同图结构丰富的内部监督信息㊂2.2.1㊀构建多尺度图如图2所示,首先,给定一个包含l帧的骨架序列X,将其称为关节点尺度(即身体关节作为节点),记作Θ1㊂其次,构建粗粒度比例图,将运动者的骨架结构分为10个部分(包括躯干㊁头㊁右臂上㊁右臂下㊁左臂上㊁左臂下㊁右腿上㊁右腿下㊁左腿上和左腿下)和5个部分(包括躯干㊁右上肢㊁左上肢㊁右下肢和左下肢),并将每部分所包含的骨骼关节点进行位置坐标平均,合并为新的骨骼关节点,将其命名为粗关节点尺度(即身体部分作为关节节点),记作Θ2和Θ3㊂最后,基于以上操作,得到不同尺度的骨架图Θm(V m,εm)(mɪ1,2,3{}),其中V m=νm1,νm2, ,νm n m{}(νm iɪR D,iɪ1,2, ,n m{})表示不同骨架尺度图对应的关节点集合,εm=e m i,j|νm i,νm jɪV m{}(e m i,jɪR)表示不同骨架尺度图边结构关系集合,n m是第m个尺度图Θm的关节点数㊂鉴于骨架的多尺度数据是由合并关节点所组成,导致图结构发生改变,不能直接输入到上文所建立的SGCLR模块中,为此,本文将针对不同尺度骨架图构建相应图结构,并将其命名为multi-scale SGCLR(SGCLR(25),SGCLR (10),SGCLR(5))㊂在之后的实验中,将选取关节点数为25和10的多尺度骨架图Θ1与Θ2作为主要研究对象㊂图2㊀多尺度骨架结构图Fig.2㊀Multi-scale skeleton structure第2期张雪莲等㊀基于跨尺度图对比学习的人体骨架动作识别方法169㊀2.2.2㊀跨尺度图对比学习网络本节为了可以从骨架数据的不同尺度图中获取语义互补信息,协助网络从相似的负样本中挖掘出更多的正样本,拟结合多尺度骨架图数据,提出跨尺度图对比学习网络,该网络模型不仅可以从互补尺度图中挖掘出高置信度的正样本,而且使嵌入的上下文在多个尺度图中保持一致㊂具体模型框架如图3所示㊂图3㊀跨尺度CrosScale-SGCLR 的算法结构图Fig.3㊀Architecture of cross-scale CrosScale-SGCLR㊀㊀作为前一种方法的扩展,在图对比学习网络训练结束后,再进行跨尺度图对比学习,以获得更强的学习表征能力,避免网络从头开始训练时的错误分类㊂具体来看,给定一个骨架序列X ,需要得到两种不同的尺度图X Θm=(X Θ1,X Θ2),在本文中Θ1和Θ2分别是由25个和10个骨骼关节点组成的不同尺度骨架图,X Θ1和X Θ2分别表示对应尺度下的骨架序列,CrosScale-SGCLR 表示学习的目的是学习具有较好泛化性的f θ1㊃()和f θ2㊃(),其中z θ1=f θ1X θ1(),z θ2=f θ2X θ2()是Θ1和Θ2的特征表示,可以有效地执行各种下游任务㊂其主要思想与SGCLR 方法不同之处在于需要重新构建X Θm的正样本集和负样本集,即在Θ1尺度中很难发现的正样本,可以在Θ2中发现㊂将多尺度数据Θm(V m ,εm )(m ɪ1,2{})输入到multi-scale SGCLR网络中,通过两个不同图结构的SGCLR 模块获得图编码特征z Θm,以及相应的存储库M Θm,随着训练的进行,逐渐增强模型的表示学习能力㊂最后利用对比损失函数进行参数更新,主要介绍尺度Θ1(V 1,ε1)与Θ2(V 2,ε2)之间的损失函数公式,具体如下:L Θ2ңΘ1=-logexp(z ㊃z ~/t )+ði ɪN Θ2ңΘ1+exp(z ㊃M i Θ1/t )exp(z ㊃z ~/t )+ðNi =1exp(z ㊃M i Θ1/t ),(3)其中,t 是超参数,M i Θ1ɪM Θ1为存储库中的负样本集,分子包含1+k 个正样本,分母包含1+k 个正样本和N -k 个负样本在内的共N +1个样本,k 是相似样本特征嵌入的索引,由topk (㊃)函数进行选取,实验中k 值取为1㊂同样地,在Θ1尺度特征空间中相似的实例也可以作为伪标签,帮助Θ2尺度下的网络进行更好地表征学习㊂其损失函数如下:L Θ1ңΘ2=-logexp(z ㊃z ~/t )+ði ɪN Θ1ңΘ2+exp(z ㊃M i Θ2/t )exp(z ㊃z ~/t )+ðN i =1exp(z ㊃M i Θ2/t ),(4)其参数意义与公式(3)相同,两个网络互相为对方采样正样本,以增强网络模型性能并获得更好聚类效果㊂将公式(3)与公式(4)联立求和并取平均,即得到CrosScale -SGCLR 方法的总损失函数,具体操作如下:L CrosScale-SGCLR =L Θ2ңΘ1+L Θ1ңΘ22㊂(5)㊀㊀多尺度损失函数L CrosScale-SGCLR 与单尺度损失函数L SGCLR 相比,拉近了更多的高置信度正样本,使特征空间中同类样本特征更加容易聚合㊂3㊀实验3.1㊀实验数据集NTU RGB +D 60[37]由56880个动作序列组170㊀燕山大学学报2023成,是目前基于骨架动作识别研究中应用最广泛的数据集㊂该数据集由3个Microsoft Kinect v2摄像头从不同的视角捕获,动作样本由40名演员执行,包含60种动作分类,其中40类为日常行为动作,9类为与健康相关的动作,11类为双人交互动作㊂本文采用该数据集的两种评价基准:1)Cross-Subject(xsub)基准,即训练数据来自20名演员,测试数据来自其他20名演员;2)Cross-View (xview)基准,其中训练数据来自摄像机视图2和3,测试数据来自摄像机视图1㊂NTU RGB +D 120[38]为NTU RGB +D 60数据集的扩展,该数据集包含来自106个演员执行的120种动作,相机的摆放位置由17个增加到32个,动作骨架序列总数扩充到114480㊂同样,本文采用该数据集的两种评价基准:Cross-Subject(xsub)和Cross-Setup(xset)㊂在xsub 基准中,身份标识为1㊁2㊁4㊁5㊁8㊁9㊁13㊁14㊁15㊁16㊁17㊁18㊁19㊁25㊁27㊁28㊁31㊁34㊁35㊁38等演员所做出的动作用作训练,其余的用于测试㊂在xset 基准中,训练数据和验证数据分别由身份标识数字的奇偶进行确定㊂3.2㊀实验设置本文实验所用的硬件平台包括运行内存128GB 的4块TITAN XP 显卡,软件平台包括Python3.6和PyTorch 1.2.0框架㊂使用的参数配置与文献[31]保持一致,编码器f θ和f ~θ~主要使用ST-GCN [4]网络,隐藏层维度为256,特征维度为128,f θ采用随机梯度下降法更新参数,f ~θ~采用动量更新,动量系数α取值为0.999,剪切常数β取值为0.5,填充率r 取值为6,超参数τ取值为0.07,ξ取值为2,随机边裁剪的个数范围在[0,2]之间,训练过程中,将批量大小设为128,存储库中负样本个数M =32768,迭代次数设置为250,权重系数为0.0001,每个模型均运行300epochs,其学习率初值为0.1,在训练了250epochs 之后变为0.01,线性评估均运行100epochs,其学习率初值为0.3,在评估了80epochs 之后变为0.03㊂3.3㊀实验结果分析本文的图对比学习网络基于SkeletonCLR [31]模型,在该网络模型的对比路径上加入了图增强方法,并使用ST-GCN [4]模型作为主干网络,在每个编码器后附加一个投影层以产生固定大小为128维的特征向量㊂在计算对比损失之前,对嵌入图进行归一化处理㊂由于随机边裁剪的范围在[0,2]之间,当选到0条边裁剪时,其精度将会与原模型保持一致㊂3.3.1㊀定量结果分析如表1所示,将本文方法与其他基于骨架数据的自监督学习方面的工作进行了比较,主要对比了LongT GAN [8]㊁MS 2L [7]㊁P&C [39]㊁AS-CAL [27]与SkeletonCLR [31],SGCLR 在NTU RGB +D 60数据集上的xsub 与xview 两个评价基准上的精度分别是71.5%和76.5%㊂相比于SkeletonCLR [31],分别提升了3.2%与0.1%的精度,且CrosView-SGCLR 在跨视图(joint +motion)上取得了70.4%与77.9%的精度㊂除此之外,本文基于图对比学习网络和不同尺度特征间的互补性,构建了跨尺度(joint25+joint10)协同训练网络模型,即CrosScale-SGCLR,其精度分别达到了70.3%和75.2%㊂表1㊀NTU RGB +D 60数据集上的实验精度对比Tab.1㊀Comparison of accuracy on NTU RGB +D 60dataset%方法年份xsub xview LongT GAN201839.148.1MS 2L 202052.6P&C202050.776.3AS-CAL202158.564.8SkeletonCLR 202168.376.4SGCLR 202271.576.5CrosView-SGCLR 202270.477.9CrosScale-SGCLR202270.375.2㊀㊀为了更好证明本文所提方法的有效性,同样在NTU RGB +D 120数据集上也做了相应的比较㊂如表2所示,SGCLR 网络模型在NTU RGB +D 120数据集的xsub 和xset 上分别达到了57.6%和54.6%的精度㊂CrosView-SGCLR 在跨视图(joint +motion)上取得了60.1%与62.2%的精度,在跨尺度图(joint25+joint10)上取得59.0%与63.6%的精度㊂结果表明随机边裁剪的图增强方法对人体骨架的图结构搭建起到促进作用,该方法在xset 评价基准上性能改善较为明显;跨尺度图对比学习网络,在不使用骨架视图(motion,bone)情况下,利用多尺度间的协同训练方法,也可以达到较。

人体动作的知识点总结

人体动作的知识点总结

人体动作的知识点总结一、人体动作的基本知识人体动作是人体肌肉和骨骼协调运动的结果,是由中枢神经系统控制的。

人体动作的实现需要骨骼、肌肉和神经系统的配合。

人体动作包括姿势和动作两个方面。

姿势是一种相对静止的肢体位置,动作是肢体的运动过程。

在进行姿势和动作时,人体需要依靠感觉、平衡、关节运动和肌肉协调等多种因素来完成。

人体动作的实现涉及到人体各个系统的协同作用。

例如,肌肉系统完成力量与速度的调节,骨骼系统完成姿势与运动的支持,神经系统完成感觉传输和运动指挥。

同时,人体动作还受到心理因素、环境因素和文化因素的影响。

二、人体动作的分类人体动作可以根据其特点和用途进行分类。

常见的分类方法有以下几种:1. 按照运动形式分类:包括步行、奔跑、跳跃、爬行、攀爬、边走边跑、跑步、跑跃、跌倒、翻滚、蹲立、擦跪、踢打、投掷、接应等。

这些动作主要是人体在空间中的运动形式。

2. 按照动作目标分类:包括力量动作、速度动作、柔韧动作、协调动作等。

这些动作主要是根据运动的目标和特点进行分类。

3. 按照执行方式分类:包括主动动作和被动动作。

主动动作是指由主体控制的动作,被动动作是指由外界施加力量引起的动作。

4. 按照动作的生理特点分类:包括有氧运动和无氧运动。

有氧运动是指在有氧条件下进行的运动,主要是长时间、低强度的运动;无氧运动是指在无氧条件下进行的运动,主要是短时间、高强度的运动。

三、人体动作的训练人体动作的训练是指通过科学的方法和计划,对人体进行姿势和动作的练习和训练,以达到强身健体、提高运动能力、改善形体和促进健康的目的。

人体动作的训练包括基础训练、专项训练和综合训练等。

1. 基础训练基础训练是指人体动作基本要素的训练,包括力量、速度、柔韧、耐力和协调等。

力量训练是提高人体动作力量的训练,可以通过举重、引体向上、器械练习等方式进行。

速度训练是提高人体动作速度的训练,可以通过短跑、跳高、跳远等方式进行。

柔韧训练是提高人体动作柔韧度的训练,可以通过拉伸、舞蹈、器械练习等方式进行。

《基于时空特征的人体动作识别方法研究》范文

《基于时空特征的人体动作识别方法研究》范文

《基于时空特征的人体动作识别方法研究》篇一一、引言随着计算机视觉技术的飞速发展,人体动作识别技术在智能监控、人机交互、医疗康复等领域得到了广泛的应用。

其中,基于时空特征的人体动作识别方法是一种重要且有效的方法。

该方法通过对人体动作的时空特征进行提取和分析,实现了对人体动作的准确识别。

本文将重点研究基于时空特征的人体动作识别方法,分析其原理、方法及存在的问题,并提出相应的解决方案。

二、人体动作识别的基本原理及方法人体动作识别主要基于计算机视觉技术,通过对视频或图像中的人体动作进行提取和分析,实现对人体动作的识别。

其中,基于时空特征的方法是通过对人体动作在时间和空间上的变化进行提取和分析,从而实现对人体动作的识别。

在人体动作识别的过程中,常用的方法包括基于模板匹配的方法、基于特征的方法和基于深度学习的方法。

其中,基于特征的方法是通过对人体动作的时空特征进行提取和分析,实现对人体动作的识别。

而基于深度学习的方法则是通过训练深度神经网络模型,实现对人体动作的自动识别。

三、基于时空特征的人体动作识别方法研究基于时空特征的人体动作识别方法主要包括以下步骤:数据预处理、特征提取、分类器设计和识别结果评估。

1. 数据预处理:对人体动作数据进行预处理,包括去除噪声、归一化等操作,以便后续的特征提取和分类器设计。

2. 特征提取:通过提取人体动作在时间和空间上的变化特征,如关节点轨迹、骨骼结构等,形成具有代表性的特征向量。

3. 分类器设计:利用提取的特征向量训练分类器模型,如支持向量机、随机森林等,实现对人体动作的分类和识别。

4. 识别结果评估:通过对比识别结果与真实标签,评估识别方法的准确率、召回率等性能指标。

四、存在的问题及解决方案虽然基于时空特征的人体动作识别方法已经取得了一定的成果,但仍存在一些问题。

首先,特征提取的准确性和鲁棒性有待提高;其次,分类器模型的复杂度和泛化能力需要进一步优化;最后,实时性和计算效率也是需要解决的问题。

计算机视觉中的人体姿态估计与动作识别

计算机视觉中的人体姿态估计与动作识别

计算机视觉中的人体姿态估计与动作识别计算机视觉技术是指通过计算机对图像和视频进行智能分析和理解的一种技术。

在计算机视觉领域中,人体姿态估计与动作识别是一个重要的研究方向。

它主要目标是通过计算机视觉算法来识别和分析人体的姿态和动作,实现对人体运动的智能分析和理解。

人体姿态估计是指通过计算机视觉技术,从图像或视频中准确地估计出人体的姿态信息,包括人体的关节点位置、姿势角度和关节运动轨迹等。

这项技术在许多应用领域中具有重要价值,例如人机交互、增强现实、虚拟现实、运动分析、医学康复等领域。

人体姿态估计的关键问题是如何准确地检测和定位人体的关节点。

目前,人体姿态估计主要基于深度学习和卷积神经网络的方法。

通过训练大量的标记数据,深度学习模型能够学习到人体关节点的特征表示,并准确地预测出人体的姿态。

动作识别是指通过计算机视觉技术,从图像或视频中识别和分析出人体的动作。

人类的运动行为具有丰富的语义信息,能够传达出人的意图和情感。

因此,动作识别在人机交互、视频监控、运动分析、智能驾驶等领域有着广泛的应用。

动作识别的关键问题是如何从视频序列中提取出有用的动作特征,并通过机器学习算法进行分类和识别。

目前,基于深度学习的方法在动作识别中取得了显著的进展。

通过训练大规模的标记数据,深度学习模型能够学习到动作的高级表示,并实现准确的动作分类和识别。

人体姿态估计和动作识别是相互关联的研究方向。

在很多应用场景中,准确的人体姿态估计是实现动作识别的基础。

通过对人体姿态的估计,可以提取出更具有语义信息的特征,并用于动作的分类和识别。

人体姿态估计和动作识别在图像和视频分析中有广泛的应用,例如人机交互、运动分析、智能驾驶等领域。

它们可以帮助机器了解人的动作和意图,实现更智能化的交互和理解。

同时,人体姿态估计和动作识别也面临一些挑战,例如多人场景下的姿态估计和动作识别、姿态估计和动作识别的实时性要求等。

总结来说,人体姿态估计与动作识别是计算机视觉中的重要研究方向。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

自然的人体动作识别 黄飞跃 徐光祐 清华大学计算机科学与技术系,普适计算教育部重点实验室,北京,100084

摘 要:人体动作识别是计算机视觉的一个重要研究课题。目前大多数动作识别的研究都假设是在特定受限的场景下,即特定的视角、位置、对象、背景和光照条件下工作。其中,尤以要求特定的视角和位置对实际应用的限制最为严重。本文致力于研究能处理视角和位置变化并可用于非特定对象的人体动作识别方法。我们把它称为自然的人体动作识别方法。为此我们提出了"包容形状"的人体表示,这种表示不受视角、位置的变化影响,充分利用了两个正交摄像机拍摄的轮廓信息以去除由人的身体旋转引起的影响。利用包容形状,我们取得了非特定人、任意视角下的自然人体动作识别较好的实验结果。同时我们也介绍了该识别方法在实际智能家居——老人看护系统中的应用。 关键词:自然动作识别;包容形状

1.引言

人体动作识别是计算机视觉里一个活跃的研究方向,有不少综述,力图把以前的相关研究方法进行总结和分类,比如[1], [2], [3], [4]。至今为止,关于动作识别的大多数研究工作都是在特定受限的场景下展开,比如特定的视角、动作人、背景和光照。在这之中,尤以视角和位置的限制最为突出。我们认为要实现自然场景下的动作识别,就必须消除应用条件中的这些限制。为此,我们在这篇论文中,重点研究了动作识别中与视角和位置无关的体态表示,以实现非特定人、任意视角下的自然人体动作识别。 现阶段已经开展了不少视角无关的动作识别研究工作,比如Cen Rao [5],Vasu Parameswaran[6]。但是还有很多问题亟待解决,大多数的方法依赖鲁棒的语义特征点检测或者是点对应,而这些是比较难实现的。 在本文中,我们提出使用了一种“包容形状”的体态表示。在仿射摄像机投影模型的假设下,这种表示对于视角和位置的变化具有不敏感性,同时不需要依靠任何较难提取并且对误差很敏感的语义点检测和点对应。利用这种表示,我们开发了自己的动作识别系统并且把它部署到实际应用:智能家居—老人看护系统中。实验结果表明我们的系统对于非特定人、任意视角和位置下的自然动作有着很理想的识别能力。

资助项目:国家自然科学基金资助项目(60673189,60433030) 联系作者:黄飞跃, Email:hfy01@mails.tsinghua.edu.cn

370 2.自然的动作识别 在人体动作识别中,人体姿态(简称为体态)表示一直是基本而关键的问题。自然的人体动作识别要求体态表示具有良好的视角和位置不变特性。视角和位置的变换可以分成两个部分,平移和旋转。在动作识别中,大多数体态表示都已经有了平移不变特性,所以我们只需要考虑旋转不变量。旋转量可以拆分为绕着三个垂直方向轴旋转的分量。通常,对人体动作而言,如果只有绕着竖直方向轴旋转分量(称之为偏转)的话,我们把会这些体态归为同一个分类中;而如果还存在另外两种旋转分量的话,我们会把它们归为不同的分类中。例如,一个人直立站着和躺在地面上,这时候存在其余两种方向的旋转分量,那我们会把它们看成是两种不同的体态。当一个人仅仅是站立着把他的身体旋转到另一个朝向的话,我们可以认为他的体态还是同一种的。所以,在大多数动作识别中,我们只需要考虑视角绕着竖直方向轴旋转情况下(称之为偏转)的不变量。 2.1 “包容形状”的表示 为了获得视角绕着竖直方向轴旋转情况下的不变量表示,我们采用了如图1的双摄像机配置方案。这两个摄像机的成像平面都和竖直轴Y平行,它们的光轴是正交的。在人体动作识别的实际应用场景之中,由于人体的深度变化相对于人体到摄像机的距离通常很小,我们可以采用仿射摄像机模型。现考虑人体的一个水平截面,在这个截面上的所有点到像平面1上的投影都在直线l上,而在这个截面上的所有点到像平面2上的投影都在直线l’上。直线l是点p’的外极线,而直线l’则是点p的外极线。为了发掘人体仅做偏转时的不变量,我们只需要分析人体二维水平截面在旋转时的变化即可。

如图2,假设有一个二维截面 “S”,它在原始的二维坐标系UV中的投影线段是AB和BC,那么“S”在矩形ABCD里面。在另外一个旋转了某个角度θ的坐标系U’V’

图1 双摄像机配置方案 图2 二维水平截面旋转分析

371 中,它的投影在线段EF和FG中。这里,我们定义原始投影线段的长度为x和y,而新的投影线段的长度则是x’和y’。我们可以得到如下的关系式:

θθsincos'yxx+≤ θθsincos'xyy+≤

公式 (1)

让我们来定义“r”: 22yxr+=

. 公式 (2)

那么 rxyyxxyyxyxr222sin2''222222'≤++≤++≤+=θ 公式 (3)

取 r0 是所有旋转对应的各个“r”中的最小值,那么在任何的旋转下,相应的“r”值都会满足如下取值区间:

002rrr≤≤ 公式 (4)

和原始投影值x’ 与x或者 y’ 与 y的无限的比值范围区间相比较,这是一个相当小的取值区间,也就是说我们找到了一种视角不敏感的人体表示。对于每一个水平截平面,我们利用公式(2)来计算一个“r”值。这样,对于每一帧静态的人体体态,我们可以得到一个“r” 值的向量。由于r比轮廓投影x和y值都大,可以看成这个向量把人体的轮廓包围在内部,我们把这个“r”值向量称作为“包容形状”(“Envelop Shape”)。我们给出一些在不同视角下合成人体模型的包容形状图。如图3是两种体态围绕着竖直轴旋转了八个不同角度时的情况。每种体态前两行是两个正交摄像机拍摄的轮廓图像,而第三行则是包容形状图。从图中,我们可以看到在视角变化时,包容形状的变化很小。

图3 不同视角下和包容形状 虽然我们提出这两个摄像机的摆放按照图1,需要保证成像平面和竖直轴平行同时光轴正交。但是,实际上并不需要严格的摄像机标定。摄像机的摆放大致满足要求即可。正如我们前面提出的,这种表示仅仅是视角不敏感,它的取值是被限制在一个较小的范围内变化。我们将在下一节中展示我们的实验。我们的视频数据都是利用两个大致摆放

372 未严格校准的摄像机采集的,而我们可以看到实验结果依然非常理想。 2.2 动作识别系统流程 利用这种“包容形状”的表示,我们设计了一个自然动作识别系统。图4表示了系统的流程图。我们首先采用“PFinder”算法来提取人体外轮廓[7]。然后,由两个摄像机对应的轮廓序列作为原始输入,根据公式(2),我们为每一帧生成了相应的“包容形状”r向量。然后利用主分量分析(PCA)对r向量降维到10维向量。对于每一个视频段,经过如上的预处理和体态表示模块,我们可以得到对应的时序特征向量序列,然后再采用连续隐马尔可夫模型来进行动作的训练和识别。

图4 动作识别系统流程图 3.实验、应用和总结 为了证明本文所述识别方法的可行性,我们做了一些识别实验。采集了七个不同动作者的动作,动作包括:走路、举手、拿东西、挥手、指向。动作者在三个任意朝向和位置时重复每个动作三遍。我们取五个动作者的数据作为训练集,另两个动作者的数据作为测试集,结果参见表1。可以看出我们很好的实现了任意位置下的非特定人动作识别。图5是一个实验数据示例,前两行是两个摄像机的原始图像,接下来的两行是利用“PFinder”方法提取得到的人体轮廓,最后一行则是正规化以后的“包容形状”向量生成的图像。(每一个实际的动作包含约30帧图像,这里只显示了动作序列的部分采样。)

图5 “走路”动作序列示例 373 由于本文中介绍的自然动作识别方法应用和部署简单,只需添加一对近似垂直的摄像机即可,因此可以应用于各种需要识别自然动作的系统中。目前,我们正在尝试把它添加和应用于原有的智能家居—老人看护系统中。该系统利用视频上下文信息,通过基于视频的人体动作识别为基础来提供在智能家居中的隐含监控。该系统可以自动判断和描述各种事件,然后利用先验情景模型,结合上下文信息进行融合,以达到在智能家居中对于老人的安全进行辅助的功能。智能家居—老人看护系统的布景如图6,实验场景实际示例参见图7。其中2号摄像机和3号摄像机照图1所示双摄像机配置方案部署摆放,用以获取包容形状数据。这样我们就可以用这种方法来识别老人看护系统中常见待识别的行为,例如:走路、挥手、摔倒、弯腰、躺倒、坐着、喝水等等。

表1:非特定人动作识别实验识别率 集合 走路 举手 拿东西 挥手 指向 训练集 100% 100% 95.6% 95.6% 97.8% 测试集 94.4% 100% 94.4% 88.9% 100% 总的来说,通过“包容形状”的体态表示,我们实现了不受观察视角、动作者位置限制的自然的非特定人动作识别。实验表明,这种识别方法具有较好的识别率和容忍度。这种自然的动作识别方法具有很好的实用性。我们也介绍了在实际应用:智能家居——老人看护系统中的部署。当然在实际应用系统中还存在一些待解决的问题,其中包括遮挡问题、动作的自动分割等等,这些都是我们在下一步研究工作中需要完成的。

参考文献 [1] C. Cedras, M. Shah, Motion-based recognition: a survey, Image and Vision Computing, 13(2) (1995) 129-155. [2] J.K. Aggarwal, Q. Cai, Human motion analysis: a review, Computer Vision and Image Understanding, 73

图6 智能家居系统布景 图7 智能家居实验示例图

374

相关文档
最新文档