基于骨骼数据的人体行为识别
人体骨骼关键点算法

人体骨骼关键点算法
人体骨骼关键点算法是一种计算机视觉技术,用于识别和定位人体骨骼关键点。
它是基于深度学习和卷积神经网络的技术,能够在图像或视频中准确地检测出人体的关键点,包括头部、颈部、肩部、手肘、手腕、腰部、髋部、膝盖和脚踝等部位。
人体骨骼关键点算法的发展可以追溯到20世纪80年代初期,当时的技术主要是基于传统的图像处理和计算机视觉技术,如边缘检测、形态学处理和模板匹配等。
但是,这些技术往往需要手动设计特征和规则,而且对于复杂的场景和变化的姿态很难适应。
随着深度学习和卷积神经网络的发展,人体骨骼关键点算法得到了很大的提升。
现代的算法通常使用深度卷积神经网络来学习特征和姿态模型,然后使用回归算法来预测关键点的位置。
这些算法通常需要大量的标注数据和计算资源来进行训练和优化,但是它们能够在复杂的场景和变化的姿态下实现高精度的检测和定位。
人体骨骼关键点算法在很多领域都有广泛的应用,例如人体姿态估计、动作识别、人机交互、虚拟现实和增强现实等。
它们可以帮助我们更好地理解和模拟人类行为,提高人机交互的效率和自然度,以及为虚拟现实和增强现实应用提供更加真实的体验。
基于关联分区和ST-GCN的人体行为识别

通 常 情 况 下 ,人 体 可 以 看 作 是 由 刚 性 骨 骼 和 铰 链 关节所组成的铰接系统 。 [16] 躯干和四肢则由骨骼和铰 链关节进一步的组合而成。人体行为是由这些躯干和 肢 体 的 运 动 组 成 。 因 此 ,需 要 一 种 新 的 方 法 用 以 加 强 关 节 之 间 的 空 间 关 系 。 同 时 ,该 方 法 能 够 自 动 捕 获 并 嵌 入 关 节 空 间 配 置 及 其 动 态 模 式 。 基 于 此 ,本 文 在 近 年热门的时空模型(ST-GCN)[17]基础上提出了一种新型 的分区策略。本文的主要贡献如下:首先,提出的分区 策略,在基于时空模型基础上相比于传统的 ST-GCN 方 法加强了身体部分的相对位置之间的联系,有利于提高 骨架关节点信息在时间和空间上的识别精度;其次,分 析了学习率对该模型识别效果的影响。通过设置每轮 迭代的学习率达到在一定程度上提升识别精度的目的。
人体姿态估计中的骨骼提取使用教程

人体姿态估计中的骨骼提取使用教程人体姿态估计是计算机视觉领域中一项重要的研究任务,它旨在通过对人体图像或视频进行分析,准确估计人体的姿态信息。
在人体姿态估计中,骨骼提取是一项基础工作,它可以帮助我们更好地理解人体姿态,进而应用于许多领域,如人机交互、运动分析等。
本文将介绍人体姿态估计中的骨骼提取的相关概念和使用方法。
1. 骨骼提取的概念和原理在人体姿态估计领域中,骨骼提取是指从图像或视频中提取出人体关键点的过程。
人体关键点通常是人体的关节和骨骼,如头部、手臂、腿部等部位。
骨骼提取的实现原理通常基于深度学习和计算机视觉技术。
2. 使用骨骼提取的工具和库为了方便进行人体姿态估计中骨骼的提取工作,我们可以使用一些开源的工具和库。
其中,比较常用的包括OpenPose、PoseNet和Human Pose Estimation等。
这些工具和库提供了丰富的功能和接口,可以帮助我们快速准确地进行骨骼的提取工作。
3. 使用OpenPose进行骨骼提取OpenPose是一个基于深度学习的人体姿态估计库,它能够输出人体的关键点信息和骨骼信息。
下面将介绍如何使用OpenPose进行骨骼的提取。
首先,我们需要安装OpenPose库并下载预训练的模型。
可以在OpenPose官方网站上找到安装说明和下载链接。
安装完成后,我们可以使用OpenPose提供的API接口进行开发。
在使用OpenPose进行骨骼提取时,我们需要提供待处理的图像或视频作为输入。
OpenPose会对输入进行分析,并返回人体关键点的坐标。
我们可以根据关键点的坐标信息绘制出人体的骨骼,并进行后续的姿态估计工作。
除了骨骼提取外,OpenPose还可以进行人体关键点的姿态估计,比如人体的旋转角度、关节的运动范围等。
这些信息可以帮助我们更全面地理解人体的姿态。
4. 使用其他工具和库进行骨骼提取除了OpenPose之外,还有其他一些工具和库可以用于人体姿态估计中的骨骼提取。
基于空间特征的BI-LSTM_人体行为识别

文章编号:1006-3080(2021)02-0225-08DOI: 10.14135/ki.1006-3080.20191202003基于空间特征的BI-LSTM 人体行为识别付仔蓉, 吴胜昔, 吴潇颖, 顾幸生(华东理工大学能源化工过程智能制造教育部重点实验室,上海 200237)摘要:随着微软Kinect 等深度相机的出现,使用具有简洁性、鲁棒性和视图无关表示的3D 骨架节点数据来识别人体行为的方法获得了很好的效果,但现有的针对骨骼序列数据的大多数学习方法缺少空间结构信息和详细的时空动态信息。
利用双向长短期记忆网络(BI-LSTM )模型能长时间存储骨骼序列的特点获得丰富的双向时间信息对动作的顺序进行建模,同时从3D 骨骼关节点坐标中提取关节点之间的相对距离特征和相对角度特征来加强空间结构特征,完成从骨骼数据中实现人体行为识别。
该方法有效地进行了人体行为动作分类,提高了识别准确性。
关键词:行为识别;骨骼数据;距离特征;角度特征;BI-LSTM 中图分类号:TP273文献标志码:A人体行为动作识别是以人为中心,研究人体活动的重要分支之一。
基于机器视觉的人体行为识别是自动解释图像或者视频序列中固定场景的人体正在执行什么动作或活动,如从2D 图像中提取卷积特征,利用卷积神经网络(CNN )实现自动姿势识别[1]。
人体行为识别在人机交互、智能监视系统[2]、视频搜索、游戏、行人检测、医疗保健自动化系统[3]、智能驾驶和智能家居等方面具有实际的应用前景。
在过去的几十年中,研究者广泛使用彩色图像(RGB )数据来识别人体行为动作。
如 Ciocca 等[4]利用输入的RGB 图像进行动作识别与跟踪,但由于其背景杂乱、身体遮挡、观察点角度不同、光线照明变化、执行率和生物特征变化等引起的一系列问题,造成行为识别困难。
随着具有成本效益的深度图像(RGB -D )传感器如Microsoft Kinect 和Asus Xtion 等的开发,Liu 等[5]提出了一种多模式相关表示学习(MCRL )模型,从RGB -D 视频中识别人类动作。
《2024年基于视觉的人体动作识别综述》范文

《基于视觉的人体动作识别综述》篇一一、引言随着计算机视觉技术的快速发展,人体动作识别已经成为智能监控、人机交互、医疗康复等领域的重要研究课题。
基于视觉的人体动作识别技术能够从图像或视频中提取和解析人体动作信息,从而实现对人体行为的自动识别和理解。
本文旨在综述基于视觉的人体动作识别的研究现状,包括相关技术、方法和挑战,以期为后续研究提供参考。
二、人体动作识别的技术基础1. 特征提取:特征提取是人体动作识别的关键步骤,主要目的是从图像或视频中提取出与人体动作相关的特征。
常见的特征包括形状特征、纹理特征、光流特征等。
2. 模型构建:基于提取的特征,构建分类模型进行动作识别。
常用的模型包括支持向量机、隐马尔可夫模型、深度学习模型等。
三、基于视觉的人体动作识别方法1. 基于深度学习的方法:深度学习在人体动作识别中发挥着重要作用,尤其是卷积神经网络(CNN)和循环神经网络(RNN)的应用。
通过大量数据的训练,深度学习模型能够自动提取和识别人体动作特征。
2. 基于光流的方法:光流描述了图像序列中物体的运动信息,通过计算光流场可以提取出人体动作的动态特征。
基于光流的方法在人体动作识别中具有较高的准确性和实时性。
3. 基于骨骼信息的方法:通过深度相机或立体相机获取人体骨骼信息,进而进行动作识别。
该方法能够更准确地捕捉人体动作的细节,但需要较高的硬件设备支持。
四、人体动作识别的应用领域1. 智能监控:通过人体动作识别技术,可以实现智能监控和安防报警等功能,提高社会安全水平。
2. 人机交互:人体动作识别技术可以应用于虚拟现实、游戏、医疗康复等领域,实现自然、直观的人机交互。
3. 医疗康复:通过分析患者的康复动作,可以帮助医生评估患者的康复情况,为患者提供个性化的康复方案。
五、挑战与展望1. 数据获取与标注:大规模、多样化的数据集对于提高人体动作识别的性能至关重要。
然而,目前公开可用的数据集仍存在数据量不足、标注不准确等问题。
法医学对人体遗骸的定年与识别

法医学对人体遗骸的定年与识别人体遗骸的定年和识别在法医学中起着重要的作用。
通过科学的手段和技术,法医学可以根据人体骨骼的特征及相关的考古资料,对于遗骸进行准确的年龄测定和身份鉴定。
本文将从定年和识别两个方面来探讨法医学在人体遗骸研究中的重要性。
定年是指根据骨骼的发育和损伤程度,对人体遗骸的年龄进行测定。
法医学通过观察骨骼的形态、大小以及牙齿的生长状况来确定遗骸的年龄。
例如,通过研究骨骼的骨髓腔大小和骨骼的发育程度来判断个体的发育状态,从而推断出年龄范围。
此外,法医学还可以利用骨骼的矿物质组成,比如碳14测年法来进行精确的年龄测定。
与此同时,识别是指通过骨骼、组织和DNA等信息,确定人体遗骸的身份。
在人体遗骸中,骨骼是最为重要的识别依据。
法医学根据骨骼的特征如头盖骨的形状、身高、种族、性别以及既往的医疗史等信息,对遗骸进行身份的鉴定。
此外,DNA分析也是一种常用的方法,通过与亲属的DNA进行比对,可以准确地确定遗骸的身份。
为了进一步提高遗骸的识别准确性,法医学结合了其他科学技术和知识,如影像学技术、死因学以及人类学。
通过尸体的X射线和CT扫描,可以观察遗骸的内部结构,揭示出潜在的损伤信息,从而推断出死亡的原因。
人类学的知识则可以帮助法医学家根据骨骼特征推断遗骸的生活环境和职业等重要信息。
除了定年和识别以外,法医学在人体遗骸研究中还承担着更多的责任。
例如,在解决刑事案件中,法医学的角色是不可或缺的。
通过对遗骸的分析和研究,可以帮助调查人员确定案发时间、伤害情况以及作案手段。
这对于破案和司法公正有着重要的意义。
总之,法医学在人体遗骸的定年和识别中发挥着重要的作用。
通过科学的手段和技术,法医学可以准确地测定遗骸的年龄和鉴定身份。
同时,法医学还可以结合其他学科的知识和技术,进一步提高遗骸的识别准确性。
在刑事案件中,法医学的研究也起着重要的辅助作用。
只有通过综合运用法医学的相关知识和技术,我们才能更好地了解人体遗骸的信息,为社会和司法提供有效的依据。
人体运动轨迹识别与分析算法研究

人体运动轨迹识别与分析算法研究人体运动是日常生活中常见的现象,通过识别和分析人体运动轨迹,可以为许多领域提供有用的信息,如运动医学、人体行为分析、运动控制等。
因此,研究人体运动轨迹识别与分析算法具有重要的实际意义和广阔的应用前景。
本文将对人体运动轨迹识别与分析相关算法进行分析和研究。
在人体运动轨迹识别与分析算法研究中,首先需要对人体的运动轨迹进行准确的识别。
传统的方法是基于视觉技术,通过监控摄像头获取到的视频图像进行分析。
这些方法通常需要复杂的图像处理、特征提取和模式识别算法。
然而,传统的视觉方法在复杂环境下容易受到光照、遮挡和背景干扰等问题的影响,识别精度有限。
近年来,随着深度学习的发展,人体运动轨迹的识别算法也在发生着变革。
基于深度学习的方法使用卷积神经网络(CNN)和循环神经网络(RNN)等模型,可以直接从原始图像数据中提取特征,并进行动作识别和轨迹预测。
这些方法在一定程度上提高了运动轨迹的识别精度和鲁棒性。
一种常见的人体运动轨迹识别方法是基于骨骼关节点的识别。
骨骼关节点是人体姿势的重要表示,通过识别关节点的位置和运动变化,可以准确地重构人体运动轨迹。
基于骨骼关节点的识别方法通常使用传感器技术,如惯性测量单元(IMU)和深度相机等,来捕捉人体的运动数据。
随着硬件技术的不断进步,这些方法具有较高的精度和实时性。
除了识别人体运动轨迹,对其进行分析也是研究的重要方面。
人体运动轨迹分析的目的是从轨迹数据中挖掘出有价值的信息和模式。
例如,在运动医学领域,可以通过分析运动轨迹来评估人体的运动能力和姿势健康状况。
在人体行为分析领域,可以通过分析运动轨迹来判断人的行为类型和意图。
在运动控制领域,可以通过分析运动轨迹来设计合适的控制策略和路径规划算法。
为了实现人体运动轨迹的有效分析,需要采用适当的算法和模型。
一种常见的方法是基于时空轨迹数据的聚类算法。
聚类算法可以将运动轨迹分为不同的类别,从而将具有相似特征的轨迹聚集在一起。
基于骨架的人体行为识别方法综述

基于骨架的人体行为识别方法综述摘要:人体行为识别技术在智能监控、人机交互、虚拟现实、智能康复、运动训练等领域都具有重要的应用价值和广阔的应用前景。
人体骨架关节点的时序变化为人体行为识别提供了强有力的信息,而且相比于RGB图像,人体骨架数据能够很好的克服复杂背景、光照变化及人体外观变化等无关因素的影响,所以基于骨架的人体行为识别受到了越来越多的关注。
本文系统的综述了基于骨架人体行为识别领域的研究进展,文章首先对骨架数据的获取方法以及常用的骨架行为数据集进行了介绍;其次介绍了目前基于骨架的人体行为识别主要方法;最后对该领域未来的研究进行了总结与展望。
本文旨在为希望从事基于骨架的人体行为识别的研究人员提供一个起点,加快该领域的研究及应用。
关键词:深度学习;人体行为识别;骨架数据;0引言近年来,随着智能设备的不断普及,视频的数量呈现爆炸式的增长,此外为了安防起见,在各大公共场所都安置了监控设备,视频资源变得越来越丰富多样,如何让计算机从视频中自动地识别出人体的行为成为越来越多研究者的研究方向。
人体行为识别技术在智能监控、无人驾驶和运动训练等领域都有着非常重要的应用价值。
与传统的RGB 视频相比,骨架数据可以给人体行为识别研究带来诸多的便利。
RGB视频受到复杂背景、关照变化和人体外观变化的影响,而骨架数据能够很好的克服这些无关因素的影响且骨架数据特征明确简单,网络参数数量比较少,更易于训练与测试。
本文的主要贡献:本文对基于骨架的人体行为识别方法进行了全面的综述;介绍了目前存在的骨架行为识别主要模型,其中包括LSTM框架、CNN框架、GCN框架;对国际上目前骨架数据的获取方法和骨架人体行为识别常用数据集进行了介绍;最后对未来的相关研究进行了总结和展望。
通过阅读本文,可以熟悉该领域的发展现状,未来的发展方向以及该领域面临的挑战,便于研究者参照对比,加快该领域的研究及应用。
1 骨架数据的介绍与获取骨架数据是将人体表示成若干个预先定义好的关节点在相机坐标系中的坐标来表示的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于骨骼数据的人体行为识别摘要人体动作姿态识别是计算机视觉研究领域中最具挑战的研究方向,是当前的研究热点。
对人体动作姿态进行自动识别将带来一种全新的交互方式,通过身体语言即人体的姿态和动作来传达用户的意思,如在机场、工厂等喧闹的环境下,采用手势、动作姿态识别等人机交互技术能够提供比语音识别更加准确的信息输入。
总之,在智能监控、虚拟现实、感知用户接口以及基于内容的视频检索等领域,人体动作姿态的识别均具有广泛的应用前景。
该文首先简单介绍了人体动作姿态序列的分割,然后对人体动作姿态识别的方法进行了分类介绍,并对一些典型的算法的研究进展情况及其优缺点进行了重点介绍。
关键词:人体动作姿态识别; 人工智能; 隐马尔可夫模型; 动态贝叶斯网络; 模板匹配前言人体姿态识别是计算机视觉的一个重要研究方向,它最终目的是输出人的整体或者局部肢体的结构参数,如人体轮廓、头部的位置与朝向、人体关节点的位置或者部位类别。
姿态识别的研究方法应该说,几乎涵盖了计算机视觉领域所有理论与技术,像模式识别、机器学习、人工智能、图像图形、统计学等。
到目前为止,已经有众多识别方法被提出,并且也取得了许多重要的阶段性的研究成果,但是以往的方法都是基于普通光学图像,比如常见的RGB 图像,这类图像容易受光照、阴影等外界变化的影响,尤其在环境黑暗的情况下无法来识别人体姿态,并且由于人体关节自由度大,及人的体型、着装较大差异性,常导致姿态识别系统识别率低。
尽管有研究者利用多个摄像机获取采集的图像来获取人体深度信息以克服以上问题[1],但是该类方法恢复的深度信息不是唯一的,而且计算量非常大,尤其是这种方法要求事先用人工对传感设备进行标定,而在选取场景中的标定物时,往往又会遇到实际环境操作困难的问题。
随着光电技术的快速发展,深度传感设备的成本逐渐降低,人们获取深图像的途径及方法也越来越多。
该方向的研究也逐渐成为计算机视觉领域的研究趋势。
具体原因包括:一方面,深度传感设备不仅操作简单,并且极大简化了普通摄像机的标定过程;另一方面,得到的深度图像由于直接包含了人体的深度信息,能够有效的克服普通光学图像遇到的上述问题。
到目前为止,较有影响力的基于该类图像的人体姿态识别算法,应该是 Shotton 等人利用一种深度传感器 Kinect 来实时捕捉人体运动的算法,该算法虽然能够满足人们对识别系统实时性的要求,但其对硬件要求特别高,并且不适合低分辨率图像中的人体关节点提取,容易导致人体骨架扭曲。
下文将具体陈述人体运动分析的主要用途和前人在不同时期对这些难题的处理办法。
主题基于计算机视觉的人体运动分析不仅在智能监控、人机交互、虚拟现实和基于内容的视频检索等方面有着广泛的应用前景,更是成为了未来研究的前瞻性方向之一。
Gavrila 总结了它的一些主要应用领域[2,3,4],下面据此对其典型应用做出进一步的介绍。
智能监控(Smart Surveillance)所谓“智能监控”是指监控系统能够监视一定场景中人的活动,并对其行为行分析和识别,跟踪其中的可疑行为(例如在一些重要地点经常徘徊或者人流密集的场合下突发的人群拥挤等状况)从而采取相应的报警措施。
智能监控系统应用最多的场合来自于那些对安全要求较为敏感的场合,常见于银行、机场、车站、码头、超市、办公大楼、住宅小区、军事基地等,以实现对这些场所的智能监控。
高级人机交互(Advanced Human-Computer Interaction)人体的行为分析常被用来提供控制和指令。
通常来说,人们之间的信息交流主要靠语言,并结合适当的手势和面部表情等,因此视觉信息可以作为语音和自然语言理解的有效补充来完成更加智能的人机交互。
更进一步的人机交互是进行人的识别和行为理解,结合面部表情、身体姿势和手势等[5-8]的分析来与人进行相应的交流。
运动分析(Motion Analysis)基于计算机视觉的人体运动分析可以大量地应用在用于各种体育项目中,通过提取运动员的各项技术参数(如肢体的关节位置、摆动的速度和角速度等等),对这些参数信息进行分析,可以为运动员的训练提供较为全面的指导和建议,有助于提高运动员的水平,这对于体育运动的发展是极为有用的。
同时,它也被广泛地应用在医疗诊断方面:目前的医学步态分析[9-11]就是通过为人体正常步态建模,开发生物反馈系统用来分析病人的步态,从而可以将其应用于临床矫形术等领域,用来诊断病人的腿部受伤情况或者畸形程度,而做出恰当的治疗;虚拟现实(Virtual Reality)基于计算机视觉的人体运动分析在虚拟现实方面也应用的相当广泛:目前电脑游戏的开发相当成熟,游戏中各种人物的形体、运动及它们之间行为交互设计的逼真性得益于对物理空间中人的运动分析,它包括人体模型的建立和运动姿势的恢复等一系列相关理论及技术的成熟应用;基于互联网交互式空间的虚拟网络聊天室的开发才刚刚起步,它通过文本交流同时可以使用二维图标来导航用户。
此外,人体运动识别在视频会议、人物动画、虚拟工作室等其他虚拟现实场合也有着相当广泛的应用。
在基于内容的视频检索方面,人体运动识别也有着重要的应用价值:由于人往往是视频记录的主要对象,在基于内容的视频检索中,如何检索在大段视频中的特定的人体运动,也需要这方面技术的发展。
总之,对人体运动识别的研究及到计算机视觉、模式识别、视频图像处理等方面的理论和实际应用问题。
对人体的跟踪与运动分析将会促进这些领域在理论上产生新的方法,并且在诸多应用领域将会产生潜在的影响和价值。
综上所述,姿态识别具有重要的理论价值与广泛的应用前景,因此,它受到国内外许多学校重点实验室、研究所的关注[13、14],除此之外,国际上一些著名会议和权威期刊也将其作为研究的主题之一,例如 ICCV(International Conferenceon Computer Vision)、CVPR (Computer Vision and Pattern Recognition)等国际会议,PAMI(IEEE Transactions on PatternAnalysis and Machine Intelligence)、CVIU(Computer Vision and Image Understanding)等国际期刊。
为了进行人体运动识别,需要解决运动数据的、特征表示与提取(人体运动建模)、人体运动序列分割、动作分类等问题,主要的流程如图1所示图1基于运动捕获数据的人体运动识别框架特征提取与表示到目前为止,已经有很多方法被设计用来表示人体运动或人体运动特征,按照特征的表示范围大致可以分为三大类:基于底层运动捕获信息的时空特征,基于变换域的表示,以及描述性特征。
时空特征时空特征主要为基于运动捕获系统捕获数据的直接或间接表示,例如直接釆用关节点的三维坐标,关节角度相对变化值等运动捕获信息,以及在这些底层信息之上的简单处理后的信息比如关节点的速度,角速度,朝向信息,骨豁夹角等。
关于几何特征的设计与描述主要有文献[15][16]的工作。
在他们的基础上,文献[17][18]加入时间信息,提出了基于三维时空特征的运动描述。
基于变换域的表示首先将运动捕获的底层信息进行数学变换,然后在变换域中进行运动的特征分析与描述。
在信号处理过程中,在变换域中能更好地体现在时域中不能体现的信号特性。
样条函数基、多项式函数基、傅立叶基、小波基等均可以用于运动描述子[19]。
文献[20]首先基于傅立叶基描述人体行走步态,然后分析人体行走步态提取人体行走运动的关键帧,进而用于运动匹配与识别。
文献[21]提出了一种基于加权主成分分析(WPCA, Weighted Primary Component Analysis)的方法用于实现运动捕捉数据的检索,通过计算姿态与姿态之间的距离作为相似度实现稳定高效的检索,并且分别使用合成数据和运动捕捉数据验证了该方法。
除了PCA方法之后,研究人员提出了许多子空间的方法,如ICA(Independent Component Analysis), FLA(Fisher Linear Analysis)等,这些方法都属于线性子空间降维方法。
描述性特征基于时空特征、数学变换域特征等描述方法通常通过底层数值特征进行计算,动作序列中丰富的语义信息并没有得到充分的利用。
因此,研究者提出利用运动描述语言(motion description language) [22], 李等[23]提出的字库模型标记每一个运动姿态等来描述用户设计的运动特征。
序列分割人体运动序列分割是指将连续的视频序列V分割n个独立的行为段,每个行为段中有且仅有一种有意义的行为式。
行为段之间的分割边界及行为段的数目n是该问题需要求解的变量。
现有的人体运动序列分割算法可分为有监督方法和无监督方法两类。
有监督方法采用手动方法分割视频序列,分割过程非常烦琐、耗时,且由于手动分割受到人的主观影响,分割结果往往不够准确。
无监督方法则能自动或半自动地分割行为序列,包括按照等长、有重叠的时间窗口进行分割。
前者比较简单,但准确率较低,其分割结果可能是一个不完整的行为模式或是多个行为模式的组合,这些误分割会导致后续的行为误识别。
为提高分割准确率,吴晓婕等人提出了由粗到细的分割思想图,在采用等长、有重叠的时间窗口进行粗分割的基础上,再结合segmental-DTW (dynamic time warping)和图聚类方法进行细分割,此方法运算量较大,且精度较低。
为了进一步提高分割准确率,周峰等人[24]结合核函数化的k均值聚类与DTAK( Dynamic Time Alignment Kernel)[25]对运动序列进行分割,这种方法不仅有较高的分割精度,而且还能分割出每个运动包含的周期子运动。
动作识别方法运动识别可以简单看成时变数据的分类问题,即将测试序列与预先标定的代表典型运动的参考序列进行匹配,且能够处理在相似的运动模式类别中空间和时间尺度上轻微的特征变化。
运动检索方法也可用于进行运动识别。
一般的思路是在已有的数据集中査找一个与未知类型的运动序列相似的运动序列,然后根据数据集中已知运动序列的类别标签来判断未知运动序列的类别标签。
但是直接基于数值计算相似度的方式难以对逻辑上相似的动作进行识别,比如,两次跳跃运动的高度、跨度可能会差别较大,如果直接从运动捕获的数值上进行计算则难以匹配,因此可以根据两个动作的逻辑上是否相似来进行匹配和判断分类。
基于概率统计的方法基于运动分类建立概率模型,对待识别的动作序列进行概率估计,然后基于概率值进行分类和识别。
在基于运动分类建立的概率模型中,将运动的一个姿势或者几个姿势定义为状态,状态与状态之间采用概率表示状态转移的可能性,这样,整个动作序列可以建模为一个状态转移的时间序列过程描述。