基于深度图像与骨骼数据的行为识别

合集下载

人体骨骼关键点算法

人体骨骼关键点算法

人体骨骼关键点算法
人体骨骼关键点算法是一种计算机视觉技术,用于识别和定位人体骨骼关键点。

它是基于深度学习和卷积神经网络的技术,能够在图像或视频中准确地检测出人体的关键点,包括头部、颈部、肩部、手肘、手腕、腰部、髋部、膝盖和脚踝等部位。

人体骨骼关键点算法的发展可以追溯到20世纪80年代初期,当时的技术主要是基于传统的图像处理和计算机视觉技术,如边缘检测、形态学处理和模板匹配等。

但是,这些技术往往需要手动设计特征和规则,而且对于复杂的场景和变化的姿态很难适应。

随着深度学习和卷积神经网络的发展,人体骨骼关键点算法得到了很大的提升。

现代的算法通常使用深度卷积神经网络来学习特征和姿态模型,然后使用回归算法来预测关键点的位置。

这些算法通常需要大量的标注数据和计算资源来进行训练和优化,但是它们能够在复杂的场景和变化的姿态下实现高精度的检测和定位。

人体骨骼关键点算法在很多领域都有广泛的应用,例如人体姿态估计、动作识别、人机交互、虚拟现实和增强现实等。

它们可以帮助我们更好地理解和模拟人类行为,提高人机交互的效率和自然度,以及为虚拟现实和增强现实应用提供更加真实的体验。

基于人体骨架的动作识别算法研究与实现

基于人体骨架的动作识别算法研究与实现

基于人体骨架的动作识别算法研究与实现基于人体骨架的动作识别算法研究与实现摘要:随着人工智能技术的发展,人体动作识别在许多领域得到广泛应用。

本文研究了一种基于人体骨架的动作识别算法,并实现了相应的系统。

通过利用深度学习框架和传感器数据,我们从人体骨架图像中提取特征,并构建模型进行动作分类。

实验结果表明,该算法能够高效准确地识别不同的人体动作,具有广泛的应用前景。

1. 引言人体动作识别作为一种基础的计算机视觉任务,广泛应用于人机交互、运动分析、虚拟现实等领域。

传统的基于图像或视频的方法在提取特征时存在一定的局限性,而基于人体骨架的动作识别算法能够更准确地捕捉人体动作的细微变化。

2.研究内容与方法本文基于深度学习框架,通过利用传感器数据采集人体的关键骨骼节点坐标,构建人体骨架图像,并提取其特征进行动作分类。

具体步骤包括:(1)传感器数据采集:通过采集传感器数据,获取人体关键骨骼节点的三维坐标。

我们选取高精度的传感器设备,如Kinect等,以确保数据的准确性和可靠性。

(2)数据预处理:对采集到的传感器数据进行预处理,包括去除噪声、滤波、对齐等操作,以提高数据的可用性和准确性。

(3)人体骨架图像构建:通过将传感器数据进行可视化处理,构建人体骨架图像。

我们利用OpenGL等图形处理工具绘制骨架图像,以便进行后续特征提取操作。

(4)特征提取:从人体骨架图像中提取关键特征。

我们采用了一种基于深度学习的卷积神经网络(CNN)模型,通过多次卷积和池化操作,将图像特征提取为一个固定长度的向量。

(5)动作分类:利用经过训练的分类器对提取到的特征进行动作分类。

我们选择了一种常用的分类器,如支持向量机(SVM)等,来实现不同动作的识别。

3.实验与结果分析我们搜集了大量的人体动作数据进行实验验证。

在实验中,我们选取了一些常见的动作,如走、举手、跳跃等,并通过传感器设备采集数据。

经过数据预处理和特征提取,我们得到了每个动作对应的特征向量。

《2024年基于视觉的人体动作识别综述》范文

《2024年基于视觉的人体动作识别综述》范文

《基于视觉的人体动作识别综述》篇一一、引言随着计算机视觉技术的快速发展,人体动作识别已经成为智能监控、人机交互、医疗康复等领域的重要研究课题。

基于视觉的人体动作识别技术能够从图像或视频中提取和解析人体动作信息,从而实现对人体行为的自动识别和理解。

本文旨在综述基于视觉的人体动作识别的研究现状,包括相关技术、方法和挑战,以期为后续研究提供参考。

二、人体动作识别的技术基础1. 特征提取:特征提取是人体动作识别的关键步骤,主要目的是从图像或视频中提取出与人体动作相关的特征。

常见的特征包括形状特征、纹理特征、光流特征等。

2. 模型构建:基于提取的特征,构建分类模型进行动作识别。

常用的模型包括支持向量机、隐马尔可夫模型、深度学习模型等。

三、基于视觉的人体动作识别方法1. 基于深度学习的方法:深度学习在人体动作识别中发挥着重要作用,尤其是卷积神经网络(CNN)和循环神经网络(RNN)的应用。

通过大量数据的训练,深度学习模型能够自动提取和识别人体动作特征。

2. 基于光流的方法:光流描述了图像序列中物体的运动信息,通过计算光流场可以提取出人体动作的动态特征。

基于光流的方法在人体动作识别中具有较高的准确性和实时性。

3. 基于骨骼信息的方法:通过深度相机或立体相机获取人体骨骼信息,进而进行动作识别。

该方法能够更准确地捕捉人体动作的细节,但需要较高的硬件设备支持。

四、人体动作识别的应用领域1. 智能监控:通过人体动作识别技术,可以实现智能监控和安防报警等功能,提高社会安全水平。

2. 人机交互:人体动作识别技术可以应用于虚拟现实、游戏、医疗康复等领域,实现自然、直观的人机交互。

3. 医疗康复:通过分析患者的康复动作,可以帮助医生评估患者的康复情况,为患者提供个性化的康复方案。

五、挑战与展望1. 数据获取与标注:大规模、多样化的数据集对于提高人体动作识别的性能至关重要。

然而,目前公开可用的数据集仍存在数据量不足、标注不准确等问题。

《2024年基于深度学习的人体行为识别算法综述》范文

《2024年基于深度学习的人体行为识别算法综述》范文

《基于深度学习的人体行为识别算法综述》篇一一、引言随着深度学习技术的快速发展,人体行为识别在智能监控、人机交互、医疗康复等领域的应用越来越广泛。

基于深度学习的人体行为识别算法已成为研究热点,其准确性和效率不断提高。

本文旨在综述基于深度学习的人体行为识别算法的最新进展,分析其优缺点,为相关研究提供参考。

二、深度学习在人体行为识别中的应用深度学习通过模拟人脑神经网络的工作方式,从大量数据中自动提取特征,具有强大的特征学习和表示能力。

在人体行为识别中,深度学习主要应用于视频序列的图像处理和特征提取。

1. 卷积神经网络(CNN)卷积神经网络是一种常用的深度学习模型,广泛应用于图像处理和视频分析。

在人体行为识别中,CNN可以自动提取视频中的时空特征,如骨骼序列、关节角度等。

通过训练,CNN可以学习到不同行为之间的差异,从而实现行为识别。

2. 循环神经网络(RNN)循环神经网络可以处理具有时序依赖性的数据,如视频序列。

在人体行为识别中,RNN可以通过捕捉时间序列上的上下文信息,提取更丰富的行为特征。

同时,RNN还可以根据视频中的人体姿态、动作等变化预测未来行为。

3. 长短期记忆网络(LSTM)长短期记忆网络是一种特殊的循环神经网络,能够解决RNN 在处理长序列时的梯度消失和梯度爆炸问题。

在人体行为识别中,LSTM可以捕捉到视频中长时间的行为模式和上下文信息,提高识别的准确性和稳定性。

三、基于深度学习的人体行为识别算法综述基于深度学习的人体行为识别算法主要包括基于单一模型的方法和基于多模型融合的方法。

1. 基于单一模型的方法基于单一模型的方法主要采用CNN、RNN或LSTM等单一模型进行人体行为识别。

其中,CNN主要用于提取时空特征,RNN和LSTM则用于捕捉时序信息。

这些方法具有计算效率高、模型简单的优点,但可能存在特征提取不全面、易受外界干扰等问题。

2. 基于多模型融合的方法基于多模型融合的方法采用多种模型进行人体行为识别,通过融合不同模型的特征或结果提高识别的准确性和鲁棒性。

基于深度学习的人体姿态识别算法设计与实现

基于深度学习的人体姿态识别算法设计与实现

基于深度学习的人体姿态识别算法设计与实现人体姿态识别是计算机视觉领域的一个重要研究方向,它的目的是识别出人体在空间中的姿态,包括头部、手臂、腿部等的位置和角度。

姿态识别技术已经被广泛应用在虚拟现实、人机交互、运动分析等领域。

本文主要介绍一种基于深度学习的人体姿态识别算法的设计与实现。

一、算法概述基于深度学习的人体姿态识别算法主要分为两个阶段:训练和测试。

在训练阶段,我们需要从数据集中学习出姿态的特征表示。

这可以通过卷积神经网络(Convolutional Neural Network,CNN)来实现。

在测试阶段,我们根据已经训练好的模型,对输入的人体图像进行姿态识别。

二、数据集的选择和预处理数据集是深度学习算法训练的重要组成部分。

对于人体姿态识别算法,我们需要选择一个包含人体图像和姿态标注的数据集。

常用的数据集包括MPII Human Pose Dataset、COCO Dataset等。

在数据集选择完毕后,我们需要对数据进行预处理,包括图像大小调整、数据增强等。

同时,为了防止过拟合,我们需要在训练集中随机删除一部分关键点,以模拟真实场景中的噪声。

三、姿态特征表示的学习卷积神经网络是深度学习算法中常用的基础模型之一。

CNN通过多层卷积和池化操作来从图像中学习出特征表示。

对于人体姿态识别算法,我们可以使用CNN来从人体图像中学习出关键点的特征表示。

我们可以将图像中的关键点看作一个多维向量,使用CNN对其进行处理,并输出一个维度相同的向量。

对于每个关键点,我们都可以学习出一个特征向量表示,从而实现姿态特征的表示学习。

四、姿态识别模型的设计在姿态识别模型的设计中,我们可以使用CNN对关键点的特征向量进行分类。

在训练集中,我们将标注的姿态信息转换成数字标签,用于对特征向量进行分类。

在测试阶段,我们可以根据模型输出的标签,推断出测试样本的姿势信息。

在模型设计中,我们可以使用多个卷积层和池化层,以提取出更加复杂的特征表示。

基于深度学习的人体动作识别方法

基于深度学习的人体动作识别方法

基于深度学习的人体动作识别方法深度学习作为一种强大的机器学习技术,近年来在各个领域取得了重大突破。

其中,人体动作识别是深度学习技术的一个重要应用领域。

本文将介绍基于深度学习的人体动作识别方法,包括数据预处理、模型构建和训练、结果分析等方面。

一、数据预处理人体动作识别需要大量的标注数据集作为训练样本。

在数据预处理阶段,我们需要对采集到的原始数据进行清洗和标注。

一般而言,人体动作识别可使用传感器获取的关节点信息,如骨骼关节点坐标、速度、加速度等。

这些关键信息需要通过滤波和降噪等技术进行数据处理,以去除异常点和噪声,提高数据质量。

二、模型构建和训练在深度学习中,卷积神经网络(Convolutional Neural Network, CNN)是一种常用的模型架构,适用于图像和时间序列数据的处理。

对于人体动作识别来说,时间序列数据是关键,因此,我们可以使用一维卷积神经网络(1D-CNN)来进行模型构建。

1D-CNN的主要思想是通过卷积操作提取时间序列数据中的局部特征,然后通过池化操作将特征进行降维。

模型的输入可以是关节点坐标序列,经过多层的1D-CNN的卷积操作和池化操作后,得到的特征表示可以用于分类任务。

模型的输出层为softmax层,用于输出分类结果。

模型的训练需要一个标注好的数据集,可以通过监督学习的方法进行。

常见的损失函数可以是交叉熵函数,用于评估分类任务的误差。

通过反向传播算法,可以更新模型的参数,使得模型逐渐收敛。

三、结果分析在模型训练完成后,我们需要对其性能进行评价和分析。

常见的性能评价指标包括准确率、精确率、召回率和F1值等。

可以通过混淆矩阵、ROC曲线和AUC值来综合评价模型的性能。

此外,在实际应用中,我们还可以对模型进行优化和改进。

例如,可以使用预训练的模型参数来提高模型的性能,也可以通过调整模型的超参数来选择更合适的模型结构。

最后,基于深度学习的人体动作识别方法在很多领域都有广泛的应用,如体育训练、健康监测、智能安防等。

基于深度学习的人体行为识别与动作预测研究

基于深度学习的人体行为识别与动作预测研究1. 引言人类行为识别与动作预测在许多领域具有重要的应用价值,如智能监控、人机交互、健康管理等。

传统的行为识别方法通常依赖于手工提取特征,并且对复杂动作模式的识别效果较差。

然而,随着深度学习在计算机视觉领域的快速发展,基于深度学习的人体行为识别与动作预测方法正逐渐成为研究热点。

本文将对基于深度学习的人体行为识别与动作预测的研究进行探讨。

2. 深度学习在人体行为识别中的应用深度学习的优势在于其能够自动提取特征,并通过大规模数据训练网络模型。

在人体行为识别中,深度学习可以通过卷积神经网络(CNN)或循环神经网络(RNN)对视频序列进行处理,得到更准确的行为识别结果。

例如,通过将CNN应用于人体骨骼关键点或图像数据,可以实现对人体姿态和动作的准确识别。

3. 人体行为识别的数据集和方法为了进行深度学习中的人体行为识别研究,需要大规模的标注数据集。

目前,已经有一些公开的人体行为识别数据集,如UCF101、HMDB51等,这些数据集包含了各种不同的人体动作类别和视频片段。

在方法上,研究者们主要通过构造不同的网络架构、引入空间注意力机制或时间注意力机制等手段,进一步提升行为识别的准确性。

4. 动作预测的挑战与方法除了行为识别,动作预测是另一个重要的任务。

动作预测旨在根据之前的动作序列预测未来的动作。

然而,由于动作序列的多样性和不确定性,动作预测仍然具有挑战性。

为了解决这个问题,研究者们提出了多种方法,如基于循环神经网络的序列模型、引入注意力机制的模型等,以提高动作预测的准确性和鲁棒性。

5. 深度学习在人体行为识别与动作预测中的应用案例深度学习在人体行为识别与动作预测方面的研究已经在各个领域得到广泛应用。

以智能监控为例,通过将深度学习应用于监控摄像头中的视频数据,可以实现对异常行为的自动检测和警报。

此外,深度学习还被应用于人体动作预测,如体育比赛中的动作预测、人机交互中的手势识别等。

基于深度学习的人体姿势识别系统

基于深度学习的人体姿势识别系统人体姿势识别系统是一种基于深度学习的计算机视觉技术,它可以通过电脑视觉技术对人体的姿势动作进行识别和跟踪。

这项技术可以应用于各种领域,包括体育科学、医疗保健、智能机器人等。

本文将详细讨论基于深度学习的人体姿势识别系统的原理、应用和未来发展。

一、人体姿势识别系统的原理人体姿势识别系统的核心是深度学习算法,它是一种人工智能技术,模仿人脑神经网络的工作原理,通过多层次的神经元来学习和识别数据。

在人体姿势识别系统中,深度学习算法能够自动提取图像特征,并根据这些特征进行分类和识别。

人体姿势识别系统通常使用RGB或深度相机采集图像数据,并将这些图像数据转化为数字化的数据流。

这些数字化的数据流会被输入到深度学习算法中,训练机器学习模型,以便机器能够识别和跟踪人体的姿势动作。

通常,深度学习算法需要大量的数据集用于训练。

这些数据集通常是由人类专业人员手工制作的,包括拍摄不同姿势的人体图像和视频。

二、人体姿势识别系统的应用人体姿势识别系统在很多领域都有应用,包括运动训练、医疗保健和智能机器人。

1. 运动训练领域人体姿势识别系统可以应用于各种运动场景,例如体育比赛、健身房等。

在这些场景中,人体姿势识别系统能够对运动员的姿势动作进行跟踪和识别,以帮助教练更好地指导运动员的训练,提高运动员的表现。

此外,在自动化运动分析方面,姿势识别技术可以对某项运动(如游泳、跑步等)进行详细分析,从而让运动员了解自身的结构和技术要素。

2. 医疗保健领域人体姿势识别系统在医疗保健领域也有应用。

例如,可以使用姿势识别技术来监测老年人或需要康复的患者的身体动作,以帮助医生和康复师更好地指导患者进行各种身体活动。

另外,在身体运动评估方面,目前认知和神经科学的研究已经指出,追踪人体姿势可以为判断某些神经疾病的诊断和疾病的提供帮助。

3. 智能机器人领域人体姿势识别系统可以应用于智能机器人领域,例如人工助手和服务机器人。

《2024年基于深度学习的人体行为识别算法综述》范文

《基于深度学习的人体行为识别算法综述》篇一一、引言随着深度学习技术的飞速发展,人体行为识别已成为计算机视觉领域的研究热点。

人体行为识别技术广泛应用于智能监控、人机交互、医疗康复、体育训练等多个领域。

本文旨在综述基于深度学习的人体行为识别算法的研究现状、主要方法及挑战,以期为相关研究提供参考。

二、人体行为识别的研究背景与意义人体行为识别是指通过计算机视觉技术,自动识别并分析人体在特定场景下的行为。

该技术在智能监控、人机交互等领域具有广泛的应用前景。

例如,在智能监控中,人体行为识别可用于安全防范、异常行为检测等;在人机交互中,该技术可用于实现自然、直观的人机交互方式。

因此,人体行为识别的研究具有重要的理论价值和应用意义。

三、基于深度学习的人体行为识别算法概述基于深度学习的人体行为识别算法主要利用深度神经网络提取人体行为的特征,进而实现行为的识别与分类。

以下是几种主要的算法:1. 基于卷积神经网络(CNN)的算法:该类算法通过构建多层卷积网络,自动学习并提取人体行为的特征。

其中,三维卷积神经网络(3D-CNN)在处理视频数据时表现出较好的性能。

2. 基于循环神经网络(RNN)的算法:该类算法适用于处理序列数据,可有效地捕捉人体行为的时序信息。

其中,长短时记忆网络(LSTM)在处理长序列数据时具有较好的性能。

3. 基于深度自编码器(DAE)的算法:该类算法通过构建深度自编码器,实现人体行为的重构与识别。

其中,变分自编码器(VAE)在生成人体行为数据方面具有较好的性能。

四、人体行为识别的关键技术与方法人体行为识别的关键技术与方法主要包括特征提取、行为建模、分类与识别等。

其中,特征提取是关键的一环,它直接影响到行为的识别准确率。

基于深度学习的特征提取方法可以自动学习并提取人体行为的特征,具有较高的准确率和鲁棒性。

此外,行为建模也是人体行为识别的关键技术之一,它可以通过构建精确的行为模型来提高识别的准确率。

分类与识别则是将提取的特征输入到分类器中进行分类与识别,常用的分类器包括支持向量机(SVM)、softmax等。

基于深度学习的人体姿态检测与识别研究

基于深度学习的人体姿态检测与识别研究近年来,深度学习技术在计算机视觉领域的应用越来越广泛。

人体姿态检测与识别是计算机视觉领域中的一个重要问题,它涉及到人体动作分析、人机交互、医疗诊断等方面。

深度学习技术的出现为人体姿态检测与识别带来了新的机会。

一、人体姿态检测与识别的意义人体姿态检测与识别是指通过计算机视觉技术对姿态进行感知和理解,得到关于人体姿态的信息,例如人体关节角度、骨架结构、运动轨迹等。

它可以广泛应用于人机交互、虚拟现实、医疗诊断、智能安防等领域。

在人机交互领域,人体姿态检测与识别可以用于姿势控制、手势识别、面部表情识别等,实现更加自然和智能的用户交互方式。

在虚拟现实领域,人体姿态检测与识别可以用于实现更加逼真和自然的人体动作捕捉,提高虚拟人物的表现力和交互性。

在医疗诊断领域,人体姿态检测与识别可以用于评估运动功能障碍、康复训练、疾病诊断等,为医疗工作者提供更加及时和准确的诊断信息。

在智能安防领域,人体姿态检测与识别可以用于监控场景分析、异常检测等,提高安全防范能力。

二、人体姿态检测与识别的研究现状传统的人体姿态检测与识别方法主要基于手工设计的特征和分类器,如HOG、SURF、SIFT等。

但由于人体姿态的变化和复杂性,这些方法在实际应用中往往存在不足。

近年来,随着深度学习技术的发展,越来越多的研究者开始探索基于深度学习的人体姿态检测与识别方法。

基于深度学习的人体姿态检测与识别方法主要包括基于单张图像的检测方法和基于序列图像的跟踪方法两种。

基于单张图像的检测方法主要基于卷积神经网络(CNN)和循环神经网络(RNN),通过对单张图像进行分类或回归来得到姿态信息。

而基于序列图像的跟踪方法则主要基于关键点跟踪算法,通过对连续图像序列中人体关键点的跟踪来实现人体姿态的识别。

近年来,基于单张图像的检测方法取得了一系列的突破性进展。

尤其是2014年发表的一篇名为“DeepPose”的论文,提出了使用CNN进行人体姿态估计的方法,其准确率远高于以前的方法,标志着基于深度学习的人体姿态检测与识别进入了一个新的时代。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于深度图像与骨骼数据的行为识别作者:陆中秋侯振杰陈宸梁久祯来源:《计算机应用》2016年第11期摘要:为了充分利用深度图像与骨骼数据进行人体行为识别,提出了一种基于深度图形与骨骼数据的多特征行为识别方法。

该算法的多特征包括深度运动图(DMM)特征与四方形骨骼特征(Quad)。

深度图像方面,将深度图像投影到一个笛卡尔坐标系的三个平面获得深度运动图特征。

骨骼数据方面,提出四方形骨骼特征,它是骨骼坐标的一种标定方式,得到的结果只与骨骼姿态有关。

同时提出一种多模型概率投票的分类策略,减小了噪声数据对分类结果的影响。

所提方法在MSR-Action3D和DHA数据库进行实验,实验结果表明,所提算法有着较高的识别率与良好的鲁棒性。

关键词:深度图像;骨骼数据;行为识别;深度运动图;四方形骨骼特征中图分类号:TP391.4文献标志码:A文章编号:1001-9081(2016)11-2979-060 引言行为识别是计算机视觉与模式匹配中的一个热门问题,每天人们都会遇到许多潜在的人机交互。

尽管这些年许多学者对行为识别做了许多卓越的贡献,识别人类行为仍然是一个巨大的挑战。

早期的行为识别主要对视频进行处理。

随着图像技术与硬件的发展,利用微软Kinect或华硕Xtion等设备,学者可以实时获取人体的深度图像信息。

与传统的图像相比,深度图像不受光照影响,能够提供三维空间信息。

利用深度图像,学者们对行为识别做了许多研究,例如文献[1-3];同时,深度摄像头设备通过对深度数据的处理,提取出了人体的骨骼特征[4],为行为识别提供的重要的行为特征。

本文提出一种基于深度运动图数据与骨骼数据的融合识别方法。

通过深度摄像头(RGB-Depth, RGBD)可以获取一个行为的一系列深度图像。

将这一系列的深度图在3个视图方向(前视图、左视图、俯视图)上投影获取深度运动图,并对得到的深度运动图进行局部二值模式(Local Binary Pattern, LBP)预处理,只获取其纹理信息;同时对骨骼数据进行四方形坐标标定,利用Fisher对得到的骨骼数据进行预处理;最后将得到的深度运动图与骨骼特征输入到一个基于支持向量机(Support Vector Machine, SVM)的多模型概率投票的分类器中。

本文在行为识别方面有2点贡献:1)将深度图像信息与骨骼信息结合作为行为的数据特征;2)提出了基于SVM的多模型概率投票机制,很大程度上克服了噪声数据对模型的影响,提高了识别率,具有一定的鲁棒性。

对于传统的彩色摄像头采集的图像,学者们大多利用其时空特征与轨迹进行行为识别:文献[5]利用时空点与SVM配合识别人体行为;文献[6]利用尺度不变的轨迹作为特征,在3层的抽象等级上识别行为;文献[7]提出了在视频序列中提取运动能量图(Motion Energy Image, MEI)和运动历史图(Motion History Image, MHI)作为行为特征。

使用图像强图或者颜色的一个主要缺点使其对光照变化敏感,限制了算法的鲁棒性。

蔡加欣等[8]对人体轮廓进行研究,基于随机森林方法,提出基于袋外数据误差加权投票准则的行为视频分类方法。

随着RGBD摄像头的发展,学者们已经提出许多基于深度图像的行为识别算法:文献[9]利用金字塔模型与3D点的词袋模型作为行为姿态的行为特征;文献[10]将深度图像投影到3个正交的平面上形成深度运动图(Depth Motion Map, DMM),然后用提取其梯度直方图(Histogram Of Gradient, HOG)作为行为的特征;文献[11]从深度视频中提取随机占用模式(Random Occupancy Pattern, ROP)特征,并用稀疏编码技术进行重新编码;郑胤等[12]介绍了深度学习及其目标和行为识别中的新进展。

随着对深度图像进一步的处理,学者们提取出其中高层次的骨骼信息,基于骨骼信息的算法可以更加直接地描述人体行为:文献[1]将人体定位到3D空间箱子模型,提取人体的3D 骨骼点直方图(Histogram Of 3D Joint, HOJ3D)作为行为特征;文献[13]提出从人体骨骼节点的拓扑结构中选取最有子集来提高识别率;文献[14]提出了一种生物启发的三维骨骼特征的时空层次结构;文献[2]使用朴素贝叶斯近邻分类器识别人体骨骼特征点的静态与动态信息。

与传统单一的特征数据模型相比,多特征有着良好的优势。

文献[15]提出了跨数据模型的融合实验,在IXMAS(INRIA Xmas Motion Acquisition Sequences)等数据库做了实验。

在大数据环境下,多特征协同识别成为人体行为识别趋势。

结合深度图像与骨骼数据,可以提高识别的准确性。

1 运动特征描述1.1 深度运动图特征深度图像可以用来表示物体3D结构和形状信息。

文献[10]提出将深度图像时间序列中的每一帧投影到正交的3个笛卡尔面来表示这个行为动作。

具体地说,使用三视图中的主视图、俯视图和左视图,将人体定位到笛卡尔坐标系,分别将人体深度数据投影到主视图、俯视图和左视图。

每一帧行为可以表示为v={f,s,t},其中: f、s、t分别表示在主视图、左视图和俯视图的人体投影。

与文献[2]不同,每个投影的图是由2个连续的深度图像帧做差投影得到。

对于N帧的深度数据视频,由式(1)计算出它的DMMv特征:但是并不是所有深度图中的像素都需要被投影,深度图像中很多像素值为0,对行为特征描述没有帮助。

所以要对每一帧图像进行感兴趣区域(Region Of Interest, ROI)操作。

即裁剪图像,使主要内容平铺在整个图像上,且保证图像大小一致。

为了进一步对DMMv中的像素进行过滤,对DMMv进行局部二值模式(LBP)操作。

LBP是一种用来描述图像局部纹理特征的算法,可以提取DMMv中的纹理信息,增加了特征的稀疏性。

如图1,对于在图像上个给定的一点gc,式(2)为LBP的计算公式:2 基于SVM的概率投票行为识别单个的SVM只能解决二分类问题,对于多分类的问题,可以使用多个SVM分类器联合分类,包括一对一、一对多等方法。

虽然直接分类的SVM是一个强有力的机器学习的分类工具,然而在实际应用中,由于噪声的影响,每个样本对分类结果的影响应该是不同的。

直接将结果分类成0和1可能并不恰当。

为了使SVM更加适应这些问题,要求SVM具有软输出的功能,即输出概率。

本文的SVM概率投票分类就是基于输出概率进行的。

给定的行为识别特征数据包括深度运动图特征与四方形骨骼特征。

其中深度运动图特征包括v={f,s,t}三个方向的特征。

对于三个方向的深度运动图特征与骨骼特征,对各个特征进行SVM概率建模,将得到的模型进行累加投票,得到最大目标可能概率,即为最后输出标签。

v代表前视图、左视图与俯视图三个方向。

F代表骨骼数据在Fisher操作后的骨骼特征。

如图4,对于每个特征进行SVM分类,得到各个特征的模型。

与以往的SVM不同,该训练的几个模型输出均为识别概率。

将概率累加,获取最大概率的标签即为结果。

SVM是机器学习中的强有力的学习方法。

传统的SVM是解决单分类问题。

SVM试图找出一个超平面,使超平面能够尽量多地分隔出两类。

经过大量实验证明, SVM在小样本集上有着卓越的优势。

对于多分类的概率支持向量机(Probability Support Vector Machine, PSVM),对每个带概率的SVM进行一对一,该方法在每两类训练一个分类器,因此对于一个k类问题,将有k (k-1)/2个分类函数。

当对一个未知样本进行分类时,每个分类器都对其类别进行判断.并为相应的类别“投上一票”,最后得票最多的类别即作为该未知样本的类别。

决策阶段采用投票法,传统的投票法可能存在多个类的票数相同的情况,从而使未知样本同时属于多个类别,影响分类精度,基于概率输出的投票法可以避免这方面的问题,取得更好的效果。

由于是多特征的概率SVM投票模型,那么需要对每个模型进行SVM参数调优,在每个单独模型上,调整SVM的准确度到最优。

与以往的SVM不同,该训练的几个模型输出均为识别概率。

将概率累加,获取最大概率的标签即为结果。

这样有如下优点:1)对不同特征进行不同的处理,发挥特征的最好效果。

2)可以集成当前效果最好的特征进行分类,极容易拓展。

3)随着计算机性能的提高,概率投票方式不会受到计算机性能的约束,可以达到实时的效果。

3 实验结果与分析3.1 MSR-Action3D 实验3.1.1 实验数据MSR-Action3D数据库是一个关于Kinect采集数据的行为识别库,其中包括10个人做20个动作: high wave(HiW)、 horizontal wave(How)、 hammer(H)、 hand catch(HC)、forward punch(FP)、 high throw(HT)、 draw x(DX)、 draw tick(DT)、 draw circle (DC)、 hand clap(HC)、 two hand wave(THW)、 side boxing(SB)、 bend(B)、forward kick(FK)、 side kick(SK)、 jogging(JO)、 tennis swing(TS)、 tennis serve (TS)、 golf swing(GS)、 pickup throw(PT)。

每个人做2~3次。

总共包括557个240×320的深度图像与557个骨骼数据。

3.1.2 实验设置设置一与文献[3]中的设置相同,将20个行为分为3组(AS1、AS2、AS3),如表1,AS1与AS2里都是相似行为,而AS3里则是相似度较小的行为。

对每一组进行3个实验。

在实验一中, 1/3作为训练数据, 2/3作为测试数据。

实验二中, 2/3作为训练数据, 1/3作为测试数据。

实验三中一半数据作训练,剩余一半作测试。

设置二与文献[11]中设置相同,同时使用20个行为,一半作为训练数据,剩余一半作为测试数据。

因为需要识别的类别比较多,设置二更具有挑战性。

3.1.3 实验结果与分析实验主要分为三个方面:单一特征实验、特征融合实验与稳定性实验。

对深度运动图特征、四方形骨骼特征和两者的结合分别进行设置二的实验,验证特征融合的必要性。

同时将本算法与现有的其他算法进行对比。

最后,对实验数据进行随机抽样,测试算法的稳定性。

单一特征实验对深度运动图、四方形骨骼特征和两者的融合分别进行实验。

根据设置二的数据安排,一半数据作为训练,一半数据作为测试,一共20类行为。

比较在设置二下的各种情况的识别率。

如表2所示,将深度运动图与四方形骨骼特征融合,有着更高的识别率。

相关文档
最新文档