一种基于信息融合与运动域分割的手势运动方向识别方法

合集下载

基于深度信息的指尖追踪及手势识别

基于深度信息的指尖追踪及手势识别

基于深度信息的指尖追踪及手势识别顾德;李吉【摘要】This paper presents an algorithm to realize the finger and palm tracking based on the depth information in real time. The recognized actions can be used for hand pose recognition. The depth map of the hands is captured by Kinect, which then converts the depth map to 3D point cloud in a form of pixel matrix. Fingers and direction of palms are calculated by using K-curvature algorithm. Finger names are determined according to their relative distances. Experimental results show that the present method effectively achieves the finger and palm tracking, and is unaffected by light and complex background. This method can apply to hand pose recognition.%提出了一个基于深度信息对手指和手部进行实时跟踪,并可用于手势识别的方案。

用Kinect获取深度信息,然后生成手部的三维点云,进行过滤转换成像素矩阵;使用K-curvature算法获取指尖和手掌方位,然后通过手指之间的相关距离进行手指标定。

实验结果证明该方案识别追踪效果稳定且高效,不受光照和复杂背景影响,能够同时跟踪双手共10个手指和2个掌心的动作轨迹,并用于手势识别。

一种基于加速度与表面肌电信息融合和统计语言模型的连续手语识别方法

一种基于加速度与表面肌电信息融合和统计语言模型的连续手语识别方法
d vc s t a tr et r s I h sp p r l —e s ri fr t n f so t o sp o o e o rc g ie e ie o c pu e g su e . n ti a e ,a mut s n o no mai u in meh d wa rp sd t e o n z i o te C i e e sg a g a e g su e . Fisl a h ea c ia e iin te s c n tu td fr t e n omain h h n s in ln u g e tr s rt y, ir rh c l d cso re wa o sr ce o h ifr to
sa it a a g a e mo e sc n t td t ee ta d c re ter ri h r c s ft er c g i o . F rt e tt i lln u g d lwa o sr e o d tc n o rc ro n te p o e so h e o nt n sc uc i o h r c g iin o 0 C L s b r sa d2 0 sn e c s h v rg e o n t n a c r ce fo rmeh d c ud u e o n t f1 S u wo d n 0 e tn e ,te a e a e rc g i o c u a iso u t o o l p o 2 i t % o91 ad8 % n 4 rs e tv l . T e c mp r t e a ay i f e p rme tl rs l h we h t te ttsia e p ciey h o aai n lss x ei n a e u t s o d t a h saitc l v o s a d h rc g i o n t e e o n t n i

基于深度学习的运动员动作识别及评价指标研究

基于深度学习的运动员动作识别及评价指标研究

基于深度学习的运动员动作识别及评价指标研究运动员的动作识别和评价一直是体育领域的重要研究方向。

随着深度学习技术的不断发展,基于深度学习的运动员动作识别和评价指标研究也取得了显著的进展。

本文将对这一研究方向进行探讨,并讨论如何利用深度学习方法提高运动员动作的识别和评价。

动作识别是指通过运动员的动作来判断其所处状态的能力。

在过去,动作识别主要依赖于人工手动提取特征和设计算法来进行分析,这种方法存在着人工选择特征的主观性和算法设计的局限性。

而基于深度学习的运动员动作识别方法可以通过学习数据中的高级特征来实现动作的自动提取和分析,具有更大的准确性和鲁棒性。

深度学习方法中的卷积神经网络(CNN)在运动员动作识别中得到了广泛应用。

CNN能够学习出多层次的特征表示,从而提高动作识别的准确度。

一种常用的CNN网络结构是多层卷积层和池化层交替堆叠,最后通过全连接层进行分类。

在训练过程中,需要大量的标记数据集来进行监督学习,以帮助CNN网络学习并识别出不同动作。

同时,还可以通过数据增强技术来扩充数据集,提高网络的泛化能力。

除了动作识别,运动员的动作评价也是非常重要的。

传统的评价方法主要依赖于人工观察和判断,存在主观性和不一致性的问题。

而基于深度学习的评价指标研究可以通过学习数据中的相关特征,自动判断和评价运动员的动作质量。

例如,可以利用深度学习方法从运动员动作的细节特征中提取出关键点位置、运动轨迹等信息,进而进行评价。

此外,还可以利用基于深度学习的模型来建立运动员的动作评价系统,实现对运动员动作的实时评估。

在运动员动作识别和评价中,还需考虑到一些特殊的问题。

比如,多人动作的识别和评价,这需要考虑到多个运动员之间的协同和互动关系。

可以利用深度学习模型来建立多人运动的时空关系模型,实现对多人动作的识别和评价。

此外,还需考虑到不同运动项目的差异性,不同运动项目的动作特征和评价指标可能存在较大的差异,需要针对不同运动项目进行特定的研究和改进。

手势识别与姿态估计算法研究

手势识别与姿态估计算法研究

手势识别与姿态估计算法研究摘要:手势识别与姿态估计是计算机视觉领域中的热门研究方向之一。

随着智能设备的普及和人机交互技术的发展,手势识别和姿态估计的应用越来越广泛。

本文将介绍手势识别与姿态估计算法的研究进展,包括传统方法和深度学习方法,并讨论其在图像识别、虚拟现实、智能交通等领域的应用。

1. 引言手势识别与姿态估计是研究人类动作行为和空间定位的重要领域之一。

通过利用计算机视觉技术,可以将人的手势或身体姿态转化为计算机能够理解和处理的信息,实现与计算机的自然交互。

手势识别与姿态估计在图像识别、虚拟现实、智能交通等领域具有广泛的应用前景。

2. 传统方法传统的手势识别与姿态估计方法主要基于计算机视觉中的特征提取和分类算法。

传统方法主要包括以下几种技术:形状分析、运动分析、模型匹配和机器学习。

形状分析是指通过对手势或姿态形状的描述和分析来进行识别和估计。

运动分析是指通过分析手势或姿态的运动模式和轨迹来进行识别和估计。

模型匹配是指通过将手势或姿态与已有的模型进行匹配来进行识别和估计。

机器学习是指通过构建分类器来自动学习和识别手势或姿态。

3. 深度学习方法深度学习是近年来兴起的一种机器学习方法,具有较强的数据驱动能力和自动特征学习能力。

深度学习在手势识别与姿态估计领域取得了显著的进展。

深度学习方法主要包括基于卷积神经网络(CNN)的方法和基于循环神经网络(RNN)的方法。

CNN方法可以通过学习空间特征和纹理特征来实现手势识别和姿态估计。

RNN方法可以通过学习时间序列特征和运动模式来实现手势识别和姿态估计。

4. 应用领域手势识别与姿态估计在多个领域都有广泛的应用。

在图像识别领域,手势识别和姿态估计可以应用于人脸识别、物体识别等任务,提高识别的准确性和稳定性。

在虚拟现实领域,手势识别和姿态估计可以用于手部交互、虚拟角色动作捕捉等场景,增强用户与虚拟环境的互动体验。

在智能交通领域,手势识别和姿态估计可以用于驾驶员行为识别、手势交通信号灯控制等应用,提高交通安全性和驾驶体验。

基于多特征融合的稳健手势检测方法

基于多特征融合的稳健手势检测方法
基 于手 势 的人 机交 互 在 机 器人 控 制 、 D动 画 、 乐 、 3 娱
能有保证 , 使用不便咖2 但 ; )基于运动检测 , 方法简单但
易受 光 照 影 响 , 够 稳定 【 ; )通 过 机 器 学 习 的 方 法 , 不 -3 讲 运
汽车 电子 、 全认证 等诸 多领 域应用 广泛 【近 年来 , oy 安 I l 。 Sn ,
பைடு நூலகம்
【 关键词】特征融合 ; 手势检测; 人机交互; 计算机视觉
【 中图 分 类 号 】T 3 9 1 P0. 4 【 献标 识 码 】A 文
Ro bus tHan Ge t e De e to e ho Ba e n u t l t eFuso d s ur t c i n M t d s d o M lW e ur a i n
Fs e准则 融 合 为 最优 线 性 鉴 别 式 分类 器 , 多 类 复 杂场 ih r 在
量 原 型产 品[] 2 。这些 产 品大 多仍 采 用 接触 式 传 感 器来 测 - 7 量 手关 节 的参 数 。虽然 可精 确 地 还 原 手 势 的 3 D空 间模 型 , 因不 舒适 而 降 低 了用 户 体 验 。 目前 , 势 交互 正 逐 却 手 渐转 变 为 通 过 非 接 触 式 的 实 时 视 频 采 集 用 户 动 作 , 以计 算 机 视 觉 的方 式 分 析手 势 的纯 视觉 方 式 。该 方 式 下用 户
文 章 编号 :0 2 8 9 (0 0 0 一 l 0 0 1 0 — 6 2 2 1 ) 8 o — 4 1
基于多特征融合的稳健 手势检测方法 ・ 设 ・ 实 计 用
沙 亮. 王贵锦 , 林行 刚
( 华 大 学 信 息科 学与技 术 国 家实验 室 ; 清 电子 工程 系 , 京 l 0 8 北 0 0 4)

基于深度学习的手势识别技术研究毕业设计1

基于深度学习的手势识别技术研究毕业设计1

基于深度学习的手势识别技术研究毕业设计1在手势识别技术的发展过程中,深度学习作为一种新兴的人工智能技术,为手势识别提供了更高的准确性和稳定性。

本文将围绕基于深度学习的手势识别技术展开研究,分析其原理、应用以及未来发展方向。

1. 引言手势识别技术在现代社会中具有重要意义,它通过感知人体手势的姿态、运动和形态特征,实现与人之间的自然交互。

然而,传统的手势识别方法在准确性和稳定性方面存在一定的限制。

而深度学习作为一种新兴的人工智能技术,具有强大的学习能力和泛化能力,被广泛应用于图像识别领域。

因此,基于深度学习的手势识别技术成为了当前研究的热点和趋势。

2. 基于深度学习的手势识别原理基于深度学习的手势识别技术主要包括两个主要步骤:特征提取和手势分类。

在特征提取阶段,利用深度神经网络对手势图像进行特征抽取,获取图像中手势的空间和时间信息。

在手势分类阶段,利用深度神经网络将手势特征映射到对应的手势类别,实现手势的准确分类。

深度学习模型如卷积神经网络(CNN)和循环神经网络(RNN)通常被应用于手势识别任务,能够有效地提取手势的多模态特征。

3. 基于深度学习的手势识别应用基于深度学习的手势识别技术在许多领域具有广泛的应用前景。

一方面,在虚拟现实(VR)和增强现实(AR)等交互界面中,通过手势识别技术能够实现用户与虚拟环境之间的自然交互,提升用户体验。

另一方面,在智能家居、智能驾驶等领域,基于深度学习的手势识别技术可以实现智能设备的远程操控和控制,提高生活和工作效率。

4. 基于深度学习的手势识别研究挑战尽管基于深度学习的手势识别技术取得了显著的进展,但仍存在一些挑战。

首先,手势多样性和变化性对算法的稳定性和鲁棒性提出了挑战。

不同人的手势形态、姿态和动作习惯存在差异,如何克服这些差异,实现高准确性和稳定性的手势识别仍然是一个挑战。

其次,深度学习技术需要大量的标注数据进行训练,但手势识别标注数据的获取难度较大。

因此,如何充分利用有限的标注数据,提升手势识别模型的泛化能力是一个关键问题。

融合手势全局运动和手指局部运动的动态手势识别

融合手势全局运动和手指局部运动的动态手势识别

第32卷第9期计算机辅助设计与图形学学报Vol.32No.9 2020年9月Journal of Computer-Aided Design & Computer Graphics Sept. 2020融合手势全局运动和手指局部运动的动态手势识别缪永伟, 李佳颖, 孙树森(浙江理工大学信息学院杭州 310018)(***************.cn)摘要: 传统基于手部轮廓或手部运动轨迹的动态手势识别方法, 其提取的特征通常难以准确表示动态手势之间的区别. 针对动态手势的复杂时序、空间可变性、特征表示不准确等问题, 提出一种融合手势全局运动和手指局部运动的手势识别方法. 首先进行动态手势数据预处理, 包括去除手势无效帧、手势帧数据补全和关节长度归一化; 然后根据给定的手部关节坐标, 利用手势距离函数分段提取动态手势关键帧, 并基于手势关键帧提取手在空间中的全局运动特征和手内部手指的局部运动特征; 其次融合手势全局运动和手指局部运动的关键帧手势特征, 并采用线性判别分析进行特征降维; 最后利用带高斯核的支持向量机实现动态手势识别与分类. 对DHG-14/28动态手势数据集中14类手势和28类手势数据集进行实验, 其分类识别准确率分别为98.57%和88.29%, 比现有方法分别提高11.27%和4.89%. 实验结果表明, 该方法能准确地表征动态手势并进行手势识别.关键词: 动态手势识别; 手势全局运动; 手指局部运动; 关键帧; 线性判别分析; 支持向量机中图法分类号: TP391. 41 DOI: 10.3724/SP.J.1089.2020.18126Dynamic Gesture Recognition Combining Global Gesture Motion and Local Finger MotionMiao Yongwei, Li Jiaying, and Sun Shusen(College of Information Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018)Abstract: Traditional gesture recognition methods always focus on hand contours or hand movement track, and the extracted gesture features are often difficult to represent the difference between dynamic gestures accurately. To overcome the issues of complex time series, the spatial variability and inaccurate feature rep-resentation of different dynamic gestures, a novel dynamic gesture recognition method is proposed here by combining global gesture motion and local finger motion. Firstly, based on the given hand joint positions, several data pre-processing steps are performed for dynamic gesture data, such as removing of the invalid gesture frames, completing the gesture frames, and the normalization of joint lengths for different gestures.Secondly, the key gesture frames will be extracted according to the distance function defined by the differ-ence of hand translation and rotation, fused by the difference of panning and rotating of fingers. Meanwhile, according to the extracted key gesture frames, the gesture features of global gesture motion and local finger motion can be calculated. Finally, by combining the extracted gesture features, dynamic hand gestures can be classified and recognized using linear discriminant analysis (LDA) and Gaussian kernel based SVM. The proposed method has been evaluated on the DHG-14/28 datasets, which includes 14 kinds of gestures and 28 kinds of gestures. And the accuracy of hand gesture recognition is 98.57% and 88.29% respectively, which is收稿日期: 2019-10-24; 修回日期: 2020-03-28. 基金项目: 国家自然科学基金(61972458); 浙江理工大学科研基金(17032001-Y).缪永伟(1971—), 男, 博士, 教授, 博士生导师, CCF杰出会员, 主要研究方向为计算机图形学、数字几何处理、计算机视觉、机器学习; 李佳颖(1995—), 女, 硕士研究生, 主要研究方向为计算机图形学、机器学习; 孙树森(1975—), 男, 博士, 副教授, 主要研究方向为计算机图形学、虚拟现实.第9期缪永伟, 等: 融合手势全局运动和手指局部运动的动态手势识别 149311.27% and 4.89% higher than the existing methods. Experimental results demonstrate that our method can represent the difference between dynamic hand gestures accurately and recognize them effectively.Key words: dynamic gesture recognition; global gesture motion; local finger motion; key frame; linear discrimi-nant analysis; support vector machine作为计算机图形学、虚拟现实、人机交互和手语翻译等领域的一种重要交互模式, 手势交互提供了一种简单便捷的交互体验[1]. 根据手势是否具有时序性, 可以将手势分为静态手势和动态手势2类[2], 静态手势顾名思义指的是单帧静止的手势, 而动态手势指的是一段时间内连续的多帧手势. 相比于静态手势, 动态手势由于不仅需要关注手部手形的变化, 还要关注手指在时间、空间中的运动而变得难以准确识别[3]. 通常, 复杂动态手势的运动规律具有以下3个明显特点: (1) 时间的可变性. 动态手势的运动速度不确定, 对于相同的手势, 不同的人可以用不同的速度来完成; 即使是同一个人, 每次的完成速度也并不一样. (2) 手势完整性的可变性. 在许多情况下, 与系统预先定义的手势相比, 用户/操作员的手势是不完整的或冗余的. (3) 空间的可变性. 手势的运动空间和运动距离是不同的, 不同的人所做相同手势的距离和范围也总是不同的. 这些特点将导致难以准确表征不同动态手势的特征. 动态手势的复杂时序、空间可变性、特征表示不准确等问题, 给动态手势的识别和分类带来困难与挑战[2].许多动态手势识别的工作都是基于RGB图像、深度图像、光流信息或手势轨迹[4]. Simonyan 等[4]利用双数据流特征进行动态手势分类, 其中一个数据流利用静态的RGB图像进行分类, 而另一个数据流利用光流和轨迹信息. RGB图像信息中包含了单帧手势的局部特征信息, 光流和轨迹信息中包含了手势的全局特征信息, 但是该方法并没有将2个数据流的特征相结合, 仅仅是分开使用2个数据流. 本文考虑手势全局运动特征和手内部手指局部运动特征, 并将融合2个特征进行动态手势识别和分类. 基于手势图像, Molchanov等[5]采用联接时间分类(connectionist temporal classifica-tion, CTC)方法解决动态手势时序问题, 但是该方法具有条件独立性, 假设不同时间帧的输出之间是独立的, 对于动态手势序列而言, 手势序列是具有时间空间连续性的, 该假设并不符合动态手势运动.最近受益于Intel real sense, Microsoft Kinect, OpenPose等硬件设备的广泛使用以及高精度手部跟踪方法的发展, 使得人们很容易获取高精度的手部骨架数据. 实际上, 手部骨骼的运动通常能准确反映不同动态手势的特征差异[3,6]. 基于手部关节点坐标输入, 针对动态手势时间的可变性和手势完整性的可变性等问题, 本文首先提出动态手势关键帧的有效提取方法, 从而去除不同动态手势中的冗余帧, 并将不同长度的动态手势视频统一到同一长度; 然后基于动态手势关键帧, 将手势运动特征表征为手部在空间中的全局运动和手内部手指的局部运动, 并融合2类特征进行降维; 最后利用带高斯核的支持向量机(support vector ma-chine, SVM)实现有效的动态手势识别. 本文提出了一种动态手势特征表示, 该表示能够有效表征动态手势的运动特征, 并为手势准确识别奠定了基础.1 相关工作动态手势的时空信息特征处理是动态手势识别与分类的关键和难点[2]. 动态手势识别大致可以分为传统手工特征提取方法和深度学习方法等.针对动态手势的传统手工特征提取方法, 大多采用动态时间规划(dynamic time warping, DTW)[7-8]、傅里叶时间金字塔[9]、隐马尔可夫模型(hidden Markov models, HMM)[10]等解决动态手势的时空信息处理问题. 其中DTW方法[7-8]采用两两对比的策略来规整时间信息, 该方法依赖于一个标准手势版本进行对比, 但是在手势数据集中并没有这个标准版本可供对比, 只能人为设定标准手势; 傅里叶时间金字塔方法[9]采用将完整的手势帧进行分段提取的方式来处理动态手势的时空信息特征; HMM则认为动态事件的下一状态只与上一状态有关, 与之前的状态都没有关系[10], 其忽略了动态手势的连贯性.针对动态手势识别的深度学习方法往往利用HMMs[10]、长短期时间记忆(long short-term mem-1494计算机辅助设计与图形学学报 第32卷ory, LSTM)[11-12]、广义时间规划(generalized time warping, GTW)[13], DTW [7-8]、空间金字塔池化(spatial pyramid pooling, SPP)[14]等解决时空信息处理问题. Wu 等[15]使用HMMs, 结合深度置信网络和卷积神经网络, 从RGB-D 数据中提取骨架特征中的时间依赖性. 然而, 由于深度置信网络采取无监督方式学习, 并没有结合手势类别对数据进行压缩. Nguyen 等[6]提出一种基于手部关节点坐标的对称正定(symmetrical positive determined, SPD)矩阵流形学习的神经网络方法. 该网络由3个部分组成: 一层卷积层、一层时空高斯聚合层和从骨架数据中学习到的最终SPD 矩阵. 该方法与本文类似利用关节之间的物理链接点提取特征. 然而, 该方法对时间序列的处理较粗糙, 为了捕获骨架序列的时间顺序, 采用了时空手势识别网络构造许多子序列: 原始序列、将原始序列分成2个子序列、再分成3个子序列等. Abavisani 等[16]提出了一种基于多模态训练的单模态动态手势识别方法, 对时间和位置信息利用时空语义对齐损失进行对齐, 这与协方差矩阵对齐密切相关. 然而, 利用神经网络进行动态手势识别的方法中网络设计往往难以充分考虑动态手势特定的手势运动特征. 本文提出了一种新的动态手势识别方法. 该方法将动态手势的运动分为手部在空间的全局运动和手内部手指的局部运动2部分, 并利用关键帧提取解决时间信息处理问题.2 动态手势识别方法本文从动态手势运动的内在特性出发, 结合手势所具有的个体差异性、时空连续性等特点, 提出了一种新的动态手势识别框架. 如图1所示, 该框架输入为动态手势3D 关节坐标, 首先进行数据预处理, 包括去除手势无效帧、手势帧数据补全和关节长度归一化; 然后提取动态手势关键帧, 并基于手势关键帧提取手在空间中运动的全局特征和手内部手指的局部特征; 并将两者特征融合后进行线性判别分析(linear discriminant analysis, LDA)特征降维, 最后利用带高斯核的SVM 进行动态手势识别分类. 该框架结合动态手势的时空连续特性, 解决了手势的时序问题, 同时有效提取了手部运动全局特征和手指运动局部特征.图1 动态手势识别框架2.1 动态手势数据预处理首先, 针对动态手势的时间可变性, 本文认为对于相同的手势动作, 由于测试者的动作有快有慢导致手势视频中出现较多冗余帧. 另外, 在手势提取过程中, 由于初始化问题或者出于提取关节位置信息考虑, 通常会需要测试者保持若干秒静止状态, 该手势帧与手势类别无关, 本文中将与手势类别无关的手势帧定义为手势无效帧, 为避免在关键帧提取中产生干扰, 需要首先去除手势无效帧.其次, 针对动态手势的完整性, 对不满关键帧帧数的手势将采用手势帧补全的方法, 使得动态手势数据帧数达到关键帧帧数的要求.最后, 针对动态手势的空间可变性, 本文认为当不同人做相同手势时, 不同的手掌大小和不同的手势幅度等通常会产生个体差异性. 本文将利用关节长度归一化方法消除个体差异性带来的影响, 从而解决动态手势的空间可变性问题. 2.1.1 手势的无效帧删除动态手势是一段时间内连续变化的手势序列, 手的形状和位置随着时间而变化. 动态手势数据集通常通过深度相机或数据手套获取, 获取的动态手势通常存在如何定义起始帧和结束帧的问题.第9期缪永伟, 等: 融合手势全局运动和手指局部运动的动态手势识别 1495本文所采用的数据集序列中, 要求参与者在每一个序列开始前的几秒内将整个手完全打开在摄像机前, 这一操作主要用于初始化手势估计算法. 因此, 每个手势序列中都有一些与手势类别无关的手势无效帧, 为了避免无效帧对手势分类造成干扰, 首先需要删除手势无效帧. 另外, 动态手势起始帧提取也是动态手势分类中的一个难点, 本文采用的动态手势数据集中已手工标注了有效的起止帧, 因此本文只需根据数据集中提供的手势起止帧数, 删除起始帧之前和结束帧之后的无效帧. 2.1.2 手势帧数据补全当手势关键帧确定之后, 对于关键帧帧数不足的手势处理问题, 本文考虑如果直接将小于关键帧数量的手势视为无效手势删除, 随着关键帧数量的增加, 数据集中的手势数量将急剧下降. 因此, 本文对帧数小于关键帧的手势数据采用数据补全的方法, 利用重复手势帧进行数据补全; 即从起始帧开始不断依次重复所有现有帧, 且为了保持手势运动特性, 将重复的手势帧直接插在被重复的手势帧之后, 直至手势视频达到规定帧数为止, 然后删除一个起始帧. 通过手势帧补全, 可以使训练数据集中样本数保持不变, 而重复现有手势帧可以有效地保持动态手势的完整性, 更好地说明手势识别准确率的提升和本文方法的泛化性. 2.1.3 手部关节长度归一化手势数据集通常需要由不同参与者采集数据, 并保持手势的通用性. 但是, 不同的参与者手的大小和关节之间的长度不同. 为了消除手部的个体差异性, 本文将手部关节长度归一化为相同长度, 即改变关节长度但不改变关节间的夹角. 例如, 在握拳手势时可能会出现指尖穿过手掌平面的异常运动. de Smedt 等[3]将手部关节长度归一化为数据集的平均长度, 但增加了计算量. 本文在标准手指长度的基础上, 对手部关节长度进行归一化.不妨以某一帧为例简述归一化过程. 利用,i j W 表示第j 帧中第i 个关节点位置. 为方便起见,归一化过程中下标j 均省略, 即表示为i W , 其中,0,1,2,,21i = . 利用向量表示22个关节点构成的关节对, 即15,1216,10,14,18 ,6,10,14,18i i i i i i i --≠⎧=⎨-=⎩W W V W W 且≤≤.归一化过程为,iii iL =V V V015, 0+,1216,10,14,18+, 6,10,14,18i i i i i i i i -=⎧⎪=≠⎨⎪=⎩W W V W V W ≤≤且 (1)需要指出的是, 本文对手部关节长度归一化时基于一个标准手指长度进行, 标准手指长度参考ACT hand 关节段[17]确立, 其中, i L 为对应第i 节关节段标准长度.2.2 动态手势特征表示首先, 从全局来看, 动态手势是手随着时间的流逝发生的一系列空间上的变化, 该变化可以根据物体运动的特性划分为平移运动和旋转运动. 其中平移运动通过手部中心点的移动距离表示, 根据手的运动特性, 手掌中心点的位置可以唯一确定手在空间中的位置. 旋转运动则是通过手的主方向向量的改变来进行刻画, 本文中手的主方向定义为: 手肘指向手掌中心点的向量. 考虑交互手势特征, 并不包含手绕中指指根关节与手肘连线所在直线的自旋转运动, 所以本文没有考虑自旋转运动的特征.其次, 从局部来看, 除了手在空间上的变化, 还有手内部手指的局部运动引起的手形变化, 本文将手部关节等同于21段链段结构. 而手指的局部运动是由手指的关节弯曲所引起, 可以理解为链段之间的角度变化引起的链段结构的整体变化. 考虑旋转矩阵所使用的元素多达16个, 而欧拉角会出现万向节死锁现象, 故本文中利用旋转四元数表示该变化. 而对于链段结构而言, 细微的角度误差将被累积, 经过多段链段后容易引起较大的距离误差[3], 故本文为消除由于角度误差累积引起的距离误差, 将手指相对距离特征加入手指的局部运动特征中. 同样考虑手部物理特征, 手指不存在绕该指指根关节与手肘连线所在直线的自旋转运动.综上所述, 本文基于手势的几何特性和时间空间连续性的角度, 提出了动态手势的4个特征表示. 动态手势运动的过程包括整只手在空间中的全局运动(即手在空间中的平移运动、旋转运动)和手内部手指的局部运动(即手内部手指的平移运动、旋转运动). 具体表示如下:(1) 手在空间中的平移运动.手在空间中的移动过程通过前后2帧手中心1496计算机辅助设计与图形学学报 第32卷点(关节点1)的距离刻画, 即1,11,1j j j j T T --=--W W .(2) 手在空间中的旋转运动.手在空间中的翻转信息通过前后2帧之间的手主方向向量距离刻画, 本文中手的主方向定义为10-W W , 翻转信息表示为1,0,1011,,1j j j j j j P P ---=----W W W W . (3) 手内部手指的平移运动.手指的平移运动则利用手指指尖相对距离特征刻画. 为避免因关节段之间旋转角度信息作为特征而出现旋转误差累积的现象, 本文提取手指相邻指尖之间的距离和手指指尖相对于手腕的距离作为手指平移特征, 具体表征为手指相邻指尖之间的距离094D =-W W ,1139D =-W W , 21713D =-W W ,32117D =-W W ,以及手指指尖相对于手腕的距离440D =-W W ,590D =-W W ,1630D =-W W , 1770D =-W W ,2810D =-W W .(4) 手内部手指的旋转运动.手的弯曲变化利用手部关节之间的旋转四元数刻画, 以00001111(,,)(,,)x y z x y z V V 关节段之间的四元数为例, 可得四元数中的旋转角度特征为Q = 01cos(arccos()/2)⨯V V .2.3 动态手势关键帧提取 2.3.1 手势距离函数为了有效提取动态手势的关键帧, 融合手势全局运动和手指局部运动的4个特征表示, 本文提出了一种手势距离函数, 并通过对手势距离进行排序选取动态手势中特征变化显著的手势帧作为关键帧, 即产生运动突变的帧作为手势关键帧. 定义一个动态手势前后2帧之间的距离为1381,,12,,103141()()()(),1,,j i j i j k j k j i k j j j j L Q Q D D P P T T j S E λλλλ--==--=-+-+-+-=+∑∑ (2)其中动态手势起始帧序号为S , 结束帧序号为E .实验中参数取1234=100, =1, =1, =1λλλλ. 2.3.2 关键帧分段提取对于动态手势视频序列, 若直接选取手势距离函数最大的前k 帧作为关键帧, 容易出现关键帧全是邻近帧的情况, 如对于图2所示的有效帧为第44~66帧的向上滑动的手势动态序列, 直接利用手势距离函数提取出的关键帧为第52~56帧, 这些关键帧全是邻近帧, 从而无法有效地表示整个手势过程. 为方便观察, 以深度图为例, 如图2所示, 图中显示不经过分段直接提取手势关键帧时出现严重信息冗余, 且不包含起始手势, 丢失了动态手势的完整信息. 为了避免信息冗余和保持手势的完整性, 需要考虑分段提取动态手势的关键帧.a. 输入的动态手势视频帧b. 提取的动态手势关键帧图2 不分段提取的手势关键帧第9期缪永伟, 等: 融合手势全局运动和手指局部运动的动态手势识别 1497在采用分段提取动态手势关键帧中, 假设手势起始帧为S F , 结束帧为E F , 则整个有效手势可表示为,}{,S E F F . 若提取k 帧关键帧则可将整个手势均匀分成k 段, 经分段后手势段I 为1(1){{,,},,{,,}}S S d S k d E +-+-⋅=F F F I F (3) 其中, (1)/d E S k -+⎢⎥⎣⎦=. 然后在每个手势段内选取距离函数式(2)最大的帧作为该段关键帧.本文数据集删除无效帧后帧数范围为7~149帧, 可选取的关键帧帧数范围较广. 为不失一般性, 考虑人体动作识别视频序列长度与手势动作的差异性, 通过手势识别准确率的对比实验选取关键帧帧数为31帧. 最后, 为保证手势完整性, 添加手势起止帧作为关键帧. 若起始帧(结束帧)已经包含在关键帧中则选取该帧的邻近帧, 即后1帧或前1帧取代该帧, 并添加起止帧. 算法步骤如下.算法1. 关键帧提取算法.输入. 动态手势的22个关节点3D 坐标信息. 输出. 该动态手势的k 帧关键帧.Step1. 根据手势起止帧, 删除手势无效帧{}{}1,,,S E N ''←F F F F .Step2. 补全手势帧{}{},,,,S E S E ''←F F F F .Step3. 利用式(1)对每一帧的关节长度进行归一化, 得到归一化后关节点位置信息,,0,1,,21,i j i S j E =≤≤W .Step4. 将动态手势按照式(3)进行分段.Step5. 根据式(2)计算视频段内前后2帧距离j L . Step6. 在每个视频段中分别选取具有最大距离的帧作为其关键帧,,,m m m F F F .Step7. 加入手势起止帧S F 和E F , 最终得到动态手势的关键帧为,,,,,S m m m E F F F F F .以抓取手势为例, 说明本文中关键帧提取的有效性. 图3a 给出了抓取手势中的每隔5帧手势深度图, 分别对应第10帧、第15帧、第20帧、第25帧、第30帧、第35帧、第40帧、第45帧手势图; 图3b 给出了利用算法1提取的抓取手势的关键帧, 分别对应第10帧、第17帧、第22帧、第31帧、第38帧、第40帧、第45帧手势图, 可以看出利用分段提取动态手势的关键帧能够有效地表示手势的完整变化过程.a. 每隔5帧的手势深度图b. 分段提取的手势关键帧图3 抓取手势的关键帧提取本文采用的动态手势关键帧提取算法包含手势数据预处理、手势分段、手势帧距离计算等, 由于手势帧数的不同, 其关键帧提取时间也不尽相同. 表1给出了对不同手势帧帧数统计其关键帧提表1 关键帧提取时间统计手势帧帧数平均时间/s0~31 0.0032~40 40.1541~50 41.8951~60 42.25 61~70 46.07 >70 74.63取的平均时间列表. 当手势帧帧数不超过31帧时, 仅需补全手势帧, 不计关键帧提取时间; 随着手势帧帧数的增多, 关键帧提取时间变长. 本文中的关键帧提取实时性较低, 在未来工作中将探讨如何进一步提高关键帧提取的实时性.2.4 动态手势识别和分类 2.4.1 手势特征融合由于本文提出的融合手势全局运动和手指局部运动的特征将共同表征一个动态手势, 类似于Luvizon 等[18]将特征进行融合的思路, 本文将特征进行联接融合为单个手势的m 维特征向量=Y 1,],[ m y y . 在含有N 个样本的数据集中分别得到1498计算机辅助设计与图形学学报 第32卷N 个手势特征向量为,1,,[],1,2,,,. m i i i y y i N ==Y对特征向量中各维特征分别归一化,,i j ji j jf f f σ-=.其中, ,1/;N j i j j i f f N σ===∑ 从而得到N 个手势的归一化特征向量为,1,[], ,,,,1,2i i i m f f i N ==F .2.4.2 手势特征降维对于SVM 来说, 本文的样本特征向量维数过多, 在动态手势关键帧中存在信息冗余. 为了使变量相互独立并去除手势特征中的噪声, 同时考虑样本中存在的类别标签, 这里采用监督降维中的LDA 方法进行特征降维. 该方法降维原理如下: 同类数据应尽可能接近, 不同类别的数据应尽量远离, 即投影后类内方差最小, 类间方差最大. 本文在降维过程中, 充分利用手势类别的先验知识. 将手势特征映射到一个低维空间中, 该过程充分利用了手势类别的信息, 使得不同类别手势间的特征方差最大, 同一类别手势间的特征方差最小, 方便进行手势识别和分类.2.4.3 基于带高斯核SVM 的手势识别和分类与其他机器学习分类方法相比, SVM 理论避开了高维空间的复杂性并直接利用核函数向高维空间进行映射, 再利用线性可分情况下的求解方法直接求解对应的高维空间决策问题. 当核函数已知时可以简化高维空间问题的求解难度. 同时SVM 有很好的理论基础, 不涉及概率测度, 最终的决策函数也只由少量的支持向量决定, 计算复杂度取决于支持向量的数目, 而不是样本空间的维数, 从而避免了维数灾难.本文采用带高斯核的SVM 实现对动态手势的识别和分类. 该方法能根据有限样本信息找到特定训练样本的学习精度与学习能力之间的折中, 在解决小样本、非线性和高维识别方面具有优势.3 实验结果与分析本文实验平台为Intel Core i5-7500, 4 GB RAM, 操作系统为Windows10 64位. 本文基于手部关节点的3D 坐标信息, 通过确定起止帧、删除手势无效帧; 然后进行关节长度归一化以消除个体差异性, 提取手势关键帧, 再分别提取手在空间中的全局运动和手内部手指的局部运动特征, 并进行特征融合和LDA 降维; 最后利用带高斯核的SVM 进行动态手势识别与分类.3.1 实验数据集本文方法所采用的数据集是DHG-14/28动态手势数据集[3], 该数据集中包含有14类动态手势类别, 如表2所示, 并以2种方式执行手势: 只用一个手指的方式和整个手的方式. 每个手势由20名参与者以上述2种方式完成, 每个执行方式各完成5次, 共2 800个动态手势序列. 14种手势中5种为Fine 类手势, 9种为Coarse 类手势. 同时, 数据集中不仅包含动态手势视频帧深度图像, 还包含2D 深度图像中和3D 空间中的22个手部关节坐标, 其中深度图像分辨率为640×480, 深度图和手骨架均以30帧/s 的速度拍摄获取.表2 数据集中包含的手势类别序号 手势类别1 Grab(抓取) Fine2 Expand(展开) Fine3 Pinch(抓紧) Fine4 Rotation CW(顺时针旋转) Fine5 Rotation CCW(逆时针旋转) Fine6 Tap(轻敲) Coarse7 Swipe right(向右滑动) Coarse8 Swipe left(向左滑动) Coarse 9Swipe up(向上滑动) Coarse10 Swipe down(向下滑动) Coarse 11 Swipe X(在空中画X) Coarse 12 Swipe V(在空中画V) Coarse 13 Swipe +(在空中画+) Coarse14 Shake(摇手) Coarse3.2 手势关键帧帧数的确定需要说明的是, 在动态手势关键帧提取中首先需要确定手势关键帧帧数, 选取合适的关键帧帧数将影响手势的识别准确率. 本文对比手势识别准确率, 对不同关键帧帧数k 值进行实验分析. 如图4所示, 随着关键帧帧数的增加, 手势识别准确率有所上升且趋于稳定; 当关键帧帧数大于31时, 手势识别准确率趋于下降. 从图5可以看出, 对于DHG-14/28动态手势数据集[3]中28种手势,关键帧帧数31k =时, 手势识别准确率为88.29%, 达到最高. 实验表明, 若关键帧帧数较少, 则同一种手势的关键帧选取可能具有较大差异性, 导致手势识别准确率较低. 因此, 为了提高手势识别准。

基于SVM的Leap Motion手势识别

基于SVM的Leap Motion手势识别

基于SVM的Leap Motion手势识别马淑慧;夏斌;杨文璐;谢宏【摘要】随着互联网行业的迅速发展,人们对人机交互的需求也日益剧增.手势作为人机交互的重要组成,其识别技术的研究在人机交互领域有关重要的理论和实用价值.采用Leap Motion体感器作为手势提取工具,获取12种手势在三维空间中的位置信息,进而提取相应的特征值.采用机器学习的方法,对获取手势数据进行识别,分析不同机器学习方法对手势识别率的影响.采用SVM的算法进行识别率分析,分别采用两种方法实现SVM手势识别,一对一模型训练法和一对多模型训练法.实验结果表明,采用这两种方法都可以获得较高的识别准确率.【期刊名称】《现代计算机(专业版)》【年(卷),期】2017(000)023【总页数】4页(P55-58)【关键词】LeapMotion;手势识别;机器学习;SVM【作者】马淑慧;夏斌;杨文璐;谢宏【作者单位】上海海事大学信息工程学院,上海 201306;上海海事大学信息工程学院,上海 201306;上海海事大学信息工程学院,上海 201306;上海海事大学信息工程学院,上海 201306【正文语种】中文随着互联网行业的迅速发展,人们对人机交互的需求也日益剧增。

手势作为人机交互的重要组成,其识别技术的研究在人机交互领域有关重要的理论和实用价值。

采用Leap Motion体感器作为手势提取工具,获取12种手势在三维空间中的位置信息,进而提取相应的特征值。

采用机器学习的方法,对获取手势数据进行识别,分析不同机器学习方法对手势识别率的影响。

采用SVM的算法进行识别率分析,分别采用两种方法实现SVM手势识别,一对一模型训练法和一对多模型训练法。

实验结果表明,采用这两种方法都可以获得较高的识别准确率。

上海市科学技术委员会项目(No.12441903500)在人机交互领域中,传统的人机交互方式,如鼠标、键盘、遥控等,具有非常大的局限性,使得人机交互受到很大的限制。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

cnt c teMo o ioyI ae( o s ut t nH s r m g MHI n m rvdM t nE eg ae(ME )t d t miete r h i t )adI poe oi n r I g I I o e r n o ym e h
i ta a tfa so fe th n t f s d l s r me fef c a d mo in.Ex e i n h wsta h a o i p t 0% .Th sp p rgv s r n o p rme ts o tt er t su o9 h i i a e ie
Z HANG a — o g I n ,L Jn g n C ih n ,L U He g V i— a g
(colfI om tnE gnen , otws U irt o Si c n eho g , Sho o n rai ni r g Suh e nv syf c neadTcnl y f o ei t e i e o
9 % a d g su e it r cin i n t r la d s o . 6 n e t r n e a t s au a n mo t o h Ke r s y wo d :C lrp o a i t p oo rb b l y ma ;Mo o i o ma e i i t n h s r i g ;Mo o n r ma e;I g a i n e tr ty i t ne eg i g y ma e g d e t co r v
a poe aega i t et I V)t rcg i etrs I V g e ercgio t pt ni rvdi g r e c r(I m m d nv o G o eonz gs e.I v s h o t nr i i u e u G i t e n i ao s o
中图分类号 :P 9 . T 3 14
运动能量图 图像梯度 向量算法
文章编号 :6 1 75 2 1 ) 1 0 4 0 17 —85 (0 2 0 — O 4— 4
文献标志 iin Ba e n I f r t n F so su e Die t n Re o n t s d o n o ma o u in i o i a d Efe t e M o in Do an S g e t n f c v t m i e m n i o
Mi y n 2 0 0 S h a ,C ia a a g6 1 1 , i u n h ) n e n
Ab t a t n g su e r c g i o s r c :I e t r e o n t n,h n e me ta d t e f s rme o a d mo o r w r b e . I i a d s g n n h i tf r a fh n t n a e t o p o lms n i
MH , 断手势运 动方 向 。 I推
1 肤色概率 图
首 先 建立 肤色 与 非肤 色样 本 库 , 本 图片来 源 样 于 网络 、 数码相 机 照 片等 , 合 考 虑 了不 同光 照、 综 背
随着计 算 机技 术 的发 展 , 机交 互 技术 的研 究 人 异 常活跃 。在 人机 交互 中 , 势 识别 是 新 一代 人 机 手 交 互不 可缺少 的一项 关键技 术 。所 谓手 势识别 是指 计 算 机 根 据 手 和 胳 膊 的 运 动 轨 迹 识 别 出 它 的 含 义 … 。手 势识 别 可 用 于 智 能 家 居 环 境 下 对 家 电 的
h s pa e ,s i ma e c mbie t a t n i fr to n o d rt e e tt eha d r go t i p r k n i g o n swih h nd mo i n oma n i r e os g n n e in.Th n, o i m h e

种基 于信息融合与运动域分割 的 手势 运 动 方 向识 别 方 法
张彩红 刘 恒 吕金 刚
四川绵阳 6 1 1 ) 2 0 0 ( 西南科技大学信息工程学院
摘要 : 手势识别 中, 的分割是个难题外 , 除手 在视频流 中, 手势有效动作起止帧的判定也是一个 急待解决 的问题 。将 图像的肤色与运动信息结合 , 分割出手 , 建立手势运 动的历史 图( oo io ae M I , 出了一种 M-与改 M tnHs rI g, H )提 i ty m I I I
第2 7卷 第 1 期 2 1 3月 0 2年
西







V0 . 7 No 1 12 .
Ma. r 201 2
Jun l fS uh etUnv ri fS ine a dT c n lg o ra o tw s iest o ce c n e h oo y o y
进的运动能量图(mpoe t nE eg aeI I 结合的机制 , I rvdMoo nryI g , i m ME ) 判定有效手势运动 的起止帧 , 后建立有效手势 最 运动的 MH ; I同时提 出改进 图像梯度 向量算法用于手势运 动方 向( , , , ) 上 下 左 右 识别 。实验 表明 , 于有效手势运 对 动起止帧的正确判断率一般可达 9 % 以上 , 0 有效手势识别率达 9 %以上 , 6 手势交互 自然顺 畅。 关键词 : 色概率 图 运动历史图 肤
相关文档
最新文档