一种基于深度学习的静态手势实时识别方法

合集下载

基于DTW算法的手势识别技术研究

基于DTW算法的手势识别技术研究

基于DTW算法的手势识别技术研究手势识别技术近年来得到了广泛的应用和迅猛的发展。

手势识别技术可以将人类的自然语言和手势转化成为计算机可以识别处理的数字信息,从而实现人机交互的自然化和智能化。

在生活中,我们可以利用手势识别技术控制手机或电脑的操作,进行语音输入、翻页、拍照等等,降低人与机器之间的交互门槛。

在手势识别技术中,基于动态时间规整(DTW)算法的手势识别技术具有广泛的应用前途和优势。

DTW算法是一种时间序列相似度度量方法,可以解决时间序列对齐、相似度比较、模式识别等多种实际问题。

在手势识别中,DTW算法可以将一些无序和连续的手势动作形成一个序列,然后通过DTW算法,将不同的手势序列进行时间对齐,并比较其相似度,从而实现手势识别的目的。

DTW算法的基本原理是:对于两条时间序列,设第一条时间序列为X=(x1,x2,......,xn),第二条时间序列为Y=(y1,y2,......,ym),其长度分别为n和m。

DTW算法的目标是将X序列对齐到Y序列中,在对齐时要求每个时间点上的距离之和最小。

具体实现中,DTW算法可以分为两个步骤:第一步是通过一个动态规划的过程,构建一个距离矩阵D(i,j),表示第一个序列中第i个元素和第二个序列中第j个元素之间的距离。

第二步是寻找一条从D(1,1)到D(n,m)的最小路径,使得路径上的点对应的距离之和最小。

通过这个路径,DTW算法可以得到X序列对齐到Y序列中时最小的时间差距,从而认为这两个序列是相似的。

基于DTW算法的手势识别技术的实现主要包括三个方面:手势数据采集、手势数据处理和手势识别分类。

在手势数据采集方面,我们需要用相机或者传感器等设备采集人类手势行为的动态信息,获得手势动作序列。

在手势数据处理方面,我们需要对原始的手势动作序列进行预处理,包括数据归一化、滤波处理等。

在手势识别分类方面,我们需要利用训练好的分类器,将预处理后的手势序列与训练集中的手势样本进行比较,并识别出相应的手势类型。

手势2d关键点检测算法综述

手势2d关键点检测算法综述

手势2d关键点检测算法综述
手势2D关键点检测算法是指通过计算机视觉技术,从给定的图像或视频中检测出手势的关键点或关键区域位置。

这些关键点可以表示手势的主要特征和姿势,广泛应用于手势识别、手势控制等领域。

以下是几种常见的手势2D关键点检测算法:
1. 传统计算机视觉算法:传统的计算机视觉算法通常采用特征提取和模式匹配的方法。

例如,使用边缘检测算法检测手势的轮廓,然后提取手势的关键点或特征点。

2. 基于深度学习的方法:近年来,随着深度学习的发展,基于卷积神经网络(CNN)的方法在手势2D关键点检测中取得了显著的进展。

这些方法通常通过训练一个CNN模型,将输入的图像映射到关键点的坐标。

3. 基于姿态估计的方法:手势2D关键点检测可以看作是人体姿态估计的一个特殊情况。

因此,一些姿态估计算法也可以用于手势2D关键点检测。

这些方法通常通过将手势视作一个人体的部分,使用CNN等方法来估计手势的关节位置。

4. 基于手工设计的特征:除了深度学习方法外,一些基于手工设计特征的方法也被用于手势2D关键点检测。

例如,利用颜色、纹理等图像特征来检测手势关键点。

总的来说,手势2D关键点检测算法在计算机视觉领域有着广
泛的研究和应用。

随着深度学习方法的不断发展,越来越多的基于深度学习的方法被应用于手势2D关键点检测,并取得了较好的效果。

如何运用计算机视觉技术进行手势识别与追踪

如何运用计算机视觉技术进行手势识别与追踪

如何运用计算机视觉技术进行手势识别与追踪手势识别与追踪是计算机视觉技术中的重要应用领域。

通过使用摄像头或其他传感器来捕捉手势动作,并将其转化为计算机可识别的数据,可以实现与计算机的非接触式交互。

本文将介绍如何运用计算机视觉技术进行手势识别与追踪。

一、手势识别技术的分类手势识别技术主要分为两类:基于传感器和基于图像。

基于传感器的手势识别技术使用专门的传感器来捕捉手势动作,如手部的位置、方向和速度等信息。

而基于图像的手势识别技术则使用摄像头来捕捉手势动作所对应的图像,并通过图像处理算法进行分析和识别。

二、基于图像的手势识别与追踪1. 手势图像采集:首先需要使用摄像头来捕捉手势动作的图像。

为了提高准确性和鲁棒性,可以考虑使用双摄像头或深度摄像头来获取更多的深度信息。

2. 手势图像预处理:对于捕捉到的手势图像,需要进行预处理以提取特征并减少噪声。

常用的预处理步骤包括图像增强、滤波、边缘检测和阈值化等。

3. 手势特征提取:通过对预处理后的手势图像进行特征提取,可以将手势动作转化为计算机可识别的数据。

常用的手势特征包括手部的位置、角度、方向和轨迹等。

4. 手势识别与分类:在手势特征提取的基础上,使用机器学习算法或深度学习方法对手势进行识别和分类。

常用的机器学习算法包括支持向量机(SVM)、随机森林和卷积神经网络(CNN)等。

5. 手势追踪与跟踪:一旦手势被成功识别,可以使用追踪算法来实现对手势的实时追踪。

常用的追踪算法包括卡尔曼滤波、粒子滤波和相关滤波等。

三、手势识别技术的应用手势识别技术在许多领域都有广泛的应用。

以下是一些常见的应用场景:1. 人机交互:手势识别技术可以实现与计算机或其他设备的非接触式交互,例如手势控制电视、智能手机或游戏控制器等。

2. 虚拟现实和增强现实:手势识别技术可以用于虚拟现实和增强现实中,使用户能够通过手势控制虚拟物体或与虚拟环境进行交互。

3. 医疗保健:手势识别技术可以用于医疗保健领域,实现对手势动作的分析和评估,例如康复训练和运动分析等。

基于改进GhostNet的轻量级手势图像识别方法

基于改进GhostNet的轻量级手势图像识别方法

浙江理工大学学报,第49卷,第3期,2023年5月J o u r n a l o f Z h e j i a n g S c i -T e c h U n i v e r s i t yD O I :10.3969/j.i s s n .1673-3851(n ).2023.03.003收稿日期:2022-10-31 网络出版日期:2023-01-16基金项目:国家自然科学基金项目(51405448);浙江省教育厅一般科研项目(Y 202250600);浙江省大学生科技创新活动计划大学生科技创新项目(2022R 406A 014)作者简介:田秋红(1976- ),女,辽宁兴城人,教授,博士,主要从事机器学习㊁模式识别和图像处理与识别方面的研究㊂基于改进G h o s t N e t 的轻量级手势图像识别方法田秋红,孙文轩,章立早,施之翔,潘 豪,吴佳璐(浙江理工大学计算机科学与技术学院,杭州310018) 摘 要:卷积神经网络应用于复杂背景的手势图像识别时,存在深层模型参数量大㊁计算成本高㊁轻量级模型准确率低等问题,针对这些问题提出了一种基于改进G h o s t N e t 的轻量级手势图像识别方法㊂首先,在G h o s t 模块中添加通道混洗操作,建立C S -G h o s t 模块以提取手势图像中的手势特征;然后,选用S M U (S m o o t h i n g ma x i m u m u n i t )激活函数优化模型在反向传播中的学习能力;最后,使用注意力机制中的轻量级通道注意力模块E C A 去除特征中的噪声信息㊂该方法在A S L 和N U S -Ⅱ数据集上的实验平均准确率分别为98.82%和99.36%;在O U H A N D S 数据集上的实验平均准确率为97.98%,参数量为1.2M i ,F L O P s 为0.29G i㊂实验结果表明该方法参数量小,计算成本低,可有效提高手势图像识别的准确率㊂关键词:手势图像识别;卷积神经网络;轻量级模型;注意力机制;激活函数中图分类号:T P 181文献标志码:A文章编号:1673-3851(2023)05-0300-10引文格式:田秋红,孙文轩,章立早,等.基于改进G h o s t N e t 的轻量级手势图像识别方法[J ].浙江理工大学学报(自然科学),2023,49(3):300-309.R e f e r e n c e F o r m a t :T I A N Q i u h o n g ,S U N W e n x u a n ,Z H A N G L i z a o ,e t a l .L i g h t w e i g h t g e s t u r e i m a g e r e c o gn i t i o n m e t h o d b a s e d o n i m p r o v e d G h o s t N e t [J ].J o u r n a l o f Z h e j i a n g S c i -T e c h U n i v e r s i t y,2023,49(3):300-309.L i g h t w e i g h t g e s t u r e i m a g e r e c o g n i t i o n m e t h o d b a s e d o n i m pr o v e d G h o s t N e t T I A N Q i u h o n g ,S U N W e n x u a n ,Z H A N G L i z a o ,S H I Z h i x i a n g ,P A N H a o ,W U J i a l u (S c h o o l o f C o m p u t e r S c i e n c e a n d T e c h n o l o g y ,Z h e j i a n gS c i -T e c h U n i v e r s i t y ,H a n gz h o u 310018,C h i n a ) A b s t r a c t :W h e n c o n v o l u t i o n a l n e u r a l n e t w o r k i s a p p l i e d t o t h e r e c o g n i t i o n o f g e s t u r e i m a ge s w i t h c o m p l e x b a c k g r o u n d s ,t h e d e e p m o d e l h a s a l a r g e n u m b e r of p a r a m e t e r s a n d h igh c o m pu t a t i o n a l c o s t ,a n d t h e a c c u r a c y o f t h e l i g h t w e i g h t m o d e l i s l o w .T o s o l v e t h e s e p r o b l e m s ,a l i g h t w e i g h t g e s t u r e i m a ge r e c o g n i t i o n m e t h o d b a s e d o n i m p r o v e d G h o s t N e t w a s p r o p o s e d i n t h i s p a p e r .F i r s t l y ,c h a n n e l s h uf f l i n go p e r a t i o n w a s a d d e d t o t h e G h o s t m o d u l e ,a n d t h e C S -G h o s t m o d u l e w a s d e s i gn e d t o e x t r a c t g e s t u r e f e a t u r e s f r o m g e s t u r e i m a g e s .T h e n ,S M U (s m o o t h i n g ma x i m u m u n i t )w a s s e l e c t e d t o a c t i v a t e t h e f u n c t i o n t o o p t i m i z e t h e l e a r n i n g ab i l i t y o f t h e m o d e l i n t h e b ac k p r o p a g a t i o n .F i n a l l y ,t h e l i g h t w e i gh t c h a n n e l a t t e n t i o n m o d u l e E C A i n t h e a t t e n t i o n m e c h a n i s m w a s u s e d t o r e m o v e t h e n o i s e i n f o r m a t i o n i n t h ef e a t u r e .T h e e x p e r i m e n t a l a v e r ag e a c c u r a c y o f th e p r o po s e d m e t h o d o n A S L a n d N U S -Ⅱd a t a s e t s a r e 98.82%a n d 99.36%,r e s p e c t i v e l y .T h e e x p e r i m e n t a l a v e r a g e a c c u r a c y on t h e O U H A N D S d a t a s e t i s 97.98%,t h e p a r a m e t e r q u a n t i t y i s 1.2M i ,a n d t h e F L O P s i s 0.29G i .T h e e x pe r i m e n t a l r e s u l t s s h o w Copyright ©博看网. All Rights Reserved.t h a t t h e p r o p o s e d m e t h o d h a s s m a l l p a r a m e t e r s,l o w c o m p u t a t i o n a l c o s t,a n d e f f e c t i v e l y i m p r o v e s t h e a c c u r a c y o f g e s t u r e i m a g e r e c o g n i t i o n.K e y w o r d s:g e s t u r e i m a g e r e c o g n i t i o n;c o n v o l u t i o n n e u r a l n e t w o r k;l i g h t w e i g h t m o d e l;a t t e n t i o nm e c h a n i s m;a c t i v a t i o n f u n c t i o n0引言手势是一种自然形态的交互方式,表达意义丰富;手势图像识别在人机自然交互中可以为用户提供更加真实的交互体验[1]㊂近年来,手势图像识别在机器控制㊁虚拟现实和辅助驾驶等领域中发挥着重要的作用㊂现有手势图像识别任务的解决方法主要分为基于机器学习技术的传统方法和基于卷积神经网络为主的深度学习方法[2]㊂传统手势图像识别方法针对特定数据集,人工设计手势特征进行手势建模[3]㊂T i a n等[4]使用Y C b C r特征提取出有效的手臂区域,并使用S V M 分类器进行手势分类;该方法对简单背景的手势图像识别准确率较高,在复杂背景的手势图像中识别效果较差㊂S a d e d d i n e等[5]提出了一种基于梯度局部自相关描述符㊁G a b o r小波变换和快速离散曲线变换的静态手势识别方法,识别率达94%㊂以上方法采用的特征易于提取,但提取特征较为单一,复杂手势图像的识别准确率不高㊂为了提高手势识别的准确率,一些学者采用更丰富的手势特征,并通过特定机器学习方法进行手势图像识别㊂杨述斌等[6]提取手势图像中的H O G特征并进行P C A降维,再将特征归一化处理,识别准确率高于一般机器学习方法㊂以上传统手势图像识别的方法需要对特征进行针对性调整,且容易受到背景与光照等因素的影响,要求数据集中手势动作简单,背景噪声较小,难以推广使用㊂近年来,深度学习在图像识别领域有着广泛的应用,其中卷积神经网络(C o n v o l u t i o n a l n e u r a l n e t w o r k,C N N)由于其无需人工设计特征受到了广泛关注㊂P a r d a s a n i等[7]将C N N应用到机器人上,识别人类的简单手势,在美国手语数据集上达到85%的准确率㊂K h o t i m a h等[8]使用C N N对动态和静态两个场景的手势进行分类,平均准确率为89%㊂以上两种方法通过简单的C N N实现了手势图像识别,但准确率不高,因此一些学者使用更复杂的模型进行识别㊂K w o l e k等[9]提出了一种基于生成性对抗网络和R e s N e t模型的方法对日本手语图像进行分类㊂X i e等[10]使用I n c e p t i o n V3模型对表达24个英文字母的手势数据集进行分类,采用两阶段训练策略对模型进行微调,准确率达到91.35%㊂T a o等[11]提出了一种利用C N N进行多视角增强的手语识别方法,该方法具有较高的识别精度,但模型的计算成本较高㊂S i n g h等[12]构建了基于V G G16的手势图像识别系统,该系统对手势图像的识别率为96.7%㊂以上使用复杂C N N的方法能够提升手势图像识别的准确率,但随着网络加深,模型的计算成本越来越高,为了加快模型识别速度,一些学者采用轻量级模型进行手势图像识别㊂辛文斌等[13]提出了一种S h u f f l e N e t v2作为主干网络的Y O L O v3模型,同时采用C B A M模块优化特征提取,能够得到较快的识别速度㊂W a n g等[14]提出了一种改进的轻量级模型E-M o b i l e N e t v2进行手势图像识别,准确率达到了96.82%,并且减少了30%的参数量㊂A n s a r i等[15]提出了一种使用M o b i l e N e t V2与S S D 相结合的方法进行手势图像识别,大幅减少了模型计算成本,但识别的准确率只有44.7%㊂上述基于轻量级模型的方法能够有效降低计算成本,但提取到的特征不够丰富且存在较多的噪声信息,手势图像识别的准确率较低㊂为了提高轻量级模型在手势图像识别任务中的准确率,本文提出了一种基于改进G h o s t N e t的轻量级手势图像识别方法㊂该方法在G h o s t模块的基础上加入通道混洗操作,设计了能够对不同通道的特征进行重新分配的C S-G h o s t(C h a n n e l s h u f f l e g h o s t)模块㊂该模块可以增强通道间的信息交流从而提取丰富的特征信息;同时,采用S M U激活函数避免R e L U函数中的神经元死亡问题,加强模型在训练过程中的特征学习能力;最后,使用轻量级通道注意力模块E C A去除特征中的噪声信息,以增强有效特征的表达能力㊂本文提出方法对G h o s t N e t 结构进行优化,在减少计算成本的同时,进一步提高手势图像识别的准确率㊂1方法设计对于包含特定手势的图像,手势图像识别任务需要理解图像内容,排除背景干扰,强化手势特征并准确识别出手势类型㊂本文建立了轻量级模型C S-G h o s t N e t,对复杂手势图像中的手势进行分类㊂首先,在G h o s t模块中加入通道混洗操作,设计了C S-G h o s t模块,该模块能够提取更丰富的手势特征;其103第3期田秋红等:基于改进G h o s t N e t的轻量级手势图像识别方法Copyright©博看网. All Rights Reserved.次,使用C S -G h o s t 模块和S M U 激活函数搭建C S -G h o s t 瓶颈层,增强模型的学习能力;然后,利用E C A 模块减少特征中的噪声信息;最后,构建出C S -G h o s t N e t 模型,实现手势图像识别㊂1.1 网络结构C S -G h o s t N e t 网络结构示意图如图1所示,该模型建立在G h o s t N e t 的基础上,网络结构为:首先使用一层卷积层提取尺寸为224ˑ224ˑ3的手势图像特征;再将特征输入10层C S -G h o s t 瓶颈层和6个C S -G h o s t -E C A 模块中,输出尺寸为7ˑ7ˑ160的特征到卷积层中;接着经过一层平均池化层㊁一层卷积层和一层全连接层,最终得到形状为1ˑ1ˑ1280的特征进行手势分类㊂C S -G h o s t -E C A 模块由C S -G h o s t 瓶颈层和E C A 模块组合得到,具体结构如图1所示㊂为了减少E C A 模块对模型增加的计算成本,本文只使用6个C S -G h o s t -E C A 模块㊂其中5个模块在传递过程中改变特征尺寸,该操作可以有效利用E C A 模块的注意力机制增强手势特征表达能力,第6个C S -G h o s t -E C A 模块用于在分类前强化手势特征,增强模型的分类能力㊂图1 C S -G h o s t N e t 网络结构示意图1.2 C S -G h o s t 模块手势图像中会存在一些非手势的干扰物品,卷积操作会从图像中提取出手势特征和非手势特征㊂为了强化其中的手势特征,需要将同一手势的多幅图像输入网络进行训练,这种操作会产生大量的特征图㊂H a n 等[16]发现,在特征图中存在部分相似的特征,这些相似特征可增强模型对输入数据的理解程度,有助于提升模型的准确率;但这些相似特征在卷积过程中产生的冗余映射会消耗大量计算资源㊂为了减少冗余映射带来的计算量,目前普遍采用轻量级模型G h o s t N e t 通过简单的线性操作生成特征图㊂G h o s t N e t 由多个G h o s t 模块组成,G h o s t 模块的具体结构如图2(b )所示,每个G h o s t 模块通过三步操作获得与普通卷积一样数量的特征图㊂第一步操作是少量卷积,相对图2(a )中的普通卷积操作,少量卷积只使用相当于普通卷积一半数量的卷积核,减少了一半的计算量;第二步,对特征图进行廉价操作ϕ,其中ϕ1,ϕ2, ,ϕm 表示对m 个通道中的特征图逐个进行线性变换,线性变换会选择计算成本低的深度可分离卷积操作;第三步,对恒等映射后的特征图和线性变换后的特征图进行拼接,得到最终的输出特征㊂在G h o s t 模块中会生成两组特征图,其中第二组特征图由第一组特征图通过线性变换得到㊂由于两组特征图中存在较多的相似特征且通道结构一致,模型在训练的过程中只能学习到其中一组特征图的主要信息,而另一组信息被忽略㊂因此,本文设计了C S -G h o s t 模块,使用S h u f f l e N e t V 2[17]中的通道混洗操作来增强两组特征图不同通道之间的信息交流,具体结构如图2(c )所示㊂其中通道混洗操作是在通道的层面上打乱特征的顺序,首先假设一组特征图中有N 个特征通道,将其看作一个(1,N )的一维数组并重塑成(g ,N /g )的多维数组,其中g 为分组的数量,值为2;然后对多维数组进行转置,构成(N /g ,g )的数组;最后对其进行重塑,将特征数组变回(1,N ),完成通道混洗操作㊂通过打乱特征通道的位置顺序,C S -G h o s t 模块能够同时学习到两组特征图的信息,从而提升模型的特征提取能力㊂1.3 基于S M U 激活函数的C S -G h o s t 瓶颈层 R e L U 激活函数具有快速的收敛能力㊂R e L U 函数对负的特征值直接归零,特征值在原点不可微的特性使得下一层出现更多的负值特征,最终超过50%的神经元在模型训练期间死亡㊂相比R e L U 函数,S M U 函数在原点处可微,在模型训练时能够203浙江理工大学学报(自然科学)2023年 第49卷Copyright ©博看网. All Rights Reserved.图2 普通卷积㊁G h o s t 模块和C S -G h o s t 模块结构示意图更加平滑地传递特征到下一层,有效避免R e L U 函数导致的神经元死亡问题㊂应用S M U 函数的模型可以在训练过程中更好地从手势图像中学到手势特征㊂因此,为了提升模型在训练时的稳定性,本文选用S M U 激活函数[18]代替R e L U 函数,该函数的公式可用式(1)表示:f S M U (x )=(1+a )x +(1-a )x ㊃e r f (u (1-a )x )2(1)其中:a 是一个超参数,默认值设为0.25;u 是一个可训练参数,初始化值为1000000;e r f ()是高斯误差函数,定义为:e rf (x )=2πʏx 0e -t 2d t (2) 本文参照R e s N e t 中的残差结构[19],通过C S -G h o s t 模块和S M U 激活函数构建C S -G h o s t 瓶颈层,如图3所示㊂C S -G h o s t 瓶颈层分为步长为1和步长为2两种结构,每种结构主要由两个C S -G h o s t模块组成㊂对于步长为1的C S -G h o s t 瓶颈层,在第一个C S -G h o s t 模块后添加一个批量归一化层(B N )和一个S M U 激活函数;同时根据M o b i l e N e t V 2[20]的建议,在第二个C S -G h o s t 模块后使用一个批量归一化层而不使用激活函数,以避免信息损失;最后使用A d d 操作将输入特征与经过两个C S -G h o s t 模块后的特征进行相加,得到输出特征㊂对于卷积步长为2的C S -G h o s t 瓶颈层,需要使用步长为2的深度可分离卷积(D e p t h w i s e s e pa r ab l ec o n v o l u t i o n s ,D W C o n v)对特征进行空间下采样,其他结构与步长为1的C S -G h o s t 瓶颈层相同㊂使用S M U 激活函数代替R e L U 函数,C S -G h o st 瓶颈层在模型训练时可以接收到更多的有效特征㊂图3 不同步长的C S -G h o s t 瓶颈层结构示意图1.4 E C A 模块在复杂背景下,手势图像中一些环境干扰因素,例如光照以及背景中不同的物品等,在训练过程中这些因素会产生影响模型准确率的不利特征,并且在训练过程中被传播放大,可视为噪声㊂通道注意机制削弱了这些背景特征的通道,降低了它们的权重[21],从而减少干扰因素对模型的负面影响㊂大多303第3期田秋红等:基于改进G h o s t N e t 的轻量级手势图像识别方法Copyright ©博看网. All Rights Reserved.数注意力机制模块无法兼顾计算成本和识别性能[22],例如S E 模块[23]在通道之间交换信息并进行特征降维,这个操作会增大模型的计算成本,且对通道注意力的预测产生负面影响[24]㊂E C A (E f f i c i e n t c h a n n e l a t t e n t i o n)模块是一种轻量的通道注意力模块,使用一维卷积组合相邻通道上的特征进行特征加权,以补偿特征维数减少所造成的缺陷,避免了特征降维操作的负面影响㊂此外,E C A 模块采用了跨通道交互,在保持性能的同时不会过多增加模型的计算开销㊂因此,轻量级模型适合引入E C A 模块,在提高模型特征提取能力的同时保持模型的轻量级特性㊂本文在C S -G h o s t瓶颈层的A d d 操作之前嵌入E C A 模块,对残差模块生成的特征进行校准,加强模型的识别能力㊂E C A 模块的具体结构如图4所示,其中:W 是特征图的宽度,H 是特征图的高度,C 是通道的数量,G A P (G l o b a l a v e r a g e p o o l i n g )表示全局平均池化层㊂E C A 模块能够根据通道数自适应地确定卷积核大小K ,从而节省计算资源㊂K 的计算公式如式(3)所示:K =ψ(C )=l o g 2C γ+b γo d d(3)其中:b 和γ是固定数值的系数,其值分别为1和2;||o d d代表取最接近其值的奇数㊂图4 E C A 模块结构示意图2 结果与讨论2.1 实验数据集本文使用N U S -Ⅱ和A S L 手势图像数据集进行实验,图5(a )和图5(b )分别为N U S -Ⅱ和A S L 手势数据集的示例图像㊂N U S -Ⅱ数据集由50名受试者在不同背景下采集制作,包含10种不同的手势,共有2000幅图像,A S L 数据集提供了一套手势代替从 A到 Z 的26个字母以及 D e l e t e S p a c e 和 N o t h i n g 字符,共29个手势类别,包含80000幅图像㊂图5 N U S -Ⅱ㊁A S L 和O U H A N D S 手势数据集示例图像为了验证本文方法的有效性,本文将复杂程度更高的O U H A N D S 手势图像数据集作为主要数据集㊂O U H A N D S 数据集由深度传感摄像头拍摄捕捉,23名受试者,包含从 A 到 K (不包含 G )10403浙江理工大学学报(自然科学)2023年 第49卷Copyright ©博看网. All Rights Reserved.种不同的手语动作㊂该数据集中图像背景较为复杂,共包含28种不同的背景㊂图5(c)中展示了 F I 和 J 3种手语动作,每种手语动作选取3幅图像放在同一列中,每列的前两幅图像处于同一背景下,第三幅图像和前两幅图像的背景不同㊂手势 F 中两种背景图像分别处于暗光和正常光环境下,其中正常光环境中的手势放在人像前面,存在肤色干扰因素㊂对于手势 J ,相同背景的两幅图像中手势的位置和角度不同,不同背景的图像之间光源位置不同㊂O U H A N D S中拥有3000幅R G B图像,每幅图像数据的分辨率为640ˑ480,本文将其中的80%划分为训练集,20%划分为测试集㊂2.2实验准备实验环境如下:服务器操作系统为U b u n t u16.04, P y t h o n版本3.7.2,使用的深度学习框架为T e n s o r F l o w2.3,显卡为N v i d i a G e F o r c e G T X 2070T i,实验选用A d a m算法作为模型参数优化器,B a t c h S i z e的大小设置为16,训练周期为100次㊂在训练之前对图像进行预处理,先对读入的原始手势图像进行尺寸归一化,变成224ˑ224ˑ3的三通道R G B图像,再对三通道R G B图像进行标准化,将三通道R G B图像的像素从0~255的整数映射为0~1的浮点数,最后输入模型进行训练和测试㊂2.3激活函数对比实验为了验证S M U激活函数的有效性,本文在C S-G h o s t N e t模型中使用5种激活函数在O U H A N D S 数据集上进行对比实验,对于每种激活函数,本文进行了20次测试,最终求出每种激活函数对应的平均准确率及方差㊂采用不同激活函数的模型平均准确率如表1所示,使用S M U激活函数的模型平均准确率为97.98%,相比S i g m o i d函数和T a n h函数分别提高了0.42%和0.76%㊂在反向传播的过程中, S i g m o i d函数和T a n h函数饱和区域接近于0且非常平缓,容易出现梯度消失的问题,导致网络中神经元的权重无法即时更新㊂S M U函数在超参数确定的情况下,正输入时得到的结果是线性的,能够完整传递梯度,可以避免梯度消失问题㊂同时,S M U函数的平均准确率相比R e L U函数和L e a k y R e L u函数分别提高了0.06%和0.12%㊂由于R e L U函数解决了梯度消失问题,所以其平均准确率相对S i g m o i d函数和T a n h函数有所提升,但R e L U函数在输入负值的情况下存在神经元坏死的问题, L e a k y R e L U函数在负半轴添加了一个小的正斜率,确保神经元的权重在负值输入的情况下仍然可以更新㊂但L e a k y R e L U函数中使用的斜率很小,影响权重更新的速度,最终会影响模型的平均准确率㊂S M U函数通过平滑逼近的方式更新权重,在避免神经元坏死问题的同时加快模型的收敛速度,在模型训练过程中能够传递更多的有效参数,得到的特征更加契合手势图像,最终提高了模型的平均准确率㊂为了验证激活函数对模型稳定性的影响,本文计算了5种激活函数的准确率方差㊂从表1中可以看出,T a n h函数的方差最大,达到了0.32%,当输入较大或较小时,T a n h函数的输出较为单一,不利于权重更新,最终影响了模型的收敛速度使得平均准确率不够稳定㊂S i g m o i d函数和L e a k y R e L U函数的方差较为接近,分别为0.23%和0.24%, S i g m o i d函数中的梯度消失问题影响了模型收敛速度,L e a k y R e L U函数在负值输入下使用小斜率不利于权重更新㊂R e L U函数的方差为0.19%,其在正输入时输出是线性的,负输入时输出直接为0,计算速度快且不存在梯度消失的问题㊂S M U函数的方差最小,只有0.16%,S M U函数能够平滑地传递特征到下一层,权重更新快,模型收敛速度加快,使得平均准确率波动幅度小,从而增强模型的稳定性㊂表1采用不同激活函数的模型平均准确率激活函数平均准确率/%S i g m o i d97.56ʃ0.23T a n h97.22ʃ0.32R e L U97.92ʃ0.19L e a k y R e L U97.86ʃ0.24S M U97.98ʃ0.162.4通道混洗机制和E C A模块的性能验证实验为了探索通道混洗机制和E C A模块对模型产生的影响,本文将对G h o s t N e t和C S-G h o s t N e t嵌入不同注意力模块进行对比实验,实验结果如表2所示㊂从表2中可以看出,C S-G h o s t N e t相对G h o s t N e t平均准确率有显著提升,在不加注意力模块的情况下,C S-G h o s t N e t相对G h o s t N e t提高0.92%的平均准确率,参数量没有变化,F L O P s增加了0.01G i㊂将S E模块㊁C B A M模块和E C A模块分别加入模型后,C S-G h o s t N e t相对G H o s t N e t 平均准确率分别提高了0.84%㊁0.80%和0.90%,参数量和F L O P s没有显著变化,这是因为通道混洗机制用于增强模型的特征提取能力且花费的计算成本较低,能够进一步提升模型的性能㊂加入S E 模块与C B A M模块的C S-G h o s t N e t平均准确率分503第3期田秋红等:基于改进G h o s t N e t的轻量级手势图像识别方法Copyright©博看网. All Rights Reserved.别提升了0.50%和0.26%,但S E模块将模型的参数量从1.19M i增加到4.36M i,F L O P s从0.29G i 增加到0.32G i,C B A M模块增加了1.34M i的参数量和0.02G i的F L O P s㊂S E模块和C B A M模块虽然提升了模型的平均准确率,但增大了模型的计算成本㊂加入E C A模块的C S-G h o s t N e t在平均准确率提升了0.52%的同时参数量只增加了0.01 M i,且F L O P s没有增加㊂与实验中的其他注意力模块对比,E C A模块在提升平均准确率的同时不会显著影响模型的参数量和计算成本,有效提升模型的性能㊂表2嵌入不同注意力模块时C S-G h o s t模块和E C A模块的平均准确率㊁参数量和F L O P s模型注意力模块平均准确率/%参数量/M iF L O P s/G iG h o s t N e t无96.541.190.28 G h o s t N e t S E97.124.350.32 G h o s t N e t C B A M96.922.420.31 G h o s t N e t E C A97.081.190.29 C S-G h o s t N e t无97.461.190.29 C S-G h o s t N e t S E97.964.360.32 C S-G h o s t N e t C B A M97.722.430.31C S-G h o s t N e t E C A97.981.200.292.5C S-G h o s t N e t的性能验证实验为了验证提出的C S-G h o s t N e t模型的有效性,将此模型与主流的分类模型R e s N e t50㊁V G G16㊁S h u f f l e N e t V2以及M o b i l e N e t V2在O U H A N D S 数据集上进行实验,在平均准确率和F L O P s两个方面作对比分析,实验结果如表3所示㊂表3C S-G h o s t N e t与主流模型在O U H A N D S数据集上的平均准确率和F L O P s模型平均准确率/%F L O P s/G iR e s N e t5097.324.10V G G1697.383.13S h u f f l e N e t V295.430.41M o b i l e N e t V293.400.59C S-G h o s t N e t97.980.29由表3可见,本文提出的C S-G h o s t N e t模型在平均准确率上比R e s N e t50高0.66%,比V G G16高0.60%,且F L O P s为0.29G i,远低于R e s N e t50的4.1G i和V G G16的3.13G i,C S-G h o s t N e t在保持模型轻量特性的同时平均准确率能够高于V G G16和R e s N e t50这些计算成本较高的模型㊂与S h u f f l e N e t V2和M o b i l e N e t V2相比,C S-G h o s t N e t 不仅平均准确率分别提升了2.55%和4.58%,F L O P s也分别降低了0.12G i和0.30G i,C S-G h o s t N e t的平均准确率提升幅度较大且计算成本也低于两个轻量级模型实验结果表明,C S-G h o s t N e t在保持模型低计算成本的同时实现了较高的平均准确率,是一种性能优良的网络模型㊂2.6训练性能对比实验为了测试本文提出的C S-G h o s t N e t模型在训练时的性能,将该模型与V G G16㊁R e s N e t50㊁M o b i l e N e t V2㊁S h u f f l e N e t V2和G h o s t N e t模型在训练时的准确率变化情况进行对比分析,这6种模型在O U H A N D S数据集上的准确率变化曲线如图6所示㊂由图6可知,C S-G h o s t N e t在60次迭代后基本收敛,V G G16和R e s N e t50在70次迭代后收敛,G h o s t N e t㊁M o b i l e N e t V2和S h u f f l e N e t V2都在80次迭代后才开始收敛,且在80到100次迭代中准确率曲线仍然存在一定程度的波动㊂轻量级模型G h o s t N e t㊁M o b i l e N e t V2和S h u f f l e N e t V2的收敛速度较慢且稳定性较差㊂R e s N e t50和V G G16的稳定性较好,但收敛速度一般㊂C S-G h o s t N e t的收敛速度最快且稳定性好,这是因为通道混洗操作和E C A模块能够让模型在训练前期提取到更多的有效特征,加快了模型的收敛速度;S M U函数增强了模型在反向传播中的学习能力,提高了模型的稳定性㊂观察图6中模型的准确率变化曲线,可以发现C S-G h o s t N e t的准确率最高,V G G16和R e s N e t50准确率略低,G h o s t N e t㊁S h u f f l e N e t V2和M o b i l e N e t V2的准确率较低㊂实验结果表明,在模型训练的过程中,C S-G h o s t N e t在收敛速度和稳定性方面表现较好,识别准确率达到最高,模型整体性能优秀㊂2.7时间性能验证实验为了测试提出方法的时间性能,本文将不同方法的训练时间和预测时间进行对比,实验结果如表4所示,其中训练时间是指模型从开始训练到100个周期训练完成所花费的时间,预测时间是指已经训练完成的模型对于预测一幅分辨率为640ˑ480的手势图像花费的时间㊂从表4中可以看出,C S-G h o s t N e t的训练时间为0.72h,相对M o b i l e N e t V2和S h u f f l e N e t V2分别减少了0.05h和0.08h,比训练时间最长的X c e p t i o n减少了0.62h㊂C S-G h o s t N e t对于单幅图像的预测时间只需要232m s,比轻量级模型M o b i l e N e t V2和S h u f f l e N e t V2分别减少6m s和11m s,比R e s N e t50和X c e p t i o n分别减少了30m s和81m s㊂C S-G h o s t N e t的训练时间较短,表明了模型具有较低计算成本㊂相比其他模603浙江理工大学学报(自然科学)2023年第49卷Copyright©博看网. All Rights Reserved.图6 V G G 16㊁R e s N e t 50㊁M o b i l e N e t V 2㊁S h u f f l e N e t V 2㊁G h o s t N e t 和C S -G h o s t N e t 的准确率曲线表4 C S -G h o s t N e t 的时间性能对比模型训练时间/h 预测时间/m sR e s N e t 500.82262V G G 161.22294X c e pt i o n [25]1.34313M o b i l e N e t V 20.77238S h u f f l e N e t V 20.80243C S -G h o s t N e t0.72232型,C S -G h o s t N e t 对单幅图像预测的时间成本较低,在时间性能方面有一定的优越性㊂2.8 不同数据集上的对比实验为了测试提出模型的泛化性能,在O U H A N D S数据集㊁A S L 数据集以及N U S -Ⅱ数据集上进行C S -G h o s t N e t 和其他模型的对比实验㊂由表5可见,在O U H A N D S 数据集的实验结果中,C S -G h o s t N e t 的平均准确率为97.98%,在所比较的方法中平均准确率最高㊂A S L 数据集图像背景较为简单,V G G 16在该数据集上存在过拟合现象,平均准确率为98.46%,R e s N e t 50在一定程度上解决了过拟合问题,得到了99.2%的平均准确率,C S -G h o s t N e t 作为参数量较少的轻量级模型,过拟合风险较低,平均准确率为98.82%,略低于R e s N e t 50,但高于其他模型㊂在N U S -Ⅱ数据集上,C S -G h o s t N e t 达到了98.36%的平均准确率,高于其他模型㊂通过分析可知,本文提出的C S -G h o s t N e t 能够在3个数据集上获得较高的平均准确率,泛化性能良好㊂3 结 论本文提出一种基于改进G h o s t N e t 的轻量级手势图像识别方法,通过通道混洗操作改进G h o s t 模块,表5 不同数据集上的平均准确率对比方法平均准确率/%O U H A N D S A S LN U S -ⅡR e s N e t 5097.3299.2097.96V G G 1697.3898.4697.82S h u f f l e N e t V 295.4398.0696.43M o b i l e N e t V 293.4097.5595.56E f f i c i e n t N e t [26]96.4297.3392.15D e e pC o n v [27]93.7298.6394.70S e gN e t [28]97.49H yF i N e t [29] 97.78T w o -b r a n c h C N N[30]90.90 C S -G h o s t N e t97.9898.8298.36增强特征通道之间的信息交流;使用S M U 激活函数加强模型的特征学习能力和训练时的稳定性;加入E C A 模块减少特征中的噪声信息㊂实验结果表明,采用C S -G h o s t 模块㊁S M U 函数和E C A 模块可以保证模型在轻量的特性下提高手势图像的识别准确率㊂本文提出方法在A S L 和N U S -Ⅱ数据集上分别得到了98.82%和98.36%的平均准确率,在O U H A N D S 数据集上平均准确率达到了97.98%,参数量为1.20M i ,F L O P s 为0.29G i,在准确率和计算成本方面与现有手势图像识别方法相比有明显优越性㊂参考文献:[1]J i a n g D ,Z h e n g Z J ,L i G F ,e t a l .G e s t u r e r e c o gn i t i o n b a s e d o n b i n o c u l a r v i s i o n [J ].C l u s t e r C o m p u t i n g,2019,22(6):13261-13271.[2]王银,陈云龙,孙前来.复杂背景下的手势识别[J ].中国图象图形学报,2021,26(4):815-827.703第3期田秋红等:基于改进G h o s t N e t 的轻量级手势图像识别方法Copyright ©博看网. All Rights Reserved.。

手势识别的原理

手势识别的原理

手势识别的原理1. 介绍手势识别是一种通过分析人体动作或手势来理解人类意图的技术。

它广泛应用于智能手机、智能手表、虚拟现实和增强现实等设备中。

手势识别技术可以使人与计算机的交互更加自然和直观,为用户提供更加便捷的操作方式。

本文将深入探讨手势识别的原理。

2. 手势识别的分类手势识别可以根据不同的特征进行分类。

常见的分类方式有以下几种:2.1 基于手指的手势识别这种方式是通过分析手指的位置和运动轨迹来实现手势识别。

常见的手指手势包括点击、滑动、旋转等。

2.2 基于身体姿势的手势识别这种方式是通过分析人体的姿势信息来实现手势识别。

常见的身体姿势手势包括举手、挥手、弯腰等。

2.3 基于面部表情的手势识别这种方式是通过分析面部表情的变化来实现手势识别。

常见的面部表情手势包括微笑、皱眉、眨眼等。

2.4 基于眼动的手势识别这种方式是通过分析眼睛的运动轨迹来实现手势识别。

常见的眼动手势包括注视、眨眼、眼球转动等。

3. 手势识别的原理手势识别的原理可以分为以下几个步骤:3.1 数据采集首先,需要采集手势数据。

可以使用传感器、摄像头等设备来采集人体的动作或手势,并将其转化为数字信号。

3.2 特征提取接下来,需要对采集到的数据进行特征提取。

这一步骤的目的是提取出能够描述手势的关键特征。

常用的特征提取方法包括傅里叶变换、小波变换等。

3.3 特征匹配在特征提取之后,需要将提取到的特征与预先定义的手势模板进行匹配。

手势模板是已知手势的特征表示,可以通过机器学习或人工定义得到。

3.4 手势分类最后,根据匹配结果进行手势分类。

如果匹配成功,则识别为对应的手势;如果匹配失败,则进行其他操作或显示错误信息。

4. 手势识别的应用手势识别技术在现实生活和科技领域中有广泛的应用。

以下是一些常见的应用场景:4.1 智能手机和智能手表手势识别技术可以使用户在没有触摸屏的情况下操作智能手机和智能手表。

用户可以通过手势来接听电话、切换应用、调整音量等。

基于MediaPipe的手势识别用于挖掘机遥操作控制

基于MediaPipe的手势识别用于挖掘机遥操作控制

基于MediaPipe的手势识别用于挖掘机遥操作控制
王如斌;窦全礼;张淇;周诚
【期刊名称】《土木建筑工程信息技术》
【年(卷),期】2022(14)4
【摘要】挖掘机有十分广泛的应用场景,但在某些危险工况下,对其采用遥操作是更好的选择。

同时,近年来随着机器视觉和深度学习的发展,涌现出一系列手势识别的算法和框架。

为了探究基于MediaPipe的手势识别算法在挖掘机遥操作中的应用,本文将手部不同手势与挖掘机的不同动作相对应,提出一种利用手势实现挖掘机遥操作的新型控制方式。

在实验室环境下,对实验用挖掘机器人进行运动学分析,采用MediaPipe对15种手势类型进行实时静态识别,生成指令并利用Arduino单片机实现对挖掘机的控制。

结果显示,该系统具有良好的性能,可以用于挖掘机的遥操作控制,为挖掘机的远程控制提供了一种新型的人机交互形式。

【总页数】8页(P9-16)
【作者】王如斌;窦全礼;张淇;周诚
【作者单位】华中科技大学土木与水利工程学院;潍柴动力股份有限公司
【正文语种】中文
【中图分类】TU17;TU6
【相关文献】
1.一种基于共享控制的双臂协同遥操作控制方法
2.基于手势识别的工业机器人操作控制方法
3.一种基于六轴惯导的配电网\r带电作业机器人遥操作控制系统
4.基于ABB机器人的遥操作控制系统设计
5.基于MediaPipe的数字手势识别
因版权原因,仅展示原文概要,查看原文内容请购买。

手势识别技术原理及解决方案

手势识别技术原理及解决方案

手势识别对于我们来说并不陌生,手势识别技术很早就有,目前也在逐渐成熟,现在大部分消费类应用都在试图增加这一识别功能,无论是智能家居,智能可穿戴以及VR 等应用领域,增加了手势识别控制功能,必能成为该应用产品的一大卖点。

手势识别可以带来很多的好处,功能炫酷,操作方便,在很多应用场合都起到了良好的助力功能。

手势识别技术的发展说起手势识别技术的发展,可以粗略分为两个阶段:二维手势识别以及三维手势识别。

早期的手势识别识别是基于二维彩色图像的识别技术,所谓的二维彩色图像是指通过普通摄像头拍出场景后,得到二维的静态图像,然后再通过计算机图形算法进行图像中内容的识别。

二维的手型识别的只能识别出几个静态的手势动作,而且这些动作必须要提前进行预设好。

相比较二维手势识别,三维手势识别增加了一个Z轴的信息,它可以识别各种手型、手势和动作。

三维手势识别也是现在手势识别发展的主要方向。

不过这种包含一定深度信息的手势识别,需要特别的硬件来实现。

常见的有通过传感器和光学摄像头来完成。

手势识别的关键技术手势识别中最关键的包括对手势动作的跟踪以及后续的计算机数据处理。

关于手势动作捕捉主要是通过光学和传感器两种方式来实现。

手势识别推测的算法,包括模板匹配技术(二维手势识别技术使用的)、通过统计样本特征以及深度学习神经网络技术。

根据硬件实现方式的不同,目前行业内所采用的手势识别大约有三种:1、结构光(Structure Light),通过激光的折射以及算法计算出物体的位置和深度信息,进而复原整个三维空间。

结构光的代表产品有微软的Kinect一代。

不过由于以来折射光的落点位移来计算位置,这种技术不能计算出精确的深度信息,对识别的距离也有严格的要求。

2、光飞时间(TIme of Flight),加载一个发光元件,通过CMOS传感器来捕捉计算光子的飞行时间,根据光子飞行时间推算出光子飞行的距离,也就得到了物体的深度信息。

代表作品为Intel带手势识别功能的三维摄像头。

手势识别原理

手势识别原理

手势识别原理手势识别是一种通过对人体手部动作进行识别和理解,从而实现与计算机、智能设备交互的技术。

随着人机交互技术的不断发展,手势识别技术已经被广泛应用于虚拟现实、智能家居、智能手机等领域。

本文将介绍手势识别的原理,以及其在不同领域的应用。

手势识别的原理主要包括图像采集、特征提取和模式识别三个步骤。

首先,通过摄像头或传感器采集手部动作的图像或数据,然后对这些图像或数据进行处理,提取出手部动作的特征信息,最后利用模式识别算法对这些特征进行分析和匹配,从而识别出手势的含义。

在图像采集阶段,通常会使用RGB摄像头或深度摄像头来获取手部动作的图像数据。

RGB摄像头可以捕捉手部动作的颜色和形状信息,而深度摄像头则可以获取手部动作的三维空间信息,这些信息对于手势识别非常重要。

在特征提取阶段,通常会使用计算机视觉和图像处理算法来提取手部动作的特征信息。

例如,可以利用边缘检测算法提取手部轮廓的特征,利用运动检测算法提取手部运动的特征,利用肤色检测算法提取手部的肤色信息等。

在模式识别阶段,通常会使用机器学习和模式匹配算法来识别手部动作的含义。

例如,可以利用支持向量机、神经网络、决策树等算法对提取出的特征进行分类和识别,从而判断手部动作的类型和意图。

手势识别技术在虚拟现实、智能家居、智能手机等领域有着广泛的应用。

在虚拟现实领域,手势识别可以实现用户对虚拟环境中物体的操作和交互,提高虚拟现实的沉浸感和交互体验。

在智能家居领域,手势识别可以实现用户对智能设备的控制和操作,提高智能家居的便利性和智能化程度。

在智能手机领域,手势识别可以实现用户对手机的手势操作,例如双击、滑动、缩放等,提高手机的操作便捷性和用户体验。

总之,手势识别是一种重要的人机交互技术,其原理包括图像采集、特征提取和模式识别三个步骤。

手势识别技术已经被广泛应用于虚拟现实、智能家居、智能手机等领域,为人们的生活带来了便利和乐趣。

随着人机交互技术的不断发展,相信手势识别技术也会迎来更加美好的未来。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

、 \ 图形图像 文章编号:1007—1423(2017)34—0006—06 DOI:10.3969/j.issn.1007~1423.2017.34.002 一种基于深度学习的静态手势实时识别方法 

张勋,陈亮,胡诚,孙韶媛 (东华大学信息科学与技术学院,上海201 620) 摘要: 手势是人机交互的一种方式,更是听力言语障碍人群与他人交流的一种语言。针对手势识别速度和检测率这两个难 点,提出一种静态手势检测网络模型ASSD。该模型基于深度学习的SSD方法,将原方法的特征提取网络VGG16 改进的卷积神经网络AlexNet取代,以进一步提高识别速度。同时,辅助网络使用多尺度特征检测、卷积预测器检测 和默认框与宽高比等策略。这些特性使得该模型有着端到端识别优点,在保证识别精度的同时大大提高识别速度。 实验结果表明提出的方法对流式视频静态手势的平均识别率达到93.3%,平均识别速度达到30fps,满足实时性与准 确率要求。 关键词: 静态手势;实时识别;深度学习;卷积神经网络 基金项目: 上海市科委基础研究项目(No.15JC1400600) 

0 引言 根据最新全国人口普查资料表明,我国有1.5亿听 力言语障碍人群,而听力言语残疾人群已达到2057万 人,约占全国总人口的1.57%。手势是聋哑人用手势 代替正常言语进行交流的一种有效方式。研究手势识 别能帮助聋哑人,尤其是一些未得到良好教育的聋哑 人之间的交流,同时也能帮助聋哑人与正常人之间的 交流;其次,手势识别是人机交互的一种便利的方式, 研究手势识别能促进机械智能运作、移动设备终端的 操作、门禁系统、远程控制等其他领域的发展;手势识 别的进一步研究,还可以提高计算机在人类语言理解 的程度。 研究者在静态手势识别领域有着许多探索。201 1 年Reyest 等人从基于Kinect深度图像对不同骨骼节点 训练对应权重,利用特征加权的DTW算法,在5类手 势上通过交叉验证得到68%的识别率。2013年Chai 等人 通过对手的三维轨迹匹配的方法进行239个中 同手势词汇的识别,达到了83.51%的准确率。2016年 中同科学技术大学的张继海 在对手势轨迹处理后利 

@ 现代计算机2017.12上 

用HOG提取手型特征后利用改进的隐马尔可夫模型 (HMM)进行建模,最后在用基于帧平均概率融合与支 持向量机的融合方法实现手势识别,准确率方面也取 得了比较不错的效果。 以上方法在准确率方面取得'『不错的进步,但要 满足静态手势的实时识别要求、识别速度和准确率有 待提升。因为人手骨架不统一、手型多变、手势词汇量 大的特点,其特征信息很难灵活的获得,人工通过建模 等方式设计手势描述特征的过程f分繁琐、无法深度 挖掘更高层次、更多维度的特征信息,这就导致基于传 统方法的模型范性差、很难达到实时检测目的。 深度学习模型 是一种突破性的技术,尤其是它在 机器学习领域的表现。为了达到模式分析和分类这样 的目的,它的有监督和无监督的特征提取和转换是m 多层非线性的组合去完成的。许多困1人】外科研机构的 研究人员在深度学习领域进行_『广泛的研究,其应用 方面也做了大量的拓展,效果突出的领域主要表现在 语音、图像等领域。Ross B.Girshick等人提出区域卷 积神经网络(R~CNN)ISl,快速区域卷积神经网络(Fast \ 图形图像 (n)含真实标签框的图, r 1 一.L 1 =:= — 1I一. I I I r 1 芒 I— 叶1 。 L I : : l—I II I l一 I I I 。 一一 +I— L I (111 8x8特征罔 冈4 SSD架构 得到多尺度的预测值。 ASSD方法基丁前馈卷积网络,除壤训:网络特征提 取层改变外,其他沿用了SSD方法的特征选择和 配 策略.. 2.1 ASSD模型 ASSD架构 ,如 4所示。 训练网络期问,输入ASSD网络的仅足每个对 象的 像和对应的其实标签框,如图4(a)所示。卷积 部分,ASDD网络会在不同尺度的特征 中估测各个位 置上小同横宽比的小集合(如4个)默认框,如图4(I)) 和图(c)所示 各个默认框巾,需要得到全部形状偏移 和置信度,那就要预测全部对象的类别((c l,c2…, ep))。住训练时,凶‘先完成的是默认榧与真实标签框 配动作j(例_殳lI,猫和狗被两个默认框lJ乙配到,这些 配到的框视为 ,其余视为负) 对于恪个模型,H{位 置信损失(如Softmax)和置j==5_i失(如Smooth LI) ̄,J JJI]权 和的形式来表示总损失L。 綮丁lj1=『馈卷积网络的ASSD方法,会产生同定大 d,V.J边界框集合以及框中对象类别的分数,再通过一 个非最大化抑制步骤产生最终的检测。网络如 2所 示,本文提f{5的ASSD网络暴础网络为改进的AlexNet 网络;辅助网络产生以下主要特征的检测: (1)多 度特征冈检测:在去掉全连接层AlexNet 的基,【i}}{网络末尾增加额外的卷积特征层.其特征足在 逐渐减小的特征层『fI产生不同尺度检测预测值。各个 特征层与检测的卷积模型不是一--X,J应的关系。 (2)检测使.L}J卷积预测器:如 2 rfl所示,在各个 额外卷积特征层和去全连接层的AlexNet网络特征层 J:使川一组滤波器去卷积这些特征层从而生成预测集 合。预测集合具体乍成规则是:对于FIIXrl大小的、并且 @ 现代计算机2017.12上 I‘ - -I一 一 ● 一l_L— I. . I I: I:i ㈠ l I :: L一一I I一.L r .L — J ,一一 — : I ’Ioc A(c3 ̄,cy, ,h) conf (CI,C2.… cp) 具有P个通道的特征层,卷积核大小则为3X3Xp,卷积 操作后,生成该框中目标类别分数、或是代表相对于默 认框的坐标偏移量,并在每个nlxH大小区域上进行卷 积操作,产 一个输fl{值。测量的边界框偏移输出值 是相对于默认框的,而默认框位置则是相对丁特征 降『的。 (3)默认框与宽高比:默认框盘Ij『鍪1 4,关联一组默认 边界框与顶层网络每个特征图 元。同定各个框实例 相对于其对应单元格的位置足通过在特征图巾用默认 框作卷积运算实现的。相对于单元格中的默认框形状 的偏移和每个框中实例的每类分数,是可以在各个特 征映射单元巾预测的。 2.2 ASSD Il练 训练ASSD关键在于训练图像巾的真实标签需要 赋予到那些同定输出的默认框上: (1) 配策略:训练时,需建立 实标签和默认框 之问的对应关系,通过默认框与真实标签Jac ̄.art1 配 重叠程度来确定这一默}人框,例fn1 配重叠程度高于 某闽值0.5。 (2)4JIl练目标:ASSD训练的[J标 数,源白Multi— BOXI“ …的日标 数。第i个默认框与P类别13标第i 个真实标签的 配用 =l表示,相对的若不 配则 =0。通过这个匹配策略可知,必然 ≥l,这就 表示第i个真实标签有可能匹配多个默认框… 口标 损失函数L(x,C。z,g)是位置损失 和置信损失,J... 的 ml权和,如式l所示: 1 L(x,c,Z,g)=— 1 ( ( ,c)+ ,J ( ,f,g)) (1) 

式巾,N表示 配默认框的数 ,X表示足以 像 作为输入的变量。 图形图像 f¨v i火, .址・个sm川,lh¨ii>j J久.它介丁预测 (I)flI ft f,. 掺价 (g)参数之li q.…0 I.il2 {=Il 的lf1 心(r、.r、)L3,搜J 瞍、、lfI1l岛 h n0 fj; ,&[】式(2) 爪: ,| ¨il1./. )=∑∑ L M l 一 (2) J I ……r _l_ … j L・lt:誊 ’=fgI_一r,_ )/dl 叠: =( 一r,= )ld , 叠 =lt g(÷), =I( (}) ・,f1hniix扎i火埘多类圳竹 (c-)fll仪r J 0 (x没置为l I'i"J U iil J J戊r。 火 . 一『』lIxL 3 ,J : /J .1 )=一∑ log(㈡一∑ (3) , ・、 、一 J t: (3)选扦默队 的比例以l/爻横宽 :I、I,i个 络『f1小 川』 ” 仃颅洲以埂 所仃埘象』 I 共亭参 教I,j l姗一 少汁 jI』、J 求.Jf II_,小I< ̄I--ftifi特 的 柑 f¨t。f牝仉 IlI特定的』x 城币f1物f小特定』 寸, 这} 人 1 必 j J If-感受 州h:/ 嗵过 测多组 圳 多j‘ fII!l冬【的}iJi=彳J l J 'rfll 赶离比的 仃 n0 .来』 一,I-多样化的颅洲 ,这样就 ilj.啦r见输人刈 象的Iq.t 和肜状就 擞感 3 网络训练和结果分析 3.1实验软硬件配置介绍 l,他川(:a¨。深度学 I’: 架,算法 i‘q 0 【】誓 ;分J}:源』眺I_】lI ll ilI_l ololx1.1t・s1.pl_Iltotxt. l\l-r.IIr¨¨I,Ixl史什.II J以训 \SSI)fl《J , 1实验软硬件配置 3.2实验数据及流程 小 0 教 址…高消t I I摄 采 成实验 f rI 念r・坍}!l圳的26个0:VJ:丁・坍il1选 5个 : 乃f f .;).1Jj_J ,、、B、C、I)、 : U命教 ・:IfI 8个人 充 fJ .7: /\ J 7: 1、 j’:f:J 分”『j求 f|1J} !f ,flfIlI M、_rI .、I{视 fffl J , I,MiliIlJ,J , J5=}=帧糊, } lli'.jj冬I ,得 IJ f10 ̄kJJ,・ 数f} &2 j ,J:,I冬I片人lJ,J9 64()x480川 1 iI Iling 逊f 人_厂 L—I, ̄…j.IJJ c 『l 怀掺艾什 ljl】 ftI- l】 I的 JI】约 I冬I像埂 刈 J 『j0 r 实 ;掺 艾什 ,越过微 州iJl ,/、-参数-.I 断迭 坎 坝J1 敛 Ji n ,II4参数选lI 测 iEfifo昔 』l:高的 JI f1 最终十l!J JI J丁 圳分瑟 "J -.:JJ‘ ̄:g l —f参照 

表 静态手吩故据集 字母 训练集 测试集 总计 ^ 』l l 【)(1 lIflj【 B .Lt 】l 【_【1 : …l1 C 、l 【_ll : {J i D l【_【1 . 】} E i L ’ _'【)【l I】 i 总计 1l1i { ( i 】 L’ 

3.3实验结果及分析 利川小迎提…的\SSI) 训 …t来的 ,I ,果 Jt JI f仆q 摄像 . 时采 删i 仆立…的l、、l{、c、1)、 l r・势,J if-部分帧的伶洲 『』『ll冬【5所永: 频 ,lt 的洲 机做的 :J I{、C、1)、 丁-势鄙能够 愉洲…术 r1_ 脱0’: I 分炎,l I{ ̄,ji.i12 』 …f l f,_:.人 5分 . 果! ,J:r I 0『f0慨啐 ;l,rjil.J‘.十 0ii,i_lⅢ7:f 秒f#-4iiiill,J 教fps([ran Hilt)人 敏 能fl ” 301 .这个I叮以满足 叫伶洲fn’ K iti丁 XSSI)的 额外特fiI 采取r多Jq.瞍愉洲的 略.可对1 川犬/j、 的特 i 郴做项删,所以}fI埘刈J j』l 大小 远近的 r-势L!Z能够准确枪测 队述分炎然lm水义的丁.坍伶 测 'ii圳l : 仔仵漏伶fIl J-If 分炎的 6 J冬I 6( -)所爪,这址一个渊愉棠例,这址ft1丁lr.蚺 ̄Ik JM 分被遮 ,从而 浊术能怜洲刊』l f『『0 r协: j冬I 6(2) 爪,这址一个 L.尺r1分类,测 I; ̄if敝的r・势fit i.i发 :『:J LI(0:川 I 仲大j1 j扑 ),ifi J h 托 lr-f门述』 过1、 j 久拇指这_f叶一fill小『l f,J 仃f r 影.以 小钟: L 0.4l n0慨啐i将陔丁・辨’J }JfJ乃 j :I:J.-・J( j :f tI: 、 r 仪 聱), 僻注意的址这 刈(1i人 以圳7-iJi ̄iif,j‘ 会J : 小史 使JtJf#-统r.蜉}! ¨()( + vM坼:法f¨ j-个 J建 、 : J q Fast R一(:NN I 1仟I f0 0酞环J竞I、‘进f …iJ弋.Ji-《lf比_r 火3 小:f 统,J 法,J‘ 悌J I I ‘【冬I+支j 】:l fJL(tl()( + \、1)rI 伶 0IIJ j生 (().27fps)flJ;化确牢(o.58l】力‘i(i 搜i 度 、 :jJlf【f I ‘法 … 传统 特 摊取过 的汁 :需嘤人fl 0 t I'Hj 『I.效果也 想 h—I I/一( NNI址一 深 学 常 的『{《J ,它的榆测卅 (0.782)f}1比传统力 法 ( )( +svM)彳丁了很大的 I .fI 它录』I J的搜索 Pl 钟:法 

相关文档
最新文档