基于3D 体感技术的动态手势识别

基于3D 体感技术的动态手势识别
基于3D 体感技术的动态手势识别

第27卷第4期2012年8月

光电技术应用

ELECTRO-OPTIC TECHNOLOGY APPLICATION

Vol.27,No.4August ,2012

随着机器智能领域的迅猛发展,手作为人身体上最灵活的一个部位及人机交互的一个媒介,得到越来越多的应用。因此基于手势识别的各种应用也是层出不穷。手势是一种自然而直观的人际交流模式。手势识别也理所当然地成为了实现新一代人机交互不可缺少的一项关键技术。然而,由于手势本身具有的多样性(包括肤色、形态的差异性)、多义性(不同手势具有不同的意义)、以及时间和空间上的差异性(会受到光照等因素的影响)等特点,加之人手是复杂变形体及视觉本身的不适定性,因此基于视觉的手势识别是一个极富挑战性并具有很大应用空间的研究方向[1]

1手势识别技术的发展

手势识别分为两种,一种是静态的手势识别,即在

摄像头下检测到某个手势时就给出命令。另一种是动态手势识别,即能够识别手做的一些动作。随着3D 体感技术的出现,手势识别进入一个全新的领域。1.1静态手势识别

静态手势识别的常用方法主要有:基于模版匹配的,用边缘特征像素点作为识别特征,并利用Hausdorff 距离模板匹配完成静态手势识别[2];基于SVM 支持向量机,通过皮肤颜色模型进行手势分割,

并用傅里叶描述子描述轮廓,采用针对小样本特别有效且范化误差有界的最小二乘支持向量机(LS -SVM )作为分类器进行手势识别[3]以及集合模版匹配和机器学习理论的手势识别方法[4]等。但由于静态手势识别技术应用的局限性较大,不够灵活,使用人数在减少。

收稿日期:2012-06-24

作者简介:淦创(1990-),男,辽宁锦州人,大学本科,研究方向为计算机图像处理.

·信号与信息处理·

基于3D 体感技术的动态手势识别

(北京航空航天大学,北京100191)

摘要:提出了一种基于3D 体感机Kinect 的图像处理手势识别算法,通过深度图像和骨骼图像的方法实现动态手势识别。首先在Kinect 提供的骨骼图像中20个骨点中,选取2个离手部最近的骨骼点,通过追踪这两个骨骼点的位置来实现对手部的追踪,再通过判断手部的深度(即其相对于摄像头的距离)的变化来实现动态手势识别。

关键词:深度图像;骨骼图像;手部追踪;动态手势识别中图分类号:TN94

文献标识码:A

文章编号:1673-1255(2012)04-0055-04

Dynamic Gesture Recognition Based on 3D Kinect

GAN Chuang

(Beijing University of aeronautics and astronautics,Beijing 100191,China )

Abstract :A kind of gesture recognition algorithm of image processing based on 3D Kinect is proposed.The

dynamic gesture recognition algorithm is performed by skeleton images and depth images.At first,two skeleton points which are nearest to hands are choosen from 20skeleton points in a skeleton image.The process of tracking hands is performed by tracking the positions of the two skeleton points.Then the dynamic gesture recognition pro?cess is realized by the change of depths of hands (the distance between a hand and a camera).

Key words :depth image;skeleton image;hands tracking;dynamic gesture recognition

光电技术应用第27卷

1.2动态手势识别技术

在静态技术基础上发展起来的是动态手势识别,即在视频流下能够对手部做出一些动作进行识别,这种识别的难度要比静态手势识别难度大很多,但却更具有实用性。动态手势识别的方法主要有:采用Camshift算法对手势进行分割,从而达到手势识别的功能[5];通过双目视觉系统来建立数学模型,并结合图像分割技术进行手势判断[6];基于机器学习进

行手势识别,首先采用AdaBoost算法遍历图像,完成静态手势的识别工作,在动态手势的识别过程中,运用了光流法结合模板匹配的方法[7]等。

虽然手势识别方法取得了一些很好的效果,但这些现存方法都无法克服当光照条件变化较大或人体肤色差异性较大时会出现系统失灵的情况,这时往往需要重新调整各种参数来使得系统正常工作,从而大大降低了系统的稳定性。其不稳定原因主要在于根据人手的颜色进行图像分割的处理过程会受到光照、遮挡等各种因素的影响,进而对后续的手势识别产生干扰。因此提升手在摄像头下的识别精度成为了一个研究的重点。

1.3基于Kinect体感技术的动态手势识别技术Kinect是美国微软公司于2010年推出的XBOX360游戏机体感周边外设的正式名称,起初名为Natal,意味初生。它实际上是一种3D体感摄影机,利用即时动态捕捉、影像辨识、麦克风输入、语音辨识、社群互动等功能让玩家摆脱传统游戏手柄的束缚,通过自己的肢体控制游戏,从而实现与互联网玩家互动,分享图片和影音信息等交互功能[8]。

微软推出Kinect后,深度图像和骨骼图像技术使得手势识别进入一个全新的领域。由于Kinect在硬件上采用了CMOS红外感应设备,可以提供关于人的骨骼图和整个镜头下的深度图像,因此在对这两种类型的图像深入研究的基础上,提出了一种可以进行动态手势识别的方法,并在识别准确度上有了较大的改进。

1.3.1深度图像的产生机理

Kinect采用了基于光编码(light coding)[9]理论的技术,可以直接获取物体与摄像头之间的距离。其基本思想是通过连续光(近红外线)对测量空间进行编码,再经过感应器得到编码的光线,在将数据传递给晶片进行运算解码后,产生一张具有深度的图像。其核心之一就是结构光技术,它与传统的技术有很大的差异性。它的光源打出去的并不是一幅周期性变化的二维的图像编码,而是一个具有三维纵深的“体编码”。这种光源叫做激光散斑(laser speck?

le),是当激光照射到粗糙物体或穿透毛玻璃后形成的随机衍射斑点。这些散斑具有高度的随机性,而且会随着距离的不同变换图案,空间中任何两处的散斑都会是不同的图案,等于是将整个空间加上了标记,所以任何物体进入该空间以及移动时,都可确切记录物体的位置。

Kinect另一核心技术在于光源标定[10],测量前对原始空间的散斑图案做记录,先做一次光源的标定,其采用的方法是每隔一段距离,取一个参考平面,然后把参考平面上的散斑图案记录下来;假设Kinect规定的用户活动范围是距离摄像头1~4m,每隔10cm 取一个参考平面,标定后保存了30幅散斑图像;测量时拍摄一幅待测场景的散斑图案,将这幅图像和保存的30幅参考图像依次做互相关运算,得到30幅相关度图像;空间中有物体存在的位置,在相关度图像上就会显示出峰值。把这些峰值一层层叠在一起,经过插值运算,即可得到整个场景的三维形状[11]。

1.3.2骨骼点追踪技术

Kinect骨架追踪处理流程的核心是一个不受周围环境的光照影响的CMOS红外传感器。该传感器通过黑白光谱的方式来感知环境:纯黑代表无穷远,纯白代表无穷近。黑白间的灰色地带对应物体到传感器的物理距离。它收集视野范围内的每一点,并形成一幅代表周围环境的景深图像。传感器以每秒30帧的速度生成景深图像流,实时3D地再现周围环境[12]。

骨骼点追踪采用了机器学习技术,通过建立了庞大的图像资料库,形成智慧辨识能力,尽可能理解使用者的肢体动作所代表的涵义。Kinect对深度图像进行像素级评估,来辨别人体的不同部位,其基本思想是先采用分割策略将人体从背景环境中区分出来,得到追踪对象背景物体剔除后的深度图,然后把深度图像传进一个可辨别人体部位的机器学习系统中,该系统将给出某个特定像素属于身体某个部位的可能,然后将这些数据输入到集群系统中,从而训练Kinect像素级辨认身体部位的能力。Kinect会评估Exemplar输出的每一个可能的像素来确定关节

56

第4期淦创:基于3D 体感技术的动态手势识别

点,然后根据追踪到的20个关节点来生成一幅人体骨骼图[13]。两幅经辨识的人体动态骨骼如图1所示。

2基于深度图和骨骼图的动态手势识别技术

动态手势识别技术主要分为两个步骤,第一个步骤是对手的部位进行追踪,即在视频流中每一帧中准确找到手的位置。第二个步骤是识别不同的手部动态动作。

2.1基于Kinect 骨点图手部追踪

要想进行手势识别,第一步要先在图像中找到手的位置,并在视频流中追踪手的位置。传统的手势识别方法大多数都是利用肤色分割并结合一些连通域的形状在图像中寻找手的位置,这种方法需要设定阈值。当光照变化很大或人的肤色差异性很大时都会出现问题,进而阻碍了手势识别技术的实际应用。而Kinect 的出现解决了上述问题产生的识别干扰,通过Kinect 的骨骼图像可知,手势追踪主要就是追踪Kinect 人体控制点位置图2中的A 点和B 点。由于Kinect 的平台本身可以提供骨骼点的地理坐标,因此可根据坐标来完成对手部的追踪。在应用方面,Kinect 硬件可提供手在空间中的位置变化信息,可通过对该信息的比例变换,完成手势对目标物体的控制功能。

以鼠标控制为例,来验证此算法的实用性。可实现的功能有:(1)当镜头下的手上下左右移动时,鼠标也会跟随着手进行相应幅度的上下左右晃动,即完成手对鼠标的控制;(2)当手的前后变化距离达到一定程度时,可以完成对鼠标左键的按下与抬起的操作。

实现的方法是:Kinect 本身具有可以提供骨点图的功能,通过控制(图2)所示A 点在空间上下左右变化的值从而设定相应的鼠标上下左右变化的值,进

而完成对鼠标的控制。

对20个身高、体重、年龄不同的人进行了10种比例的实验。手部与鼠标做上下移动的实验结果如表1所示,手部与鼠标做左右移动的实验结果如表2所示。从表1、表2可知,当人手掌的上下和左右移动距离与对应鼠标的移动距离之比分别为8:1和6:1时,体感交互满意度较高。

2.2基于Kinect 深度图像的动态手势识别算法

由Kinect 的深度图像技术可知某点距离摄像头的距离,因此利用Kinect 就可以完成对手势伸展的动作识别,

并据此进行控制。

图1

人体动态骨骼图

图2Kinect 人体控制点位置图

表1

手部与鼠标做上下移动的比例实验

表2

手部与鼠标做左右移动的比例实验

57

光电技术应用第27卷

算法的核心思想是首先跟据应用的实际需要,设定一个骨点A 或B 的深度变化阈值H (单位:cm ),通过判断骨点深度变化量的大小来进行手势识别。具体算法如下

Z=X-Y

式中,X 代表实时测得手的深度值(单位:cm );Y 代表初始的测得的手的深度值(单位:cm );Z 代表两者的深度差值(单位:cm )。

(1)Z >0,且Z >H 时,识别手的动作为前伸。(2)Z <0,且-Z >H 时,识别手的动作为后伸。下面通过用手势进行对鼠标按键抬起和按下的控制为例,来验证算法的可行性。

Kinect 提供了红外深度摄像头,可以测出物体的

深度变化值。因此通过程序设置控制骨点A 的深度变化阈值H 就可以控制鼠标的抬起与落下。具体方法如下:

(1)Z >0,且Z >H 时,识别为手的动作为前伸,可以设置鼠标左键按下。

(2)Z <0,且-Z >H ,识别为手的动作为后伸,可以设置鼠标左键抬起。

在阈值的选取方面,由于深度摄像头的深度测量精度所限,在其稳定工作的状态,增大阈值可以使得对鼠标的控制成功率增大,但是如果选取较大阈值会使得用户的体验度大幅下降。

因此针对如何选取既可以提高鼠标控制成功率,并可以保证用户体验的问题,此实验针对每个阈值分别进行50次的独立实验。实验数据如表3所示,可以看到在阈值设为H =25cm 时,对鼠标左键按下的控制效果成功率较高。

2.3算法优势

(1)摆脱了传统手势识别需要进行肤色分割(提取手的轮廓)的过程。因为这一过程会受到光照,人

的肤色差异性大等各方面条件的限制,会严重的影响手势识别的稳定度,而骨点跟踪采用的是红外摄像头,受光照和颜色影响性不大,使整个系统的鲁棒性大幅度提升,也提高了手势识别的稳定性。

(2)通过人手深度的变化来完成动态识别手动作的前伸与后伸,具有很强的用户适应度,这个手势识别动作对于人来很容易操控,实用性更强。

(3)在动态手势识别的准确率上,此算法远远超过其他算法,高达99%的准确率使之具有很高的实际应用价值。

3结束语

提出了一种基于深度图像和骨骼图像的手势识别算法,在手的追踪方面和动态手势识别方面的正确率和稳定度上超过了其他算法。

基于此算法的手势识别可以用于多种场合,例如:在远程操控中,通过手来控制远程汽车的前进与后退;在讲解PPT 时,通过手来控制PPT 翻页;在播放音乐时,用手的深度变化来控制音量的大小。在空中书写文字或符号时,通过手势的深度变化来区分抬笔和落笔等。

由于红外深度摄像头的精度所限,基于骨骼图像和深度图像的算法在深度变化不是很大时,还难以做到精准识别。但随着硬件功能的提升,动态手势识别会向更精确,更具有实用性的方向发展。参考文献

[1]

任海兵,祝远新,徐光桔,等.基于视觉手势识别的研究——综述[J].电子学报,2O00,28(2):11-12.

[2]张良国,吴江琴,高文,等.基于Hausdorff 距离的手势识别[J].中国图像图形学报,2012,7[A]:1-8.[3]刘江华,陈佳品.用于人机交互的静态手势识别系统[J].红外与激光工程,2002,6:499-503.[4]

贾建军.基于视觉的手势识别技术的研究[D].哈尔滨:哈尔滨大学,2008.

[5]唐文平,胡庆龙.基于多目标Camshift 手势识别[J].电子科技,2012,25(2):71-81.

[6]谭同德,郭志敏.基于双目视觉的人手定位与手势识别系统研究[J].计算机工程与设计,2012,33(1):259-264.[7]李文生,解梅,邓春健.基于机器视觉的动态多点手势识别方法[J].计算机工程设计,2012,5(8):60-72.[8]

Microsoft Corp.Redmond WA.Kinect for Xbox 360[S].(下转第63页)

表3

深度阈值实验数据

58

第4期

5结束语

将VIPA与衍射光栅结合实现二维成像,是光谱处理领域的一个重大进步。文中结合目前该技术的发展状况,详细介绍了其在光学滤波器、光谱处理、光学成像几个方面的具体应用,并对各项应用的未来发展做出展望。

参考文献

[1]Shirasaki https://www.360docs.net/doc/1f8514721.html,rge angular dispersion by a virtually imaged phased array and its application to a wavelength demulti?plexer[J].Optics Letters,1996,21(5):366-368. [2]Shijun X,Andrew W.An Eight-Channel Hyperfine Wave?length Demultiplexer Using a Virtually Imaged Phased-Ar?ray(VIPA)[J].Ieee Photonic Tech L,2005,17(2):372-374.

[3]Ghang-Ho L,Shijun X,Andrew W.Optical Dispersion Com?pensator With>4000-ps/nm Tuning Range Using a Virtual?ly Imaged Phased Array(VIPA)and Spatial Light Modulator (SLM)[J].Ieee Photonic Tech L,2005,18(17):1819-1821.

[4]Shirasaki M.Filtering Characteristics of Virtually-Imaged Phased-Array[J].Integrated Photonics Research(IPR), 1996,6IMC3.

[5]Shijun X,Andrew W.2-D wavelength demultiplexer with

potential for$1000channels in the c-band[J].Opt.Ex?press,2004,12(13):2895-2902.

[6]Supradeepa V,Huang C,Leaird D,et al.Femtosecond pulse shaping in two dimensions:Towards higher complexity optical waveforms[J].Opt.Express,2008,16(16):11878-11887.

[7]Shijun X,Andrew W.Optical Carrier-Suppressed Single Sideband(O-CS-SSB)Modulation Using a Hyperfine Blocking Filter Based on a Virtually Imaged Phased-Array (VIPA)[J].Ieee Photonic Tech L,2005,17(7): 1522-1524.

[8]Scarcelli G,Yun S.Multistage VIPA etalons for high-extinc?tion parallel Brillouin spectroscopy[J].Opt.Express,2011,19(11):10913-10922.

[9]Cundiff S,Andrew W.Optical arbitrary waveform generation [J].Nat.Photonics,2010,4(11):760-766. [10]Diddams S,Hollberg L,Mbele V.Molecular fingerprinting

with the resolved modes of a femtosecond laser frequency

comb[J].Nature,2007,445(7128):627-630. [11]Keisuke G,Tsia K,Bahram J.Serial time-encoded ampli?

fied imaging for real-time observation of fast dynamic phe?

nomena[J].Nature,2009,458(7242):1145-1149. [12]Shirasaki https://www.360docs.net/doc/1f8514721.html,pensation of chromatic dispersion and dis?

persion slope using a virtually imaged phased array[J].

TuS1OFC,2001(3):18-23.

沈笑笑等:虚像相位阵列的二维成像原理及其应用

[3]闫丰,于子江,于晓,等.电晕探测紫外ICCD相机图像噪声

分析与处理[J].光学精密工程,2006,14(4):0709-0713.

[4]许强.军用紫外探测技术及应用[M].北京:北京航空航天

大学出版社,2010.

[5]张德峰.详解MATLAB数字图像处理[M].北京:电子工业

出版社,2010.[6]赵玉环,闫丰,隋永新,等.紫外序列图像中目标的提取[J].

光电工程,2007,34(11):0010-0013.

[7]冯鹏,魏彪,米德伶,等.基于时域递归滤波的动态数字图像

降噪[J].重庆大学学报(自然科学版),2005,28(2): 0023-0025.

(上接第50页)

[9]J Salvi,J Pages,J Battle.Pattern codification strategies in structured light systems[J].Pattern Recognition,2004,37(4):827-849.

[10]P Lavoie,D Ionescu,E Petriu.3D reconstruction using an

uncalibrated stereo pair of encoded images[C]//In Proceed?ings of the Int.Conf.on Image Processing,1996. [11]Chadi ALBITAR,Pierre GRAEBLING,Christophe DOI?

GNON.Robust Structured Light Coding for3D Reconstruc?

tion[C]//In Proc.ICCV,2007.

[12]P Lavoie,D Ionescu,E Petriu.3D reconstruction using an

uncalibrated stereo pair of encoded images[C]//In Proceed?ings of the Int.Conf.on Image Processing,1996. [13]Jamie Shotton,Andrew Fitzgibbon,Mat Cook,et al.Re?

al-Time Human Pose Recognition in Parts from Single Depth Images[C]//In Proc.CVPR,2011.

(上接第58页)

63

手势识别技术综述

手势识别技术综述 作者单位:河北工业大学计算机科学与软件学院 内容摘要: 手势识别是属于计算机科学与语言学的一个将人类手势通过数学算法针对人们所要表达的意思进行分析、判断并整合的交互技术。一般来说,手势识别技术并非针对单纯的手势,还可以对其他肢体动作进行识别,比如头部、胳臂等。

但是这其中手势占大多数。本文通过对手势识别的发展过程、使用工具、目的与市场等进行综述,梳理出手势识别发展的思路,让读者对手势识别有一个总体上的认识,同时也可以让读者在此基础上进行合理想象,对手势识别的未来有一个大体印象。 Abstract: Gesture recognition is an interactive technology using mathematical arithmetic to the analysis,judge and assembly meaning that people want to convey which belongs to computer science and Linguistics.In general, gesture recognition technology is not for simple gestures expressed by hands ,it can also aim to other body movement recognition, such as the head, arm and so on. But the gesture accounted for most of the analysis. In this paper, by describing the development process, tools used , objective and market of gesture recognition , we can sort out the ideas of the development of gesture recognition, and let readers have an overall understanding of gesture recognition. At the same time, it can let the reader imagine that on hand gesture recognition based on reason ,and have a general impression of its future. 1.定义 说到手势识别,首先要对手势识别中的手势有一个清晰的认知。手势在不同的学科中有不同含义,而在交互设计方面,手势与依赖鼠标、键盘等进行操控的区别是显而易见的,那就是手势是人们更乐意接受的、舒适而受交互设备限制小的方式,而且手势可供挖掘的信息远比依赖键盘鼠标的交互模式多。在学术界,人们试图对手势定义一个抽象、明确而简洁的概念以为手势及其应用的研究提供依据。1990年Eric Hulteen和Gord Kurtenbach曾发表的题为“Gestures in Human-Computer Communication”中定义:“手势为身体运动的一部分,它包括一部分信息,而且是一种能被观察到的有意义的运动。挥手道别是一种手势,而敲击键盘不是一种手势,因为手指的运动没有被观察,也不重要,它只表示键盘

基于3D 体感技术的动态手势识别

第27卷第4期2012年8月 光电技术应用 ELECTRO-OPTIC TECHNOLOGY APPLICATION Vol.27,No.4August ,2012 随着机器智能领域的迅猛发展,手作为人身体上最灵活的一个部位及人机交互的一个媒介,得到越来越多的应用。因此基于手势识别的各种应用也是层出不穷。手势是一种自然而直观的人际交流模式。手势识别也理所当然地成为了实现新一代人机交互不可缺少的一项关键技术。然而,由于手势本身具有的多样性(包括肤色、形态的差异性)、多义性(不同手势具有不同的意义)、以及时间和空间上的差异性(会受到光照等因素的影响)等特点,加之人手是复杂变形体及视觉本身的不适定性,因此基于视觉的手势识别是一个极富挑战性并具有很大应用空间的研究方向[1] 。 1手势识别技术的发展 手势识别分为两种,一种是静态的手势识别,即在 摄像头下检测到某个手势时就给出命令。另一种是动态手势识别,即能够识别手做的一些动作。随着3D 体感技术的出现,手势识别进入一个全新的领域。1.1静态手势识别 静态手势识别的常用方法主要有:基于模版匹配的,用边缘特征像素点作为识别特征,并利用Hausdorff 距离模板匹配完成静态手势识别[2];基于SVM 支持向量机,通过皮肤颜色模型进行手势分割, 并用傅里叶描述子描述轮廓,采用针对小样本特别有效且范化误差有界的最小二乘支持向量机(LS -SVM )作为分类器进行手势识别[3]以及集合模版匹配和机器学习理论的手势识别方法[4]等。但由于静态手势识别技术应用的局限性较大,不够灵活,使用人数在减少。 收稿日期:2012-06-24 作者简介:淦创(1990-),男,辽宁锦州人,大学本科,研究方向为计算机图像处理. ·信号与信息处理· 基于3D 体感技术的动态手势识别 淦 创 (北京航空航天大学,北京100191) 摘要:提出了一种基于3D 体感机Kinect 的图像处理手势识别算法,通过深度图像和骨骼图像的方法实现动态手势识别。首先在Kinect 提供的骨骼图像中20个骨点中,选取2个离手部最近的骨骼点,通过追踪这两个骨骼点的位置来实现对手部的追踪,再通过判断手部的深度(即其相对于摄像头的距离)的变化来实现动态手势识别。 关键词:深度图像;骨骼图像;手部追踪;动态手势识别中图分类号:TN94 文献标识码:A 文章编号:1673-1255(2012)04-0055-04 Dynamic Gesture Recognition Based on 3D Kinect GAN Chuang (Beijing University of aeronautics and astronautics,Beijing 100191,China ) Abstract :A kind of gesture recognition algorithm of image processing based on 3D Kinect is proposed.The dynamic gesture recognition algorithm is performed by skeleton images and depth images.At first,two skeleton points which are nearest to hands are choosen from 20skeleton points in a skeleton image.The process of tracking hands is performed by tracking the positions of the two skeleton points.Then the dynamic gesture recognition pro?cess is realized by the change of depths of hands (the distance between a hand and a camera). Key words :depth image;skeleton image;hands tracking;dynamic gesture recognition

基于手势识别的智能电视交互专利技术综述

基于手势识别的智能电视交互专利技术综述 智能电视具有操作系统,支持第三方应用资源实现功能扩展,支持多网络接入功能,具备人机交互、与其他智能设备进行交互等。随着计算机视觉的发展和人机交互的需要,手势识别研究取得了蓬勃的发展,通过手势识别对智能电视进行控制和操作,能够更轻松、高效地使用电视设备。文章利用专利数据库对智能电视手势识别技术进行了数据统计和分析,对该领域的专利申请趋势等情况做了归纳总结。 标签:智能电视;手势识别;发展状况;专利 Abstract:Intelligent TV has the operating system,which supports the third party application resources to realize the function expansion,supports the multi-network access function,has the man-machine interaction,and carries on the interaction with other intelligent devices. With the development of computer vision and the need of human-computer interaction,the research of gesture recognition has made great progress. By controlling and operating intelligent TV through gesture recognition,one can more easily and more efficiently use TV equipment. This paper makes use of patent database to analyze the data of intelligent TV gesture recognition technology,and summarizes the trend of patent application in this field. Keywords:intelligent TV;gesture recognition;development status;patent 引言 电视是家庭娱乐休闲必不可少的家用电器。如今,电视依然是最为普及的信息传播载体,用户在观看普通节目的同时,还可以上网、娱乐等。从用户的角度出发,通过自然简单、人性化的方式完成交互,无疑是用户完成电视操作的最佳方式。而手势具有直观、自然、丰富的特点,是一种符合人们日常习惯的交互手段,是表達信息和特定意图的良好载体,由于手势具有上述特性,因此在对智能电视进行操控中得到了良好的运用,实现了对智能电视自然灵活地操作。 1 基于手势识别的智能电视控制技术发展状态分析 1.1 技术分解 本文通过检索获得的专利申请进行统计分析,对基于手势识别的智能电视控制所涉及的具体技术和应用领域进行分解。 根据手势采集设备可以将手势识别系统大致分为基于数据手套和基于视觉的两种手势识别系统。其中,数据手套通过多个传感器反馈各关节的数据,并通过位置跟踪器返回人手所在的三维坐标,从而获取手势在三维空间中的位置信息和手指的运动信息。通过数据手套可以直接获取人手在三维空间中的位置和运动

三种简单手势识别

简单手势识别

一、背景 随着计算机的发展,人机交互技术由传统的鼠标键盘时代发展到了以语音输入、动作识别等技术为代表的自然交互时代n1。特别是视觉计算技术的发展,使计算机获得了初步视觉感知的能力,能“看懂”用户的动作。手势识别作为一种直观自然的输入方式,把人们从传统接触性的输入装置中解放出来,可以以一种更自然的方式与计算机交互,使计算机界面变得更加易‘引。 手势主要分为静态手势和动态手势两种,动态手势可以看作是连续的静态手势序列。动态手势具有丰富和直观的表达能力,与静态手势结合在一起,能创造出更丰富的语义。利用动态手势识别构建新型的交互界面,是新一代的人机交互界面对输入方式自然性的要求,可以弥补传统交互方式的不足。基于视觉和手势识别研究正处于蓬勃发展的阶段,仍存着的许多值得研究的问题。研究基于视觉的动态手势识别对于构建更加好友的人机交互界面很有意义。

二、手势识别概述 2.1、手势识别的概念 手势是姿势的一个子集,姿势这个概念没有精确的定义。一般认为,手势概念经过人的手转化为的手势动作,观察者看到的是手势动作的图像。手势的产生过程如图2-1所示。 图2-1 手势的产生过程 手势识别的过程则找一个从图像V到概念动作G的变换而,如图2-2所示。

2.2、手势识别流程 随着计算机的发展,人机交互技术由传统的鼠标键盘时代发展到了以语音输入、动作识别等技术为代表的自然交互时代n1。特别是视觉计算技术的发展,使计算机获得了初步视觉感知的能力,能“看懂”用户的动作。手势识别作为一种直观自然的输入方式,把人们从传统接触性的输入装置中解放出来,可以以一种更自然的方式与计算机交互,使计算机界面变得更加容易。 手势主要分为静态手势和动态手势两种,动态手势可以看作是连续的静态手势序列。动态手势具有丰富和直观的表达能力,与静态手势结合在一起,能创造出更丰富的语义。利用动态手势识别构建新型的交互界面,是新一代的人机交互界面对输入方式自然性的要求,可以弥补传统交互方式的不足。基于视觉和手势识别研究正处于蓬勃发展的阶段,仍存着的许多值得研究的问题。研究基于视觉的动态手势识别对于构建更加好友的人机交互界面很有意义。

关于计算机视觉的手势识别综述

关于计算机视觉的手势识别综述 蒋指挥 (江苏科技大学江苏镇江 213022) 摘要:计算机技术的高速发展也产生了许多新领域,在此对以计算机视觉为基础的手势检测识别技术展开综述。主要阐述该技术的发展历程、实现方法、研究现状以及其存在的不足之处和发展方向。结果表明简单的可穿戴设备的手势识别和深度视觉传感器的手势识别和多方法交叉融合的手势识别是未来该领域的发展方向。 关键词:计算机视觉;手势识别;人机交互 A survey of gesture recognition in computer vision//Jiang Zhi Hui Abstract;With the rapid development of computer technology, a lot of new fields have been developed. In this paper, the technology of gesture detection and recognition based on computer vision is reviewed. This paper describes the development of the technology, the realization method, the research status and its shortcomings and development direction. The results show that the simple wearable device for hand gesture recognition and depth vision sensor for hand gesture recognition and multi method cross fusion for gesture recognition is the future direction of the development of the field. Key words:Computer vision; gesture recognition; human-computer interaction 计算机在我们的生活中越来越不可或缺,我们同时也对计算机提出了更高的要求,计算机视觉的手势识别正是对计算机应用拓展的重要途径,例如现在的VR技术,就是应用了手势识别才实现的。ABIResearch公司高级分析师约书亚·弗拉德(JoshuaFlood)指出:“免提操作或手势识别很快将成为高端旗舰智能手机、媒体平板电脑和智能眼镜区别于其他同类产品的一个关键因素。三星电子最新推出银河S4已经将这项技术用于其手机中,并以其全新的用户体验获得用户交口称赞。此外,在一系列新型智能眼镜产品即将发布之时,不难想象这类技术将被采用。”其实手势识别技术涵盖了许多领域,比如物理学、生物学等,实现手势识别的方式有很多种从一开始的二维手型识别、二维手势识别到后来的三维手势识别,正是计算机视觉技术的发展使得手势识别的实现方式更加多样。但目前的技术仍然很繁琐,冗杂的可穿戴设备就直接影响了使用者的舒适感,其还有很大的发展空间。 1、手势识别的发展历程及其实现方法

表情识别技术综述

表情识别技术综述 摘要:表情识别作为一种人机交互的方式,成为研究的热点。基于对表情识别的基本分析,文章重点介绍了面部表情识别的国内外研究情况和面部表情特征的提取方法。 关键词:表情识别;特征提取;表情分类。 前言:进入21世纪,随着计算机技术和人工智能技术及其相关学科的迅猛发展,整个社会的自动化程度不断提高,人们对类似于人和人交流方式的人机交互的需求日益强烈。计算机和机器人如果能够像人类那样具有理解和表达情感的能力,将从根本上改变人与计算机之间的关系,使计算机能够更好地为人类服务。表情识别是情感理解的基础,是计算机理解人们情感的前提,也是人们探索和理解智能的有效途径。如果实现计算机对人脸表情的理解与识别将从根本上改变人与计算机的关系,这将对未来人机交互领域产生重大的意义。 正文:一、面部表情识别的国内外研究情况 面部表情识别技术是近几十年来才逐渐发展起来的,由于面部表情的多样性和复杂性,并且涉及生理学及心理学,表情识别具有较大的难度,因此,与其它生物识别技术如指纹识别、虹膜识别、人脸识别等相比,发展相对较慢,应用还不广泛。但是表情识别对于人机交互却有重要的价值,因此国内外很多研究机构及学者致力于这方面的研究,并己经取得了一定的成果。 进入90年代,对面部表情识别的研究变得非常活跃,吸引了大量的研究人员和基金支持。美国、日本、英国、德国、荷兰、法国等经济发达国家和印度、新加坡都有专门的研究组进行这方面的研究。其中MIT的多媒体实验室的感知计算组、CMu、Ma州大学的计算机视觉实验室、Standford大学、日本城蹊大学、大阪大学、ArR研究所的贡献尤为突出。 国内的清华大学、哈尔滨工业大学、中科院、中国科技大学、南京理工大学、北方交通大学等都有专业人员从事人脸表情识别的研究,并取得了一定的成绩。在1999年的国家自然科学基金中的“和谐人机环境中情感计算理论研究”被列为了重点项目。同时中国科学院自动化所、心理所以及国内众多高校也在这方面取得了一定的进展。2003年,在北京举行了第一届中国情感计算与智能交互学术会议,会议期间集中展示了国内各研究机构近几年来从认知、心理、模式识别、系统集成等多种角度在情感计算领域取得的研究成果,一定程度上弥补了我国这方面的空白。国家“863”计划、“973”项目、国家自然科学基金等也都对人脸表情识别技术的研究提供了项目资助。 二、面部表情特征的提取方法 表情特征提取是表情识别系统中最重要的部分,有效的表情特征提取工作将使识别的性能大大提高,当前的研究工作也大部分是针对表情特征的提取。 目前为止的人脸面部表情特征提取方法大都是从人脸识别的特征提取方法别演变而来,所用到的识别特征主要有:灰度特征、运动特征和频率特征三种阎。灰度特征是从表情图像的灰度值上来处理,利用不同表情有不同灰度值来得到识别的依据。运动特征利用了不同表情情况下人脸的主要表情点的运动信息来进行识别。频域特征主要是利用了表情图像在不同的频率分解下的差别,速度快是其显著特点。在具体的表情识别方法上,分类方向主要有三个:整体识别法和局部识别法、形变提取法和运动提取法、几何特征法和容貌特征法。 整体识别法中,无论是从脸部的变形出发还是从脸部的运动出发,都是将表情人脸作为一个整体来分析,找出各种表情下的图像差别。其中典型的方法有:基于特征脸的主成分分析(prineipalComponentAnalysis,pCA)法、独立分量分析法(Indendent ComPonent Analysis,ICA)、Fisher线性判别法(Fisher’s Linear Discriminants,FLD)、局部特征分析(LoealFeatureAnalysis,LFA)、Fishe诞动法(Fisher^ctions)、隐马尔科夫模型法(HideMarkovModel,HMM)和聚类分析法。

基于手势识别的人机交互综述

基于手势识别的人机交互综述 摘要:近年来,得益于虚拟现实、人机界面技术、计算机视觉等领域的发展,基于手势识别的人机交互技术得到大力的推动。本文就基于手势识别的人机交互技术展开综述。首先概括手势交互的涉及领域,回顾其发展史和国内外研究现状。接着阐明它的基本界定和分类,并在此基础上分析其热点关键技术。然后实例讨论了几种类型手势交互的典型应用。最后给出了结论。 关键词:虚拟现实;手势交互;计算机视觉;手势识别;特征跟踪 1.引言 人机交互技术通过输入、输出设备,以有效的方式实现交互主体与交互客体的对话。当前的人机交互技术已经从过去交互主体适应交互客体,发展为交互客体不断地适应交互主体的习惯和以交互主体为中心的新阶段[1,2,3,4]。以用户为中心的,新型、自然的人机交互技术逐渐成为开发者和科研工作者的关注重点。这类交互方式要求输入与输出能够最大限度地符合交互主体的行为习惯,并能够在交互主体的脑中顺利构建交互环路。由于手势具有极强的信息表述功能,加之人手操作行为本身就是人与世界相互作用的主要方式,因此,基于手识别的人机交互技术相关研究有着重要的理论价值和应用价值。基于手势识别的人机交互技术涉及计算机科学、认知心理学、行为学等诸多方面的知识。本文不能面面俱到,仅就手势交互的基本问题:手势语义的分类,以及当前发展概况、研究热点技术和典型系统应用等相关问题进行综述。 2.研究现状 目前,基于视觉的手势交互已被广泛的研究,由于手势本身的多义性及时空差异性,加之手形变的高维度及视觉问题本身的不适定性,基于视觉的手势识别一直是一项极富挑战性的究课题[5]。需要解决的核心问题是对手形的识别,对手势的跟踪等。传统的方法主要分为两大类:(1)基于模型(model-base)的方法;(2)基于表征(appearance-based)的方法[6]。这些方法及其衍生算法极大程度地依赖于计算机科学中虚拟现实、机器视觉、模式识别、人机交互等多个领域的交流与合作。相关的国际会议:CHI、ICCV、CVPR、ICAT、IEEE VR 为研究者提供了一个能充分交流的空间,并吸引了越来越多的研究人员共同参与合作。此外,学科之间的交流也吸引了心理学研究人员的共同参与。他们以从用户为中心出发,为基于手势交互研究和开发提出了宝贵意见[7]。纵观手势交互的发展历程,其研究重点也从早期简单的系统框架、低层特征提取[8]、手形模板匹配[8]等问题转变到关节式物体跟踪[9,10, 11]、跟踪性能评价[12]、操作型手势解析[14]等问题上。我国在基于手势识别的人机交互领域的研究近年来得到了长足的发展。研究机构集中在国内的研究所和高校的科研单位。目前国内手势交互的研究成果主要有:中国科学院软件研究所[15]的研究中,对二阶自回归过程动力学模型(Auto-Regressive Process, ARP)进行训练和学习,进而建立基于ARP 的预测模型,实现了人手运动的鲁棒性跟踪,在出现跟踪丢失的情况下在后续序列中可以自动恢复正确跟踪。中国科学院自动化研究所模式识别实验室提出一种基于区域的多连接体(手指)的三维运动跟踪算法[13],用多约束融合的方法以及手指的运动特性,建立多刚体的三维运动描述,通过三类基本约束条件,把跟踪问题归结为一个约束误差优化问题。清华大学的崔锦实博士,提出一种基于回归-优化方法的关节式物体的姿态估计方法[16]。该方法把回归分析与全局优化搜索相结合,保证了估计的精度和连续性;针对现有滤波器在高维非线性多峰

手势识别综述

手势识别综述 【摘要】介绍了手势识别的定义、分类,手势识别的过程,动态手势识别的过程。 【关键词】手势建模;傅里叶描述子;动态手势 1手势定义和分类 通常在人机交互领域手势定义为:人类通过手掌和手指的不同姿势组合形成的具有特定含义的信息的集合体称为手势。 手势通常可以分为操作性手势和交流性手势:如钢琴伴奏家在弹奏钢琴时的手指动作属于操作性手势,通过十个手指的不同组合,在键盘上发出不同声音形成乐曲的弹奏,只有操作的含义,不含有视觉上信息。马路上交警指挥路况时手上的动作属于交流性手势,通过司机观察交通警察手上不同动作理解警察的意思,含有视觉上的信息。 按照手势在表达的信息中所处的地位分为自主性手势和非自主性手势:哑语演示时表演者手上的手势动作完全表达了哑语表演者的思想,手势在语义交流中占主导地位,属于自主性手势,演员表演节目时有时为了更好的表达情感会用手势加深语义表达,但是手势只是为了更好表达意思,起到对演员表达思想的补充,这种手势动作这属于非自主性手势,在语义表达中不占主导地位。按照手势在交流活动中手势的作用对象分为离心手势和向心手势:比如说话人在下命令时手指向受命人这种手势属于离心手势,例如交通警察在交通管制中的手势属于离心手势,当听到某消息时听者会有相应的情感反应这时的手势属于向心手势,例如小朋友表示不同意时摇手即为向心手势。当操作者利用手势表达思想的时候有两种方式,一种是手臂不动完全通过手指和手掌的运动来表达操作者的意思,还有一种是忽略手指的运动,通过手的运动轨迹来表达思想。当我们做研究时会遇到手和手指同时运动的情况这时为了分类方便,需要做相应约束,当手是动的应忽略手指的动作,反之如果手指在动这时应忽略手的运动轨迹。因为基于表观的手势识别最终面临的是手的2D图像如果手和手指的运动同时考虑的话会给分类造成不必要的麻烦。 2手势识别的分类 按照对手势数据采集的方式分为数据手套型和摄像头型。 2.1数据手套 虚拟现实中重要组成部分,是一种通用的人机接口他可以将手指的复杂动作通过传感器反应到虚拟环境中去,在虚拟环境中真实再现手部动作。数据手套使用的效果关键是手套能不能将手指、手掌、手腕的弯曲真实的以数据形势反演到系统数据库中,让系统根据模型对手势进行有效识别,由于手部软组织和计算复杂性,数据手套的计算速度总是存在延时,同时从人机交互的角度手套佩戴也十分不方便,如果多人使用还存在卫生等问题,因此数据手套目前来说只是应用在试验阶段,真正推广到社会应用还有很多问题要解决。例如由海军某课题组开发的某型飞机训练仿真系统采用了数据手套,将人的动作如拉升飞机操纵杆通过数据手套反应到系统中,但是不足之处是手套存在一定的延时,通常第二个动作都准备做了,第一个动作系统往往还没执行,这和真实的飞机操作存在很大的差别,但是要想系统及时接受数据手套传感来的数据,往往对系统的中央处理器要求很高,需要大量投入经费和人力,存在一定的矛盾。因此数据手套在虚拟仿真中往

相关文档
最新文档