回顾：人机交互中的手势的可视化解释

本科毕业设计（论文）

外文参考文献译文及原文

学院机电工程学院

专业数字媒体技术

年级班别2008级（1）班

学号3109000746

学生姓名李林钢

指导教师冯开平

2013年6 月

译文：回顾：人机交互的手势的可视化解释 (1)

1 引言 (1)

2手势建模 (3)

2.1定义手势 (3)

2.2手势分类 (5)

2.3 手势的暂时性模型 (5)

2.4空间建模手势 (6)

3手势分析 (7)

原文： Visual Interpretation of Hand Gestures for Human-Computer Interaction:

A Review(见同名文献) .................................................. 错误！未定义书签。

1 INTRODUCTION .......................................................................... 错误！未定义书签。

2 GESTURE MODELING ................................................................ 错误！未定义书签。

2.1 Definition of Gestures .......................................................... 错误！未定义书签。

2.2 Gestural Taxonomy ............................................................... 错误！未定义书签。

2.3 Temporal Modeling of Gestures ........................................... 错误！未定义书签。

2.4 Spatial Modeling of Gestures ............................................... 错误！未定义书签。

3 GESTURE ANAL YSIS ..................................................................................... 错误！未定义书签。

译文：

回顾：人机交互的手势的可视化解释

1 引言

随着计算机在社会的大量涌入，人机交互（HCI），已经成为我们日常生活中越来越重要的一部分。人们普遍认为，计算，通信和显示技术的进步，甚至进一步，现有的人机交互技术可能会成为可用信息流的有效利用率的一个瓶颈。例如，最流行的人机交互模式是基于简单的机械装置的键盘和鼠标。这些设备已发展到很家喻户晓，但它有固有的限制，就是在我们跟计算机进行交互的速度和自然性方面。随着新的显示技术的出现，例如虚拟现实[2] ，[78]，[41]，此限制已变得更加明显。因此，近年来向新颖的设备和技术发展的研究已经有了一个巨大的推动，这将解决这个人机交互的瓶颈。

一个长期一直在人机交互的尝试就是要迁移到“自然”，也就是指人类借助人机交互与对方沟通。有了这个动机，自动语音识别一直都保持着几十年来的研究课题的地位。语音识别已经取得了巨大的进步，几个成功商业化的演讲接口的已经部署[75]。然而，只是在最近几年来才增加了将人和人的交流方式引入人机交互中，这包括了以人的手臂，或手的运动为基础的一类技术。人类的手势是人与人之间的非言语互动的一种手段。它们的范围从简单的行动，用我们的手来指向和移动对象到更复杂的表达我们的感情，从而能够让我们与他人进行沟通。

为了在人机交互中利用手势，有必要提供方法，使手势可以被计算机解释。手势的人机交互解释要求的人的手，手臂的动态和/或静态的配置，甚至是对人体的其他部分时，是可被机器所测量的。第一次尝试来解决这个问题的时候引出了机械装置用来直接测量的手和/或手臂的关节角度和空间位置。所谓的手套的是这一组设备表现力最好的[9]，[32]，[88]，[70]，[101]。手套基于手势界面，要求用户穿戴笨重的装置，一般通过电缆将设备连接到一台计算机。这阻碍了与该用户可以与计算机控制的环境中进行交互的易用性和自然性。即使使用这种特定的设备可能是合理的一个高度专业化的应用领域，例如在一个虚拟现实环境中模拟手术，“日常”的用户肯定会对这样繁琐的接口工具望而却步。这催生了活跃的研究朝着更“自然”的人机交互技术。

潜在的，任何的笨拙地使用手套和其他设备是可以克服的，也就是使用以视频为主

的非接触式交互技术。此方法建议使用一组的视频摄像机和计算机视觉技术用来解释手势。在这方面所产生的基于视觉的接口的无阻碍性导致了在最近的活动的一个新突破。在计算机视觉技术的最新进展中，可能促成这种兴趣不断增加的其他因素，包括快速计算的实现，使得实时视觉处理是可行的。很多方法已被应用到人机交互手势的视觉解释的问题，如将在以下各节中看到。许多这些方法已被选用和实施，使他们专注于一个特定方面的手势，比如，专人跟踪，手的姿势估计，或手的姿态分类。在一些特定的应用程序，如用手指作为指针来控制电视，或美国手语解释的背景下，已经开展了许多研究。

直到最近，大多数基于视觉的手势人机交互工作一直侧重于静态手势或姿势识别。多种型号，其中大部分直接取自一般物体识别方法，已被用于这一目的。手的图片，几何矩，轮廓，剪影，3D手骨架模型是几个例子。然而，在最近一年中，才产生了结合手势的动态特性的兴趣。其基本原理是动态手势动作和手的运动传递尽可能多的意义，他们的手势一样。已经提出了许多方法，包括从全局手动分析，独立的指尖运动分析，手势分析。基于视觉的手势分析的推动下，需要开发更自然，高效的人机接口，有关的各种研究也因此获得了快速增长。这些研究报告分布在不同的文献中，但是有时候他们的研究角度和阐述会产生一定程度的混乱。因此，有越来越多的需要去调查最先进的基于视觉的手势识别，和去系统分析基于视觉的手势的人机界面的进展。本文试图汇集在它作用的不同的人机交互背景下，视觉手势解释的最新进展。

我们以对手势识别系统的通常看法为基础，将后面的讨论分成了以下的几个部分，开展了调查：

?手势建模（第2节）

?手势分析（第3节）

?手势识别（第4节）

?基于手势的系统和应用程序（第5）

识别任务（在一个研究中或清晰或隐约被考虑到）的第一阶段是选择一个模型的手势的数学模型可以同时考虑空间和时间特性的手和手势。我们致力于手势建模问题深入讨论。用于建模的方法，解释手势的性质和证明性能起着举足轻重的作用。

一旦决定了模型之后，分析阶段从单个或多个视频输入流中提取图像的特征，作为计算模型的参数。这些参数构成手部姿势或轨迹，取决于所使用的建模方法的一些描述。参与分析的重要问题是手势定位，专人跟踪，以及选择合适的图像特征。我们在第3节中讨论这些和其他问题的姿态分析。

其次是手势识别模型参数的计算。在这里，会有参数的分类和解释公共的模型，也许是一些语法规则约束。语法可以反映的不仅仅是内部语法的手势命令，但也可能与其他通信模式，如讲话，目光，表情手势的互动。评价中的一个特定的手势识别方法包括精确度，健壮性和速度，以及不同类别的手/手臂的动作，它涵盖变化的数量。我们调查了在第4节的各种手势识别方法。

做手势识别的研究报告的一个主要动机就是去研究各种应用程序使用手势的可能性，旨在在人和各种计算机控制的监视器之间的一个自然的互动。其中的一些应用已被用来作为定义手势识别的基础，因此可以有目的地，制定相关的计算机视觉问题。在第5章中，我们将调查一些报告，以及其他潜在的可视化解译手势的应用虽然在手势识别中的目前的进展是令人鼓舞的，需要进一步的理论和计算的进步手势之前，可广泛用于人机交互。我们讨论一些手势识别，包括在第6章提及的人机交互模式的整合与研究方向，以及第7章的结束语。

2手势建模

为了系统地讨论本文提及的手势解释，重要的是要首先考虑的是什么类型的手势。事实上，一个手势的人机交互界面的范围，直接关系到适当的手势建模。如何模拟手势主要取决于预期的应用程序内的人机交互上下文。对于一个给定的应用程序，非常粗糙和简单的模型，就足够了。然而，如果目标是一个类似天然的交互则必须建立一个模型，它允许许多不是自然的手势来解释计算机。以下讨论将围绕解决人机交互的手势建模的问题而展开。

2.1定义手势

人机交互框架之外，手势不能很容易地定义。如果它们存在，特别是关于对人的手和身体动作的通信方式。在韦伯斯特的词典中，手势定义为“....的四肢或身体作为表达的手段的一种运用，即一个通常表达或强调一个想法，情绪，或态度的身体或四肢的运

动”。心理和社会的研究往往以缩小这种宽泛的定义，主要讨论人的表达和社会互动。然而，在人机交互领域的手势的概念是有所不同的。在一台电脑控制的环境中，要求使用的人的手来执行任务，模仿手的自然使用作为一个操作者，或使用在人机交流中（通过手势对计算机/机器功能的控制）。以前定义手势，在另一方面，是很少的，如果有的话，关注同前所述使用人的手（所谓实用的手势[48]）。

手势是一种通信手段，类似于口语。对于生产和感知手势，可以因此使用常见的在口语语言识别领域的一个模型来描述[85]，[100]。该模型的解释，适用于手势。根据该模型，手势起源于一个进行手势的人的心理概念，可能是在配合讲话。手臂和手的运动，就像通过人的声道的气流变化——讲话一样，起到了表达的作用。此外，观察者发现手势实际上是一种用来用已有知识解释事物的虚拟手势图像的流。手势的生产和感知的模型也可以归纳成以下表格：

H = T hg G (1)

V = T vh H (2)

V = T vh(ThgG) = T vg G (3)

变换T.可以被看作是不同的模型：Thg是手或手臂的运动给定的手势G的一个模型，Tvh是一个可视化的图像的手或手臂动作的模型H，Tvg描述的是在给定手势G的条件下，视觉图像V的是如何形成的。这些模型是参数化的，参数属于其各自的参数空间07。根据这种记法，可以说，用视觉解释手势的目的是使用一个合适的手势模型，从可视的图像V去反推断手势，使用一个合适的模型T vg，或

在视觉手势解释的背景下，在考虑下面的定义中它可能是有用的：每次手势的实现就可以被看作是一个模型参数空间中的轨迹。例如，在执行一个手势的过程中，人的手的位置在3D空间中描述了一种在这样的空间中的轨迹图。手势定义的随机属性的肯定他们的自然风貌：相同的手势不存在两个不同的表现，这将导致同样的手和手臂的运动或同样的的视觉图像。时间间隔的呈现，暗示了姿态的动态特性。

手势的分析和识别问题可以由以上定义牵扯到的参数而被提出。例如，在参数M T 中构建手势模型T的问题，和定义手势间隔的问题。

2.2手势分类

一些在心理学上未统一的分类的手势会在文中提到。肯登[48]区分了“自主型手势（不在讲话中出现的手势）跟“做手势”（手势在和讲话配合中出现）。麦克尼尔和李维认出了这三种手势：符号型手势和暗示性手势，还有“击打”。这种分类似乎在Quek最近设计的人机交互的内容中更恰当。这里给出了一个轻微修改过的分类版本。

所有的手和臂的动作，将会首先分类在这两个主要范畴中。

·手势

·非自主运动

非自主运动是手臂的不表达任何意义的运动，而手势本身也有两个方式：

·交流性的手势

·操纵性的手势

操纵性的手势用于在环境中的对象（对象的移动，旋转等）。交际的手势，在另一方面，有一个固有的通信目的。在自然环境中，它们通常是伴随着语音。交际手势可以是行为或符号。符号是那些有语言的作用的手势。他们象征着一定的参考作用（例如，食指的圆形运动可能是一个指一个车轮）或用作的模型化的，往往讲话（例如，“看，机翼！”和模型化的手势指定机翼振动）。在人机交互的内容中，这些手势，到目前为止，是最常用的手势之一，因为它们可以由不同的手的静态姿势来表示，正如我们将在第5节进一步讨论的一个。最后，行为是直接跟运动相关的手势。这种运动被分为模仿（模仿一些动作）和指示（指着行为）。

手势的分类很大程度上影响确定参数空间M T和手势间隔。一个相关的问题是手势动力学，这是我们之后讨论的内容。

2.3 手势的暂时性模型

由于人类的手势是一个动态的过程，因而重要的是要考虑手势的时空特征。这可能

有助于区分手势和其他不经意的手/手臂动作。在我们的一般手势的定义，相当于确定手势间隔。令人惊讶的是，心理学研究是相当一致的时空性质的手势。肯登调用此区间[48]“手势语”已确定三个阶段构成了一个个手势：

?准备，

?核（峰值或平坦值[65]），

?回缩。

准备阶段，包括从一些休息的位置到运动的预备动作。手势在人机交互的分类中，有意义的手势是区别的于无意的动作的。用手势操作（检查）对象是分开的手势，具有内在的沟通字符。核手势有一些“明确的形式和动态增强素质”[48]。最后，手或者返回到静止位置或重新定位为新的手势相。这个规则的一个例外是所谓的“节拍”（手势讲话的韵律结构有关）。

上面的讨论中可以指导我们在这个过程中的时间手势的辨别。这三个时间阶段通过一般的手/手臂运动是有区别的：“准备”和“回缩”的特点是快速变化的手的位置，而“平坦值”，在一般情况下，表现出相对较慢的手部动作。然而，正如我们将看到在第4节，手势解释的复杂性，通常在允许的时间内变化的手势施加更严格的限制。因此，在基于视觉的手势的人机交互的工作有时会减少手势他们的静态等效物，并忽略了他们的动态性质。

2.4空间建模手势

手势是手和手臂的动作，动作在三维空间中观察到。手势的说明因此还涉及它们的空间性质的表征。这一特性在HCI领域迄今主要影响因素的手势界面的目的是通过什么样的应用。例如，一些应用需要的简单模型（像人的手在电视机控制[35]中的静态图像模板），而另一些人需要更复杂的（例如3D手模型[56）。

如果一个人认为的手势生产和感知模型，在2.1节的建议，有两种可能的手势建模方法可能会变得明显。另外一个方法是尽量从视觉上观察到的图像，正如由（4）直接推断手势。这种方法已被经常使用到模型的手势，通常表示为外观基础建模。如果人类的手和胳膊的中间手势的被考虑到，可能会出现另一种方法。在这种情况下，一个两步

骤的建模过程可能如下：

换句话说，可以先模拟运动和姿势的手和手臂H $然后推断手势G $的运动和姿势的模型参数。遵循这种方法被称为基于3D的一组模型。

我们将表示出手势的空间建模中使用的两种主要方法。我们也会更加紧密地结合下面的小节，来研究了这两种方法。

3手势分析

在前面的章节中，我们讨论了不同的方法来模拟手势的人机交互。在本节中，我们将讨论手势的分析部分，目标是估计手势模型的参数，借助了操作者在人机交互的视频图像中的测量结果。有两个大致按顺序的任务所涉及的分析（参见图8）。第一项任务涉及的“检测”或从相关原始图像或图像序列提取图像特征。第二个任务使用这些图像特征，用于计算的模型参数。我们讨论了不同的分析中使用的方法。