多模态人机交互综述(译文)

合集下载

多模态人机交互技术及其应用分析

多模态人机交互技术及其应用分析多模态人机交互技术是指利用多种不同的感知模式（如语音、手势、触摸等）来与计算机进行交互的技术。

它将人的自然交互方式引入了计算机交互领域,打破了传统输入方式的限制，开启了人机交互的全新时代。

那么，多模态人机交互技术有哪些应用呢？一、智能家居智能家居作为近年来的热门应用之一，多模态人机交互技术在这个领域中显得尤为重要。

智能家居中，通过语音识别技术能够让用户更加便捷地控制家中的电器，比如说直接口头喊出“开灯”或“关窗”。

而在音频识别技术的支持下，让家居设备成为一个可交互的个人助理，可以根据用户的语音指令来实现情景模式设置、音乐播放、天气查询等各项功能。

二、智能医疗在医疗行业，多模态技术创造了一个更加友好的人机交流环境。

通过虚拟现实技术，医生和治疗师可以模拟病人在现实生活中的情景，从而更好地了解病情和进行疗效评估。

在康复治疗中，多模态交互也可以被用来支持患者进行言语和结构化言语训练，可以使得患者更自然、更愉悦地参与到康复训练中，增加康复效果。

三、虚拟现实与游戏虚拟现实游戏使得人们可以在虚拟的世界里体验到现实生活中不可想象的事情，比如比赛体验、极限运动、枪战等。

而多模态交互技术又能让用户更加自然地与虚拟世界进行交互，从而进一步增强虚拟现实游戏中的真实感和沉浸感。

四、教育多模态人机交互在教育领域中同样有着广泛应用。

当我们通过多种交互方式与机器进行互动时，我们的注意力就会被吸引，并从中得到满足感。

多模态人机交互能够使得学生更加自然地与机器进行交互，从而使得学习变得更加生动有趣。

五、智能出行随着智能交通的推进，交通出行的方式正在悄然发生改变。

通过多模态人机交互技术，可以让车主或者乘客利用语音识别技术来掌控车内各种功能，实现无需手动操作，从而提高交通出行的安全性。

而在自动驾驶技术不断成熟的过程中，多模态人机交互技术的重要性将愈加凸显。

总之，多模态人机交互技术的应用范围是非常广泛的。

它能够改变我们与计算机的交互方式，使我们更加自然、更加快速、更加便捷地和计算机进行沟通。

人机交互中的多模态交互技术研究

人机交互中的多模态交互技术研究随着科技的发展，人机交互已经成为现代社会中不可或缺的一部分。多模态交互技术作为人机交互领域中的重要研究方向之一，致力于通过多种感知手段，如视觉、听觉、触觉等，实现更加丰富、高效、智能的人机交互体验。本文将对多模态交互技术的研究进行探讨，并介绍其在不同领域中的应用。

一、多模态交互技术概述多模态交互技术是指通过多种感知通道传递信息，使人机之间的交互更加丰富和便捷。传统的人机交互主要依赖于单一的感知通道，如键盘、鼠标等，而多模态交互技术则通过结合多种感知方式，使用户可以同时或根据需要选择多个通道进行交互。多模态交互技术主要包括视觉、听觉、触觉等感知方式，并结合语言、手势、动作等交互方式。

二、多模态交互技术的研究方向 1. 情感识别与表达：多模态交互技术可以通过分析人脸表情、声音语调、肢体语言等多个维度的信息，来识别用户的情感状态，并通过合适的方式进行情感表达。比如，在虚拟现实游戏中，通过结合虚拟角色的表情和声音，可以更好地传递情感信息，增强游戏体验。

2. 自然语言处理：多模态交互技术可以结合语音和图像信息进行自然语言处理，实现更加智能和自然的对话交互。例如，语音助手可以通过识别用户的语音指令，并结合图像信息来更准确地理解用户的需求，提供更有针对性的回答。

3. 视觉与触觉交互：多模态交互技术可以通过结合视觉和触觉信息，实现更加直观、真实的交互体验。例如，在虚拟现实设备中，通过结合视觉和触觉反馈，可以使用户感受到更加生动、沉浸式的虚拟环境。

三、多模态交互技术的应用领域 1. 虚拟现实技术：多模态交互技术在虚拟现实领域中有着广泛的应用。通过结合视觉、听觉、触觉等多种感知方式，可以提供更加真实、沉浸式的虚拟体验。例如，在虚拟现实游戏中，通过结合视觉、听觉和触觉交互，使得玩家可以更好地与虚拟环境进行互动。

2. 智能交通系统：多模态交互技术在智能交通系统中也有着重要的应用。通过结合图像识别、声音识别等技术，可以实现智能驾驶、交通信号灯优化等功能，提升交通系统的效率和安全性。

人机交互知识：多模态人机交互中的交互学和交互设计

人机交互知识：多模态人机交互中的交互学和交互设计随着人工智能技术的不断发展和普及，多模态人机交互成为了人机交互领域的一个重要研究方向。

多模态人机交互可以将多种交互方式结合起来，使得用户体验更加自然、便捷、高效。

在多模态人机交互中，交互学和交互设计是非常重要的两个方面，本文将重点探讨这两个方面的相关知识。

1.交互学交互学，是关于人机交互过程本身的研究。

在多模态人机交互中，交互学主要研究如何使得用户和计算机之间的交互更加自然、便捷、高效。

具体来说，交互学的研究范围包括以下几个方面：（1）感知和认知在多模态人机交互中，用户可以通过多种感官方式进行交互，如声音、视觉、触觉等。

交互学需要研究用户对不同感官输入的感知和认知过程，以及如何更好地利用这些感官输入信息来实现交互。

例如，如果用户同时使用语音和手势进行交互，交互学需要研究如何协调这两种输入方式，让用户感知和认知过程更加流畅自然。

（2）任务与场景设计在设计多模态人机交互系统时，需要考虑用户所处的任务和场景，以便实现更加有效的交互。

交互学需要研究如何在不同的场景下设计合适的交互方式，包括如何组合不同的交互方式，以及如何优化交互方式的效率和易用性。

（3）交互模型交互模型是指人机交互过程的一个抽象表示，可以用来描述用户和计算机之间的交互内容、方式以及交互状态等。

交互学需要研究如何建立有效的交互模型，以便实现更好的交互。

2.交互设计交互设计是指通过设计合适的界面和交互方式，使得用户能够更加便捷、高效地与计算机进行交互的一种设计方法。

在多模态人机交互中，交互设计需要考虑如下几个方面。

（1）用户需求分析交互设计需要首先进行用户需求分析，了解用户的喜好、习惯、需求等方面，在此基础上进行设计。

例如，如果用户希望以语音的方式进行交互，那么应该选择支持语音输入的界面设计，以提高交互效率。

（2）可用性设计在进行交互设计时，需要考虑界面和交互方式的易用性，使得用户更加方便、快速地完成任务。

人机交互界面设计的多模态交互技巧

人机交互界面设计的多模态交互技巧随着科技的不断发展，人机交互界面设计逐渐成为现代生活中不可或缺的一部分。

为了提供更优质的用户体验，设计师们借鉴了多种交互模式，并将其融入到界面设计中，从而实现多模态交互。

本文将介绍几种常见的多模态交互技巧，并探讨它们对用户体验的影响与应用场景。

一、语音交互语音交互是多模态交互中常见的一种方式。

通过运用语音识别技术，用户可以通过语音指令或对话的方式与机器进行交互。

这种交互方式不仅提高了用户的操作便利性，也增加了界面设计的可访问性。

例如，智能助理应用程序通常会通过语音交互来帮助用户完成任务，如播放音乐、查询天气等。

二、手势交互手势交互是基于人体动作的一种交互模式，通过识别用户的手势动作来实现控制与操作。

在移动设备的界面设计中，手势交互得到了广泛应用。

用户可以通过滑动、捏合、拖动等手势动作来进行浏览、缩放等操作。

手势交互的优势在于其直观性和自然性，使用户能够更快速地与设备进行互动。

三、触摸交互触摸交互是最为普遍的一种交互方式，通过触摸屏幕来实现用户与设备的交互。

触摸交互技术的发展使得用户在操作设备时更加直接、快捷。

界面设计师通过合理的触摸交互设计，将功能按钮、菜单以及内容布局等调整到最佳状态，以确保用户的操作体验。

触摸交互还可以与其他模态交互结合，如手势控制与触摸结合实现更多样化的操作需求。

四、眼动交互眼动交互是近年来兴起的一种新兴交互技术。

通过追踪用户眼球的运动轨迹，将其作为指令来实现界面操作。

这种技术广泛应用于虚拟现实、增强现实等领域，为用户提供了沉浸式的交互体验。

通过眼动交互，用户可以通过凝视物体或界面来触发操作，不再依赖传统的物理交互方式。

五、生物识别交互生物识别交互是将生物特征作为一种交互方式的技术。

生物特征包括指纹、面部识别、虹膜等。

借助于生物识别技术，用户可以无需输入密码或使用其他方式进行身份验证，从而进一步提升用户界面设计的安全性和便利性。

生物识别交互技术在移动设备、金融领域以及物联网等领域得到了广泛应用。

多模态人机交互技术研究及应用

多模态人机交互技术研究及应用随着科技的飞速发展和人们消费生活方式的改变，多模态人机交互技术的应用需求也越来越迫切。

多模态人机交互技术指的是利用多种交互模式，使得人们可以通过多种感官方式对计算机进行操作以及获得反馈信息，从而实现更加智能化、高效化的计算机用户体验。

本文将从多个方面探讨多模态人机交互技术的研究进展和应用。

一、多模态人机交互技术的研究现状1.多模态人机交互技术的概念多模态人机交互技术是指利用多种交互模式，同时使用多个输入和输出设备，实现人与计算机之间的交互的技术。

这些不同的输入和输出模式包括视觉、听觉、触感、嗅觉等，以及手语、眼神等非语言元素。

2.多模态人机交互技术的类型多模态人机交互技术主要包括以下几类：（1）语音交互：通过语音识别技术和语音合成技术来实现人和计算机之间的交互。

（2）手势交互：通过人体手势、姿态、眼神等非语言元素与计算机进行交互。

（3）触感交互：通过触觉设备和仪器实现人机交互。

（4）虚拟现实交互：通过虚拟现实技术，使用户可以在虚拟环境中进行与计算机的交互。

3.多模态人机交互技术的研究进展多模态人机交互技术目前已经取得了很多进展。

特别是人工智能和深度学习的发展，为多模态人机交互技术提供了强有力的支持。

近年来，这种技术在游戏、教育、医疗等多个领域展现出广阔的应用前景。

除此之外，多模态人机交互技术在智能手机、家庭娱乐、汽车驾驶等领域中也具有广泛的应用前景。

二、多模态人机交互技术的应用场景1.游戏领域多模态人机交互技术在游戏领域中的应用越来越广泛。

游戏中的人机交互方式不再局限于键盘、鼠标、手柄等传统设备，多模态人机交互技术可以通过语音识别、手势识别等方式，使得玩家可以更加自然地与游戏进行交互。

在虚拟现实游戏领域，多模态人机交互技术的应用也非常广泛，用户可以通过手势、眼神等方式，在虚拟环境中与游戏进行交互。

2.教育领域多模态人机交互技术在教育领域中的应用也非常广泛。

传统教学模式以老师为中心，讲授知识，并向学生提出问题等，而多模态人机交互技术可以使得学生可以自然地与电脑进行交互，让学生能够以自己感兴趣的方式学习，使学习变得更加轻松、自主。

人机交互的多模态设计

人机交互的多模态设计随着科技的不断发展，人机交互的方式也在不断演变。

传统的人机交互主要通过键盘、鼠标等方式实现，但随着人们对交互体验的要求不断提高，单一的交互方式已不能满足需求。

多模态设计应运而生，为人机交互带来全新的体验。

一、多模态设计的概念解析多模态设计是指在人机交互过程中，将多种交互方式相结合，以更好地满足用户的需求。

多模态设计将视觉、听觉、触觉等不同感知方式有机地结合在一起，提供更丰富、更便捷的用户体验。

二、多模态设计的重要性1. 提升用户体验：多模态设计可以提供更直观、更符合人体工程学的交互方式，使用户更轻松地与设备进行沟通和操作。

2. 增强交互可靠性：通过不同的交互方式进行冗余设计，当某种交互方式故障时，其他方式可以继续保证用户的正常交互。

3. 拓展应用场景：多模态设计可以适用于不同的应用场景，如智能家居、虚拟现实、语音助手等，为用户带来更多的便利与乐趣。

三、多模态设计的应用实践1. 视觉与触觉结合：在智能手机上，触觉反馈可以与视觉界面相结合，通过触摸屏幕的同时感受到触觉反馈，增强用户的操作体验。

2. 视觉与声音结合：在虚拟现实设备中，通过视觉和声音的结合，使用户沉浸到虚拟世界中，获得更真实的体验。

3. 触觉与声音结合：在智能音箱中，通过触摸面板和声音指引相结合，使用户可以通过触摸和声音指令来操作设备。

4. 视觉、触觉和声音的综合应用：在自动驾驶汽车中，通过视觉识别、触觉反馈和声音提醒相结合，实现对驾驶员的全方位交互和安全保障。

四、多模态设计的挑战与展望1. 技术挑战：多模态设计需要多种技术的协同工作，如计算机视觉、自然语言处理、机器学习等，技术研发难度较大。

2. 用户习惯：用户对于单一交互方式已经建立了一定的习惯，接受新的多模态设计方式可能需要一定的时间和适应过程。

3. 隐私与安全：多模态设计需要对用户的个人隐私和安全进行有效保护，避免信息泄露和不良使用。

展望未来，随着技术的不断进步和应用的推广，多模态设计将会在更多领域得到应用。

人机交互技术综述

人机交互技术综述随着科技的不断发展，人与机器之间的交互方式也在不断地进化。

在这个以信息为基础和智能化的时代，人机交互技术越来越成为重要的领域，遍及各行各业，其应用也从简单的用户界面设计和交互体验扩展到人工智能、物联网和智能家居等领域。

本文将从人机交互技术的定义、分类、实现方式以及未来发展趋势等方面进行综述。

一、定义与分类人机交互技术指的是人与计算机系统进行交互时，通过各种输入和输出的方式，进行信息交流、控制和协作的过程。

其中，输入方式主要包括语音、手势、触控、键盘等；输出方式主要包括文字、图像、声音等。

根据交互方式和实现形式，人机交互技术可以分为以下几种类型：1、基于桌面的人机交互：主要是指使用鼠标和键盘等传统的输入设备，在桌面这种平面环境中进行交互。

这种交互方式已经成为人们日常使用计算机的标配。

2、基于手持设备的人机交互：随着智能手机及平板电脑的普及，这种交互方式也成为了人机交互技术中的一个重要分支。

手持设备支持的交互方式有触摸屏、手写输入、语音输入等。

3、虚拟现实人机交互：虚拟现实技术的广泛应用，使得人们可以获得更加沉浸式的交互体验。

在虚拟现实设备中，人们可以通过头戴式显示器、手柄等方式进行互动。

4、多模态人机交互：指以多种方式进行交互，如同时使用语音、手势等。

这种交互方式可以让人机交互更加便捷和自然。

二、实现方式人机交互技术的发展离不开硬件和软件的不断更新和升级。

硬件方面，人机交互技术需要支持各种输入和输出方式的设备，例如麦克风、摄像头、触摸屏、声音传感器等。

而在软件方面，为了实现不同的用户要求，开发人员需要采用先进的算法和技术，实现各种用户友好的功能。

人机交互技术还需要考虑在不同平台和操作环境下的表现。

比如说，在移动设备上，用户需要使用手指来进行控制，而在电脑上则需要使用鼠标和键盘。

同时，在不同的操作系统中，人机交互的接口和算法也不同。

为了解决这些问题，移动操作系统和桌面操作系统开发者们也主动推进了相关技术的发展，如智能语音识别、人脸识别等。

人机交互综述

人机交互综述计算机软件和理论专业石玉珠摘要：人机交互是一门综合学科,它的发展需要计算机硬件,软件,网络,认知心理学,人类工效学等多学科共同努力。

所以在将来相当长的一段时间内，人机交互将呈现出多样化的特点，桌面和非桌面界面,可见和不可见界面将同时共存。

以WIMP 为代表的图形用户界面将继续使用和发展,而网络和计算将进入家庭和生活,人们可用多种简单的自然方式进行人机交互。

以不可见,可移动为特征的无所不在计算和以三维,沉浸为特征的虚拟现实环境,将是人机交互面临的重大挑战和研究目标。

关键词：人机交互/界面技术一、人机交互的定义和内涵人机交互是关于设计、评价和实现人们使用的交互式计算机系统，且围绕这些方面的主要现象进行研究的科学。

狭义的讲，人机交互技术主要是研究人与计算机之间的信息交互，主要包括人到计算机和计算机到人的信息交换两部分。

对于前者，人们可以借助键盘、鼠标、数据手套、压力笔等装备，用手、脚、声音、姿势或者视线向计算机传递信息；对于后者，计算机通过打印机、绘图仪、显示器、头盔式显示器、音箱等输出或显示设备给人提供信息。

它涉及计算机科学、心理学、认知科学和社会科学以及人类学等诸多学科，是信息技术的重要组成部分。

人机界面做为计算机系统的重要组成部分，主要是指人类与计算机系统之间的通信方式，包括人-机双向信息交互的支持软件和硬件。

二、人机交互的发展历史及现状作为计算机系统的一个重要组成部分，人机交互一直随着计算机的发展而发展。

人机交互的发展过程，也是人适应计算机到计算机适应人的发展过程。

他经历了如下几个阶段：（一）语言命令交互阶段计算机语言经历了由最初的机器语言、汇编语言，直到高级语言的发展过程。

这个过程也可以看作是人机交互的早期发展过程。

早期的人机交互是通过命令语言进行的，人机之间通过语言的输入输出功能完成交互。

最初，人机交互的方式是采用手工操作输入机器语言命令控制计算机，这种形式很不符合人的习惯，既浪费时间，又容易出错。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Alejandro Jaimes, Nicu Sebe, Multimodal human–computer interaction: A survey, Computer Vision and Image Understanding, 2007.多模态人机交互综述摘要：本文总结了多模态人机交互(MMHCI, Multi-Modal Human-Computer Interaction)的主要方法，从计算机视觉角度给出了领域的全貌。

我们尤其将重点放在身体、手势、视线和情感交互(人脸表情识别和语音中的情感)方面，讨论了用户和任务建模及多模态融合(multimodal fusion)，并指出了多模态人机交互研究的挑战、热点课题和兴起的应用(highlighting challenges, open issues, and emerging applications)。

1. 引言多模态人机交互(MMHCI)位于包括计算机视觉、心理学、人工智能等多个研究领域的交叉点，我们研究MMHCI是要使得计算机技术对人类更具可用性(Usable)，这总是需要至少理解三个方面：与计算机交互的用户、系统(计算机技术及其可用性)和用户与系统间的交互。

考虑这些方面，可以明显看出MMHCI 是一个多学科课题，因为交互系统设计者应该具有一系列相关知识：心理学和认知科学来理解用户的感知、认知及问题求解能力(perceptual, cognitive, and problem solving skills)；社会学来理解更宽广的交互上下文；工效学(ergonomics)来理解用户的物理能力；图形设计来生成有效的界面展现；计算机科学和工程来建立必需的技术；等等。

MMHCI的多学科特性促使我们对此进行总结。

我们不是将重点只放在MMHCI的计算机视觉技术方面，而是给出了这个领域的全貌，从计算机视觉角度I讨论了MMHCI中的主要方法和课题。

1.1. 动机在人与人通信中本质上要解释语音和视觉信号的混合。

很多领域的研究者认识到了这点，并在单一模态技术unimodal techniques(语音和音频处理及计算机视觉等)和硬件技术hardware technologies (廉价的摄像机和其它类型传感器)的研究方面取得了进步，这使得MMHCI方面的研究已经有了重要进展。

与传统HCI应用(单个用户面对计算机并利用鼠标或键盘与之交互)不同，在新的应用(如：智能家居[105]、远程协作、艺术等)中，交互并非总是显式指令(explicit commands)，且经常包含多个用户。

部分原因式在过去的几年中计算机处理器速度、记忆和存储能力得到了显著进步，并与很多使普适计算ubiquitous computing [185,67,66]成为现实的新颖输入和输出设备的有效性相匹配，设备包括电话(phones)、嵌入式系统(embedded systems)、个人数字助理(PDA)、笔记本电脑(laptops)、屏幕墙(wall size displays)，等等，大量计算具有不同计算能量和输入输出能力的设备可用意味着计算的未来将包含交互的新途径，一些方法包括手势(gestures)[136]、语音(speech)[143]、触觉(haptics)[9]、眨眼(eye blinks)[58]和其它方法，例如：手套设备(Glove mounted devices)[19] 和and可抓握用户界面(graspable user interfaces)[48]及有形用户界面(Tangible User interface)现在似乎趋向成熟(ripe for exploration)，具有触觉反馈、视线跟踪和眨眼检测[69]的点设备(Pointing devices)现也已出现。

然而，恰如在人与人通讯中一样，当以组合方式使用不同输入设备时，情感通讯(effective communication)就会发生。

多模态界面具有很多优点[34]：可以防止错误、为界面带来鲁棒性、帮助用户更简单地纠正错误或复原、为通信带来更宽的带宽、对不同的状况和环境增加可选的通信方法。

在很多系统中，采用多模态接口消除易出错模态(error prone modalities)的模糊性是多模态应用的重要动机之一，如Oviatt [123]所述，易出错技术可以相互补充，而不是给接口带来冗余和减少纠错的需要。

然而，必须指出的是：多模态单独(multiple modalities alone)并不为界面带来好处，多模态的使用可能是无效的(ineffective)，甚至是无益的(disadvantageous)，据此，Oviatt[124]已经提出了多模态接口的共同错误概念(common misconceptions or myths)，其中大多数与采用语音作为输入模态相关。

本文中，我们调研了我们认为是MMHCI本质的研究领域，概括了当前研究状况(the state of the art)，并以我们的调研结果为基础，给出了MMHCI中的主要趋势和研究课题(identify major trends and open issues)。

我们按照人体将视觉技术进行了分组(如图1所示)。

大规模躯体运动(Largescale body movement)、姿势(gesture)和注视(gaze)分析用于诸如情感交互中的表情识别任务或其它各种应用。

我们讨论了情感计算机交互(affective computer interaction)，多模态融合、建模和数据收集中的课题及各种正在出现的MMHCI应用。

由于MMHCI是一个非常动态和广泛的研究领域，我们不是去呈现完整的概括，因此，本文的主要贡献是在对在MMHCI中使用的主要计算机视觉技术概括的同时，给出对MMHCI 中的主要研究领域、技术、应用和开放课题的综述。

Fig. 1. 采用以人为中心多模态交互概略1.2. Related surveys已经有在多个领域中广泛的综述发表，诸如人脸检测[190,63]，人脸识别[196]，人脸表情分析(facial expression analysis)[47,131]，语音情感(vocal emotion)[119,109]，姿态识别(gesture recognition) [96,174,136]，人运动分析(human motion analysis)[65,182,182,56,3,46,107]，声音-视觉自动语音识别(audio-visual automatic speech recognition)[143]和眼跟踪(eye tracking)[41,36]。

对基于视觉HCI的综述呈现在[142]和[73]中，其重点是头部跟踪(head tracking)，人脸和脸部表情识别(face and facial expression recognition)，眼睛跟踪(eye tracking)及姿态识别(gesture recognition)。

文[40]中讨论了自适应和智能HCI，主要是对用于人体运动分析的计算机视觉的综述和较低手臂运动检测、人脸处理和注视分析技术的讨论；[125–128,144,158,135,171]中讨论了多模态接口。

[84]和[77]中讨论了HCI的实时视觉技术(Real-time vision)，包括人体姿态、对象跟踪、手势、注视力和脸姿态等。

这里，我们不讨论前面综述中包含的工作，增加前面综述中没有覆盖的领域(如：[84,40,142,126,115])，并讨论在兴起领域中的新的应用，着重指出了主要研究课题。

相关的的会议和讨论会包括：ACM CHI、IFIP Interact、IEEE CVPR、IEEE ICCV、ACM Multimedia、International Workshop on Human-Centered Multimedia (HCM) in conjunction with ACM Multimedia、International Workshops on Human-Computer Interaction in conjunction with ICCV and ECCV、Intelligent User Interfaces (IUI) conference和International Conference on Multimodal Interfaces (ICMI)。

2. 多模态交互概要术语“multimodal”已经在很多场合使用并产生了多种释义(如[10-12]中对模态的解释)。

对于我们来讲，多模态HCI系统简单地是一个以多种模态或通信通道响应输入的系统(如：语音speech、姿态gesture、书写writing和其它等等)，我们采用“以人为中心”的方法(human-centered approach)，所指的“借助于模态(by modality)”意味着按照人的感知(human senses)的通信模式和由人激活或衡量人的量(如：血压计)的计算机输入设备，如图1所示。

人的感知包括视线(sight)、触觉(touch)、听力(hearing)、嗅觉(smell)和味觉(taste)；很多计算机输入设备的输入模态对应于人的感知：摄像机cameras(sight)、触觉传感器haptic sensors (touch)[9]、麦克风microphones(hearing)、嗅觉设备olfactory (smell)和味觉设备taste[92]，然而，很多其它由人激活的计算机输入设备可以理解为对于人的感觉的组合或就没有对应物，如：键盘(keyboard)、鼠标(mouse)、手写板(writing tablet)、运动输入(motion input)(如：自身运动用来交互的设备)、电磁皮肤感应器(galvanic skin response)和其它生物传感器(biometric sensors)。

.在我们的定义中，字“input”是最重要的，恰如在实际中大多数与计算机的交互都采用多个模态而发生。

例如：当我们打字时，我们接触键盘上的键以将数据输入计算机，但有些人也汇同时用视线阅读我们所输入的或确定所要按压键的位置。

因此，牢记交互过程中人所在做的(what the human is doing)与系统实际接收作为输入(what the system is actually receiving as input)间的差异是十分重要的。

例如，一台装有麦克风的计算机可能能理解多种语言和仅是不同类型的声音(如：采用人性化界面(humming interface)来进行音乐检索)，尽管术语“multimodal”已常用来指这种状况(如：[13]中的多语言输入被认为是多通道的multimodal)，但本文仅指那些采用不同模态(如：通信通道)结合的系统是多模态的，如图1所示。