多通道用户界面设计技术综述

合集下载

人机交互多通道人机交互ppt课件

使用户利用多个通道以自然、串行/并行、协作的方式进行人机对话
通过整合来自多个通道的、精确的和不精确的输入来捕捉用户的交互意图，提高人机交互的自然性和高效性
MMI
手
用
嘴
…
击键/指点通
语音
道
眼神
整
…
合
户
眼
手
…
2D/3D 多媒体信息
图5－1 多通道人机界面概念模型
应用例程
多通道用户界面研究的目标
互补性可能存在一个“优势通道（Dominant Modality）”，并需要其他通道予以辅助，例如，用语音直指（“This city”），则需鼠标在屏幕对象上指点
指派性
指派性是指某通道是完成特定交互任务唯一途径的情形，即某通道必须被用于实现特定交互任务而没有其他通道可以替代
指派性可分为两种情形
多通道用户界面主要关注人机界面中用户向计算机输入信息以及计算机对用户意图的理解
交互的自然性
使用户尽可能多地利用已有的日常技能与计算机交互，降低认识负荷；
交互的高效性
使人机通讯信息交换吞吐量更大、形式更丰富，发挥人机彼此不同的认知潜力；
与传统的用户界面特别是广泛流行的 WIMP/GUI兼容
交替而独立地使用不同的通道不是真正意义上的多通道技术，必须允许充分地并行、协作的通道配合关系
允许非精确的交互
人类语言本身就具有高度模糊性，人类在日常生活中习惯于并大量使用非精确的信息交流
允许使用模糊的表达手段可以避免不必要的认识负荷，有利于提高交互活动的自然性和高效性
多通道人机交互技术主张以充分性代替精确性
有关视踪原理和技术的研究二是在使用这种交互方式后，人机界面的设计技术和原

多路径传输技术研究综述

多路径传输技术研究综述1. 多路径传输技术研究综述随着无线通信技术的快速发展，多路径传输技术已经成为实现高效、可靠通信的关键手段。

多路径传输技术是指通过两条或两条以上的路径同时传输数据信号，以提高数据传输的鲁棒性和吞吐量。

在本综述中，我们将探讨多路径传输技术的研究现状和发展趋势。

多路径传输理论主要研究多路径传输系统中的信号干扰和噪声问题。

通过对多径信号的建模和分析，可以得出信道容量、误码率和信干比等关键性能指标。

这些指标为多路径传输系统的设计和优化提供了理论支持。

为了提高多路径传输系统的性能，研究者们提出了许多多路径传输算法。

这些算法包括：多径功率分配算法、多径定时同步算法和多径信道估计算法等。

这些算法在保证通信质量的前提下，实现了多路径传输系统的优化。

多路径传输系统的实现需要解决硬件和软件方面的挑战，在硬件方面，需要设计高性能的天线、射频前端和基带处理模块。

在软件方面，需要开发高效的信号处理算法和通信协议。

多路径传输系统的实现还需要考虑系统的兼容性、可扩展性和可靠性等因素。

多路径传输技术在许多领域具有广泛的应用前景，如卫星通信、无线局域网、车载网络和物联网等。

在卫星通信中，多路径传输技术可以提高信号的传输质量和可靠性；在无线局域网中，多路径传输技术可以实现多用户同时接入，提高网络容量；在车载网络中，多路径传输技术可以增强车辆间的通信能力，提高道路安全；在物联网中，多路径传输技术可以实现大量设备的互联互通，降低网络能耗。

多路径传输技术作为实现高效、可靠通信的关键手段，其研究和发展对于无线通信领域具有重要意义。

随着技术的不断进步和应用需求的增长，多路径传输技术将面临更多的挑战和机遇，值得我们继续关注和研究。

1.1 多路径传输技术概述多路径传输技术是一种在无线通信系统中实现高效数据传输的方法。

它通过在多个信道上同时发送和接收数据包，以提高数据传输速率和系统容量。

多路径传输技术的核心思想是利用无线信道的特性，如时变性、空间特性等，实现数据的快速传输。

多点触控(Multi-Touch)屏幕技术综述

多点触控（Multi-Touch）屏幕技术综述摘要：随着iPhone等触控手机和平板电脑的日益火爆，人机互动领域成为新时尚热点，人们追求这种效果华丽、科技感强大的触控技术产品。

多点触控技术，支持复杂的姿势识别，通过手势操作，可以实现放大缩小图像等功能。

从此，人们可以甩开鼠标键盘，用双手就可以浏览图片、拖拽文件，甚至大玩游戏，一点一拨之间就轻松体验到充满科技乐趣的全新产品。

本文将从多点触控技术的定义，发展，当前应用，主要的研究方法分类和发展前景这几个发面对多点触控技术进行综述。

关键词：多点触控；Multi-touch；多通道交互技术1、多点触控（Multi-Touch）屏幕技术定义多点触控(又称多重触控、多点感应、多重感应，英译为Multi-touch或Multi-touch)是一项由电脑使用者透过数只手指达至图像应用控制的输入技术。

是采用人机交互技术与硬件设备共同实现的技术，能在没有传统输入设备（如鼠标、键盘等）的情况下进行计算机的人机交互操作[1]。

多点触控系统特点:1、多点触控是在同一显示界面上的多点或多用户的交互操作模式，摒弃了键盘、鼠标的单点操作方式。

2、用户可通过双手进行单点触摸，也可以以单击、双击、平移、按压、滚动以及旋转等不同手势触摸屏幕，实现随心所欲地操控，从而更好更全面地了解对象的相关特征（文字、录像、图片、卫片、三维模拟等信息）。

3、可根据客户需求，订制相应的触控板，触摸软件以及多媒体系统；可以与专业图形软件配合使用。

2、多点触控（Multi-Touch）屏幕技术发展历史多点触控技术始于1982年由多伦多大学发明的感应食指指压的多点触控屏幕。

同年贝尔实验室发表了首份探讨触控技术的学术文献。

1984年，贝尔实验室研制出一种能够以多于一只手控制改变画面的触屏。

同时上述于多伦多大学的一组开发人员终止了相关硬件技术的研发，把研发方向转移至软件及界面上，期望能接续贝尔实验室的研发工作。

人机交互技术_04

虚拟现实技术
虚拟现实( 虚拟现实(Virtual Reality)又称虚拟环境. )又称虚拟环境.
在其中,人是主动参与者, 在其中,人是主动参与者,复杂系统中可能有许多参与者共同在以计算机网络系统为基础的虚拟环境中协同工作. 环境中协同工作. 虚拟现实系统具有三个重要特点: 虚拟现实系统具有三个重要特点:
用
常用操作要有快捷方式一般原则: 一般原则: 提供简单的错误处理户窗口,图标眼颜色的使用对操作人员的重要操作要有信息反馈操作可逆菜单,文本图标,按钮, 设计良好的联机帮助图标,按钮,屏幕布局的设计合理划分并高效地使用显示屏菜单界面的设计保证信息显示方式与数据输入方式的协调一致
多通道用户界面
多通道用户界面的基本特点: 多通道用户界面的基本特点:
使用多个感觉和效应通道允许非精确的交互侧重于多媒体侧重于交互过程中人的感觉和效应通道通常具有三维和直接操纵信息的接受控制与信息的输入允许使用模糊的表达手段可以双向性的特点, 双向性的特点,如视觉可看可人生活在三维空间,习惯于看,听和操纵三维的客观对象, 人生活在三维空间,习惯于看,听和操纵三维的客观对象, 避免不必要的认识负荷, 避免不必要的认识负荷,有利注视,手可控制,可触及等. 注视,手可控制,可触及等. 并希望及时看到这种控制的结果. 并希望及时看到这种控制的结果.多通道人机交互的自然性于提高交互活动的自然性和高两者密不可分,相互配合, 两者密不可分,相互配合, 多通道用户界面使用户避免通反应了这种本质特点. 反应了这种本质特点. ,协作效性.道切换, 必须允许充分地并行, 效性.道切换必须允许充分地并行 ,从而提高自然性和效的通道配合关系. 的通道配合关系. . 交互的双向性多通道人机交互技术主张以充率分性代替精确性. 分性代替精确性. 交互的隐含性

多通道用户界面

1100310120 潘飞达多通道用户界面为适应目前和未来的计算机系统要求，人机界面应能支持时变媒体，实现三维、非精确及隐含的人机交互，而多通道人机界面是达到这一目的的重要途径。

80年代后期以来，多通道用户界面成为人机交互技术研究的崭新领域，在国内外受到高度重视。

综合采用视线、语音、手势等新的交互通道、设备和交互技术，使用户利用多个通道以自然、并行、协作的方式进行人机对话，通过整合来自多个通道的、精确的和不精确的输入来捕捉用户的交互意图，提高人机交互的自然性和高效性。

多通道用户界面主要关注人机界面中用户向计算机输入信息以及计算机对用户意图的理解，所要达到的目标可归纳为如下方面：1）交互的自然性：使用户尽可能多地利用已有的日常技能与计算机交互，降低认识负荷。

2）交互的高效性：使人机通讯信息交换吞吐量更大、形式更丰富，发挥人机彼此不同的认知潜力。

3）与传统的用户界面特别是广泛流行的WIMP/GUI兼容。

下面将对多通道用户的特点，基本技术，未来发展和交互手段进行分点论述：一、多通道用户界面的基本特点1)使用多个感觉和效应通道2)允许非精确的交互3)三维和直接操纵4)交互的双向性5)交互的隐含性二、多通道用户界面涉及的主要技术1)多媒体使用多种表示媒体，如文本、图形、图像和声音，使人机交互技术最终要向着更接近于人的自然方式发展，使计算机具有听觉和视觉，以更自然的方式与人交互。

多媒体技术引入了动画、音频、视频等动态媒体，大大丰富了计算机表现信息的形式，拓宽了计算机输出的带宽，提高了用户接受信息的效率，使人们可以得到更直观的信息，从而简化了用户的操作，扩展了应用范围。

2)虚拟现实又称虚拟环境，虚拟现实系统向用户提供沉浸和多感觉通道体验。

在虚拟现实中，人是主动参与者，复杂系统中可能有许多参与者共同在以计算机网络系统为基础的虚拟环境中协同工作。

虚拟现实系统具有三个重要特点：沉浸感、交互性、构想性。

3)眼动跟踪与视觉有关的人机交互自始至终都离不开视线的控制。

多媒体交互系统中的用户界面设计指南

多媒体交互系统中的用户界面设计指南随着多媒体技术的发展，多媒体交互系统在我们的日常生活中变得越来越普遍。

无论是在家庭娱乐领域、教育培训行业还是商业广告界，多媒体交互系统都起到了至关重要的作用。

而一个成功的多媒体交互系统，离不开一个用户友好、直观、易用的用户界面设计。

本文将为您介绍多媒体交互系统中的用户界面设计指南，希望能够对设计师们在这一领域中提供一些有用的指导。

1. 界面布局和导航1.1 易于理解的布局：用户界面应该以一种有逻辑性的方式来呈现信息，让用户能够轻松地找到自己所需的功能。

1.2 目录和导航栏：通过清晰的目录和导航栏，使用户能够快速浏览和访问系统中的不同功能和内容。

1.3 优化响应时间：保证系统的响应时间在可接受范围内，否则用户体验会大打折扣。

2. 图形和视觉设计2.1 一致的风格和颜色：为用户界面选择一致的风格和颜色，以增强用户对系统的可识别性和易用性。

2.2 合理使用图形元素：使用图形元素来凸显重要信息和功能，但要注意不要过度使用，以免造成混乱和视觉疲劳。

2.3 强调重点：通过对信息的大小、颜色、样式等方面的调整，强调重点，帮助用户更快地理解和使用系统。

3. 交互设计3.1 易于操作的控件：使用常见的交互控件，如按钮、输入框和滑块等，以使用户能够直观地操作系统。

3.2 简化输入过程：尽量减少用户的输入操作，可以通过默认设置或自动填充等技术简化输入过程。

3.3 反馈和提示：在用户操作时给予明确的反馈和提示，让用户知道他们的操作是否成功。

4. 多媒体元素使用4.1 视频和音频播放：确保视频和音频的播放控制按钮清晰可见，并提供音量控制和进度条等功能，以方便用户控制媒体的播放。

4.2 图片和图标：使用高清晰度的图片和有意义的图标，以增加用户对界面内容的理解和认同。

4.3 动画和过渡效果：适量使用动画和过渡效果，以提高用户对界面的吸引力和可视化效果。

5. 可访问性和可用性5.1 考虑不同用户群体的需求：用户界面设计应兼顾不同年龄、性别、能力、文化背景等用户群体的需求，确保其易用性和可访问性。

多通道用户界面的发展

多通道用户界面的发展
• 通过不同通道（包括视觉、听觉、触觉、动觉、言语、手势、表情、眼动或神经输入等）与计算机系统进行通信的用户界面，称为多通道用户界面（multimodal user interface）。

多通道用户界面的发展
• 目前，占据统治地位的GUI/WIMP（window、icon、menu、 pointing device）界面的技术特点和优势是不容置疑的。然而，它也有一定的局限性。比如，输入/输出不平衡，用户的输入带宽远远低于输出带宽，用户输入所在的意义层次也很低；文本输入和直接操纵这两种交互都要由手来进行，使得手在鼠标和键盘之间切换频繁；屏幕空间资源本来十分宝贵，却大量被界面构件而非应用工作区所占据；输入/输出方式单一，不能充分利用用户的认知资源。一些通道负荷很重，如视觉，而另一些通道几乎完全没有被利用，如听觉和触觉。
多通道用户界面的发展
• 19世纪80年代后期以来，多通道用户界面成为人机交互技术研究的崭新领域，在欧美受到高度的重视。很多研究领域不一定使用“多通道”这样的名称，却与多通道研究关系紧密而不可分割，特别是多媒体、虚拟现实、模式识别（语音识别、手写识别、手势识别、表情识别及相应的合成技术）、自然语言处理/ 计算语言学、交互设备等。
多通道用户界面的发展
• 传统交互方式难以满足计算机领域的扩展，特别是虚拟现实、三维CAD与多媒体等方面的发展对交互提出的新需求。一些过去在特殊场合才会有的需求，如语音和声音的输入/输出，正在变成十分普遍而正常的需求。
• 人机界面设计最重要和最根本的动力则来自计算机走向普通用户、走进日常生活的大趋势。计算机技术和产业发展的这种趋势，在很大程度上决定了界面发展的趋势。随着计算机进入千家万户，对自然交互方式的呼声也日益高涨。

经典：人机交互技术-第5章----界面设计

• 一对一的用户讨论，让你了解某个用户是如何工作，使你知道用户的感受、想要什么及其经历等。
40
5.3.2 设计
对用户的观察和分析为设计提供了丰富的背景素材，应对这些素材进行系统分析 • 常用的素材分析方法是对象模型化，即将用户分析的结果按照讨论的对象进行分类整理，并且以各种图示的方法描述其属性、行为和关系。
41
5.3.2 设计
对象抽象模型可以逐步转化为不同具体程度的用户视图。 • 比较抽象的视图有利于进行逻辑分析，称为低真视图（Low-fidelity Prototype）； • 比较具体的视图更接近于人机界面的最终表达，称为高真视图（High-fidelity Prototype）。
42
5.3.2 设计
30
5.2.3 用户的区别 1. 用户的分类
偶然型用户：没有计算机应用领域的专业知识，也缺少计算机系统基本知识的用户。
生疏型用户：他们更常使用计算机系统，因而对计算机的性能及操作使用，已经有一定程度的理解和经验。但他们往往对新使用的计算机系统缺乏了解，不太熟悉，因此对新系统而言，他们仍旧是生疏用户。
26
5.2.2 用户体验
影响用户体验的因素很多，包括：现有技术上的限制，设计人员必须优先在
相对固定的UI框架内进行设计设计的创新，用户的接受程度上有风险开发进度表设计人员容易认为他们了解用户需要，其
实不然
27
5.2.2 用户体验
要达到良好的用户体验，理解用户是第一步要做的：
用户本身不同用户知识不同这在系统设计之初进行充分了解
图形用户界面和人机交互过程极大地依赖于视觉和手动控制的参与，因此具有强烈的直接操作特点
直接操纵用户界面更多地借助物理的、空间的或形象的表示，而不是单纯的文字或数字的表示。有利于解决问题和进行学习

人机交互和多通道用户界面

人机交互和多通道用户界面1、多通道用户界面的起源人与计算机利用自然语言进行交流从来就是人工智能的理想。

其实，比人工智能正式诞生还早，[Turing 1950]就提出把机器是否能够用自然语言与人进行交流作为衡量它是否具有了与人相当的智能的准则，也就是所谓Turing Test。

七十年代初，出现了为人们所欢呼的SHRDLU [Winograd 1972]。

关于SHRDLU中的技术在多大程度上反映了人的自然语言理解机制历来有很多争论，甚至Winograd本人对人工智能的态度后来也有相当的转变。

然而，撇开这些争论，从人机交互的角度对SHRDLU另眼相看──它本来就是一个自然语言人机界面。

今天的多通道界面中广泛采用的手写输入，也有很长的历史[Sibert et al., 1987]。

手写输入在键盘被广泛使用之前就曾经是计算机科学的首批研究目标之一。

它所基于的字符和符号识别技术早在五十年代就已经是一个重要的研究领域了，二十多年前就有人报告过"草写识别(sketch recognition)"界面。

多通道界面的构想早在大约三十年前就已经出现，当时Nicholas Negroponte(今天MIT Media Lab的主任)提出了"交谈式计算机(conversational computer)"的概念。

人可以用语音、手势、表情、注视和肢体语言，也就是用他们日常生活中相互交流的方式，与这样的机器进行交互。

这正是今天多通道人机交互研究的理想。

最早冠以"多通道(multimodal)"这一名称的研究是MIT的Architecture Machine Group(Media Lab的前身)在七十年代末开始设计的Media Room[Bolt 1984]。

Richard Bolt作为多通道人机交互研究的先驱，至今仍在Media Lab领导着"多通道自然对话"等项目。

多通道用户界面的设计

青岛理工大学人机交互实验设计报告院（系）：专业：学生姓名：班级学号：题目：＿＿多通道用户界面的设计＿＿＿＿＿起迄日期：＿完成日期: 2015 年7月 2 日语音识别综述：随着信息技术的高速发展和人类对计算机的依赖性不断增强，人机交互能力越来越受到研究者的重视。

如何实现计算机的拟人化，使其能感知周围的环境和气氛以及对象的态度、情感的内容，自适应地为对话对象提供最舒适的对话环境，尽量消除操作者和机器之间的障碍，已经成为下一代计算机发展的目标。

显然，人的大脑所表现出来的心智现象不仅仅体“智”的方面，而且还体现在“心”的方面。

人工智能已经不仅仅把研究重点放在对人脑智能实现上，而且也开展了对情感和意识方面的研究。

一般认为情感是通过语言、姿态、音乐和行为等表达模式来进行交流的，而其中语音信号中的情感信息处理的研究正越来越受到人们的重视。

顾名思义，语音情感识别包括语音识别和情感识别两大领域，而情感识别中又包括诸如心理学、生理学等多个学科，所以如果要想使计算机准确的在语音中提取出说话人所表达情，就必须要从多方面知识领域着手。

目前有许多关于语音和情感之间相互联系的研究，如美国、日本、欧洲、韩国等许多国家的一些研究单位都在进行情感语音处理研究工作。

语音情感识别技术的用途非常广泛，可以用来设计人性化的语音人机界面；可以用于互动影视；可以用于辅助语音识别；可以用于情感翻译；还可以用在测谎、电子游戏和辅助心理治疗等方面。

语音情感的特征提取：一般来说，语音中的情感特征往往通过语音韵律的变化表现出来。

语音情感的变化通常可以体现为语音特征参数的变化。

统计分析表明，高兴时，通常是语速较快，音量较大；悲伤时，通常是语速缓慢，音量较小。

基音是最常用的判定情感的语音特征，它反映了超音段的信息。

在语音情感识别中使用的特征参数有基频（Pitch），其次才是能量（Energy）、语速（Speech Rate）、共振峰频率（Formant）、单个音节的持续时间（Duration）、音节之间的停顿时间（Pause）、线性预测系数（LPC）、Mel倒谱系数（MFCC）等，以及它们的各种变化形式，如最大值、最小值、均值、范围、变化率等等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

人机交互基础教程实验报告实验题目：多通道用户界面设计技术综述专业计算机科学与技术学生姓名班级学号教师指导单位计算机软件学院日期一、实验目的1) 了解常见的多通道用户界面2) 查找资料，熟悉一种多通道用户界面并写出综述二、预备知识为适应目前和未来的计算机系统要求，人机界面应能支持时变媒体，实现三维、非精确及隐含的人机交互，而多通道人机界面是达到这一目的的重要途径。

80年代后期以来，多通道用户界面成为人机交互技术研究的崭新领域，在国内外受到高度重视。

多通道用户界面主要关注人机界面中用户向计算机输入信息以及计算机对用户意图的理解，所要达到的目标可归纳为如下方面：1)交互的自然性使用户尽可能多地利用已有的日常技能与计算机交互，降低认识负荷。

2)交互的高效性使人机通讯信息交换吞吐量更大、形式更丰富，发挥人机彼此不同的认知潜力。

3)与传统的用户界面特别是广泛流行的WIMP/GUI兼容。

(1) 多通道用户界面的基本特点1)使用多个感觉和效应通道2)允许非精确的交互3)三维和直接操纵4)交互的双向性5)交互的隐含性(2)涉及的主要技术1)多媒体使用多种表示媒体，如文本、图形、图像和声音，使人机交互技术最终要向着更接近于人的自然方式发展，使计算机具有听觉和视觉，以更自然的方式与人交互。

2)虚拟现实又称虚拟环境，虚拟现实系统向用户提供沉浸和多感觉通道体验。

在虚拟现实中，人是主动参与者，复杂系统中可能有许多参与者共同在以计算机网络系统为基础的虚拟环境中协同工作。

虚拟现实系统具有三个重要特点：沉浸感、交互性、构想性。

3)眼动跟踪与视觉有关的人机交互自始至终都离不开视线的控制。

如果能通过用户的视线盯着感兴趣的目标，计算机便“自动”将光标置于其上，人机交互将更为直接，也省去了上述交互过程中的大部分步骤。

4)手势识别一个简单的手势蕴涵着丰富的信息，人与人可以通过手势传达大量的信息，实现高速的通信。

将手势运用于计算机能够很好地改善人机交互的效率。

在多数情况下我们笼统地认为手势是人的上肢(包括手臂、手和手指)的运动状态。

5)三维输入许多应用(如虚拟现实系统)需要三维空间定位技术，三维空间控制器的共同特点是具有六个自由度，分别描述三维对象的宽度、深度、高度、俯仰角、转动角、偏转角。

通过控制这六个参数，用户可以在屏幕上平移三维对象或光标，也可沿三个坐标轴转动三维对象。

在三维用户交互中必须便于用户在三维空间中观察、比较、操作、改变三维空间的状态。

6)语音识别语音识别是计算机通过识别和理解过程把语音信号转变为相应的文本文件或命令的技术。

语音识别又是一门交叉学科，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。

7)表情识别面部表情是人体语言的一部分。

人的面部表情不是孤立的，它与情绪之间存在着千丝万缕的联系。

人的各种情绪变化以及对冷热的感觉都是非常复杂的高级神经活动，如何感知、记录、识别这些变化过程是表情识别的关键。

8)手写识别发展手写识别技术并嵌入到各种设备中，将是手写识别技术未来发展的重要方向之一。

联机手写识别技术的优点是不需专门学习与训练、不必记忆编码规则、安装后即可手写输入汉字，是最简单方便的输入方式。

同时符合人的书写习惯，可以一面思考、一面书写，不会打断思维的连续性，是最自然的输入方式。

9)数字墨水数字墨水是一种新的人机界面技术，它借鉴手写识别技术的同时，克服了它的许多局限性。

数字墨水在数学上是通过三阶贝塞尔曲线来描述笔输入的笔迹，它的记录格式与图像和文本格式都不同。

这种存储方式使得数字墨水文件的大小很小，从而可以更有效地进行存储。

三、实验内容与步骤(1)实验内容要求上网查找资料，熟悉一种多通道用户界面并写出综述，可以是眼动跟踪、手势识别、三维输入、语音识别、表情识别、手写识别等。

(2)实验步骤1)借助图书馆的中英文参考文献资料以及网络，确定出一种多通道用户界面；2)完成对该多通道用户界面的综述(包括定义、发展历史、当前的应用、主要的研究方法分类、以及发展前景以及中英文参考文献（至少各5篇）)噪音环境下的语音识别1.引言随着社会的不断进步和科技的飞速发展，计算机对人们的帮助越来越大，成为了人们不可缺少的好助手，但是一直以来人们都是通过键盘、鼠标等和它进行通信，这限制了人与计算机之间的交流，更限制了消费人群。

为了能让多数人甚至是残疾人都能使用计算机，让计算机能听懂人的语言，理解人们的意图，人们开始了对语音识别的研究．语音识别是语音学与数字信号处理技术相结合的一门交叉学科，它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科都有密切关系。

2.语音识别的发展历史和研究现状2.1国外语音识别的发展状况国外的语音识别是从1952年贝尔实验室的Davis等人研制的特定说话人孤立数字识别系统开始的。

20世纪60年代，日本的很多研究者开发了相关的特殊硬件来进行语音识别RCA实验室的Martin等人为解决语音信号时间尺度不统一的问题，开发了一系列的时问归正方法，明显地改善了识别性能。

与此同时，苏联的Vmtsyuk提出了采用动态规划方法解决两个语音的时闻对准问题，这是动态时间弯折算法DTW(dymmic time warping)的基础，也是其连续词识别算法的初级版。

20世纪70年代，人工智能技术走入语音识别的研究中来．人们对语音识别的研究也取得了突破性进展．线性预测编码技术也被扩展应用到语音识别中，DT w也基本成熟。

20世纪80年代，语音识别研究的一个重要进展，就是识别算法从模式匹配技术转向基于统计模型的技术，更多地追求从整体统计的角度来建立最佳的语音识别系统。

隐马尔可夫模型(hidden Markovmodel，删)技术就是其中一个典型技术。

删的研究使大词汇量连续语音识别系统的开发成为可能。

20世纪90年代，人工神经网络(artificial neural network，ANN)也被应用到语音识别的研究中，并使相应的研究工作在模型的细化、参数的提取和优化以及系统的自适应技术等方面取得了一些关键性的进展，此时，语音识别技术进一步成熟，并走向实用。

许多发达国家，如美国、日本、韩国，已经IBM、Microsoft、Apple、AT&T、Nrr等著名公司都为语音识别系统的实用化开发研究投以巨资。

当今，基于HMM和ANN相结合的方法得到了广泛的重视。

而一些模式识别、机器学习方面的新技术也被应用到语音识别过程中，如支持向量机(support vector machine，SVM)技术、进化算法(evolutionary computation)技术等。

2.2国内语音识别的发展状况20世纪50年代我国就有人尝试用电子管电路进行元音识别，到70年代才由中科院声学所开始进行计算机语音识别的研究．80年代开始，很多学者和单位参与到语音识别的研究中来，也开展了从最初的特定人、小词汇量孤立词识别，到非特定人、大词汇量连续语音识别的研究工作．80年代末，以汉语全音节识别作为主攻方向的研究已经取得了相当大的进展，一些汉语语音输入系统已经向实用化迈进。

90年代j四达技术开发中心和哈尔滨工业大学合作推出了具有自然语言理解能力的新产品．在国家“863”计划的支持下，清华大学和中科院自动化所等单位在汉语听写机原理样机的研制方面开展了卓有成效的研究．经过60多年的发展，语音识别技术已经得到了很大发展，对于语音识别的研究也达到了相当高的水平，并在实验室环境下能达到很好的识别效果。

但是，在实际应用中，噪声以及各种因素的影响，使语音识别系统的性能大幅度下降，很难达到让人满意的效果。

因此，对噪声环境下的语音识别的研究有着异常重要的理论价值和现实意义．为解决噪声环境下，识别语音的特征参数和模叛库中的特征不匹配的问题我们必须想办法消除噪声对语音特征参数的影响，根据语音识别过程可知，有以下三种方法：(1)假定语音模板和背景噪声无关，即无论是清晰语音还是带噪语音，都用同一套模板来识别．在这种情况下，重点在识别阶段，从带噪语音中提取出抗噪的特征参数或者采取抗噪声的失真测度．(2)在语音的识别阶段，语音识别系统加一个前端处理，从带噪语音中提取出纯净语音，然后再提取语音的特征参数．这种方法被称为语音增强。

(3)在语音识别阶段，根据识别现场的环境噪声对语音模板进行变换，使之接近根据现场带噪语音训练而成的语音模板．这种方法称为语音模板的噪声补偿．无论使用哪种方法消除噪声，我们首先要了解噪声。

根据噪声对语音频谱的干扰方式不同可以把噪声分为加性噪声和乘性噪声两类．2.3语音增强方法由于噪声的种类很多,特性并不完全相同,因此针对各类噪声必须采取不同的语音增强方法。

一直以来,人们都在加性噪声的模型上进行研究,提出了各种语音增强算法,总的来说可分为三类:第一类是时域方法,例如基于参数和模型的方法[ 3～4 ] 、子空间的方法[ 5～6 ]等;第二类是频域方法,例如减谱法[ 7～9 ] 、自适应滤波法[ 11 ] ,以及基于马尔可夫模型滤波方法[ 12 ]等;第三类是其它方法,例如小波变换法、听觉掩蔽法等。

2.4 时域方法1. 基于参数和模型的方法。

基于参数和模型的方法通常有两大类[ 10 ] :分析合成法和利用滤波器进行滤波处理的方法。

前者是把声道模型看作一个全极点滤波器,采用线性预测分析得到滤波器的参数。

通过从带噪语音中准确估计模型的参数来合成干净的语音,这种方法关键在于如何从带噪语音中准确地估计语音模型的参数(包括激励参数和声道参数) 。

后者则是考虑到激励参数难以准确估计,采用只利用声道参数构造滤波器进行滤波处理。

而在低信噪比下,很难对模型参数进行准确估计,并且此类方法往往因需要迭代而增加算法的复杂度。

在实际应用中有时也会把两者合并在一起相互补充。

具体来说主要有以下几种方法。

(1)最大后验概率估计法最大后验概率估计法是把语音看作一个全极点的模型,首先依据最大后验概率准则估计LPC线性预测参数,然后根据LPC参数的功率谱来构造一个非因果的维纳滤波器对带噪语音信号进行滤波,通过多次迭代直到满足预先设定的阈值为止。

此种算法适用于高斯白噪声。

它在一定程度上能消除噪声,提高信噪比。

但是由于维纳滤波器只能在平稳条件下才能保证最小均方误差意义下的最优估计,而语音和背景噪音的非平稳性,会导致最优估计的误差。