语音识别技术在手机中的应用

语音识别的应用

语音识别可以应用的领域大致分为大五类：办公室或商务系统。典型的应用包括：填写数据表格、数据库管理和控制、键盘功能增强等等。制造业：在质量控制中，语音识别系统可以为制造过程提供一种“不用手”、“不用眼”的检控（部件检查）。电信：相当广泛的一类应用在拨号电话系统上都是可行

的，包括话务员协助服务的自动化、国

际国内远程电子商务、语音呼叫分配、

语音拨号、分类订货。医疗：这方面的

主要应用是由声音来生成和编辑专业的

医疗报告。其他：包括由语音控制和操

作的游戏和玩具、帮助残疾人的语音识

别系统、车辆行驶中一些非关键功能的

语音控制，如车载交通路况控制系统、

音响系统。

当语音识别技术应用到计算机桌面

的时候，这看起来似乎是一个好主意。

但是，对于大多数人来说，语音识别还

不能取代键盘和鼠标。现在，语音技术

正用于一个全新的环境：手机。语音识

别技术在手机中的应用将进一步推动这

语音识别技术在手机中的应用

专题报道2011年第7期

种技术向新的方向发展和应用。这是语音识别技术在台式电脑应用中从来没有涉足的方向。

IBM在60年代初期创建了一个名为“Shoebox”的试验性的语音识别系统。这个系统解决了口语算法问题。语音识别技术是在50年代作为一项早期的技术第一次出现的，当时主要是由于好奇。在60年代初，IBM的“Shoebox”设备能够识别出16个口语单词并且能够回答简单的数学问题，如“3 ＋ 4 =？”。

Dragon Systems在80年代初为DOS计算机推出的DragonDictate可能是第一个语音识别应用程序。这个应用程序只能识别单个单词，每次只说一个单词。随着时间的推移，这个应用程序已经发展成为名为“Dragon NaturallySpeaking”（目前是第11个版本，由Nuance通讯公司所有）的产品。这个应用程序能够翻译以正常的会话语音和速度读出的文本。

语音识别技术在台式电脑中的应用有两个制约因素。第一，为了使这个应用程序以更高的准确性工作，这个应用程序必须要进行训练以便识别用户的语音特征。Windows Vista和Windows 7操作系统中的本地语音转换文本技术和Dragon NaturallySpeaking等第三方产品仍然都需要一个用户训练期才能使用。

第二个制约因素是键盘的流行程度。大多数人已经习惯于键盘打字而不是讲话，因此，语音控制面临Dvorak键盘布局同样的应用障碍。当简单的老式QWERTY键盘供货充足并且工作的很好的时候，为什么要学习使用Dvorak键盘呢？

微软TellMe团队是负责为多媒体环境开发语音识别技术的部门。TellMe团队高级产品经理Abhi Rele指出，在台

式电脑环境，用户有方便的人机交流模

式，如键盘和鼠标。因此，语音的使用

主要是针对语音爱好者的。

语音控制的计算更广泛的应用需要

两件事情：更好的方便的应用和主要使

用语音的地方。手机正是很长时间以来

一直在增长的这种地方。

Nuance负责产品管理和营销的副总

裁Matt Revis解释说，台式电脑和移动环

境的区别是这样的：台式电脑是一个固

定的环境，重点完全在于台式电脑的使

用情况。因此，台式电脑的语音技术主

要执行如下任务：支持办公应用程序、

网络浏览、通讯等。在移动方面，语音

更多地用于支持各种生活方式方面：移

动中的专业人员、户外的有趣活动、免

提电话等等。

Gartner分析师Tuong Nguyen赞同这

个观点：语音在移动环境中更有意义。

他说，从使用的角度看，掌上设备的语

音识别功能价值更大。它增加了用户友

好的、方便的输入方式。

Nguyen补充说，如果不用

语音技术说出一个简单的说明语

句，而是翻动许多菜单或者努力

地在小显示屏键盘上进行输入，

语音识别的价值就显现出来了。

随着触摸屏设备（没有物理键

盘）应用的增长，语音识别技术

将用来增强数据输入和输出。语

音识别还支持免提要求或者法律

要求。

在移动设备方面

因为移动设备一般仅支持

台式电脑的一部分存储和处理功

能，语音处理需要一些时间才能

以基本的形式出现在手机中。

语音处理Springer手册解释了手机

在2000年代初的情况。尽管那时还有

一些局限性，但是，手机经过编程之后

能够识别逐个数字的拨号语音，在某种

程度上还能识别人的名字。主要问题是

内存，因此，大多数手机一次只能识别

10个数字或者名字。但是，这些作者指

出的另一个问题是这个功能使用的比较

少，可能是因为手机厂商在这方面的营

销很糟糕。

随着手机的增加内存和增强处理能

力，普通手机的识别能力也增强了。三

星电子在2005年发布的售价99美元的

SCH-p-207型手机增加了语音至文本的

听写功能和语音拨号功能。随着内存达

到数百MB和存储容量达到数GB，目前

这一代智能手机很少受到限制。

另一个关键的进步是网络速度。

速度更快的无线网络浪潮抬高了许多大

船，包括最新一代的语音处理技术。速

度更快的网络能够把语音处理任务从网

络迁移到远程服务器。

谷歌语音搜索产品经理Amir

Mane

解释了速度更快的网络是如何帮助谷歌语音应用程序的。他说，由于所有繁重的处理任务都是由谷歌服务器在网络上处理的，我们减少了掌上设备计算能力的限制。

目前的应用程序

手机语音识别技术目前的状态不仅仅局限于语音拨号。语音启动的功能实际上就包括语音拨号。这是手机上出现的第一个语音识别功能。目前，甚至许多低端手机都有这个功能，尽管这个功能处理手机电话簿中一些不常用的名字的时稍差一些。

Gartner分析师Nguyen指出，比较新的一代语音功能是更开放的。不用编程执行某些功能的具体的语音指令，应用程序可识别语音并且执行适当的行动。更高端的、更强大的设备使这些应用更可行。换句话说，不仅仅是能够使用这个短语“呼叫888-555-1212”拨打一个电话号码，用户还可以说“呼叫妈妈”或者“给我妈妈打电话”。

谷歌语音搜索拥有比以前的语音识别技术更少的限制，因为所有的繁重

任务都是由网络服务器完成的。这使谷歌语音搜索等语音驱动的应用程序更可行。例如，如果你说“创战纪电影时间”，你会看到一个网页列出地区编号或者位置。这个应用程序不仅能够识别出这个短语的意思，而且还能提供你的

手机（你当前的位置）和网站（上映时间）的信息。

这个应用程序还非常熟悉英语，不用进行训练就能自动分辨出一些词汇的差别。如果我说“摩特里裤（Motley Crue）乐队”，这个应用程序甚至能在搜索词汇方便使用这个乐队的独特的拼写，尽管它会漏掉变音符号。搜索“Motley’s Crew”，你会得到一个喜剧片。

这就是说谷歌语音识别的限制明显地表明将使你进一步脱离主流的英语。外国人的名字是没有帮助的。语音识别应用程序的另一个问题是环境的噪音。移动用户受环境噪音的影响通常比台式电脑用户多。Nuance公司的Revis称，在充满噪音的户外环境中，语音识别的准确性是一个问题。

自从2005年三星手机推出以来，听写功能已经取得了长足的进步。由Dragon NaturallySpeaking驱动的iPhone 的Dragon听写功能允许用户听写从备忘录、电子邮件到Twitter更新等一切内容。用于电子邮件的Dragon软件为黑莓设备提供了类似的功能。

对于Android手机来说，Nuance 提供了F l e x T 9软件。这个软件把D r a g o n 听写功能与三种类型的触摸屏输入方式结合在了一起。还有一个Handcent短信应用程序。这个应用程序集成了Android本地语音识别技术以帮助你用语音发短信。

文本之间的翻译目前已经推出多

年（如通过知名的Babel Fish网站进行翻译）。同声翻译功能现在还没有，不过，这种软件很快会推出。例如，用于iPhone的Jibbigo软件可翻译单词、短语和合理的简单句子，让双方交替地讲话。

未来的方向

询问参加开发语音技术的每一个人下一个巨大的步骤是什么。他们一般会给你一个答案：自然语言处理。

Revis把它解释为理解你的意思的系统，它不仅仅知道你说什么。在会话式的互动模式中，用户说自己要说的话，没有限制用户如何说这个话。他提供了指令或者要求得到信息的例子，如“我在什么地方能够买到1000元以下的尼康照相机？”或者“给张三发个短信说我晚到20分钟”或者“今天晚上在某餐厅订三个人的地方”。

谷歌的Mane称，在口语对话中提供自然的语言处理是一个双重挑战。首先，你必须识别这些单词，然后，你必须理解这个意思。第一部分变得更加容易了。但是，第二部分仍然很难解决：意思是根据上下文确定的和难以应付的，人类做的语法分析也不是总是成功的。

微软的Rele认为，手机提供的额外的服务（如罗盘或者GPS）能够增强自然语言处理的有用性。他说，你可以为两个人安排吃饭和看电影，方法是利用不同来源的数据把这个任务分开，如使用日历、饭店排名、电影评论和位置等数据。

此外，手机的服务能够用于提供讲话的环境。Rele表示，用户的语音输入以及从其它有关用户及用户环境的传感器和状态获得的智能信息可以提供更丰

专题报道

2011年第7期

语音识别的基本原理

语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，未知语音经过话筒变换成电信号后加在识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。语音识别系统的分类

语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑，可以将识别系统分为三类：（1）特定人语音识别系统。仅考虑对于专人的话音进行识别。（2）非特定人语音系统。识别的语音与人无关，通常要用大量不同人的语音数据库对识别系统进行学习。（3）多人的识别系统。通常能识别一组人的语音，或者成为特定组语音识别系统，该系统仅要求对要识别的那组人的语音进行训练。如果从说话的方式考虑，也可以将识别系统分为三类：（1）孤立词语音识别系统。孤立词识别系统要求输入每个词后要停顿。（2）连接词语音识别系统。连接词输入系统要求对每个词都清楚发音，一些连音现象开始出现。（3）连续语音识别系统。连续语音输入是自然流利的连续语音输入，大量连音和变音会出现。

如果从识别系统的词汇量大小考虑，也可以将识别系统分为三类：（1）小词汇量语音识别系统。通常包括几十个词的语音识别系统。（2）中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。（3）大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高，识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统，将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。

我国语音识别研究工作起步较晚,但是发展非常迅速,同时研究水平也从实验室逐步走向实用。从1987 年开始,国家开始执行863 计划后,国家863 智能计算机主题专家组为语音识别研究立项,每两年一次。从1991 年开始,国家863 智能计算机主题专家组每一到两年举行一次全国性语音识别系统测试,参加测试的系统代表了国内在这一领域的研究水平。在2005 年863 计划中文信息处理与智能人机接口技术评测中,8 家单位参加语音识别评测,共提交了17 个参评系统。评测的任务是桌面连续语音识别和电话连续语音关键词检测,评测的项目是在桌面连续语音识别(2 倍实时) 、桌面连续语音识别(20 倍实时) 和电话连续语音关键词检测(2 倍实时) 。在国家863 计划和973 计划的大力支持下,国内的一批科研院所(如中国科学院自动化所、声学所,清华大学等) 进行了汉语大词汇量连续语音识别的研究,取得了许多研究成果,极大地推动了汉语语音识别的发展。另外,鉴于中国未来庞大的市场, 国外也非常重视汉语语音识别的研究。IBM、APPL E、MOTOROLA 等公司投入到汉语语音识别系统的开发中,其投资也逐渐增加。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果已达到相当高水平。目前来说,在汉语的非特定人大词汇量连续语音识别方面,国内科研机构与国际先进水平差距不大;在语音技术产品化和商业化方面,已经有语音识别相关产品问世。

富的和更相关的结果。例如，如果你刚刚使用Foursquare网站查看有关饭店，一些含糊的语音指令就会倾向于外出吃饭、订膳宿和要一辆出租车等事情。

多平台应用程序V l i n g o 自称是“虚拟助手”，已经能够提供这些方面的功能。这个软件插入到OpenTable和Fandango等服务中以完成许多任务：订饭店、订电影票等等。

Nguyen认为未来语音识别技术改善的另一个领域是游戏。他说，在游戏中可以使用语音以增加玩游戏的不同氛围。例如，你可以把Kirk-style船长的命令传递给恒星飞船或者在在一个神秘的事情中审讯疑犯。

已经应用的另一个功能是自动地把语音识别适用于单个用户。这是台式电脑语音识别技术所要求的免提版语音训练。

例如，最新版本的谷歌语音搜索有一个选择性加入功能，允许随着时间的推移建立一个用户的客户化语音特征。Mane解释说，当用户选择使用客户化语音识别的时候，我们在用户和用户的语调方面画一个界限，这使我们能够建立一个初步的、个性化的语音识别模式。

然而，个性化识别并不是一个能够解决一切问题的技术，它只是实现语音识别更加无缝化的一个过渡步骤。Mane称，我们没有把个性化识别看作一个唯一的解决方案，因为还会有更多的一系列的技术创新。Mane认为，这种技术未来的改进需要我们的用户更积极的参与。

结论

手机一直是许多技术的孵化器和推动因素，这包括硬件和软件技术。到目前为止，在这个组合中增加语音功能仅产生了逐步的改善，谷歌语音应用程序的很好的功能。但是，这些改进正逐步地为更重要的进步铺平道路。移动技术为如何聚集这些新技术提供了一个全新的舞台。下一步也许不是一个理解你说的一切事情的手机，而是能够充分理解你说的事情的一个更有用的手机。■

·链接·

语音识别输入系统

IBM语音识别输入系统(ViaVioce) V9.1 简体中文光盘版| 用嘴巴控制电脑... sjyhsyj 2009-8-28 12:13:271# 软件大小：276.08MB 软件语言：多国语言软件类别：国外软件 / 汉字输入运行环境：Win9x/NT/2000/XP/ 软件介绍：该系统可用于声控打字和语音导航。只要对着微机讲话，不用敲键盘即可打汉字，每分钟可输入150个汉字，是键盘输入的两倍，是普通手写输入的六倍。该系统识别率可达95%以上。并配备了高性能的麦克风，使用便利，特别适合于起草文稿、撰写文章、和准备教案，是文职人员、作家和教育工作者的良好助手。 IBM潜心研究26年，他领导了世界的语音识别技术，其语音识别产品在全球销售已达一百万套以上。使用语音输入方式，您的工作空间更加自由舒畅: *即使您不会打字，也可迅速准备好文稿； *只要集中精力思考问题，无须琢磨怎样拼音，怎样拆字； *当您疲劳时,闭上眼、伸伸腰，双手方在脑后，然后轻松地说：开始听写吧... ... 注：价值超数千元的IBM的中文语音录入工具，有耳麦的朋友可以试一试，也可以当作学习普通话的工具，没有理由不下载使用它。 IBM ViaVoice语音输入系统详解作者: 艾寒出处: 天极网目前汉字输入的方式主要有四种：键盘输入，手写输入，扫描输入和我们现在要谈到的语音输入。让我们先来了解一下这四种输入方式。键盘输入：键盘输入基本上是基于各种输入法，主要又分为字形输入法和拼音输入法。实际上字形输入法是不符合人的写作思维习惯，因为人们在措辞时，头脑中首先反映出的是即将这个词语的语音，所以字形输入法更适合专业录入人员使用。拼音输入法也分两种，一种以词语为输入单位，另一种以语句为输入单位，而后者不符合写作的思维习惯，因为人们在写作时是以词为思考单位。键盘输入法在输入速度有要求的情况下对于键盘操作、指法要求比较高；手写输入：手写输入是最容易上手的输入方法，但是同样由于手写输入的先天不足，很难达到较高的输入速度；扫描输入：扫描输入对于硬件要求比较高，主要是适用于资料的整理；语音输入：语音输入对输入人员的键盘操作能力、指法要求很低，几乎可以说你只要会说汉语，就可以进行语音输入。语音输入尤其是汉字语音输入经历了很长时间的研究和应用，到目前已经达到了一个相

智能机器人的语音识别

智能机器人的语音识别语音识别概述最近，由于其重大的理论意义和实用价值，语音识别已经受到越来越多的关注。到现在为止，多数的语音识别是基于传统的线性系统理论，例如隐马尔可夫模型和动态时间规整技术。随着语音识别的深度研究，研究者发现，语音信号是一个复杂的非线性过程，如果语音识别研究想要获得突破，那么就必须引进非线性系统理论方法。最近，随着非线性系统理论的发展，如人工神经网络，混沌与分形，可能应用这些理论到语音识别中。因此，本文的研究是在神经网络和混沌与分形理论的基础上介绍了语音识别的过程。语音识别可以划分为独立发声式和非独立发声式两种。非独立发声式是指发音模式是由单个人来进行训练，其对训练人命令的识别速度很快，但它对与其他人的指令识别速度很慢，或者不能识别。独立发声式是指其发音模式是由不同年龄，不同性别，不同地域的人来进行训练，它能识别一个群体的指令。一般地，由于用户不需要操作训练，独立发声式系统得到了更广泛的应用。所以，在独立发声式系统中，从语音信号中提取语音特征是语音识别系统的一个基本问题。语音识别包括训练和识别，我们可以把它看做一种模式化的识别任务。通常地，语音信号可以看作为一段通过隐马尔可夫模型来表征的时间序列。通过这些特征提取，语音信号被转化为特征向量并把它作为一种意见，在训练程序中，这些意见将反馈到HMM的模型参数估计中。这些参数包括意见和他们响应状态所对应的概率密度函数，状态间的转移概率，等等。经过参数估计以后，这个已训练模式就可以应用到识别任务当中。输入信号将会被确认为造成词，其精确度是可以评估的。整个过程如图一所示。图1 语音识别系统的模块图

3、理论与方法从语音信号中进行独立扬声器的特征提取是语音识别系统中的一个基本问题。解决这个问题的最流行方法是应用线性预测倒谱系数和Mel频率倒谱系数。这两种方法都是基于一种假设的线形程序，该假设认为说话者所拥有的语音特性是由于声道共振造成的。这些信号特征构成了语音信号最基本的光谱结构。然而，在语音信号中，这些非线形信息不容易被当前的特征提取逻辑方法所提取，所以我们使用分型维数来测量非线形语音扰动。本文利用传统的LPCC和非线性多尺度分形维数特征提取研究并实现语音识别系统。 3.1线性预测倒谱系数线性预测系数是一个我们在做语音的线形预分析时得到的参数，它是关于毗邻语音样本间特征联系的参数。线形预分析正式基于以下几个概念建立起来的，即一个语音样本可以通过一些以前的样本的线形组合来快速地估计，根据真实语音样本在确切的分析框架（短时间内的）和预测样本之间的差别的最小平方原则，最后会确认出唯一的一组预测系数。 LPC可以用来估计语音信号的倒谱。在语音信号的短时倒谱分析中，这是一种特殊的处理方法。信道模型的系统函数可以通过如下的线形预分析来得到：其中p代表线形预测命令，，（k=1，2，… …，p）代表预测参数，脉冲响应用 h(n)来表示，假设h（n）的倒谱是。那么（1）式可以扩展为（2）式：将（1）带入（2），两边同时，（2）变成（3）。就获得了方程（4）：

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双苏州大学摘要本文回顾了语音识别技术的发展历史，综述了语音识别系统的结构、分类及基本方法，分析了语音识别技术面临的问题及发展方向。关键词：语音识别；特征；匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科，所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等，甚至还涉及到人的体态语言（如人民在说话时的表情手势等行为动作可帮助对方理解）。其应用领域也非常广，例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统，在信息高度化的今天，语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史语音识别技术的研究开始二十世纪50年代。1952年，AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统：Audry系统。

语音识别发展现状与展望

中国中文信息学会第七次全国会员代表大会暨学会成立30周年学术会议语音识别发展现状与展望中科院自动化研究所徐波 2011年12月4日

报告提纲 ?语音识别技术现状及态势?语音识别技术的行业应用?语音识别技术研究方向?结论与展望

2010年始语音识别重新成为产业热点?移动互联网的兴起成为ASR最重要的应用环境。在Google引领下，互联网、通信公司纷纷把语音识别作为重要研究方向 –Android系统内嵌语音识别技术，Google语音翻译等； –iPhone4S 上的Siri软件； –百度、腾讯、盛大、华为等都进军语音识别领域； –我国语音技术领军企业讯飞2010年推出语音云识别、讯飞口讯 –已有的QQ2011版语音输入等等

成熟度分析-技术成熟度曲线 ?美国市场调查咨询公司Gartner于2011年7月发布《2011新兴技术成熟度曲线》报告：

成熟度分析-新兴技术优先矩阵?Gartner评出了2011年具有变革作用的技术，包括语音识别、语音翻译、自然语言问答等。其中语音翻译和自然语言问答有望在5-10年内获得大幅利用，而语音识别有望在2-5年内获得大幅利用；

三十年语音识别技术发展 ---特征提取与知识方面?MFCC，PLP，CMS，RASTA，VTLN；?HLDA, fMPE，neural net-based features ?前端优化 –融入更多特征信息(MLP、TrapNN、Bottle Neck Features等） ?特征很大特点有些是跟模型的训练算法相匹配?大规模FSN图表示，把各种知识源集中在一起–bigram vs. 4-gram, within word dependencies vs. cross-word

语音识别技术

目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分：（1）语音特征提取：（2）声学模型与模式匹配（识别算法）（3）语义理解：计算机对识别结果进行语法、语义分析。语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，语音识别的发展简史 1952年AT& T Bell实验室实现了一个单一发音人孤立发音的十个英文数字的语音识别系统，到现在的人机语音交互。语音识别研究从二十世纪50年代开始到现在历半个多世纪的蓬勃发展，在这期间获得了巨大的进展。现代语音识别技术研究重点包括即兴口语的识别和理解，自然口语对话，以及多语种的语音同声翻译。语音识别应用的特点 1.语音识别系统必须覆盖的功能包括：（1）语音识别系统要对用户有益（希望它是能检测到的）。例如提高生产率，容易使用，更好的人机界面，或更自然的信息交流模式。（2）语音识别系统要对用户“友好”。这种“友好”的含义是：用户在和系统进行语音对话时感到舒适；系统的语音提示既有帮助，又很亲近。（3）语音识别系统必须有足够的精度（4）语音识别系统要有实时处理能力；例如系统对用户询问的响应时间要很短。 2. 语音识别错误的处理有以下四种方式可以处理这个问题。（1）错误弱化法。这种处理仅仅花费用户很少一点时间，对用户几乎没什么其它不利影响。（2）错误自检纠正法系统利用已知任务的限制自动地检测并纠正错误。（3）确认或多层次判定

（4）拒绝/转向人工座席。系统对其中通常较易导致系统识别错误的极少部分语音指令拒绝做出识别决定，而是将其转给人工座席。在很多情况下，语音识别技术可以充分发挥出RFID的潜能： 1.积压产品、脱销产品 2.被废弃、被召回或已过期产品 3.回收的商品 4.促销产品 RFID系统在利用原有语音导向投资的情况下可以大大增加收益语音识别技术在邮件分拣中的应用现代化分拣设备在邮政上的应用大大提高了邮件处理的效率。但是，并不是所有的邮件都能上分拣机处理，那些需要人工处理的邮件成了邮政企业实现自动化的瓶颈。邮政使用人工标码技术以及先进的计算机软件系统来处理不能上机的邮件，仍需要大量的劳动力。由MailCode公司开发并准备申请专利的Spell-ItTM软件技术通过提高系统数据库能力的方式对语音识别自动化设备进行了革命性的变革。这种技术提供了无限的数据库能力，并且保证分拣速度不会因数据库的增大而减小。由各大语音引擎公司开发的系统还支持世界上的各种主要语言，这样，语音技术就成为世界性的产品。以英语语音识别系统为例，系统建立了36个可识别字符26个字母加上0～9的10个数字，同时还建立了一套关键词。Spell-It软件使用这些字符来识别成千上万的口语词汇和无数的词语组合。对于大公司的邮件收发中心来说，使用MailCode公司的Spell-It软件技术，分拣员实际上只需发出几个字符的音来找到和数据库中相对应的词。例如：碰到了寄给Joseph Schneider的邮件，操作员只需发出“J”、“S”、“C”和“H”几个音就可以得到准确的分拣信息。姓名和邮箱编码：Jennifer Schroeder, 软件工程部；Joseph Schneider, 技术操作部；Josh Schriver, 技术操作部，因为这三个姓名全都符合（J,S,C,H）的发音标准。邮件中心的操作员知道邮件实际上是寄给Joseph Schneider的，就可以把邮件投入Joseph Schneide的信箱了。邮局要把邮件按投递路线分发，分拣员必须熟悉长长的投递段列表以及各种各样的国际邮件投递信息。Spell-It技术把地址、投递路线等信息都存入了系统，这样就大大方便了分拣工作。例如，有一件寄往Stonehollow 路2036号的邮件。使用语音识别技术，分拣员仅仅需要发出“2”、“0”、“S”、“T”和“O”几个音，如表2所示，数据库就会给出所有可能和这几

语音识别的发展及应用

语音识别的发展及应用本文介绍了隐马尔可夫模型（Hidden Markov Model，HMM），传统的人工神经网络语音识别方法以及改进的人工神经网络，针对最近研究热点深度学习在语音识别中的应用做了详细的描述，并对与人工神经网络在语音识别中的缺点进行阐述，就如何将HMM与深度神经网络联合起来运用到语音识别中进行详细的分析与介绍。标签：隐马尔科夫模型人工神经网络深度学习一、引言伴随着计算机技术的不断进步以及人工智能学科的飞速发展。人们对大脑学习、思维机能的研究逐渐深入。人工神经网络作为借鉴人脑神经元互相连结构的信息处理网络，受到了广泛的关注。深度学习作为人工神经网络的一个分支，能够从海量的数据中挖掘到有效的信息，成为语音识别领域的一个研究热点。二、隐马尔科夫模型隐马尔可夫模型[3]（HMM）是马尔可夫链的一种，它的状态不能直接观察到，但能通过观测向量序列观察到，每个观测向量都是通过某些概率密度分布表现为各种状态，每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以，隐马尔可夫模型是一个双重随机过程——具有一定状态数的隐马尔可夫链和显示随机函数集。隐马尔科夫模型（HMM）可以用五个元素来表示，包括两个状态集合和三个概率矩阵：1.隐含状态S;2.可转移状态O;3aaaa.初始状态概率矩阵π;4.隐含状态转移概率矩阵A;5.观测状态转移概率矩阵B。一般的，可以用λ=（A，B，π）三元组来简洁的表示一个隐马尔科夫模型。应用隐马尔科夫模型通常解决三类基本问题：1.评估问题;2.解码问题;3.学习问题。隐马尔可夫模型是目前进行声学建模的主流技术。采用5状态的连续HMM 模型（见图1），其中1、5状态只起连接作用，没有观测概率，第2、3、4状态有高斯概率分布，假设特征参数是相互独立的，所以规定协方差矩阵为对角阵。图1 五状态HMM模型结构三、深度神经网络模型 1.神经网络的基本概念神经网络即人工神经网络，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法的数学模型。此网络依靠系统的复杂程度，通过调整内部大

语音识别技术原理及应用

语音AgentNet 的整体实现张宇伟

摘要：本文论述了一个人机对话应用的实现(我命名它为AgentNet)。其应用实例为一种新的整合了语音技术的智能代理网络服务。服务器端开发使用了微软SQL SERVER 7.0技术,客户端使用了微软Agent ，微软Specch SDK5语音合成，和语音识别技术。网络连接使用了SOCKET 技术,并论述了高层网络协议的实现。 [关键词] 人机对话，MS-AGENT,语音合成，语音识别，网络编程 [Abstract] This paper discuss a new actualization of man-machine conversation application, which is based on a modal of network service. And I name this service with the name of AgentNet. The development of this service used Microsoft SQL SERVER 7.0. And the client used the technology of Microsoft Agent, TTS (Text To Speech),SR(Speech Recognition).Also the client and the server connect with SOCKET. On the SOCKET, the paper discuss the development of High-Level net protocol. [Key Words] Man-Machine Conversation, MS-AGENT, TTS , SR ,Net Work Programming

matlab语音识别系统(源代码)最新版

目录一、设计任务及要求 (1) 二、语音识别的简单介绍 2.1语者识别的概念 (2) 2.2特征参数的提取 (3) 2.3用矢量量化聚类法生成码本 (3) 2.4VQ的说话人识别 (4) 三、算法程序分析 3.1函数关系 (4) 3.2代码说明 (5) 3.2.1函数mfcc (5) 3.2.2函数disteu (5) 3.2.3函数vqlbg (6) 3.2.4函数test (6) 3.2.5函数testDB (7) 3.2.6 函数train (8) 3.2.7函数melfb (8) 四、演示分析 (9) 五、心得体会 (11) 附：GUI程序代码 (12)

一、设计任务及要求用MATLAB实现简单的语音识别功能；具体设计要求如下：用MATLAB实现简单的数字1~9的语音识别功能。二、语音识别的简单介绍基于VQ的说话人识别系统，矢量量化起着双重作用。在训练阶段，把每一个说话者所提取的特征参数进行分类，产生不同码字所组成的码本。在识别(匹配)阶段，我们用VQ方法计算平均失真测度(本系统在计算距离d时，采用欧氏距离测度)，从而判断说话人是谁。语音识别系统结构框图如图1所示。图1 语音识别系统结构框图 2.1语者识别的概念语者识别就是根据说话人的语音信号来判别说话人的身份。语音是人的自然属性之一，由于说话人发音器官的生理差异以及后天形成的行为差异，每个人的语音都带有强烈的个人色彩，这就使得通过分析语音信号来识别说话人成为可能。用语音来鉴别说话人的身份有着许多独特的优点，如语音是人的固有的特征，不会丢失或遗忘；语音信号的采集方便，系统设备成本低；利用电话网络还可实现远程客户服务等。因此，近几年来，说话人识别越来越多的受到人们的重视。与其他生物识别技术如指纹识别、手形识别等相比较，说话人识别不仅使用方便，而且属于非接触性，容易被用户接受，并且在已有的各种生物特征识别技术中，是唯一可以用作远程验证的识别技术。因此，说话人识别的应用前景非常广泛：今天，说话人识别技术已经关系到多学科的研究领域，不同领域中的进步都对说话人识别的发展做出了贡献。说话人识别技术是集声学、语言学、计算机、信息处理和人工智能等诸多领域的一项综合技术，应用需求将十分广阔。在吃力语音信号的时候如何提取信号中关键的成分尤为重要。语音信号的特征参数的好坏直接导致了辨别的准确性。

语音识别基本知识及单元模块方案设计

语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术，语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 1语音识别的基本原理语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，它的基本结构如下图所示：未知语音经过话筒变换成电信号后加在识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。2语音识别的方法目前具有代表性的语音识别方法主要有动态时间规整技术（DTW）、隐马尔可夫模型（HMM）、矢量量化（VQ）、人工神经网络（ANN）、支持向量机（SVM）等方法。动态时间规整算法（Dynamic Time Warping，DTW）是在非特定人语音识别中一种简单有效的方法，该算法基于动态规划的思想，解决了发音长短不一的模板匹配问题，是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时，就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度，按照某种距离测度得出两模板间的相似程度并选择最佳路径。隐马尔可夫模型（HMM）是语音信号处理中的一种统计模型，是由Markov链演变来的，所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本，且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出，因此是较理想的语音识别模型。矢量量化（Vector Quantization）是一种重要的信号压缩方法。与HMM相比，矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域，每个小区域寻找一个代表矢量，量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。在实际的应用过程中，人们还研究了多种降低复杂度的方法，包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。人工神经网络（ANN）是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一

十种自动识别技术

自动识别技术 1. 条码 5. 电子信息交换 2. 生物测量 6. 机器视觉 3. 卡片技术7. 光学字符识别 3.1磁条卡8. 射频信息通讯 3.2光学卡片9. 射频识别 3.3智能卡10.语音识别 4. 接触记忆自动识别技术概述条形码是主要的自动收集技术，用来收集有关任何人物、地点或物品的资料.它的应用范围是无限的。条码被用来进行物品追踪、控制库存、记录时间和出勤、监视生产过程、质量控制、检进检出、分类、订单输入、文件追踪、进出控制、个人识别、送货与收货、仓库管理、路线管理、售货点作业以及包括追踪药物使用和病人收款等在内的医疗保健方面的应用。条码本身不是一套系统，而是一种十分有效的识别工具它提供准确及时的信息来支持成熟的管理系统。条码使用能够逐渐地提高准确性和效率，节省开支并改进业务操作。条码是由不同宽度的浅色和深色的部分（通常是条形）组成的图形，这些部分代表数字、字母或标点符号。将由条与空代表的信息编码的方法被称作符号法。符号法有许多种。下面列举的是一些最常使用的符号法。通用产品码（UPC码）和它在世界范围的相似物国际物品码（EAN码）在零售业被非常广泛地使用，它们正在工业和贸易领域中被广泛地接受。UPC/EAN码是一种全数字的符号法（它只能表示数字）。在工业、药物和政府应用中最多的是39码，它是一种字母与数字混合符号法，它具有自我检验功能，能够提供不同的长度和较高的信息安全性。它被一些工业贸易组织所接受，包括汽车工业活动组织（AIAG）、保健工业贸易通讯委员会（HIBCC）和美国国防部（DOD）。工业应用包括追踪生产过程、仓库库存，还有识别影印领域这样的特别应用。作为一种字母与数字混合符号法，39码除有数字外，还能够支持大写字母并有一些标点符号。与39码相比，128码是一种更便捷的符号法，它能够代表整个ASCII字母系列。它提供一种特殊的“双重密度”的全数字模式并有高信息安全性能。128码正在逐渐代替39码。HIBCC 和统一编码委员会（UCC）已接受一种特殊版本的128码（UCC/EAN-128）用来进行送货箱的标记。在ANSI的送货箱标记标准中也承认UCC/EAN-128码。在需要将序号、批量号和其它有关信息输入到产品标签上的应用中使用UCC/EAN-128码的趋势有进一步的发展。两维码符号法正在跟进两维码符号法是条码发展的下一步骤。它们比传统的条形码的密度高得多，所以能提供较高的信息完整程度。因为它们能够将更多的信息放入更小的面积内，所以它们为许多不同的应用所接受。有两种不同的两维码符号法：重叠式条码（条码的细条重叠在一起）和矩阵式符号法（它是统一规格的黑白方块的组合，而不是不同宽度的条与空的组合）。重叠式条码（如PDF417码、Codablock、Supercode）包括附加的版式排列信息，这样信息会总处于正确的位置中。信息量可达到1K的字母（如果计算进“连接”的符号会更高）。例如，PDF417码被用来为送货/收货标签信息编码，甚至ANSI使用它来为送货箱的标签编码，作为“纸张电子信息交换”的一部分。这种符号法被多个工业组织和许多工业公司所采

语音识别输入软件

《语音识别输入软件》(Dragon NaturallySpeaking 10 SP1、10.1)[光盘镜像] Dragon NaturallySpeaking 10 Dragon Naturally Speaking 10 Preferred gives small business and advanced PC users the power to create documents, reports and emails three times faster than most people type —with up to 99% accuracy. Surf the Web by voice or dictate and edit in Microsoft Word and Excel, Corel WordPerfect, and most other Windows-based applications. Create voice commands to quickly insert blocks of texts or images —such as your name, title, and signature. Dictate into a handheld device when you're away from your PC, or use a Bluetooth microphone for the same great dictation results without the wires. A high-quality headset is included. 请大家看清自己的操作系统选择合适自己的对应版本！该版本软件不支持中文语音输入《语音识别输入软件》软件售价：249.99美元专业工作人员每天都在为完成创建文档、编写邮件、完成表格以及流线型工作任务而忙碌着，现在，拥有了Dragon NaturallySpeaking Professional 9，您只需开口说话就可以完成以上任务！Dragon Naturally Speaking 速度为动手输入字符速度的三倍，而且准确率高达99%。对着您的电脑讲话，您说的话会立即在office文件、IE浏览器、Corel WordPerfect软件、Lotus Notes 系统或其他基于Windows操作系统的应用程序上显示。您还可以创建语音命令，同时进行多种计算机任务，由此而知，您将节约多少时间！Dragon Naturally Speaking Professional 9经Section 508检验完全合格，并为身有残疾的使用者创造了完全脱离手工操作使用个人计算机的机会。Dragon Naturally Speaking Professional 9 同时也含有多种可供选择的网络部署的工具，如支持Citrix瘦客户机必需设施的配置。您想象不到的准确率 Dragon Naturally Speaking Professional 9实现了前所未有的准确率，甚至比打字都要准确。Dragon Naturally Speaking 从来没有出现过拼写错误，而且，事实上，使用次数越多，Dragon NaturallySpeaking 就越灵活，其准确率越高。快于打字的速度！大多数人说话的速度为每分钟120个字，而打字的速度每分钟少于40个字，Dragon Naturally Speaking 的速度将近手工输入字符速度的三倍！使用简易您马上就可以通过声音来进行信笺、邮件的完成以及进行网上冲浪，不再需要从输入可读字符来开始这一切了。随软件我们附赠事业能够指南和Nuance认可的完全隔离噪音的麦克风。

浅谈语音识别技术的应用和发展

浅谈语音识别技术的应用和发展摘要语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术,其最终目标是实现人与机器进行自然语言通信。语音作为一个交叉学科,具有深远的研究价值,近50年的研究发展,语音识别技术已经有了极大的发展。本文介绍了语音识别技术的基本原理和应用,并且对语音识别技术的发展趋势进行了展望。关键词语音识别;应用;发展 0 引言语音是人类互相之间进行交流时使用最多、最自然、最基本、最重要的信息载体。在高度信息化的今天,语音处理的一系列技术及其应用已经成为信息社会不可缺少的组成部分。语音的产生是一个复杂的过程,包括心理和生理等方面的一系列因素。当人们需要通过语音表达某种信息时,首先是这种信息以某种抽象的形式表现在说话人的大脑里,然后转换为一组神经信号,这些神经信号作用于发声器官,从而产生携带信息的语音信号。 1 语音识别的研究历史及现状在国外语音识别的研究工作可以追溯到上世纪50年代。1952年AT&T贝尔实验室的Audry系统是第一个可以识别十个英文数字的语音识别系统。上世纪60年代末70年代初出现了语音识别方面几种基本思想,其中重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效的解决了语音信号特征提取和不等长语音匹配问题,同时,还提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。上世纪80年代语音识别研究进一步走向深入,其显著特征是隐马尔可夫模型(HMM)和人工神经网络(ANN)在语音识别中的成功应用。上世纪90年代,在计算机技术、电信应用等领域飞速发展的带动下,迫切的要求语音识别系统从实验室走向实际应用。具代表性的是IBM的Via V oice和Dragon公司的Dragon Dictate 系统,这些语音识别系统具有说话人自适应能力,新用户不需要对全部词汇进行训练便可在使用中不断提高识别率[1]。

浅论自动语音识别结构与原理

浅论自动语音识别结构与原理发表时间：2018-12-05T13:30:59.817Z 来源：《科技新时代》2018年10期作者：黄淑彤[导读] 自动语音识别(Automatic Speech Recognition）简称ASR是目前属于AI领域的一项十分重要的技术，伴随着人工智能的高速发展，智能化生活走向主流，ASR技术已经走进了人们的生活中的方方面面。学校：当阳市第一高级中学，学校地址：湖北省宜昌市，学校邮编：444100 摘要;自动语音识别(Automatic Speech Recognition）简称ASR是目前属于AI领域的一项十分重要的技术，伴随着人工智能的高速发展，智能化生活走向主流，ASR技术已经走进了人们的生活中的方方面面。先简要介绍了语音识别的发展、语音信号的接收，再重点阐述了ASR运行过程中相关的原理及方法和与ASR技术的基本算法使用语音信号的处理涉及的三大算法即朴素模式算法，KMP算法，及HMM算法。关键词; 自动语音识别;人工智能;语音识别涉及的三大算法 1.语音识别系统的发展历程语音即声音，自动语音识别(ASR) 简言之就是：听到人类发出的语音指令后，计算机通过将声音中包含的信息转化为的一系列计算机可理解的参数，之后再进行处理，做出人类所需要的反应的一种智能技术[1]。为了在与计算机交互时同与人类说话一样容易，科学家做出了巨大努力。其中历史性的两大里程碑事件一是戴维斯实验室研发的英文十英文字符语音参数实验系统，二是毕业于卡内基梅隆大学的李开复开拓出了容纳更广的词汇量的语音识别系统sphinx，还为此前种种难题，如不间断语音非特定人语音、声线不平、语音信息模糊等问题提供了解决方案，从此成为如今大多数进入语音识别领域的工作者的必备知识[1]。追根朔源语音识别是从贝尔发明电话时期初露锋芒的，伴随着1876年电话的发明，语音识别的一系列有关声音的参数如声带振动的频率，振幅，声速等相关影响因素都被予以高度关注及探索，从此为语音研究铺下了良好的基础[1]。紧随其后的是诞生于1946年的计算机，它开创了电子信息新时代，随着计算机发展愈加完善，该技术成为语音识别进步的巨大动力[1]。语音识别的原理是离不开模型的，譬如声学模型，语言模型，概率模型等都是语音识别时的工具，这就如同一串拼音对应多个词组一样，我们要在一段语音中找到概率最大的音频，则需要一些算法来得到转化后的可懂序列[3]。这个过程涉及到一些数据信息的获取和处理，具体技术即下文介绍的语音信号接收操作及三大算法。 2.语音信号接收作为技术突破的第一步，语音信号的接收是最先发展和突破的，在历史上探索历程也是最漫长的，整个操作过程有重要的两步，即静音切除和分帧操作。 2.1 静音切除静音切除是与语音有关的必要部分比如声码器，声码器在军事领域运用最为广泛，其工作原理是通过声音震动带来的频率变化转化为数字信号，其中只保留必要的关键词，剪切掉的多余部分作为推测信号会在释放时被重新填补，再通过力传感器产生同按键生压一样的效果，解放双手就能做到发出准确的指令[2][5]。但如果一段音频的时间过长，那么收集其声音参数形成的数据就会很大，这时切除无用信号就显得尤为重要，静音切除用到的基本技术是VAD(virtural address descripter)，它的工作原理是在虚拟的语音环境中识别出指令者声音信息流的停顿空白期，这一段并不含信息源，完全可省略，同开头结尾部分文件头一起还原语音时，与有用信息一起通过语音分组待还原[3][5]。 2.2分帧操作分帧操作首先是为了分辨频率信号的分布情况，其次是对语音信号进行隔离，一段一段的语音分成组累叠储存比一整段数据携带更为方便，也能够使运作效率提高。而分帧操作时使用的必须是一段平稳清晰的声音帧，为了分清各个频率情况的分布，这里要用到“傅里叶变换”，结合窗函数，收集一系列经过函数加工后得到的声音参数比如声速、声波频率、振幅、声波的波峰波谷等音频信号，利用移动窗函数给各帧函数确定下坐标参数。这里的傅里叶变换是指将满足一定条件的某个函数表示成三角函数，正弦余弦函数等一系列普通可懂函数，之后在同一些积分线性函数相组合结合。从而提高分辨率，两边的幅度下降之后，确定下了秒数之后就可以开始变换了[3]。 3.语音识别的核心三大算法模式匹配即匹配字符串(一串字符序列)，在主串（比对串）中对子串（待匹配串）进行定位，其实串在计算机是凭借各字符在字符表中的前后位置顺序进行比较的，常用字符也是指对应字符在对应字符集中的序号，正如语音识别中模式匹配需要找到对应格式，字串也要找到指定位置，再填补，增删之后才可使用[6]。模式匹配是使串的长度和对应位置相对应，从而达到使语音匹配正确的目的。 3.1 朴素模式算法(BF算法) 朴素模式算法即依次全部历遍完串直到全部匹配成功,如下表按照上下箭头进行匹配，如果匹配不成功，则接着下一个进行匹配直到待匹配串完全一一对应才算完全成功。其实在BF算法中称P为模式字符串，而T为目标字符串，字符的对应成功就代表着P在T中完全一一对应了[6]。譬如给出T串:A B H O M E W O R K E P P串：H O M E W O R K,在匹配时可以明显发现前面的元素字串无法一一对应时箭头显现红色，后面无对应的箭头显示白色，在这样的情况下，根据朴素模式算法知道，接下来要向后移动模式串P，而T串不动再进行一次匹配，如下图，第二个图对应第二次匹配的过程依然没完成百分之百的对应，接着重复前面的操作得到的第三个图就是对应成功了，且成功对应的串都是用绿色箭头表示的，接着可以直接输出串的位置，序号等参数，从而定下匹配的串，这样朴素模式算法就算完成了。

语音识别技术在手机中的应用

语音识别的应用语音识别可以应用的领域大致分为大五类：办公室或商务系统。典型的应用包括：填写数据表格、数据库管理和控制、键盘功能增强等等。制造业：在质量控制中，语音识别系统可以为制造过程提供一种“不用手”、“不用眼”的检控（部件检查）。电信：相当广泛的一类应用在拨号电话系统上都是可行的，包括话务员协助服务的自动化、国际国内远程电子商务、语音呼叫分配、语音拨号、分类订货。医疗：这方面的主要应用是由声音来生成和编辑专业的医疗报告。其他：包括由语音控制和操作的游戏和玩具、帮助残疾人的语音识别系统、车辆行驶中一些非关键功能的语音控制，如车载交通路况控制系统、音响系统。当语音识别技术应用到计算机桌面的时候，这看起来似乎是一个好主意。但是，对于大多数人来说，语音识别还不能取代键盘和鼠标。现在，语音技术正用于一个全新的环境：手机。语音识别技术在手机中的应用将进一步推动这语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术，语音技术的应用已经成为一个具有竞争性的新兴高技术产业。语音识别技术在手机中的应用

专题报道2011年第7期种技术向新的方向发展和应用。这是语音识别技术在台式电脑应用中从来没有涉足的方向。 IBM在60年代初期创建了一个名为“Shoebox”的试验性的语音识别系统。这个系统解决了口语算法问题。语音识别技术是在50年代作为一项早期的技术第一次出现的，当时主要是由于好奇。在60年代初，IBM的“Shoebox”设备能够识别出16个口语单词并且能够回答简单的数学问题，如“3 ＋ 4 =？”。 Dragon Systems在80年代初为DOS计算机推出的DragonDictate可能是第一个语音识别应用程序。这个应用程序只能识别单个单词，每次只说一个单词。随着时间的推移，这个应用程序已经发展成为名为“Dragon NaturallySpeaking”（目前是第11个版本，由Nuance通讯公司所有）的产品。这个应用程序能够翻译以正常的会话语音和速度读出的文本。语音识别技术在台式电脑中的应用有两个制约因素。第一，为了使这个应用程序以更高的准确性工作，这个应用程序必须要进行训练以便识别用户的语音特征。Windows Vista和Windows 7操作系统中的本地语音转换文本技术和Dragon NaturallySpeaking等第三方产品仍然都需要一个用户训练期才能使用。第二个制约因素是键盘的流行程度。大多数人已经习惯于键盘打字而不是讲话，因此，语音控制面临Dvorak键盘布局同样的应用障碍。当简单的老式QWERTY键盘供货充足并且工作的很好的时候，为什么要学习使用Dvorak键盘呢？微软TellMe团队是负责为多媒体环境开发语音识别技术的部门。TellMe团队高级产品经理Abhi Rele指出，在台式电脑环境，用户有方便的人机交流模式，如键盘和鼠标。因此，语音的使用主要是针对语音爱好者的。语音控制的计算更广泛的应用需要两件事情：更好的方便的应用和主要使用语音的地方。手机正是很长时间以来一直在增长的这种地方。 Nuance负责产品管理和营销的副总裁Matt Revis解释说，台式电脑和移动环境的区别是这样的：台式电脑是一个固定的环境，重点完全在于台式电脑的使用情况。因此，台式电脑的语音技术主要执行如下任务：支持办公应用程序、网络浏览、通讯等。在移动方面，语音更多地用于支持各种生活方式方面：移动中的专业人员、户外的有趣活动、免提电话等等。 Gartner分析师Tuong Nguyen赞同这个观点：语音在移动环境中更有意义。他说，从使用的角度看，掌上设备的语音识别功能价值更大。它增加了用户友好的、方便的输入方式。 Nguyen补充说，如果不用语音技术说出一个简单的说明语句，而是翻动许多菜单或者努力地在小显示屏键盘上进行输入，语音识别的价值就显现出来了。随着触摸屏设备（没有物理键盘）应用的增长，语音识别技术将用来增强数据输入和输出。语音识别还支持免提要求或者法律要求。在移动设备方面因为移动设备一般仅支持台式电脑的一部分存储和处理功能，语音处理需要一些时间才能以基本的形式出现在手机中。语音处理Springer手册解释了手机在2000年代初的情况。尽管那时还有一些局限性，但是，手机经过编程之后能够识别逐个数字的拨号语音，在某种程度上还能识别人的名字。主要问题是内存，因此，大多数手机一次只能识别 10个数字或者名字。但是，这些作者指出的另一个问题是这个功能使用的比较少，可能是因为手机厂商在这方面的营销很糟糕。随着手机的增加内存和增强处理能力，普通手机的识别能力也增强了。三星电子在2005年发布的售价99美元的 SCH-p-207型手机增加了语音至文本的听写功能和语音拨号功能。随着内存达到数百MB和存储容量达到数GB，目前这一代智能手机很少受到限制。另一个关键的进步是网络速度。速度更快的无线网络浪潮抬高了许多大船，包括最新一代的语音处理技术。速度更快的网络能够把语音处理任务从网络迁移到远程服务器。谷歌语音搜索产品经理Amir Mane

视觉及语音识别技术的当下与未来

视觉、语音识别技术【引言】：在这个信息高速发展的时代下，人们已经不再停留于对于信息的解读与计算，未来信息时代的发展方向是人机互动，更确切的说，是人物互动，通过识别系统来感知外界信息以达到互动，而最直接的便是视觉、语音识别技术的识别，同时我们可以把这个互动看作机器的智能反应，而识别技术便是达成该飞跃的密钥。【摘要】 1.视觉、语音识别技术的概念，及其发展至今的过程。 2.视觉、语音识别系统的应用。 3.视音融合的未来的展望。 *计算机视觉、语音识别语音识别技术，也被称为自动语音识别，即Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确定不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。这本身就是富有挑战性的，计算机需要去通过智能技术计算出当事人的身份，以达到识别的目的而作为人类视觉模拟的计算机视觉是利用计算机从而为图中提取景物的二维或三维的结构和属性的描述，并加以理解。计算机视觉同样是一个重要又富有挑战意义的研究领域。对于计算机视觉系统来说，输入时表示三维景物投影的灰度阵列，可以有若干个输入阵列，这些阵列可提供从不同方面、不同视角、不同时刻得到的信息。纵观语音识别的历史，早在计算机发明之前，自动语音识别的设想就已经被提上日程，早起的声码器可被视作语音识别的雏形。1960年，人工神经网络被引入了语音识别。这一时代的两大突破时线性预测编码和动态时间弯折技术。而语音识别技术的最重大突破是隐马尔科夫模型的应用。 *视觉识别和语音识别的应用视觉识别的应用很多，视觉的最大优点是与被测对象无接触，因此对观测者与被观测者都不会产生任何损伤。而智能视频监控是计算机视觉领域一个新兴的应用方向和备受关注的前沿课题。伴随网络技术和数字视频技术的飞速发展，监控技术正走向智能化、网络化方向不断前进。它在工业上可应用于对烟叶品质进行图像处理，借助MATLAB图像处理工具箱和神经网络技术，对各种类型的烟叶的数字图像进行计算机视觉分析，包括边缘检测、轮廓提取、用图像工具箱抽取烟叶数字图像特征，最后通过自动识别待测烟叶样本的品质的只能评定。在商业上，如商业人流统计、防止扒窃等等。其理念是将风险的分析和识别转交给计算机或者芯片，使值班人员从“死盯”监视器的工作中解脱出来，将人为失误的可能性降至最低，在不需要人为干预情况下，利用计算机视觉和视频分析的方法对摄像机拍摄的图像序列进行自动分析，实现对动态场景中目标的定位、识别和跟踪，并在此基础上分析和判断目标的行为，从而既能完成日常管理工作又能在异常情况发生时做出反应。军事方面，计算机视觉开辟了人工智能的一个全新领域，它模拟并帮助理解人类的视觉系统。就军事领域的应用而言，在执行地空突防飞行和其它空袭任务过程中，采用被动式地形侦查与勘测技术能够提高飞行的隐蔽性，解决易于被敌方探测的需要。当然不得不提视觉识别技术在公安工作中的应用，例如计算机人脸识别技术是利用计算机对人脸图像进行分析，从中提取有效地识别信息，用来“辨别”身份的一门极速。它涉及到图像处理、模式识别、计算机视觉和神经网络等等。人脸识别技术在商业上和法律上都有