语音识别

合集下载

语音识别技术的典型应用

语音识别技术的典型应用一、介绍语音识别技术语音识别技术是一种将人类语言转换为计算机可读形式的技术。

它可以将人类的口语输入转换为文本或命令，使得计算机可以理解和执行。

这种技术已经广泛应用于各个领域，如智能家居、智能客服、医疗健康等。

二、智能家居1. 语音控制家电随着人们生活水平的提高，对生活品质的要求越来越高，智能家居应运而生。

语音识别技术可以让人们通过口头指令来控制家中各种设备的开关和调节，比如灯光、温度、窗帘等等。

用户只需要说出相应的指令即可实现操作，非常方便。

2. 语音助手智能家居还可以通过语音助手来实现更多功能。

比如，用户可以通过与语音助手交互来获取天气预报、新闻资讯等信息；也可以使用它来设置提醒事项或日程安排；甚至还可以让它帮你下厨做菜。

三、智能客服1. 自动接听电话在传统的客服中心，客服人员需要手动接听电话并进行人工服务。

这种方式效率低下，容易出现疏漏和误解。

而使用语音识别技术，可以实现自动接听电话并进行语音交互。

客户只需要说出问题或需求，系统就可以自动识别并给予相应的回答或解决方案。

2. 自助查询智能客服还可以通过语音识别技术实现自助查询功能。

比如，在银行、电商等场景中，用户可以通过与系统交互来查询账户余额、订单状态等信息。

这种方式不仅方便快捷，还能减轻客服工作压力。

四、医疗健康1. 语音诊断在医疗领域中，语音识别技术也有着广泛的应用。

比如，在一些基层医疗机构中，医生可以使用语音诊断系统来帮助患者进行初步的检查和诊断。

患者只需要说出自己的症状和感觉即可得到初步的诊断结果。

2. 智能健康管理除了在医疗机构中使用外，语音识别技术还可以用于智能健康管理。

用户可以通过与智能健康管理系统交互来记录自己的身体数据，比如体重、血压、心率等等。

系统会自动分析这些数据，并给出相应的健康建议和指导。

五、总结语音识别技术是一种十分有用的技术，它可以帮助人们更方便地进行交互和操作。

在智能家居、智能客服、医疗健康等领域中，它已经得到了广泛的应用。

语音识别技术的原理及其实现方法

语音识别技术的原理及其实现方法语音识别技术是一种将人类语音转化为文字的技术，它正被越来越广泛地应用于智能助理、语音输入、自动翻译等领域。

本文将详细讨论语音识别技术的原理及其实现方法，以帮助读者更好地了解这一技术并掌握其应用。

一、语音识别技术的原理语音识别技术的原理可以分为三个主要步骤：信号处理、特征提取和模型匹配。

1. 信号处理：语音信号在传输过程中可能受到多种噪声的干扰，如环境噪声、话筒噪声等。

因此，首先需要对音频信号进行预处理，以提高识别准确率。

该步骤通常包括音频去噪、降噪、增强等技术。

2. 特征提取：在预处理后，需要对语音信号进行特征提取，即将连续的语音信号转换为更具区分度的特征向量。

常用的特征提取方法有MFCC （Mel Frequency Cepstral Coefficients）和PLP（Perceptual Linear Prediction）等。

这些特征提取方法通过对不同频率的声音进行分析，提取出语音信号的关键特征，如音高、音频的形态和时长等。

3. 模型匹配：在特征提取后，需要建立一个匹配模型，将特征向量与预先训练好的语音模型进行比对，以确定输入语音对应的文字内容。

常用的模型包括隐马尔可夫模型（HMM）和深度神经网络（DNN）等。

这些模型通过学习大量的语音样本，使模型能够根据输入的特征向量判断最有可能的文字结果。

二、语音识别技术的实现方法语音识别技术的实现需要借助特定的工具和算法。

以下是常用的语音识别技术实现方法：1. 基于统计模型的方法：该方法主要基于隐马尔可夫模型（HMM）和高斯混合模型（GMM）。

隐马尔可夫模型用于描述语音信号的动态性，而高斯混合模型则用于对特征向量进行建模。

这种方法的优点在于其模型简单，容易实现，但其处理长时语音和噪声的能力较弱。

2. 基于神经网络的方法：随着深度学习技术的发展，深度神经网络（DNN）成为语音识别领域的热门技术。

该方法使用多层神经网络模型来学习语音信号的特征表示和模式匹配。

语音识别的基本流程

语音识别的基本流程
语音识别的基本流程可以概括为以下几个步骤：
1.音频输入：语音识别系统的起始点是音频输入。

这可以来自麦
克风、录制的音频文件或电话系统。

2.预处理：音频输入需要进行预处理，以去除背景噪音，使音量
正常化，并过滤掉无关的声音，以提高语音识别系统的准确性。

3.特征提取：预处理后的音频输入被转换为一组代表语音信号的
特征。

这一步的目的是将语音信号从时域转换到频域，为声学模型提供合适的特征向量。

4.声学建模：特征向量被用来训练声学模型，这是一个统计模型，
将输入特征映射到语音单位，如音素或子音素单位。

声学模型是在大量标记过的语音数据上训练的，这些数据包括音频输入和其相应的转录。

5.语言建模：声学模型的输出与语言模型相结合。

语言模型代表
所讲语言的统计特性，通过提供上下文和对可能的单词序列的限制来帮助提高识别精度。

6.解码：声学模型和语言模型的综合输出被用来为输入的语音生
成一个可能的单词序列或假设的列表。

7.识别结果输出：系统根据声学模型、语言模型以及字典与解码
等环节的综合结果，为输入的语音生成一个最终的识别结果，可以是文本信息或命令执行等。

以上是语音识别的大致流程，供您参考，如需获取更多信息，建议咨询语音识别领域的专业人士。

《语音识别》说课稿

《语音识别》说课稿尊敬的各位评委老师：大家好！今天我说课的题目是《语音识别》。

下面我将从教材分析、学情分析、教学目标、教学重难点、教法与学法、教学过程以及教学反思这几个方面来展开我的说课。

一、教材分析《语音识别》是信息技术领域中的一个重要内容，它涉及到计算机科学、语言学、信号处理等多个学科的知识。

本节课所选用的教材是_____出版社出版的《信息技术》＿____册，教材在内容编排上注重理论与实践相结合，通过实际案例引导学生理解和掌握语音识别的基本原理和应用。

在教材中，语音识别这一章节位于_____部分，它是对前面所学的_____知识的延伸和拓展，同时也为后续学习_____内容奠定了基础。

通过本节课的学习，学生将对语音识别技术有一个初步的认识，了解其工作原理和应用场景，为今后进一步学习和探索相关领域的知识打开了一扇窗口。

二、学情分析本节课的授课对象是_____年级的学生，他们已经具备了一定的信息技术基础知识和操作能力，对新鲜事物充满好奇心和求知欲。

在之前的学习中，学生已经接触过计算机的基本操作、编程语言等内容，具备了一定的逻辑思维能力和问题解决能力。

然而，语音识别技术对于学生来说可能是一个相对陌生的领域，其中涉及到的一些概念和原理可能会比较抽象，理解起来有一定的难度。

此外，学生在学习过程中可能会出现注意力不集中、缺乏耐心等问题，需要教师在教学过程中采取多样化的教学方法和手段，激发学生的学习兴趣，提高课堂教学效果。

三、教学目标基于对教材和学情的分析，我制定了以下教学目标：1、知识与技能目标（1）学生能够了解语音识别的定义、工作原理和应用场景。

（2）学生能够掌握语音识别系统的基本组成部分和工作流程。

（3）学生能够学会使用常见的语音识别软件进行简单的语音输入和操作。

2、过程与方法目标（1）通过观察、分析和实践，培养学生的观察能力、分析问题和解决问题的能力。

（2）通过小组合作学习，培养学生的团队协作精神和交流能力。

语音识别技术的阐述并举例说明

语音识别技术的阐述并举例说明1. 语音识别技术的概述在当今这个信息爆炸的时代，语音识别技术可谓是一个火热的领域。

简单来说，它就是让计算机“听懂”人类说话，把语音转换成文字。

想想看，以前咱们打字得慢吞吞的，现在只要“嘿，你好”，手机就能把你说的话变成文字，简直就像是在和外星人聊天！这种技术背后的原理其实挺复杂的，但咱们不必深究，简单理解就好。

1.1 语音识别的工作原理语音识别技术的工作原理其实就是把声音信号变成数字信号，再通过一些算法分析这个信号，最后识别出你说的内容。

就像是把你在大街上听到的音乐变成乐谱，虽然中间的过程可能有点曲折，但最后能听出个所以然来。

不过，别以为这就简单，想让计算机分清楚“我爱你”和“我爱鱼”可得下不少功夫呢！1.2 语音识别的发展历程语音识别的发展也可谓是一波三折。

从最初的只支持简单命令的系统，到现在的智能助手，真是翻天覆地的变化。

记得早些年，咱们说话时，系统经常听错，结果出来的文字让人哭笑不得。

可是，现在的技术已经进步了不少，能适应不同的口音、语速，甚至能理解一些俚语，真是让人叹为观止！2. 语音识别的应用场景那么，语音识别到底能用在哪里呢？这就不得不提到它的广泛应用了。

无论是日常生活还是工作中，语音识别技术都在悄悄改变着我们的方式。

2.1 智能助手大家一定听说过 Siri、Alexa 这些智能助手吧？它们的工作原理就是利用语音识别技术，帮助我们完成各种任务。

想查天气、定闹钟，甚至找餐馆，只要说出来，助手就能帮你搞定。

试想一下，早上起床的时候懒得动，只要躺在床上说：“给我来杯咖啡”，不久后咖啡就送到手边，简直就是现代人的梦想生活啊！2.2 客服服务再比如在客服领域，语音识别技术也发挥了大作用。

想想打客服热线的情景，你说：“我想投诉。

” 这句话通过语音识别系统，能迅速进入正确的处理流程，不再让你等得心急火燎。

以往那些烦人的按键导航真是让人心累，现在只需说出你的需求，简单明了，真是让人感觉“技术改变生活”不是空话！3. 语音识别的未来发展当然，语音识别的未来还有更多可能。

语音识别技术

基于DTW的语音识别
• DTW算法通过局部优化的方法实现加权距离和最小，即
D ( i , j ) = m in
C
∑
N
n=1
d x , y Wn i n j n ( ) ( )
(
)
∑W
n =1
N
n
Wn 为加权函数，需考虑两个因素： ⑴ 根据第n对匹配点前一步局部路径的走向来选取； ⑵ 考虑语音各部分给予不同权值，以加强某些区别特征。
• 对于孤立词(或命令)识别，DTW算法与HMM算法在相同的环境下，识别效果相差不大。 • 优点： -可靠性强 -复杂度低 • 关于DTW理论已作介绍
基于matlab的DTW识别算法实现
• 实验模板：”a，b，c，d，e，你好“的wav文件(8k采样，单声道，精度8位) • DTW算法采用两步约束：
・说话人识别常用参数分类：
(1) 线性预测参数及其判生参数 (2) 语音频谱直接导出的参数 (3) 混合参数 (4) 其他鲁棒性参数
说话人识别与语种辨识
・模式匹配的方法： (1) 概率统计方法； (2) 动态时间规整方法（DTW） (3) 矢量量化方法（VQ） (4) 隐马尔可夫模型方法（HMM） (5) 人工神经网络方法（ANN）
语音识别的概述
语音识别系统的分类
分类依据语音的发音方式孤立词语音识别系统连接字语音识别系统非特定人语音识别系统说话人词汇量的大小小词汇量 (10-100) 识别的方法动态时间规整(DTW) 矢量量化 (VQ) 隐马尔可夫模型（HMM ）隐马尔可夫模型 (HMM)、人工神经网络 (ANN) 应用场合
y y
yk =
Y = y1 , y2 ,L , yTy , k = 1, 2,L , Ty

语音识别四种方法的特点

语音识别四种方法的特点
一、语音识别四种方法特点
1、基于模板的语音识别
基于模板的语音识别是一种以词库中的特定词语为基础的语音
识别技术，它只能识别特定的词语，不能够识别一些比较复杂的句子。

它的特点是：识别准确性高，识别率低，能够做到识别后及时反馈。

2、基于模型的语音识别
基于模型的语音识别是一种面向句子的语音识别技术，它基于一定的模型，不仅能够识别特定的词语，还能够识别比较复杂的句子语句，并且具有识别率高、识别准确率较低的特点。

3、基于统计的语音识别
基于统计的语音识别是一种基于大量数据的语音识别技术，它能够实现自动的语音识别，识别率高，可以识别环境中的噪声，但是它的识别准确率较低。

4、基于神经网络的语音识别
基于神经网络的语音识别是一种融合了基于模板的语音识别和
基于模型的语音识别技术，它能够识别特定的词语，也能够识别比较复杂的句子，具有较高的识别准确率和识别率。

语音识别的定义、发展历程、基本原理和应用

语音识别的定义,发展历程,基本原理和应用一、语音识别（voice recognition，speech recognition）的定义是：让机器通过识别和理解，将人的语音信号转换为相应的文本或命令的过程。

语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言的技术。

语音识别是一门多学科交叉技术，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。

语音识别的本质是基于语音特征参数的模式识别，即通过学习，系统能够把输入的语音按一定模式进行分类，进而依据判定规则找出最佳匹配结果。

二、语音识别技术的发展历程可以分为以下几个阶段：1.20世纪50年代：这是语音识别的起步阶段，主要研究基于各种不同的语言特性，提取特征参数。

2.20世纪60年代：在这个阶段，研究者开始关注更具体的语言知识，包括句法、语义等，开始利用更复杂的信息来进行语音识别。

3.20世纪70年代：研究者们开始开发大型的语音数据库和语音识别的相关算法。

4.20世纪80年代：随着计算机技术的发展，语音识别的精度和效率得到了显著提高。

5.20世纪90年代：随着人工智能技术的兴起，语音识别技术得到了进一步的发展和应用。

6.21世纪：随着深度学习技术的发展，语音识别技术取得了重大突破，可以处理更加复杂和大规模的语音数据。

三、语音识别的基本原理：语音识别技术的基本原理是将人类语音信号转换为数字信号，然后通过计算机算法进行分析和处理，最终将其转换为文本或命令。

具体来说，语音识别系统通常包括以下步骤：声音信号的采集、预处理、特征提取、模式匹配和后处理等。

其中，模式匹配是语音识别的核心部分，它通过将输入的语音信号与预先训练好的模型进行比较，找到最匹配的模型，从而得到对应的文本或命令。

四、语音识别技术的应用非常广泛，包括但不限于以下几个方面：二、语音助手：这是语音识别技术在生活中的一个重要应用。

人工智能语音识别

• 工业控制及医疗领域当操作人员的眼或手已经被占
用的情况下，在增加控制操作时，最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令，机器用语音做出应答。
语音识别系统应用领域
• 个人数字助理的语音交互界面 PDA的体积很小
，人机界面一直是其应用和技术的瓶颈之一。由于在 PDA上使用键盘非常不便，因此，现多采用手写体识别的方法输入和查询信息。随着语音识别技术的提高，语音将成为PDA主要的人机交互界面。
目录
• 语音识别的定义 • 语音识别涉及领域 • 语音识别的类型 • 语音识别原理框图 • DTW算法 • 语音识别系统应用领域 • 语音识别技术的应用发展方向
语音识别的定义
语音识别技术就是让机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术，属于多维模式识别和智能计算机接口的范畴。它是语音信号处理学科的一个分支。语音识别系统的本质就是一种模式识别系统。常见的语音识别方法有动态时间归整技术(DTW) 、矢量量化技术(VQ)、隐马尔可夫模型(HMM)、基于段长分布的非齐次隐马尔可夫模型 (DDBHMM)和人工神经元网络(ANN)
DTW算法
DTW算法
搜索从(1,1)点出发，对于局部路径约束如图5-3，点(in,im)可达到的前一个格点只可能是(in-1,im)、(in-1,im-l)和(in-1,im-2)。那么 (in,im)一定选择这三个距离中的最小者所对应的点作为其前续格点，这时此路径的累积距离为：
D(in,im)=d(T(in),R(im))+min{D(in-1,im),D(in1,im-1),D(in-1,im-2)}
三种匹配模式的对比
DTW算法
DTW是把时间规整和距离测度计算结合起来的一种非线性规整技术，它寻找一个规整函数im=Ф(in)，将测试矢量的时间轴n非线性地映射到参考模板的时间轴m上，并使该函数满足：

语音识别 PPT课件

考模板的长度一致，在这一过程中，未知单词的时间轴会产生扭曲或弯折，以便其特征量与标准模式对应。
1. 原理描述 DTW 是把时间规整和距离测度计算结合起来的一种非线性规整技术。
测试语音参数共有I 帧矢量，而参考模板共有J 帧矢量，
I 和J 不等，寻找一个时间规整函数 j=w(i)，它将测试矢量的时间轴i 非线性地映射到模板的时间轴 j上，并使该函数
代价函数。
j
j
时间规整函数 j=w(i)
A
i
i
B
图13.4 动态时间规整
为了使T(测试)的第i 个样本与R(参考)的第 j 个样本对正，其对应的点不在直线对角线上，得到一条弯曲的曲线j=w(i)。j=w(i) 称为规整函数。
2. 时间规整解决的问题
设 T={a1 , a2 , …… , ai , …… , aI} i=1～I，
矢量量化识别时，将输入语音的K维帧矢量与已有的码本中M个区域边界比较，按失真测度最小准则找到与该输入矢量距离最小的码字标号来代替此输入的K维矢量，这个对应的码字即为识别结果，再对它进行K维重建就得到被识别的信号。
模型1 码本1
语音信号预处理
参数提取
模型2 码本2
· · ·
识别输判决逻辑出结果
由此来判别出未知语音。
特征提取的基本思想：将信号通过一次变换，去除冗余部分，将代表语音本质的特征参数抽取出来。与特征提取相关的内容是特征间的距离测度。特征的选择对识别效果至关重要。同时，还要考虑特征
参数的计算量。
语音信号的特征主要有时域和频域两种。
时域特征：短时平均能量、短时平均过零率、共振峰、基音周期等；频域特征：线性预测系数 (LPC) 、 LP 倒谱系数 (LPCC)、线谱对参数(LSP) 、短时频谱、 Mel频率倒谱系数(MFCC)等。目前已有结合时间和频率的特征，即时频谱，充

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

语音识别技术概述语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。

语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。

语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

历史早在计算机发明之前，自动语音识别的设想就已经被提上了议事日程，早期的声码器可被视作语音识别及合成的雏形。

而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器，当这只狗的名字被呼唤的时候，它能够从底座上弹出来。

最早的基于电子计算机的语音识别系统是由A T&T贝尔实验室开发的Audrey语音识别系统，它能够识别10个英文数字。

其识别方法是跟踪语音中的共振峰。

该系统得到了98%的正确率。

到1950年代末，伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。

1960年代，人工神经网络被引入了语音识别。

这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC)，及动态时间弯折Dynamic Time Warp技术。

语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。

从Baum提出相关数学推理，经过Labiner等人的研究，卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。

[1]。

此后严格来说语音识别技术并没有脱离HMM框架。

尽管多年来研究人员一直尝试将“听写机”推广，语音识别技术在目前还无法支持无限领域，无限说话人的听写机应用。

模型目前，主流的大词汇量语音识别系统多采用统计模式识别技术。

典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成信号处理及特征提取模块。

该模块的主要任务是从输入信号中提取特征，供声学模型处理。

同时，它一般也包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。

统计声学模型。

典型系统多采用基于一阶隐马尔科夫模型进行建模。

发音词典。

发音词典包含系统所能处理的词汇集及其发音。

发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。

语言模型。

语言模型对系统所针对的语言进行建模。

理论上，包括正则语言，上下文无关文法在内的各种语言模型都可以作为语言模型，但目前各种系统普遍采用的还是基于统计的N元文法及其变体。

解码器。

解码器是语音识别系统的核心之一，其任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。

从数学角度可以更加清楚的了解上述模块之间的关系。

首先，统计语音识别的最基本问题是，给定输入信号或特征序列，符号集（词典），求解符号串使得：W = argmaxP(W | O) 通过贝叶斯公式，上式可以改写为由于对于确定的输入串O，P(O)是确定的，因此省略它并不会影响上式的最终结果，因此，一般来说语音识别所讨论的问题可以用下面的公式来表示，可以将它称为语音识别的基本公式。

W = argmax P(O | W)P(W) 从这个角度来看，信号处理模块提供了对输入信号的预处理，也就是说，提供了从采集的语音信号(记为S)到特征序列O的映射。

而声学模型本身定义了一些更具推广性的声学建模单元，并且提供了在给定输入特征下，估计P(O | u k)的方法。

为了将声学模型建模单元串映射到符号集，就需要发音词典发挥作用。

它实际上定义了映射的映射。

为了表示方便，也可以定义一个由到U的全集的笛卡尔积，而发音词典则是这个笛卡尔积的一个子集。

并且有：最后，语言模型则提供了P(W)。

这样，基本公式就可以更加具体的写成：对于解码器来所，就是要在由,,u i以及时间标度t张成的搜索空间中，找到上式所指明的W。

语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。

语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

语音识别是一门交叉学科。

近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。

人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。

很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

一、语音识别的发展历史(1)国外研究历史及现状语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统，它是第一个可以识别十个英文数字的语音识别系统。

但真正取得实质性进展，并将其作为一个重要的课题开展研究则是在60年代末70年代初。

这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能，更重要的是语音信号线性预测编码（LPC）技术和动态时间规整（DTW）技术的提出，有效的解决了语音信号的特征提取和不等长匹配问题。

这一时期的语音识别主要基于模板匹配原理，研究的领域局限在特定人，小词汇表的孤立词识别，实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统；同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

随着应用领域的扩大，小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽，与此同时也带来了许多新的问题：第一，词汇表的扩大使得模板的选取和建立发生困难；第二，连续语音中，各个音素、音节以及词之间没有明显的边界，各个发音单位存在受上下文强烈影响的协同发音（Co-articulation）现象；第三，非特定人识别时，不同的人说相同的话相应的声学特征有很大的差异，即使相同的人在不同的时间、生理、心理状态下，说同样内容的话也会有很大的差异；第四，识别的语音中有背景噪声或其他干扰。

因此原有的模板匹配方法已不再适用。

实验室语音识别研究的巨大突破产生于20世纪80年代末：人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，第一次把这三个特性都集成在一个系统中，比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统，它是第一个高性能的非特定人、大词汇量连续语音识别系统。

这一时期，语音识别研究进一步走向深入，其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。

HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力，他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识，从而使统计方法成为了语音识别技术的主流。

统计方法将研究者的视线从微观转向宏观，不再刻意追求语音特征的细化，而是更多地从整体平均（统计）的角度来建立最佳的语音识别系统。

在声学模型方面，以Markov链为基础的语音序列建模方法HMM（隐式Markov链）比较有效地解决了语音信号短时稳定、长时时变的特性，并且能根据一些基本建模单元构造成连续语音的句子模型，达到了比较高的建模精度和建模灵活性。

在语言层面上，通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。

另外，人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。

20世纪90年代前期，许多著名的大公司如IBM、苹果、AT＆T和NTT都对语音识别系统的实用化研究投以巨资。

语音识别技术有一个很好的评估机制，那就是识别的准确率，而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。

比较有代表性的系统有：IBM公司推出的ViaVoice和DragonSystem 公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform语音平台，Microsoft的Whisper,Sun的VoiceTone等。

其中IBM公司于1997年开发出汉语ViaVoice语音识别系统，次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaV oice'98。

它带有一个32,000词的基本词汇表，可以扩展到65,000词,还包括办公常用词条，具有“纠错机制”，其平均识别率可以达到95%。

该系统对新闻语音识别具有较高的精度，是目前具有代表性的汉语连续语音识别系统。

(2)国内研究历史及现状我国语音识别研究工作起步于五十年代，但近年来发展很快。

研究水平也从实验室逐步走向实用。

从1987年开始执行国家863计划后，国家863智能计算机专家组为语音识别技术研究专门立项，每两年滚动一次。

我国语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，并达到国际先进水平。

中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究，其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

清华大学电子工程系语音技术与专用芯片设计课题组，研发的非特定人汉语数码串连续语音识别系统的识别精度，达到94.8%（不定长数字串）和96.8%（定长数字串）。

在有5%的拒识率情况下，系统识别率可以达到96.9%（不定长数字串）和98.7%（定长数字串），这是目前国际最好的识别结果之一，其性能已经接近实用水平。

研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%，前三选识别率达99.96%；并且可以识别普通话与四川话两种语言，达到实用要求。

中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR，结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。

二、语音识别系统的分类语音识别系统可以根据对输入语音的限制加以分类。

如果从说话者与识别系统的相关性考虑，可以将识别系统分为3类：(1)特定人语音识别系统：仅考虑对于专人的话音进行识别；(2)非特定人语音系统：识别的语音与人无关，通常要用大量不同人的语音数据库对识别系统进行学习；(3)多人的识别系统：通常能识别一组人的语音，或者成为特定组语音识别系统，该系统仅要求对要识别的那组人的语音进行训练。