汉语大词汇量连续语音识别系统研究进展

合集下载

大词汇量连续语音识别探讨

２００７年８月技术Ｖｏｌ．１５Ｎｏ．４Ａｕｇ．２００７语音识别［１］技术是研究如何使得机器能够听懂人的话语的技术。

这项技术一般分为连续语音识别和孤立词语音识别。

本文探讨的就是大词汇量连续语音识别技术，重点是这项技术在中文和英文上的发展。

随着８０年代初隐马尔可夫模型引入到语音识别这个领域，语音识别技术得到了突飞猛进的发展，语音识别也从小词汇量孤立词发展到大词汇量连续语音。

为了进行大词汇量连续语音识别，各研究机构均提出了许多新颖的方法，并且大多数方法在某个任务上都取得了成功。

但是，有些方法可能在Ａ机构的任务集上能够取得很好的效果，但是在Ｂ机构的任务集上却难以取得好的效果。

如何能够知道这个算法的优劣呢？显然，我们需要一个共同的任务集，大家都在这个任务集上工作，在同一参考标准下来评估算法的优劣。

在这方面，英文的连续大词汇量语音识别走在了前列。

也正如此，现在国际上英文的语音识别技术代表着该领域的最高水平。

１英文大词汇量连续语音识别美国的ＤＡＲＰＡ（ＤｅｆｅｎｓｅＡｄｖａｎｃｅｄＲｅｓｅａｒｃｈＰｒｏｊｅｃｔｓＡｇｅｎｃｙ）从１９８９年开始举行ＬＶＣＳＲ的比赛，每年一次。

参加的机构既有像ＩＢＭ这样的公司，也有Ｃａｍｂｒｉｄｇｅ这样的学校研究机构。

比赛的任务也从最开始的简单的听写机的比赛，发展到之后的ＢｒｏａｄｃａｓｔＮｅｗｓ和ＴｅｌｅｐｈｏｎｅＣｏｎｖｅｒｓａｔｉｏｎ这样难度的比赛。

ＤＡＲＰＡ的比赛大力推动了ＬＶＣＳＲ技术的发展。

这１０多年来，涌现出了许多新颖的技术，其中一些技术已经被人们广泛的使用。

可以这么说，这些年来ＬＶＣＳＲ技术的发展与ＤＡＲＰＡ的贡献是密不可分的。

１．１ＤＡＲＰＡ的ＬＶＣＳＲ任务的历史回顾首当其冲的是１９８９年开始的ＲｅｓｏｕｒｃｅＭａｎａｇｅ－ｍｅｎｔ任务，它分别在１９８９、１９９０、１９９１和１９９２举行了４次比赛。

训练集是１０９个人的３９９０句话，内容是一些信息查询。

测试集是１０个人的３００句话。

普通话语音识别技术的研究和应用

普通话语音识别技术的研究和应用语音识别技术在日常生活中越来越普遍，如语音助手、智能音箱等，其中普通话语音识别技术在中国的应用非常广泛。

本文将探讨普通话语音识别技术的研究和应用。

一、普通话语音识别技术的发展普通话语音识别技术在中国的发展历程可以追溯到上世纪80年代。

在当时，由于计算机性能的限制，语音识别技术并不成熟。

20世纪90年代以来，随着计算机技术的飞速发展，语音识别的准确率也逐渐提高。

近年来，由于深度学习技术的出现，语音识别准确率得到了极大的提高。

目前，百度和阿里巴巴等公司在普通话语音识别技术的研究和应用上处于领先地位。

这些公司不仅投入大量资金用于研究和开发，还拥有大量的语音识别数据集和专业的研发团队，令普通话语音识别技术的准确率迅速提升。

二、普通话语音识别技术的原理普通话语音识别技术的原理是基于声学模型、语言模型和发音词典。

其中声学模型用于指定音频片段对应的文本，语言模型用于进一步约束声学模型的输出结果，发音词典则指定单词的发音方式。

具体来说，语音识别系统将输入的语音信号转化为数字信号，并对数字信号进行预处理和特征提取，构建声学模型。

在识别时，声学模型会计算某个语音片段对应文本的概率，选取最有可能的文本作为识别结果。

同时，语言模型会约束识别结果，使其更符合语言规则，从而提高识别准确率。

三、普通话语音识别技术的应用普通话语音识别技术已经得到广泛的应用。

以下是一些典型的应用场景。

1. 语音识别输入普通话语音识别技术可以用于语音识别输入，即将语音转换为文本进行输入。

此技术在很多场景下可以提高效率，例如在开会记录会议内容、在车辆内进行手机操作等。

2. 智能客服智能客服使用普通话语音识别技术进行语音识别，自动分配请求并打开相应的应用程序。

用户只需通过语音说出自己的问题，就可以得到快速、准确的答案。

3. 智能语音助手普通话语音识别技术用于智能语音助手中，例如苹果的Siri、百度的度秘等。

语音助手可以响应用户的语音指令，例如打电话、播放音乐等。

语音识别技术研究进展与应用展望

语音识别技术研究进展与应用展望随着科技的不断进步，语音识别技术正逐渐成为我们生活中的一部分。

语音识别技术的发展给我们的生活带来了许多便利，也为各行各业带来了新的机遇和挑战。

本文将探讨语音识别技术的研究进展以及其在不同领域的应用展望。

一、语音识别技术的研究进展语音识别技术是指将人类语音转化为计算机可识别的形式，并进行相应的处理和分析的技术。

近年来，随着深度学习等人工智能技术的发展，语音识别技术取得了巨大的突破。

首先，语音识别技术的准确度大幅提升。

传统的语音识别技术主要基于概率模型，对于复杂的语音信号处理和模式识别任务存在一定的局限性。

而深度学习技术的引入使得语音识别系统能够更好地处理语音信号的特征，从而提高了识别的准确度。

其次，语音识别技术的实时性得到了显著提升。

传统的语音识别系统需要在离线状态下进行处理，无法满足实时应用的需求。

而基于深度学习的语音识别技术结合了分布式计算和并行计算的优势，能够实现实时的语音识别，为实时交互和智能助手等应用提供了可能。

最后，语音识别技术的适应性不断增强。

传统的语音识别系统对说话人的语音特征和环境的噪声敏感，容易受到外界干扰。

而基于深度学习的语音识别技术通过大规模的训练数据和端到端的学习方法，能够更好地适应不同说话人和不同环境下的语音识别任务。

二、语音识别技术在不同领域的应用展望1. 智能家居领域随着智能家居的快速发展，语音识别技术被广泛应用于智能音箱、智能电视等设备中。

通过语音指令，用户可以实现对家居设备的控制，如调节温度、开关灯光等。

未来，随着语音识别技术的进一步提升，智能家居将更加智能化，实现更多个性化的功能。

2. 语音助手领域语音助手已成为我们生活中的得力助手，如苹果的Siri、亚马逊的Alexa等。

语音识别技术的不断发展使得语音助手能够更好地理解用户的指令，并提供更准确的回答和建议。

未来，语音助手将进一步融入我们的生活，成为我们的私人助理。

3. 医疗健康领域语音识别技术在医疗健康领域的应用前景广阔。

语音识别技术研究进展

竺
／／
语音识别技术研究进展
詹新明１，黄南山ｚ，杨灿
ｆ华南理工大学计算机科学与工程学院，州５０４；．南理工大学软件学院，州５ｏｏ１．广１６０２华广１６）４
摘要：简单介绍了语音识别技术的发展历史和现状，阐述了语音识别系统的基本原理，对语音
０引言
语音识别技术就是让机器通过识别和理解过程
一
方面各种连接词语音识别算法被开发，例如多级动
态规划语音识别算法：一方面语音识别算法从模板另
匹配技术转向基于统计模型技术。研究从微观转向宏观．从统计的角度来建立最佳的语音识别系统。隐马
收稿日期：０８０ — ５修稿日期：０８０ — ０２０ — ４１２０— ４３
算
机
＾
ＭＴＲＬＯＯ０Ａ等公司也投入了汉语语音识别系统的开
发ＩＭ公司于１９Ｂ９７年正式推出中文听写机系统
总第ＶａＶｉｅｉｏｃ．该系统对新闻语音识别有较高的精度。是
二
＿－
九期
ＭＤＲｃＭｕＥｏＥＮ０ＰＴＲ．９
作者简介：新明（９８，，北浠水人，读研究生，究方向为多媒体通信詹１７一）男湖在研
把人类的语音信号转变为相应的文本或命令的技术．属于多维模式识别和智能计算机接口的范畴。其研究目标是让计算机 “ 听懂 ” 人类口述的语言．这是人类自计算机诞生以来梦寐以求的想法。着计算机软硬件随

语音识别技术及其研究进展

Ｍｅ参数和基于感知线性预测分析提取ｌ的感知线性预测倒谱。线性预测模型
ｌ数字的语音识别。６年代，计算机的应在某种程度上讲已经取得了很大的成Ｍｅ参数和基于感知线性预测分析提取０用推动了浯音识别的发展。这时期的重功，但是识别的鲁棒性的感知线性预测倒谱，在一定稃度上ＲｕｓｎｅＳ）要成果是提出了动态规划和线性预测分（ＯｂｔＳ、灵活性和自适应能模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。析技术（Ｐ）Ｌ，其中后者较好地解决＿ｒ力还不理想。不同的语音识别系统，虽然具体实验证明，采用这种技术，语音识别语音信号产生模型的问题，对语音识别的发展产生了深远影响。７年代，语音０识别领域取得了突破。Ｉ技术得到进Ｐ测试语音识别结果步发展，动态时间归正技术（ＴＷ）Ｄ基本成熟，特别是提出了矢量量化（ＶＱ）和隐马尔可夫模型（ＨＭＭ）理论。实现了基于线性预测倒谱和ＤＴＷ训练语音技术的特定人孤立语音识别系统。８年０代，实验室语音识别研究产生了巨大突
高的识别率。进入９年代以后，人们终实现细节有所不同，但所采用的识别０于在实验室突破了大侧汇量、连续语音的过程相似，语音识别过程如图ｌ。首先确定语音识别单元的选取。和非特定人这大障碍，第一次把这三个特性都集成在一个系统中，语音识别语音识别单元有单词（）句、音节和进入走向实用。音素三种。单词（）单元广泛应句用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞２语音识别分类及识别的过程大，训练模型任务繁重，模型匹配算语音识别按词汇量大小，可以分法复杂，难以满足实时性要求。因为为小词表、中词表和大词表以及无限汉涪是单音节结构的语言，音节数量

普通话语音识别技术的研究及发展

普通话语音识别技术的研究及发展一、概述普通话语音识别技术指的是利用计算机技术，将人类发出的普通话语音转换成文字或者执行特定的指令。

这一领域的研究和发展始于上个世纪的70年代，随着计算机技术、语音处理技术和机器学习算法的不断发展和突破，普通话语音识别技术取得了显著的进展。

本文将从技术基础、应用场景和发展趋势等方面来介绍普通话语音识别技术。

二、技术基础普通话语音识别技术基于声学模型、语言模型和解码器三个核心技术实现。

其中，声学模型是对声音进行特征提取和建模的过程，建模的目标是将输入的音频转换成一系列数值型的向量表示。

常见的声学特征包括梅尔倒谱系数和线性预测系数等。

语言模型则是为了提高识别准确率而引入的技术，其中建模的目标是预测输入的文本序列出现的概率。

解码器则是将声学模型和语言模型结合，实现对输入音频的识别。

目前，普通话语音识别技术主要采用深度学习算法来进行模型的训练和建模，例如基于循环神经网络的声学模型和基于Transformer的语言模型等。

三、应用场景普通话语音识别技术已经广泛应用于各种场景，例如智能家居、智能手机、智能客服、语音助手等。

其中，在智能家居领域，语音控制和识别已经成为主要的人机交互方式，例如可以通过语音控制音乐播放、空调温度调节等；在智能手机领域，语音识别技术可以应用于语音输入、智能翻译等功能；在智能客服领域，语音识别技术可以帮助企业提高客户服务质量和效率；在语音助手领域，语音识别技术可以有效地解决人类输入难题，例如可以通过语音指令快速地完成某项操作。

四、发展趋势目前，普通话语音识别技术在不断地推陈出新，随着计算机技术、语音处理技术和机器学习算法的不断进步，普通话语音识别技术的应用场景也在不断扩大。

未来几年，普通话语音识别技术将继续向以下方向发展：1. 改善识别准确率：随着深度学习算法的不断发展和突破，普通话语音识别技术的识别准确率将会不断改善。

2. 改进语音交互方式：除了语音指令和语音输入外，普通话语音识别技术还可以通过语音合成、情感识别、语音交互等多种方式来进行人机交互。

语音识别技术的前沿研究进展

语音识别技术的前沿研究进展近年来，语音识别技术取得了长足的发展，成为人工智能领域的热门研究方向之一。

该技术的应用广泛，涵盖了语音助手、自动语音识别、智能语音交互等多个领域。

本文将介绍语音识别技术的前沿研究进展，包括语音特征提取、模型训练和优化算法等方面。

一、语音特征提取的进展语音特征提取是语音识别技术的基础，目的是从语音信号中提取有用的信息用于后续处理。

传统的语音特征提取方法主要采用梅尔频率倒谱系数（MFCC）和线性预测编码（LPC）等方法。

然而，这些方法在噪声环境下的鲁棒性较差，难以适应实际应用场景的需求。

为解决这一问题，研究者们提出了一系列新的语音特征提取方法。

例如，基于深度学习的语音特征提取方法，如深度卷积神经网络（CNN）和长短时记忆神经网络（LSTM），可以有效地提取语音信号中的高级抽象特征。

此外，一些基于注意力机制的方法也被引入，以提高对重要语音信息的关注度。

二、模型训练的进展模型训练是语音识别技术的核心环节，旨在通过大量的训练数据和优化算法，使得模型能够准确地识别语音输入并进行分类。

传统的模型训练方法包括隐马尔可夫模型（HMM）和高斯混合模型（GMM），这些方法在一定程度上能够取得不错的识别效果。

然而，随着深度学习技术的兴起，研究者们提出了一系列新的模型训练方法，如端到端的训练方法和基于注意力机制的训练方法。

端到端的训练方法将特征提取、模型训练和解码等环节都融合在一个网络中，能够减少中间步骤的错误传递，提高整体性能。

而基于注意力机制的训练方法则可以使模型更加关注输入语音信号中的重要部分，进一步提高识别准确度。

三、优化算法的进展优化算法在语音识别技术中起着重要的作用，能够提高模型的收敛速度和泛化能力。

传统的优化算法中，随机梯度下降（SGD）和自适应学习率算法（Adaptive Learning Rate）是常用的方法。

然而，为了应对模型参数众多和训练数据规模庞大的问题，研究者们提出了一系列新的优化算法。

语音识别技术发展现状

语音识别技术发展现状语音识别技术（Speech Recognition）是指将人的语音信息转化为机器可以理解的文本或命令的技术。

随着人工智能和大数据技术的不断发展，语音识别技术也取得了显著的进展。

以下是语音识别技术发展的现状。

首先，语音识别技术在准确率上取得了重大突破。

过去，语音识别技术的准确率较低，存在着许多识别错误。

随着深度学习算法的引入，特别是循环神经网络和卷积神经网络的应用，语音识别技术的准确率有了显著的提高。

现在的语音识别系统已经超越了人类的准确率，达到了95%以上。

其次，在应用领域的拓展上，语音识别技术正逐渐渗透到各个行业和领域。

在智能手机和智能音箱等消费电子产品上，语音助手已经成为常见的功能，用户可以通过语音指令来操作设备、查找信息等。

此外，语音识别技术在医疗、教育、金融等领域也有广泛的应用，例如语音识别辅助医生填写病历、语音识别教学助手等。

另外，语音识别技术也在多语种和交叉语种应用方面有了进展。

过去，语音识别技术主要针对特定语种进行研究，现如今已经可以实现多语种的语音识别。

同时，针对交叉语种的应用场景，比如一个语种的背景噪声中出现其他语种的说话声音，语音识别技术也有了一定的应对能力。

此外，语音识别技术还与其他人工智能技术结合，在语音合成（Text-to-Speech）、情感识别、语义理解等方面取得了进展。

语音合成技术可以将文本转化为语音，进一步提升用户体验。

情感识别技术可以识别带有情感的语音信息，用于情感智能交互。

语义理解技术可以进一步分析语音信息中的语义内容，实现更加精准的语音识别和命令理解。

然而，语音识别技术仍然存在一些挑战和限制。

首先，背景噪声的存在会对语音识别的准确性产生影响，目前仍然需要进一步研究和改进。

其次，对于口音、方言等个体差异性较大的语音识别任务，算法的泛化能力仍然有待提高。

此外，隐私和安全等问题也是语音识别技术面临的挑战之一，需要加强数据隐私保护和安全措施。

总的来说，语音识别技术在准确率、应用领域、多语种和交叉语种应用以及与其他人工智能技术结合方面都取得了重要进展。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Research on Large Vocabulary Continuous Speech Recognition System for Mandarin Chinese
N I Chong-jia
1, 2
, LIU W en-junal Labo rator y of Patter n Recog nitio n , Institute of A utomatio n , Chine se A cademy of Sciences , Beijing 100190 , China ; 2 .Scho ol o f Statistics and M a thematics , Shando ng U nive rsity o f Finance , Jinan , Shandong 250014 , China) Abstract:T he technolog y o f larg e vo cabula ry co ntinuous speech recog nitio n(LV CS R) has dev elo ped quickly a nd achieved broad applica tion in recent y ears . M any big companies has reinfor ced the speech r eco gnition resea rch and various commercial sy stems have appeared in the ma rke t . T his paper reviews the recent resea rch pro gr esses o f LV CSR and de scribe s the main frames and desig ns of cur rent ma ndarin Chinese LV CSR sy stems .T he key issue s and principle s in LCVS R are analy zed in detail . T he pr ospects a nd r esea rch trends for LV CS R at ho me and abroad a re also discussed . Key words : co mputer applicatio n ;Chinese info rmation pr ocessing ; ove rview ;speech recog nitio n ; mo del adaptatio n ; sear ch techno lo gy
倪崇嘉1 , 2 , 刘文举1 , 徐波1
( 1. 中国科学院自动化研究所模式识别国家重点实验室 , 北京 100190 ; 2 .山东财政学院统计与数理学院 , 山东济南 250014) 摘要 : 大词汇量连续语音识别( L VCSR) 技术近年来发展迅速 , 并在许多领域得到了广泛的应用 , 国内外许多大公司加大了对语音识别技术的研究 , 不少商业化的语音识别系统已经面世 , 并得到较为广泛的使用。该文综述了近年来大词汇量连续语音识别技术的研究进展 , 描述了汉语大词汇量连续语音识别系统 , 主要是基于统计方法的语音识别系统的框架与设计方法 , 对语音识别系统的一些关键技术和原理进行了分析 , 并对近年来国内外对语音识别研究发展动向进行了讨论。关键词 : 计算机应用 ; 中文信息处理 ; 综述 ; 语音识别 ; 模型自适应 ; 搜索技术中图分类号 :T P391 文献标识码 :A
图 1 语音识别系统基本流程图
114
中文信息学报
2009 年
其中 , 前端处理完成的基本任务就是特征提取和归一化 , 在广播语音或电话语音等大段语音处理中 , 还需要作相应的前端预处理工作 , 切分成语音片段输入。声学比对和语言解码也就是搜索和解码 , 是整个识别系统的主要算法所在 ; 主要采用 Viterbi 等动态规划方法 , 搜索在给定模型情况下的最优结果。
L T L WN 1 转化为音素模型串 H 1 ; XT 1 , S 1 |H 1 ) 引 ∑ P( ST
1
入隐含声学状态序列 S , 包含模型的时间对齐信
T 1 T 息 , 用于计算声学得分 ; max { P( XT 1 , S1 T S
1
HL 1) } 是
T
Vit erbi 近似 ; X t |S t )×P ( St | S t -1 ) 将状态 ∏P(
t =1
转移概率 P ( St | S t -1 ) 和观测序列概率 P ( Xt | S t) 分开计算 , 并略去 H L 1 符号 , 因为此时模型已经确定。每帧观测概率 P ( Xt S t ) 通常由混合高斯模型 ( Gaussian Mi xt ure M odel , GMM ) 描述 :
第 23 卷第 1 期 2009 年 1 月
中文信息学报 JO URNA L OF CH INESE INFO RM A T ION P ROCESSING
V ol . 23 , No . 1 Jan . , 2009
文章编号 : 1003-0077( 2007) 06-0112-12
汉语大词汇量连续语音识别系统研究进展
1期
倪崇嘉等 : 汉语大词汇量连续语音识别系统研究进展
113
分析与处理来获取蕴含其中的语音信息作为智能设备应答以及高层次予以理解的基础。语音识别是通过识别或理解过程把语音信号转换为相应的文本文件或命令的高技术。作为一个专门的研究领域 , 语音识别是一门涉及很广的交叉学科 , 与计算机学科、信号处理学科、数理统计学、声学、语音学、语言学、神经生理学等有密切的关系[ 1] 。语音识别起始于 20 世纪 50 年代 , 20 世纪 60 年代末和 70 年代末是语音识别的发展阶段。在这一阶段 , 语音识别最重要的发展 , 一是前苏联 Vi nt sy uk 首次提出用动态规划( DP) 方法解决语音信号不等长问题 , 并在此基础上发展而来的基于动态规划( DP) 的动态时间规整( DT W)
[ 3] [ 1 , 2]
的设计、参数提取和优化、系统的自适应方面取得一些关键进展 , 语音识别技术进入高速发展时期 , 并且在某些领域已经成熟并产品化。语音识别技术成熟的同时也开始与其他领域相关技术进行结合 , 如与自然语言处理技术结合产生了基于口语识别和理解的人机对话系统等。 NIST 评测也逐步从朗读语音到广播语音、自然对话语音、电话语音 , 发展到目前的真实场景的会议语音 , 对语音识别技术的发展起到了推动作用。我国语音识别研究工作起步较晚 , 但是发展非常迅速 , 同时研究水平也从实验室逐步走向实用。从 1987 年开始 , 国家开始执行 863 计划后 , 国家 863 智能计算机主题专家组为语音识别研究立项 , 每两年一次。从 1991 年开始 , 国家 863 智能计算机主题专家组每一到两年举行一次全国性语音识别系统测试 , 参加测试的系统代表了国内在这一领域的研究水平。在 2005 年 863 计划中文信息处理与智能人机接口技术评测[ 7] 中 , 8 家单位参加语音识别评测 , 共提交了 17 个参评系统。评测的任务是桌面连续语音识别和电话连续语音关键词检测 , 评测的项目是在桌面连续语音识别 ( 2 倍实时 ) 、桌面连续语音识别( 20 倍实时) 和电话连续语音关键词检测 ( 2 倍实时) 。在国家 863 计划和 973 计划的大力支持下 , 国内的一批科研院所 ( 如中国科学院自动化所、声学所 , 清华大学等) 进行了汉语大词汇量连续语音识别的研究 , 取得了许多研究成果 , 极大地推动了汉语语音识别的发展。另外 , 鉴于中国未来庞大的市场 , 国外也非常重视汉语语音识别的研究。 IBM 、 AP P LE 、 M OT OROL A 等公司投入到汉语语音识别系统的开发中 , 其投资也逐渐增加。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者 , 研究成果已达到相当高水平。目前来说 , 在汉语的非特定人大词汇量连续语音识别方面 , 国内科研机构与国际先进水平差距不大 ; 在语音技术产品化和商业化方面 , 已经有语音识别相关产品问世。大词汇量非特定人连续语音识别系统基本包括前端处理、声学比对、语言解码等 , 如图 1 所示。
息存取平台 , 有可能取而代之的是各种各样的手提式
1 引言
直到今天 , 语音是人与人之间最自然、最重要的交流方式。随着科学技术的发展以及无线通讯网络的创新普及 , 传统的桌面上电脑不再是人们唯一的信
收稿日期 : 2008 -02-10 定稿日期 : 2008 -11 -27
设备( 如 PDA 、 M obile Phone 等) 以及人们生活中的智能设备。人们迫切需要一种便捷的方式实现人与机器的自然交互 , 语音识别技术因此应运而生。从语音识别技术诞生的那天开始 , 人们就致力于赋予计算机类似于人耳一样的听觉能力 , 通过对语音数据的
, 二是语音
信号的线性预测编码( LPC ) , 有效地解决了语音信号的特征提取。该阶段研究的特点是以孤立字语音识别为主 , 通常把孤立字作为整体建立模板[ 4] 。 20 世纪 80 年代是语音识别技术发展的突破阶段。在这一阶段 , 人们开始将大词汇量、非特定人、连续语音三大语音特性集成到一起。 20 世纪 80 年代 , H MM 经 Bell 实验室的 Rabiner 介绍 , 开始成为主流的声学建模方式 , 同时很多基于 H M M 的参数估计和解码算法被提出并应用 , 从而完成了声学模型从模板匹配技术转向基于统计模型技术 , 人们研究从微观转向宏观 , 不再刻意追求细化语音特征 , 而是从整体平均的角度建立最佳的语音识别系统。在 20 世纪 80 年代以 N 元文法为代表的统计语言模型开始广泛应用于语音识别系统。代表的系统是 1988 年美国 CM U 大学 VQ/ H M M 方法实现的 997 词的非特定人、连续语音识别系统 SP HINX[ 5] , 开创了语音识别的新时代。在 20 世纪 70 年代 , 美国开始实施 A RPA ( US A dvanced Research Pro ject Agency ) 计划 , 对语音识别研究给予很大支持 , 并且从 1987 年起 , 美国 NIST ( Nati onal Inst itut e o f S tandards and T echnolog y ) 开始对参加计划的大学、研究机构和公司研发的语音识别系统进行评 [ 6] 测 , 这些评测促进了竞争 , 加快了语音识别技术的发展。 20 世纪 90 年代以后 , 语音识别在细化模型