汉语大词汇量连续语音识别系统研究进展

合集下载

大词汇量连续语音识别探讨

大词汇量连续语音识别探讨

2007年8月技术Vol.15No.4Aug.2007语音识别[1]技术是研究如何使得机器能够听懂人的话语的技术。

这项技术一般分为连续语音识别和孤立词语音识别。

本文探讨的就是大词汇量连续语音识别技术,重点是这项技术在中文和英文上的发展。

随着80年代初隐马尔可夫模型引入到语音识别这个领域,语音识别技术得到了突飞猛进的发展,语音识别也从小词汇量孤立词发展到大词汇量连续语音。

为了进行大词汇量连续语音识别,各研究机构均提出了许多新颖的方法,并且大多数方法在某个任务上都取得了成功。

但是,有些方法可能在A机构的任务集上能够取得很好的效果,但是在B机构的任务集上却难以取得好的效果。

如何能够知道这个算法的优劣呢?显然,我们需要一个共同的任务集,大家都在这个任务集上工作,在同一参考标准下来评估算法的优劣。

在这方面,英文的连续大词汇量语音识别走在了前列。

也正如此,现在国际上英文的语音识别技术代表着该领域的最高水平。

1英文大词汇量连续语音识别美国的DARPA(DefenseAdvancedResearchProjectsAgency)从1989年开始举行LVCSR的比赛,每年一次。

参加的机构既有像IBM这样的公司,也有Cambridge这样的学校研究机构。

比赛的任务也从最开始的简单的听写机的比赛,发展到之后的BroadcastNews和TelephoneConversation这样难度的比赛。

DARPA的比赛大力推动了LVCSR技术的发展。

这10多年来,涌现出了许多新颖的技术,其中一些技术已经被人们广泛的使用。

可以这么说,这些年来LVCSR技术的发展与DARPA的贡献是密不可分的。

1.1DARPA的LVCSR任务的历史回顾首当其冲的是1989年开始的ResourceManage-ment任务,它分别在1989、1990、1991和1992举行了4次比赛。

训练集是109个人的3990句话,内容是一些信息查询。

测试集是10个人的300句话。

普通话语音识别技术的研究和应用

普通话语音识别技术的研究和应用

普通话语音识别技术的研究和应用语音识别技术在日常生活中越来越普遍,如语音助手、智能音箱等,其中普通话语音识别技术在中国的应用非常广泛。

本文将探讨普通话语音识别技术的研究和应用。

一、普通话语音识别技术的发展普通话语音识别技术在中国的发展历程可以追溯到上世纪80年代。

在当时,由于计算机性能的限制,语音识别技术并不成熟。

20世纪90年代以来,随着计算机技术的飞速发展,语音识别的准确率也逐渐提高。

近年来,由于深度学习技术的出现,语音识别准确率得到了极大的提高。

目前,百度和阿里巴巴等公司在普通话语音识别技术的研究和应用上处于领先地位。

这些公司不仅投入大量资金用于研究和开发,还拥有大量的语音识别数据集和专业的研发团队,令普通话语音识别技术的准确率迅速提升。

二、普通话语音识别技术的原理普通话语音识别技术的原理是基于声学模型、语言模型和发音词典。

其中声学模型用于指定音频片段对应的文本,语言模型用于进一步约束声学模型的输出结果,发音词典则指定单词的发音方式。

具体来说,语音识别系统将输入的语音信号转化为数字信号,并对数字信号进行预处理和特征提取,构建声学模型。

在识别时,声学模型会计算某个语音片段对应文本的概率,选取最有可能的文本作为识别结果。

同时,语言模型会约束识别结果,使其更符合语言规则,从而提高识别准确率。

三、普通话语音识别技术的应用普通话语音识别技术已经得到广泛的应用。

以下是一些典型的应用场景。

1. 语音识别输入普通话语音识别技术可以用于语音识别输入,即将语音转换为文本进行输入。

此技术在很多场景下可以提高效率,例如在开会记录会议内容、在车辆内进行手机操作等。

2. 智能客服智能客服使用普通话语音识别技术进行语音识别,自动分配请求并打开相应的应用程序。

用户只需通过语音说出自己的问题,就可以得到快速、准确的答案。

3. 智能语音助手普通话语音识别技术用于智能语音助手中,例如苹果的Siri、百度的度秘等。

语音助手可以响应用户的语音指令,例如打电话、播放音乐等。

语音识别技术研究进展与应用展望

语音识别技术研究进展与应用展望

语音识别技术研究进展与应用展望随着科技的不断进步,语音识别技术正逐渐成为我们生活中的一部分。

语音识别技术的发展给我们的生活带来了许多便利,也为各行各业带来了新的机遇和挑战。

本文将探讨语音识别技术的研究进展以及其在不同领域的应用展望。

一、语音识别技术的研究进展语音识别技术是指将人类语音转化为计算机可识别的形式,并进行相应的处理和分析的技术。

近年来,随着深度学习等人工智能技术的发展,语音识别技术取得了巨大的突破。

首先,语音识别技术的准确度大幅提升。

传统的语音识别技术主要基于概率模型,对于复杂的语音信号处理和模式识别任务存在一定的局限性。

而深度学习技术的引入使得语音识别系统能够更好地处理语音信号的特征,从而提高了识别的准确度。

其次,语音识别技术的实时性得到了显著提升。

传统的语音识别系统需要在离线状态下进行处理,无法满足实时应用的需求。

而基于深度学习的语音识别技术结合了分布式计算和并行计算的优势,能够实现实时的语音识别,为实时交互和智能助手等应用提供了可能。

最后,语音识别技术的适应性不断增强。

传统的语音识别系统对说话人的语音特征和环境的噪声敏感,容易受到外界干扰。

而基于深度学习的语音识别技术通过大规模的训练数据和端到端的学习方法,能够更好地适应不同说话人和不同环境下的语音识别任务。

二、语音识别技术在不同领域的应用展望1. 智能家居领域随着智能家居的快速发展,语音识别技术被广泛应用于智能音箱、智能电视等设备中。

通过语音指令,用户可以实现对家居设备的控制,如调节温度、开关灯光等。

未来,随着语音识别技术的进一步提升,智能家居将更加智能化,实现更多个性化的功能。

2. 语音助手领域语音助手已成为我们生活中的得力助手,如苹果的Siri、亚马逊的Alexa等。

语音识别技术的不断发展使得语音助手能够更好地理解用户的指令,并提供更准确的回答和建议。

未来,语音助手将进一步融入我们的生活,成为我们的私人助理。

3. 医疗健康领域语音识别技术在医疗健康领域的应用前景广阔。

语音识别技术研究进展

语音识别技术研究进展

/ /
语 音识别 技 术研 究进展
詹新 明 1 , 黄 南 山 z , 杨 灿
f 华南理 工大 学计算 机科学 与工 程学 院 , 州 5 0 4 ; . 南理工 大学软 件学 院 , 州 5 o o 1 . 广 16 0 2 华 广 16 ) 4
摘 要 :简单介绍 了语音 识别技 术的 发展 历 史和现 状 , 阐述 了语音 识别 系统 的基 本原 理 , 对语 音
0 引 言
语 音识 别技 术 就是 让机 器 通过识 别 和理 解 过程

方 面各种 连接词语 音识别 算法 被开 发 , 例如 多级 动
态规划 语音 识别算 法 : 一方 面语 音识别 算 法从模 板 另
匹配技 术转 向基 于统 计模 型技术 。 研究 从微 观转 向宏 观. 从统计 的角度 来建立 最佳 的语 音识 别系 统 。隐马
收 稿 日期 :0 8 0 — 5 修 稿 日期 :0 8 0 — 0 20 — 4 1 2 0— 4 3



M TR L O O 0 A等公 司也投 入 了汉语 语音 识别 系统 的开
发 I M 公 司 于 1 9 B 9 7年 正 式 推 出 中 文 听 写 机 系 统
总 第 V aV ie i oc .该系统对 新 闻语音 识别 有较 高的精 度 。 是

_-
九 期
M D R c M u E o E N 0 PT R . 9
作 者 简 介 : 新 明 ( 9 8 , , 北 浠 水 人 , 读 研 究 生 , 究 方 向 为 多媒 体 通 信 詹 17 一) 男 湖 在 研
把 人类 的语 音信号 转变 为相应 的文本或 命令 的技 术 . 属 于多维模 式识别 和智 能计算机 接 口的范畴 。 其研究 目标 是让计 算机 “ 听懂 ” 人类 口述 的语 言 . 这是人 类 自 计 算机诞生 以来梦寐 以求 的想法 。 着计算 机软硬 件 随

语音识别技术及其研究进展

语音识别技术及其研究进展

Me 参数 和 基于 感知 线性 预 测 分析 提取 l 的 感 知 线 性 预 测 倒 谱 。 线 性 预 测 模 型
l 数字 的语 音识 别 。6 年 代 ,计 算机 的应 在某 种程度上讲 已经取得 了很大的 成 M e 参数 和 基于 感 知线性 预 测 分析 提取 0 用推 动 了浯音识 别 的发 展 。这时 期 的重 功 , 但 是 识 别 的 鲁 棒 性 的 感 知 线 性 预 测 倒谱 , 在 一定 稃 度 上 R us ne S) 要成 果是提 出 了动态 规划 和线 性预 测分 ( Ob t S 、 灵活性 和 自适 应 能 模 拟 了人 耳 对 语 音 的 处 理 特 点 , 应 用 了 人 耳听 觉 感 知 方 面 的 一 些研 究 成果 。 析技术 ( P) L ,其中后者较好地解决 _ r 力还 不 理想 。 不 同的 语 音 识 别 系 统 , 虽然 具 体 实 验 证 明 ,采 用这 种 技 术 , 语 音识 别 语音信号产生模型的问题 ,对语音识别 的发 展产生 了深远影 响 。7 年 代 ,语 音 0 识 别领 域取 得 了突 破 。 I 技 术得 到进 P 测试语音 识别结果 步 发展 ,动 态时 间归 正技术 ( TW ) D 基 本 成熟 ,特 别 是 提 出 了矢 量 量 化 ( VQ)和 隐 马尔可 夫 模型 ( HMM )理 论 。实 现 了基于 线性 预 测倒 谱 和 DTW 训练语音 技 术的特定 人孤立 语 音识 别 系统 。8 年 0 代 ,实 验室语 音识 别研 究产 生 了 巨大 突
高的识别率。进入 9 年代以后,人们终 实 现 细 节 有 所 不 同 , 但 所 采 用 的 识 别 0 于在实验室突破 了 大侧汇量、连续语音 的 过 程 相似 ,语 音识 别 过程 如 图 l 。 首 先 确 定语 音 识 别单 元 的选 取 。 和非特定人这 大障碍 ,第一次把这三 个特性都集成在 一个系统中 ,语音识别 语 音 识 别单元 有单 词 ( ) 句 、音节和 进 入 走 向实 用 。 音 素 三 种 。 单 词 ( ) 单 元 广 泛 应 句 用 于 中小 词 汇 语 音 识 别 系 统 , 但 不适 合 大 词 汇 系 统 ,原 因 在 于 模 型库 太 庞 2语 音识别分类及识别的过程 大 ,训 练 模 型 任 务 繁 重 ,模 型 匹配 算 语 音 识 别 按 词 汇 量 大 小 ,可 以 分 法 复 杂 ,难 以 满 足 实 时 性 要 求 。 因为 为 小 词表 、 中 词 表 和 大 词 表 以 及 无 限 汉 涪是单音 节结构的语 言,音节数量

普通话语音识别技术的研究及发展

普通话语音识别技术的研究及发展

普通话语音识别技术的研究及发展一、概述普通话语音识别技术指的是利用计算机技术,将人类发出的普通话语音转换成文字或者执行特定的指令。

这一领域的研究和发展始于上个世纪的70年代,随着计算机技术、语音处理技术和机器学习算法的不断发展和突破,普通话语音识别技术取得了显著的进展。

本文将从技术基础、应用场景和发展趋势等方面来介绍普通话语音识别技术。

二、技术基础普通话语音识别技术基于声学模型、语言模型和解码器三个核心技术实现。

其中,声学模型是对声音进行特征提取和建模的过程,建模的目标是将输入的音频转换成一系列数值型的向量表示。

常见的声学特征包括梅尔倒谱系数和线性预测系数等。

语言模型则是为了提高识别准确率而引入的技术,其中建模的目标是预测输入的文本序列出现的概率。

解码器则是将声学模型和语言模型结合,实现对输入音频的识别。

目前,普通话语音识别技术主要采用深度学习算法来进行模型的训练和建模,例如基于循环神经网络的声学模型和基于Transformer的语言模型等。

三、应用场景普通话语音识别技术已经广泛应用于各种场景,例如智能家居、智能手机、智能客服、语音助手等。

其中,在智能家居领域,语音控制和识别已经成为主要的人机交互方式,例如可以通过语音控制音乐播放、空调温度调节等;在智能手机领域,语音识别技术可以应用于语音输入、智能翻译等功能;在智能客服领域,语音识别技术可以帮助企业提高客户服务质量和效率;在语音助手领域,语音识别技术可以有效地解决人类输入难题,例如可以通过语音指令快速地完成某项操作。

四、发展趋势目前,普通话语音识别技术在不断地推陈出新,随着计算机技术、语音处理技术和机器学习算法的不断进步,普通话语音识别技术的应用场景也在不断扩大。

未来几年,普通话语音识别技术将继续向以下方向发展:1. 改善识别准确率:随着深度学习算法的不断发展和突破,普通话语音识别技术的识别准确率将会不断改善。

2. 改进语音交互方式:除了语音指令和语音输入外,普通话语音识别技术还可以通过语音合成、情感识别、语音交互等多种方式来进行人机交互。

语音识别技术的前沿研究进展

语音识别技术的前沿研究进展

语音识别技术的前沿研究进展近年来,语音识别技术取得了长足的发展,成为人工智能领域的热门研究方向之一。

该技术的应用广泛,涵盖了语音助手、自动语音识别、智能语音交互等多个领域。

本文将介绍语音识别技术的前沿研究进展,包括语音特征提取、模型训练和优化算法等方面。

一、语音特征提取的进展语音特征提取是语音识别技术的基础,目的是从语音信号中提取有用的信息用于后续处理。

传统的语音特征提取方法主要采用梅尔频率倒谱系数(MFCC)和线性预测编码(LPC)等方法。

然而,这些方法在噪声环境下的鲁棒性较差,难以适应实际应用场景的需求。

为解决这一问题,研究者们提出了一系列新的语音特征提取方法。

例如,基于深度学习的语音特征提取方法,如深度卷积神经网络(CNN)和长短时记忆神经网络(LSTM),可以有效地提取语音信号中的高级抽象特征。

此外,一些基于注意力机制的方法也被引入,以提高对重要语音信息的关注度。

二、模型训练的进展模型训练是语音识别技术的核心环节,旨在通过大量的训练数据和优化算法,使得模型能够准确地识别语音输入并进行分类。

传统的模型训练方法包括隐马尔可夫模型(HMM)和高斯混合模型(GMM),这些方法在一定程度上能够取得不错的识别效果。

然而,随着深度学习技术的兴起,研究者们提出了一系列新的模型训练方法,如端到端的训练方法和基于注意力机制的训练方法。

端到端的训练方法将特征提取、模型训练和解码等环节都融合在一个网络中,能够减少中间步骤的错误传递,提高整体性能。

而基于注意力机制的训练方法则可以使模型更加关注输入语音信号中的重要部分,进一步提高识别准确度。

三、优化算法的进展优化算法在语音识别技术中起着重要的作用,能够提高模型的收敛速度和泛化能力。

传统的优化算法中,随机梯度下降(SGD)和自适应学习率算法(Adaptive Learning Rate)是常用的方法。

然而,为了应对模型参数众多和训练数据规模庞大的问题,研究者们提出了一系列新的优化算法。

语音识别技术发展现状

语音识别技术发展现状

语音识别技术发展现状语音识别技术(Speech Recognition)是指将人的语音信息转化为机器可以理解的文本或命令的技术。

随着人工智能和大数据技术的不断发展,语音识别技术也取得了显著的进展。

以下是语音识别技术发展的现状。

首先,语音识别技术在准确率上取得了重大突破。

过去,语音识别技术的准确率较低,存在着许多识别错误。

随着深度学习算法的引入,特别是循环神经网络和卷积神经网络的应用,语音识别技术的准确率有了显著的提高。

现在的语音识别系统已经超越了人类的准确率,达到了95%以上。

其次,在应用领域的拓展上,语音识别技术正逐渐渗透到各个行业和领域。

在智能手机和智能音箱等消费电子产品上,语音助手已经成为常见的功能,用户可以通过语音指令来操作设备、查找信息等。

此外,语音识别技术在医疗、教育、金融等领域也有广泛的应用,例如语音识别辅助医生填写病历、语音识别教学助手等。

另外,语音识别技术也在多语种和交叉语种应用方面有了进展。

过去,语音识别技术主要针对特定语种进行研究,现如今已经可以实现多语种的语音识别。

同时,针对交叉语种的应用场景,比如一个语种的背景噪声中出现其他语种的说话声音,语音识别技术也有了一定的应对能力。

此外,语音识别技术还与其他人工智能技术结合,在语音合成(Text-to-Speech)、情感识别、语义理解等方面取得了进展。

语音合成技术可以将文本转化为语音,进一步提升用户体验。

情感识别技术可以识别带有情感的语音信息,用于情感智能交互。

语义理解技术可以进一步分析语音信息中的语义内容,实现更加精准的语音识别和命令理解。

然而,语音识别技术仍然存在一些挑战和限制。

首先,背景噪声的存在会对语音识别的准确性产生影响,目前仍然需要进一步研究和改进。

其次,对于口音、方言等个体差异性较大的语音识别任务,算法的泛化能力仍然有待提高。

此外,隐私和安全等问题也是语音识别技术面临的挑战之一,需要加强数据隐私保护和安全措施。

总的来说,语音识别技术在准确率、应用领域、多语种和交叉语种应用以及与其他人工智能技术结合方面都取得了重要进展。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Research on Large Vocabulary Continuous Speech Recognition System for Mandarin Chinese
N I Chong-jia
1, 2
, LIU W en-junal Labo rator y of Patter n Recog nitio n , Institute of A utomatio n , Chine se A cademy of Sciences , Beijing 100190 , China ; 2 .Scho ol o f Statistics and M a thematics , Shando ng U nive rsity o f Finance , Jinan , Shandong 250014 , China) Abstract:T he technolog y o f larg e vo cabula ry co ntinuous speech recog nitio n(LV CS R) has dev elo ped quickly a nd achieved broad applica tion in recent y ears . M any big companies has reinfor ced the speech r eco gnition resea rch and various commercial sy stems have appeared in the ma rke t . T his paper reviews the recent resea rch pro gr esses o f LV CSR and de scribe s the main frames and desig ns of cur rent ma ndarin Chinese LV CSR sy stems .T he key issue s and principle s in LCVS R are analy zed in detail . T he pr ospects a nd r esea rch trends for LV CS R at ho me and abroad a re also discussed . Key words : co mputer applicatio n ;Chinese info rmation pr ocessing ; ove rview ;speech recog nitio n ; mo del adaptatio n ; sear ch techno lo gy
倪崇嘉1 , 2 , 刘文举1 , 徐 波1
( 1. 中国科学院 自动化研究所 模式识别国家重点实 验室 , 北京 100190 ; 2 .山东财政学院 统计与数理学院 , 山东 济南 250014) 摘 要 : 大词汇量连续语音识别( L VCSR) 技术近年来发展迅速 , 并 在许多领 域得到 了广泛 的应用 , 国内 外许多 大 公司 加大了对语音识别技术的研究 , 不少商业化的 语音识 别系统 已经面 世 , 并 得到较 为广泛 的使用 。 该 文综述 了 近年来大词汇量连续语音识别技术的研究进展 , 描述了汉语 大词汇 量连续语 音识别 系统 , 主要是 基于统 计方法 的 语音识别系统的框架与设计方法 , 对语音识别系 统的一些关 键技术 和原理进 行了分 析 , 并对近年 来国内 外对语 音 识别研究发展动向进行了讨论 。 关键词 : 计算机应用 ; 中文信息处理 ; 综述 ; 语音识别 ; 模型自适应 ; 搜索技术 中图分类号 :T P391 文献标识码 :A
图 1 语音识别系统 基本流程图
114
中文信息学报
2009 年
其中 , 前端处理完成的基本任务就是特征提取 和归一化 , 在广播语音或电话语音等大段语音处理 中 , 还需要作相应的前端预处理工作 , 切分成语音片 段输入 。 声学比对和语言解码也就是搜索和解码 , 是整个识别系统的主要算法所在 ; 主要采用 Viterbi 等动态 规划 方法 , 搜索在 给定 模型 情况 下的 最优 结果 。
L T L WN 1 转化为音素模型串 H 1 ; XT 1 , S 1 |H 1 ) 引 ∑ P( ST
1
入隐含声学状态序列 S , 包含模型的时间对齐信
T 1 T 息 , 用于 计算 声学 得分 ; max { P( XT 1 , S1 T S
1
HL 1) } 是
T
Vit erbi 近似 ; X t |S t )×P ( St | S t -1 ) 将状态 ∏P(
t =1
转移概率 P ( St | S t -1 ) 和观测序列概率 P ( Xt | S t) 分 开计算 , 并略去 H L 1 符号 , 因为此时模型已经确定 。 每帧观 测 概 率 P ( Xt S t ) 通 常 由 混合 高 斯 模 型 ( Gaussian Mi xt ure M odel , GMM ) 描述 :
第 23 卷 第 1 期 2009 年 1 月
中文信息学报 JO URNA L OF CH INESE INFO RM A T ION P ROCESSING
V ol . 23 , No . 1 Jan . , 2009
文章编号 : 1003-0077( 2007) 06-0112-12
汉语大词汇量连续语音识别系统研究进展
1期
倪崇嘉等 : 汉语大词汇量连续语音识别系统研 究进展
113
分析与处理来获取蕴含其中的语音信息作为智能设 备应答以及高层次予以理解的基础 。 语音识别是通过识别或理解过程把语音信号转 换为相应的文本文件或命令的高技术 。 作为一个专 门的研究领域 , 语音识别是一门涉及很广的交叉学 科 , 与计算机学科 、 信号处理学科 、数理统计学 、声学 、 语音学 、 语言学 、 神经生理学等有密切的关系[ 1] 。 语音识别起 始于 20 世纪 50 年代 , 20 世纪 60 年代末和 70 年代末是语音识别的发展阶段 。 在这 一阶 段 , 语 音 识 别 最 重 要 的 发 展 , 一 是 前 苏 联 Vi nt sy uk 首次提出用动态规划( DP) 方法解决语音 信号不等长问题 , 并在此基础上发展而来的基于动 态规划( DP) 的动态时间规整( DT W)
[ 3] [ 1 , 2]
的设计 、 参数提取和优化 、 系统的自适应方面取得一 些关键进展 , 语音识别技术进入高速发展时期 , 并且 在某些领域已经成熟并产品化 。 语音识别技术成熟 的同时也开始与其他领域相关技术进行结合 , 如与 自然语言处理技术结合产生了基于口语识别和理解 的人机对话系统等 。 NIST 评测也逐步从朗读语音 到广播语音 、 自然对话语音 、电话语音 , 发展到目前 的真实场景的会议语音 , 对语音识别技术的发展起 到了推动作用 。 我国语音识别研究工作起步较晚 , 但是发展非 常迅速 , 同时研究水平也 从实验室逐步走 向实用 。 从 1987 年开 始 , 国家 开始 执行 863 计划 后 , 国家 863 智能计算机主题专家组为语音识别研究立项 , 每两年一次 。 从 1991 年开始 , 国家 863 智能计算机 主题专家组每一到两年举行一次全国性语音识别系 统测试 , 参加测试的系统代表了国内在这一领域的 研究水平 。 在 2005 年 863 计划中文信息处理与智 能人机接口技术评测[ 7] 中 , 8 家单位参加语音识别 评测 , 共提交了 17 个参评系统 。 评测的任务是桌面 连续语音识别和电话连续语音关键词检测 , 评测的 项目是在桌面连续语音识别 ( 2 倍实时 ) 、桌面连续 语音识别( 20 倍实时) 和电话连续语音关键词检测 ( 2 倍实时) 。 在国家 863 计划和 973 计划的大力支 持下 , 国内的一批科研院所 ( 如中国科 学院自动化 所、 声学所 , 清华大学等) 进行了汉语大词汇量连续 语音识别的研究 , 取得了许多研究成果 , 极大地推动 了汉语语音识别的发展 。 另外 , 鉴于中国未来庞大 的市 场 , 国 外 也非 常 重视 汉语 语 音识 别 的研 究 。 IBM 、 AP P LE 、 M OT OROL A 等公司投 入到汉语语 音识别系统的开发中 , 其投资也逐渐增加 。 美国 、 新 加坡等地聚集了一批来自大陆 、台湾 、 香港等地的学 者 , 研究成果已达到相当高水平 。 目前来说 , 在汉语 的非特定人大词汇量连续语音识别方面 , 国内科研 机构与国际先进水平差距不大 ; 在语音技术产品化 和商业化方面 , 已经有语音识别相关产品问世 。 大词汇量非特定人连续语音识别系统基本包括 前端处理 、 声学比对 、 语言解码等 , 如图 1 所示 。
息存取平台 , 有可能取而代之的是各种各样的手提式
1 引言
直到今天 , 语音是人与人之间最自然 、 最重要的 交流方式 。 随着科学技术的发展以及无线通讯网络 的创新普及 , 传统的桌面上电脑不再是人们唯一的信
收稿日期 : 2008 -02-10 定稿日期 : 2008 -11 -27
设备( 如 PDA 、 M obile Phone 等) 以及人们生活中的智 能设备 。 人们迫切需要一种便捷的方式实现人与机 器的自然交互 , 语音识别技术因此应运而生 。 从语音 识别技术诞生的那天开始 , 人们就致力于赋予计算 机类似于人耳一样的听觉能力 , 通过对语音数据的
, 二是语音
信号的线性预测编码( LPC ) , 有效地解决了语音 信号的特征提取 。 该阶段研究的特点是以孤立字语 音识别为主 , 通常把孤 立字作为整体建 立模板[ 4] 。 20 世纪 80 年代是语音识别技术发展的突破阶段 。 在这一阶段 , 人们开始将大词汇量 、非特定人 、连续 语音三大语音特性集成到 一起 。 20 世纪 80 年代 , H MM 经 Bell 实验室的 Rabiner 介绍 , 开始成为主 流的声学建模方式 , 同时很多基于 H M M 的参数估 计和解码算法被提出并应用 , 从而完成了声学模型 从模板匹配技术转向基于统计模型技术 , 人们研究 从微观转向宏观 , 不再刻意追求细化语音特征 , 而是 从整体平均的角度 建立最佳的语 音识别系统 。 在 20 世纪 80 年代以 N 元文法为代表的统计语言模型 开始 广 泛应 用 于 语音 识 别系 统 。 代 表的 系 统 是 1988 年美国 CM U 大学 VQ/ H M M 方法实现的 997 词的非特定人 、连续语音识别系统 SP HINX[ 5] , 开 创了语音识别的新时代 。 在 20 世纪 70 年代 , 美国开 始 实 施 A RPA ( US A dvanced Research Pro ject Agency ) 计划 , 对语音识别研究给予很大支持 , 并且 从 1987 年 起 , 美 国 NIST ( Nati onal Inst itut e o f S tandards and T echnolog y ) 开 始对 参加 计 划的 大 学、 研究机构 和公司 研发 的语 音识别 系统 进行 评 [ 6] 测 , 这些评测促进了竞争 , 加快了语音识别技术的 发展 。 20 世纪 90 年代以后 , 语音识别在细 化模型
相关文档
最新文档