语音识别技术综述

合集下载

语音识别技术的原理及其实现方法

语音识别技术的原理及其实现方法

语音识别技术的原理及其实现方法语音识别技术是一种将人类语音转化为文字的技术,它正被越来越广泛地应用于智能助理、语音输入、自动翻译等领域。

本文将详细讨论语音识别技术的原理及其实现方法,以帮助读者更好地了解这一技术并掌握其应用。

一、语音识别技术的原理语音识别技术的原理可以分为三个主要步骤:信号处理、特征提取和模型匹配。

1. 信号处理:语音信号在传输过程中可能受到多种噪声的干扰,如环境噪声、话筒噪声等。

因此,首先需要对音频信号进行预处理,以提高识别准确率。

该步骤通常包括音频去噪、降噪、增强等技术。

2. 特征提取:在预处理后,需要对语音信号进行特征提取,即将连续的语音信号转换为更具区分度的特征向量。

常用的特征提取方法有MFCC (Mel Frequency Cepstral Coefficients)和PLP(Perceptual Linear Prediction)等。

这些特征提取方法通过对不同频率的声音进行分析,提取出语音信号的关键特征,如音高、音频的形态和时长等。

3. 模型匹配:在特征提取后,需要建立一个匹配模型,将特征向量与预先训练好的语音模型进行比对,以确定输入语音对应的文字内容。

常用的模型包括隐马尔可夫模型(HMM)和深度神经网络(DNN)等。

这些模型通过学习大量的语音样本,使模型能够根据输入的特征向量判断最有可能的文字结果。

二、语音识别技术的实现方法语音识别技术的实现需要借助特定的工具和算法。

以下是常用的语音识别技术实现方法:1. 基于统计模型的方法:该方法主要基于隐马尔可夫模型(HMM)和高斯混合模型(GMM)。

隐马尔可夫模型用于描述语音信号的动态性,而高斯混合模型则用于对特征向量进行建模。

这种方法的优点在于其模型简单,容易实现,但其处理长时语音和噪声的能力较弱。

2. 基于神经网络的方法:随着深度学习技术的发展,深度神经网络(DNN)成为语音识别领域的热门技术。

该方法使用多层神经网络模型来学习语音信号的特征表示和模式匹配。

语音识别技术综述

语音识别技术综述

语音识别技术综述语音识别技术综述电子信息工程2010级1班郭珊珊【摘要】随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,该技术的发展和应用改变了人们的生产和生活方式,正逐步成为计算机处理技术中的关键技术。

语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

【关键词】语音识别;语音识别原理;语音识别发展;产品语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器人自动识别和理解人类口述的语言。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的命令或文本的高新技术。

1 语音识别的原理语音识别系统本质是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单位元。

未知语音经过话筒变换成电信号后加载识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需特征,在此基础上建立语音识别所需的模板。

计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。

然后根据此模板的定义,通过查表可给出计算机的识别结果。

这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。

2 语音识别系统的分类语音识别系统可以根据对输入语音的限制加以分类。

2.1从说话者与识别系统的相关性考虑可以将识别系统分为3类:(1)特定人语音识别系统:仅考虑对于专人的话音进行识别;(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习;(3)多人的识别系统:通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。

2.2从说话的方式考虑也可以将识别系统分为3类:(1)孤立词语音识别系统:孤立词识别系统要求输入每个词后要停顿;(2)连接词语音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现;(3)连续语音识别系统:连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。

语音识别技术的现状和发展趋势

语音识别技术的现状和发展趋势

语音识别技术的现状和发展趋势随着科技的不断发展,各种人工智能产品逐渐走进我们的生活中,其中语音识别技术的应用越来越广泛。

这项技术可以将人类的语言转化为计算机可识别的形式,实现人机交互,让我们的生活更便捷、更智能。

本文从语音识别技术的现状、应用场景、技术难点、发展趋势等方面进行探讨。

一、语音识别技术的现状语音识别已经成为商业化产品,在智能家居、智能手机、智能音箱等设备中得到广泛应用。

其中,智能音箱是应用最广泛的一种形式,如亚马逊Echo、谷歌Home、小米AI音箱等。

这些智能音箱的语音识别技术实现了多种功能,如语音搜索、播放音乐、聊天、控制家庭设备等。

此外,语音助手在智能手机、智能手表、智能车辆等领域也得到了广泛应用。

语音助手可以帮助用户完成电话、短信、导航、音乐播放、天气查询等操作,方便了生活。

二、语音识别技术的应用场景语音识别技术的应用场景非常广泛。

除了上述的智能家居、手机、音箱等领域,语音识别还可以应用于医疗、教育、金融、零售、物流等行业。

在医疗领域,语音识别可以用于病历记录、医嘱输入等操作,提高医生的效率。

在教育领域,语音识别可以用于智能教学,让学生更加深入地了解知识。

在金融领域,语音识别可以用于语音支付、客服问题解答等操作,提高金融服务的效率。

在零售领域,语音识别可以用于语音导航、商品介绍等操作,提高顾客的购物体验。

在物流领域,语音识别可以用于指挥货运,提高货物的配送效率。

三、语音识别技术的技术难点尽管语音识别技术已经得到广泛应用,但是其仍面临着一些技术难点。

一是方言和口音问题。

方言和口音是语音识别的难点之一,由于不同地区人口音差异大,语音识别的准确率也会受到影响。

二是多说者语音识别问题。

在多人场景下,语音识别技术需要识别多个说话者的语音,并对话语进行区分,这对语音识别技术的准确率提出了更高的要求。

三是语言模型问题。

语言模型是语音识别中非常重要的一步,它用于判断用户说的话是否符合语言规范。

语音识别技术的阐述并举例说明

语音识别技术的阐述并举例说明

语音识别技术的阐述并举例说明1. 语音识别技术的概述在当今这个信息爆炸的时代,语音识别技术可谓是一个火热的领域。

简单来说,它就是让计算机“听懂”人类说话,把语音转换成文字。

想想看,以前咱们打字得慢吞吞的,现在只要“嘿,你好”,手机就能把你说的话变成文字,简直就像是在和外星人聊天!这种技术背后的原理其实挺复杂的,但咱们不必深究,简单理解就好。

1.1 语音识别的工作原理语音识别技术的工作原理其实就是把声音信号变成数字信号,再通过一些算法分析这个信号,最后识别出你说的内容。

就像是把你在大街上听到的音乐变成乐谱,虽然中间的过程可能有点曲折,但最后能听出个所以然来。

不过,别以为这就简单,想让计算机分清楚“我爱你”和“我爱鱼”可得下不少功夫呢!1.2 语音识别的发展历程语音识别的发展也可谓是一波三折。

从最初的只支持简单命令的系统,到现在的智能助手,真是翻天覆地的变化。

记得早些年,咱们说话时,系统经常听错,结果出来的文字让人哭笑不得。

可是,现在的技术已经进步了不少,能适应不同的口音、语速,甚至能理解一些俚语,真是让人叹为观止!2. 语音识别的应用场景那么,语音识别到底能用在哪里呢?这就不得不提到它的广泛应用了。

无论是日常生活还是工作中,语音识别技术都在悄悄改变着我们的方式。

2.1 智能助手大家一定听说过 Siri、Alexa 这些智能助手吧?它们的工作原理就是利用语音识别技术,帮助我们完成各种任务。

想查天气、定闹钟,甚至找餐馆,只要说出来,助手就能帮你搞定。

试想一下,早上起床的时候懒得动,只要躺在床上说:“给我来杯咖啡”,不久后咖啡就送到手边,简直就是现代人的梦想生活啊!2.2 客服服务再比如在客服领域,语音识别技术也发挥了大作用。

想想打客服热线的情景,你说:“我想投诉。

” 这句话通过语音识别系统,能迅速进入正确的处理流程,不再让你等得心急火燎。

以往那些烦人的按键导航真是让人心累,现在只需说出你的需求,简单明了,真是让人感觉“技术改变生活”不是空话!3. 语音识别的未来发展当然,语音识别的未来还有更多可能。

语音识别技术综述

语音识别技术综述

模型参数得到后可以用 Viterbi 算法来确定与观察序列对 应的最佳的状态序列。建好模型后,在识别阶段就是要计算 每个模型产生观察符号序列的输出概率,输出概率最大的模 型所表示的词就是我们的识别结果。这个过程计算量很大, 有人提出了前向-后向算法, 大大减少了计算量, 已经被广泛采 用, 关于它们的各种改进方法也被大量提出。 ANN 在语音识别中的应用是现在研究的又一热点。 ANN 本质上是一个自适应非线性动力学系统,是由结点互连组成 的计算网络, 模拟了人类大脑神经元活动的基本原理, 具有自 学习能力、 记忆、 联想、 推理、 概括能力和快速并行实现的特点, 同时还具备自组织、自适应的功能。这些能力是 HMM 模型 不具备的, 可用于处理一些环境信息十分复杂, 背景知识不清 楚, 推理规则不明确的问题, 允许样品有较大的缺损、 畸变, 因 此对于噪声环境下非特定人的语音识别问题来说是一种很好 的解决方案。目前大部分应用神经网络的语音识别系统都采 用了 BP 网并取得了较好的识别效果。 将 ANN 与 HMM 结合分别利用各自优点进行识别将是 今后的一条研究途径。二者结合的混合语音识别方法的研究 开始于上世纪 90 年代, 目前已有一些方法将 ANN 辅助 HMM 进行计算和学习概率参数。 语言模型主要分为规则模型和统计模型两种。统计语言 模型是用概率统计的方法来揭示语言单位内在的统计规律, 其中 N-Gram 简单有效, 被广泛使用。N-Gram 模型基于这样 一种假设: n 个词的出现只与前面 N-1 个词相关, 第 而与其它 任何词都不相关, 整句的概率就是各个词出现概率的乘积。 这 些概率可以通过直接从语料库中统计 N 个词同时出现的次数 得到。常用的是二元的 Bi-Gram 和三元的 Tri-Gram。 5 总结 尽管语音识别技术已经取得了长足的进步,而语音识别 系统也层出不穷, 不断的改变人类现有的生活方式, 但其比较 成功的应用也只是在某些特定的领域,谈不上大规模广泛的 应用。只有建立从声学、 语音学到语言学的知识为基础、 以信 息论、模式识别数理统计和人工智能为主要实现手段的语音 处理机制,把整个语音识别过程从系统工程的高度进行分析 构建, 才有可能获得能与人类相比的高性能的、 完整的计算机 语音识别系统。 参考文献: [1] 易克初,田斌.付强.语音信号处理[M].国防工业出版社,2000. [2] 胡航.语音信号处理[M].哈尔滨工业大学出版社,2000. [3] 赵力.语音信号处理[M].机械工业出版社,2003. [4] 张卫清.语音识别算法的研究[D].南京理工大学 (硕士生论 文) ,2004. [5] 何湘智.语音识别研究与发展[J].计算机与现代化,2002(3).

说话人识别方法综述

说话人识别方法综述

说话人识别方法综述【综述】随着语音识别技术和人工智能技术的不断发展,说话人识别技术已经逐渐成为了人们研究的热点和难点。

说话人识别技术是指计算机通过语音信号识别说话人的身份,实现自动说话人识别。

在实际应用中,说话人识别技术已经广泛应用于身份认证、声纹加密、电话客服等领域。

本文将就说话人识别技术的算法、特点及应用做一综述。

【算法】1.基于GMM-UBM的方法GMM-UBM(Gaussian Mixture Model-Universal Background Model)方法是一种经典的说话人识别算法,它利用GMM模型对语音信号进行建模,并以通用背景模型(UBM)作为训练数据。

该方法通常用于短时语音信号的识别,准确度较高,但对噪声以及长时语音信号的识别效果较差。

2.基于i-vector的方法i-vector方法是由NIST提出的一种说话人识别算法,它将说话人的隐含向量表示为i-vector。

该方法将说话人的长时语音信号进行建模,具有很好的抗噪性能,但需要大量的训练数据和计算复杂度高。

3.深度学习方法随着深度学习技术的发展,深度学习方法在说话人识别领域得到了广泛应用。

其中,卷积神经网络(CNN)和长短时记忆网络(LSTM)是常用的神经网络结构。

该方法具有很高的准确度和鲁棒性,但需要大量的训练数据和计算资源。

【特点】1. 鲁棒性说话人识别技术在实际应用中需要具有较好的鲁棒性,即能够在嘈杂环境和不同话语语速下识别说话人的身份。

基于深度学习的方法和i-vector方法具有很好的抗噪能力。

2. 精度说话人识别技术需要具有较高的识别精度,能够准确识别说话人的身份。

在精度方面,基于GMM-UBM的方法表现并不理想,而基于i-vector和深度学习的方法可以达到很高的准确度。

3. 训练数据说话人识别技术需要大量的训练数据才能得到较好的效果。

基于GMM-UBM的方法需要大量的训练数据才能获得较高的识别精度,而基于i-vector和深度学习的方法需要更多的训练数据。

语音识别技术综述

语音识别技术综述

合, 发展到基于 自然 口语识别 和理解 的人机对话 系统 。与机器 翻译技术相结合 , 逐步发展出面 向
不同语种人类之间交流的直接语音翻译技术。 我国的语音识别 研究工 作一直 紧跟 国际水
平, 国家也很重视 , 并把大词汇量语音识别的研究
列入“6” 83计划 , 由中科 院声学所 、 自动化所及北 京大学等单位组织研究开发 。目前 , 国内也涌现 出了诸如科大讯飞和北京捷通等专业研究和开发
语音识 别系统根据对说话 人说话方 式 的要 求, 可以分为孤立字 ( 语音识别系统 、 词) 连接字语 音识别系统和连续语音识别系统; 根据对说话人
母依后续韵母 的不 同而构成细化声母 , 这样虽然
增加了模型数 目, 但提高 了易混淆音节 的区分能 力。由于协同发音的影响, 音素单元不稳定 , 以 所 如何获得稳定的音素单元 , 还有待研究。
的技术 已经逐 步应 用于 日常生活 中。但 总体 来说 , 语音识别在研 究和 实用化方 面的难度还 比较大。本文概括
介 绍 了语 音 识 别技 术 的 全 貌 , 包括 其发 展 历 史 、 采 用 的 关键 技 术 、 体 应 用 以及 当前 所 面 临 的 困难 与 研 究趋 所 具
势。 关键词 : 语音识别 ; I 动态时间规整) 1 ( I' YW( ; 2C 线性预 测) C ( ; 口 倒谱) I M( ;I - M 隐马 尔可夫模 型) 中图分类号 :N 1 T 92 文献标识码 : A 文章编号 :6 1 49 20 )3 03— 5 17 —66 (06 0 —09 0
维普资讯
昌吉学院学报
20 年第 3 06 期
语 音 识 别 技 术 综 述
马志欣 王 宏 李 , 2 鑫

语音识别研究综述

语音识别研究综述

未来的研究需要针对这些问题进行深入探讨,以进一步推动语音识别技术的 发展和应用。随着物联网、可穿戴设备等新技术的不断发展,语音识别技术将在 更多领域得到应用,具有广阔的发展前景。
参考内容
语音识别技术是当前领域的研究热点之一。在过去的几十年中,国内的研究 机构和企业在语音识别领域取得了显著的进展。本次演示将综述国内语音识别的 研究现状、技术发展及未来趋势。
二、语音识别技术的应用
1、智能客服
智能客服是语音识别技术的重要应用之一。在国内,许多企业已经开始使用 语音识别技术来提高客户服务效率。例如,在银行、电信、电商等领域,客户可 以通过语音与智能客服进行交互,快速解决自己的问题。
2、智能家居
智能家居是另一个应用语音识别技术的领域。通过语音识别技术,用户可以 通过语音控制家电的开关、温度、照明等参数。国内许多企业已经推出了智能家 居产品,如小米、、海尔等。
此外,针对特定领域的语音识别应用,如方言语音识别和多语种语音识别, 深度学习方法也取得了显著成果。然而,目前语音识别技术仍存在一些不足之处, 如对口音和语速的适应性有限、实时处理能力不足等。未来的研究将需要在这些 方面进行深入探讨。
语音识别应用综述
随着语音识别技术的不断发展,其在多个领域的应用越来越广泛。以下是几 个主要应用领域的综述:
语音识别技术在不同场景下的应用及优缺点比较各种方法的优劣在实际应用 中,语音识别技术面临着多种挑战,如发音多样性、噪音干扰、口音和语速差异 等。因此,针对不同场景选择合适的语音识别技术尤为重要。在安静环境下,基 于深度学习的端到端语音识别模型表现较好;而在噪音环境下,基于HMM的语音 识别模型更具优势。
1、智能客服:语音识别技术在智能客服领域的应用已经相当成熟。通过语 音转文字、自然语言处理等技术,智能客服可以准确理解客户需求并快速作出回 应,提高客户满意度和服务效率。目前,许多银行、电信运营商等都在使用智能 客服系统来提升客户服务质量。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音识别技术综述语音识别技术综述电子信息工程2010级1班郭珊珊【摘要】随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,该技术的发展和应用改变了人们的生产和生活方式,正逐步成为计算机处理技术中的关键技术。

语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

【关键词】语音识别;语音识别原理;语音识别发展;产品语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器人自动识别和理解人类口述的语言。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的命令或文本的高新技术。

1 语音识别的原理语音识别系统本质是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单位元。

未知语音经过话筒变换成电信号后加载识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需特征,在此基础上建立语音识别所需的模板。

计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。

然后根据此模板的定义,通过查表可给出计算机的识别结果。

这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。

2 语音识别系统的分类语音识别系统可以根据对输入语音的限制加以分类。

2.1从说话者与识别系统的相关性考虑可以将识别系统分为3类:(1)特定人语音识别系统:仅考虑对于专人的话音进行识别;(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习;(3)多人的识别系统:通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。

2.2从说话的方式考虑也可以将识别系统分为3类:(1)孤立词语音识别系统:孤立词识别系统要求输入每个词后要停顿;(2)连接词语音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现;(3)连续语音识别系统:连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。

2.3从识别系统的词汇量大小考虑也可以将识别系统分为3类:(1)小词汇量语音识别系统。

通常包括几十个词的语音识别系统。

(2)中等词汇量的语音识别系统。

通常包括几百个词到上千个词的识别系统。

(3)大词汇量语音识别系统。

通常包括几千到几万个词的语音识别系统。

随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。

目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。

这些不同的限制也确定了语音识别系统的困难度。

3语音识别技术的发展3.1国外研究历史及现状语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。

但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。

这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。

这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰。

因此原有的模板匹配方法已不再适用。

实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。

这一时期,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。

HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。

统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。

在声学模型方面,以Markov链为基础的语音序列建模方法HMM(隐式Markov 链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。

在语言层面上,通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。

另外,人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。

20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。

语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。

比较有代表性的系统有:IBM公司推出的ViaVoice和DragonSystem 公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform语音平台,Microsoft 的Whisper,Sun的VoiceTone等。

其中IBM公司于1997年开发出汉语ViaVoice语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice'98。

它带有一个32,000词的基本词汇表,可以扩展到65,000词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到95%。

该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。

3.2国内研究历史及现状我国语音识别研究工作起步于五十年代,但近年来发展很快。

研究水平也从实验室逐步走向实用。

从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。

我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。

中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。

在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。

研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求。

中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。

4 语音识别的方法一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。

4.1基于语音学和声学的方法该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。

通常认为常用语言中有有限个不同的语音基元,而且可以通过其语音信号的频域或时域特性来区分。

这样该方法分为两步实现:第一步,分段和标号把语音信号按时间分成离散的段,每段对应一个或几个语音基元的声学特性。

然后根据相应声学特性对每个分段给出相近的语音标号第二步,得到词序列根据第一步所得语音标号序列得到一个语音基元网格,从词典得到有效的词序列,也可结合句子的文法和语义同时进行。

4.2模板匹配的方法模板匹配的方法发展比较成熟,目前已达到了实用阶段。

在模板匹配方法中,要经过四个步骤:特征提取、模板训练、模板分类、判决。

常用的技术有三种:动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。

4.2.1动态时间规整(DTW)语音信号的端点检测是进行语音识别中的一个基本步骤,它是特征训练和识别的基础。

所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置,从语音信号中排除无声段。

在早期,进行端点检测的主要依据是能量、振幅和过零率。

但效果往往不明显。

60年代日本学者Itakura提出了动态时间规整算法(DTW:DynamicTimeWarping)。

算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。

在这一过程中,未知单词的时间轴要不均匀地扭曲或弯折,以使其特征与模型特征对正。

4.2.2隐马尔可夫法(HMM)隐马尔可夫法(HMM)是70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。

HMM方法现已成为语音识别的主流技术,目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。

HMM是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程。

前者通过后者表现出来,但前者的具体参数是不可测的。

人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。

可见HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。

4.2.3矢量量化(VQ)矢量量化(VectorQuantization)是一种重要的信号压缩方法。

相关文档
最新文档