语音识别关键技术研究
深度学习技术在语音识别中的研究与进展

深度学习技术在语音识别中的研究与进展随着人工智能技术的迅猛发展,深度学习技术在各个领域取得了重大突破。
语音识别作为其中一项关键技术,在近年来也取得了巨大的进展。
本文将探讨深度学习技术在语音识别领域的研究现状以及相关进展。
一、概述语音识别旨在将人类的语言转换为计算机可识别的形式。
长期以来,语音识别一直是人工智能领域的研究热点之一。
传统的语音识别技术主要基于统计模型和人工设计的特征提取算法,但在面对复杂而多变的语音信号时,效果有限。
而随着深度学习技术的崛起,特别是深度神经网络的广泛应用,语音识别领域开始迎来新的机遇。
二、深度学习在语音识别中的应用1. 深度神经网络的构建深度神经网络(Deep Neural Network,DNN)是深度学习技术在语音识别中的核心应用之一。
DNN通过多层神经元构成的网络实现对语音信号的建模。
其优势在于可以自动地从数据中学习到更高层次的抽象特征,从而提高语音识别的准确率。
2. 卷积神经网络的运用卷积神经网络(Convolutional Neural Network,CNN)作为深度学习领域的另一项重要技术,也被广泛应用于语音识别中。
CNN通过卷积层、池化层等结构对语音信号进行特征提取,进而实现对语音信号的分类与识别。
相比于传统的手工特征提取方法,CNN在语音识别中取得了更好的表现。
3. 递归神经网络的引入递归神经网络(Recurrent Neural Network,RNN)在语音识别中的应用也不可忽视。
RNN通过引入循环结构,可以处理时间序列数据。
语音信号具有时序性,因此RNN在语音识别中有着独特的优势。
通过RNN的使用,可以更好地捕捉语音信号中的时序信息,提高语音识别的准确性。
三、深度学习技术在语音识别中取得的进展1. 识别准确率的提升传统的语音识别技术在面对复杂的语音信号时,准确率通常较低。
而深度学习技术在语音识别中的应用,极大地改善了这一状况。
通过深度神经网络和卷积神经网络等模型的建立,语音识别的准确率显著提高。
浅谈我国语音识别技术研究与发展

浅谈我国语音识别技术研究与发展语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器人自动识别和理解人类口述的语言。
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的命令或文本的高新技术。
随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,该技术的发展和应用改变了人们的生产和生活方式,正逐步成为计算机处理技术中的关键技术。
语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
标签:语音识别;语音识别原理;语音识别发展;产品语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器人自动识别和理解人类口述的语言。
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的命令或文本的高新技术。
1 语音识别的原理语音识别系统本质是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单位元。
未知语音经过话筒变换成电信号后加载识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需特征,在此基础上建立语音识别所需的模板。
计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。
然后根据此模板的定义,通过查表可给出计算机的识别结果。
这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。
2 语音识别系统的分类语音识别系统可以根据对输入语音的限制加以分类。
2.1从说话者与识别系统的相关性考虑可以将识别系统分为3类:(1)特定人语音识别系统(2)非特定人语音系统(3)多人的识别系统。
2.2从说话的方式考虑也可以将识别系统分为3类:(1)孤立词语音识别系统(2)连接词语音识别系统(3)连续语音识别系统。
2.3从识别系统的词汇量大小考虑也可以将识别系统分为3类:(1)小词汇量语音识别系统。
(2)中等词汇量的语音识别系统。
语音识别技术在智能家居中的应用研究

语音识别技术在智能家居中的应用研究智能家居是指通过信息技术手段,将传统家居进行智能化改造,使其具备自动化、智能化的功能,提升生活的便捷性和舒适度。
而语音识别技术作为智能家居的关键技术之一,正在在智能家居中得到广泛应用并取得重要的研究成果。
一、语音识别技术的基本原理语音识别技术是一种将人类语音转化为机器可识别的文字或命令的技术。
其基本原理是通过语音信号的采集、特征提取、模型训练和识别四个步骤完成。
首先,语音信号通过麦克风等设备进行采集,并经过预处理去除噪声等干扰。
然后,从语音信号中提取出一系列特征参数,如音频频率、能量等。
接下来,使用机器学习算法对这些特征参数进行训练,建立起语音模型。
最后,将输入的语音信号与语音模型进行比对,识别出对应的文字或命令。
二、语音识别技术在智能家居中的应用1. 语音控制家居设备语音识别技术可以将语音指令转化为控制信号,实现语音控制家居设备的功能。
通过与智能家居设备连接的语音识别模块,用户可以通过语音命令来控制家居设备的开关、亮度、温度等参数,提高居住者的生活便利性和舒适度。
2. 语音助手交互智能家居中的语音助手可以通过语音识别技术实现自然语言交互。
用户可以通过语音与语音助手进行对话,提出问题、下达指令,语音助手则通过语音识别技术解析用户的指令,并回答问题或执行相应的操作。
这样,居住者无需操作复杂的设备,只需通过语音与语音助手进行交互,便能完成多项操作。
3. 语音提醒和提醒功能语音识别技术可以用于智能家居设备的提醒功能。
通过语音指令或定时设置,智能家居设备可以进行语音提醒,如提醒用户吃饭、锁门等。
这样,无论用户身在何处,只需听取智能家居设备的语音提示,就能及时了解重要事项,提高居住者的生活效率。
4. 安全监测和报警系统语音识别技术还可以应用于智能家居的安全监测和报警系统中。
通过语音识别技术,智能家居设备可以识别异常声音,如破门声、烟雾报警声等,一旦检测到异常情况,立即发出警报,并通过语音提醒用户,保障家庭安全。
基于深度学习的语音识别技术研究综述

基于深度学习的语音识别技术研究综述摘要:语音识别是人工智能领域的重要研究方向之一。
传统的语音识别技术主要基于概率图模型,如隐马尔可夫模型(HMM)。
然而,这些方法在处理复杂语音任务时面临挑战。
近年来,深度学习方法的快速发展为语音识别带来了革命性的进展。
深度学习通过多层神经网络结构和大量标注数据提高了语音识别的准确性和性能。
本文将综述基于深度学习的语音识别技术的发展和应用。
1. 引言语音识别是一项关键技术,广泛应用于语音助手、语音控制和自动语音转换等领域。
传统的语音识别方法需要手工设计特征,然而,这些特征难以捕捉到语音中隐含的丰富信息,导致性能的瓶颈。
深度学习基于神经网络的方法可以自动学习特征,从而解决了传统方法的限制。
2. 深度学习在语音识别中的应用2.1 基本结构深度学习在语音识别中的应用主要基于循环神经网络(RNN)、卷积神经网络 (CNN) 和长短时记忆网络(LSTM)等结构。
RNN和LSTM可以捕捉到时序信息,而CNN则可以提取语音信号的局部特征。
2.2 特征表示深度学习方法通过学习将原始语音信号转换为高级表示,用于语音识别任务。
这些高级表示可以是时间频率图谱、梅尔频率倒谱系数(MFCC)、倒谱包络和深度神经网络特征等。
2.3 训练和优化深度学习模型的训练通常采用反向传播算法以及随机梯度下降等优化算法。
此外,基于深度学习的语音识别还可以使用迁移学习和增量学习等技术来提高训练效果。
3. 数据集和评价指标深度学习方法在语音识别任务中需要大量的标注数据进行训练。
开源的语音数据集如LibriSpeech、TIMIT和Switchboard等为研究者提供了丰富的数据资源。
评价指标主要包括错误率(WER)、准确率(Accuracy)和对齐错误率(Alignment Error Rate)等。
4. 深度学习在语音识别中的挑战尽管深度学习在语音识别任务中取得了显著的进展,但仍面临一些挑战。
首先,缺乏大规模标注数据集限制了模型的性能。
人工智能辅助语音识别的关键技术

人工智能辅助语音识别的关键技术人工智能(Artificial Intelligence,简称AI)的快速发展已经渗透到我们生活的各个方面。
语音识别作为人机交互的重要手段之一,受到了广泛的关注和应用。
人工智能技术的不断进步,为语音识别带来了革命性的突破。
本文将探讨人工智能辅助语音识别的关键技术以及其在现实生活中的应用。
一、声学模型声学模型是语音识别中的重要组成部分,用于将声音信号转换为文字。
传统的声学模型基于高斯混合模型(Gaussian Mixture Model,简称GMM),但其对于复杂声音的处理效果有限。
近年来,随着深度学习(Deep Learning)技术的发展,逐渐出现了基于深度神经网络(Deep Neural Network,简称DNN)的声学模型,如深度神经网络隐马尔可夫模型(Deep Neural Network Hidden Markov Model,简称DNN-HMM)。
DNN-HMM模型利用深度神经网络对声音信号进行特征提取和建模,大大提高了声学模型的性能和准确度。
通过多层次的神经网络结构,DNN-HMM模型能够学习到更复杂的语音特征表征,从而提高语音识别的效果。
此外,还有基于循环神经网络(Recurrent Neural Network,简称RNN)的声学模型,如长短时记忆网络(Long Short-Term Memory,简称LSTM),能够更好地处理时序信息,提高语音识别的鲁棒性。
二、语言模型语言模型是语音识别中另一个重要的组成部分,用于对识别结果进行语言上下文的判断和调整。
传统的语言模型主要基于统计的方法,如n-gram模型。
但这种方法需要对大量的语料库进行统计分析,且容易受到语料库大小和稀疏性的限制。
随着深度学习的发展,基于神经网络的语言模型逐渐兴起。
其中,循环神经网络(RNN)在语言模型中的应用得到了广泛的关注。
RNN 能够通过学习上下文之间的依赖关系,更好地捕捉到长距离的语言依赖关系,从而提高语音识别的准确度和流畅度。
人工智能语音识别提高语音交互效果的关键技术

人工智能语音识别提高语音交互效果的关键技术随着科技的不断发展,人工智能技术得以迅速应用到各个领域,其中人工智能语音识别技术受到了广泛关注。
语音识别技术可以将人类的语音转化为可理解的文本或命令,为人机交互提供了更加便捷和高效的方式。
在人工智能语音识别中,有几个关键技术对提高语音交互效果起到了至关重要的作用。
一、语音语调识别技术在语音识别过程中,语音语调识别技术是提高语音交互效果的关键。
语调是指语音中所包含的声调、音高、语速等元素,它能够传达出说话者的情绪和语气。
通过准确识别和分析语音中的语调信息,可以更好地理解说话者的意图,从而提供更符合说话者期望的回应。
语音语调识别技术的核心在于利用机器学习算法对大量的语音数据进行训练,并提取其中的语调特征。
通过对这些特征的比对和匹配,系统可以准确地判断出说话者的语调并做出相应的处理。
例如,在机器客服的应用中,识别出用户表达的疑问或不满情绪后,系统可以及时调整回答策略,以提供更好的用户体验。
二、语音识别准确性改进技术语音识别的准确性一直是人工智能语音交互领域的难题。
为了提高语音交互效果,改进语音识别的准确性是至关重要的一环。
目前,随着深度学习技术的不断发展,语音识别的准确率得到了大幅度的提升。
首先,针对于不同语音口音和语速的识别问题,可以通过训练多个语言模型来适应不同的语音环境。
其次,可以采用声学和语言模型的联合训练,通过构建复杂的神经网络结构,提高识别准确性。
此外,还可以利用大规模的语音数据进行训练,并进行在线学习和更新,以适应不断变化的语音环境和说话者。
三、语义理解与上下文推理技术语音交互中的语义理解和上下文推理是提高交互效果的关键环节。
语义理解是指将用户语音中的信息转化为机器可理解的语义表示,而上下文推理则是根据对话上下文和用户的意图进行推理分析,以便给出更加准确的回应。
为了实现语义理解和上下文推理,需要利用自然语言处理和深度学习等技术。
首先,通过构建语义解析器,将用户语音中的实体、关系和事件等提取出来,并进行有效的编码。
语音识别技术的研究现状和未来发展趋势

语音识别技术的研究现状和未来发展趋势语音识别技术是一项近年来备受关注的技术领域,随着科技的发展和人们对智能化生活的追求,语音识别技术的应用范围也越来越广泛。
本文旨在探讨语音识别技术的现状及未来发展趋势。
一、语音识别技术的现状语音识别技术是一种实现机器与人之间自然语言交互的关键技术,它通过分析和识别人们的语音输入,将其转化为可读取的文本或命令,从而实现机器智能化操作。
随着科技的不断发展和智能语音助手的逐渐普及,目前语音识别技术已经具备了一定的应用条件和使用经验。
目前,全球各大科技公司都在加大对语音识别技术的研发力度。
谷歌、亚马逊、苹果等公司的语音助手技术普及率较高,可以实现语音识别、语音合成、自然语言处理、对话管理等多项技术的应用。
而在中国,百度、阿里、腾讯等公司也在积极投入语音识别领域的研究和开发。
不过,语音识别技术目前还存在较多的技术瓶颈。
与人类的语音理解能力相比,机器的语音识别精度和效率仍然存在着很大的差距。
此外,针对不同语言、声音背景和口音等因素的歧义处理和模型训练也需要不断地迭代和优化。
二、语音识别技术的未来发展趋势未来,语音识别技术将持续向更加智能化、个性化、多样化等方向发展。
首先,随着深度学习、云计算等技术的不断成熟和应用,语音识别技术的精度和效率将得到显著提升,从而为更多的应用场景提供支持。
此外,不同于传统的基于规则和特征提取的语音识别方法,深度学习技术可以更好地实现语音信号的端到端自我学习,从而更加符合人类自然语言处理的特性。
其次,随着智能硬件设备的普及和应用场景的扩大,个性化语音识别技术的需求也将日益增长。
不同的用户拥有不同的口音、用语和语气,因此如何实现个性化的语音识别和语音合成将成为未来的发展方向之一。
最后,随着AI对话系统、人工智能等领域的不断拓展,语音识别技术也将在更多智能应用场景中得以应用,为人类智能化生活提供更多便利和支持。
三、结语总的来说,语音识别技术的研究和应用前景十分广阔,只要不断创新和优化技术方法和模型,充分满足用户需求和应用场景需求,未来的语音识别技术一定会有越来越广阔的市场和应用前景。
基于语音的抑郁识别方法及关键技术研究

基于语音的抑郁识别方法及关键技术研究基于语音的抑郁识别方法及关键技术研究概述:随着抑郁症患者数量的逐年增加,如何快速准确地识别患者的抑郁症状成为精神健康领域的研究热点。
语音识别技术作为一种新兴的生物特征识别方法,逐渐引起了研究者们的关注。
本文将探讨基于语音的抑郁识别方法及其关键技术,旨在提供一种可行的思路和方法来准确识别抑郁症状,为抑郁症的早期干预和治疗提供参考。
一、语音特征提取方法语音信号中包含丰富的信息,因此需要对语音信号进行特征提取以便进行分类和识别。
目前常用的语音特征提取方法有基于声学模型的Mel频率倒谱系数(MFCC)和基于韵律模型的基音频率、共振峰等。
1.1 MFCC特征提取MFCC是一种在语音信号处理中广泛使用的特征提取方法。
它通过将语音信号分解成多个频带,计算每个频带的能量,然后将能量值转换为对数形式,最后通过倒谱变换得到频谱特征。
MFCC能够较好地表达语音音色特征,对于抑郁症的识别具有一定的参考价值。
1.2 基音频率特征提取基音频率是语音信号中反映周期性的重要特征之一,通过分析语音信号的周期性,可以得到基音频率的信息。
基于韵律模型的抑郁识别方法通过测量患者语音中的基音频率变化,可以得到患者在情绪上和心理上的变化,从而进一步判断是否患有抑郁症。
1.3 共振峰特征提取共振峰是语音信号中反映声道形状的重要特征之一,语音信号在声道中传播时会受到共振峰的影响而产生共振。
通过提取语音信号中的共振峰信息,可以反映出患者的情绪状态和抑郁症状。
因此,共振峰特征也可以用于抑郁症的识别。
二、语音情感识别方法抑郁症是一种情绪障碍,因此在语音抑郁识别中,情感识别是一个关键问题。
当前,常用的情感识别方法主要有基于语音特征的分类方法和基于深度学习的情感识别方法。
2.1 基于语音特征的分类方法基于语音特征的分类方法是一种传统的情感识别方法。
通过将提取的语音特征输入到分类器中,如支持向量机(SVM)、K近邻算法(KNN)等,可以实现对患者情感状态的识别。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
虑当前帧语音, 为了考虑前面语音帧的影响, HMM 必须将这些 帧的信息吸收到当前帧。
合模型进行优化, 提出了一种猜测初始隐节点数和对训练结束 后的网络进行隐节点 剪 枝 的 算 法 , 并 用 广 义 的 Hebb 算 法 对 网 络的参数进行优化。
2 HMM 的建模假设及对识别系统的影响
随着对 HMM 技术的深入研究, 人们发现 HMM 还存在着
很多和语音信号的实际情况不相符合的先验假设和训练方面
Keywor ds: HMM, ANN, Nonparametric Probabilistic Model, BP
1 引言
语音识别主要是让机器听懂人说的话, 即在各种情况下, 准确地识别出语音的内容, 从而根据其信息执行人的各种意 图。HMM 在语音处理各个领域都获得了巨大的成功, 但是它本 身有很大的限制.神经网络依靠权值信息能够进行长时间记忆 和知识存储, 但是对于输入模式的瞬时响应的记忆能力较差, 很难有效地对时间变量建模。
3 人工神经网络的特点
人工神经网络的出发点是通过模拟大脑的机制, 将包括听 觉系统的生物神经系统的信息处理机制引入机器学习的研究 中, 使其具有学习和理解的能力。系统的所有计算都是由神经 元单元完成的, 而单元之间的连接权决定了网络对任意输入模 式的计算响应。连接权的建立是通过训练算法进行的, 具有传 统的数字计算机系统即线性网络没有的优点, 主要表现在:
Abstr act: Because of the application of the Hidden Markov Model ( HMM) in acoustic modeling, a significant breakthrough has been made in recognizing continuous speech with a large glossary.However, some unreasonable hypotheses for acoustic modeling and the unclassified training algorithm on which the HMM based form a bottleneck, restricting the further improvement in speech recognition.The Artificial Neural Network( ANN) techniques can be adopted as an alternative modeling paradigm.By means of the weight values of the network connections, neural networks can steadily store the knowledge acquired from the training process.But they possess a weak memory, not being suitable to store the instantaneous response to various input modes.To overcome the flaws of the HMM paradigm, we design a hybrid HMM/ANN model.In this hybrid model, the nonparametric probabilistic model ( a BP neural network) is used to substitute the Gauss blender to calculate the observed probability which is necessary for computing the states of the HMM model.Besides, we optimize the structure of the network, and experiments show that the hybrid model has a good performance in speech recognition.
在音段层面方式中, 神经网络的输入来自整个语音段, 而 不 是 一 帧 语 音 或 固 定 长 度 的 语 音 窗 。这 样 就 可 以 让 网 络 更 好 地 利用存在音段中的所有语音帧之间的相关性, 而且还可以更容 易地利用其它信息, 比如时长。这个方法的缺点是必须先对语 音进行分段, 神经网络才能对分出的各个音段进行计算。在这 些不同的结合形式中, 实验结果表明, 帧层面上的结合比较符 合 HMM 和 ANN 两种方法的特点。
4.1 HMM 和 ANN 的结合方式
ANN 和 HMM 可以以不同的方式进行结合, 如 ANN 直接 实 现 HMM, 两 者 在 帧 层 面 上 的 结 合 , 语 音 层 面 上 的 结 合 , 音 段 层 面 的 结 合 和 子 层 面 上 的 结 合 等 方 式 。本 文 介 绍 的 并 非 用 神 经 网 络 直 接 实 现 HMM, 而 是 探 索 一 种 混 合 模 型 , 即 能 优 化 HMM 模 型 , 又 能 充 分 利 用 每 一 种 技 术 的 长 处 : HMM 的 时 间 建 模 和 ANN 的声学建模, 特别是用神经网络计算 HMM 状态的观测概 率。用神经网络来估计观测概率, 设计和训练神经网络的方法 有很多, 最简单的方式就是将一帧语音矢量直接映射成观察概 率, 网络的训练也是一帧接一帧地进行, 这种方法就成为帧层 面上的网络训练。
( 4) 非线性: 神经网络可以提取系统输入之间复杂的相互 作用关系, 计算非线性函数, 对输入进行复杂的变换, 更符合现 实世界的实际问题, 如语音信号是一个高度非线性的过程。
( 5) 鲁棒性: 神经网络对物理损伤和带噪声的数据不敏感, 而 且 带 噪 声 的 数 据 有 助 于 网 络 形 成 更 好 的 泛 化 能 力 。这 一 点 对 于语音识别特别有价值, 因为经常在噪声环境下录入语音。
( 1) 自组织和自适应性神经网络可以从数据集中自适应地 求解答案, 可以有效地用于学习数据集的内在联系。对于语音 识别来说, 它可用于解决非特定人语音识别等问题。
( 2) 学习功能: 神经网络通过学习能掌握输入和输出之间 的任意映射关系, 所以网络可以通过学习将语音模式映射成因 素类别。
( 3) 可推广性: 神经网络不仅能记忆训练数据模式, 还能学 会相似的模式, 可以从训练数据推广到新数据。在语音识别上 可大大减少训练所需数据量。
鉴 于 上 述 HMM 和 ANN 在 处 理 语 音 识 别 方 面 各 有 优 缺 点, 所以引入了 HMM/ANN 混合模型。对于这种混合模型的研 究得到了国外很多研究机构的重视, 如 Berkeley 的国际计算机 学院( ICSI) 、斯坦福研究院( SRI) 、剑桥大学的 SVR 等机构。他 们研究的语音识别系统的性能在某些方面已经明显优于传统 的 HMM 系统。本文采用的利用 BP 网络代替高斯混合器来计 算 HMM 的状态所需要的观测概率。该混合模型利用连续密度 隐 马 尔 科 夫 模 型 ( CDHMM) 来 对 短 时 语 音 分 量 建 模 , 同 时 利 用 ANN 强大的区分能力来计算 CDHMM 的观 察 概 率 。 另 外 对 混
( 3) 观 测 概 率 的 分 布 假 设 : 通 常 假 设 HMM 的 状 态 观 测 概 率分布是多维高斯分布或高斯分量的混合, 对于连续密度的 HMM 模型, 这一假设就导致了模型的不匹配, 即统计模型的先 验选择和真实密度之பைடு நூலகம்的弱匹配。
( 4) HMM 的前后向训练算法是在最大似然( ML) 准 则 下 导 出的。由最大似然准则训练得到的声学模型的区分能力很弱, 虽然用相互熵准则能够提高模型间的区分能力, 但这一方法实 施起来太复杂。
的缺陷, 它们正在成为语音识别系统的性能进一步提高的障
碍。主要表现在:
( 1) 一阶马尔可夫模型假设: 马尔可夫链在 n 时刻处于状
n
n- 1
态 qi 的概率只与 n- 1 时刻所处的状态 qi 有关, 而与 n- 1 时刻
以前的状态及声学矢量序列无关。这一假设对 HMM 产生的一
个影响是 HMM 对协同发音的建模比较困难, 因 为 相 邻 状 态 对
( 6) 一致性: 神经网络提供了一致的计算模式, 可以很容易 地融合各种约束条件, 就使我们很容易使用倒谱和差分倒谱输 入, 还可以在听觉—视觉双模态语音识别系统中将声学和视觉 因素结合起来。
( 7) 并行性: 神经网络在本质上是高度并行的, 因此它非常 适合在大规模并行机上实现, 这就在根本上支持语音数据的高 速处理。
语音识别关键技术研究
息晓静 林坤辉 周昌乐 蔡 骏 ( 厦门大学软件学院, 厦门 361005)
摘 要 采用隐马尔可夫模型( HMM) 进行语音声学建模是大词汇连续语音识别取得突破性进展最主要的原因之一, HMM 本身依赖的某些不合理建模假设和不具有区分性的训练算法正在成为制约语音识别系统未来发展的瓶颈。神经网络依 靠 权 能 够 进 行 长 时 间 记 忆 和 知 识 存 储 , 但 对 于 输 入 模 式 的 瞬 时 响 应 的 记 忆 能 力 比 较 差 。 采 用 混 合 HMM/ANN 模 型 对 HMM 的一些不尽合理的建模假设和训练算法进行了革新。混合模型用神经网络非参数概率模型代替高斯混合器 ( GM) 计算 HMM 的状态所需要的观测概率。另外对神经网络的结构进行了优化, 取得了很好的效果。
( 5) HMM 是一种统计模型, 模型参数的估计需要大量的训 练数据, 而在实际应用中总是存在参数估计精度与训练数据之 间 的 矛 盾 , 而 且 训 练 过 程 计 算 量 大 , 耗 时 长 , 对 连 续 密 度 HMM 来说尤其如此。