基于神经网络语音识别技术的研究

合集下载

深度神经网络在语音识别中的应用研究

深度神经网络在语音识别中的应用研究

深度神经网络在语音识别中的应用研究深度神经网络(Deep Neural Network, DNN)是一种基于多层神经元结构的人工神经网络。

近年来,深度神经网络在语音识别领域的应用研究引起了广泛关注。

本文将从深度神经网络在语音识别中的应用场景、优势和挑战以及最新研究进展三个方面进行探讨。

首先,深度神经网络在语音识别中的应用场景是多样的。

传统的语音识别系统使用的是高斯混合模型(Gaussian Mixture Model, GMM)和隐马尔可夫模型(Hidden Markov Model, HMM)。

但是,这些方法会面临维度灾难和标注数据稀缺的问题。

深度神经网络可以通过端到端的学习方式,直接从原始语音信号中提取特征并输出最终的识别结果。

因此,深度神经网络在无噪声、噪声和多种语音背景下的语音识别应用中具有广泛的应用前景。

其次,深度神经网络在语音识别中的应用具有一些显著的优势。

首先,深度神经网络能够自动学习到有效的特征表示,不需要手动设计特征。

其次,深度神经网络可以通过增加网络的层数来提高模型的表达能力,从而提高识别准确率。

此外,深度神经网络还能够通过循环神经网络(Recurrent Neural Network, RNN)的引入来解决时序数据的建模问题,提高语音识别的性能。

最近的研究表明,通过使用更深、更强大的深度神经网络结构,可以进一步提高语音识别的性能。

例如,通过引入卷积神经网络(Convolutional Neural Network, CNN)和长短时记忆网络(LongShort-Term Memory, LSTM)等结构,可以显著提高声学模型的准确率。

此外,研究人员还尝试将深度神经网络与其他技术结合,如注意力机制和强化学习等,以进一步提升语音识别的性能。

总之,深度神经网络在语音识别中的应用研究具有广阔的应用前景。

通过自动学习特征表示和增加网络层数等方法,可以提高语音识别系统的准确率和鲁棒性。

基于深度学习的语音识别技术研究

基于深度学习的语音识别技术研究

基于深度学习的语音识别技术研究随着人工智能技术的发展,语音识别技术也日渐成熟。

从最初的基于模板匹配的语音识别到后来的基于统计学习的语音识别,再到今天的基于深度学习的语音识别,语音识别技术已经不再是未来科技,而是已经进入了我们的日常生活。

一、基于深度学习的语音识别技术深度学习技术是人工智能领域的热门技术之一,因其在图像识别、语音识别、自然语言处理等领域的卓越表现而备受关注。

深度学习算法通过模拟人脑的神经元网络实现对输入数据的多层抽象表示和处理。

而在语音识别任务中,深度学习算法可以通过对音频信号的建模和自适应模型训练来有效降低语音识别的误识别率。

目前基于深度学习的语音识别技术主要包括深度神经网络(Deep Neural Networks, DNNs)、卷积神经网络(Convolutional Neural Networks, CNNs)、长短时记忆网络(Long Short-Term Memory, LSTM)等多种模型。

其中,DNNs是基于前馈神经网络实现的语音识别模型,通过多个隐层抽象输入特征,将输入的音频信号映射到语音单元上,通过输出层的激活函数可以得到对音频信号的识别结果。

CNNs则是通过卷积层和池化层实现特征的提取和降维,然后再使用全连接层实现的识别。

而LSTM则是基于循环神经网络实现的模型,对于长序列信号的记忆、建模和识别效果尤为出色。

二、深度学习技术的优点相对于传统语音识别算法,深度学习技术具有以下优点:1. 非线性特征提取: 传统语音信号的特征提取通常采用Mel频率倒谱系数(Mel-frequency cepstral coefficients, MFCCs)等算法,而深度学习技术可以通过多层的非线性变换实现更为复杂的特征提取。

2. 优秀的分类性能: 深度学习算法可以通过大规模数据训练和模型自适应调整,从而获得优秀的分类性能,尤其对于噪声干扰、口音变化等情况的适应能力更强。

3. 高效的训练方法: 深度学习算法可以使用反向传播算法实现模型训练,而且可以结合GPU等并行计算技术加速训练完成。

基于深度学习的语音识别技术研究综述

基于深度学习的语音识别技术研究综述

基于深度学习的语音识别技术研究综述摘要:语音识别是人工智能领域的重要研究方向之一。

传统的语音识别技术主要基于概率图模型,如隐马尔可夫模型(HMM)。

然而,这些方法在处理复杂语音任务时面临挑战。

近年来,深度学习方法的快速发展为语音识别带来了革命性的进展。

深度学习通过多层神经网络结构和大量标注数据提高了语音识别的准确性和性能。

本文将综述基于深度学习的语音识别技术的发展和应用。

1. 引言语音识别是一项关键技术,广泛应用于语音助手、语音控制和自动语音转换等领域。

传统的语音识别方法需要手工设计特征,然而,这些特征难以捕捉到语音中隐含的丰富信息,导致性能的瓶颈。

深度学习基于神经网络的方法可以自动学习特征,从而解决了传统方法的限制。

2. 深度学习在语音识别中的应用2.1 基本结构深度学习在语音识别中的应用主要基于循环神经网络(RNN)、卷积神经网络 (CNN) 和长短时记忆网络(LSTM)等结构。

RNN和LSTM可以捕捉到时序信息,而CNN则可以提取语音信号的局部特征。

2.2 特征表示深度学习方法通过学习将原始语音信号转换为高级表示,用于语音识别任务。

这些高级表示可以是时间频率图谱、梅尔频率倒谱系数(MFCC)、倒谱包络和深度神经网络特征等。

2.3 训练和优化深度学习模型的训练通常采用反向传播算法以及随机梯度下降等优化算法。

此外,基于深度学习的语音识别还可以使用迁移学习和增量学习等技术来提高训练效果。

3. 数据集和评价指标深度学习方法在语音识别任务中需要大量的标注数据进行训练。

开源的语音数据集如LibriSpeech、TIMIT和Switchboard等为研究者提供了丰富的数据资源。

评价指标主要包括错误率(WER)、准确率(Accuracy)和对齐错误率(Alignment Error Rate)等。

4. 深度学习在语音识别中的挑战尽管深度学习在语音识别任务中取得了显著的进展,但仍面临一些挑战。

首先,缺乏大规模标注数据集限制了模型的性能。

基于过程神经网络的语音识别技术研究

基于过程神经网络的语音识别技术研究

1 引 言
语 音识 别 S sec cg io ) 指让 机 器 听 R(p ehr ont n 是 e i
组成。随着误差逆传播修正的不断进行 , 网络对输 入 模 式 响应 的 正 确 率 不 断 上 升 。然 而 B P算 法 是

懂人 说 的话 , 即在各种 情 况下 , 准确 地识 别 出语 音 的
种 梯度 下 降 算 法 , 度 下 降 存 在 多 极 值 问题 , 梯 且
内容 , 而根 据其信息 , 从 执行人 的各 种意 图…。现
代 语音 识别 技术 以神 经 网络 为 主 要 发展 趋 势 , 入 进
B P网络 学 习训 练 速 度 慢 , 易 陷 入 局 部 最 小 或 振 容 荡 。 因此 , 数 的选择 非 常 重 要 பைடு நூலகம்为 了克 服传 统 神 参
基 于 过 程 神 经 网络 的语 音 识别 技术 研 究
田 丽, 刘英 楠 , 孟耀 华
( 黑龙江八一农 垦大学信息技 术学 院 , 黑龙 江 大庆 13 1 6 39)
摘 要 : 程神 经 网络是 一种 基于 过程 神经 元 的新 型 神经 网络 , 输入 及 权 值 皆为 时序 函数 。 过 其 针 对语 音识 别 的特 点 , 对过 程 神经 网络在 语 音识别 技 术 中的应用 进 行 了探 索性 的研 究 , 与传 并 统的 B P神经 网络 、 向基 函数 网络进 行 了比较 。仿 真结 果表 明 , 用过 程 神经 网络进 行 的语 径 采
经 网络 B P算 法 存 在 的各 种 缺 点 , 文 研 究 用 过程 本
2 纪9 0世 0年代 以来 , 经 网 络 已 经 成 为 语 音 识 别 神
的一条重 要途 径 。 由于神经 网络 反映 了人脑 功 能 的

深度神经网络在语音识别中的应用

深度神经网络在语音识别中的应用

深度神经网络在语音识别中的应用一、引言语音识别是一项具有挑战性的技术,其能够将口语转化为可执行命令或可供存储的文本。

随着科技的进步,语音识别已经成为了许多设备和应用程序中必备的功能,如语音助手、语音搜索等。

本文将探讨深度神经网络在语音识别中的应用以及其优势。

二、深度神经网络深度神经网络(deep neural network,DNN)是一种人工神经网络的模型,它由多个非线性变换层堆叠而成,一般具有深度超过两层。

每个层的参数是由前面各层的特征自动地学习生成的。

深度神经网络在图像处理、自然语言处理、声音识别等方面具有广泛的应用。

三、深度神经网络在语音识别中的应用在语音识别技术中,深度神经网络起到了重要作用。

当前,深度神经网络已经在许多领域及各个层面展现出了杰出的性能。

而在语音识别中,它也为语音模型的建立提供了新的途径。

传统上,语音识别使用的是基于隐马尔可夫模型和贝叶斯网络等方法。

然而,随着深度神经网络技术的发展,人们不再需要将大量的特征提取和手动设计语音模型。

相反,深度神经网络使用端到端的数据驱动训练方法,从原始语音信号中学习包含有关发音、语速、音量等方面的特征,然后通过模拟出人类大脑处理语言信息的过程来实现语音识别。

深度神经网络的语音识别系统可分为前端和后端。

前端主要是将语音信号转化为一个特征向量,而后端将该向量转化为文字。

前端通常使用声学处理来分析信号,比如将信号转化为声谱图。

在后端部分,深度神经网络负责处理前端产生的数据,识别出语音中的文本信息。

深度神经网络采用的是序列模型,其目的是将语音序列映射到文字或者指令序列中。

四、深度神经网络在语音识别中的优势相对于传统的语音识别方法,深度神经网络在语音识别中具有以下优势:1、端到端训练,减少了特征工程流程的复杂度。

深度神经网络通过自己学习语音特征,无需专家买服务,从而减少了对人类专业知识的依赖。

2、提高了准确性。

深度神经网络在数据驱动下对语音数据的处理更加精细,通过节省特征处理步骤,使其能够更好地适应数据,从而提高语音识别的准确率。

深度神经网络在语音识别技术中的应用研究

深度神经网络在语音识别技术中的应用研究

深度神经网络在语音识别技术中的应用研究近年来,深度学习已成为了人工智能领域的研究热点,被广泛应用于语音识别、图像识别等领域。

其中,深度神经网络(Deep Neural Networks,简称DNN)在语音识别技术中的应用研究颇受关注。

一、DNN的基本结构和工作原理深度神经网络是一种在结构上类似于生物神经网络的人工神经网络,由多个神经网络层次组成。

DNN的基本结构由输入层、中间层和输出层构成,其中中间层也被称为隐含层。

它可以处理大量数据,并在数据集中自动学习数据特征。

每个神经网络层次都包含一组神经元,用来对输入数据进行处理。

DNN的工作原理是通过学习复杂的数据集,获得对输入数据的深度理解,从而实现对数据有效特征的提取。

具体而言,DNN通过梯度下降算法不断优化权重和偏置,在反向传播过程中实现网络参数的学习与调整,从而提高网络的准确性和性能。

DNN通过不同层次的特征提取和抽象表示,能够处理极其复杂的深度学习模式,真正实现了人工智能领域的突破性进展。

二、DNN在语音识别技术中的应用DNN是一种非线性模型,具有高度的表达能力和学习能力。

在语音识别技术中,DNN被广泛应用于语音识别、语音生成和语音合成等领域。

具体应用包括:1. 语音识别DNN在语音识别领域中应用最为广泛。

在传统的语音识别系统中,主要利用高斯混合模型(GMM)和隐马尔科夫模型(HMM)进行语音信号的建模和识别。

然而,传统的GMM和HMM模型难以捕捉数据的高阶特征,因而在实际应用中效果不尽人意。

而DNN能够提取更加丰富的特征,并在模型训练过程中通过不断迭代优化参数,从而显著提升语音识别的准确率和性能。

2. 语音生成DNN还可用于语音生成方面,即通过机器学习技术生成与自然语言相近的语音。

在该领域,DNN主要用于建模语音信号的生成模型,能够生成更加真实的语音信号,并为后续的语音应用提供基础支撑。

3. 语音合成DNN还可用于语音合成方面,即通过机器学习和信号处理技术合成自然语言的语音。

基于ELM神经网络的语音识别研究

基于ELM神经网络的语音识别研究

基于ELM神经网络的语音识别研究随着人工智能的发展,语音识别技术在人们的日常生活中占据了越来越重要的地位。

语音识别作为自然语言处理的一种形式,其应用范围非常广泛,如语音控制、语音搜索等。

其中,基于ELM神经网络的语音识别技术因其高效、快速和准确,成为目前主要的研究方向之一。

ELM(Extreme Learning Machine)神经网络是一种新型的神经网络,相较于传统神经网络,ELM神经网络具有许多优势。

首先,ELM神经网络的学习速度非常快,这是由于其随机选取权值和偏置向量而非迭代算法导致的。

其次,ELM神经网络不需要事先对输入数据进行归一化,可以直接进行高效的分类。

最后,ELM神经网络具有较强的鲁棒性,能够在噪声环境下进行准确的分类。

基于ELM神经网络的语音识别技术是将语音信号转换为数字形式的过程,其主要的流程包括信号预处理、特征提取和分类器的构建。

在信号预处理阶段,语音信号将被采样和量化,并进行预加重和降噪处理,以提高模型的稳定性和准确性。

在特征提取阶段,常用的特征包括梅尔倒谱系数(MFCC)、线性预测编码(LPC)和功率谱密度(PSD)。

这些特征通常会被送入ELM神经网络中进行分类。

构建分类器是整个语音识别系统的核心部分,ELM神经网络在其中扮演着较为重要的角色。

首先,ELM神经网络被训练出一个较好的分类器。

其次,在实际应用中,输入音频样本被送入ELM神经网络中进行分类,输出结果为语音的文本内容。

目前,基于ELM神经网络的语音识别技术已经取得了良好的结果。

在许多实验中,该技术表现优异,并在准确性和识别速度上具有很大的优势。

然而,在实际应用中,该技术仍存在许多挑战,例如噪声环境、口音差异和语音韵律等。

在未来的研究中,需要进一步探索和优化该技术,以实现更加准确、快速和稳定的语音识别系统。

总之,基于ELM神经网络的语音识别技术是目前主流的研究方向之一。

该技术具有许多优势,如较快的学习速度、高效的分类和较强的鲁棒性,已在实验中表现优异。

基于深度学习的语音识别技术研究

基于深度学习的语音识别技术研究

基于深度学习的语音识别技术研究随着科技的不断发展,人机交互方式从最初的键盘鼠标逐渐向语音识别转变。

语音识别技术也获得了巨大的发展。

尤其是近年来,基于深度学习的语音识别技术逐渐成为研究的热点。

本文将对基于深度学习的语音识别技术进行研究探讨。

一、深度学习简介深度学习(Deep Learning)是机器学习的一种,是通过构建人工神经网络,利用多层级的结构对原始输入数据进行学习和抽象,从而实现各类智能任务的一种方法。

常见的深度学习模型包括深度神经网络,卷积神经网络和循环神经网络等。

利用深度学习方法可以在复杂场景下对大量数据进行有效建模和处理,得到更为准确和精细的结果。

而语音识别便是其中一种,基于之前的语音识别方法,利用深度学习进行改进。

二、基于深度学习的语音识别技术基于深度学习的语音识别技术是指利用深度学习模型对语音数据进行建模和识别的一种技术。

相对于传统的模型,如高斯混合模型(GMM)和隐马尔可夫模型(HMM),深度学习模型在语音识别任务上表现优异,准确度明显提高。

基于深度学习的语音识别技术的核心步骤包括语音特征提取、深度神经网络的训练和最终的声学模型构建等。

语音特征提取:为了能够应用深度学习模型进行训练,需要将语音信号转换成合适的计算机输入。

传统上,研究者会利用频谱学的方法,把原始的语音信号转换为一组包含多维度信息的音频特征,如梅尔频率倒谱(MFCC)和感知线性预测(PLP)等。

深度神经网络的训练:深度学习的方法在许多情况下依赖于大量的数据训练,同样也需要大量的音频数据来训练深度神经网络。

深度学习网络的训练过程相对比较复杂,并需要大量的训练时间。

由于训练出来的模型需要对所有新的训练数据进行预测,因此它们往往需要使用并行计算技术减少训练时间。

声学模型构建:训练出来的模型需要转换成识别模型才能被应用到语音识别任务中。

声学模型的构建包括生成输出文件以及针对自己任务的一些调优,例如HMMLG等。

三、基于深度学习的语音识别技术的应用语音识别技术在现代生活中得到广泛的应用,从嵌入式硬件到智能手机,从语音助手到智能家居,都有着它的身影。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.2 特征参数提取
经过前而对语音信号的分析可以导出许多语音特 征参数,这些语音特征参数是分帧提取的,每帧 特征参数构成一个矢量,因此,语音特征是一个 矢量序列。语音信号中提取出来的特征参数经过 数据压缩后便可作为语音的模板。因此,特征参 数的选择对识别性能至关重要,选择的标准要尽 量满足:
模板之间的距离。
声学模型的设计和语言发音特点密切相 关。声学模型单元大小(字发音模型、半 音节模型或音素模型)对语音训练数据量 大小、系统识别率,以及灵活性有较大
影响。
(c)语义理解:计算机对识别结果进行语 法、语义分析。明白语言的意义以便做 出相应的反应,通常是通过语言模型来
实现。
1.1 语音识别面临的问题 。
高保真设备上录制语音,尤其要在无噪环境下录音。然而,当语音 处理由实验室走向实际应用时,环境噪声的存在所带来的问题就变 得越来越重要。特别是线性预测作为语音处理技术中最有效的手段, 恰恰是最容易受噪声影响的。 3.语音识别基元的选择问题。即如何根据存储空间和搜索速度的要 求,选择合适的识别单元,如词、音节、音素。一般来讲,识别的 词汇量越大,所选基元应越小。 4.端点检测。语音信号的端点检测是进行语音识别的第一步。研究 表明,即使在安静的环境下,语音识别系统一半以上的识别错误来 自端点检测器。提高端点检测技术的关键在于寻找稳定的语音参数。 5.还有大词汇连续语音识别的训练工作量和识别速度问题、局势问 题以及关键词检测技术,以及对用户的错误操作不正确响应问题等。 6.另外,对于人类由中枢神经控制的记忆机理、听觉理解机理、联 想判断机理等,人们目前仍知之甚少。
(a)能有效的表征语音特性;
(b)各阶参数间有很好的独立性;
(c)特征参数的计算方便简单,最有高效的算法, 以保证识别的实时性要求。
Mel频标倒谱系数MFCC
Mel频标倒谱系数 (MelFrequeneyCepstrumCoeffieientMFCC)不LPCC 等通过对人的发声机理的研究而得到的声学特征, MFCC是受人的听觉系统研究成果推动而导出的声 学特征。该特征是在Mel标度频率域中提取出来的 倒谱参数MFCC的提出基于下列两点研究成果:首 先,人类对单个音调的感知强度近似与该音调频 率的对数成正比。Mel频率表达了这种语音频率与 “感知频率”的对应关系。在Mel频率域内,人对 音调的感知度为线性关系,举例来说,如果两段 语音的Mel频率相差两倍,则人耳听起来两者的音 调也相差两倍。
(a)区分清音段和浊音段,语音为浊音时的短时能量值 比清音时大得多,根据语音信号短时能量值的变化,可 大致判定浊音变为清音和清音变为浊音的时刻。
(b)在高信噪比的语音信号中,可以用来区分有无 语音,此时,无语音信号的噪声能量很小,而有 语音信号时短时能量值显著地增大到某一数值, 由此可以区分语音信号的开始点和终止点。但是, 瓦值对于高电平信号非常敏感(因为计算时用的是 信号的平方),因此在实际使用时需加以处理,例 如取对数等,以便将数值限制在一定的范围内。
在开始进行端点检测之前,首先为短时能量和过 零率分别确定两个门限。一个是比较低的门限, 其数值比较小,对信号的变化比较敏感,很容易 就会被超过。另一个是比较高的门限,数值比较 大,信号必须达到一定的强度,该门限才可能被 超过。低门限被超过未必就是语音的开始,有可 能是时间很短的噪声引起的,高门限被超过则可 以基本确信是由于语音信号引起的。整个语音信 号的端点检测可以分为四段:静音、过渡音、语音 段、结束。在静音段,如果能量或过零率超越了 低门限,就应该开始标记起点,进入过渡段。在 过渡段中,由于参数的数值比较小,不能确信是 否处于真正的语音段,因此只要两个参数的数值 都回落到低门限以下,就将当前状态恢复到静音 状态。
式中窗函数w(n)为上面讨论的任意一种,这里窗长N的 选择对于反映语音信号的幅度变化起着决定的作用。如 果N很大,它等效于很窄的低通滤波器,此时瓦随时间 的变化很小,不能反映语音信号的幅度变化,信号的变 化细节就看不出来;反之,N太小时,滤波器的通带变宽, En随时间有急剧的变化,不能得到平滑的能量函数。因 此,窗口长度的选择应合适。短时平均能量的主要用途 有:
H(z)=1- @ z1
(2-1)
0.9<<1.0式中@为预加重系数,群值接近于1, 典型值为0.94。
这样,预加 重网络的输出和输入的z1 语音信号 s(n)的关系可用一差分方程表示:
s(n)=s(n)-s(n-1)

(3)加窗
语音信号是一种典型的非平稳信号,其特性是随时间变化 的,但是语音的形成过程是与发音器官的运动密切相关的, 这种物理运动比起声音振动速度来讲要缓慢得多,因此语 音信号常常可假定为短时平稳的,即在10-20ms的时间段 内,其频谱特性和物理特征参量可近似地看作是不变的。 这样,就可以采用平稳过程的分析处理方法来处理了。由 这个假定导出了各种“短时”处理方法,以后讨论的各种 语音信号都是分隔为许多短段(帧)语音再加以处理。这些 短段语音就好像是来自一个具有固定特性的持续语音片断 一样。对每一短段语音进行处理就等效于对固定特性的持 续语音进行处理。短段语音之间彼此经常有一些重叠,对 每一帧的处理结果可用一个数或是一个组数来表示。因此 语音信号经过处理后将产生一个新的依赖于时间的数据系 列,这些数据用于描述语音信号
基于神经网络的语音识别技术研究 郑林 制作
1 语音识别基础
目前主流的语音识别技术是基于统计模式识别的基 本理论。一个完整的语音识别系统可大致分为三部
分: (a)语音特征提取:目的是从语音波形中提取随时
间 变化的语音特征序列。 (b)声学模型与模式匹配(识别算法):声学模型是 识别系统的底层模型,并且是语音识别系统中最关 键的一部分。声学模型通常由获取的语音特征通过 训练产生,目的是为每个发音建立发音模板。在识 别时将未知的语音特征同声学模型(模式)进行匹配 与比较,计算未知语音的特征矢量序列和每个发音
(5)短时平均过零率 过零就是信号通过零值。对于连续语音信号,可以 考察其时域波形通过时间轴的情况。而对于离散时 间信号,如果相邻的取样值改变符号则称为过零。 由此可以计算过零数,过零数就是样本改变符号的 次数。单位时间内的过零数称为平均过零数。语音 信号S(n)的短时平均过零率定义为:
的特征。设原始语音信号采样系列为S(n),将其 分成一些短段,等效于乘以幅度为1的窗函数。当 窗函数幅度不是1而是按一定函数取值时,所分成 的短段语音的各个取样值将受到一定程度的加权。 对语音信号的各个短段进行处理,实际上就是对 各个短段进行某种变换或施以某种运算,其一般 式为:
n
Qn T [S (m)]w(nm) n
Mel频率与线性频率的转换公式为:
fmel 2595log10 (1 f / 700)
其次,当同时发出两个频率相近的音调时,人只能 听到一个音调。只有当两个频率分量相差一定带宽 时,人类才能将其区分。这个带宽被称为临界带宽 (CritiealBandwidth),其计算公式如下.
BWc 25 75[11.4( fc /100)2 ]0.69
而如果在过渡段中两个参数中的任一个超 过了高门限,就可以确信进入语音段了, 并标记起始点。如果当前状态之前处于语 音段,而此时两个参数的数值降低到底门 限以下,并且持续时间大于设定的最长时 间门限,那么就认为语音结束了,返回到 参数数值降低到底门限以下的时刻,标记 结束点。一些突发性的噪声也可以引起短 时能量或过零率的数值很高,但是往往不 能维持足够长的时间,如门窗的开关,物 体的碰撞等引起的噪声,这些都可以通过 设定最短时间门限来判别。
(4)短时能量 短时能量序列反映了语音振幅或能量随着时间缓慢变
化的规律。从原始语音信号图中可以看到语音信号幅 度随时间有相当的变化,特别是清音段的幅度一般比 浊音段的幅度小很多,语音信号的短时能量给出了反 映这些幅度变化的一个合适的描述方法。 语音信号s(n)的短时能量的定义为:

En [s(m)w(n m)]2
的频率范围可达10kHz以上,那么根据取样 定理则其采样频率至少为20kHZ,但是对语 音清晰度可懂度有明显影响的成分最高频率约 为5.7kHZ,CCTT(国际电报电话咨询委员会) 推出的数字电话G.7建议采样率为skHZ,只 利用了3.4kHZ以内的信号分量,虽然这样的 采样频率对语音清晰度是有损害的,但受损害 的只有少数辅音,而语音信号本身冗余度是比 较大的,少数辅音清晰度下降并不明显影响语 句的可懂度。
m
n [sgn(s(m))-sgn(s(m-1))]w(n m m
(6)语音信号的端点检测
端点检测是指从背景噪声中找出语音的开始和终止点, 是语音处理领域的基本问题,特别是在孤立词语音识别 中,找出每个单字的语音信号范围是很重要的,确定语 音信号的开始和终止可以减少系统的大量计算,使系统 运行效率得到很大的提高。在比较安静的环境下,仅依 靠短时能量与平均过零率这两个特征参数就可以较好地 完成语音信号的起点判决。但需要指出的是,这两个特 征比较容易受外界噪声的干扰,鲁棒性(orbus)t较差, 当语音信号的信噪比较低时,信号的短时能量和平均过 零率将受到很大的影响。端点检测的两级判断方法:基 于能量的过零率的端点检测一般使用两级判决法,
(2)预加重
由于语音信号S(n)的平均功率谱受声门激励和 口鼻辐射的影响,高频端大约在800Hz以上按 6dB/倍频程跌落,所以求语音信号频谱时,频 率越高相应的成分越小,高频部分的频谱比低频 部分的难求,为此要在对语音信号S(n)进行分 析之前对其高频部分加以提升。使信号的频谱变 得平坦,保持在低频到高频的整个频带中,能用 同样的信噪求频谱,以便于频谱分析或声道参数 分析。通常的措施是用一阶数字滤波器实现预加 重,其公式表示为:
通过对人的听觉机理的研究发现,当两个频率相近的音调同时发 出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主 观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时, 人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这 一临界带宽的度量方法之一。Mel频率倒谱系数首先是将信号频谱 的频率轴变换为Mel刻度,再变换到倒谱域得到的倒谱系数。其计 算过程如下: (1)将信号进行短时傅里叶变换得到其频谱。 (2)求频谱幅度的平方,即能量谱,并用一组三角形滤波器在频域 对能量进行带通滤波。这组带通滤波器的中心频率是按Mel频率刻 度均匀排列的(间隔150Mel,带宽30OMel),每个三角形滤波器的 两个底点的频率分别等于相邻的两个滤波器的中心频率,即每两个 相邻的滤波器的过渡带互相搭接,且频率响应之和为l。滤波器的 个数通常与临界带数相近,设滤波器数为M,滤波后得到的输出 为:X(k),k=l,2,…,Mo
相关文档
最新文档