基于深度学习的语音增强简述
《2024年基于深度学习的多通道语音增强方法研究》范文

《基于深度学习的多通道语音增强方法研究》篇一一、引言随着人工智能技术的飞速发展,语音信号处理在众多领域中扮演着越来越重要的角色。
然而,由于环境噪声、信道失真、干扰声源等因素的影响,实际环境中获得的语音信号往往存在严重的质量问题。
为了改善这一情况,提高语音识别的准确性和可懂度,多通道语音增强技术应运而生。
本文将重点研究基于深度学习的多通道语音增强方法,旨在通过深度学习技术提高语音信号的信噪比和清晰度。
二、多通道语音增强技术概述多通道语音增强技术通过在空间域和时间域上利用多个传感器,以收集到来自不同方向的语音信号信息。
利用这一技术,可以有效地抑制噪声和干扰声源,从而提高语音信号的信噪比和清晰度。
传统的多通道语音增强方法主要依赖于信号处理技术,如滤波器、波束形成等。
然而,这些方法往往难以处理复杂的噪声环境和动态变化的声源。
三、深度学习在多通道语音增强中的应用深度学习技术为多通道语音增强提供了新的解决方案。
通过构建深度神经网络模型,可以自动学习和提取语音信号中的有效特征,从而实现对噪声和干扰声源的更有效抑制。
此外,深度学习还可以在多通道语音信号的融合和降噪过程中,对时间域和空间域的信息进行联合处理,进一步提高语音增强的效果。
四、基于深度学习的多通道语音增强方法研究本文提出了一种基于深度学习的多通道语音增强方法。
该方法首先通过多个传感器收集来自不同方向的语音信号信息,然后利用深度神经网络模型对收集到的信息进行特征提取和降噪处理。
具体而言,我们采用了卷积神经网络(CNN)和循环神经网络(RNN)的组合模型,以实现时间和空间域上的联合处理。
在训练过程中,我们使用了大量的实际录音数据和模拟噪声数据,以使模型能够更好地适应各种噪声环境和动态变化的声源。
五、实验与结果分析为了验证本文提出的多通道语音增强方法的性能,我们进行了大量的实验。
实验结果表明,该方法在各种噪声环境下均能显著提高语音信号的信噪比和清晰度。
与传统的多通道语音增强方法相比,基于深度学习的多通道语音增强方法具有更高的准确性和鲁棒性。
基于深度学习的语音增强算法研究

基于深度学习的语音增强算法研究深度学习技术的不断发展为语音增强算法的研究提供了新的机遇和挑战。
语音增强算法是一种通过对原始语音信号进行处理,提高语音信号质量和可理解性的技术。
在实际应用中,由于环境噪声、麦克风质量等因素的影响,语音信号常常存在着噪声、回声等问题,这对于人们的正常交流和机器识别造成了困扰。
因此,研究和开发高效可靠的语音增强算法对于提升人机交互体验、改善通讯质量具有重要意义。
在过去几十年中,研究者们提出了许多不同类型的语音增强算法。
传统基于信号处理方法主要包括降噪滤波器、频谱估计等技术。
这些方法通常基于统计学原理或者模型假设,并通过滤波或者频谱变换等方式对原始信号进行处理。
然而,在复杂环境下这些方法往往效果有限,并且很难适应不同类型噪声。
近年来,深度学习技术在图像识别、语音识别等领域取得了巨大成功,也为语音增强算法的研究带来了新的思路和方法。
深度学习算法能够自动学习和提取输入数据的高层次特征,并且能够处理非线性问题。
这些特点使得深度学习在语音增强领域具有巨大潜力。
基于深度学习的语音增强算法主要包括自编码器、卷积神经网络(CNN)、循环神经网络(RNN)、生成对抗网络(GAN)等。
这些算法通过对大量带有噪声的语音数据进行训练,能够学习到噪声和干净语音之间的映射关系,并且生成高质量、清晰可辨的增强语音信号。
自编码器是一种常用于无监督学习任务中的神经网络模型,其主要目标是将输入信号通过编码器映射到一个低维潜在空间中,并通过解码器将其重构回原始空间。
在语音增强任务中,自编码器可以用于提取输入信号中与噪声无关的特征,并且通过解码器重构出清晰可辨的干净信号。
卷积神经网络是一种能够有效处理空间相关性的神经网络模型。
在语音增强任务中,卷积神经网络可以通过卷积层和池化层等操作,对输入语音信号进行特征提取和降维,从而提高增强效果。
此外,卷积神经网络还可以通过堆叠多个卷积层和全连接层等结构,构建深层网络模型,进一步提高语音增强的性能。
基于深度学习模型的语音增强技术研究

基于深度学习模型的语音增强技术研究随着人们生活水平的不断提高,语音技术的应用范围也在不断扩展,例如语音识别、语音合成、语音增强等,其中语音增强技术是目前研究的热点之一。
语音增强技术能够对语音信号的质量进行提升,减少噪声干扰,使得对语音信号进行下一步处理的基础环节更好,以提高语音识别、语音合成等技术的准确率和性能。
深度学习作为当今人工智能的重要分支之一,逐渐在语音处理领域占据着统治地位。
在语音增强领域,深度学习技术也被广泛应用。
本文就基于深度学习模型的语音增强技术进行研究。
一、传统的语音增强技术的不足之处在介绍基于深度学习模型的语音增强技术之前,我们先来了解一下传统的语音增强技术的不足之处。
传统的语音增强技术主要应用于降噪和声源分离,目前主要分为基于频域和时域的方法。
基于频域的方法主要通过对频域的噪声进行处理来达到降噪的目的,但是这种方法对于非平稳的噪声效果并不理想。
基于时域的方法则是基于短时谱和窗函数的分析和合成过程,但是这种方法对于非线性噪声和小信噪比的情况也不能很好的处理。
此外,传统的语音增强技术也存在着众所周知的“噪声爆炸”问题。
这种现象是由于噪声和语音信号在相加时会相互放大,最终导致失真或裂音等不良效果。
传统的语音增强技术很难处理这种噪声脏数据和复杂语音环境。
二、基于深度学习的语音增强技术的优势相对于传统的语音增强技术,基于深度学习的语音增强技术通过学习大量的语音数据和噪声数据,可以构建一个精准的模型,将语音信号和噪声信号有效分离,从而提高降噪和声源分离的效果。
此外,基于深度学习的语音增强技术具有以下几个优势:1. 能够处理不规则的噪声基于深度学习的语音增强技术具有强大的非线性处理能力,可以处理不规则的噪声和复杂语音环境。
深度学习模型能够对自适应滤波器进行训练,从而得到针对不同噪声的实时处理能力。
2. 能够分离复杂的混合声音在实际使用中,很多语音信号和噪声信号会相互混合,导致语音信号无法准确识别。
基于深度学习的语音增强技术研究

基于深度学习的语音增强技术研究一、前言语音增强技术指对语音信号进行预处理以提高语音的质量和可识别性的过程。
在实际应用中,语音信号经常受到外界环境噪音,话筒质量等干扰,使得语音信号质量降低,影响语音识别的准确性和稳定性。
因此,语音增强技术是自然语音处理领域的重要技术之一。
目前,深度学习模型在语音增强中发挥了重要作用,本文将综述基于深度学习的语音增强技术。
二、基本概念语音增强是指通过处理技术,提高语音信号的质量和可识别性的过程。
最初的语音增强技术是基于数字信号处理的方法,如滤波器、主成分分析等。
然而,现在深度学习技术的发展,尤其是深度神经网络的应用,已经成为语音增强技术中的重要手段。
在深度学习的语音增强技术中,通过建立一个用于训练的神经网络模型,实现对输入噪声语音信号的去噪和重构。
三、基于深度学习的语音增强技术的框架基于深度学习的语音增强技术的一般框架可以用图1所示的神经网络结构来表示。
模型的输入为加噪的语音信号,模型的输出则是去噪后的语音信号,其中网络包括以下几个层:1.输入层:输入层接收加噪的语音信号,在语音增强的任务中可以使用傅里叶变换或小波变换将语音信号转换为时频域信号输入给神经网络模型。
2.隐藏层:隐层是神经网络的核心部分,主要是通过激励函数将输入的语音信号转换为一组中间层特征,然后通过这些特征学习到噪声信号的统计特性,从而去除噪声的影响。
3.输出层:输出层接收从隐藏层传递过来的信息并输出去噪后的语音信号。
4.损失函数层:目标函数层或损失函数层计算输出信号与目标信号之间的差异,并将误差反向传递到神经网络中进行误差修正。
以上是深度学习语音增强技术的基本框架。
下面我们将重点介绍一些主要的深度学习语音增强技术。
四、主要技术介绍在应用深度学习的语音增强中,主要涉及的技术包括自编码器、卷积神经网络(CNN)、迁移学习等。
1.自编码器自编码器是一类用于学习无监督特征的深度神经网络模型。
它由一个编码器和一个解码器组成,其中编码器的任务是将输入的信号压缩为一个中间层特征向量,解码器则用以重建目标信号。
基于深度学习的语音识别技术综述

基于深度学习的语音识别技术综述第一章引言语音识别技术是指通过计算机对人类语音进行自动识别和转化的技术。
它在智能语音助手、语音翻译、自动语音识别等领域发挥着重要作用。
基于深度学习的语音识别技术由于其出色的性能表现和灵活性,近年来得到了广泛的研究和应用。
本文将对基于深度学习的语音识别技术进行综述,分析其原理、方法和应用现状。
第二章传统语音识别技术传统的语音识别技术主要基于统计建模,如隐马尔可夫模型(HMM)和高斯混合模型(GMM)。
这些方法在一定程度上能够实现语音识别的功能,但由于其复杂度和限制性,仍存在一些问题,如模型复杂度高、优化难度大等。
第三章深度学习基础深度学习是机器学习的一个分支,通过模拟神经网络的结构和功能来实现学习和决策。
其中,深度神经网络(DNN)是深度学习的核心模型之一,其通过多层网络结构进行特征学习和模式识别。
此外,还有循环神经网络(RNN)和卷积神经网络(CNN)等深度学习模型。
第四章基于深度学习的语音识别技术4.1 声学建模声学建模是语音识别的关键环节之一,它是通过深度神经网络对声音信号进行特征提取和模式建模。
通过训练深度神经网络模型,可以获取声学特征,并用于识别和分类任务中。
4.2 语言模型语言模型是对语言规则和语义信息的建模,用于增强语音识别的效果。
深度学习在语言模型中的应用主要包括RNN和长短时记忆网络(LSTM),通过对语言序列进行建模和预测,提高了语音识别的准确性和鲁棒性。
4.3 优化算法深度学习模型的训练依赖于优化算法,常用的包括梯度下降、自适应学习率和正则化等。
这些算法能够加速模型的收敛,提高模型的泛化能力。
第五章应用与挑战5.1 语音助手基于深度学习的语音识别技术为语音助手的开发提供了重要支持。
语音助手能够实现语音搜索、语音控制等功能,为用户提供便利的智能化服务。
5.2 语音翻译深度学习在语音翻译中的应用也取得了一定的进展,通过对不同语言之间的语音进行识别和翻译,能够实现实时的语音翻译功能。
语音增强综述

语音增强综述语音增强是指通过各种技术手段,对语音信号进行处理和优化,以提高语音的质量和可听性。
随着科技的发展和人们对音频品质的要求不断提高,语音增强技术逐渐成为研究和应用的热点领域。
一、语音增强的意义和应用领域语音增强技术可以帮助人们更清晰地听到和理解语音信号,提高语音的可懂度和舒适度。
在实际应用中,语音增强技术被广泛应用于以下领域:1. 通信领域:语音增强技术可以提高通话质量,减少噪音和回声对通话的干扰,使通话更清晰、更稳定。
2. 录音和播放领域:在录音和音频播放过程中,语音增强技术可以去除背景噪音,提高音频的清晰度和音质。
3. 语音识别和语音合成领域:语音增强技术可以减少环境噪音对语音信号的影响,提高语音识别和语音合成的准确性和可靠性。
4. 语音指令和语音交互领域:语音增强技术可以提高语音指令和语音交互系统的性能,使系统更易于理解和响应用户的指令。
二、语音增强的基本原理和方法语音增强技术主要包括去噪、回声消除和声音增强等方法。
1. 去噪:去噪是语音增强技术中的基本环节,通过分析语音信号中的噪音特征,并根据噪音的统计特性和语音信号的相关性进行滤波处理,去除噪音成分。
2. 回声消除:回声是语音通信中常见的问题,会影响语音的清晰度和可懂度。
回声消除技术通过分析语音信号中的回声成分,并根据回声和原始语音信号的相关性进行滤波处理,减少回声对语音的干扰。
3. 声音增强:声音增强技术可以增加语音信号的音量和能量,提高语音的可听性和辨识度。
声音增强方法包括增益控制、频率增强和谱减法等。
三、语音增强技术的挑战和发展方向虽然语音增强技术在很多领域都有广泛应用,但仍然存在一些挑战和问题需要解决。
1. 多噪声环境下的语音增强:在复杂的多噪声环境中,如会议室、交通场所等,语音增强技术需要能够有效去除各种类型和强度的噪声,提高语音的清晰度和可懂度。
2. 回声消除的效果和稳定性:回声消除技术在实际应用中仍然存在一些问题,如回声抑制效果不理想、算法稳定性差等,需要进一步研究和改进。
基于深度学习的语音增强算法研究

基于深度学习的语音增强算法研究摘要:语音增强是一项重要的研究领域,旨在提高语音信号的质量和清晰度。
深度学习技术在语音增强领域中取得了显著的进展。
本文基于深度学习算法,对语音增强技术进行了研究和分析。
首先,介绍了语音增强的背景和意义;然后,详细介绍了深度学习算法在语音增强中的应用;最后,对目前存在的问题进行了总结,并提出了未来进一步研究的方向。
1. 引言随着通信技术和人工智能领域的快速发展,人们对于高质量、清晰度高、抗干扰能力强的语音信号需求日益增长。
然而,在实际应用中,由于各种环境因素(如噪声、回声等)以及设备本身限制等原因导致录制或传输得到的语音信号质量较差。
因此,如何提高语音信号质量成为一个重要而具有挑战性问题。
2. 传统方法回顾在过去的几十年里,许多传统的语音增强方法被提出和研究,如频域滤波、时域滤波、谱减法等。
这些方法在一定程度上提高了语音信号的质量,但仍然存在一些问题,如增强效果不理想、抑制语音信号等。
因此,研究人员开始探索新的方法来解决这些问题。
3. 深度学习在语音增强中的应用深度学习技术由于其出色的特征提取和模式识别能力,在语音增强中得到了广泛应用。
深度学习模型通常包括自编码器、卷积神经网络(CNN)、循环神经网络(RNN)等。
3.1 自编码器自编码器是一种无监督学习模型,在语音增强中被广泛应用。
通过训练自编码器网络来提取输入特征,并通过解码器重构输入信号。
自编码器能够学习到信号中的高级特征,并生成高质量的输出。
3.2 卷积神经网络(CNN)卷积神经网络是一种用于图像处理和模式识别任务的深度学习模型,在语音增强中也得到了应用。
通过卷积层和池化层的组合,CNN能够有效地提取语音信号中的特征,从而实现语音增强。
3.3 循环神经网络(RNN)循环神经网络是一种能够处理序列数据的深度学习模型,被广泛应用于语音增强。
RNN通过将前一时刻的输出作为当前时刻的输入,能够捕捉到序列数据中的时序特征,并对输入信号进行增强。
基于深度学习的语音信号增强技术研究

基于深度学习的语音信号增强技术研究随着人工智能技术的发展,深度学习已成为热门的研究领域之一。
在语音信号处理领域中,深度学习技术也得到了广泛应用。
本文将重点介绍基于深度学习的语音信号增强技术,并探讨其研究进展及应用前景。
一、基于深度学习的语音信号增强技术原理语音信号增强旨在减少环境噪声和回声对原始语音信号的影响,改善语音信号的质量和清晰度,提高语音识别的准确率。
传统的语音信号增强方法通常采用数字滤波、时域和频域分析、谱减法等技术,但由于环境噪声和语音信号的不确定性,传统方法的效果受限。
基于深度学习的语音信号增强技术通过学习具有表征能力的特征表示,在减少环境噪声和回声的同时,更精确地重建语音信号。
其主要原理是使用深度神经网络对输入的语音信号进行非线性变换和抽象特征提取,使得模型能够学习到语音信号和噪声之间的关系,进而通过消除噪声和回声,输出更清晰的语音信号。
二、基于深度学习的语音信号增强技术研究进展随着深度学习技术的不断发展,基于深度学习的语音信号增强技术也在不断创新和提高。
下面将介绍几种近年来研究比较成熟的语音信号增强方法。
1. 基于循环神经网络的语音信号增强方法循环神经网络(RNN)是一种经典的深度学习模型,它特别适用于处理序列数据,如语音信号等。
基于RNN的语音信号增强方法通常采用长短时记忆网络(LSTM)或门控循环单元(GRU)等结构,通过对原始语音信号进行序列建模来实现语音信号增强。
该方法在语音降噪和语音增强领域均取得了令人满意的结果。
2. 基于卷积神经网络的语音信号增强方法卷积神经网络(CNN)是一种主要用于图像处理的深度学习模型,但也可以应用于语音信号增强领域。
基于CNN的语音信号增强方法主要是通过卷积层和池化层对输入语音信号进行特征提取和降维,进而使用全连接层对特征进行分类和重构。
该方法在处理超强噪声环境下的语音信号增强效果明显。
3. 基于生成对抗网络的语音信号增强方法生成对抗网络(GAN)是一种新兴的深度学习模型,其主要思想是通过两个神经网络之间的对抗学习来实现数据的生成和转换。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第8卷第2期Vol.8No.2 2019年3月网络新媒体技术Mar.2019•前沿与综述•基于深度学习的语音增强简述**本文于2018-12-30收到。
*国家自然科学基金(编号:61671381)0张晓雷(西北工业大学智能声学与临境通信研究中心西安710072西北工业大学航海学院西安710072)摘要:语音增强是一种将语音从干扰声中增强出来的技术。
它是语音信号处理的核心研究内容之一。
近年来,深度学习在语音增强中的成功应用推动了该技术的快速发展。
本文将简要回顾基于深度学习的语音增强技术。
首先回顾语音增强中所采用的深度学习算法和优化目标,在此基础上,将进一步回顾具有代表性的单声道深度语音增强技术、基于固定麦克风阵列的多声道深度语音增强技术、以及基于自组织阵列的多声道深度语音增强技术。
关键词:深度学习,深度神经网络,语音增强,麦克风阵列A Brief Review to Deep Learning Based Speech EnhancementZHANG Xiaolei(Center for Intelligent Acoustics and Immersive Communication,Northwestern Polytechnical University,Xi'an,710072,China, School of Marine Science and Technology,Northwestern Polytechnical University,Xi'an,710072,China)Abstract:Speech enhancement aims to separate target speech from its noise components.It is one of the core problems of speech signal processing.Recently,deep learning has been applied successfully to speech enhancement,which significantly promoted the development of speech enhancement techniques.This paper will review the deep-learning-based speech enhancement techniques,including machine learning algorithms,optimization targets.Then,this paper will review single channel speech enhancement techniques, multichannel speech enhancement techniques based on conventional microphone arrays,as well as multichannel speech enhancement techniques based on ad-hoc microphone arrays.Keywords:Deep learning,Deep neural networks,Speech enhancement,Microphone arrayso引言语音增强旨在将目标语音从背景干扰中分离出来。
它是信号处理中的核心任务之一,具有广泛的应用,例如助听、通信、鲁棒语音识别和说话人识别。
人类听觉系统具有将一种声源从多种声源的混合中提取出来的卓越能力。
在类似于鸡尾酒会的声学环境中,尽管现场有其他说话人和背景噪声,我们也能够关注于其中某一位说话人的声音。
所以,语音增强也被称为“鸡尾酒会问题”。
语音增强已经在信号处理领域中得到了广泛的研究。
根据麦克风的数量,语音增强方法可以分为单声道增强和基于麦克风阵列的多声道增强。
单声道增强的传统方法是噪声估计丄和计算听觉场景分析(computational auditory scene analysis,CASA)[2]。
噪声估计技术分析语音和噪声的整体数据,随后将纯净语音从含噪语音中估计出来"3;为了估计背景噪声,通常假设背景噪声是平稳的。
CASA基于听觉场景分析的感知原理,通过交替进行基音估计和2网络新媒体技术2019年基于基音的分组实现语音增强⑸。
具有两个及以上麦克风的阵列实现语音增强的原理与单声道语音增强不同。
例如,波束形成或空间滤波通过适当的阵列配置来增强从特定方向到达的信号、衰减来自其他方向的干扰'6'9)o最简单的波束形成方法是延迟-相加方法,它将来自目标方向的多个麦克风信号在相位上相加,使用相位差来减弱其他方向的信号。
噪声衰减量取决于阵列的间隔、大小和配置——通常麦克风数量越多、阵列尺寸越大,则噪声衰减的量越大。
当目标和干扰源位于同一位置或彼此接近时,则不能应用空间滤波。
此外,因为混响会破坏声源方位信息,所以在混响条件下波束成形的效用大大降低。
近几年来,语音增强被构造为一种有监督机器学习问题,其中CASA中的时间-频率(time frequency, T-F)掩模概念启发了有监督语音增强的学习目标的提出。
该增强方法将T-F掩模应用到混合声源的时频表示上以增强目标声源"一⑷。
T-F掩模的一个主要目标是理想二值掩模(ideal binary mask,IBM)问。
IBM的任意T-F掩模单元是一个二值信号,它表示在含噪语音的时频谱中,目标声源在该T-F掩模单元是否占据主导。
测听研究表明,IBM能同时大大提升听力正常的听者和听力受损的听者在含噪环境下的语音可懂度"-仍。
如果将IBM作为计算目标,语音增强就构造成了有监督学习的基本形式——二值分类。
在这种情况下,IBM在训练阶段被用作期望信号或目标函数。
在测试阶段,学习机器的目标是估计IBM。
自IBM首次被提出作为训练目标以来,多个更加有效的训练目标相继被提出,详见第1.2节。
自从语音增强被当作有监督分类问题以来,数据驱动的方法在语音处理领域得到了广泛的研究。
在过去十年中,有监督语音增强通过使用大量的训练数据和充足的计算资源显著地改善了增强性能[,8J9]O近几年来,基于深度学习的有监督语音增强促进了语音增强的快速发展。
本文将首先在第1节回顾基于深度学习的单声道语音增强算法;然后,在第2节回顾基于深度学习的固定阵列多声道语音增强算法;最后,在第3节介绍基于深度学习的自组织阵列多声道语音增强算法;第4节总结全文。
1基于深度学习的单声道语音增强—深度神经网络和训练目标,然后回顾本节首先介绍基于深度学习的语音增强模型的两个重要方面—基于深度学习的单声道语音增强的代表性算法。
1.1深度神经网络深度神经网络(deep neural network,DNN)中最流行的模型是包含有输入层、隐藏层、输出层,且相邻层之间是全连接的前馈多层感知机(feedforward multilayer perceptron,MLP)O MLP使用经典的反向传播算法进行训练如。
该算法通过梯度下降法优化网络权重,以最小化预测误差。
预测误差是预测输岀与期望输出在某个损失函数度量下的偏差,其中预测输出是MLP网络的输出,期望输出是有监督学习的数据标注。
当MLP用于分类问题时,常用的损失函数是交叉爛:厶」og(p,*)八i=I c=1其中,i表示输出层的第i个神经元,表示输出层的第i个神经元属于第C类的预测概率,/V和C分别表示输出层的神经元的数量和类的数量,厶”是一个二值表示式,当神经元i的期望类是c时,取l,c=1,否则取,=0o当MLP用于回归问题时,常用的损失函数是均方误差(mean square error,MSE):其中元和y,分别表示第i个神经元的预测输出和期望输出。
MI.P的表示能力随着层数的增加而增加叭,尽管在理论上,具有两个隐藏层的MLP可以逼近任何函数221o但是反向传播算法存在梯度消失问题,即由输出层向输入层反向传播的误差信号计算得到的梯度将随着层数的降低而逐渐变小或消失,导致较低层的连接权重没有得到充分训练。
近年来,研究人员针对该问题做了大量的改进工作,包括分层预训练、修正线性单元、残差网络等。
2期张晓雷:基于深度学习的语音增强简述3除了 标准的 MLP ,卷积神经网络(convolutional neural networks , CNN ) 23,24 循环神经网络(recurrent neural networks , RNN)、以及生成对抗网络(generative adversarial networks , GAN )也都在语音增强领域得到 广泛应用。
CNN 通过权值共享、下采样(subsampling)、池化等新颖的设计有效降低模型参数数量和利用了 数据的结构信息。
RNN 的独有结构是将当前时刻的隐藏单元输出作为下个时刻的隐藏单元的输入,非常适 合处理语音这一类具有时间序列特征的信号。
一种流形的RNN 是长短期记忆(long short - term memory, LSTM)模型:”,它引入了具有门的记忆单元有效避免了梯度消失或梯度爆炸问题。
GAN 包括一个生成模 型和一个鉴别模型e ,其中生成模型对有标记的真实数据建模.用于产生与有标记数据相似的“假数据”, 而鉴别模型用于区分真实数据和假数据;当真实数据与假数据无法区分时,网络训练完成。
GAN 用于语音 增强的核心思路是用鉴别模型替代生成模型的损失函数。
1.2训练目标定义一个合适的训练目标对基于深度学习的语音增强至关重要。
训练目标主要有两种:掩模和频谱映 射。
掩模将纯净语音和背景噪声的相对时频关系作为训练目标;频谱映射使用纯净语音的频域表示作为训 练目标。
基于深度学习的语音增强中第一个训练目标是理想二进制掩模(IBM):”"°:,定义如式(1)所示。
的=[1,HSNRg >LC(1)10, otherwise 其中t 和/分别指时间和频率。
如果T-F 掩模单元中的信噪比超过局部标准(local criterion , LC),则令这 个T-F 掩模单元的值为1,否则为0。
理想比例掩模(ideal ratio mask. IRM )可以看作IBM 向连续空间的扩展[31_341,定义如式(2)所示。
IRM =(--------単“-f (2)其中,S(S 和N(t,/y 分别指T-F 掩模单元中语音的能量和噪声的能量,0是可调参数.通常设为0.5。