基于深度置信网络的语音增强算法
《2024年基于深度学习的多通道语音增强方法研究》范文

《基于深度学习的多通道语音增强方法研究》篇一一、引言随着人工智能技术的飞速发展,语音信号处理在众多领域中扮演着越来越重要的角色。
然而,由于环境噪声、信道失真、干扰声源等因素的影响,实际环境中获得的语音信号往往存在严重的质量问题。
为了改善这一情况,提高语音识别的准确性和可懂度,多通道语音增强技术应运而生。
本文将重点研究基于深度学习的多通道语音增强方法,旨在通过深度学习技术提高语音信号的信噪比和清晰度。
二、多通道语音增强技术概述多通道语音增强技术通过在空间域和时间域上利用多个传感器,以收集到来自不同方向的语音信号信息。
利用这一技术,可以有效地抑制噪声和干扰声源,从而提高语音信号的信噪比和清晰度。
传统的多通道语音增强方法主要依赖于信号处理技术,如滤波器、波束形成等。
然而,这些方法往往难以处理复杂的噪声环境和动态变化的声源。
三、深度学习在多通道语音增强中的应用深度学习技术为多通道语音增强提供了新的解决方案。
通过构建深度神经网络模型,可以自动学习和提取语音信号中的有效特征,从而实现对噪声和干扰声源的更有效抑制。
此外,深度学习还可以在多通道语音信号的融合和降噪过程中,对时间域和空间域的信息进行联合处理,进一步提高语音增强的效果。
四、基于深度学习的多通道语音增强方法研究本文提出了一种基于深度学习的多通道语音增强方法。
该方法首先通过多个传感器收集来自不同方向的语音信号信息,然后利用深度神经网络模型对收集到的信息进行特征提取和降噪处理。
具体而言,我们采用了卷积神经网络(CNN)和循环神经网络(RNN)的组合模型,以实现时间和空间域上的联合处理。
在训练过程中,我们使用了大量的实际录音数据和模拟噪声数据,以使模型能够更好地适应各种噪声环境和动态变化的声源。
五、实验与结果分析为了验证本文提出的多通道语音增强方法的性能,我们进行了大量的实验。
实验结果表明,该方法在各种噪声环境下均能显著提高语音信号的信噪比和清晰度。
与传统的多通道语音增强方法相比,基于深度学习的多通道语音增强方法具有更高的准确性和鲁棒性。
基于深度学习的语音信号增强算法研究

基于深度学习的语音信号增强算法研究随着科技的不断发展,语音信号增强技术也在不断改进。
语音信号增强是指通过某些算法使受到噪声干扰的语音信号更加清晰,方便听者理解。
而基于深度学习的语音信号增强算法是目前比较流行的技术。
一、语音信号增强的意义在日常生活中,人们常常会受到来自各种噪声的干扰,例如车辆喧闹、人声嘈杂等等。
这些噪声会对人们的正常交流产生困扰,尤其是在一些需要精准听取和理解的场合。
比如,在商务谈判、学术报告和医学诊断等很多场合都需要清晰的语音信号。
语音信号增强技术的出现,在一定程度上解决了这个问题,为人们提供了更加清晰的语音信息。
二、深度学习算法的优点语音信号增强技术可以通过多个算法实现,其中基于深度学习的算法因其出色的增强效果和普适性而备受关注。
深度学习算法是一种类似于人脑神经网络的算法,通过模拟神经网络来实现具有多层结构的计算模型。
由于深度学习算法非常灵活,可以根据需要自动地学习特征,可以适应于多种输入和输出,因而能够识别出复杂的语音信号,甚至还可以适应新的有噪声的语音信号。
三、主要实现方式所谓语音信号的增强,是指通过某些算法使受到干扰而变得不清晰的语音信号变得更加清晰,以便于更好的理解。
其中主要的实现方式有以下几种:1、噪声估计这是一个基本的步骤,它的主要作用是估计受到噪声干扰的语音信号,以便于后续的增强。
噪声估计一般采用图像处理的方法来处理语音信号,在测量到一定的噪声后,可以根据特征进行一定的估计。
2、信号重构信号重构是通过某些数学方法重构已经受到噪音干扰的信号,使其变得更加清晰。
这种方法的主要难点在于如何确定信号的特征,并且如何利用深度学习的算法对不同的信号进行重构。
3、语音增强语音增强技术是通过某些深度学习算法对受到噪音干扰的语音信号进行处理,使其更加清晰,并且能够抑制噪声。
语音增强技术发展迅速,目前已经出现了许多基于不同深度学习算法的方法。
四、应用前景基于深度学习的语音信号增强技术在音频处理中具有广泛的应用前景,在语音翻译、智能机器人、智能音响等方面都有重要应用价值,可以大大提高语音识别系统的准确性和可靠性。
基于深度神经网络的语音增强技术研究

基于深度神经网络的语音增强技术研究语音增强技术是一项重要的语音信号处理技术,其目的是通过降噪、去混响等手段,使语音信号更加清晰、稳定,从而提高语音信号的质量。
最近几年,深度学习技术的迅速发展为语音增强技术的发展带来了新的机遇。
本文将从深度学习的角度探讨语音增强技术的研究现状和发展方向。
一、语音增强技术的原理及应用场景语音增强技术是指对语音信号进行处理,去除其中的噪声和混响,提高语音信号的可听性和可懂性。
语音增强技术的应用场景十分广泛,其中包括:1.语音接听服务:通过对用户在通话过程中的语音信号进行增强,提高了语音信号的质量,从而提高了通话的清晰度和可懂性。
2.语音转换:对录音文件、视频文件等进行语音增强处理,从而改善语音信号的识别率。
3.语音复原:对因噪声和混响等因素导致的语音信号降噪、去混响处理,使得原有的语音信息得以恢复。
二、语音增强技术的研究现状深度学习技术的发展为语音增强技术的研究带来了新的思路和方法。
传统的语音增强方法多数是基于信号处理技术,主要使用滤波器、变换、谱减等手段来降噪和去混响。
这些方法在一定程度上取得了成功,但是由于语音信号中的噪声和混响过于复杂,导致传统方法的效果并不是很好。
在这种情况下,深度学习技术的出现为语音增强技术的发展带来了新的机遇。
深度学习技术具有自适应性和非线性特征提取能力,能够从大量的数据中自动学习到有效的特征,从而提高了降噪和去混响的效果。
目前,基于深度学习技术的语音增强方法逐渐成为了主流。
目前,基于深度学习技术的语音增强方法主要包括以下几类:1.基于卷积神经网络(CNN)的方法。
这种方法使用卷积神经网络来学习声学特征,并将其映射到噪声信号的频谱图上,使得噪声信号的频谱图更加接近于干净信号的频谱图,从而实现噪声和混响的消除。
2.基于递归神经网络(RNN)的方法。
这种方法利用递归神经网络学习时域的特征,从而更好地理解暂态信号,实现对噪声和混响的去除。
3.基于深度神经网络(DNN)的方法。
《基于深度学习的多通道语音增强方法研究》范文

《基于深度学习的多通道语音增强方法研究》篇一一、引言随着人工智能技术的飞速发展,语音信号处理在许多领域得到了广泛的应用。
然而,由于环境噪声、回声和多种其他干扰因素的影响,语音信号的质量往往受到严重影响。
因此,语音增强的研究成为了当前的一个重要方向。
传统的语音增强方法主要依赖于信号处理技术,如谱减法、维纳滤波器等。
然而,这些方法往往难以处理复杂的噪声环境。
近年来,基于深度学习的多通道语音增强方法受到了广泛关注,本文将对其进行深入研究。
二、深度学习与语音增强深度学习是一种基于神经网络的机器学习方法,它可以通过学习大量数据中的模式和规律,实现对复杂任务的自动处理。
在语音增强领域,深度学习可以通过训练大量的语音数据,学习到噪声和语音之间的复杂关系,从而实现对噪声的有效抑制。
三、多通道语音增强方法多通道语音增强方法是一种利用多个麦克风接收的信号进行语音增强的方法。
通过多个麦克风的接收信号,可以实现对声音的空间定位和噪声的分离。
基于深度学习的多通道语音增强方法,可以利用深度神经网络对多个麦克风的接收信号进行特征提取和分类,从而实现更准确的噪声抑制和语音增强。
四、研究方法本研究采用基于深度学习的多通道语音增强方法。
首先,我们使用多个麦克风同时接收语音信号和噪声信号,然后利用深度神经网络对接收到的信号进行特征提取和分类。
在特征提取阶段,我们采用卷积神经网络(CNN)对声音的频谱特征进行提取;在分类阶段,我们采用循环神经网络(RNN)对声音的空间位置和噪声类型进行判断。
通过这两个阶段的处理,我们可以实现对噪声的有效抑制和语音的增强。
五、实验与分析我们在多种噪声环境下进行了实验,包括室内噪声、室外交通噪声等。
实验结果表明,基于深度学习的多通道语音增强方法能够有效地抑制噪声并提高语音的清晰度。
与传统的语音增强方法相比,该方法在复杂的噪声环境下具有更好的性能和鲁棒性。
此外,我们还对不同参数配置下的性能进行了分析,为实际应用提供了指导。
《2024年基于深度学习的多通道语音增强方法研究》范文

《基于深度学习的多通道语音增强方法研究》篇一一、引言随着信息技术的迅猛发展,语音通信技术越来越成为我们日常生活中不可或缺的一部分。
然而,在实际的语音通信过程中,由于各种环境噪声的干扰,语音信号的质量常常受到影响。
因此,如何有效地进行语音增强,提高语音信号的信噪比(SNR),成为了语音处理领域的重要研究方向。
近年来,基于深度学习的多通道语音增强方法因其出色的性能和适应性,受到了广泛关注。
本文将对这一方法进行深入研究,以期为相关领域的研究提供有价值的参考。
二、深度学习与语音增强深度学习是一种基于神经网络的机器学习方法,其强大的特征提取和表示学习能力在语音增强领域得到了广泛应用。
通过深度学习模型,我们可以从含有噪声的语音信号中提取出有用的信息,从而达到增强语音信号的目的。
三、多通道语音增强方法多通道语音增强方法利用多个麦克风或多个信号通道收集信息,通过融合多个通道的信号来提高语音增强的效果。
这种方法可以有效地抑制环境噪声,提高语音信号的信噪比。
四、基于深度学习的多通道语音增强方法基于深度学习的多通道语音增强方法将深度学习与多通道技术相结合,利用深度学习模型进行多通道信号的融合和增强。
该方法通常包括以下步骤:1. 数据预处理:对多个通道的语音信号进行预处理,包括去噪、归一化等操作。
2. 特征提取:利用深度学习模型提取多通道语音信号中的有用特征。
3. 信号融合:将提取的特征进行融合,形成增强的语音信号。
4. 模型训练:通过大量的训练数据对模型进行训练,使模型能够更好地进行语音增强。
五、实验与分析本文通过实验验证了基于深度学习的多通道语音增强方法的有效性。
实验结果表明,该方法可以有效地抑制环境噪声,提高语音信号的信噪比。
与传统的单通道语音增强方法相比,多通道方法在各种噪声环境下均表现出更好的性能。
此外,深度学习模型的引入进一步提高了语音增强的效果。
六、结论与展望本文对基于深度学习的多通道语音增强方法进行了深入研究。
基于深度学习的语音增强算法研究

基于深度学习的语音增强算法研究深度学习技术的不断发展为语音增强算法的研究提供了新的机遇和挑战。
语音增强算法是一种通过对原始语音信号进行处理,提高语音信号质量和可理解性的技术。
在实际应用中,由于环境噪声、麦克风质量等因素的影响,语音信号常常存在着噪声、回声等问题,这对于人们的正常交流和机器识别造成了困扰。
因此,研究和开发高效可靠的语音增强算法对于提升人机交互体验、改善通讯质量具有重要意义。
在过去几十年中,研究者们提出了许多不同类型的语音增强算法。
传统基于信号处理方法主要包括降噪滤波器、频谱估计等技术。
这些方法通常基于统计学原理或者模型假设,并通过滤波或者频谱变换等方式对原始信号进行处理。
然而,在复杂环境下这些方法往往效果有限,并且很难适应不同类型噪声。
近年来,深度学习技术在图像识别、语音识别等领域取得了巨大成功,也为语音增强算法的研究带来了新的思路和方法。
深度学习算法能够自动学习和提取输入数据的高层次特征,并且能够处理非线性问题。
这些特点使得深度学习在语音增强领域具有巨大潜力。
基于深度学习的语音增强算法主要包括自编码器、卷积神经网络(CNN)、循环神经网络(RNN)、生成对抗网络(GAN)等。
这些算法通过对大量带有噪声的语音数据进行训练,能够学习到噪声和干净语音之间的映射关系,并且生成高质量、清晰可辨的增强语音信号。
自编码器是一种常用于无监督学习任务中的神经网络模型,其主要目标是将输入信号通过编码器映射到一个低维潜在空间中,并通过解码器将其重构回原始空间。
在语音增强任务中,自编码器可以用于提取输入信号中与噪声无关的特征,并且通过解码器重构出清晰可辨的干净信号。
卷积神经网络是一种能够有效处理空间相关性的神经网络模型。
在语音增强任务中,卷积神经网络可以通过卷积层和池化层等操作,对输入语音信号进行特征提取和降维,从而提高增强效果。
此外,卷积神经网络还可以通过堆叠多个卷积层和全连接层等结构,构建深层网络模型,进一步提高语音增强的性能。
一种基于深度学习的语音信号增强算法研究

一种基于深度学习的语音信号增强算法研究语音信号增强是在低质量语音背景下提取出清晰语音信息的重要技术。
深度学习已经在图像识别、自然语言处理等领域展示出惊人的成果,为什么不用深度学习来优化语音信号呢?在深度学习领域中,卷积神经网络(CNN)等模型已经在图像处理中大放异彩。
但对于语音信号处理,循环神经网络(RNN)是一种更为常见的模型。
在语音信号增强中,我们可以将输入的语音信号视为时间序列,在RNN模型中进行学习和优化。
传统的语音信号增强算法通常是基于谱减法、Wiener滤波等算法来去除背景噪音。
但这些算法在实际应用中仍然存在一些局限性,比如在过滤掉噪音的同时会降低语音的清晰度和自然度等。
此外,这些算法对噪音的类型和能量干扰较大,对于动态噪音的处理效果并不佳。
相比于传统的算法,基于深度学习的语音信号增强算法更为灵活和自适应。
通过深度学习,模型可以自动学习语音的特征,同时也可以根据不同的噪声环境和语音信号进行自动调整。
此外,深度学习算法也具有更好的鲁棒性和普适性,可以处理各种类型的噪音。
近年来,基于深度学习的语音信号增强算法越来越受到关注。
在NIPS 2014中,Zhu et al.提出了一种基于深度神经网络的语音信号增强算法(DNN-H MMSE),该算法融合了深度学习和传统的MMSE算法,实现了对语音信号的自动增强。
类似地,基于RNN的语音信号增强算法也被提出。
Tan et al.在ISCSLP 2016中提出了一种基于循环卷积神经网络(CRNN)的语音信号增强算法。
该算法结合了卷积神经网络和循环神经网络的优点,能够更好地捕捉语音信号的时序信息,同时还可以对噪音进行有效的滤波。
除此之外,基于GAN(生成对抗网络)的语音信号增强算法也成为热门研究方向。
在ICASSP 2020中,Lee et al.提出了一种基于GAN的语音信号增强算法,通过对抗性学习,能够更好地增强语音信号,同时保留语音的清晰度和自然度。
《2024年基于深度学习的无线通信(FM)语音增强的研究》范文

《基于深度学习的无线通信(FM)语音增强的研究》篇一一、引言随着无线通信技术的快速发展,FM(调频)广播作为传统的音频传输方式,其语音质量的重要性日益凸显。
然而,由于无线通信环境中的各种干扰和噪声,接收到的语音信号往往存在音质损失和清晰度下降的问题。
为了解决这一问题,本文提出了一种基于深度学习的无线通信(FM)语音增强方法。
该方法通过深度学习技术,对接收到的语音信号进行增强处理,有效提高语音质量和清晰度。
二、相关工作近年来,深度学习在语音增强领域取得了显著的成果。
传统的语音增强方法主要依赖于信号处理技术,如滤波、去噪等。
然而,这些方法往往难以处理复杂的噪声和环境干扰。
相比之下,深度学习可以通过学习大量的语音数据,提取有效的特征,实现对语音信号的准确增强。
目前,基于深度学习的语音增强方法已经广泛应用于智能手机、智能音箱等设备中。
三、方法本文提出的基于深度学习的无线通信(FM)语音增强方法主要包括以下步骤:1. 数据收集与预处理:收集包含噪声和清晰语音的语料库,对语料进行预处理,如归一化、分帧等。
2. 模型构建:采用深度神经网络(DNN)或循环神经网络(RNN)构建语音增强模型。
模型以带噪语音为输入,输出增强后的语音信号。
3. 训练与优化:使用大量的训练数据对模型进行训练,通过损失函数和优化算法对模型进行优化,使模型能够更好地适应不同的噪声和环境。
4. 测试与评估:使用测试数据对模型进行评估,比较增强前后的语音质量,如信噪比(SNR)、听觉质量等。
四、实验与分析本节通过实验验证了基于深度学习的无线通信(FM)语音增强方法的有效性。
实验中,我们使用了包含各种噪声和干扰的语料库,对模型进行了训练和测试。
实验结果表明,该方法能够有效提高语音质量和清晰度,显著提高信噪比和听觉质量。
具体而言,我们采用了DNN和RNN两种不同的模型进行实验。
在DNN模型中,我们使用了多层神经网络对语音信号进行特征提取和增强。
在RNN模型中,我们利用循环神经网络的时序特性,对连续的语音信号进行增强处理。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第41卷第5期2018年10月电子器件ChineseJournalofElectronDevicesVol 41㊀No 5Oct.2018项目来源:国家自然科学基金项目(61673108)ꎻ江苏高校品牌专业建设工程项目(PPZY2015A092)ꎻ南京信息职业技术学院科技创新团队项目收稿日期:2017-08-23㊀㊀修改日期:2017-09-22SpeechEnhancementAlgorithmBasedonADeepBeliefNetwork∗YINFaming1∗ꎬTANGYufeng2(1.SchoolofCommunicationsEngineeringꎬNanjingCollegeofInformationTechnologyꎬNanjing210023ꎬChinaꎻ2.SchoolofInformationScienceandEngineeringꎬSoutheastUniversityꎬNanjing210096ꎬChina)Abstract:DBN(DeepBeliefNetwork)wasstudiedbasedonspeechenhancementalgorithm.WechoseLog ̄SpectralMinimumMeanSquareError(LOGMMSE)algorithmandoptimally ̄modifiedlog ̄spectralamplitude(OM ̄LSA)speechestimatorꎬwhicharethebesttraditionalspeechenhancementalgorithmsꎬtocomparewithDBN ̄basedspeechenhancementalgorithm.TheresultsindicatedthattheDBN ̄basedspeechenhancementalgorithmdemonstratedsuperiorperformanceamongthreealgorithmsꎬespeciallytheimprovementofspeechquality.Keywords:speechenhancementalgorithmꎻdeepbeliefnetworkꎻLOGMMSEalgorithmꎻOM ̄LSAalgorithmEEACC:6130㊀㊀㊀㊀doi:10.3969/j.issn.1005-9490.2018.05.048基于深度置信网络的语音增强算法∗阴法明1∗ꎬ唐於烽2(1.南京信息职业技术学院通信学院ꎬ南京210023ꎻ2.东南大学信息科学与工程学院ꎬ南京ꎬ210096)摘㊀要:研究了一种基于深度置信网络的语音增强算法ꎮ选取在噪声环境下传统语音增强算法中较好的LOGMMSE与OM ̄LSA算法和基于深度置信网络的语音增强算法进行了分析比较ꎬ结果证明深度置信网络的语音增强算法在3种算法中体现出了卓越的性能ꎬ尤其对增强后的语音质量的提升远远超过前两种算法ꎮ关键词:语音增强算法ꎻ深度置信网络ꎻLOGMMSE算法ꎻ优化改进的对数幅度谱算法中图分类号:H017ꎻTN69㊀㊀㊀㊀文献标识码:A㊀㊀㊀㊀文章编号:1005-9490(2018)05-1325-05㊀㊀语音是人类社会信息重要的也是最便捷的载体ꎮ但是人类生存的环境却是一个极端复杂的声学环境ꎬ因此人类的通信通常会收到各种噪声的干扰ꎮ自然环境中的这些噪声严重影响了语音的质量和信息的传递ꎮ语音增强技术旨在提升被噪声干扰语音的可懂度和质量ꎮ语音增强技术在助听器㊁耳蜗移植中广泛使用ꎬ语音增强技术的使用是的上述设备的听觉舒适度和可懂度得到提升ꎮ此外ꎬ在语音识别系统和说话人识别系统中ꎬ语音增强技术也有广泛的应用ꎮ传统的单声道语音增强算法主要分为时域方法和频域方法ꎮ时域方法主要包括参数和滤波的方法ꎬ信号子空间法等ꎮ而频域的方法有谱减法㊁维纳滤波法㊁听觉掩蔽法等[1]ꎮ其中谱减法是最简单ꎬ计算复杂度最小的方法ꎬ但会残留音乐噪声和严重的语音失真ꎮ而维纳滤波法能够将音乐噪声转变成白噪声ꎬ让处理后的语音听上去更舒适ꎬ但维纳滤波是基于平稳假设前提下的最小均方误差的估计ꎬ因此对非平稳信号的抑制能力较弱ꎮ听觉掩蔽法是根据人耳的掩蔽效应提出的一种算法ꎬ即能量大的声音会将能量小的声音掩蔽ꎮ此方法不用将噪声完全从语音中减去ꎬ只要将噪声能量抑制在掩蔽阈值以下ꎮ革命性的语音增强算法是1984年Ephraim和Malah提出的基于最小均方误差MMSE(MinimumMeanSquareError)的语音幅度谱估计ꎬ由于人耳对声强的感知是非线性的ꎬ因而他们又提出了对数谱域的最小均方误差估计(LOG ̄MMSE)ꎮ在LOG ̄MMSE语音增强方法提出来的同时ꎬRainerMartin[6]在1994年提出了基于最小统计量的语音增强方法ꎬ后面许多学者对此方法提出了相应的改良ꎬ其中使用最重要的是IsraelCohen提出的最佳修正对数谱OM ̄LSA(Optimally ̄ModifiedLog ̄SpectralAmplitude)电㊀子㊀器㊀件第41卷语音增强算法ꎮ此方法具有估计误差更小ꎬ对非平稳噪声跟踪的比较快的特点[7]ꎬ可以认为LOG ̄MMSE和OM ̄LSA是目前传统单声道语音增强最优的算法ꎬ因而本文也挑选这两种方法作为分析比较的语音增强处理的算法ꎮ传统语音增强算法可归结为无监督语音增强算法ꎮ随着深度学习的概念提出ꎬ语音增强算法迎来了新的发展ꎬ即基于神经网络的语音增强方法ꎮ在神经网络语音增强算法方面做出较深入研究的是美国俄亥俄州立大学的汪德亮实验室以及国内中国科学技术大学戴礼荣实验室ꎮ汪德亮[12-15]实验室在深度神经网络DNN(DeepNeuralNetwork)和卷积神经网络RNN(ConvolutionalNeuralNetwork)的基础上ꎬ设计了多种语音增强方案ꎬ其中经典的有理想二值掩蔽(IdealBinaryMasking)算法ꎬ基于IBM算法还衍生出了多值掩蔽ꎬ即取0和1中的值进行标记ꎮ而本文研究了将深度置信网络DBN(DeepBeliefNetwork)应用于语音增强系统ꎮ大体思想就是使用带噪语音的log谱和纯净语音的log谱对DBN进行训练ꎬ得到一个模型ꎬ设计成一个非线性滤波器ꎬ对带噪语音进行滤波ꎬ而将带噪语音映射到纯净语音[4ꎬ10-11]ꎮ不对语音和噪声的稳定性以及相互独立性做任何假设ꎬ可较好地应对非平稳环境[5]ꎮ此外ꎬ生成对抗网络GAN(GenerativeAdversarialNets)[16]和长短时记忆网络LSTM(Long ̄ShortTermMemory)[17]也被使用在语音增强领域中ꎮ本文选取传统语音增强算法中较好的LOGMMSE与OM ̄LSA算法和基于深度置信网络的语音增强算法分析比较了它们的语音增强效果和计算复杂度等性能ꎮ1㊀语音增强算法1.1㊀LOGMMSE[6-7]假设带噪信号y(n)=x(n)+d(n)ꎬ其中x(n)为纯净信号ꎬd(n)为噪声信号ꎬ转换为频域ꎬY(w)=X(w)+D(w)ꎮ则根据EphraimY和MalahD的论文推导出最优的对数MMSE估计器为㊀^Xk=εkεk+1exp{12ʏɕVke-ttdt}Yk=GLSA(εkꎬVk)Yk(1)Vk=εkεk+1γk(2)式中ꎬGLSA(εkꎬVk)就是对数MMSE估计器的增益函数ꎮ在这个函数中有两个未知量ꎬ分布式先验信噪比εk(可以看做是第k个频谱分量的实际信噪比)和后验信噪比γk(可以看做是加入噪声后第k个频谱分量测得的信噪比)ꎮεk=λx(k)λd(k)γk=Y2kλd(k)(3)式中ꎬλx(k)=E{|X(ωk)|2}表示纯净信号谱的第k个频谱分量的方差ꎮλd(k)=E{|X(ωd)|2}表示噪声频谱的第k个频谱分量的方差ꎮ从上面式子当中ꎬ只有Y(k)是已知的ꎬ即带噪信号的频域分量ꎮ如果假设噪声是平稳信号ꎬ噪声方差可以用VAD检测非语言段来不断更新ꎮ而纯净信号的方差则需要通过一定的方法估算踹ꎬ这里使用的是的是判决引导法ꎬ推导结果为εk(m)=aX2k(m-1)λd(kꎬm-1)+(1-a)max[γk(m)-1ꎬ0](4)式中ꎬa是平滑系数ꎬ一般取0.98ꎮ整个语音增强系统的框图如图1所示ꎮ图1㊀LOGMMSE算法系统框图1.2㊀OM-LSA[8]OM ̄LSA是IsraelCohen提出的经典单通道音频降噪算法ꎮ该算法基于以下两个假设:H0(kꎬl):Y(kꎬl)=D(kꎬl)H1(kꎬl):Y(kꎬl)=X(kꎬl)+D(kꎬl)(5)式中ꎬH1(kꎬl)和H0(kꎬl)分别表示第l帧第k个频率分量有无语音的假设ꎬY(kꎬl)㊁X(kꎬl)及D(kꎬl)分别表示带噪语音㊁干净语音以及噪声的短时傅里叶变换ꎮ则具有最小均方误差的干净语音对数谱估计可以由下式表示^A(kꎬl)=exp{E[lgA(kꎬl)|Y(kꎬl)]}(6)式中ꎬA(kꎬl)ʉ|X(kꎬl)|代表语音谱幅度ꎮ在语音存在不确定性条件下ꎬ则有:E[lgA(kꎬl)|Y(kꎬl)]=E[lgA(kꎬl)|Y(kꎬl)ꎬH1(kꎬl)]p(kꎬl)+E[lgA(kꎬl)|Y(kꎬl)ꎬH0(kꎬl)](1-p(kꎬl))(7)式中ꎬp(kꎬl)ʉP(H1(kꎬl)|Y(kꎬl))ꎬ表示第l帧第6231第5期阴法明ꎬ唐於烽:基于深度置信网络的语音增强算法㊀㊀k个频率分量有语音的概率ꎮ当语音不存在时ꎬ为了使噪声听起来比较自然ꎬ规定语音增益函数必须大于一个最小阈值ꎬ即ꎬexp{E[lgA(kꎬl)|Y(kꎬl)ꎬH0(kꎬl)]}=Gmin |Y(kꎬl)|(8)当语音存在时ꎬ使用Ephraim和Malah的对数谱幅度LSA噪声估计器ꎬ则有exp{E[lgA(kꎬl)|Y(kꎬl)ꎬH1(kꎬl)]}=GH1(kꎬl) |Y(kꎬl)|(9)GH1(kꎬl)=ξ(kꎬl)1+ξ(kꎬl)exp12ʏɕν(kꎬl)e-ttdtæèçöø÷(10)式中ꎬξ(kꎬl)=λx(kꎬl)λd(kꎬl)ꎬγ(kꎬl)=|Y(kꎬl)|2λd(kꎬl)分别表示语音的先验信噪比㊁后验信噪比ꎻλx(kꎬl)=E[|X(kꎬl)|2|H1(kꎬl)]ꎬλd(kꎬl)=E(|D(kꎬl)|2)分别为语音和噪声的方差ꎻν(kꎬl)=γ(kꎬl)ξ(kꎬl)1+ξ(kꎬl)ꎮ将式(8)和式(9)代入式(7)式则可得到基于OM ̄LSA谱估计器的感觉语音估计ꎬ㊀^X(kꎬl)={{GH1(kꎬl)}p(kꎬl)G1-p(kꎬl)min} Y(kꎬl)(11)实际计算时ꎬ考虑到语音存在的不确定性ꎬ先验信噪比可由下式计算得到^ξ(kꎬl)=aG2H1(kꎬl-1)γ(kꎬl-1)+(1-a)max{γ(kꎬl)-1ꎬ0}(12)权重因子a控制噪声去除和语音失真之间的折中ꎮ假设语音和噪声的STFT系数均服从符合高斯分布ꎬ应用贝叶斯规则ꎬ则语音存在的条件概率为p(kꎬl)=1+q(kꎬl)1-q(kꎬl)[1+ξ(kꎬl)]exp[-ν(kꎬl)]㊀㊀{}-1(13)综上ꎬ语音估计的算法流程图如图2所示ꎮ图2㊀谱增益计算结构框图1.3㊀基于深度置信网络的语音增强算法使用人工神经网络进行语音增强的主要思想是使用语音信号训练人工神经网络ꎬ最终使网络具有去除噪声的能力[4]ꎬ此算法使用到的语音库有带噪声的语音库和对应的纯净语音库[5]ꎮ2006年ꎬHinton提出了深度置信网络以及贪婪的逐层无监督训练算法ꎬ很好地解决了深层神经网络训练过程中出现的局部最优和过拟合问题[9]ꎮ由此ꎬ深度神经网络的概念就被提了出来ꎬ其结构图如图3所示ꎮ图3㊀深度神经网络原理图这个结构图由输入层v㊁多个隐含层hk和输出层组成ꎮ只有相邻层节点之间有连接ꎬ同一层的节点之间无连接ꎬ每个连接都有一个权重值wꎮ整个深度神经网络的训练主要由无监督和有监督训练组成ꎮ其训练过程为先用带噪语音的对数功率谱数据尝试训练一个深层的基于受限玻尔兹曼机的生成型模型ꎮ经过逐层贪婪式训练得到初始化网络参数之后ꎬ基于干净语音的对数功率谱特征和增强语音的对数功率谱特征之间的最小均方误差准则的反向错误传播算法来更新整个DNN的参数[17]ꎮ对数功率谱特征的提取:首先对信号进行分帧ꎬ帧重叠为1/2ꎮ然后短时傅里叶变换被用在信号上进行DFT系数的计算ꎬ如下所示[4]:Y(d)=ðL-1ly(l)h(l)e-j2πdl/L㊀d=0ꎬ1ꎬ ꎬL-1(14)这里的d是频率维度ꎬh(l)表示的窗函数ꎬ这里如果离散傅里叶变换的点数L如果能增加ꎬ即采样的信息点数更多ꎬ那么输入的特征将包含更多的信息ꎮ对数功率谱可定义如下Y(d)=lg|Y(d)|2㊀d=0ꎬ1ꎬ D-1(15)这里D=L/2+1ꎬ而对于d=Dꎬ ꎬL-1ꎬY(d)可以通过对称准则获得ꎬY(d)=Y(L-d)ꎮ波形重构㊀利用训练好的DBN估计得到感觉语音的对数功率谱特征之后ꎬ根据如下公式对波形进行重构[12]:^X(d)=exp{^X(d)/2}exp{jøY(d)}(16)这里的相位信息øY(d)是取自原始带噪信号中的ꎬ这是因为人耳对相位的微小变化不敏感ꎮ然后时域波形^x就可以通过反向离散傅里叶变换重构得到:7231电㊀子㊀器㊀件第41卷^x(l)=1Lð^x(k)ej2πkl/L(17)整个句子的波形可以通过经典的重叠相加算法进行合成ꎮ2㊀实验及结果2.1㊀实验设置本次实验的wav文件采样率为16kHzꎮ在对DBN训练的数据是来于TIMIT语音数据集构建的ꎮ噪声集是由汪德亮实验室公开的100种噪声ꎮ实验将TIMIT训练集里的4620句感觉语音被用来和噪声相加在一起ꎬ相加的信噪比有20dBꎬ15dBꎬ10dBꎬ5dBꎬ0dB和-5dBꎬ来构建了近100h的带噪数据(包含一小部分纯净语音的数据)ꎬ来训练基于DNN的语音增强模型ꎮ而DBN网络结构为:一个输入层ꎬ一个输出层和3个隐层[9]ꎬ输入层包含2文的帧数为11帧ꎬ输出1帧数据ꎮ测试数据为从TIMIT测试集中随机挑选的200句和pocketsphinx工程中给出的5条测试语音和5种未用于训练的噪声加在一起ꎬ构成带噪的测试集ꎮ分别用本文提到的3种语音增强方案进行处理ꎮ2.2㊀实验结果和分析2.2.1㊀带噪语音经过不同算法处理结果对比4种信噪比的带噪语音经过L ̄MMSE㊁OM ̄LSA和DBN语音增强算法的处理ꎬ使用PESQ指标进行评测ꎮ实验结果如表1所示ꎬ同时也抽取了一个测试样本ꎬ绘出其处理前后的语谱图ꎬ如图4所示ꎮ表1㊀带噪语音在不同增强算法下的平均PESQ结果NoisyL ̄MMSEOM ̄LSADNNSNR152.652.993.103.60SNR102.322.652.723.10SNR01.651.932.112.41SNR-51.381.551.651.97图4㊀语谱图对比ꎬ纯净语音语谱图㊀㊀从图4可以看出ꎬL ̄MMSE和OM ̄LSA在低频段的语音畸变较大ꎬ而DBN在低频和高频部分都能保持较高的还原度ꎬ与纯净语音谱的接近程度较高ꎮ这是由于ꎬL ̄MMSE算法和OM ̄LSA算法都是基于语音和噪声不相干ꎬ噪声高斯分布的假设ꎬ这两种假设限制了他们效果的提高ꎬ而DBN在基于大数据训练的技术下ꎬ几乎在没有任何假设的情况下生成了语音增强模型ꎬ因此ꎬ在这种没有任何假设的情况下ꎬ保持了较高的语音还原度ꎮ从以上实验结果可以看出ꎬ其中LOGMMSE算法和OM ̄LSA算法在语音增强效果上不相上下ꎬ而DBN在3种算法中体现出了卓越的性能ꎬ其对增强后的语音质量的提升远远超过前两种算法ꎮ3㊀结论本文研究比较了3种语音增强算法ꎬLOGMMSE算法㊁最佳修正对数谱语音估计器(OM ̄LSA)和基于深度置信网络(DeepBeliefNetwork)的语音增强算法ꎮ分8231第5期阴法明ꎬ唐於烽:基于深度置信网络的语音增强算法㊀㊀析比较了它们的语音增强效果和计算复杂度ꎮ证明了DBN语音增强方法ꎬ具有较好的语音降噪效果ꎮ参考文献:[1]㊀MowlaeePꎬKulmerJ.PhaseEstimationinSingle ̄ChannelSpeechEnhancement:Limits ̄Potential[J].IEEE/ACMTransactionsonAudioSpeechandLanguageProcessingꎬ2015ꎬ23(8):1283-1294. [2]PascualSꎬBonafonteAꎬSerràJ.SEGAN:SpeechEnhancementGenerativeAdversarialNetwork[J].2017.[3]WeningerFꎬErdoganHꎬWatanabeSꎬetal.SpeechEnhancementwithLSTMRecurrentNeuralNetworksandItsApplicationtoNoise ̄RobustASR[M].LatentVariableAnalysisandSignalSepa ̄ration.SpringerInternationalPublishingꎬ2015:91-99.[4]XuYꎬDuJꎬDaiLRꎬetal.AnExperimentalStudyonSpeechEn ̄hancementBasedonDeepNeuralNetworks[J].IEEESignalPro ̄cessingLettersꎬ2014ꎬ21(1):65-68.[5]徐勇.基于深层神经网络的语音增强方法研究[D].中国科学技术大学ꎬ2015.[6]EphraimYꎬMalahD.SpeechEnhancementUsingaMinimumMean ̄SquareErrorLog ̄SpectralAmplitudeEstimator[J].IEEETransactionsonAcousticsSpeechandSignalProcessingꎬ1985ꎬ33(2):443-445.[7]EphraimYꎬMalahD.DMalahꎬSpeechEnhancementUsingaMin ̄imumMean ̄SquareErrorShort ̄TimeSpectralAmplitudeEstimator[J].IEEETransactionsonAcousticsSpeechandSignalProcess ̄ingꎬ1985ꎬ32(6):1109-1121.[8]CohenIꎬBerdugoB.SpeechEnhancementforNon ̄StationaryNoiseEnvironments[J].SignalProcessingꎬ2001ꎬ81(11):2403-2418. [9]HintonGE.APracticalGuidetoTrainingRestrictedBoltzmannMachines[J].Momentumꎬ2012ꎬ9(1):599-619.[10]XuYꎬDuJꎬDaiLRꎬetal.ARegressionApproachtoSpeechEn ̄hancementBasedonDeepNeuralNetworks[J].AudioSpeechandLanguageProcessingIEEE/ACMTransactionsonꎬ2015ꎬ23(1):7-19. [11]XuYꎬDuJꎬHuangZꎬetal.Multi ̄ObjectiveLearningandMask ̄BasedPost ̄ProcessingforDeepNeuralNetworkBasedSpeechEn ̄hancement[J].2017.[12]AllenJ.ShortTermSpectralAnalysisꎬSynthesisꎬandModificationbyDiscreteFourierTransform[J].IEEETransactionsonAcousticsSpeechandSignalProcessingꎬ1977ꎬ25(3):235-238.[13]HanKꎬWangDL.NeuralNetworkBasedPitchTrackinginVeryNoisySpeech[J].AudioSpeechandLanguageProcessingIEEE/ACMTransactionsonꎬ2014ꎬ22(12):2158-2168.[14]HealyEWꎬYohoSEꎬWangYꎬetal.AnAlgorithmtoImproveSpeechRecognitioninNoiseforHearing ̄ImpairedListeners[J].JournaloftheAcousticalSocietyofAmericaꎬ2014ꎬ135(4):3029. [15]ZhangXLꎬWangDL.BoostingContextualInformationforDeepNeuralNetworkBasedVoiceActivityDetection[M].IEEEPressꎬ2016.[16]HealyEWꎬYohoSEꎬWangYꎬetal.AnAlgorithmtoImproveSpeechRecognitioninNoiseforHearing ̄ImpairedListeners[J].JournaloftheAcousticalSocietyofAmericaꎬ2013ꎬ134(4):3029. [17]HintonGEꎬOsinderoSꎬTehYW.AFastLearningAlgorithmforDeepBeliefNets[J].NeuralComputationꎬ2006ꎬ18(7):1527.阴法明(1980-)ꎬ男ꎬ汉族ꎬ山东肥城人ꎬ副教授ꎬ硕士研究生ꎬ研究方向为语音信号处理ꎬyinfm@njcit.cnꎮ9231。