基于麦克风阵列的语音增强方法

基于麦克风阵列的语音增强方法
基于麦克风阵列的语音增强方法

基于麦克风阵列的语音增强方法

概述:在日常生活和工作中,语音通信是人与人之间互相传递信息沟通不可缺少的方式。在语音通信中,语音信号不可避免地会受到来自周围环境和传输媒介的外部噪声、通信设备的内部噪声及其他讲话者的干扰。这些干扰共同作用,最终使听者获得的是被噪声污染过的带噪声语音,严重影响了双方之间的交流。应用阵列信号处理技术的麦克风阵列能够充分利用语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,逐渐成为强噪声环境中语音增强的研究热点。本文将介绍各种麦克风阵列语音增强方法,并总结各个方法的优劣。最终得出更好的、能够去噪的基于麦克风阵列的语音增强方法。

1麦克风阵列

麦克风阵列是将两个麦克风的信号耦合为一个信号。在频率响应中也可以根据时域中波束形成与空间滤波器相仿的应用,分析出接收到语音信号音源的方向以及其变化。采用该技术,能利用两个麦克风接收到声波的相位之间的差异对声波进行过滤,能最大限度将环境背景声音滤掉,只剩下需要的声波。对于在嘈杂的环境下使用采用了这种配置的设备,在嘈杂的环境下能使听者听起来很清晰,没杂音。

2基于麦克风阵列的语音增强方法

2.1基于自适应波束形成器的麦克风阵列语音增强

自适应波束形成是现在广泛使用的一类麦克风阵列语音增强方法。最早出现的自适应波束形成算法,其基本思想是在某方向有用信号的增益一定的前提下,使阵列输出信号的功率最小。在线性约束最小方差自适应波束形成器的基础上,1982 年Griffiths 和Jim 提出了广义旁瓣消除器成为了许多算法的基本框架。

广义旁瓣消除器(GSC)的工作原理是带噪声的语音信号同时通过自适应通道和非自适应通道,自适应通道中的阻塞矩阵将有用信号滤除后产生仅包含多通道噪声参考信号,自适应滤波器根据这个参考信号得到噪声估计,最后由这个被估计的噪声抵消非自适应通道中的噪声分量,从而得到有用的纯净语音信号。

麦克风阵列的自适应算法通过迭代运算获取波束形成的最优权矢量时,噪声模型的估计是一个非常关键的因素。它的好坏直接影响着系统波束形成的性能。系统地分析了最小均方( LMS) 自适应语音增强算法,并针对阻塞矩阵在估计噪声时存在的缺陷,在该算法的基础上提出了一种利用最小值控制递归平均( MCRA) 来估计噪声的方法。将此方法应用于波束形成,MCRA 估计出的噪声使LMS 自适应语音增强的效果更好和抗噪性更强。

2.2基于固定波束形成的麦克风阵列语音增强

固定波束形成技术是最简单最成熟的一种波束形成技术。1985 年美国学者Flanagan 提出采用延时-相加波束形成方法进行麦克风阵列语音增强,该方法通过对各路麦克风接收到的信号添加合适的延时补偿,使得各路输出信号在某一方向上保持同步,并在该方向的入射信号获得最大增益。此方法易于实现,但要想获取较高的噪声抑制能力则需要增加麦克风数目,然而对非相干噪声没有抑制能力,环境适应性差,因此实际中很少单独使用。后来出现的微分麦克风阵列、超方向麦克风阵列和固定频率波束形成技术也属于固定波束形成。

采用可调波束形成器的GSC麦克风阵列语言增强算法,其实质在GSC结构中的固定波束形成器前端引入各通道可调时延补偿,构造可调波束形成器进行声源方位估计,从而在目标声源方位获取阶段即可利用阵列的空间增益来提高方位估计性能。延迟求和波束形成器主要目的是增强主瓣方向目标信号,而抑制其他方向的噪声信号。

可调波束形成器结构如图2所示,它利用阵列形成不同波束角度时GSC的输出能量作为代价函数来估计波束对准声源时各通道语音的时延补偿值,以实现目标语音信号方向的定位.其基本思想是:假定目标信号入射角为α,利用不同的α求出对应的通道补偿时延值τ对各通道接收的语音信号进行时延补偿,然后通过传统GSC算法得到各自对应的增强语音,并比较不同α对应的输出信号能量,最大能量对应的α即为实际目标信号方向,相应的τ即为目标语音到达相邻麦克风的时延补偿值。表1给出了2种比较算法的语音增强结果.从表中可以看出,在3种不同噪声、不同SNR下,该算法的消噪性能均优于传统的GSC算法。

2.3基于后置滤波的麦克风阵列语音增强

1988 年Zelinski 将维纳滤波器应用在麦克风阵列延时—相加波束形成的输出端,进一步提高了语音信号的降噪效果,提出了基于后置滤波的麦克风阵列语音增强方法(图2)。基于后置滤波的方法在对非相干噪声抑制方面,不仅具有良好的效果,还能够在一定程度上适应时变的声学环境。它的基本原理是:假设各麦克风接收到的目标信号相同,接收到的噪声信号独立同分布,信号和噪声不相关,根据噪声特性,依据某一准则实时更新滤波器权系数,对所接收到数据进行滤波,从而达到语音增强的目的。

图2 结合后置滤波的固定波束形成器

后置滤波方法存在以下不足:首先,算法的性能受到时延误差的影响,使增强后的语音信号有一定失真;其次,该方法对方向性的强干扰抑制效果不佳。后置滤波方法极少单独使用,常与其他方法联合使用。2.4基于子空间的麦克风阵列语音增强

子空间方法的基本思想是计算出信号的自相关矩阵或协方差矩阵,然后对其进行奇异值分解,将带噪声语音信号划分为有用信号子空间和噪声子空间,利用有用信号子空间对信号进行重构,从而得到增强后的信号。由Asano 等提出的基于相干子空间的麦克风阵列语音增强方法是一种典型的子空间方法。该方法首先将语音信号划分到不同频带,然后在每个频带再利用空间信息,进行子空间处理。

2.5基于近场波束形成的麦克风阵列语音增强

当声源位于麦克风阵列近场(即阵列的入射波是球面波)情况下,声波的波前弯曲率不能被忽略,如果仍然把入射声波作为平面波考虑,采用常规的波束形成方法来拾取语音信号,那么麦克风阵列系统输出效果会很不理想。解决这个问题最直接的方法就是根据声源位置和近场声学的特性,对入射声波进行近场补偿,但是这种方法需要已知声源位置,这在实际应用中难以满足。由于近场声学的复杂性,目前有关近场波束形成麦克风阵列语音增强方法的研究相对较少。

2.6基于相干性滤波器和广义旁瓣抵消器组合的麦克风小阵列语音增强算法

在语音段和非语音段采用不同的平滑系数分别进行噪声谱估计,可以加快跟踪噪声谱的变化,并能保证较小的目标语音畸变;而对于采用的NLMS 算法,在语音段和非语音段采用不同的步长对滤波器权系数进行更新,可以最大限度避免在长语音段对噪声信号跟踪失效的问题。

本语音增强算法结构如图 1 所示。从图中可以看出,算法主要分为两部分:相干性滤波器和广义旁瓣抵消器,主要思想是利用基于VAD 的迭代相干性滤波器作为广义旁瓣抵消器的前置预处理滤波器,用以抑制包括混响和非相关性噪声信号在内的干扰,然后使用基于变步长NLMS 的广义旁瓣抵消器抑制残留的噪声信号。

3方法特点与对比

自适应波束:自适应如果噪声源的数目比麦克风数目少,自适应波束法能得到很好的性能。但是随着干扰数目的增加和混响的增强,自适应滤波器的降噪性能会逐渐降低。

固定波束:该类麦克风阵列语音增强方法实现简单且有韧性,但需要较多麦克风才能得到较好的噪声抑制能力。因此,实际中很少单独使用。

后置滤波:与自适应波束形成麦克风阵列语音增强方法相比,后置滤波方法在对非相干噪声抑制方面,具有明显的优势。但算法的性能受到时延误差的影响,使增强后的语音信号有一定失真。该方法对方向性的强干扰抑制效果不佳。后置滤波方法极少单独使用,常与其他方法联合使用。

子空间:基于子空间的麦克风阵列语音增强方法虽然降噪性受噪声场是否相关影响较小,在相干和非相干噪声场中均有一定的消噪效果,但是由于计算量较大,实现实时处理具有一定困难。

近场波束:这种方法需要已知声源位置,这在实际应用中难以满足。由于近场声学的复杂性,目前有关近场波束形成麦克风阵列语音增强方法的研究相对较少。

相干性滤波器和广义旁瓣抵消器组合:通过模拟和实际试验,可以看出这个组合算法明显优于单独使用小阵列波束形成算法和相干性滤波器算法。

4总结

鉴于实际声学环境下噪声类型和噪声场的复杂性,许多学者将性能互补的方法相结合,以改善其中任何一种语音增强方法的噪声抑制能力。在实际应用中应根据具体的使用环境的噪声特性,设计合适的麦克风阵列结构,选择最佳的算法及其具体的实现形式。

5参考文献

[1]采用可调波束形成器的GSC麦克风阵列语音增强方法_李芳兰(第34卷第12期电子与信息学报 2012年2月)

[2]基于麦克风阵列的语音增强算法概述_丁猛(2011 年第3 期大众科技No.3,2011(总第139 期))

[3]基于麦克风阵列的语音增强研究_周述畅(第22 卷第7 期 2012 年7 月计算机技术与发展)

[4]基于相干性滤波器的广义旁瓣抵消器麦克风小阵列语音增强方法_杨立春(第34卷第12期电子与信息学报2012年12月)

[5]用于麦克风阵列的阵元筛选方法研究_叶永(第25卷第11期 2012年11月传感技术学报)

基于麦克风阵列的语音增强方法

基于麦克风阵列的语音增强方法 概述:在日常生活和工作中,语音通信是人与人之间互相传递信息沟通不可缺少的方式。在语音通信中,语音信号不可避免地会受到来自周围环境和传输媒介的外部噪声、通信设备的内部噪声及其他讲话者的干扰。这些干扰共同作用,最终使听者获得的是被噪声污染过的带噪声语音,严重影响了双方之间的交流。应用阵列信号处理技术的麦克风阵列能够充分利用语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,逐渐成为强噪声环境中语音增强的研究热点。本文将介绍各种麦克风阵列语音增强方法,并总结各个方法的优劣。最终得出更好的、能够去噪的基于麦克风阵列的语音增强方法。 1麦克风阵列 麦克风阵列是将两个麦克风的信号耦合为一个信号。在频率响应中也可以根据时域中波束形成与空间滤波器相仿的应用,分析出接收到语音信号音源的方向以及其变化。采用该技术,能利用两个麦克风接收到声波的相位之间的差异对声波进行过滤,能最大限度将环境背景声音滤掉,只剩下需要的声波。对于在嘈杂的环境下使用采用了这种配置的设备,在嘈杂的环境下能使听者听起来很清晰,没杂音。 2基于麦克风阵列的语音增强方法 2.1基于自适应波束形成器的麦克风阵列语音增强 自适应波束形成是现在广泛使用的一类麦克风阵列语音增强方法。最早出现的自适应波束形成算法,其基本思想是在某方向有用信号的增益一定的前提下,使阵列输出信号的功率最小。在线性约束最小方差自适应波束形成器的基础上,1982 年Griffiths 和Jim 提出了广义旁瓣消除器成为了许多算法的基本框架。 广义旁瓣消除器(GSC)的工作原理是带噪声的语音信号同时通过自适应通道和非自适应通道,自适应通道中的阻塞矩阵将有用信号滤除后产生仅包含多通道噪声参考信号,自适应滤波器根据这个参考信号得到噪声估计,最后由这个被估计的噪声抵消非自适应通道中的噪声分量,从而得到有用的纯净语音信号。 麦克风阵列的自适应算法通过迭代运算获取波束形成的最优权矢量时,噪声模型的估计是一个非常关键的因素。它的好坏直接影响着系统波束形成的性能。系统地分析了最小均方( LMS) 自适应语音增强算法,并针对阻塞矩阵在估计噪声时存在的缺陷,在该算法的基础上提出了一种利用最小值控制递归平均( MCRA) 来估计噪声的方法。将此方法应用于波束形成,MCRA 估计出的噪声使LMS 自适应语音增强的效果更好和抗噪性更强。 2.2基于固定波束形成的麦克风阵列语音增强 固定波束形成技术是最简单最成熟的一种波束形成技术。1985 年美国学者Flanagan 提出采用延时-相加波束形成方法进行麦克风阵列语音增强,该方法通过对各路麦克风接收到的信号添加合适的延时补偿,使得各路输出信号在某一方向上保持同步,并在该方向的入射信号获得最大增益。此方法易于实现,但要想获取较高的噪声抑制能力则需要增加麦克风数目,然而对非相干噪声没有抑制能力,环境适应性差,因此实际中很少单独使用。后来出现的微分麦克风阵列、超方向麦克风阵列和固定频率波束形成技术也属于固定波束形成。 采用可调波束形成器的GSC麦克风阵列语言增强算法,其实质在GSC结构中的固定波束形成器前端引入各通道可调时延补偿,构造可调波束形成器进行声源方位估计,从而在目标声源方位获取阶段即可利用阵列的空间增益来提高方位估计性能。延迟求和波束形成器主要目的是增强主瓣方向目标信号,而抑制其他方向的噪声信号。

语音增强算法的研究与实现

语音增强算法的研究与实现 目录 目 录 ..................................................................... ............................................................ I 河西学院本科生毕业论文(设计)诚信声 明 ................................... 错误~未定义书签。I 河西学院本科生毕业论文(设计)任务 书 ...................................... 错误~未定义书签。II 河西学院本科毕业论文(设计)开题报 告 ..................................... 错误~未定义书签。IV 摘 要 ..................................................................... .................................................................. I Abstract ........................................................... ....................................................................... I 1 引 言 ..................................................................... .. (1) 2 语音增强算法概 述 ..................................................................... (1)

基于麦克风阵列的语音增强算法概述

- 29 - 基于麦克风阵列的语音增强算法概述 丁 猛 (海军医学研究所,上海 200433) 【摘 要】麦克风阵列语音增强技术是将阵列信号处理与语音信号处理相结合,利用语音信号的空间相位信息对语音信号进行增强的一种技术。文章介绍了各种基于麦克风阵列的语音增强基本算法,概述了各算法的基本原理,并总结了各算法的特点及其所适用的声学环境特性。 【关键词】麦克风阵列;阵列信号处理;语音增强 【中图分类号】TN911.7 【文献标识码】A 【文章编号】1008-1151(2011)03-0029-02 (一)引言 在日常生活和工作中,语音通信是人与人之间互相传递信息沟通不可缺少的方式。近年来,虽然数据通信得到了迅速发展,但是语音通信仍然是现阶段的主流,并在通信行业中占主导地位。在语音通信中,语音信号不可避免地会受到来自周围环境和传输媒介的外部噪声、通信设备的内部噪声及其他讲话者的干扰。这些干扰共同作用,最终使听者获得的语音不是纯净的原始语音,而是被噪声污染过的带噪声语音,严重影响了双方之间的交流。 应用阵列信号处理技术的麦克风阵列能够充分利用语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,逐渐成为强噪声环境中语音增强的研究热点。美国、德国、法国、意大利、日本、香港等国家和地区许多科学家都在开展这方面的研究工作,并且已经应用到一些实际的麦克风阵列系统中,这些应用包括视频会议、语音识别、车载声控系统、大型场所的记录会议和助听装置等。 文章将介绍各种麦克风阵列语音增强算法的基本原理,并总结各个算法的特点及存在的局限性。 (二)常见麦克风阵列语音增强方法 1.基于固定波束形成的麦克风阵列语音增强 固定波束形成技术是最简单最成熟的一种波束形成技术。1985年美国学者Flanagan 提出采用延时-相加(Delay-and-Sum)波束形成方法进行麦克风阵列语音增强,该方法通过对各路麦克风接收到的信号添加合适的延时补偿,使得各路输出信号在某一方向上保持同步,并在该方向的入射信号获得最大增益。此方法易于实现,但要想获取较高的噪声抑制能力则需要增加麦克风数目,然而对非相干噪声没有抑制能力,环境适应性差,因此实际中很少单独使用。后来出现的微分麦克风阵列(Differential Microphone Arrays)、超方向麦克风阵列(Superairective Microphone Arrays )和固定频率波束形成(Frequency-Invariant Beamformers) 技术也属于固定波束形成。 2.基于自适应波束形成器的麦克风阵列语音增强 自适应波束形成是现在广泛使用的一类麦克风阵列语音增强方法。最早出现的自适应波束形成算法是1972年由Frost 提出的线性约束最小方差(Linearly Constrained Minimum Variance,LCMV)自适应波束形成器。其基本思想是在某方向有用信号的增益一定的前提下,使阵列输出信号的功率最小。在线性约束最小方差自适应波束形成器的基础上,1982年Griffiths 和Jim 提出了广义旁瓣消除器(Generalized Sidelobe Canceller, GSC),成为了许多算法的基本框架(图1)。 图1 广义旁瓣消除器的基本结构 广义旁瓣消除器是麦克风阵列语音增强应用最广泛的技术,即带噪声的语音信号同时通过自适应通道和非自适应通道,自适应通道中的阻塞矩阵将有用信号滤除后产生仅包含多通道噪声参考信号,自适应滤波器根据这个参考信号得到噪声估计,最后由这个被估计的噪声抵消非自适应通道中的噪声分量,从而得到有用的纯净语音信号。 如果噪声源的数目比麦克风数目少,自适应波束法能得到很好的性能。但是随着干扰数目的增加和混响的增强,自适应滤波器的降噪性能会逐渐降低。 3.基于后置滤波的麦克风阵列语音增强 1988年Zelinski 将维纳滤波器应用在麦克风阵列延时—相加波束形成的输出端,进一步提高了语音信号的降噪效果,提出了基于后置滤波的麦克风阵列语音增强方法(图2)。基于后置滤波的方法在对非相干噪声抑制方面,不仅具有良好的效果,还能够在一定程度上适应时变的声学环境。它的基本原理是:假设各麦克风接收到的目标信号相同,接收到的噪声信号独立同分布,信号和噪声不相关,根据噪声特性, 【收稿日期】2010-12-30 【作者简介】丁猛(1983-),男,海军医学研究所研究实习员。

基本语音增强方法

基本语音增强方法概述 摘要:语音增强是当今语音处理的一个非常重要的领域,本文主要介绍当今比较普遍的几种基于人耳掩蔽阈值的语音增强方法:谱减法,维纳滤波法,子空间方法等,并对它们的优缺点作简要论述。 关键词:语音增强、人耳掩蔽、谱减法、维纳滤波、子空间 现今时代的主流步伐将我们带向自动化方向,语音识别在这一背景下显得尤为重要。目前已经开发出好几款语音识别软件,但是如何较为精确地实现人耳的掩蔽效应下的语音增强,仍是大家着重解决的问题。它的首要目标就是在接收端尽可能从带噪语音信号中提取纯净的语音信号,改善其质量。目前已经出现了谱减法等一系列较为普遍的方法。本文将对这几种方法进行简要介绍。 一、语音的特性 语音信号是一种非平稳、时变的随机过程,其产生过程与发声器官的运动紧密相关。而发声器官的状态变化速度比声音振动的速度要缓慢得多,因此语音信号可以认为是短时平稳的。在一段短时间内其特性基本保持不变即相对稳定,从而可以应用平稳随机过程的分析方法来处理语音信号,并可以在语音增强中利用短时频谱的平稳特性。 人耳在嘈杂的环境中,仍然能够清晰地听到自己想听的内容,一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。在进行机器语音识别的时候,由于干扰信号和目标信号的强度差别不大,导致机器无法识别。这时语音增强就显得特别重要了。 二、时域方法 此类方法主要依赖于语音生成模型(例如AR模型)的使用,需要提取模型参数(如基音周期、LPC系数等),经常使用迭代方法。这种方法的最大缺点就是如果实际噪声或语音与模型有较大的差别,或者由于某些原因使得提取语音参数较困难,则这方法较容易失败。这类方法常用到一些滤波器,如梳状滤波器、维纳滤波器、卡尔曼滤波器等。 (1)经典的维纳滤波法是根据Winer-Hopf 积分方程求出纯语音和混合音

线性麦克风阵列定向性能的研究

线性麦克风阵列定向性能的研究? 段进伟, 史元春, 陈孝杰 (清华大学计算机科学与技术系,北京市海淀区, 100084) Study on the Directing Performance of the Linear Microphone Array Duan Jin-wei, Shi Yuan-chun, Chen Xiao-jie (Department of Computer Science and Technology, Tsinghua University, Beijing, 100084, China) + Corresponding author: Phn: +86-010-********-805, E-mail: saundradjw945@https://www.360docs.net/doc/258596116.html, Received 2007-07-31; Accepted 2007-08-31 Abstract: Speech source localization technology, using microphone array, plays an important role in the area of human-computer interaction, especially that in smart space. The information of source position provided by the microphone array can be used in many place, such as dynamically adjust the parameters of the array in order to acquire high-quality speech audio, etc. Therefore, speech source localization has become a hot topic in both research and application areas. The objective of this paper is to analyze the affection on the symmetrical linear microphone array directing performance caused by the changes of microphone numbers, the spacing between microphones, the sampling frequency and so on. In order to accomplish this, we set up two linear microphone arrays with different hardware and designed comparative experiments. After the speech data was captured, an algorithm called SRP-PHAT was used to estimate the speech source direction. We analyzed the possible theoretic errors existed in the experiments carefully, and after the experiments, we analyzed the directing results, and compared the actual directing errors with the possible theoretic errors. At last, we summarized the performance of the two linear microphone arrays, and educed the configuration of the linear microphone array system when its integrative performance achieves the peak. Key words: linear microphone array; speech source directing; theoretic error; directing performance 摘 要: 麦克风阵列在人机交互中有着重要的研究和应用价值。而线性均匀麦克风阵列最简单,其基本功能是声源的定向。本文通过实验分析各种参数变化对线性麦克风阵列定向性能的影响。我们搭建了硬件参数不同的两套线性麦克风阵列并设计了对比实验。使用SRP-PHAT算法定向声源。我们分析了声源定向时各种可能的理论误差,对实验结果进行了误差分析,并与可能的理论误差做了对比。通过理论分析和对比实验,本文提出了线性麦克风阵列系统的性能评价指标,并给出了综合性能最优时的麦克风阵列系统参数配置。 关键词: 线性麦克风阵列; 声源定向; 理论误差; 定向性能 中图法分类号: ****文献标识码: A ?Supported by National High-Tech Research and Development Plan of China under Grant No. 2006AA01Z198; 作者简介: 段进伟(1985-),男,云南昆明人,大学本科,主要研究领域为人机交互与普适计算;

多通道语音增强方法简介

多通道语音增强方法简介 【摘要】由于多麦克风越来越多地部署到同一个设备上,基于双麦克风和麦克风阵列的多通道语音增强研究有了较大的应用价值。介绍了自适应噪声对消法、FDM等双通道语音增强方法和波束形成、独立分量分析等麦克风阵列语音增强方法,对各个方法的原理、发展和优缺点进行了详细分析和总结,对多通道语音增强深入研究有一定帮助。 【关键词】语音增强;双通道;麦克风阵列;波束形成 1.引言 语音是人们通讯交流的主要方式之一。我们生活的环境中不可避免地存在着噪声,混入噪声的语音会使人的听觉感受变得糟糕,甚至影响人对语音的理解。在语音编码、语音识别、说话人识别等系统中,噪声也会严重影响应用的效果。语音增强成为研究的一个问题,其模型如图1所示。 图1 语音增强模型 按照采集信号的麦克风数量分类,语音增强方法可被分为单通道(single channel)、双通道(dual-channel)、麦克风阵列(microphone array)三种类型。一般来说,麦克风越多,去噪的效果越好。早期,大部分通信/录音终端都只配有一个麦克风,因此单通道语音增强吸引了大量研究者的目光,方法较为成熟。但单通道方法的缺点是缺少参考信号,噪声估计难度大,增强效果受到限制。近年来随着麦克风设备的小型化和成本的降低,双麦克风和麦克风阵列越来越多地被部署。研究者的注意力也在从单通道语音增强向双通道和麦克风阵列语音增强转移,这里对已有的多通道语音增强算法作以简单介绍。 2.双通道语音增强方法 在语音增强中,一个关键的问题就是获得噪声。在单通道语音增强中,噪声是通过从带噪语音信号中估计得到的,估计算法较为复杂且估计噪声总是与真实噪声存在差异,这就限制了增强效果的提高。为了获得真实噪声,简单的做法就是增加一个麦克风来采集噪声。从带噪语音信号中减去采集噪声来得到语音信号,这种方法叫做自适应噪声对消法(ANC,adaptive noise canceling),是最原始的最简单的双通道语音增强算法。针对双麦克风开发的算法不多,主要有噪声对消法、一阶差分麦克风(FDM,first-order differential microphone)及基于FDM 改进得到的自适应零陷波束形成法(ANF,adaptive null-forming)。 2.1 自适应噪声对消法 噪声对消法采用两个麦克风,一个麦克风采集带噪语音,另一个采集噪声信号,用带噪信号减去噪声信号,得到语音信号。减操作一般在频域进行,如果采

语音增强算法的分类

语音增强算法的分类 现实环境中的噪声多种多样,特性各异,很难找到一种通用的语音增强算法适用于各种噪声的消除;同时语音增强算法与语音信号数字处理理论、人的听觉系统和语音学等学科紧密相关,这也促使人们必须根据不同的噪声源来选择不同的对策。以上原因使语音增强技术研究呈现百花齐放的局面。几十年来,许许多多的学者在这方面进行了不懈的努力,总结出了许多有效的方法。 根据信号输入的通道数,可将这些方法分为单通道的语音增强算法与多通道的语音增强算法。单通道的语音系统在现实生活中较常见,手机、耳麦等都属于单通道语音系统。这种情况下,语音与噪声同时存在于一个通道中,语音信号与噪声信号必须从同一个带噪语音中获得。这种系统一般要求信号中的噪声比较平稳,以便在无声段对噪声进行估计,再依据估计得到的噪声参数对有声段进行处理,得到增强语音。而多通道的语音系统中语音增强的一种算法是,利用各个通道的语音信号之间存在的某些相关性,对带噪语音信号进行处理,得到增强的语音。比如,在自适应噪声抵消法中采用了两个话筒作为输入,其中一个采集带噪的语音信号,另外一个采集噪声,从噪声通道所采集的噪声直接当作带噪语音中的噪声,并将它从带噪语音中减去即可。另一种多通道的语音增强算法是采用阵列信号,这种方法采用多个以一定方式排列的采集设备接收信号。由于不同的独立信号源与各个采集设备之间的距离不同,最后在各个接收设备中的合成信号也不同,再根据这些信号将各个独立信号分离出来。 按照所依据原理的不同,我们可以将语音增强分为以下几类: (1)参数方法 此类方法主要依赖于语音生成模型(例如AR模型)的使用,需要提取模型参数(如基音周期、LPC系数等),经常使用迭代方法。这种方法的最大缺点就是如果实际噪声或语音与模型有较大的差别,或者由于某些原因使得提取语音参数较困难,则这方法较容易失败。这类方法常用到一些滤波器,如梳状滤波器、维纳滤波器、卡尔曼滤波器等。 (2)非参数方法 非参数方法不需要从带噪语音信号中估计语音模型参数,这就使得此类方法相对于参数方法而言应用较广。但由于没有利用可能的语言统计信息,故结果一般不是最优的。同时,我们知道,语音信号是非平稳的随机过程,但语音信号特性的缓慢变化使得在较短的时间(比如10~30ms)内,可以视其为平稳的,如果能从带噪语音的短时谱中估计出“纯净”语音的短时谱,即可达到语音增强的目的。由于人耳对语音的感知主要是通过语音信号中各频谱分量的幅度来获得的,而对各分量的相位并不敏感,因此,这类方法的重点是将估计的对象放在语音信号的短时谱幅度上。非参数方法主要包括谱减法、自适应滤波法等。 (3)统计方法 统计方法比较充分地利用了语音和噪声的统计特性,如语音信号可视不同情况和需要采用高斯模型、拉普拉斯模型以及伽玛模型等。此类方法一般是在建立了模型库后,经历一个训练过程来获得初始统计参数,并且在后续的工作过程中要根据实际的数据实时的更新这些统计参数,以使模型能更好的符合实际情况,它与语音系统的联系非常密切。这类方法里面主要包括最小均方误差估计(MMSE,Minimum Mean Square Error)、对数谱估计的最小均方误差(MMSE-LSA,Minimum Mean-Square Error Log-SpectralAmplitude)、听觉掩蔽效应(Masking Effect)等。 (4)多通道方法 多通道方法利用了更多的信息,包括空间信息,可以更好地滤除噪声、分离语音,但对硬件设备要求高,算法一般较复杂。噪声抵消法、延迟一相加波束形成器(delay-sum beamformer)、

讯飞麦克风阵列声学测试方法

讯飞麦克风阵列声学测试 方法 This model paper was revised by the Standardization Office on December 10, 2020

讯飞麦克风阵列声学测试方法 测试准备 环境: 混响环境(模拟家庭客厅环境) 器材: 两个高保真音箱:1个用于播放语音,1个用于播放噪声; 音响支架2个:1个用于放置语音播放设备,1个用于放置噪音播放设备; 笔记本电脑2个:1个用于播放语音信号和噪声信号,1个用于抓取日志或录音; 分贝仪1个:用于噪声、语音信号强度测试,计算信噪比等; 卷尺1个:用于测试与设备的距离; 语料: 唤醒语料:用于测试唤醒率; 命令词语料:用于语音识别,测试识别率; 本机功放播放音频:回声消除测试使用; 家庭环境噪声音频:可播放中央台新闻节目,约30分钟; 硬件:

讯飞demo板1个 裸板1个 整机1个 软件: IPTV主板软件: 可抓日志,准备至少两个串口线。 可录音,可录15分钟以上。准备两个U盘。 可手动打开/关闭唤醒模式。可手动设置波束。 核心板固件:准备烧录工具。 唤醒词:跟唤醒词音频一致。 测试环境搭建 麦克风阵列测试示意图如下:

在安静环境下,放置阵列位于待测区域中间位置,唤醒源位于距阵列1m 处,噪声源位于距阵列处,唤醒源和阵列在一条直线上。 通过高保真音箱播放语料,通过分贝仪在阵列处测试信噪比,要求噪声源、唤醒源在阵列处的响度均为55dB 。安静环境下和噪声环境下分别测试唤醒率和识别率。 调整唤醒源的位置,距阵列的距离分别为3m 和5m 。要求唤醒源在阵列处的响度仍为55dB 。安静环境下和噪声环境下分别进行唤醒率和识别率测试。 测试说明: 测试环境因素影响非常大,唤醒源的位置角度调一调,响度校正时测试值的波动也很大。每次测试都要有对比物,只有同一时间同一环境对比测试的结果才有意义。 一、声学效果测试 1 分别对音箱6麦克整机与音箱裸麦、音箱裸麦与评估板裸麦进行唤醒、声源定位测试 测试步骤: 唤醒源 待测区域 麦克风阵

几种单通道的语音增强算法研究

龙源期刊网 https://www.360docs.net/doc/258596116.html, 几种单通道的语音增强算法研究 作者:杨龙 来源:《科技视界》2015年第26期 【摘要】对目前常用的几种单通道语音增强算法,即谱减法、最小均方误差估计以及子 空间算法进行研究,通过仿真实验对三种单通道语音增强算法的去噪效果和去噪后语音失真程度以及信噪比进行比较分析,由此论证三种方法的使用条件和在该条件下的增强效果。 【关键词】语音增强;去噪;信噪比 The Search of Single Channel Speech Enhancement Algorithms YANG Long (Department of Information Engineer, Academy of Armored Forces Engineering, Beijing 100072,China) 【Abstract】The paper compares the commonly used several kinds of single channel speech enhancement algorithms, such as spectral subtraction, minimum mean square error estimation and subspace algorithm. Through the experiments, the paper aims at arguing the performance of the three kinds of single channel speech enhancement algorithms and gains the condition and environment of using the algorithms.. 【Key words】Speech enhancement;De-noise;SNR 语音通信是最直接有效的传递信息的手段,随时代的发展,语音通信质量不断被提出更高的要求,因而语音增强技术一直是研究的热点,语音增强算法层出不穷。 语音增强算法可根据麦克风的通道数分为单通道和多通道。由于模型简单和成本较低,单通道语音增强算法一直被广泛的应用并不断研究推广。常见的单通道语音增强算法有谱减法,基于统计的方法,子空间,维纳滤波等。 1 三种单通道语音增强算法 1.1 谱减法 谱减法基本思想是假设加性噪声的情况下,从带噪语音的频谱估值中减去噪声频谱估值,从而得到纯净语音的频谱估值。谱相减法的一般形式如图1所示,Y(ω)是带噪语音频域形式,(ω)为噪声频谱估计。 1.2 最小均方误差估计(MMSE)

相关文档
最新文档