移动车载环境下应用麦克风阵列进行语音增强

合集下载

《基于麦克风阵列的声源定位技术研究》

《基于麦克风阵列的声源定位技术研究》一、引言随着科技的不断发展，声源定位技术在众多领域中扮演着越来越重要的角色。

麦克风阵列技术作为声源定位的主要手段之一，因其高精度、高效率的特点，得到了广泛的应用。

本文旨在探讨基于麦克风阵列的声源定位技术的研究现状、原理及实现方法，并对其未来发展趋势进行展望。

二、麦克风阵列技术概述麦克风阵列是指将多个麦克风按照一定的几何布局排列在一起，形成一个具有特定功能的声学传感器系统。

通过分析麦克风接收到的声波信号，可以实现对声源的定位、追踪和识别等功能。

麦克风阵列技术具有高精度、高效率、低成本等优点，因此在军事、安防、智能家居、机器人等领域得到了广泛应用。

三、声源定位技术原理基于麦克风阵列的声源定位技术主要依赖于声波传播的特性和麦克风的信号处理技术。

其基本原理包括时差法（TDOA）、相位差法、波束形成法等。

其中，时差法是应用最广泛的一种方法。

通过测量不同麦克风接收到声波信号的时间差，结合声波传播速度和麦克风阵列的几何布局，可以计算出声源的位置。

四、声源定位技术实现方法1. 信号预处理：对接收到的声波信号进行滤波、降噪等预处理操作，以提高信噪比。

2. 特征提取：通过时频分析等方法提取出声源信号的特征，如到达时间、到达角度等。

3. 定位算法：根据提取的特征信息，运用时差法、相位差法等算法计算出声源的位置。

4. 位置输出：将计算得到的位置信息输出，可用于后续的声源追踪、识别等任务。

五、研究现状及挑战目前，基于麦克风阵列的声源定位技术已经取得了显著的成果。

然而，在实际应用中仍面临一些挑战，如环境噪声干扰、多径效应、非线性声波传播等问题。

为了解决这些问题，研究者们不断探索新的算法和技术，如深度学习、机器学习等人工智能技术在声源定位中的应用。

此外，如何提高定位精度、降低系统复杂度、实现实时性等也是当前研究的重点。

六、未来发展趋势未来，基于麦克风阵列的声源定位技术将朝着更高精度、更低成本、更智能化的方向发展。

麦克风阵列解决方案

麦克风阵列解决方案
《麦克风阵列解决方案》
在如今的科技发展中，麦克风阵列正成为解决多种音频采集和处理问题的热门选择。

麦克风阵列是一种成组的麦克风系统，能够同时采集多个声音信号，并通过信号处理技术将它们合成为单一的音频信号。

它在语音识别、会议录音、音频增强等领域有着广泛的应用。

对于无线耳机和智能音箱，麦克风阵列的应用尤为广泛。

通过利用麦克风阵列的方向性，可以实现更准确的语音识别和识别目标方向。

这种技术不仅可以提高设备的用户体验，还可以为语音交互和人机交互的发展提供有力的支持。

此外，对于大型会议室和演讲场所，麦克风阵列系统也发挥着不可或缺的作用。

传统的单颗麦克风往往无法有效捕捉到远处的声音，而麦克风阵列可以通过多颗麦克风的联合工作，实现全方位声音的捕捉和清晰传输。

这对于重要会议和演讲活动来说，是非常重要的。

总的来说，麦克风阵列解决方案为音频采集和处理带来了新的技术突破和解决方案。

它在多个领域的应用都取得了积极的成果，同时也为音频技术的发展带来了新的动力和方向。

相信随着技术的不断进步，麦克风阵列将会在更多的领域中得到广泛应用，为人们的生活带来更多便利和乐趣。

声学阵列信号处理技术

声学阵列信号处理技术1.引言1.1 概述声学阵列信号处理技术是一种利用多个传感器将声音信号进行接收、处理和分析的技术。

声学阵列由多个微型麦克风组成，可以在不同位置同时接收远场声音信号，并通过信号处理算法来实现声音的定位、分离和增强等功能。

随着科技的不断发展，声学阵列信号处理技术在各个领域都得到了广泛的应用。

在语音识别领域，声学阵列可以提供清晰的语音输入，大大提高了语音识别的准确性和性能。

在通信领域，声学阵列可以提供更好的语音通话质量和降噪效果，改善了通信的可靠性和稳定性。

在音频处理领域，声学阵列可以实现音频信号的定位和分离，提供沉浸式音频体验。

此外，声学阵列还广泛应用于声纹识别、声波成像、无人驾驶等领域。

本文将对声学阵列信号处理技术进行详细的介绍和分析。

首先，我们将概述声学阵列信号处理技术的基本原理和工作流程。

接着，我们将详细讨论声学阵列的原理和应用。

最后，我们将对声学阵列信号处理技术进行总结，并展望其未来的发展方向。

通过本文的阅读，读者将能够了解声学阵列信号处理技术的基本概念和原理，以及其在不同领域中的应用和前景。

希望本文能够为相关领域的研究者和工程师提供一些有价值的参考和指导。

1.2 文章结构文章结构部分的内容可以包括以下内容：本文结构如下：第一部分为引言部分，主要对声学阵列信号处理技术进行基本介绍，包括概述、文章结构和目的。

第二部分是正文部分，分为两个小节。

2.1节主要概述了声学阵列信号处理技术的基本概念和原理，从信号采集、传输到处理的整个流程进行详细介绍，包括声学阵列的组成、工作原理以及信号处理算法等内容。

2.2节主要介绍了声学阵列技术的主要应用领域，包括音频信号处理、语音识别、声源定位等。

通过实际案例和应用场景的分析，展示了声学阵列信号处理技术在各个领域的重要性和应用前景。

第三部分为结论部分，总结了本文对声学阵列信号处理技术的概述和应用，强调了声学阵列技术在提高信号处理效果和拓展应用领域方面的优势，并展望了未来发展的方向和挑战。

麦克风阵列语音增强系统的硬件设计

ａｎｄｆｒｅｑｕｅｎｃｙｄｏｍａｉｎｂｕｔａｌｓｏｉｎｓｐａｔｉａｌｄｏｍａｉｎｆｏｒｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ．Ｆｏｒｃｏｌｌｅｃｔｉｏｎａｎｄｐｒｏｃｅｓｓｉｎｇｏｆｍｕｌｔｉ－ｃｈａｎｎｅｌａｕｄｉｏｓｉｇｎａｌ，ｔｈｅｒｅｅｘｉｓｔｐｒｏｂｌｅｍｓｓｕｃｈａｓｈｕｇｅａｍｏｕｎｔｏｆｄａｔａｉｎｒｅａｌ－ｔｉｍｅａｎｄｔｈｅｓｙｎｃｈｒｏ — ｎｉｚａｔｉｏｎｏｆｄｉｆｆｅｒｅｎｔｃｈａｎｎｅｌｓ．Ａｆｔｅｒｃｏｍｐａｒｉｓｏｎ，ｔｈｅａｕｔｈｏｒｃｈｏｓｅＡＤＳＰ— ＢＦ５３３ａｓｔｈｅｍａｉｎｐｒｏｃｅｓｓｏｒａｎｄｕｓｅｄｔｈｅａｄｖａｎｔａｇｅｏｆＡＤ７３３６０’ Ｓｃｈａｒａｃｔｅｒｉｓｔｉｃｔｈａｔａｌｌｏｗｅｄｍｕｌｔｉｃｈｉｐｓｉｎｃｈａｉｎｔｏｅｓｔａｂｌｉｓｈｔｈｅｈａｒｄｗａｒｅｓｙｓｔｅｍ．Ａｃｃｏｒｄｉｎｇｔｏｔｈｅｓｅｑｕｅｎｃｅｏｆｓｐｅｅｃｈｓｉｇｎａｌｇｅｔｔｉｎｇｉｎｔｏａｎｄｏｕｔｏｆｓｙｓｔｅｍ，ｔｈｅａｒｔｉｃｌｅｇｉｖｅｓａｄｅ — ｓｃｒｉｐｔｉｏｎｏｆｄｉｆｆｅｒｅｎｔｍｏｄｕｌｅｓｏｆｔｈｅｓｙｓｔｅｍｉｎｄｅｔａｉｌ，ａｎｄａｌｓｏ，ｎｅｃｅｓｓａｒｙｄｉａｇｒａｍｓａｒｅｇｉｖｅｎ．Ｋｅｙｗｏｒｄｓ：ｍｉｃｒｏｐｈｏｎｅａｒｒａｙ；ａｕｄｉｏｅｎｈａｎｃｅ；ＤＳＰ；ｈａｒｄｗａｒｅｒｅａｌｉｚａｔｉｏｎ；ＡＤＳＰ— ＢＦ５３３Ｃｉｔａｔｉｏｎｆｏｒｍａｔ：ＹＡＮＧＸｉａｏ — ｈｕａ，ＨＯＵＢａｏ — ｅ．ＨａｒｄｗａｒｅＤｅｓｉｇｎｏｆＭｉｃｒｏｐｈｏｎｅＡｒｒａｙＡｕｄｉｏＥｎｈａｎｃｅ —

一种近场环境下的麦克风阵列语音增强方法

Ａｂｓｒ：Ｃｏｓｄｒｎｈｃｕｓｉａｎｖｒｎｎｅｅａｄｓｒｄｓｅｈｓｕｃｏａｅｎｔｅｒｆｅｄｏｈｅａｒｙａｄｏｈｅｔａｃｔｎｉｅｇｔｅａｏｔｃｅｉｏｍｅｔｗｈｒｅｉｅｐｅｃｏｒｅｌｃｔｓｉｈｅｎａｌｆｔｒａｎｔｒｉｌｉｉｅｆｒｎｅｏｒｅｌｃｔｉｔｅｆｒｆｅｄｆｔｅｒａｎｔｒｅｅｃｓｕｃｓｏａｅｎｈａｌｏｈａｒｙ，ａｅｎａ — ｅｄｄｏｌａｐｉｅｅｍｆｒｉｔｏｏｃｏｈｏｅｒａｉｎｗｅｆｌｕｂｅｄａｔｖｂａｏｍｎｇｍｅｈｄｆｒｍｉｒｐｎａｒｙｒｉ
ｔｅｓｅｃ．Ｓｍｕａｉｎｒｓｌｅｎｔｔｈｔｏａｅｉｈｏｈｒｔｏｓｈｒｐｓｄｍｉｒｐｏｅａｒｙｓｅｃｎａｃｍｅｔｔ — ｈｐｅｈｉｌｔｅｕｔｄｍｏｓａｅｔａｍｐｒｄｗｔｔｅｈｄ，ｔｅｐｏｏｅｃｏｈｎｒａｐｅｈｅｈｎｅｎｈｏｓｒｃｍｅｍｅ
ａｃｉｏｔｎｌｓｒｓｏｓＭＶＲ）ｂａｆｍｒｙｕｉｇｈｐｉｌｎａ— ｅｅｍｏｍｒａｅｎＭＤｅｉｔｅｍｉｃａ — ｎｅｄｓｒｏａｓｅｐｎｅ（Ｄｔｉｅｅｍｏｅ．ＢｓｅｏｔｅｆｌｂａｆｒｅｓｄｏＶＲｔａｈｎｒｎｔｍａｒｉｄｂｈｎｈｎ

基于麦克风阵列的语音增强系统设计

ＺｈｕＸｉｎｇｙｕＷａｎＨｏｎｇｊｉｅ
（ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＢｅｌｉｔｎｇＵｎｉｖｅｒｓｉｔｙｆＣｏｈｅｍｉｃａｌＴｅｃｈｎｏｌｏｇｙ，Ｂｅｉｎｔｌｇ１０００２９，Ｃｈｉｎａ）
ａｌｇｏｒｉｔｈｍｂｕｔｐｒｏｃｅｓｓｉｎｇｓｅｐａｒａｔｅｌｙ．ＭＡＴＬＡＢｓｉｍｕｌａｔｉｏｎｓａｎｄｐｒａｃｔｉｃａｌｔｅｓｔｓｉｎｃｌｏｓｅｄｎｅａｒｉｆｅｌｄｅｎｖｉｏｎｒｍｅｎｔｒｅａｃａｒｒｉｅｄｏｕｔ．Ｒｅｓｕｌｔｓｄｅｍｏｎｓｔｒａｔｅｔｈａｔｔｈｅｓｙｓｔｅｍｐｅｆｒｏｒｍａｎｃｅｉｓｓｔａｂｌｅａｎｄｒｅｌｉｂｌａｅ，ｉｔｃａｎｃｌｅａｒｌｙａｕｇｍｅｎｔｓｐｅｅｃｈｑｕａｌｉｔｙ，ａｎｄａｃｈｉｅｖｅｍｕｌｔｉ・ｃｈａｎｎｅｌｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｉｎｓｈ０ｒｔｄｉｓｔａｎｃｅ．
朱兴宇万洪杰
（北京化工大学信息科学与技术学院北京１０００２９中语音增强系统噪声干扰大、难以清晰还原信号等局限性，设计并实现一种基于麦克风阵列的

一种适用于混响环境的麦克风阵列语音增强方法

一种适用于混响环境的麦克风阵列语音增强方法
张丽艳;殷福亮
【期刊名称】《信号处理》
【年(卷),期】2009(025)005
【摘要】在小型视频会议系统中,影响语音处理系统性能的主要因素是房间混响效应.现有语音增强方法大都采用加性噪声模型,没有考虑混响;而基于倒谱的语音去混响方法大多计算复杂.为此,本文给出了一种改进的麦克风阵列倒谱域语音去混响方法.该方法首先计算含噪语音倒谱域的最小相位分量,并对其进行波束形成,再进行低通滤波;然后利用人耳对相位信息的不敏感性,采用含噪语音的相位来合成增强后的语音信号,从而有效地降低了运算量.仿真结果表明,该方法在混响环境下能有效地改善语音质量.
【总页数】4页(P720-723)
【作者】张丽艳;殷福亮
【作者单位】大连理工大学电子与信息工程学院,大连,116024;大连交通大学电气信息学院,大连,116028;大连理工大学电子与信息工程学院,大连,116024
【正文语种】中文
【中图分类】TN912.3
【相关文献】
1.一种新的麦克风阵列自适应语音增强方法 [J], 徐进;赵益波;郭业才
2.混响环境下麦克风阵列语音增强方法研究 [J], 范真维
3.一种近场环境下的麦克风阵列语音增强方法 [J], 王冬霞;殷福亮
4.混响环境下的宽带波束形成语音增强方法 [J], 王冬霞;郑家超;范真维;周城旭
5.一种近场麦克风阵列后滤波语音增强方法 [J], 毛新胜;何培宇;田芳芳
因版权原因，仅展示原文概要，查看原文内容请购买。

基于听觉掩蔽效应的语音增强方法

基于听觉掩蔽效应的语音增强方法听觉掩蔽效应是指当一个音频信号中出现较高强度的噪音时，人耳对低强度信号的感知能力会受到影响，即人耳对较低声音的敏感度会降低。

这个效应在日常生活中很常见，比如当我们在喧闹的街道上尝试听清一个细微的声音时，往往会被周围的噪音所干扰，导致信号难以捕捉。

在语音通讯和音频处理领域，使用听觉掩蔽效应的概念进行语音增强是一种常见的方法。

通过理解人耳对声音感知的特性，我们可以利用这种效应来提高语音信号的质量和清晰度。

下面将介绍几种基于听觉掩蔽效应的语音增强方法。

1.频谱掩蔽频谱掩蔽是指在一个频率上出现较高强度的信号会掩盖在该频率附近的较低强度信号。

基于频谱掩蔽的语音增强方法可以根据该原理通过滤波、降噪等技术来削弱噪音信号，并提高语音信号的可听性。

2.时间掩蔽时间掩蔽是指一个声音信号出现时，会抑制在其附近短时间内出现的较低强度信号。

基于时间掩蔽的语音增强方法可以利用这个原理来削弱噪音信号，提高语音信号的清晰度和可懂度。

3.功率谱减法功率谱减法是一种常用的语音增强方法，通过对输入信号的频谱进行分析，并在频域上减去预先估计的噪音谱，从而得到增强后的语音谱。

这种方法利用了听觉掩蔽效应，可以有效地提高语音信号的质量。

4.双麦克风阵列双麦克风阵列是一种常见的语音增强技术，通过在不同位置放置两个麦克风来捕捉源信号和噪音信号，然后利用听觉掩蔽效应来抑制噪音信号，从而提高语音信号的清晰度和可听性。

5.深度学习算法近年来，随着深度学习的发展，基于听觉掩蔽效应的语音增强方法也得到了很大的进展。

通过训练神经网络模型，可以利用大量的数据来学习和捕捉语音和噪音之间的相关特征，从而实现更精准和高效的语音增强效果。

综上所述，基于听觉掩蔽效应的语音增强方法在实际应用中具有重要的意义。

通过理解人耳对声音感知的特性，我们可以利用听觉掩蔽效应来减小噪音对语音信号的干扰，从而提高语音信号的质量和清晰度。

随着技术的不断进步和发展，相信基于听觉掩蔽效应的语音增强方法将会发展得更加成熟和高效。

采用可调波束形成器的GSC麦克风阵列语音增强方法

采用可调波束形成器的GSC麦克风阵列语音增强方法李芳兰;周跃海;童峰;洪青阳【摘要】基于广义旁瓣抵消器(generalized sidelobe canceller,GSC)算法的麦克风阵列语音增强技术已得到广泛研究,但由于其通常需传统的声源定位方法提供声源方位,语音信号信噪比(SNR)低时声源定位精度将明显下降并影响到语音增强效果.提出了一种新的麦克风阵列语音增强方法,该方法在GSC中引入可调波束形成器估计声源方位以抑制背景噪声影响.不同类型背景噪声下的实验室语音增强结果表明了该方法的有效性.%Generalized sidelobe canceller (GSC) has been widely investigated in microphone array speech enhancement. However,the traditional source localization methods are usually adopted to obtain the direction of source, which is needed for the GSC algorithm. Under relatively low signal noise ratio (SNR) the performance of the GSC will degrade due to the decreasing precision of the source localization. This paper presents a new method for the GSC based microphone array speech enhancement, which uses an adjustable beamformer (ABF) to estimating the direction of the speech source to suppress the background noises. Experimental speech enhancement results under different type of background noises validated the effectiveness of the proposed method.【期刊名称】《厦门大学学报（自然科学版）》【年(卷),期】2013(052)002【总页数】4页(P186-189)【关键词】语音增强;麦克风阵列;可调波束形成器;广义旁瓣抵消器【作者】李芳兰;周跃海;童峰;洪青阳【作者单位】厦门大学信息科学与技术学院,福建厦门361005【正文语种】中文【中图分类】TN912.3在恶劣的噪声环境下单麦克风接收语音信号的质量将急剧下降，从而影响到语音识别、远程通话、声纹识别等语音信号处理技术的性能［1］.近年来，利用麦克风阵列作为语音信号采集前端来改善语音质量越来越受到人们的重视［2－3］.麦克风阵列利用了目标信号、噪声和干扰的空间信息，增强了期望方向的信号，抑制其他方向的信号，相对于单通道麦克风而言，能提供更好的增强效果［4］，因而得到了广泛的研究和应用.广义旁瓣抵消器（generalized sidelobe canceller，GSC）是一种常用的自适应波束形成方法［5］，它能很好地抑制相关干扰.然而，GSC算法的信号通路需要借助传统的广义互相关等定位方法［6－8］提供目标声源方位，当麦克风阵列接收的原始语音信号信噪比（SNR）较低时，会造成定位精度误差，影响了GSC算法的消噪性能.基于此，本文提出了一种采用可调波束形成器的GSC麦克风阵列语言增强算法，在GSC结构中的固定波束形成器前端引入各通道可调时延补偿，构造可调波束形成器进行声源方位估计，从而在目标声源方位获取阶段即可利用阵列的空间增益来提高方位估计性能.1 GSCGSC是自适应波束形成器的一种通用模型.线性约束自适应波束形成器可以看作是它的特例，这种模型不但简单，而且更具有一般意义.有M个麦克风的GSC由3部分组成［9］：固定波束形成器、阻塞矩阵和自适应噪声抵消器，如图1所示. 图1 GSC结构框图Fig.1 Structure of GSC图1中，各通道接收到的信号经过时延τi补偿后，使得各路输出信号xi（n）在目标信号方向上同步.固定波束形成器采用系数固定的滤波器对输入信号xi（n）进行滤波，并将滤波后的各路信号相加，实现目标语音的初步增强.阻塞矩阵的作用相当于一个空间陷波器，阻塞从目标信号方向上来的信号，而通过其他方向上的入射信号.通过调整自适应部分的系数Wk，最小化系统干扰和噪声的输出功率，最终得到增强后的目标语音信号.GSC自适应支路系数Wk的调节可利用实现简单的LMS（或NLMS）算法实现.2 可调波束形成器对基于GSC算法的经典自适应波束形成器，当存在目标语音方位测量误差时，噪声抑制性能受到较大的影响.要解决这个问题，必须减小背景噪声对传统时延估计算法带来的目标信号方向估计误差.而传统的利用相关求时延的方法在噪声和混响环境中的估计性能并不理想，直接影响了GSC的性能.因此，本文提出利用可调波束形成器获取目标语音信号方向.可调波束形成器结构如图2所示，它利用阵列形成不同波束角度时GSC的输出能量作为代价函数来估计波束对准声源时各通道语音的时延补偿值，以实现目标语音信号方向的定位.其基本思想是：假定目标信号入射角为α，利用不同的α求出对应的通道补偿时延值τ对各通道接收的语音信号进行时延补偿，然后通过传统GSC算法得到各自对应的增强语音，并比较不同α对应的输出信号能量，最大能量对应的α即为实际目标信号方向，相应的τ即为目标语音到达相邻麦克风的时延补偿值.图2 采用可调波束形成器的GSC结构图Fig.2 Structure of adjustablebeamformer GSC考虑图3中的均匀线列阵，阵列孔径为d，目标语音信号源为s1（n），其入射角估计值为αk.设声场为远场传播模型，声波以平行波方式传播.则αk可通过式（1）来确定：其中N为整数，N值越大，求出的入射角越精确.文中取N＝63.图3 均匀直线阵Fig.3 Uniform linear microphone array利用αk可求得相应的时延估计值τ（αk）：其中c为空气中声速.针对以fs采样频率采样后的数字信号，各通道时延补偿值应为采样点数，则需对τ（αk）取整，即：式中符号［］表示取整.对于偶数个麦克风组成的阵列，以阵列中心为坐标原点，对阵列接收信号进行端点检测后截取长为m的语音段记为xi（n），i＝1，2，…，M，对xi（n）进行时延补偿得：记将X（αk，n）通过固定波束形成通路，可得到入射角αk 波束形成的接收信号ya（αk，n）：其中权向量同时，X（αk，n）经过阻塞矩阵B滤除目标信号得到噪声估计信号：将U（αk，n）通过自适应滤波器抵消ya（αk，n）中的相应噪声成分，得到增强后的语音：其中，yN（αk，n）为自适应噪声抵消模块的输出，为滤波系数，且求出αk对应的输出语音段能量e（αk）作为可调波束形成器的代价函数：则目标语音信号实际方向α可通过式（9）来确定：相应地，α对应的时延值τ′（α）即为目标语音信号方向上的各通道时延补偿值.3 实验结果及分析本文在实验室中利用实测数据对该语音增强系统进行了测试，并将本文算法测试结果与采用广义互相关［6］进行定位的传统GSC算法输出进行了比较.实验室长约为7m，宽约为3m，麦克风阵列为由4个麦克风组成的间距d＝14cm的均匀线阵列.目标语音到麦克风阵列中心的距离为2.50m，通过位于68°方向的音箱播放.房间中空调、房间外来往的车声等构成了环境背景噪声（背景噪声级为57.9dB （A）），以位于135°方向的音箱播放的3种噪声为典型的干扰噪声源，包括白噪声、音乐噪声和语音噪声，音箱距麦克风阵列中心的距离为2.20m.麦克风阵列和音箱距地面的高度为1.10m.实验中采用的麦克风为单指向性的驻极体麦克风，阵列语音采样频率为16kHz，采样时间为3s.实验算法中相关参数设置如下：可调波束形成器模块语音段长度m ＝1 500，滤波器长度为L＝3，步长为μ＝0.2；2种算法中语音增强部分滤波器长度均为L＝20，步长为μ＝0.2.文中语音段的端点检测采用文献［10］的检测算法.表1给出了2种比较算法的语音增强结果.从表中可以看出，在3种不同噪声、不同SNR下，本文算法的消噪性能均优于传统的GSC算法.实验计算了不同背景噪声、不同SNR下阵列的波束指向图.图4以可调波束形成器代价函数e（αk）曲线的形式给出了语音噪声背景下3种不同SNR条件下阵列的波束指向图，图中实线箭头表示目标语音信号方向，虚线箭头表示干扰噪声方向.从图4可以看出，可调波束形成器通过角度α扫描形成的对准目标语音信号源的波束与实际方向一致，同时可调波束形成器也形成了对准噪声方向的波束，在不同SNR条件下语音信号源方向与噪声源方向波束呈现出不同的强度比.表1 2种算法语音增强结果比较Tab.1 Comparison of the speech enhancement results by two algorithms dB算法本文算法白噪声 17.55 20.22 29.91 13.49 17.32 26.54背景噪声带噪语音传统GSC 6.34 10.90 20.26音乐噪声 16.22 18.07 28.46 11.95 14.04 24.73 6.34 7.94 19.94语音噪声 19.05 22.49 30.75 14.81 20.00 28.35 11.63 16.63 25.07图5比较了参考信号、语音噪声背景下麦克风阵列中单个阵元接收到的信号、传统GSC输出和本文算法的输出时域波形.从图5也可以看出，本文算法对语音背景噪声的抵消性能明显优于传统的GSC算法.4 结论本文提出了采用基于可调波束形成器的GSC麦克风阵列语音增强方法，通过可调波束形成器对目标语音信号的声源方向进行估计，然后利用GSC进行噪声的抑制.在不同的背景噪声条件下，本文方法通过对可调波束形成器各通道目标语音信号进行的时延补偿，可获得较好的声源定向性能，减少了背景噪声对声源方向估计的影响.实验室语音增强实验结果表明了本文算法的有效性.图4 语音噪声背景下的可调波束形成器获取的语音信号指向图Fig.4 Beampattern of the linear microphone array under voice noise environment图5 语音噪声背景下时域波形比较Fig.5 Speech waveforms of clean，noisy and enhanced under voice noise environment【相关文献】［1］周跃海，童峰，洪青阳.采用DTW算法和语音增强的嵌入式声纹识别系统［J］.厦门大学学报：自然科学版，2012，51（2）：174－178.［2］罗金玉，刘建平，张一闻.麦克风阵列信号处理的研究现状与应用［J］.现代电子技术，2010（23）：80－84.［3］Flanagan J L，Berkley D A，Elko G W，et al.Autodirective microphone systems ［J］.Acoustica，1991，73（2）：58－71.［4］栗晓丽，傅丰林.基于子带TF－GSC麦克风阵列语音增强［J］.电子科技，2008，21（2）：33－36.［5］Griffths L J.An alternative approach to linearly constrained adaptive beamforming ［J］.IEEE Transactions on Antennas Propagation，1982，30（1）：27－34.［6］Knapp C H，Carter G C.The generalized correlation method for estimation of time delay［J］.IEEE Trans Acoustics，Speech，and Signal Processing，1976，24（4）：123－128.［7］夏阳，张元元.基于矩形麦克风阵列的改进的 GCCPHAT语音定位算法［J］.山东科学，2011，24（6）：75－79.［8］陶巍，刘建平，张一闻.基于麦克风阵列的声源定位系统［J］.计算机应用，2012，32（5）：1457－1459.［9］刘鹍鹏.麦克风阵列语音增强技术的研究与实现［D］.大连：大连理工大学，2007.［10］路青起，白燕燕.基于双门限两级判决的语音端点检测方法［J］.电子科技，2012，25（1）：13－19.。

《基于麦克风阵列的声源定位技术研究》

《基于麦克风阵列的声源定位技术研究》一、引言声源定位技术在现代音频处理、智能监控和人机交互等领域有着广泛的应用。

其中，基于麦克风阵列的声源定位技术，由于能够有效地进行空间定位，因此在军事、安全监控、语音交互等方面备受关注。

本文将重点介绍基于麦克风阵列的声源定位技术的研究现状、原理及方法，并探讨其未来的发展趋势。

二、声源定位技术的研究现状目前，声源定位技术主要分为两大类：基于传声器阵列的声源定位技术和基于声音传播特性的声源定位技术。

其中，基于麦克风阵列的声源定位技术以其高精度、高效率的特点在众多领域得到了广泛应用。

该技术通过多个麦克风组成的阵列，利用声音到达不同麦克风的时延差异，实现声源的定位。

三、麦克风阵列声源定位原理及方法1. 原理麦克风阵列声源定位技术主要依据声音传播的时延差异和阵列信号处理技术实现。

当声音传播到麦克风阵列时，由于不同麦克风之间的距离不同，导致声音到达各麦克风的时延存在差异。

通过测量这些时延差异，并结合阵列信号处理技术，即可实现对声源的定位。

2. 方法（1）基于时延估计的声源定位方法：该方法通过估计声音到达不同麦克风的时延，结合麦克风阵列的几何关系，计算出声源的位置。

（2）基于模式识别的声源定位方法：该方法利用机器学习、深度学习等技术，对声音信号进行特征提取和模式识别，从而实现对声源的定位。

（3）基于多传感器融合的声源定位方法：该方法将麦克风阵列与其他传感器（如摄像头、雷达等）进行融合，综合利用多种传感器的信息实现声源的精准定位。

四、声源定位技术的应用基于麦克风阵列的声源定位技术在众多领域有着广泛的应用。

在军事领域，可用于目标探测、战场监控等；在安全监控领域，可用于视频监控系统的音频辅助定位；在人机交互领域，可用于语音识别、智能音响等。

此外，该技术还可应用于医疗、娱乐等领域。

五、未来发展趋势随着人工智能、物联网等技术的不断发展，基于麦克风阵列的声源定位技术将迎来更广阔的应用前景。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Speech Enhancement using Microphone Array in Moving Vehicle Environment

Jaeyoun Cho Department of Electrical Engineering The Ohio State University Columbus, Ohio, USA chojQee.eng.ohi*state.edu Abstract This paper proposes a robust speech enhancement method combining spectml subtmction and beamfonn- ing, which can be used as a preprocessor for speech recognition system. Spectml subtraction is an eflective method to duce staionary additive noise fmm a single micmphone signal. However, it has a major drawback, in that it intduces musical noise. In this paper, it is demonstmted. that the pmposed method improves exist- ing spectral subtraction method8 and reduces its residual noise wing a microphone army. 1 Introduction Speech recognition can be a valuable addition in many applications of vehicle automation and mobile commu- nication. For example, vehicle devices such as cell- phones, PDAs, or computers can he controlled by the driver’s voice. However, the engine sounds and ambi- ent noise around the driver can seriously degrade the quality of speech received by control systems or mobile phones. Since safety is one of the critical issues mo tivating control of vehicles by voice, it is necessary to provide adequate speech recognition performance. Beamforming is one possible method of speech en- hancement that can be used inside a vehice. Beam- forming is a temporal and spatial filtering process us- ing an array of sensors, which emphasizes signals from a particular direction while attenuating noise or interfer- ence from the other directions [IS]. If the beamformer sets the main beam toward the driver’s mouth, there may be no need to put on a headset microphone to talk to the car control system or to phone someone. Beam- forming by itself, however, does not appear to provide enough improvement to signifcantly improve speech recognition performance. Further, the performance of beamforming becomes worse if the noise source comes from many directions or the speech has strong rever- beration (4][6]. Beamforming has been combined with BSS (blind source separation) techniques recently, but Ashok Krishnamurthy Department of Electrical Engineering The Ohio State University Columbus, Ohio, USA akkQee.eng.ohiwstate.edu

this needs much longer calculation time [IS]. Spectral subtraction, on the other hand, is an effective method to reduce additive noise from a single micrn- phone signal. It can outrival other techniques in en- hancing low SNR signal, and is simple to implement. However, spectral subtraction & introduce an unusual

residual noise called musical noise, which is very an- noying to human ears [Z]. It is known that the musical noise can be attenuated by smoothing spectral variance or applying a masking threshold [7][19].

This paper proposes a new method that combines the advantages of beamforming and spectral subtraction. Even though both spectral subtraction and beamform- ing can enhance speech, it is not desirable to apply the single channel algorithm independently to the micro- phone array signals, as these signals are strongly corre- lated to each other. This paper endeavors to develop a novel speech enhancement method based on psychoa- coustic concepts and proposes a method of combining spectral subtraction with beamforming. The important synergy here is that the number of microphones needed in beamforming is lessened and the musical noise of the spectral subtraction is attenuated with better SNR im- provement.

2 Algorithms 2.1 Proposed Method A speech enhancement method using a microphone ar- ray is proposed here. A speaker or a speech source is

located in the near-field of the microphone array. Since the arrival time of the speech wavefront is different to

each microphone as shown in Figure 1, the temporal differences between microphones should be known be- forehand to be aligned. For example, in case that kth microphone bas the longest distance from the source, the signal received on mth microphone should be de- layed by -. The fractional delay filters (FDs)

are used for aligning the arrival time of the speech wavefront [17].

0-7803-7848-2/03/$17.00 WOO3 IEEE 366