麦克风阵列信号处理的研究现状与应用

罗金玉等:麦克风阵列信号处理的研究现状与应用

麦克风阵列信号处理的研究现状与应用

(1.武警工程学院研究生大队,陕西西安710086;2.武警工程学院通信工程系,陕西西安710086)

摘要:在回顾麦克风阵列信号处理研究历程的基础上,对麦克风阵列信号处理的特点进行分析,总结了目前的研究热

点问题及现有算法并对各算法的优缺点进行比较,重点阐述了使用最为广泛的声源定位算法,最后介绍几个有价值的应用

领域,为进一步研究麦克风阵列信号处理奠定基础.

关键词:麦克风阵列信号处理;声源定位;TD0A;应用,

中图分类号:TN911-34文献标识码:A文章编号:1004—373X(2010)23—0080—05 StudyStatusandApplicationofMicrophoneArraySignalProcessing

LUOJin-yu,LIUJian-ping,ZHANGYi—wen

(1.Post—graduateManagingBrigade,EngineeringCollegeofArmedPoliceForce,Xi'an710086,Chi na;

2.DepartmentofC0mmunlcationEngineering,EngineeringCollegeofArmedPoliceForce, Xi'art710086.China)

Abstract:Theeharacteristicofthemicrophonearraysignalprocessingisanalyzedbasedonth ereviewfortheprogressof

microphonearraysignalprocessing.Thehotissuebeingstudiedrecentlyandtheexistingalgo rithmscorrespondingtoitare

summerized.Themeritsanddemeritsofthealgorithmsarecompared.Thewidely-usedsoun dsourcelocalizationalgerithmis

elaboratedemphatically.Somevaluableapplicationfieldsareintroduced.

Keywords:microphonearraysignalprocessing;soundsourcelocalization;TDOA;applicati

0弓l言

阵列信号处理的发展源于2O世纪40年代的自适

应天线组合技术,它使用锁相环进行天线跟踪.

1967年Widrow提出最小均方(LMS)自适应算法,标

志着阵列信号处理取得了显着进展.1969年Capon提出恒定增益指向最小方差波束形成器,通过增加已知信息的利用程度提高了对目标的分辨能力.1979年Schmidt提出多重信号分类(MUSIC)方法,开创了子

空间类阵列信号处理算法研究的先河,是阵列信号处理发展史上的一个重要里程碑.1986年Roy等人提出的基于旋转不变技术的信号参数估计方法(ESPRIT),相对MUSIC算法大大降低了计算量同时降低了算法对硬件的要求,为阵列信号处理的发展谱写了新的篇章. 麦克风阵列信号处理是阵列信号处理的一个新兴

分支,继承和发展了阵列信号处理理论算法,最早于

8O年代初期用于大型会议室的会议系统uj,证明了其在语音信号处理方面的独特优势.近年来它已成为现代信号处理的的重要研究热点之一,很多国际着名的公司和研究机构,如IBM,BEIL等,都致力于麦克风阵列收稿日期:2010—06—18

基金项目:国家自然科学基金资助项目(6094000)

的研究和产品开发.麦克风阵列正成为越来越流行的高质量语音拾取工具,预计在不久的将来将取代传统的桌面或头戴式麦克风].并且由于其在语音信号处理

上具有其他信号处理方法无法比拟的优势,被广泛应用于军事国防,智能空间,新型人机交互,机器人导航等众多领域,并且随着研究的不断深化,其研究应用的前景

也不断扩大.

1麦克风阵列信号处理的特点

麦克风阵列信号处理是阵列信号处理的一个新兴

分支.在很长的一段时间里,它的许多算法都是直接借

用或简单修改成熟的传统阵列信号处理算法.这在研

究初期大大推动了麦克风阵列信号处理的发展,但深入

的研究表明,这些算法往往无法应用于实际系统或是算

法性能不理想,这主要是因为麦克风阵列信号处理具备

以下区别于传统阵列信号的特点E~-73:

语音信号是宽带信号麦克风接收的语音信号没

有经过调制,阵元间时延和相位差与信号源的频率密切

相关.且不同类型的语音信号频谱差异很大,传统的窄

带信号处理算法不再适用.

语音信号是短时平稳信号麦克风接收信号为短

时平稳的语音信号,分析处理必须建立在短时的基础

《现代电子技术}2010年第23期总第334期通信与信息技术q 上,特别是当声源移动时,分析处理的难度变大.

应用环境存在高混响在一些非手持式智能语音

通信系统中,麦克风与说话人距离较远,特别是应用于

室内环境时,麦克风接收到的信号除语音直达外,还包

括大量经多次反射后形成的反射波,造成高混响,大大

降低了语音信号的质量.而且造成混响的原因很多,混

响模型很复杂,去混响难度大.

应用环境的噪声大且复杂在麦克风阵列应用中,

背景噪声很复杂且不同应用环境的噪声源也不同,如室

内外的噪声源差异就很大.因此提高信号信噪比难

度大.

2麦克风阵列信号处理的研究内容

2.1声源定位

麦克风阵列声源定位技术利用空间分布的多路麦

克风拾取声音信号,通过对麦克风阵列的各路输出信号进行分析和处理,得到一个或者多个声源的位置信息. 目前存在的声源定位算法主要包括基于波束形成的方法,基于高分辨率谱估计方法和基于到达时延差估计方法,它们分别将声源和阵列结构之间的关系转变为空间波束,空间谱函数或者多个到达时间差信息,然后通过估计这些信息进行声源定位.

2.1.1基于波束形成的定位方法

基于波束形成的定位算法是出现较早的定位方法,

通过对麦克风阵列接收到的语音信号进行滤波,加权求和,然后直接控制麦克风指向使波束有最大输出功率的方向.

..N

Lbea(q)一『xi(+矗)]dt(1)Jo一

式中:L表示波束输出;()表示各麦克风的接收信号.

式(1)就是一个典型的波束形成估计方程,通过调

整各麦克风接收信号的时延值r使输出信号达到最大,进而确定声源位置.因为解上述方程确定通常

是一个非线性的优化问题,无法直接计算得到,通常采用Newton—Raphson算法或最陡下降算法来确定最大值,而在声源定位系统中,最大值对应的t不是惟一的,取决于信号的初始值,许多研究人员提出采用峰值搜索的方法来解决这种问题_8].但目标函数和峰值搜索的计算量往往很大,这也成为基于波束形成定位方法最大的弊端.

2.1.2基于高分辨率谱估计的定位方法

基于高分辨率谱估计的定位方法通过求解阵列接

收信号的协方差矩阵获得空间谱函数,再由此信息进行

声源定位,包括自回归模型,最小方差频谱估计, MUSIC,ESPRIT,子空问拟合等.其中的很多方法只

能适用于远场模型,即要求麦克风阵列与声源的距离较远,远远大于麦克风阵元间距,并且麦克风是布置成线形.将其用于近场时,性能会下降很多.同时这种方法

也要进行峰值搜索,但它的峰值通常都比较尖锐].

2.1.3基于到达时延差(TDOA)的定位方法

基于到达时延差的定位方法是利用时延估计算法

求出信号到达阵列不同麦克风的相对时延,再利用这些时延信息和麦克风阵列的空间位置关系估计声源位置, 是麦克风阵列声源定位方法中应用最为广泛的方法. 基于到达时延差的定位方法已经成功地应用于雷达,声纳系统中,但是它们处理的信号是窄带信号,信噪比高. 应用于宽带,高混响的麦克风阵列定位系统时,需要添加一些特殊滤波器并进行预处理.

基于到达时延差定位法的第一步是准确计算时延

差.广义互相关函数(GeneralizedCrossCorrelation, GCC)是出现最早的方法,可以在时频两个领域进行计算时延差:

z(￡)一口5(￡一)+72(￡)(2)

r+..

(rlj)一lz(4-r0)()dt(3)

式中:-z()是麦克风的接收信号;()是声源信号是

衰减因子是延迟量;()是噪声;Y是两阵元的相关

函数.

相关函数.y最大值对应的r就是所要求的阵元i和

阵元J之间的时延差.为减少计算量,还可以对信号进行FFT变换,在频域做相关然后搜索峰值:

r+..

n,,(￡)一IX(厂)x(厂)edf(4)

式中:R(￡)是两阵元频域的相关函数;x(_厂)是麦克风接收信号z()的傅里叶变换.

为提高抗噪,抗混响性能,提高时延估计精度,还可

以通过加权函数来改进GCC,例如相位变换法(Phase Transform,PHAT),平滑变换法(SmoothedCoherence Transform,SCoT)等[.

r+..

R.(￡)一}gt(f)x(-厂)x(厂)edf(5)

式中:xF(f)为加权函数,PHAT中的(厂)为:

厂

最小均方(LeastMeanSquare,LMS)自适应滤波

和自适应特征值分解(AdaptiveEigenvalueDecompo—sitionAlgorithm,AEDA)等时延估计算法都在声源定

位中也到了广泛应用_1].但自适应方法依赖于实验8】

罗金玉等:麦克风阵列信号处理的研究现状与应用

的初始值并且计算时会产生较大的时延,无法适用于实时应用.文献[17-203等分别使用广义互相关函数,基

于语音信号模型或产生语音的激励源特征,最小平方和极大似然估计的方法给出了TDOA的估计或实现声源定位.

TDOA定位法的第二步是通过计算出的时延差来

确定声源位置.理论上,三个麦克风组成的阵列已经能确定声源位置,而增加麦克风的数量,即增加TDOA数据可以减小估计误差.通过TDOA来定位声源的方法有很多:例如极大似然法,最小方差法等.极大似然法

认定误差服从高斯分布,试图寻找误差最小点.而最小方差法是试图找到一个点使期望的TDOA值与实测的

TDOA值的方差和最小.

基于到达时延差TDOA的两步定位法,延时小,适

用于实时的声源定位与目标追踪.但存在的问题是

第一步从原始的麦克风接收数据中提取了时延差这一中间信息后,丢弃了其他的有用信息,只将TDOA用于第二步计算,造成信息损失.一种更好的方法是将原始数据中所有的中间信息保留,并都用于最后一步声源位置的确定.

2.2噪声抑制

噪声抑制是要去除观测信号中的噪声,获得高质量

的期望信号.由于通信过程中噪声的产生无法避免,并且严重影响语音信号的质量,因此噪声抑制一直是通信学研究的热点问题,也出现了许多基于单一接收阵元的噪声抑制方法.然而这些方法存在的最大问题是在抑

制噪声的同时,往往也影响了期望信号,付出信号可懂度下降的代价ll2.利用麦克风阵列独特的空间滤波特性,可以很好地解决这一问题,可以达到抑制噪声的同时不对期望信号产生任何干扰.

目前,基于麦克风阵列实现噪声抑制的方法主要有

自适应噪声对消和基于空间信息抑制噪声这两类方法, 其中,基于空间信息的方法又可分为两大类:基于波束形成原理的方法和基于盲信号分离的方法.而波束形

成方法又可以分为固定波束形成方法和自适应的波束形成方法,其基本原理是利用阵列的空间信息对目标声源形成过滤波束避免来自其他方向的噪声干扰.自适

应噪声对消,是实时地在信号静默期获取噪声的参考信号,来消弱噪声信号.

2.3去混响

混响是室内声源停止发声后,由于房间边界面或其

中障碍物使声波多次反射或散射而产生声音延续的现象,是对语音质量影响最大的因素之一,会严重降低语音信息的可懂度,因此,去混响是语音通信研究的一个重点问题.

目前去混响的方法主要分为三类:基于信源声学模

型去混响,通过同形转化分离混响和基于信道反转均衡去混响,其中,基于信道反转均衡去混响又分为直接反转,最小均方误差和多信道反转理论的方法引.

文献[23]应用倒谱预滤波技术来抑制房间混响,

文献[24]通过选取多个峰值进行线性交叉来削弱混响的影响.但由于这两种方法采用了理想房间模型,因此时延估计的抗混响性能较差.文献[25-J的自适应特征值分解算法直接从房间混响模型出发,通过自适应方法逼近房间冲激响应,进而估计时延,因而该方法在

混响较强的条件下仍有良好的估计性能.但该方法需要估计矩阵运算,计算量大,难以在实际系统中应用. 2.4声源盲分离

声源盲分离是要通过分析麦克风阵列的接收信号

来区分同一时刻来自不同方向的信号,由于无法获知信道的具体性能参数和声源信号,称为盲分离.充分利用信源信号独立性的独立成分分析法(IndependentCorn—ponentAnalysis,ICA)是声源盲分离使用较广的方法.

但是在高混响的环境下,基于ICA的算法性能下降很快,有待改进.

2.5鸡尾酒会效应

众所周知,即使在嘈杂的背景环境下,人也能集中

精神去听其中的某一种声音,这种有趣的心理声学现象被称为鸡尾酒效应.大量研究实验表明人的这种能力

得益于人有两只耳朵.人的大脑只需要根据两只耳朵

听到的声音强度就能有效地跟踪声源,这在麦克风阵列的应用上具有极大的指导意义,由此引发了一波研究鸡尾酒效应的热潮.

3麦克风阵列信号处理的应用

麦克风阵列信号处理具有十分广阔的应用前景,在

军事国防,智能化,远程控制,人机交互,电脑游戏,视频

会议,语音监测等许多领域都有重要的科研价值和潜在的实用价值,已经引起了许多国家学术界,工业界和军

界的高度重视.下面简要介绍麦克风阵列信号处理的

一

些应用.

3.1国防领域应用

麦克风阵列信号处理因其出色的语音信号处理能

力,被广泛应用于军事国防.国外在智能雷弹系统和战

场侦查系统研究中,广泛使用基于麦克风阵列的被动声探测,近几年还将麦克风阵列声源定位技术应用于飞机探测,直升机报警,炮位侦查,单兵声测系统,枪声定位等.AAI公司的PDCue系统将麦克风安装在车辆的

四角,可以提供低轮廓,360.的态势感知能力.在任何

环境下,PDCue系统都可以根据单发,多发和点射枪声《现代电子技术)2olo年第23期总第334期通信与信息迅速定位并跟踪枪声来源.

国内近几年也在麦克风阵列信号处理方面进行了

大量研究,受到国防科技重点实验室基金和国家自然科学基金的支持,并已取得了一定的成果.其中炮用立靶

声定位系统列入国家军用标准,弹头落点定位系统和敞开型胸环靶系统也已通过鉴定并列入国家军用标准. 3.2智能化领域应用

麦克风阵列信号处理可以自动高效地从接收的语

音信号中提取有用信息,适用于智能化领域.2003年

意大利里雅斯特大学和帕多瓦大学联合研制了智能声视联合多代理监视跟踪系统,对脚步声之类的声源进行轨迹跟踪,能实现对博物馆等公共场所的人流进行记录,或监测在某作品前人们停留的时间长短l2引. 2007年加拿大魁北克的珊不勒凯大学机电学院开发研制了避障机器人.机器人具有鲁棒的定位性能和通过

使用波束成形和粒子滤波能同时跟踪几个声源.

4结语

麦克风阵列信号处理是数字信号处理的一个新领

域,具备许多传统阵列信号处理无法比拟的优势,是目

前国内外的研究热点.很多国际着名的公司和研究机构,如IBM,BELL等,正致力于麦克风阵列的研究和产品开发.相信随着研究的不断深入,麦克风阵列信号处

理也必定会具备越来越广阔的应用前景.

[I]

参考文献

FLANAGANJ,J0HNSTONJ,ZAHNR,eta1. Computersteeredmicrophonearraysforsoundtransduc—tioninlargerooms[J].Acoust.Soc.Amer.,1985,78

(5):1508—1518.

[23FLANAGANJL,SURENDRANA,JANE.Spatially selectivesoundcaptureforspeechandaudioprocessing[J]. SpeechCommunication,1993,13(1/2):207—222.

[3]GRENIERY.Amicrophonearrayforcarenviroment

[c]//IEEEProceedingsofICASSP一92.SanFrancisco, CA,USA:ICASSP,1992,1:305—308.

[4]KELLERMANW.Aself-steeringdigitalmicrophonearray

[c]//IEEEProceedingsofICASSP一91.Toronto,Ont, Canada:ICASSP,1991,5:3581—3584.

[5]HERBORDTW,KELLERMANNWIAdaptivebeamforming foraudiosignalacquisition[c]//AdaptiveSignalProcessing: [6]

ApplicationstoReal—worldProblems.Berlin,Germany: Springer—Verlag,2003:321-325. COMPERNOLLEDV.Switchingadaptivefiltersforen—hancingnoisyandreverberantspeechfrommicrophonearray recordings[c]//Proc.IEEEICASSP,1990.Albuquerque,

NM:ICASSP,1990:833—836.

[7]DIBIASEJ.Ahigh—accuracy,low-latencytechniquefor talkerlocalizationinreverberantenvironmentsrD].Provi dence,USA:BrownUniversity,2000.

[83DIBIASEJ,sILVERMANH,BRANDsTEINM.Robust localizationinreverberantrooms[M]//BRANDsTEIN

Ms,WARDDB(eds.).MicrophoneArrays:Signal ProcessingTechniquesandApplications[s.I.]:Springer, 2001:208-360.

[9]KROLIKJ.Focusedwide—bandarrayprocessingforspatial spectralestimation[M].Beijing:PrenticeHall,1991.

El0]KNAPPcH,cARTERGc.Thegeneralizedcorrelation methodforestimationoftimedelay[J].IEEETrans.on Acoust.,Speech,SignalProcessing,1976,ASSP一24:

32O一327.

[11]RuIY,FLORENCIOD.Timedelayestimationinthe presenceofcorrelatednoiseandreverberationEc]//Pro—ceedingsofIEEEInternationalConferenceonAeoustics, Speech,andSignalProcessing(ICASSP04).Redmond,

WA,USA:MicrosoftRes.,2004:133—136.

[12]RuIY,FLORENCIODinei.NewdirectapproaChesto robustsoundsource1ocalizationrC]//Proc.ofIEEE

ICME2003.Baltimore,MD:ICME,2003:6-9.

r13]CARTERGC,NUTTALLAH,CABLEPG.The smoothedcoherencetransform[J].IEEESignal ProcessingLetters,1973,61:1497—1498.

r14]HUANGY.Real—timeacousticsource1ocalizationwith passivemicrophonearrays[D].Atlanta,GA:Georgia InstituteofTechnology,2001.

[15]HuANGYi—teng,BENEsTYJ,ELK0Gw.Aneffient linear—correctionleast—sq0aresapproachtosource1ocaliza一{ion[c]//2001IEEEWorkshopontheApplicationsof

Signa1ProcessingtoAudioandAcoustics.NY,USA: LucentTechno1.,2001:67—7O.

[16]HuANGY,BENESTYJ,ELKOGW.Adaptiveeigen—valuedecompositionalgorithmforreal—timeacousticsource localizationsystem[C]//1999IEEEInternational ConferenceonAcoustics,SpeechandSignalProcessing. Phoenix,AZ,USA:ICASSP,1999,2:937—940.

rl7]BECHLERDirk,KROSCHELKristian.Reliability criteriaevaluationforTD0Aestimatesinavarietyofre—alenvironments[C]//20051EEEInt.Conf.onAcous—

tics,SpeechandSignalProcessing(ICASSP).Philadel—phia,USA:ICASSP,2005:985—988.

[18]YEGNANARAYANAB,PRASANNASRM,RAO

KS.Speechenhancementusingexcitationsourceinforma—

tion[C]//Proc.ofIEEEInt.Conf.onAcoustics, SpeechandSignalProcessing(ICASSP).Orlando,FL: ICASSP,2002:541-544.

[19]cHENJc,YA0K,HUDSONRE.Sourcelocalization

等:麦夏阵歹IJ{言号处理的研究现状与应用andbeamformingⅢJ].IEEESignalProcessingMagazine, 2002,19(2):3O一39.

[2o]CHENJC,HUDSONRE,YAOK.Maximum—likelihood [21] sourcelocalizationandunknownsensorlocationestimation forwidebandsignalsinthenear—field[J].IEEETrans.on SignalProcessing,2002,50(8):1843—1854.

CHENJ,BENESTYJ,HUANGY,eta1.Newinsights intothenoisereductionWienerfilter[J].IEEETrans.on Audio,Speech,LanguageProcessing,2006,14:

]2]8一】234.

[22]HUANGY,BENESTYJ,CHENJ.Dereverberation [M]//BENESTYJ,SONDHIMM,HUANGYi—teng. HandbookofSpeechProcessing.Berlin,Germany: Springer,2007:145-282.

[23]CHAMPAGNEB,BEDARDS,STEPHENNEA.Per formanceoftimedelayestimationinthepresenceofroom reverberation[J].IEEETransactiononSpeechandAudio Processing,1996,4(2):148—152.

[24]PARISIR,cIRILLOA,PANELLAM,eta1.Source localizationinreverberantenvironmentsbyconsistentpeak selection[c]//IEEEInternationalConferenceonAcous—tics,SpeechandSignalProcessing.Hawaii:IEEE,2007,

1:137-14O.

[25]BENESTYJ.Adaptiveeigenvaluedecompositionalgo—rithmforpassiveacousticsourcelocalization[J].Journal

ofAcousticSocietyofAmeriea,2000,107(1):384—391.

[26]MUMOLOE,NOLICHM,MENEGATTIE,eta1.A multi——agentsystemforaudio——videotrackingofawalking

personin8structuredenvironment[c]//Proceedingsof WorkshoponMulti——agentRoboticSystemsTrendsandIn—- dustrialApplications.Padova,Italy:MRSTIA,2003:

323—326.

L27]V ALINjM,MICHAUDF,ROUATJ.Robustlocaliza—tionandtrackingofsimultaneousmovingsoundsources usingbeamformingandparticlefilteringJ-j].Roboticsand AutonomousSystemsJourna1,2007,55(3):216-228.

作者简介罗金玉女,1986年出生,湖南人,硕士研究生.主要研究方向包括现场声音信号感知,数字信号处理等.

刘建平男,1967年出生,陕西人,教授,博士.一直从事军事通信学,语音信号处理和医学信号处理等领域的研究.

张一闻男,1978年出生,内蒙古人,讲师,博士.主要研究方向为阵列信号处理,自适应信道跟踪及多速率通信.

(上接第79页)

参考文献

[1]范红,冯登国,吴亚非.信息安全风险评估方法与应用[M].

北京:清华大学出版社,2006.

[2]傅鹂,刘嘉伟,周贤林.基于业务的信息资产识别方法[J].

通信技术,2007,40(1o):238—240.

[3]范建华,薛岩龙.基于层面划分法的信息资产识别方法[J].

标准科学,2009(9):64—68.

[4],沙超,陈云芳.一种基于TCP/IP协议栈的操作系统识别技

术[J].计算机技术与发展,2006,16(10):125127.

[5]QUINLANJR.Inductionofdecisiontree[J].Machine

Learning,1986(1):81—106.

r6]BREIMANL,FRIEDMANJ.H,OLSHENR.A.Classifi—cationandregressiontrees[M].Belmont,CA:Wadsworth

InternationalGroup,1984.

[7]MEHTAM,AGRAWALR,RISSANENJ.SLIQ:Afast andscalableclassifierfordatamining[M].US:IBM

AlmadenResearchCenter,1996.

[8]QUINLANROSSJ.C4.5:Programsformachinelearning

[M].SanMate,CA:MorganKaufmannPublishers,1993.

[9]国君,段立娟,王实,等.数据挖掘原理与算法[M],北京:清

华大学出版社,2005.

[1o]杨学兵,张俊.决策树算法及其核心技术EJ].计算机技术

与发展,2007,17(1):43—45.

[11]黄爱辉.决策树C4.5算法的改进及应用[J].科学技术与

工程,2009,9(1):34—36.

[12]裴昌幸.现代通信系统与网络测量[M].北京:人民邮电出

版社,2008.

作者简介:杨艳女,1986年出生,陕西西安人,硕士研究生.主要研究方向为信息安全.

刘建华男,1963年出生,河北易县人,高级工程师.主要研究方向为信息安全.

田东平男,1955年出生,安徽泗县人,博士后,教授.主要研完方向为量子通信.

语音信号处理与及其MATLAB实现分析

目录摘要 (2) 第一章绪论 (3) 1.1 语音课设的意义 (3) 1.2 语音课设的目的与要求 (3) 1.3 语音课设的基本步骤 (3) 第二章设计方案论证 (5) 2.1 设计理论依据 (5) 2.1.1 采样定理 (5) 2.1.2 采样频率 (5) 2.1.3 采样位数与采样频率 (5) 2.2 语音信号的分析及处理方法 (6) 2.2.1 语音的录入与打开 (6) 2.2.2 时域信号的FFT分析 (6) 2.2.3 数字滤波器设计原理 (7) 2.2.4 数字滤波器的设计步骤 (7) 2.2.5 IIR滤波器与FIR滤波器的性能比较 (7) 第三章图形用户界面设计 (8) 3.1 图形用户界面概念 (8) 3.2 图形用户界面设计 (8) 3.3 图形用户界面模块调试 (9) 3.3.1 语音信号的读入与打开 (9) 3.3.2 语音信号的定点分析 (9) 3.3.3 N阶高通滤波器 (11) 3.3.4 N阶低通滤波器 (12) 3.3.5 2N阶带通滤波器 (13) 3.3.6 2N阶带阻滤波器 (14) 3.4 图形用户界面制作 (15) 第四章总结 (18) 附录 (19) 参考文献 (24)

摘要数字信号处理是将信号以数字方式表示并处理的理论和技术。数字信号处理与模拟信号处理是信号处理的子集。数字信号处理的目的是对真实世界的连续模拟信号进行测量或滤波。因此在进行数字信号处理之前需要将信号从模拟域转换到数字域，这通常通过模数转换器实现。而数字信号处理的输出经常也要变换到模拟域，这是通过数模转换器实现的。数字信号处理的算法需要利用计算机或专用处理设备如数字信号处理器（DSP）和专用集成电路（ASIC）等。数字信号处理技术及设备具有灵活、精确、抗干扰强、设备尺寸小、造价低、速度快等突出优点，这些都是模拟信号处理技术与设备所无法比拟的。数字信号处理的核心算法是离散傅立叶变换(DFT)，是DFT使信号在数字域和频域都实现了离散化，从而可以用通用计算机处理离散信号。而使数字信号处理从理论走向实用的是快速傅立叶变换(FFT)，FFT的出现大大减少了DFT的运算量，使实时的数字信号处理成为可能、极大促进了该学科的发展。 MATLAB是矩阵实验室（Matrix Laboratory）的简称，和Mathematica、Maple 并称为三大数学软件。它在数学类科技应用软件中在数值计算方面首屈一指。MATLAB可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等，主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。 MATLAB的基本数据单位是矩阵，它的指令表达式与数学、工程中常用的形式十分相似，故用MATLAB来解算问题要比用C，FORTRAN等语言完相同的事情简捷得多，并且mathwork也吸收了像Maple等软件的优点,使MATLAB成为一个强大的数学软件。在新的版本中也加入了对C，FORTRAN，C++ ，JAVA的支持。可以直接调用,用户也可以将自己编写的实用程序导入到MATLAB函数库中方便自己以后调用，此外许多的MATLAB爱好者都编写了一些经典的程序，用户可以直接进行下载就可以用。

基于麦克风阵列的语音增强方法

基于麦克风阵列的语音增强方法概述：在日常生活和工作中，语音通信是人与人之间互相传递信息沟通不可缺少的方式。在语音通信中，语音信号不可避免地会受到来自周围环境和传输媒介的外部噪声、通信设备的内部噪声及其他讲话者的干扰。这些干扰共同作用，最终使听者获得的是被噪声污染过的带噪声语音，严重影响了双方之间的交流。应用阵列信号处理技术的麦克风阵列能够充分利用语音信号的空时信息，具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点，逐渐成为强噪声环境中语音增强的研究热点。本文将介绍各种麦克风阵列语音增强方法，并总结各个方法的优劣。最终得出更好的、能够去噪的基于麦克风阵列的语音增强方法。 1麦克风阵列麦克风阵列是将两个麦克风的信号耦合为一个信号。在频率响应中也可以根据时域中波束形成与空间滤波器相仿的应用，分析出接收到语音信号音源的方向以及其变化。采用该技术，能利用两个麦克风接收到声波的相位之间的差异对声波进行过滤，能最大限度将环境背景声音滤掉，只剩下需要的声波。对于在嘈杂的环境下使用采用了这种配置的设备，在嘈杂的环境下能使听者听起来很清晰，没杂音。 2基于麦克风阵列的语音增强方法 2.1基于自适应波束形成器的麦克风阵列语音增强自适应波束形成是现在广泛使用的一类麦克风阵列语音增强方法。最早出现的自适应波束形成算法，其基本思想是在某方向有用信号的增益一定的前提下，使阵列输出信号的功率最小。在线性约束最小方差自适应波束形成器的基础上，1982 年Griffiths 和Jim 提出了广义旁瓣消除器成为了许多算法的基本框架。广义旁瓣消除器（GSC）的工作原理是带噪声的语音信号同时通过自适应通道和非自适应通道，自适应通道中的阻塞矩阵将有用信号滤除后产生仅包含多通道噪声参考信号，自适应滤波器根据这个参考信号得到噪声估计，最后由这个被估计的噪声抵消非自适应通道中的噪声分量，从而得到有用的纯净语音信号。麦克风阵列的自适应算法通过迭代运算获取波束形成的最优权矢量时，噪声模型的估计是一个非常关键的因素。它的好坏直接影响着系统波束形成的性能。系统地分析了最小均方( LMS) 自适应语音增强算法，并针对阻塞矩阵在估计噪声时存在的缺陷，在该算法的基础上提出了一种利用最小值控制递归平均( MCRA) 来估计噪声的方法。将此方法应用于波束形成，MCRA 估计出的噪声使LMS 自适应语音增强的效果更好和抗噪性更强。 2.2基于固定波束形成的麦克风阵列语音增强固定波束形成技术是最简单最成熟的一种波束形成技术。1985 年美国学者Flanagan 提出采用延时-相加波束形成方法进行麦克风阵列语音增强，该方法通过对各路麦克风接收到的信号添加合适的延时补偿，使得各路输出信号在某一方向上保持同步，并在该方向的入射信号获得最大增益。此方法易于实现，但要想获取较高的噪声抑制能力则需要增加麦克风数目，然而对非相干噪声没有抑制能力，环境适应性差，因此实际中很少单独使用。后来出现的微分麦克风阵列、超方向麦克风阵列和固定频率波束形成技术也属于固定波束形成。采用可调波束形成器的ＧＳＣ麦克风阵列语言增强算法，其实质在ＧＳＣ结构中的固定波束形成器前端引入各通道可调时延补偿，构造可调波束形成器进行声源方位估计，从而在目标声源方位获取阶段即可利用阵列的空间增益来提高方位估计性能。延迟求和波束形成器主要目的是增强主瓣方向目标信号，而抑制其他方向的噪声信号。

基于Matlab的语音信号处理与分析

系（院）物理与电子工程学院专业电子信息工程题目语音信号的处理与分析学生姓名指导教师班级学号完成日期：2013 年5 月目录 1 绪论.............................................................................................................. 错误!未定义书签。 1.1课题背景及意义................................................................................. 错误!未定义书签。 1.2国内外研究现状................................................................................. 错误!未定义书签。 1.3本课题的研究内容和方法................................................................. 错误!未定义书签。 1.3.1 研究内容................................................................................ 错误!未定义书签。 1.3.2 开发环境................................................................................ 错误!未定义书签。 2 语音信号处理的总体方案............................................................................ 错误!未定义书签。 2.1 系统基本概述.................................................................................... 错误!未定义书签。 2.2 系统基本要求与目的........................................................................ 错误!未定义书签。 2.3 系统框架及实现................................................................................ 错误!未定义书签。 2.3.1 语音信号的采样.................................................................... 错误!未定义书签。 2.3.2 语音信号的频谱分析............................................................ 错误!未定义书签。 2.3.3 音乐信号的抽取.................................................................... 错误!未定义书签。 2.3.4 音乐信号的AM调制.............................................................. 错误!未定义书签。 2.3.5 AM调制音乐信号的同步解调............................................... 错误!未定义书签。 2.4系统设计流程图................................................................................. 错误!未定义书签。 3 语音信号处理基本知识................................................................................ 错误!未定义书签。 3.1语音的录入与打开............................................................................. 错误!未定义书签。 3.2采样位数和采样频率......................................................................... 错误!未定义书签。 3.3时域信号的FFT分析......................................................................... 错误!未定义书签。 3.4切比雪夫滤波器................................................................................. 错误!未定义书签。 3.5数字滤波器设计原理......................................................................... 错误!未定义书签。 4 语音信号实例处理设计................................................................................ 错误!未定义书签。 4.1语音信号的采集................................................................................. 错误!未定义书签。

麦克风阵列模组设计方案

麦克风阵列模组设计方案一、麦克风阵列基本原理二、麦克风阵列的应用三、麦克风阵列模组的设计一、麦克风阵列基本原理阵列（Array）：数学定义--有限个相同资料形态之元素组成之集合麦克风阵列是指按一定距离排列放置的一组麦克风，通过声波抵达阵列中每个麦克风之间的微小时差的相互作用，麦克风阵列可以得到比单个的麦克风更好地指向性。在麦克风阵列的设计中首要的改进是引入了波束成形、阵列指向性与波束宽度的概念。波束的形成通过对所有麦克风信号的综合处理，麦克风阵列可以组合成为所要求的强指向性麦克风，形成被称为“波束”的指向特性。麦克风阵列的波束可以经由特殊电路或程序算法软件控制使其指向声源方向而加强音频采集效果。阵列算法处理后的指向性波束形成技术能精确的形成一个锥状窄波束，只接受说话人的声音同时抑制环境中的噪音与干扰。

图一使用单麦克风与采用波束形成技术麦克风阵列接收讲话者声音效果的对比

阵列指向性由于麦克风阵列的输出信号中包含比单只麦克风更低的噪声和回声成份，。麦克风阵列在1000Hz的典型指所以其固有噪声抑制能力要远高于单只麦克风。所以其固有噪声抑制能力要远高于单只麦克风向性波束图型如图二所示。其指向性图形要远好于任一款价格昂贵的高性能超心形麦克风。图二麦克风阵列在1000Hz的典型指向性波束图型

指向性指数另一个表证波束的参数是指向性指数。波束轴线））检测到指向性指数D表征的是麦克风阵列主响应轴（波束轴线的声源信号与需要屏蔽的各种噪声与回声信号的比值

二麦克风阵列的应用正确的麦克风阵列几何排列（数量，类型及麦克风的位置）关系到最后的声学效果。为了保证成功的设计和用户满意度，双元件麦克风阵列适用于在较安静的办公场所及室内的条件使用。这种阵列形成的是水平方向压缩后的较窄波束，使用时应将两个麦克风连线中点指向讲话者。其几何排布如图三、图四所示图三小型双麦克风阵列图四大型双麦克风阵列四元件麦克风阵列适用于在一般的办公场或较嘈杂的环境使用，当讲话者到麦克风的距离达到3-5M距离时，仍有很好的录音效果，见图五、图六图五4麦克风阵列图六L-形状的4麦克风阵列

西工大《阵列信号处理》考点整理

西工大《阵列信号处理》复习考点整理考试形式：一、8道问答题，每道题5分；二、六道大题，包括PPT 上老师给出的那一道。一 1. 均匀线列阵在波束扫描时，波束图怎么变化？当波束指向法线方向时，波束图具有最窄的主瓣宽度；随着阵元指向逐渐远离法线方向，主瓣一直指向所调方向并且展宽；除了指向法线方向外，主瓣都关于波束倾角轴不对称；当达到某一临界角时不能形成波束，但是在端射方向又可以形成波束。且在端射方向形成一个较宽的主瓣。 2．DI 是什么？ DI 表示指向性指数，其表达式为 D 为方向性，是阵列和孔径的一个常用性能度量。 ???=ππ φθθφθπφθ200 ),(sin 41) ,(P d d P D T T 3. DC 加权的特点（1）旁瓣级给定时，主瓣宽度最小；（2）主瓣宽度给定时，旁瓣级最低；（3）等旁瓣级。 4. 频域快拍模型是什么，步骤是什么，常用的频域快拍取的时间有什么关系？（1）记住《最优阵列处理技术》245页图 5.1 （2）步骤： ①把总的观测时间T 分为K 个不重叠的时间区域，区域长度为△T ； ②对时域快拍进行FT ； ③对频域向量（频域快拍）进行窄带波束形成； ④对上述频域信号进行IFT 。（3）△T 的选择准则 ①△T 必须远大于平面波通过阵列的传播时间； ②△T 依赖于输入信号的带宽和信号的时域谱，16≥??T B （B*△T 足够大，选用频域快拍模型）。 5. 什么是均匀阵的瑞利限？常规波束形成分辨率的极限。表达式为 6. 空间白噪声的阵增益的相关计算。阵列增益ωA 的定义为阵列的输出SNR 和一个阵元上的输入SNR 的比值。下标“ω”表示空域不相关的噪声输入。表达式如下：

语音信号处理试验教程

语音信号处理试验实验一：语音信号时域分析实验目的： (1)录制两段语音信号，内容是“语音信号处理”，分男女声。 (2)对语音信号进行采样，观察采样后语音信号的时域波形。实验步骤： 1、使用window自带录音工具录制声音片段使用windows自带录音机录制语音文件，进行数字信号的采集。启动录音机。录制一段录音，录音停止后，文件存储器的后缀默认为.Wav。将录制好文件保存，记录保存路径。男生女生各录一段保存为test1.wav和test2.wav。图1基于PC机语音信号采集过程。 2、读取语音信号在MATLAB软件平台下，利用wavread函数对语音信号进行采样，记住采样频率和采样点数。通过使用wavread函数，理解采样、采样频率、采样位数等概念！ Wavread函数调用格式： y=wavread（file），读取file所规定的wav文件，返回采样值放在向量y中。

[y，fs，nbits]=wavread（file），采样值放在向量y中，fs表示采样频率（hz），nbits表示采样位数。 y=wavread（file，N），读取前N点的采样值放在向量y中。 y=wavread（file，[N1，N2]）,读取从N1到N2点的采样值放在向量y中。 3、编程获取语音信号的抽样频率和采样位数。语音信号为test1.wav和test2.wav，内容为“语音信号处理”，两端语音保存到工作空间work文件夹下。在M文件中分别输入以下程序，可以分两次输入便于观察。 [y1,fs1,nbits1]=wavread('test1.wav') [y2,fs2,nbits2]=wavread('test2.wav') 结果如下图所示根据结果可知：两端语音信号的采样频率为44100HZ，采样位数为16。 4、语音信号的时域分析语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时，最先接触到并且夜市最直观的是它的时域波形。语音信

线性麦克风阵列定向性能的研究

线性麦克风阵列定向性能的研究? 段进伟, 史元春, 陈孝杰 (清华大学计算机科学与技术系，北京市海淀区， 100084) Study on the Directing Performance of the Linear Microphone Array Duan Jin-wei, Shi Yuan-chun, Chen Xiao-jie (Department of Computer Science and Technology, Tsinghua University, Beijing, 100084, China) + Corresponding author: Phn: +86-010-********-805, E-mail: saundradjw945@https://www.360docs.net/doc/c211757857.html, Received 2007-07-31; Accepted 2007-08-31 Abstract: Speech source localization technology, using microphone array, plays an important role in the area of human-computer interaction, especially that in smart space. The information of source position provided by the microphone array can be used in many place, such as dynamically adjust the parameters of the array in order to acquire high-quality speech audio, etc. Therefore, speech source localization has become a hot topic in both research and application areas. The objective of this paper is to analyze the affection on the symmetrical linear microphone array directing performance caused by the changes of microphone numbers, the spacing between microphones, the sampling frequency and so on. In order to accomplish this, we set up two linear microphone arrays with different hardware and designed comparative experiments. After the speech data was captured, an algorithm called SRP-PHAT was used to estimate the speech source direction. We analyzed the possible theoretic errors existed in the experiments carefully, and after the experiments, we analyzed the directing results, and compared the actual directing errors with the possible theoretic errors. At last, we summarized the performance of the two linear microphone arrays, and educed the configuration of the linear microphone array system when its integrative performance achieves the peak. Key words: linear microphone array; speech source directing; theoretic error; directing performance 摘要: 麦克风阵列在人机交互中有着重要的研究和应用价值。而线性均匀麦克风阵列最简单，其基本功能是声源的定向。本文通过实验分析各种参数变化对线性麦克风阵列定向性能的影响。我们搭建了硬件参数不同的两套线性麦克风阵列并设计了对比实验。使用SRP-PHAT算法定向声源。我们分析了声源定向时各种可能的理论误差，对实验结果进行了误差分析，并与可能的理论误差做了对比。通过理论分析和对比实验，本文提出了线性麦克风阵列系统的性能评价指标，并给出了综合性能最优时的麦克风阵列系统参数配置。关键词: 线性麦克风阵列; 声源定向; 理论误差; 定向性能中图法分类号: ****文献标识码: A ?Supported by National High-Tech Research and Development Plan of China under Grant No. 2006AA01Z198; 作者简介: 段进伟(1985－),男,云南昆明人,大学本科,主要研究领域为人机交互与普适计算;

阵列信号处理知识点

信号子空间：设N 元阵接收p 个信源，则其信号模型为：()()()()1 p i i i i x t s t a N t θ== +∑ 在无噪声条件下，()()()()()12,, ,P x t span a a a θθθ∈ 称()()()()12 ,, ,P span a a a θθθ为信号子空间，是N 维线性空间中的P 维子空间，记为P N S 。P N S 的正交补空间称为噪声子空间，记为N P N N -。正交投影设子空间m S R ∈，如果线性变换P 满足，则称线性变换 P 为正交投影。导向矢量、阵列流形设N 元阵接收p 个信源，则其信号模型为：()()()()1 p i i i i x t s t a N t θ== +∑，其中矢量()i i a θ称为导向矢量，当改变空间角θ，使其在空间扫描，所形成的矩阵称为阵列流形，用符号 A 表示，即 (){|(0,2)}a A θθπ=∈ 波束形成波束形成（空域滤波）技术与时间滤波相类似，是对采样数据作加权求和,以增强特定方向信号的功率，即 ()()()()H H y t W X t s t W a θ==，通过加权系数W 实现对θ的选择。最大似然已知一组服从某概率模型 ()f X θ的样本集12,, ,N X X X ，其中θ为参数集合，使条件概率 ()12,,,N f X X X θ最大的参数θ估计称为最大似然估计。不同几何形态的阵列的阵列流形矢量计算问题假设有P 个信源，N 元阵列，则先建立阵列的几何模型求第i 个信源的导向矢量()i i a θ 选择阵元中的一个作为第一阵元，其导向矢量()1 [1]i a θ= 然后根据阵列的几何模型求得其他各阵元与第一阵元之间的波程差 n ?，则确定其导向矢量 ()2j n i a e πλ θ? =

阵列信号处理方面10个经典程序

1.均匀线阵方向图 %8阵元均匀线阵方向图，来波方向为0度 clc; clear all; close all; imag=sqrt(-1); element_num=8;%阵元数为8 d_lamda=1/2;%阵元间距d与波长lamda的关系 theta=linspace(-pi/2,pi/2,200); theta0=0;%来波方向 w=exp(imag*2*pi*d_lamda*sin(theta0)*[0:element_num-1]'); for j=1:length(theta) a=exp(imag*2*pi*d_lamda*sin(theta(j))*[0:element_num-1]'); p(j)=w'*a; end figure; plot(theta,abs(p)),grid on xlabel('theta/radian') ylabel('amplitude') title('8阵元均匀线阵方向图') 当来波方向为45度时，仿真图如下：

8阵元均匀线阵方向图如下，来波方向为0度，20log（dB）

随着阵元数的增加，波束宽度变窄，分辨力提高：仿真图如下：

2.波束宽度与波达方向及阵元数的关系 clc clear all close all ima=sqrt(-1); element_num1=16; %阵元数 element_num2=128; element_num3=1024; lamda=0.03; %波长为0.03米 d=1/2*lamda; %阵元间距与波长的关系 theta=0:0.5:90; for j=1:length(theta); fai(j)=theta(j)*pi/180-asin(sin(theta(j)*pi/180)-lamda/(element_num1*d)); psi(j)=theta(j)*pi/180-asin(sin(theta(j)*pi/180)-lamda/(element_num2*d)); beta(j)=theta(j)*pi/180-asin(sin(theta(j)*pi/180)-lamda/(element_num3*d)); end figure; plot(theta,fai,'r',theta,psi,'b',theta,beta,'g'),grid on xlabel('theta'); ylabel('Width in radians') title('波束宽度与波达方向及阵元数的关系') 仿真图如下：

基于麦克风阵列的语音增强算法概述

- 29 - 基于麦克风阵列的语音增强算法概述丁猛（海军医学研究所，上海 200433）【摘要】麦克风阵列语音增强技术是将阵列信号处理与语音信号处理相结合，利用语音信号的空间相位信息对语音信号进行增强的一种技术。文章介绍了各种基于麦克风阵列的语音增强基本算法，概述了各算法的基本原理，并总结了各算法的特点及其所适用的声学环境特性。【关键词】麦克风阵列；阵列信号处理；语音增强【中图分类号】TN911.7 【文献标识码】A 【文章编号】1008-1151(2011)03-0029-02 （一）引言在日常生活和工作中，语音通信是人与人之间互相传递信息沟通不可缺少的方式。近年来，虽然数据通信得到了迅速发展，但是语音通信仍然是现阶段的主流，并在通信行业中占主导地位。在语音通信中，语音信号不可避免地会受到来自周围环境和传输媒介的外部噪声、通信设备的内部噪声及其他讲话者的干扰。这些干扰共同作用，最终使听者获得的语音不是纯净的原始语音，而是被噪声污染过的带噪声语音，严重影响了双方之间的交流。应用阵列信号处理技术的麦克风阵列能够充分利用语音信号的空时信息，具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点，逐渐成为强噪声环境中语音增强的研究热点。美国、德国、法国、意大利、日本、香港等国家和地区许多科学家都在开展这方面的研究工作，并且已经应用到一些实际的麦克风阵列系统中，这些应用包括视频会议、语音识别、车载声控系统、大型场所的记录会议和助听装置等。文章将介绍各种麦克风阵列语音增强算法的基本原理，并总结各个算法的特点及存在的局限性。（二）常见麦克风阵列语音增强方法 1.基于固定波束形成的麦克风阵列语音增强固定波束形成技术是最简单最成熟的一种波束形成技术。1985年美国学者Flanagan 提出采用延时-相加（Delay-and-Sum）波束形成方法进行麦克风阵列语音增强，该方法通过对各路麦克风接收到的信号添加合适的延时补偿，使得各路输出信号在某一方向上保持同步，并在该方向的入射信号获得最大增益。此方法易于实现，但要想获取较高的噪声抑制能力则需要增加麦克风数目，然而对非相干噪声没有抑制能力，环境适应性差，因此实际中很少单独使用。后来出现的微分麦克风阵列（Differential Microphone Arrays）、超方向麦克风阵列（Superairective Microphone Arrays ）和固定频率波束形成（Frequency-Invariant Beamformers）技术也属于固定波束形成。 2.基于自适应波束形成器的麦克风阵列语音增强自适应波束形成是现在广泛使用的一类麦克风阵列语音增强方法。最早出现的自适应波束形成算法是1972年由Frost 提出的线性约束最小方差（Linearly Constrained Minimum Variance,LCMV）自适应波束形成器。其基本思想是在某方向有用信号的增益一定的前提下，使阵列输出信号的功率最小。在线性约束最小方差自适应波束形成器的基础上，1982年Griffiths 和Jim 提出了广义旁瓣消除器（Generalized Sidelobe Canceller, GSC），成为了许多算法的基本框架（图1）。图1 广义旁瓣消除器的基本结构广义旁瓣消除器是麦克风阵列语音增强应用最广泛的技术，即带噪声的语音信号同时通过自适应通道和非自适应通道，自适应通道中的阻塞矩阵将有用信号滤除后产生仅包含多通道噪声参考信号，自适应滤波器根据这个参考信号得到噪声估计，最后由这个被估计的噪声抵消非自适应通道中的噪声分量，从而得到有用的纯净语音信号。如果噪声源的数目比麦克风数目少，自适应波束法能得到很好的性能。但是随着干扰数目的增加和混响的增强，自适应滤波器的降噪性能会逐渐降低。 3.基于后置滤波的麦克风阵列语音增强 1988年Zelinski 将维纳滤波器应用在麦克风阵列延时—相加波束形成的输出端，进一步提高了语音信号的降噪效果，提出了基于后置滤波的麦克风阵列语音增强方法（图2）。基于后置滤波的方法在对非相干噪声抑制方面，不仅具有良好的效果，还能够在一定程度上适应时变的声学环境。它的基本原理是：假设各麦克风接收到的目标信号相同，接收到的噪声信号独立同分布，信号和噪声不相关，根据噪声特性，【收稿日期】2010-12-30 【作者简介】丁猛（1983－），男，海军医学研究所研究实习员。

阵列信号处理

宽带信号中的三种二维平面阵DOA估计

宽带信号中的三种二维平面阵DOA 估计一．背景目前关于阵列窄带信号的高分辨算法已比较成熟，但是随着信号处理技术的发展，信号环境日趋复杂，信号形式多样，信号密度日渐增大，窄带阵列探测系统的确定逐渐显示出来。由于宽带信号具有目标回波携带的信息量大，有利于目标探测、参量估计和目标特征提取等特点，在有源探测系统中越来越多地得到应用。而在无源探测系统中，利用目标辐射的宽带连续谱进行目标检测是有效发现目标的一种重要手段。 ISM 方法把宽带信号在频域分解为J 个窄带分量，然后在每一个子带上直接进行窄带处理。因为信号为调频信号，所以信号在时域的分段实际上就是频域的分段。将信号分解为窄带信号后，我们就可以利用窄带算法进行处理，最后将各个结果进行加权综合，即可得到最终的结果。二维DOA 估计是阵列信号处理中的重要内容，通过二维DOA 估计可以得到信号源在平面中的角度信息。一般采用L 型、面阵和平行阵或矢量传感器实现二维参数的估计，多数有效的二维DOA 估计算法是在一维DOA 估计的基础上，直接针对空间二维谱提出的，如二维MUSIC 算法以及二维CAPON 算法等。这两种算法可以产生渐进无偏估计，但要在二维参数空间搜索谱峰，计算量相当大。而采用二维ROOT MUSIC 算法可以减小计算量，但是需要付出精度下降的代价。本次报告将结合宽带信号和二维DOA 估计算法，进行相关的算法介绍和仿真。二．算法介绍 1. 接收信号模型：图 1 平面阵列示意图如图1所示，设平面阵元数为M ×N ，信源数为K 。信源的波达方向为11(,),,(,)k k θφθφ ，第i 个阵元与参考阵元之间的波程差为： 2(cos sin sin sin cos )/i i i x y z βπφθφθθλ=++ 设子阵1沿x 轴的方向矩阵为x A ，而子阵2的每个阵元相对于参考阵元的波程差就等于子阵1的阵元的波程差加上2sin sin /d πφθλ，所以接收信号为

一文带你全面熟悉智能语音之麦克风阵列技术的原理

一文带你全面熟悉智能语音之麦克风阵列技术的原理麦克风阵列(Microphone Array)，从字面上，指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成，用来对声场的空间特性进行采样并处理的系统。早在20世纪70、80年代，麦克风阵列已经被应用于语音信号处理的研究中，进入90年代以来，基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”，这项技术的重要性显得尤为突出。麦克风阵列能干什么? 任何一项技术的发生发展都伴随着问题的提出及解决，麦克风阵列也是如此。那么它主要应用在哪些场景下呢?又有着怎样的功能! ◆【噪声环境怎么破?】——语音增强(Speech Enhancement) 语音增强是指当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后，从含噪声的语音信号中提取出纯净语音的过程。所以DingDong在嘈杂环境下，也能准确识别语音指令。通过麦克风阵列波束形成进行语音增强示意图从20世纪60年代开始，Boll等研究者先后提出了针对使用一个麦克风的语音增强技术，称为单通道语音增强。因为它使用的麦克风个数最少，并且充分考虑到了语音谱和噪声谱的特性，使得这些方法在某些场景下也具有较好的噪声抑制效果，并因其方法简单、易于实现的特点广泛应用于现有语音通信系统与消费电子系统中。但是，在复杂的声学环境下，噪声总是来自于四面八方，且其与语音信号在时间和频谱上常常是相互交叠的，再加上回波和混响的影响，利用单麦克风捕捉相对纯净的语音是非常困难的。而麦克风阵列融合了语音信号的空时信息，可以同时提取声源并抑制噪声。目前科大讯飞已经实现了基于线性阵列、平面阵列以及空间立体阵列的波束形成和降噪技术，效果均达到业界一流水平。 2013年科大讯飞车载降噪产品和国际竞争对手效果对比 ◆【说话人老是变幻位置怎么破?】——声源定位(Source Localization)

语音信号处理实验报告

通信与信息工程学院信息处理综合实验报告班级：电子信息工程1502班学号姓名成绩指导教师：设计时间：2018/10/22-2018/11/23 评语：通信与信息工程学院二〇一八年

实验题目：语音信号分析与处理一、实验内容 1. 设计内容利用MATLAB对采集的原始语音信号及加入人为干扰后的信号进行频谱分析，使用窗函数法设计滤波器滤除噪声、并恢复信号。 2．设计任务与要求 1. 基本部分（1）录制语音信号并对其进行采样；画出采样后语音信号的时域波形和频谱图。（2）对所录制的语音信号加入干扰噪声，并对加入噪声的信号进行频谱分析；画出加噪后信号的时域波形和频谱图。（3）分别利用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman 窗几种函数设计数字滤波器滤除噪声，并画出各种函数所设计的滤波器的频率响应。（4）画出使用几种滤波器滤波后信号时域波形和频谱，对滤波前后的信号、几种滤波器滤波后的信号进行对比，分析信号处理前后及使用不同滤波器的变化；回放语音信号。 2. 提高部分（5）录制一段音乐信号并对其进行采样；画出采样后语音信号的时域波形和频谱图。（6）利用MATLAB产生一个不同于以上频段的信号；画出信号频谱图。（7）将上述两段信号叠加，并加入干扰噪声，尝试多次逐渐加大噪声功率，对加入噪声的信号进行频谱分析；画出加噪后信号的时域波形和频谱图。（8）选用一种合适的窗函数设计数字滤波器，画出滤波后音乐信号时域波形和频谱，对滤波前后的信号进行对比，回放音乐信号。

二、实验原理 1.设计原理分析本设计主要是对语音信号的时频进行分析，并对语音信号加噪后设计滤波器对其进行滤波处理，对语音信号加噪声前后的频谱进行比较分析，对合成语音信号滤波前后进行频谱的分析比较。首先用PC机WINDOWS下的录音机录制一段语音信号，并保存入MATLAB软件的根目录下，再运行MATLAB仿真软件把录制好的语音信号用audioread函数加载入MATLAB仿真软件的工作环境中，输入命令对语音信号进行时域，频谱变换。对该段合成的语音信号，分别用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman窗几种函数在MATLAB中设计滤波器对其进行滤波处理，滤波后用命令可以绘制出其频谱图，回放语音信号。对原始语音信号、合成的语音信号和经过滤波器处理的语音信号进行频谱的比较分析。 2.语音信号的时域频域分析在Matlab软件平台下可以利用函数audioread对语音信号进行采样,得到了声音数据变量y,同时把y的采样频率Fs=44100Hz放进了MATALB的工作空间。上述程序是在Matlab软件中画出语音信号的时域波形(图1),回放录入声音。从图中可以看出在时域环境下,信号呈现出3个不规则的信号峰值。然后对语音信号进行频谱分析,在Matlab中可以利用函数fft对信号行快速傅里叶变换,得到信号的频谱图如图1所示。 3．MATLAB中的窗函数实际应用的窗函数，可分为以下主要类型： a) 幂窗--采用时间变量某种幂次的函数，如矩形、三角形、梯形或其它时间（t）的高次幂； b)三角函数窗--应用三角函数，即正弦或余弦函数等组合成复合函数，例如汉宁窗、海明窗等； c)指数窗--采用指数时间函数，如形式，例如高斯窗等。 d)平顶窗--平顶窗在频域时的表现就象它的名称一样有非常小的通带波动。不同的窗函数对信号频谱的影响是不一样的，这主要是因为不同的窗函数，产生泄漏的大小不一样，频率分辨能力也不一样。信号的截短产生了能量泄漏，而用FFT算法

麦克风阵列结构设计建议和方案参考

麦克风阵列结构设计建议和方案参考 1. 目的本文档主要用于指导麦克风阵列的在产品应用中的麦克结构设计参考和建议。 2. 麦克风结构总体设计要求 1）麦克风阵列需要减震密封处理，为保证麦克风的声音采集效果，能够满足语音识别和算法要求，通常采用将麦克风固定于硅胶套内（硅胶软硬度可根据实际结构形式进行匹配验证），且麦克风和硅胶之间有腔体存在； 2）麦克风阵列的数量、间距及安装位置要满足算法要求； 3）根据产品结构型式和产品需求，通常麦克风阵列的结构设计有两种型式：面壳安装方式和非面壳安装方式，两种方式的结构设计要求和建议参照下述方案说明。 3. 不同结构型式麦克风阵列结构设计方案介绍和说明 3.1 面壳安装方式方案该结构方案麦克风阵列和硅胶套装配后固定于面壳上，通过面壳上的拾音孔进行录音采集。 a) 3D 截面效果图 b) 设计说明（1）麦克风阵列的数量、间距和安装位置满足算法要求；（2）麦克风固定于硅胶套内，且注意麦克风和硅胶套及硅胶套上端和面壳内表面一定不能有空腔存在（避免腔体反射对麦克风录音效果影响）；（3）麦克风拾音端面和面壳拾音孔外表面之间距离越短越好，最长不要超过3mm ；（4）根据应用场景情况，可在麦克风表面增加防风棉（类似车载空调风直吹场景）和防尘

棉等零件。 3.2 非面壳安装方式：该结构形式通常麦克风阵列固定于密封减震硅胶套内，然后整个麦克风单元固定于PCB 上。 a) 3D 效果图 b) 设计说明（1）设计说明麦克风阵列的数量、间距和安装位置满足算法要求（2）麦克风阵列之间应保证通透性，麦克风相互之间不能有隔板等障碍物阻挡（3）麦克风单元上部（例如图1中的上方主板外壳B ）和麦克风拾音端面至少留5mm 的通透空间，如果是指向性麦克风，注意麦克风器件下方要留麦克风器件背面拾音孔空间和距离。

基于麦克风阵列的声源定位技术

目录一、绪论 (1) 1.1 课题研究背景和意义 (1) 1.2 国内外研究现状和发展趋势 (2) 1.2.1研究历史和现状 (2) 1.2.2发展趋势 (2) 1.3本文所要研究的内容 (2) 二、麦克风阵列的处理模型和方法介绍 (4) 2.1麦克风阵列信号处理模型 (4) 2.1.1远场模型 (4) 2.1.2远场麦克风阵列均匀线阵模型 (5) 2.2基于时延估计声源定位方法的介绍 (6) 2.2.1广义互相关时延估计法 (6) 2.2.2互功率谱相位时延估计法 (7) 2.2.3基于基音加权的时延估计法 (7) 2.2.4基于声门脉冲激励的时延估计法 (7) 2.2.5 基于LMS 的自适应时延估计法[8] (8) 2.2.6 基于子空间分解的时延估计法 (9) 2.2.7基于声学传递函数比的时延估计法 (9) 三、麦克风声源定位的研究与设计 (11) 3.1广义互相关时延估计设计流程 (11) 3.2 时延估计定位算法实验研究 (12) 3.3互相关延时估计方法 (12) 3.4互相关延时估计加权函数性能分析 (15) 3.5声源定位的模型分析 (16) 3.6时延估计的测量与计算 (17) 四、总结 (20) 4.1 本文研究的问题与难点 (20) 4. 2课题研究总结 (20) 参考文献 (22) 致谢 (24) 摘要随着科技的进步和发展，麦克风阵列的声源定位技术已经成为人们研究的重要课题之一。用麦克风阵列接受语音信号就是声源定位技术的一种，接受到的语音技术再输出到计算机，经过计算机技术的分析和处理，然后可以确定声源是从

哪个方位传过来的。声源定位技术的广泛应用在许多领域，如定位技术，在军事上的语音识别，视频会议的定位技术。麦克风阵列对于噪声、声源定位、跟踪这些方面都比单个麦克风要好，从而大大提高语音信号处理质量。本文主要是用麦克风阵和时延估计声源定位方法对于声源的定位。首先介绍了几种常见的声源定位方法和各自的优缺点，在此基础上研究基于时延估计的声源定位方法（GCC）,比较远场定位和近场定位的差别，确定本文研究的方法远场定位法。由于远场定位时，只需要测出声音信号到达各个麦克风阵列的时延（TDOA），剩下的就是简单的数学公式推导。由于该方法计算量小，易于实现的优点，实际应用比较广泛。关键词：麦克风阵列，声源定位，时延估计，GCC