基本语音增强方法

基本语音增强方法
基本语音增强方法

基本语音增强方法概述

摘要:语音增强是当今语音处理的一个非常重要的领域,本文主要介绍当今比较普遍的几种基于人耳掩蔽阈值的语音增强方法:谱减法,维纳滤波法,子空间方法等,并对它们的优缺点作简要论述。

关键词:语音增强、人耳掩蔽、谱减法、维纳滤波、子空间

现今时代的主流步伐将我们带向自动化方向,语音识别在这一背景下显得尤为重要。目前已经开发出好几款语音识别软件,但是如何较为精确地实现人耳的掩蔽效应下的语音增强,仍是大家着重解决的问题。它的首要目标就是在接收端尽可能从带噪语音信号中提取纯净的语音信号,改善其质量。目前已经出现了谱减法等一系列较为普遍的方法。本文将对这几种方法进行简要介绍。

一、语音的特性

语音信号是一种非平稳、时变的随机过程,其产生过程与发声器官的运动紧密相关。而发声器官的状态变化速度比声音振动的速度要缓慢得多,因此语音信号可以认为是短时平稳的。在一段短时间内其特性基本保持不变即相对稳定,从而可以应用平稳随机过程的分析方法来处理语音信号,并可以在语音增强中利用短时频谱的平稳特性。

人耳在嘈杂的环境中,仍然能够清晰地听到自己想听的内容,一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。在进行机器语音识别的时候,由于干扰信号和目标信号的强度差别不大,导致机器无法识别。这时语音增强就显得特别重要了。

二、时域方法

此类方法主要依赖于语音生成模型(例如AR模型)的使用,需要提取模型参数(如基音周期、LPC系数等),经常使用迭代方法。这种方法的最大缺点就是如果实际噪声或语音与模型有较大的差别,或者由于某些原因使得提取语音参数较困难,则这方法较容易失败。这类方法常用到一些滤波器,如梳状滤波器、维纳滤波器、卡尔曼滤波器等。

(1)经典的维纳滤波法是根据Winer-Hopf 积分方程求出纯语音和混合音

的传递函数来实现语音增强目的的。经典的算法常常只通过计算无声期间的统计平均来估计噪声功率谱,这是假设噪声的功率谱在发声前和发声期间基本没有变化前提下的,这样的估计和假设显然是不够全面的。另外,经典的算法能有效地抑制变化范围不大或是稳定的噪声,但是对实际中的变化范围很广的噪声效果不是很好。当然,也有很多改进的维纳滤波法,比如:计算无声段的统计平均得到初始噪声功率谱功率谱、计算语音段间带噪语音功率谱,并平滑处理初始噪声功率谱和带噪语音功率谱,更新噪声功率谱。也可以将维纳滤波扩展为卡尔曼滤波,适用于非平稳过程。

(2)子空间增强算法是将语音信号看成K 维向量空间,并将带噪信号分解为不相关的信号空间和噪声空间,以此消除噪声。这种方法主要利用基于特征值分解的KL 变换对语音信号进行分解,通过对信号失真误差和残留噪声两种判别函数的控制以平衡语音质量和可懂度。也可以将子空间增强算法与人耳的掩蔽阈值结合,基于掩蔽特性的子空间增强算法在主客观上作了良好的折衷,去噪效果明显,且语音出现的同时保留了一定的平滑背景噪声而非突兀噪声,主观感觉较舒适。

三、频域方法

这类方法的重点是将估计的对象放在语音信号的短时谱幅度上。非参数方法主要包括谱减法、自适应滤波法等。

(1)谱减法(SS:Spectral Subtraction)是在假定加性噪声与短时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为纯净的语音频谱。

设s(t)为纯净语音信号,n(t)为噪声信号,y(t)为带噪语音信号,则有: y(t) = s(t) + n(t)

傅里叶变换后可得功率谱密度,假定语音信号与加性噪声是相互独立的,则可以由发声前只有噪声时的功率谱得出语音的功率谱,而最后IFFT变换中需要借助相位谱来恢复降噪后的语音时域信号。由于人耳对于相位变化不敏感,且Ephraim Y 和 Malah D 证明在一定条件下语音相位的最小均方误差(MMSE)估计值就是带噪语音相位本身,因此, 基于STSA估计的语音增强方法一般都直接采用带噪语音的相位作为增强语音的相位。

但是,语音和噪声的非平稳性会造成谱估计的不完全准确,所产生的音乐噪声严重影响了语音的可懂度,如在进行谱减时,若该帧某频点噪声分量较大,就会有很大一部分噪声残留,在频谱上呈现随机的尖峰,在听觉上形成有节奏性起伏的类似音乐的残留噪声,俗称为音乐噪声。大多语音增强算法在追求减小噪声的同时,也导致较严重的语音畸变度,尽管噪声去除的效果很有效,但语音畸变度很大。

采用平滑系数来改进谱减法的做法十分普遍。先验信噪比估计中平滑系数和噪声谱估计中平滑系数较小时,语音畸变和噪声残留都较少,但残留的音乐噪声显著;反之,语音畸变和噪声残留较多,但残留的音乐噪声较少。所以,对于纯噪声帧和带噪语音帧的平滑系数取值应该是不一样的,同济大学研究出来的SAP参数,则是根据人耳掩蔽效应将带噪语音状态继续分化为噪声被掩蔽的状态和噪声未被掩蔽的状态来改进SAP参数,再利用改进的SAP参数自适应调节语音平滑系数。这样更符合语音和噪声的特性,可以在去噪度、残留“音乐噪声”和语音畸变度之间取得很好的均衡。

(2)自适应抵消法

自适应抵销法以噪声干扰为处理对象,将其抑制掉或进行非常大的衰减,以提高信号传递和接受的信噪比质量。利用由自适应滤波器所构成的自适应噪声干抵消系统,可以获得自动跟踪捕捉噪声干扰源和高信噪比的优异性能。但是需要一个在实际环境中很难获得的参考噪声源,且伴随一定的音乐噪声,实际中并不很实用。

自适应噪声对消原理

(3)隐马尔可夫模型法

可以采用基于状态空间的变换方法,对不同类别的语音和噪声信号建立不同

的模型。HMM的各个状态可以对带噪信号、噪声信号所有不同的区域进行充分的建模,将带噪信号中的噪声信号部分去除就可得到语音的增强,甚至于在只有带噪信号的情况下,利用HMM对状态转移概率进行建模,将可能为噪声的信号部分滤除就可以做到语音增强。

(4)短时幅度谱估计法

基于短时幅度谱估计的语音增强算法中,采用了最小均方误差准则或者最大似然准则估计原始语音信号的幅度谱,使得语音信号的时域波形或者频谱在某种准则下失真最小。

四、统计方法

统计法较充分地利用了语音和噪声的统计特性,一般要建立模型库,通过训练过程获得初始统计参数,并且在后续的工作过程中要根据实际的数据实时的更新这些统计参数,以使模型能更好的符合实际情况。这类方法里面主要包括最小均方误差估计(MMSE,Minimum Mean Square Error)、对数谱估计的最小均方误差(MMSE-LSA,Minimum Mean-Square Error Log-SpectralAmplitude)、听觉掩蔽效应(Masking Effect)等

五、其他方法

(1)小波变换

小波变换在时域和频域同时具有良好的局部化特性,信号和噪声的小波系数在不同尺度上有不同的性质,所以,我们可以构造相应的规则,减小由噪声产生的系数,同时最大限度地保留真实信号的系数,最后经过小波系数重构,得到真实的信号。

这几种语音增强算法并不是独立的,它们可以互相融合,取长补短,但是目前为止还没有找到一种可以与人耳的灵敏度想媲美的、舒适的语音识别方法。

参考文献:

1、《改进的基于人耳掩蔽效应谱减语音增强算法》赵晓群, 黄小珊

2、《基于人耳掩蔽效应的语音增强算法研究》陈国明,邹采荣

3、《基于人耳掩蔽效应的子空间语音增强算法实现》夏菽兰,章明,赵力

4、《一种基于短时谱估计和人耳掩蔽效应的语音增强算法》陈国明,赵力,邹国荣

5、《基于自适应噪声抵消的语音增强算法》孙伟英

6、《基于感知滤波器与统计方法的语音增强新算法》王娜,郑德忠,孙海燕,陈伟

7、《基于时域滤波器的语音增强算法研究》张涛,李辉

8、《基于小波变换的语音算法研究》彭秀娟

9、《基于小波变换的语音增强研究》胡海波,刘伯森,许银

基于麦克风阵列的语音增强方法

基于麦克风阵列的语音增强方法 概述:在日常生活和工作中,语音通信是人与人之间互相传递信息沟通不可缺少的方式。在语音通信中,语音信号不可避免地会受到来自周围环境和传输媒介的外部噪声、通信设备的内部噪声及其他讲话者的干扰。这些干扰共同作用,最终使听者获得的是被噪声污染过的带噪声语音,严重影响了双方之间的交流。应用阵列信号处理技术的麦克风阵列能够充分利用语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,逐渐成为强噪声环境中语音增强的研究热点。本文将介绍各种麦克风阵列语音增强方法,并总结各个方法的优劣。最终得出更好的、能够去噪的基于麦克风阵列的语音增强方法。 1麦克风阵列 麦克风阵列是将两个麦克风的信号耦合为一个信号。在频率响应中也可以根据时域中波束形成与空间滤波器相仿的应用,分析出接收到语音信号音源的方向以及其变化。采用该技术,能利用两个麦克风接收到声波的相位之间的差异对声波进行过滤,能最大限度将环境背景声音滤掉,只剩下需要的声波。对于在嘈杂的环境下使用采用了这种配置的设备,在嘈杂的环境下能使听者听起来很清晰,没杂音。 2基于麦克风阵列的语音增强方法 2.1基于自适应波束形成器的麦克风阵列语音增强 自适应波束形成是现在广泛使用的一类麦克风阵列语音增强方法。最早出现的自适应波束形成算法,其基本思想是在某方向有用信号的增益一定的前提下,使阵列输出信号的功率最小。在线性约束最小方差自适应波束形成器的基础上,1982 年Griffiths 和Jim 提出了广义旁瓣消除器成为了许多算法的基本框架。 广义旁瓣消除器(GSC)的工作原理是带噪声的语音信号同时通过自适应通道和非自适应通道,自适应通道中的阻塞矩阵将有用信号滤除后产生仅包含多通道噪声参考信号,自适应滤波器根据这个参考信号得到噪声估计,最后由这个被估计的噪声抵消非自适应通道中的噪声分量,从而得到有用的纯净语音信号。 麦克风阵列的自适应算法通过迭代运算获取波束形成的最优权矢量时,噪声模型的估计是一个非常关键的因素。它的好坏直接影响着系统波束形成的性能。系统地分析了最小均方( LMS) 自适应语音增强算法,并针对阻塞矩阵在估计噪声时存在的缺陷,在该算法的基础上提出了一种利用最小值控制递归平均( MCRA) 来估计噪声的方法。将此方法应用于波束形成,MCRA 估计出的噪声使LMS 自适应语音增强的效果更好和抗噪性更强。 2.2基于固定波束形成的麦克风阵列语音增强 固定波束形成技术是最简单最成熟的一种波束形成技术。1985 年美国学者Flanagan 提出采用延时-相加波束形成方法进行麦克风阵列语音增强,该方法通过对各路麦克风接收到的信号添加合适的延时补偿,使得各路输出信号在某一方向上保持同步,并在该方向的入射信号获得最大增益。此方法易于实现,但要想获取较高的噪声抑制能力则需要增加麦克风数目,然而对非相干噪声没有抑制能力,环境适应性差,因此实际中很少单独使用。后来出现的微分麦克风阵列、超方向麦克风阵列和固定频率波束形成技术也属于固定波束形成。 采用可调波束形成器的GSC麦克风阵列语言增强算法,其实质在GSC结构中的固定波束形成器前端引入各通道可调时延补偿,构造可调波束形成器进行声源方位估计,从而在目标声源方位获取阶段即可利用阵列的空间增益来提高方位估计性能。延迟求和波束形成器主要目的是增强主瓣方向目标信号,而抑制其他方向的噪声信号。

基本语音增强方法

基本语音增强方法概述 摘要:语音增强是当今语音处理的一个非常重要的领域,本文主要介绍当今比较普遍的几种基于人耳掩蔽阈值的语音增强方法:谱减法,维纳滤波法,子空间方法等,并对它们的优缺点作简要论述。 关键词:语音增强、人耳掩蔽、谱减法、维纳滤波、子空间 现今时代的主流步伐将我们带向自动化方向,语音识别在这一背景下显得尤为重要。目前已经开发出好几款语音识别软件,但是如何较为精确地实现人耳的掩蔽效应下的语音增强,仍是大家着重解决的问题。它的首要目标就是在接收端尽可能从带噪语音信号中提取纯净的语音信号,改善其质量。目前已经出现了谱减法等一系列较为普遍的方法。本文将对这几种方法进行简要介绍。 一、语音的特性 语音信号是一种非平稳、时变的随机过程,其产生过程与发声器官的运动紧密相关。而发声器官的状态变化速度比声音振动的速度要缓慢得多,因此语音信号可以认为是短时平稳的。在一段短时间内其特性基本保持不变即相对稳定,从而可以应用平稳随机过程的分析方法来处理语音信号,并可以在语音增强中利用短时频谱的平稳特性。 人耳在嘈杂的环境中,仍然能够清晰地听到自己想听的内容,一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。在进行机器语音识别的时候,由于干扰信号和目标信号的强度差别不大,导致机器无法识别。这时语音增强就显得特别重要了。 二、时域方法 此类方法主要依赖于语音生成模型(例如AR模型)的使用,需要提取模型参数(如基音周期、LPC系数等),经常使用迭代方法。这种方法的最大缺点就是如果实际噪声或语音与模型有较大的差别,或者由于某些原因使得提取语音参数较困难,则这方法较容易失败。这类方法常用到一些滤波器,如梳状滤波器、维纳滤波器、卡尔曼滤波器等。 (1)经典的维纳滤波法是根据Winer-Hopf 积分方程求出纯语音和混合音

语音信号数字水印技术

数字信号处理课程设计报告 题目:语音信号水印技术系统设计 系(院): 专业: 班级: 学号: 姓名: 指导教师: 学年学期:2013 ~ 2014 学年第学期 2013年月日

摘要 随着网络和信息技术的发展,越来越多的数字多媒体信息通过网络进行传播,与传统的模拟媒体相比,数字媒体产品的编辑、复制和传播都很方便,它一方面促进了社会的进步与发展,另一方面正是这些优点突出了版权问题。由于数字多媒体信息很容易被未经授权的用户复制,且采用传统密码方法加密,不能完全解决盗版问题。 数字水印技术正是应运而生的信息隐藏技术,它通过特定的水印算法把版权信息嵌入在数字产品中,被嵌入的可以是一段文字、标识、序列号等等,人们无法从表面上感知水印的存在,只有专用的检测仪器或计算机软件才可以检测出隐藏的数字水印,从而达到了保护数字作品的所有者利益的目的,并促进了数字产品的开发与使用。在数字产品中,音频数据产品的版权保护也显得越来越重要,因为随着数字化音像制品和音乐制品的大量制作与发行,一个令人关注的突出问题是网上下载音乐对传统CD 业的巨大冲击。音频水印技术主要利用了人类听觉模型,在不影响音频信号质量的前提下,将水印信息隐藏在人耳不能感知的位置,来隐藏水印数据。本文主要研究语音信号水印技术,利用小波变换的优点和特性对音频信号嵌入水印,并提取。使嵌入水印音频想好具有良好的安全性,鲁棒性和不可感知性。 关键词数字水印嵌入提取小波变换

目录 1 课题综述 (1) 1.1数字水印技术的介绍 (1) 1.2 数字水印设计原理 (2) 2系统分析与设计 (3) 2.1涉及基础知识 (3) 2.2算法的流程图 (5) 2.3算法实现 (5) 3代码编写 (7) 3.1主要代码 (7) 3.2程序调试 (10) 3.3程序运行与测试 (10) 结论 (14) 致谢 (16) 参考文献 (17)

线性麦克风阵列定向性能的研究

线性麦克风阵列定向性能的研究? 段进伟, 史元春, 陈孝杰 (清华大学计算机科学与技术系,北京市海淀区, 100084) Study on the Directing Performance of the Linear Microphone Array Duan Jin-wei, Shi Yuan-chun, Chen Xiao-jie (Department of Computer Science and Technology, Tsinghua University, Beijing, 100084, China) + Corresponding author: Phn: +86-010-********-805, E-mail: saundradjw945@https://www.360docs.net/doc/2816732949.html, Received 2007-07-31; Accepted 2007-08-31 Abstract: Speech source localization technology, using microphone array, plays an important role in the area of human-computer interaction, especially that in smart space. The information of source position provided by the microphone array can be used in many place, such as dynamically adjust the parameters of the array in order to acquire high-quality speech audio, etc. Therefore, speech source localization has become a hot topic in both research and application areas. The objective of this paper is to analyze the affection on the symmetrical linear microphone array directing performance caused by the changes of microphone numbers, the spacing between microphones, the sampling frequency and so on. In order to accomplish this, we set up two linear microphone arrays with different hardware and designed comparative experiments. After the speech data was captured, an algorithm called SRP-PHAT was used to estimate the speech source direction. We analyzed the possible theoretic errors existed in the experiments carefully, and after the experiments, we analyzed the directing results, and compared the actual directing errors with the possible theoretic errors. At last, we summarized the performance of the two linear microphone arrays, and educed the configuration of the linear microphone array system when its integrative performance achieves the peak. Key words: linear microphone array; speech source directing; theoretic error; directing performance 摘 要: 麦克风阵列在人机交互中有着重要的研究和应用价值。而线性均匀麦克风阵列最简单,其基本功能是声源的定向。本文通过实验分析各种参数变化对线性麦克风阵列定向性能的影响。我们搭建了硬件参数不同的两套线性麦克风阵列并设计了对比实验。使用SRP-PHAT算法定向声源。我们分析了声源定向时各种可能的理论误差,对实验结果进行了误差分析,并与可能的理论误差做了对比。通过理论分析和对比实验,本文提出了线性麦克风阵列系统的性能评价指标,并给出了综合性能最优时的麦克风阵列系统参数配置。 关键词: 线性麦克风阵列; 声源定向; 理论误差; 定向性能 中图法分类号: ****文献标识码: A ?Supported by National High-Tech Research and Development Plan of China under Grant No. 2006AA01Z198; 作者简介: 段进伟(1985-),男,云南昆明人,大学本科,主要研究领域为人机交互与普适计算;

多通道语音增强方法简介

多通道语音增强方法简介 【摘要】由于多麦克风越来越多地部署到同一个设备上,基于双麦克风和麦克风阵列的多通道语音增强研究有了较大的应用价值。介绍了自适应噪声对消法、FDM等双通道语音增强方法和波束形成、独立分量分析等麦克风阵列语音增强方法,对各个方法的原理、发展和优缺点进行了详细分析和总结,对多通道语音增强深入研究有一定帮助。 【关键词】语音增强;双通道;麦克风阵列;波束形成 1.引言 语音是人们通讯交流的主要方式之一。我们生活的环境中不可避免地存在着噪声,混入噪声的语音会使人的听觉感受变得糟糕,甚至影响人对语音的理解。在语音编码、语音识别、说话人识别等系统中,噪声也会严重影响应用的效果。语音增强成为研究的一个问题,其模型如图1所示。 图1 语音增强模型 按照采集信号的麦克风数量分类,语音增强方法可被分为单通道(single channel)、双通道(dual-channel)、麦克风阵列(microphone array)三种类型。一般来说,麦克风越多,去噪的效果越好。早期,大部分通信/录音终端都只配有一个麦克风,因此单通道语音增强吸引了大量研究者的目光,方法较为成熟。但单通道方法的缺点是缺少参考信号,噪声估计难度大,增强效果受到限制。近年来随着麦克风设备的小型化和成本的降低,双麦克风和麦克风阵列越来越多地被部署。研究者的注意力也在从单通道语音增强向双通道和麦克风阵列语音增强转移,这里对已有的多通道语音增强算法作以简单介绍。 2.双通道语音增强方法 在语音增强中,一个关键的问题就是获得噪声。在单通道语音增强中,噪声是通过从带噪语音信号中估计得到的,估计算法较为复杂且估计噪声总是与真实噪声存在差异,这就限制了增强效果的提高。为了获得真实噪声,简单的做法就是增加一个麦克风来采集噪声。从带噪语音信号中减去采集噪声来得到语音信号,这种方法叫做自适应噪声对消法(ANC,adaptive noise canceling),是最原始的最简单的双通道语音增强算法。针对双麦克风开发的算法不多,主要有噪声对消法、一阶差分麦克风(FDM,first-order differential microphone)及基于FDM 改进得到的自适应零陷波束形成法(ANF,adaptive null-forming)。 2.1 自适应噪声对消法 噪声对消法采用两个麦克风,一个麦克风采集带噪语音,另一个采集噪声信号,用带噪信号减去噪声信号,得到语音信号。减操作一般在频域进行,如果采

语音增强算法的研究与实现

语音增强算法的研究与实现 目录 目 录 ..................................................................... ............................................................ I 河西学院本科生毕业论文(设计)诚信声 明 ................................... 错误~未定义书签。I 河西学院本科生毕业论文(设计)任务 书 ...................................... 错误~未定义书签。II 河西学院本科毕业论文(设计)开题报 告 ..................................... 错误~未定义书签。IV 摘 要 ..................................................................... .................................................................. I Abstract ........................................................... ....................................................................... I 1 引 言 ..................................................................... .. (1) 2 语音增强算法概 述 ..................................................................... (1)

教学方法与教学策略

第二章:教学方法与教学策略 一、学习的目的 通过本章的学习,掌握教学方法和教学策略的概念,我国中小学常用的方法和策略;掌握教学方法划分的依据和标准;了解当前我国中小学常用的教学方法;掌握教学方法和教学策略选用的基本标准、原则和技巧;在教学策略的选用上,重点掌握制定和选择教学策略的依据和原则;了解当代教学方法和教学策略的发展趋向。 二、学习要点 (一)教学方法的概念 教学方法是在教学过程中,教师和学生为实现教学目的,完成教学而采取而采取的教与学相互作用的活动方式的总称。 (二)国内外教学法的分类 1、国外教学法的分类 美国学者拉斯卡提出:“教学方法就是发出和学生接受学习刺激的程序。”这些学习刺激称之为A、B、C、D刺激,由此形成四种教学方法。 (1)呈现方法 (2)实践方法 (3)发现方法 (4)强化方法 2、我国教学方法的概括性分类。 从具体到抽象,教学方法由三个层次构成: (1)操作性教学方法

(2)原理性教学方法 (3)技术性教学方法 (三)我国中小学常用的教学方法 我国中小学常用的教学方法分为九种,即讲授法、谈话法、读书指导法、练习法、演示法、实验法、实习作业法、讨论法、研究法。 (四)教学策略的概念 教学策略是为了达成教学目的,完成教学任务,在对教学活动清晰认识的基础上对教学活动进行调节和控制的一系列执行过程。 (五)教学策略的特征 1、指向性 2、操作性 3、整体综合性 4、调控性 5、灵活性 6、层次性 (六)教学策略与相关概念的关系 1、教学策略与教学设计 2、教学策略与教学思想 3、教学策略与教学模式 4、教学策略与教学方法 (七)构成教学策略的要素 一个成熟的有效的教学策略一般包含以下几个要素:指导思想、教学目标、

语音处理技术研究【文献综述】

毕业设计文献综述 电子信息科学与技术 语音处理技术研究 【摘要】:语音处理技术是对语音信号进行采集、压缩、滤波、增强等技术的集合定义。该技术是计算机音频系统的核心,在军事、医学、通信等领域都有较为广泛的应用。本文介绍了语音处理技术研究现状及发展前景。通过对三种主要音频滤波技术的对比和研究归纳,总结了每种技术的特点及适用范围,阐述了语音处理技术的发展方向。 【关键词】:数字信号处理;语音信号处理;音频滤波 一、背景 1.1语音处理技术技术 集就是把这种声波信号经语音信号是一种频率变化范围较宽(16~3000 Hz)的机械波。语音采[]1 过麦克风和高频放大器转换成具有一定幅度的模拟量电信号,再经离散化变成数字量,成为计算机 理,确定语音信号的采样频率。语音处理技术的研究结果能贮存和处理的信号。根据香农采样定[]2 表明:特定的语音信号是由其过零率、帧能量、频谱构成等多因素决定的。 音频是个专业术语,人类能够听到的所有声音都称之为音频。声音是一种模拟信号,它可能包波是语音分析系统中的关键环节,是当今社会前沿技术之一。为了获得更高含各种噪音。音频滤[]3 的音频质量,我们必须对声音中包含的噪声通过某种方法进行滤除,剩下的就是我们所需要的有用信号。这种滤除噪声的方法既为我们今天要讨论的音频滤波技术。 1.2语音处理技术的研究现状 语音处理技术在计算机软硬软件的相结合的方式下,通过几十年的探索,其研究和开发正进入一个黄金时代。在世界发达国家制定的高技术发展规划中,语音处理技术的地位十分引人注目。20世纪60年代中期形成的一系列数字信号处理的理论与算法,如数字滤波器、快速傅里叶变换(FFT)的等语音信号处理的理论与技术基础。随着信息技术的飞速发展,语音信号处理取得了重大进展。 术(LPC),并成为进入70年代之后,提出了用于语音信号的信息压缩和特性提取的线性预测技[]4 语音信号处理最强有力的工具。80年代初,一种新的基于聚类分析的高效数据压缩技术—矢量量化 型(HMM)描述语音信号过程的产生时80年代(VQ)应用于语音信号处理中,而用隐马尔科夫模[]5 语音信号处理技术的重大发展。近年来人工神经网(ANN)的研究取得了迅速发展,语音信号处理技

基于麦克风阵列的语音增强算法概述

- 29 - 基于麦克风阵列的语音增强算法概述 丁 猛 (海军医学研究所,上海 200433) 【摘 要】麦克风阵列语音增强技术是将阵列信号处理与语音信号处理相结合,利用语音信号的空间相位信息对语音信号进行增强的一种技术。文章介绍了各种基于麦克风阵列的语音增强基本算法,概述了各算法的基本原理,并总结了各算法的特点及其所适用的声学环境特性。 【关键词】麦克风阵列;阵列信号处理;语音增强 【中图分类号】TN911.7 【文献标识码】A 【文章编号】1008-1151(2011)03-0029-02 (一)引言 在日常生活和工作中,语音通信是人与人之间互相传递信息沟通不可缺少的方式。近年来,虽然数据通信得到了迅速发展,但是语音通信仍然是现阶段的主流,并在通信行业中占主导地位。在语音通信中,语音信号不可避免地会受到来自周围环境和传输媒介的外部噪声、通信设备的内部噪声及其他讲话者的干扰。这些干扰共同作用,最终使听者获得的语音不是纯净的原始语音,而是被噪声污染过的带噪声语音,严重影响了双方之间的交流。 应用阵列信号处理技术的麦克风阵列能够充分利用语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,逐渐成为强噪声环境中语音增强的研究热点。美国、德国、法国、意大利、日本、香港等国家和地区许多科学家都在开展这方面的研究工作,并且已经应用到一些实际的麦克风阵列系统中,这些应用包括视频会议、语音识别、车载声控系统、大型场所的记录会议和助听装置等。 文章将介绍各种麦克风阵列语音增强算法的基本原理,并总结各个算法的特点及存在的局限性。 (二)常见麦克风阵列语音增强方法 1.基于固定波束形成的麦克风阵列语音增强 固定波束形成技术是最简单最成熟的一种波束形成技术。1985年美国学者Flanagan 提出采用延时-相加(Delay-and-Sum)波束形成方法进行麦克风阵列语音增强,该方法通过对各路麦克风接收到的信号添加合适的延时补偿,使得各路输出信号在某一方向上保持同步,并在该方向的入射信号获得最大增益。此方法易于实现,但要想获取较高的噪声抑制能力则需要增加麦克风数目,然而对非相干噪声没有抑制能力,环境适应性差,因此实际中很少单独使用。后来出现的微分麦克风阵列(Differential Microphone Arrays)、超方向麦克风阵列(Superairective Microphone Arrays )和固定频率波束形成(Frequency-Invariant Beamformers) 技术也属于固定波束形成。 2.基于自适应波束形成器的麦克风阵列语音增强 自适应波束形成是现在广泛使用的一类麦克风阵列语音增强方法。最早出现的自适应波束形成算法是1972年由Frost 提出的线性约束最小方差(Linearly Constrained Minimum Variance,LCMV)自适应波束形成器。其基本思想是在某方向有用信号的增益一定的前提下,使阵列输出信号的功率最小。在线性约束最小方差自适应波束形成器的基础上,1982年Griffiths 和Jim 提出了广义旁瓣消除器(Generalized Sidelobe Canceller, GSC),成为了许多算法的基本框架(图1)。 图1 广义旁瓣消除器的基本结构 广义旁瓣消除器是麦克风阵列语音增强应用最广泛的技术,即带噪声的语音信号同时通过自适应通道和非自适应通道,自适应通道中的阻塞矩阵将有用信号滤除后产生仅包含多通道噪声参考信号,自适应滤波器根据这个参考信号得到噪声估计,最后由这个被估计的噪声抵消非自适应通道中的噪声分量,从而得到有用的纯净语音信号。 如果噪声源的数目比麦克风数目少,自适应波束法能得到很好的性能。但是随着干扰数目的增加和混响的增强,自适应滤波器的降噪性能会逐渐降低。 3.基于后置滤波的麦克风阵列语音增强 1988年Zelinski 将维纳滤波器应用在麦克风阵列延时—相加波束形成的输出端,进一步提高了语音信号的降噪效果,提出了基于后置滤波的麦克风阵列语音增强方法(图2)。基于后置滤波的方法在对非相干噪声抑制方面,不仅具有良好的效果,还能够在一定程度上适应时变的声学环境。它的基本原理是:假设各麦克风接收到的目标信号相同,接收到的噪声信号独立同分布,信号和噪声不相关,根据噪声特性, 【收稿日期】2010-12-30 【作者简介】丁猛(1983-),男,海军医学研究所研究实习员。

4G通信技术综述讲解

4G通信技术综述 移动通信技术已经历了三个主要发展阶段。每一代的发展都是技术的突破和观念的创新。第一代起源于20世纪80年代,主要采用模拟和频分多址(FDMA)技术。第二代(2G)起源于90年代初期,主要采用时分多址(TDMA)和码分多址(CDMA)技术。第三代移动通信系统(3G)可以提供更宽的频带,不仅传输话音,还能传输高速数据,从而提供快捷方便的无线应用。然而,第三代移动通信系统仍是基于地面标准不一的区域性通信系统,尽管其传输速率可高达2 Mb/s,但仍无法满足多媒体通信的要求,因此,第四代移动通信系统(4G)的研究随之应运而生。 一、4G通信技术的概念 4G的定义到目前为止依然有待明确,它的技术参数、国际标准、网络结构、乃至业务内容均未有明确说法。在2002年底Wi-Fi热潮中,Wi-Fi被视作4G技术。但4G技术的提倡者认为,4G与 Wi-Fi不同。 2004年6月,市场研究公司Forrester的分析师预测,4G移动服务将是3G与WiMax结合在一起的技术。4G将提供以太网的接入速度(如10Mb/s),并且通过在一部手机中把3G和WiMax技术结合在一起,提供集成无线局域网和广域网的服务。WiMax(或者说是802.16标准)能够提供无线宽带网服务,最远距离可达30英里,速率大约是10 Mb/s。在2004年富士通发布的白皮书中,将WiMAX指为“4G”无线技术。 另外,也有很多专家对LAS-CDMA十分看好,认为LAS-CDMA代表着4G水平。 4G到底是什么样的技术呢?目前普遍描述如下: 4G是集3G与WLAN于一体,并能够传输高质量视频图像,它的图像传输质量与高清晰度电视不相上下。4G 系统能够以100Mb/s的速率下载,比目前的拨号上网快2000倍,上传的速度也能达到20Mb/s,并能够满足几乎所有用户对于无线服务的要求。而在用户最为关注的价格方面,4G与固定宽带网络在价格方面不相上下,而且计费方式更加灵活机动,用户完全可以根据自身的需求确定所需的服务。此外,4G可以在DSL 和有线电视调制解调器没有覆盖的地方部署,然后再扩展到整个地区。很明显,4G有着不可比拟的优越性。4G与3G之间的主要区别在于终端设备的类型、网络拓扑的结构以及构成网络的技术类型。终端设备除了手机之外应当包括头戴式话机、PDA终端、膝上机、手表式话机、电视机、游戏机、DVD、零售机,甚至宠物机等等,凡是人所能构想的和能够识别IP地址的无线电收发信机。其次,4G是由多种技术组成的,包括彼此似乎不相干的技术,如Wi-Fi、超宽带无线电、便携式电脑、软件无线电等技术构成的高速全球通网络。 与3G手机相比,4G手机的功能更强大,应用更广泛。4G手机智能化程度更高,通话只是最最基本的功能之一,更多的功能体现在多媒体应用方面。 二、4G通信的关键技术

浅谈教学方法与技巧

浅谈教学方法与技巧 教学是一项复杂的系统工程,也是一门教育人、塑造人灵魂的艺术,对教学艺术的不断追求可以说是一种高级的精神享受。有人说,一个成熟的教师,就是一个艺术家。他从事于教学,犹如琴师从事于操练一样。他和缓地触动人类思想感情上的琴弦,刺激之,安慰之,兴奋之,鼓励之。然而,作为教师,在教学中要达到这样的境界,就必须研究并掌握好的教学方法和教学技巧才行。 教学方法是指师生为达到一定的教学目的和任务而采取的教与学的方式和手段的总称。教学技巧是指教师巧妙或熟练运用教学方法的能力。 《孟子集注》中讲:“事必有法,然后可成。师舍是则无以教,弟子舍是则无以学。”意思是说,再好的教师,再好的学生,再好的教材,如果不采取好的教学方法和技巧,也难以达到教学目的。有经验的教师常讲:“要给学生一杯水,教师就得有一桶水。”这是说做教师的必须要有足够的知识。然而,人们在评论某些教师的教学效果时又有这样的说法:“该教师知识渊博,可就是茶壶里饺子——倒不出来。”这说明,一个合格的教师不仅要有博深的知识,还必须熟练地、恰当地运用和掌握教学方法和教学技巧。只有这样,才能卓有成效地向学生进行思想教育,传授科学知识,开发学生的智力,培养学生的能力,提高教学效果和完成教学任务。现将几种常用的教学方法作以介绍,以求和大家共勉。 一、生动活泼的讲授法(讲述、讲解、讲读、讲演) 讲授法是教师通过口头语言系统地向学生传授知识,发展智力的方法。讲授法是教学中应用时间最长,应用范围最广的一种最基本的教学方法。几乎所有其他的教学方法在运用时都必须与讲授法相配合,才能顺利地进行和发挥应有的功能。无论是过去还是现在,讲授法都是学校教学中既经济又可靠,而且最为常用的一种有效方法。 讲授法的优点是能充分发挥教师的主导作用,有利于节省时间,提高教学效率,有利于学生掌握系统的知识。缺点是,在课堂上学生的活动少,容易产生依赖思想,容易形成教师满堂灌的僵死局面。在实际的教学中,讲授法又可以表现为讲述、讲解、讲读、讲演等不同

语音增强算法的分类

语音增强算法的分类 现实环境中的噪声多种多样,特性各异,很难找到一种通用的语音增强算法适用于各种噪声的消除;同时语音增强算法与语音信号数字处理理论、人的听觉系统和语音学等学科紧密相关,这也促使人们必须根据不同的噪声源来选择不同的对策。以上原因使语音增强技术研究呈现百花齐放的局面。几十年来,许许多多的学者在这方面进行了不懈的努力,总结出了许多有效的方法。 根据信号输入的通道数,可将这些方法分为单通道的语音增强算法与多通道的语音增强算法。单通道的语音系统在现实生活中较常见,手机、耳麦等都属于单通道语音系统。这种情况下,语音与噪声同时存在于一个通道中,语音信号与噪声信号必须从同一个带噪语音中获得。这种系统一般要求信号中的噪声比较平稳,以便在无声段对噪声进行估计,再依据估计得到的噪声参数对有声段进行处理,得到增强语音。而多通道的语音系统中语音增强的一种算法是,利用各个通道的语音信号之间存在的某些相关性,对带噪语音信号进行处理,得到增强的语音。比如,在自适应噪声抵消法中采用了两个话筒作为输入,其中一个采集带噪的语音信号,另外一个采集噪声,从噪声通道所采集的噪声直接当作带噪语音中的噪声,并将它从带噪语音中减去即可。另一种多通道的语音增强算法是采用阵列信号,这种方法采用多个以一定方式排列的采集设备接收信号。由于不同的独立信号源与各个采集设备之间的距离不同,最后在各个接收设备中的合成信号也不同,再根据这些信号将各个独立信号分离出来。 按照所依据原理的不同,我们可以将语音增强分为以下几类: (1)参数方法 此类方法主要依赖于语音生成模型(例如AR模型)的使用,需要提取模型参数(如基音周期、LPC系数等),经常使用迭代方法。这种方法的最大缺点就是如果实际噪声或语音与模型有较大的差别,或者由于某些原因使得提取语音参数较困难,则这方法较容易失败。这类方法常用到一些滤波器,如梳状滤波器、维纳滤波器、卡尔曼滤波器等。 (2)非参数方法 非参数方法不需要从带噪语音信号中估计语音模型参数,这就使得此类方法相对于参数方法而言应用较广。但由于没有利用可能的语言统计信息,故结果一般不是最优的。同时,我们知道,语音信号是非平稳的随机过程,但语音信号特性的缓慢变化使得在较短的时间(比如10~30ms)内,可以视其为平稳的,如果能从带噪语音的短时谱中估计出“纯净”语音的短时谱,即可达到语音增强的目的。由于人耳对语音的感知主要是通过语音信号中各频谱分量的幅度来获得的,而对各分量的相位并不敏感,因此,这类方法的重点是将估计的对象放在语音信号的短时谱幅度上。非参数方法主要包括谱减法、自适应滤波法等。 (3)统计方法 统计方法比较充分地利用了语音和噪声的统计特性,如语音信号可视不同情况和需要采用高斯模型、拉普拉斯模型以及伽玛模型等。此类方法一般是在建立了模型库后,经历一个训练过程来获得初始统计参数,并且在后续的工作过程中要根据实际的数据实时的更新这些统计参数,以使模型能更好的符合实际情况,它与语音系统的联系非常密切。这类方法里面主要包括最小均方误差估计(MMSE,Minimum Mean Square Error)、对数谱估计的最小均方误差(MMSE-LSA,Minimum Mean-Square Error Log-SpectralAmplitude)、听觉掩蔽效应(Masking Effect)等。 (4)多通道方法 多通道方法利用了更多的信息,包括空间信息,可以更好地滤除噪声、分离语音,但对硬件设备要求高,算法一般较复杂。噪声抵消法、延迟一相加波束形成器(delay-sum beamformer)、

基于深度学习的语音增强简述

第8卷第2期Vol.8No.2 2019年3月网络新媒体技术Mar.2019 ?前沿与综述? 基于深度学习的语音增强简述** 本文于2018-12-30收到。 *国家自然科学基金(编号:61671381)0张晓雷 (西北工业大学智能声学与临境通信研究中心西安710072西北工业大学航海学院西安710072) 摘要:语音增强是一种将语音从干扰声中增强出来的技术。它是语音信号处理的核心研究内容之一。近年来,深度学习在语音增强中的成功应用推动了该技术的快速发展。本文将简要回顾基于深度学习的语音增强技术。首先回顾语音增强中所采用的深度学习算法和优化目标,在此基础上,将进一步回顾具有代表性的单声道深度语音增强技术、基于固定麦克风阵列的多声道深度语音增强技术、以及基于自组织阵列的多声道深度语音增强技术。 关键词:深度学习,深度神经网络,语音增强,麦克风阵列 A Brief Review to Deep Learning Based Speech Enhancement ZHANG Xiaolei (Center for Intelligent Acoustics and Immersive Communication,Northwestern Polytechnical University,Xi'an,710072,China, School of Marine Science and Technology,Northwestern Polytechnical University,Xi'an,710072,China) Abstract:Speech enhancement aims to separate target speech from its noise components.It is one of the core problems of speech sig-nal processing.Recently,deep learning has been applied successfully to speech enhancement,which significantly promoted the devel-opment of speech enhancement techniques.This paper will review the deep-learning-based speech enhancement techniques,inclu-ding machine learning algorithms,optimization targets.Then,this paper will review single channel speech enhancement techniques, multichannel speech enhancement techniques based on conventional microphone arrays,as well as multichannel speech enhancement techniques based on ad-hoc microphone arrays. Keywords:Deep learning,Deep neural networks,Speech enhancement,Microphone arrays o引言 语音增强旨在将目标语音从背景干扰中分离出来。它是信号处理中的核心任务之一,具有广泛的应用,例如助听、通信、鲁棒语音识别和说话人识别。人类听觉系统具有将一种声源从多种声源的混合中提取出来的卓越能力。在类似于鸡尾酒会的声学环境中,尽管现场有其他说话人和背景噪声,我们也能够关注于其中某一位说话人的声音。所以,语音增强也被称为“鸡尾酒会问题”。语音增强已经在信号处理领域中得到了广泛的研究。根据麦克风的数量,语音增强方法可以分为单声道增强和基于麦克风阵列的多声道增强。单声道增强的传统方法是噪声估计丄和计算听觉场景分析(computational auditory scene analysis,CA-SA)[2]。噪声估计技术分析语音和噪声的整体数据,随后将纯净语音从含噪语音中估计出来"3;为了估计背景噪声,通常假设背景噪声是平稳的。CASA基于听觉场景分析的感知原理,通过交替进行基音估计和

教师讲课方法与技巧

教师讲课技巧与方法 【导语】为了帮助广大考生顺利通过安徽教师统考面试,走上理想的教师岗位,中科大云教育整理了教师讲课技巧与方法为大家提供参考。加安徽教师面试高分备考QQ 群:251776608下载全套面试资料。关注官方微信:zkdedu 获取最新考编资讯。 【关键词】安徽教师考编面试安徽教师招考面试安徽教师统考面试 1 抓住教学重点 教学重点是课程需要把握的重要内容。其实,每一个学科或每一门课都应有教学重点。什么是教学重点?要求学生们掌握什么问题?作为任课老师应该明确。教师在授课时,应该通过板书或者投影把其显示出来,并积极引导学生去把握它,绝对不能含糊不清或不知所云。如果教师不指出教学重点,或者强调所教内容都是重点,每个章节都是中心,那么,你讲的课既没有重点,也没有中心。连教师本身都不是很清楚的问题,要求学生们去把握它就更难了。因此,笔者在授课时摒弃平铺直叙的、面面俱到的教学方法,始终抓住教学重点不放。比如,笔者在讲授《中共党史》这门课时,凡重大事件、重要人物、成功的经验或失败的教训等,都要求学生重点把握,并作为考试考查的重点。而对一些不是很重要的问题,课堂上则少讲或不讲,不讲的内容列入学生自学的范围。这样一来,重点突出,主次分明,易学易记,教学效果很好。 2 理论联系实际 书本知识是理论对实践的概括和总结,它具有系统性、理论性,但缺乏直观性等特点。教师授课时,如果照本宣科,即使你自以为讲得很好,也会显得枯燥无味。讲课不生动,就没有吸引力,学生就没有兴趣去学,教学效果就不理想,它是环环相扣的。所以,笔者认为理论课要达到讲授生动的效果,很重要的技巧就是理论联系实际。尽量做到理论的阐述与生活的广度密切结合。比如,在讲授《法律基础知识》这门课时,把学习法律条文、法学理论与现实生活中的违法犯罪案件联系起来,并布置一定数量的安全分析作为练习,让学生们去讨论分析。其中有一个案例是这样的:女青年李某下夜班返家途中,遇到某男子持刀阻拦,强行非礼。李某极力反抗,她抓住男子的刀把尽力推挡,不料刀尖剌入对方的心脏,该男子当即死亡。试分析李某的行为是否属于正当防卫?是否要负刑事责任?多数学生认为李某的行为属正当防卫,不负刑事责任,但也有少数学生认为:李某杀死了人,属防卫过当,要负刑事

多通道数据采集文献综述

多通道数据采集系统的设计与实现 引言 进来,我在网上浏览了200余篇有关数据采集系统的文献。下载了其中100多篇,详细研读了其中50余篇。我了解到在当今社会各个领域,包括科研和实验研究,数据采集系统有着不可代替的作用,数据采集和处理进行得越及时,工作效率就越高,取得的经济效益就越大.数据采集系统性能的好坏主要取决于它的精度和速度,在保证精度的条件下,还要尽可能地提高采样速度,以满足实时采集、实时处理和实时控制的要求。 数据采集系统涉及多学科,所研究的对象是物理或生物等各种非电或电信号,如温度、压力、流量、位移等模拟量,根据各种非电或电信号的特征,利用相应的归一化技术,将其转换为可真实反映事物特征的电信号后,经A/D转换器转换为计算机可识别的有限长二进制数字编码,即数字量,并进行存储、处理、显示或打印。以此二进制数字编码作为研究自然科学和实现工业实时控制的重要依据,实现对宏观和微观自然科学的量化认识。 Microsoft V isual C++是Microsoft公司推出的开发Win32环境程序,面向对象的可视化集成编程系统。它不但具有程序框架自动生成、灵活方便的类管理、代码编写和界面设计集成交互操作、可开发多种程序等优点,而且通过简单的设置就可使其生成的程序框架支持数据库接口、OLE2,WinSock网络、3D控制界面。 本课题研究的是利用PC机上的声卡作为数据采集卡构建数据采集系统。利用VC编程实现多通道数据采集并对数据采集进行控制和处理。 正文 1.研究背景及发展近况 国外数据采集技术较上世纪有了很大的发展,从最近国外公司展示的新产品可以看出,主要的发展方向可以概括为使用方便、功能多样和体积减小三个方面。国内数据采集技术起步比较晚,国内的数据采集系统与国外数据采集系统相比,在技术上仍然存在一定的差距,主要表现在: (1) 由于整个国内的微电子技术还与世界水平有一定差距,模数转换芯片的速度还不能达到世界先进水平,同时高速PCB设计方面的人才比较稀少,所以国内较少研制出速度非常高同时性能又非常好的数据采集系统。 (2) 数据采集系统的内存不大,数据采集系统本身的信号处理功能不强,在现场只能做一些简单的数据分析,大多数的处理要离线到计算机上去做。 (3) 系统的软件水平以及人机界面方面的水平还不是很高,设备操作起来有很多不人性化的地方。 虽然国内与国外在数据采集技术上存在差距,但是总体来看这个差距在不断缩小,在不久的将来中国的数据采集系统肯定会晋升国际一流的水准。随着数字化步伐的不断加深,数据采集技术作为走进数字世界的一把钥匙,必须要紧跟数字化的脚步,只有掌握了尖端的数据采集技术才能在这个飞速变化的世界具有竞争力。

相关文档
最新文档