抗噪声语音识别及语音增强算法的应用
语音识别系统的噪声干扰处理技巧

语音识别系统的噪声干扰处理技巧随着语音识别技术的快速发展,越来越多的应用场景需要对语音进行准确的识别。
然而,在现实生活中,我们常常会遇到各种各样的噪声干扰,如交通噪声、环境噪声等,这些噪声会影响语音识别系统的准确性。
因此,如何有效地处理语音识别系统中的噪声干扰成为了一个重要的问题。
对于语音识别系统的噪声干扰处理,有以下几种常用的技巧。
1. 预处理技术预处理是指在输入语音信号进入识别系统之前,对其进行一系列的处理。
其中,常用的预处理技术包括:- 降噪:通过滤波器或噪声抑制算法,将噪声信号从语音信号中去除,以减小噪声对语音识别的干扰。
- 去除非语音成分:从语音信号中去除非语音成分,如咳嗽声、鼻音等,以提高语音信号的纯度。
- 声音增强:通过音量增加或者等化处理,增强语音信号的清晰度,以便于后续的识别操作。
2. 特征提取技术特征提取是指从语音信号中提取出对识别有帮助的特征,以减小噪声对识别的影响。
常用的特征提取技术有:- 短时能量:通过计算语音信号的能量,来判断其是否包含有效语音信息。
- 频谱特征:通过对语音信号进行傅里叶变换,提取频谱信息,如声谱图、梅尔频率倒谱系数等。
- 频谱包络:通过对语音信号进行滤波处理,提取语音信号的频谱包络信息。
3. 语音增强技术语音增强旨在提升语音信号的质量,以减小噪声的干扰。
常用的语音增强技术包括:- 频域方法:通过对语音信号进行短时傅里叶变换,然后对频谱进行加权平均或者谱减操作,以减小噪声的影响。
- 时域方法:通过对语音信号进行时域滤波或者自适应滤波,去除或者减小噪声的干扰。
4. 模型适应技术模型适应技术是指通过对语音识别模型进行优化,以适应噪声环境下的语音识别。
常用的模型适应技术包括:- 噪声模型训练:通过收集不同噪声环境下的语音数据,训练模型以更好地适应不同噪声环境下的语音识别。
- 噪声补偿:通过对语音和噪声进行分离或者模型建模,将噪声信号的影响从语音信号中剥离,以提高识别的准确性。
语音识别技术中的语音增强方法

语音识别技术中的语音增强方法语音识别技术是一种基于计算机的人机交互方式,它将人的语音信息转化为文本或命令,实现自然语言对计算机的控制和交流。
然而,由于语音信号受到环境噪音、语音质量等多种因素的影响,识别准确度可能会受到一定的影响。
为了提高语音识别的准确性和稳定性,语音增强方法应运而生。
一、噪声抑制技术噪声是语音识别中常见的干扰因素之一,它会降低语音信号的质量,阻碍识别系统的准确工作。
因此,噪声抑制技术成为解决这一问题的重要手段之一。
常见的噪声抑制方法包括:频域滤波法、时域滤波法和声学特征转换法。
1. 频域滤波法频域滤波法是基于频域分析的一种噪声抑制技术,它通过分析语音信号的频率特性,有选择性地抑制噪声成分,保留语音信号的有用信息。
常用的频域滤波方法包括谱减法、MMSE准则和Subspace方法等。
2. 时域滤波法时域滤波法是一种基于时域分析的噪声抑制方法,它通过分析语音信号在时间域上的特性,对噪声信号进行抑制。
经典的时域滤波方法有阻带滤波法、LMS自适应滤波法和Kalman滤波法等。
3. 声学特征转换法声学特征转换法是一种基于声学特征的噪声抑制方法,它通过对语音信号的声学特征进行转换,使其更适合于识别算法的处理。
常见的声学特征转换方法有Mel频率倒谱系数(MFCC)、倒频谱法和线性预测法等。
二、语音增强技术除了噪声抑制技术外,语音增强技术也是一种重要的语音处理手段。
它通过调节语音信号的频谱特性,改善语音信号的质量,为语音识别系统提供更清晰、准确的输入。
常见的语音增强技术包括谱减法、频谱平滑法和频谱估计法等。
1. 谱减法谱减法是一种常用的语音增强方法,它通过对语音信号的频谱进行减噪处理,去除噪声成分,提高语音信号的质量。
谱减法的基本原理是通过对语音信号的短时傅里叶变换,将频谱信息进行分析和处理。
2. 频谱平滑法频谱平滑法是一种通过平滑语音信号的频谱来增强语音质量的方法。
它通过对语音信号的频谱进行滤波,去除高频噪声成分,使得语音信号更加平滑。
语音识别中的语音增强与去噪技术

语音识别是人工智能领域中的一项重要技术,它能够将人类语音转化为文本,从而方便人机交互。
然而,在实际应用中,语音信号常常会受到各种噪声的干扰,导致语音识别准确率下降。
为了解决这个问题,语音增强与去噪技术应运而生。
语音增强技术旨在在噪声环境下增强语音信号,提高语音识别的准确性。
该技术通常采用空间信号处理的方法,将输入的噪声环境下的语音信号进行分解,将有用信号与噪声信号分离,并增强有用信号,从而减少噪声对语音识别的影响。
常见的语音增强算法包括MFCC算法、短时傅里叶变换(STFT)和倒谱编码(cepstral filtering)等。
然而,当噪声干扰特别严重时,单纯的语音增强技术可能无法完全消除噪声,此时就需要使用去噪技术。
去噪技术通过学习噪声统计特性并建立相应的模型,对输入的语音信号进行滤波处理,以消除噪声的影响。
常见的去噪算法包括Wiener滤波、盲源分离算法(BSS)、自适应滤波算法等。
其中,盲源分离算法不需要知道噪声的统计特性,具有更强的适应性和更高的去噪效果。
在实际应用中,语音增强与去噪技术通常会结合使用。
例如,在嘈杂环境中进行语音识别时,可以先使用语音增强技术增强语音信号,然后再使用去噪技术进一步消除噪声。
另外,一些新兴的技术如深度学习算法也被应用于语音增强和去噪领域,通过训练大规模的语音数据集,学习语音信号的特征和噪声的统计特性,从而实现对语音信号的高效去噪和增强。
总之,语音增强与去噪技术是提高语音识别准确率的关键技术之一。
通过采用不同的算法和方法,结合实际应用场景,可以有效地提高语音识别的性能和准确性。
随着人工智能技术的不断发展,相信未来语音增强与去噪技术将会得到更加广泛的应用和改进,为人工智能领域的发展提供更加有力的支持。
语音增强技术在音频识别中的应用

语音增强技术在音频识别中的应用第一章:引言在日常生活中,语音增强技术得到了广泛的应用。
其主要作用是提高语音的质量和降低语音的噪音干扰。
随着科技的不断进步,语音增强技术已经成为现代通信、语音识别、智能交互等领域的重要研究方向之一。
本文将着重探讨语音增强技术在音频识别中的应用。
第二章:语音增强的基本原理语音增强技术是通过对原始语音信号进行滤波、降噪、增强等处理,使语音信号更加清晰、可辨识。
其中,常用的语音增强方法主要有以下几种:2.1 语音降噪语音降噪是一种通过滤除语音信号中的噪音成分来提高语音信噪比的方法。
其中,较为常见的降噪算法包括谱减法、维纳滤波、自适应噪声抑制等。
2.2 语音增强语音增强是一种通过增强语音信号的原始信号成分来提高语音质量的方法。
常见的增强算法包括谱平滑增强、最大似然频率平滑等。
2.3 反噪音技术反噪音技术是一种通过在语音信号中添加一个与噪音相反的信号,从而实现噪音消除的方法。
其常用算法包括逆滤波、adaptive inverse filtering等。
第三章:语音增强技术在音频识别中的应用语音增强技术作为一种常用的预处理手段,广泛应用于音频识别领域。
它在音频识别中的主要作用有以下几点:3.1 帮助提高语音识别准确率在实际应用场景中,语音信号经常受到环境噪声、话筒距离等因素的干扰,这就容易导致语音识别结果的不准确。
而通过使用语音增强技术进行声音预处理,可以有效地去除环境噪声、回声等干扰因素,从而提高语音识别的准确率。
3.2 提高语音识别的速度在一些高效率的语音识别系统中,采用音频增强技术可以显著提高其识别速度。
因为经过降噪处理之后的语音信号更加清晰,从而使得识别引擎所需的计算量更小,准确率更高。
3.3 改善用户交互体验语音增强技术还可以帮助优化用户交互体验。
比如在智能语音助手、智能家居等应用中,通过预处理语音信号、去除干扰、增强人声,可以使得语音交互更加流畅、自然。
第四章:语音增强技术的挑战和未来发展语音增强技术作为一项前沿的技术,虽然已经在音频识别、通信等领域得到广泛应用,但同时也面临着一些挑战。
语音识别系统中的噪声抑制与性能提升

语音识别系统中的噪声抑制与性能提升随着科技的发展和智能设备的广泛应用,语音识别系统在我们的日常生活中扮演着越来越重要的角色。
然而,由于噪声的干扰,语音识别的准确性和可靠性常常受到影响。
因此,在语音识别系统中实施噪声抑制措施,以提升系统性能显得非常重要。
噪声是指在语音信号中混入的非语音成分,如环境噪声、机器声音等。
这些噪声会干扰语音信号的传输和识别过程,导致系统的误判和不准确。
为了减少噪声的干扰,首先要对噪声进行准确的检测和区分。
常用的方法包括使用麦克风阵列进行噪声源定位,采用统计模型对噪声进行建模,以及利用信号处理技术进行噪声估计和抑制。
一种常见的噪声抑制方法是利用麦克风阵列进行噪声源定位和抑制。
麦克风阵列是一组多个麦克风的组合,通过精确测量声音的到达时间差和强度差,可以定位噪声源的位置,并准确抑制这些噪声。
麦克风阵列的使用可以极大地改善语音信号的质量,提高识别系统的准确性。
另一种常用的噪声抑制方法是使用统计模型对噪声进行建模。
这种方法通过分析噪声信号的统计特性,构建一个准确的模型来描述噪声的特征。
然后,在语音信号的识别过程中,可以利用这个模型对噪声进行估计和抑制。
这种统计模型可以根据不同噪声环境的特点进行调整和优化,从而提高噪声抑制效果和系统性能。
此外,信号处理技术也是噪声抑制的重要手段之一。
通过对语音信号进行滤波、降噪和增强等处理,可以有效地减少噪声的干扰,提高语音信号的质量。
其中,常用的信号处理技术包括自适应滤波器、时频域转换、降噪算法等。
这些技术能够根据实际情况对语音信号进行灵活处理,使得语音识别系统能够更好地适应不同的噪声环境。
除了噪声抑制,改进语音识别系统的性能也是一个重要的任务。
性能的提升可以从多个方面进行考虑。
首先,可以对语音识别算法进行优化和改进,以提高系统的准确性和可靠性。
其次,可以使用更高质量的语音数据库进行训练和测试,以提高系统的学习和推理能力。
此外,加入上下文信息和语义分析也是提升性能的有效方法。
语音增强技术在语音通信中的应用分析

语音增强技术在语音通信中的应用分析随着科技的快速发展,语音通信已经成为人们日常生活不可或缺的一部分。
但是由于环境噪音和语音信号传输的限制,语音通信也存在一些问题,如通话质量不佳、信息丢失等。
针对这些问题,语音增强技术应运而生。
本文将分析语音增强技术在语音通信中的应用。
一、语音增强技术的基本原理语音增强技术是指通过一系列的信号处理方法和算法,对语音信号进行处理和优化,使它在环境噪音、信号损失等干扰条件下仍能保持清晰和稳定。
语音增强技术主要包括三个方面的内容:噪音消除、语音增强、语音识别。
噪音消除是指通过降噪算法对语音信号进行处理,去除环境噪音。
目前常用的方法包括基于频域的算法和基于时域的算法。
基于频域的算法主要包括谱子减法和光谱估计方法;基于时域的算法主要包括自适应降噪和子带降噪。
语音增强是指通过一系列的信号处理手段和算法,对语音信号进行分析、优化和重构,以提高语音的清晰度和稳定性。
常用的语音增强技术包括语音分割、语音去噪、语音增益和语音重构等。
语音识别是指通过语音信号识别自动将语音信号转换成文本信息。
目前常用的语音识别算法包括GMM-HMM、DNN-HMM和深度学习等。
二、语音增强技术在语音通信中的应用语音增强技术可以应用于各种语音通信场景,如电话通信、网络语音通信、语音识别等。
其主要优点包括:提高通话质量、减少信息传输的错误率、降低语音识别的错误率等。
下面将分别介绍语音增强技术在三种语音通信场景下的应用。
1、电话通信中的语音增强电话通信是人们日常生活中最为常见的一种语音通信方式。
由于电话通信存在信号传输和环境噪音的干扰,如果没有应用语音增强技术,通话质量会很差。
目前,市场上的大多数手机和电话都内置了语音增强技术,可以有效地降噪、增益、扩频和去失真,提高通话质量。
其中最常用的语音增强技术包括自适应语音增益、数字降噪和频带扩展等。
自适应语音增益是指通过分析语音信号的幅度和频率分布,自动对语音信号进行动态增益。
音频处理技术在语音识别中的实际应用教程

音频处理技术在语音识别中的实际应用教程引言:随着人工智能技术的发展,语音识别作为人机交互的重要手段之一正变得越来越普遍。
音频处理技术在语音识别中发挥了重要的作用,它可以帮助提高语音识别的准确性和效率。
本文将介绍音频处理技术在语音识别中的实际应用,并提供相应的教程。
一、音频预处理在进行语音识别之前,需要对音频进行预处理,以优化信号质量和减少干扰。
以下是一些常用的音频预处理技术:1. 噪声抑制:通过对音频信号进行频域或时域滤波,可以降低噪声的干扰,提高语音信号的质量。
常用的噪声抑制方法包括频域滤波、自适应滤波和谱减法等。
2. 语音增强:在噪声环境下,语音信号的清晰度和可识别性会受到影响。
语音增强算法可以帮助提高语音信号的质量,减少噪声的影响。
常见的语音增强算法包括谱修正算法、频域加权算法和声学模型算法等。
3. 音频归一化:通过对音频信号进行归一化处理,可以统一音频的音量水平,避免音频音量过大或过小对语音识别的影响。
常见的音频归一化方法包括均衡化和动态范围压缩等。
二、特征提取在进行语音识别之前,需要将音频转换为特征序列,以便计算机进行进一步处理和分析。
以下是一些常用的特征提取技术:1. 短时能量和过零率:短时能量反映了音频信号在时间上的变化,过零率反映了音频信号在零点附近过零的次数。
通过计算短时能量和过零率,可以提取音频信号的时域特征。
2. 梅尔频率倒谱系数(MFCC):MFCC是一种常用的语音特征表示方法,它利用了人耳对语音信号的感知特性。
通过对音频信号进行频谱分析,再进行Mel滤波器组和离散余弦变换,可以提取出MFCC系数作为特征。
3. 声学模型:声学模型是一种利用统计学方法建模语音信号的方法。
通过训练声学模型,可以提取出一系列概率特征,用于语音识别任务。
三、语音识别模型在进行语音识别之前,需要选择合适的语音识别模型。
以下是一些常用的语音识别模型:1. 隐马尔可夫模型(HMM):HMM是一种常用的序列分析模型,常用于语音识别任务中。
语音增强技术的使用教程与实践

语音增强技术的使用教程与实践语音增强技术是一种通过降噪、语音增益等方法来提高语音信号质量的技术。
它可以应用在各个领域,如语音识别、语音合成、通信系统等。
在本篇文章中,我们将介绍语音增强技术的使用教程与实践,帮助读者更好地理解和运用这种技术。
一、语音增强技术的基本概念语音增强技术的基本概念是通过对语音信号进行一系列数字信号处理的方法,最终提高语音信号的可听度和可理解度。
常见的语音增强技术包括降噪、语音增益、语音分离等。
1. 降噪降噪是语音增强技术中最常见的方法之一。
它可以通过对语音信号进行滤波、时域处理等方式,减少环境噪声对语音信号的干扰,提高语音信号的清晰度和可辨识度。
2. 语音增益语音增益是指通过增加语音信号的声音强度,使得语音信号在接收端能够更清晰地听到。
常见的语音增益方法包括对语音信号进行电平调整、动态范围扩展等。
3. 语音分离语音分离是指将多个重叠的语音信号进行分离,使得每个语音信号可以独立地听到。
语音分离常用的方法有盲源分离、非负矩阵分解等。
二、常见的语音增强技术工具与软件1. Adobe AuditionAdobe Audition是一款音频编辑软件,它提供了多种语音增强功能。
用户可以通过降噪、增益、分析等功能对语音信号进行处理,改善语音质量。
2. AudacityAudacity是一款免费的音频编辑软件,它支持多种语音增强技术的应用。
用户可以使用Audacity的降噪、增益、均衡器等工具对语音信号进行处理。
3. MATLAB语音增强工具箱MATLAB语音增强工具箱是一个专门用于语音信号处理的工具包。
它提供了多种算法和函数,用户可以根据自己的需求来选择不同的语音增强方法。
三、语音增强技术的实践应用1. 语音识别语音识别是语音增强技术的一个重要应用领域。
在嘈杂的环境下,语音信号往往受到环境噪声的干扰,导致识别率低。
通过对语音信号进行降噪、增益等处理,可以有效提高语音识别的准确性和稳定性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
|
S^K
|
=
[|
yk
|5
-
βλλ n
(
k)
]1 /5
(1)
其中 5,β为参数 。一般的谱减方法中 λ = 2,β = 1。适当的调
整两参数可以获得更好增强效果 。
掩蔽 ,它描述的是在信号发生的整个时间内产生的掩蔽 , 当 两个音同时作用于人耳时 ,强度大的纯音会影响人耳对强度 小的纯音的感知 ,人耳听不到强度小的纯音 。人耳是一个有 限频率分辨率的声学系统 , 分辨率与当前的频率有关 。掩蔽 曲线如图 2[3 ] 。
ABSTRACT: Imp roving the robustness of speech recognition system is an important issue in speech recognition tech2 nology. The performance of traditional speech recognition system degrades seriously when the training environments and the testing environments are m ismatched . In order to acquire satisfactory performance of speech recognition sys2 tem under noisy environment, in this essay, a new robust speech feature extraction method based on p roperties of the human auditory system is p resented . This method p rocesses the noisy speech by using masking p roperties before the M FCC extraction and analyses the speech feature w ith the speech enhancement algorithm and gets the robust speech feature finally. The results in four different kinds of experiments show that the performance of speech recognition sys2 tem can be imp roved greatly by using the new method under noisy environment and the p roposed method is highly ap2 p licable. KEYW O RD S: Speech recognition; Noise; Robustness; M asking model; Spectral substraction
5) 用离散余弦变换计算倒谱系数 。
3. 4 模型训练
在本文所建立的语音识别系统中 , 每个识别基元使用自
左往右 5状态的 HMM 模型 。如图 4所示 。
a
表示任意状态
ij
i,
j之间的转移概率 ,转移概率矩阵 A为
— 81 —
图 4 隐马尔可夫模型
一个 5行 5列的矩阵 。每个状态 j的观测概率密度分布函数用
量。
bh i
∑ Ei =
P (ω)
(4)
ω =hli
4) 对临界带的频谱应用扩散函数 ,计算语音信号对临近
临界带信号的掩蔽能力 [4 ] 。
5) 用扩散掩蔽门限求得临界掩蔽门限 。 3. 3. 2 带噪语音的特征提取
训练时的掩蔽门限是在纯净语音中求得的 , 而在识别过 程中求得是带噪语音的门限 ,导致识别和训练时的特征提取 不相匹配 ,为了更好的的解决这个问题 , 本实验在求掩蔽曲 线之前使用谱减方法 , 先估计一段无声段噪声的频谱 , 然后 对所有的语音帧频谱减去估计噪声的频谱 , 用图 1所示的方 法。
图 2 M FCC特征提取框图
M FCC在语音识别的特征中得到广泛的应用 ,通常特征 矢量直接从语音的频谱中提取 ,但是 M FCC特征在噪声环境 下容易受噪声干扰 , 本文利用了基于人耳听觉掩蔽模型的 M FCC特征提取方法 ,将掩蔽特性应用于 M FCC的特征提取 。 3. 2 人耳听觉的掩蔽特性
掩蔽分为同时掩蔽和非同时掩蔽 , 一般我们只考虑同时
图 3 掩蔽曲线图
对于一个语音频谱 ,每个频谱分量都可以看着是一个纯
音 ,每个纯音都有其掩蔽特性 ,由于各个分量的能量不同 , 掩
蔽的幅值就不一样 ,语音频率的最后掩蔽曲线 m ( f) 可以表
示为 :
m ( f) = m axΨ ( i) ( f)
(2)
Ψ ( i) ( f) 表示第 i个频率分量在频率算
使用心理听觉模型来计算掩蔽门限值 :
1) 对语音进行分帧处理 。
2) 对每帧进行 FFT变换 ,计算其能量谱 :
P (ω) = R e2 (ω) + Im 2 (ω)
(3)
3) 对每个语音进行临界带分析 , 计算每个临界带的能
Mj
∑ ∑ bj ( ot ) =
CjkN ( ot;μjk ,
m =1
)
jk
(6)
∑ N (;μ, ) 表示 39维的高斯分布函数 , 加权系数为 C, 均值
向量为 μ,方差矩阵为 ∑。
图 5 白噪声背景下的识别精度
4 试验结果及其分析
本实验中进行的孤立数字语音识别 。100个孤立数字语 音文件作为训练集合 ,测试语音为说话人不在训练集合中的 20个孤立数字语音 。我们在测试集的每语音中加入了信噪 比为 15, 10, 5, 0, - 5dB噪声 。用 12个特征参数以及其差分 和二阶差分 。本实验使用 5状态的隐马尔可夫模型 (HMM ) 进行识别 ,识别中共使用数字 0 - 9 的 10 个孤立数字模型 , 噪声来自 Noisex92数据包 ,采用四种方法进行实验 : ①谱减 法 ( SS) , ②传 统 的 M FCC, ③将 掩 蔽 特 性 用 于 特 征 提 取 (MM ) , ④基于掩蔽效应的语音增强法 ( SE) 。实验给出了系 统在白噪声和汽车噪声下的四种方法的实验结果 。
其算法如下 : 1) 用本文所述的谱减方法 (公式 ( 1) ) 。 2) 计算频谱相减后的掩蔽特性曲线 。 3) 取掩蔽门限 TH ( k) 和功率谱 P ( k) 两者之间的大值 。
Pm ( k) = m ax ( TH ( K) , P ( k) )
(5)
4) 通过 M el尺度的三角滤波器阵列 。
图 1 谱减框图
3 抗噪声语音识别
3. 1 特征提取 特征的选择和提取对识别的效果是致关重要的 ,本文识
别器 采 用 M el 频 率 倒 谱 系 数 (M e l - Frequency Cep stra l Coefficien ts, M FCC) 。语音特征参数是分帧提取的 ,语音信号 通过 16KH z频率采样 ,分帧 ,预加重 ,加窗 ,快速傅立叶变换 ( Fa st Fou rie r Tran sfo rm , FFT) ,使用三角滤波器组求得能量 系数取对数再经过离散余弦变换 (D iscre te Co sine Transfo rm , DCT) 计算 12维的 M el倒谱系数 ,并计算短时能量 ,接着计 算其一阶差分向量和二阶差分向量 , 这样每帧语音得到 39 维特征向量 。过程如下 :
1 引言
语音识别系统往往将安静环境下的训练模型应用于含 噪的真实环境中 ,噪声导致的语音特征和对应模板不匹配 , 由于测试环境和训练环境不一致 ,识别性能明显的下降 。近 年来提高语音识别的抗噪声能力有很多比较成功的技术和 算法 ,语音增强技术就是其中一种 。在语音识别系统的前端 应用的语音增强技术能有效的抑制背景噪声 ,但带来的频谱 失真和音乐噪声却是对识别的不利因素 。现代语音处理研 究了人耳的听觉特性 ,基于人的听觉特性的抗噪声语音识别 得到广泛的研究和应用 。很多的研究将人耳听觉系统具有 的掩蔽特性用于语音增强 、语音识别 。本文研究了一种把人 耳的听觉掩蔽特性结合到特征提取中 ,同时为了更好的将训
第 23卷 第 9期 文章编号 : 1006 - 9348 ( 2006) 09 - 0080 - 03
计 算 机 仿 真
2006年 9月
抗噪声语音识别及语音增强算法的应用
汤玲 ,戴斌
(国防科技大学机电工程与自动化学院 ,湖南 长沙 , 410073)
摘要 :提高语音识别系统的鲁棒性是语音识别技术一个重要的研究课题 。语音识别系统往往由于训练环境下的数据和识别 环境下的数据不匹配造成系统的识别性能下降 ,为了让语音识别系统在含噪的环境下获得令人满意的工作性能 ,该文根据 人耳听觉特性提出了一种鲁棒语音特征提取方法 。在 MFCC特征提取之前先对含噪语音特征进行掩蔽特性处理 ,同时结合 语音增强方法对特征进行处理 ,最后得到鲁棒语音特征 。通过 4 种不同试验结果分析表明 ,将这种方法用于抗噪声分析可 以提高系统的抗噪声能力 ;同时这种特征的处理方法对不同噪声在不同信噪比有很好的适应性 。 关键词 :语音识别 ;噪声 ;鲁棒性 ;掩蔽特性 ;谱减 中图分类号 : TP912. 34 文献标识码 : A
2 语音增强 谱减方法 谱减方法 [ spectral subtraction ] [1 ]通过从带噪语音中减 去噪声的估计来得到语音的短时频谱幅度的估计值 。它的 基本图如图 1。 图中 s ( n) 的表示纯净语音 , d ( n) 表示加性噪声 ,λn ( K) 表示噪声功率谱系数 , yk 表示带噪语音 y ( n) 的频谱系数 , Sk 表示纯净语音 s ( n) 的频谱系数 ( k = 0, 1, ……) 。增强后的语 音 s ( n^) 的幅度系数 | ^sk | 由下式得到 :