语音识别中听觉特征的噪声鲁棒性分析_李银国

合集下载

有色噪声环境中鲁棒语音特征参数提取研究

ＡＢＳＲＡＣＴ：ｐｅｈｆａｕｅｐｒｍｅｅｓｗｕｄｃａｇｎＣｍｐｅｏｓｎｉｎｎ，ｃｕｉｇｔｅｍｉｍａｃｅｗｅｎＴＳｅｃｅｔｒａａｔｒｏｌｈｎｅｉｏｌｘｎｉｅｖｒｍｅｔａｓｎｈｓｔｈｂｔｅｅｏ
ＫＥＹＷＯＲＤＳ：ｒｏｉｉｈｅｅｓａ；ｏａｅｓｑａｅｓｉｔｎｏｉｎｌｐｒｍｅｅｓｖａｒｔｔｎｌｉｖｒＨａｍｎｃｗｅｇｔｄｃｐｔｌＴｔｌｌａｔｓｕｒ－ｅｔｒｍａｉｆｓａａａｔｒｉｏａｉａｎａｉｏｇｏ．
ＺＯＵ — ｏｇＬｉｇ＇Ｄａｙｎ．ＩＬｎ
（．ＳｈｏｆＣｍｐｔｒａｄＩｆｒｔｎＥｇｎｅｉｇＨｅａｎｖｒｉ，ａｆｎｎｎ，７０４，Ｃｈｎ；１ｃｏｌｏｕｅｎｎｏｍａｉｎｉｅｒ，ｎｎＵｉｅｓｙＫｉｇＨｅａ４５０ｏｏｎｔｅｉａ
等。窗函数会产生旁瓣，能会掩蔽弱的语音信号，可同时也会产生时域上的截断，导致频域内增加附加成分，引起能量
泄露，给傅立叶变换带来误差。如果增大截断长度，窗谱则被压缩变窄。根据Ｈｉｎｅｇ测不准定理，ｅｓｂｒｅ应使窗函数的时
ｈｎｅｔｅｒｂｓｎｓｆｓｅｃｅｔｒｓｅｔｃｉｎｉｈｏｏｅｏｓｎｉｎｎ，ａｍｅｈｄｏａｍｏｉｅｇｔｄａｃｈｏｕｔｅｓｏｐｅｈｆａｕｅｘｒｔｏｎｔｅｃｌｒｄｎｉｅｅｖｒｍｅｔｔｏｆｈｒｎｃｗｉｈｅａｏ

语音识别中的鲁棒性提升研究

语音识别中的鲁棒性提升研究引言：随着人工智能技术的迅速发展，语音识别作为一种重要的自然语言处理技术得到了广泛的应用和研究。

然而，在实际应用中，语音识别系统往往面临着各种各样的挑战，例如环境噪声、不同说话人之间的差异以及语音的变化等。

为了提升语音识别系统的性能，研究者们致力于改善语音识别系统的鲁棒性。

一、鲁棒性问题的挑战语音识别系统在面对实际应用场景时，会受到多种因素的干扰，这些干扰会对系统的性能产生负面影响。

主要挑战包括：1. 环境噪声：背景噪声是语音识别系统的一个主要挑战。

在嘈杂的环境中，语音信号会与环境噪声混合在一起，导致识别错误的增加。

2. 说话人变化：在实际应用中，语音识别系统需要适应不同的说话人，不同个体之间的语音特征差异会给识别过程带来困难。

3. 语音变化：语音的特征会受到说话人的情绪、口音和语速等因素的影响，这些变化也会增加识别的难度。

二、鲁棒性提升方法为了提升语音识别系统的鲁棒性，研究者们提出了各种方法和技术。

以下是几种常见的方法：1. 噪声抑制：为了减小噪声对语音信号的干扰，研究者们提出了各种噪声抑制方法。

这些方法可以通过滤波、频率倒谱和谱减法等技术来减少背景噪声的影响。

2. 说话人建模：为了适应不同的说话人，研究者们使用说话人建模技术来提取和建模不同说话人的语音特征。

通过建立说话人模型，可以有效减少说话人差异对识别结果的影响。

3. 语音变化建模：为了应对语音的变化，研究者们使用语音变化建模技术来捕捉语音特征的变化。

例如，通过使用声学模型来建模不同语速、音调和发音方式等语音变化，可以提高系统对语音变化的适应能力。

三、现有研究成果在语音识别中的鲁棒性提升研究领域，已经取得了一些重要的研究成果。

以下是一些典型的成果示例：1. 深度神经网络（DNN）：DNN是一种强大的模型，在语音识别任务中取得了显著的性能提升。

通过使用DNN，可以更好地建模语音的时序关系和上下文信息，提高对语音信号的建模能力。

语音识别中听觉特征的噪声鲁棒性分析_李银国

中，作者提出了时域Ｇ并对ＧＦＣＣ的实现方法，ＦＣＣ和ＭＦＣＣ的识别性能做了分析比较。本文在上述工作基础上，对ＧＦＣＣ和ＭＦＣＣ在各种噪声环境下的识别性能进行补充性对比分析，并对ＧＦＣＣ和ＭＦＣＣ在不同频率区间内的敏感性进行了对比分析。选择５种噪声进行噪声对比实验：白噪声，粉红噪声，褐色噪声，背景说话人噪声，汽车噪声。通过混合不同类型和不同强度的噪声，分析ＧＦＣＣ和ＭＦＣＣ在不同噪声环境下的优劣和对不同噪声的抗干扰能力。同时，基于正弦噪声的能量在频率域上分布的单一性，用不同频率的正弦噪声对纯净的语音信号各频段进行混合，从而可以分析ＧＦＣＣ和ＭＦＣＣ对不同频率区间的敏感性和对不同能量分布的噪声的鲁棒性。
［］］可以通过一组Ｇａｍｍａｔｏｎｅ滤波器实现２。在文［３
ｎａｌｓｉｓｏｆｎｏｉｓｅｒｏｂｕｓｔｎｅｓｓｏｆａｕｄｉｔｏｒＡｙｙｆｅａｔｕｒｅｓｉｎｓｅｅｃｈｒｅｃｏｎｉｔｉｏｎｐｇ
ｗｈｉｌｅｍｏｒｅｓｅｎｓｉｔｉｖｅｔｏｎｏｉｓｅｓａｔｍｉｄｄｌｅａｎｄｈｉｈｆｒｅｕｅｎｃｉｅｓ．Ｔｈｉｓｇｑｒｏｅｒｔｉｓｄｅｓｉｒａｂｌｅｆｏｒｓｅｅｃｈｒｅｃｏｎｉｔｉｏｎｓｉｎｃｅｍｏｓｔｏｆｔｈｅｐｐｙｐｇｉｎｆｏｒｍａｔｉｏｎｏｆｈｕｍａｎｓｅｅｃｈｒｅｓｉｄｅｓｉｎｔｈｅｌｏｗｆｒｅｕｅｎｃｂａｎｄｏｆｐｑｙ３００—７００Ｈｚ．ＥｘｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｄｅｍｏｎｓｔｒａｔｅｔｈａｔｔｈｅＧＦＣＣｐｅｘｈｉｂｉｔｓｓｉｎｉｆｉｃａｎｔａｄｖａｎｔａｅｓｏｖｅｒｔｈｅＭＦＣＣｆｏｒｖａｒｉｏｕｓｎｏｉｓｅｇｇ，ｃｏｎｄｉｔｉｏｎｓｅｓｅｃｉａｌｌｗｈｅｎｔｈｅＳＮＲｉｓｌｏｗ．ｐｙ：；ｇ；ｇＫｅｗｏｒｄｓｓｅｅｃｈｅｃｏｎｉｔｉｏｎａｍｍａｔｏｎｅｉｌｔｅｒｓａｍｍａｔｏｎｅ－ｒｆｐｇｙ；ｂａｓｅｄａｕｄｉｔｏｒｆｅａｔｕｒｅ（ＧＦＣＣ）ｏｂｕｓｔｒｙ

语音识别技术的噪声鲁棒性改进方法研究

语音识别技术的噪声鲁棒性改进方法研究摘要：随着语音识别技术的广泛应用，噪声问题成为该技术面临的一个主要挑战。

在实际应用中，噪声环境对语音信号的质量产生了重要影响，使得语音识别的准确性大大降低。

因此，研究改进语音识别技术的噪声鲁棒性，具有重要的理论意义和应用价值。

本文综述了当前语音识别技术的噪声鲁棒性问题，并提出了几种改进方法。

关键词：语音识别；噪声鲁棒性；改进方法1. 引言语音识别技术是指基于计算机算法的自动将语音信号转化为文本或命令的技术。

它广泛应用于语音助手、智能家居、语音识别系统等领域。

然而，实际应用中的噪声环境对语音信号的质量造成了严重影响，给语音识别的准确性带来了很大挑战。

2. 噪声鲁棒性问题的挑战噪声是指人类在特定环境中发出的非目标声音，它包括背景噪声、环境噪声、语音噪声等。

这些噪声信号会与语音信号叠加在一起，降低语音信号的质量，导致语音识别的准确性下降。

当前，语音识别技术存在以下几个噪声鲁棒性问题：2.1 噪声抑制噪声抑制是指去除语音信号中的噪声成分，提升语音信号质量的过程。

常见的噪声抑制方法包括谱减法、模糊剪切、最小均方差等。

这些方法通过对语音信号的频域和时域进行处理，去除噪声成分，提高语音信号的清晰度和可辨识度。

2.2 噪声模型为了改进语音识别技术的噪声鲁棒性，研究人员提出了各种噪声模型。

噪声模型可以对噪声进行建模，通过模拟噪声的产生和分布情况，提高语音识别系统对噪声的适应能力。

常见的噪声模型有自适应噪声模型、高斯噪声模型等。

2.3 声学特征优化在语音识别中，声学特征是对语音信号表征和表示的一种方式。

目前，常用的声学特征包括梅尔频率倒谱系数（MFCC）、线性预测编码（LPC）等。

为了提高语音识别技术的噪声鲁棒性，研究人员提出了一系列声学特征优化方法，如径向基函数网络（RBFN）、时域的连续波变换（DT-CWT）等。

3. 改进方法研究为了提高语音识别技术的噪声鲁棒性，研究人员采用了多种改进方法。

基于语音学知识的鲁棒性两级语音起点检测方法

基于语音学知识的鲁棒性两级语音起点检测方法
于迎霞
【期刊名称】《电声技术》
【年(卷),期】2004(000)005
【摘要】语音识别系统的实用化,需要对噪声有很强的鲁棒性,而噪声环境下的端点检测对整个识别系统性能起着关键的作用.提出一种基于语音学知识的两级起点检测方法,其中第一级选取短时能零比和短时谱幅作为初检特征,并采取自适应门限,第二级根据语音起点能量变化和语音性持续时间进行起点的确定.实验结果表明该方法在常见噪声环境下鲁棒性较好,且适于实时应用.
【总页数】4页(P51-54)
【作者】于迎霞
【作者单位】新疆大学信息科学与工程学院,新疆,乌鲁木齐,830046
【正文语种】中文
【中图分类】TN912.3
【相关文献】
1.一种鲁棒性层次化语音/非语音检测方法 [J], 张力;张连海;陈斌
2.浅析零起点美国学生汉语语音学习的若干偏误--对美国赴陕西师范大学学习的零起点学生的语音教学反思 [J], 曹思远
3.结合语音学知识的藏语语音端点检测方法研究 [J], 刘泽国;张会庆;张环;张兆基
4.一种基于语音学知识的汉语辅音分类方法 [J], 王毓芳;尹宝林
5.实验语音学的作用及其与语言学的关系——《实验语音学知识讲话》(选载) [J], 贺宁基
因版权原因，仅展示原文概要，查看原文内容请购买。

噪声环境中说话人识别鲁棒性研究的开题报告

噪声环境中说话人识别鲁棒性研究的开题报告一、研究背景与意义在实际生活中，人们经常需要在各种噪声环境下与他人交流，如工厂车间、街头市场等。

这些噪声环境会给口语识别带来严重的挑战，特别是在多人同时说话时更为明显。

因此，开展噪声环境中说话人识别的研究对于提高人机交互、声纹识别等领域的应用效果具有重要的意义。

同时，从人类听觉研究的角度来看，人类在各种噪声环境中能够辨别不同说话人的声音，这是因为人类在语音信号中对说话人说话时的声学特征有着极高的敏感性。

因此，研究噪声环境中说话人识别的鲁棒性问题，有望揭示人类听觉系统的工作原理，为语音信号分析等领域的研究提供理论指导。

二、研究内容与方法本研究旨在探究在噪声环境下说话人识别的鲁棒性问题，在保证较高识别准确率的同时，提高其对噪声环境的适应能力。

本研究将从以下两个方面入手：1.语音特征提取基于分析不同噪声场景下语音信号的特点，在前端模型中使用基于滤波器组的预处理方法进行语音特征提取，提高噪声下的语音鲁棒性；同时，探索使用声学特征增强方法如语谱图增强、语音降噪等方法来增强语音信号，进一步提高噪声下的识别准确率和鲁棒性。

2.基于深度学习的说话人识别算法建模采用深度学习算法进行说话人识别的建模，包括使用卷积神经网络（CNN）和长短时记忆网络（LSTM）等常见的深度学习模型，进一步加强对噪声环境的鲁棒性。

此外，本研究还将探索采用多任务学习、迁移学习等深度学习算法，提高模型对不同语音特征的适应性，以及泛化能力。

三、预期研究成果本研究的预期成果如下：1.研究噪声环境下的语音信号特征分析与增强，提高说话人识别模型的鲁棒性。

2.研究基于深度学习的说话人识别算法，提高模型对噪声环境的适应能力，降低语音信号噪声的影响。

3.基于深度学习算法的说话人识别模型在公开数据库上进行实验，证明其在噪声环境下的高效性和鲁棒性，并与现有相关算法进行对比分析。

四、研究计划与进度安排本研究预计用时两年，计划安排如下：第一年：1.收集噪声语音数据库，预处理标准化；2.探索基于滤波器组的语音预处理方法，将预处理效果应用于卷积神经网络和长短时记忆网络架构的说话人识别模型中；3.探索不同增强方法的效果，提高噪声下的语音质量；4.设计并实现基于多任务学习、迁移学习等策略的说话人识别算法，提高算法的鲁棒性。

自动语音识别中的噪声鲁棒性方法的开题报告

自动语音识别中的噪声鲁棒性方法的开题报告一、研究背景和意义随着语音技术的发展，自动语音识别（ASR）在各个领域的应用越来越广泛。

但是，现实应用中，ASR面临着各种噪声环境（如街道噪声、机器噪声等）的干扰，这极大地影响了ASR的准确性和稳定性。

因此，如何提高ASR系统的噪声鲁棒性成为了一个重要的研究方向。

通常情况下，提高ASR系统的噪声鲁棒性可以通过以下几种方法：1）增加训练数据中的噪声样本；2）使用降噪算法对语音信号进行预处理；3）使用噪声模型对噪声进行建模，并将其纳入ASR系统的识别过程中。

不过，这些方法都存在不同程度的问题：增加噪声样本会增加数据量，但也会带来过拟合的风险；降噪算法的效果受限于噪声类型和强度；噪声模型的建模难度较大，模型参数众多且复杂。

因此，本文旨在研究一种新的ASR噪声鲁棒性方法，该方法可以有效提高ASR系统在噪声环境下的识别能力，同时避免上述方法存在的问题。

二、研究内容本研究中，将采用深度学习技术，结合对抗生成网络（GAN）和变分自编码器（VAE）的思想，设计一个噪声鲁棒性改进的自动语音识别系统。

具体来说，研究内容包括以下几个方面：1. 改进ASR系统的声学模型。

将GAN和VAE结合起来，设计一个可以对语音信号进行去噪和噪声生成的模型。

2. 构建数据集。

通过音频文件的处理，构建一个噪声数据集，同时对语音数据进行噪声干扰，形成包含噪声的语音数据集。

3. 训练声学模型。

使用构建的数据集，训练改进后的声学模型，并对比传统ASR系统在噪声环境下的识别精度。

4. 分析和评估。

对比ASR系统的识别精度，同时进行算法和模型的分析和评估，找出相应的优缺点和适用场景。

三、研究意义和创新性本研究的意义主要体现在以下方面：1. 提出了一种新的方法来提高ASR系统的噪声鲁棒性。

该方法可以有效地对噪声环境下的语音数据进行去噪和噪声生成，并将其纳入ASR系统的识别过程中，从而提高ASR系统在噪声环境下的稳定性和准确性。

语音识别中基于模型补偿的噪声鲁棒性问题研究的开题报告

语音识别中基于模型补偿的噪声鲁棒性问题研究的开题报告一、研究背景及意义语音识别技术已经在现实生活中得到了广泛应用，例如智能助手、智能家居、语音支付等。

然而，噪声环境对于语音识别的影响仍然是一个挑战，因为噪声会引入额外的语音失真或增加语音识别的误识别率。

为了克服噪声环境对语音识别性能的影响，研究者们提出了许多鲁棒性方法来提高识别性能，其中基于模型补偿的方法是一种有效的方法之一。

基于模型补偿的方法主要是通过建立一个噪声环境下的情况下的语音信号生成模型来解决识别问题。

该方法需要在训练样本上建立一个带有噪声的语音信号生成模型，并在测试时使用该模型来生成带有噪声的语音信号，从而可以识别出噪声干扰下的语音信息。

实际上，噪声干扰往往是多样的，因此该方法的识别性能高度依赖于建模质量以及噪声环境与训练数据集的匹配度。

二、研究目标和内容本文旨在研究语音识别中基于模型补偿的噪声鲁棒性问题，探讨如何在噪声环境下提高语音识别性能。

具体来说，主要包括以下内容：（1）系统调研。

调研当前语音识别噪声鲁棒性相关的研究现状，了解基于模型补偿方法的发展历程、算法原理和应用现状，从多个角度分析该方法的优缺点以及存在的问题。

（2）建立噪声环境下的语音信号生成模型。

在噪声干扰下，建立生成带有噪声的语音信号的模型。

在训练模型时，需要考虑不同噪声类型、不同强度的干扰，并使用合适的数据进行模型训练。

（3）模型补偿。

基于模型补偿技术，在测试时，根据噪声环境使用建立好的带噪声的语音信号生成模型，生成带有噪声的语音信号，从而提高识别率。

（4）实验验证。

通过实验进行模型优化和验证，以评估基于模型补偿的方法在不同噪声环境下的鲁棒性表现和识别精度，与其他鲁棒性方法进行对比。

三、研究方法和技术路线本文的研究方法主要是基于模型补偿的鲁棒性方法。

针对问题采用以下技术路线：（1）问题分析与研究背景分析通过分析语音识别中面临的噪声鲁棒性问题与基于模型补偿技术发展的现状为研究问题制定合理方案。

抗噪声语音识别及语音增强算法的应用

|
S^K
|
=
[|
yk
|5
-
βλλ n
(
k)
]1 /5
(1)
其中 5,β为参数。一般的谱减方法中 λ = 2,β = 1。适当的调
整两参数可以获得更好增强效果。
掩蔽 ,它描述的是在信号发生的整个时间内产生的掩蔽 , 当两个音同时作用于人耳时 ,强度大的纯音会影响人耳对强度小的纯音的感知 ,人耳听不到强度小的纯音。人耳是一个有限频率分辨率的声学系统 , 分辨率与当前的频率有关。掩蔽曲线如图 2[3 ] 。
ABSTRACT: Imp roving the robustness of speech recognition system is an important issue in speech recognition tech2 nology. The performance of traditional speech recognition system degrades seriously when the training environments and the testing environments are m ismatched . In order to acquire satisfactory performance of speech recognition sys2 tem under noisy environment, in this essay, a new robust speech feature extraction method based on p roperties of the human auditory system is p resented . This method p rocesses the noisy speech by using masking p roperties before the M FCC extraction and analyses the speech feature w ith the speech enhancement algorithm and gets the robust speech feature finally. The results in four different kinds of experiments show that the performance of speech recognition sys2 tem can be imp roved greatly by using the new method under noisy environment and the p roposed method is highly ap2 p licable. KEYW O RD S: Speech recognition; Noise; Robustness; M asking model; Spectral substraction

噪声环境下说话人识别的鲁棒性研究

噪声环境下说话人识别的鲁棒性研究说话人识别,又称为声纹识别,是一种基于说话人声音中特征信息自动识别或验证说话人身份的技术。

说话人识别技术能够让服务系统通过语音来控制用户对受限的服务(如自动银行服务)、信息资源(取决于用户的访问权限)或区域(如政府或研究机构)的访问权限。

此外,还可以用于说话人的检测,如音频档案中基于语音的信息检索、识别犯罪者的取证分析及用户设备的个性化。

经过多年的研究,目前的说话人识别系统取得了相当令人满意的成绩。

但是,系统在实际应用环境下的噪声鲁棒性问题仍亟待解决,这也是说话人识别技术走向日常应用的一大障碍。

本文针对该问题做了以下研究:首先,分析了经过主成分分析处理的伽马通频率倒谱系数特征应用到说话人识别中的噪声鲁棒性。

在white、babble和destroyerops不同信噪比的噪声环境下,与梅尔频率倒谱系数特征的系统性能做了全面的分析和比较。

此外,将主成分分析算法用于伽马通频率倒谱系数的预处理中,并且对处理后的伽马通频率倒谱系数的性能做了实验分析。

实验结果表明,主成分分析在一定程度上提高了伽马通频率倒谱系数在低信噪比条件下的系统表现。

随后,对目前在各类评测中表现突出的i-vector/PLDA 技术框架做了详细的介绍,论述了i-vector的基本原理及提取过程,G-PLDA模型的因子分析理论及基于该模型的i-vector信道或噪声补偿方法的研究。

对i-vector信道补偿方法,如线性区分分析变换、长度规整和数据白化等做了详细描述。

最后,本文提出了一种将基于深度神经网络特征映射的回归分析模型应用到i-vector/PLDA说话人系统模型中的方法。

深度神经网络通过拟合含噪语音和纯净语音i-vector之间的非线性函数关系,得到纯净语音i-vector的近似表征,达到降低噪声对系统性能影响的目的。

在TIMIT数据集上的实验验证了该方法的可行性和有效性。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

［］］可以通过一组Ｇａｍｍａｔｏｎｅ滤波器实现２。在文［３
ｎａｌｓｉｓｏｆｎｏｉｓｅｒｏｂｕｓｔｎｅｓｓｏｆａｕｄｉｔｏｒＡｙｙｆｅａｔｕｒｅｓｉｎｓｅｅｃｈｒｅｃｏｎｉｔｉｏｎｐｇ
／２２３１０８２０８６１－
语音识别中听觉特征的噪声鲁棒性分析
１，２２李银国１ห้องสมุดไป่ตู้，欧阳希子，郑方
（）１．重庆邮电大学，重庆４０００６５；２．清华大学语音和语言技术中心，北京１０００８４
摘要：自动语音识别系统在噪声环境下的性能通常会显著下降，这成为制约语音识别技术广泛应用的一个重大障碍。该文在他人的基于Ｇａｍｍａｔｏｎｅ的听觉特征（ＦＣＣ特Ｇ征）研究基础上，进一步对ＧＦＣＣ与基于Ｍｅｌ频率的倒谱系在不同噪声环境下的性能表现进行分析研究。数（ＭＦＣＣ）选择５种人工和自然噪声进行比较试验：白噪声、粉红噪声、褐色噪声、背景说话人噪声、汽车噪声。通过混合不同类型和不同强度的噪声，系统地研究了基于听觉特性的ＧＦＣＣ特征的特性和抗噪能力；特别地，用不同频段的正弦波噪声与纯净语音混合，分析了ＧＦＣＣ和ＭＦＣＣ在各个频带上的噪声鲁棒性。研究发现，与传统的ＭＦＣＣ相比，ＧＦＣＣ对低频噪声具有更高的鲁棒性，而对中高频噪声相对敏感。由于），这一特性使得人类发音通常在较低频率（３００～７００ＨｚＧＦＣＣ在语音识别任务中具有良好的抗噪能力。实验结果表明，ＧＦＣＣ在多种常见噪声环境下都取得了比ＭＦＣＣ更特别是在低信噪比的情况下表现出更大的好的识别效果，优势。关键词：语音识别；Ｇａｍｍａｔｏｎｅ滤波器；基于Ｇａｍｍａｔｏｎｅ；鲁棒性的听觉特征（ＧＦＣＣ）中图分类号：９１２．３ＴＮ（）文章编号：１０１０００００５４２０１３０８０８２５－－－文献标志码：Ａ
中，作者提出了时域Ｇ并对ＧＦＣＣ的实现方法，ＦＣＣ和ＭＦＣＣ的识别性能做了分析比较。本文在上述工作基础上，对ＧＦＣＣ和ＭＦＣＣ在各种噪声环境下的识别性能进行补充性对比分析，并对ＧＦＣＣ和ＭＦＣＣ在不同频率区间内的敏感性进行了对比分析。选择５种噪声进行噪声对比实验：白噪声，粉红噪声，褐色噪声，背景说话人噪声，汽车噪声。通过混合不同类型和不同强度的噪声，分析ＧＦＣＣ和ＭＦＣＣ在不同噪声环境下的优劣和对不同噪声的抗干扰能力。同时，基于正弦噪声的能量在频率域上分布的单一性，用不同频率的正弦噪声对纯净的语音信号各频段进行混合，从而可以分析ＧＦＣＣ和ＭＦＣＣ对不同频率区间的敏感性和对不同能量分布的噪声的鲁棒性。
ｗｈｉｌｅｍｏｒｅｓｅｎｓｉｔｉｖｅｔｏｎｏｉｓｅｓａｔｍｉｄｄｌｅａｎｄｈｉｈｆｒｅｕｅｎｃｉｅｓ．Ｔｈｉｓｇｑｒｏｅｒｔｉｓｄｅｓｉｒａｂｌｅｆｏｒｓｅｅｃｈｒｅｃｏｎｉｔｉｏｎｓｉｎｃｅｍｏｓｔｏｆｔｈｅｐｐｙｐｇｉｎｆｏｒｍａｔｉｏｎｏｆｈｕｍａｎｓｅｅｃｈｒｅｓｉｄｅｓｉｎｔｈｅｌｏｗｆｒｅｕｅｎｃｂａｎｄｏｆｐｑｙ３００—７００Ｈｚ．ＥｘｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｄｅｍｏｎｓｔｒａｔｅｔｈａｔｔｈｅＧＦＣＣｐｅｘｈｉｂｉｔｓｓｉｎｉｆｉｃａｎｔａｄｖａｎｔａｅｓｏｖｅｒｔｈｅＭＦＣＣｆｏｒｖａｒｉｏｕｓｎｏｉｓｅｇｇ，ｃｏｎｄｉｔｉｏｎｓｅｓｅｃｉａｌｌｗｈｅｎｔｈｅＳＮＲｉｓｌｏｗ．ｐｙ：；ｇ；ｇＫｅｗｏｒｄｓｓｅｅｃｈｅｃｏｎｉｔｉｏｎａｍｍａｔｏｎｅｉｌｔｅｒｓａｍｍａｔｏｎｅ－ｒｆｐｇｙ；ｂａｓｅｄａｕｄｉｔｏｒｆｅａｔｕｒｅ（ＧＦＣＣ）ｏｂｕｓｔｒｙ
清华大学学报（自然科学版）２Ｉ０ＳＳＮ１００００５４０１３年第５３卷第８期－／），２２３ｓｉｎｈｕａＵｎｉｖ（Ｓｃｉ＆Ｔｅｃｈｎｏｌ０１３，Ｖｏｌ．５３，Ｎｏ．８２ＮＪＴ２ＣＮ１１－ｇ
１，１，２，２ＩＹｉｎｕｏＵＹＡＮＧＸｉｚｉｈｏｍａｓＦａｎＺＨＥＮＧＬＯＴｇｇ
（，１．ＣｈｏｎｉｎＵｎｉｖｅｒｓｉｔｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓｇｑｇｙ；Ｃｈｏｎｉｎ４０００６５，Ｃｈｉｎａｇｑｇ，２．ＣｅｎｔｅｒｆｏｒＳｅｅｃｈａｎｄＬａｎｕａｅＴｅｃｈｎｏｌｏｉｅｓｐｇｇｇ，）ＴｓｉｎｈｕａＵｎｉｖｅｒｓｉｔＢｅｉｉｎ１０００８４，Ｃｈｉｎａｊｇｇｙ：ＡＡｂｓｔｒａｃｔａｒｔｉｃｕｌａｒｄｉｆｆｉｃｕｌｔｏｆａｕｔｏｍａｔｉｃｓｅｅｃｈｒｅｃｏｎｉｔｉｏｎｉｎｐｙｐｇｒｅａｌａｌｉｃａｔｉｏｎｓｉｎｖｏｌｖｅｓｓｉｎｉｆｉｃａｎｔｅｒｆｏｒｍａｎｃｅｄｅｒａｄａｔｉｏｎｉｎｐｐｇｐｇａｓｅｄｂｎｏｉｓｅｎｖｉｒｏｎｍｅｎｔ．Ｂａｓｅｄｏｎｔｈｅｒｅｓｅａｒｃｈｏｎａｍｍａｔｏｎｅ－ｙｇ）ｐ，ａａｕｄｉｔｏｒｆｅａｔｕｒｅｓ（ＧＦＣＣｓｒｏｏｓｅｄｂｔｈｅｒｒｅｓｅａｒｃｈｅｒｓｎｙｐｙｏａｄｄｉｔｉｏｎａｌｃｏｍａｒａｔｉｖｅｓｔｕｄｏｎｔｈｅＧＦＣＣａｎｄｔｈｅＭＦＣＣｗａｓｐｙ，ｒｅｓｅｎｔｅｄｆｏｒｖａｒｉｏｕｓｎｏｉｓｅｃｏｎｄｉｔｉｏｎｓ．Ｐａｒｔｉｃｕｌａｒｌｔｈｅｂｅｈａｖｉｏｒｏｆｐｙ／ＭＦＧＦＣＣＣＣｆｅａｔｕｒｅｓｗｉｔｈｎｏｉｓｅｉｎｄｉｆｆｅｒｅｎｔｆｒｅｕｅｎｃｂａｎｄｓｗａｓｑｙａｎａｌｚｄｂｍｉｘｉｎｔｈｅｔｅｓｔｓｅｅｃｈｗｉｔｈｓｉｎｅｎｏｉｓｅｓｔｏｓｈｏｗｔｈａｔｔｈｅｙｅｙｇｐｒｅｕｅｎｃｎｏｉｓｅｓｔｈａｎｔｈｅＭＦＣＣｆＧＦＣＣｉｓｍｏｒｅｒｏｂｕｓｔａａｉｎｓｔｌｏｗ－ｑｙｇ
当前自动语音识别系统（ｕｔｏｍａｔｉｃｓｅｅｃｈｒｅｃａ－ｐ，Ａ面临的一个重大挑战是在噪声环境ｏｎｉｔｉｏｎＳＲ）ｇ下识别性能的急剧下滑，这极大制约了ＡＳＲ技术在实际应用中的推广。因此，增强识别系统的抗噪性能一直是语音识别领域的重要研究方向。近年来提出的比较重要的ＡＳＲ鲁棒性的方法包括通道归一化、信号增强、模型自适应等。在特征层，人们试图通过模拟人类听觉系统的结构和响应特性以提高语音特征对噪声的抗干扰能力，其中最通用的是基于Ｍｅｌ频率的倒谱系数（ｅｌＭ，ＭＦ及其衍生ｆｒｅｕｅｎｃｃｅｓｔｒｕｍｃｏｅｆｆｉｃｉｅｎｔＣＣ）ｑｙｐ特征，其他有感知线性预测（ｒｃｅｔｕａｌｌｉｎｅａｒｒｅｅ－ｐｐｐ，和线性预测倒谱系数（ｄｉｃｔｉｏｎＰＬＰ）ｉｎｅａｒｒｅｄｉｃｌ－ｐ［１］，Ｌ等。上述几种ｔｉｏｎｃｅｓｔｒｕｍｃｏｅｆｆｉｃｉｅｎｔＰＣＣ）ｐ特征中，ＭＦＣＣ和ＰＬＰ是基于人类听觉的特征，ＰＣＣ基于人类的发声机理。Ｌ与ＭＦ本文中研究的基于ＧＣＣ类似，ａｍｍａ－ｔｏｎｅ的倒谱系数（ｍｍａｔｏｎｅｆｒｅｕｅｎｃｃｅｓｔｒｕｍａｑｙｐｇ，也是一种模拟人类听觉系统响ｃｏｅｆｆｉｃｉｅｎｔＧＦＣＣ）应特性的语音特征提取方法。人类的听觉系统是一个高度复杂敏感的系统，对不同频率的信号分量有不同形式的响应，这种响应是非线性的，这种非线性