噪音环境下的语音识别研究概述

合集下载

语音识别技术的噪声消除方法研究

语音识别技术的噪声消除方法研究随着语音识别技术的迅猛发展，我们生活中越来越多的场景需要用到语音交互，例如语音助手、智能家居和汽车语音控制等。

然而，实际应用中常常存在噪声干扰，这会显著影响语音识别系统的准确性和稳定性。

因此，研究如何消除噪声对于提高语音识别系统的性能至关重要。

噪声消除是一种利用信号处理技术从噪声污染的语音信号中提取出干净语音信号的方法。

在语音识别领域，噪声消除算法有助于提高语音信号的质量，并显著提升语音识别系统的性能。

本文将介绍几种常用的语音识别技术的噪声消除方法。

一. 频域噪声消除方法频域噪声消除方法是一种常见的噪声消除方法，它利用语音信号和噪声信号在频域上的差异，通过滤波和谱减法等技术来减少噪声对语音的干扰。

1. 滤波法滤波法通过设计数字滤波器，将语音信号和噪声信号进行滤波，从而达到消除噪声的效果。

常用的滤波器设计方法有无限脉冲响应滤波器（IIR）和有限脉冲响应滤波器（FIR）。

滤波法可以有效地降低噪声的能量，但在某些情况下会对语音信号的频谱造成畸变。

2. 谱减法谱减法是一种常用的噪声消除方法，它通过对语音信号的频谱进行分析和处理，将噪声频谱从语音频谱中减去，从而得到较为清晰的语音信号。

谱减法包括短时傅里叶变换（STFT）和谱减。

二. 时域噪声消除方法时域噪声消除方法是基于时域分析的噪声消除方法，它通过对语音信号的时域特征进行处理，减少噪声的干扰。

1. 统计模型法统计模型法是一种常见的时域噪声消除方法，它利用语音信号和噪声信号之间的统计特性进行建模和分析。

常见的统计模型包括高斯混合模型（GMM）和隐马尔可夫模型（HMM）。

统计模型法可以通过对语音信号和噪声信号之间的统计特性进行建模，从而减少噪声对语音的干扰。

2. 线性预测法线性预测法是一种基于线性预测分析的噪声消除方法，它通过对语音信号的线性预测系数进行分析和处理，减少噪声的干扰。

线性预测法包括自相关法和自适应线性预测法。

三. 混合域噪声消除方法混合域噪声消除方法是将时域和频域噪声消除方法相结合的一种噪声消除方法，它利用了时域和频域上的信息来提高噪声消除效果。

《噪声环境下的语音关键词检测》范文

《噪声环境下的语音关键词检测》篇一一、引言随着信息技术的飞速发展，语音识别技术已成为人们日常生活和工作中不可或缺的一部分。

然而，在噪声环境下，语音识别系统的性能往往会受到严重影响，导致识别准确率大幅下降。

因此，如何在噪声环境下实现有效的语音关键词检测成为了一个亟待解决的问题。

本文将介绍一种基于深度学习的噪声环境下的语音关键词检测方法，以提高系统的准确性和鲁棒性。

二、相关技术概述2.1 语音识别技术语音识别技术是一种将人类语音转换为可处理信息的计算机技术。

它广泛应用于智能家居、智能车载系统、语音助手等领域。

然而，在噪声环境下，语音信号的信噪比降低，导致识别难度增加。

2.2 深度学习在语音处理中的应用深度学习在语音处理中具有广泛应用，如语音识别、语音合成、语音情感分析等。

通过训练深度神经网络模型，可以提高系统在噪声环境下的性能。

三、噪声环境下的语音关键词检测方法3.1 数据预处理在噪声环境下，首先需要对原始语音数据进行预处理，包括去噪、增强等操作，以提高信号的信噪比。

常用的去噪方法包括基于小波变换、基于谱减法等。

3.2 特征提取提取有效的语音特征是关键词检测的关键步骤。

常用的特征包括短时能量、短时过零率、MFCC（Mel频率倒谱系数）等。

这些特征能够反映语音信号的时域和频域特性，有助于提高关键词检测的准确性。

3.3 深度神经网络模型构建构建深度神经网络模型是实现关键词检测的核心步骤。

常用的模型包括循环神经网络（RNN）、长短期记忆网络（LSTM）和卷积神经网络（CNN）等。

这些模型能够从原始语音数据中学习到有用的特征表示，从而提高关键词检测的准确性。

3.4 关键词检测算法实现基于深度神经网络模型，可以实现高效的关键词检测算法。

具体步骤包括：输入预处理后的语音数据，通过神经网络模型提取特征；然后利用分类器对特征进行分类，判断是否包含关键词；最后输出关键词检测结果。

四、实验与分析为了验证本文提出的噪声环境下的语音关键词检测方法的性能，我们进行了实验分析。

语音识别技术的噪声鲁棒性改进方法研究

语音识别技术的噪声鲁棒性改进方法研究摘要：随着语音识别技术的广泛应用，噪声问题成为该技术面临的一个主要挑战。

在实际应用中，噪声环境对语音信号的质量产生了重要影响，使得语音识别的准确性大大降低。

因此，研究改进语音识别技术的噪声鲁棒性，具有重要的理论意义和应用价值。

本文综述了当前语音识别技术的噪声鲁棒性问题，并提出了几种改进方法。

关键词：语音识别；噪声鲁棒性；改进方法1. 引言语音识别技术是指基于计算机算法的自动将语音信号转化为文本或命令的技术。

它广泛应用于语音助手、智能家居、语音识别系统等领域。

然而，实际应用中的噪声环境对语音信号的质量造成了严重影响，给语音识别的准确性带来了很大挑战。

2. 噪声鲁棒性问题的挑战噪声是指人类在特定环境中发出的非目标声音，它包括背景噪声、环境噪声、语音噪声等。

这些噪声信号会与语音信号叠加在一起，降低语音信号的质量，导致语音识别的准确性下降。

当前，语音识别技术存在以下几个噪声鲁棒性问题：2.1 噪声抑制噪声抑制是指去除语音信号中的噪声成分，提升语音信号质量的过程。

常见的噪声抑制方法包括谱减法、模糊剪切、最小均方差等。

这些方法通过对语音信号的频域和时域进行处理，去除噪声成分，提高语音信号的清晰度和可辨识度。

2.2 噪声模型为了改进语音识别技术的噪声鲁棒性，研究人员提出了各种噪声模型。

噪声模型可以对噪声进行建模，通过模拟噪声的产生和分布情况，提高语音识别系统对噪声的适应能力。

常见的噪声模型有自适应噪声模型、高斯噪声模型等。

2.3 声学特征优化在语音识别中，声学特征是对语音信号表征和表示的一种方式。

目前，常用的声学特征包括梅尔频率倒谱系数（MFCC）、线性预测编码（LPC）等。

为了提高语音识别技术的噪声鲁棒性，研究人员提出了一系列声学特征优化方法，如径向基函数网络（RBFN）、时域的连续波变换（DT-CWT）等。

3. 改进方法研究为了提高语音识别技术的噪声鲁棒性，研究人员采用了多种改进方法。

一种抗噪声的语音识别方法研究

语音识别系统必须适应不同信道，不同信道差异较大，跨信道识别问题是语音信号识别的一个障碍曲。背景噪音是影响语音识别系统的一大难题,背景噪音的频谱很容易和原始语音频谱重合，会将原始语音掩盖在噪音频谱范围内,导致识别系统不能准确分离出来原声音。音识识别就是模式识别,基本结构原理如图1所示,主要包括信号预处理、特征提取、特征匹配等基本功能模块，后处理模块作为输出部分直接面向用户。
利用两种模型建立不同说话人识别模型阶段，并在实验
髙斯混合模型采用单高斯密度函数线性的加权值调整实验表明，适当增加权值可增加结果的真实分布程度；改进卡尔曼滤波算法可以减少噪声的影响，提高抗干扰能力，提取说话人的特征准确度更高。
5结论
针对传统语音识别系统在噪音环境适应性差的问题，分析了人类语音特征和信号处理策略，研究高斯混合数学模型和隐马尔可夫数学模型在噪音环境中语音识别效果,适当增加釆集时长，可有效提高语音的识别率，改进算法也可提高数学模型在噪音环境的准确度,对语音识别系统在信息化中应用具有很好的指导意义。
|语音信号卅反混叠滤波同 A/D转换同分析处理|
|信号输岀冃平滑滤波 M D/A转换卜=|合成处理|
图2语音信号预处理简图
3语音识别模型及算法
模型是对信号本质的数学描述，语音信号是非平稳随机信号，无法用确定性函数方程描述，因此必须分析多种语音识别数学模型，求解结果逼近实际值，因此要建立分类模型。目前可用模型有两种：高斯混合模型和隐马尔可夫模型。高斯混合模型的阶数必须足够大，才能全面体现特征空间的分布，釆用的协方差矩阵类型为对角阵，高维特征空间计算量小，优势明显。模型初值初始条件不同,局部极值差距较大,模型初值必须修正均值。训练数据少或背景噪声过大时，方差幅度变小导致函数出现奇异性,只能通过方差限定提高计算精度。

智能语音识别系统中的噪声抑制技术研究

智能语音识别系统中的噪声抑制技术研究随着人工智能技术的发展，智能语音识别系统已经被广泛应用于各个领域。

但是，由于环境噪声的影响，智能语音识别技术在实际应用中存在着许多问题，其中最主要的问题就是噪声干扰。

如何解决噪声干扰问题，是智能语音识别技术研究的重要方向之一。

本文将从噪声的定义、分类和产生原因入手，然后探讨智能语音识别系统中常用的噪声抑制技术，以及各种技术的优缺点和适用范围。

一、噪声的定义、分类和产生原因噪声是指人工或自然环境中的声音，它包括很多不同类型的声音，以及与语音目标无关的声音成分。

噪声可以按不同的标准进行分类，比如按声频分布、时域分布、频率特性等，常见的噪声有以下几种：1. 白噪声：指在所有频率上具有相同的能量的噪声。

2. 滤波白噪声：经过滤波器滤波后的白噪声。

3. 飞行器噪音：飞行器发出的引擎声以及风道交互的空气造成的噪音。

4. 人声噪音：来自人群、机器、交通等噪声。

5. 环境噪声：来自天气、流水、鸟鸣等。

噪声的产生原因很多，包括来自交通、建筑工程、机器、人群以及各种天然环境的声响。

其中，交通噪声和工业噪声占据了城市环境中非常显著的部分。

二、智能语音识别系统中常用的噪声抑制技术为了提高智能语音识别系统在噪声环境下的准确率，研究人员已经开发出了一系列噪声抑制技术。

这些技术可以按照不同的标准进行分类，比如根据噪声来源、滤波技术、特征提取等。

以下将介绍几种比较常见的噪声抑制技术。

1. 双向长短时记忆网络（BLSTM）BLSTM是一种递归神经网络，可以建模语音信号中的非线性时间动态，包括动态的噪声变化。

BLSTM通过处理短期和长期幅度、频率或相位差异，能够有效地抑制单向滤波器中的噪声，这类算法性能卓越。

BLSTM虽然能取得不错的去噪效果，但需要更高的计算资源和更长时间的训练，因此很难应用于实时系统。

2. 端到端模型端到端模型的出现，很大程度上解决了以往模型出现的问题。

端到端算法利用CNN网络对输入的音频信号进行特征提取，再通过解码器将音频转换为文本。

强背景噪声环境下语音增强算法的研究及应用毕业论文

密级：内部★ 2 年强背景噪声环境下语音增强算法的研究及应用Research and Application of SpeechEnhancementin Strong Noise Environment(申请清华大学工学硕士学位论文)培养单位：学科：研究生：指导教师:关于学位论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规定，即：清华大学拥有在著作权法规定范围内学位论文的使用权，其中包括：（1）已获学位的研究生必须按学校规定提交学位论文，学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文；（2）为教学和科研目的，学校可以将公开的学位论文作为资料在图书馆、资料室等场所供校内师生阅读，或在校园网上供校内师生浏览部分内容；（3）根据《中华人民共和国学位条例暂行实施办法》，向国家图书馆报送可以公开的学位论文。

本人保证遵守上述规定。

（保密的论文在解密后遵守此规定）作者签名：导师签名：日期：日期：摘要摘要人们在语音通信过程中不可避免地会受到各种噪声的干扰，影响了通信质量。

同时，噪声的存在也使低速率语音编码以及语音识别等语音处理系统的性能下降。

语音增强作为一种预处理手段，不失为解决噪声污染的一种有效途径。

在各类语音增强技术中，基于短时谱幅度估计的语音增强算法处于主流位置，得到广泛应用。

本文针对短时谱幅度估计在低输入信噪比以及非平稳噪声环境下，性能不够理想这一不足加以研究改进，完成稳健的语音增强算法设计和实时实现。

根据对短时谱幅度估计算法进行分析，指出了影响其性能的关键技术：噪声统计特性的估计、语音激活检测算法、先验信噪比估计、增益函数的修正等，为算法改进指明了研究方向。

首先，提出了一种快速估计噪声统计特性的算法，减小了噪声估计的跟踪延时，在一定程度上改善了噪声过估计的现象，因而能够在低输入信噪比以及非平稳噪声干扰环境下快速准确地跟踪噪声特性。

其次，研究了一种基于高斯模型和一致最大势检验的语音激活检测算法，由于检测门限与噪声估计相适应，因而提高了检测性能，尤其在非平稳噪声干扰环境下得到了良好的检测效果。

基于噪声环境下的说话人识别系统的研究

基于噪声环境下的说话人识别系统的研究摘要：对带噪声的语音信号采用消噪算法处理，并提取特征参数mel倒谱系数来建立说话人的特征参数的混合高斯模型，构建了一个基于噪声环境的文本无关的说话人识别系统。

本文详细阐述了梅尔倒谱系数这一主流语音特征及高斯混合通用背景模型来建立说话人识别系统。

实验表明，增加混合高斯模型的维数可以增加系统的识别率。

关键词：说话人识别；梅尔倒谱系数；高斯混合-通用背景模型中图分类号tp391.42 文献标识码a 文章编号 1674-6708（2011）53-0182-03a study on the text-independent speaker recognition system under noisy conditionlin xiu，fan mao-zhischool of software engineering, tongji university, shanghai 2018040 引言说话人识别指在提取代表个人身份的特征信息，最终识别出说话人。

作为身份鉴定的一种方法，说话人识别具有使用简单、获取方便、使用者的接受程度高等优点，但也存在许多值得研究的问题，如训练条件与测试条件不匹配。

说话人识别系统在训练条件与测试条件匹配的情况下，识别系统具有很好的性能。

由于人体声道特征，语音信道及通话环境等因素的干扰，使得说话人识别系统的准确性显著降低。

在说话人识别系统中，有两方面重要的影响因素：一方面，所选取的语音特征参数应尽量突出说话人的个性特征，使得不同说话人可以在特征空间上尽量分离。

另一方面，降低环境噪声对说话人识别系统的干扰，是使训练条件与测试条件匹配的最好办法。

通常提高系统抗噪性能的方法有3种：1）前端处理，如自适应噪声抵消技术等[1]；2）提取具有鲁棒性的特征参数[2]；3）后端处理，如归一化补偿变换[3]。

本系统的基本思路如下：首先，采用消噪算法对带噪声的语音信号进行消噪。

背景噪音对语音识别技术的应用有何影响？

背景噪音对语音识别技术的应用有何影响？一、背景噪音对语音识别的干扰问题在现实生活中，我们往往处于各种复杂的环境中，比如咖啡厅、公交车、街头等，大量的背景噪音会对语音识别的准确性造成很大的干扰。

噪音会导致声音的频谱变化，使得噪音信号和语音信号在频谱上的表现很相似，从而增加了语音识别的难度。

1. 噪音降低了语音特征的清晰度语音信号中包含了语音特征，比如音高、音量、音节等。

而背景噪音会掩盖这些语音特征，使得语音信号变得模糊，难以分辨。

2. 噪音增加了信噪比，降低了识别的准确性信噪比是衡量语音信号的强弱与噪音信号的强弱之比。

当背景噪音增加时，信噪比会降低，这会导致语音信号与噪音信号混淆在一起，使得语音识别的准确性大大下降。

3. 噪音引发的声音变化增加了识别困难在大部分情况下，语音信号是通过声带产生的，而声带本身会受到噪音的影响而发生变化。

这种变化会使得语音在频谱上的表现发生变化，增加了语音识别的困难。

二、背景噪音对语音识别技术的应对策略虽然背景噪音给语音识别带来了很大的挑战，但是有很多方法可以解决这个问题，提高语音识别技术的准确性。

1. 降噪算法的应用降噪算法是目前解决背景噪音问题的主要方法之一。

该算法通过滤波、谱减、谱估计等技术，将噪音信号从语音信号中分离出来，从而提高信噪比，减小噪音对语音识别的影响。

2. 多通道麦克风阵列的使用多通道麦克风阵列可以捕捉来自不同方向的声音信号，通过对这些信号进行处理和融合，可以抑制背景噪音，增加语音信号的质量和清晰度，提高语音识别的准确性。

3. 语音增强技术的应用语音增强技术可以通过提高语音信号的幅度、增强语音信号的稳定性等方法，减轻背景噪音对语音识别的影响。

比如基于谱减的语音增强算法可以通过对语音信号进行谱减，减小噪音的影响，提高语音的清晰度。

4. 深度学习技术的引入近年来，深度学习技术在语音识别领域取得了巨大的突破。

通过深度神经网络对语音数据进行训练和模型优化，能够提高语音识别的准确性和鲁棒性，减小背景噪音的干扰。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

噪音环境下的语音识别摘要：语音信号数字处理技术在国民经济、日常生活和军事领域有着极为重要的应用价值和极其广阔的应用空间。本文介绍了语音信号处理在信息科学中的作用以及应用于科学领域的技术。

关键词：语音信号，识别，应用众所周知，语音在人类社会中起了非常重要的作用。在现代信息社会中，小至人们的日常生活，大到国家大事、世界新闻、社会舆论和各种重要会议，都离不开语言和文字。近年来，普通电话、移动电话和互联网已经普及到家庭。在这些先进的工具中，语音信号处理中的语音编码和语音合成就有很大贡献。再进一步，可以预料到的口呼打字机(又称听写机，它能把语音转换为文字)、语音翻译机(例如输入为汉语，输出为英语，或者相反)，已经不是梦想而是提到日程上的研究工作了。计算机语音识别的最终目标是使计算机能够听懂人的语言。尽管语音识别的研究历史最早可以追溯到二十世纪50 年代初，但是直到60 年代中期以后才作为一个重要的课题展开工作，并且逐步取得实质性的进展。这有两方面的原因，一方面计算机产业的迅速发展提出了使用要求，同时软、硬件环境的改善为复杂算法的实现提供了好的环境；另一方面，数字信号处理的理论和算法已有相当基础。许多算法诸如快速傅里叶变换、倒谱计算、线性预测算法、数字滤波器等已经出现，语音信号特有的基音周期、共振峰等特征的提取算法也出现了。识别系统使用方式逐渐从特定人、孤立词、小词表方式发展到非特定人、连续语音、大词表方式。近十年来，语音识别的产品也逐渐多起来，例如Motorola 的语音拨号电话、IBM 的语音听写机等。但是，现有的语音识别系统都存在一个共同的问题，即性能不稳定。不同的用户、不同的信道、不同的背景噪音环境、不同的口音和发音方式都对识别性能有很大的影响。最近十多年来抗噪语音识别方法形成了高潮，因此，提高语音识别系统对噪音的鲁棒性，是今后语音识别研究的一个重点。 1 三种典型的去噪处理方法我们可以将各种抗噪方法粗略可以分为信号级抗噪处理方法、特征参数级抗噪处理方法、模型级抗噪处理方法。后两种方法有些交叉。下面逐一进行讨论。

信号级抗噪处理这种处理是从带噪语音信号中提取尽可能纯净的原始语音，在语音信号处理中称为语音增强。语音增强技术在语音通讯、语音识别中有都有应用。在实际应用推动下，早在60 年代语音增强这个课题就已引起了人们的注意，70 年代形成一个高潮，取得了一些基础性成果。由于噪声来源众多，并随应用场合而异，它们的特性也各不相同，因此，即便是在实验室仿真条件下，也难以找到一种通用的、能适用于各种噪声环境的语音增强算法。这就表明：必须针对不同噪声，采取不同的语音增强对策。文论述了如下一些语音增强方法：LPC 全极点模型增强算法、最大后验概率估计法、卡尔墁滤波法、维纳滤波法、谱减法及其改进形式、最小均方误差估计。则分别对噪音同化法、子波消噪算法、小波单阈值消噪算法、小波频带阈值消噪算法、使用心理声学准则的残余噪声抑制法进行了论述。在上述方法中，谱减法是语音增强领域中用得最广泛的方法之一，但它也有明显的缺点，即信号在去噪处理后将带有明显的音乐噪声。利用心理声学原理给出了适用于各种语音增强方法后处理的残余噪声抑制法。微软公司曾将干净语音的数据加上各种噪声后做语音增强，然后再进行特征参数提取、训练模型参数，而在识别时，先进行语音增强处理，然后再进行识别。这种方法的特别之处在于：噪音是人为地加入到训练用的干净语音中的。因此，我们可以将这种方法视为一种“反语音增强”的去噪识别方法。按微软公司的报告，这种方法对噪音有很好的鲁棒性。针对汽车噪音，我们的实验表明，小波频带阈值消噪算法的去噪效果在听觉和端点信息保留方面具有一定的优势，其效果要明显好于前面提到的噪音同化法、均值滤波法、谱减法等各种方法。小波频带阈值消噪算法的具体步骤如下：（1）对原始语音数据做N－1 次小波变换，得到N 个频带的小波系数。（2）认为原始语音的前0.1 秒是纯噪音，并根据这些噪音数据在各频带上的小波系数，给出频带各自的噪音最大值的估计M(i),i=0,„,N-1。其中，i 是频带标号。（3）设定相对阈值K,令每个频带的阈值D(i)=K*M(i),i=0,„,N-1。（4）对各频带小波系数x(j)进行软滤波：x(j)=sgn(x(j))*Max{abs(x(j))-D(i),0}。其中j 是小波系数的下标。（5）对新小波系数进行N－1 次相应的反小波变换，得到语音增强信号。特征参数级抗噪处理目前绝大多数识别系统使用倒频谱类特征参数，例如LPC-CEP,MEL-CEP,FFT-CEP 等，大量的实验表明，这些特征参数对环境噪音的鲁棒性并不好。可以将特征参数级抗噪处理方法分为三类: 第一类在特征参数的计算过程中去除噪音的影响；第二类是特征参数变换法；第三类是提取新的抗噪特征参数。文提出了特征参数标准化方法,文又对之加以改进,这种方法属于第二类。具体的一种实现方法为：记第i 帧的特征参数为v(i),变换后第i 帧的特征参数为O(i),处理过程如下：（1）以当前帧为中心，计算2N+1 帧特征参数的均值、标准差：m(i)={v(i-N)+ v(i-N+1)+ „+v(i+N-1)+ v(i+N)}/(2*N+1)，sum(i)= ｛v(i-N)2+ v(i-N+1)2+ „+v(i+N-1)2+ v(i+N)2｝/(2*N+1)-m(i)2/(2*N+1),d(i)=sum(i)1/2 (2) 将当前帧的特征参数减去均值后除以标准差:O(i)={v(i)-m(i)}/d(i)上述方法部分消除了训练集与识别集因背景噪音不同造成的模型不匹配现象，我们的实验表明这种处理方法的识别性能很好。需要说明的是，(I) 在计算均值和标准差时，可以使用一些变形方法。例如，可以用全部语音帧或当前帧前的N 帧的特征参数来计算计算均值和标准差。在语音前、后端处也需要做一些特殊处理。针对加性噪音，我们曾经在特征参数LPC-CEP 的计算过程中进行了去噪处理，即在计算自相关函数时消除噪音的影响，从而达到消除噪音对LPC-CEP 的影响的目的；也对Mel-CEP进行过类似的实验，即在计算频带能量的时候，消除噪音的影响。然而，这些实验的结果都不是很理想。经过仔细观察和分析，发现噪音的自相关函数和频带能量有很高的时变性，简单地用语音开始前若干帧自相关函数、频带能量的均值做为当前帧相应量的估计是不可行的。总的看来，特征参数变换法尚有一定的研究空间，但难度很大，其关键在于要选出一种好的变换方法。 1.3 模型级抗噪处理模型级抗噪处理方法主要有两类，一类是用与测试集有相同环境的少数数据对模型进行快速适应，这是一种对噪音模型的自适应方法，相关的文章很多，在此不一一详述。另一类是直接在识别模型中增加对环境噪音的处理。文中介绍的HMM 框架下的噪音适应法属于第一类。M.J.Gales 在1992 年提出的PMC属于第二类，M.J.Gales 在论文中给出了对汽车噪音所做的一些实验，结果表明此方法是有效的。有很多文献使用、借鉴和发展了PMC 方法，如文中使用的快速PMC 算法，与传统的PMC 方法相比，识别率几乎相同，但节省了65％的计算量。文在HMM 状态解码过程中用PAD方法来代替Viterbi状态解码算法，克服了在噪音环境下状态驻留太短或太长的弊端。与标准HHM 相比，HHM/PAD对噪音环境有很好的鲁棒性。文提出的SN(source normalization)方法是一个很有创意的思想，它有一个很好的优点：训练是无监督的。但是，这种方法将环境影响简单地模型化为线性变换与偏移的和，则显得有些过于武断；不过，该方法的主要思想还是值得借鉴的。上面介绍的PMC 、PAD 和SN 都属于第二类模型级抗噪处理方法。我们曾经在噪声是加性的假设基础上，推导出自相关函数和频带能量也满足加性条件，并由此对LPC-CEP、Mel-CEP 的模型参数进行了Taylor 一阶逼近实验。但所得结果不理想。经分析后发现，其主要原因仍然是噪音的自相关函数和频带能量有很高的时变性。这样看起来，目前较好的模型级抗噪方法还是PMC 方法。三种去噪方法的性能及综合 1 对三种去噪方法的评价信号级去噪、参数级去噪、模型级去噪等三种处理方法都有各自的不足之处。信号级去噪法的主要缺点是: (1)很难区分清辅音和宽带噪音； (2) 清辅音的相对失真比浊辅音和元音要大； (3) 信噪比越低，语音的失真就越大。前面提到的反语音增强法对各种类型的噪音都有很好的鲁棒性，但它的缺点是：需要大量的各种类型的噪音数据。参数级去噪方法的缺点是： (1) 对特征参数变换法而言，由于目前常用的特征参数与人的听觉机理没有密切关系，听觉上失真小并不能保证识别效果好。当信噪比很低时，大多数去噪方法得不到浊音的准确端点信息。然而，如果语音信号经过去噪处理后可以得到准确浊音的端点信息，则这将有利于识别器提高实时性和识别率。这种方法已经显示出很好的识别性能，因此有必要研究进一步优化的方法。 (2) 对于在计算特征参数时直接去噪的方法而言，要直接去除噪音的影响实际上是很困难的。这主要是因为噪音的时变性很强。不过，对一些特殊的稳定型噪音，这类方法还是有很大优势的。 (3) 要在短时间内得到新的抗噪参数,并非一时的易事。不过，这种方法在理论研究上还是很有价值的。模型级去噪方法的缺点是：从理论上讲，本方法所使用的自适应处理，应仅限于对噪音模型的自适应，而不应该用于其它非噪音的语音基元模型的自适应。 2 多种去噪方法的综合目前还未见到将两种或三种去噪方法结合使用的例子。我们的实验表明：将信号级去噪法得到的端点信息与特征参数标准化方法结合使用，能够明显地提高识别器的性能。更进一步地，我们研究了三种去噪方法的综合，其具体过程如下： (1)用文中的去噪方法去噪，然后对增强后的语音进行端点检测，得到语音的端点信息; (2)对未做增强处理的语音提取特征参数，经标准化处理后得到新特征参数； (3)对新特征参数，利用端点信息进行状态解码。实验结果表明，上述方法的识别效果很好。另外，可能的结合方式还有：