语音信号特征参数提取方法
语音识别系统中的语音特征提取与分析

语音识别系统中的语音特征提取与分析语音识别是一种将人类语音转化为可理解的文本或命令的技术。
它在现代人机交互、智能助理和语音控制等领域起到了至关重要的作用。
而语音识别系统中的语音特征提取与分析是实现准确识别的基础。
本文将介绍语音特征提取与分析的方法和技术,并探讨其在语音识别系统中的应用。
首先,了解什么是语音特征提取与分析是十分重要的。
语音是一种波形信号,它包含了大量的信息,如声音的频率、强度和持续时间等。
而语音特征提取与分析的目标是从这些信息中提取出对语音识别任务有意义的特征,并将其用于模型训练和分类。
在语音特征提取过程中,最常用的方法是MFCC(Mel Frequency Cepstral Coefficients)特征提取法。
MFCC将语音信号分解成一系列频谱包络的倒谱系数,以及包络系数的动态特征,如一阶差分和二阶差分。
通过这种方式,MFCC在一定程度上模拟了人类听觉系统对声音的感知方式,提高了语音识别的准确度。
在语音特征分析过程中,常见的方法有语音信号的能量计算、过零率分析、音高分析和共振峰跟踪等。
语音信号的能量计算可以用于判断语音信号的强度和音量,而过零率分析可以用于判断语音信号的连续性和浊音音素的位置。
音高分析可以提取语音信号的基频信息,用于音高判断和声调识别。
而共振峰跟踪方法则可以提取语音信号中的共振峰频率和带宽信息,用于语音的声道特征分析。
除了MFCC和上述方法外,还有一些其他的语音特征提取和分析方法也被广泛应用于语音识别系统中。
例如,短时能量、短时过零率、倒谱包络和线性预测编码等方法也被用于语音特征提取。
而自动化语音识别系统中的声学模型通常使用动态时间规整(DTW)和隐马尔可夫模型(HMM)等算法进行特征匹配和分类。
在实际应用中,语音特征提取与分析在语音识别系统的各个环节中发挥着关键的作用。
首先,它可以用于预处理阶段,提高原始语音信号的质量和可识别性。
例如,噪声抑制和语音增强技术能够降低环境噪声对语音识别的影响。
声音信号的特征提取及其在语音识别中的应用

声音信号的特征提取及其在语音识别中的应用声音信号是一种复杂的信号,可以用于人与人之间的交流和信息的传递。
为了实现自然语言处理和语音识别等人工智能技术,需要对声音信号进行特征提取和分析。
本文将介绍声音信号的特征提取方法以及在语音识别中的应用。
一、声音信号的特征声音信号是一种时间变化的信号,包含了许多声音波形的成分。
为了对声音信号进行处理和分析,需要将其转换成数字信号。
在此基础上,可以进行频率分析、时域分析和小波分析等方式的信号特征提取。
1.1 时域特征时域特征是指在时间轴上进行的特征提取,包括时长、幅度、能量、变化率等等。
其中,时长和幅度是最基本的特征,它们通常用于刻画声音信号的基本特性。
能量和变化率则更多地体现了声音信号的动态特性,可以用于语音活动检测和说话人辨识等领域。
1.2 频域特征频域特征是指在频率轴上进行的特征提取,包括音调、共振、谐波、噪声等。
音调是指声音信号的基音频率,它是人声识别的重要特征。
共振则是指声音信号在声道内反射、混响的能力,可以用于说话人辨识。
谐波则是指声音信号的谐波谱,它可以用于语音音量和音色的分析。
1.3 小波特征小波特征是指通过小波变换提取的特征,主要包括频带能量、包络取样和最大音量等。
小波变换提供了一种有效的多分辨率分析方法,可以用于声音信号的分类和分析。
二、声音信号特征提取方法特征提取是指从原始信号中提取能够表现信号本质特征的指标和量化参数。
对于声音信号,特征提取是语音识别的基础。
现在常用的特征提取方法主要有短时傅里叶变换(STFT)、梅尔频率倒谱(MFCC)和线性预测编码(LPC)等。
2.1 短时傅里叶变换短时傅里叶变换是将信号分成许多小块,然后对每个小块进行傅里叶变换。
它可以提供声音信号的时频分布特征。
但是,短时傅里叶变换处理的是一组固定大小的样本,不能处理不同长度的语音信号。
2.2 梅尔频率倒谱梅尔频率倒谱是将信号在频率轴上进行均衡,并进行离散余弦变换后得到的特征组合。
基于深度学习模型的语音特征提取方法研究

基于深度学习模型的语音特征提取方法研究基于深度学习模型的语音特征提取方法的研究在语音识别和语音情感识别等领域具有重要意义。
深度学习模型能够自动学习数据中的抽象特征,并在各种任务中取得了令人瞩目的成果。
本文将介绍几种常用的基于深度学习的语音特征提取方法,并对比其优劣之处。
第一种方法是基于深度神经网络(Deep Neural Network,DNN)的特征提取方法。
DNN是一种多层神经网络,可用于非线性特征的抽取。
在语音识别中,传统的特征提取方法(如MFCC)往往需要手工设计特征提取算法,而DNN可以自动学习从原始语音信号到高层次的抽象特征的映射。
该方法的优点是能够捕捉到更多语音信号的细节,但需要大量的标注数据和计算资源来训练和使用模型。
第二种方法是基于卷积神经网络(Convolutional Neural Network,CNN)的特征提取方法。
CNN是一种能够自动学习图像和语音等信号中局部模式的模型。
在语音特征提取中,CNN可以通过卷积操作捕捉到语音信号中的短时频谱模式。
相比DNN,CNN的参数共享特性减少了需要学习的参数数量,从而减少了模型训练过程的计算量。
然而,CNN在应对变长输入时存在一些问题,需要使用池化层或全局平均池化来解决这个问题。
第三种方法是基于循环神经网络(Recurrent Neural Network,RNN)的特征提取方法。
RNN是一种递归的神经网络,可以处理序列数据。
在语音识别中,RNN可以通过循环连接来建模语音信号的时序特征。
RNN的优势在于能够有效地处理变长输入序列问题,但由于网络结构的限制,难以捕捉到长距离的依赖关系。
第四种方法是基于长短时记忆网络(Long Short-Term Memory,LSTM)的特征提取方法。
LSTM是一种特殊的RNN,能够有效地解决RNN中的梯度消失和梯度爆炸问题。
在语音特征提取中,LSTM可以更好地捕捉到语音信号中的长时依赖关系。
LSTM已经在语音识别和语音情感识别等任务中取得了很好的效果。
语音识别的特征提取方法

语音识别的特征提取方法语音识别技术是指通过计算机技术将人的语音信息转化为可识别和理解的文本或指令的过程。
而在实现语音识别的过程中,特征提取是其中至关重要的一步。
本文将介绍一些常用的语音识别特征提取方法。
1. 短时能量和过零率特征短时能量指的是在一段时间内短时信号的能量大小,它可以用来描述信号的音量大小。
过零率是信号穿过零点的次数,可以用来描述信号的频率特性。
短时能量和过零率特征可以用来区分不同音频信号的语音信息。
2. 梅尔频率倒谱系数(MFCC)MFCC被广泛应用于语音识别领域。
它首先将声音信号通过傅里叶变换转换为频域信号,然后将频域信号转换为梅尔倒谱系数。
MFCC特征具有良好的频率表示能力和语音识别性能。
3. 线性预测编码系数(LPC)LPC是一种常用的短时语音信号建模方法,通过对语音信号进行分帧处理,利用线性预测分析法得到线性预测滤波器的系数。
LPC特征可以表示语音信号中的共振特性,用于说明语音信号的声道特性。
4. 倒谱谱分析(LPCC)LPCC是在LPC基础上进一步改进的一种特征提取方法。
它通过对信号的小波包分解来提取倒谱系数,具有更好的频率表示能力和高分辨率。
5. 线性离散预测(LDA)LDA是一种经典的特征降维方法,被广泛应用于语音识别任务中。
它通过最大化类内散度和最小化类间散度的方式将高维特征映射到低维空间,以提高分类效果和减少计算复杂度。
6. 隐马尔科夫模型(HMM)HMM是一种概率模型,用于描述序列数据中的潜在状态和状态之间的转移关系。
在语音识别中,HMM被广泛用于建模语音的时域演化过程,同时结合上述特征提取方法,实现对语音信号的自动识别。
总结起来,语音识别的特征提取方法包括短时能量和过零率特征、MFCC、LPC、LPCC、LDA以及HMM等。
这些方法在实际应用中相互结合,共同构建一个准确、高效的语音识别系统。
随着深度学习等技术的发展,也出现了一些基于神经网络的特征提取方法,如深度神经网络和循环神经网络等。
华南理工大学_语音信号实验四:MFCC特征提取

华南理⼯⼤学_语⾳信号实验四:MFCC特征提取华南理⼯⼤学《语⾳信号处理》实验报告实验名称:端点检测姓名:学号:班级:11级电信7班⽇期:2014年3 ⽉1.实验⽬的1、熟练运⽤MATLAB软件进⾏语⾳信号实验;2、熟悉短时分析原理、MFCC的原理;3、学习运⽤MATLAB编程进⾏MFCC的提取;4、学会利⽤短时分析原理提取MFCC特征序列;2. 实验原理MFCC:语⾳识别和说话⼈识别中,常⽤的语⾳特征是基于Mel频率的倒谱系数(即MFCC)。
MFCC参数是将⼈⽿的听觉感知特性和语⾳的产⽣机制相结合。
Mel频率可以⽤如下公式表⽰:在实际应⽤中,MFCC倒谱系数计算过程如下;①将信号进⾏分帧,预加重和加汉明窗处理,然后进⾏短时傅⾥叶变换并得到其频谱。
②求出频谱平⽅,即能量谱,并⽤M个Mel带通滤波器进⾏滤波;由于每⼀个频带中分量的作⽤在⼈⽿中是叠加的。
因此将每个滤波器频带内的能量进⾏叠加,这时第k个滤波器输出功率谱③将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进⾏反离散余弦变换,得到L个MFCC系数,⼀般L取12~16个左右。
MFCC系数为④将这种直接得到的MFCC特征作为静态特征,再将这种静态特征做⼀阶和⼆阶差分,得到相应的动态特征。
3.实验数据及平台本实验所采⽤的数据是语⾳⽂件phrase.WAV和monologue speech_female,平台是MATLAB。
4. 实验过程(步骤)(1)实验步骤①输⼊样本⾳频②给样本⾳频预加重、分帧、加窗③将处理好的样本⾳频做傅⾥叶变换④进⾏Mel频率滤波⑤进⾏Log对数能量⑥对样本求倒谱⑦输出MFCC图像(2)、MFCC提取程序流程图5. 实验结果及讨论运⾏附录程序,得到的结果为:1、采⽤语⾳⽂件phrase.WAV,得到的MFCC特征提取图像为:2、采⽤语⾳⽂件monologue speech_female.wav,得到的MFCC特征提取图像为:通过计算MFCC参数,获得了声纹识别的特征参数。
一些常用的语音特征提取算法

⼀些常⽤的语⾳特征提取算法前⾔语⾔是⼀种复杂的⾃然习得的⼈类运动能⼒。
成⼈的特点是通过⼤约100块肌⾁的协调运动,每秒发出14种不同的声⾳。
说话⼈识别是指软件或硬件接收语⾳信号,识别语⾳信号中出现的说话⼈,然后识别说话⼈的能⼒。
特征提取是通过将语⾳波形以相对最⼩的数据速率转换为参数表⽰形式进⾏后续处理和分析来实现的。
因此,可接受的分类是从优良和优质的特征中衍⽣出来的。
Mel频率倒谱系数(MFCC)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、线谱频率(LSF)、离散⼩波变换(DWT)和感知线性预测(PLP)是本章讨论的语⾳特征提取技术。
这些⽅法已经在⼴泛的应⽤中进⾏了测试,使它们具有很⾼的可靠性和可接受性。
研究⼈员对上述讨论的技术做了⼀些修改,使它们更不受噪⾳影响,更健壮,消耗的时间更少。
总之,没有⼀种⽅法优于另⼀种,应⽤范围将决定选择哪种⽅法。
本⽂主要的关键技术:mel频率倒谱系数(MFCC),线性预测系数(LPC),线性预测倒谱系数(LPCC),线谱频率(LSF),离散⼩波变换(DWT),感知线性预测(PLP)1 介绍⼈类通过⾔语来表达他们的感情、观点、观点和观念。
语⾳⽣成过程包括发⾳、语⾳和流利性[1,2]。
这是⼀种复杂的⾃然习得的⼈类运动能⼒,在正常成年⼈中,这项任务是通过脊椎和颅神经连接的⼤约100块肌⾁协调运动,每秒发出⼤约14种不同的声⾳。
⼈类说话的简单性与任务的复杂性形成对⽐,这种复杂性有助于解释为什⼳语⾔对与神经系统[3]相关的疾病⾮常敏感。
在开发能够分析、分类和识别语⾳信号的系统⽅⾯已经进⾏了⼏次成功的尝试。
为这类任务所开发的硬件和软件已应⽤于保健、政府部门和农业等各个领域。
说话⼈识别是指软件或硬件接收语⾳信号,识别语⾳信号中出现的说话⼈,并在[4]之后识别说话⼈的能⼒。
说话⼈的识别执⾏的任务与⼈脑执⾏的任务类似。
这从语⾳开始,语⾳是说话⼈识别系统的输⼊。
⼀般来说,说话⼈的识别过程主要分为三个步骤:声⾳处理、特征提取和分类/识别[5]。
人工智能语音特征提取

人工智能语音特征提取概述人工智能(Artificial Intelligence, AI)是指利用计算机技术与方法,模拟、延伸和扩展人的智能。
语音特征提取是人工智能领域中的一个重要研究方向,它通过分析语音信号中的特征参数,实现对语音内容的自动识别与理解。
本文将介绍人工智能语音特征提取的基本概念、常用方法及应用领域。
一、语音特征提取的基本概念语音特征提取是一种从语音信号中提取有效信息的方法,用于描述语音的重要特征。
语音信号是由许多声音波形组成的,其中包含了人的声音、背景噪声等信息。
为了实现对语音内容的自动识别与理解,需要从语音信号中提取出与语音内容相关的特征参数。
常用的语音特征包括时域特征和频域特征。
时域特征是指根据语音信号的波形形状、振幅和持续时间等参数来描述语音特征;频域特征是指根据语音信号的频谱分布、频率成分和能量分布等参数来描述语音特征。
二、语音特征提取的常用方法在人工智能领域,有多种方法可以用于提取语音特征。
以下是其中几种常用的方法:1. 短时傅里叶变换(Short-Time Fourier Transform, STFT)短时傅里叶变换是一种将语音信号从时域转换到频域的方法。
它将语音信号分割成多个短时片段,并对每个片段进行傅里叶变换,得到对应的频谱图。
通过分析频谱图的频率成分和能量分布,可以提取出与语音内容相关的频域特征。
2. 线性预测编码(Linear Predictive Coding, LPC)线性预测编码是一种基于自回归模型的语音信号分析方法。
它通过对语音信号进行线性预测,得到预测残差序列,并将预测残差序列进行压缩编码。
通过分析预测残差序列的频谱分布和自相关性,可以提取出与语音内容相关的线性预测参数。
3. 倒谱系数(Cepstral Coefficients)倒谱系数是一种通过对语音信号的频谱进行倒谱变换得到的特征参数。
倒谱系数可以反映语音信号的共振特性和谐波结构,对于语音识别和语音合成等任务具有重要作用。
语音识别中的声音特征提取技术使用教程

语音识别中的声音特征提取技术使用教程语音识别技术是指通过计算机对人的语音进行转化和识别的过程。
而声音特征提取技术则是语音识别过程中最为关键的一步,它能将语音信号转化为一系列用于表示和区分语音的特征参数。
本文将介绍语音识别中常用的声音特征提取技术,并给出使用教程。
一、声音特征提取技术的基本概念声音特征提取是指从语音信号中提取出具有代表性的特征参数,用于语音识别系统中的模式匹配和分类。
声音特征提取技术主要包括时域分析、频域分析和倒谱分析。
1. 时域分析:时域分析是对语音信号在时间上的变化进行分析。
常用的时域特征包括短时能量、过零率等。
- 短时能量反映了语音信号在短时间内的能量变化,可以通过计算语音信号在一段时间内的平方和来得到。
- 过零率指的是语音信号穿过零点的频率,用于表示语音信号的边界、浊音与清音的切换等信息。
2. 频域分析:频域分析是对语音信号在频率上的变化进行分析。
常用的频域特征包括短时傅里叶变换(STFT)和Mel频率倒谱系数(MFCC)等。
- STFT可以将语音信号从时域转换到频域,得到语音信号的频谱特征。
常用的频谱特征包括短时功率谱、梅尔频率倒谱系数等。
- MFCC是目前应用最广泛的声音特征提取方法之一,它是一种将声音信号转换为频谱特征的技术。
3. 倒谱分析:倒谱分析是指将语音信号的频谱包络提取出来,并进行进一步的处理。
常用的倒谱特征包括倒谱系数、倒谱包络等。
二、使用教程1. 使用Python实现声音特征提取Python是一种功能强大且易于学习的编程语言,它提供了丰富的音频处理库。
以下是使用Python实现声音特征提取的简单教程:首先,我们需要安装一些Python库,如Librosa、NumPy和Matplotlib。
可以通过以下命令进行安装:```pip install librosa numpy matplotlib```然后,我们可以通过以下代码实现声音特征提取:```pythonimport librosaimport numpy as npimport matplotlib.pyplot as plt# 读取音频文件audio_path = 'path_to_audio_file.wav'signal, sr = librosa.load(audio_path, sr=None)# 提取MFCC特征mfccs = librosa.feature.mfcc(signal, sr=sr, n_mfcc=13)# 可视化MFCC特征plt.figure(figsize=(10, 4))librosa.display.specshow(mfccs, x_axis='time')plt.colorbar()plt.title('MFCC')plt.tight_layout()plt.show()```2. 使用开源工具进行声音特征提取除了自己实现声音特征提取的代码,还可以使用一些开源工具来简化这个过程。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音信号特征参数提取方法阮雄飞微电子学与固体电子学摘要:在语音技术的发展过程中使用了大量的语音信号特征参数, 好的语音信号特征参数能对语音识别起至关重要的作用。
本文对语音信号特征参数提取方法以及国内外研究现状进行了介绍,最后介绍了Hilbert-Huang 这一新兴理论成果以及在特征提取中的应用。
关键词:语音技术特征提取HHT1 引言语音信号是一种短时平稳信号,即时变的,十分复杂,携带很多有用的信息,这些信息包括语义、个人特征等,其特征参数的准确性和唯一性将直接影响语音识别率的高低,并且这也是语音识别的基础[1]。
特征参数应该能够比较准确地表达语音信号的特征具有一定的唯一性。
上世纪40年代,potter等人提出了“visiblespeech”的概念,指出语谱图对语音信号有很强的描述能力,并且试着用语谱信息进行语音识别,这就形成了最早的语音特征,直到现在仍有很多的人用语谱特征来进行语音识别[2]。
后来,人们发现利用语音信号的时域特征可以从语音波形中提取某些反映语音特性的参数,比如:幅度、短时帧平均能量、短时帧过零率、短时自相关系数、平均幅度差函数等。
这些参数不但能减小模板数目运算量及存储量而且还可以滤除语音信号中无用的冗余信息。
语音信号特征参数是分帧提取的, 每帧特征参数一般构成一个矢量, 所以语音信号特征是一个矢量序列。
我们将语音信号切成一帧一帧, 每帧大小大约是20-30ms。
帧太大就不能得到语音信号随时间变化的特性, 帧太小就不能提取出语音信号的特征, 每帧语音信号中包含数个语音信号的基本周期。
有时希望相邻帧之间的变化不是太大, 帧之间就要有重叠, 帧叠往往是帧长的1/2或1/3。
帧叠大, 相应的计算量也大[3]。
随着语音识别技术的不断发展时域特征参数的种种不足逐渐暴露出来,如这些特征参数缺乏较好稳定性且区分能力不好。
于是频域参数开始作为语音信号的特征比如频谱共振峰等。
经典的特征提取方法主要有LPCC(线性预测倒谱系数)、MFCC(美尔频率倒谱系数)、HMM(隐马尔科夫模型)、DTW(动态时间规整)等。
2 语音信号特征参数提取方法对语音信号的大量分析表明,语音信号中包含着持续的准谐波成分和瞬变的迁越成分[4],即语音信号是一种多分量、非线性、非平稳信号。
诸如声门、声道以及辐射等影响因素很多,使得语音信号特征参数的准确提取和修正较为困难。
这就需要一种精确的时频表示方法[5,6],来准确表现语音信号的各种特征。
传统的语音信号处理都是基于语音信号的两个基本假设[7],即人的发声系统是线性的及语音信号是短时平稳的。
这两个假定导出了各种“短时”处理方法,如:短时傅里叶变换、倒谱分析和线性预测分析等。
这些“短时”处理方法虽然引入了时频局部化思想,但它们的“短时窗口”大小是固定不变的[8],不能敏感地反映信号的突变,从而忽略了语音信号的时变特征,所以提取出来的参数往往不够精确。
随着小波分析理论[9]的发展,小波分析也逐渐应用于语音信号的分析和处理。
虽然小波分析具有可调的时频窗口,但是也存在一定的局限性,主要表现在以下几个方面[9,10]:⑴难以选择的小波基。
在小波分析中,可以根据不同的要求构造不同的小波基。
但是对某一信号,依据什么原则、用什么判据选择小波基在理论上和实际应用中还是一个难点。
⑵固定的基函数。
小波基一旦选定就不能再更改,而小波基的选择往往是根据特定的语音信号特征,所以它不具有自适应性。
⑶恒定的多分辨率。
小波变换的多尺度特性使小波具有“数学显微镜”的特性和多分辨率分析功能。
然而,一旦选择了小波基函数和变换尺度,分辨率的大小也就确定了,并不会随信号的改变而改变,因此小波变换可以实现多分辨率分析,但其分辨率是恒定的。
LPCC是基于声道模型,它是目前应用最多的一种倒谱特征提取方法。
线性预测系数LPC用线性预测法分析语音信号相邻样值之间的关系,得到一组相关的参数。
由此语音特派生的声学特征还有线谱对LSP、PARCOR系数(反射系数)、对数面积比系数等。
LPCC为LPC的倒谱参数,它的原理和计算都较为简单,容易实现。
算的快速有效使得现在的很多商用化的语音识别系统都是用LPCC作为特征提取方法的。
基于人类听觉模型的MFCC,它所采用的mel频率是人耳听到声音的高低和实际频率的非线性映射得到的一个频率尺度。
MFCC是继LPCC之后语音识别领域中又一大创新理论,计算过程如图1。
相比于LPCC 它的识别性能有明显的改进,只是算量大于LPCC,用C语言在算机上做模拟时其运算时间是LPCC的近十倍。
由于它是一种基于听觉模型的特征提取方法,在有信道噪声和频谱失真的情况下, 仍具有较高的识别精度,特别是对噪声情况下的识别具有定的鲁棒性。
更随着 DSP 技术的发展以及它对FFT 算的支持,使得MFCC 的参数提取速度也很快。
结合LPC 与MFC 的后来提出的一种特征提取的方法PLP (感知线性预测参数),用 durbin 法计算LPC 参数,而在算自相关时用类似MFC 的方法。
PLP 性能类似MFCC ,甚至在某些特征提取结果上要好于MFCC [11]。
王彪[12]提出了一种改进的语音信号特征参数提取算法,即在MFCC 参数的基础上加入了语音信号的短时能量和短时平均过零率信息,结果如表1,说明此改进的MFCC 方法是有效的。
图1 MFCC 计算过程1998年,由美籍华人黄锷(N.E.Huang)等人提出的 Hilbert-Huang 变换(Hilbert-Huang Transform,HHT)[13,14]具有精确的时频表示,它不仅适合于非平稳信号也适合于非线性信号。
它通过经验模态分解(Empirical Mode Decomposition, EMD)把信号分解成一族固有模态函数 (intrinsic mode function ,IMF),然后将每个固有模态函数与它的 Hilbert 变换构成一个复解析函数,并由此导出作为时域函数的瞬时幅度(能量) 和瞬时频率,从而给出被分析信号幅度(能量) 的时间-频率分布,称为信号的Hilbert 谱( Hilbert spectrum)。
这种Hilbert 谱具有精确的时频表示[15]。
3 语音特征提取的研究现状概述3.1 基音检测和共振峰提取研究现状概述语音信号的特征参数[7]主要指的是语音信号的基音频率和共振峰频率,语音特征参数的提取也主要是指语音信号的基音检测和共振峰提取。
(一) 基音检测预处理加窗 离散余弦变换傅里叶变换 滤波器组能量语音输入 x(n) X(m) Θ(M k ) MFCC 输出自从进行语音分析研究以来,基音检测一直是一个重点研究的问题,很多方法已被提出,然而这些方法都有它们的局限性。
迄今为止,尚未找到一个完善的可以适用于不同说话人、不同环境要求的基音检测方法。
其原因主要有以下几个方面[16]:(a)基音周期受声道易变性、说话人的情感、声调等因素的影响;(b)基音周期变化范围很大;(c)受说话人的发音习惯的影响。
基音周期的提取方法一般可以分为两个大类[17]:基于分段的方法和基于事件的方法。
基于分段的提取方法一般都先将语音信号分成长度一定的语音帧,然后对每一帧语音数据求取平均基音周期。
这些方法主要有:⑴自相关法;⑵倒谱法;⑶平均幅度差法;⑷简化逆滤波器法[18,19]等。
它们的共同优点是计算简单。
然而,由于它们都是建立在语音信号是线性和短时平稳的假设上,因此,从本质上说,这些方法都无法检测帧内基音周期的非平稳变化,检测精度不高。
相比而言,基于事件[20]的基音周期提取方法并不多见。
己有的几种方法都是通过定位声门关闭(声门的一次关闭称为一个事件)的瞬时时间,然后确定两个相邻的事件的时间间隔来确定基音周期。
显然,确定声门关闭的瞬时时间是决定被提取的基音周期精度高低的关键所在。
文献[21]通过计算给定信号的自协方差矩阵行列式的极大值来确定事件发生的时刻。
该方法对部分元音有很好的检测精度,但它不适合所有元音,也不适合基音周期发生非平稳性变化时的情况,并且,计算十分复杂。
文献[22, 23]利用声门关闭时声门气流的导数不连续这一性质来确定事件发生的时刻,获得了比较满意的检测精度。
但是,它们对噪声太敏感,不适合用于带噪语音数据基音周期的提取。
文献[24]将最大似然关键点判别技术用于检测声门关闭事件,结果表明,该方法对大部分元音、带噪语音都有很高的检测精度,但不适合用于高音调语音基音周期的提取。
文献[25,26]用小波方法来检测声门关闭引起的语音信号的导数不连续事件,实验表明它们能适应于很宽的基音周期变化,并且也具有较好的抗噪能力。
这些方法有一个共同的假设是在声门关闭的瞬时声门激励是瞬时中断的,由此将导致语音信号在这一时刻其导数不连续。
显然,对于声门关闭很好的元音它们会有很好的结果,但是对于声门关闭比较缓慢的元音检测精度将会受到很大的影响。
(二) 共振峰提取与基音检测类似,共振峰提取表面上看起来很容易,而实际上又为许多问题所困扰,这些问题[27]是:⑴虚假峰值,⑵共振峰合并,⑶高音调语音。
传统的共振峰提取方法主要有倒谱法和线性预测法,这些方法是建立在语音信号是线性和短时平稳的假设上。
随着对语音发生机理研究的深入,在理论分析与实验分析中都证实了在语音产生过程中存在非线性,语音信号的这种非线性特性是传统的线性共振峰参数估计方法的准确性受到影响的主要原因。
另一方面,随着对语音信号处理要求的不断提高,共振峰参数随时间快速变化的动态信息也越来越受到语音研究者们的重视,但由于传统分析方法的局限性,对快速变化的共振峰的提取无能为力。
近年来,尽管也提出了一些新的共振峰提取算法,如文献[28]采用了基于逆滤波器的共振峰提取方法,文献[29]将语音信号分解为调制成分并采用频域线性预测算法的共振峰估计方法,但这些方法只是在处理方法和算法上作了一些改进,本质上还是属于线性分析方法的范畴,而且分析过程复杂,许多参数需要根据人的主观经验确定,会造成人为的不确定误差和数据的不稳定性。
随着语音信号非线性模型的发展,近年来也提出了许多采用非线性处理方法提取共振峰的算法,其中最具有代表性的算法是文献[30-32]中的基于多频带能量分离的共振峰提取算法,它以语音信号的调频-调幅非线性产生模型为基础,用一组带通滤波器把各个共振峰分量分离开来,再用能量分离算法求取各共振峰的瞬时频率和瞬时幅度,但在滤波前,仍须用短时傅里叶变换粗略估计各个共振峰频率和带宽,依然存在受虚假峰值、共振峰合并和高音调语音的影响。
3.2 Hilbert-Huang 变换研究现状概述由于HHT具有自适应性而且是分析非线性、非平稳数据的有效工具,从1998 年公开发表到现在九年多时间里一直受到国内外学者的广泛关注。