论文正文-语音信号的基音频率提取算法研究

合集下载

语音信号的特征提取与分类研究

语音信号的特征提取与分类研究语音信号是一种常见的信号，它传递了人类的语言信息，是人类进行交流的重要媒介之一。

但是，要对语音信号进行处理以便于机器学习或实现其他应用，需要提取出语音信号中的特征，并对其进行分类。

本文将重点探讨语音信号的特征提取与分类研究。

一、语音信号的特征提取语音信号是一种时域信号，包含了大量的声音信息。

在对语音信号进行处理前，需要将其转化为数字信号，并从中提取出有用的特征。

下面介绍几种经典的语音信号特征提取方法。

1. 短时能量和短时平均幅值短时能量和短时平均幅值是语音信号最基本的特征之一。

它们可以反映语音信号的音量大小和能量密度分布。

具体方法是将语音信号分成若干小段，在每一小段内求出能量和幅值的平均值。

这种方法简单易行，但是对于含有大量噪声的语音信号效果不佳。

2. 过零率语音信号中能量与过零率相关联，因此，过零率可以反映信号中的频率成分。

过零率表示的是语音信号穿过0的次数。

在计算过零率时，需要将语音信号分成若干小段，计算每一小段内0的穿过次数，并求出平均值。

过零率在识别某些语音词汇时具有一定的作用。

3. 短时倒谱系数短时倒谱系数是一种基于滤波器的语音信号特征提取方法。

它的原理是将语音信号输入到一个数字滤波器中，输出的结果就是短时倒谱系数。

这种方法比较复杂，需要涉及数字滤波器的设计和使用，但是效果很好。

4. 线性预测系数线性预测系数是一种基于自回归模型的语音信号特征提取方法。

它的原理是将语音信号视为一个自回归信号，通过线性预测模型估计自回归系数。

这种方法需要对语音信号进行复杂的数学运算，但是可以提取出语音信号的主要频率成分。

二、语音信号的分类研究经过特征提取后，语音信号就可以被机器进行分类了。

分类的目的是通过对语音信号的特征进行分析，将语音信号划分到不同的类别中，以便于机器进行语音识别或其他应用。

1. 基于深度学习的语音信号分类深度学习是近年来非常流行的一种机器学习方法，其在语音识别领域中也取得了一定的成果。

论语音信号的特征提取和语音识别技术

论语音信号的特征提取和语音识别技术语音信号的特征提取和语音识别技术是语音处理领域中的重要研究方向，主要用于从语音信号中提取有效的特征，并将其应用于语音识别任务中。

一、语音信号的特征提取语音信号的特征提取旨在从原始语音信号中提取出能够最有效地进行区分和表示的信息。

常见的语音信号的特征提取方法包括：1.短时能量和过零率：短时能量描述了语音信号在短时时间内的能量大小，过零率描述了语音信号经过零点的频率，可以用于检测语音的活动性和边界。

2.声谱图：声谱图是将语音信号转换为频谱的一种可视化表示方法，在声谱图中可以看到声音在不同频率上的强度分布情况，可以用于语音信号的频域分析。

3.倒谱系数：倒谱系数是通过对语音信号的离散傅里叶变换（DFT）和对数运算得到的，倒谱系数描述了语音信号在倒谱域内的频谱特性，常用于语音识别中的声学特征表示。

4.线性预测系数：线性预测系数是通过对语音信号进行线性预测分析得到的，用于表示语音信号的谐波结构和共振峰，常用于语音识别中的声学特征表示。

5.梅尔频率倒谱系数：梅尔频率倒谱系数是在倒谱系数的基础上引入了梅尔滤波器组，在梅尔频率域内对语音信号进行分析和表示，更符合人类声音感知的特性。

语音识别技术是指将语音信号转换为对应的文本或命令的过程。

常见的语音识别技术包括：1.隐马尔可夫模型（HMM）：HMM是一种统计模型，用于描述语音信号与文本之间的关系。

它将语音信号的声学特征序列映射为文本的概率分布，通过最大似然估计和维特比算法来进行识别。

2.深度神经网络（DNN）：DNN是一种基于多层神经网络的机器学习模型，通过训练大量的语音数据来进行语音识别。

DNN在特征提取和模型训练方面都具有较好的性能。

3.循环神经网络（RNN）：RNN是一种具有记忆功能的神经网络，在语音识别中可用于处理序列数据，如语音信号的语音帧。

4.语言模型：语言模型是用来描述文本序列的概率分布模型，常用于语音识别中对候选文本进行评分和选择。

音频信号处理中的频谱分析算法研究与实现

音频信号处理中的频谱分析算法研究与实现在音频信号处理领域，频谱分析是一个关键的技术，它涉及将时域的音频信号转换为频域表示，从而能够提取出信号的频谱特征。

频谱分析可以应用于音频信号处理的各个方面，比如音频压缩、音频增强、音频识别等。

本文将重点研究和讨论音频信号处理中的频谱分析算法的研究与实现。

1. 傅里叶变换（FFT）傅里叶变换是一种广泛应用于频谱分析的方法，它通过将时域信号转换为频域信号，可精确地表示信号的频谱特征。

FFT算法是一种高效实现傅里叶变换的方法，它能够更快地计算出离散傅里叶变换（DFT）。

FFT算法的基本思想是利用信号的对称性质，将信号的长度N分解为两个长度为N/2的子问题，通过递归的方式计算出各个频率分量的幅度和相位。

FFT算法的时间复杂度为O(NlogN)，比传统的傅里叶变换算法快了很多。

2. 短时傅里叶变换（STFT）短时傅里叶变换是一种在时域上将信号分段进行傅里叶变换的方法，用于对非平稳信号进行频谱分析。

它将信号分成多个小段，然后对每个小段进行傅里叶变换，进而得到频域上的频谱信息。

在短时傅里叶变换中，需要选择合适的窗函数对信号进行分段处理。

常见的窗函数包括汉明窗、矩形窗、海宁窗等。

选择合适的窗函数可以使得频谱分析结果更加准确。

3. 离散余弦变换（DCT）离散余弦变换是一种将信号从时域域转换到频域域的方法。

它通过对信号进行余弦变换，得到信号在频域上的表示。

与傅里叶变换不同，离散余弦变换只计算信号的实部，因此可以得到一种更加紧凑的频域表示。

离散余弦变换在音频压缩领域应用较为广泛，例如MP3音频压缩算法中就使用了离散余弦变换。

4. 窗函数设计窗函数在频谱分析中起到了重要的作用，它可以用来控制声音信号的时间和频域分辨率。

常见的窗函数有矩形窗、汉明窗、海宁窗等。

在窗函数的设计中，需要考虑两个主要因素：频域性能和时域性能。

频域性能包括主瓣带宽、副瓣抑制比等指标，时域性能包括主瓣宽度、副瓣泄露等指标。

语音信号的提取与识别技术(说话人识别系统)的研究

语音信号的提取与识别技术摘要语音识别(Speech Recognition)是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术.说话人识别是语音识别的一种特殊方式.本论文中,将主要介绍说话人识别系统.说话人识别是指通过说话人的语音来自动识别说话人的身份，它在许多领域内有良好的应用前景。

本文通过分析语音特征参数的特点和说话人识别的基本方法，提出了以美尔倒谱差分和线性预测差分为特征，通过动态时间归整算法来识别的文本相关说话人辨认系统。

关键词: 语音识别, 说话人识别, 线性预测倒谱，美尔倒谱系数，动态时间归整The pick-up of speech signal and speech recognitionAbstractSpeech Recognition is a kind of technology that is using computer to transfer the voice signal to an associated text or command by identification and understand. Speaker recognition is a kind of special way of V oice-identifications. The paper is going to introduce speaker recognition. Speaker recognition is the process of automatically recognizing who is speaking on the basis of individual information include in speech signals. It has well application prospects in many fields. By analyzing speech characteristic parameters and the basis methods of speaker recognition, we choose MFCC and LPCC's difference to be the speech characteristic parameters. Using DTW to recognize text-dependent speech, we have developed a speaker identification system in this paper.Key words:V oice-Identification, Speaker-identification LPCC,MFCC, Dynamic Time Warping目录1引言 (1)2 语音识别技术的基础 (2)2.1 语音识别发展简史 (2)2.2 语音识别技术的应用 (3)3 说话人识别技术的国内外研究现状 (5)3.1 国内外发展水平 (5)3.2主要应用领域 (5)3.3 技术难点 (6)4 说话人识别技术基础 (8)4.1 说话人识别的基本原理 (8)4.2说话人识别系统中常用的特征 (9)4.3 说话人识别的分类 (10)4.4 说话人识别的主要方法 (11)4.5 说话人识别系统的性能评价 (13)5 语音信号分析与预处理 (16)5.1 语音产生机理 (16)5.2 语音信号的数字化和采集 (17)5.3 语音信号的数字模型 (18)5.3.1激励模型 (18)5.3.2 声道模型 (18)5.3.3辐射模型 (20)5.4语音信号的预加重处理 (20)5.5语音信号的短时参数特征 (21)5.5.1短时频谱 (22)5.5.2短时自相关函数 (22)5.5.3短时能量和短时平均幅度 (22)5.5.4短时过零分析 (23)5.5.5倒谱 (24)5.5.6线性预测编码(LPC)参数 (24)5.5.7短时基音周期估计 (25)5.6语音信号端点检测 (27)5.6.1双门限端点检测算法 (28)5.6.2 LPC美尔倒谱特征端点检测方法 (28)6说话人特征提取 (32)6.1线性预测系数LPC (32)6.1.1线性预测的基本原理 (33)6.2.2线性预测系数的求取 (35)6．2线性预测倒谱系数LPCC (36)6.2.1同态处理基本原理 (36)6.2.2线性预测倒谱 (37)6.2.3线性预测差分倒谱 (38)6.3美尔倒谱系数MFCC (39)6.3.1 MFCC系数的提取 (39)6.3.2美尔差分倒谱参数 (40)6.4特征参数的实际提取 (41)6.4.1 LPCC参数计算流程 (41)6.4.2 MFCC的计算 (43)7．说话人识别系统实现 (46)7.1文本相关说话人辨认系统的实现 (46)7.2线性预测倒谱参数的提取实现 (47)7.3美尔倒谱系数及其差分的提取实现 (48)7.4MFCC参数文本相关系统实现 (51)8结论 (54)致谢 (55)参考文献 (56)1引言语言是人类交流信息的基本手段，在人们日益扩大的交流中占据着重要的地位.在如今高度发达的信息社会中用数字化的方法进行语音的传送、储存、识别、合成、增强等是整个数字化通信网中最重要、最基本的组成部分之一。

praat提取基频算法

Praat是一款用于语音分析的软件，它可以提取语音信号中的各种特征，包括基频。

基频是指语音信号中声带的振动频率，通常用f表示。

提取基频的方法主要有两种：自相关法（Autocorrelation）和共振峰法（Resonance peaks）。

自相关法的基本原理是通过计算语音信号的自相关函数，找到自相关函数在某个特定频率上的峰值，这个峰值对应的频率就是基频。

具体步骤如下：
1. 获取语音信号，将其离散化，得到一个时间序列数据。

2. 计算语音信号的自相关函数，得到一系列的相关性数据。

3. 在这些相关性数据中，找到一个峰值，这个峰值对应的频率就是基频。

共振峰法是通过寻找语音信号的共振峰来提取基频。

共振峰是语音信号中一系列特定频率的峰值，这些峰值反映了声带振动的特性。

提取共振峰的方法通常包括滤波、傅里叶变换等步骤。

通过寻找共振峰，可以确定基频。

除了以上两种方法，还有一些其他的算法也可以用于提取基频，例如小波变换法、短时傅里叶变换法等。

这些算法通常需要更高级的数学知识和计算机技术，但是对于一些特殊的应用场景，这些算法可能更加有效。

总的来说，提取基频的方法有很多种，每种方法都有其特点和适用范围。

在实际应用中，需要根据具体的情况和需求选择合适的方法。

同时，需要注意基频提取的准确性和稳定性，可以通过多次试验和校正来提高准确性和稳定性。

语音信号基音检测算法研究

语音信号基音检测算法研究摘要:本文对倒谱法做了改进,在用倒谱法进行基音检测分析时,提出了一种功率谱二次处理的二次谱减法,该方法克服了倒谱法基音检测的抗噪能力低的弱点,在相同噪声环境下能更加精确地检测出语音信号的基音周期。

关键词:语音信号基音检测倒谱法二次谱减法1、引言近年来,基于线性预测和分析频谱的Mel倒谱系数在处理包含情感的语音识别中取得了很大的进步,能否把此种方法应用到相应状态下的基音检测中去,值得广大学者研究。

国外很多学者采用实时监控情感变化,并把影响修正基音的轨迹加以平滑或者动态改变窗的宽度,可以明显降低上述影响。

基音检测一直是语音信号处理的一大难题,短时自相关函数法、短时平均幅度差函数法、倒谱法、小波变换法等传统的经典基音检测方法,都有各自的用场,但同时也有其相应的不足。

其中任一种方法都不能作为通用的方法,但若在基音检测过程中,对预处理和后处理上进行一些改进,且突破传统的语音模型,并适当考虑说话人的个体特征及发音时的情感力度对基音检频带内谱包络测的影响,定能提高基音检测的准确性及健壮性。

本文以语音信号的基音检测为研究对象,着重分析自相关函数法p倒谱法的定义为,时间序列的z变换的模的对数的逆z变换,该序列的倒谱的傅里叶变换形式为。

落实到具体实现时,采用DFT来近似傅里叶变换,根据传统语音产生的模型及语音信号的短时性。

在其频域内,语音信号短时谱等于激励源的频谱与滤波器的频谱的乘积,浊音信号短时谱中包含的快变化周期性细致结构,则必会对应着周期性脉冲激励的基频以及各次谐波。

语音的倒谱是将语音的短时谱取对数后再进行IDFT来得到,所以浊音信号的周期性激励如果反映在倒谱上,便是同样周期的冲激。

藉此,我们可从得到的倒谱波形中估计出基音周期。

一般我们把倒谱波形中第二个冲激,认为是对应激励源的基频,即基音周期。

下面列举出一种倒谱法求基音周期的框图(见图1) 。

3、改进算法的基音检测当用无噪声的语音信号时,采用倒谱法进行基音检测还是很理想的。

一个语音基频提取新算法

一
个语音基频提取新算法
文章编号：０３５５（０００ — ０２０１０ —８０２１）３０３ —３
一个Biblioteka 音基频提取新算法阳瑞新苏新菊姜占才
（海师范大学西宁青８００）１０８
ＡｗｇｒｔｍｏｐｅｈＦｕｄａｅａｅｕｎｃｔａｔｏＮｅＡｌｏｉｈｆｒＳｅｃｎｍｎｔｌＦｒｑｅｙＥｘｒｃｉｎ
【摘要】为了准确提取语音基频，设计了一种新的基频提取算法，并对此算法的抗噪性能进行了评估，同一段语音进行加噪和未加噪两类处理，通过实验提取两类语音的基频，以未加噪基频作为准标值，对不同信噪比的
语音基频与准标值的偏离情况进行了分析，从而了解算法提取基频的抗噪性。以便全面掌握此算法的性能，达
到优化算法，减小估计带来的误差，提高语音基频提取的目的。【关键词】语音信息处理，基频检测，算法优化，算法设计，抗噪性能
中图分类号：ＴＮ９２３１．文献标识码：Ａ
ＡＢＳＩＲＡＣＴＩｒｅＯａｃｒｔｌｘｒｃｈｅｖｏｃｕｎａｍｅｔｒｑｎｙ，ｔｓｇｗｕａｅａｌｆｅｅｙｅｒｔｏｎ ’ ｎｏｄｒｔｃｕａｅｙｅｔａｔｔｉｅｆｄｎａｌｆｅｕｅｃｈｅｄｅｉｎｏｆａｎｅｆｎｄｍｎｔｒｑｕｎｃｘｔａｃｉａｇｉｈ，ａｎｔａｉｎｓｐｒｏｍａｃｏｈｉｇｏｉｈｍｗａｅａｕｔｄｌｏｒｔｍｄｈｅｎｔ～ｏｉｅｅｆｒｎｅｆｔｓａｌｒｔｓｖｌａｅｗｉｈｖｉｅ，ｔａｄｉｉａｎｉｅｎｗｉｈｔｎｏｓｔａｏｃｈｅｄｔｏｎｌｏｓａｄｔｏｕｉｅａｅｗｏｔｅｒｅｓｎｇ．ｅｒｃｉｇｔＯｅｐｅｉｅｔｌｓｉｅｆｎｄｍｅａｒｑｎｙｉｄｅＯｎｄｎｏｓｕｎｄｍｅａｄｄｄｔｙｐｓｏｆｐｏｃｓｉｘｔａｔｎＷｘｒｍｎｓｃａｓｖｏｃｕａｎｔｌｆｅｕｅｃｎｏｒｒｔｏｔａｄｉｅｆａｎｔｌｆｅｕｅｙａｈｅｑｓ— ｔｎｄｒａｕｓｆｒｄｆｅｅｉｎａＯｎｏｓａｉｏｉｅｆｒｑｎｃｓｔｕａｉｓａａｄｖｌｅｏｉｆｒｎｔｓｇｌｔｉｅｒｔｏｏｆｖｃｕｎｄｍｅａｒｑｎｙａｄｑｕｓ— ｔｎｄｒｅｉｔｏａｎｔｌｆｅｕｅｃｎａｉｓａａｄｄｖａｉｎｖｌｓａｕｅｗｅｅａａｌｅＯｕｎＬｒｔｎｄｌｏｒｔｍｏｘｔａｔｎｇｈｅｆｄａｅｔｌｆｅｕｅｃｈｅｎｏｓｍｍｕｔＩｄｅｔｕｌｒｎｙｚｄｔｌｓａａｇｉｈｆｒｅｒｃｉｔｕｎｍｎａｒｑｎｙｏｆｔｉｅｉｅｎｉｙ．ｎｏｒｒｏｆｌｙｇｒｓｔｅａｐｈｐｅｆｍａｅｆｔｓｌｏｒｔｒｏｒｎｃｏｈｉａｇｉｈｍｔａｈｅｅＯｃｉｖｏｐｉａａｇｏｉｈｍ，ｒｄｕｉｇｔｓｉａｉｎｒｏｃｕｅｂｙｉｃｅｅｏｃｔｍｌｌｒｔｅｃｎｈｅｅｔｍｔｏｅｒｒａｓｄｎｒａｓｖｉｅ

基频提取算法的研究与评价

陈敏敏，张云刚，王智
摘要：经过多年的研究和发展，从声音中抽取精确的基频或音高，已经呈现了相当多的算法，多算法仍然具有较高的错很
误率，达不到工业要求。用当前主要的基频提取方法，抽取流行音乐的音高，找出一个错误率最低的音高，提取算法去开发多媒体软件— — 麦客风。
ＡｂｔａｔＴｒｕｈｍａｙｙａｓｒｓａｃｎｅｅｏｍｅｔｅｔａｔｇａｃｒｔｕｄｍｅｔｌｅｕｎｙｏｉｈｓｆｏｍｉｅｐｅｈｓｒｃ：ｈｏｇｎｅｒ ’ ｅｅｒｈａｄｄｖｌｐｎ，ｘｒｃｉｃｕａｅｆｎａｎａｑｅｃｒｔｅｒｍｘｄｓｅｃ，ｎｒｆｐｃｉｈｓｐｅｅｔｄｍａｙａｇｒｈ，ｕｓｏｅｓｉａｅｈｇｒｏａｅ，ｎａｎｔｅｎｕｔａｅｕｒｍｅｔ．ｈｓｐｐｒｔａｒｓｎｅｎｌｏｔｍｓｂｔｉｍｏｔｆｔｍｔｌｖｉｈｅｒｒｔｓａｄｃｎｏｈｌｈｒｍｅｔｄｓｒｌｒｑｉｉｉｅｎｓＴｉａｅ
ＭｉｏｏｕｅＡｐｉｔｎｏ２，ｏ９２１ｃｃｍｐｔｒｐｌａｉｓ１８Ｎ．０２ｒｃｏＶ．，
文章编号：１０ —５Ｘ（０２９０１—３０７７７２１）—０４０
研究与设计
微型电脑应用２Fra bibliotek ０２年第２８卷第９期

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

前言语音信号的基音频率提取算法研究1前言基音是指发浊音时声带振动所引起的周期性,而声带振动频率的倒数就是基音周期。

基音周期具有时变性和准周期性，它的大小与个人声带的长短、厚薄、韧性和发音习惯有关，还与发音者的性别、年龄、发音时的力度及情感有关，是语音信号处理中的重要参数之一，它描述了语音激励源的一个重要特征。

基音周期的估计称为基音检测(Pitch Detection)，基音检测的最终目标是找出和声带振动频率完全一致的基音周期变化轨迹曲线，如不可能则找出尽量相吻合的轨迹曲线。

然而由于人的声道的易变性及其声道特征的因人而异，而基音周期的范围又很宽，且同一个人在不同情态下发音的基音周期也不同，加之基音周期还受到单词发音音调的影响，故实际中的基音周期的精确检测是一件比较困难的事情。

然而，尽管语音信号的基音检测有许多困难但由于它在语音信号处理中的重要作用，促使广大学者争相涉足该领域，提出了各种各样的基音检测算法。

2选题背景2.1基音检测技术的研究进展早在70年代，L.R.R等人就进行了自相关函数法检测语音信号的基音周期的研究工作，它是一种时域上的基音检测算法，算法的精确性高，计算量不大，是目前各种应用中最为常用的基音检测算法。

1967年，A.M.Noll提出用倒谱法(Cepstrum)检测语音信号的基音周期。

这是一个频域上的检测算法，这种方法检测基音周期精确度很高，抗噪性能好，主要的缺陷是计算量太大，要用到傅立叶变换和对数运算，不利于实现。

1972 年，J.D等提出简单逆滤波追踪法(SIFT)检测语音信号的基音周期，这是一种时域和频域相结合的算法，是一种精确度和计算量较为折中的算法，它利用逆滤波去除声道共振峰的影响，使基音信息更为突出。

1974 年，M.J.Ross等人提出平均幅度差函数法检测语音信号的基音周期，这是一种时域上的算法，也是最简单的基音检测算法，它只需在时域上进行简单的加减和少量的除法运算，运算量很小，但是很容易产生半基音和倍基音，目前还有很多人在语音信号的基音频率提取算法研究不断的提出改进的AMDF算法。

到1976年，L.R.R等人系统总结了之前的各种语音信号的基音检测算法，并进行了全面的比较。

这些算法都是假定语音信号在一帧内是平稳的且一帧内包含两个以上的基音周期，所以它们不能很好反映语音信号的时变特性，而且只能求出一帧内的平均周期。

1992年，S.K等人最早提出了基于小波变换的基音检测算法，它是一种利用变换的基音检测算法，通过小波变换后的幅度和相邻两个尺度下的小波变换的局部最大值是否一致来进行清浊音判断，浊音的小波变换的局部最大值点即为GO，而相邻两个GO的距离即为语音信号的基音周期。

受小波变换的基音检测算法的启发，不断地有人提出了各种改进的小波变换基音检测算法，如:小波变换偏移补偿的基音检测算法，利用小波变换和其它方法结合的基音检测算等。

2.2基音检测技术的研究现状从国内外研究现状来看，基音检测技术的研究热点和难点已经集中于处理低信噪比语音。

着眼于基音的检测方法，主要有以下三个方面的研究：(1)稳定并提取准周期性信号的周期性方法；(2)因周期混乱，采取基音提取误差补偿的方法；(3)消除声道噪声影响的方法。

人们从语音信号的时域特性、频域和时一频混合特性三个方面出发，已经开发了许多基音检测方法，这些方法中的一些方案已经得到了应用。

基音检测方法大致上可以分为三类：(1)时域估计法，直接由波形来估计基音周期，常见的有：自相关(ACF)法[31]、平均幅度差法[32]等；(2)频域估计法，利用同态分析方法将声道的影响消除，得到属于激励部分的信息，然后求取基音周期，常见的有：谐波积谱(HPS)法，简化逆滤波(SIFT)法[33]，倒谱(cepstrum)法[34]等；(3)混合法，基于以上方法的衍生组合算法，如：自相关法和平均幅度差法相结合。

这些方法在实验室特定条件下都取得了不错的效果。

表1列出了几种典型的基音检测方法及特征[30]选题背景目前，基音检测主要存在以下困难[35]：(1)语音信号变化十分复杂，声门激励的波形并不是一个完全的周期序列。

在语音的头尾部并不具有声带振动那样的周期性，对有些清浊音的过渡帧很难判定它属于周期性还是非周期性，从而对估计基音周期带来一定的影响。

语音信号的基音频率提取算法研究(2)从语音信号中去除声道的影响，直接取出仅与声带振动有关的声源信息并非易事。

如声道共振峰可能强烈改变声门波形的结构，从而严重影响激励信号的谐波结构，会给基音检测造成困难。

(3)语音信号是准周期的，且共振峰结构和噪声有时会影响波峰和过零率，很难准确定位基音周期的开始和结束。

(4)区分清音语音和低电平语音是导致基音检测困难的另一个重基音检测算法研究及其在方言辨识中的应用要因素。

在许多情况下，清音语音与低电平浊音段之间的过度段是非常细微的，确认它是极其困难的。

(5)在实际应用中，背景噪声强烈影响基音检测的性能。

(6)基音频域变化范围大，从老年男性的80Hz到儿童女性的500Hz，接近三个倍频程，给基音检测带来了一定的困难。

由于这些困难，尽管基音提取的方法很多，但迄今尚未找到一个完善的方法可以对各类人群包括男人、女人、老人、小孩及不同语种和各种环境条件情况下都能获得满意的检测结果。

3方案论证3.1语音信号处理基础3.1.1语音信号产生3.1.1.1发音器官人类的语音是由人体发音器官在大脑控制下的生理运动产生的。

人体发音器官由三部分组成：肺和气管，喉，声道[3,21]。

肺是胸腔内的一团有弹性的海绵状物质，它可以储存空气。

其主要生理功能是使血液和空气之间进行气体交换，即将空气中的氧气吸入血液，而将血液中的二氧化碳排入空气，这就是人体的呼吸功能。

在说话时，为了保持语音有一定程度的连续性，人的呼吸就不得不有短暂的停顿，其特点是吸气短，呼气长，且呼吸受到句子结构的控制，并没有一个固定的规则。

空气由肺部排入喉部，经过声带进入声道，最后由嘴辐射出声波，形成语音。

喉是一种由软骨和肌肉组成的复杂系统，其中有重要的发音器官-声带（vocalcords）。

它主要包括环状软骨、甲状软骨、钩状软骨和声带。

声带受到喉部软方案论证骨和肌肉的控制。

当声带分开时，处于正常呼吸状态。

两片声带之间的空间叫做声门(glottis)。

当声带闭合时，肺道便被封闭起来构成一个密闭的小室。

声带每次开启和闭合一次的时间就是基音周期（pitch period）,它的倒数就是基音频率（pitch frequency）。

基音频率取决于声带的大小、厚度、松紧程度以及声门上下之间的气压差的效应等。

一般基音频率越搞，声带被拉得越长、越紧、越薄，声门的形状也变得越细长，而且这时声带在闭合时也未必是完全闭合。

基音频率最低可达到80Hz左右，最高可达500Hz 左右。

其范围随发音人的性别、年龄及具体情况而定。

老年男性偏低，小孩和青年女性偏高。

声道是它是一根从声门延伸至口唇的非均匀截面的声管，其外形变化是时间的函数。

声道是气流自声门、声带之后最重要的、对发音起决定性作用的器官，它发出不同音时其形状变化是非常复杂的。

成年男子声道的平均长度约17cm，而声道的截面积取决于其发音器官的位置。

发音过程中声道的截面积由舌头、唇、上腭、小舌等的位置决定。

3.1.1.2语音产生过程图1 语音产生机理示意图图1为语音产生机理示意图。

在发音过程中，肺部与相连的肌肉相当于声道系统语音信号的基音频率提取算法研究的激励源。

当声带处于收紧状态时。

流经的气流使声带振动，这时产生的声音称为浊音（voiced sound）,不伴有声带振动的音成为清音（unvoiced sound），当声带处于放松状态时，有两种方式能发出声音：一种方式是通过舌头，在声道的某一部分形成狭窄部位，也称为为收紧点，当气流经过这个收紧点时会产生湍流，形成噪声型的声音。

这时对应的收紧点的位置不同及声道形状的不同，形成不同的摩擦音另一种方式是声带处于松懈状态，利用舌头和嘴唇关闭声道，暂时阻止气流。

当气流压力非常高时，突然放开舌与唇，气流被突然释放产生短暂脉冲音。

对应于声道闭紧点的不同位置和声道的形状，形成不同的爆破音。

为了发出各种各样的声音，需要调整声道的形状，称之为调音（articulation）。

声道各部位的动作称为调音运动（articulation movement）。

调音用的声道的各部分器官叫调音器官（articulation organ）,包括舌、腭、唇和嘴等声道中可以自由活动的部分。

在调音器官中，因调音而产生的声道固定部位的狭窄位置称为调音点（place of articulation）。

声带的状态，包括它的位置、形状、各个不同的调音器官的大小等随时间的变化产生不同音色的语音。

这是因为对应不同的声道形状就有不同的传递特性。

3.1.2语音信号的数字化3.1.2.1语音信号的采样与量化语音信号是时间和幅度都连续变化的一维模拟信号，要想在计算机了对它进行处理，就要先进行采样和量化，将它变成时间和幅度都离散的数字信号。

如下图：图2 语音信号数字化框图所谓采样就是把模拟信号在时间域上进行等间隔取样，其中两样本之间的间隔称为采样周期，它的倒数称为采样频率。

根据采样定理，当采样频率大于信号最高频率的两倍时，在采样过程中就不会丢失信息，并且可以根据采样后的信号重构原始信号。

实际的信号常有一些底能量的频谱部分超过采样频率的一半，如浊音的频谱超过4KHz的分量比其峰值要低40dB以上；对于清音，即使超过8KHz，频率部分也没有明显的下降，因此语音信号所占的频率范围可达10KHz左右。

在实际的语音信号处方案论证理中，采样频率一般为8KHz~10KHz。

采样后的信号在时间域上是离散的形式，但在幅度上还保持着连续的特点，所以要进行量化，量化的目的是将信号波形的幅度值离散化。

一个量化器就是将整个信号的幅度值分成若干个有限的区间，并且把落入同一个区间的样本点都用同一个幅度值表示，这个幅度值称为量化值。

3.1.2.2语音信号的短时加窗处理经过数字化的语音信号实际上是一个时变信号，为了能用传统的方法对语音信号进行分析，应假设语音信号在10ms-30ms短时间内是平稳的。

后面所有的分析都是在语音信号短时平稳这个假设条件进行的。

为了得到短时的语音信号，要对语音信号进行加窗操作。

在加窗的时候，不同的窗口选择将影响到语音信号分析的结果。

在选择窗的时候一般有两个问题要考虑。

①窗函数的形状窗函数可以选用矩形窗，即：1 0≤n≤N-1W(n) = （3-1）0其他或其他形式的窗函数，例如汉明窗（Hamming）,即：0.54-0.46cos（2∏n/(N-1)）0≤n≤N-1W(n) = （3-2）0其他式中，N 为窗口长度。