哈尔滨工程大学语音信号处理实验报告

合集下载

语音信号处理实验报告.docx

在浊音清音对比中，可以发现，对呈现谐波特征的浊音语音谱来说这个特点很明显，就是在谐波成分处LPC谱匹配信号谱的效果要远比谐波之间好得多。
在实验中，当P值增加到一定程度，预测平方误差的改善就不很明显了，而且会增加计算量，一般取为8~14，这里P取为10。
5.基音周期估计
①自互相关函数法
②短时平均幅度差法
二．实验过程
1. 系统结构
2.仿真结果
（1）时域分析
男声及女声（蓝色为时域信号，红色为每一帧的能量，绿色为每一帧的过零率）
某一帧的自相关函数
3.频域分析
①一帧信号的倒谱分析和FFT及LPC分析
②男声和女声的倒谱分析
③浊音和清音的倒谱分析
④浊音和清音的FFT分析和LPC分析（红色为FFT图像，绿色为LPC图像）
从男声女声的时域信号对比图中可以看出，女音信号在高频率分布得更多，女声信号在高频段的能量分布更多，并且女声有较高的过零率，这是因为语音信号中的高频段有较高的过零率。
2.频域分析
这里对信号进行快速傅里叶变换（FFT），可以发现，当窗口函数不同，傅里叶变换的结果也不相同。根据信号的时宽带宽之积为一常数这一性质，可以知道窗口宽度与主瓣宽度成反比，N越大，主瓣越窄。汉明窗在频谱范围中的分辨率较高，而且旁瓣的衰减大，具有频谱泄露少的有点，所以在实验中采用的是具有较小上下冲的汉明窗。
三．实验结果分析
1.时域分析
实验中采用的是汉明窗，窗的长度对能否由短时能量反应语音信号的变化起着决定性影响。这里窗长合适，En能够反应语音信号幅度变化。同时，从图像可以看出，En可以作为区分浊音和清音的特征参数。
短时过零率表示一帧语音中语音信号波形穿过横轴（零电平）的次数。从图中可以看出，短时能量和过零率可以近似为互补的情况，短时能量大的地方过零率小，短时能量小的地方过零率较大。从浊音和清音的时域分析可以看出，清音过零率高，浊音过零率低。

语音信号处理实验报告实验二

语音信号处理实验报告实验二一、实验目的本次语音信号处理实验的目的是深入了解语音信号的特性，掌握语音信号处理的基本方法和技术，并通过实际操作和数据分析来验证和巩固所学的理论知识。

具体而言，本次实验旨在：1、熟悉语音信号的采集和预处理过程，包括录音设备的使用、音频格式的转换以及噪声去除等操作。

2、掌握语音信号的时域和频域分析方法，能够使用相关工具和算法计算语音信号的短时能量、短时过零率、频谱等特征参数。

3、研究语音信号的编码和解码技术，了解不同编码算法对语音质量和数据压缩率的影响。

4、通过实验，培养我们的动手能力、问题解决能力和团队协作精神，提高我们对语音信号处理领域的兴趣和探索欲望。

二、实验原理（一）语音信号的采集和预处理语音信号的采集通常使用麦克风等设备将声音转换为电信号，然后通过模数转换器（ADC）将模拟信号转换为数字信号。

在采集过程中，可能会引入噪声和干扰，因此需要进行预处理，如滤波、降噪等操作，以提高信号的质量。

（二）语音信号的时域分析时域分析是对语音信号在时间轴上的特征进行分析。

常用的时域参数包括短时能量、短时过零率等。

短时能量反映了语音信号在短时间内的能量分布情况，短时过零率则表示信号在单位时间内穿过零电平的次数，可用于区分清音和浊音。

（三）语音信号的频域分析频域分析是将语音信号从时域转换到频域进行分析。

通过快速傅里叶变换（FFT）可以得到语音信号的频谱，从而了解信号的频率成分和分布情况。

（四）语音信号的编码和解码语音编码的目的是在保证一定语音质量的前提下，尽可能降低编码比特率，以减少存储空间和传输带宽的需求。

常见的编码算法有脉冲编码调制（PCM）、自适应差分脉冲编码调制（ADPCM）等。

三、实验设备和软件1、计算机一台2、音频采集设备（如麦克风）3、音频处理软件（如 Audacity、Matlab 等）四、实验步骤（一）语音信号的采集使用麦克风和音频采集软件录制一段语音，保存为常见的音频格式（如 WAV）。

(完整word版)语音信号处理实验报告实验一

通信工程学院12级1班罗恒2012101032实验一语音信号的低通滤波和短时分析综合实验一、实验要求1、根据已有语音信号,设计一个低通滤波器，带宽为采样频率的四分之一，求输出信号；2、辨别原始语音信号与滤波器输出信号有何区别，说明原因；3、改变滤波器带宽,重复滤波实验,辨别语音信号的变化，说明原因；4、利用矩形窗和汉明窗对语音信号进行短时傅立叶分析,绘制语谱图并估计基音周期，分析两种窗函数对基音估计的影响；5、改变窗口长度，重复上一步,说明窗口长度对基音估计的影响。

二、实验目的1.在理论学习的基础上，进一步地理解和掌握语音信号低通滤波的意义，低通滤波分析的基本方法。

2.进一步理解和掌握语音信号不同的窗函数傅里叶变化对基音估计的影响。

三、实验设备1.PC机；2。

MATLAB软件环境；四、实验内容1。

上机前用Matlab语言完成程序编写工作.2。

程序应具有加窗（分帧）、绘制曲线等功能。

3.上机实验时先调试程序,通过后进行信号处理。

4.对录入的语音数据进行处理,并显示运行结果。

5。

改变滤波带宽，辨别与原始信号的区别。

6。

依据曲线对该语音段进行所需要的分析,并且作出结论。

7.改变窗的宽度(帧长）,重复上面的分析内容。

五、实验原理及方法利用双线性变换设计IIR滤波器（巴特沃斯数字低通滤波器的设计），首先要设计出满足指标要求的模拟滤波器的传递函数Ha(s)，然后由Ha（s）通过双线性变换可得所要设计的IIR滤波器的系统函数H(z)。

如果给定的指标为数字滤波器的指标，则首先要转换成模拟滤波器的技术指标,这里主要是边界频率Wp和Ws的转换，对ap和as指标不作变化。

边界频率的转换关系为∩=2/T tan（w/2).接着,按照模拟低通滤波器的技术指标根据相应设计公式求出滤波器的阶数N和3dB截止频率∩c ；根据阶数N查巴特沃斯归一化低通滤波器参数表,得到归一化传输函数Ha(p）；最后，将p=s/ ∩c 代入Ha（p）去归一，得到实际的模拟滤波器传输函数Ha（s）。

哈工程实验一语音信号端点检测最终报告

实验一语音信号端点检测一、实验目的1．学会MATLAB 的使用，掌握MATLAB 的程序设计方法；2．掌握语音处理的基本概念、基本理论和基本方法；3．掌握基于MATLAB 编程实现带噪语音信号端点检测；4．学会用MATLAB 对信号进行分析和处理。

5. 学会利用短时过零率和短时能量，对语音信号的端点进行检测。

二、实验仪器设备及软件MATLAB三、实验原理端点检测是语音信号处理过程中非常重要的一步，它的准确性直接影响到语音信号处理的速度和结果。

本次实验利用短时过零率和短时能量相结合的语音端点检测算法利用短时过零率来检测清音，用短时能量来检测浊音，两者相配合便实现了信号信噪比较大情况下的端点检测。

算法对于输入信号的检测过程可分为短时能量检测和短时过零率检测两个部分。

算法以短时能量检测为主，短时过零率检测为辅。

根据语音的统计特性，可以把语音段分为清音、浊音以及静音（包括背景噪声）三种。

在本算法中，短时能量检测可以较好地区分出浊音和静音。

对于清音，由于其能量较小，在短时能量检测中会因为低于能量门限而被误判为静音；短时过零率则可以从语音中区分出静音和清音。

将两种检测结合起来，就可以检测出语音段（清音和浊音）及静音段1、短时能量计算定义n 时刻某语言信号的短时平均能量En 为：∑∑--=+∞∞--=-=n N n m m n w m x m n w m x En )1(22)]()([)]()([式中N 为窗长，可见短时平均能量为一帧样点值的平方和。

特殊地，当窗函数为矩形窗时，有∑--==n N n m m x En )1(2)(2、短时过零率过零就是指信号通过零值。

过零率就是每秒内信号值通过零值的次数。

对于离散时间序列，过零则是指序列取样值改变符号，过零率则是每个样本的改变符号的次数。

对于语音信号，则是指在一帧语音中语音信号波形穿过横轴（零电平）的次数。

可以用相邻两个取样改变符号的次数来计算。

如果窗的起点是n=0，短时过零率Z 为波形穿过横轴（零电平）的次数|))1(())((|2110∑-=--=N n w w n S Sgn n S Sgn Z {00,1,1)sgn(≥<-=x x x短时过零可以看作信号频率的简单度量浊音的短时平均幅度最大，无声的短时平均幅度最小，清音的短时过零率最大，无声居中，浊音的短时过零率最小。

哈工程通信原理实验报告

实验PCM编码一、实验目的1.掌握PCM编译码原理2.掌握PCM基带信号的形成过程及分接过程3.掌握语音信号PCM编译码系统的动态范围和频率特性二、实验环境双踪示波器一台通信原理VI型实验箱一台M3 PCM与ADPCM编译码模块和M6数字信号源模块麦克风和扬声器一套三、实验原理1．点到点PCM多路电话通信原理点到点PCM多路电话通信原理可用图1表示。

对于基带通信系统广义信道包括传输媒质、收滤波器、发滤波器等。

对于频带系统广义信道包括传输媒质、调制器、解调器、发滤波器、收滤波器等。

图1 点到点PCM多路电话通信原理框图本实验模块可以传输两路话音信号。

采用MC145503编译器它包括了图1中的收、发低通滤波器及PCM编码器。

编码器输入信号可以是本实验系统内部产生的整形信号也可以是外部信号源的正弦信号或电话信号。

2．PCM编译码模块原理本模块的原理方框图如图2所示。

图2 PCM编译码原理方框图四、实验内容与实验步骤1.实验连线关闭系统电源，进行如下连接。

源端口目的端口正弦信号源OUT1 PCM&ADPCM编译码单元STA正弦信号源OUT2 PCM&ADPCM编译码单元STBPCM&ADPCM编译码单元PCMA-OUT PCM&ADPCM编译码单元PCMA-INPCM&ADPCM编译码单元PCMB-OUT PCM&ADPCM编译码单元PCMB -IN PCM&ADPCM编译码单元PCM IN PCM&ADPCM编译码单元PCM OUT2.熟悉PCM编译码模块开关K1接通SL1(或SL3,SL5,SL6) 打开电源开关。

3.用户示波器观察STA,STB 将其幅度调至2V。

4.用示波器观察PCM编码输出信号当采用非集群方式时测量A通道时，将示波器CH1接SLA。

示波器扫描周期不超过SLA的周期，以便观察到一个完整的帧信号。

CH2接PCM A OUT，观察编码后的数据与时隙同步信号的关系。

语音信号处理实验报告

通信与信息工程学院信息处理综合实验报告班级：电子信息工程1502班指导教师：设计时间：2018/10/22-2018/11/23评语：通信与信息工程学院二〇一八年实验题目：语音信号分析与处理一、实验内容1. 设计内容利用MATLAB对采集的原始语音信号及加入人为干扰后的信号进行频谱分析，使用窗函数法设计滤波器滤除噪声、并恢复信号。

2．设计任务与要求1. 基本部分（1）录制语音信号并对其进行采样；画出采样后语音信号的时域波形和频谱图。

（2）对所录制的语音信号加入干扰噪声，并对加入噪声的信号进行频谱分析；画出加噪后信号的时域波形和频谱图。

（3）分别利用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman 窗几种函数设计数字滤波器滤除噪声，并画出各种函数所设计的滤波器的频率响应。

（4）画出使用几种滤波器滤波后信号时域波形和频谱，对滤波前后的信号、几种滤波器滤波后的信号进行对比，分析信号处理前后及使用不同滤波器的变化；回放语音信号。

2. 提高部分（5）录制一段音乐信号并对其进行采样；画出采样后语音信号的时域波形和频谱图。

（6）利用MATLAB产生一个不同于以上频段的信号；画出信号频谱图。

（7）将上述两段信号叠加，并加入干扰噪声，尝试多次逐渐加大噪声功率，对加入噪声的信号进行频谱分析；画出加噪后信号的时域波形和频谱图。

（8）选用一种合适的窗函数设计数字滤波器，画出滤波后音乐信号时域波形和频谱，对滤波前后的信号进行对比，回放音乐信号。

二、实验原理1.设计原理分析本设计主要是对语音信号的时频进行分析，并对语音信号加噪后设计滤波器对其进行滤波处理，对语音信号加噪声前后的频谱进行比较分析，对合成语音信号滤波前后进行频谱的分析比较。

首先用PC机WINDOWS下的录音机录制一段语音信号，并保存入MATLAB软件的根目录下，再运行MATLAB仿真软件把录制好的语音信号用audioread函数加载入MATLAB仿真软件的工作环境中，输入命令对语音信号进行时域，频谱变换。

哈尔滨工程大学语音信号处理实验报告讲述

实验报告实验课程名称：语音信号处理实验姓名：班级： 20120811 学号：Array指导教师张磊实验教室 21B#293实验时间 2015年4月12日实验成绩实验一语音信号的端点检测一、实验目的1、掌握短时能量的求解方法2、掌握短时平均过零率的求解方法3、掌握利用短时平均过零率和短时能量等特征，对输入的语音信号进行端点检测。

二、实验设备 HP 计算机、Matlab 软件三、实验原理 1、短时能量语音信号的短时能量分析给出了反应这些幅度变化的一个合适的描述方法。

对于信号)}({n x ，短时能量的定义如下：∑∑∞-∞=∞-∞=*=-=-=m m n n h n x m n h m xm n w m x E )()()()()]()([2222、短时平均过零率短时平均过零率是指每帧内信号通过零值的次数。

对于连续语音信号，可以考察其时域波形通过时间轴的情况。

对于离散信号，实质上就是信号采样点符号变化的次数。

过零率在一定程度上可以反映出频率的信息。

短时平均过零率的公式为：∑∑-+=∞-∞=--=---=1)]1(sgn[)](sgn[21 )()]1(sgn[)](sgn[21N n nm w w m n m x m x m n w m x m x Z其中，sgn[.]是符号函数，即⎩⎨⎧<-≥=0)(10)(1)](sgn[n x n x n x3、端点检测原理能够实现这些判决的依据在于，不同性质语音的各种短时参数具有不同的概率密度函数，以及相邻的若干帧语音应具有一致的语音特性，它们不会在S 、U 、V 之间随机地跳来跳去。

要正确判断每个输入语音的起点和终点，利用短时平均幅度参数E 和短时平均过零率Z 可以做到这一点。

首先，根据浊音情况下的短时能量参数的概率密度函数)|(V E P 确定一个阈值参数H E ，H E 值一般定的较高。

当一帧输入信号的短时平均幅度参数超过H E 时，就可以判定该帧语音信号不是无声，而有相当大的可能是浊音。

语音信号处理实验报告

语音信号处理实验报告——语音信号分析实验一．实验目的及原理语音信号分析是语音信号处理的前提和基础,只有分析出可表示语音信号本质特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理,并且语音合成的音质好坏和语音识别率的高低,都取决于对语音信号分析的准确性和精确性;贯穿语音分析全过程的是“短时分析技术”;因为从整体来看,语音信号的特性及表征其本质特征的参数均是随时间变化的,所以它是一个非平稳态过程,但是在一个短时间范围内一般认为在10~30ms的时间内,其特性基本保持不变,即相对稳定,可将其看做一个准稳态过程,即语音信号具有短时平稳性;所以要将语音信号分帧来分析其特征参数,帧长一般取为10ms~30ms;二．实验过程男声及女声蓝色为时域信号,红色为每一帧的能量,绿色为每一帧的过零率某一帧的自相关函数3.频域分析①一帧信号的倒谱分析和FFT及LPC分析②男声和女声的倒谱分析对应的倒谱系数：,,……对应的LPC预测系数：1,,,,,……原语音波形一帧语音波形一帧语音的倒谱③浊音和清音的倒谱分析④浊音和清音的FFT分析和LPC分析红色为FFT图像,绿色为LPC图像三．实验结果分析1.时域分析实验中采用的是汉明窗,窗的长度对能否由短时能量反应语音信号的变化起着决定性影响;这里窗长合适,En能够反应语音信号幅度变化;同时,从图像可以看出,En可以作为区分浊音和清音的特征参数;短时过零率表示一帧语音中语音信号波形穿过横轴零电平的次数;从图中可以看出,短时能量和过零率可以近似为互补的情况,短时能量大的地方过零率小,短时能量小的地方过零率较大;从浊音和清音的时域分析可以看出,清音过零率高,浊音过零率低;从男声女声的时域信号对比图中可以看出,女音信号在高频率分布得更多,女声信号在高频段的能量分布更多,并且女声有较高的过零率,这是因为语音信号中的高频段有较高的过零率;2.频域分析这里对信号进行快速傅里叶变换FFT,可以发现,当窗口函数不同,傅里叶变换的结果也不相同;根据信号的时宽带宽之积为一常数这一性质,可以知道窗口宽度与主瓣宽度成反比,N越大,主瓣越窄;汉明窗在频谱范围中的分辨率较高,而且旁瓣的衰减大,具有频谱泄露少的有点,所以在实验中采用的是具有较小上下冲的汉明窗;为了使频域信号的频率分辨率较高,所取的DFT及相应的FFT点数应该足够多,但时域信号的长度受到采样率和和短时性的限制,这里可以采用补零的办法,对补零后的序列进行FFT变换;从实验仿真图可以看出浊音的频率分布比清音高;3.倒谱分析通过实验可以发现,倒谱的基音检测与语音加窗的选择也是有关系的;如果窗函数选择矩形窗,在许多情况下倒谱中的基音峰将变得不清晰,窗函数选择汉明窗较为合理,可以发现,加汉明窗的倒谱基音峰较为突出;在典型的浊音清音倒谱对比中,理论上浊音倒谱基音峰应比较突出,而清音不出现这种尖峰,只是在倒谱的低时域部分包含关于声道冲激响应的信息;实验仿真的图形不是很理想;4.线性预测分析从实验中可以发现,LPC谱估计具有一个特点,在信号能量较大的区域即接近谱的峰值处,LPC谱和信号谱很接近；而在信号能量较低的区域即接近谱的谷底处,则相差比较大;在浊音清音对比中,可以发现,对呈现谐波特征的浊音语音谱来说这个特点很明显,就是在谐波成分处LPC谱匹配信号谱的效果要远比谐波之间好得多;在实验中,当P值增加到一定程度,预测平方误差的改善就不很明显了,而且会增加计算量,一般取为8~14,这里P取为10;5.基音周期估计①自互相关函数法②短时平均幅度差法③倒谱分析法共偏移92+32=124个偏移点16000/124=可以发现,上面三种方法计算得到的基音周期基本相同;。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验报告实验课程名称：语音信号处理实验姓名：班级： 20120811 学号：指导教师张磊实验教室 21B#293 实验时间 2015年4月12日实验成绩实验序号实验名称实验过程实验结果实验成绩实验一语音信号的端点检测实验二语音信号的特征提取实验三语音信号的基频提取实验一语音信号的端点检测一、实验目的1、掌握短时能量的求解方法2、掌握短时平均过零率的求解方法3、掌握利用短时平均过零率和短时能量等特征，对输入的语音信号进行端点检测。

二、实验设备 HP 计算机、Matlab 软件三、实验原理 1、短时能量语音信号的短时能量分析给出了反应这些幅度变化的一个合适的描述方法。

对于信号)}({n x ，短时能量的定义如下：∑∑∞-∞=∞-∞=*=-=-=m m n n h n x m n h m x m n w m x E )()()()()]()([2222、短时平均过零率短时平均过零率是指每帧内信号通过零值的次数。

对于连续语音信号，可以考察其时域波形通过时间轴的情况。

对于离散信号，实质上就是信号采样点符号变化的次数。

过零率在一定程度上可以反映出频率的信息。

要正确判断每个输入语音的起点和终点，利用短时平均幅度参数E 和短时平均过零率Z 可以做到这一点。

首先，根据浊音情况下的短时能量参数的概率密度函数)|(V E P 确定一个阈值参数H E ，H E 值一般定的较高。

当一帧输入信号的短时平均幅度参数超过H E 时，就可以判定该帧语音信号不是无声，而有相当大的可能是浊音。

根据H E 可判定输入语音的前后两个点1A 和2A 。

在1A 和2A 之间的部分肯定是语音段，但语音的精确起点、终点还要在1A 之前和2A 之后仔细查找，如图1所示。

C 1B 1 A 1A 2B 2C 2E H E E LC 2B 2 A 1C 1B 1 A 2 ZZ s图1 端点检测原理示意图为此，再设定一个较低的阈值参数L E ，由1A 点向前找，当短时能量由大到小减至L E 可以确定点1B 。

类似地，可以由2A 点向后找，确定2B 点。

在1B 和2B 之间的仍能肯定是语音段。

然后由1B 向前和2B 向后，利用短时平均过零率进行搜索。

根据无声情况下的短时平均过零率，设置一个参数s Z ，如果由1B 向前搜索时，短时平均过零率大于s Z 的3倍，则认为这些信号仍属于语音段，直到短时平均过零率下降到低于3倍的s Z ，这时的点1C 就是语音的精确的起点。

对于终点也做类似的处理，可以确定终点2C 。

采用短时平均过零率的原因在于，1B 点以前可能是一段清辅音，它的能量相当弱，依靠能量不可能将它们与无声段分开。

而对于清辅音来说，它们的过零率明显高于无声段，因而能用这个参数将二者区分开来。

存在噪声的情况下，正常的过零率计算会存在一定的误差，解决这个问题的一种方法是对上述过零率定义做一个简单的修改，即设立一个门限T ，将过零率的含义修改为跨过正负门限的次数，如图2。

门限3 门限2 门限1 门限1 门限2 门限3时间图2 门限短时平均过零率于是，有：)(}])1(sgn[])(sgn[ ])1(sgn[])(sgn[{21m n w T m x T m x T m x T m x Z m n -+--++----=∑∞-∞= 这样计算的短时平均过零率就有一定的抗干扰能力。

即使存在小的随机噪声，只要它不超过正负门限所构成的带，就不会产生虚假过零率。

四、实验步骤及程序实验程序：function point_check() s1=wavread('man.wav'); s=s1/max(abs(s1)); s=filter([1 -0.9375],1,s); plot(s); len=length(s); round=160; repeat=80;inc=round-repeat;%b_len-2*repeat; ka=ceil((len-round)/(round-repeat))+1;s=[s;zeros((round-repeat)*(ka-1)+round-len,1)]; len=length(s); w=zeros(round,ka); for i=1:kafor k=1:roundw(k,i)=s(k+(i-1)*(round-repeat),1);endendST=0.01;F=zeros(ka,round);for i=1:kafor k=0:round-1for j=1:round-kF(ka,k+1)=F(ka,k+1)+abs(w(j,i)-w(j+k,i));endif(k<round-1)if(w(k+1,i)>0&&w(k+2,i)<0)z=sign(w(k+1,i)-ST)-sign(w(k+2,i)+ST);elseif(w(k+1,i)<0&&w(k+2,i)>0)z=sign(w(k+2,i)-ST)-sign(w(k+1,i)+ST);endif(z==2)f(i,1)=f(i,1)+1;endendendendamp=sum(abs(w).^2,1);实验结果截图：024********x 105-0.8-0.6-0.4-0.200.20.40.60.8五、实验结果与分析这次实验利用MATLAB 对信号进行分析和处理，利用短时过零率和短时能量，对语音信号的端点进行检测。

我之前虽然接触过MATLAB 软件，但从未进行过有关语音信号的操作，在实验过程中欠缺独立性，代码是参考网上的，在理解的基础上借鉴。

学习是无止境的，现在的动手能力不强也是由于之前的松懈造成的，以后一定要多动手，毕竟能力是立身之本。

实验二语音信号的特征提取一、实验目的1、掌握语音信号的Mel 倒谱特征（MFCC ）的求解方法2、掌握语音信号的线性预测原理以及LPC 特征的求解方法二、实验设备 HP 计算机、Matlab 软件三、实验原理1、MFCC 特征原理及求解方法在语音识别和说话人识别中，常用的语音特征是基于Mel 频率的、倒谱系数（Mel Frequency Cepstrum Coefficient ，简称MFCC ）。

由于MFCC 参数是将人耳的听觉感知特性和语音的产生机制相结合，因此目前大多数语音识别系统中广泛使用这种特征。

研究者根据心理学实验得到了类似于耳蜗作用的一组滤波器组，这就是Mel 频率滤波器组。

Mel 频率可以用公式表达如下：)700/log(12595 frequency Mel f +⨯=在实际应用中，MFCC 倒谱系数计算过程如下：（1）将信号进行分帧，预加重和加汉明窗处理，然后进行短时傅立叶变换得到其频谱；（2）求出频谱平方，即能量谱，并用M 个Mel 带通滤波器进行滤波，由于每一个频带中分量的作用在人耳中是叠加的，因此将每个滤波频带内的能量进行叠加，这时第k 个滤波器输出功率谱)(k x '；（3）将每个滤波器的输出取对数，得到相应频带的对数功率谱；并进行反离散余弦变换，得到L 个MFCC 系数，如下式所示。

一般L 取12~16个左右；∑=-'=Mk n M n k k x C 1]/)5.0(cos[)(log π Ln ,....2,1= （4）这种直接得到的MFCC 特征作为静态特征，将这种静态特征做一阶和二阶差分，得到相应的动态特征。

2、线性预测原理及LPC 特征求解方法根据参数模型功率谱估计的思想，可以将语音信号()x n 看作是由一个输入序列)(n u 激励一个全极点的系统（模型）)(z H 而产生的输出，如图3所示。

()x n )(n s )(n u)(z H图3 语音信号的模型化系统的传递函数为：∑=--=pi ii z a G z H 11)(其中G 为常数，i a 为实数，p 为模型的阶数。

显而易见，这种模型是以系数i a 和增益G 为模型参数的全极点模型，即AR 模型。

用系数{i a }可以定义一个p 阶线性预测器)(z F∑=-=pi i i z a z F 1)(这个p 阶预测器从时域角度可以理解为，用信号的前p 个样本来预测当前的样本得到预测值()x n ，1()()pi i x n a x n i ==-∑因为预测器)(z F 是用AR 模型的系数{i a }来构造的，而AR 模型是在最小均方意义上对数据的拟合，所以预测器)(z F 必然是一个最佳预测器，即此时预测器的预测误差短时总能量最小。

语音信号的线性预测分析就是根据这一性质，从语音信号()x n 出发，依据最小均方误差准则，估计出一组线性预测器的系数{i a }，它就是我们所要求的信号AR 模型的系数。

{i a }被称为线性预测系数或LPC 系数。

预测器的预测误差)(n e 为：1()()()()()pi i e n x n x n x n a x n i ==-=--∑由上式可知，)(n e 是输入为()x n ，且具有如下形式传递函数的滤波器的输出i pi i z a z F z A -=∑-=-=11)(1)(因此称)(z A 为预测误差滤波器。

比较式(4-1)和式(4-5)可知)(/)(z H G z A =，即预测误差滤波器是系统)(z H 的逆滤波器。

为了在最小均方误差意义上计算一组最佳预测系数，定义短时预测均方误差为2221()[()()][()()]pn i nnni E e n x n x n x n a x n i ===-=--∑∑∑∑由于语音信号的时变特性，线性预测分析应该在短时的语音段上进行，即按帧进行。

因此上式的求和通常也是在一帧语音的范围内进行。

为了使n E 达到最小，{i a }必须满足),,2,1( ,0/p k a E k n ⋅⋅⋅==∂∂。

则有：1(2()()2()())pni n i nk E x n x n k a x n k x n i a =∂=-----∂∑∑∑ 这样可以得到以{i a }为变量的线性方程组1()()()()pini nx n x n k a x n k x n i =-=--∑∑∑, p k ,,2,1⋅⋅⋅=要构造信号的AR 模型，还应估算增益因子G 。