10实验十:随机信号分析应用在语音信号分析中
语音信号的随机过程分析

语音信号的随机过程分析语音信号是一种非常重要的信息载体,它是人类进行交流和沟通的基本方式之一。
而对语音信号的分析是实现语音处理、语音识别、语音合成等应用的基础。
语音信号的随机过程分析是一种数学方法,可以用于揭示语音信号中的随机特性和规律,为后续的信号处理提供指导。
本文将从语音信号的随机性质、随机过程的基本概念和语音信号的随机过程建模等方面进行阐述。
一、语音信号的随机性质语音信号在时间和频率上都具有一定的随机性质。
从时间上看,语音信号通常是非平稳的,即其统计特性会随时间不断变化。
从频率上看,语音信号在频谱上的分布也具有一定的随机性,即其频率成分不是严格固定的。
这些随机性质导致了语音信号具有丰富的变化和多样性。
二、随机过程的基本概念随机过程是描述随机现象随时间变化的数学模型,是一组随机变量的集合。
语音信号可以被看作是一种连续时间的随机过程。
在随机过程的分析中,我们常关注两个方面的性质:均值和自相关函数。
1. 均值:语音信号的均值是指信号在长时间内的平均值。
对于平稳信号(即统计特性不随时间变化),其均值是常数。
而对于非平稳信号(如语音信号),其均值会随时间变化。
2. 自相关函数:自相关函数描述了随机过程中不同时间点的两个随机变量之间的相关性。
对于语音信号,自相关函数可以揭示信号的周期性和谐波结构。
三、语音信号的随机过程建模为了更好地理解和分析语音信号,我们常使用随机过程来建立其模型。
常用的语音信号模型包括自回归(AR)模型、线性预测(LP)模型和隐马尔可夫模型(HMM)等。
1. 自回归模型:自回归模型是一种线性滤波模型,它假设当前的信号点与过去的若干个信号点之间存在线性相关关系。
自回归模型的主要参数是滞后系数,可以通过最小均方误差或最大似然估计得到。
2. 线性预测模型:线性预测模型是通过估计语音信号的参数来近似表示信号。
它假设语音信号是由一个线性滤波器和一个随机激励信号相互作用而成的。
线性预测模型的参数可以通过最小均方误差或最大似然估计得到。
语音信号处理实验报告.docx

在实验中,当P值增加到一定程度,预测平方误差的改善就不很明显了,而且会增加计算量,一般取为8~14,这里P取为10。
5.基音周期估计
①自互相关函数法
②短时平均幅度差法
二.实验过程
1. 系统结构
2.仿真结果
(1)时域分析
男声及女声(蓝色为时域信号,红色为每一帧的能量,绿色为每一帧的过零率)
某一帧的自相关函数
3.频域分析
①一帧信号的倒谱分析和FFT及LPC分析
②男声和女声的倒谱分析
③浊音和清音的倒谱分析
④浊音和清音的FFT分析和LPC分析(红色为FFT图像,绿色为LPC图像)
从男声女声的时域信号对比图中可以看出,女音信号在高频率分布得更多,女声信号在高频段的能量分布更多,并且女声有较高的过零率,这是因为语音信号中的高频段有较高的过零率。
2.频域分析
这里对信号进行快速傅里叶变换(FFT),可以发现,当窗口函数不同,傅里叶变换的结果也不相同。根据信号的时宽带宽之积为一常数这一性质,可以知道窗口宽度与主瓣宽度成反比,N越大,主瓣越窄。汉明窗在频谱范围中的分辨率较高,而且旁瓣的衰减大,具有频谱泄露少的有点,所以在实验中采用的是具有较小上下冲的汉明窗。
三.实验结果分析
1.时域分析
实验中采用的是汉明窗,窗的长度对能否由短时能量反应语音信号的变化起着决定性影响。这里窗长合适,En能够反应语音信号幅度变化。同时,从图像可以看出,En可以作为区分浊音和清音的特征参数。
短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。从图中可以看出,短时能量和过零率可以近似为互补的情况,短时能量大的地方过零率小,短时能量小的地方过零率较大。从浊音和清音的时域分析可以看出,清音过零率高,浊音过零率低。
语音信号处理实验报告实验二

语音信号处理实验报告实验二一、实验目的本次语音信号处理实验的目的是深入了解语音信号的特性,掌握语音信号处理的基本方法和技术,并通过实际操作和数据分析来验证和巩固所学的理论知识。
具体而言,本次实验旨在:1、熟悉语音信号的采集和预处理过程,包括录音设备的使用、音频格式的转换以及噪声去除等操作。
2、掌握语音信号的时域和频域分析方法,能够使用相关工具和算法计算语音信号的短时能量、短时过零率、频谱等特征参数。
3、研究语音信号的编码和解码技术,了解不同编码算法对语音质量和数据压缩率的影响。
4、通过实验,培养我们的动手能力、问题解决能力和团队协作精神,提高我们对语音信号处理领域的兴趣和探索欲望。
二、实验原理(一)语音信号的采集和预处理语音信号的采集通常使用麦克风等设备将声音转换为电信号,然后通过模数转换器(ADC)将模拟信号转换为数字信号。
在采集过程中,可能会引入噪声和干扰,因此需要进行预处理,如滤波、降噪等操作,以提高信号的质量。
(二)语音信号的时域分析时域分析是对语音信号在时间轴上的特征进行分析。
常用的时域参数包括短时能量、短时过零率等。
短时能量反映了语音信号在短时间内的能量分布情况,短时过零率则表示信号在单位时间内穿过零电平的次数,可用于区分清音和浊音。
(三)语音信号的频域分析频域分析是将语音信号从时域转换到频域进行分析。
通过快速傅里叶变换(FFT)可以得到语音信号的频谱,从而了解信号的频率成分和分布情况。
(四)语音信号的编码和解码语音编码的目的是在保证一定语音质量的前提下,尽可能降低编码比特率,以减少存储空间和传输带宽的需求。
常见的编码算法有脉冲编码调制(PCM)、自适应差分脉冲编码调制(ADPCM)等。
三、实验设备和软件1、计算机一台2、音频采集设备(如麦克风)3、音频处理软件(如 Audacity、Matlab 等)四、实验步骤(一)语音信号的采集使用麦克风和音频采集软件录制一段语音,保存为常见的音频格式(如 WAV)。
语音信号处理实验报告11

实验一 语音信号的时域分析一、 实验目的、要求(1)掌握语音信号采集的方法(2)掌握一种语音信号基音周期提取方法(3)掌握语音信号短时能量和短时过零率计算方法(4)了解Matlab 的编程方法二、 实验原理语音是一时变的、非平稳的随机过程,但由于一段时间内(10-30ms)人的声带和声道形状的相对稳定性,可认为其特征是不变的,因而语音的短时谱具有相对稳定性。
在语音分析中可以利用短时谱的这种平稳性,将语音信号分帧。
10~30ms 相对平稳,分析帧长一般为20ms 。
语音信号的分帧是通过可移动的有限长度窗口进行加权的方法来实现的。
几种典型的窗函数有:矩形窗、汉明窗、哈宁窗、布莱克曼窗。
语音信号的能量分析是基于语音信号能量随时间有相当大的变化,特别是清音段的能量一般比浊音段的小得多。
定义短时平均能量[][]∑∑+-=∞-∞=-=-=nN n m m n m n w m x m n w m x E 122)()()()( 下图说明了短时能量序列的计算方法,其中窗口采用的是直角窗。
过零就是信号通过零值。
对于连续语音信号,可以考察其时域波形通过时间轴的情况。
而对于离散时间信号,如果相邻的取样值改变符号则称为过零。
由此可以计算过零数,过零数就是样本改变符号的次数。
单位时间内的过零数称为平均过零数。
语音信号x (n )的短时平均过零数定义为()[]()[]()()[]()[]()n w n x n x m n w m x m x Z m n *--=---=∑∞-∞=1sgn sgn 1sgn sgn 式中,[]•sgn 是符号函数,即()[]()()()()⎩⎨⎧<-≥=0101sgn n x n x n x短时平均过零数可应用于语音信号分析中。
发浊音时,尽管声道有若干个共振峰,但由于声门波引起了谱的高频跌落,所以其语音能量约集中干3kHz 以下。
而发清音时.多数能量出现在较高频率上。
既然高频率意味着高的平均过零数,低频率意味着低的平均过零数,那么可以认为浊音时具有较低的平均过零数,而清音时具有较高的平均过零数。
随机信号分析课后习题答案

随机信号分析课后习题答案随机信号分析课后习题答案随机信号分析是现代通信系统设计和信号处理领域中的重要基础知识。
通过对随机信号的分析,我们可以更好地理解和处理噪声、干扰等随机性因素对通信系统性能的影响。
下面是一些关于随机信号分析的课后习题及其答案,希望对大家的学习有所帮助。
1. 什么是随机信号?随机信号是在时间域上具有随机性质的信号。
与确定性信号不同,随机信号的每个样本值都是随机变量,其取值不是确定的。
随机信号可以用统计特性来描述,如均值、方差、功率谱密度等。
2. 什么是平稳随机信号?平稳随机信号是指在统计性质上不随时间变化的随机信号。
具体来说,平稳随机信号的均值和自相关函数不随时间变化。
平稳随机信号在实际应用中较为常见,因为它们具有一些方便的数学性质,可以简化信号处理的分析和设计。
3. 如何计算随机信号的均值?随机信号的均值可以通过对信号样本值的求平均来计算。
对于离散时间随机信号,均值可以表示为:E[x[n]] = (1/N) * Σ(x[n])其中,E[x[n]]表示信号x[n]的均值,N表示信号的样本数,Σ表示求和运算。
4. 如何计算随机信号的方差?随机信号的方差可以用均方差来表示。
对于离散时间随机信号,方差可以表示为:Var[x[n]] = E[(x[n] - E[x[n]])^2]其中,Var[x[n]]表示信号x[n]的方差,E[x[n]]表示信号的均值。
5. 什么是自相关函数?自相关函数是用来描述随机信号与其自身在不同时间延迟下的相似性的函数。
自相关函数可以用来分析信号的周期性、相关性等特性。
对于离散时间随机信号,自相关函数可以表示为:Rxx[m] = E[x[n] * x[n-m]]其中,Rxx[m]表示信号x[n]的自相关函数,E[ ]表示期望运算。
6. 如何计算随机信号的自相关函数?随机信号的自相关函数可以通过对信号样本值的乘积进行求平均来计算。
对于离散时间随机信号,自相关函数可以表示为:Rxx[m] = (1/N) * Σ(x[n] * x[n-m])其中,Rxx[m]表示信号x[n]的自相关函数,N表示信号的样本数,Σ表示求和运算。
随机信号分析

随机信号分析随机信号是在时间或空间上具有随机性质的信号,其数学模型采用随机过程来描述。
随机信号的分析是信号与系统理论中的重要内容,其应用广泛涉及通信、控制、电力系统等领域。
本文将从随机信号的基本特性、常见的随机过程以及随机信号分析的方法等方面进行阐述。
随机信号的基本特性包括:平均性、相关性和功率谱密度。
首先,平均性是指随机信号的统计平均等于其数学期望值。
随机信号的平均性是通过计算信号在一定时间或空间范围内的平均值来描述的。
其次,相关性是指随机信号在不同时刻或不同空间位置上的取值之间存在一定程度的相关性。
相关性可以描述信号之间的相似度和相关程度,常用相关函数来表示。
最后,功率谱密度是用来描述信号在频域上的分布特性,它表示了随机信号在不同频率上所占的功率份额。
随机信号的常见模型主要有白噪声、随机行走、随机震荡等。
其中,白噪声是指功率谱密度在整个频率范围内均匀分布的信号,其在通信领域中应用广泛。
随机行走模型是一种随机过程,它描述了随机信号在不同时刻之间的步长是独立同分布的。
随机震荡模型是一种具有振荡特性的随机过程,常用于描述具有周期性或周期性变化的信号。
对于随机信号的分析方法,主要包括时间域分析和频域分析两种。
时间域分析是通过观察信号在时间上的波形和变化规律来分析随机信号的特性,常用的方法有自相关函数和互相关函数等。
频域分析是将信号转换为频率域上的功率谱密度来分析信号的频谱特性,常用的方法有傅里叶变换和功率谱估计等。
在实际应用中,随机信号的分析对于信号处理和系统设计具有重要意义。
在通信系统中,随机信号的噪声特性是衡量系统性能的关键因素之一,因此通过对随机信号的分析可以有效地优化通信系统的传输质量。
此外,在控制系统和电力系统中,随机信号的分析也能帮助我们进行系统建模和性能预测,从而实现系统的稳定性和可靠性。
综上所述,随机信号的分析是信号与系统理论中的重要内容,其对于各个领域的应用具有重要的意义。
通过对随机信号的基本特性、常见的随机过程以及分析方法的了解,可以为我们深入理解和应用随机信号提供帮助。
语音信号处理实验指导书

语音信号处理实验指导书实验一:语音信号的采集与播放实验目的:了解语音信号的采集与播放过程,掌握采集设备的使用方法。
实验器材:1. 电脑2. 麦克风3. 扬声器或耳机实验步骤:1. 将麦克风插入电脑的麦克风插孔。
2. 打开电脑的录音软件(如Windows自带的录音机)。
3. 在录音软件中选择麦克风作为录音设备。
4. 点击录音按钮开始录音,讲话或唱歌几秒钟。
5. 点击停止按钮停止录音。
6. 播放刚刚录制的语音,检查录音效果。
7. 将扬声器或耳机插入电脑的音频输出插孔。
8. 打开电脑的音频播放软件(如Windows自带的媒体播放器)。
9. 选择要播放的语音文件,点击播放按钮。
10. 检查语音播放效果。
实验二:语音信号的分帧与加窗实验目的:了解语音信号的分帧和加窗过程,掌握分帧和加窗算法的实现方法。
实验器材:1. 电脑2. 麦克风3. 扬声器或耳机实验步骤:1. 使用实验一中的步骤1-5录制一段语音。
2. 将录制的语音信号进行分帧处理。
选择合适的帧长和帧移参数。
3. 对每一帧的语音信号应用汉明窗。
4. 将处理后的语音帧进行播放,检查分帧和加窗效果。
实验三:语音信号的频谱分析实验目的:了解语音信号的频谱分析过程,掌握频谱分析算法的实现方法。
实验器材:1. 电脑2. 麦克风3. 扬声器或耳机实验步骤:1. 使用实验一中的步骤1-5录制一段语音。
2. 将录制的语音信号进行分帧处理。
选择合适的帧长和帧移参数。
3. 对每一帧的语音信号应用汉明窗。
4. 对每一帧的语音信号进行快速傅里叶变换(FFT)得到频谱。
5. 将频谱绘制成图像,观察频谱的特征。
6. 对频谱进行谱减法处理,去除噪声。
7. 将处理后的语音帧进行播放,检查频谱分析效果。
实验四:语音信号的降噪处理实验目的:了解语音信号的降噪处理过程,掌握降噪算法的实现方法。
实验器材:1. 电脑2. 麦克风3. 扬声器或耳机实验步骤:1. 使用实验一中的步骤1-5录制一段带噪声的语音。
语音信号处理实验报告

语音信号处理实验报告——语音信号分析实验一.实验目的及原理语音信号分析是语音信号处理的前提和基础,只有分析出可表示语音信号本质特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理,并且语音合成的音质好坏和语音识别率的高低,都取决于对语音信号分析的准确性和精确性;贯穿语音分析全过程的是“短时分析技术”;因为从整体来看,语音信号的特性及表征其本质特征的参数均是随时间变化的,所以它是一个非平稳态过程,但是在一个短时间范围内一般认为在10~30ms的时间内,其特性基本保持不变,即相对稳定,可将其看做一个准稳态过程,即语音信号具有短时平稳性;所以要将语音信号分帧来分析其特征参数,帧长一般取为10ms~30ms;二.实验过程男声及女声蓝色为时域信号,红色为每一帧的能量,绿色为每一帧的过零率某一帧的自相关函数3.频域分析①一帧信号的倒谱分析和FFT及LPC分析②男声和女声的倒谱分析对应的倒谱系数:,,……对应的LPC预测系数:1,,,,,……原语音波形一帧语音波形一帧语音的倒谱③浊音和清音的倒谱分析④浊音和清音的FFT分析和LPC分析红色为FFT图像,绿色为LPC图像三.实验结果分析1.时域分析实验中采用的是汉明窗,窗的长度对能否由短时能量反应语音信号的变化起着决定性影响;这里窗长合适,En能够反应语音信号幅度变化;同时,从图像可以看出,En可以作为区分浊音和清音的特征参数;短时过零率表示一帧语音中语音信号波形穿过横轴零电平的次数;从图中可以看出,短时能量和过零率可以近似为互补的情况,短时能量大的地方过零率小,短时能量小的地方过零率较大;从浊音和清音的时域分析可以看出,清音过零率高,浊音过零率低;从男声女声的时域信号对比图中可以看出,女音信号在高频率分布得更多,女声信号在高频段的能量分布更多,并且女声有较高的过零率,这是因为语音信号中的高频段有较高的过零率;2.频域分析这里对信号进行快速傅里叶变换FFT,可以发现,当窗口函数不同,傅里叶变换的结果也不相同;根据信号的时宽带宽之积为一常数这一性质,可以知道窗口宽度与主瓣宽度成反比,N越大,主瓣越窄;汉明窗在频谱范围中的分辨率较高,而且旁瓣的衰减大,具有频谱泄露少的有点,所以在实验中采用的是具有较小上下冲的汉明窗;为了使频域信号的频率分辨率较高,所取的DFT及相应的FFT点数应该足够多,但时域信号的长度受到采样率和和短时性的限制,这里可以采用补零的办法,对补零后的序列进行FFT变换;从实验仿真图可以看出浊音的频率分布比清音高;3.倒谱分析通过实验可以发现,倒谱的基音检测与语音加窗的选择也是有关系的;如果窗函数选择矩形窗,在许多情况下倒谱中的基音峰将变得不清晰,窗函数选择汉明窗较为合理,可以发现,加汉明窗的倒谱基音峰较为突出;在典型的浊音清音倒谱对比中,理论上浊音倒谱基音峰应比较突出,而清音不出现这种尖峰,只是在倒谱的低时域部分包含关于声道冲激响应的信息;实验仿真的图形不是很理想;4.线性预测分析从实验中可以发现,LPC谱估计具有一个特点,在信号能量较大的区域即接近谱的峰值处,LPC谱和信号谱很接近;而在信号能量较低的区域即接近谱的谷底处,则相差比较大;在浊音清音对比中,可以发现,对呈现谐波特征的浊音语音谱来说这个特点很明显,就是在谐波成分处LPC谱匹配信号谱的效果要远比谐波之间好得多;在实验中,当P值增加到一定程度,预测平方误差的改善就不很明显了,而且会增加计算量,一般取为8~14,这里P取为10;5.基音周期估计①自互相关函数法②短时平均幅度差法③倒谱分析法共偏移92+32=124个偏移点16000/124=可以发现,上面三种方法计算得到的基音周期基本相同;。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验十:随机信号分析应用在语音信号分析中
——音频信号时域特征和频域特征分析【实验目的】
⑴ 了解随机信号分析的应用领域。
⑵ 了解如何利用随机信号分析相关知识点对语音信号进行分析。
【实验原理】
我们在这里主要研究语音信号检索的部分内容。
在语音信号研究中,一般对音频信号需要进行三方面的研究:
1)音频信号的产生,这方面的研究集中在为音频信号建立产生模型,通过产生模型提取音频特征。
2)音频的传播,音频信号如何通过另外介质传播到人的耳朵里。
3)音频的接收,音频信号如何被人所感知。
在这里,我们只涉及到音频信号的产生,而其它方面不涉及。
音频是一种重要媒体。
人耳能够听到的音频频率范围是60Hz-
20KHz,其中语音大约分布在300Hz-4KHz之内。
人耳听到的音频是连续模拟信号,而计算机只能处理数字化信息。
所以要将连续音频信号数字化后才能在计算机上进行处理。
音频信号数字化时的采样频率必须高于信号带宽的2倍才能正确恢复信号。
在音频处理中,一般假定音频信号特性在很短时间区间内变化是很缓慢的,所以在这个变化区间内所提取的音频特征保持稳定。
这样,对音频信号处理的一个基本概念就是将离散的音频信号分成一定长度单位进行处理,将离散的音频采样点分成一个个音频帧,也就是音频信
号“短时”处理方法。
一般一个“短时”音频帧持续时间长度约为几个到几十个微妙。
可以从音频信号中提取三类基本特征:时域特征、频域特征和时频特征。
1 时域特征提取
连续音频信号x经过采样后,得到k个采样点x(n)(1≤n≤k)。
在音
频时域提取中,认为每个采样点x(n)(1≤n≤k)包含了这一时刻音频信号的所有信息,所以可以直接从x(n)(1≤n≤k)提取信息。
可以提取的信息有:短时平均能量、过零率、线性预测系数。
对于采样得到的x(n)(1≤n≤k)音频信号,考虑到信号在段时间内的连贯性,首先把音频信号的K个采样点分割成前后迭代的音频帧,相邻帧之间的迭加率一般为30%-50%,音频处理中的“短时帧”均是这样得到的。
① 短时平均能量
短时平均能量指在一个短时音频帧内采样点所聚集的能量。
它能够方便的表示整个时间段内幅度的变化。
其定义如下:
短时平均能量特征可以直接应用到有声/静音检测中,短时平均能量某一短时帧平均能量低于一个事先设定的阀值,则短时帧为静音,否则为非静音。
如果静音的短时祯数超过了一定比例,则将这个例子判为静音音频例子。
2 过零率
过零率指在一个短时帧内,离散采样信号值由正到负和由负到正变化的次数。
它可以有效的刻画不同的音频信号。
其定义如下:
其中,
对于语音信号,辅音信号过零率低,而元音信号的过零率高。
语音信号开始和结束都大量集中了辅音信号,所以在语言信号中,开始和结束部分得过零率会有明显身高,所以利用过零率可以判断语音是否开始和结束。
3 频率中心(FC):它是量度声音亮度的指标。
即:
,其中是f t(n)的Fourier变换,,STE是短时平均能量。
一般的,一段音乐的频率中心变化比较单一,语音的频率中心会出现连续的变化。
4 带宽(BW):它是衡量频率范围的指标。
其定义为:
,一般地,语音的带宽范围在300Hz~3.4Hz左右,而音乐的带宽范围比较宽,可以在22.05KHz左右。
5 子带能量(ERSB):考虑到人耳的听觉特征,将频域划分为四个
子带区间(Sb(i)(i=0,1,2,3),并计算个子带能量。
子带
能量比定义为:各子带能量与频域总能量的比值。
计算子带能
量的均值和方差。
⑤ 线性预测系数
如果用有限个参数的数学模型来线性近似表示音频序列x(n)
(1≤n≤K),这些参数就成为x(n)的重要特征,叫做线性预测系数。
记模拟音频信号x(n)(1≤n≤K)的数学模型x’(n),则
其中,x(n-k)为语音采样信号,为模型参数(又称线性预测系数),p为模型阶数。
在计算模型系数时,采用如下最小均方误差解法,定义音频短时帧的平均预测误差为:
其中,,令,k=1,2……,p,就可以得到一组线性方程组,解之即可得出最佳的模型参数。
㈡ 频域特征提取
频域是把原始信号先进行傅立叶变换,将原始信号转换到频域,然后再频域上提取特征。
1 平均功率与功率谱特征
2 LPC倒谱和Mel系数
LPC倒谱系数(LPC):用有限个参数模型来线性近似表示音频序
列x(n),这些参数就成为x(n)的重要特征,叫做线性预测系数(LPC系数)。
LPC倒谱系数的提取过程为:首先用数字滤波器对音频帧所包含的采样点进行预加重处理,对预加重处理后的音频帧内信号加窗口函数,然后对它进行自相关分析,把这个结果施以p阶线性预测计算,得到长度为p的序列x p,就是音频帧的LPC派生倒谱系数;可以对所得到的LPC派生倒谱系数进行加权处理(如进行Delta加权就得到Delta倒谱系
数)。
它可用于区分语音和非语音信号。
LPC倒谱特征是从每个短时音频帧中提取出来的,主要反映的是音频在很短时刻内的静态特征。
文中采用4阶LPC倒谱系数。
Mel频率倒谱系数(MFCC):是建立在傅立叶和倒谱分析基础上的。
对短时音频帧上的采样点进行Fourier变换,得到这个短时音频帧在每个频率上的能量。
将整个频率分成n个就构成了MFCC(也叫Mel系数)。
如果对提取出来的Mel系数再计算其对应的倒谱系数,就是Mel倒谱系数。
它广泛的应用于各种语音处理和识别领域中。
本文用这种特征将语音从其它类型的音频中区分开来。
从而可以进一步的区分男声和女声。
【实验步骤】
1 先下载一秒钟篮球或足球的说话声和欢呼声混合的视频片段,
用“全能音频转换通.exe”软件,将音频信号检测出来。
2 提取每个叠加音频帧的特征。
首先对一秒钟音频数据进行加窗
处理形成帧,加窗大小在几到凡十微秒,相邻帧之间一般有
30%-50%的叠加。
然后对每一帧作离散傅立叶变换(DFT),实
际上常用快速傅立叶变换(FFT ),得到傅立叶系数F(w)和频域
能量。
3 对每个短时帧进行时域特征值提取和频域特征提取。
时域特
征:包括短时平均能量 、过零率和频率中心、带宽、子带能
量和线性预测系数。
频域特征包括平均功率与功率普特征、
LPC倒谱和Mel系数。
4 将提取的特征值用图形的方式表示出来。
5 比较每个短时帧的特征值,观察其特点,能否粗劣的区分出那
一段是说话声那一段是欢呼声(当然也可以用隐马尔可夫链或
其它方法来识别,我们在这里不涉及这些算法)。
6 上述程序设计使用matlab语言来实现。
【实验结果】
实验完成之后,提交一份实验总结报告。
总结报告的内容为:实验目的、实验的内容、实验中遇到的问题及解决方法、结论(阐述实验对你在学习中的帮助和作用,说明存在的问题和不足,理解音频信号的特征)。