基于自相关法的语音基音周期估计
语音信号处理15.ppt

基音周期估值在语音信号处理应用中具有十分 重要的作用。本节介绍语音信号基音周期估值 最基本的两种方法:
基于短时自相关法的基音周期估值 基于短时平均幅度差函数法的基音周期 估值
1
3.6 基音周期估值
1. 基于短时自相关法的基音周期估值
语音的浊音信号具有准周期性,其自相关函 数在基音周期的整数倍处取最大值。计算两相邻 最大峰值间的距离,就可以估计出基音周期。
因此,可以通过计算短时平均幅度差函数中两相邻
谷值间的距离来进行基音周期估值。
这里使用修正的短时平均幅度差函数并加矩形窗,
得到:
N 1
rn (k) | x(n) x(n k) |, k 0,1, , N -1 (3.6-3)
n0
10
3.6 基音周期估值
图3.6-7 浊音信号的AMDF
11
3.6 基音周期估值
AMDF函数与短时自相关函数的不同是:
自相关函数进行基音周期估计时寻找的是最大峰值点的位置 AMDF寻找的是它的最小谷值点的位置
由于清音没有周期性,所以它的自相关函数和平均幅度差 函数均不具有准周期性的峰值或谷值。
12
基音周期估值的后处理
在提取基音时,无论采用哪种方法提取的基音频率 轨迹与真实的基音频率轨迹都不可能完全吻合。
图3.6-3 中心削波前后修正自相关函电平削波 为了克服短时自相关函数计算量大的问题,在中
心削波法的基础上,还可以采用三电平削波法,削波 函数如下式
1 f (x) 0
1
x xL xL x xL x xL
(3.6-2)
f(x)
1
-xL
O xL
x
-1
图3.6-4 三电平削波函数
语音基音周期精确测量方法研究

—
期测 量 的影 响 , 高基 音周期 测量 的准 确率 。 提 该算 法 适 用于基 音分 离 ,对 于语音合 成 和语 音合成 工作 具
有 指导 意义 。
参 考 文献
[] 1黄煜 , 陈克安 , 郑文. 声样本质量及其在声 品质评价 中的应用 ll J 电 _ 声技术. 0 8 3 ( :0 4 . 20 ,23)4 — 3 f1 飞 , 2李 覃爱娜 , 赖旭 芝. 过渡音 的基 音周期检测方 法. 中南大 学学
上 扬趋 势 , 与图 2共振 峰 图走 势 一致 。
7 6 5 4 3 2 l O
一 一 叵 繇
4 结 语
本文基于短时 自 相关算法 ,根据语音信号共振
峰 频谱 图 的特点 , 对语 音信 号进 行低 通滤 波 预处理 ,
【1 3 陈小利 , 徐金甫. 基于小波变换和时域波形 的基音检测算[ ]现代 J. 电子技术 , 0 1 3 (1 :7 9 2 1 , 4 ) 7 —7 . [] 4 郑继 明, 王劲松. 语音基音周期检测方法ll J 计算机丁程. 0 0 3 ( _ 2 1 ,6
…
…
…
…
…
…
…
。
蕊
语 音 音周 期 精确 测量 方法 研 究 旧 日基
沈 阳 南 京 邮电大 学硕 士研 究 生 王 曾泉 南 京 邮电大 学硕 士研 究 生
摘要 : 文章 对短 时 自相 关测语 音基 音周期 的方法
进行 改进 ,提 出一种精 确的基音周期 测量方法 。 根据 语音共 振峰 的特点 , 滤除 高频分 量 , 降低 语 音 短 时周 期 性 对 基 音 周期 测量 的影 响 。
语音信号的自相关基音周期检测

语音信号的自相关基音周期检测语音信号是一种人类最基本的交流方式,它包含人声的频率、强度和时间三个方面的信息。
语音信号的自相关和基音周期是语音信号分析中的重要技术,对于语音信号分析、识别、合成等应用有着积极的作用。
一、语音信号的自相关语音信号的自相关是指语音信号的样本与样本之间的相关性。
在语音信号中,相邻的样本之间一般都具有相关性,该相关性可以通过计算信号的自相关函数获得。
自相关函数描述了语音信号在不同延迟情况下的相似程度,也就是说,自相关函数可以反映语音信号的周期特征和基音周期。
二、语音信号的基音周期检测语音信号的基音周期是指人语中相邻两个基音周期之间的时间长度。
基音周期检测是一项关键的语音信号分析技术,在音素识别、语音合成、语音编码等领域应用广泛。
基音周期检测方法主要有三种:自相关法、FFT法和LP法。
自相关法是指通过计算信号与自身在不同延迟下的相似度,判断语音信号的基音周期。
具体来说,自相关法首先将语音信号进行预加重和分帧处理,然后计算每一帧的自相关函数,最后采用模板匹配的方法找到最强的周期峰值,从而得到基音周期。
FFT法则是将分帧后的语音信号进行傅里叶变换,提取频谱信息,并通过在频域滑动一个窗口,检测周期性的能量最大值,确定基音周期数。
LP法是通过线性预测,将语音信号分解成具有不同频率的谐波分量,然后利用实验数据验证模型,得到基音周期。
总的来说,不同的基音周期检测方法有其各自的优缺点。
自相关法较为简单但在噪声环境下准确度不高,FFT法可以检测到非周期性的基音,但精度不如自相关法,LP法精度较高但计算复杂度较大。
作为一门复杂的反演问题,语音信号的自相关和基音周期检测一直是语音处理研究中的重要问题,目前的研究主要集中在解决语音信号分析和识别中的实际问题和应用,为提高语音合成、语音编码等方面的应用水平提供技术支持。
基音周期预测

专业班级组别成员实验内容:编程求解出各自声音信号的基音周期。
1 程序代码(或者软件流程图等)(1)function zhouqi=jiyinzhouqi(filename)%帧长和帧位移是重要的参数,位移是帧长的0~1/2%短时自相关分析%filename语音文件*.wav%zhouqi基音周期,以毫秒为单位表示[signal,fs]=wavread(filename); %用于得到声音文件的数据和采样率shift=0.02; %每次移动20毫秒shift=round(fs*shift); %帧移n1=fix(fs*0.01)+1; %分析起点0.01ms,帧长20msn2=fix(fs*0.03)+1;shift_count=fix((length(signal)-n1)/shift);value =zeros(1,shift_count); %存放每次移位后的帧的基音周期for ii=1:shift_count %分析次数if n2<length(signal) %防止溢出data=signal(n1:n2); %加窗,提取一帧数据N=n2-n1+1; %每一帧的长度R=zeros(1,N); %创建一个一行N列的矩阵for k=1:N-1 %求自相关序列for jj=1:N-kR(k)=R(k)+data(jj)*data(jj+k); %矩阵用于储存每次自相关的结果; endendvalue(ii)=find_maxn(R); %调用基音周期分析函数,求最大值所对应的位置,即基音周期n1=n1+shift; %移动帧,计算下一帧的基音周期n2=n2+shift;endendfigure(1)stem(value); %画出基因周期走势图axis([0 length(value) 0 1000])aver=mean(value); %基音周期的平均值,未去除野点value=value(logical(abs(value-aver)<=aver/5));%找出偏移均值超出均值的1/5的基音周期,将其去除len= length(value); %去除大野点后剩余的基音点数for jj=1:3:len/3 %中值平滑,滑动窗口宽度3,精度为中值1/4(剔除野点)average=(value(jj)+value(jj+1)+value(jj+2))/3;for kk=1:3if abs((value(jj-1+kk))-average)>average/4value(jj-1+kk)=0; %将野点置零,同时数组长度减一endendendvalue=value(( value~=0)); %出去所有野点后的基音周期数组len= length(value); %去除野点以后的基音点数figure(2)stem(value);axis([0 length(value) 0 max(value)])zhouqi=1000*sum(value)/len/fs; %求平均的基音周期,单位是毫秒(2) function nmax=find_maxn(r) %寻找峰值最大的n值及基音周期%r,自相关序列%maxn,为峰值最大的nzer=find(r==0); %找第一个零点如果存在jiaocha=0; %找第一近零点ii=1;while (jiaocha<=0)if(r(ii)>0 && r(ii+1)<0 && (ii+1)<length(r))jiaocha=ii;endii=ii+1;if ii==length(r) %没有找到符合要求的点jiaocha=1;endendif length(zer)>0 %检查是否存在零点if zer(1)<jiaocha %存在,则和jiaocha比较大小,用于祛除前点的对基音周期的查找带来的影响jiaocha=zer(1);endendr(1:jiaocha)=0; %祛除影响maxn=max(r); %找最大值temp=find(r==maxn); %返回第一个最大值nmax=temp(1);(3) function zhouqi=get_frq_frame(filename)%帧长和帧位移是重要的参数,位移是帧长的0~1/2%短时自相关分析%filename语音文件*.wav%zhouqi基音周期,以毫秒为单位表示[signal,fs]=wavread(filename);%用于得到声音文件的数据和采样率shift=0.02; %每次移动20毫秒shift=round(fs*shift); %帧移n1=fix(fs*0.01)+1; %分析起点0.01ms,帧长20msn2=fix(fs*0.03)+1;shift_count=fix((length(signal)-n1)/shift);value = zeros(1,shift_count); %存放每次移位后的帧的基音周期zhouqi = zeros(1,shift_count); %存放每次移位后的帧的基音周期for ii=1:shift_count %分析次数if n2<length(signal) %防止溢出data=signal(n1:n2); %加窗,提取一帧数据N=n2-n1+1; %每一帧的长度R=zeros(1,N);for k=1:N-1 %求自相关序列for jj=1:N-kR(k)=R(k)+data(jj)*data(jj+k);endendvalue(ii)=find_maxn(R); %调用基音周期分析函数,求最大值所对应的位置,即基音周期n1=n1+shift; %移动帧,计算下一帧的基音周期n2=n2+shift;zhouqi(ii) = 8000/value(ii);endendfor ii=1:length(zhouqi)if zhouqi(ii)==0zhouqi(ii) = [];endendplot(zhouqi);2 程序使用说明(1) function zhouqi=jiyinzhouqi(filename)① 函数基音周期是计算所采样的声音的平均基音周期的函数,函数使用加窗计算自相关函数的办法,通过帧移得到不同位置加窗信号的相关性,然后用矩阵R储存相对应的n2-n1+1个自相关值。
基于短时自相关函数的基因周期检测讲解PPT

什么是共振峰
• 共振峰是指在声音的频谱中能量相对集中的一 些区域,共振峰不但是音质的决定因素,而且 反映了声道(共振腔)的物理特征。 • 声音在经过共振腔时,受到腔体的滤波作用, 使得频域中不同频率的能量重新分配,一部分 因为共振腔的共振作用得到强化,另一部分则 受到衰减。由于能量分布不均匀,强的部分犹 如山峰一般,故而称之为共振峰。
matlab函数 y = medfilt1(x,n) x为输入序列;k为窗长,即套住的样点数,一般取3或5。y是中值滤波后 的输出序列。 设有一个一维序列f1,f2,…,fn,取窗口长度(点数)为m(m为奇数), 对其进行中值滤波,就是从输入序列中相继抽出m个数fi-v,…,fi1,fi,fi+1,…,fi+v(其中fi为窗口中心值,v=(m-1)/2),再将这m个点按其数值大小 顺序排序,取其序号的中心点的那个数作为滤波输出。数学公式表示为: Yi=Med{fi-v,…,fi-1,fi,fi+1,…,fi+v} i∈N v=(m-1)/2 ;Yi称为序列fi-v,…,fi1,fi,fi+1,…,fi+v的中值
• 目前,基音检测的算法有很多种,常用的 检测算法有自相关法、平均幅度差函数法、 并行处理法、倒谱法、简化逆滤波法等。
• 本次基音周期的检测,我们选用的是短时 自相关函数法,包括四个模块。 • 第一个模块为基音的端点检测,主要为了 区分浊音和清音。第二个模块为基音检测 中的带通滤波器,主要为了减少共振峰的 干扰。第三个模块为短时自相关函数法做 基音检测,主要为了计算出基音周期。第 四个模块为平滑处理,主要为了消除偏离 值点。
代码理解
• Ellipord函数的功能是求滤波器的最小阶数, 其调用格式 为 [n,Wn] = ellipord(Wp,Ws,Rp,Rs,’s’) • 其中各参量分别为:n-椭圆滤波器最小阶数; Wp-椭圆滤波器通带;Ws-椭圆滤波器阻带; Rp-通带波纹(dB);Rs-阻带衰减(dB); • Ellip函数的功能是用来设计椭圆滤波器,其 调用格式: • [b,a] = ellip(n,Rp,Rs,Wp)
《语音信号处理》实验2-基音周期估计

华南理工大学《语音信号处理》实验报告实验名称:基音周期估计姓名:学号:班级:10级电信5班日期:2013年5 月15日1.实验目的本次试验的目的是通过matlab编程,验证课本中基音周期估计的方法,本实验采用的方法是自相关法。
2. 实验原理1、基音周期基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。
基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。
因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。
由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。
基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。
②声道共振峰有时会严重影响激励信号的谐波结构,所以,从语音信号中直接取出仅和声带振动有关的激励信号的信息并不容易。
③语音信号本身是准周期性的(即音调是有变化的),而且其波形的峰值点或过零点受共振峰的结构、噪声等的影响。
④基音周期变化范围大,从老年男性的50Hz到儿童和女性的450Hz,接近三个倍频程,给基音检测带来了一定的困难。
由于这些困难,所以迄今为止尚未找到一个完善的方法可以对于各类人群(包括男、女、儿童及不向语种)、各类应用领域和各种环境条件情况下都能获得满意的检测结果。
尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT、谱图法、小波法等等。
基于自相关函数法的语音基音周期的检测

基于自相关函数法的语音基音周期的检测
方臻成
【期刊名称】《科学与财富》
【年(卷),期】2014(000)009
【摘要】语音的基音周期是指人说话时声带振动的周期,它是语音信号的一个重
要参数,广泛运用在语音识别、说话人识别、发音系统诊断、语言指导等多个领域。
因此,准确的提取语音信号的基音周期显得尤为重要。
本文针对基音周期检测,介绍了一种较为简单的方法---自相关函数法。
【总页数】1页(P203-203)
【作者】方臻成
【作者单位】华南理工大学电子与信息学院,广州市,510641
【正文语种】中文
【相关文献】
1.基于改进小波变换的语音基音周期检测 [J], 吴兴铨;周金治
2.一种基于线性预测与自相关函数法的语音基音周期检测新算法 [J], 柏静;韦岗
3.基于LPC的藏语语音基音周期的检测分析 [J], 马英;陈超;贾国庆
4.基于自相关函数的藏语语音基音周期检测 [J], 李积逊;余玲梅
5.基于倒谱分析法的藏语语音基音周期检测 [J], 李积逊;范武英
因版权原因,仅展示原文概要,查看原文内容请购买。
基于自相关法的语音基音周期估计

综合实验报告自相关法及其变种学院电子与信息学院专业信息与信号处理学生姓名学生学号提交日期2013年7月10日一、实验目标1.1 了解语音基音周期估计方法,掌握自相关法估计基音周期的原理,分析其变种。
二、实验基础知识2.1 基音与基音周期估计人在发音时,根据声带是否震动可以将语音信号分为清音跟浊音两种。
浊音又称有声语言,携带者语言中大部分的能量,浊音在时域上呈现出明显的周期性;而清音类似于白噪声,没有明显的周期性。
发浊音时,气流通过声门使声带产生张弛震荡式振动,产生准周期的激励脉冲串。
这种声带振动的频率称为基音频率,相应的周期就成为基音周期。
基音周期的估计称谓基音检测,基音检测的最终目的是为了找出和声带振动频率完全一致或尽可能相吻合的轨迹曲线。
基因周期作为语音信号处理中描述激励源的重要参数之一,在语音合成、语音压缩编码、语音识别和说话人确认等领域都有着广泛而重要的问题,尤其对汉语更是如此。
汉语是一种有调语言,而基因周期的变化称为声调,声调对于汉语语音的理解极为重要。
因为在汉语的相互交谈中,不但要凭借不同的元音、辅音来辨别这些字词的意义,还需要从不同的声调来区别它,也就是说声调具有辨义作用;另外,汉语中存在着多音字现象,同一个字的不同的语气或不同的词义下具有不同的声调。
因此准确可靠地进行基音检测对汉语语音信号的处理显得尤为重要。
2.2 基音周期估计的现有方法到目前为止,基音检测的方法大致上可以分为三类:1)时域估计法,直接由语音波形来估计基音周期,常见的有:自相关法、并行处理法、平均幅度差法、数据减少法等;2)变换法,它是一种将语音信号变换到频域或者时域来估计基音周期的方法,首先利用同态分析方法将声道的影响消除,得到属于激励部分的信息,然后求取基音周期,最常用的就是倒谱法,这种方法的缺点就是算法比较复杂,但是基音估计的效果却很好;3)混合法,先提取信号声道模型参数,然后利用它对信号进行滤波,得到音源序列,最后再利用自相关法或者平均幅度差法求得基因音周期。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
综合实验报告
自相关法及其变种
学院电子与信息学院专业信息与信号处理学生
学生学号
提交日期2013年7月10日
一、实验目标
1.1 了解语音基音周期估计方法,掌握自相关法估计基音周期的原理,分析其变种。
二、实验基础知识
2.1 基音与基音周期估计
人在发音时,根据声带是否震动可以将语音信号分为清音跟浊音两种。
浊音又称有声语言,携带者语言部分的能量,浊音在时域上呈现出明显的周期性;而清音类似于白噪声,没有明显的周期性。
发浊音时,气流通过声门使声带产生弛震荡式振动,产生准周期的激励脉冲串。
这种声带振动的频率称为基音频率,相应的周期就成为基音周期。
基音周期的估计称谓基音检测,基音检测的最终目的是为了找出和声带振动频率完全一致或尽可能相吻合的轨迹曲线。
基因周期作为语音信号处理中描述激励源的重要参数之一,在语音合成、语音压缩编码、语音识别和说话人确认等领域都有着广泛而重要的问题,尤其对汉语更是如此。
汉语是一种有调语言,而基因周期的变化称为声调,声调对于汉语语音的理解极为重要。
因为在汉语的相互交谈中,不但要凭借不同的元音、辅音来辨别这些字词的意义,还需要从不同的声调来区别它,也就是说声调具有辨义作用;另外,汉语中存在着多音字现象,同一个字的不同的语气或不同的词义下具有不同的声调。
因此准确可靠地进行基音检测对汉语语音信号的处理显得尤为重要。
2.2 基音周期估计的现有方法
到目前为止,基音检测的方法大致上可以分为三类:
1)时域估计法,直接由语音波形来估计基音周期,常见的有:自相关法、并行处理法、平均幅度差法、数据减少法等;
2)变换法,它是一种将语音信号变换到频域或者时域来估计基音周期的方法,首先利用同态分析方法将声道的影响消除,得到属于激励部分的信息,然后求取基音周期,最常用的就是倒谱法,这种方法的缺点就是算法比较复杂,但是基音估计的效果却很好;
3)混合法,先提取信号声道模型参数,然后利用它对信号进行滤波,得到音源序列,最后再利用自相关法或者平均幅度差法求得基因音周期。
三、实验原理
3.1 自相关函数
能量有限的语音信号x(n)的短时自相关函数定义为:
此公式表示一个信号和延迟m 点后该信号本身的相似性。
如果信号x(n)具有周期性,那么它的自相关函数也具有周期性,而且周期与信号x(n)的周期性相同。
自相关函数提供了一种获取周期信号周期的方法。
在周期信号周期的整数倍上,它的自相关函数可以达到最大()()()n n R m x n x n m =+∞=-∞
=+∑
值,因此可以不考虑起始时间,而从自相关函数的第一个最大值的位置估计出信号的基音周期,这使自相关函数成为信号基音周期估计的一种工具。
3.2 短时自相关函数法
语音信号是非稳态信号它的特征是随时间变化的,但在一个很短的时间段可以认为具有相对稳定的特征即 短时平稳性。
因此语音具有短时自相关性。
这个时间段约5ms-50ms 。
为其统计特性和频谱特性都是对短时段而言的。
这使得要对语音信号作数字处理必须先按短时段对语音信号分帧。
这样每一帧信号都具有短时平稳性从而进行短时相关分析。
能量有限的语音信号s(n)的短时自相关函数定义为:
一般要求一帧至少包含2个以上的周期。
而且相邻帧之间要有足够的重叠。
3.3 自相关方法变种
3.3.1 中心削波
由于语音信号与声道特性影响有关,有的情况下即使窗长已选得足够长,第一最大峰值点与基音仍不一致,这就是声道特性的共振峰特性造成的“干扰”。
实际上影响从自相关函数中正确提取基音周期的最主要的因素就是声道响应部分。
当基音的周期性和共振峰的周期性混叠在一起时,被检测出来的峰值就会偏离原来峰值的真实位置。
另外,某些浊音中,第一共振峰频率可能会等于或低于基音频率。
此时,如果其幅度很高,它就可能在自相关函数中产生一个峰值,而该峰值又可以同基音频率的峰值相比拟,从而给基音检测带来误差。
为了提高基音周期检测的可靠性,采用中心削波法对原始信号进行预处理。
其中削波电平 C L 一般取最大信号幅度的 60%~70%。
图1给出了中心削波处理后的结果。
中心削波后,再用自相关检测出基音频率,错判为倍频或分频的情况就可以大大减少了。
中心削波法实质上是对信号做非线性处理,它消除语音信号的低幅值部分,而保留高振幅的峰值,从而能有利于信号的基音周期估计。
10()[()()][()()]N n m R s n m w m s n m w m τ
τττ--==
++++∑
图1 中心削波处理
经过中心削波后的信号,削去了大部分与声道响应有关的波动,只保留了超过削波电平的部分。
对中心削波后的语音信号计算自相关函数,这样在基音周期位置呈现大而尖的峰值,而其余的次要峰值幅度都很小。
3.3.2 三电平削波
由自相关函数表达式可知,自相关需要大量的乘法运算,算法的运行效率低。
结合自相关函数法和中心削波法对信号做基音周期估计,并在不影响基音周期估计准确性的前提下,用两个信号的互相关序列代替自相关序列而避免了大量的乘法运算,有效地提高了算法的运行效率。
图2 显示的是经过三电平削波后的信号。
图2 经过三电平削波后的信号
显然x(n)只有-1,0,1 三种可能的取值。
自相关中的乘法运算都变成了加减运算,使得算法的效率得到大幅度的提高。
3.3.3 基于时域自相关平方函数
原始输入的语音信号经过三电平削波后的信号
第一峰值点的位置非常重要,峰值越尖锐则确定的位置就越准确。
求短时自相关函数的平方:
它们周期一致,但平方后在峰值处波形尖锐尤为明显。
图3示为某女性发元音[a]的波形/短时自相关函数及短时自相关平方函数波形.
图3 某女性发元音[a]的波形/短时自相关函数及短时自相关平方函数波形
3.4 短时能量分析
语音信号{x(n)}的某帧信号的短时平均能量En的定义为:
式中,w(n)为窗函数,N为窗长,h(n)= w2(n),则有
由上式表明,短时平均能量En相当于将语音信号的平方通过一个单位冲激响应为h(n)的线性滤波器的输出。
实验统计发现,语音中浊音段的短时平均能量远远大于清音段的短时
平均能量。
因此,短时平均能量的计算给出了区分清音段与浊音段的依据,即En(浊)>En(清)。
根据E由高到低的跳变可定出浊音变为清音语音的时刻,E由低向高的跳变可定出清音变为浊音语音的时刻,又由于只有浊音才有基音周期,清音的基音周期为零,这样就可判别出清、浊音。
图4 男声“确定”的语音波形及其局部短时能量
四、结果与分析
检测流程如下:我们先通过Matlab实现,然后再通过C++实现。
图5 基于自相关函数的基因周期检测流程
实验采用一段男声读“播放”两个字的声音wav文件,其为16KHz采样率,16bit量化。
整段语音长656.7ms,节点共10508个。
图6 男声读“播放”两个字的声音文件
4.1 滤波
将滤波器低端截止频率设为60Hz,这是因为可以抑制50Hz电源工频的干扰;高端截止频率设为900Hz既可除去大部分共振峰影响,又可以当基音最高频率为450Hz时仍能保留其一二次谐波。
图7 经过滤波器后的语音信号
4.2 不同帧长
窗口长度至少要大于基音周期的两倍。
一般,基频最低50Hz,故周期最长为20ms,再根据采样率确定帧长。
图8 截取不同帧长的语音信号
4.3 清浊音区分
这里我们通过计算短时能量来区分清浊音,结果如图9所示。
图9 清、浊音短时能量图
4.4 平滑
去除野点。
图10 平滑后的结果
五、总结
通过本次课程实验设计,我们从中学习了语音信号处理的一些基本知识,了解了基音周期的相关概念和现有的基因周期估计方法,重点掌握了自相关法估计基音周期的原理以及其变种。
尤其是在基因周期估计后,利用平滑处理的方法对实验结果中存在的“野点”进行处理,是在以后的学习中应特别注意的地方。
本次实验设计得益于贺老师课堂耐心细致的授课辅导和助理师兄何伟俊的悉心帮助以及邹晓艺同学的热心帮助,在此表示特别感!。