语音信号时域特征参数提取

语音信号时域特征参数提取
语音信号时域特征参数提取

学院:信电学院班级:电信102 姓名:徐景广学号:2010081261

课程:专业综合实验实验日期:2014年1 月 3 日成绩:

实验二、语音信号时域特征参数提取

一、实验目的

1.掌握利用matlab程序进行语音信号的录制与回放。

2.理解语音信号的时域特征参数的概念,如短时能量、短时过零率等。

3.掌握matlab的开发环境。

4.掌握对语音信号进行时域特征参数提取的方法。

二、实验原理

本实验要求掌握时域特征分析原理,并利用已学知识,编写程序求解语音信号的短时过零率、短时能量、短时自相关特征,分析实验结果。

1.窗口的选择

通过对发声机理的认识,语音信号可以认为是短时平稳的。在5~50ms的范围内,语音频谱特性和一些物理特性参数基本保持不变。我们将每个短时的语音称为一个分析帧。一般帧长取10~30ms。我们采用一个长度有限的窗函数来截取语音信号形成分析帧。通常会采用矩形窗和汉明窗。图1.1给出了这两种窗函数在帧长N=50时的时域波形。

学院: 信电学院 班级:电信102 姓名: 徐景广 学号: 2010081261 课程:专业综合实验 实验日期:2014年 1 月 3 日 成绩:

0.2

0.40.60.811.2

1.41.61.82矩形窗

sample

w (n )

0.1

0.20.30.40.50.6

0.70.80.91hanming 窗

sample

w (n )

图1.1 矩形窗和Hamming 窗的时域波形

矩形窗的定义:一个N 点的矩形窗函数定义为如下

{1,00,()n N

w n ≤<=其他

hamming 窗的定义:一个N 点的hamming 窗函数定义为如下

0.540.46cos(2),010,()n n N

N w n π-≤<-???

其他

=

这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性可以发现(如图1.2):矩形窗的主瓣宽度小(4*pi/N ),具有较高的频率分辨率,旁瓣峰值大(-13.3dB ),会导致泄漏现象;汉明窗的主瓣宽8*pi/N ,旁瓣峰值低(-42.7dB ),可以有效的克服泄漏现象,具有更平滑的低通特性。因此在语音频谱分析时常使用汉明窗,在计算短时能量和平均幅度时通常用矩形窗。表1.1对比了这两种窗函数的主瓣宽度和旁瓣峰值。

学院: 信电学院 班级:电信102 姓名: 徐景广 学号: 2010081261 课程:专业综合实验 实验日期:2014年 1 月 3 日 成绩:

00.10.20.3

0.40.50.60.70.80.91

-80

-60-40-20

0矩形窗频率响应

归一化频率(f/fs)幅度/d B

00.10.20.3

0.40.50.60.70.80.91

-100

-50

Hamming 窗频率响应

归一化频率(f/fs)

幅度/d B

表1.1 矩形窗和hamming 窗的主瓣宽度和旁瓣峰值

2.短时能量

由于语音信号的能量随时间变化,清音和浊音之间的能量差别相当显著。因此对语音的短时能量进行分析,可以描述语音的这种特征变化情况。定义短时能量为:

2

2

1

[()()]

[()()]n

n m m n N E x m w n m x m w n m ∞

=-∞

=-+=

-=

-∑∑

,其中N 为窗长

特殊地,当采用矩形窗时,可简化为:

2

()

n m E x

m ∞

=-∞

=

∑-==1

2

)

(N m n n m x E

学院: 信电学院 班级:电信102 姓名: 徐景广 学号: 2010081261 课程:专业综合实验 实验日期:2014年 1 月 3 日 成绩:

图1.3和图1.4给出了不同矩形窗和hamming 窗长的短时能量函数,我们发现:在用短时能量反映语音信号的幅度变化时,不同的窗函数以及相应窗的长短均有影响。hamming 窗的效果比矩形窗略好。但是,窗的长短影响起决定性作用。窗过大(N 很大),等效于很窄的低通滤波器,不能反映幅度En 的变化;窗过小( N 很小),短时能量随时间急剧变化,不能得到平滑的能量函数。在11.025kHz 左右的采样频率下,N 选为100~200比较合适。

短时能量函数的应用:1)可用于区分清音段与浊音段。En 值大对应于浊音段,En 值小对应于清音段。2)可用于区分浊音变为清音或清音变为浊音的时间(根据En 值的变化趋势)。3)对高信噪比的语音信号,也可以用来区分有无语音(语音信号的开始点或终止点)。无信号(或仅有噪声能量)时,En 值很小,有语音信号时,能量显著增大。

sampl e

采样幅度

sampl e

短时能量

sampl e

短时能量

sampl e

短时能量

sampl e

短时能量

sampl e

短时能量

sample

采样幅度

sample

短时能量

sample

短时能量

sample

短时能量

sample

短时能量

sample

短时能量

3.短时平均过零率

过零率可以反映信号的频谱特性。当离散时间信号相邻两个样点的正负号相异时,我们称之为“过零”,即此时信号的时间波形穿过了零电平的横轴。统计单位时间内样点值改变符号的次数具可以得到平均过零率。定义短时平均过零率:

学院: 信电学院 班级:电信102 姓名: 徐景广 学号: 2010081261 课程:专业综合实验 实验日期:2014年 1 月 3 日 成绩:

sgn[[]sgn[(1)]()

n m Z x m x m w n m ∞

=-∞

=

---∑

其中[]sgn 为符号函数,{

0)(,10

)(,1)(sgn ≥<-=

n x n x n x ,在矩形窗条件下,可以简化为

1

1sgn[()sgn[(1)]

2n

n m n N Z x m x m N

=-+=

--∑

短时过零率可以粗略估计语音的频谱特性。由语音的产生模型可知,发浊音时,声带振动,尽管声道有多个共振峰,但由于声门波引起了频谱的高频衰落,因此浊音能量集中于3KZ 以下。而清音由于声带不振动,声道的某些部位阻塞气流产生类白噪声,多数能量集中在较高频率上。高频率对应着高过零率,低频率对应着低过零率,那么过零率与语音的清浊音就存在着对应关系。.

图1.5为某一语音在矩形窗条件下求得的短时能量和短时平均过零率。分析可知:清音的短时能量较低,过零率高,浊音的短时能量较高,过零率低。清音的过零率为0.5左右,浊音的过零率为0.1左右,但两者分布之间有相互交叠的区域,所以单纯依赖于平均过零率来准确判断清浊音是不可能的,在实际应用中往往是采用语音的多个特征参数进行综合判决。

短时平均过零率的应用:1)区别清音和浊音。例如,清音的过零率高,浊音的过零率低。此外,清音和浊音的两种过零分布都与高斯分布曲线比较吻合。2)从背景噪声中找出语音信号。语音处理领域中的一个基本问题是,如何将一串连续的语音信号进行适当的分割,以确定每个单词语音的信号,亦即找出每个单词的开始和终止位置。3)在孤立词的语音识别中,可利用能量和过零作为有话无话的鉴别。

学院: 信电学院 班级:电信102 姓名: 徐景广 学号: 2010081261 课程:专业综合实验 实验日期:2014年 1 月 3 日 成绩:

sample

采样幅度

sample

短时能量

sample

短时平均过零率

图1.5 矩形窗条件下的短时平均过零率

4、短时自相关函数

自相关函数用于衡量信号自身时间波形的相似性。清音和浊音的发声机理不同,因而在波形上也存在着较大的差异。浊音的时间波形呈现出一定的周期性,波形之间相似性较好;清音的时间波形呈现出随机噪声的特性,样点间的相似性较差。因此,我们用短时自相关函数来测定语音的相似特性。短时自相关函数定义为:

()()()()()

n m R k x m w n m x m k w n m k ∞

=-∞

=

-+--∑

令'm n m =+′

,并且'

()()w m w m -=,可以得到:

学院: 信电学院 班级:电信102 姓名: 徐景广 学号: 2010081261 课程:专业综合实验 实验日期:2014年 1 月 3 日 成绩:

1'

'

'

'

()[()()][()()][()()][()()]

N k n m m R k x n m w m x n m k w m k x n m w m x n m k w m k ∞

--=-∞

==

++++=++++∑∑

图6给出了清音的短时自相关函数波形,图7给出了不同矩形窗长条件下(窗长分别为N=70,N=140,N=210,N=280)浊音的短时自相关函数波形。由图1.6、图1.7短时自相关函数波形分析可知:清音接近于随机噪声,清音的短时自相关函数不具有周期性,也没有明显突起的峰值,且随着延时k 的增大迅速减小;浊音是周期信号,浊音的短时自相关函数呈现明显的周期性,自相关函数的周期就是浊音信号的周期,根据这个性质可以判断一个语音信号是清音还是浊音,还可以判断浊音的基音周期。浊音语音的周期可用自相关函数中第一个峰值的位置来估算。所以在语音信号处理中,自相关函数常用来作以下两种语音信号特征的估计:

1)区分语音是清音还是浊音; 2)估计浊音语音信号的基音周期。

延时k

R (k )

图1.6 清音的短时自相关函数

学院: 信电学院 班级:电信102 姓名: 徐景广 学号: 2010081261 课程:专业综合实验 实验日期:2014年 1 月 3 日 成绩:

延时k

R (k )

延时k

R (k )

延时k

R (k )

延时k

R (k )

图1.7 不同矩形窗长条件下的浊音的短时自相关函数

三、实验仪器和设备

PC 机1台,麦克风一个,matlab 编程软件

四、实验内容及步骤

1.安装Matlab6.x 软件实验平台 (如系统已安装Matlab 6.软件 ,直接进第二步)。 2. 利用麦克风录制一段自己的语音信号。 3. 利用matlab 绘制语音信号时域波形。

4. 对语音信号进行加窗处理,并比较汉明窗与矩形窗的区别。

5. 利用matlab 提取语音信号的短时能量、短时过零率以及自相关函数。

6. 分析不同语音信号的短时能量、短时过零率以及自相关函数的不同。

7. 分析上述三种语音信号特征对语音信号分析的意义。

学院:信电学院班级:电信102 姓名:徐景广学号:2010081261 课程:专业综合实验实验日期:2014年1 月 3 日成绩:

图1为加汉明窗后的图形,图2为短时能量的图片,图3为求自相关函数,代码如下: Y=WA VREAD('XJG.WA V',[2700,3211]);

% 加汉明窗

window=hamming(32);

subplot(2,1,1);plot(Y);

for i=1:15

y(i*32:i*32+31,1:1)=Y(i*32:i*32+31,1:1).*window;

end

subplot(2,1,2);plot(y);% 求短时能量

En=0;

for k=1:15

En=conv(window,Y.*a);% 求短时能量函数En

end

figure(2)

plot(En);% 求自相关函数

N=240

R=zeros(1,240);

for k=1:240

for n=1:240-k

R(k)=R(k)+y(n)*y(n+k);

end

end

j=1:240;

figure(3)

plot(j,R);

grid;

学院:信电学院班级:电信102 姓名:徐景广学号:2010081261 课程:专业综合实验实验日期:2014年1 月 3 日成绩:

图1 加汉明窗后的波形

图2 短时能量

学院:信电学院班级:电信102 姓名:徐景广学号:2010081261 课程:专业综合实验实验日期:2014年1 月 3 日成绩:

图3 自相关函数

a=wavread('XJG.WA V ');

n=length(a);

N=320;

h=hamming(N);

for i=1:n-1

if a(i)>=0

b(i)= 1;

else

b(i) = -1;

end

学院:信电学院班级:电信102 姓名:徐景广学号:2010081261 课程:专业综合实验实验日期:2014年1 月 3 日成绩:

if a(i+1)>=0

b(i+1)=1;

else

b(i+1)= -1;

end

w(i)=abs(b(i+1)-b(i)); %求出每相邻两点符号的差值的绝对值

end

k=1;

j=0;

while (k+N-1)

Zm(k)=0;

for i=0:N-1;

Zm(k)=Zm(k)+w(k+i);

end

j=j+1;

k=k+N/2; %每次移动半个窗

end

for w=1:j

Q(w)=Zm(160*(w-1)+1)/(2*N); %短时平均过零率

end

plot(Q);grid;

学院:信电学院班级:电信102 姓名:徐景广学号:2010081261 课程:专业综合实验实验日期:2014年1 月 3 日成绩:

图4 短时平均过零率

图5为加矩形窗后的图形,图6为短时能量的图片,图7为求自相关函数,代码如下:

Y=WA VREAD('XJG.WA V',[2700,3211]);

% 加矩形窗

window=rectwin(32);

subplot(2,1,1);plot(Y);

for i=1:15

y(i*32:i*32+31,1:1)=Y(i*32:i*32+31,1:1).*window;

end

学院:信电学院班级:电信102 姓名:徐景广学号:2010081261 课程:专业综合实验实验日期:2014年1 月 3 日成绩:

subplot(2,1,2);plot(y);

% 求短时能量

En=0;

for k=1:15

En=conv(window,Y.*a);% 求短时能量函数En

end

figure(2)

plot(En);

% 求自相关函数

N=240

R=zeros(1,240);

for k=1:240

for n=1:240-k

R(k)=R(k)+y(n)*y(n+k);

end

end

j=1:240;

figure(3)

plot(j,R);

grid;

学院:信电学院班级:电信102 姓名:徐景广学号:2010081261 课程:专业综合实验实验日期:2014年1 月 3 日成绩:

图5 加矩形窗

图6 短时能量

学院:信电学院班级:电信102 姓名:徐景广学号:2010081261 课程:专业综合实验实验日期:2014年1 月 3 日成绩:

图7 求自相关函数

利用matlab提取语音信号的短时能量、短时过零率以及自相关函数

a=wavread('XJG.WA V');

n=length(a);

N=320;

h=rectwin(N);

for i=1:n-1

if a(i)>=0

b(i)= 1;

else

学院:信电学院班级:电信102 姓名:徐景广学号:2010081261 课程:专业综合实验实验日期:2014年1 月 3 日成绩:

b(i) = -1;

end

if a(i+1)>=0

b(i+1)=1;

else

b(i+1)= -1;

end

w(i)=abs(b(i+1)-b(i)); %求出每相邻两点符号的差值的绝对值

end

k=1;

j=0;

while (k+N-1)

Zm(k)=0;

for i=0:N-1;

Zm(k)=Zm(k)+w(k+i);

end

j=j+1;

k=k+N/2; %每次移动半个窗

end

for w=1:j

Q(w)=Zm(160*(w-1)+1)/(2*N); %短时平均过零率

end

plot(Q);grid;%求短时平均过零率

学院:信电学院班级:电信102 姓名:徐景广学号:2010081261 课程:专业综合实验实验日期:2014年1 月 3 日成绩:

图8 短时平均过零率

学院:信电学院班级:电信102 姓名:徐景广学号:2010081261

课程:专业综合实验实验日期:2014年1 月 3 日成绩:

五、实验总结

这次实验我获益匪浅,掌握了利用matlab程序进行语音信号的录制与回放,理解了语音信号的时域特征参数的概念,如短时能量、短时过零率等,掌握,对语音信号进行时域特征参数提取的方法。

同时感谢高诺老师以及耿淑娟老师的耐心指导。

学院:信电学院班级:电信102 姓名:徐景广学号:2010081261 课程:专业综合实验实验日期:2014年1 月 3 日成绩:

总程序

1、汉明窗的函数代码

Y=W A VREAD('XJG.W A V',[10001,10512]);

window=hamming(32);

subplot(2,1,1);plot(Y);

for i=1:15

y(i*32:i*32+31,1:1)=Y(i*32:i*32+31,1:1).*window;

end

subplot(2,1,2);plot(y);

% 求短时能量

En=0;

for k=1:15

En=conv(window,Y.*a);% 求短时能量函数En

end

figure(2)

plot(En);

% 求自相关函数

N=240

R=zeros(1,240);

for k=1:240

for n=1:240-k

R(k)=R(k)+y(n)*y(n+k);

end

end

j=1:240;

figure(3)

基于Matlab的语音信号的特征提取与分类

基于Matlab的语音信号的特征提取与分类语音信号处理是研究数字信号处理技术和语音学知识对语音信号进行处理的新兴学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。本文采用Matlab7.0综合运用GUI界面设计,各种函数调用等对语音信号进行采集、提取、变频、变幅,傅里叶变换、滤波等简单处理。程序界面简练,操作简便,具有一定的实际应用意义。 关键词:语音信号Matlab 信号处理GUI 1、语音信号的低通滤波 本文中设计了一个截止频率为200Hz切比雪夫—Ⅰ型低通滤波器,它的性能指标为:wp=0.075pi, ws=0.125pi, Rp=0.25;Rs=50dB。低通滤波器处理程序如下: [x,fs,bits]=wavread('voice.wav'); wp=0.075;ws=0.125;Rp=0.25;Rs=50; [N,Wn]=cheb1ord(wp,ws,Rp,Rs); [b,a]=cheby1(N,Rp,Wn); [b,a]=cheby1(N,Rp,Wn); X=fft(x); subplot(221);plot(x);title('滤波前信号的波形'); subplot(222);plot(X);title('滤波前信号的频谱'); y=filter(b,a,x); %IIR低通滤波 sound(y,fs,bits);%听取滤波后的语音信号

wavwrite(y,fs,bits,’低通’);%将滤波后的信号保存为“低通.wav” Y=fft(y); subplot(223);plot(y);title(' IIR滤波后信号的波形'); subplot(224);plot(Y);title(' IIR滤波后信号的频谱'); 经过低通滤波器处理后,比较滤波前后的波形图的变化 低通滤波后,听到声音稍微有些发闷,低沉,原因是高频分量被低通滤波器衰减。但是很接近原来的声音。 2、语音信号的高通滤波 运用切比雪夫—Ⅱ型数字高通滤波器,对语音信号进行滤波处理。高通滤波器性能指标:wp=0.6, ws=0.975 ,Rp=0.25;Rs=50dB。高通滤波器处理程序如下: [x,fs,bits]=wavread('voice.wav'); wp=0.6;ws=0.975;Rp=0.25;Rs=50;

利用labview进行信号的时域分析

利用labview进行信号的时域分析 信号的时域分析主要是测量测试信号经滤波处理后的特征值,这些特征值以一个数值表示信号的某些时域特征,是对测试信号最简单直观的时域描述。将测试信号采集到计算机后,在测试VI 中进行信号特征值处理,并在测试VI 前面板上直观地表示出信号的特征值,可以给测试VI 的使用者提供一个了解测试信号变化的快速途径。信号的特征值分为幅值特征值、时间特征值和相位特征值。 用于信号时域分析的函数,VIs,Express VIs主要位于函数模板中的Signal Processing子模板中,其中多数对象位于Waveform Measurements子模板,如图所示 LabVIEW8.0中用于信号分析的Waveform Measurements子模板 基本平均值与均方差VI 基本平均值与均方差VI-------Basic Averaged DC—RMS.vi用于测量信号的平均以及均方差。计算方法是在信号上加窗,即将原有信号乘以一个窗函数,窗函数的类型可以选择矩形窗、Haning窗、以及Low side lob窗,然后计算加窗后信号的均值以及均方差值。 演示程序的前面板和后面板如下图所示 Basic Averaged DC—RMS演示程序的前面板

Basic Averaged DC—RMS演示程序的后面板 平均值与均方差值 平均值与均方差值VI------Averaged DC—RMS.vi同样也是用于计算信号的平均值与均方差值,只是Averaged DC—RMS.vi的输出是一个波形函数,这里我们可以看到加窗截断后,正弦信号的平均值和均方差随时间变化的波形。 编写程序演示Average DC----Averaged—RMS.vi的使用方法,程序的后面板和前面板如下图所示 Averaged DC—RMS演示程序的后面板

语音信号特征的提取

语音信号特征的提取 摘要 随着计算机技术的发展,语音交互已经成为人机交互的必要手段,语音特征参数的精确度直接影响着语音合成的音质和语音识别的准确率。因此语音信号参数提取是语音信号处理研究中一项非常有意义的工作。 本文采用Matlab软件提取语音信号特征参数,首先对语音信号进行数字化处理,其次,进行预处理,包括预加重、加窗和分帧,本文讨论了预处理中各种参数的选择,以使信号特征提取更加准确。第三,讨论了各种时域特征参数的算法,包括短时能量、短时过零率等。 关键词:语音信号, 特征参数, 提取, Matlab 目录 第一章绪论 1.1语音信号特征提取概况 1.1.1研究意义 语音处理技术广泛应用于语音通信系统、声控电话交换、数据查询、计算机控制、工业控制等领域,带有语音功能的计算机也将很快成为大众化产品,语音将可能取代键盘和鼠标成为计算机的主要输入手段,为用户界面带来一次飞跃。 语音信号特征的提取是语音信号处理的前提和基础,只有分析出可表示语音信号本质特征的参数,才有可能利用这些参数进行高效的语音通信和准确的语音识别,才能建立语音合成的语音库。因此语音信号参数提取是语音信号处理研究中一项非常有意义的工作。 1.1.2 发展现状 语音信号处理是一门综合性的学科,包括计算机科学、语音学、语言学、声学和数学等诸多领域的内容。它的发展过程中,有过两次飞跃。第一次飞跃是1907年电子管的发明和1920年无线电广播的出现,电子管放大器使很微弱的声

音也可以放大和定量测量,从而使电声学和语言声学的一些研究成果扩展到通信和广播部门;第二次飞跃是在20世纪70年代初,电子计算机和数字信号处理的发展使声音信号特别是语音信号,可以通过模数转换器(A/D)采样和量化转换为数字信号,这样就可以用数字计算方法对语音信号进行处理和加工,提高了语音信号处理的准确性和高效性。 语音信号处理在现代信息科学中的地位举足轻重,但它仍有些基础的理论问题和技术问题有待解决,这些难题如听觉器官的物理模型和数学表示及语音增强的技术理论等,目前还有待发展。 1.2 本课题研究内容 本文主要介绍语音信号处理的理论及Matlab的相关内容,然后从Matlab仿真角度验证了录音、预处理、提取语音信号时域特征参数,主要讨论了预处理中各种参数的选择,以使信号特征提取更加准确。再次讨论了各种时域特征参数的算法,包括短时能量、短时过零率等,介绍了各环节的不同软件实现方法。最后对基于Matlab的语音信号特征参数提取进行总结。 第二章Matlab简介 MATLAB是国际上仿真领域最权威、最实用的计算机工具。它是MathWork 公司于1984年推出,它以强大的科学计算与可视化功能、简单易用、开放式可扩展环境,特别是所附带的30多种面向不同领域的工具箱支持,使得它在许多科学领域中成为计算机辅助设计和分析、算法研究和应用开发的基本工具和首选平台。 2.1 发展概况 Matlab是Matrix Laboratory(矩阵实验室的缩写),最初由美国Cleve Moler 博士在70年代末讲授矩阵理论和数据分析等课程时编写的软件包Linpack与Eispack组成,旨在使应用人员免去大量经常重复的矩阵运算和基本数学运算等繁琐的编程工作。1984年成立的Math Works公司正式把Matlab推向市场,并从事Matlab的研究和开发。1990年,该公司推出了以框图为基础的控制系统仿真工具Simulink,它方便了系统的研究与开发,使控制工程师可以直接构造系统框图进行仿真,并提供了控制系统中常用的各种环节的模块库。1993年,Math Works 公司推出的Matlab4.0版在原来的基础上又作了较大改进,并推出了Windows版,

语音信号的时域特征分析

中北大学 课程设计说明书 学生姓名:蒋宝哲学号: 24 学生姓名:瓮泽勇学号: 42 学生姓名:侯战祎学号: 47 学院:信息商务学院 专业:电子信息工程 题目:信息处理实践:语音信号的时域特征分析指导教师:徐美芳职称: 讲师 2013 年 6 月 28 日

中北大学 课程设计任务书 2012-2013 学年第二学期 学院:信息商务学院 专业:电子信息工程 学生姓名:蒋宝哲学号: 24 学生姓名:瓮泽勇学号: 42 学生姓名:侯战祎学号: 47 课程设计题目:信息处理实践:语音信号的时域特征分析起迄日期: 2013年6 月7日~2013年6月 28 日 课程设计地点:学院楼201实验室、510实验室、608实验室指导教师:徐美芳 系主任:王浩全 下达任务书日期: 2013 年 6 月 7 日

语音信号的采集与分析 摘要 语音信号的采集与分析技术是一门涉及面很广的交叉科学,它的应用和发展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。其中语音采集和分析仪器的小型化、智能化、数字化以及多功能化的发展越来越快,分析速度较以往也有了大幅度的高。本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法,并通过PC机录制自己的一段声音,运用Matlab进行仿真分析,最后加入噪声进行滤波处理,比较滤波前后的变化。 关键词:语音信号,采集与分析, Matlab 0 引言 通过语音传递倍息是人类最重要、最有效、最常用和最方便的交换信息的形式。语言是人类持有的功能.声音是人类常用的工具,是相互传递信息的最主要的手段。因此,语音信号是人们构成思想疏通和感情交流的最主要的途径。并且,由于语言和语音与人的智力活动密切相关,与社会文化和进步紧密相连,所以它具有最大的信息容量和最高的智能水平。现在,人类已开始进入了信息化时代,用现代手段研究语音信号,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。 让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。随着计算机越来越向便携化方向发展,随着计算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚而代之以语音输人这样便于使用的、自然的、人性化的输人方式。作为高科鼓应用领域的研究热点,语音信号采集与分析从理论的研究到产品的开发已经走过了几十个春秋并且取得了长足的进步。它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理.工业生产部门的语声控制,电话、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面。可见,语音信号采集与分析的研究将是一项极具市场价值和挑战性的工作。我们今天进行这一领域的研究与开拓就是要让语音信号处理技术走人人们的日常生活当中,并不断朝更高目标而努力。 语音信号采集与分析之所以能够那样长期地、深深地吸引广大科学工作者去不断地对其进行研究和探讨,除了它的实用性之外,另一个重要原因是,它始终与当时信息科学中最活跃的前沿学科保持密切的联系.并且一起发展。语音信号采集与分析是以语音语言学和数字

语音识别报告

“启动”的时域波形 1、 语音预加重: 由于语音信号在高频部分衰减,在进行频谱分析时,频率越高,所占的成分越小,进行语音预加重,可以提升语音高频部分,使频谱变得平坦,以方便进行频谱的分析和处理。通常的措施是采用数字滤波器进行预加重,传递函数是:11)(--=z z H α,其中α一般去0.92-0.98之间,所以在计算的时候取0.9375。 预加重后的波形 2、 分帧 加窗 语音信号具有较强的时变特性,其特性是随时间变化的,但是语音的形成过程与发音器官的运动有关,这种物理运动比起声音振动的速度十分缓慢,在较短的时间内,语音信号的特征可以被认为是保持不变的,通常对语音处理是通过截取语音中的一段进行处理的,并且短段之间彼此经常有一些叠加,这一段语音成为一帧语音,语音段的长度称为帧长,对每一帧处理的结果可用一组数来表示。一般取帧长为10—30ms 。采样频率是8000Hz ,所以取的帧长是256,帧移是178。分帧之后加汉明窗。 3、 端点检测 端点检测从背景噪声中找出语音的开始和终止点。 短时能量就是每帧语音信号振幅的平方和。 ∑-==1 0)]([N m n m s E ;

短时能量曲线 短时过零率是每帧内信号通过零点的次数,是信号采样点符号的变化次数。 ∑-=+-=1 )]1(sgn[)](sgn[21N m n m x m x Z ; “启动”的过零率曲线 在实验室的安静的环境下,依靠短时能量和短时过零率就可进行语音信号的起止点判断。当背景噪声较小时,没有语音信号的噪声能量很小,而语音信号的短时能量增大到了一定数值,可以区分语音信号的开始点和终止点。当背景噪声较大时,可以用短时平均过零率和短时能量结合来判断。 基于能量一过零率的端点检测一般使用两级判决法,在开始进行端点检测之前,首先为短时能量和过零率分别确定两个门限。整个语音信号的端点检测可以分为四段:静音、过渡音、语音段、结束时的静音段, (1)如果能量或过零率超越了低门限,就应该开始标记起点,进入过渡段。在过渡段中,由于参数的数值比较小,不能确信是否处于真正的语音段,因此只要两个参数的数值都回落到低门限以下,就将当前状态恢复到静音状态。而如果在过渡段中两个参数中的任一个超过了高门限,就可以确信进入语音段了,并标记起始点。 (2)如果当前状态之前处于语音段,而此时两个参数的数值降低到底门限以下,并且持续时间大于设定的最长时间门限,那么就认为语音结束了,返回到参数值降低到底门限以下的时刻,标记结束点。 端点检测波形

时域信号特征参数

设离散振动信号为{}(1~,)i x i N N =为采样点数 常用特征参数如下: 1、有量纲特征参数 1. 峰值p X 把{}i x 的N 个采样点分成n 段,在每一段中找出n 个峰值{} (1~)pj X j n =,则{}i x 的峰值指标为: 1 1n p pj j X X n ==∑ 峰值p X 反映的是某时刻振幅的最大值,因而适用于表面点蚀损伤之类的具有瞬时冲击的故障诊断。另外,对转速较低的情况(如300r/min 以下),也常采用峰值经行诊断。 2. 均值X 对于简谐振动为半个周期内的平均值,对于轴承冲击振动为经绝对值处理后的平均值。 1 1n i i X x n ==∑ 用于诊断的效果与峰值基本一样,其优点是检测值较峰值稳定,但一般用于转速较高的情况(如300r/min 以上)。 3. 均方根值(有效值)rms X rms X = 均方根值是对时间平均的,用来反映信号的能量大小,适用于象磨损之类的振幅值随时间缓慢变化的故障诊断。轴承制造精度愈低或轴承磨损程度愈大,则rms X 值愈高。 对早期故障不敏感,但稳定性很好。 4. 方差 Matlab 中有直接求离散数据方差的函数var ()。 2、无量纲特征参数 1. 峰值因子(波峰因素)f C p f rms X C X = 轴承元件上的局部剥落、擦伤、刻痕、和凹痕等一类离散型缺陷,产生的脉冲波形总能量

并不大,但是波形的尖峰度明显,因此,峰值因子适用于这类故障的诊断。 (波峰因数f C ,能恰当的反映尖峰的相对大小。评判轴承合不合格的f C 界限值约为1.5, f C 值大于1.5,则认为轴承元件上存在局部缺陷。——设备故障诊断 沈庆根) 正常轴承的振动波峰因子约为4~5,因剥落等局部缺陷引起的振动峰值因子往往超过10,缺陷愈大,f C 值也愈大。 轴承发生剥落等局部缺陷时,f C 值相对较大;当发生润滑不良和磨损等异常情况时,f C 值相对较小。 需要指出的是在轴承出现故障的整个过程波峰因数值并不是一直增加,而是先增加再减小。这是因为故障初期,振动幅值会明显增加,而均方根值变化尚不明显,随故障不断扩展,峰值达到极限值,均方根值开始明显增大。 波峰因子是一个相对值的比率,它不受振动信号绝对电平值大小的影响,与传感器的灵敏度和放大器的放大率无关,同时也不受轴承尺寸大小和转速不同的影响,因而测定数据很方便。 2. 峭度指标K (Kurtosisvalue ) 离散序列的峭度指标定义为归一化的4阶中心矩: 441 1 41,N N i i i i rms x x K N X N β=== ∑ ∑其中= 称为峭度值。 振幅满足正态分布的无故障轴承其峭度值约为3,轴承振动信号的峭度值一般在3—45, 当值大于4时,即预示着轴承有一定程度的损伤。采用该特征参数的优点在于与轴承的转速、尺寸和载荷无关,主要适用于点蚀类故障的诊断。 峭度值具有与波峰因子类似的变化趋势,轴承良好状态和严重故障状态下的裕度指标几乎是相同的。(参考:P287,设备故障诊断,沈庆根) 对早期故障由较高的敏感性,但稳定性不好,可同时与有效值进行故障监测。 3. 波形因子(波形指标)Ws 波形因数定义为均方根值与绝对均值之比: rms X Ws X = 当/p X X 值过大时,表明滚动轴承可能有点蚀;/p X X 值过小时,有可能发生了磨损。 4. 脉冲指标I p X I X = =峰值平均幅值 5. 裕度系数L

10实验十:随机信号分析应用在语音信号分析中

实验十:随机信号分析应用在语音信号分析中 ——音频信号时域特征和频域特征分析【实验目的】 ⑴ 了解随机信号分析的应用领域。 ⑵ 了解如何利用随机信号分析相关知识点对语音信号进行分析。【实验原理】 我们在这里主要研究语音信号检索的部分内容。在语音信号研究中,一般对音频信号需要进行三方面的研究: 1)音频信号的产生,这方面的研究集中在为音频信号建立产生模型,通过产生模型提取音频特征。 2)音频的传播,音频信号如何通过另外介质传播到人的耳朵里。 3)音频的接收,音频信号如何被人所感知。 在这里,我们只涉及到音频信号的产生,而其它方面不涉及。 音频是一种重要媒体。人耳能够听到的音频频率范围是60Hz- 20KHz,其中语音大约分布在300Hz-4KHz之内。人耳听到的音频是连续模拟信号,而计算机只能处理数字化信息。所以要将连续音频信号数字化后才能在计算机上进行处理。音频信号数字化时的采样频率必须高于信号带宽的2倍才能正确恢复信号。 在音频处理中,一般假定音频信号特性在很短时间区间内变化是很缓慢的,所以在这个变化区间内所提取的音频特征保持稳定。这样,对音频信号处理的一个基本概念就是将离散的音频信号分成一定长度单位进行处理,将离散的音频采样点分成一个个音频帧,也就是音频信 号“短时”处理方法。一般一个“短时”音频帧持续时间长度约为几个到几十个微妙。可以从音频信号中提取三类基本特征:时域特征、频域特征和时频特征。 1 时域特征提取 连续音频信号x经过采样后,得到k个采样点x(n)(1≤n≤k)。在音

频时域提取中,认为每个采样点x(n)(1≤n≤k)包含了这一时刻音频信号的所有信息,所以可以直接从x(n)(1≤n≤k)提取信息。可以提取的信息有:短时平均能量、过零率、线性预测系数。 对于采样得到的x(n)(1≤n≤k)音频信号,考虑到信号在段时间内的连贯性,首先把音频信号的K个采样点分割成前后迭代的音频帧,相邻帧之间的迭加率一般为30%-50%,音频处理中的“短时帧”均是这样得到的。 ① 短时平均能量 短时平均能量指在一个短时音频帧内采样点所聚集的能量。它能够方便的表示整个时间段内幅度的变化。其定义如下: 短时平均能量特征可以直接应用到有声/静音检测中,短时平均能量某一短时帧平均能量低于一个事先设定的阀值,则短时帧为静音,否则为非静音。如果静音的短时祯数超过了一定比例,则将这个例子判为静音音频例子。 2 过零率 过零率指在一个短时帧内,离散采样信号值由正到负和由负到正变化的次数。它可以有效的刻画不同的音频信号。其定义如下: 其中, 对于语音信号,辅音信号过零率低,而元音信号的过零率高。语音信号开始和结束都大量集中了辅音信号,所以在语言信号中,开始和结束部分得过零率会有明显身高,所以利用过零率可以判断语音是否开始和结束。 3 频率中心(FC):它是量度声音亮度的指标。即: ,其中是f t(n)的Fourier变换,,STE是短时平均能量。一般的,一段音乐的频率中心变化比较单一,语音的频率中心会出现连续的变化。 4 带宽(BW):它是衡量频率范围的指标。其定义为:

语音信号时域特征参数提取

学院:信电学院班级:电信102 姓名:徐景广学号:2010081261 课程:专业综合实验实验日期:2014年1 月 3 日成绩: 实验二、语音信号时域特征参数提取 一、实验目的 1.掌握利用matlab程序进行语音信号的录制与回放。 2.理解语音信号的时域特征参数的概念,如短时能量、短时过零率等。 3.掌握matlab的开发环境。 4.掌握对语音信号进行时域特征参数提取的方法。 二、实验原理 本实验要求掌握时域特征分析原理,并利用已学知识,编写程序求解语音信号的短时过零率、短时能量、短时自相关特征,分析实验结果。 1.窗口的选择 通过对发声机理的认识,语音信号可以认为是短时平稳的。在5~50ms的范围内,语音频谱特性和一些物理特性参数基本保持不变。我们将每个短时的语音称为一个分析帧。一般帧长取10~30ms。我们采用一个长度有限的窗函数来截取语音信号形成分析帧。通常会采用矩形窗和汉明窗。图1.1给出了这两种窗函数在帧长N=50时的时域波形。

学院: 信电学院 班级:电信102 姓名: 徐景广 学号: 2010081261 课程:专业综合实验 实验日期:2014年 1 月 3 日 成绩: 0.2 0.40.60.811.2 1.41.61.82矩形窗 sample w (n ) 0.1 0.20.30.40.50.6 0.70.80.91hanming 窗 sample w (n ) 图1.1 矩形窗和Hamming 窗的时域波形 矩形窗的定义:一个N 点的矩形窗函数定义为如下 {1,00,()n N w n ≤<=其他 hamming 窗的定义:一个N 点的hamming 窗函数定义为如下 0.540.46cos(2),010,()n n N N w n π-≤<-??? 其他 = 这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性可以发现(如图1.2):矩形窗的主瓣宽度小(4*pi/N ),具有较高的频率分辨率,旁瓣峰值大(-13.3dB ),会导致泄漏现象;汉明窗的主瓣宽8*pi/N ,旁瓣峰值低(-42.7dB ),可以有效的克服泄漏现象,具有更平滑的低通特性。因此在语音频谱分析时常使用汉明窗,在计算短时能量和平均幅度时通常用矩形窗。表1.1对比了这两种窗函数的主瓣宽度和旁瓣峰值。

连续时间信号的抽样及频谱分析-时域抽样信号的频谱--信号与系统课设

1 引言 随着科学技术的迅猛发展,电子设备和技术向集成化、数字化和高速化方向发展,而在学校特别是大学中,要想紧跟技术的发展,就要不断更新教学和实验设备。传统仪器下的高校实验教学,已严重滞后于信息时代和工程实际的需要。仪器设备很大部分陈 旧,而先进的数字仪器(如数字存储示波器)价格昂贵不可能大量采购,同时其功能较为单一,与此相对应的是大学学科分类越来越细,每一专业都需要专用的测量仪器,因此仪器设备不能实现资源共享,造成了浪费。虚拟仪器正是解决这一矛盾的最佳方案。基于PC 平台的虚拟仪器,可以充分利用学校的微机资源,完成多种仪器功能,可以组合成功能强大的专用测试系统,还可以通过软件进行升级。在通用计算机平台上,根据测试任务的需要来定义和设计仪器的测试功能,充分利用计算机来实现和扩展传统仪器功能,开发结构简单、操作方便、费用低的虚拟实验仪器,包括数字示波器、频谱分析仪、函数发生器等,既可以减少实验设备资金的投入,又为学生做创新性实验、掌握现代仪器技术提供了条件。 信号的时域分析主要是测量测试信号经滤波处理后的特征值,这些特征值以一个数值表示信号的某些时域特征,是对测试信号最简单直观的时域描述。将测试信号采集到计算机后,在测试VI 中进行信号特征值处理,并在测试VI 前面板上直观地表示出信号的特征值,可以给测试VI 的使用者提供一个了解测试信号变化的快速途径。信号的特征值分为幅值特征值、时间特征值和相位特征值。 尽管测量时采集到的信号是一个时域波形,但是由于时域分析工具较少,所以往往把问题转换到频域来处理。信号的频域分析就是根据信号的频域描述来估计和分析信号的组成和特征量。频域分析包括频谱分析、功率谱分析、相干函数分析以及频率响应函数分析。 信号在时域被抽样后,他的频谱X(j )是连续信号频谱X(j )的形状以抽样频率为间隔周期重复而得到,在重复过程中幅度被p(t)的傅里叶级数Pn加权。因为Pn只是n的函数,所以X(j )在重复的过程中不会使其形状发生变化。假定信号x(t)的频谱限制在- m~+ m的范围内, 若以间隔Ts对xa(t)进行抽样,可知抽样信号X^(t)的频谱X^(j )是以s为周期重复。显然,若在抽样的过程中s<2 m,则X^(j )将发生频谱混叠现象,只有在抽样的过程中满足s>=2 m条件,X^(j )才不会产生频谱的混叠,接收端完全可以由x^(t)恢复原连续信号xa(t),这就是低通信号抽样定理的核心内容。

语音信号特征参数提取方法

语音信号特征参数提取方法 阮雄飞微电子学与固体电子学 摘要:在语音技术的发展过程中使用了大量的语音信号特征参数, 好的语音信号特征参数能对语音识别起至关重要的作用。本文对语音信号特征参数提取方法以及国内外研究现状进行了介绍,最后介绍了Hilbert-Huang 这一新兴理论成果以及在特征提取中的应用。 关键词:语音技术特征提取HHT 1 引言 语音信号是一种短时平稳信号,即时变的,十分复杂,携带很多有用的信息,这些信息包括语义、个人特征等,其特征参数的准确性和唯一性将直接影响语音识别率的高低,并且这也是语音识别的基础[1]。特征参数应该能够比较准确地表达语音信号的特征具有一定的唯一性。 上世纪40年代,potter等人提出了“visiblespeech”的概念,指出语谱图对语音信号有很强的描述能力,并且试着用语谱信息进行语音识别,这就形成了最早的语音特征,直到现在仍有很多的人用语谱特征来进行语音识别[2]。后来,人们发现利用语音信号的时域特征可以从语音波形中提取某些反映语音特性的参数,比如:幅度、短时帧平均能量、短时帧过零率、短时自相关系数、平均幅度差函数等。这些参数不但能减小模板数目运算量及存储量而且还可以滤除语音信号中无用的冗余信息。语音信号特征参数是分帧提取的, 每帧特征参数一般构成一个矢量, 所以语音信号特征是一个矢量序列。我们将语音信号切成一帧一帧, 每帧大小大约是20-30ms。帧太大就不能得到语音信号随时间变化的特性, 帧太小就不能提取出语音信号的特征, 每帧语音信号中包含数个语音信号的基本周期。有时希望相邻帧之间的变化不是太大, 帧之间就要有重叠, 帧叠往往是帧长的1/2或1/3。帧叠大, 相应的计算量也大[3]。随着语音识别技术的不断发展时域特征参数的种种不足逐渐暴露出来,如这些特征参数缺乏较好稳定性且区分能力不好。于是频域参数开始作为语音信号的特征比如频谱共振峰等。经典的特征提取方法主要有LPCC(线性预测倒谱系数)、MFCC(美尔频率倒谱系数)、HMM(隐马尔科夫模型)、DTW(动态时间规整)等。 2 语音信号特征参数提取方法

连续时间信号和系统时域分析报告及MATLAB实现.docx

实用标准文案 MATLAB课程设计任务书 姓名:王 **学号:2010******010 题目 : 连续时间信号和系统时域分析及MATLAB实现 初始条件: MATLAB 7.5.0 , Windows XP系统 实验任务: 一、用 MATLAB实现常用连续时间信号的时域波形(通过改变参数,分析其时域特性)。 1、单位阶跃信号, 2、单位冲激信号, 3、正弦信号, 4、实指数信号, 5、虚指数信号, 6、复指数信号。 二、用 MATLAB实现信号的时域运算 1、相加, 2、相乘, 3、数乘, 4、微分, 5、积分 三、用 MATLAB实现信号的时域变换(参数变化,分析波形变化) 1、反转, 2、使移(超时,延时), 3、展缩, 4、倒相, 5、综合变化 四、用 MATLAB实现信号简单的时域分解 1、信号的交直流分解, 2、信号的奇偶分解 五、用 MATLAB实现连续时间系统的卷积积分的仿真波形 给出几个典型例子,对每个例子,要求画出对应波形。 六、用MATLAB实现连续时间系统的冲激响应、阶跃响应的仿真波形。 给出几个典型例子,四种调用格式。 七、利用 MATLAB实现连续时间系统对正弦信号、实指数信号的零状态响应的仿真波形。

目录 1 MATLAB简介 (1) 1.1 MATLAB 设计目的 (1) 1.2 MATLAB 语言特点 (1) 2 常用连续时间信号的时域波形 (1) 2.1单位阶跃信号 (1) 2.2单位冲激信号 (2) 2.3正弦信号 (3) 2.4实指数信号 (4) 2.5虚指数信号 (5) 2.6复指数信号 (6) 3 连续时间信号的时域运算 (7) 3.1相加 (7) 3.2相乘 (8) 3.3数乘 (9) 3.4微分 (10) 3.5积分 (11) 4.1反转 (12) 4.2时移 (13) 4.3展缩 (14) 4.4倒相 (15)

语音特征参数MFCC的提取及识别

语音特征参数MFCC的提取及识别 耳蜗实质上相当于一个滤波器组,耳蜗的滤波作用是在对数频率尺度上进行的,在1000HZ下,人耳的感知能力与频率成线性关系;而在1000HZ以上,人耳的感知能力与频率不构成线性关系,而更偏向于对数关系,这就使得人耳对低频信号比高频信号更敏感。Mel频率的提出是为了方便人耳对不同频率语音的感知特性的研究。频率与Mel频率的转换公式为: MFCC在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的研究成果,采用这种技术语音识别系统的性能有一定提高。 MFCC参数的提取1、 预加重处理 预加重处理其实是一个高通滤波器,该高通滤波顺的传递函数为:

其中的取值为0.97,该高通滤波器作用是滤去低频,使语音信号的高频特性更加突现。 2、 分帧及加窗处理 由于语音信号只在较短的时间内呈现平稳性(一般认为 10-30ms),因此将语音信号划分为一个一个的短时段即一帧。同时为避免丢失语音信号的动态信息,相邻帧之间要有一段重叠区域,重叠区域一段为帧长的1/2或1/3。然后再将每帧乘上窗函数,以增加每帧左端和右端的连续性。 3、 各帧信号的FFT变换 对分帧加窗后的各帧信号进行FFT变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。

4、 三角滤波器系数的求取 定义若干个带通三角滤波器(k),0<=m<=M,M为滤波器个数,其中心频率为f(m),每个带通三角滤波器的频率响应为 且满足Mel(f(m))-Mel(f(m-1))=Mel(f(m+1))-Mel(f(m)) 求得滤波系数为m(i),i=1,…,p,p为滤波器阶数 5、 三角滤波并进行离散余弦变换DCT

《语音信号处理》实验3-LPC特征提取

华南理工大学《语音信号处理》实验报告 实验名称:LPC特征提取 姓名: 学号: 班级:10级电信5班 日期:2013年5 月24日

1. 实验目的 1、熟练运用MATLAB 软件进行语音信号实验; 2、熟悉短时分析原理、LPC 的原理; 3、学习运用MATLAB 编程进行LPC 的提取; 4、学会利用短时分析原理提取LPC 特征序列。 2. 实验原理 1、LPC 分析基本原理 LPC 分析为线性时不变因果稳定系统V (z )建立一个全极点模型,并利用均方误差准则,对已知的语音信号s(n)进行模型参数估计。 如果利用P 个取样值来进行预测,则称为P 阶线性预测。假P 个 取样值()()(){ } 1,2,S n S n S n p --- 的加权之和来预测信号当前取样值()S n ,则预测 信号()S n ∧ 为: ()() 1 p k k S n a n k ∧==-∑ (1) 其中加权系数用k a 表示,称为预测系数,则预测误差为: ()()()()() 1 p k k e n s n S n s n a n k ∧ ==-=--∑ (2) 要使预测最佳,则要使短时平均预测误差最小有: ()2 min E e n ε??==?? (3) ()20,(1) k e n k p a ????? =≤≤? (4) 令 ()()(),,i k E s n i S n k φ=--???? (5) 最小的ε可表示成: ()() min 10,00,p k k a k εφφ==-∑ (6) 显然,误差越接近于零,线性预测的准确度在均方误差最小的意义上为最佳,由此可以计算出预测系数。 通过LPC 分析,由若干帧语音可以得到若干组LPC 参数,每组参数形成一个

基于小波变换的语音特征参数提取

基于小波变换的语音特征参数提取 【摘要】将小波变换的多分辨率特性用于改进Mel频率倒谱系数MFCC的前端处理中,给出了一种新的语音特征参数——小波MFCC。其特点在于采用小波变换、分层FFT和频率合成代替原来MFCC中的FFT部分,使频谱分辨率提高了一倍。试验证明,小波MFCC特征参数在较大词汇量情况下,其识别率优于MFCC特征参数的结果。 【关键词】小波分析;语音识别;MFCC Abstract:The multi resolution characteristic of wavelet is used to improve the front end processing of MFCC.So,a new feature parameter wavelet MFCC is presented in this paper.It uses wavelet transform,multi degree FFT and frequency synthesis to replace original FFT of MFCC,and increases spectrum resolution by 2.The experiments demonstrate that robustness and recognition rate of wavelet MFCC feature are better than one of MFCCs in large vocabulary. Key words:wavelet transformation;speech recognition;MFCC 1.引言 在语音识别和说话人识别中,基于Mel频率的倒谱系数MFCC(mel frequency cepstrum cofficient)是将人耳的听觉感知特性和语音的产生机制相结合,与其他特征参数相比较,体现了较优越的性能,在无噪声情况下能得到较高的识别率,因此是目前使用最广泛的特征参数。但是,随着识别词汇量的增大,这种参数的识别性能急剧地下降。说明这种特征不适合大词汇量识别。 近年来,小波变换被广泛应用于语音处理中,主要包括:利用小波变换对听觉感知系统进行模拟,对语音信号去噪,进行清、浊音判断。因为小波变换的局部化性质,可以在很小的分帧长下对语音信号仍具有较高的频谱分辨率,本文将小波变换技术引入到MFCC特征参数中,来进行语音识别系统的特征提取,可以提高对辅音区的识别效果。因此,用WMFCC特征参数作为隐马尔可夫(HMM)识别网络的输入信号,识别效果明显提高。 2.MFCC特征参数 图1所示为MFCC特征参数的计算流程图。 图1 MFCC特征参数的提取 人类听觉系统对声音高低的感知与实际频率是一种非线性映射关系[1],而与Mel频率成线性关系。根据人的听觉机理来进行Mel滤波器组的频带划分,模拟不同频率下人耳对语音的感知特性。实际频率和Mel频率的转换关系用公

基于MATLAB的语音信号的处理

第一章语音信号的特点与采集 第一节语音信号采集的介绍 在Matlab环境中,主要可以通过以下几种方法驱动声卡,采集语音信号: 1.将声卡作为对象处理采集语音信号Matlab将声卡作为对象处理,其后的一切操作都不与硬件直接相关,而是通过对该对象的操作来作用于硬件设备(声卡)。操作时首先要对声卡产生一个模拟输入对象(ai),给ai对象添加一个通道设置采样频率后,就可以启动设备对象,开始采集数据,采集完成后停止对象并删除对象。 2.调用wavrecord功能函数采集语音信号。wavrecord功能函数只适用于windows95/98/N平台,它使用windows声音输入设备录制声音。函数调用方式:wavrecord(N,fs,ch,nbits); N:采集的样本数据量; fs:样本采集频率,为8000Hz、11025Hz、22050Hz和44100Hz之一,默认值为11025Hz; ch:样本采集通道,1为单声道,2为双声道,默认值为1(单声道); nbits:每个样本的位数(或称解析度),‘double’、‘single’或‘int16’为16位,‘uint8’为8位; 3.运用audiorecorder对象采集语音信号audiorecorder(fs,nbits,ch)可以创设一个audiorecorder对象。fs:样本采集频率,为8000Hz、11025Hz、22050Hz和44100Hz之一,默认值为8000Hz; nbits:每个样本的位数,8位或16位,默认值为8位; ch:样本采集通道,1为单声道,2为双声道,默认值为1(单声道); audiorecorder对象创设后,就可以进行相应的录音、暂停、停止、播放以及数据读取等操作。第二节语音信号的特点 通过对大量语音信号的观察和分析发现,语音信号主要有下面两个

信号与系统 信号的时域分析 及Matlab实现

信号与系统 课程实验报告 实验四 实验名称 信号的时域分析 及Matlab 实现 系 别 教师姓名 实验地点 5309 实验日期 2011-06-20 学生姓名 学号 一、实验内容 1.预习实验原理。 2.对实验内容编写程序(M 文件),上机运行。 3.记录并整理实验数据。 二、实验目的 1.掌握用Matlab 分析系统时间响应的方法。 2.掌握用Matlab 分析连续、离散系统的冲激响应的方法。 3.理解系统零、极点分布与系统稳定性关系。 三、涉及实验的相关情况介绍(包含使用软件或实验设备等情况) 计算机一台(安装MATLAB6.5版本或以上版本) 四、实验试做记录(含程序、数据记录及分析) 1.设) 2)(1()(p s p s s s H --= 设①p1=-2,p2=-30; ②p1=-2,p2=3 (1)针对极点参数①②,画出系统零、极点分布图,判断该系统稳定性。 程序: clear num=[1]; den=[1,32,60]; [r,poles,k]=residue(num,den); p=roots(den);

z=roots(num); subplot(2,2,1);plot(real(p),imag(p),'*');hold on; plot(real(z),imag(z),'o');grid on T=0:0.1:10; y1=impulse(num,den,T); subplot(2,2,2);plot(T,y1);grid;title('脉冲响应') 结果: 位于s左半平面,稳定 (2)针对极点参数①②,绘出系统的脉冲响应曲线,并观察t→∞时,脉冲响应变化趋势。 程序: clear num=[1]; den=[1,-1,-6]; [r,poles,k]=residue(num,den); p=roots(den); z=roots(num); subplot(2,2,1);plot(real(p),imag(p),'*');hold on; plot(real(z),imag(z),'o');grid on T=0:0.1:10; y1=impulse(num,den,T); subplot(2,2,2);plot(T,y1);grid;title('脉冲响应') 结果:

实验三语音信号的特征提取最终实验报告

实验三语音信号的特征提取 一、实验目的 1、熟练运用MATLAB软件进行语音信号实验。 2、熟悉短时分析原理、MFCC、LPC的原理。 3、学习运用MATLAB编程进行MFCC、LPC的提取。 4、学会利用短时分析原理提取MFCC、LPC特征序列。 二、实验仪器设备及软件 HP D538、MATLAB 三、实验原理 1、MFCC 语音识别和说话人识别中,常用的语音特征是基于Mel频率的倒谱系数(即MFCC)。MFCC参数是将人耳的听觉感知特性和语音的产生机制相结合。 Mel频率可以用如下公式表示: ) 700 / 1 log( 2595f f Mel+ ? = 在实际应用中,MFCC倒谱系数计算过程如下; ①将信号进行分帧,预加重和加汉明窗处理,然后进行短时傅里叶变换并得到其频谱。 ②求出频谱平方,即能量谱,并用M个Mel带通滤波器进行滤波;由于每一个频带中 分量的作用在人耳中是叠加的。因此将每个滤波器频带内的能量进行叠加,这时第k 个滤波器输出功率谱) ('k x。 ③将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换, 得到L个MFCC系数,一般L取12~16个左右。MFCC系数为 ∑=- = M k M n k k x Cn 1 '] / )5.0 ( cos[ ) ( logπ,n=1,2,...,L ④将这种直接得到的MFCC特征作为静态特征,再将这种静态特征做一阶和二阶差分,得到相应的动态特征。 2、LPC 由于频率响应) (jw e H反映声道的频率响应和被分析信号的谱包络,因此用

|)(|log jw e H 做反傅里叶变换求出的LPC 倒谱系数。 通过线性预测分析得到的合成滤波器的系统函数为)1/(1)(1 ∑=--=p i i i z a z H ,其冲激响 应为h(n)。h(n)的倒谱为)(^ n h ,∑+∞ =-= 1 ^ ^ )()(n n z n h z H 就是说)(^z H 的逆变换)(^ n h 是存在的。 设0)0(^=h ,将式 ∑+∞ =-= 1 ^ ^ )()(n n z n h z H 两边同时对1 -z 求导,得 ∑∑+∞ =--=--??= -??1 ^ 1 1 1 1 )(]11 log[ n n p i i z n h z z a z 得到∑∑∑∞ +==-=+-+--= 1 1 1 1 1 ^ 1)(n p i i i p i i i n z a z ia z n h n ,于是有 ∑∑ ∑+∞ =+∞ =+-+-=-= -1 1 1 1 ^ 1 1 )()1(n n i i n p i i z ia z n h n z a 令其左右两边z 的各次幂前系数分别相等,得 到)(^ n h 和i a 间的递推关系 ?? ? ? ??? ?? >--=≤≤--+==∑∑=-=p i i n i i n p n n h a n i n h p n k n h a n i a n h a h 1^ ^11^ ^ 1 ^ ),1()1()(1),()1()()1( ,按其可直接从预测系数{i a }求得倒谱)(^ n h 。这个倒谱是根据线性预测模型得到的,又称为LPC 倒谱。LPC 倒谱由于利用线性预 测中声道系统函数H (z )的最小相位特性,因此避免了一般同态处理中求复对数的麻烦。 四、实验步骤及程序 1、MFCC (1)、实验步骤 ① 输入样本音频 ② 给样本音频预加重、分帧、加窗 ③ 将处理好的样本音频做傅里叶变换 ④ 进行Mel 频率滤波 ⑤ 进行Log 对数能量

相关文档
最新文档