语音信号处理作业.

语音信号处理作业.
语音信号处理作业.

华南理工大学《语音信号处理》作业报告

姓名:

学号:

班级:10级电信5班

日期:2013年5 月24日

1.实验要求

编程实现:

作业1、提取一段语音信号的短时能量、过零率、短时平均幅度差。

作业2、提取一段语音的傅里叶变换幅度谱、线性倒谱、梅尔频率倒谱(MFCC)。作业3、提取一段语音的LPC参数。

作业4、估计一段语音的基音频率。

作业5、估计一段语音的前3个共振峰频率。

作业1:

1、实验原理

(1)、短时能量

语音和噪声的区别可以体现在它们的能量上,语音段的能量比噪声段能量大,语音段的能量是噪声段能量叠加语音声波能量的和。在信噪比很高时,那么只要计算输入信号的短时能量或短时平均幅度就能够把语音段和噪声背景区分开。这是仅基于短时能量的端点检测方法。

信号{x(n)}的短时能量定义为:

语音信号的短时平均幅度定义为:

其中w(n)为窗函数。

(2)、短时平均过零率

短时过零表示一帧语音信号波形穿过横轴(零电平)的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值的改变符号称为过零。过零率就是样本

改变符号次数。

信号{x(n)}的短时平均过零率定义为:

式中,sgn为符号函数,即:

过零率有两类重要的应用:第一,用于粗略地描述信号的频谱特性;第二,用于判别清音和浊音、有话和无话。从上面提到的定义出发计算过零率容易受低频干扰,特别是50Hz交流干扰的影响。解决这个问题的办法,一个是做高通滤波器或带通滤波,减小随机噪声的影响;另一个有效方法是对上述定义做一点修改,设一个门限T,将过零率的含义修改为跨过正负门限。

于是,有定义:

2、实验结果及讨论

本次实验选取语音文件phrase.WA V,运行程序,结果如下图:

3、实验代码

[x,fs,nbits]=wavread('E:\yuuyin\phrase.WAV');

x = x / max(abs(x));%幅度归一化到[-1,1]

%参数设置

FrameLen = 256; %帧长

inc = 90; %未重叠部分

amp1 = 10; %短时能量阈值

amp2 = 2;

zcr1 = 10; %过零率阈值

zcr2 = 5;

%计算过零率

tmp1 = enframe(x(1:end-1), FrameLen,inc);

tmp2 = enframe(x(2:end) , FrameLen,inc);

signs = (tmp1.*tmp2)<0;

diffs = (tmp1 -tmp2)>0.02;

zcr = sum(signs.*diffs,2);

%计算短时能量

amp = sum((abs(enframe(filter([1 -0.9375], 1, x), FrameLen, inc))).^2, 2);

subplot(3,1,1)

plot(x)

axis([1 length(x) -1 1])

xlabel('帧数');ylabel('Speech');

subplot(3,1,2)

plot(amp);

axis([1 length(amp) 0 max(amp)])

xlabel('帧数');ylabel('Energy');

subplot(3,1,3)

plot(zcr);

axis([1 length(zcr) 0 max(zcr)])

xlabel('帧数');ylabel('ZCR');

作业2、3:

1、 提取一段语音的傅里叶变换幅度谱

[x]=wavread('E:\yuuyin\monologue speech_male.wav'); y=fft(x); %傅里叶变换函数 plot(abs(y)); %振幅频率 title('傅里叶变换幅度谱

');

2、 提取一段语音的线性倒谱和LPC 参数

基本原理:

由于频率响应)(jw e H 反映声道的频率响应和被分析信号的谱包络,因此用

|)(|log jw e H 做反傅里叶变换求出的LPC 倒谱系数。

通过线性预测分析得到的合成滤波器的系统函数为)1/(1)(1∑=--=p

i i i z a z H ,其

冲激响应为h(n)。h(n)的倒谱为)(^n h ,∑+∞=-=1

^

^

)()(n n

z

n h z H 就是说)(^

z H 的逆变换

)(^

n h 是存在的。设0)0(^=h ,将式∑+∞=-=1

^

^

)()(n n z n h z H 两边同时对1-z 求导,得

∑∑+∞=--=--??=-??1^1

1

11)(]11log[n n p i i z n h z z a z 得到∑∑∑∞+==-=+-+--=1

1

11

1

^1)(n p i i

i p

i i i n z a z

ia z n h n ,于是有 ∑∑∑+∞

=+∞

=+-+-=-=-1

1

11

^

1

1

)()1(n n i i n p i i z ia z

n h n z a 令其左右两边z 的各次幂前系数分别相

等,得到)(^

n h 和i a 间的递推关系

??

??

?

????

>--=≤≤--+==∑∑=-=p i i n i i n p n n h a n i n h p

n k n h a n i a n h a h 1^^11^^

1^

),1()1()(1),()1()()1( ,按其可直接从预测系数{i a }求得倒谱)(^

n h 。这个倒谱是根据线性预测模型得到的,又称为LPC 倒谱。LPC 倒谱由于利用线性预测中声道系统函数H (z )的最小相位特性,因此避免了一般同态处理中求复对数的麻烦。

实验结果分析:

选取语音文件monologue speech_female,先读出原始语音文件的波形:

原始语音帧倒谱和预测语音帧倒谱如下:

LPC系数:

ai =

Columns 1 through 8

1.0000 -0.5313 -0.1624 -0.2005 -0.0726 0.1481

0.0192 -0.1592

Columns 9 through 16

-0.1248 0.1857 0.0636 0.0848 -0.1475 -0.0562

0.0129 -0.0196

通过计算LPC系数可以很好的利用先行预测中声道系统函数的最小相位特性

来提取特征函数

实验代码:

I = wavread('E:\yuuyin\monologue speech_female.wav');%读入原始语音

%subplot(3,1,1),

plot(I);

title('原始语音波形')

%对指定帧位置进行加窗处理

Q = I';

N = 256; % 窗长

Hamm = hamming(N); % 加窗

frame = 60;%需要处理的帧位置

M = Q(((frame - 1) * (N / 2) + 1):((frame - 1) * (N / 2) + N));

Frame = M .* Hamm';%加窗后的语音帧

[B,F,T] = specgram(I,N,N/2,N);

[m,n] = size(B);

for i = 1:m

FTframe1(i) = B(i,frame);

end

P =input('请输入预测器阶数 = ');

ai = lpc(Frame,P); % 计算lpc系数

LP = filter([0 -ai(2:end)],1,Frame); % 建立语音帧的正则方程

FFTlp = fft(LP);

E = Frame - LP; % 预测误差

pause

fLength(1 : 2 * N) = [M,zeros(1,N)];

Xm = fft(fLength,2 * N);

X = Xm .* conj(Xm);

Y = fft(X , 2 * N);

Rk = Y(1 : N);

PART = sum(ai(2 : P + 1) .* Rk(1 : P)); G = sqrt(sum(Frame.^2) - PART);

A = (FTframe1 - FFTlp(1 : length(F'))) ./ FTframe1 ; pause

%求出预测误差的倒谱

pitch = fftshift(rceps(E));

M_pitch = fftshift(rceps(Frame)); subplot(2,1,1),plot(M_pitch);grid; xlabel('语音帧');ylabel('/dB'); title('原始语音帧倒谱');

subplot(2,1,2),plot(pitch);grid; xlabel('语音帧');ylabel('/dB'); title('预测误差倒谱'); pause

3、 提取一段语音信号的梅尔频率倒谱(MFCC )

基本原理: MFCC :

语音识别和说话人识别中,常用的语音特征是基于Mel 频率的倒谱系数(即MFCC )。MFCC 参数是将人耳的听觉感知特性和语音的产生机制相结合。

Mel 频率可以用如下公式表示:

)700/1log(2595f f Mel +?=

在实际应用中,MFCC 倒谱系数计算过程如下;

① 将信号进行分帧,预加重和加汉明窗处理,然后进行短时傅里叶变换并得到其频谱。

② 求出频谱平方,即能量谱,并用M 个Mel 带通滤波器进行滤波;由于每一个频带中分量的作用在人耳中是叠加的。因此将每个滤波器频带内的

能量进行叠加,这时第k 个滤波器输出功率谱)('

k x 。

③ 将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反

离散余弦变换,得到L 个MFCC 系数,一般L 取12~16个左右。MFCC 系数为

∑=-=M

k M n k k x Cn 1']

/)5.0(cos[)(log π, n=1,2,...,L

④ 将这种直接得到的MFCC 特征作为静态特征,再将这种静态特征做一阶和二阶差分,得到相应的动态特征。 实验结果分析:

采用语音文件monologue speech_female.wav,运行程序,得到的MFCC 特征提取图像为:

通过计算MFCC参数,获得了声纹识别的特征参数。由于MFCC参数是对人耳听觉特征的描述,因此,可以认为,不同声纹的MFCC参数距离,能够代表人耳对两个语音听觉上的差异,可以为声纹的识别提供可靠的依据。

作业4:估计一段语音的基音周期

1、实

(1)、基音周期

基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。

由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。②声道共振峰有时会严重影响激励信号的谐波结构,所以,从语音信号中直接取出仅和声带振动有关的激励信号的信息并不容易。③语音信号本身是准周期性的(即音调是有变化的),而且其波形的峰值点或过零点受共振峰的结构、噪声等的影响。④基音周期变化范围大,从老年男性的50Hz到儿童和女性的450Hz,接近三个倍频程,给基音检测带来了一定的困难。由于这些困难,所以迄今为止尚未找到一个完善的方法可以对于各类人群(包括男、女、儿童及不向语种)、各类应用领域和各种环境条件情况下都能获得满意的检测结果。

尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT、谱图法、小波法等等。

(2)、自相关函数

对于离散的语音信号x(n),它的自相关函数定义为:

R(k)=Σx(n)x(n-k),

如果信号x(n))具有周期性,那么它的自相关函数也具有周期性,而且周期与信号x(n)的周期性相同。自相关函数提供了一种获取周期信号周期的方法。在周期信号周期的整数倍上,它的自相关函数可以达到最大值,因此可以不考虑起始时间,而从自相关函数的第一个最大值的位置估计出信号的基音周期,这使自

相关函数成为信号基音周期估计的一种工具。

(3)、短时自相关函数

语音信号是非平稳的信号,所以对信号的处理都使用短时自相关函数。短时自相关函数是在信号的第N个样本点附近用短时窗截取一段信号,做自相关计算所得的结果

Rm(k)=Σx(n)x(n-k)

式中,n表示窗函数是从第n点开始加入。

2、实验结果分析

读取wav文件

function pitch

x=wavread('E:\yuuyin\isolated word.WAV');%读取声音文件

figure(1);

stem(x,'.'); %显示声音信号的波形得到的波形如下:

利用自相关法进行基音周期估计

n=160; %取20ms的声音片段,即160个样点

for m=1:length(x)/n; %对每一帧求短时自相关函数

for k=1:n;

Rm(k)=0;

for i=(k+1):n;

Rm(k)=Rm(k)+x(i+(m-1)*n)*x(i-k+(m-1)*n);

end

end

p=Rm(10:n); %防止误判,去掉前边10个数值较大的点

[Rmax,N(m)]=max(p); %读取第一个自相关函数的最大点end %补回前边去掉的10个点

N=N+10;

T=N/8; %算出对应的周期

figure(2);stem(T,'.');axis([0 length(T) 0 11]);

xlabel('帧数(n)');ylabel('周期(ms)');title('各帧基音周期');

结果如下图:

由图中可以看出基音周期大约为10ms,但是图中存在太多的野点,为此,需要对此进行进一步的处理,即去除野点。

去除野点

T1= medfilt1(T,5); %去除野点

figure(3);stem(T1,'.');axis([0 length(T1) 0 11]);

xlabel('帧数(n)');ylabel('周期(ms)');title('各帧基音周期');

得到的结果如下:

3、实验代码

function pitch

x=wavread('E:\yuuyin\isolated word.WAV');%读取声音文件

figure(1);

stem(x,'.'); %显示声音信号的波形

n=160; %取20ms的声音片段,即160个样点for m=1:length(x)/n; %对每一帧求短时自相关函数

for k=1:n;

Rm(k)=0;

for i=(k+1):n;

Rm(k)=Rm(k)+x(i+(m-1)*n)*x(i-k+(m-1)*n);

end

end

p=Rm(10:n); %防止误判,去掉前边10个数值较大的点

[Rmax,N(m)]=max(p); %读取第一个自相关函数的最大点end %补回前边去掉的10个点

N=N+10;

T=N/8; %算出对应的周期

figure(2);stem(T,'.');axis([0 length(T) 0 11]);

xlabel('帧数(n)');ylabel('周期(ms)');title('各帧基音周期');

T1= medfilt1(T,5); %去除野点

figure(3);stem(T1,'.');axis([0 length(T1) 0 11]);

xlabel('帧数(n)');ylabel('周期(ms)');title('各帧基音周期');

作业5:估计一段语音的前3个共振峰频率

1、实验原理

(1)共振峰的概念

共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接来源,

而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要

的特征参数,已经广泛的应用于语音识别的主要特征和语音编码传输的基本信息。共振峰信息包含在频率包络之中,共振峰参数提取的关键是估计自然语音频

谱包络,一般认为谱包络中最大值就是共振峰。

共振峰参数包括共振峰频率,频带宽度和幅值,共振峰信息包含在频率包络之中,并认为谱包络中最大值就是共振峰,利用语音频谱傅里叶变换相应的低频部分进

行逆变换,就可以得到语音频谱的包络曲线。依据频谱包络线各峰值能量的大

小确定出第一到第四共振峰。

(2)提取共振峰的方法

基于线性预测(LPC)的共振峰提取方法。一种有效的频谱包络估计方法是

从线性预测分析角度推导出声道滤波器,根据这个声道滤波器找出共振峰。虽然

线性预测法也有一定的缺点,如其频谱林灵敏度于人耳不想匹配。但对于许多应

用来说,它仍然是一种行之有效的方法。线性预测共振峰通常有两种途径可供选择:一种途径是利用一种标准的寻找复根的程序计算预测误差滤波器的根,称为

求根法;另一种途径是找出由预测其导出的频谱包络中的局部极大值,称为选峰法。

2、实验结果分析

选取语音文件monologue speech_female,运行程序,得到的结果为:

formants =

1.0e+003 *

0.686271282561051 1.758603163256764 2.592660479271902

4.000000000000000

所以该段语音的前三个共振峰频率大约为:686.27HZ、1758.6HZ、

2592.7HZ

3、实验代码

Fs=8000;

x=wavread('E:\yuuyin\monologue speech_female.wav')

x1 = x.*hamming(length(x));

preemph = [1 0.63];

x1 = filter(1,preemph,x1);

A = lpc(x1,8);

rts = roots(A);

rts = rts(imag(rts)>=0);

angz = atan2(imag(rts),real(rts));

[frqs,indices] = sort(angz.*(Fs/(2*pi)));

bw = -1/2*(Fs/(2*pi))*log(abs(rts(indices)));

nn = 1;

for kk = 1:length(frqs)

if (frqs(kk) > 90 && bw(kk) <400) formants(nn) = frqs(kk);

nn = nn+1;

end

end

formants

语音信号处理实验指导书

语音信号处理实验指导书 实验一 语音信号采集与简单处理 一、 实验目的、要求 (1)掌握语音信号采集的方法 (2)掌握一种语音信号基音周期提取方法 (3)掌握短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 基本概念: (a )短时过零率: 短时内,信号跨越横轴的情况,对于连续信号,观察语音时域波形通过横轴的情况;对于离散信号,相邻的采样值具有不同的代数符号,也就是样点改变符号的次数。 对于语音信号,是宽带非平稳信号,应考察其短时平均过零率。 其中sgn[.]为符号函数 ?? ?? ?<=>=0 x(n)-1sgn(x(n))0 x(n)1sgn(x(n)) 短时平均过零的作用 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 2.从背景噪声中找出是否有语音,以及语音的起点。 (b )基音周期 基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 ∑--= -=1 )]1(sgn[)](sgn[21N m n n n m x m x Z

由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。②声道共振峰有时会严重影响激励信号的谐波结构,所以,从语音信号中直接取出仅和声带振动有关的激励信号的信息并不容 易。③语音信号本身是准周期性的(即音调是有变化的),而且其波形的峰值点或过零点受共振峰的结构、噪声等的影响。④基音周期变化范围大,从老年男性的50Hz 到儿童和女性的450Hz ,接近三个倍频程,给基音检测带来了一定的困难。由于这些困难,所以迄今为止尚未找到一个完善的方法可以对于各类人群(包括男、女、儿童及不向语种)、各类应用领域和各种环境条件情况下都能获得满意的检测结果。 尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT 、谱图法、小波法等等。 三、使用仪器、材料 微机(带声卡)、耳机,话筒。 四、 实验步骤 (1)语音信号的采集 利用Windows 语音采集工具采集语音信号,将数据保存wav 格式。 采集一组浊音信号和一组清音信号,信号的长度大于3s 。 (2)采用短时相关函数计算语音信号浊音基音周期,考虑窗长度对基音周期计算的影响。采用倒谱法求语音信号基音周期。 (3)计算短时过零率,清音和浊音的短时过零率有何区别。 五、实验过程原始记录(数据,图表,计算) 短时过零率 短时相关函数 P j j n s n s j R N j n n n n ,,1) ()()(1 =-=∑-= ∑--=-=10 )]1(sgn[)](sgn[21N m n n n m x m x Z

语音信号处理实验报告

语音信号处理实验 班级: 学号: 姓名:

实验一 基于MATLAB 的语音信号时域特征分析(2学时) 1) 短时能量 (1)加矩形窗 a=wavread('mike.wav'); a=a(:,1); subplot(6,1,1),plot(a); N=32; for i=2:6 h=linspace(1,1,2.^(i-2)*N);%形成一个矩形窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if (i==2) ,legend('N=32'); elseif (i==3), legend('N=64'); elseif (i==4) ,legend('N=128'); elseif (i==5) ,legend('N=256'); elseif (i==6) ,legend('N=512'); end end 00.51 1.52 2.5 3 x 10 4 -1 100.5 1 1.5 2 2.5 3x 10 4 024 N=3200.5 1 1.5 2 2.5 3x 10 4 05 N=6400.5 1 1.5 2 2.5 3x 10 4 0510 N=12800.5 1 1.5 2 2.5 3x 10 4 01020 N=2560 0.5 1 1.5 2 2.5 3x 10 4 02040 N=512 (2)加汉明窗 a=wavread('mike.wav'); a=a(:,1); subplot(6,1,1),plot(a); N=32;

for i=2:6 h=hanning(2.^(i-2)*N);%形成一个汉明窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if (i==2), legend('N=32'); elseif (i==3), legend('N=64'); elseif (i==4) ,legend('N=128'); elseif (i==5) ,legend('N=256'); elseif (i==6) ,legend('N=512'); end end 00.51 1.52 2.5 3 x 10 4 -1 100.5 1 1.5 2 2.5 3x 10 4 012 N=3200.5 1 1.5 2 2.5 3x 10 4 024 N=6400.5 1 1.5 2 2.5 3x 10 4 024 N=12800.5 1 1.5 2 2.5 3x 10 4 0510 N=2560 0.5 1 1.5 2 2.5 3x 10 4 01020 N=512 2) 短时平均过零率 a=wavread('mike.wav'); a=a(:,1); n=length(a); N=320; subplot(3,1,1),plot(a); h=linspace(1,1,N); En=conv(h,a.*a); %求卷积得其短时能量函数En subplot(3,1,2),plot(En); for i=1:n-1 if a(i)>=0 b(i)= 1;

语音信号处理答案

二、问答题(每题分,共分) 、语音信号处理主要研究哪几方面的内容? 语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科,语音信号处理的理论和研究包括紧密结合的两个方面:一方面,从语言的产生和感知来对其进行研究,这一研究与语言、语言学、认知科学、心理、生理等学科密不可分;另一方面,是将语音作为一 种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法 和技术。 、语音识别的研究目标和计算机自动语音识别的任务是什么? 语音识别技术,也被称为自动语音识别,(),其目标是将人类的语音中的词汇内容转换为 计算机可读的输入,例如按键、二进制编码或者字符序列。 计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本 或命令的高技术。 、语音合成模型关键技术有哪些? 语音合成是实现人机语音通信,建立一个有听和讲能力的口语系统所需的两项关键技术,该系统主要由三部分组成:文本分析模块、韵律生成模块和声学模块。.如何取样以精确地抽取人类发信的主要特征,.寻求什么样的网络特征以综合声道的频率响应,.输出合成声音的质量如何保证。 、语音压缩技术有哪些国际标准? 二、名词解释(每题分,共分) 端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。 共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。 语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。 码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义 公示,用最少的搜素和计算失真的运算量。 语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量 三、简答题(每题分,共分) 、简述如何利用听觉掩蔽效应。 一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。人耳的掩蔽效应一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声 音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者 说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明,—绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。在范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。在掩蔽情况下,提高被掩蔽弱音的强度, 使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限),被掩蔽弱音必须提高的分贝值称为 掩蔽量(或称阈移)。 、简述时间窗长与频率分辨率的关系。 采样周期、窗口长度和频率分辨率△之间存在下列关系:△(*) 可见,采样周期一定时,△随窗口宽度的增加而减少,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。 、简述时域分析的技术(最少三项)及其在基因检测中的应用。()

语音信号处理 (第2版)赵力 编著 语音信号处理勾画要点

语音信号处理(第2版)赵力编著 重点考点 第2章语音信号处理的基础知识 1.语音(Speech)是声音(Acoustic)和语言(Language)的组合体。可以这样定义语音:语音是由一连串的音组成语言的声音。 2.人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)理解阶段(5)接收阶段。 3.语音是人的发声器官发出的一种声波,它具有一定的音色,音调,音强和音长。其中,音色也叫音质,是一种声音区别于另一种声音的基本特征。音调是指声音的高低,它取决于声波的频率。声音的强弱叫音强,它由声波的振动幅度决定。声音的长短叫音长,它取决于发音时间的长短。 4.说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。任何语言都有语音的元音(Vowel)和辅音(Consonant)两种音素。 5.元音的另一个重要声学特性是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。 6.区分语音是男声还是女声、是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。 7.浊音的声带振动基本频率称基音周期(或基音频率),F0表示。 8.人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉掩蔽效应。 9.掩蔽效应分为同时掩蔽和短时掩蔽。 10.激励模型:一般分成浊音激励和清音激励。浊音激励波是一个以基音周期为周期的斜三角脉冲串。 11.声道模型:一是把声道视为由多个等长的不同截面积的管子串联而成的系统。按此观点推导出的叫“声管模型”。另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。 12.完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。 13.语谱图:人们致力于研究语音的时频分析特性,把和时序相关的傅立叶分析的显示图形。 第三章语音信号分析 1.贯穿于语音分析全过程的是“短时分析技术”。 2.语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码(一般就是PCM码);预处理一般包括预加重、加窗和分帧等。 3.预滤波的目的有两个:

语音信号处理实验报告

通信与信息工程学院 信息处理综合实验报告 班级:电子信息工程1502班 指导教师: 设计时间:2018/10/22-2018/11/23 评语: 通信与信息工程学院 二〇一八年 实验题目:语音信号分析与处理 一、实验内容 1. 设计内容 利用MATLAB对采集的原始语音信号及加入人为干扰后的信号进行频谱分析,使用窗函数法设计滤波器滤除噪声、并恢复信号。 2.设计任务与要求 1. 基本部分

(1)录制语音信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (2)对所录制的语音信号加入干扰噪声,并对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (3)分别利用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman 窗几种函数设计数字滤波器滤除噪声,并画出各种函数所设计的滤波器的频率响应。 (4)画出使用几种滤波器滤波后信号时域波形和频谱,对滤波前后的信号、几种滤波器滤波后的信号进行对比,分析信号处理前后及使用不同滤波器的变化;回放语音信号。 2. 提高部分 (5)录制一段音乐信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (6)利用MATLAB产生一个不同于以上频段的信号;画出信号频谱图。 (7)将上述两段信号叠加,并加入干扰噪声,尝试多次逐渐加大噪声功率,对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (8)选用一种合适的窗函数设计数字滤波器,画出滤波后音乐信号时域波形和频谱,对滤波前后的信号进行对比,回放音乐信号。 二、实验原理 1.设计原理分析 本设计主要是对语音信号的时频进行分析,并对语音信号加噪后设计滤波器对其进行滤波处理,对语音信号加噪声前后的频谱进行比较分析,对合成语音信号滤波前后进行频谱的分析比较。 首先用PC机WINDOWS下的录音机录制一段语音信号,并保存入MATLAB软件的根目录下,再运行MATLAB仿真软件把录制好的语音信号用audioread函数加载入MATLAB仿真软件的工作环境中,输入命令对语音信号进行时域,频谱变换。 对该段合成的语音信号,分别用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman窗几种函数在MATLAB中设计滤波器对其进行滤波处理,滤波后用命令可以绘制出其频谱图,回放语音信号。对原始语音信号、合成的语音信号和经过滤波器处理的语音信号进行频谱的比较分析。 2.语音信号的时域频域分析 在Matlab软件平台下可以利用函数audioread对语音信号进行采样,得到了声音数据变量y,同时把y的采样频率Fs=44100Hz放进了MATALB的工作空间。

《语音信号处理》期末考试试题

2011-2012学年第一学期 《语音信号处理》期末考试试题(A) 适用班级:时量:120分钟闭卷记分: 考生班级:姓名:学号: 注:答案全部写在答题纸上,写在试卷上无效! 一、填空题:(共7小题,每空2分,共20分) 1、矢量量化系统主要由编码器和组成,其中编码器主要 是由搜索算法和构成。 2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰 模型:级联型、并联型和。 3、语音编码按传统的分类方法可以分为、和混合 编码。 4、对语音信号进行压缩编码的基本依据是语音信号的和人 的听觉感知机理。 5、汉语音节一般由声母、韵母和三部分组成。 6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时 频分析特性;另一个是人耳听觉的效应。 7、句法的最小单位是,词法的最小单位是音节,音节可 以由构成。 二、判断题:(共3小题,每小题2分,共6分)

1、预测编码就是利用对误差信号进行编码来降低量化所需的比 特数,从而使编码速率大幅降低。() 2、以线性预测分析-合成技术为基础的参数编码,一般都是根据 语音信号的基音周期和清/浊音标志信息来决定要采用的激 励信号源。() 3、自适应量化PCM就是一种量化器的特性,能自适应地随着输 入信号的短时能量的变化而调整的编码方法。() 三、单项选择题:(共3小题,每小题3分,共9分) 1、下列不属于衡量语音编码性能的主要指标是()。 (A)编码质量(B)矢量编码(C)编码速率(D)坚韧性 2、下列不属于编码器的质量评价的是() (A)MOS (B)DAM(C)DRT(D)ATC 3、限词汇的语音合成技术已经比较成熟了,一般我们是采用() 作为合成基元。 (A)词语(B)句子(C)音节(D)因素 四、简答题:(共2小题,每小题12分,共24分) 1、画出矢量量化器的基本结构,并说明其各部分的作用。 2、试画出语音信号产生的离散时域模型的原理框图,并说明各 部分的作用。 五、简答题:(共5小题,前三小题,每题5分,后两小题,每题10分,共35分) 1、线性预测分析的基本思想是什么?

《语音信号处理》实验报告材料

实用 中南大学 信息科学与工程学院 语音信号处理 实验报告 指导老师:覃爱娜 学生班级:信息0704 学生名称:阮光武 学生学好:0903070430 提交日期:2010年6月18日

实验一 语音波形文件的分析和读取 一、实验的任务、性质与目的 本实验是选修《语音信号处理》课的电子信息类专业学生的基础实验。通过实验: (1)掌握语音信号的基本特性理论:随机性,时变特性,短时平稳性,相关性等; (2)掌握语音信号的录入方式和*.WAV音波文件的存储结构; (3)使学生初步掌握语音信号处理的一般实验方法。 二、实验原理和步骤: WAV文件格式简介 WAV文件是多媒体中使用了声波文件的格式之一,它是以RIFF格式为标准。每个WAV文件的头四个字节就是“RIFF”。WAV文件由文件头和数据体两大部分组成,其中文件头又分为RIFF/WAV文件标识段和声音数据格式说明段两部分。常见的WAV声音文件有两种,分别对应于单声道(11.025KHz采样率、8Bit的采样值)和双声道(44.1KHz采样率、16Bit的采样值)。采样率是指声音信号在“模拟→数字”转换过程中,单位时间内采样的次数;采样值是指每一次采样周期内声音模拟信号的积分值。对于单声道声音文件,采样数据为8位的短整数(short int 00H-FFH);而对于双声道立体声声音文件,每次采样数据为一个16位的整数(int),高八位和低八位分别代表左右两个声道。WAV文件数据块包含以脉冲编码调制(PCM)格式表示的样本。在单声道WAV文件中,道0代表左声道,声道1代表右声道;在多声道WAV文件中,样本是交替出现的。WAV文件的格式见表1。

(完整)《语音信号处理》期末试题总结,推荐文档

2011-2013学年 《语音信号处理》期末考试试题 适用班级:时量:120分钟闭卷记分: 考生班级:姓名:学号: 注:答案全部写在答题纸上,写在试卷上无效! 一、填空题:(每空2分) 1、矢量量化系统主要由编码器和译码器组成,其中编码器主要是由搜索算法和码书构成。P101 2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。P18 3、语音编码按传统的分类方法可以分为波形编码、参数编码和混合编码。P137 4、对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。 P137-138 5、汉语音节一般由声母、韵母和声调三部分组成。P10 6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉的掩蔽效应。P22 7、句法的最小单位是词,词法的最小单位是音节,音节可以由音素构成。P9 8、复倒谱分析中避免相位卷绕的算法,常用的有微分法和最小相位信号法。P62 9、语音信号处理也可以简称为语音处理,它是利用数字信号处理技术对语音信号进行处理的一门学科,包括语音编码、语音合成、语音识别、说话人识别和语音增强等五大分支。P3 10、语音信号处理也可以简称为语音处理,它是以数字信号处理和语音学为基础而形成的一个综合新的学科,包括发音语音学、声学语音学、听觉语音学和心理学等四大分支。P2,6 11、语音的四大要素:音质、音调、音强和音长。P9 12、人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即浊音、清音、和爆破音。P8 13、元音的一个重要声学特性是共振峰,它是区别不同元音的重要参数,它一般包括共振峰频率的位置和频带宽度。 14、语音信号的倒谱分析就是求取语音倒谱特征参数的过程,它可以通过同态信号处理来实现。P56 二、判断题:(每小题2分)√× 1、预测编码就是利用对误差信号进行编码来降低量化所需的比特数,从而使编码速率大幅降低。(×)P143 2、以线性预测分析-合成技术为基础的参数编码,一般都是根据语音信号的基音周期和清/浊音标志信息来决定要采用的激励信号源。(×)P181 3、自适应量化PCM就是一种量化器的特性,能自适应地随着输入信号的短时能量的变化而调整的编码方法。(×)P142 4、线性预测法正是基于全极点模型假定,采用时域均方误差最小准则来估计模型参数的。(×)P72 5、波形编码是依赖模型假定的语音编码方法。(×)P137 6、掩蔽效应是使一个声音A能感知的阀值因另一个声音B的出现而提高的现象,这时A叫

大学本科语音信号处理实验讲义8学时

语音信号处理实验讲义 时间:2011-12

目录 实验一语音信号生成模型分析 (3) 实验二语音信号时域特征分析 (7) 实验三语音信号频域特征分析 (12) 实验四语音信号的同态处理和倒谱分析 (16)

实验一 语音信号生成模型分析 一、实验目的 1、了解语音信号的生成机理,了解由声门产生的激励函数、由声道产生的调制函数和由嘴唇产生的辐射函数。 2、编程实现声门激励波函数波形及频谱,与理论值进行比较。 3、编程实现已知语音信号的语谱图,区分浊音信号和清音信号在语谱图上的差别。 二、实验原理 语音生成系统包含三部分:由声门产生的激励函数()G z 、由声道产生的调制函数()V z 和由嘴唇产生的辐射函数()R z 。语音生成系统的传递函数由这三个函数级联而成,即 ()()()()H z G z V z R z = 1、激励模型 发浊音时,由于声门不断开启和关闭,产生间隙的脉冲。经仪器测试它类似于斜三角波的脉冲。也就是说,这时的激励波是一个以基音周期为周期的斜三角脉冲串。单个斜三角波的频谱表现出一个低通滤波器的特性。可以把它表示成z 变换的全极点形式 12 1()(1) cT G z e z --= -? 这里c 是一个常数,T 是脉冲持续时间。周期的三角波脉冲还得跟单位脉冲串的z 变换相乘: 112 1 ()()()1(1)v cT A U z E z G z z e z ---=?= ?--? 这就是整个激励模型,v A 是一个幅值因子。 2、声道模型 当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,把它称为共振峰。 一个二阶谐振器的传输函数可以写成 12 ()1i i i i A V z B z C z --= -- 实践表明,用前3个共振峰代表一个元音足够了。对于较复杂的辅音或鼻音共振峰要到5个以上。多个()i V z 叠加可以得到声道的共振峰模型 12 1 11 ()()11R r r M M i r i N k i i i i k k b z A V z V z B z C z a z -=---======---∑∑∑ ∑ 3、辐射模型 从声道模型输出的是速度波,而语音信号是声压波。二者倒比称为辐射阻抗,它表征了

语音信号处理实验报告实验二

通信工程学院12级1班 罗恒 2012101032 实验二 基于MATLAB 的语音信号频域特征分析 一、 实验要求 要求根据已有语音信号,自己设计程序,给出其倒谱、语谱图的分析结果,并根据频域分析方法检测所分析语音信号的基音周期或共振峰。 二、 实验目的 信号的傅立叶表示在信号的分析与处理中起着重要的作用。因为对于线性系统来说,可以很方便地确定其对正弦或复指数和的响应,所以傅立叶分析方法能完善地解决许多信号分析和处理问题。另外,傅立叶表示使信号的某些特性变得更明显,因此,它能更深入地说明信号的各项红物理现象。 由于语音信号是随着时间变化的,通常认为,语音是一个受准周期脉冲或随机噪声源激励的线性系统的输出。输出频谱是声道系统频率响应与激励源频谱的乘积。声道系统的频率响应及激励源都是随时间变化的,因此一般标准的傅立叶表示虽然适用于周期及平稳随机信号的表示,但不能直接用于语音信号。由于语音信号可以认为在短时间内,近似不变,因而可以采用短时分析法。 三、 实验设备 1.PC 机; 2.MATLAB 软件环境; 四、 实验内容 1.上机前用Matlab 语言完成程序编写工作。 2.程序应具有加窗(分帧)、绘制曲线等功能。 3.上机实验时先调试程序,通过后进行信号处理。 4.对录入的语音数据进行处理,并显示运行结果。 5.依次给出其倒谱、语谱图的分析结果。 6. 根据频域分析方法检测所分析语音信号的基音周期或共振峰。 五、 实验原理及方法 1、短时傅立叶变换 由于语音信号是短时平稳的随机信号,某一语音信号帧的短时傅立叶变换的定义为: 其中w(n -m)是实窗口函数序列,n 表示某一语音信号帧。令n -m=k',则得到 ()()()jw jwm n m X e x m w n m e ∞-=-∞= -∑

数字语音信号处理实验报告

语音信号处理实验报告 专业班级电子信息1203 学生姓名钟英爽 指导教师覃爱娜 完成日期2015年4月28日 电子信息工程系 信息科学与工程学院

实验一语音波形文件的分析和读取 一、实验学时:2 学时 二、实验的任务、性质与目的: 本实验是选修《语音信号处理》课的电子信息类专业学生的基础实验。通过实验 (1)掌握语音信号的基本特性理论:随机性,时变特性,短时平稳性,相关性等; (2)掌握语音信号的录入方式和*.WAV音波文件的存储结构; (3)使学生初步掌握语音信号处理的一般实验方法。 三、实验原理和步骤: WAV 文件格式简介 WAV 文件是多媒体中使用了声波文件的格式之一,它是以RIFF格式为标准。每个WAV 文件的头四个字节就是“RIFF”。WAV 文件由文件头和数据体两大部分组成,其中文件头又分为RIFF/WAV 文件标识段和声音数据格式说明段两部分。常见的WAV 声音文件有两种,分别对应于单声道(11.025KHz 采样率、8Bit 的采样值)和双声道(44.1KHz 采样率、16Bit 的采样值)。采样率是指声音信号在“模拟→数字”转换过程中,单位时间内采样的次数;采样值是指每一次采样周期内声音模拟信号的积分值。对于单声道声音文件,采样数据为8 位的短整数(short int 00H-FFH);而对于双声道立体声声音文件,每次采样数据为一个16 位的整数(int),高八位和低八位分别代表左右两个声道。WAV 文件数据块包含以脉冲编码调制(PCM)格式表示的样本。在单声道WAV 文件中,道0 代表左声道,声道1 代表右声道;在多声道WAV 文件中,样本是交替出现的。WAV 文件的格式 表1 wav文件格式说明表

语音信号处理试验教程

语音信号处理试验 实验一:语音信号时域分析 实验目的: (1)录制两段语音信号,内容是“语音信号处理”,分男女声。 (2)对语音信号进行采样,观察采样后语音信号的时域波形。 实验步骤: 1、使用window自带录音工具录制声音片段 使用windows自带录音机录制语音文件,进行数字信号的采集。启动录音机。录制一段录音,录音停止后,文件存储器的后缀默认为.Wav。将录制好文件保存,记录保存路径。男生女生各录一段保存为test1.wav和test2.wav。 图1基于PC机语音信号采集过程。 2、读取语音信号 在MATLAB软件平台下,利用wavread函数对语音信号进行采样,记住采样频率和采样点数。通过使用wavread函数,理解采样、采样频率、采样位数等概念! Wavread函数调用格式: y=wavread(file),读取file所规定的wav文件,返回采样值放在向量y中。

[y,fs,nbits]=wavread(file),采样值放在向量y中,fs表示采样频率(hz),nbits表示采样位数。 y=wavread(file,N),读取前N点的采样值放在向量y中。 y=wavread(file,[N1,N2]),读取从N1到N2点的采样值放在向量y中。 3、编程获取语音信号的抽样频率和采样位数。 语音信号为test1.wav和test2.wav,内容为“语音信号处理”,两端语音保存到工作空间work文件夹下。在M文件中分别输入以下程序,可以分两次输入便于观察。 [y1,fs1,nbits1]=wavread('test1.wav') [y2,fs2,nbits2]=wavread('test2.wav') 结果如下图所示 根据结果可知:两端语音信号的采样频率为44100HZ,采样位数为16。 4、语音信号的时域分析 语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且夜市最直观的是它的时域波形。语音信

语音信号处理实验报告实验一

通信工程学院12级1班罗恒2012101032 实验一语音信号的低通滤波和短时分析综合实验 一、实验要求 1、根据已有语音信号,设计一个低通滤波器,带宽为采样频率的四分之一,求输出信号; 2、辨别原始语音信号与滤波器输出信号有何区别,说明原因; 3、改变滤波器带宽,重复滤波实验,辨别语音信号的变化,说明原因; 4、利用矩形窗和汉明窗对语音信号进行短时傅立叶分析,绘制语谱图并估计基音周期,分析两种窗函数对基音估计的影响; 5、改变窗口长度,重复上一步,说明窗口长度对基音估计的影响。 二、实验目的 1.在理论学习的基础上,进一步地理解和掌握语音信号低通滤波的意义,低通滤波分析的基本方法。 2.进一步理解和掌握语音信号不同的窗函数傅里叶变化对基音估计的影响。 三、实验设备 1.PC机; 2.MATLAB软件环境; 四、实验内容 1.上机前用Matlab语言完成程序编写工作。 2.程序应具有加窗(分帧)、绘制曲线等功能。 3.上机实验时先调试程序,通过后进行信号处理。 4.对录入的语音数据进行处理,并显示运行结果。 5. 改变滤波带宽,辨别与原始信号的区别。 6.依据曲线对该语音段进行所需要的分析,并且作出结论。 7.改变窗的宽度(帧长),重复上面的分析内容。 五、实验原理及方法 利用双线性变换设计IIR滤波器(巴特沃斯数字低通滤波器的设计),首先要设计出满足指标要求的模拟滤波器的传递函数Ha(s),然后由Ha(s)通过双线性变换可得所要设计的IIR滤波器的系统函数H(z)。如果给定的指标为数字滤波器的指标,则首先要转换成模拟滤波器的技术指标,这里主要是边界频率Wp和Ws 的转换,对ap和as指标不作变化。边界频率的转换关系为∩=2/T tan(w/2)。接着,按照模拟低通滤波器的技术指标根据相应设计公式求出滤波器的阶数N和3dB截止频率∩c ;根据阶数N查巴特沃斯归一化低通滤波器参数表,得到归一化传输函数Ha(p);最后,将p=s/ ∩c 代入Ha(p)去归一,得到实际的模拟滤波器传输函数Ha(s)。之后,通过双线性变换法转换公式s=2/T((1-1/z)/(1+1/z))得到所要设计的IIR滤波器的系统函数H(z)。

语音信号处理实验报告11

实验一 语音信号的时域分析 一、 实验目的、要求 (1)掌握语音信号采集的方法 (2)掌握一种语音信号基音周期提取方法 (3)掌握语音信号短时能量和短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 语音是一时变的、非平稳的随机过程,但由于一段时间内(10-30ms)人的声带和声道形状的相对稳定性,可认为其特征是不变的,因而语音的短时谱具有相对稳定性。在语音分析中可以利用短时谱的这种平稳性,将语音信号分帧。 10~30ms 相对平稳,分析帧长一般为20ms 。 语音信号的分帧是通过可移动的有限长度窗口进行加权的方法来实现的。几种典型的窗函数有:矩形窗、汉明窗、哈宁窗、布莱克曼窗。 语音信号的能量分析是基于语音信号能量随时间有相当大的变化,特别是清音段的能量一般比浊音段的小得多。定义短时平均能量 [][]∑∑+-=∞-∞=-=-= n N n m m n m n w m x m n w m x E 122)()()()( 下图说明了短时能量序列的计算方法,其中窗口采用的是直角窗。 过零就是信号通过零值。对于连续语音信号,可以考察其时域波形通过时间轴的情况。而对于离散时间信号,如果相邻的取样值改变符号则称为过零。由此可以计算过零数,过零数就是样本改变符号的次数。单位时间内的过零数称为平

均过零数。 语音信号x (n )的短时平均过零数定义为 ()[]()[]()()[]()[]() n w n x n x m n w m x m x Z m n *--=---= ∑∞ -∞=1sgn sgn 1sgn sgn 式中,[]?sgn 是符号函数,即 ()[]()()()()???<-≥=01 01sgn n x n x n x 短时平均过零数可应用于语音信号分析中。发浊音时,尽管声道有若干个共振峰,但由于声门波引起了谱的高频跌落,所以其语音能量约集中干3kHz 以下。而发清音时.多数能量出现在较高频率上。既然高频率意味着高的平均过零数,低频率意味着低的平均过零数,那么可以认为浊音时具有较低的平均过零数,而清音时具有较高的平均过零数。然而这种高低仅是相对而言,没有精确的数值关系。 短时平均过零的作用 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 2.从背景噪声中找出是否有语音,以及语音的起点。 基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的

广州大学 数字语音处理复习题

第一章绪论 1.语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性的学科。p1d3 2.语音信号处理的应用技术列举:语音编码、语音识别、语音合成、说话人识别和语种辨识、语音转换和语音隐藏(语音信息伪装、语音数字水印技术)、语音增强等p4d3 3.当前语音信号处理应用的3个主流技术:矢量量化技术、隐马尔可夫模型技术、人工神经网络技术。p4d3 第二章语音信号处理基础知识 1.语音是组成语言的声音,是声音(Acoustic)和语言(Language)的组合体。p5d2 2.语音的基本声学特性包括音色,音调,音强、音长。p7d2 音色:也叫音质,是一种声音区别于另一种声音的基本特征。 音调:是指声音的高低,它取决于声波的频率。 音强:声音的强弱,它由声波的振动幅度决定。 音长:声音的长短,它取决于发音时间的长短。 3. 说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。p7d3 4.任何语言都有语音的元音(V owel)和辅音(Consonant)两种音素。p7d3 8.当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为元音。p7d3 9.呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。p7d3 7.发辅音时由声带是否振动引起浊音和清音的区别,声带振动的是浊音,声带不振动的是清音。p7d3 8.元音构成音节的主干(因为无论从长度还是能量看,元音在音节中都占主要部分。)p7d3 9.元音的一个重要声学特性是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。p7d5 16.人类的声道和鼻道可以看作是非均匀截面的声道管,声道管的谐振频率称为共振峰频率(共振峰)。p7d5 10.汉语音节一般由声母、韵母和声调三部分组成。汉语普通话中有6000多个常用字,每个汉字是一个音节。p10d6 10. 发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期就称为基音周期(pitch),其倒数成为基音频率。 11.汉语是一种声调语言,声调的变化就是浊音基音周期(或基音频率)的变化。p14d5 13. 无论是单音节语音还是连续语音,其中浊音段的基因频率是随时间而变化的,基因频率的不同轨迹成为声调。p9d11 14. 当两个响度不同的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象成为掩蔽效应。 15.语音信号的生成模型可由激励模型、声道模型和辐射模型三个子模型构成,三者是串联(串联/并联)的关系。p21-26 16.语音信号激励模型一般分为浊音激励和清音激励,发浊音时激励模型为脉冲波。p21d6 17.语音信号激励模型一般分为浊音激励和清音激励,发清音时激励信号通常被模拟为随机白噪声。p22d2

新语音信号处理实验指导2015年秋

《语音信号处理》 实验指导书 哈尔滨理工大学 自动化学院 电子信息科学与技术系 2014.10

语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。同时,语言也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为信息处理系统建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化程度。语音信号处理是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。虽然从事这一领域研究的人员主要来自信号与信息处理及计算机应用等学科,但是它与语音学、语言学、声学、认知科学、生理学、心理学等许多学科也有非常密切的联系。 20世纪60年代中期形成的一系列数字信号处理的理论和算法,如数字滤波器、快速傅立叶变换(FFT)等是语音信号数字处理的理论和技术基础。随着信息科学技术的飞速发展,语音信号处理取得了重大的进展:进入70年代之后,提出了用于语音信号的信息压缩和特征提取的线性预测技术(LPC),并已成为语音信号处理最强有力的工具,广泛应用于语音信号的分析、合成及各个应用领域,以及用于输入语音与参考样本之间时间匹配的动态规划方法;80年代初一种新的基于聚类分析的高效数据压缩技术—矢量量化(VQ)应用于语音信号处理中;而用隐马尔可夫模型(HMM)描述语音信号过程的产生是80年代语音信号处理技术的重大发展,目前HMM已构成了现代语音识别研究的重要基石。近年来人工神经网络(ANN)的研究取得了迅速发展,语音信号处理的各项课题是促进其发展的重要动力之一,同时,它的许多成果也体现在有关语音信号处理的各项技术之中。 为了深入理解语音信号数字处理的基础理论、算法原理、研究方法和难点,根据数字语音信号处理教学大纲,结合课程建设的需求,我们编写了本实验指导书。

哈尔滨工程大学 语音信号处理实验报告

实 验 报 告 实验课程名称: 语音信号处理实验 姓名: 班级: 20120811 学号: 指导教师 张磊 实验教室 21B#293 实验时间 2015年4月12日 实验成绩 实验序号 实验名称 实验过程 实验结果 实验成绩 实验一 语音信号的端点检测 实验二 语音信号的特征提取 实验三 语音信号的基频提取

实验一 语音信号的端点检测 一、实验目的 1、掌握短时能量的求解方法 2、掌握短时平均过零率的求解方法 3、掌握利用短时平均过零率和短时能量等特征,对输入的语音信号进行端点检测。 二、实验设备 HP 计算机、Matlab 软件 三、实验原理 1、短时能量 语音信号的短时能量分析给出了反应这些幅度变化的一个合适的描述方法。对于信号)}({n x ,短时能量的定义如下: ∑ ∑∞ -∞ =∞ -∞ =*=-= -= m m n n h n x m n h m x m n w m x E )()()()()]()([222 2、短时平均过零率 短时平均过零率是指每帧内信号通过零值的次数。对于连续语音信号,可以 考察其时域波形通过时间轴的情况。对于离散信号,实质上就是信号采样点符号变化的次数。过零率在一定程度上可以反映出频率的信息。短时平均过零率的公式为: ∑∑-+=∞ -∞=--= ---=1)] 1(sgn[)](sgn[2 1 ) ()]1(sgn[)](sgn[21N n n m w w m n m x m x m n w m x m x Z 其中,sgn[.]是符号函数,即 ? ? ?<-≥=0)(10)(1 )](sgn[n x n x n x

最全2018年湖南省专业技术人员继续教育题库(保密)

第一篇保密法律法规篇 习题:1 .保密法属于那门法律的下位法:A. 宪法B. 行政法C. 经济法D. 刑法 2 .定密权属于何种权力:A. 公权力B. 国家权力C. 行政权力D. 私权力 3 .我国保密法隶属于那种法系:A. 英美法B. 大陆法C. 成文法D. 判例法 4 .国的保密法律法规有那几部分构成:A. 法律B. 总统行政命令C. 法规D. 习惯 5 .保密法与几个部门法有联系:A. 行政法B. 刑法C. 民法D. 社会法 6 .涉密工程这一概念来源于?中华人民共和国政府采购法?。 7 .涉密存储介质是指存储了涉密信息的硬盘、光盘、软盘、移动硬盘及U盘等。 8 .国家秘密的基本保密期限是,绝密级国家秘密不超过25年,机密级国家秘密不超过15年,秘密级国家秘密不超过10年。 9 .涉密人员的权益就是所谓的合法权益,就是法律确认的并受法律保护的公民、法人和其他组织所享有的一定的权利和利益。 10 .保密工作中的定密权可以委托给企事业单位。 11 .鉴于保密法与政府信息公开条例的不同,我国把两法分列入不同的法律部门。 12 .保密审查的原则是领导负责制。 13 .涉密人员在非涉密区域和时间内,可以自由通行国内外。 14 .中国中央办公厅规定,中央电分为“绝密、机密、秘密、内部和公开”五大类型。 15 .所有超过解密期限的保密内容,都可以自动公开。 1.AB 2.ABC 3.BC 4.AB 5.ABC 6.错 7.对 8.错 9.对10-13.错14.对15.错 第二篇保密管理篇 保密管理概述习题 1 .秘密包含国家秘密、工作秘密、商业秘密、个人隐私四种类型。 2 .在国家秘密具备实质要素、程序要素、时空要素三个要素。 3 .商业秘密具备秘密性、价值性、保护性、实用性四种特征。 4 .保密管理具有全程化、最小化、精准化、自主化、法制化五个基本原则。中国的保密管理思想习题 1 .党的第一次全国代表大会确定由一名领导人亲自负责文件的保密。 2 .邓小平在中央政治局会议上指出:“必须十分注意保守秘密,九分半不行,九分九不行,非十分不可”。 3 .1988年通过并于1989年实施的《中国人民共和国保守国家秘密法》是我国保密法制建设的里程碑。 4 .党的保密委员会最早成立于1949年。 5 .军分区以上的保密委员会由秘书长、参谋长、政治部主任、机要科(股)长、通信科长组成,以秘书长或参谋长为主任。 6 .保密依法行政是国家行政管理的重要组成部分。 7 .我国现行保密管理体制实行党管保密的原则,各级党委保密委员会办公室和各级保密行政管理部门是一个机构,两块牌子。 8 .1978年,党的十一届三中全会后,中央保密委员会办公室才开始恢复工作。 对、错、对、错、对、对、对、错 保密监督测试题 1 .保密检查的基本程序包括进行检查培训、制定检查方案、组织实施检查、做出检查结论、通报检查结果五个方面。

相关文档
最新文档