大学本科语音信号处理实验讲义8学时
语音信号处理实验大纲

语音信号处理
一、实验课程名称:语音信号处理
二、实验课程英文名称: Speech signal processing
三、实验课程编号: 0451714
四、实验课程性质:非独立设课
五、学时安排:理论课程学时42 实验课程学时12
六、实验课程学分:0学分
七、实验课程类型:专业课
八、实验课程要求:必修课
九、课程适用专业:电子信息科学与技术
十、教学目的:
使学生掌握语音信号各种处理方法的原理、算法、用matlab的编程方法和仿真。
通过实际应用和亲身体验,加深对所学知识的理解,增强动手能力。
十一、实验教学项目表
实验课教学内容项目表(必做)
十一、实验报告要求:
1.编写程序;
2.验证调试实验并写出调试结果,需指导教师确认。
十二、实验成绩评定:
分数分配:
预习:10%,操作:60%,实验报告:60%,创新能力:10%;
实验总计6个,满分20分,第一和第二个实验每个4分,第三、四、五、六个实验每个3分。
十三、教材及参考书:
1.《语音信号处理》.胡航编著.哈尔滨工业大学出版社
2.《语音信号处理实验指导书》自编
学院签署意见表。
《语音数字信号处理》课程介绍与教学大纲

《语音数字信号处理》课程简介课程编号:06044008课程名称:语音数字信号处理/ Speech Digital Signal Processing学分:2学时:32 (实验:0 上机:0 课外实践:0 )适用专业:电子信息工程建议修读学期:7开课单位:电气与信息工程学院电子信息与通信工程系先修课程:《数字信号处理》、《MATLAB及应用》、《随机信号处理》考核方式与成绩评定标准:作业、考试(闭卷)教材与主要参考书目:主要教材:《语音信号处理》主编:赵力机械工业出版社2011-6T参考书目:《离散时间语音信号处理》主编:夸特尔瑞电子工业出版社2004-87内容概述:《语音数字信号处理》是电子信息工程专业本科生的专业必修课程。
它系统地介绍了语音信号处理涉及的主要内容和方法,讲述语音信号的应用前景、语音信号处理流程及流程中涉及到的相关知识点,每个知识点通过案例仿真讲述其应用的结果。
主要内容分四部分:(1)基础部分:语音信号基础知识、人的发音原理、人的听觉原理、语音的数学模型;(2)语音信号分析方法:时域分析、频域分析、同态处理和线性预测分析;(3)语音信号涉及的新技术:矢量量化和隐马尔可夫模型;(4)语音的四个方面应用:语音编码、语音识别、语音合成和语音增强;通过《语音数字信号处理》学习,使学生掌握语音信号发音和听觉原理、语音信号的数字模型; 语音的时域、频域、倒谱、线性预测的分析方法;矢量量化;隐马尔可夫模型;语音波形编码、参数编码、混合编码;语音的合成;语音识别和语音增强的原理和技术,为学生毕业后从事语音处理工作和进一步研究相关课题打下一定的基础。
《嵌入式系统及应用》教学大纲课程编号:06044008课程名称:语音数字信号处理/ Speech Digital Signal Processing学分:2学时:32 (实验:0 上机:0 课外实践:0 )适用专业:电子信息工程建议修读学期:7开课单位:电气与信息工程学院电子信息与通信工程系先修课程:《数字信号处理》、《MATLAB及应用》、《随机信号处理》一、课程性质、目的与任务《语音数字信号处理》是电子信息工程专业本科生的专业必修课程。
语音信号处理(电气与电子工程学院)

四、实验条件
计算机、高分辨麦克、matlab 及相关软件。 五、实验步骤
可以使用已有工作空间文件也可以自己录制一段语音(录制方法见附加内容)
1、听一下 we_be10k(可用 sound) 2、使用函数 specgram_ex3p19.显示语谱图和语音波形。对比调用参数窗长 20ms (200 点)、帧间隔 1ms(10 点)和参数窗长 5ms(50 点)、帧间隔 1ms(10 点); 再对比窗长>20ms 或小于 5ms,以及帧间隔>1ms 时的语谱图说明宽带语谱图、窄 带语谱图与时频分辨率的关系及如何得到时频折中。
1-3
在自相关法中
1-1,1-3 变为
P
∑αk rn [i − k ] = rn [i − 0],i = 1, 2,3,...p
k =1
1-4
P
En = Rn [0] − ∑αk Rn [k ]
k =1
1-5
由 1-4 可列出方程组 1-6
⎛ ⎜ ⎜
Rn Rn
[0] [1]
Rn [1] Rn [0]
图2
图3
7
采用 MATLAB 中的录音函数 wavrecord()进行语音信号的录制。同样,选 择三种频率不同的采样率对同一语音信号进行采样,试听回放效果,进行比较。
二、实验涉及的 MATLAB 子函数 Wavrecord 功能:录制语音 调用格式: filename=wavrecord(N, fs, ‘dtype’);录制一段 N/fs 秒长度的语音信号,采样率为 fs Hz,缺省值为 11025Hz,dtype 是录制声音的数据类型。具体可通过 help wavrecord 命令查阅。 y=wavrecord(N, fs, ch);与上面语句不同的是最后一个参数,ch 是指录音的声 道,ch 为 1 是单声道,ch 为 2 是双声道。 Wavread 功能:把数据文件的声音数据赋给变量 x。 【x,fs,bits】=wavread(’filename’);把数据文件的声音数据赋给变量 x,同 时把 x 的采样频率 fs 和数据的位数 bits 放进 MATLAB 的工作空间。 Sound 功能:将变量 x 的数据转换成 MATLAB 的数据文件保存。 调用格式: Sound(x,fs,bits); Save 功能:将变量 x 的数据转换成 MATLAB 的数据文件保存。 调用格式: Save‘filename’x;将数据转换成文件名与‘filename’相同,扩展名为.mat 的数据并保存,以便用 MATLAB 的各种工具进行处理。
大学本科语音信号处理实验讲义8学时汇总

语音信号处理实验讲义时间:2011-12目录实验一语音信号生成模型分析 (3)实验二语音信号时域特征分析 (7)实验三语音信号频域特征分析 (12)实验四语音信号的同态处理和倒谱分析 (16)实验一 语音信号生成模型分析一、实验目的1、了解语音信号的生成机理,了解由声门产生的激励函数、由声道产生的调制函数和由嘴唇产生的辐射函数。
2、编程实现声门激励波函数波形及频谱,与理论值进行比较。
3、编程实现已知语音信号的语谱图,区分浊音信号和清音信号在语谱图上的差别。
二、实验原理语音生成系统包含三部分:由声门产生的激励函数()G z 、由声道产生的调制函数()V z 和由嘴唇产生的辐射函数()R z 。
语音生成系统的传递函数由这三个函数级联而成,即()()()()H z G z V z R z =1、激励模型发浊音时,由于声门不断开启和关闭,产生间隙的脉冲。
经仪器测试它类似于斜三角波的脉冲。
也就是说,这时的激励波是一个以基音周期为周期的斜三角脉冲串。
单个斜三角波的频谱表现出一个低通滤波器的特性。
可以把它表示成z 变换的全极点形式121()(1)cT G z e z --=-⋅这里c 是一个常数,T 是脉冲持续时间。
周期的三角波脉冲还得跟单位脉冲串的z 变换相乘:1121()()()1(1)v cT A U z E z G z z e z ---=⋅=⋅--⋅ 这就是整个激励模型,v A 是一个幅值因子。
2、声道模型当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。
反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,把它称为共振峰。
一个二阶谐振器的传输函数可以写成12()1i i i i A V z B z C z--=-- 实践表明,用前3个共振峰代表一个元音足够了。
对于较复杂的辅音或鼻音共振峰要到5个以上。
多个()i V z 叠加可以得到声道的共振峰模型012111()()11R r r M M i r i Nki i i i k k b z A V z V z B z C z a z -=---======---∑∑∑∑ 3、辐射模型从声道模型输出的是速度波,而语音信号是声压波。
《语音信号处理》讲稿第1章

1.语音信号处理的基本概念
(1)语音信号处理的研究范围 (2)语音信号处理的研究目标 (3)语音信号处理与前沿ห้องสมุดไป่ตู้科的结合 (4)语音信号处理与计算机技术的结合
1.语音信号处理的基本概念
语音信号处理研究重点: ①语音分析。 ②语音编码与压缩。 ③语音合成。 ④语音识别与理解。 ⑤语音增强。
2.语音信号处理的发展概况
语音处理研究的历史可以追溯到1876年 Bell发明电话,那是首次采用声电、电声转换 技术实现远距离语音通信。
2.语音信号处理的发展概况
在国内,语音处理方面有代表性的研究单 位有:清华大学、中国科学院声学所、西安电 子科技大学、四达公司、中国科学院自动化所、 微软中国研究院等。部分研究成果已经商品化。
2.语音信号处理的发展概况
国内有关语音技术的产品分为两大类:语 音合成技术和语音识别技术。
2.语音信号处理的发展概况
我国语音处理研究的起步比先进国家晚一 点,但在跟踪国外先进技术基础上,进步很快。 尤其在语音识别方面,成果突出,如研制成功 汉语听写机产品。这是因为,由于汉语音节种 类较少,结构很规则,便于以音节为基础实现 无限词汇识别,因而很快获得了可与国际先进 水平相比拟的成果。在语音合成方面,有限词 汇的语音合成器已在自动报时、报警、报站、 电话查询服务、玩具等方面得到了广泛的应用。
语音信号处理教学大纲

第六章:语音信号的波形编码
最优非线性压扩曲线的求解;正交镜像滤波器组与子带编码;MPEG-I Layer II音频编码技术;∑-△调制编码技术
第七章:语音信号的参数编码
多脉冲激励及规则脉冲激励声码器
第八章:语音识别技术
MFCC语音识别特征,HMM模型训练和识别算法
(根据您的经验)历年学生在听课中最不容易理解或很容易搞错的概念包括:
第七章:语音信号的参数编码(4学时)
第八章:语音识别技术(8学时)
第九章:总结(3学时)
四.课程教学基本要求
(一)基本概念
您所授课程中学生必须掌握的基本概念至少包括:
第一章:语音信号的时域及频域特征
辅音、元音(声母与、韵母)语音信号的特点;基音与汉语四声的关系。语音的过零率,短时能量,自相关函数特征;语音的共振峰特征及语谱图特征
课程试验作业
您所授课程中学生必须掌握的数据分析方法包括:
有约束条件下的函数极值求解
优秀学生可以进一步参与和熟悉的实验与数据处理方法包括:
最小均方误差分析、有约束条件下的泛函极值求解
您所授课程中学生必须掌握的理论建模方法包括:
声管模型
优秀学生还应该掌握的理论建模方法包括:
HMM模型
您所授课程中学生必须掌握的基本理论论证方法包括:
付利叶分析理论
优秀学生还应该进一步掌握的基本理论论证方法包括:
短时付利叶分析理论,小波分析理论,非平稳信号分析方法
您所授课程中注重锻炼学生的哪些基本技能?
理论联系实际,重点在应用理论解释、解决问题。
傅利叶分析技术在非平稳信号分析中的局限性,短时分析技术,窗函数选择对时频分析的影响和作用,小波分析概念。
数字语音信号处理实验(学生)

数字语音信号处理实验指导书北方学院信息科学与工程学院电子教研室2014年1月前言语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。
通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。
同时,语言也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为信息处理系统建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化程度。
语音信号处理是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。
虽然从事这一领域研究的人员主要来自信号与信息处理及计算机应用等学科,但是它与语音学、语言学、声学、认知科学、生理学、心理学等许多学科也有非常密切的联系。
20世纪60年代中期形成的一系列数字信号处理的理论和算法,如数字滤波器、快速傅立叶变换(FFT)等是语音信号数字处理的理论和技术基础。
随着信息科学技术的飞速发展,语音信号处理取得了重大的进展:进入70年代之后,提出了用于语音信号的信息压缩和特征提取的线性预测技术(LPC),并已成为语音信号处理最强有力的工具,广泛应用于语音信号的分析、合成及各个应用领域,以及用于输入语音与参考样本之间时间匹配的动态规划方法;80年代初一种新的基于聚类分析的高效数据压缩技术—矢量量化(VQ)应用于语音信号处理中;而用隐马尔可夫模型(HMM)描述语音信号过程的产生是80年代语音信号处理技术的重大发展,目前HMM已构成了现代语音识别研究的重要基石。
近年来人工神经网络(ANN)的研究取得了迅速发展,语音信号处理的各项课题是促进其发展的重要动力之一,同时,它的许多成果也体现在有关语音信号处理的各项技术之中。
为了深入理解语音信号数字处理的基础理论、算法原理、研究方法和难点,根据数字语音信号处理教学大纲,结合课程建设的需求,我们编写了本实验参考书。
本参考书针对教学大纲规定的八个研究设计型实验,每个实验给出了参考程序,目的是起一个抛砖引玉的作用,学生在学习过程中,可以针对某一个实验进行延伸的创新学习,比如说,语音端点的检测、语音共振峰提取、基于HMM或DTW的有限词汇或大词汇的特定人、非特定人的语音识别、识别率的提高(如何提高有噪环境下的识别率)、以及编码问题等,同时在学习中还可深入思考如何将有关的方法在嵌入式系统或DSP下的实现问题等。
语音信号处理课程实验教学大纲

《语音信号处理》课程实验教学大纲课程编号: 13006430 一、实验教学的目的通过实验,加深对语音信号处理基本概念的理解,学习语音信号处理的编程和处理方法。
二、实验教学任务1、掌握VC编程方法处理语音信号。
2、掌握改变参数对语音信号处理的差别。
三、具体实验项目名称、学时分配、适用专业及实验性质四、单项实验的内容、要求实验内容:实验一:语音信号的低通滤波和短时分析综合实验。
1.给出语音信号,要求设计一个低通滤波器,带宽为采样频率的四分之一,求输出信号;2.辨别原始语音信号与滤波器输出信号有何区别,说明原因;3.改变滤波器带宽,重复滤波实验,辨别语音信号的变化,说明原因;4.利用矩形窗和汉明窗对语音信号进行短时傅立叶分析,绘制语谱图并估计基音周期,分析两种窗函数对基音估计的影响;5.改变窗口长度,重复上一步,说明窗口长度对基音估计的影响。
实验二:语音信号的同态滤波综合实验。
1.给出语音信号,要求设计一个卷积同态系统,对声源和声道冲激响应进行有效分离;2.绘制语音信号的复倒谱,并利用复倒谱对语音信号进行基音估计;3.利用短时自相关函数进行基音估计,并与前者相比较,说明两种方法的优缺点。
实验三:语音信号的线性预测。
1. 声道传输函数建模:根据给出语音信号设计线性预测滤波器,求最佳预测系数;2 .利用自相关法对语音信号进行线性预测分析,求声道传输函数共振峰。
实验要求:1.正确使编程软件。
2.学会改变参数对语音信号处理的影响。
五、实验教材或讲义名称理论课程教材六、实验考核标准1、课程实验(占用课程总学时)6学时,考核成绩占总课程成绩的30%。
2、考核标准1)每次实验前应提交预习报告,明确实验目的,了解实验内容。
2)实验中遵守实验纪律,听从老师指导,爱护仪器设备,遵守操作规程。
3)课程实验完成时,应对学生实验技能进行检查,提出问题能说明清楚。
4)实验报告应及时完成,字要整洁、图表要规范,记录和处理的数据应准确。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
for m=1:N
sum=sum+b1(m)*b1(m+k-1);
end
A(k)=sum;
end
for k=1:320
A1(k)=A(k)/A(1);
end
%画图
figure(1)
subplot(3,1,1)
plot(A1);
xlabel('延时k')
ylabel('R(k)')
legend('N=320')
axis([0,320,-0.5,1])
%窗长320,自相关运算取160个点。
b2=b(1:320);
N=160;
A=[];
for k=1:160
sum=0;
for m=1:N
sum=sum+b2(m)*b2(m+k-1);
end
B(k)=sum;
end
for k=1:160
B1(k)=B(k)/B(1);
图1-2 语谱图
四、思考题
1、声门激励脉冲信号是高频衰减的还是高频增强的?
2、画语谱图时为什么要给语音信号加汉明窗?若加矩形窗会有什么区别?
3、在语谱图上观察,浊音信号的和清音信号的频谱有什么区别?
实验二语音信号时域特征分析
一、实验目的
1、了解自相关函数及自相关函数在语音信号处理中的应用。
2、编写程序分析语音信号的短时自相关特征,计算语音信号的基音周期。
xlabel('频率/Hz')
ylabel('幅度/dB')
axis([0,620,0,30])
图1-1 三角波及其频谱
2、给出语音段“数字信号处理”(speech.wav),画出它的语谱图。
clear all;
[x,sr]=wavread('speech_dsp.wav');
s=length(x);
t=fft(u);
d(:,c)=t(1:(1+n/2));
c=c+1;
end
tt=[0:h:(s-n)]/sr;
ff=[0:(n-2)]*sr/n;
imagesc(tt,ff/1000,20*log10(abs(d)));
colormap(gray);
axis xy
xlabel('时间/s')
ylabel('频率/kHz')
三、实验内容
1、根据给出的浊音信号,分别画出浊音信号的时域波形、加矩形窗和加汉明窗后计算短时自相关归一化后的结果。语音的抽样频率为8kHz,窗长为320。
参考程序:
[x,fs,nbits]=wavread('speech_dsp.wav');
s1=x(2500:2819);
N=320;
A=[];
for k=1:320
(1)N=320,M=640;
(2)N=160,M=320;
(3)N=70,M=140;
[x,fs,nbits]=wavread('speech_dsp.wav');
s1=x(2500:3139);
b=s1;
%窗长640,自相关运算取320个点。
b1=b(1:640);
N=320;
A=[];
for k=1:320
3、辐射模型
从声道模型输出的是速度波,而语音信号是声压波。二者倒比称为辐射阻抗,它表征了口唇的辐射效应,可用下式表示:
三、实验内容
1、设声门脉冲单个三角波的数学表达式为
试画出三角波波形图及其频谱。取 。
参考程序:
%三角波及其频谱
n=linspace(0,25,125);
g=zeros(1,length(n));
w=round(44*sr/1000);
n=w;
shift=w/2;
h=w-shift;
%win=hanning(n)';
win=hamming(n)';
c=1;
ncols=1+fix((s-n)/h);
d=zeros((1+n/2),ncols);
for b=0:h:(s-n)
u=win'.*x((b+1):(b+n));
3、编写修正短时自相关函数的程序,并与未修正的函数进行比较。
二、实验原理
自相关函数用于衡量信号自身时间波形的相似性。由前面的讨论可知,清音和浊音的发声机理不同,因而在波形上也存在着较大的差异。浊音的时间波形呈现出一定的周期性,波形之间相似性较好;清音的时间波形呈现出随机噪声的特性,杂乱无章,样点间的相似性较差,这样,可以用短时自相关函数来测定语音的相似特性。
y=zeros(frame_num,frame);
for i=1:frame_num
y(i,:)=x((shift*(i-1)+1):(shift*(i-1)+frame))';
end
output=y;
%浊音的波形和短时频谱图(窗长256)
[x,fs,nbits]=wavread('speech_dsp.wav');
subplot(3,1,3)
plot(B1)
title('加汉明窗的自相关函数')
xlabel('延时k')
ylabel('自相关函数R(k)')
axis([0,320,-1,1]);
图2-1浊音信号加不同窗时的自相关函数
2、仍选取上题中的语音信号,改变窗长和截取语音段的长度,计算修正的短时自相关函数。取值分别为:
时域离散确定信号的自相关函数定义为:
对于语音信号来说,采用短时分析方法,可以定义短时自相关函数为
因为 ,所以
定义 ,则上式可以写成
如果长基音周期用窄的窗,将得不到预期的基音周期;但是如果短的基音周期用长的窗,自相关函数将对多个基因周期做平均计算,从而模糊语音的短时特性,这是不希望的。为了解决这个问题,可以采用修正的短时自相关函数,选择的窗长不一定要等于自相关函数的最大自变量取值。这种方法可以采用较窄的窗,同时避免了短时自相关函数随k增加而衰减的不足。
e=fra(256,128,x);
ee=e(20,:);
subplot(2,2,1)
ee1=ee/max(ee);
plot(ee1)
xlabel('样点数')
ylabel('幅度')
title('原始语音')
axis([0,256,-1.5,1.5])
%矩形窗傅立叶变换
r=fft(ee,1024);
1、了解语音信号进行短时傅里叶分析的基础。
2、画出浊音信号加不同窗时的时域波形和频谱,并进行比较。
3、画出清音信号加不同窗时的时域波形和频谱,并与浊音信号进行比较。
二、实验原理
语音信号本质上是非平稳信号,其非平稳特性是由发声器官的物理运动产生的。发声器官的运动由于存在惯性,所以可以假设语音信号在10~30ms这样短的时间段内是平稳的,这是短时傅里叶分析的基础。
j=j+1;
n=n+1;
end
B=[];
for k=1:320
sum=0;
for m=1:N-k+1
sum=sum+s1(m)*s1(m+k-1);
end
B(k)=sum
end
for k=1:320
B1(k)=B(k)/B(1);
end
%画图
s2=s1/max(s1);
figure(1)
subplot(3,1,1)
语音信号处理实验讲义
时间:2011-12
实验一 语音信号生成模型分析……………………………………….3
实验二 语音信号时域特征分析……………………………………….7
实验三 语音信号频域特征分析………………………………………12
实验四 语音信号的同态处理和倒谱分析…………励模型, 是一个幅值因子。
2、声道模型
当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,把它称为共振峰。
一个二阶谐振器的传输函数可以写成
实践表明,用前3个共振峰代表一个元音足够了。对于较复杂的辅音或鼻音共振峰要到5个以上。多个 叠加可以得到声道的共振峰模型
一、实验目的
1、了解语音信号的生成机理,了解由声门产生的激励函数、由声道产生的调制函数和由嘴唇产生的辐射函数。
2、编程实现声门激励波函数波形及频谱,与理论值进行比较。
3、编程实现已知语音信号的语谱图,区分浊音信号和清音信号在语谱图上的差别。
二、实验原理
语音生成系统包含三部分:由声门产生的激励函数 、由声道产生的调制函数 和由嘴唇产生的辐射函数 。语音生成系统的传递函数由这三个函数级联而成,即
某一帧的短时傅里叶变换的定义式如下:
式中, 是窗函数,不同的窗函数,可得到不同的傅里叶变换的结果。在式中,短时傅里叶变换有两个变量,即离散时间n及连续频率w,若令 ,则可得到离散的短时傅里叶变换如下:
对于 窗来说,它除了具有选出 序列中被分析部分的作用外,它的形状对时变傅里叶变换的特性也有重要作用。采用矩形窗时,基音谐波的各个峰都比较尖锐,而整个频谱图显得比较破碎,这是因为矩形窗的主瓣较窄,具有较高的频率分辨率,但它也具有较高的旁瓣,因而使基音的相邻谐波之间的干扰比较严重。相邻谐波之间的这种“泄露”的现象,抵消了矩形窗主瓣窄的优点,因此,在语音短时频谱分析中极少采用矩形窗。当加汉明窗时,得到的短时频谱要平滑得多,因而在语音分析中汉明窗用得比较普遍。