语音信号处理答案

语音信号处理答案
语音信号处理答案

二、问答题(每题分,共分)

、语音信号处理主要研究哪几方面的内容?

语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科,语音信号处理的理论和研究包括紧密结合的两个方面:一方面,从语言的产生和感知来对其进行研究,这一研究与语言、语言学、认知科学、心理、生理等学科密不可分;另一方面,是将语音作为一种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法和技术。

、语音识别的研究目标和计算机自动语音识别的任务是什么?

语音识别技术,也被称为自动语音识别,(),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。

计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

、语音合成模型关键技术有哪些?

语音合成是实现人机语音通信,建立一个有听和讲能力的口语系统所需的两项关键技术,该系统主要由三部分组成:文本分析模块、韵律生成模块和声学模块。.如何取样以精确地抽取人类发信的主要特征,.寻求什么样的网络特征以综合声道的频率响应,.输出合成声音的质量如何保证。

、语音压缩技术有哪些国际标准?

二、名词解释(每题分,共分)

端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。

共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。

语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。

码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义公示,用最少的搜素和计算失真的运算量。

语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量三、简答题(每题分,共分)

、简述如何利用听觉掩蔽效应。

一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。人耳的掩蔽效应一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明,—绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。在范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。在掩蔽情况下,提高被掩蔽弱音的强度,使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限),被掩蔽弱音必须提高的分贝值称为掩蔽量(或称阈移)。

、简述时间窗长与频率分辨率的关系。

采样周期、窗口长度和频率分辨率△之间存在下列关系:△(*) 可见,采样周期一定时,△随窗口宽度的增加而减少,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。

、简述时域分析的技术(最少三项)及其在基因检测中的应用。()

短时能量及短时平均幅度分析、短时过零率分析、短时相关分析、短时平均幅度差函数

基音检测中的应用:基音检测的提取。

、简述语音信号的频谱和功率谱的作用。

频谱是对动态信号在频率域内进行分析对动态信号在频率域内进行分析对动态信号在频率域内进行分析对动态信号在频率域内进行分析,分析的结果是以频率为横坐标的各种物理量的谱线和曲线,即各种幅值以频率为变量的频谱函数(ω)。频谱分析中可求得幅值谱、相位谱、功率谱和各种谱密度等等。频谱分析过程较为复杂,它是以傅里叶级数和傅里叶积分为基础的。

功率谱的概念是针对功率有限信号的(能量有限信号可用能量谱分析),所表现的是单位频带内信号功率随频率的变换情况。保留频谱的幅度信息,但是丢掉了相位信息,所以频谱不同的信号其功率谱是可能相同的。

、简述同态信号处理在共振峰估计中的作用。

为了消除基频谐波的影响,可以采用同态解卷技术,经过同态滤波后得到平滑的谱,这样简单地检测峰值就可以直接提取共振峰参数,因而这种方法更为有效和精确。

四、论述题(每题分,共分)

、常用的基音周期检测的方法有哪些?它们的基本原理是什么?()

? 自相关法的基本原理是浊音信号的自相关函数在基音周期的整数倍位置上出现峰值;而清音的自相关函数没有明显的峰值出现。因此检测是否有峰值就可判断是清音或浊音,检测峰值的位置就可提取基音周期值。

? 平均幅度差函数法的基本原理是对周期性的浊音语音,()呈现与浊音语音周期相一致的周期特性,()在周期的各个整数倍点上具有谷值特性,因而通过()的计算可以来确定基音周期。而对于清音语音信号,()却没有这种周期特性。利用()的这种特性,可以判定一段语音是浊音还是清音,并估计出浊音语音的基音周期。

? 并行处理技术()方法对经过预处理的语音信号实施一系列的基音初步检测,或分别对原始信号和经处理后的信号实施系列检测,然后根据系列检测的初步结果,综合判定基音周期。

? 倒谱()法利用语音信号的倒频谱特征,检测出表征声门激励周期的基音信息。采取简单的倒滤波方法可以分离并恢复出声门脉冲激励和声道响应,根据声门脉冲激励及其倒谱的特征可以求出基音周期。

? 简化逆滤波法()先对语音信号进行分析和逆滤波,获得语音信号的预测残差,然后将残差信号通过自相关滤波器滤波,再作峰值检测,进而获得基音周期。

? 小波变换法:信号小波变换的极值点对应于信号的锐变点或不连续点。语音的产生过程实际上是气流通过声门再经声道响应后变成声音。对语音信号作小波变换则其极值点对应于声门的开启或闭合点,相邻极值点之距离就对应着基音周期。因而,采用音信号的小波变换可以检测基音周期。

、论述线性预测系数如何用于共振峰的估计。

基于线性预测系数的共振峰提取方法。一种有效的频谱包络估计方法是从线性预测分析角度推导出声道滤波器,根据这个声道滤波器找出共振峰。虽然线性预测法也有一定的缺点,如其频谱林灵敏度于人耳不想匹配。但对于许多应用来说,它仍然是一种行之有效的方法。线性预测共振峰通常有两种途径可供选择,一种途径是利用一种标准的寻找复根的程序计算预测误差滤波器的根,称为求根法,另一种途径是找出由预测其导出的频谱包络中的局部极大值,称为选峰法.

、论述标量量化与矢量量化的区别以及矢量量化在语音通信中的作用。

大学本科语音信号处理实验讲义8学时

语音信号处理实验讲义 时间:2011-12

目录 实验一语音信号生成模型分析 (3) 实验二语音信号时域特征分析 (7) 实验三语音信号频域特征分析 (12) 实验四语音信号的同态处理和倒谱分析 (16)

实验一 语音信号生成模型分析 一、实验目的 1、了解语音信号的生成机理,了解由声门产生的激励函数、由声道产生的调制函数和由嘴唇产生的辐射函数。 2、编程实现声门激励波函数波形及频谱,与理论值进行比较。 3、编程实现已知语音信号的语谱图,区分浊音信号和清音信号在语谱图上的差别。 二、实验原理 语音生成系统包含三部分:由声门产生的激励函数()G z 、由声道产生的调制函数()V z 和由嘴唇产生的辐射函数()R z 。语音生成系统的传递函数由这三个函数级联而成,即 ()()()()H z G z V z R z = 1、激励模型 发浊音时,由于声门不断开启和关闭,产生间隙的脉冲。经仪器测试它类似于斜三角波的脉冲。也就是说,这时的激励波是一个以基音周期为周期的斜三角脉冲串。单个斜三角波的频谱表现出一个低通滤波器的特性。可以把它表示成z 变换的全极点形式 12 1()(1) cT G z e z --= -? 这里c 是一个常数,T 是脉冲持续时间。周期的三角波脉冲还得跟单位脉冲串的z 变换相乘: 112 1 ()()()1(1)v cT A U z E z G z z e z ---=?= ?--? 这就是整个激励模型,v A 是一个幅值因子。 2、声道模型 当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,把它称为共振峰。 一个二阶谐振器的传输函数可以写成 12 ()1i i i i A V z B z C z --= -- 实践表明,用前3个共振峰代表一个元音足够了。对于较复杂的辅音或鼻音共振峰要到5个以上。多个()i V z 叠加可以得到声道的共振峰模型 12 1 11 ()()11R r r M M i r i N k i i i i k k b z A V z V z B z C z a z -=---======---∑∑∑ ∑ 3、辐射模型 从声道模型输出的是速度波,而语音信号是声压波。二者倒比称为辐射阻抗,它表征了

语音信号处理

信号分析与处理课程设计———语音信号处理 姓名 学号 专业 指导教师 设计日期

1 引言 MATLAB是美国Math Works公司推出的一种面向工程和科学计算的交互式计算软件。它以矩阵运算为基础,把计算、可视化、程序设计融合在一个简单易用的交互式工作环境中,是一款数据分析和处理功能都非常强大的工程实用软件。本文介绍了用MATLAB处理音频信号的基本流程,并以实例形式列出了常用音频处理技术实现程序。 2 MATLAB处理音频信号的流程 分析和处理音频信号,首先要对声音信号进行采集,MATLAB数据采集工具箱提供了一整套命令和函数,通过调用这些函数和命令,可直接控制声卡进行数据采集[1]。Windows自带的录音机程序也可驱动声卡来采集语音信号,并能保存为WAV格式文件,供MATLAB相关函数直接读取、写入或播放。本文以WAV格式音频信号作为分析处理的输入数据,用MATLAB处理音频信号的基本流程是:先将WAV格式音频信号经wavread 函数转换成MATLAB列数组变量;再用MATLAB 强大的运算能力进行数据分析和处理,如时域分析、频域分析、数字滤波、信号合成、信号变换、识别和增强等等;处理后的数据如是音频数据,则可用wavwrite 转换成WAV格式文件或用sound、wavplay等函数直接回放。 下面分别介绍MATLAB在音量标准化、声道分离合并与组合、数字滤波、数据转换等音频信号处理方面的技术实现。 4系统初步流程图

图2.2 信号调整 信号的滤波采用了四种滤波方式,来观察各种滤波性能的优缺点: 图2.3 语音信号滤波的方式 在以上三图中,可以看到整个语音信号处理系统的流程大概分为三步,首先要读入待处理的语音信号,然后进行语音信号的处理,包括信息的提取、幅度和频率的变换以及语音信号的傅里叶变换、滤波等;滤波又包括低通滤波、高通滤波、带通滤波和带阻滤波等方式。最后对处理过的语音信号进行处理后的效果显示。以上是本系统的工作流程,本文将从语音信号的采集开始做详细介绍。 3 音量标准化 录制声音过程中需对声音电平进行量化处理,最理想的量化是最大电平对应最高量化比特,但实际却很难做到,常有音轻问题。利用MATLAB很容易实现音量标准化,即最大电平对应最高量化比特。基本步骤是:先用wavread函数将WAV文件转换成列数组变量;再求出数组变量的极值并对所有元素作归一化处理;最后用wavwrite函数还原成音量标准化的WAV文件。程序如下: clear; close all; clc; [Y,FS,NBITS]=wavread('xp.wav'); % 将WAV文件转换成变量FS, NBITS % 显示采样频率和量化比特Ym=max(max(max(Y)),max(abs(min(Y)))); % 找出双声道极值 X=Y/Ym; % 归一化处理 wavwrite(X,FS,NBITS,'xps.wav'); % 将变量转换成WAV文件

计算机考试复习题(一)

、单选题 3、 DVD 中的视频数据文件采用的格式有 重新启动计算机 B 、正常退出 Windows 系统并关机 C 、重新登录 Windows D 、重新上 Internet 网 QQ 传送了一个文件给他 ,小明即接收并打开该文件 ,此后小明的电脑 ”。下面哪一项不是小明电脑中毒的原因 A A 硬盘没有定期整理 B 杀毒软件没有即时升级 C 病毒防火墙是盗版的 D 对好友传送的文件防范病素养意识不强 8、日常生活中 ,大家可能收到短信 “本通信公司现在将对你的手机进行检查 ,为配合检 查请按 #90 或 90#。若按上述提示进行按键 ,你的 SIM 卡卡号可能被骗取 ,行骗者利用该卡 肆意打电话 ,这是信息中 D 带来的消极影响。 A 信息污染 B 信息泛滥 C 信息毒害 D 信息范罪 9 、以下不是视频文件扩展名的是 C A 、AVI B 、MOV C 、JPEG D 、RM 1、 windows 系统是 个D A 、数据库管理系统 B 、应用软件 C 、文字处理系统 D 、系统软件 2、XX 节日快到 ,李欣上网下载了一个动 画 件扩展名通常为 A ,打算发给在上海读书的表姐 ,他下载的动画文 A .swf B .xls C .txt D .wav A 、 R M 格式 B 、MOV 格式 C 、 M PEG 格式 D 、FLV 格式 4、 M P3 文件是一种压缩格式的 A 、 视频文件 B 、音频文件 C 、文本文件 D 、图像文件 5、 在“关闭 Windows ”对话框中 ,选项 “关闭计算机 ”的作用是 B A 、 6、 天上掉陷饼 ”反映了在获取信息的时候就注意获取信息的 A 、 策略与技巧 B 、过程与方法 C 、特征与影响 D 、鉴别评价 7、 便中了 小明的朋友用 “尾巴病

语音信号处理实验指导书

语音信号处理实验指导书 实验一 语音信号采集与简单处理 一、 实验目的、要求 (1)掌握语音信号采集的方法 (2)掌握一种语音信号基音周期提取方法 (3)掌握短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 基本概念: (a )短时过零率: 短时内,信号跨越横轴的情况,对于连续信号,观察语音时域波形通过横轴的情况;对于离散信号,相邻的采样值具有不同的代数符号,也就是样点改变符号的次数。 对于语音信号,是宽带非平稳信号,应考察其短时平均过零率。 其中sgn[.]为符号函数 ?? ?? ?<=>=0 x(n)-1sgn(x(n))0 x(n)1sgn(x(n)) 短时平均过零的作用 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 2.从背景噪声中找出是否有语音,以及语音的起点。 (b )基音周期 基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 ∑--= -=1 )]1(sgn[)](sgn[21N m n n n m x m x Z

由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。②声道共振峰有时会严重影响激励信号的谐波结构,所以,从语音信号中直接取出仅和声带振动有关的激励信号的信息并不容 易。③语音信号本身是准周期性的(即音调是有变化的),而且其波形的峰值点或过零点受共振峰的结构、噪声等的影响。④基音周期变化范围大,从老年男性的50Hz 到儿童和女性的450Hz ,接近三个倍频程,给基音检测带来了一定的困难。由于这些困难,所以迄今为止尚未找到一个完善的方法可以对于各类人群(包括男、女、儿童及不向语种)、各类应用领域和各种环境条件情况下都能获得满意的检测结果。 尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT 、谱图法、小波法等等。 三、使用仪器、材料 微机(带声卡)、耳机,话筒。 四、 实验步骤 (1)语音信号的采集 利用Windows 语音采集工具采集语音信号,将数据保存wav 格式。 采集一组浊音信号和一组清音信号,信号的长度大于3s 。 (2)采用短时相关函数计算语音信号浊音基音周期,考虑窗长度对基音周期计算的影响。采用倒谱法求语音信号基音周期。 (3)计算短时过零率,清音和浊音的短时过零率有何区别。 五、实验过程原始记录(数据,图表,计算) 短时过零率 短时相关函数 P j j n s n s j R N j n n n n ,,1) ()()(1 =-=∑-= ∑--=-=10 )]1(sgn[)](sgn[21N m n n n m x m x Z

语音信号处理复习题

1 研究语音信号处理的目的是什么?人类的通信有哪三种方式,从而说明语音信号处理有哪三个学科分支? 它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求。 1.什么叫做语言学?什么叫做语音学?言语过程可分为哪五个阶段? 语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究学问称为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。人的说话过程如图2-1所示,可以分为五个阶段: (1)想说阶段: (2)说出阶段: (3)传送阶段: (4)接收阶段: (5)理解阶段: 3、有哪几种描述声道特性的数学模型?请说明声管模型流图是如何得出的?有几种共振峰模型?各有什么特点和适用情况? 声道的数学模型有两种观点: 1)声管模型 将声道看为由多个不同截面积的管子串联而成的系统。在“短时”期间,声道可表示为形状稳定的管道。 另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。 共振峰模型,把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。 (1)级联型声道模型

这时认为声道是一组串联的二阶谐振器。从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。它的传输函数可分解表示为多个二阶极点的网络的串联: N=10,M=5时的声道模型如下图所示: (2)并联型声道模型 对于非一般元音以及大部分辅音,必须考虑采用零极点模型。此时,模型的传输函数如下: 通常,N>R ,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式: 这就是并联型的共振峰模型。如图2-21所示(M=5)。 (3)混合型声道模型 上述两种模型中,级联型比较简单,可以用于描述一般元音。当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就不能胜任了。这时腔体具有反谐振特性,必须考虑加入零点,使之成为零极点模型。采用并联结构的目的就在于此,它比级联型复杂些,每个谐振器的幅度都要独立地给以控制。但对于鼻音、塞音、擦音以及塞擦音等都可以适用。正因为如此,将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。 22 12112cos(2)()12cos(2)k k k k B T B T M k B T B T k k e F T e V z e F T z e z ππ------=-+=-+∏∑∑=-=--= N k k k R r r r z a z b z V 1 1)(∑ =----=M i i i i z C z B A z V 12 11)(

2019多媒体技术应用期末复习试题

学业水平测试多媒体技术应用复习试题 一、单选题 1、下面关于多媒体技术地描述中,正确的是:( ) A. 多媒体技术只能处理声音和文字 B. 多媒体技术不能处理动画 C. 多媒体技术就是计算机综合处理声音、文本、图像等信息的技术 D. 多媒体技术就是制作视频 2、下列各组应用不属于多媒体技术应用的是( )。 A. 计算机辅助教学 B.电子邮件 C. 远程医疗 D. 视频会议 3、多媒体技术的产生与发展是人类社会需求与科学技术发展相结合的结果,那么多媒体技术诞生于( )。 A. 20世纪60年代 B. 20世纪70年代 C. 20世纪80年代 D. 20世纪90年代 4、下列配置中哪些是MPC(多媒体计算机)必不可少的硬件设备?() ①CD-ROM驱动器②高质量的音频卡③高分辩率的图形图像显示卡④高质量的视频采集卡 A.① B.①、② C.①、②、③ D.全部 5、下列关于多媒体技术主要特征描述正确的是:( ) ①多媒体技术要求各种信息媒体必须要数字化; ②多媒体技术要求对文本,声音,图像,视频等媒体进行集成; ③多媒体技术涉及到信息的多样化和信息载体的多样化; ④交互性是多媒体技术的关键特征; ⑤多媒体的信息结构形式是非线性的网状结构; A. ①②③⑤ B. ①④⑤ C. ①②③ D. ①②③④⑤ 6、媒体技术能够综合处理下列哪些信息( ) ①龙卷风.mp3 ②荷塘月色.doc③发黄的旧照片④泡泡堂.exe⑤一卷胶卷 A. ①②④ B. ①② C. ①②③ D. ①④ 7、( )是将声音变换为数字化信息,又将数字化信息变换为声音的设备。 A. 音箱 B. 音响 C. 声卡 D. PCI卡 8、把时间连续的模拟信号转换为在时间上离散,幅度上连续的模拟信号的过程称为() A.数字化 B.信号采样 C.量化 D.编码 9、()是分析多媒体作品开发的必要性和可行性的步骤。 A.需求分析 B.规划设计 C.素材采集与加工 D.作品发布与评价 10、对多媒体体作品的运行环境给出说明,要求制作者按照这一环境进行开发制作,是在多媒体作品开发的( )阶段。A.需求分析 B.规划设计 C.作品的集成 D.测试 11、多媒体作品界面的设计要遵循一定的原则和方法,它们是:( ) ①注意突出主题信息②界面布局要简明清晰③界面布局应该有整体上的一致性④注意文字显示的效果 A.①②③ B. ①②④ C. ①②③④ D.②③④ 12、制作多媒体作品的直接依据是( )A. 制作脚本 B. 结构设计 C. 文字稿本 D. 需求分析 13、静态图像压缩标准是( )。A. JPAG B. JPBG C. PDG D.JPEG 14、以下列文件格式存储的图象,在图象缩放过程中不易失真的是( )。A. BMP B. WMF C. JPG D. GIF 15、下列哪个文件格式既可以存储静态图像,又可以存储动画( )A. bmp B. jpg C. tif D. gif 16、下面文件格式不是矢量图文件格式的是( )。A.cdr B.jpg C.wmf D.AI 17、一幅彩色静态图像(RGB),设尺寸为256×512,每一种颜色用8bit表示,则该彩色静态图像的数据量为()。 A、512×512×3×8bit B、256×256×3×8bit C、256×512×3×8bit D、512×512×3×8×25bit 18、一张容量为640M的光盘,可以贮存( )张分辨率为1024×768的真彩(24位)相片。 A.568 B.284 C.1137 D.以上都不是 19、当利用扫描仪输入图像数据时,扫描仪可以把所扫描的照片转化为( )。 A.位图图像 B.矢量图 C. 矢量图形 D.三维图 20、在进行素材采集的时候,要获得图形图像,下面哪种方法获得的不是位图图像( )。

语音信号处理答案

二、问答题(每题分,共分) 、语音信号处理主要研究哪几方面的内容? 语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科,语音信号处理的理论和研究包括紧密结合的两个方面:一方面,从语言的产生和感知来对其进行研究,这一研究与语言、语言学、认知科学、心理、生理等学科密不可分;另一方面,是将语音作为一 种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法 和技术。 、语音识别的研究目标和计算机自动语音识别的任务是什么? 语音识别技术,也被称为自动语音识别,(),其目标是将人类的语音中的词汇内容转换为 计算机可读的输入,例如按键、二进制编码或者字符序列。 计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本 或命令的高技术。 、语音合成模型关键技术有哪些? 语音合成是实现人机语音通信,建立一个有听和讲能力的口语系统所需的两项关键技术,该系统主要由三部分组成:文本分析模块、韵律生成模块和声学模块。.如何取样以精确地抽取人类发信的主要特征,.寻求什么样的网络特征以综合声道的频率响应,.输出合成声音的质量如何保证。 、语音压缩技术有哪些国际标准? 二、名词解释(每题分,共分) 端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。 共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。 语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。 码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义 公示,用最少的搜素和计算失真的运算量。 语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量 三、简答题(每题分,共分) 、简述如何利用听觉掩蔽效应。 一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。人耳的掩蔽效应一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声 音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者 说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明,—绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。在范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。在掩蔽情况下,提高被掩蔽弱音的强度, 使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限),被掩蔽弱音必须提高的分贝值称为 掩蔽量(或称阈移)。 、简述时间窗长与频率分辨率的关系。 采样周期、窗口长度和频率分辨率△之间存在下列关系:△(*) 可见,采样周期一定时,△随窗口宽度的增加而减少,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。 、简述时域分析的技术(最少三项)及其在基因检测中的应用。()

基于Matlab的语音信号处理与分析

系(院)物理与电子工程学院专业电子信息工程题目语音信号的处理与分析 学生姓名 指导教师 班级 学号 完成日期:2013 年5 月 目录 1 绪论 (3) 1.1课题背景及意义 (3) 1.2国内外研究现状 (3) 1.3本课题的研究内容和方法 (4) 1.3.1 研究内容 (4) 1.3.2 开发环境 (4) 2 语音信号处理的总体方案 (4) 2.1 系统基本概述 (4) 2.2 系统基本要求与目的 (4) 2.3 系统框架及实现 (5) 2.3.1 语音信号的采样 (5) 2.3.2 语音信号的频谱分析 (5) 2.3.3 音乐信号的抽取 (5) 2.3.4 音乐信号的AM调制 (5) 2.3.5 AM调制音乐信号的同步解调 (5) 2.4系统设计流程图 (6) 3 语音信号处理基本知识 (6) 3.1语音的录入与打开 (6)

3.2采样位数和采样频率 (6) 3.3时域信号的FFT分析 (7) 3.4切比雪夫滤波器 (7) 3.5数字滤波器设计原理 (8) 4 语音信号实例处理设计 (8) 4.1语音信号的采集 (8) 4.3.1高频调制与低频调制 (10) 4.3.2切比雪夫滤波 (11) 4.3.3 FIR滤波 (11) 5 总结 (12) 参考文献 (13) 语音信号的处理与分析 【摘要】语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。 Matlab语言是一种数据分析和处理功能十分强大的计算机应用软件,它可以将声音文件变换为离散的数据文件,然后利用其强大的矩阵运算能力处理数据,如数字滤波、傅里叶变换、时域和频域分析、声音回放以及各种图的呈现等,它的信号处理与分析工具箱为语音信号分析提供了十分丰富的功能函数,利用这些功能函数可以快捷而又方便地完成语音信号的处理和分析以及信号的可视化,使人机交互更加便捷。信号处理是Matlab重要应用的领域之一。 本设计针对现在大部分语音处理软件内容繁多、操作不便等问题,采用MATLAB7.0综合运用GUI界面设计、各种函数调用等来实现语音信号的变频、变幅、傅里叶变换及滤波,程序界面简练,操作简便,具有一定的实际应用意义。 最后,本文对语音信号处理的进一步发展方向提出了自己的看法。 【关键词】Matlab 语音信号傅里叶变换低通滤波器

数字音频技术期末考试试卷

《数字音视频技术》期末考试试卷 一.选择(每题2分,共20分) 1.可闻声的频率范围() A.20~2000Hz B.200~20000Hz C.20~20000Hz D.200~2000Hz 2.下面哪一种相加混色产生的色彩是错误的() A.红色+绿色=黄色 B.红色+蓝色=橙色 C.蓝色+绿色=青色 D.红色+绿色+蓝色=白色。 3.不是数字图像的格式的是() A.JPG B. GIF C. TIFF D. WAVE 4.在音频数字化的过程中,对模拟语音信号处理的步骤依次为()A.抽样编码量化 B. 量化抽样编码 C. 抽样量化编码 D. 量化编码抽样 5.将声音转变为数字化信息,又将数字化信息变换为声音的设备是() A.声卡B.音响 C. 音箱D.PCI卡 6.不属于国际上常用的视频制式的是() A.PAL制 B.NTSC制C.SECAM制D.MPEG 7.数字音频采样和量化过程所用的主要硬件是() A.数字编码器 B.数字解码器 C.模拟到数字的转换器(A/D转换器) D.数字到模拟的转换器(D/A转换器) 8.信息接受者在没有接收到完整的信息前就能处理那些已经接受到的信息一边接收,一边处理的方式叫() A.多媒体技术B.流媒体技术 C.云技术D.动态处理技术

9.影响声音质量的因素不包括() A.声道数目B.采样频率 C.量化位数D.存储介质 10.我们常用的VCD,DVD采用的视频压缩编码国际标准是()A.MPEG B.PLA C.NTSC D.JPEG 二.填空(每空2分,共30分) 1.音质三要素:、和。 2.色彩三要素:、和。 3.混色的方法有:和。 4.视频冗余是指相邻帧间和每帧的水平方向和垂直方向上的相邻像素间存在很强的相关性,它包含的种类有:冗余、冗余、冗余、冗余和视觉冗余。 5.色彩模型中的三基色原理是指利用、和三种色光混合,可以产生各种色彩。 三.简答题(每题10分,共50分) 1.常见数字音频文件格式有哪些? 2. 常见数字视频文件格式有哪些? 3.什么是5.1声道环绕立体声?

语音信号处理 (第2版)赵力 编著 语音信号处理勾画要点

语音信号处理(第2版)赵力编著 重点考点 第2章语音信号处理的基础知识 1.语音(Speech)是声音(Acoustic)和语言(Language)的组合体。可以这样定义语音:语音是由一连串的音组成语言的声音。 2.人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)理解阶段(5)接收阶段。 3.语音是人的发声器官发出的一种声波,它具有一定的音色,音调,音强和音长。其中,音色也叫音质,是一种声音区别于另一种声音的基本特征。音调是指声音的高低,它取决于声波的频率。声音的强弱叫音强,它由声波的振动幅度决定。声音的长短叫音长,它取决于发音时间的长短。 4.说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。任何语言都有语音的元音(Vowel)和辅音(Consonant)两种音素。 5.元音的另一个重要声学特性是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。 6.区分语音是男声还是女声、是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。 7.浊音的声带振动基本频率称基音周期(或基音频率),F0表示。 8.人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉掩蔽效应。 9.掩蔽效应分为同时掩蔽和短时掩蔽。 10.激励模型:一般分成浊音激励和清音激励。浊音激励波是一个以基音周期为周期的斜三角脉冲串。 11.声道模型:一是把声道视为由多个等长的不同截面积的管子串联而成的系统。按此观点推导出的叫“声管模型”。另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。 12.完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。 13.语谱图:人们致力于研究语音的时频分析特性,把和时序相关的傅立叶分析的显示图形。 第三章语音信号分析 1.贯穿于语音分析全过程的是“短时分析技术”。 2.语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码(一般就是PCM码);预处理一般包括预加重、加窗和分帧等。 3.预滤波的目的有两个:

语音信号处理考试题(综合)

语音信号处理重点、考点、考试题 一、填空题:(共7小题,每空2分,共20分) A卷 1、矢量量化系统主要由编码器和组成,其中编码器主要是由搜索算法和构成。 2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和。 3、语音编码按传统的分类方法可以分为、和混合编码。 4、对语音信号进行压缩编码的基本依据是语音信号的和人的听觉感知机理。 5、汉语音节一般由声母、韵母和三部分组成。 6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉的效应。 7、句法的最小单位是,词法的最小单位是音节,音节可以由构成。 二、判断题:(共3小题,每小题2分,共6分) 1、预测编码就是利用对误差信号进行编码来降低量化所需的比特数,从而使编码速率大幅降低。() 2、以线性预测分析-合成技术为基础的参数编码,一般都是根据语音信号的基音周期和清/浊音标志信息来决定要采用的激励信号源。() 3、自适应量化PCM就是一种量化器的特性,能自适应地随着输入信号的短时能量的变化而调整的编码方法。() 三、单项选择题:(共3小题,每小题3分,共9分) 1、下列不属于衡量语音编码性能的主要指标是()。(A)编码质量(B)矢量编码(C)编码速率(D)坚韧性 2、下列不属于编码器的质量评价的是()(A)MOS (B)DAM(C)DRT(D)ATC 3、限词汇的语音合成技术已经比较成熟了,一般我们是采用()作为合成基元。 (A)词语(B)句子(C)音节(D)因素 四、简答题:(共2小题,每小题12分,共24分) 1、画出矢量量化器的基本结构,并说明其各部分的作用。 2、试画出语音信号产生的离散时域模型的原理框图,并说明各部分的作用。 五、简答题:(共5小题,前三小题,每题5分,后两小题,每题10分,共35分) 1、线性预测分析的基本思想是什么? 2、隐马尔可夫模型的特点是什么? 3、矢量量化器的所谓最佳码本设计是指什么? 4、针对短时傅里叶变换Ⅹn(ejw)的定义式,请从两个角度对其进行物理意义的分析。 5、针对短时傅里叶变换的时间分辨率和频率分辨率的矛盾性,请给予分析说明。 六、计算题:(共1小题,每小题6分,共6分) 1、已知一个简单的三状态HMM模型的图形,如图一所示。求该HMM模型输出aab的概率为多少?(要有求解过程,无计算过程不得分)

多媒体技术基础复习试题(有答案)

一、多媒体概述 ●什么是媒体?媒体如何分类的? ●什么是多媒体?它有哪些关键特性?有哪些关键技术? ●多媒体计算机系统组成 ●多媒体个人计算机MPC ●媒体素材分成文字、声音、图形、图像、动画、视频等类型。 ●各类素材的文件格式 ●图像的属性 ●图像的大小及压缩标准 ●图像的色彩模式 ●图形与图像的文件存储格式 ●视频的基本概念 ●帧频(动画:12帧/S,视频:24帧/S) ●动画与视频的文件格式 ●声音的三个重要特性:振幅,周期,频率 ●声音效果的三要素:音调、音强、音色 ●声音的文件存储格式 ●文本文件的格式 ●图像采集途径及常用的软件 ●多媒体素材采集的软件及多媒体素材制作软件 二、音频技术 ●声音的数字化——采样、量化及编码 ●数字化后声音文件的大小如何计算 ●声音文件的存储格式 ●Adobe Audition3.0的基本操作 ●声音的高级处理 1、声道变换 2、改变声音文件的固有音量 3、淡入、淡出效果 4、回声原理及其制作 5、延迟效果 6、消除环境噪声 7、声音混响 8、调整时间和音调

9、直接从视频提取声音 三、 视频技术 ● 视频的基本概念 ● 视频的制式——NTSC ,PAL ,SECAM ● 视频素材的获取 ● 常见的视频文件格式 ● 三种MPEG 视频压缩格式的比较 ● 常用的视频播放器 ● 网络视频格式 ● 视频编辑处理软件—会声会影的基本使用 四、 Photoshop 五、 FLASH 单项选择题部分 1.多媒体当中的媒体指的是以下哪种媒体( )。 A .表现媒体 B .表示媒体 C .感觉媒体 D .存储媒体 2.以下的采样频率中哪个是目前音频卡所支持的( )。 A .20KHz B .11.025KHz C .10KHz D .50KHz 3.下面文件格式属于声音文件的是( )。 (1).MIDI 文件 (2).WA V 文件 (3).A VI 文件 (4).PCX 文件 A .(1)(3) B .(2)(3)(4) 保存接近于一部一部交互式、多媒体、DIVX(.AVI) WMV ASF PAL PAL DVD 画质的 小体积视频文件 120分钟长的电影压缩为4~8GB 的大小 120分钟长的电 影压缩为1.2GB 左右的大小 压缩情况 1998年 1994年1992年时间低码率视频 数字电视CD-ROM 上的交互式 视频 目标RMVB MOV MPG MPG 常见后缀网络视频 DVD VCD 应用可调4~8Mbps 1~1.5Mbps 带宽可调:720×576NTSC :720×480 :352×288NTSC :320×240画面尺寸MPEG-4MPEG-2(DVD )MPEG-1类型

《语音信号处理》期末考试试题

2011-2012学年第一学期 《语音信号处理》期末考试试题(A) 适用班级:时量:120分钟闭卷记分: 考生班级:姓名:学号: 注:答案全部写在答题纸上,写在试卷上无效! 一、填空题:(共7小题,每空2分,共20分) 1、矢量量化系统主要由编码器和组成,其中编码器主要 是由搜索算法和构成。 2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰 模型:级联型、并联型和。 3、语音编码按传统的分类方法可以分为、和混合 编码。 4、对语音信号进行压缩编码的基本依据是语音信号的和人 的听觉感知机理。 5、汉语音节一般由声母、韵母和三部分组成。 6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时 频分析特性;另一个是人耳听觉的效应。 7、句法的最小单位是,词法的最小单位是音节,音节可 以由构成。 二、判断题:(共3小题,每小题2分,共6分)

1、预测编码就是利用对误差信号进行编码来降低量化所需的比 特数,从而使编码速率大幅降低。() 2、以线性预测分析-合成技术为基础的参数编码,一般都是根据 语音信号的基音周期和清/浊音标志信息来决定要采用的激 励信号源。() 3、自适应量化PCM就是一种量化器的特性,能自适应地随着输 入信号的短时能量的变化而调整的编码方法。() 三、单项选择题:(共3小题,每小题3分,共9分) 1、下列不属于衡量语音编码性能的主要指标是()。 (A)编码质量(B)矢量编码(C)编码速率(D)坚韧性 2、下列不属于编码器的质量评价的是() (A)MOS (B)DAM(C)DRT(D)ATC 3、限词汇的语音合成技术已经比较成熟了,一般我们是采用() 作为合成基元。 (A)词语(B)句子(C)音节(D)因素 四、简答题:(共2小题,每小题12分,共24分) 1、画出矢量量化器的基本结构,并说明其各部分的作用。 2、试画出语音信号产生的离散时域模型的原理框图,并说明各 部分的作用。 五、简答题:(共5小题,前三小题,每题5分,后两小题,每题10分,共35分) 1、线性预测分析的基本思想是什么?

语音信号处理实验报告

通信与信息工程学院 信息处理综合实验报告 班级:电子信息工程1502班 指导教师: 设计时间:2018/10/22-2018/11/23 评语: 通信与信息工程学院 二〇一八年 实验题目:语音信号分析与处理 一、实验内容 1. 设计内容 利用MATLAB对采集的原始语音信号及加入人为干扰后的信号进行频谱分析,使用窗函数法设计滤波器滤除噪声、并恢复信号。 2.设计任务与要求 1. 基本部分

(1)录制语音信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (2)对所录制的语音信号加入干扰噪声,并对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (3)分别利用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman 窗几种函数设计数字滤波器滤除噪声,并画出各种函数所设计的滤波器的频率响应。 (4)画出使用几种滤波器滤波后信号时域波形和频谱,对滤波前后的信号、几种滤波器滤波后的信号进行对比,分析信号处理前后及使用不同滤波器的变化;回放语音信号。 2. 提高部分 (5)录制一段音乐信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (6)利用MATLAB产生一个不同于以上频段的信号;画出信号频谱图。 (7)将上述两段信号叠加,并加入干扰噪声,尝试多次逐渐加大噪声功率,对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (8)选用一种合适的窗函数设计数字滤波器,画出滤波后音乐信号时域波形和频谱,对滤波前后的信号进行对比,回放音乐信号。 二、实验原理 1.设计原理分析 本设计主要是对语音信号的时频进行分析,并对语音信号加噪后设计滤波器对其进行滤波处理,对语音信号加噪声前后的频谱进行比较分析,对合成语音信号滤波前后进行频谱的分析比较。 首先用PC机WINDOWS下的录音机录制一段语音信号,并保存入MATLAB软件的根目录下,再运行MATLAB仿真软件把录制好的语音信号用audioread函数加载入MATLAB仿真软件的工作环境中,输入命令对语音信号进行时域,频谱变换。 对该段合成的语音信号,分别用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman窗几种函数在MATLAB中设计滤波器对其进行滤波处理,滤波后用命令可以绘制出其频谱图,回放语音信号。对原始语音信号、合成的语音信号和经过滤波器处理的语音信号进行频谱的比较分析。 2.语音信号的时域频域分析 在Matlab软件平台下可以利用函数audioread对语音信号进行采样,得到了声音数据变量y,同时把y的采样频率Fs=44100Hz放进了MATALB的工作空间。

(完整)《语音信号处理》期末试题总结,推荐文档

2011-2013学年 《语音信号处理》期末考试试题 适用班级:时量:120分钟闭卷记分: 考生班级:姓名:学号: 注:答案全部写在答题纸上,写在试卷上无效! 一、填空题:(每空2分) 1、矢量量化系统主要由编码器和译码器组成,其中编码器主要是由搜索算法和码书构成。P101 2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。P18 3、语音编码按传统的分类方法可以分为波形编码、参数编码和混合编码。P137 4、对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。 P137-138 5、汉语音节一般由声母、韵母和声调三部分组成。P10 6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉的掩蔽效应。P22 7、句法的最小单位是词,词法的最小单位是音节,音节可以由音素构成。P9 8、复倒谱分析中避免相位卷绕的算法,常用的有微分法和最小相位信号法。P62 9、语音信号处理也可以简称为语音处理,它是利用数字信号处理技术对语音信号进行处理的一门学科,包括语音编码、语音合成、语音识别、说话人识别和语音增强等五大分支。P3 10、语音信号处理也可以简称为语音处理,它是以数字信号处理和语音学为基础而形成的一个综合新的学科,包括发音语音学、声学语音学、听觉语音学和心理学等四大分支。P2,6 11、语音的四大要素:音质、音调、音强和音长。P9 12、人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即浊音、清音、和爆破音。P8 13、元音的一个重要声学特性是共振峰,它是区别不同元音的重要参数,它一般包括共振峰频率的位置和频带宽度。 14、语音信号的倒谱分析就是求取语音倒谱特征参数的过程,它可以通过同态信号处理来实现。P56 二、判断题:(每小题2分)√× 1、预测编码就是利用对误差信号进行编码来降低量化所需的比特数,从而使编码速率大幅降低。(×)P143 2、以线性预测分析-合成技术为基础的参数编码,一般都是根据语音信号的基音周期和清/浊音标志信息来决定要采用的激励信号源。(×)P181 3、自适应量化PCM就是一种量化器的特性,能自适应地随着输入信号的短时能量的变化而调整的编码方法。(×)P142 4、线性预测法正是基于全极点模型假定,采用时域均方误差最小准则来估计模型参数的。(×)P72 5、波形编码是依赖模型假定的语音编码方法。(×)P137 6、掩蔽效应是使一个声音A能感知的阀值因另一个声音B的出现而提高的现象,这时A叫

《语音信号处理》实验报告材料

实用 中南大学 信息科学与工程学院 语音信号处理 实验报告 指导老师:覃爱娜 学生班级:信息0704 学生名称:阮光武 学生学好:0903070430 提交日期:2010年6月18日

实验一 语音波形文件的分析和读取 一、实验的任务、性质与目的 本实验是选修《语音信号处理》课的电子信息类专业学生的基础实验。通过实验: (1)掌握语音信号的基本特性理论:随机性,时变特性,短时平稳性,相关性等; (2)掌握语音信号的录入方式和*.WAV音波文件的存储结构; (3)使学生初步掌握语音信号处理的一般实验方法。 二、实验原理和步骤: WAV文件格式简介 WAV文件是多媒体中使用了声波文件的格式之一,它是以RIFF格式为标准。每个WAV文件的头四个字节就是“RIFF”。WAV文件由文件头和数据体两大部分组成,其中文件头又分为RIFF/WAV文件标识段和声音数据格式说明段两部分。常见的WAV声音文件有两种,分别对应于单声道(11.025KHz采样率、8Bit的采样值)和双声道(44.1KHz采样率、16Bit的采样值)。采样率是指声音信号在“模拟→数字”转换过程中,单位时间内采样的次数;采样值是指每一次采样周期内声音模拟信号的积分值。对于单声道声音文件,采样数据为8位的短整数(short int 00H-FFH);而对于双声道立体声声音文件,每次采样数据为一个16位的整数(int),高八位和低八位分别代表左右两个声道。WAV文件数据块包含以脉冲编码调制(PCM)格式表示的样本。在单声道WAV文件中,道0代表左声道,声道1代表右声道;在多声道WAV文件中,样本是交替出现的。WAV文件的格式见表1。

语音信号处理

语音信号处理 ——语音信号的清、浊音分析 班级: 姓名: 学号: 时间:2014年9月22日

1 实验目的 通过Matlab 编程实现语音信号的时域波形图,并观察清音、浊音信号的时域特点。掌握语音信号的时域分析技术,如短时平均能量、短时平均幅度、短时平均过零率分析、短时平均自相关、短时平均幅度差。 2 实验原理 语音信号是一种非平稳的时变信号,它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。语音信号分析的目的就在与方便有效的提取并表示语音信号所携带的信息。语音信号分析可以分为时域和变换域等处理方法,其中时域分析是最简单的方法,直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能量,短时平均过零率,短时自相关函数等。 3 实验过程 1)观察信号波形图 信号的采样周期为20kHz ,图中幅度较大的为浊音,幅度较小的为清音。 2)计算语音信号的短时能量、短时平均幅度并画图 1 20()N n n m E x m -==∑ 1 0|()|N n n m M x m -==∑

由于语音信号的能量随时间变化,清音和浊音之间的能量差别显著。平均幅度函数没有平方运算,因此动态范围比短时能量小,接近于标准能量计算的动态范围的平方根。虽然都可以用来区分清、浊音,但短时平均幅度的清浊音幅度差没有短时能量明显。 3)计算信号的短时平均过零率并画图 1 1{|sgn[()]sgn[(1)]|}2N n n m Zn x m x m -==--∑

过零率可以反映信号的频谱特性。高频率对应着高过零率,低频对应着低过零率。浊音过零率低,清音的过零率低。 4)分别取语音信号的清、浊音部分,分析其短时自相关函数 1 0()()()N k n n n m R k x m x m k --== +∑ 分别取小段浊音、清音信号,计算其短时自相关函数。浊音的自相关函数呈现出周期性,有明显突出的峰值,在80个采样点附近,其基因周期: T=(1/fs)*80=(1/20000)*80=3ms ; 清音的短时自相关函数没有周期性,也不具有明显突出的峰值,其性质类似于噪声。 5)计算语音信号的短时平均幅度差函数并画图 1 0()|()()|N k n n n m F k x m x m k --== -+∑

相关文档
最新文档