语音信号处理复习题

合集下载

电信科09级《语音信号处理》中期复习要点

电信科09级《语音信号处理》中期复习要点

电信科09级《语音信号处理》中期复习要点[1].什么是语音?解释音质(音色)、音量(音强)、音调(音高)。

[2].解释元音、辅音[3].解释音素、音节[4].解释基音、共振峰的概念、SS最大特点[5].判断改错:音节由音素组成,一般来说,理论上音素的组合数远大于实际的音节数。

[6].列于几种语音预处理的方法[7].语音预处理中的预加重,加重的是哪部份?为什么要预加重?[8].相同条件下,时间分辨率、频率分辨率、时宽、带宽相互之间成什么关系?[9].短时能量分析和短时平均幅度分析的本质是相同的,都是以对语音信号的什么为研究对象的?[10].短时相关分析和短时平均幅度差分析出发点相同,以语音的什么为考察对象的?[11].过零率和什么密切相关?为什么?[12].三条曲线分别代表三种音素:浊音V、清音U、无声S(能量较小的背景噪声)的短时过零概率分布,在图中标注对应位置。

[13].三条曲线分别代表三种音素:浊音V、清音U、无声S(能量较小的背景噪声)短时幅度概率分布,在图中标注对应位置。

[14].E n、Mn的作用是什么?[15].解释短时自相关分析为什么能够提取基音,以及如何提取基音。

[16].经过修正和没有经过修正的短时自相关分析有何区别?为什么要进行修正?两个窗口的大小分别是?[17].如何对AMDF进行修正?为什么要进行修正?两个窗口的大小分别是?[18].人耳对语音的高频还是低频部分更加敏感?请举一个实际例子。

[19].利用语音信号(浊音)的准周期性,来提取基音信息或区分清浊音的时域方法有哪些?[20].E n(k)=21)]()([1∑-=++-+NmkmnxmnxN有什么作用?两个窗口的大小关系是?[21].语音信号的STFT,是一个关于和的二元函数,分别固定它们时,可以得到两种解释,一种是,一种是。

[22].浊音信号的短时谱中,低频部分具有一定周期性的谐波代表了信息,而其包络代表信息[23].已知某音频信号的采样率为10kHz,量化精度为16位,均匀量化编码,若信号持续5分钟,则该信号占用计算机的存储空间大小约为多大?[24].对一段语音信号进行短时平均幅度分析后得到的函数图形,该图形为(a连续时间信号b离散时间信号 c 连续频率信号 d 离散频率信号)[25].利用语音信号(浊音)的准周期性,来提取基音信息或区分清浊音,可采用ADMF,这种函数所用的窗口效果最好的是[ ] a海明窗b汉宁窗c凯撒窗d直角窗[26].自相关函数是[ ] a 偶函数 b 奇函数c非奇非偶 d 既奇又偶[27].在背景噪声较大的情况下,判别有声无声的界限,使用(短时能量分析/短时平均幅度差分析/短时过零分析/短时相关分析)效果较好.为什么?。

语音信号的考试部分知识点

语音信号的考试部分知识点

语音信号处理复习资料一、名词解释:1、基音周期:声带开合一次的时间为基音周期(pitch period)。

它的倒数称为基频。

2 、音色:也叫音质;由混入基音中的倍音决定。

3 、音高:声音的高低;主要用基频反映。

基频值越大,反映出的音高越高。

4、音强:发音的轻重;可以用声压或声强来表示声音的强度,一般用相对声压或相对声强表示。

5、音长:声音的长短,取决于发音持续时间的长短。

6、响度:是一种主观心理量,主观感觉到的声音强弱的一种衡量标准,它与频率有关。

一样的音强,不一样的频率,则响度也会有所不同。

7、听觉掩蔽效应:一个更响的音调可以将其频率附近的较低的音调掩蔽。

可以分为同时掩蔽和异外时掩蔽。

8、临界频带:一个纯音可以被以它为中心频率,且具有一定带宽的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率,这时该纯音处于刚好能被听到的临界状态,即称这一带宽为临界带宽。

临界带宽有许多近似表示,一般在低于500 Hz的频带内,临界带宽约为100Hz,在高于500Hz 时,临界带宽约为中心频率的20% 。

人耳的基底膜具有与频谱分析仪相似的作用。

频率群的划分相应地将基底膜分成许多小的部分,每一部分对应一个频率群。

掩蔽效应就是在这些频率群内发生,这是因为对应的那一频率群的基底膜部分的声音,在大脑中似乎是叠加在一起来评价的,如果这时同时发声,可以互相掩蔽。

9、采样的基础知识:对于一个有限带宽的模拟信号,其频谱的最高频率为F0,在对其进行采样时,其采样频率在Fs>2F0时,采样后的信号才能保证信息不丢失。

语音信号中人耳可以感知的最大频率在3.4KHz左右采样频率在8KHz~16KHz之间短时分析:内平稳语音信号是一种随时间而变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音特性也都随时间变化,但这种变化是缓慢的,在一小段短时间内10~30ms,语音信号近似不变。

于是,我们把变化的语音信号分成一些相继的短时间段来处理。

语音信号处理复习题

语音信号处理复习题

语音信号处理复习题1 由下面的WAV文件读出语音的编码信息:52 49 46 46 A4 9A 7B 01 57 41 56 45 66 6D 74 2010 00 00 00 01 00 02 00 44 AC 00 00 10 B1 02 0004 00 10 00 64 61 74 61 80 9A 7B 01 42 FF 35 FCE2 FE 07 00 E7 FE AF 03 5F FF 65 01.....................2 画出语音信号的产生模型,简述语音的产生过程。

语音的形成过程—空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。

3 为生么语音信号要进行“短时〞分析。

答:语音信号特性是随时间变化的,是一个非平稳的随机过程,但在一个短时间范围内其特性根本保持不变,即语音信号具有“短时平稳性〞,因而可将语音信号看成准平稳过程,对其进行短时分析.4 语音信号的时域分析方法有那些?答:短时能量,短时平均过零率,短时自相关函数5 语音信号频率范围是多少?答:语音信号的频率大约在20Hz~20KHz。

6 什么是浊音的基音频率(F0)?男性、女性和儿童的F0大致分布在什么范围。

答:浊音的基音频率(F0):声带张开和闭合一次的时间的倒数。

由声带的尺寸、特性和声带所受张力决定。

F0的大小决定了声音的上下,称为音高。

男性的F0大致分布在:60-200Hz,女性和儿童的F0大致分布在:200-450Hz7 可以认为多长的时间范围内,语音信号是平稳信号。

答:10-30ms8 语音的采样率为8kHz;纯语音在进行计算机录入时,一般采样率在15kHz~20kHz左右;音乐的采样率可以高达44kHz。

9 如何利用语音信号的时域分析方法进行清、浊判断。

答:1、短时能量分析依据:是基于语音信号幅度随时间变化】清音段幅度小,其能量集中高频段;浊音段幅度较大,其能量集中低频段;2、平均幅度分析的依据:清音段幅度小,浊音段幅度较大。

语音信号处理_考试参考题(修订版)(1)

语音信号处理_考试参考题(修订版)(1)

一、填空题:(每空1 分,共60分)1、语音(speech)300-3400kHz,采样率为(8kHz )宽带语音(wide-band speech),带宽7kHz (50-7k),采样率为(14k Hz )带宽20kHz(20-20k),采样率一般为(40k Hz )2、语音由肺中的通过(稳定)的气流或声道中的气流激励(喉头至嘴唇的器官的各种作用)而产生。

当肺中的气流通过声门时,声门由于其间气体压力的变化而开闭,使得气流时而通过,时而被阻断,从而形成一串周期性脉冲送入声道,由此产生的语音是(浊音)。

如果声带不振动,声门完全封闭,而声道在某处收缩,迫使气流高速通过这一收缩部位而发音,由此产生的语音是(清音)。

3、语音信号从总体上是非平稳信号。

但是,在短时段(10~30)ms中语音信号又可以认为是平稳的,或缓变的。

4、语音的四要素是音长,音强,音高和音质,它们可从时域波形上反映出来。

其中音长特性:音长(长),说话速度必然慢;音长(短),说话速度必然快。

音强的大小是由于声源的(震动幅度)大小来决定。

5、声音的响度是一个和(振幅)有密切联系的物理量,但并不就是音强。

6、人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即(浊音)、(清音)和(爆破音)。

7、当气流通过声门时声带的张力刚好使声带发生较低频率的张弛振荡,形成准周期性的空气脉冲,这些空气脉冲激励声道便产生浊音如果声道中某处面积很小,气流高速冲过此处时而产生湍流,当气流速度与横截面积之比大于某个门限时(临界速度)便产生摩擦音,即(清音)。

8、如果声道某处完全闭合建立起气压,然后突然释放而产生的声音就是(爆破音)。

9、在大多数语音处理方案中,基本的假定为语音信号特性随时间的变化是(平稳随机)的。

这个假定导出各种(线性时不变)处理方法,在这里语音信号被分隔为一些短段再加以处理。

10、一个频率为F。

的正弦形信号以Fs速率抽样,正弦波的一周内就有(Fs/F0)个抽样。

语音信号处理作业

语音信号处理作业

课堂作业1:1、语音信号的特点是什么?画出数字模型语音信号的最基本组成单位是音素。

音素可以分为“浊音”和“清音”两大类,语音信号的频谱分量主要集中在300~3400HZ的范围内,其采样率为8kHZ,某些语音系统将此频率扩展到7~9KHZ,其采样率也提高到15~20kHZ。

语音信号具有短时性。

2、简述语音信号的特点,基频、共振峰是什么含义?语音一般由清音和浊音组成,浊音的声带振动基本频率,又称基音频率。

声道可以看成是一根具有非均匀截面的声管,在发音时起共鸣的作用,。

当元音激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。

共振峰为频谱中明显的几个凸起点,它的出现频率与声道的谐振频率相对应。

3、简述短时分析方法,怎样用AMDF判基音?由于语音信号的准平稳特性,任何语信号数字处理算法和技术都建立在“短时”基础上。

语音信号中一组基本短时参数有:短时能量E,短时平均幅度M和短时过零率Z。

短时自相关函数和短时频谱(或短时功率谱)是语音信号非常重要的一对短时参数,分别在时域和频域中表征了语音信号的一些主要特征。

短时基音周期是语音信号重要的参数之一。

用短时自关函数进行基音周期估计是寻找它的最大峰值点的位置,而用短时AMDF进行基音周期估计是寻找它的最深谷值点的位置。

4、短时傅立叶分析的含义?采样时如何考虑?语音波是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅立叶变换不能用来直接表示语音信号,而应该用短时傅立叶变换对语音信号的频谱进行分析,相应的频谱称为“短时谱”。

课堂作业二:1、画出同态滤波中特征系统框图,写出倒谱定义式卷积同态系统的框图复倒谱^()n x 是x(n)的Z 变换取对数后的逆Z 变换,其表达式如下: ^1[ln [()]]Z Z x n x -= (7)倒谱c(n)定义为x(n)取Z 变换后的幅度对数的逆Z 变换,即* X ’(n) Y’(n) + + * + + X(n) D *[ ] L[ ] D -1*[ ] y(n)1()[ln |()|]c n z X z -= (8)2、 相位卷绕是什么?怎样避免?相位伸展或相位解卷绕的前提条件是相邻采样点相位差的绝对值小于pi ,即要求lARG[H(k)]一ARG[H(k —1)]I<pi3、写出声道冲激响应序列的复倒谱特点。

语音信号处理答案

语音信号处理答案

二、问答题(每题5分,共20 分)1、语音信号处理主要研究哪几方面的内容?语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科,语音信号处理的理论和研究包括紧密结合的两个方面:一方面,从语言的产生和感知来对其进行研究,这一研究与语言、语言学、认知科学、心理、生理等学科密不可分;另一方面,是将语音作为一种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法和技术。

2、语音识别的研究目标和计算机自动语音识别的任务是什么?语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。

计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

3、语音合成模型关键技术有哪些?语音合成是实现人机语音通信,建立一个有听和讲能力的口语系统所需的两项关键技术,该系统主要由三部分组成:文本分析模块、韵律生成模块和声学模块。

1.如何取样以精确地抽取人类发信的主要特征,2.寻求什么样的网络特征以综合声道的频率响应,3.输出合成声音的质量如何保证。

4、语音压缩技术有哪些国际标准?二、名词解释(每题3分,共15分)端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。

共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。

语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。

码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义公示,用最少的搜素和计算失真的运算量。

语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量三、简答题(每题6分,共30分)1、简述如何利用听觉掩蔽效应。

语音信号处理复习题

语音信号处理复习题

1 研究语音信号处理的目的是什么?人类的通信有哪三种方式,从而说明语音信号处理有哪三个学科分支?它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求。

1.什么叫做语言学?什么叫做语音学?言语过程可分为哪五个阶段?语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究学问称为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。

人的说话过程如图2-1所示,可以分为五个阶段:(1)想说阶段:(2)说出阶段:(3)传送阶段:(4)接收阶段:(5)理解阶段:3、有哪几种描述声道特性的数学模型?请说明声管模型流图是如何得出的?有几种共振峰模型?各有什么特点和适用情况?声道的数学模型有两种观点:1)声管模型将声道看为由多个不同截面积的管子串联而成的系统。

在“短时”期间,声道可表示为形状稳定的管道。

另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。

共振峰模型,把声道视为一个谐振腔。

共振峰就是这个腔体的谐振频率。

由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。

一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。

基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。

(1)级联型声道模型这时认为声道是一组串联的二阶谐振器。

从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。

它的传输函数可分解表示为多个二阶极点的网络的串联:N=10,M=5时的声道模型如下图所示:(2)并联型声道模型对于非一般元音以及大部分辅音,必须考虑采用零极点模型。

此时,模型的传输函数如下:通常,N>R ,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式:这就是并联型的共振峰模型。

语音信号处理期末考试复习题

语音信号处理期末考试复习题

《语音信号处理》期末考试复习资料(涉及考点的教材课后复习题)授课教师:薛雅娟老师整理人:通信161班梁雨(第2-5章)通信161班左自睿(第6-10章)根据成都信息工程大学通信工程学院选修课《语音信号处理》期末考试范围,整理成期末考试的复习资料以供学弟学妹们参考。

所有权归属成都信息工程大学。

在此衷心感谢薛老师平时悉心地教育指导。

整理人均系在读本科学生,水平有限,错误与不足之处在所难免,敬请大家见谅,欢迎批评、斧正。

第二章:语音信号处理的基础知识人耳听觉的掩蔽效应分为哪几种?掩蔽效应的存在对我们研究语音信号处理系统有什么启示?答:分为同时掩蔽和短时掩蔽。

同时掩蔽是指同时存在的一个弱信号和一个强信号频率接近时,强信号会提高弱信号的听阈,当弱信号的听阈被升高到一定程度时就会导致这个弱信号变得不可闻。

当A声和B声不同时出现时也存在掩蔽作用,称为短时掩蔽。

短时掩蔽分为前向掩蔽和后向掩蔽。

语音信号的数学模型包括哪些子模型?激励模型是怎样推导出来的?辐射模型又是怎样推导出来的?它们各属于什么性质的滤波器?答:①激励模型②声道模型③辐射模型④完整的语音信号的数学模型激励模型一般分成浊音激励和清音激励。

浊音激励:发浊音时,声激励是一个准周期的单位脉冲串,Av为增益参数;为了使浊音的激励信号具有声门振动气流脉冲的实际波形,需将冲激序列通过一个声门脉冲模型滤波器(实际上是一个斜三角波形)G(z)。

最后形成一个以基音周期为周期的斜三角波形。

清音激励模拟为随机噪声,实际中一般使用均值为0、方差为1的白噪声。

辐射模型:从声道模型射出的是速度波ul(n),而语音信号是声压波pl(n),二者之倒比称为辐射阻抗Zl。

在语音信号参数分析前为什么要进行预处理,有哪些预处理过程?答:预滤波的目的有两个:一是抑制输入信号各频域分量中频率超出fs/2的所有分量(fs为采样频率),以防止混叠干扰;二是抑制50Hz的电源工频干扰。

预处理过程:预加重、加窗和分帧。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音信号处理复习题1 由下面的WAV文件读出语音的编码信息:52 49 46 46 A4 9A 7B 01 57 41 56 45 66 6D 74 2010 00 00 00 01 00 02 00 44 AC 00 00 10 B1 02 0004 00 10 00 64 61 74 61 80 9A 7B 01 42 FF 35 FCE2 FE 07 00 E7 FE AF 03 5F FF 65 01.....................2 画出语音信号的产生模型,简述语音的产生过程。

语音的形成过程—空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。

3 为生么语音信号要进行“短时”分析。

答:语音信号特性是随时间变化的,是一个非平稳的随机过程,但在一个短时间范围内其特性基本保持不变,即语音信号具有“短时平稳性”,因而可将语音信号看成准平稳过程,对其进行短时分析.4 语音信号的时域分析方法有那些?答:短时能量,短时平均过零率,短时自相关函数5 语音信号频率范围是多少?答:语音信号的频率大约在20Hz~20KHz。

6 什么是浊音的基音频率(F0)?男性、女性和儿童的F0大致分布在什么范围。

答:浊音的基音频率(F0):声带张开和闭合一次的时间的倒数。

由声带的尺寸、特性和声带所受张力决定。

F0的大小决定了声音的高低,称为音高。

男性的F0大致分布在:60-200Hz,女性和儿童的F0大致分布在:200-450Hz7 可以认为多长的时间范围内,语音信号是平稳信号。

答:10-30ms8 电话语音的采样率为8kHz;纯语音在进行计算机录入时,一般采样率在15kHz~20kHz左右;音乐的采样率可以高达44kHz。

9 如何利用语音信号的时域分析方法进行清、浊判断。

答:1、短时能量分析依据:是基于语音信号幅度随时间变化》清音段幅度小,其能量集中高频段;浊音段幅度较大,其能量集中低频段;2、平均幅度分析的依据:清音段幅度小,浊音段幅度较大。

3、短时平均过零率:浊音平均过零率低,集中在低频段;清音过零率高,集中在高频段。

4、短时自相关函数:浊音语音的自相关函数具有一定的周期性;清音语音的自相关函数不具有周期性,类似噪声,有点如语音信号本身10 通过对语音信号进行分析,可以提取到那些特征参数(列举出三个以上)。

答:短时能量和短时平均幅度,短时平均过零率,短时自相关函数11 人的发音器官包括那些。

答:人体发音器官—肺、气管、喉(包括声带)和声道。

12、傅立叶分析在信号处理中有什么意义?答:1、它是分析线性系统和平稳信号和稳态信号特性的强有力手段。

2、以复指数函数为基函数的正交变换,理论完善,计算方便,概念容易理解。

3、傅里叶分析可以使信号的某些特性变得很明显。

语音信号的频谱具有非常明显的语言学意义,可以获得重要的语音特征(如共振峰频率和带宽等),13 文语转换系统(TTS)属于那种语音合成系统。

答:规则语音合成系统14 语音的共振峰是如何形成的?答:气流流过声道时犹如通过了一个具有某种谐振特性的腔体,放大某些频率,在频谱上形成相应位置的峰起,称为共振峰。

15 同态信号处理也称为同态滤波,画出同态滤波中特征系统框图16 语音合成的分类及特点,举出一个语音信号参数合成的例子。

1、波形合成法特点:简单/小词汇(报站器)2、参数合成法特点:可以合成大词汇(字典)3、规则合成法特点:实现难度较大如TTS系统(文语转换系统)17 画出实现语音信号时频语音增强功能的框图。

18 什么是语音信号的“短时”处理方法。

答:语音信号的能量是一种随时间变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音参数也都对时间变化,但这种变化时缓慢的,在一小段时间内10-30ms,语音信号近似不变。

于是,我们把变化的语音信号分成一些相继的段时间段来处理。

而每一段时间具有固定的特性,这种方法称为“短时”处理方法。

19 语音信号短时能量分析的用途答: 1、区分清音段与浊音段; 2、区分声母和韵母;3、在高信噪比下,区分无声与有声的分界;4、区分连字的边界;5、用于语音识别。

20 短时自相关函数的物理意义,性质,作用。

答:物理意义确定两个信号在时域内的相似性,用于研究信号本身。

表示方法h(n)性质:(1)对称性 R(k)= R(-k)(2)在k = 0处为最大值,即对于所有k来说,|R(k)|≤R(0)(3)对于确定信号,值R(0)对应于能量,而对于随机信号,R(0)对应于平均功率作用:a.区分清/浊音浊音语音的自相关函数具有一定的周期性。

清音语音的自相关函数不具周期性,类似噪声,与其本身相似。

b.估计浊音语音信号的周期,即估计基音周期。

21利用短时自相关函数进行语音分析时要注意的问题22 语音信号傅里叶分析的作用(p41)在语音信号处理中,傅立叶表示在传统上一直起主要作用。

其原因一方面在于稳态语音的产生模型由线性系统组成,此系统被一随时间作周期变化或随机变化的源所激励,因而系统输出频谱反映了激励与声道频率响应特性。

另一方面,语音信号的频谱具有非常明显的语言声学意义,可以获得某些重要的语音特征。

同时,语音的感知过程与人类听觉系统具有频谱分析功能是密切相关的23 短时傅里叶变换的滤波器的解释。

()()()()mnhkmxmxkRmkn∑+∞-∞=--=24 取样率的基本概念(1)时域取样率的基本概念。

(2)频域取样率的基本概念。

(3)总取样率的基本概念25 从如下语音信号的短时谱中能得到什么信息?答:1、快速变化,由激励信号引起的;2、慢速变化,声道滤波器的共振峰引起的;3、采用汉明窗得到的短时频谱较较矩形窗平滑。

26 倒谱分析的作用答:(1)区分清/浊音(2)求浊音的基音周期, 可以得到浊音的激励信号。

(3)得到声道的冲激响应h(n)27 简述语音信号的特点,基频、共振峰是什么含义?答:特点:语音一般由清音和浊音组成,语音信号具有短时平稳性。

基音频率:浊音的声带振动基本频率。

是声带张开和闭合一次时间的倒数。

共振峰:当元音激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。

共振峰为频谱中明显的几个凸起点,它的出现频率与声道的谐振频率相对应。

28 线性预测的基本思想。

答:一个语音的抽样能够用过去若干个语音抽样的线性组合来逼近。

通过时实际语音抽样和线性预测抽样之间差值的平方和(在一个有限间隔上)达到最小值,即进行最小均方误差的逼近,能够决定唯一的一组预测数据,而预测系数就是线性组合中所用的加权系数。

29 线性预测分析如何用于语音编码和语音合成。

答:编码:预测误差e(n)就是激励信号G*u(n),预测系数{ak}就是声道虑波器的系数{dk}.ak=dk,e(n)=G*u(n)线性预测分析可以对生成模型的增益参数G和滤波器系数{dk}进行直接和高效率的计算。

合成:30 简述矢量量化的过程。

答:(书上定义):将语音信号波形的K个样点的每一帧,或有K个参数的每一参数帧,构成K维空间中的一个矢量,然后对这个矢量进行量化。

(课件上说):当给矢量量化器输入一个任意矢量Xi进行矢量量化时,矢量量化器首先判断它属于哪个子空间,然后输出该子空间的代表矢量Yj.矢量量化过程就是用Yj代替Xi的过程。

Yj=Q(Xi) 1<j<J 1<i<N31 通常线性预测分析设定的模型是什么模型。

答:全级点模型。

32 什么是矢量的失真测度?常用的失真测度有哪些答:失真测度(距离测度)就是将输入矢量Xi用码本重构矢量Yj来表征时所产生的误差或失真的度量方法,它可以描述两个或多个模型矢量之间的相似程度。

常用的失真测度为欧氏距离测度。

33 矢量量化器最佳设计的两个条件?答:最佳划分,最佳码本34 初始码书的生成方法随机选取法:从训练序列中随机选取J个矢量作为初始码字,从而构成初始码本。

分裂法:35 短时能量和短时过零率的的用途。

答:短时能量:1、区分清音段与浊音段;2、区分声母和韵母;3、在高信噪比下,区分无声与有声的分界;4、区分连字的边界;5、用于语音识别。

过零率: 1、区分清音和浊音:浊音平均过零率低,集中在低频端;轻音过零率高,集中在高频端。

2、从背景噪声中找出是否有语音,以及语音的起点。

36 对语音信号进行处理时为什么要进行分帧。

答:语音信号短时平稳,要将语音信号划分为很多短时的语音段,而每个短时的语音段称为一个分析帧。

这样,对语音信号进行分针处理就相当于对特征固定的持续信号进行处理。

经过处理,语音信号就已经被分割成一帧一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成平稳的随机信号,利用数字信号处理来提取语音特征参数。

37 为什么端点检测有重要意义?答:端点检测:从包含语音的一段信号中确定出语音的起点和终点。

有效的端点检测不仅能使处理的时间减到最小,而且能排除无声段的噪声干扰。

实验表明:端点检测的正确与否影响到识别率的高低。

语音端点检测的方法:短时能量和短时过零率。

38 什么叫LBG算法,怎样设计初始码本,并用来训练码本。

LBG算法是一种递推算法,从一个事先选定的初始码本开始迭代。

把训练序列按照码本中的元素根据最邻近准则分组,对每一分组找质心,得到新的码本,又作为初始码本,再进行分组,重复上述过程,直到系统性能满足要求和不再有明显的改进为止。

39 为什么说语音信号可以看成隐马尔科夫过程,隐马尔科夫过程有哪些模型参数。

HMM包含两个随机过程,三个概率矩阵,一个输出概率答:隐马尔可夫模型:只能观察到输出符号序列(ab),而不能观测到状态之间如何转移(状态转移概率)和状态的分布(状态的概率)。

而语音信号是一个可观察的序列:它是由大脑中的思维(不可观测)及语言需要和语法知识(不可观测)所发出的参数流。

40 列举常用语音编码速率的值。

答: 64kbit/s; PCM; 32kbit/s; ADPCM;4.8kbit/s; CELP; 2.4kbit/s; LPC声码器41波形编码、参数编码与混合编码各有什么优缺点。

答:波形编码:话音质量高,编码速率高。

参数编码:编码速率低,自然度低,对环境噪声敏感。

混合编码:质量高和速率低.42 在语音编码中,如何使用自适应技术。

答:利用自适应的思想改变量化间隔(量阶)的大小,即用小的量化间隔去编码小的差值,使用大的的量化间隔去编码大的差值43 语音合成的目的是什么?它主要分为哪几类?比较它们的优缺点。

答:目的:让机器说话,达到一定的音质与可懂度(或产生与人类通信相关的语音)(1)、波形合成法。

优点:合成音质好;缺点:存储空间大。

(2)、参数合成法。

优点:存储空间小;缺点:合成音质较差。

(3)、规则合成法。

优点:可以合成无限词汇,存储量小;缺点:合成音质效果较差44在TTS系统中,如何进行语音合成中的韵律控制。

相关文档
最新文档