语音信号处理 (第2版)赵力 编著 语音信号处理勾画要点

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音信号处理(第2版)赵力编著

重点考点

第2章语音信号处理的基础知识

1.语音(Speech)是声音(Acoustic)和语言(Language)的组合体。可以这样定义语音:语音是由一连串的音组成语言的声音。

2.人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)理解阶段(5)接收阶段。

3.语音是人的发声器官发出的一种声波,它具有一定的音色,音调,音强和音长。其中,音色也叫音质,是一种声音区别于另一种声音的基本特征。音调是指声音的高低,它取决于声波的频率。声音的强弱叫音强,它由声波的振动幅度决定。声音的长短叫音长,它取决于发音时间的长短。

4.说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。任何语言都有语音的元音(Vowel)和辅音(Consonant)两种音素。

5.元音的另一个重要声学特性是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。

6.区分语音是男声还是女声、是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。

7.浊音的声带振动基本频率称基音周期(或基音频率),F0表示。

8.人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉掩蔽效应。

9.掩蔽效应分为同时掩蔽和短时掩蔽。

10.激励模型:一般分成浊音激励和清音激励。浊音激励波是一个以基音周期为周期的斜三角脉冲串。

11.声道模型:一是把声道视为由多个等长的不同截面积的管子串联而成的系统。按此观点推导出的叫“声管模型”。另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。

12.完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。

13.语谱图:人们致力于研究语音的时频分析特性,把和时序相关的傅立叶分析的显示图形。

第三章语音信号分析

1.贯穿于语音分析全过程的是“短时分析技术”。

2.语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码(一般就是PCM码);预处理一般包括预加重、加窗和分帧等。

3.预滤波的目的有两个:

抑制输入信号各频域分量中频率超出fs/2的所有分量(fs )为采样频率,以防止混叠干扰。

抑制50Hz 的电源工频干扰。

4.预加重的目的:是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。

5.窗口的长度

采样周期Ts=1/fs ,窗口长度N 和频率分辨率Δf 之间存在下列关系: Δf=1/NTs

6.有时窗口长度的选择,更重要的是要考虑语音信号的基音周期。

7.语音信号的时域分析就是分析和提取语音信号的时域参数。

8.短时能量及短时平均幅度分析:P38

9.短时过零率分析:P39 图3-4分析

10.短时平均幅度差函数:P43 AMOF 函数特点;

11.P46 语音的短谱图的临界带特征矢量 概念

12.同态信号处理就是将非线性问题转化为线性问题的处理方法。

13.大体分为乘积同态处理和卷积同态处理两种。

14.复倒谱和倒谱:

虽然D*[ ]与D*-1[ ]系统中的x^(n)和y^(n)信号也均是时域序列,但它们所处的离散时域显然不同于x(n)和y(n)所处的离散时域,所以我们把它称之为“复倒频谱域”。x^(n)是x(n)的“复倒频谱”,简称为“复倒谱”,有时也称作对数复倒谱。

显然c(n)是序列x(n)对数幅度谱的傅里叶逆变换。c(n)称为“倒频谱”或简称为“倒谱”,有时也称“对数倒频谱”。

15.与普通实际频率倒谱分析不同,MFCC (Mel-Frequency Cepstral Coefficents ,简称MFCC )的分析着眼于人耳的听觉特性,因为,人耳所听到的声音的高低与声音的频率并不成线性正比关系,而用Mel 频率尺度则更符合人耳的听觉特性。所谓Mel 频率尺度,它的值大体上对应于实际频率的对数分布关系。Mel 频率与实际频率的具体关系可用式(3-89)表示:

这里,实际频率的单位是Hz 。

16.基音周期估计方法:自相关函数(ACF)法、峰值提取算法(PPA)、平均度差函数(AMDF)法、并行处理技术、倒谱法、SIFT 、谱图法、小波法P70 原理

17.声道可以看成是一根具有非均匀截面的声管,在发音时起共鸣器的作用。当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。共振峰参数包括共振峰频率和频带宽度,它是区别不同韵母的重要参数。共振峰信息包含在语音频谱包络中,因此共振峰参数提取的关键是估计自然语音频谱包络,并认为谱包络中的最大值就是共振峰。提取共振峰特性最简便的手段是使用语谱仪。

18.P85 1、3/4/11/13

第四章 语音信号的矢量量化

1.所有M 个量化矢量构成的集合 称为码书或码本;把码书中的每个量化矢量)700/1lg(2595)(f f Mel +=}

{i Y

Yi(i=1,2….M)称为码字或码矢。

2.失真测度(距离测度):是将输入矢量Xi用码本重构矢量Yi来表征时所产生的误差或失真的度量方法,它可以描述两个或多个模型矢量间的相似程度。

3.P84 矢量化基本原理

第七章语音编码

1.信源编码、信道编码

信源编码:主要解决有效性问题;通过对信源的压缩、扰乱、加密等一系列处理,力求用最少的数码率传递最大的信息量,使信号更适宜传输和储存。

信道编码:主要解决可靠性问题;尽量使处理过程过的信号在传输的过程中不出错或少出错,即使出了错也要能自动检错和纠错。

2.语音编码分类;

第8章语音合成

1.由人工制作出语音称为语音合成(Speech Synthesis)。P175

2.语音合成法:P176

从技术方式讲可分为波形合成法、参数合成法和规则合成方法;从合成策略上讲

相关文档
最新文档