语音信号处理复习资料

合集下载

数字语音复习资料

1
R0 1, R0 1
GR0 (1 bz 1 )(1 ck z k )
k 1 q
完整的数字模型的系统函数由激励模型、声道模型和辐射模型的级联来表示：
(2) 声道模型
(c)混合型我们可以根据发音的需要自动切换串联或并联通路，此外并联部分还有一条直通路径，其幅度控制因子为AB，这是专为一些频谱特性较为平坦的音素如[f]、[p]、[b]而考虑的，以增强反谐振特性。
(2) 声道模型
(a)级联型：适用于一般单元音,认为声道是一组串联的二阶谐振器： G 这是一个全极点模型，极点 V ( z) P 就是这个多项式的根： 1 ak z k
k 1
1 ak z k 0
k 1
P
若P为偶数，解其根会得到共扼复数(conjugate complex) 的根，表示成： P / 2 1 * 1
语音压缩和编码—语音通信数字化；
语音合成—自动报站、自动报时、自动警告、电话自动查询和语音提示等；语音识别—声控应用、自动口语翻译；
说话人识别—安全加密、银行信息电话查询服务以及破案和法庭取证；语音增强—通常作为语音处理的前端。
一些常用的语音波形分析与处理的软件
• • • • • • • • Goldwave (audio editor) Esps Xwaves (routines + visual.) Praat (speech analysis) Wavesurfer (speech editor) Transcriber (annotation tool) Matlab (general purpose soft) OGI speech tools (routines + app. dev.) …winpitch, pitchworks, phonedit, cooledit, Cooledit, SFS,Nero waveedit…..

第二章语音信号处理的基础知识

音节：发音时，被明显感觉到的语音片段为音节。
音素：是发音的最小单位，一个音节由一个音素或几个音素构成。分为元音和辅音。元音是构成音节的主干，从长度和能量来看，在音节中占主要位置；辅音只是出现在音节的前端或后端或前后两端，它们的时长和能量较小。
1.元音元音的一个重要的声学特性
基频和共振峰
人在说话时，空气由肺部压入，由嘴唇呼出，声
i表示3个韵母，即韵母、舌尖前韵母和舌尖后韵母。
区别不同韵母的重要参数
韵母是由单、双元音、元音带上辅音等几种不同的形式组成。不同的元音有不同的基音频率和共振峰模式，它们是区别不同韵母的重要参数。来自三、汉语音节的一般结构
声母、韵母和声调是汉语语音的三要素。汉语语音的1个不同于其他语言的是它具有声调（音调）。声调是1个音节在念法上的高低升降的变化，汉语中有4个声调，即阴平（－）、阳平（ ′）、上声（）、和去声（‵）。
音节
声母
韵母
无声段声母辅音段送气段前过渡段元音段后过渡段鼻音段
§2.4 语音生成系统和语音感知系统
一、语音发音系统二、语音听觉系统
一、语音发音系统（发音器官及其作用）
●肺：能源； ●喉：振动源，包括声带和声门； ●声道（声门到嘴唇的呼气通道）：谐振腔； ●其他发音器官：包括唇、齿、舌、面颊等，使谐振腔改变形状。
正常人的听觉系统是极为灵敏的，可听声的范围为0.02Hz-20kHz。
可听声的最小声压级(dB)称为听阈。-5 130dB，对低频和高频是不敏感的，听阈为60dB，在1kHz 附近最敏感。
声源飞机附近织布车间地铁繁华街道普通谈话安静房间耳语树叶沙沙声农村静夜
声压/Pa 200 20 0.63 0.063 0.02 0.002 0.00063 0.0002 0.000063

语音信号的考试部分知识点

语音信号处理复习资料一、名词解释：1、基音周期：声带开合一次的时间为基音周期（pitch period）。

它的倒数称为基频。

2 、音色：也叫音质；由混入基音中的倍音决定。

3 、音高：声音的高低；主要用基频反映。

基频值越大，反映出的音高越高。

4、音强：发音的轻重；可以用声压或声强来表示声音的强度，一般用相对声压或相对声强表示。

5、音长：声音的长短，取决于发音持续时间的长短。

6、响度：是一种主观心理量，主观感觉到的声音强弱的一种衡量标准，它与频率有关。

一样的音强，不一样的频率，则响度也会有所不同。

7、听觉掩蔽效应：一个更响的音调可以将其频率附近的较低的音调掩蔽。

可以分为同时掩蔽和异外时掩蔽。

8、临界频带：一个纯音可以被以它为中心频率，且具有一定带宽的连续噪声所掩蔽，如果在这一频带内噪声功率等于该纯音的功率，这时该纯音处于刚好能被听到的临界状态，即称这一带宽为临界带宽。

临界带宽有许多近似表示，一般在低于500 Hz的频带内，临界带宽约为100Hz，在高于500Hz 时，临界带宽约为中心频率的20% 。

人耳的基底膜具有与频谱分析仪相似的作用。

频率群的划分相应地将基底膜分成许多小的部分，每一部分对应一个频率群。

掩蔽效应就是在这些频率群内发生，这是因为对应的那一频率群的基底膜部分的声音，在大脑中似乎是叠加在一起来评价的，如果这时同时发声，可以互相掩蔽。

9、采样的基础知识：对于一个有限带宽的模拟信号，其频谱的最高频率为F0，在对其进行采样时，其采样频率在Fs>2F0时，采样后的信号才能保证信息不丢失。

语音信号中人耳可以感知的最大频率在3.4KHz左右采样频率在8KHz~16KHz之间短时分析：内平稳语音信号是一种随时间而变化的信号，可能是浊音激励也可能是清音激励，浊音的基音周期以及信号幅度等语音特性也都随时间变化，但这种变化是缓慢的，在一小段短时间内10~30ms，语音信号近似不变。

于是，我们把变化的语音信号分成一些相继的短时间段来处理。

语音信号处理的基础知识

由于该气流通过一个狭窄通道时在口腔中形成湍流，因而具有随机噪声的特点。发出的音称为清音。
如声母[s]、[sh]、[h]、[x]和[f]等为清音。
整理课件
男声汉语拼音声母s的时域波形
整理课件
男声汉语拼音声母s的频谱
整理课件
利用MATLAB 产生的高斯噪声
整理课件பைடு நூலகம்
3.元音、辅音和浊音、清音的关系
Phoneme(音素) Word formation Grammar Text (Option)
整理课件
5. 语言学和语音信号处理的关系
语言学是语音信号处理的基础。例如：可以利用句法和语义信息减少语音识别中搜索匹配范围，提高正确识别率。
整理课件
6. 语音学和语音信号处理的关系
语音学和语音信号处理联系更加紧密。如：运用现代信号处理技术建立发音的数学模型，确定发音方法；用声学和非平稳信号分析理论来解释各种语音现象；语音信息的存储形式等。
1.语音：人们讲话时发出的话语叫语音。是一种声音，是人们进行信息交流的声音，是组成语言的声音/带有语言信息的声音。
语音(Speech)=声音(Acoustic)+语言 (Language) 语音是由一连串的音组成语言的声音。
整理课件
语音：人与人的沟通介面
整理课件
2. 对语音的研究包括两个方面
整理课件
二、语音听觉系统（一个十分巧妙的音频信号处理器）人类接收语音由人耳来完成，空气振动由耳廓收
集，经外耳道而抵达鼓膜，鼓膜随之振动，使鼓室中的空气和听骨链也发生振动，听骨链的振动经前庭窗（卵圆窗）激励前庭淋巴，变为液波，液波使位于基底膜上的螺旋器受到刺激，将神经冲动经听神经传到中枢而产生听觉。

南理工语音信号处理期末考试重点整理

第02章基础知识—9
3、语音信号产生的数字模型
3. 语音信号产生的数字模型
下图是一个完整的语音信号产生的数字模型：
第02章基础知识—10
3、语音信号产生的数字模型
由此模型框图，我们可将语音信号看成准周期序列或随机噪声序列作为激励的线性非移变系统的输出，此模型可分为三个部分：激励模型、声道模型、辐射模型激励模型根据发浊音和发清音的机理又分为：(a)浊音激励 (b)清音激励
第02章基础知识—12
由图可见，它是一个低通滤波器。频率分析表明，其幅度谱按12 dB/倍频程的速率衰减。如果将其表示为Z变换的全极模型的形式，有 G(z)＝1/ (1-g1z-1)(1-g2z-1) 如果g1和g2的值都接近于1，则由此形成的激励信号频谱很接近于声门脉冲的频谱。显然，上式表明斜三角波可描述为一个二阶极点的模型。需要指出，不同人、不同语音，其声门脉冲的形状不一定相同，但在语音合成中对其形状要求不很苛刻，只要其傅里叶变换有近似的特性就可以了。
3
第2章语音信号基础知识
1.
声音是一种波，振动频率在20～20 000 Hz之间。 20HZ以下：次声波 20 000HZ以上：超声波
第02章基础知识—4
1、人类的语言器官
1. 人类的语言器官
人体发音器官—肺、气管、喉（包括声
带）和声道肺是语音产生的能源所在；声带为产生语音提供主要的激励源；声道是指声门至嘴唇的所有器官：咽、鼻腔、口腔等，它们具有非均匀截面，且随时间变化，起共鸣器（或谐振器）的作用。
第02章基础知识—7
Hale Waihona Puke 、语音信号产生过程语音的两个重要声学特性：基音频率，共振峰浊音的基音频率(F0)：由声带的尺寸、特性和声带所受张力决定，其值等于声带张开和闭合一次的时间的倒数。人类基音频率的范围在80～500 Hz左右。共振峰(Fn , n=1,2,...)：声道是一个谐振腔，它放大声音气流的某些频率分量而衰减其他频率分量，被放大的频率我们称之为共振峰或共振峰频率。声道具有的一组共振峰，声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道某一瞬间的形状和尺寸，因而不同的语音对应于一组不同的共振峰参数。实际应用中，头三个共振峰最重要,越多越精确。

语音信号处理期末考试复习题

《语音信号处理》期末考试复习资料（涉及考点的教材课后复习题）授课教师：薛雅娟老师整理人：通信161班梁雨（第2-5章）通信161班左自睿（第6-10章）根据成都信息工程大学通信工程学院选修课《语音信号处理》期末考试范围，整理成期末考试的复习资料以供学弟学妹们参考。

所有权归属成都信息工程大学。

在此衷心感谢薛老师平时悉心地教育指导。

整理人均系在读本科学生，水平有限，错误与不足之处在所难免，敬请大家见谅，欢迎批评、斧正。

第二章：语音信号处理的基础知识人耳听觉的掩蔽效应分为哪几种？掩蔽效应的存在对我们研究语音信号处理系统有什么启示？答：分为同时掩蔽和短时掩蔽。

同时掩蔽是指同时存在的一个弱信号和一个强信号频率接近时，强信号会提高弱信号的听阈，当弱信号的听阈被升高到一定程度时就会导致这个弱信号变得不可闻。

当A声和B声不同时出现时也存在掩蔽作用，称为短时掩蔽。

短时掩蔽分为前向掩蔽和后向掩蔽。

语音信号的数学模型包括哪些子模型？激励模型是怎样推导出来的？辐射模型又是怎样推导出来的？它们各属于什么性质的滤波器？答：①激励模型②声道模型③辐射模型④完整的语音信号的数学模型激励模型一般分成浊音激励和清音激励。

浊音激励：发浊音时，声激励是一个准周期的单位脉冲串，Av为增益参数；为了使浊音的激励信号具有声门振动气流脉冲的实际波形，需将冲激序列通过一个声门脉冲模型滤波器（实际上是一个斜三角波形）G(z)。

最后形成一个以基音周期为周期的斜三角波形。

清音激励模拟为随机噪声，实际中一般使用均值为0、方差为1的白噪声。

辐射模型：从声道模型射出的是速度波ul(n)，而语音信号是声压波pl(n)，二者之倒比称为辐射阻抗Zl。

在语音信号参数分析前为什么要进行预处理，有哪些预处理过程？答：预滤波的目的有两个：一是抑制输入信号各频域分量中频率超出fs/2的所有分量（fs为采样频率），以防止混叠干扰；二是抑制50Hz的电源工频干扰。

预处理过程：预加重、加窗和分帧。

《语音信号处理》课程笔记

《语音信号处理》课程笔记第一章语音信号处理的基础知识1.1 语音信号处理的发展历程语音信号处理的研究起始于20世纪50年代，最初的研究主要集中在语音合成和语音识别上。

在早期，由于计算机技术和数字信号处理技术的限制，语音信号处理的研究进展缓慢。

随着技术的不断发展，尤其是快速傅里叶变换（FFT）的出现，使得语音信号的频域分析成为可能，从而推动了语音信号处理的发展。

到了20世纪80年代，随着全球通信技术的发展，语音信号处理在语音编码和传输等领域也得到了广泛应用。

近年来，随着人工智能技术的快速发展，语音信号处理在语音识别、语音合成、语音增强等领域取得了显著的成果。

1.2 语音信号处理的总体结构语音信号处理的总体结构可以分为以下几个部分：（1）语音信号的采集和预处理：包括语音信号的采样、量化、预加重等操作，目的是提高语音信号的质量，便于后续处理。

（2）特征参数提取：从预处理后的语音信号中提取出能够反映语音特性的参数，如基频、共振峰、倒谱等。

（3）模型训练和识别：利用提取出的特征参数，通过机器学习算法训练出相应的模型，并进行语音识别、说话人识别等任务。

（4）后处理：对识别结果进行进一步的处理，如语法分析、语义理解等，以提高识别的准确性。

1.3 语音的发声机理和听觉机理语音的发声机理主要包括声带的振动、声道的共鸣和辐射等过程。

声带振动产生的声波通过声道时，会受到声道形状的影响，从而产生不同的音调和音质。

听觉机理是指人类听觉系统对声波的感知和处理过程，包括外耳、中耳、内耳和听觉中枢等部分。

1.4 语音的感知和信号模型语音的感知是指人类听觉系统对语音信号的识别和理解过程。

语音信号模型是用来描述语音信号特点和变化规律的数学模型，包括时域模型、频域模型和倒谱模型等。

这些模型为语音信号处理提供了理论基础和工具。

第二章语音信号的时域分析和短时傅里叶分析2.1 语音信号的预处理语音信号的预处理主要包括采样、量化、预加重等操作，目的是提高语音信号的质量，便于后续处理。

语音信号处理期末复习讲解

3.3短时能量分析
短时能量定义
• 短时：通过加窗来实现 • 能量：通过求信号幅度的平方来实现
En
m
[ x(m)w(n m)]

2

m n N 1

n
[ x(m)w(n m)]
2
• 窗的位置随n变化
窗的类型
• 直角窗（矩形窗）
Time domain 40 1 30 0.8 20 10 0 -10 -20
人体发声的部位
声带——震动的来源
Tp
典型声门脉冲波形
• Tp为基音周期，倒数为基音频率，用fp表示，取决于声带的尺寸和特性 • 男性说话者的fp大致分布在60-200Hz范围内 • 女性说话者和小孩的fp值在200-450Hz范围内 • 同一个人所发出的声音有高低变化，是靠控制声带的松紧来调节的。
MOS得分 5 4 3 2 1 质量等级优良可差坏失真级别不觉察刚有觉察有觉察且稍有可厌明显觉察且可厌但可忍受不可忍受
第三章语音信号的时域分析
语音信号的稳态——帧的概念
• 语音自身从长时间看是非稳态过程，从短时间看是相对稳定的，既“短时性”。 • 将语音分为一段一段的，每一段称为“一帧”，大概时间为10-30ms • 短时时域分析是语音处理的基本方法，也是最直观、最易理解的方法
窗的类型
• 海明窗（Hamming，也称汉明窗，升余弦）
Time domain 40 1 20 0.8 0
Frequency domain
Magnitude (dB)
10 20 30 40 Samples 50 60
Amplitude
0.6
-20 -40 -60

语音信号处理复习资料

语音信号处理复习资料8预加重和去加重的理解7线性预测编码特点和定义5隐马尔可夫差数特点计算以上三题没有老师画的其他的重点为红色标记的（注意：仅供参考）一、语音、语音信号处理的名词解释1、语音：是语言的声学表现，是声音和意义的结合体，是相互传递信息的重要手段，是人类最重要、最有效、最常用和最方便的交换信息的形式。

2、语音信号处理：是研究用数字信号处理技术对语音信号进行处理的一门学科，它是一门新兴的学科，同时又是综合性的多学科领域和涉及很广的交叉学科。

它与语音学、语言学、声学、认知科学、生理学、心理学有密切关系。

二、语音学的名词解释语音学：是研究言语过程的一门科学，它包括三个研究内容：发音器官在发音过程中的运动和语音的音位特性；语音的物理特性；以及听觉和语言感知。

§.2语音信号处理的发展概况1、语音编码：语音编码技术是伴随着语音信号的数字化而产生的，目前主要应用在数字语音通信领域。

2、语音合成：语音合成的目的是使计算机能像人一样说话。

3、语音识别：语音识别是使计算机判断出所说的话得内容。

§.2语音产生的过程一、语音、清音、浊音1、语音：声音是一种波，能被人耳听到，振动频率在20Hz-20kHz之间。

语音是声音的一种，它是由人的发音器官发出的、具有一定语法和意义的声音。

语音的振动频率最高可达15kHz左右。

2、浊音、清音：语音由声带振动或不经声带振动来产生，其中由声带振动产生的音统称为浊音，而不由声带振动产生的音统称为清音。

浊音中包括所有的元音和一些辅音，清音包括另一部分辅音。

二、语音的产生过程：空气从肺部排出形成气流。

空气通过声带时，如果声带是紧绷的，则声带将产生张弛振动，即声带周期性地开启和闭合。

声带开启时，空气流从声门喷射出来，形成一个脉冲；声带闭合时相应于脉冲序列的间歇期。

语言交际：通过连接说话人大脑的一连串心理、生理、和物理的转换过程实现的。

这个过程包括：发音-传递-感知。

语音信号处理复习华南理工

语音信号处理复习第二章语音信号处理基础知识1，定义：（1）语音是指人们讲话时发出的话语，它是一种声音，具有声学特征的物理特性。

而它又是一种特殊的声音，是人们进行信息交流的声音，是组成语言的声音。

因此语音是语言和声音的组合体。

（2）语音是由人的发声器官发出的一种声波，它具有音色、音调、音强和音长。

①音色：是一种声音区别于另一种声音的基本特征②音调：指声音的高低，取决于声波的频率③音强：指声音的强弱，取决于声波的振幅④音长：指声音的长短，取决于发音时间的长短（3）任何语言都有语言的元音和辅音两种音素：元音：当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时，这些声腔完全开放，气流顺利通过。

一个重要的声学特性是共振峰。

辅音：由于通路的某一部分封闭起来或者受到阻碍，气流被阻不能畅通。

包括清音和浊音。

①浊音：声带振动②清音：声带不振动（4）人的听觉系统有两个重要的特性：①时频分析特性：人的耳蜗就像一个频谱分析仪，将复杂的信号分解成各种频率分量。

②听觉掩蔽效应：心理声学中的听觉掩蔽效应指在一个强信号附近，弱信号将变得不可闻，被掩蔽掉了。

掩蔽效应分为同时掩蔽和短时掩蔽。

2，语言信号生成的数学模型：①激励模型：在声门（声带）以下，称为“声门子系统”，它负责产生激励振动，是激励系统②声道模型：从声门到嘴唇的呼气通道是声道，是声道系统③辐射模型：语音从嘴唇辐射出去，则嘴唇以外是辐射系统3，语音信号的特性分析：（1）语音信号的时域波形和频谱特性：①时域波形：周期性，周期对应声带振动的频率，即基音频率。

②频谱特性：共振峰特性。

元音频谱有明显的几个凸起点，它们出现的频率就是共振峰频率。

清辅音频谱峰点之间的间隔是随机的，没有周期分量。

（2）语谱图：语谱图是一种三维图谱，它是表示语音频谱随时间变化的图形，其纵轴为频率，横轴为时间，任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。

语谱图中显示了大量的与语音的语句特性相关的信息，它综合了频谱图和时域波形的特点，明显地显示出语音频谱随时间的变化情况，或者说是一种动态的频谱。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

8预加重和去加重的理解7线性预测编码特点和定义5隐马尔可夫差数特点计算以上三题没有老师画的其他的重点为红色标记的（注意：仅供参考）一、语音、语音信号处理的名词解释1、语音：是语言的声学表现，是声音和意义的结合体，是相互传递信息的重要手段，是人类最重要、最有效、最常用和最方便的交换信息的形式。

它与语音学、语言学、声学、认知科学、生理学、心理学有密切关系。

§.2语音信号处理的发展概况1、语音编码：语音编码技术是伴随着语音信号的数字化而产生的，目前主要应用在数字语音通信领域。

2、语音合成：语音合成的目的是使计算机能像人一样说话。

3、语音识别：语音识别是使计算机判断出所说的话得内容。

§.2语音产生的过程一、语音、清音、浊音1、语音：声音是一种波，能被人耳听到，振动频率在20Hz-20kHz之间。

语音是声音的一种，它是由人的发音器官发出的、具有一定语法和意义的声音。

语音的振动频率最高可达15kHz左右。

2、浊音、清音：语音由声带振动或不经声带振动来产生，其中由声带振动产生的音统称为浊音，而不由声带振动产生的音统称为清音。

浊音中包括所有的元音和一些辅音，清音包括另一部分辅音。

二、语音的产生过程：空气从肺部排出形成气流。

空气通过声带时，如果声带是紧绷的，则声带将产生张弛振动，即声带周期性地开启和闭合。

声带开启时，空气流从声门喷射出来，形成一个脉冲；声带闭合时相应于脉冲序列的间歇期。

语言交际：通过连接说话人大脑的一连串心理、生理、和物理的转换过程实现的。

这个过程包括：发音-传递-感知。

因此现代语音的三个分支：发音语言学、声学语言学、听觉语言学。

三、基音周期、基音频率基音周期：声带开启和闭合一次的时间即振动周期称为音调周期或基音周期。

基音频率：基音周期的倒数称为基音频率，简称为基频。

四、浊音、清音、爆破音的激励源对于浊音、清音和爆破音来说，激励源是不同的，浊音语音是位于声门处的准周期脉冲序列，清音的激励源是位于声道的某个收缩区的空气湍流，而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放。

五、共振峰的概念（参见大纲）1、共振峰名词解释：声道是一个分布参数系统，它是一个谐振腔，有许多谐振频率, 称为共振峰，它是声道的重要声学特征。

2、共振峰的公式：Fn=（2 n-1）c/4L （会运用公式进行计算，填空、选择）3、谐振点间的间隔不同，但平均仍然大约为每1KHz有一个谐振点。

4、声道的共振峰特性决定所发声音的频谱特性（音色）。

5、头三个共振峰最重要。

§.3语音信号的特性一、语音的物理属性（集中备课）语音的物理性质包括音质、音调、音强、音长等特性。

语音是人的发音器官发出的一种声波，具有声音的物理属性。

音质是一种声音区别于其他声音的基本特征；音调指声音的高低，取决于声波的频率：频率高则音调高，频率低则音调低；响度是指声音的强弱，又称音量，它是由声波震动幅度决定的；声音的长短也称音长，它取决于发音持续时间的长短。

二、音素、音节、单词、句子的基本概念以及它们之间的关系（集中备课）（1）音素是语音的最小、最基本的组成单位，音素都有其独立的各不相同的发音方法和发音部位，它是使听者能区别一个单词和另一个单词的声音的基础。

（2）音节是最小的语言片段，一个音节由一个或几个音素组成。

（3）单词是由音节结合而成的更大单位，是有意义的语言的最小单位。

（4）句子是单词的进一步组合。

三、汉语的特点是：音素少、音节少。

汉语中的音节即字音由声母、韵母和声调按一定方式构成，即声、韵、调三个因素构成。

四、语音频谱特性其中虚线称为谱包络，其形状是由H（f）和G（f）的包络乘积得到的。

五、清音和浊音的频谱特性清音和浊音的波形有很大的不同。

清音的波形类似于白噪声，具有很弱的振幅；元音（浊音）具有明显的准周期性，并具有较强的振幅。

它们的周期对应的频率就是基音频率。

如果考察其中一个周期，还可以大致看出其频谱特性。

§.4语音信号产生的数学模型一、语音信号的数字模型（集中备课）1、语音信号数字模型的概念：语音信号被看成是线性时不变系统（声道）在随机噪声或准调周期脉冲序列激励下的输出。

2、语音信号的产生模型P16 （重点注意）二、发不同性质的音时，激励的情况是不同的，大致分为两类：（1 ）发浊音时，此时气流在通过绷紧的声带时，冲激声带产生振动，使声门处形成准周期性的脉冲串。

声带绷紧的程度不同时，振动频率也不同，这个频率就是音调频率，其倒数为音调周期。

不同人的音调周期是不同的，男子大，女子小，老人大,』、孩低。

_ （2）发清音时，此时声带松弛而不振动，气流通过声门直接进入声道。

三、语音信号数字模型的组成等（集中备课）1、语音信号数字模型由激励模型、声道模型和辐射模型组成。

2、声道模型包括声管模型和共振峰模型。

3、共振峰模型又可分为级联型、并联型和混合型。

四、语音信号数字模型的框图：P21图2-18图中，清/浊音开关模拟了加在声道上的激励的改变情况：当开关接在浊音位置时，激励源是准周期脉冲序列发生器，其重复频率由基音频率来确定；当开关接在清音位置时，激励源是随机噪声发生器。

§.5语音感知一、人耳能听到的声音，频率范围在16Hz-16kHz之间，年轻人的上限可以延伸至20kHz , 老年人则衰退到10kHz。

声音的三要素：响度、音调和音色。

任何声音的都可以用声强的三个物理量表示：幅度、频率、相位。

1、响度：响度是人耳对声音强弱程度的主观反应，响度取决于声音的幅度」要是声压的函数，但和频率和波形也有关，单位是宋（sone ））人耳对3000 —4000Hz的声音感觉最灵敏。

2、音调：也称音高，是一种主观心理量，是人耳对声音频率高低的感受，即与声音 _______ 的频率有关。

音调与声音频率是近似的对数关系，单位是美（mel ）。

3、音色：也叫音质，反映了声音属性。

人根据音色在主观感觉上区别具有相同响度和音调的两个声音。

三、听觉掩蔽：人类听觉中存在一种现象，即两个音同时存在时，一个声音有可能受到另一个声音的干扰或压制，即一个音被另一音掩盖，这称为听觉掩蔽。

Ch3时域分析§.1概述一、为什么时域分析要采用短时分析技术1、短时分析技术的基本概念：语音信号是一种随时间而变化的信号，可能是浊音激励也可能是清音激励，浊音的基音周期以及信号幅度等语音特性也都随时间变化，但这种变化是缓慢的，在一小段短时间内10-30ms，语音信号近似不变。

于是，我们把变化的语音信号分成一些相继的短时间段来处理。

而每一段时间段具有固定的特性，这种方法称为“短时”处理方法。

2、语音信号特点：（1 ）表示语音信号比较直观、物理意义明确；（2）实现起来比较简单、运算量少；（3）可以得到语音的一些重要参数。

§.2数字化和预处理一、取样和量化（集中备课）1、为了将原始的模拟信号转换为数字信号，必须经过取样和量化两个步骤。

2、取样是将时间上连续的语音信号离散化为一个样本序列。

根据取样定理，当取样频率大于两倍信号带宽时，取样过程不会丢失信息，且从取样信号中可以精确地重构原始信号的波形。

3、量化是指将取样后得到的样本序列的幅度再离散化，量化过程是将整个幅度值分割为有限个区间，将落入同一区间的样本赋予相同的幅度值。

二、量化噪声的概念及特点（集中备课）1、量化噪声：量化后信号值与原信号之间的差值称为量化误差，即量化噪声。

2、量化信噪比的计算公式：SNR（dB）=6.02B-7.2三、语音信号系统框图（为什么要进行预处理）（集中备课）1、系统框图：P26图3-42、反混叠滤波器的作用：它是一个具有良好截止特性的模拟低通滤波器，主要是为了防止混叠失真和噪声干扰。

§.3短时能量分析一、语音信号的能量分析：语音信号的能量分析是基于语音信号能量随时间有相当大的变化，特别是清音段的能量一般比浊音段的小得多。

能量分析包括能量和幅度两个方面。

二、直角窗和海明窗（集中备课）1、不同的窗口选择将决定短时能量特性，即窗口的形状和长度。

2、直角窗和海明窗的比较（大纲）（1）从窗口形状上：海明窗的带宽大约是同等宽度矩形窗带宽的2倍。

此外，海明窗在通带外的衰减比矩形窗小得多，而且通带与阻带的起伏比较小。

（2）从窗口长度上（窗口选择原则）：N选择太大，则短时能量E随时间变化就很小，不能充分反映语音信号的幅度变化；而N选择得小，即选择N等于或小于一个基音周期时，E将按照信号波形的细微变化而起伏不定，以致短时能量E不够匀化和平滑。

因此，折衷考虑N的值，在通常情况下，当取样频率为10KHZ时，N =100-200 被认为是合适的。

三、短时平均能量反映了语音能量随着时间缓慢变化的规律。

它的主要用途有：1、可以区分清音段和浊音段；2、可以区分声母与韵母的分界、无声和有声的分界、连字的分界等。

3、作为一种超音段信息，用于语音识别中。

§.4短时过零分析一、过零分析、过零率和平均过零数的名词解释（大纲）1、过零分析是语音时域分析中最简单的一种，对于离散时间信号的相邻两个取样值具有不同的符号时，便出现“过零”现象。

单位时间过零的次数叫作“过零率”。

2、平均过零数Z:单位时间内的过零数（Z=2f0/fs过零/样本）。

二、短时平均过零数的实现（集中备课）1、实现框图：P32 图3-122、文字描述：首先对语音信号序列x（n）进行成对的查对采样以确定是否发生过零，若发生符号变化，则表示有一次过零；而后进行一阶差分计算，再求绝对值，最后进行低通滤波。

三、短时过零分析的用途（包含清音、浊音的各自特点，集中备课）1、短时平均过零数可以用来区分清音和浊音。

发浊音时，语音能量约集中于3kHz以下。

而发清音时，多数能量集中在较高的频谱上。

浊音具有较低的平均过零数，而清音时具有较高的平均过零数。

可见P33 的图3-132、利用短时平均过零数还可以从背景噪声中找出语音信号，用于判断寂静无语音和有语音的起点和终点位置。

四、图3-14 说明的问题是什么（集中备课）由图可见，这三句话的平均过零数变换都很大，高平均过零数对应于清音，低平均过零数对应于浊音；但是清音和浊音的变化非常明显。

因而，短时平均过零数可用于清音和浊音的大分类上。

§3.5 短时相关分析一、短时自相关分析得到语音信号有何特点和用途（大纲）1、对于浊音语音来说，短时自相关函数具有明显的峰值且呈周期分布，而对于清音来说，则没有很强的自相关周期峰，其性质类似于噪声。

语音信号处理复习资料

数字语音复习资料

第二章语音信号处理的基础知识

语音信号的考试部分知识点

语音信号处理的基础知识

南理工 语音信号处理期末考试重点整理

语音信号处理期末考试复习题

《语音信号处理》课程笔记

语音信号处理期末复习讲解

语音信号处理复习资料

语音信号处理复习华南理工

南理工语音信号处理期末考试重点整理