语音信号处理PPT_第三章_语音信号分析

合集下载

(完整)语音信号处理精品PPT资料精品PPT资料

❖ 特征参量评估方法 F比：在给定一种识别方法后，识别的效果主要取决于特征
参数的选取。对于某一维单个的参数而言，可以用F来表征它在说话人识别中的有效性。
F 不同同一说说话话人人特特征征参方数差均的值均的值方差 [x [ a (i)i i] ] 2 2 ia ,i
一个说话人识别系统的好坏是由许多因素决定的。其中主要有正确识别率（或出错率）、训练时间的长短、识别时间、对参考参量存储量的要求、使用者适用的方便程度等，实用中还有价格因素。图10.3 表示了说话人辨别与说话人确认系统性能与用户数的关系。

10.3应用DTW的说话人确认系统
一个应用DTW说话人识别系统如图10-4所示。它采用的识别特征是BPFG（附听觉特征处理），匹配时采用DTW技术。
2. 动态时间规整方法（DTW）
将识别模板与参考模板进行时间对比，按照某种距离测度得出两个模板之间的相似程度。常用的分法：基于最近邻原则的动态时间规整。
3. 矢量量化方法（VQ）
将每个人的特定文本训练成码本，识别时将测试文本按此码本进行编码，以量化产生的失真度作为判决标准。优点：速度快，识别精度不低。
❖ 说话人识别特征的选取
在说话人识别系统中特征提取是最重要的一环，特征提取就是从说话人的语音信号中提取出表示说话人个性的基本特征。
在理想情况下，选取的特征应当满足下述准则： ① 能够有效地区分不同的说话人，但又能在同一说话人的语音
发生变化时相对保持稳定。 ② 易于从语音信号中提取 ③ 不易被模仿 ④ 尽量不随时间和空间变化
10.4应用VQ的说话人识别系统
目前自动说话人识别的方法主要是基于参数模型的HMM的方法和基于非参数模型的VQ的方法。应用VQ的说话人识别系统如图10-5所示。

第三章-语音信号的特征分析讲解讲解学习

Magnitude (dB)
40 20
0 -20 -40 -60 -80 -100
0 50
Frequency domain
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0
-50
-100
-150 0
40 30 20 10
0 -10 -20
1 0.8 0.6 0.4 0.2
0 0
rectangular hamming hanning bartlett
50
100
150
200
250
❖ 几种不同的窗函数波形与频谱的比较
1
Hamming 0.8 哈明窗 0.6
Amplitude
0.4
0.2
0
1
Hanning 0.8
汉宁窗
0.6
Amplitude
0.4
0.2
0
1
矩形窗
0.8
Amplitude
0.6
0.4
0.2
0
Time domain
10
20 Tim3e0domain40
50
60
Samples
10
20 Tim3e0domain40
50
60
Samples
10
20
30
40
50
பைடு நூலகம்
60
Samples
Magnitude (dB)
Magnitude (dB)
帧和加窗的概念
❖ 短时分析将语音流分为一段一段来处理，每一段称为一“帧”；

3第三章语音信号分析---时域分析语音信号处理课件

4/25/2021
32/66
存在的问题
短时能量函数一个主要的问题是En对信号电平值过于敏感。由于需要计算信号样值的平方和，在实际应用中（如定点设备）很容易溢出。因此，一般用平均幅度函数Mn来代替En。但这时，清音和浊音、有声和无声的幅度差不如短时能量明显。
4/25/2021
33/66
二、短时过零率分析
Telephone
Frequency scope
200-3400
Sampling frequency
8 khz
Quantizati on bits
8 bits
Wide band 50-7000
16 khz
16 bits
Broadcasti ng
CD
20-15khz 20-20khz
37.8 khz 44.1 khz
4/25/2021
xa(t) t
xa(nT) n
5/66
• Ideal sampling and real sampling
4/25/2021
6/66
3. A/D转换
对离散时间信号进行量化，在每一时刻对xa(nT) 独立进行量化，把给定的幅度连续的信号变成为有限多个幅度的集合中某个幅度值的过程。
4/25/2021
37/66
1 0.8 0.6 0.4 0.2
0 -0.2 -0.4 -0.6 -0.8
-1 0
50
100
150
200
250
300
350
400
450
女声汉语拼音a的一帧信号（在采样频率为22050Hz的情况下，取20ms作为一帧），短时过零率为46。
4/25/2021

《语音信号处理》课件

《语音信号处理》PPT课件
目录
• 语音信号处理概述 • 语音信号的采集与预处理 • 语音信号的特征提取 • 语音识别技术 • 语音合成技术 • 语音信号处理的发展趋势与挑战
01
语音信号处理概述
语音信号处理定义
01
语音信号处理是一门研究语音信号采集、传输、分析和处理的技术，旨在提高语音信号的质量、识别率和传输效率。
在移动通信、视频会议等本流程
预处理
包括噪声抑制、回声消除、混响消除等，以提高语音信号的
清晰度和可懂度。
特征提取
从语音信号中提取出反映语音特征的信息，如音高、音强、时长等。
模式匹配
将提取出的特征与预先训练好的模型进行匹配，实现语音识别或分类。
后处理
对识别结果进行优化或编辑，以满足实际应用需求。
02
语音信号的采集与预处理
语音信号的采集
01
02
03
采集设备
使用麦克风等声音采集设备，将声音转换为电信号，以便后续处理。
采样率
采样率决定了语音信号的精度，采样率越高，音质越好，但数据量也越大。
量化精度
量化精度决定了声音的动态范围和音质，常见的量化精度有8位、16位等。
02
语音信号处理涉及的领域包括语音合成、语音识别、语音增强、语音编码等。
语音信号处理的应用领域
语音助手
如Siri、Alexa等，通过语音识别技术将用户的语音转化为文字，再通过自然语言处理技术理解用户的意图，实现智能交互。
语音通信
语音娱乐
语音合成技术可以用于智能语音玩具、电子宠物等领域，提供丰富的语音交互体验。

语音信号处理课件__第03章时域分析

SNRdB 6.02B 4.77 20log10 (
x
xmax
)
(3-11)
3.1 语音信号的短时处理方法脉冲编码调制
若是xmax取为4倍方差(δx)
SNRdB 6.02B 7.27
取样之位数 8 16 24
(3-12)
数字信号的信噪比 41 dB 89 dB 137 dB
3.1 语音信号的短时处理方法脉冲编码调制
一个数字信号取样之后，变成离散时间信号，接下来就是要用数字方式来表示这个离散时间信号上的每个取样值。一个电位波形会有固定的电压范围，一个取样值可以是在此电压范围内的任何电位。如果只能用固定数目的位来表示这些取样值，那么这些二进数字就只能代表固定的几个电位值，这个转换就是量化 (quantization)，而转换之后只允许存在的几个电位值就是量化阶数(quantization level)。执行量化转换的硬件电路，就是量化器（quantizer)。以二进数字表示的信号就是数字信号(digital signal)，而这种将信号波形转变成二进数字的方法，就叫脉冲编码调制(pulse code modulation, PCM)。
3.1 语音信号的短时处理方法
预处理平滑滤波器：D/A后面的低通滤波器是平滑滤波器，对重构的语音波形的高次谐波起平滑作用，以去除高次谐波失真。预加重：

现象:由于语音信号的平均功率谱受声门激励和口鼻辐射的影响，高频端大约在800 Hz以上按6dB/ 倍频程跌落，为此要在预处理中进行预加重。目的:提升高频部分，使信号的频谱变得平坦，以便于进行频谱分析或声道参数分析。位置:预加重可在A/D变换前的反混叠滤波之前进行，这样不仅能够进行预加重，而且可以压缩信号的动态范围，有效地提高信噪比。

语音信号处理ppt

标准傅里叶变换不能用来直接表示语音信号，而应该用短时傅里叶变换对
添加标题
把和时序相关的傅里叶分析的显示图形称为语谱图。语谱图是一种三维频谱，它是表示语音频谱
语音信号的频谱进行分
析，相应的频谱称为“短时谱”。
随时间变化的图形，其纵轴为频
率，横轴为时间，任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓谈来表示。
升采样率（整数倍内插）的实现原理，时域和频域的变化情况
TITLE TITLE
升采样率是指通过在对原离散信号的两个连续样本间插入L-1个等距的样本值（不一定为零），亦即抽样因子为L的上抽样。上抽样后的序列长度为原来的L倍。
THANK YOU
——王少丹
1928
美国电信工程师H. 奈奎斯特推出采样定理，因此称为奈奎斯特采样定理。
1948
1924
1933
பைடு நூலகம்
信息论的创始人C.E.香农对这一定理加以明确地说明并正式作为定理引用，因此在许多文献中又称为香农采样定理。采样定理有许多表述形式，但最基本的表述方式是时域采样定理和频域采样定理。
采样定理
基本原理
人群男声女声童声
基频分布 [50,180] [160,380] [400,1000]
共振峰频率分布偏低中偏高
信号变声器的实现
进行频谱分析
2 1 3
进行滤波处理
4 5
语音信号恢复
6
语音信号读入
实现快慢放频率
改变基频变声
实现步骤
• • • • • • • • •
语音信号的录制与读入；语音信号的频谱分析；实现慢录快放和快录慢放功能；设计数字滤波器和画出其频率响应；用滤波器对信号进行滤波；比较滤波器前后语音信号的波形及频谱；通过搬移、改变基波频率实现变声；语音信号恢复；在 MATLAB 下绘制出各个部分的输出波形，前后对比。

第三章_语音信号的特征分析

浊音时能量集中于较低频率段内，具有较低的过零率，而清音时能量集中于较高频率段内，具有较高的过零率。
浊音和清音情况下典型的平均过零率的直方图
直方图的分布形状与高斯分布很吻合，而且浊音时的短时平均过零率的均值为14过零/10ms，清音时短时过零率的均值为47过零/10ms。注意到浊音和清音有一个交叠区域，此时很难分清是浊音还是清音，尽管如此，平均过零率仍可以粗略的判断清音和浊音。
35语音信号的短时自相关函数假设一段加窗语音信号非零区间为n0n1的自相关函数称为语音信号的短时自相关函数自相关函数是偶函数在l0处取得最大值且值为短时能量如果sn是周期的则rl也是周期的且周期等于sn的周期36浊音和清音的自相关函数图浊音浊音清音37半周期错误2倍周期错误由自相关函数图判断浊音的周期38为了减少这种错误可以先将语音信号进行中心削波处理再求自相关函数39中心削波处理前后的语音信号及其自相关函数40短时自相关函数的特点浊音是周期信号浊音的短时自相关函数也呈现明显的周期性自相关函数的周期就是浊音信号的周清音接近于随机噪声请音的短时自相关函数不具有周期性且随着l的增大迅速减小
0
-50
-100
-150 0
40 30 20 10
0 -10 -20
0
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
不同的窗选择，将决定短时语音分析结果的好坏
数据率(kB/s) (未压缩)
频率范围
8
300～3400 Hz

第3章语音信号分析(全)

x1 (n) x2 (n)

D

L

D
ˆ y ( n)
1

ˆ ˆ x1 (n) x2 (n)

ˆ ˆ y1 (n) y2 (n)

x(n)
ˆ x ( n)

y1 (n) y2 (n)
y(n)
b）同态系统的组成

D1
D 是特征子系统 L
是线性子系统
振幅
· ·· · · · · ·· · ·· ·· ·
x(n)= x(nT)：取样值时间采样周期(T)
第3章语音信号分析

量化：幅值方向的离散化

量化信噪比
SNR(dB) 6.02 B 7.2
其中，B表示量化字长 B=7bit时，SNR=35dB，可以满足一般通信系统的要求。
Fn (k )
N k 1 m 0

x ( m) x ( m k )
n n
(0 k K )
第3章语音信号分析
极小值
图3-9 与图3-5有相同语音段的AMDF函数的例子
第3章语音信号分析

短时平均幅度差函数的作用求语音序列的基音周期用于区分语音中的清音段和浊音段
0 m N 1 K
m 0 ~ ( N 1 K ) m 其他值
第3章语音信号分析
图3-6 修正短时自相关函数计算中窗口长度的说明
第3章语音信号分析
3.3.4 短时平均幅度差函数

平均幅度差函数（ AMDF） Average Magnitude Difference Function 短时平均幅度差函数的定义

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

En

xn (m )
2
m 0
T[x]=x2
短时能量及短时平均幅度分析

En是一个度量语音信号幅度值变化的函数，但它有一个缺陷，即它对高电平非常敏感（因为它计算时用的是信号的平方)。为此，可采用另一个度量语音信号幅度值变化的函数，即短时平均幅度 N 1 函数Mn，它定义为：
M
n

xn (m )
它与12位线性转换器等效。
预处理

由于语音信号的平均功率谱受声门激励和口鼻辐射影响，高频端大约在800Hz以上按6dB /倍频程跌落，要在预处理中进行预加重（Preemphasis）处理。预加重目的：提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析。预加重可在语音信号数字化时在反混叠滤波器之前进行，不仅可以进行预加重，而且可以压缩吸纳后的动态范围，有效提高信噪比。预加重一般在语音信号数字化之后，利用数字滤波器实现： 1 H (z) 1 z 值接近1。
S N R ( d B ) 6 .0 2 B 7 .2
x2 X S N R ( d B ) 1 0 lg 2 6 .0 2 B 4 .7 7 2 0 lg m a x e x

A/D转换器分为线性和非线性转换器两类。目前的线性A/D转换器绝大部分是12bits的（即每一个采样脉冲转换为12位二进制数）。非线性A/D转换器则是8位的，
n n
短时相关分析
右图中：N=401，Fs=8kHz a、b是浊音信号，c位清音信号，由图可以看出浊音信号的自相关函数具有一定得周期性，而清音信号的自相关函数缺乏周期性。
短时相关分析
窗长Ｎ选择考虑因素：估计均值（矩形窗）
E [ R n ( k )] (1 k N ) E [ x ( n ) x ( n k )]
预处理
进行过预加重数字滤波处理后，接下来就要进行加窗分帧处理。一般每秒的帧数约为33-100帧，视实际情况而定。分帧虽然可以采用连续分段的方法，但一般要采用如图3-1所示的交叠分段的方法，这是为了使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为0-1/2。
分类:
时域分析
简单、计算量小、物理意义明确感知特性较好，更为重要依据语音信号产生的数学模型来分析和提取表征这些模型的特征参数不进行模型化分析
参数性质
频域分析倒谱域分析模型分析方法
分析方法
非模型分析方法
短时分析技术：
贯穿于语音分析的整个过程；语音信号从整体来看其特征及表征其本质特征的参数均是随时间而变化的，所以它是一个非平衡态过程，不能用处理平衡信号的数字信号处理技术对其进行分析处理。但是在一个短时间范围内（一般认为在10-30ms的短时间内），其特性基本保持不变即相对稳定，因而可以将其看作是一个准稳态过程，即语音信号具有短时平稳性。不论是分析怎么样的参数以及采用什么分析方法，在按帧进行语音分析，提取语音参数之前，有一些经常使用的、共同的短时分析技术必须预先进行，如语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧等，这些也是不可忽视的语音信号析的关键技术。
预处理
窗口的长度: 采样周期Ts=1/fs，窗口长度N和频率分辨率Δf之间存在下列关系： Δf=1/NTs ，采样周期一定时，Δf随窗口宽度N的增加而减小，即频率分辨率相应得到提高，但同时时间分辨率降低；如果窗口取短，频率分辨率下降，而时间分辨率提高，因而二者是矛盾的。应该根据不同的需要选择合适的窗口长度。
3.2 数字化和预处理

语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码（一般就是PCM码）；如下图：
语音信号带通滤波器自动增益控制（AGC）存入计算机模/数转换（A/D）脉冲编码调制（ PCM ）

预处理一般包括预加重、加窗和分帧等。分析和处理之前必须把要分析的要分析的语音信号部分从输入信号中找出来，叫做语音信号的端点检测。
预处理

分帧是用可移动的有限长度窗口进行加权的方法来实现的，这就是用一定的窗函数ω(n)来乘s(n)，从而形成加窗语音信号sω(n)=s(n)* ω(n)。在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等，它们的表达式如下（其中N为帧长）：
矩形窗：
1, (n) 0, 0 n ( N 1) n e ls e
Zn 1
2
N 1
s g n [ x n ( m )] s g n [ x n ( m 1)]
m 0
式中，sgn[]是符号函数，即
1, sgn[ x ] 1, ( x 0) ( x 0)
短时过零率分析
短时能量、平均幅度和过零率都是随机参数，概率密度函数如图：

① ②
③
应用：区分清音和浊音；从背景噪声中找出语音信号，判断寂静无声段和有声段的起点和终点位置；当语音以某些音位开始或结尾时（弱摩擦音、弱爆破音、鼻音等），过零率和短时平均能量一起结合使用，更为有效。
短时过零率分析
实际问题：如果输入信号中包含有50Hz的工频干扰或者A/D转换器的工作点有偏移（等效于输入信号有直流偏移），计算的过零率参数很不精确。解决方法： ① A/D转换器前的防混叠带通滤波器低端截止频率应高于50Hz，有效抑制电源干扰。 ② 采用低直流漂移器件，也可以算出每一帧的直流分量并加以滤除。

短时相关分析
一、短时自相关函数

定义： R ( k ) n
N 1 k
m 0
x
n
(m ) x n(m k )
0 k K

① ② ③
其中K最大的延迟点数。性质：如果 x n ( m ) 是周期的（Np），则自相关函数 R ( k ) R ( k N p ) R n ( k ) 是偶函数，即 R ( k ) R ( k ) n n 当k=0时，自相关函数有最大值，即 R n (0 ) R n ( k ) 并且 R n (0 ) 等于确定性信号序列的能量或随机序列的平均功率。
m0

① ② ③
Mn也是一帧语音信号能量大小的表征，它与En的区别在于计算时小取样值和大取样值不会因取平方而造成较大差异，在某些应用领域中会带来一些好处。用途：区分浊音段和清音段，浊音是En值比清音时大得多；用来区分声母和韵母的边界，无声和有声的边界，连字的分界；作为一种超音段信息，用于语音识别中。
汉明窗：
(n)

0 .5 4 0 .4 6 c o s [ 2 n / ( N 1)], 0,
0 n ( N 1) n e ls e
预处理
窗口的形状: 在时域因为是语音波形乘以窗函数，所以要减小时间窗两端的坡度，使窗口边缘两端不引起急剧变化而平滑过渡到零，这样可以使截取出的语音波形缓慢降为零，减小语音帧的截断效应；在频域要有较宽的3dB带宽以及较小的边带最大值。
短时能量及短时平均幅度分析

如图所示，设语音波形时域信号为x(t)、加窗分帧处理后得到的第n帧语音信号为xn(m),则xn(m)满足下式：xn(m)=ω(m)x(n+m)
1, (m ) 0, m 0 ~ ( N 1) m 其它值
其中，n=0,1T,2T,…, 并且N为帧长，T为帧移长度。设第n帧语音信号xn(m)的短时能量用En表示，则其计算公式如下： N 1

预滤波、采样、A/D转换

若用σx2表示输入语音信号的方差,2Xmax表示信号的峰值, B表示量化字长, σe2表示噪声序列的方差,可以证明量化信噪比SNR（信号与量化噪声的功率比）为：假设语音信号的幅度符合Laplacian分布,此时信号幅度超过4σx的概率很小，只有0.35%，因而可取Xmax=4σx，则上式表明量化器中的每bit字长对SNR的贡献为6dB。
窗长Ｎ越小，窗内基音周期变化越小Ｒn(k) 估计不准，偏差大；窗长Ｎ越大，窗内基音周期性变差；
短时相关分析
二、修正的短时自相关函数：
问题引出：传统的自相关函数对窗长具有依赖性。解决方法：用两个不同的窗口，截取两个不等长的序列进行卷积和，两个窗口的长度相差最大 N 1 的延迟数为K。定义： n ( k ) x n ( m ) x ' n ( m k ), 0 R
预滤波、采样、A/D转换
预滤波的目的有两个：抑制输入信号各频域分量中频率超出fs/2的所有分量（fs为采样频率），以防止混叠干扰。抑制50Hz的电源工频干扰。这样，预滤波器必须是一个带通滤波器，设其上、下截止频率分别是fH和fL：则绝大多数语音编译码器有： fH=3400Hz，fL=60-100Hz，fS=8kHz
预滤波、采样、A/D转换
语音信号经过预滤波和采样后，由A/D变换器变换为二进制数字码。A/D变换中要对信号进行量化，量化不可避免地会产生误差。量化后的信号值与原信号值之间的差值称为量化误差，又称为量化噪声。若信号波形的变化足够大，或量化间隔Δ足够小时，可以证明量化噪声符合具有下列特征的统计模型： ①它是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化噪声在量化间隔内均匀分布，即具有等概率密度分布
有时窗口长度的选择，更重要的是要考虑语音信号的基音周期。通常认为在一个语音帧内应包含1～7个基音周期。然而不同人的基音周期变化很大，所以N的选择比较困难。通常在10kHz取样频率下，N折中选择为100～200点为宜(即10～20ms持续时间)。