语音信号处理课件__第03章时域分析

合集下载

语音信号处理第3章语音信号分析方法

如果aN~=0，则IIR滤波器的阶数为N。
IIR滤波器的差分方程表示为：
y ( n)
m 0
bm x(n m) am y(n m)
m 1
M
N
设计经典数字滤波器的步骤：
（1）将设计指标归一化处理，即通带截止频率Wp 和阻带截止频率Ws。
（2）根据归一化频率，确定最小阶数N 和频率参数 Wn。可供选用的阶数选择函数有:buttord， cheb1ord，cheb2ord，ellipord 等。
（3）运用最小阶数N 设计模拟低通滤波器原型，用到的函数有：butter, chebyl,cheby2, ellip 。
（4）用freqz(b,a,N,fs) 函数验证设计结果。
（5）用filter(b,a,x)函数实现滤波功能。
直接设计数字滤波器的MATLAB函数： [N,wn]=buttord(wp,ws,Rp,Rs) %数字频率采用标准化频率，取值范围为0~1之间，标准化频率1对应的数字频率为π，对应的模拟频率为采样频率的一半。设计带通滤波器时，wp=[wp1,wp2]; ws=[ws1,ws2] [b,a]=butter(N,wn,’ftype’) %N为滤波器的阶数， wn为滤波器的截止频率（0~1），“ftype”为滤波器的类型：‘high’为高通，‘stop’为带阻，截止频率为wn=[w1,w2];缺省时为低通和带通滤波器
[N,Wn]=buttord(wp1,ws1,Rp,Rs);
[b,a] = butter(N,Wn);%确定传递函数的分子、分母系数
[h,f]=freqz(b,a,Nn,Fs);
plot(f,20*log(abs(h)))
%生成频率响应参数

语音信号处理PPT_第三章_语音信号分析

En

xn (m )
2
m 0
T[x]=x2
短时能量及短时平均幅度分析

En是一个度量语音信号幅度值变化的函数，但它有一个缺陷，即它对高电平非常敏感（因为它计算时用的是信号的平方)。为此，可采用另一个度量语音信号幅度值变化的函数，即短时平均幅度 N 1 函数Mn，它定义为：
M
n

xn (m )
它与12位线性转换器等效。
预处理

由于语音信号的平均功率谱受声门激励和口鼻辐射影响，高频端大约在800Hz以上按6dB /倍频程跌落，要在预处理中进行预加重（Preemphasis）处理。预加重目的：提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析。预加重可在语音信号数字化时在反混叠滤波器之前进行，不仅可以进行预加重，而且可以压缩吸纳后的动态范围，有效提高信噪比。预加重一般在语音信号数字化之后，利用数字滤波器实现： 1 H (z) 1 z 值接近1。
S N R ( d B ) 6 .0 2 B 7 .2
x2 X S N R ( d B ) 1 0 lg 2 6 .0 2 B 4 .7 7 2 0 lg m a x e x

A/D转换器分为线性和非线性转换器两类。目前的线性A/D转换器绝大部分是12bits的（即每一个采样脉冲转换为12位二进制数）。非线性A/D转换器则是8位的，
n n
短时相关分析
右图中：N=401，Fs=8kHz a、b是浊音信号，c位清音信号，由图可以看出浊音信号的自相关函数具有一定得周期性，而清音信号的自相关函数缺乏周期性。

3第三章语音信号分析---时域分析语音信号处理课件

4/25/2021
32/66
存在的问题
短时能量函数一个主要的问题是En对信号电平值过于敏感。由于需要计算信号样值的平方和，在实际应用中（如定点设备）很容易溢出。因此，一般用平均幅度函数Mn来代替En。但这时，清音和浊音、有声和无声的幅度差不如短时能量明显。
4/25/2021
33/66
二、短时过零率分析
Telephone
Frequency scope
200-3400
Sampling frequency
8 khz
Quantizati on bits
8 bits
Wide band 50-7000
16 khz
16 bits
Broadcasti ng
CD
20-15khz 20-20khz
37.8 khz 44.1 khz
4/25/2021
xa(t) t
xa(nT) n
5/66
• Ideal sampling and real sampling
4/25/2021
6/66
3. A/D转换
对离散时间信号进行量化，在每一时刻对xa(nT) 独立进行量化，把给定的幅度连续的信号变成为有限多个幅度的集合中某个幅度值的过程。
4/25/2021
37/66
1 0.8 0.6 0.4 0.2
0 -0.2 -0.4 -0.6 -0.8
-1 0
50
100
150
200
250
300
350
400
450
女声汉语拼音a的一帧信号（在采样频率为22050Hz的情况下，取20ms作为一帧），短时过零率为46。
4/25/2021

语音信号处理PPT课件

F2 F3
a 10
频率范围(Hz)
成年男子
成年女子
带宽
F1
200～800
250～1000
40～70
F2
600～2800
700～3300
50～90
F3
1300～3400
1500～4000
60～180
一般地：语音识别，取前3个共振峰，而对语音合成，需取5个
a
11
2.3 语音信号的特性
2.3.1 语言和语音的基本特性
[x(n)x(n-k)]*h (n) 计算自m 相关，先乘后加，运算hk量(n)大=w！(n)w(n+k)
R n ( k ) R n ( k ) m x ( m ) x ( am kk ) [ w hk( (n n -mm )) w ( n m k ) ]
36
3.5.2 修正的短时自相关函数 1、存在的问题随kk=的0变化，参加运算的项减少。极限k=N-1时无运算k项=！250 2、修正的短时自相关函数
当w1,w2为直角窗时
(0≤k≤K)
^
N1
Rn(k)x(nm )xa(nmk)
m0
37
3.5.3 短时平均幅度差函数
问题的提出：自相关计算量大，大在乘法！短时平均幅度差函数(AMDF)定义：
F n (k ) R 1 m |x (n m )w 1 (m ) x (n m k )w 2 (m k )|
式中R为x(n)的平均值 w1、w2同修正的自相关函数中的定义对于浊音信号，在周期倍数点上，幅值相等，Fn＝0
a 38
第三章小结
• 采样与反混叠 • 短时分析方法、窗口与长度选择 • 短时能量定义 • 短时过零分析 • 短时相关分析与修正 • 短时平均幅度分析(AMDF)

语音信号处理-第03章语音信号的时域分析方法

白噪声信号
相关分析的依据
修改坐标的自相关函数波形
• 用于确定两个信号在时域内的相似性。常用的物理量为自相关函数和互相关函数。 • 当两个信号的互相关函数大时，则说明一个信号可能是另一个信号的时间滞后或提前； • 当互相关函数为0时，则两个信号完全不同。 • 自相关函数用于研究信号本身，如波形的同步性和周期性。
PG ( x ) = [ 3 8πσ x x ] e
1 2 − 3x 2σ x
PL ( x) =
− 1 e 2σ x 2σ x
2x
二、零均值三、非平稳时变信号；短时平稳：10～30ms
§3.2语音信号短时分析方法
语音信号的开窗分析技术：（1）均匀窗：（2）非均匀窗：各种国际标准（3）重叠窗（Overlap）设：语音信号为S(n)，加窗语音记为 Sw(n) = W[S(n)] = S(n) w(n-m)，n=0~(N-1) 则语音处理系统可表示为
5
基于能量和过零率的双门限法检测法
首先用短时能量做第一次判断，然后在此基础上用短时平均过零率做第二次判断。这种方法端点的确定与以后的判决无关，因此称为显式法。
三、短时相关分析
短时自相关函数性质 • 1. R w( −l ) = R w(l ) 为偶函数； • 2. 在-N+1~N-1之间有值； • 3. R ( 0 ) = ∑ s ( n ) ≥ R ( k ) 为最大值。 • 4.当时域信号为周期信号时，自相关函数也是周期性函数，两者周期相同。浊音：呈现‘准’周期性、逐渐衰减
男声汉语拼音s的一帧信号（在采样频率为22050Hz 的情况下，取20ms作为一帧），清音的短时能量为 3.88。
二.短时过零率分析
• 过零率定义：信号跨越横轴的次数情况。 • 对于连续信号，观察语音时域波形通过横轴的情况； • 对于离散信号，相邻的采样值具有不同的代数符号，也就是样点改变符号的次数。

《语音信号处理》课件

《语音信号处理》PPT课件
目录
• 语音信号处理概述 • 语音信号的采集与预处理 • 语音信号的特征提取 • 语音识别技术 • 语音合成技术 • 语音信号处理的发展趋势与挑战
01
语音信号处理概述
语音信号处理定义
01
语音信号处理是一门研究语音信号采集、传输、分析和处理的技术，旨在提高语音信号的质量、识别率和传输效率。
在移动通信、视频会议等本流程
预处理
包括噪声抑制、回声消除、混响消除等，以提高语音信号的
清晰度和可懂度。
特征提取
从语音信号中提取出反映语音特征的信息，如音高、音强、时长等。
模式匹配
将提取出的特征与预先训练好的模型进行匹配，实现语音识别或分类。
后处理
对识别结果进行优化或编辑，以满足实际应用需求。
02
语音信号的采集与预处理
语音信号的采集
01
02
03
采集设备
使用麦克风等声音采集设备，将声音转换为电信号，以便后续处理。
采样率
采样率决定了语音信号的精度，采样率越高，音质越好，但数据量也越大。
量化精度
量化精度决定了声音的动态范围和音质，常见的量化精度有8位、16位等。
02
语音信号处理涉及的领域包括语音合成、语音识别、语音增强、语音编码等。
语音信号处理的应用领域
语音助手
如Siri、Alexa等，通过语音识别技术将用户的语音转化为文字，再通过自然语言处理技术理解用户的意图，实现智能交互。
语音通信
语音娱乐
语音合成技术可以用于智能语音玩具、电子宠物等领域，提供丰富的语音交互体验。

第3讲语音信号处理第3

其中，
xn (m) (m)x(n m), (0 k K )
(m)
1, 0,
m 0 ~ (N 1) m 其它值
x'n (m) '(m)x(n m), (0 k N 1 K)
'
(m)
1, 0,
m 0 ~ (N 1 K) m 其它值
2．修正的短时自相关函数
图3-7 修正短时自相关函数计算中窗口长度的说明
N 1
M n xn (m) m0
❖ Mn也是一帧语音信号能量大小的表征，它与En的区别在于计算时小取样值和大取样值不会因取平方而造成较大差异，在某些应用领域中会带来一些好处。
短时过零率分析
❖ 短时过零率表示一帧语音中语音信号波形穿过横轴(零电平) 的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号，过零即意味着时域波形通过时间轴；而对于离散信号，如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。
3.1 概述
❖ 语音信号分析分析出可表示语音信号特征参数
进行高效的语音通信、语音合成和语音识别的基础时域特征频率特征
❖ 短时分析技术：贯穿于语音分析全过程语音信号从整体来看其特征及表征其本质特征的参数均是
随时间而变化的，所以它是一个非平衡态过程，不能用处理平衡信号的数字信号处理技术对其进行分析处理。
(m)
1, 0,
m 0 ~ (N 1) m 其它值
❖ 其中，n=0,1T,2T,…,并且N为帧长，T为帧移长度。
❖ 设第n帧语音信号xn(m)的短时能量用En表示，则其计算公式如下：
N 1
En xn2 (m) m0
短时能量及短时平均幅度分析
❖ En是一个度量语音信号幅度值变化的函数，但它有一个缺陷，即它对高电平非常敏感（因为它计算时用的是信号的平方)。为此，可采用另一个度量语音信号幅度值变化的函数，即短时平均幅度函数Mn，它定义为：

第3章语音信号分析(全)

x1 (n) x2 (n)

D

L

D
ˆ y ( n)
1

ˆ ˆ x1 (n) x2 (n)

ˆ ˆ y1 (n) y2 (n)

x(n)
ˆ x ( n)

y1 (n) y2 (n)
y(n)
b）同态系统的组成

D1
D 是特征子系统 L
是线性子系统
振幅
· ·· · · · · ·· · ·· ·· ·
x(n)= x(nT)：取样值时间采样周期(T)
第3章语音信号分析

量化：幅值方向的离散化

量化信噪比
SNR(dB) 6.02 B 7.2
其中，B表示量化字长 B=7bit时，SNR=35dB，可以满足一般通信系统的要求。
Fn (k )
N k 1 m 0

x ( m) x ( m k )
n n
(0 k K )
第3章语音信号分析
极小值
图3-9 与图3-5有相同语音段的AMDF函数的例子
第3章语音信号分析

短时平均幅度差函数的作用求语音序列的基音周期用于区分语音中的清音段和浊音段
0 m N 1 K
m 0 ~ ( N 1 K ) m 其他值
第3章语音信号分析
图3-6 修正短时自相关函数计算中窗口长度的说明
第3章语音信号分析
3.3.4 短时平均幅度差函数

平均幅度差函数（ AMDF） Average Magnitude Difference Function 短时平均幅度差函数的定义

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

SNRdB 6.02B 4.77 20log10 (
x
xmax
)
(3-11)
3.1 语音信号的短时处理方法脉冲编码调制
若是xmax取为4倍方差(δx)
SNRdB 6.02B 7.27
取样之位数 8 16 24
(3-12)
数字信号的信噪比 41 dB 89 dB 137 dB
3.1 语音信号的短时处理方法脉冲编码调制
一个数字信号取样之后，变成离散时间信号，接下来就是要用数字方式来表示这个离散时间信号上的每个取样值。一个电位波形会有固定的电压范围，一个取样值可以是在此电压范围内的任何电位。如果只能用固定数目的位来表示这些取样值，那么这些二进数字就只能代表固定的几个电位值，这个转换就是量化 (quantization)，而转换之后只允许存在的几个电位值就是量化阶数(quantization level)。执行量化转换的硬件电路，就是量化器（quantizer)。以二进数字表示的信号就是数字信号(digital signal)，而这种将信号波形转变成二进数字的方法，就叫脉冲编码调制(pulse code modulation, PCM)。
3.1 语音信号的短时处理方法
预处理平滑滤波器：D/A后面的低通滤波器是平滑滤波器，对重构的语音波形的高次谐波起平滑作用，以去除高次谐波失真。预加重：

现象:由于语音信号的平均功率谱受声门激励和口鼻辐射的影响，高频端大约在800 Hz以上按6dB/ 倍频程跌落，为此要在预处理中进行预加重。目的:提升高频部分，使信号的频谱变得平坦，以便于进行频谱分析或声道参数分析。位置:预加重可在A/D变换前的反混叠滤波之前进行，这样不仅能够进行预加重，而且可以压缩信号的动态范围，有效地提高信噪比。
加窗取语音帧
3.1 语音信号的短时处理方法
加窗取语音帧
假设加窗的长度为N，在时域中可以写成
sw (m), 0 m N 1 w(m) otherwise 0,
(3-13)
将窗函数w(m)乘在语音信号中的某一个时间点上，
xn (m) x(m)w(n m)
(3-14)
n是加窗位置标示，可以看出只有当m在n-N+1<m<n之间，

注：对于某些要求较高的研究领域或应用场合(如语音识别)，应该考虑语音信号是时变或非平稳的，此时应采用“隐马尔可夫模型”
引言

时域分析通常用于最基本的参数分析及用于语音的分割、预处理和大分类等。其特点为：
① 表示语音信号比较直观、物理意义明确。 ② 实现起来比较简单、运算量少。 ③ 可以得到语音的一些重要参数。

模型分析法是指依据语音产生的数学模型，来分析和提取表征这些模型的特征参数；共振峰模型分析及声管模型(即线性预测模型)分析即属于这种分析方法。非模型分析法，包括上面提到的时域分析法、频域分析法及同态分析法等。
引言
短时分析技术：语音信号有时变特性，是一个非平稳的随机过程。但在一个短时间范围内其特性基本保持不变。即语音的“短时平稳性”。 “短时分析”，即对语音信号流采用分段处理。将其分为一段一段来分析，其中每一段称为一 “帧”，由于语音通常在10～30 ms之内是保持相对平稳的，因而帧长一般取为10～30 ms。
第三章时域分析
引言语音信号的短时处理方法短时能量合短时平均幅度短时平均过零率短时自相关函数短时时域处理技术应用举例
1. 2. 3.
4.
5.
引言
语音信号处理包括语音通信、语音合成、语音识别、说话人识别和语音增强等方面，但其前提和基础是对语音信号的分析。语音信号分析可分为时域、频域、倒谱域等方法。在分析处理之前必须把要分析的语音信号部分从输入信号中找出来，这项工作叫语音信号的端点检测。语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码(一般就是PCM码); 预处理一般包括预加重、加窗和分帧等。语音分析分为模型分析(t )
k
(t kT )
s

(3-2)
3.1 语音信号的短时处理方法
图3-1语音信号波形及其取样
3.1 语音信号的短时处理方法
信号频宽取样频率
电话的语音计算机上麦克风接口信号
音响，人耳听觉的上限
3.5 kHz 7 kHz
20 kHz
f d ( ) 1 , 2 2
平均值(mean)为0，方差(variance)为
2 2 2 B 2 2 d x max 12 3
(3-9)
3.1 语音信号的短时处理方法脉冲编码调制
对于平均值为0的信号，其强度(intensity)即能量就等于其方差。我们计算其信号能量对量化误差引起的噪音能量的比值，就叫做量化信噪比(signal-to-noise ratio, SNR) ， 2 2 x x SNR 2 3 2 2 B 2 (3-10) d xmax 以分贝(decibel, dB)来表示信噪比，
对于每一格宽度为0.5V的量化方式，其误差值在 -0.25V到 +0.25V 之间，也就是格子宽度的一半。
3.1 语音信号的短时处理方法脉冲编码调制
将量化误差d(n)看成是一个随机变数(random variable)，其值就在 -Δ/2到 +Δ/2之间作均匀分布 (uniform distribution)，其概率密度函数(probability density function, pdf)写成下式， (3-8)
3.1 语音信号的短时处理方法
取样率和量化字长的选择

(d)3 bit量化器的噪声与“平稳白噪声过程”的假设不大相符 (e)8 bit量化器的噪声的自相关函数的估计几乎是一个冲激函数，这与“白噪声过程” 的假设相一致。 (f) 3 bit量化噪声谱和语音信号谱的性质有某些相似，也是随着频率的升高而下降 (g) 8 bit时，其量化噪声谱就比较平坦了，这是典型的白噪声谱的形状。
xn (m) 才不会是0，也就是x(m)在n-N+1<m<n这一时段中
被取出，作为一个语音帧。
3.1 语音信号的短时处理方法
加窗取语音帧
在语音处理中最常用的两种窗函数是矩形窗 (rectangular window)与海明窗(Hamming window)。矩形窗的数学式如下：
3.1 语音信号的短时处理方法
取样率和量化字长的选择

SNR(dB)＝6.02B-7.2

每bit字长对SNR贡献为6dB。当B＝7bit时， SNR＝35 dB。此时量化后的语音质量能满足一般通信系统的要求。

语音波形的动态范围可达55 dB，故B应取10 bit以上。为了在语音信号变化的范围内保持 35 dB的信噪比，一般要求B≥11，实际常用 12 bit来量化，其中附加的5bit用于补偿30 dB 左右的语音波形的动态范围变化。
3.1 语音信号的短时处理方法
取样率和量化字长的选择
取样率经常取10 kHz。某些现代语音处理系统语音频率高端扩展到7～9 kHz，相应的取样率也提高到 15～20 kHz。

3.1 语音信号的短时处理方法
取样率和量化字长的选择

(a)是一段语音信号 400个取样值的包络曲线， (b)3 bit量化器的量化噪声与被量化信号之间存在着一定的相关性 (c)8 bit量化噪声几乎已经看不出这种相关性了。

3.1 语音信号的短时处理方法
语音信号的波形在时间上是连续变化的，所以是一个连续时间信号，它的电位振幅可以是在一个电压范围内的任何电位，是一个连续值，这个电位信号我们叫它模拟信号。我们在处理语音信号时，通常是一小段一小段地观察语音信号的变化，也就是以音窗也可称作语音帧为单位，对每一语音帧内的信号，抽取出代表语音的特征参数，这就是短时语音处理。在本章中，我们先介绍如何将语音信号作取样与数字化，然后介绍基本的数字编码，即脉冲编码调制 (PCM)。将语音信号变成数字信号之后，我们可以计算短时段的信号能量、过零率、自相关函数等时域参数，以及在下一章将一个音窗内的信号作傅里叶转换，得到频域中的参数。
3.1 语音信号的短时处理方法
加窗取语音帧
对于一段语音的离散时间信号x(m)，用一个固定长度的窗口(window)套上去，只看窗口内的信号，对这些信号做计算，用以求出在这窗口内的语音特征(speech features)。这样的处理方式，就叫加窗(windowing)，而套上去的这一段语音即称为语音帧(frame)。
3.1 语音信号的短时处理方法
取样
所谓取样，就是以固定的时间间隔，将模拟信号的振幅记录下来。从数学上看，就是将模拟信号乘上一个周期性的脉冲信号，得到一序列的脉冲，其脉冲的大小就是在该取样的时间点上模拟信号的振幅。如果以时间函数xa(t)表示一个模拟信号，取样周期为Ts，则取样后的信号变成xp(t)，它等于xa(t)乘上一序列的脉冲， x p (t ) xa (t ) p(t ) (3-1)
通常窗口的长度是取10~40 毫秒 (ms)，这样一段语音信号，足以计算出语音的特征参数(feature parameters)。
窗口的移动距离，大约会取5~20 ms，让前后的语音帧有部分重叠，这样能观察到语音特征改变的延续性以保证分析的准确性。
3.1 语音信号的短时处理方法
加窗取语音帧
3.1 语音信号的短时处理方法
3.1 语音信号的短时处理方法脉冲编码调制
图3-3等间距量化的例子
在 -2V到 +2V的电压范围内，用三个位代表的二进数字作量化