语音信号分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
❖ 量化不可避免地会产生误差。量化后的信号值与原信号值之 间的差值称为量化误差,又称为量化噪声。
❖ 若信号波形的变化足够大,或量化间隔Δ足够小时,可以证 明量化噪声符合具有下列特征的统计模型: ①它是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化噪声在量化间隔内均匀分布,即具有等概率密度分布
预滤波、采样、A/D变换
❖ 帧移:前一帧和后一帧的非交叠部分。帧移与帧长 的比值一般取为1/3-1/2
预处理:分帧示意图
预处理:加窗
❖ 分帧是用可移动的有限长度窗口进行加权的方法来实现的, 这就是用一定的窗函数ω(n)来乘s(n),
❖ 加窗语音信号sω(n)=s(n)* ω(n)。 ❖ 在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等,
0.5
Normalized Frequency ( rad/sample)
0.4
100
Phase (degrees)
0.3
0
0.2
-100
0.1
-200
0
0
20
40
60
80
100
120
140
-300
-400 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Normalized Frequency ( rad/sample)
❖ 这样,经过上面介绍的处理过程,语音信号就已经被分割成 一帧一帧的加过窗函数的短时信号,然后再把每一个短时语 音帧看成平稳的随机信号,利用数字信号处理技术来提取语 音特征参数。在进行处理时,按帧从数据区中取出数据,处 理完成后再取下一帧,等等,最后得到由每一帧参数组成的 语音特征参数的时间序列。
3.3 语音信号的时域分析
4σx的概率很小,只有0.35%,因而可取Xmax=4σx,则
SNR(dB) 6.02B 7.2
❖ 上式表明量化器中的每bit字长对SNR的贡献为6dB。
预加重(Preemphasis)处理 ❖ 语音信号的平均功率谱受声门激励和口鼻辐
射影响,800Hz以上按6dB/倍频程跌落 ❖ 目的是提升高频部分,使信号的频谱变得平
①表示语音信号比较直观、物理意义明确。 ②实现起来比较简单、运算量少。 ③可以得到语音的一些重要的参数。 ④只使用示波器等通用设备,使用较为简单等。
短时能量及短时平均幅度分析
❖ 如图3-2所示,设语音波形时域信号为x(t)、加窗分帧处理 后得到的第n帧语音信号为xn(m),则xn(m)满足下式: xn(m)=ω(m)x(n+m)
1.短时自相关函数
❖ 定义语音信号xn(m)的短时自相关函数Rn(k)的计算式如下:
N 1k
Rn (k) xn (m)xn (m k),0 k K m0
❖ 这里K是最大的延迟点数。
❖ 短时自相关函数具有以下性质:
(1)如果xn(m)是周期的(设周期为N),则自相关函数是同 周期的周期函数,即Rn(k)=Rn(k+Np)。
❖ 定义语音信号xn(m)的短时过零率Zn为:
Zn
1 2
N 1 m0
sgn[xn (m)]
sgn[xn (m
1)]
❖ 式中,sgn[]是符号函数,即
sgn[x]
1, 1,
(x 0) (x 0)
短时过零率分析
门限过零率
由定义可以看出,短时过零率对噪音的存在非常敏感,如果 背景中有反复穿越坐标轴的随机噪声,那么会产生大量的 “虚假”的过零,影响计算结果。
-21
8π/N
-53
汉明窗的主瓣宽度比矩形窗大一倍,即带宽 约增加一倍,同时其带外衰减也比矩形窗大 一倍多。矩形窗的谱平滑性能较好,但损失 了高频成分,使波形细节丢失;而汉明窗则 相反,从这一方面来看,汉明窗比矩形窗更 为合适。
窗频谱响应
Magnitude (dB)
50 1
0 0.9
-50 0.8
为了提高过零率计算的鲁棒
上门限
性(Robustness),除了对
原始信号进行带通滤波,一种
有效的方法是修正过零率的定
义,加入门限的定义.如图
所示。
下门限
6.门限过零率
设一个门限值T,将过零的定义修正为穿越正负门限,带门限的过 零率计算公式为
Zn
1 2
N 1 m0
sgn xn (m)
T sgn xn (m
❖ 语音信号的时域分析就是分析和提取语音信号的时域参数。 进行语音分析时,最先接触到并且也是最直观的是它的时域 波形。语音信号本身就是时域信号,因而时域分析是最早使 用,也是应用最广泛的一种分析方法,这种方法直接利用语 音信号的时域波形。时域分析通常用于最基本的参数分析及 应用,如语音的分割、预处理、大分类等。这种分析方法的 特点是:
❖ 若用σx2表示输入语音信号的方差,2Xmax表示信号的峰值,B 表示量化字长, σe2表示噪声序列的方差,可以证明量化信噪 比SNR(信号与量化噪声的功率比)为:
SNR(dB)
10
lg
2 x 2 e
6.02B
4.77
20
lg
X max
x
❖ 假设语音信号的幅度符合Laplacian分布,此时信号幅度超过
坦,保持在低频到高频的整个频带中,能用 同样的信噪比求频谱,以便于频谱分析或声 道参数分析
H z 1 z 1
预处理:分帧
❖ 进行过预加重数字滤波处理后,接下来就要进行加 窗分帧处理。一般每秒的帧数约为33-100帧,视实 际情况而定。
❖ 分帧虽然可以采用连续分段的方法,但一般要采用 如图3-2所示的交叠分段的方法,这是为了使帧与 帧之间平滑过渡,保持其连续性。
3.1 概述
❖ 语音信号分析 分析出可表示语音信号特征参数
进行高效的语音通信、语音合成和语音识别的基础 时域特征 频率特征
❖ 贯穿于语音分析全过程的是“短时分析技术” 语音信号从整体来看其特征及表征其本质特征的参数均是
随时间而变化的,所以它是一个非平衡态过程,不能用处理 平衡信号的数字信号处理技术对其进行分析处理。
3.2 语音信号的数字化和预处理
❖ 语音信号的数字化一般包括放大及增益控制、反混 叠滤波、采样、A/D变换及编码(一般就是PCM码)
语音信号
带通滤波 器
自动增益控制 (AGC)
模/数转换 (A/D)
脉冲编码 调制(PCM)
存入计算机
❖ 预处理一般包括预加重、加窗和分帧等。
Baidu Nhomakorabea
预滤波、采样、A/D变换
预滤波的目的有两个: ❖ 抑制输入信号各频域分量中频率超出fs/2的所有分量,以防
止混叠干扰。 ❖ 抑制50Hz的电源工频干扰。
❖ 这样,预滤波器必须是一个带通滤波器,设其上、下截止频 率分别是fH和fL: 绝大多数语音编译码器: fH=3400Hz,fL=60-100Hz,fS=8kHz
预滤波、采样、A/D变换
(2)Rn(k)是偶函数,即Rn(k)=Rn(-k)。 (3)当k=0时,自相关函数具有最大值,即Rn(0)≥|Rn(k)|,
并且Rn(0)等于确定性信号序列的能量或随机性序列的平 均功率。
2.修正的短时自相关函数
❖ 修正的短时自相关函数是用两个长度不同的窗口,截取两个
不等长的序列进行乘积和,两个窗口的长度相差最大的延迟
(m)
1, 0,
m 0 ~ (N 1) m 其它值
❖ 其中,n=0,1T,2T,…,并且N为帧长,T为帧移长度。
❖ 设第n帧语音信号xn(m)的短时能量用En表示,则其计算公 式如下:
N 1
En xn2 (m) m0
短时能量及短时平均幅度分析
❖ En是一个度量语音信号幅度值变化的函数,但它有一个缺陷, 即它对高电平非常敏感(因为它计算时用的是信号的平方)。 为此,可采用另一个度量语音信号幅度值变化的函数,即短 时平均幅度函数Mn,它定义为:
1)
T
sgn xn (m)
T sgn xn (m
1)
T
这样.噪音信号的振荡只要不超过门限间的区域,就不会对真实的 过零率产生影响。
一般说来,短时过零率的最主要用处是分辨清音和浊音、有声与无 声。
7.端点检测
如何区分?能量?过零率?
背景 噪音
辅音
元音
语音“三”的波形图
7.端点检测
如何区分?能量?过零率?
汉明窗的时域、频域的幅度响应特性
预处理:窗口的长度
❖ 采样周期Ts=1/fs,窗口长度N和频率分辨率Δf之间存在下 列关系: Δf=1/NTs
❖ 可见,采样周期一定时,Δf随窗口宽度N的增加而减小,即 频率分辨率相应得到提高,但同时时间分辨率降低;如果窗 口取短,频率分辨率下降,而时间分辨率提高,因而二者是 矛盾的。应该根据不同的需要选择合适的窗口长度。
0.7
-100
0.6
-150
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0.5
Normalized Frequency ( rad/sample)
0.4
0
Phase (degrees)
0.3 0.2 0.1
0 0
20
40
60
80
100
120
140
-100 -200 -300 -400
3.1概述 3.2语音信号的数字化和预处理 3.3语音信号的时域分析 3.4语音信号的频域分析 3.5语音信号的倒谱分析 3.6语音信号的线性预测分析 3.7 语音信号的小波分析 3.8 基音周期估计 3.9共振峰估计
3.1概述 3.2语音信号的数字化和预处理 3.3语音信号的时域分析 3.4语音信号的频域分析 3.5语音信号的倒谱分析
❖ 选择窗的标准
在时域要减小时间窗两端的坡度,使窗口边缘两 端不引起急剧变化而平滑过渡到零,这样可以使 截取出的语音波形缓慢降为零,减小语音帧的截 断效应;
在频域要有较宽的3dB带宽以及较小的边带最大 值
矩形窗与汉明窗的比较
窗类型 旁瓣峰值 主瓣宽度 最小阻带衰减
矩形窗 -13 汉明窗 -41
4π/N
它们的表达式如下(其中N为帧长):
❖ 矩形窗: ❖ 汉明窗:
(n)
1, 0,
0 n (N 1) n else
(n)
0.54
0.46
cos[2n
0,
/(N
1)],
0 n (N 1) n else
预处理:窗口的形状
❖ 不同的短时分析方法(时域、频域、倒频域分 析) 对窗函数的要求不尽一样
但是在一个短时间范围内(一般认为在10-30ms的短时间 内),其特性基本保持不变即相对稳定,因而可以将其看作 是一个准稳态过程,即语音信号具有短时平稳性。
3.1 概述
❖ 分析方法:模型分析方法和非模型分析方法
❖ 不论是分析怎么样的参数以及彩什么分析方法,在 按帧进行语音分析,提取语音参数之前,有一些经 常使用的、共同的短时分析技术必须预先进行,如 语音信号的数字化、语音信号的端点检测、预加重、 加窗和分帧等,这些也是不可忽视的语音信号分析 的关键技术。
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Normalized Frequency ( rad/sample)
汉宁窗的时域、频域的幅度响应特性
Magnitude (dB)
50
1
0 0.9
0.8
-50
0.7
-100
0.6
-150
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
预处理:窗长
❖ 有时窗口长度的选择,更重要的是要考虑语音信号的基音周 期。通常认为在一个语音帧内应包含1~7个基音周期。然而 不同人的基音周期变化很大,从女性和儿童的2ms到老年男 子的14ms(即基音频率的变化范围为500~70Hz),所以N 的选择比较困难。通常在10kHz取样频率下,N折中选择为 100~200点为宜(即10~20ms持续时间)。
背景 噪音
辅音
短时相关分析
❖ 相关分析是一种常用的时域波形分析方法,并有自 相关和互相关之分。这里主要讨论自相关函数。
❖ 自相关函数的性质:偶函数;
❖ 假设序列具有周期性,则其自相关函数也是同周期 的周期函数等。我们可以把自相关函数的这些性质 应用于语音信号的时域分析中。例如,对浊音语音 可以用自相关函数求出语音波形序列的基音周期。 此外,在进行语信号的线性预测分析时,也要用到 自相关函数。和其他语音参数一样,在语音信号分 析中,我们分析的是短时自相关函数。
N 1
M n xn (m) m0
❖ Mn也是一帧语音信号能量大小的表征,它与En的区别在于 计算时小取样值和大取样值不会因取平方而造成较大差异, 在某些应用领域中会带来一些好处。
短时过零率分析
❖ 短时过零率表示一帧语音中语音信号波形穿过横轴(零电平) 的次数。过零分析是语音时域分析中最简单的一种。对于连 续语音信号,过零即意味着时域波形通过时间轴;而对于离 散信号,如果相邻的取样值改变符号则称为过零。过零率就 是样本改变符号的次数。
相关文档
最新文档