语音信号处理PPT_第三章_语音信号分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

m0

① ② ③
Mn也是一帧语音信号能量大小的表征,它与En的区别在于计算时 小取样值和大取样值不会因取平方而造成较大差异,在某些应用 领域中会带来一些好处。 用途: 区分浊音段和清音段,浊音是En值比清音时大得多; 用来区分声母和韵母的边界,无声和有声的边界,连字的分界; 作为一种超音段信息,用于语音识别中。

① ②

应用: 区分清音和浊音; 从背景噪声中找出语音信号,判断寂静无声段和有声段的起点和 终点位置; 当语音以某些音位开始或结尾时(弱摩擦音、弱爆破音、鼻音 等),过零率和短时平均能量一起结合使用,更为有效。
短时过零率分析
实际问题: 如果输入信号中包含有50Hz的工频干扰或者A/D转换器的工作点有 偏移(等效于输入信号有直流偏移),计算的过零率参数很不精 确。 解决方法: ① A/D转换器前的防混叠带通滤波器低端截止频率应高于50Hz,有 效抑制电源干扰。 ② 采用低直流漂移器件,也可以算出每一帧的直流分量并加以滤除。
阅读讨论PPT
孔常青 PB08210092
第三章:语音信号分析



概述 语音信号的数字化和预处理 语音信号的时域分析 语音信号的频域分析 语音信号的倒谱分析 语音信号的线性预测分析 语音信号的小波分析
3.1 概述

语音信号分析:
语音信号处理的前提和基础,只有分析出可表示语音
信号特征的参数,才有可能利用这些参数进行高效的语音 通信、语音合成和语音识别等处理。语音合成的音质好坏 和语音识别率的高低,也都取决于语音信号分析的准确性 和精确性。 语音信号分析在语音信号处理中具有举足轻重的地位。
有时窗口长度的选择,更重要的是要考虑语音信号的基音周期。 通常认为在一个语音帧内应包含1~7个基音周期。然而不同人的 基音周期变化很大,所以N的选择比较困难。通常在10kHz取样频率 下,N折中选择为100~200点为宜(即10~20ms持续时间)。

3.3 语音信号的时域分析


语音信号的时域分析就是分析和提取语音信号的时域参数。 应用范围:常用于最基本的参数分析及应用,如语音的分割、预 处理、大分类等。 特点: ①表示语音信号比较直观、物理意义明确。 ②实现起来比较简单、运算量少。 ③可以得到语音的一些重要的参数。 ④只使用示波器等通用设备,使用较为简单等。
短时能量及短时平均幅度分析

如图所示,设语音波形时域信号为x(t)、加窗分帧处理后得到的 第n帧语音信号为xn(m),则xn(m)满足下式:xn(m)=ω(m)x(n+m)
1, (m ) 0, m 0 ~ ( N 1) m 其它值
其中,n=0,1T,2T,…, 并且N为帧长,T为帧移长度。 设第n帧语音信号xn(m)的 短时能量用En表示,则其计 算公式如下: N 1

短时相关分析
一、短时自相关函数

定义: R ( k ) n
N 1 k
m 0
x
n
(m ) x n(m k )
0 k K

① ② ③
其中K最大的延迟点数。 性质: 如果 x n ( m ) 是周期的(Np),则自相关函数 R ( k ) R ( k N p ) R n ( k ) 是偶函数 ,即 R ( k ) R ( k ) n n 当k=0时,自相关函数有最大值,即 R n (0 ) R n ( k ) 并且 R n (0 ) 等于确定性信号序列的能量或随机序列的平均功率。

增补K点 互相关
k K
其中:
m 0
x n ( m ) ( m ) x ( n m ), (0 k K )
x ' n ( m ) '( m ) x ( n m ), (0 k N 1 K )
(m )
1, 0,
m 0 ~ ( N 1) m 其它值
预滤波、采样、A/D转换
预滤波的目的有两个: 抑制输入信号各频域分量中频率超出fs/2的所有分量(fs为采样 频率),以防止混叠干扰。 抑制50Hz的电源工频干扰。 这样,预滤波器必须是一个带通滤波器,设其上、下截 止频率分别是fH和fL: 则绝大多数语音编译码器有: fH=3400Hz,fL=60-100Hz,fS=8kHz
短时过零率分析


短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次 数。过零分析是语音时域分析中最简单的一种。对于连续语音信 号,过零即意味着时域波形通过时间轴;而对于离散信号,如果 相邻的取样值改变符号则称为过零。过零率就是样本改变符号的 次数。 定义语音信号xn(m)的短时过零率Zn为:
汉明窗:
(n)

0 .5 4 0 .4 6 c o s [ 2 n / ( N 1)], 0,
0 n ( N 1) n e ls e
预处理
窗口的形状: 在时域因为是语音波形乘以窗函数,所以要减小时间窗两端的坡 度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以 使截取出的语音波形缓慢降为零,减小语音帧的截断效应; 在频域要有较宽的3dB带宽以及较小的边带最大值。
S N R ( d B ) 6 .0 2 B 7 .2
x2 X S N R ( d B ) 1 0 lg 2 6 .0 2 B 4 .7 7 2 0 lg m a x e x


A/D转换器分为线性和非线性转换器两类。 目前的线性A/D转换器绝大部分是12bits的(即每一个采样 脉冲转换为12位二进制数)。非线性A/D转换器则是8位的,
预滤波、采样、A/D转换
语音信号经过预滤波和采样后,由A/D变换器变换为 二进制数字码。A/D变换中要对信号进行量化,量化不 可避免地会产生误差。量化后的信号值与原信号值之间 的差值称为量化误差,又称为量化噪声。若信号波形的 变化足够大,或量化间隔Δ足够小时,可以证明量化噪 声符合具有下列特征的统计模型: ①它是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化噪声在量化间隔内均匀分布,即具有等概率密 度分布
预处理
窗口的长度: 采样周期Ts=1/fs,窗口长度N和频率分辨率Δf之间存在下列关系: Δf=1/NTs ,采样周期一定时,Δf随窗口宽度N的增加而减小, 即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取 短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。应 该根据不同的需要选择合适的窗口长度。
n n
短时相关分析
右图中:N=401,Fs=8kHz a、b是浊音信号,c位清 音信号,由图可以看出浊 音信号的自相关函数具有 一定得周期性,而清音信 号的自相关函数缺乏周期 性。
短时相关分析
窗长N选择考虑因素: 估计均值(矩形窗)
E [ R n ( k )] (1 k N ) E [ x ( n ) x ( n k )]
Zn 1
2
N 1
s g n [ x n ( m )] s g n [ x n ( m 1)]
m 0
式中,sgn[]是符号函数,即
1, sgn[ x ] 1, ( x 0) ( x 0)
பைடு நூலகம்时过零率分析
短时能量、平均幅度 和过零率都是随机参数, 概率密度函数如图:
预处理


分帧是用可移动的有限长度窗口进行加权的方法来实现的, 这就是用一定的窗函数ω(n)来乘s(n),从而形成加窗语音 信号sω(n)=s(n)* ω(n)。 在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等, 它们的表达式如下(其中N为帧长):
矩形窗:
1, (n) 0, 0 n ( N 1) n e ls e

En

xn (m )
2
m 0
T[x]=x2
短时能量及短时平均幅度分析

En是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即 它对高电平非常敏感(因为它计算时用的是信号的平方)。为此, 可采用另一个度量语音信号幅度值变化的函数,即短时平均幅度 N 1 函数Mn,它定义为:
M
n


xn (m )
分类:
时域分析
简单、计算量小、 物理意义明确 感知特性 较好,更 为重要 依据语音信号 产生的数学模 型来分析和提 取表征这些模 型的特征参数 不进行模型化 分析
参数性质
频域分析 倒谱域分析 模型分析方法
分析方法
非模型分析方法
短时分析技术:
贯穿于语音分析的整个过程;语音信号从整体来看其特征 及表征其本质特征的参数均是随时间而变化的,所以它是一 个非平衡态过程,不能用处理平衡信号的数字信号处理技术对 其进行分析处理。 但是在一个短时间范围内(一般认为在10-30ms的短时间内), 其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳 态过程,即语音信号具有短时平稳性。 不论是分析怎么样的参数以及采用什么分析方法,在按帧进 行语音分析,提取语音参数之前,有一些经常使用的、共同的短 时分析技术必须预先进行,如语音信号的数字化、语音信号的端 点检测、预加重、加窗和分帧等,这些也是不可忽视的语音信号 析的关键技术。
预处理
进行过预加重数字滤波处 理后,接下来就要进行加 窗分帧处理。一般每秒的 帧数约为33-100帧,视实 际情况而定。分帧虽然可 以采用连续分段的方法, 但一般要采用如图3-1所 示的交叠分段的方法,这 是为了使帧与帧之间平滑 过渡,保持其连续性。 前一帧和后一帧的交叠部 分称为帧移。帧移与帧长 的比值一般取为0-1/2。
3.2 数字化和预处理

语音信号的数字化一般包括放大及增益控制、反混叠滤波、 采样、A/D变换及编码(一般就是PCM码);如下图:
语音信号 带通滤 波器 自动增益控制 (AGC) 存入计算机 模/数转换 (A/D) 脉冲编码 调 制 ( PCM )

预处理一般包括预加重、加窗和分帧等。 分析和处理之前必须把要分析的要分析的语音信号部分从输 入信号中找出来,叫做语音信号的端点检测。
它与12位线性转换器等效。
预处理




由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端 大约在800Hz以上按6dB /倍频程跌落,要在预处理中进行预加重 (Preemphasis)处理。 预加重目的: 提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整 个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参 数分析。 预加重可在语音信号数字化时在反混叠滤波器之前进行,不仅可 以进行预加重,而且可以压缩吸纳后的动态范围,有效提高信噪 比。 预加重一般在语音信号数字化之后,利用数字滤波器实现: 1 H (z) 1 z 值接近1。
窗类型 矩形窗 汉明窗
旁瓣峰值 -13 -41
主瓣宽度 最小阻带衰减 4π/N 8π/N -21 -53
可以看出:汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一倍,同时其带外衰减也比矩形窗大 一倍多。矩形窗的谱平滑性能较好,但损失了高频成分,使波形细节丢失;而汉明窗则相反,从 这一方面来看,汉明窗比矩形窗更为合适。

预滤波、采样、A/D转换

若用σx2表示输入语音信号的方差,2Xmax表示信号的峰值, B表示量化字长, σe2表示噪声序列的方差,可以证明量化 信噪比SNR(信号与量化噪声的功率比)为: 假设语音信号的幅度符合Laplacian分布,此时信号幅度超 过4σx的概率很小,只有0.35%,因而可取Xmax=4σx,则上 式表明量化器中的每bit字长对SNR的贡献为6dB。
窗长N越小,窗内基音 周期变化越小Rn(k) 估计不准,偏差大; 窗长N越大,窗内基音 周期性明显,但窗内基 音周期变化越大偏差 小,但Rn(k)周期性变 差;
短时相关分析
二、修正的短时自相关函数:
问题引出:传统的自相 关函数对窗长具有依赖性。 解决方法:用两个不同的窗 口,截取两个不等长的序列进行 卷积和,两个窗口的长度相差最大 N 1 的延迟数为K。定义: n ( k ) x n ( m ) x ' n ( m k ), 0 R
相关文档
最新文档