语音信号处理第3章-语音信号分析讲解

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

其中σx2表示语音方差，2Xmax表示信号的峰值，B 表示量化字长, σe2表示噪声方差。通常语音信号的幅度符合Laplacian分布，则 SNR(dB) 6.02B 7.2 表明量化器中的每bit字长对SNR的贡献为6dB。
信息科学与工程学院
东南大学
预处理：预加重
语音信号的平均功率谱受声门激励和口鼻辐射影响，预处理中要进行预加重 (Preemphasis)处理。其目的是提升高频部分，使信号频谱变得平坦，以便于频谱分析或声道参数分析。
信息科学与工程学院
东南大学
预处理：加窗
2.窗口的长度
采样周期Ts=1/fs，窗口长度N和频率分辨率Δf 之间存在下列关系：
采样率一定时，Δf 随窗口宽度N的增加而减小，即频率分辨率相应得到提高
• 窗口长，频率分辨率高，时域分辨率降低 • 窗口短，频率分辨率低，时间分辨率提高
1 Vf NTs
①是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化噪声在量化间隔内均匀分布，即具有等概率密度分布
信息科学与工程学院
东南大学
数字化：采样、A/D变换
量化信噪比SNR（信号与量化噪声的功率比）：
2 x X max SNR(dB) 10lg 2 6.02B 4.77 20lg e x
信息科学与工程学院东南大学
预处理：加窗
信息科学与工程学院
东南大学
预处理：加窗
矩形窗、Hamming窗下信号功率谱的比较 x(n) 5sin(nw1 ) 5sin(nw2 ) v(n)
信息科学与工程学院
东南大学
预处理：加窗
x(n) 0.2sin(nw1 ) 5sin(nw2 ) v(n)
语音信号存入计算机带通滤波器自动增益控制（AGC）模/数转换（A/D）脉冲编码调制（PCM）
预处理：一般包括预加重、加窗和分帧等。
信息科学与工程学院
东南大学
数字化：预滤波
抑制语音信号中频率超出fs/2的频谱分量(fs 为采样频率)，防止混叠干扰。抑制50Hz的电源工频干扰。预滤波器必须是一个带通滤波器，设其上、下截止频率分别是fH和fL：
3.1概述 3.2语音信号的数字化和预处理 3.3语音信号的时域分析 3.4语音信号的频域分析 3.5基间周期估计 3.6共振峰估计
信息科学与工程学院
东南大学
3.1 概述
语音信号分析（提取表示语音信号特征的参数）：短时分析技术
特征参数均是随时间而变化的-非平衡态过程在短时间范围内（10-30ms），其特性基本保持不变即相对稳定，因而可以将其看作是一个准稳态过程，即语音信号具有短时平稳性。
信息科学与工程学院
东南大学
3.1 概述
参数性质的不同：
时域分析频域分析(倒频域分析、线性预测分析)
分析方法的不同：
模型分析方法非模型分析方法
信息科学与工程学院
东南大学
3.2 语音信号的数字化和预处理
语音信号分析的两个步骤
语音信号数字化：反混叠滤波、增益控制、采样、A/D变换及编码（PCM码）
fH =3400Hz， fL=60-100Hz， fS=8kHz
信息科学与工程学院
东南大学
数字化：采样、A/D变换
信息科学与工程学院
东南大学
数字化：采样、A/D变换
语音信号经过预滤波和采样后，由A/D变换器变换为二进制数字码。 A/D要对信号进行量化，不可避免地会产生误差。量化后的信号值与原信号值之间的差值称为量化误差，又称为量化噪声。若信号波形的变化足够大，或量化间隔Δ足够小时，量化噪声符合具有下列特征：
H ( z) 1 z
1
信பைடு நூலகம்科学与工程学院
东南大学
预处理：分帧
语音信号预加重后，进行加窗分帧处理。一般33-100s/帧。分帧可以采用连续分段，但一般要采用如交叠分段，这是为了使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为0-1/2。
信息科学与工程学院东南大学
预处理：加窗
矩形窗与汉明窗的比较
窗类型旁瓣峰值主瓣宽度最小阻带衰减
矩形窗汉明窗 -13 -41 4π/N 8π/N -21 -53
汉明窗的主瓣宽度比矩形窗大一倍，即带宽约增加一倍，同时其带外衰减也比矩形窗大一倍多，汉明窗比矩形窗更为合适。因此，对语音信号的短时分析来说，窗口的形状是至关重要的。
信息科学与工程学院东南大学
汉明窗：
0.54 0.46cos[2n /( N 1)], 0 n ( N 1) (n) 0, n else
信息科学与工程学院东南大学
预处理：加窗
窗函数的形状和长度对短时参数特征影响很大 1.窗口形状
时域：要减小时间窗两端的坡度，使窗口边缘两端不引起急剧变化而平滑过渡到零，这样可以使截取出的语音波形缓慢降为零，减小语音帧的截断效应；频域：要有较窄的3dB带宽以及较大的旁瓣衰减(较小的边带最大值)。这里只以典型的矩形窗和汉明窗为例进行比较。
信息科学与工程学院
东南大学
预处理：加窗
窗口长度的选择，更重要的是要考虑语音信号的基音周期。通常认为在一个语音帧内应包含1～7个基音周期。不同人的基音周期变化很大，从女性和儿童的2ms到老年男子的14ms(即基音频率的变化范围为500～70Hz)，所以N的选择比较困难。通常在10kHz取样频率下，N折中选择为 100～200点为宜(即10～20ms持续时间)。
信息科学与工程学院
东南大学
预处理：分帧

信息科学与工程学院
东南大学
预处理：加窗
分帧加窗的过程：在时域用窗函数ω(n)对语音信号s(n)进行截断，从而形成加窗信号 sω(n)=s(n)* ω(n) 常用的窗函数是矩形窗和汉明窗(其中N为帧长)：
1, 0 n ( N 1) 矩形窗： (n) 0, n else