第三章-语音信号的特征分析讲解讲解学习

合集下载

语音信号处理PPT_第三章_语音信号分析

En

xn (m )
2
m 0
T[x]=x2
短时能量及短时平均幅度分析

En是一个度量语音信号幅度值变化的函数，但它有一个缺陷，即它对高电平非常敏感（因为它计算时用的是信号的平方)。为此，可采用另一个度量语音信号幅度值变化的函数，即短时平均幅度 N 1 函数Mn，它定义为：
M
n

xn (m )
它与12位线性转换器等效。
预处理

由于语音信号的平均功率谱受声门激励和口鼻辐射影响，高频端大约在800Hz以上按6dB /倍频程跌落，要在预处理中进行预加重（Preemphasis）处理。预加重目的：提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析。预加重可在语音信号数字化时在反混叠滤波器之前进行，不仅可以进行预加重，而且可以压缩吸纳后的动态范围，有效提高信噪比。预加重一般在语音信号数字化之后，利用数字滤波器实现： 1 H (z) 1 z 值接近1。
S N R ( d B ) 6 .0 2 B 7 .2
x2 X S N R ( d B ) 1 0 lg 2 6 .0 2 B 4 .7 7 2 0 lg m a x e x

A/D转换器分为线性和非线性转换器两类。目前的线性A/D转换器绝大部分是12bits的（即每一个采样脉冲转换为12位二进制数）。非线性A/D转换器则是8位的，
n n
短时相关分析
右图中：N=401，Fs=8kHz a、b是浊音信号，c位清音信号，由图可以看出浊音信号的自相关函数具有一定得周期性，而清音信号的自相关函数缺乏周期性。

语音信号的特征提取与分类研究

语音信号的特征提取与分类研究语音信号是一种常见的信号，它传递了人类的语言信息，是人类进行交流的重要媒介之一。

但是，要对语音信号进行处理以便于机器学习或实现其他应用，需要提取出语音信号中的特征，并对其进行分类。

本文将重点探讨语音信号的特征提取与分类研究。

一、语音信号的特征提取语音信号是一种时域信号，包含了大量的声音信息。

在对语音信号进行处理前，需要将其转化为数字信号，并从中提取出有用的特征。

下面介绍几种经典的语音信号特征提取方法。

1. 短时能量和短时平均幅值短时能量和短时平均幅值是语音信号最基本的特征之一。

它们可以反映语音信号的音量大小和能量密度分布。

具体方法是将语音信号分成若干小段，在每一小段内求出能量和幅值的平均值。

这种方法简单易行，但是对于含有大量噪声的语音信号效果不佳。

2. 过零率语音信号中能量与过零率相关联，因此，过零率可以反映信号中的频率成分。

过零率表示的是语音信号穿过0的次数。

在计算过零率时，需要将语音信号分成若干小段，计算每一小段内0的穿过次数，并求出平均值。

过零率在识别某些语音词汇时具有一定的作用。

3. 短时倒谱系数短时倒谱系数是一种基于滤波器的语音信号特征提取方法。

它的原理是将语音信号输入到一个数字滤波器中，输出的结果就是短时倒谱系数。

这种方法比较复杂，需要涉及数字滤波器的设计和使用，但是效果很好。

4. 线性预测系数线性预测系数是一种基于自回归模型的语音信号特征提取方法。

它的原理是将语音信号视为一个自回归信号，通过线性预测模型估计自回归系数。

这种方法需要对语音信号进行复杂的数学运算，但是可以提取出语音信号的主要频率成分。

二、语音信号的分类研究经过特征提取后，语音信号就可以被机器进行分类了。

分类的目的是通过对语音信号的特征进行分析，将语音信号划分到不同的类别中，以便于机器进行语音识别或其他应用。

1. 基于深度学习的语音信号分类深度学习是近年来非常流行的一种机器学习方法，其在语音识别领域中也取得了一定的成果。

第三章语音信号的数字分析

Pe
(e)
=
1 ∆
, − ∆ ≤ e(n) ≤ ∆
2
2
0 , 其它
在上述假设的统计模型下，量化噪声的均值和方差分别为：
∫ me
=
∆ 2
e( 1
)de
=
0
−∆2 ∆
∫ σ
2 e
=
∆ 2
−∆2
e2
(1 ∆
)de
=
∆2 12
信噪比：
∑∑ SNR
=
σ x2 σ e2
=
E[x 2 (n)] E[e 2 (n)]
（输入间距）（输出间距）
∆：量化阶距（间距）
例：3bit 均匀量化器
xˆ (输出)
7∆/2
011
5∆/2
010
3∆/2
001
∆/2 000
-4∆ -3∆ -2∆ -∆
∆ 2∆ 3∆ 4∆
100 101 110 111
-∆/2 -3∆/ 2 -5∆/ 2 -7∆/ 2
x (输入)
峰— 峰值范围（a） “上升中点”型量化器
-120 0
(b)
0.1
0.2
0.3
0.4
0.5
归一化频率
图. 矩形窗（ａ）和哈明窗（ｂ）的幅频特性
•哈明窗的带宽大约是同样宽度矩形窗带宽的两倍， •哈明窗通带外的衰减也比矩形窗大一倍多 •这两种窗的衰减基本上与窗的持续时间无关 •矩形窗的谱平滑较好，但波形细节丢失，而哈明窗则反之
2、窗口的长度
•无论窗口形状如何，窗口长度N将起决定性的作用
时域波形展开：
语音信号具有很强的“ 时变特性”，在有些段落中它具有很强的周期性，有些段落中又具有噪声特性，而且周期性语音和噪声语音的特征也在不断变化之中，只有在较短的时间间隔（ 20～200ms）语音信号的特征才基本保持不变

语音信号的识别与分析技术

语音信号的识别与分析技术语音信号是我们日常交流中最为普遍和基础的通信手段，随着科技的不断发展，越来越多的人工智能设备和人机交互系统也采用语音作为信息输入和输出的方式，语音信号的识别与分析技术也越来越成为了一个重要的研究领域。

语音信号的识别可以分为语音识别和说话人识别两种。

语音识别是指将说话人说的语音信号转化为文本或命令等符号组合的技术，它是现代人机交互和自然语言处理的基础；而说话人识别是指通过对语音信号中的说话人身份进行识别，从而实现区分不同说话人的功能。

语音信号的分析则是指对说话人语音信号的声学和语言特征进行分析，以提取有效信息的技术。

从声学角度来说，语音信号的分析可以分别在时域和频域上进行。

在时域上，可以利用数字信号处理技术对语音信号进行连续采样，并对其物理特性(如频率、振幅、波形等)进行分析；在频域上，可以将语音信号转化为频域信号，并利用现代声学理论对其进行分析。

在语言学角度来说，语音信号分析的主要任务是对语音信号中的语言信息进行抽取和处理。

语音信号中的语言信息包括音位、音节、单词和语调等。

而对于这些语言信息的抽取和处理，则需要运用到语言学理论、音韵学和自然语言处理等相关技术。

除了语音识别和说话人识别以外，语音信号的识别和分析技术还能够应用于很多其他领域。

例如，通过语音识别技术的应用，可以实现智能家居、手写识别、虚拟助手等人工智能设备的语音交互功能；通过说话人识别技术的应用，可以实现声纹识别、安全认证等方面的应用；而通过语音分析技术的应用，则可以实现情感分析、语音合成等应用。

尽管语音信号的识别和分析技术在很多领域得到了广泛的应用，但是在实际应用中仍然存在一些困难和挑战。

例如，现有的语音识别技术在语音噪声和口音干扰比较大的情况下准确率较低，而现有的说话人识别技术在多说话人同时发言的情况下也容易出现识别困难；而对于语音信号的分析，则由于人类语言的复杂性和多样性，其分析也面临着很大的挑战。

总体来说，语音信号的识别与分析技术已经逐渐成为了计算机科学和人工智能领域中的研究重点之一，随着机器学习和深度学习等技术的不断进步和应用，我们期待这一领域在未来的进一步发展。

语音信号处理课件__第03章时域分析

SNRdB 6.02B 4.77 20log10 (
x
xmax
)
(3-11)
3.1 语音信号的短时处理方法脉冲编码调制
若是xmax取为4倍方差(δx)
SNRdB 6.02B 7.27
取样之位数 8 16 24
(3-12)
数字信号的信噪比 41 dB 89 dB 137 dB
3.1 语音信号的短时处理方法脉冲编码调制
一个数字信号取样之后，变成离散时间信号，接下来就是要用数字方式来表示这个离散时间信号上的每个取样值。一个电位波形会有固定的电压范围，一个取样值可以是在此电压范围内的任何电位。如果只能用固定数目的位来表示这些取样值，那么这些二进数字就只能代表固定的几个电位值，这个转换就是量化 (quantization)，而转换之后只允许存在的几个电位值就是量化阶数(quantization level)。执行量化转换的硬件电路，就是量化器（quantizer)。以二进数字表示的信号就是数字信号(digital signal)，而这种将信号波形转变成二进数字的方法，就叫脉冲编码调制(pulse code modulation, PCM)。
3.1 语音信号的短时处理方法
预处理平滑滤波器：D/A后面的低通滤波器是平滑滤波器，对重构的语音波形的高次谐波起平滑作用，以去除高次谐波失真。预加重：

现象:由于语音信号的平均功率谱受声门激励和口鼻辐射的影响，高频端大约在800 Hz以上按6dB/ 倍频程跌落，为此要在预处理中进行预加重。目的:提升高频部分，使信号的频谱变得平坦，以便于进行频谱分析或声道参数分析。位置:预加重可在A/D变换前的反混叠滤波之前进行，这样不仅能够进行预加重，而且可以压缩信号的动态范围，有效地提高信噪比。

第3章语音信号的模型ppt课件

声管中声传播特性与传输线中电流传播特性有很强的类比关系。
表3.1：声学量与电学量之间的类比关系。
表3.1 声学量压力 p 体积速度 u 声感 ρ/A 声容A/(ρc2) 电压 v 电流 i 电感 L 电容 C 声学量与电学量之间物理量的类比声学量特性声阻抗 Z0= ρc/A 声激励角频率Ω 单位长度声阻抗粹Z=jΩρ/A 单位长度声导纳 Y=jΩA /(ρc2) 电学量特性电阻抗 Z0 电激励角频率ω 复阻抗 Z 复导纳 Y 电学量
ZG IG U1
I1
图3.6
声门对应等效电路图
式中，U1(0,Ω) ——声门处的体积速度u1(0,t)的Laplace变换； P1(0,Ω) ——声门处的声压p1(0,t)的Laplace变换；
UG (Ω) ——等效体积速度源uG(t)的Laplace变换。
第2章
数字语音处理基础
3.2
语音信号的无损声管模型
该式与电学的欧姆定律相对应（声压对应电压，体积速度对应电流）
c u ( t ) u ( t ) Z u ( t ) u ( t )

LN N N N
u ( t ) N

式中，kL——嘴唇处的反射系数， 1 1 1 k ( c A Zc ) ( A Z ) L N L N L ◆嘴唇处的体积速度为：
第 2章
数字语音处理基础
第 3章
语音信号的模型
语音模型化，便于数字处理。对模型的要求：精确描述语音产生过程、尽可能地简单，便于处理和实现。已提出许多种不同的语音信号模型。 ◆线性模型：广泛使用级联无损声管模型和共振峰模型。 ◆理论基础：发音过程中声道处于运动状态，这种运动与语音信号相比变化缓慢，故可用时变的线性系统来模拟。 ◆更精细分析时，发现语音中也存在较大的非线性现象，某些应用需考虑这些因素对所研究问题的影响。 ◆非线性模型：有多种，调频-调幅模型受到广泛关注。本章讨论：级联无损声管模型、共振峰模型、调频-调幅模型

语音信号的特征分析79页PPT

谢谢！
语音信号的特征分析
21、静念园林好，人间良可辞。 22、步步寻往迹，有处特依依。 23、望云惭高鸟，临木愧游鱼。 24、结庐在人境，而无车马喧；问君何能尔？心远地自偏。 25、人生归有道，衣食固其端。
61、奢侈是舒适的，否则就不是奢侈。——CocoCha nel 62、少而好学，如日出之阳；壮而好学，如日中之光；志而好学，如炳烛之光。 ——刘向 63、三军可夺帅也，匹夫不可夺志也。 ——孔丘 64、人生就是学校。在那里，与其说好的教师是幸福，不如说好的教师是不幸。 ——海贝尔 65、接受挑战，就可以享受胜利的喜悦。——杰纳勒尔·乔治·S·巴顿

第3讲语音信号处理第3

其中，
xn (m) (m)x(n m), (0 k K )
(m)
1, 0,
m 0 ~ (N 1) m 其它值
x'n (m) '(m)x(n m), (0 k N 1 K)
'
(m)
1, 0,
m 0 ~ (N 1 K) m 其它值
2．修正的短时自相关函数
图3-7 修正短时自相关函数计算中窗口长度的说明
N 1
M n xn (m) m0
❖ Mn也是一帧语音信号能量大小的表征，它与En的区别在于计算时小取样值和大取样值不会因取平方而造成较大差异，在某些应用领域中会带来一些好处。
短时过零率分析
❖ 短时过零率表示一帧语音中语音信号波形穿过横轴(零电平) 的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号，过零即意味着时域波形通过时间轴；而对于离散信号，如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。
3.1 概述
❖ 语音信号分析分析出可表示语音信号特征参数
进行高效的语音通信、语音合成和语音识别的基础时域特征频率特征
❖ 短时分析技术：贯穿于语音分析全过程语音信号从整体来看其特征及表征其本质特征的参数均是
随时间而变化的，所以它是一个非平衡态过程，不能用处理平衡信号的数字信号处理技术对其进行分析处理。
(m)
1, 0,
m 0 ~ (N 1) m 其它值
❖ 其中，n=0,1T,2T,…,并且N为帧长，T为帧移长度。
❖ 设第n帧语音信号xn(m)的短时能量用En表示，则其计算公式如下：
N 1
En xn2 (m) m0
短时能量及短时平均幅度分析
❖ En是一个度量语音信号幅度值变化的函数，但它有一个缺陷，即它对高电平非常敏感（因为它计算时用的是信号的平方)。为此，可采用另一个度量语音信号幅度值变化的函数，即短时平均幅度函数Mn，它定义为：

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Magnitude (dB)
40 20
0 -20 -40 -60 -80 -100
0 50
Frequency domain
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0
-50
-100
-150 0
40 30 20 10
0 -10 -20
1 0.8 0.6 0.4 0.2
0 0
rectangular hamming hanning bartlett
50
100
150
200
250
❖ 几种不同的窗函数波形与频谱的比较
1
Hamming 0.8 哈明窗 0.6
Amplitude
0.4
0.2
0
1
Hanning 0.8
汉宁窗
0.6
Amplitude
0.4
0.2
0
1
矩形窗
0.8
Amplitude
0.6
0.4
0.2
0
Time domain
10
20 Tim3e0domain40
50
60
Samples
10
20 Tim3e0domain40
50
60
Samples
10
20
30
40
50
பைடு நூலகம்
60
Samples
Magnitude (dB)
Magnitude (dB)
帧和加窗的概念
❖ 短时分析将语音流分为一段一段来处理，每一段称为一“帧”；
❖ 帧长：10～30；帧移：0～1倍帧长，帧与帧之间的平滑过渡；
❖ 语音识别中常用的帧长为20~30ms,帧移为10ms
❖ 为了减小语音帧的截断效应，需要加窗处理；
sw(n)s(n)w(n)
矩形窗
哈明窗 (Hamming)
❖ 旁瓣:
旁瓣的高度决定了对临近频率成分的干扰抑制能力，高度越低，抑制干扰能力越强
❖ 矩形窗: 主瓣高度 - 第一个旁瓣高度 ≈ 13dB ❖ hamming窗: 主瓣高度 - 第一个旁瓣高度 > 40dB
旁瓣高度跟窗长N 无关
窗函数及其比较
三种窗函数都有低通特性，通过分析三种窗的频率响应幅度特性可以发现：矩形窗的主瓣宽度最小分辨率最高，旁瓣高度最高，会导致泄漏现象，哈明窗的主瓣最宽，分辨率低（可以通过适当提高窗长解决），旁瓣高度最低，可以有效的克服泄漏现象，具有更平滑的低通特性，应用更广泛。
防止混叠干扰抑制50Hz的电源干扰
预滤波实际上是一个带通滤波器，其上下截止频率分别为fH和fL 。对于电话语音编码器而言，要求fH=3400Hz, fL=60~100Hz， fs=8KHz.
对于语音识别系统而言，用于电话用户时要求技术指标与语音编码器相
同，如果对于更高的要求场合，则fH=4500Hz或8000Hz, fL=60Hz， fs=10KHz或20KHz
一般对语音质量要求较高的场合再提高采样频率也不会对语音质量有太多贡献
量化精度
❖ 量化所用比特越大，声音质量越好 ❖ 声音质量也跟量化算法有关，比如同样用8bit量化，
非均匀量化（µ-律或A-律）就比均匀量化好很多
固网电话语音量化就是用的非均匀量化
声音的质量与数据率（采样频率和量化精度）的关系
第三章-语音信号的特征分析讲解
语音信号的采样频率
❖ 奈奎斯特采样定理：fs> 2 fmax ❖ 窄带语音信号： fs =8000Hz
电话语音（固网电话通信频带为300-3400Hz) 可以基本保持语义，不影响人对语音的感知质量不是很好，有时候会有变音
❖ 宽带语音信号：fs =16000Hz
0
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
不同的窗选择，将决定短时语音分析结果的好坏
❖ 首先是窗的长度，无论什么形状的窗，长度N将起决定性的作用。
汉宁窗 (Hanning)
w (n ) 1 ,0nN 1
w (n ) 0 .5 4 0 .4c6 o 2sn()0 , n N 1 N 1
w (n ) 0 .5 (1 co 2sn()0 ) ,n N 1 N 1
几种常见的窗函数的波形
Matlab中，可以通过help window命令来查看怎么产生不同的窗
50～7000 Hz
176.4
20～20000 Hz
192.0
20～20000 Hz
3.2 语音信号的短时分析
❖ 语音分析是语音信号处理的前提和基础；分析的目的是提取需要的信息，获取特征表示参数；
❖ 短时分析
语音是一个时变信号语音的短时平稳特性，在10～30ms时间段内相对平稳
预滤波
❖ 预滤波的目的
3.3 语音信号的时域特征分析
短时能量短时平均幅度短时过零率短时自相关函数短时平均幅度差函数
语音信号的短时能量（语音信号强度的度量参数）
N选得太大，不能保证每一帧的语音的平稳特性 N太小，不能保证信号的统计特性，容易产生统计噪声对于频域分析而言，窗长N还直接决定了信号频谱的分辨率对于语音信号，通常帧长应选择为一个语音帧包含有至少2个基音
周期为好。人的语音的基音周期值是变化的，从女性小孩的2ms到老年男子的14ms（即基音频率为500Hz至70Hz），所以N的选择是比较困难的。通常折衷的选择N为20~30ms。若采用频率为 10KHz，则相当于每帧的长度（即窗口序列的长度）约为200~300 点为宜。若采样频率为8KHz，相当于160~240点
❖ 其次是窗口的形状，不同的窗，其频率特性是不一样的，这在短时频域分析时尤为重要。
窗口的形状和长度对分析影响很大，不同的分析方法对窗函数的要求不尽一样。
窗函数频谱的主瓣与旁瓣
❖ 主瓣:
主瓣宽度控制频谱分析的频率分辨率，主瓣越窄，频率分辨率越高
❖ 矩形窗的主瓣宽度 = fs/N ❖ hamming窗的主瓣宽度约为 2fs/N
质量
电话 AM FM CD DAT
采样频率 (kHz) 8 11.025 22.050 44.1 48
样本精度 (bit/s)
8 8 16 16 16
单道声/ 立体声单道声单道声立体声立体声立体声
数据率(kB/s) (未压缩)
频率范围
8
300～3400 Hz
11.0
20～5000 Hz
88.2