第三章语音信号的短时时域分析

合集下载

【语音处理】4个基本的时域信号特征分析技术

【语音处理】4个基本的时域信号特征分析技术上一节主要介绍了关于加窗函数的相关内容。

对语音的时域信号进行分析是最直观的分析方式。

本文将介绍语音信号处理中四种时域特征，分别是短时能量、短时过零率、短时自相关函数以及短时平均幅度差。

作者&编辑 | 小米粥编辑 | 言有三1. 短时能量由于语音信号具有短时平稳性，我们通常对语音进行分帧处理。

首先定义矩形窗为w(m)，那么对于语音信号x(t)，其加窗分帧后第n 帧语音信号 xn(m)为矩形窗的是最直观、简单的窗函数，我们以其为例进行说明。

矩形窗的表达式为：在该计算式中，n=0,T,2T,...,N为帧长，T为帧移长度。

第n 帧语音信号 xn(m)的短时能量En为使用幅值平方将对高幅值信号具有较大的敏感度，为了降低敏感度，定义短时平均幅度函数Mn为短时能量En和短时平均幅度函数Mn的主要用途：1.浊音相比较于清音的En具有较大的数值，因而可用于区分浊音和清音。

2.利用短时能量区分有声段和无声段，也可对声母和韵母分界，对无间隙的连字分界。

3.在语音识别任务中作为特征，表示能量特征和超音频信息。

2. 短时过零率短时过零率表示一帧语音中波形信号穿过零值的次数。

对于连续信号，过零意味着波形通过时间轴，而对于离散信号，过零意味着相邻采样点的符号改变。

首先定义符号函数sgn[·]为则第n帧语音信号 xn(m)的短时过零率Zn为由于短时过零率容易受到低频干扰，可设置相关门限T，将过零修改为穿过正负门限的次数，即门限的存在使得短时过零率Zn具有一定的扛干扰能力，避免随机噪声导致的虚假过零。

短时过零率的主要用途：1.浊音能量集中于3kHz内的低频率段，清音能量集中于高频率段，而短时过零率可以一定程度反映频率高低，因而浊音段相对于清音段，其短时过零率减低。

2.将短时过零率和短时能量结合实现端点检查。

短时能量适用于背景噪声较小的情况，而短时过零率适用于背景噪声较大的情况。

语音信号的时域特征分析

中北大学课程设计说明书学生姓名：蒋宝哲学号： 24学生姓名：瓮泽勇学号： 42学生姓名：侯战祎学号： 47学院：信息商务学院专业：电子信息工程题目：信息处理实践:语音信号的时域特征分析指导教师：徐美芳职称: 讲师2013 年 6 月 28 日中北大学课程设计任务书2012-2013 学年第二学期学院：信息商务学院专业：电子信息工程学生姓名：蒋宝哲学号： 24 学生姓名：瓮泽勇学号： 42 学生姓名：侯战祎学号： 47 课程设计题目：信息处理实践:语音信号的时域特征分析起迄日期： 2013年6 月7日～2013年6月 28 日课程设计地点：学院楼201实验室、510实验室、608实验室指导教师：徐美芳系主任：王浩全下达任务书日期: 2013 年 6 月 7 日课程设计任务书课程设计任务书语音信号的采集与分析摘要语音信号的采集与分析技术是一门涉及面很广的交叉科学，它的应用和发展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。

其中语音采集和分析仪器的小型化、智能化、数字化以及多功能化的发展越来越快，分析速度较以往也有了大幅度的高。

本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法，并通过PC机录制自己的一段声音，运用Matlab进行仿真分析，最后加入噪声进行滤波处理，比较滤波前后的变化。

关键词：语音信号，采集与分析， Matlab0 引言通过语音传递倍息是人类最重要、最有效、最常用和最方便的交换信息的形式。

语言是人类持有的功能．声音是人类常用的工具，是相互传递信息的最主要的手段。

因此，语音信号是人们构成思想疏通和感情交流的最主要的途径。

并且，由于语言和语音与人的智力活动密切相关，与社会文化和进步紧密相连，所以它具有最大的信息容量和最高的智能水平。

现在，人类已开始进入了信息化时代，用现代手段研究语音信号，使人们能更加有效地产生、传输、存储、获取和应用语音信息，这对于促进社会的发展具有十分重要的意义。

第三章-语音信号的特征分析讲解讲解学习

Magnitude (dB)
40 20
0 -20 -40 -60 -80 -100
0 50
Frequency domain
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0
-50
-100
-150 0
40 30 20 10
0 -10 -20
1 0.8 0.6 0.4 0.2
0 0
rectangular hamming hanning bartlett
50
100
150
200
250
❖ 几种不同的窗函数波形与频谱的比较
1
Hamming 0.8 哈明窗 0.6
Amplitude
0.4
0.2
0
1
Hanning 0.8
汉宁窗
0.6
Amplitude
0.4
0.2
0
1
矩形窗
0.8
Amplitude
0.6
0.4
0.2
0
Time domain
10
20 Tim3e0domain40
50
60
Samples
10
20 Tim3e0domain40
50
60
Samples
10
20
30
40
50
பைடு நூலகம்
60
Samples
Magnitude (dB)
Magnitude (dB)
帧和加窗的概念
❖ 短时分析将语音流分为一段一段来处理，每一段称为一“帧”；

3第三章语音信号分析---时域分析语音信号处理课件

4/25/2021
32/66
存在的问题
短时能量函数一个主要的问题是En对信号电平值过于敏感。由于需要计算信号样值的平方和，在实际应用中（如定点设备）很容易溢出。因此，一般用平均幅度函数Mn来代替En。但这时，清音和浊音、有声和无声的幅度差不如短时能量明显。
4/25/2021
33/66
二、短时过零率分析
Telephone
Frequency scope
200-3400
Sampling frequency
8 khz
Quantizati on bits
8 bits
Wide band 50-7000
16 khz
16 bits
Broadcasti ng
CD
20-15khz 20-20khz
37.8 khz 44.1 khz
4/25/2021
xa(t) t
xa(nT) n
5/66
• Ideal sampling and real sampling
4/25/2021
6/66
3. A/D转换
对离散时间信号进行量化，在每一时刻对xa(nT) 独立进行量化，把给定的幅度连续的信号变成为有限多个幅度的集合中某个幅度值的过程。
4/25/2021
37/66
1 0.8 0.6 0.4 0.2
0 -0.2 -0.4 -0.6 -0.8
-1 0
50
100
150
200
250
300
350
400
450
女声汉语拼音a的一帧信号（在采样频率为22050Hz的情况下，取20ms作为一帧），短时过零率为46。
4/25/2021

第三章语音信号的数字分析

Pe
(e)
=
1 ∆
, − ∆ ≤ e(n) ≤ ∆
2
2
0 , 其它
在上述假设的统计模型下，量化噪声的均值和方差分别为：
∫ me
=
∆ 2
e( 1
)de
=
0
−∆2 ∆
∫ σ
2 e
=
∆ 2
−∆2
e2
(1 ∆
)de
=
∆2 12
信噪比：
∑∑ SNR
=
σ x2 σ e2
=
E[x 2 (n)] E[e 2 (n)]
（输入间距）（输出间距）
∆：量化阶距（间距）
例：3bit 均匀量化器
xˆ (输出)
7∆/2
011
5∆/2
010
3∆/2
001
∆/2 000
-4∆ -3∆ -2∆ -∆
∆ 2∆ 3∆ 4∆
100 101 110 111
-∆/2 -3∆/ 2 -5∆/ 2 -7∆/ 2
x (输入)
峰— 峰值范围（a） “上升中点”型量化器
-120 0
(b)
0.1
0.2
0.3
0.4
0.5
归一化频率
图. 矩形窗（ａ）和哈明窗（ｂ）的幅频特性
•哈明窗的带宽大约是同样宽度矩形窗带宽的两倍， •哈明窗通带外的衰减也比矩形窗大一倍多 •这两种窗的衰减基本上与窗的持续时间无关 •矩形窗的谱平滑较好，但波形细节丢失，而哈明窗则反之
2、窗口的长度
•无论窗口形状如何，窗口长度N将起决定性的作用
时域波形展开：
语音信号具有很强的“ 时变特性”，在有些段落中它具有很强的周期性，有些段落中又具有噪声特性，而且周期性语音和噪声语音的特征也在不断变化之中，只有在较短的时间间隔（ 20～200ms）语音信号的特征才基本保持不变

语音信号的短时分析

语音信号的短时分析一、实验目的1.在理论学习的基础上，进一步地理解和掌握语音信号短时分析的意义，短时时域分析的基本方法。

2.进一步理解和掌握语音信号短时平均能量函数及短时平均过零数的计算方法和重要意义。

二、实验原理及方法一定时宽的语音信号，其能量的大小随时间有明显的变化。

其中清音段（以清音为主要成份的语音段），其能量比浊音段小得多。

短时过零数也可用于语音信号分析中，发浊音时，其语音能量约集中于3kHz以下，而发清音时，多数能量出现在较高频率上，可认为浊音时具有较低的平均过零数，而清音时具有较高的平均过零数，因而，对一短时语音段计算其短时平均能量及短时平均过零数，就可以较好地区分其中的清音段和浊音段，从而可判别句中清、浊音转变时刻，声母韵母的分界以及无声与有声的分界。

这在语音识别中有重要意义。

三、实验仪器微型计算机，Matlab软件环境四、实验内容1.上机前用Matlab语言完成程序编写工作。

2.程序应具有加窗（分帧）、计算、以及绘制曲线等功能。

3.上机实验时先调试程序，通过后进行信号处理。

4.对录入的语音数据进行处理，并显示运行结果。

5.依据曲线对该语音段进行所需要的分析，并作出结论。

6.改变窗的宽度（帧长），重复上面的分析内容。

五、预习和实验报告要求1.预习课本有关内容,理解和掌握短时平均能量函数及短时平均过零数函数的意义及其计算方法。

2.参考Matlab有关资料，设计并编写出具有上述功能的程序。

六、上机实验报告要求:1.报告中,实验目的、实验原理、实验步骤、方法等格式和内容的要求与其它实验相同。

2.画出求得的、曲线，注明语音段和所用窗函数及其宽度。

阐述所作分析和判断的过程，提出依据，得出判断结论。

七、思考题1．语音信号短时平均能量及短时平均过零数分析的主要用途是什么？2．窗的宽度（帧长）的改变，对的特性产生怎样的影响？附：所用语音信号文件名为one.wavMatlab编程实验步骤：1．新建M文件，扩展名为“.m”，编写程序；2．选择File/Save命令，将文件保存在F盘中；3．在Command Window窗中输入文件名，运行程序；Matlab部分函数语法格式：读wav文件：x=wavread(`filename`)数组a及b中元素相乘： a.*b创建图形窗口命令：figure绘图函数：plot(x)坐标轴：axis([xmin xmax ymin ymax])坐标轴注解：xlabel(`…`) ylabel(`…`)图例注解：legend( `…`)一阶高通滤波器：y=filter([1-0.09375],1,x)分帧函数：f=enframe(x,len,inc)x为输入语音信号，len指定了帧长，inc指定帧移，函数返回为n×len的一个矩阵，每一行都是一帧数据。

第三章语音信号的短时时域分析 ppt课件

38
38
数字语音处理及MATLAB仿真张雪英编著
女声“我到北京去”的短时平均过零次数的变化曲线:
第三章语音信号的短时时域分析
39
39
数字语音处理及MATLAB仿真张雪英编著
3. 应用
清音过零率高，浊音过零率低。局限性：浊音和清音重叠区域只根据短时平均过零率不可能明确地判别清、浊音。
清音
浊音
4
4
数字语音处理及MATLAB仿真张雪英编著
3.1 概述
语音信号是一种非平稳的时变信号，它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中都需要提取语音中包含的各种信息。
语音处理的目的：对语音信号进行分析，提取特征参数，用于后续处理；加工语音信号。
总之，语音信号分析的目的就在于方便有效的提取并表示语音信号所携带的信息。
第三章语音信号的短时时域分析
2
2
精品资料
数字语音处理及MATLAB仿真张雪英编著
• 你怎么称呼老师？ • 如果老师最后没有总结一节课的重点的难点，你
是否会认为老师的教学方法需要改进？ • 你所经历的课堂，是讲座式还是讨论式？ • 教师的教鞭 • “不怕太阳晒，也不怕那风雨狂，只怕先生骂我
笨，没有学问无颜见爹娘 ……” • “太阳当空照，花儿对我笑，小鸟说早早早……”
0
10 20 30
40 50
60 70 80
每 10ms 内的过零数
第过三零章语率音概信号率的分短时布时域分析
40
40
数字语音处理及MATLAB仿真张雪英编著
端点检测
端点检测目的：从包含语音的一段信号中确定出语音的起点及结束点。
有效的端点检测不仅能使处理时间减到最少，而且能抑制无声段的噪声干扰，提高语音处理的质量。

语音信号短时分析.ppt

❖ 如果窗的起点是n=0，短时过零率Z为
Z01 2N n 0 1Sg (Sw n (n) )Sg (Sw n (n1))
将Z应用于语音信号分析中
❖ 发浊音时，声带振动，因而声门激励是以此音调频率为基频来使声道共振；尽管有若干个共振峰，但其能量的分布集中于低于3KHz的频率范围内。
❖ 发清音时声带不振动，声道某部分阻塞产生类白噪声激励，通过声道后其能量集中在比浊音时更高的频率范围内。
0
-50
-100
-150 0
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
Frequency domain 40
30
20
10
0
-10
-20 0
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
语音信号的短时能量（语音信号强度的度量参数）
❖ 在语音识别中正确的决定所要识别语音的起点、终点对于提高识别率往往是重要的。
❖ 对于数字移动通信的手持机编译码器，在较长的无声段应降低发射功率以节约其电池的消耗。
Hale Waihona Puke 语音有声和无声❖ 对于已经判定为语音段的部分，尚需决定其清音或浊音，无论对于语音识别还是低速语音编译码器这都是很重要的。这些问题可以概括为无声/有声判决以及更细致的S/U/V判决。
N 1
Hann
w (n ) 0 .5 (1 c 2 os n( )0 ) ,n N 1 N 1
❖ 不同的窗口选择（形状、长度），将决定短时平均能量的性质。什么样的窗口，其短时平均能量才能更好的反映语音信号的振幅变化哪？

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2

m n ( N 1 )

n
[ x ( m ) w ( n m )]
2
当窗函数为矩形窗时，有
En
m n ( N 1 )
ห้องสมุดไป่ตู้
x
n
2
(m)
23
数字语音处理及MATLAB仿真张雪英编著
若令
h(n) w2 (n)
则短时平均能量可以写成：
En
m
x

2
(m)h(n m) x (n) h(n)
1
设n时刻的语音采样值为x(n) ，经过预加重处理后的结果为
y(n) x(n) x(n 1)
8
数字语音处理及MATLAB仿真张雪英编著
高通滤波器的幅频特性和相频特性如下
9
数字语音处理及MATLAB仿真张雪英编著
预加重前和预加重后的一段语音信号时域波形
10
数字语音处理及MATLAB仿真张雪英编著
2
x(n)
(.)2
x2(n) h(n)
En
图 3.7
语音信号的短时平均能量实现方框图
24
数字语音处理及MATLAB仿真张雪英编著
2. En特点：En反映语音信号的幅度或能量随时间缓慢变化的规律。 3. 窗的长短对于能否由短时能量反映语音信号的幅度变化，起着决定性影响。如果窗选得很长，En不能反映语音信号幅度变化。窗选得太窄，En将不够平滑。通常，当取样频率为 10kHz 时，选择窗宽度 N=100~200是比较合适的。
13
数字语音处理及MATLAB仿真张雪英编著
图3.3给出了帧移与帧长示意图。
14
数字语音处理及MATLAB仿真张雪英编著
加窗常用的两种方法：
矩形窗，窗函数如下：
1 w(n) 0 0 n N 1 其它
汉明(Hamming)窗，窗函数如下
2πn / N 1 ， 0n N 0.54 0.46 cos w(n) 其它 0
∞
时域离散随机信号的自相关函数定义为：
R k lim
N
1 2N 1
m N
x m x m k
N
周期为P的周期信号满足： R k R k P
39
数字语音处理及MATLAB仿真张雪英编著
自相关函数具有下述性质： (1) (2) (3) 对称性 R(k)= R(-k) 在k = 0处为最大值，即对于所有k来说，
x(n)
| |
.
|x ( n )| w(n) Mn
图 3.9
短时平均幅度
Mn与En的比较：
1. Mn能较好地反映清音范围内的幅度变化； 2. Mn所能反映幅度变化的动态范围比En好； 3. Mn反映清音和浊音之间的电平差次于En。
30
数字语音处理及MATLAB仿真张雪英编著
短时平均幅度函数随矩形窗窗长N变化的情况
e
x2 max
e
7
数字语音处理及MATLAB仿真张雪英编著
3.2.1 语音信号的预加重处理
有了语音数据文件后，对语音的预处理包括：预加重、加窗分帧等。
预加重目的：为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率。可通过一阶FIR高通数字滤波器来实现：
H ( z) 1 z
12
数字语音处理及MATLAB仿真张雪英编著
语音信号的分帧实现方法：采用可移动的有限长度窗口进行加权的方法来实现的。一般每秒的帧数约为33～100帧。
分帧一般采用交叠分段的方法，这是为了使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值
一般取为0~1/2。
sgn x n sgn x n 1 * wn
32
数字语音处理及MATLAB仿真张雪英编著
1 w n 2N 0
0 n N 1 其它
及
1 sgn x(n) -1
x ( n) 0 x (n) 0
女声“我到北京去”的短时平均过零次数的变化曲线:
36
数字语音处理及MATLAB仿真张雪英编著
3. 应用
清音过零率高，浊音过零率低。
局限性：浊音和清音重叠区域只根据短时平均过零率不可能明确地判别清、浊音。
清音
浊音
0
10
20
30
40
50
60
70
80
每 10ms 内的过零数过零率概率分布
37
数字语音处理及MATLAB仿真张雪英编著
fclose(fid);
4、对采集到的语音样点值进行分帧。
28
数字语音处理及MATLAB仿真张雪英编著
3.4
短时平均幅度函数
为了克服短时能量函数计算x2 ( m ) 的缺点，定义了短时平均幅度函数:
Mn
m
| x(m) | w(n m)

29
数字语音处理及MATLAB仿真张雪英编著
25
数字语音处理及MATLAB仿真张雪英编著
不同矩形窗长N时的短时能量函数
26
数字语音处理及MATLAB仿真张雪英编著
短时平均能量的主要用途如下：
1）可以作为区分清音和浊音的特征参数。 2）在信噪比较高的情况下，短时能量还可以作为区分有声和无声的依据。 3）可以作为辅助的特征参数用于语音识别中。
Qn
m
T [ x(m)]h(n m)

21
数字语音处理及MATLAB仿真张雪英编著
几种常见的短时处理方法是：
h(n) w (n) Qn 对应于能量； 1. T[ x(m)] x (m)，
2 2
h(n) w(n) 2. T[ x(m)] sgn[x(m)] sgn[x(m 1)]， Qn 对应于平均过零率；
预加重前和预加重后的一段语音信号频谱
11
数字语音处理及MATLAB仿真张雪英编著
3.2.2 语音信号的加窗处理
由于发音器官的惯性运动，可以认为在一小段时间里（一般为 10ms~30ms ）语音信号近似不变，即语音信号具有短时平稳性。这样，可以把语音信号分为一些短段（称为分析帧）来进行处
理。
27
数字语音处理及MATLAB仿真张雪英编著
MATLAB的具体实现如下： 1、用Cooledit读入语音“我到北京去”。 2、将读入的语音文件wav保存为txt文件，设置采样率为8kHz，16位，单声道。
3、把保存的文件zqq.txt读入Matlab。
fid=fopen('zqq.txt','rt'); x=fscanf(fid,'%f');
窗长的选择
一般选取100～200(应含1~7个基音周期)。原因如下：当窗较宽时，平滑作用大，能量变化不大，故反映不出能量的变化。当窗较窄时，没有平滑作用，反映了能量的快变细节，而看不出包络的变化。
20
数字语音处理及MATLAB仿真张雪英编著
语音信号的分帧处理，实际上就是对各帧进行某种变换或运算。设这种变换或运算用T[ ]表示， x(n)为输入语音信号，w(n)为窗序列，h(n)是与w(n) 有关的滤波器，则各帧经处理后的输出可以表示为：
3.1 概述
语音信号是一种非平稳的时变信号，它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中都需要提取语音中包含的各种信息。语音处理的目的：对语音信号进行分析，提取特征参数，用于后续处理；加工语音信号。
总之，语音信号分析的目的就在于方便有效的提取并表示语音信号所携带的信息。
2
数字语音处理及MATLAB仿真张雪英编著
根据所分析的参数类型，语音信号分析可以分成时域分析和变换域（频域、倒谱域）分析。其中时域分析方法是最简单、最直观的方法，它直接对语音信号的时域波形进行分析，提取的特征参数主要有语音的短时能量和平均幅度、短时平均过零率、短时自相关函数和短时平均幅度差函数等。
15
数字语音处理及MATLAB仿真张雪英编著
矩形窗及其频谱如下
16
数字语音处理及MATLAB仿真张雪英编著
汉明窗及其频谱如下
17
数字语音处理及MATLAB仿真张雪英编著
思考：两种窗效果有何异同？
f 01
fs N
18
数字语音处理及MATLAB仿真张雪英编著
加窗方法示意图：
19
数字语音处理及MATLAB仿真张雪英编著
|R(k)|≤R(0)
对于确定信号，R(0)对应于能量
对于随机信号，R(0)对应于平均功率
40
数字语音处理及MATLAB仿真张雪英编著
3.6.2 语音信号的短时自相关函数
采用短时分析方法，定义语音信号短时自相关函数为
Rn k
m
x m w n m x m k w n k m
（定义式）
34
数字语音处理及MATLAB仿真张雪英编著
2. 实现短时平均过零率
x(n) Sgn[ . ]
+1
1
-1
Sgn[x(n) ]
一阶差分 sgn[xn] -sgn[xn-1]
取绝对值
│.│
低通滤波 h(n)=w(n)
Nn
图 3.11 语音信号的短时平均跨零数
35
数字语音处理及MATLAB仿真张雪英编著
在上式中，用1/2N 作为幅值，是考虑了对该窗口范围内的过零数取平均的意思。