3第三章 语音信号分析---时域分析 语音信号处理 课件

合集下载

语音信号处理PPT_第三章_语音信号分析

语音信号处理PPT_第三章_语音信号分析

En

xn (m )
2
m 0
T[x]=x2
短时能量及短时平均幅度分析

En是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即 它对高电平非常敏感(因为它计算时用的是信号的平方)。为此, 可采用另一个度量语音信号幅度值变化的函数,即短时平均幅度 N 1 函数Mn,它定义为:
M
n


xn (m )
它与12位线性转换器等效。
预处理




由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端 大约在800Hz以上按6dB /倍频程跌落,要在预处理中进行预加重 (Preemphasis)处理。 预加重目的: 提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整 个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参 数分析。 预加重可在语音信号数字化时在反混叠滤波器之前进行,不仅可 以进行预加重,而且可以压缩吸纳后的动态范围,有效提高信噪 比。 预加重一般在语音信号数字化之后,利用数字滤波器实现: 1 H (z) 1 z 值接近1。
S N R ( d B ) 6 .0 2 B 7 .2
x2 X S N R ( d B ) 1 0 lg 2 6 .0 2 B 4 .7 7 2 0 lg m a x e x


A/D转换器分为线性和非线性转换器两类。 目前的线性A/D转换器绝大部分是12bits的(即每一个采样 脉冲转换为12位二进制数)。非线性A/D转换器则是8位的,
n n
短时相关分析
右图中:N=401,Fs=8kHz a、b是浊音信号,c位清 音信号,由图可以看出浊 音信号的自相关函数具有 一定得周期性,而清音信 号的自相关函数缺乏周期 性。

语音信号的基础知识课件

语音信号的基础知识课件

虚拟助手是一种能够协助用户完成日 常任务的应用。通过语音合成与识别 技术,虚拟助手能够理解用户的意图 ,提供相应的服务。例如,日程提醒 、天气查询、音乐播放等。
有声读物是一种将书籍转换为音频形 式的产品。通过语音合成技术,可以 将文字转换为自然语音朗读;通过语 音识别技术,可以方便地实现音频文 件的文字转录。有声读物的出现为那 些不方便阅读或视力不好的人群提供 了方便的阅读方式。
05 语音信号的未来发展
语音信号处理技术的发展趋势
01
深度学习算法的广泛应用
随着深度学习技术的不断发展,语音信号处理将更加依赖于深度学习算
法,如卷积神经网络、循环神经网络等,以提高语音识别的准确率和语
音合成的自然度。
02
端到端语音处理
端到端语音处理技术将逐步成为主流,这种技术能够直接将输入的语音
语音合成技术的原理
语音合成技术主要基于波形编码、统 计建模和深度学习等技术实现。其中 ,波形编码通过模仿人类发音器官的 动作,生成与人类语音相似的波形; 统计建模则通过建立声学模型和语言 模型,预测语音的波形;深度学习则 通过训练神经网络,学习语音的生成 过程。
语音合成技术的应用
语音合成技术的应用非常广泛,包括 智能客服、虚拟助手、有声读物等领 域。通过语音合成技术,这些应用能 够以自然的方式与用户进行交互,提 供更加智能化的服务。
语音识别
将语音信号转换为文本信息, 实现人机交互。
情感分析
通过分析语音信号中的情感特 征,实现情感识别和分类。
语音通信
利用语音信号进行远程通信, 是最常见的应用之一。
语音合成
将文本信息转换为语音信号, 用于自动播报、虚拟人物等领 域。
说话人识别
利用语音信号中的个性特征, 识别出说话人的身份。

3第三章 语音信号分析---时域分析 语音信号处理 课件

3第三章 语音信号分析---时域分析 语音信号处理 课件

4/25/2021
32/66
存在的问题
短时能量函数一个主要的问题是En对信号电平值 过于敏感。由于需要计算信号样值的平方和,在实 际应用中(如定点设备)很容易溢出。因此,一般 用平均幅度函数Mn来代替En。但这时,清音和浊 音、有声和无声的幅度差不如短时能量明显。
4/25/2021
33/66
二、短时过零率分析
Telephone
Frequency scope
200-3400
Sampling frequency
8 khz
Quantizati on bits
8 bits
Wide band 50-7000
16 khz
16 bits
Broadcasti ng
CD
20-15khz 20-20khz
37.8 khz 44.1 khz
4/25/2021
xa(t) t
xa(nT) n
5/66
• Ideal sampling and real sampling
4/25/2021
6/66
3. A/D转换
对离散时间信号进行量化,在每一时刻对xa(nT) 独立进行量化,把给定的幅度连续的信号变成为有限 多个幅度的集合中某个幅度值的过程。
4/25/2021
37/66
1 0.8 0.6 0.4 0.2
0 -0.2 -0.4 -0.6 -0.8
-1 0
50
100
150
200
250
300
350
400
450
女声汉语拼音a的一帧信号(在采样频 率为22050Hz的情况下,取20ms作为一 帧),短时过零率为46。
4/25/2021

第三章语音信号的数字分析

第三章语音信号的数字分析

Pe
(e)
=
1 ∆
, − ∆ ≤ e(n) ≤ ∆
2
2
0 , 其它
在上述假设的统计模型下,量化噪声的均值和方差分别为:
∫ me
=
∆ 2
e( 1
)de
=
0
−∆2 ∆
∫ σ
2 e
=
∆ 2
−∆2
e2
(1 ∆
)de
=
∆2 12
信噪比:
∑∑ SNR
=
σ x2 σ e2
=
E[x 2 (n)] E[e 2 (n)]
(输入间距) (输出间距)
∆:量化阶距(间距)
例:3bit 均匀量化器
xˆ (输出)
7∆/2
011
5∆/2
010
3∆/2
001
∆/2 000
-4∆ -3∆ -2∆ -∆
∆ 2∆ 3∆ 4∆
100 101 110 111
-∆/2 -3∆/ 2 -5∆/ 2 -7∆/ 2
x (输入)
峰— 峰值范围 (a) “上升中点”型量化器
-120 0
(b)
0.1
0.2
0.3
0.4
0.5
归一化频率
图. 矩形窗(a)和哈明窗(b)的幅频特性
•哈明窗的带宽大约是同样宽度矩形窗带宽的两倍, •哈明窗通带外的衰减也比矩形窗大一倍多 •这两种窗的衰减基本上与窗的持续时间无关 •矩形窗的谱平滑较好,但波形细节丢失,而哈明窗则反之
2、窗口的长度
•无论窗口形状如何,窗口长度N将起决定性的作用
时域波形展开:
语音信号具有很强的“ 时变特性”,在有些段 落中它具有很强的周期 性,有些段落中又具有 噪声特性,而且周期性 语音和噪声语音的特征 也在不断变化之中,只 有在较短的时间间隔( 20~200ms)语音信号 的特征才基本保持不变

语音信号处理PPT课件

语音信号处理PPT课件

F2 F3
a 10
频率范围(Hz)
成年男子
成年女子
带宽
F1
200~800
250~1000
40~70
F2
600~2800
700~3300
50~90
F3
1300~3400
1500~4000
60~180
一般地:语音识别,取前3个共振峰,而对 语音合成,需取5个
a
11
2.3 语音信号的特性
2.3.1 语言和语音的基本特性
[x(n)x(n-k)]*h (n) 计算自m 相 关 ,先乘后加,运算hk量(n)大=w!(n)w(n+k)
R n ( k ) R n ( k ) m x ( m ) x ( am kk ) [ w hk( (n n -mm )) w ( n m k ) ]
36
3.5.2 修正的短时自相关函数 1、存在的问题 随kk=的0变化,参加运算的项减少。极限k=N-1时无运算k项=!250 2、修正的短时自相关函数
当w1,w2为直角窗时
(0≤k≤K)
^
N1
Rn(k)x(nm )xa(nmk)
m0
37
3.5.3 短时平均幅度差函数
问题的提出:自相关计算量大,大在乘法! 短时平均幅度差函数(AMDF)定义:
F n (k ) R 1 m |x (n m )w 1 (m ) x (n m k )w 2 (m k )|
式中R为x(n)的平均值 w1、w2同修正的自相关函数中的定义 对于浊音信号,在周期倍数点上,幅值相等,Fn=0
a 38
第三章小结
• 采样与反混叠 • 短时分析方法、窗口与长度选择 • 短时能量定义 • 短时过零分析 • 短时相关分析与修正 • 短时平均幅度分析(AMDF)

语音信号处理课件__第03章时域分析

语音信号处理课件__第03章时域分析
SNRdB 6.02B 4.77 20log10 (
x
xmax
)
(3-11)
3.1 语音信号的短时处理方法 脉冲编码调制
若是xmax取为4倍方差(δx)
SNRdB 6.02B 7.27
取样之位数 8 16 24
(3-12)
数字信号的信噪比 41 dB 89 dB 137 dB
3.1 语音信号的短时处理方法 脉冲编码调制
一个数字信号取样之后,变成离散时间信号,接下来就是要用数字 方式来表示这个离散时间信号上的每个取样值。 一个电位波形会有固定的电压范围,一个取样值可以是在此电压范 围内的任何电位。如果只能用固定数目的位来表示这些取样值,那 么这些二进数字就只能代表固定的几个电位值,这个转换就是量化 (quantization),而转换之后只允许存在的几个电位值就是量化阶 数(quantization level)。 执行量化转换的硬件电路,就是量化器(quantizer)。以二进数字 表示的信号就是数字信号(digital signal),而这种将信号波形转 变成二进数字的方法,就叫脉冲编码调制(pulse code modulation, PCM)。
3.1 语音信号的短时处理方法
预处理 平滑滤波器:D/A后面的低通滤波器是平滑滤 波器,对重构的语音波形的高次谐波起平滑 作用,以去除高次谐波失真。 预加重:




现象:由于语音信号的平均功率谱受声门激励和口 鼻辐射的影响,高频端大约在800 Hz以上按6dB/ 倍频程跌落,为此要在预处理中进行预加重。 目的:提升高频部分,使信号的频谱变得平坦,以 便于进行频谱分析或声道参数分析。 位置:预加重可在A/D变换前的反混叠滤波之前进行, 这样不仅能够进行预加重,而且可以压缩信号的动 态范围,有效地提高信噪比。

4第三章 语音信号分析---频域、倒谱、线性预测 语音信号处理 课件

4第三章  语音信号分析---频域、倒谱、线性预测 语音信号处理 课件

D*1[ ] :
X
(e
jw
)
exp[Xˆ
(e
jw
)]
逆特征系统
x(n) IDTFT[ X (e jw )]
33
☆复倒谱的离散傅立叶变换定义
xˆ(n) IDFT [ln DFT (x(n))] IDFT [ Xˆ (k)]
N 1
X (k) DFT(x(n)) x(n)WNnk n0
x(n)
fˆl fˆk fˆl1
如果采样频率为8kHz,在0.1~4kHz范围内需要 安排16个临界带。将每个临界带内中的|Xn(k)|2取 和即可得到相应的临界带特征矢量。记为: G=[g1,g2,….gL]。
18/160
第1临界带
第2临界带
fˆ1 118 .6Hz fˆ2 188 .7Hz
fˆ3 297.2Hz
越逼X n近(e j于w)

但窗长X (Ne j太w) 大,窗选信号不满足语音的短时平稳
特性,
不能正X n确(e反jw映) 短时语音的频谱了。
为此,必须要合理选择窗长N。
4
3.短时功率谱和短时谱的关系
Sn (e
jw )
X n (e
jw )
X
* n
(e
jw )
|
X n (e
jw )
|2
4.短时功率谱和短时自相关函数的关系
D*1[D*[x(n)]] x(n)
(1)Z[x(n)] X (z), (2) ln X (z), (3)Z 1[ln X (z)] (4)Z{Z 1[ln X (z)]} ln X (z), (5) exp{ln X (z)} X (z) (6)Z 1[ X (z)] x(n)

语音信号处理PPT_第三章_语音信号分析

语音信号处理PPT_第三章_语音信号分析

3.2 数字化和预处理
➢ 语音信号的数字化一般包括放大及增益控制、反混叠滤波、
采样、A/D变换及编码(一般就是PCM码);如下图:
语音信号
带通滤 波器
自动增益控制 (AGC)
模/数转换 (A/D)
脉冲编码 调 制 ( PCM )
存入计算机
➢ 预处理一般包括预加重、加窗和分帧等。 ➢ 分析和处理之前必须把要分析的要分析的语音信号部分从输
② R n (是k )偶函数 ,即 Rn(k)Rn(k)
③ 当k=0时,自相关函数有最大值,即 Rn(0)Rn(k)
并且 等R于n (确0 ) 定性信号序列的能量或随机序列的平均功率。
短时相关分析
右图中:N=401, Fs=8kHz a、b是浊音信号,c位清 音信号,由图可以看出浊 音信号的自相关函数具有 一定得周期性,而清音信 号的自相关函数缺乏周期 性。
但是在一个短时间范围内(一般认为在10-30ms的短时间内), 其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳 态过程,即语音信号具有短时平稳性。
不论是分析怎么样的参数以及采用什么分析方法,在按帧进 行语音分析,提取语音参数之前,有一些经常使用的、共同的短 时分析技术必须预先进行,如语音信号的数字化、语音信号的端 点检测、预加重、加窗和分帧等,这些也是不可忽视的语音信号 析的关键技术。
语音信号分析在语音信号处理中具有举足轻重的地位。
分类:
参数性质
时域分析 频域分析 倒谱域分析
分析方法
模型分析方法 非模型分析方法
简单、计算量小、 物理意义明确
感知特性 较好,更 为重要
依据语音信号 产生的数学模 型来分析和提 取表征这些模 型的特征参数
不进行模型化 分析
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

6/17/2020
7
011 010 001
/2 000 111
110 101 100
6/17/2020
8
量化误差(噪声) e(n)=x(n)- xa(nT) -/2 e(n) /2
(1)假设量化噪声是平稳的白噪声过程,有
E[e(n)e(n+m)]=
2 m0 =其0他
(2)假设量化噪声与输入信号不相关,有
预滤波器是一个带通滤波器,一般情况下,上、 下截止频率为: fH=3400Hz, fL=60~100Hz。
6/17/2020
4
2.采样: 将时间连续信号
变成时间离散信号。 采样频率通常为
fs=8kHz。
6/17/2020
xa(t) t
xa(nT) n
5
• Ideal sampling and real sampling
• A/D of some common audio signals
Telephone
Frequency scope
200-3400
Sampling frequency
8 khz
Quantizati on bits
8 bits
Wide band 50-7000
16 khz
16 bits
Broadcasti ng
帧移T 帧长N
6/17/2020
15
1 0 n N 1 w(n) 0 otherwise 矩形窗(rectangular)
w(n)
0.5 0
0.5
cos(2 n ) 0 n N
N 1 otherwise
汉宁窗 hanning
1
w(n)
0.54
0.46
co s (2
n) N 1
0
E[e(n)x(n+m)]=0 m为任意值
(3)在每个量化间隔上,量化噪声均匀分布,有
Pe(e(n))=
1 |e(n)| /2
0 其他
6/17/2020
9
量化信噪比
量化噪声的信噪比:SNR=x2/e2 x2语音信号序列的方差, e2噪声序列的方差, 用
分贝表示,SNR=10log(x2/e2) SNR = signal’s energy / noise’s energy
6/17/2020
21
Long window: frequency resolution time resolution
Short window: frequency resolution time resolution
基音频率为200Hz,采样频率为8kHz, 窗长: 8000{(1/200)7}=256
6/17/2020
10
SNR=6.02B+4.77-20log(Xmax/x)=6.02B- 7.27
Xmax表示其峰值 B为量化的比特数 当语音信号的幅度服从拉普拉斯分布时,Xmax=B=8,SNR=40dB,满足一般通信系统的要求。当 量化噪声的信噪比达到 60-70dB,才能保障有高 水平通话质量,这时要求量化为 11-13bits。一 6般/17/2的020 音频A/D、D/A转换芯片,量化为12bits。 11
x(n)
H(z)=1-z-1 x'(n)
6/17/2020
14
2. 加窗分帧处理:
加矩形窗
第n帧 第n+1帧 第n+2帧 第n+3帧 第n+4帧
加汉宁窗 hanning
第n帧 第n+1帧 第n+2帧
t
各帧之间有0~1/2的重叠, 由窗函数的定义决定的。
w(n)=0.5*[1-cos(2n/(N-1))]
CD
20-15khz 20-20khz
37.8 khz 44.1 khz
16 bits 16 bits
二、预处理
1.存储方式:
已量化好的语音信号序列按 先入先出的顺序存入数据区。 以便一个有限容量的数据区来 应付数量极大的语音数据。
6/17/2020
13
2.预加重:
在求语音信号频谱时,频率越高,相应的成 分越小。预加重的目的是提升高频部分,使信号 的频谱变得平坦。以便于频谱分析和声道参数分 析。 一般在语音信号数字化后,通过一个一阶 数字滤波器:H(z)=1-z-1, 接近1。
第三章 语音信号分析
§3.2 §3.3 §3.4 §3.5 §3.6
语音信号的数字化和预处理 语音信号的时域分析 语音信号的频域分析 语音信号的倒谱分析 语音信号的线性预测分析
6/17/2020
1
一、预滤波、采样和A/D转换
1.预滤波的作用:抑制输入信号中频率超出fs/2的 所有分量,防止混叠;抑制50Hz的电源工频干扰。
6/17/2020
20
由于在 10-30ms,语音信号近似平稳。每秒的 帧数约为:33~100帧。
窗口的长度N:频率分辨率f=fs/N。f随N的增加 而减少,频率分辨率得到提高,但时间分辨率降低(与 窗长成反比)。应根据不同的应用场合来选择窗口的长 度N,应包含7个基音周期,因此可选择100~300点 为宜。
加矩形窗(帧移长度为N) x0(m)
第1帧
x1(m) 第2帧
0
N-1 N
2N-1
帧重叠 T=0
加汉宁窗(帧移长度为N/2)
第1帧
0 x0(m)
N-1
第2帧
帧重叠T= N/2
N/2
x1(m) N+(N/2)1
6/17/2020
19
512点的汉宁窗 当采用汉宁窗 ,原有数据的幅度发生变化, 为了保持数据的原始幅度,必须采取各帧数据之 间有1/2的重叠。
6/17/2020
22
Windowing (frame)
– In short-term, non-stationary->stationary – Non-linear->linear (10ms-25ms)
海明窗 hamming
0 n N 1 otherwise
6/17/2020
16
Window shapes
xn(m)w(m)x(nm) 0mN1 N为帧长
1 w(m)0
0mN1 n0,1T,2T,...T.为, 帧
others

长度
x0(m)
0
N-1
x1(m)
T
T+N-1
6/17/2020
18
6/17/2020
6
3. A/D转换
对离散时间信号进行量化,在每一时刻对xa(nT) 独立进行量化,把给定的幅度连续的信号变成为有限 多个幅度的集合中某个幅度值的过程。
xa(t)
采样 xa(nT) 量化
x(n) x(n)=Q[xa(nT)]
x1
xk
xk+1
xL
xa1
xak
xak+1
xaL
xaL+1
相关文档
最新文档