语音信号处理第3章
语音信号处理(很好很全)

摘要语音是人类获取信息的重要来源和利用信息的重要手段。
语音信号处理是一门发展十分迅速、应用非常广泛的前沿交叉学科,同时又是一门跨学科的综合性应用研究领域和新兴技术。
现代语音信号系统包括语音信号采集单元和语音信号处理单元,本论文确定了相应的处理芯片:TMS320C5402DSP和TLCAD50C芯片。
但语音信号处理有两个需要解决的问题,语音信号的时变性,和直接进行傅里叶变换其运算量相当大。
其解决措施是加窗函数和运用快速傅里叶变换(即FFT)。
本论文关于这部分的软件设计是在Code Composer Studio(简称CCS)环境下进行的。
本论文的结构是先介绍语音信号处理单元和语音信号采集单元,然后简单介绍语音信号处理系统的硬件电路,最后在CCS环境下进行语音信号的频谱分析。
关键词:语音信号,时变性,窗函数,FFT,DSP,CCSABSTRACTThe speech is the importance source and way of obtain information and make use of the information .The speech signal processing is a development very quick, application very extensive of front follow to cross an academics, in the meantime again is a door across an academics of comprehensive sex application study realm and newly arisen technique.The speech signal system include speech signal to collect unit and the processing unit of the speech signal, this thesis assurance correspond of processing chip:DSP and the TLCAD50 C chip of the TMS320 C5402.But speech signal processing have two problem that need to be solve, because of it hour change sex can't carry on leaf's transformation in the Fu, with direct carry on leaf's transformation in the Fu it operation quantity equal big.Its solving measure is to add window function and usage fast leaf's transformation in the Fu.(namely FFT)The software design carry on under the Studio(brief name CCS) environment of the Code Composer, the CCS is a TI company for the TMS320 series DSP software development release of integration development environment.The structure of this thesis is unit and speech signal of the signal processing of the introduction speech to collect unit first, then simple introduction speech signal processing system of hardware electric circuit, end carry on the frequency chart of speech signal analysis under the CCS environment.Keywords:The speech signal, hour change sex, window function, FFT, DSP, CCS目录1.绪论 ........................................................................................ 错误!未定义书签。
语音信号处理课件第三章

7
8
数字语音处理及MATLAB仿真 张雪英编著(李红莲修改并主讲)
3.1 概述
语音信号是一种非平稳的时变信号,它携带 着各种信息。在语音编码、语音合成、语音识别 和语音增强等语音处理中都需要提取语音中包含 的各种信息。 语音处理的目的:对语音信号进行分析,提 取特征参数,用于后续处理;加工语音信号。
x(n)
| |
.
|x ( n )| w(n) Mn
图 3.9
短时平均幅度
Mn与En的比较:
1. Mn能较好地反映清音范围内的幅度变化; 2. Mn所能反映幅度变化的动态范围比En好; 3. Mn反映清音和浊音之间的电平差次于En。
28
数字语音处理及MATLAB仿真
Qn
对应于自相关函数 ;
20
数字语音处理及MATLAB仿真 张雪英编著(李红莲修改并主讲)
3.3 短时平均能量
1.短时平均能量定义
定义n时刻某语音信号的短时平均能量En为:
En
[ x ( m ) w( n m )] m
2
N 1[)x ( m ) w( n m )] m n (
(定义式)
32
数字语音处理及MATLAB仿真 张雪英编著(李红莲修改并主讲)
2. 实现短时平均过零率
x(n) Sgn[ . ]
+1
1
-1
Sgn[x(n) ]
一阶差分 sgn[xn] -sgn[xn-1]
取绝对 值
│.│
低通滤波 h(n)=w(n)
Nn
图 3.11 语音信号的短时平均跨零数
33
数字语音处理及MATLAB仿真 张雪英编著(李红莲修改并主讲)
第三章-语音信号的特征分析讲解讲解学习

Magnitude (dB)
40 20
0 -20 -40 -60 -80 -100
0 50
Frequency domain
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0
-50
-100
-150 0
40 30 20 10
0 -10 -20
1 0.8 0.6 0.4 0.2
0 0
rectangular hamming hanning bartlett
50
100
150
200
250
❖ 几种不同的窗函数波形与频谱的比较
1
Hamming 0.8 哈明窗 0.6
Amplitude
0.4
0.2
0
1
Hanning 0.8
汉宁窗
0.6
Amplitude
0.4
0.2
0
1
矩形窗
0.8
Amplitude
0.6
0.4
0.2
0
Time domain
10
20 Tim3e0domain40
50
60
Samples
10
20 Tim3e0domain40
50
60
Samples
10
20
30
40
50
பைடு நூலகம்
60
Samples
Magnitude (dB)
Magnitude (dB)
帧和加窗的概念
❖ 短时分析将语音流分为一段一段来处理,每一段称 为一“帧”;
语音信号处理第3章-语音信号分析

0.54 0.46cos[2n /( N 1)], 0 n ( N 1) (n) 0, n else
信息科学与工程学院 东南大学
预处理
窗函数的形状和长度对短时参数特征影响 很大 1.窗口形状
时域:要减小时间窗两端的坡度,使窗口边缘 两端不引起急剧变化而平滑过渡到零,这样可 以使截取出的语音波形缓慢降为零,减小语音 帧的截断效应; 频域:要有较窄的3dB带宽以及较大的旁瓣衰 减(较小的边带最大值)。这里只以典型的矩形 窗和汉明窗为例进行比较。
0
20
40
60
80
100
120
140
160
0.1 0.05 0 -0.05 -0.1
0
20
40
60
80 k = -21
100
120
140
160
信息科学与工程学院
东南大学
0.1 0.05 0 -0.05 -0.1
0
20
40
60
80
100
120
140
160
0.1 0.05 0 -0.05 -0.1
0
20
信息科学与工程学院 东南大学
矩形窗与汉明窗的比较
窗类型
矩形窗 汉明窗
旁瓣峰值
-13 -41
主瓣宽度
4π/N 8π/N
最小阻带衰减
-21 -53
汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增 加一倍,同时其带外衰减也比矩形窗大一倍多, 汉明窗比矩形窗更为合适。因此,对语音信号的 短时分析来说,窗口的形状是至关重要的。
信息科学与工程学院 东南大学
数字化和预处理
经过数字化和预处理过程,语音信号就已 经被分割成一帧一帧的加过窗函数的短时 平稳信号 对每一个短时语音帧,利用数字信号处理 技术来提取语音特征参数。
《语音信号处理》讲稿省公开课金奖全国赛课一等奖微课获奖课件

本章主要讨论问题:
1.语音过程早期研究 2.语音发送过程声学模型 3.语音发送过程数字模型 4.语音发送过程电模型 5.语音接收过程电模型
1/21
1.语音过程早期研究 讨论三方面问题: (1)人类发音器官 (2)双亥姆霍兹谐振器发声模型 (3)电发声系统(EVT)电模型
2/21
21/21
②用四端网络模型(电模型),能够比较 准确地计算在声道中语音发送过程,但这种方 法,因不能直接确定共振峰在频段中位置,所 以不太直观。
20/21
5.语音接收过程电模型
语音接收过程是人类对输入语音信号译码 过程。普通认为, 语音信号经过人外耳、中耳、 内耳后, 被传送到第8脑神经。然而, 至今为 止, 人们对语音信号在大脑中译码过程仍了解 甚少。
无损声管模型方块图表示及其终端模拟 数字模型。
12/21
ቤተ መጻሕፍቲ ባይዱ 声道数字模型
13/21
3.语音发送过程数字模型
(3)唇辐射数字模型 声道终端为嘴唇。唇端输出为压力。包含
唇辐射效应终端数字模型。
14/21
包含唇辐射效应终端数字模型
15/21
3.语音发送过程数字模型
总而言之, 依据声带、声道和唇辐射数字 模型, 能够建立语音发送过程完整数字模型。
求以上方程组完全解很复杂。所以, 常采取近似和简化方法, 得到语音发送 过程简化声学模型。
①语音发送过程均匀无损声管模型
6/21
五节无损声管级联声道模型
7/21
2.语音发送过程声学模型
③鼻腔声管模型 有些语音发送用到鼻腔, 如鼻 腔辅音、鼻化元音等。
8/21
3.语音发送过程数字模型
语音发送过程数字模型(或称“语音 信号产生离散时域模型”), 建立在语音发 送过程声学模型基础上, 有利于语音合成及 语音识别技术实用化。分以下三步逐步建立。
语音信号处理PPT课件

F2 F3
a 10
频率范围(Hz)
成年男子
成年女子
带宽
F1
200~800
250~1000
40~70
F2
600~2800
700~3300
50~90
F3
1300~3400
1500~4000
60~180
一般地:语音识别,取前3个共振峰,而对 语音合成,需取5个
a
11
2.3 语音信号的特性
2.3.1 语言和语音的基本特性
[x(n)x(n-k)]*h (n) 计算自m 相 关 ,先乘后加,运算hk量(n)大=w!(n)w(n+k)
R n ( k ) R n ( k ) m x ( m ) x ( am kk ) [ w hk( (n n -mm )) w ( n m k ) ]
36
3.5.2 修正的短时自相关函数 1、存在的问题 随kk=的0变化,参加运算的项减少。极限k=N-1时无运算k项=!250 2、修正的短时自相关函数
当w1,w2为直角窗时
(0≤k≤K)
^
N1
Rn(k)x(nm )xa(nmk)
m0
37
3.5.3 短时平均幅度差函数
问题的提出:自相关计算量大,大在乘法! 短时平均幅度差函数(AMDF)定义:
F n (k ) R 1 m |x (n m )w 1 (m ) x (n m k )w 2 (m k )|
式中R为x(n)的平均值 w1、w2同修正的自相关函数中的定义 对于浊音信号,在周期倍数点上,幅值相等,Fn=0
a 38
第三章小结
• 采样与反混叠 • 短时分析方法、窗口与长度选择 • 短时能量定义 • 短时过零分析 • 短时相关分析与修正 • 短时平均幅度分析(AMDF)
语音信号处理(杨震)

清音:Rn(0)较大,衰减很快
静默:Rn(0)小,衰减很快
语音信号短时自相关函数
3
1.00 0.75 0.50 0.25 0.00 -0.25 -0.50
0 50 100 150 200 250
2
1
度 幅
-1
-2
-3
-4
度 幅
0
-0.75 0 50 100 150 20
H1
A2 随机噪声 激励模型
H2 混 合 语 辐射模型 音
Gv
A3
H3
A4 A5
H4 H5
混合型共振峰模型
第二章 语音信号的产生、特征与人耳的 听觉特性
§2.4 人耳的听觉特征-掩蔽效应与临界频带
人耳的掩蔽(masking)作用指的是耳朵对一个 声音的听觉感受,受到另一个声音影响的现象。 Fletcher和Munson 1937年发现,一个音调(tone) 可被一个以音调频率为中心频率的宽带噪声掩盖而 听不见,并且,如果该宽带噪声能量不变而改变其 带宽的话,这种掩盖现象不受噪声带宽变化的影响, 除非噪声带宽超过一个临界值,这个临界值即称为 临界频带(critical band)。换言之,人耳对一个 临界频带里的音不易分清。
60 50
强度SPL(dB)
40
30
20
后向屏蔽区
10
前向屏蔽区
0 -100
-50
0
50
100
150
200
时间(ms)
非同时掩蔽(时间掩蔽):纯音的非同时掩蔽现象
第二章 语音信号的产生、特征与人耳的 听觉特性
§2.5 人耳的其它各种听觉效应
(1)哈斯(Hass)效应(延时掩蔽) (2)双耳效应(灵敏度、定位)
语音信号处理 第3版——第3讲

并输出总失真 D ( m ) 为了避免迭代算法无限制循环下去,这里设置了两个 阈值参数:最大迭代次数L和失真控制门限 。 的值 设得远小于1,当 ( m ) 时,表明再进行迭代运算失
真得减小是有限的、可以停止运算。L是限制迭代次数的 参数,防止 设置较低时迭代次数过多
然后对此矢量一次进行量化。
凡是要用量化的地方都可以采用矢量量化。
矢量量化是实现数据压缩的一种有效方法,早在50和60年代 就被用于语音压缩编码。直到70年代线性预测技术被引入语 音编码后,矢量量化技术才活跃起来。80年代初,矢量量化 技术的理论和应用研究得到迅速发展。
采用矢量量化技术对信号波形或参数进行压缩处理,可以获 得很好的效益,使存储要求、传输比特率需求或和计算量需
标量量化是对信号的单个样本或参数的幅度进行量化;标 量是指被量化的变量,为一维变量。 矢量量化的过程是将语音信号波形的K个样点的每一帧, 或有K个参数的每一参数帧构成K维空间的一个矢量,然后 对这个矢量进行量化。 标量量化可以说是K=1的矢量量化。矢量量化过程和标量 量化过程相似。将K维无限空间划分为M个区域边界,然后 将输入矢量与这些边界进行比较,并被量化为“距离”最 小的区域边界的中心矢量值。
① 对比似然比失真测度
2 T a Ra p d LLR ( f , f ) ln 2 ln T p a Ra
② 模型失真测度
T a Ra d m ( f , f ) 2 1 T 1 p a Ra 2 p
注:这两种失真测度都仅仅比较两矢量的功率谱,而没有 考虑其他能量信息。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0.54 0.46cos[2n /( N 1)], 0 n ( N 1) (n) 0, n else
预处理
1.窗口的形状 好的窗函数的标准是:在时域因为是语音波形乘以 窗函数,所以要减小时间窗两端的坡度,使窗口边 缘两端不引起急剧变化而平滑过渡到零,这样可以 使截取出的语音波形缓慢降为零,减小语音帧的截 断效应;在频域要有较宽的3dB带宽以及较小的边 带最大值。这里只以典型的矩形窗和汉明窗为例进 行比较,其他窗口可参阅FIR数字滤波器或谱分析 的有关书籍。
预滤波、采样、A/D变换
若用σx2表示输入语音信号的方差,2Xmax表示信号的 峰值,B表示量化字长, σe2表示噪声序列的方差,可 以证明量化信噪比SNR(信号与量化噪声的功率比) 为: 2
x X max SNR(dB) 10lg 2 6.02B 4.77 20lg e x
矩形窗与汉明窗的比较
窗类型矩形窗 汉明窗旁峰值-13 -41主瓣宽度
4π/N 8π/N
最小阻带衰减
-21 -53
汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一倍,同时 其带外衰减也比矩形窗大一倍多。 矩形窗的谱平滑性能较好,但损失了高频成分,使波形细节丢 失;而汉明窗则相反, 从这一方面来看,汉明窗比矩形窗更为合适。因此,对语音信 号的短时分析来说,窗口的形状是至关重要的。例如,选用不 同的窗口将使时域分析参数的短时平均能量的平均结果不同。
2.修正的短时自相关函数 修正的短时自相关函数是用两个长度不同的窗口,截取两个 不等长的序列进行乘积和,两个窗口的长度相差最大的延迟 点数K。这样就能始终保持乘积和的项数不变,即始终为短 窗的长度。修正的短时自相关函数定义为:
Rn (k ) xn (m) x'n (m k ),0 k K
1 N 1 Z n sgn[ xn (m)] sgn[ xn (m 1)] 2 m 0
式中,sgn[]是符号函数,即
1, ( x 0) sgn[ x] 1, ( x 0)
过零示意图
短时过零率分析 – 应用
利用短时平均过零率还可以从背景噪声中找出语音信号,可 用于判断寂静无声段和有声段的起点和终点位臵。在孤立词 的语音识别中,必须要在一连串连续的语音信号中进行适当 分割,用以确定一个一个单词的语音信号,即找出每一个单 词的开始和终止位臵,这在语音处理中是一个基本问题。此 时,在背景噪声较小时用平均能量识别较为有效,而在背景 噪声较大时用平均过零率识别较为有效。但是研究表明,在 以某些音为开始或结尾时,如当弱摩擦音(如[f]、[h]等音 素)、弱爆破音(如[p]、[t]、[k]等音素)为语音的开头或结 尾;以鼻音(如[ng]、[n]、[m]等音素)为语音的结尾时,只 用其中一个参量来判别语音的起点和终点是有困难的,必须 同时使用这两个参数。
假设语音信号的幅度符合Laplacian分布,此时信号 幅度超过4σx的概率很小,只有0.35%,因而可取 Xmax=4σx,则 SNR(dB) 6.02B 7.2 上式表明量化器中的每bit字长对SNR的贡献为6dB。
预处理
已数字化的语音信号序列将依次存入一个数据区,在语 音信号处理中一般用循环队列的方式来存储这些数据, 以便用一个有限容量的数据区来应付数量极大的语音数 据,已处理完提取出了语音特征参数的一个时间段的语 音数据可以依次抛弃,让出存储空间来存储新数据。
语音信号被分割成一帧一帧的加过窗函数的短时信 号,然后再把每一个短时语音帧看成平稳的随机信 号,->提取语音特征参数。最后得到由每一帧参数 组成的语音特征参数的时间序列。
3 语音信号的时域分析
时域分析就是分析和提取语音信号的时域参数。 进行语音分析时,最先接触到并且也是最直观的是它 的时域波形。语音信号本身就是时域信号,因而时域 分析是最早使用,也是应用最广泛的一种分析方法, 这种方法直接利用语音信号的时域波形。时域分析通 常用于最基本的参数分析及应用,如语音的分割、预 处理、大分类等。
预处理
2.窗口的长度 采样周期Ts=1/fs,窗口长度N和频率分辨率Δf 之间存在下列关系: Δf=1/NTs
可见,采样周期一定时,Δf随窗口宽度N的增加而 减小,即频率分辨率相应得到提高,但同时时间分 辨率降低;如果窗口取短,频率分辨率下降,而时 间分辨率提高,因而二者是矛盾的。应该根据不同 的需要选择合适的窗口长度。
En x (m)
m 0 2 n
N 1
短时能量及短时平均幅度分析
短时平均幅度分析
En是一个度量语音信号幅度值变化的函数,但它有一个缺陷, 即它对高电平非常敏感(因为它计算时用的是信号的平方)。 为此,可采用另一个度量语音信号幅度值变化的函数,即短 时平均幅度函数Mn,它定义为:
M n xn ( m )
预处理
有时窗口长度的选择,更重要的是要考虑语音信号 的基音周期。在一个语音帧内应包含1~7个基音周 期。不同人的基音周期变化很大,从女性和儿童的 2ms到老年男子的14ms(即基音频率的变化范围为 500~70Hz),所以N的选择比较困难。通常在10kHz 取样频率下,N折中选择为100~200点为宜(即10~ 20ms持续时间)。
语音信号从整体来看其特征及表征其本质特征的参数均 是随时间而变化的,所以它是一个非平衡态过程,不能用处 理平衡信号的数字信号处理技术对其进行分析处理。 但是在一个短时间范围内(一般认为在10-30ms的短时 间内),其特性基本保持不变即相对稳定,因而可以将其看 作是一个准稳态过程,即语音信号具有短时平稳性。
2 语音信号的数字化和预处理
•
语音信号的数字化一般包括放大、增益控制、反混 叠滤波、采样、A/D变换及编码(一般是PCM码);
语音信号
带通滤 波器
自动增益控 制(AGC)
模 / 数转换 (A/D)
脉冲编码 调制(PCM)
存入计算机
预处理一般包括预加重、加窗和分帧等。
预滤波、采样、A/D变换
预滤波的目的有两个:
加窗 如图3-2所示,设语音波形时域信号为x(t)、加窗分帧处理 后得到的第n帧语音信号为xn(m),则xn(m)满足下式:
xn(m)=ω(m)x(n+m)
1, m 0 ~ ( N 1) (m) 0, m 其它值
短时能量 设第n帧语音信号xn(m)的短时能量用En表示,则其计 算公式如下:
m 0
N 1
其中,
xn (m) (m) x(n m), (0 k K ) 1, m 0 ~ ( N 1) (m) 0, m 其它值 x'n (m) ' (m) x(n m), (0 k N 1 K )
1, m 0 ~ ( N 1 K ) ' (m) m 其它值 0,
m 0
N 1
Mn也是一帧语音信号能量大小的表征,它与En的区别在于计 算时小取样值和大取样值不会因取平方而造成较大差异,在 某些应用领域中会带来一些好处。
短时过零率分析
短时过零率表示一帧语音中语音信号波形穿过横轴(零电平) 的次数。过零分析是语音时域分析中最简单的一种。对于连 续语音信号,过零即意味着时域波形通过时间轴;而对于离 散信号,如果相邻的取样值改变符号则称为过零。过零率就 是样本改变符号的次数。 定义语音信号xn(m)的短时过零率Zn为:
经过预滤波和采样后,由A/D变换器变换为二进制数字码。
A/D变换:量化不可避免地会产生误差。量化后的信号值与 原信号值之间的差值称为量化误差,又称为量化噪声。
若量化间隔Δ足够小,可以证明量化噪声符合具有下列特征 的统计模型: ①它是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化噪声在量化间隔内均匀分布,即具有等概率密度分 布
预处理
预处理
分帧是用可移动的有限长度窗口进行加权的方法来实现的, 这就是用一定的窗函数ω(n)来乘s(n),从而形成加窗语音 信号sω(n)=s(n)* ω(n)。 在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等, 它们的表达式如下(其中N为帧长): 矩形窗: 1, 0 n ( N 1) (n) n else 0, 汉明窗:
这种分析方法的特点是:①表示语音信号比较直观、 物理意义明确。②实现起来比较简单、运算量少。③ 可以得到语音的一些重要的参数。④只使用示波器等 通用设备,使用较为简单等。
语音信号的时域基本参数
短时能量及短时平均幅度 短时过零率
语音信号起始点
短时相关性 短时平均幅度差函数
短时能量及短时平均幅度分析
由于语音信号的平均功率谱受声门激励和口鼻辐射影响, 要在预处理中进行预加重(Preemphasis)处理。预加 重的目的是提升高频部分,使信号的频谱变得平坦,保 持在低频到高频的整个频带中,能用同样的信噪比求频 谱,以便于频谱分析或声道参数分析。
预处理
进行过预加重数字滤波处理后,接下来就要进行加 窗分帧处理。一般每秒的帧数约为33-100帧,视实 际情况而定。分帧虽然可以采用连续分段的方法, 但一般要采用如图3-1所示的交叠分段的方法,这 是为了使帧与帧之间平滑过渡,保持其连续性。前 一帧和后一帧的交叠部分称为帧移。帧移与帧长的 比值一般取为0-1/2。
1.短时自相关函数 定义语音信号xn(m)的短时自相关函数Rn(k)的计算式如下:
Rn (k )
N 1 k m 0
x (m) x (m k ),0 k K
n n
这里K是最大的延迟点数。
短时自相关函数具有以下性质: (1)如果xn(m)是周期的(设周期为N),则自相关函数是同周 期的周期函数,即Rn(k)=Rn(k+Np)。 (2)Rn(k)是偶函数,即Rn(k)=Rn(-k)。 (3)当k=0时,自相关函数具有最大值,即Rn(0)≥|Rn(k)|, 并且Rn(0)等于确定性信号序列的能量或随机性序列的平均 功率。