第二章 语音信号分析

合集下载

语音信号处理PPT_第二章 语音信号处理基础知识

语音信号处理PPT_第二章 语音信号处理基础知识
• • •
把从肺部呼出的直流气流变为音源,即变为交流的断续 流或乱流; 喉对音源起共振和反共振的作用,使它带有音色; 从嘴唇或鼻孔去空间辐射的作用;
肺把气流送入喉;喉将来自肺的气流调制为周期性脉冲或类 似随机噪声的激励声源,并送入声道;声道对频谱进行润色 后在嘴唇处的气压变化形成可以传播的声波。 肺相当于动力源,喉相当于调制器,声道相当于滤波器和扩 音器。
3.
韵母
38个韵母:8个单韵母,14个复韵母,16个鼻韵母。 单韵母是由单元音构成的,如:a、o、e、i、u、u。 复韵母是由复合元音构成的韵母,如:ai、ei、ao、ou等。 鼻韵母是由鼻辅音“n”或“ng”收尾的韵母,如:an、en、 uan、ang、eng、iang等。 韵母发音时声带是振动的,音强也较大,波形上可以看到大 的振幅,而且呈现周期性。 注意:元音不等同于韵母,元音、辅音是按音素的发音特征 来分的;而声母、韵母则是按音节结构来分的。

2.5.2 语音信号的语谱图
声纹:语谱图上其不同的黑白程度, 形成的不同的纹路。不同的人有不同的 声纹,利用声纹进行说话人识别。 横杆:与时间轴平行的几条深黑色 条纹,对应共振峰。语谱图中有无横杆 是判断是否是浊音的标志。 竖直条:与时间轴垂直的窄黑条, 每个竖直条相当于一个基音,条纹间隔 表示基音周期。 元音在语谱图上对应横杆(共振峰的存在) 噪声和清擦音表现为乱纹。
2.1 语音和语言 一、语音的定义
语音是由一连串的音组成语言的声音。
语言
语音
声音
对语言的研究分为两方面: 语言学:各个音的排列规则及其含义的研究。 语音学:各个音的物理特性和分类的研究。考虑的是语 音的产生、感知等过程。三个主要的分支:发音语音学、 声学语音学、听觉语音学。

第02讲 语音信号的数字化和预处理+时域分析

第02讲  语音信号的数字化和预处理+时域分析
– 在时域,因为是语音波形乘以窗函数,所以要减小时间 窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑 过渡到零,这样可以使截取出的语音波形缓慢降为零, 减小语音帧的截断效应; – 在频域,要有较宽的3dB带宽以及较小的边带最大值。
频谱泄露 较严重
矩形窗与汉明窗的比较
频谱分辨率高
窗类型
矩形窗
旁瓣峰值

• 假设语音信号的幅度符合Laplacian分布,此时信号幅度超过 4σx的概率很小,只有0.35%,因而可取Xmax=4σx,则 • 上式表明量化器中的每bit字长对SNR的贡献为6dB。
SNR(dB) 6.02 B 7.2
对重构的语音波形的高次谐波起平滑作用,去掉高次谐波失真。
• 汉明窗: (n) 0.54 0.46 cos[2n /( N 1)], 0 n ( N 1) 0, n else
矩 形 窗 2 1.8 1.6 1.4 1.2 1 0.9 0.8 0.7 0.6
hanming窗
w(n)
1 0.8 0.6 0.4 0.2 0
如下:
En x ( m)
m 0 2 n
N 1
• En是一个度量语音信号幅度值变化的函数,但它有一个缺陷, 即它对高电平非常敏感(因为它计算时用的是信号的平方)。
• 为此,可采用另一个度量语音信号幅度值变化的函数,即短
时平均幅度函数Mn,它定义为:
M n xn ( m)
m 0
N 1
0.7
0.8
0.9
1
0
幅度 /dB
-50
-100
0
0.1
0.2
0.3
0.4 0.5 0.6 归 一 化 频 率 (f/fs)

第2章语音信号的线性预测分析

第2章语音信号的线性预测分析

残差信号
s } n }
图2 - 1线性预测合成滤波器
、 ( : ) 一 卜 1 a , z -
( 2 . 1 )
第z 章 语音信号的线性预测分析
第2 章 语音信号的线性预测分析
和波形内插编码器一样,大多数低速率的语音编码算法都基于线性预测分 析。语音信号模型是一个线性合成模型,语音信号的每个取样值能够用过去若 千个取样值的线性组合 ( 预测值) 来逼近。
本章主 要介绍了 线性预测分 析( L P A -L i n e a r P r e d i c t i v e A n a l y s i s ) 滤波器,因为 用来合成 语音, 通常被称为 线性预测 合
成 滤 波 器 , 其 系 数 扣 I L 1 , 2 , , 即 为 L P 系 数 . 如 果 阶 数 P 足 够 大 , 线 性 预 测 合 成
l J

‘ 乃
L P 系数的求解方法及其线谱频率参数表示,最后讨论了带宽扩展的概念。
线性预测分析的基本原理
语音信号的产生过程可以 看成是声门 激励信号激励声道模型的过程, 该过程
在线性预测分析中可以 等效为线性预测残差信号激励时变线性滤波器的过程,
如图2 - 1 所示,

语音信号处理第2章-语音信号基础

语音信号处理第2章-语音信号基础

信息科学与工程学院
东南大学
2.2 语音和语言
语音研究分为两类:
语言学:包括构成语言的语素、词、短语和句 子等的不同层次的单位,以及词法、句法、文 脉等语法和语义内容等。语言学是语音信号处 理的基础。 语音学:考虑的是语音产生、语音感知等的过 程以及语音中各个音的特征和分类等问题。语 音学发展成为三个主要分支:发音语音学、声 学语音学、听觉语音学。
信息科学与工程学院 东南大学
2.4 语音生成系统和语音感知系统
同时掩蔽
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
短时掩蔽
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
语音信号是非平稳随机过程 短时分析:短段时间内表示语音信号时, 采用线性时不变模型。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语音节的一般结构
汉语的每个汉字是一个音节,音节一般由声母 、韵母和声调三部分组成。 更为细致的将一个音节划分为9个部分,其中1 ~4段属于声母(辅音),6~9段属于韵母( 元音)。第5段是二者的过渡段。 第7段(主要元音段)是每个音节是具有的。 汉语中一般有五个声调,即阴平、阳平、上声 、去声以及轻声。
0.4
-0.2 -0.3
20 40 60 80 100 120 140 160
0
20
40
60
80
100
120
140
160
0.3
50
50
0
0
0.2
-50
-50
-100
0
0.5
1
1.5
2
2.5

第二章语音信号的产生模型

第二章语音信号的产生模型
第二章 语音信号的产生模型
一. 语音产生的过程 二. 语音信号的特性 三. 语音信号产生的数字模型 四. 语音感知
1
一、 语音产生的过程
声音是一种波,能被人耳听到,它的振 动频率在20~20 000 Hz之间。
语音是声音的一种
由人的发音器官发出的, 具有一定语法和意义的声音
振动频率最高可达15 000 Hz左右
音强:声音的强弱,由声波的振幅所决定。
音长:声音的长短,取决于发音时间的长短。
16
1、语音的基本特性
(2). 语音的构成—音节(syllable) 、音素(phoneme)
音素:是语音的最小、 最基本的组成单位。 音节:说话时一次发出的,具有一个响亮的中心,听的
大脑对发音器官发出运动神经指令,发音器官 各种肌肉运动,振动空气而形成语音波。
神经和肌肉的生理学阶段+产生和传递语音波的物理阶段
2
1、人体的发音器官
肺、气管、喉(包括声带) 、咽、鼻、口等 (P7 图2-1) 肺和气管是语音产生的能源所在; 声门 (喉): 主要的声音生成机构,喉部的声带为产生
语音提供主要的激励源; 声道 (喉以上的部分, 声门至嘴唇的所有器官:咽、鼻
腔 、口腔等) : 对生成的语音进行调制。 它们具有非均匀截面,且随时间变化,起共鸣器(或 谐振器)的作用。
3
2、语音产生过程
声压波

声带
声道
嘴唇
声音
能源
激励源
谐振源
辐射源
语音的形成过程—空气由肺部排入喉部,经过声带进 入声道,最后由嘴辐射出声波,形成语音。
声道对于一个激励信号的响应,可用一个含有多对极点的线 性系统来近似描述。每对极点都对应一个共振峰频率。

语音信号处理_2_基础知识

语音信号处理_2_基础知识

声调
声调(5个)
孤立音节中有四个声调,调型称之为阴平、 阳平、上声、去声,简称1、2、3、4声 连续语音中由音节弱化、致使原有调型丢失, 形成轻声 上声连读变调:上声变阳平 主要由韵母音段的音高所负载
第二章 语音信号的声学基础 及产生模型
语音学 语音产生过程 语音信号的特性分析 语音感知 语音产生数学模型
语音感知
听觉器官(声学特征)
音质、音强、音高、音长
感知效应
感知效应
听阈 主观响度 主观音高 言语的选择性感知
感知效应
听阈
频率范围20~20kHz 声强0~120dB(0dB eq. 20uPa)
主观响度 主观音高 言语的选择性感知
主观响度
响度级(Loudness Level), Phon数值上等 于1kHz纯音的声强级 响度(Loudness), 1Sone等于1kHz纯音t听 阈之上40dB的响度 P=33.33lgS+40 3~5kHz频段最为灵敏
频域特征-samples
0.865 8 0
- 0.670 8 0 T im e (s ) 1.54 821
40
20
20
0
0 0 F re q u e n c y ( H z ) 11 025
-2 0 0 F r e q u e n cy ( H z ) 110 25
40
40 20
20 0
0 0 F re q u e n c y ( H z ) 11 025 0 F r e q u e n cy ( H z ) 110 25
- 0 .670 8
0 T im e (s )
0 .3 0 1 3 1 3
0 .766 3
0

语音信号处理-第02章 语音信号的产生、特征与人耳的听觉特性

语音信号处理Speech Signal Processing长春工业大学图像工程研究所 史东承教授dcshi@ 2010.8第二章 语音信号的产生、特征 与人耳的听觉特性§2.1 语音信号的产生鼻腔 软腭 口腔 鼻子嘴巴气管 声带人类发音器官示意图发音器官:产生语音的器官1)肺和气管:能源与能量传输; 2)咽喉:振动源,包括声带和声门; 3)声道(声门到嘴唇的呼气通道):谐振腔 (包括口腔、鼻腔等); 4)其他发音器官:包括嘴唇、齿、舌、面颊 等,使谐振腔改变形状。

1发音机理• 喉位于气管的上端,实际 上是气管末端一圈软骨构 成的一个框架,前方稍高 处的软骨称为甲状软骨, 前后方环成一圈的称为喉 部环形软骨,喉中两片肌 肉称为声带,声带之间的 空隙为声门。

• 当声带张开时,声门打 开,空气可自由呼出,正 常呼吸就处于这种情况; 当声带闭合,声门关闭。

当说话时,声带在软骨的作用下相互靠 近但不完全闭合,声门变成一条窄缝,当气 流通过窄缝时压力减小,外界压力大,从而 两片声带完全闭合使得气流不能通过,当气 声带靠拢 流阻断时压力恢复正常,推开两片声带,声 门再次打开,气流再次流过。

声带的开启和闭合称 为振动。

这一振动过程周 而复始,形成了一串周期 性脉冲气流送入声道。

这 个过程发出的音称为浊音。

如汉语发音的[a]、[i]、 [u]和[o]等。

Tp 基音周期男声发音“我的语音”的时域波形和语谱图2第二章 语音信号的产生、特征 与人耳的听觉特性§2.2 语音信号的分类 声学语音学,根据激励方式划分:(1)浊音(Voiced Speech),又称为有声语音基音(pitch): 声道打开,声带在先打开后关闭,气流经过使声带要发生张 驰振动,变为准周期振动气流。

浊音的激励源被等效为准周 期的脉冲信号。

(2)清音(Unvoiced Speech),又称为无声语音:声带不振 动,而在某处保持收缩,气流在声道里收缩后高速通过产生 湍流,再经过主声道(咽、口腔)的调整最终形成清音。

2第二章_语音信号分析

对于连续信号,观察语音时域波形通过横轴的情 况;
对于离散信号,相邻的采样值具有不同的代数符 号,也就是样点改变符号的次数。
t
n
19
2.3 短时平均过零率
对于语音信号,是宽带非平稳信号,应考察其短时平均过零率。
Zn

1 2N
m
sgn[xn (m)] sgn[xn (m 1)]
1
25
2.3 短时平均过零率
在实际应用中,短时平均过零率容易受到A/D转换
是的直流偏移、50Hz交流电源的干扰以及噪声的影响。 减少这些干扰可以有两种方法:一种是采用带通滤
波器消除信号中的直流和50Hz低频分量;
x(n)
Hb(ejw) w
Bandpass filte Hb
y(n)
26
2.3 短时平均过零率


En
xn2 (m)
x2 (m)h(n m)
m
m
x(n)
平方
x2 (n)
滤波器h(n)
En
x(n)
滑动数据窗
h(n-m)
平方
En
11
一、短时能量
短时能量 En反映语音振幅随时间缓变的规律,受窗函 数及其窗宽的影响。
N=5 1N=1 01
矩形窗
N=20 1 N=40 1
14
二、短时平均幅度
1.平均幅度分析的依据:清音段幅度小;浊音段幅度较大
2.短时平均幅度函数
h(n) | w(n) |


M n x(m)w(n m) x(m) h(n m)
m
m
| x(n) |
x(n)
绝对值

语言学中的语音信号分析

语言学中的语音信号分析语音信号是人类信息传递中最重要的方式之一。

语音信号分析是语音学研究的重要基础,也是许多领域如语音识别、语音合成、说话人识别等研究的关键环节。

本文将详细介绍语音信号分析的概念、步骤、方法和应用,以及目前存在的问题和未来的发展方向。

一、语音信号分析的概念和步骤语音信号分析是指将语音信号转变为可被计算机处理和识别的形式。

其步骤一般包括分帧、加窗、时域特征提取、频域特征提取等。

下面将逐一介绍。

1.分帧语音信号是一系列时域波形,随着时间的推移,其幅度和频率也在不断变化。

为了方便后续计算处理,需要将长时域的语音信号分割成短时域的小段,每一段称为一帧。

帧的长度一般在20~40ms之间,相邻帧之间一般有20~50%的重叠。

2.加窗由于分帧后的语音信号段末端的数值不完整,会造成分析和处理的困难。

为了消除边界效应,在每一帧的两端加上窗函数。

窗函数的目的是将信号逐渐减小到零,避免过度的数据扰动,同时使得相邻帧之间的信号光滑连续,减小处理误差。

3.时域特征提取时域特征是指每一帧中的语音信号的幅度、能量、过零率、基音周期等,一般通过数字信号处理方法计算得到。

这些特征可以反映语音信号的时域变化情况,如音高、音强、音长等。

4.频域特征提取语音信号在频域上的特征也非常重要。

FFT算法可以将时域信号转换为频域信号,得到语音信号的频谱。

从频谱中可以提取出如功率谱密度、倒谱系数、线性预测系数等频域特征。

这些特征可以反映语音信号的谐波结构和共振峰分布。

二、语音信号分析的方法语音信号分析方法有很多种,下面介绍几种常用的方法。

1.基音周期提取法人类的语音信号中存在基频,也就是说,语音信号中存在固定的波形重复出现。

基音周期提取法就是通过求取信号的基频周期,来确定声音的音高。

基音周期提取法的难点在于基波周期受到噪声和非周期性成分的影响,误差很大。

2.线性预测法线性预测法是通过分析语音信号在经过声道传输后,所产生的声音变化,来判断不同声音的特征。

语音信号分析的课程设计

语音信号分析的课程设计一、课程目标知识目标:1. 理解并掌握语音信号的基础知识和分析方法,包括语音信号的时域、频域特性。

2. 学习并识别不同语音特征参数,如振幅、频率、共振峰等,及其在语音信号分析中的应用。

3. 掌握语音信号的数字化过程,理解采样、量化等基本概念。

技能目标:1. 能够运用所学知识,使用软件工具对语音信号进行基本分析,如绘制频谱图、语谱图。

2. 培养学生通过分析语音信号,识别和改进语音质量的能力,例如去噪、增强等。

3. 能够设计简单的语音信号处理程序,提高解决实际问题的能力。

情感态度价值观目标:1. 培养学生对语音信号分析的兴趣,激发其探索声音世界的热情。

2. 增强学生的团队协作意识,通过小组合作完成任务,学会相互尊重和沟通。

3. 通过对语音信号处理的学习,引导学生关注其在生活中的应用,如智能助手、语音识别等,培养学生的创新意识和实践能力。

本课程针对高年级学生,结合其已具备的基础知识和抽象思维能力,设计具有挑战性和实用性的教学内容。

课程性质偏重理论与实验相结合,强调在理论学习的基础上,通过实际操作加深理解,达到学以致用的目的。

在教学过程中,注重引导学生主动探究,激发学习兴趣,培养学生解决实际问题的能力。

通过具体的学习成果分解,使学生在知识、技能和情感态度价值观方面得到全面提升。

二、教学内容1. 语音信号基础概念:包括语音信号的物理特性、心理声学基础,介绍声音的产生、传播和接收过程。

教材章节:第一章 语音信号概述内容列举:声音的三要素、声波图、听觉特性。

2. 语音信号的数字化:讲解采样、量化、编码等基本概念,以及语音信号在计算机中的表示方法。

教材章节:第二章 语音信号的数字化内容列举:采样定理、量化方法、编码技术。

3. 语音信号的时频分析:介绍短时傅里叶变换、语谱图等分析方法,以及如何提取语音信号的频域特征。

教材章节:第三章 语音信号的时频分析内容列举:短时傅里叶变换、语谱图、频谱特征提取。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第n帧 第n+1帧 第n+2帧 帧移M 帧长N
帧长时间为10~20ms。 各帧之 间有0~1/2的重叠。
时刻n的短时段
3
xn (m) x(m)w(n m)
2.1 语音信号的短时处理方法
N
M
4
2.1 语音信号的短时处理方法 x(m) w(n-m) n
w(m)
m
m xn(m)
5
x0(m)
0 N-1
静音检测(VAD)和舒适噪声(CNG)的生成
VAD: Voice Activity Detection
CNG:
Comfort Noise Generator
测试表明,人在正常谈话时,有50%左右是静音。VAD 是用来检测输入的信号是实际语音还是背景噪声,若检测 是实际语音信号进行固定编码;如果是背景噪声,则采用 更低的速率进行编码。CNG针对接收端,重构背景噪声。 VAD可通过能量检测来实现。
0.50ຫໍສະໝຸດ -0.5-10
1000
2000
3000
4000
5000
6000
正弦波周期信号
3000 2000 1000 0 -1000 -2000 -3000 0 1000
正弦波周期信号的自相关函数波形
2000 3000 4000 5000 6000
34
3000
正弦波周期信号和其自相关函数叠加
2000
1000
17
三.短时平均幅度函数和能量函数的作用
(1)区分清/浊音: En、Mn大,对应浊音; En、Mn小,对应清音。 (2)在信噪比高的情况下,能进行有声/无声判决
无声时,背景噪声的En、Mn小;
有声时,En、Mn显著增大。判决时可设臵一个门限。 (3)大致能定出浊音变为清音的时刻,或反之。
18
三.短时平均幅度函数和能量函数的作用
25
0.3
0.2
0.1
0
-0.1
-0.2
-0.3
-0.4
0
50
100
150
200
250
300
350
400
450
男声汉语拼音s的一帧信号(在采样频 率为22050Hz的情况下,取20ms作为一帧), 短时过零率为183。
26
27
2.3 短时平均过零率
在实际应用中,短时平均过零率容易受到A/D转 换是的直流偏移、50Hz交流电源的干扰以及噪声的影 响。 减少这些干扰可以有两种方法:一种是采用带通 滤波器消除信号中的直流和50Hz低频分量;
0
-1000
-2000
-3000
0
1000
2000
3000
4000
5000
6000
35
5、短时自相关函数的作用
1.区分清/浊音 浊音语音的自相关函数具有一定的周期性。 清音语音的自相关函数不具有周期性,类似噪声, 有点如语音信号本身。 2.估计浊音语音信号的周期,即估计基音周期。
36
1
0.5
0
-0.5
14
二、短时平均幅度
1.平均幅度分析的依据:清音段幅度小;浊音段幅度较大 2.短时平均幅度函数
h(n) | w(n) |
m
Mn
x ( n) x ( n)
m


x(m) w(n m)


x( m) h( n m)
| x(n) | 绝对值 滤波器h(n)
Mn Mn
(1)说明当时域信号为周期信号时,自相关函数 也是周期性函数,两者具有同样的周期。
(2)Rn(k)为偶函数, Rn(k)=Rn(-k)
(3)Rn(0)最大, Rn(0) |Rn(k)|, Rn(0)=En,对于
确定信号, Rn(0)是信号能量;对于随机信号或
周期信号, Rn(0)是平均功率。
33
1
x(n)
Hb(ejw)
y(n)
w
Bandpass filte Hb
28
2.3 短时平均过零率
另一种是用过门限率来修改过零率,减少随机噪声的影响。 过门限率反映了穿过正负门限的次数,如果存在随机噪声, 只要信号没有超过[-T,T]的范围,就没有有过零率产生。
T -T
29
2.4 短时自相关函数
1.相关分析的依据:
23
2.短时平均过零的作用 (1)区分清/浊音: 浊音平均过零率低,集中在低频端;
清音平均过零率高,集中在高频端。
(2)从背景噪声中找出是否有语音,以及
语音的起点。
24
1
0.8
0.6
0.4
0.2
0
-0.2
-0.4
-0.6
-0.8
-1
0
50
100
150
200
250
300
350
400
450
女声汉语拼音a的一帧信号(在采样频 率为22050Hz的情况下,取20ms作为一帧), 短时过零率为46。
sgn(x(n))= -1
x(n)<0
21
2.3 短时平均过零率 n-(N-1) x(m) w(n-m) n
m
22
2.3 短时平均过零率
当相临两个取样值符合相同时,不产生过零,而
当相反时,sgn[ x(n)] sgn[ x(n 1)] =2,因此求和后除
以2N得到平均过零率。
Fs=10kHz, N=150,M=50,每输入100个样 点计算一次平均过零率。
第二章 语音信号分析
2.1 语音信号的短时处理方法 2.2 短时能量和短时平均幅度 2.3 短时平均过零率. 2.4 短时自相关函数 2.5 短时傅里叶变换的定义 2.6 短时傅里叶变换的性质 2.7 短时傅里叶变换的线性滤波实现 2.8 短时傅里叶谱的取样 2.9同态处理的基本原理 2.10复倒谱和倒谱 2.11线性预测分析
1
2.1 语音信号的短时处理方法
A/D of some common audio signals
Frequency scope Telephone Wide band
Broadcasting
Sampling frequency 8 khz 16 khz 37.8 khz 44.1 khz
Quantization bits
m
En
x ( n) x ( n)


2 xn (m)
m


x 2 (m)h(n m)
x2 (n)
平方 滑动数据窗 h(n-m)
滤波器h(n) 平方和
En En
11
一、短时能量
短时能量 En反映语音振幅随时间缓变的规律,受窗函 数及其窗宽的影响。
N=51 N=101 N=201 N=401
8
2.1 语音信号的短时处理方法
窗口的长度:无论什么形状的窗口,窗口序列的长度N将起决 定性的作用。N选得太大,滤波器的通带变窄,波形的振幅变化 细节就看不出来,反之,如果N太小,则滤波器的通带变宽,信 号得不到足够的平均。 所谓窗口长度的长短,都是相对于语音信号的基音周期而言的。 通常认为在一个语音帧内,应含有1—7个基音周期为好。可是 人的语音的基调周期值是变化的,从女性小孩的2ms到老年男 子的14ms(即基音频率为500Hz至70Hz),所以N的选择是比 较困难的。
2.1 语音信号的短时处理方法
x1(m)
M M+N-1
y0(m)
0
N-1
y1(m)
M M+N-1
6
2.1 语音信号的短时处理方法
矩形窗
海明窗
汉宁窗
布莱克曼 窗 过渡带宽和阻带最小衰减
7
2.1 语音信号的短时处理方法
矩形窗:优点是主瓣比较集中,缺点是旁瓣较高, 并有负旁瓣,导致变换中带进了高频干扰和泄漏, 甚至出现负谱现象。
2.2 短时能量和短时平均幅度 一、短时能量
1. 能量分析的依据:是基于语音信号幅度随时间变化。 清音段幅度小,其能量集中于高频段;浊音段幅度较大, 其能量集中于低频段。 2.短时能量函数 En (任一个线性系统的输出都可以通过将输入
信号与系统函数(系统的冲激响应)做卷积获得 )
xn (m) x(m)w(n m) h(n) w2 (n)
13
一、短时能量
短时能量的应用:
1 区分清音段和浊音段 2 区分声母和韵母 3 区分无声和有声的分界(信噪比较高的信号) 4 区分连字的边界 5 用于语音识别 短时能量的缺点:对高电平过于敏感,给加窗宽度的选择 带来了困难。扩大了振幅不相等的任何两个相邻取样值 之间的幅度差别,必须用较宽的窗函数才能平滑能量幅 度的起伏。 为了使En能准确反映语音能量的时变规律: 数据窗w(n)或滤波器h(n)函数形式和宽度的选择相当重要。
19
2.3 短时平均过零率 1.过零率定义:信号跨越横轴的情况。 对于连续信号,观察语音时域波形通过横轴的 情况; 对于离散信号,相邻的采样值具有不同的代数 符号,也就是样点改变符号的次数。 t n
20
2.3 短时平均过零率
对于语音信号,是宽带非平稳信号,应考察其短时平均过零率。
1 Zn 2N 1 2N 1 2N
9
2.1 语音信号的短时处理方法
通常折衷的选择N为100~200点为宜。若采用频率为 10KHz,则相当于每帧的长度(即窗口序列的长度)约 为10~20ms为宜。若采样频率为8KHz,200点相当于 25ms,40帧/s;120点相当于15ms,66帧/s. 基音频率为200Hz,采样频率为8kHz, 窗长: 8000{(1/200)7}=256 经过处理,语音信号就已经被分割成一帧一帧的加过 窗函数的短时信号,然后再把每一个短时语音帧看成平稳 的随机信号,利用数字信号处理技术来提取语音特征参数。 在进行处理时,按帧从数据区中取出数据,处理完后再取 下一帧。最后得到由每一帧参数组成的语音特征参数的时 间序列。 10
相关文档
最新文档