第二章 语音信号处理基础知识
语音信号处理PPT_第二章 语音信号处理基础知识

把从肺部呼出的直流气流变为音源,即变为交流的断续 流或乱流; 喉对音源起共振和反共振的作用,使它带有音色; 从嘴唇或鼻孔去空间辐射的作用;
肺把气流送入喉;喉将来自肺的气流调制为周期性脉冲或类 似随机噪声的激励声源,并送入声道;声道对频谱进行润色 后在嘴唇处的气压变化形成可以传播的声波。 肺相当于动力源,喉相当于调制器,声道相当于滤波器和扩 音器。
3.
韵母
38个韵母:8个单韵母,14个复韵母,16个鼻韵母。 单韵母是由单元音构成的,如:a、o、e、i、u、u。 复韵母是由复合元音构成的韵母,如:ai、ei、ao、ou等。 鼻韵母是由鼻辅音“n”或“ng”收尾的韵母,如:an、en、 uan、ang、eng、iang等。 韵母发音时声带是振动的,音强也较大,波形上可以看到大 的振幅,而且呈现周期性。 注意:元音不等同于韵母,元音、辅音是按音素的发音特征 来分的;而声母、韵母则是按音节结构来分的。
2.5.2 语音信号的语谱图
声纹:语谱图上其不同的黑白程度, 形成的不同的纹路。不同的人有不同的 声纹,利用声纹进行说话人识别。 横杆:与时间轴平行的几条深黑色 条纹,对应共振峰。语谱图中有无横杆 是判断是否是浊音的标志。 竖直条:与时间轴垂直的窄黑条, 每个竖直条相当于一个基音,条纹间隔 表示基音周期。 元音在语谱图上对应横杆(共振峰的存在) 噪声和清擦音表现为乱纹。
2.1 语音和语言 一、语音的定义
语音是由一连串的音组成语言的声音。
语言
语音
声音
对语言的研究分为两方面: 语言学:各个音的排列规则及其含义的研究。 语音学:各个音的物理特性和分类的研究。考虑的是语 音的产生、感知等过程。三个主要的分支:发音语音学、 声学语音学、听觉语音学。
语音信号处理第2章-语音信号基础

中耳包括由锤骨、砧骨和镫骨这三块听小骨构 成的听骨链以及咽鼓管等组成。中耳的作用是 进行声阻抗的变换,即将中耳两端的声阻抗匹 配起来,同时对内耳起着保护的作用 。
内耳的主要构成器官是耳蜗(Cochlea)。它是听 觉的受纳器,把声音通过机械变换产生神经发 放信号。
二是要通过运算,实现语音信号的应用,如语 音合成、辨识讲话者、识别讲话内容等等。
信息科学与工程学院 东南大学
2.2语音和语言
人们讲话时发出的话语叫语音,语音 (Speech)是声音(Acoustic)和语言 (Language)的组合体。
语音:是由一连串的音组成语言的声音。
信息科学与工程学院 东南大学
音调:声波的频率。 音高:声波的强度或者振动幅度决定。 音长:发音的持续时间。
信息科学与工程学院 东南大学
2.2 语音和语言
音节:说话时发出的响亮中心,并被明显 感觉到的语音片段叫音节(Syllable)。
英语单词发音时,是几个字母几个字母地拼起 来发音的,几个拼起来发音的字母叫一个音节 如单词China,划分成chi-na两个音节,单词 international分成in-ter-na-tio-nal五个音节,单 词English划分成Eng-lish两个音节。
系统模型
对于二阶的全极点传递函数 1
H (z) 1 az1 bz2
其对应的幅度响应? 由于传递函数中,a、b均为实数,且要求极点
在单位圆内,因此传递函数的极点应该是共轭 对称的。
信息科学与工程学院 东南大学
系统模型
极点位置在[0 π/2]内时
信息科学与工程学院 东南大学
更为细致的将一个音节划分为9个部分,其中1 ~4段属于声母(辅音),6~9段属于韵母( 元音)。第5段是二者的过渡段。
语音信号处理第2章

声母和韵母的相互作用——音征互载
❖ 在普通话里,声母和韵母的音征并不总是在各自的 音段之内,而且又可能跨越两者的边界,即声母里 可能会带有韵母的信息,韵母里也可能带有声母的 信息,如辅音音渡。如果把韵母从元音起始就开始 算起的话,那么音渡就是韵母中载带的辅音音征, 对于某些辅音来说,如不送气塞音[b]、[d],元音 里的音渡正是它们之间相互区别的主要音征。
生神经发放信号。
语音听觉系统 人的听觉系统
语音听觉系统
❖ 人的听觉系统有两个重要特性,一个是耳蜗对于声 信号的时频分析特性;另一个是人耳听觉掩蔽效应 。
❖ 如果信号是一个多频率信号,则产生的行波将沿着 基底膜在不同的位置产生最大幅度。从这个意义上 讲,耳蜗就象一个频谱分析仪,将复杂的信号分解 成各种频率分量。
元音频谱:
30
20
幅 度 10
/dB
0
-10
-20
-30
-40
-50
0
1
2
3
4
频率/kHz
声道模型 级联型
❖ 这时认为声道是一组串联的二阶谐振器。从共振峰 理论来看,整个声道具有多个谐振频率和多个反谐 振频率,所以它可被模拟为一个零极点的数学模型 ;但对于一般元音,则用全极点模型就可以了。它 的传输函数可分解表示为多个二阶极点的网络的串 联:
声道视为一个谐振腔,按此推导出的叫“共振峰模型” 。
❖ 共振峰模型,把声道视为一个谐振腔。共振 峰就是这个腔体的谐振频率。由于人耳听觉 的柯替氏器官的纤毛细胞就是按频率感受而 排列其位置的,所以这种共振峰的声道模型 方法是非常有效的。一般来说,一个元音用 前三个共振峰来表示就足够了;而对于较复 杂的辅音或鼻音,大概要用到前五个以上的 共振峰才行。基于物理声学的共振峰理论, 可以建立起三种实用的共振峰模型:级联型 、并联型和混合型。
第二章语音信号处理的基础知识

音素:是发音的最小单位,一个音节由一个音素或几 个音素构成。分为元音和辅音。元音是构成音节的主 干,从长度和能量来看,在音节中占主要位置;辅音 只是出现在音节的前端或后端或前后两端,它们的时 长和能量较小。
1.元音 元音的一个重要的声学特性
基频和共振峰
人在说话时,空气由肺部压入,由嘴唇呼出,声
i表示3个韵母,即韵母、舌尖前韵母和舌尖后韵母。
区别不同韵母的重要参数
韵母是由单、双元音、元音带上辅音等几种不 同的形式组成。不同的元音有不同的基音频率和 共振峰模式,它们是区别不同韵母的重要参数。来自三、汉语音节的一般结构
声母、韵母和声调是汉语语音的三要素。 汉语语音的1个不同于其他语言的是它具有声调 (音调)。声调是1个音节在念法上的高低升降 的变化,汉语中有4个声调,即阴平(-)、阳 平( ′)、上声( )、和去声(‵)。
音节
声母
韵母
无声段 声母辅音段 送气段 前过渡段 元音段 后过渡段 鼻音段
§2.4 语音生成系统和语音感知系统
一、语音发音系统 二、语音听觉系统
一、语音发音系统(发音器官及其作用)
●肺:能源; ●喉:振动源,包括声带和声门; ●声道(声门到嘴唇的呼气通道):谐振腔; ●其他发音器官:包括唇、齿、舌、面颊等, 使谐振腔改变形状。
正常人的听觉系统是极为灵敏的,可听声的范围 为0.02Hz-20kHz。
可听声的最小声压级(dB)称为听阈。-5 130dB, 对低频和高频是不敏感的,听阈为60dB,在1kHz 附近最敏感。
声源 飞机附近 织布车间 地铁 繁华街道 普通谈话 安静房间 耳语 树叶沙沙声 农村静夜
声压/Pa 200 20 0.63 0.063 0.02 0.002 0.00063 0.0002 0.000063
2第二章 语音信号处理的基础知识 语音信号处理 课件

9/17/2020
32
当说话时,声带在软骨的作用下相互靠 近但不完全闭合,声门变成一条窄缝,当气 流通过窄缝时压力减小,外界压力大,从而 两片声带完全闭合使得气流不能通过,当气 声带靠拢 流阻断时压力恢复正常,推开两片声带,声 门再次打开,气流再次流过。
●音色: 又称为音质,是一种声音区别于另一种 声音的基本特性。
●音调:声音的高低,取决于声波的频率 ●音强:声音的强弱,它由声波的振动幅度所决 定 ●音长:发音时间的长短
9/17/2020
27
三、音节与音素
句子的最小单位为单词,单词的最小单位为音节。
音节:发音时,被明显感觉到的语音片段为音节。
音素:是发音的最小单位,一个音节由一个音素或几 个音素构成。分为元音和辅音。元音是构成音节的主 干,从长度和能量来看,在音节中占主要位置;辅音 只是出现在音节的前端或后端或前后两端,它们的时 长和能量较小。
9/17/2020
1
9/17/2020
2
9/17/2020
3
9/17/2020
6
第二章 语音信号处理的基础知识
§2.2 语音和语言 §2.3 汉语语音学 §2.4 语音生成系统和语音感知系统 §2.5 语音信号生成的数学模型 §2.6 语音信号的特性分析
http://www.fon.hum.uva.nl/praat/
L=17cm,声道的长度
n=1,2,3 … 称为第一共振峰F1=500Hz 、第二 共振峰F2=1500Hz 、第三共振峰 F3=2500Hz ,…
语音(Speech)=声音(Acoustic)+语言 (Language) 语音是由一连串的音组成语言的声音。
第二章 语音信号处理基础知识

下面我们再看一下语音的时域波形和频谱特性:
10、语音信号的时域波形和频谱特性
时间域中,语音信号可以直接用时间波形表示出来,通过观察时间波形可以看出语音信号的一些重要特性。
观察语音信号时间波形的特性,可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别。
下图为汉语拼音“sou ke”的时间波形。表示这段语音波形时采用的采样频率为8kHz,量化精度为16bit。图上标明了时间及各个音节的起始位置。由于在时域波形里各个单音节间不好明显地分界,因此,图上标出的某个音的起点只是粗略的。
本章第二部分是语音信号的特性分析,包括语音的声学特性,时域波形,频谱特性和统计特性。首先来了解一下语音的声学特性。
7、语音信号的声学特性
语音是人的发声器官发出的一种声波,具有一定的音色、音调、音强和音长。音色也叫音质,是一种声音区别于另一种声音的基本特征;音调是指声音的高低,取决于声音的频率;音强是指声音的强弱,由声波的振幅决定;音长即声音的长短,取决于发音时间的长短。
6、语音学
Phonetics是研究言语过程的一门科学。它考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类问题。现代语音学发展成为三个分支:发音语音学、声学语音学以及听觉语音学。发音语音学研究语音产生机理,借助仪器观察发音器官,以确定发音部位和发音方法;声学语音学研究语音传递阶段的声学特性,与传统语音学和现代语音分析手段相结合,用声学和非平稳信号分析理论来解释各种语音现象;听觉语音学研究语音感知的生理和心理特性,即研究耳朵怎么听音的,大脑怎么理解语音的,语音信息在大脑中存储的部位和形式。
语音信号处理_2_基础知识

声调
声调(5个)
孤立音节中有四个声调,调型称之为阴平、 阳平、上声、去声,简称1、2、3、4声 连续语音中由音节弱化、致使原有调型丢失, 形成轻声 上声连读变调:上声变阳平 主要由韵母音段的音高所负载
第二章 语音信号的声学基础 及产生模型
语音学 语音产生过程 语音信号的特性分析 语音感知 语音产生数学模型
语音感知
听觉器官(声学特征)
音质、音强、音高、音长
感知效应
感知效应
听阈 主观响度 主观音高 言语的选择性感知
感知效应
听阈
频率范围20~20kHz 声强0~120dB(0dB eq. 20uPa)
主观响度 主观音高 言语的选择性感知
主观响度
响度级(Loudness Level), Phon数值上等 于1kHz纯音的声强级 响度(Loudness), 1Sone等于1kHz纯音t听 阈之上40dB的响度 P=33.33lgS+40 3~5kHz频段最为灵敏
频域特征-samples
0.865 8 0
- 0.670 8 0 T im e (s ) 1.54 821
40
20
20
0
0 0 F re q u e n c y ( H z ) 11 025
-2 0 0 F r e q u e n cy ( H z ) 110 25
40
40 20
20 0
0 0 F re q u e n c y ( H z ) 11 025 0 F r e q u e n cy ( H z ) 110 25
- 0 .670 8
0 T im e (s )
0 .3 0 1 3 1 3
0 .766 3
0
《语音信号处理》课程笔记

《语音信号处理》课程笔记第一章语音信号处理的基础知识1.1 语音信号处理的发展历程语音信号处理的研究起始于20世纪50年代,最初的研究主要集中在语音合成和语音识别上。
在早期,由于计算机技术和数字信号处理技术的限制,语音信号处理的研究进展缓慢。
随着技术的不断发展,尤其是快速傅里叶变换(FFT)的出现,使得语音信号的频域分析成为可能,从而推动了语音信号处理的发展。
到了20世纪80年代,随着全球通信技术的发展,语音信号处理在语音编码和传输等领域也得到了广泛应用。
近年来,随着人工智能技术的快速发展,语音信号处理在语音识别、语音合成、语音增强等领域取得了显著的成果。
1.2 语音信号处理的总体结构语音信号处理的总体结构可以分为以下几个部分:(1)语音信号的采集和预处理:包括语音信号的采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。
(2)特征参数提取:从预处理后的语音信号中提取出能够反映语音特性的参数,如基频、共振峰、倒谱等。
(3)模型训练和识别:利用提取出的特征参数,通过机器学习算法训练出相应的模型,并进行语音识别、说话人识别等任务。
(4)后处理:对识别结果进行进一步的处理,如语法分析、语义理解等,以提高识别的准确性。
1.3 语音的发声机理和听觉机理语音的发声机理主要包括声带的振动、声道的共鸣和辐射等过程。
声带振动产生的声波通过声道时,会受到声道形状的影响,从而产生不同的音调和音质。
听觉机理是指人类听觉系统对声波的感知和处理过程,包括外耳、中耳、内耳和听觉中枢等部分。
1.4 语音的感知和信号模型语音的感知是指人类听觉系统对语音信号的识别和理解过程。
语音信号模型是用来描述语音信号特点和变化规律的数学模型,包括时域模型、频域模型和倒谱模型等。
这些模型为语音信号处理提供了理论基础和工具。
第二章语音信号的时域分析和短时傅里叶分析2.1 语音信号的预处理语音信号的预处理主要包括采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章语音信号处理基础知识1、语音信号处理?语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。
2、语音信号处理的目的?1)如何有效地,精确地表示、存储、传递语音信号及其特征信息;2)如何用机器来模仿人类,通过处理某种运算以达到某种用途的要求,例如人工合成出语音,辨识出说话人、识别出说话内容等。
因此,在研究各种语音信号处理技术之前,需要了解语音信号的基本特性,同时,要根据语音的产生过程建立实用及便于分析的语音信号模型。
本章主要包括三方面内容:语音的产生过程、语音信号的特性分析以及语音信号生成的数学模型。
第一部分内容语音的产生过程,我们要弄清两个问题:1)什么是语音?2)语音的产生过程?3、什么是语音?语音是带有语言的声音。
人们讲话时发出的话语叫语音,它是一种声音,由人的发音器官发出且具有一定的语法和意义。
语音是声音和语言的组合体,所以对于语音的研究包括:1)语音中各个音的排列由一些规则控制,对这些规则及其含义的研究成为语言学;2)对语音中各个音的物理特征和分类的研究称为语音学。
4、语音的产生语音的产生依赖于人类的发声器官。
人的发音器官包括:肺、气管、喉、咽、鼻、口等。
◆喉以上的部分称为声道,其形状随发出声音的不同而变化;◆喉的部分称为声门。
◆喉部的声带是对发音影响很大的器官。
声带振动产生声音。
◆声带开启和闭合使气流形成一系列脉冲。
每开启和闭合一次的时间即振动周期称为基音周期,其倒数为基音频率,简称基频。
基频决定了声音频率的高低,频率快则音调高,频率慢则音调低。
基音的范围约为70 -- 350Hz,与说话人的性别、年龄等情况有关。
人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)理解阶段(5)接收阶段。
人的说话的过程:1)想说阶段:人的说话首先是客观事实在大脑中的反映,经大脑的决策产生了说话的动机;接着说话神经中枢选择适当的单词、短语以及按照语法规则的组合,以表达想说的内容和情感。
2)说出阶段:由想说阶段大脑中枢的决策,以脉冲形式向发音器官发出指令,使得舌、唇、鄂、声带、肺等部分的肌肉协调地动作,发出声音。
与此同时,大脑也发出一些指令给其他有关器官,使之产生各种动作来配合言语的效果,如表情、手势、身体姿态等。
经常有些人说话时会手舞足蹈。
另外,还会开动“反馈”系统来帮助修正语音。
3)传送阶段:说出的话语是一连串声波,凭借空气为媒介传送到听者的耳朵。
有时遇到某种阻碍或其他声响的干扰,使声音产生损耗或失真。
4)接收阶段:从外耳收集的声波信息,经过中耳的放大作用,达到内耳。
经过内耳基底膜的振动,激发器官内的神经元使之产生脉冲,将信息以脉冲形式传送给大脑。
5)理解阶段:听觉神经中枢收到脉冲信息后,经过一种至今尚未完全了解的方式,辨认说话人及听到的信息,从而听懂说话人的话。
再开始介绍语音信号的特性之前,我们先了解一下语音和语言的定义。
5、语言是从人们的话语中概括总结出来的规律性的符号系统。
包括构成语言的语素、词、短语和句子等不同层次的单位,以及词法、句法、文脉等语法和语义内容。
语言学是语音信号处理的基础。
例如,可以利用句法和语义信息减少语音识别中搜索匹配范围,提高正确识别率。
6、语音学Phonetics是研究言语过程的一门科学。
它考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类问题。
现代语音学发展成为三个分支:发音语音学、声学语音学以及听觉语音学。
发音语音学研究语音产生机理,借助仪器观察发音器官,以确定发音部位和发音方法;声学语音学研究语音传递阶段的声学特性,与传统语音学和现代语音分析手段相结合,用声学和非平稳信号分析理论来解释各种语音现象;听觉语音学研究语音感知的生理和心理特性,即研究耳朵怎么听音的,大脑怎么理解语音的,语音信息在大脑中存储的部位和形式。
本章第二部分是语音信号的特性分析,包括语音的声学特性,时域波形,频谱特性和统计特性。
首先来了解一下语音的声学特性。
7、语音信号的声学特性语音是人的发声器官发出的一种声波,具有一定的音色、音调、音强和音长。
音色也叫音质,是一种声音区别于另一种声音的基本特征;音调是指声音的高低,取决于声音的频率;音强是指声音的强弱,由声波的振幅决定;音长即声音的长短,取决于发音时间的长短。
说话时一次发出,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。
一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。
音素是语音发音的最小单位。
任何语言都有语音的元音(V owel)和辅音(Consonant)两种音素。
元音:当声带振动发出的声音气流从喉腔、咽腔进入口腔,从唇腔出去时,这些声腔完全开放,气流顺利通过产生音素。
-它构成一个音节的主干,长度和能量看,元音在音节中都占主要部分。
辅音:呼出的声流,由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通,而克服这些发音器官的这种阻碍产生的音素。
-通常只出现在音节的前端、后端或前后两端。
发辅音时由声带是否振动引起浊音和清音的区别:-声带振动的是浊音;-声带不振动的是清音。
8、基音频率发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期称为基音周期,其倒数为基音频率。
所以浊音声带振动的基本频率称为基音频率,一般用F表示。
无论一个音节或是一段连都是随时间变化的,该变化产生了声调,其变化轨迹为声调续语音,各个音节的元音段的F轨迹。
基音频率与个人声带的长短、厚薄、韧性和发音习惯等有关,在很大程度上反映了个人的特征。
一般来说,男性说话者的基音频率大致分布在50-200Hz,女性和小孩的基音频率在200-450Hz之间。
9、共振峰共振峰是一组谐振频率:声道可以看成一根具有非均匀截面的声管,在发音时起到共鸣器的作用,当元音激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率(简称共振峰)。
元音的一个重要的声学特性就是共振峰(Formant)。
共振峰参数是区别不同元音的重要参数,一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。
元音的共振峰与发音机制(舌位高低、前后,舌尖的状态等)有关。
不同元音对应于一组不同的共振峰参数,为精确描述语音,应尽可能使用多个共振峰,但实际应用时,只用前3个就够了,分别称为F1,F2,F3。
表给出了前3个共振峰成年男子和成年女子的分布范围。
所以虽然一般地说,虽然就语音的基音频率而言是女声和童声高于男声,但是实验表明:区分语音是男声还是女声、是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。
下面我们再看一下语音的时域波形和频谱特性:10、语音信号的时域波形和频谱特性时间域中,语音信号可以直接用时间波形表示出来,通过观察时间波形可以看出语音信号的一些重要特性。
观察语音信号时间波形的特性,可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别。
下图为汉语拼音“sou ke”的时间波形。
表示这段语音波形时采用的采样频率为8kHz,量化精度为16bit。
图上标明了时间及各个音节的起始位置。
由于在时域波形里各个单音节间不好明显地分界,因此,图上标出的某个音的起点只是粗略的。
从上图可以看出,清辅音[s][k]和元音[ou] [e]这两类音的时间波形有很大区别。
例如,从A点开始的音节[s],以及从C点开始的[k]都是清辅音,它们的波形类似于白噪声,振幅很小,没有明显的周期性;而从B点开始的元音[ou]以及从D点开始的[e]都具有明显的周期性,且振幅较大。
它们的周期对应的就是声带振动的频率,即基音频率,它是声门脉冲的间隔。
如果考察其中一小段元音语音波形,从它的频谱特性大致可以看出它们的共振峰特性。
语音信号具有很强的时变特性,有些波形具有很强的周期性,有些波形具有很强的噪声特性,且周期性和噪声性语音的特征也在不断变换中。
但在较短的时间内,语音信号的特征可以认为基本不变,所以,语音信号属于短时平稳信号,一般认为在10~30ms内语音信号特性基本上是不变的,或者变化很缓慢。
-因此可以截取一段进行傅里叶变换(具体的频谱分析方法将在第三章中介绍),求其短时谱。
于是,从中截取一小段进行频谱分析。
下图给出“sou”中音素“ou”的傅里叶变换:时间大约为时间波形180ms处开始,取时间波形宽度为256个样本,因采样频率为8kHz,故语音段持续时间为32ms(256/8)。
从该频谱图上可以直接看出浊音的基音频率及谐波频率。
在0~1.83kHz之间几乎有6个峰值,因此,基音频率为301Hz(1.83kHz/6)。
观察时间波形“ou”波形周期之间的距离也可证明,其中在225~250ms之间大约有7.5个周期,因此可以估计周期为300Hz(7.5/25)。
在频谱图中可以看出明显的具有几个凸起点,它们出现的频率就是共振峰频率,从而表明元音具有明显的共振峰特性。
清辅音“k”的傅里叶变换如下图所示:可以看出,频谱峰点之间间隔是随机的,表明该清辅音没有周期分量。
11、语音信号的语谱图语音的时域分析和频域分析是语音分析的两种重要方法。
显然这两种单独分析的方法均有局限性:时域分析对语音信号的频率特性没有直观的了解;而频域分析出的特征中又没有语音信号随时间的变化关系。
由于语音信号随时间变化是很缓慢的,因而在一段短时间内(如10ms~30ms之间,即所谓的一帧之内)可以认为其频谱是固定不变的,这种频谱又称为短时谱。
短时谱只能反映语音信号的静态频率特性,不能反映语音信号的动态频率特性。
因此,人们致力于研究语音的时频分析特性,把和时序相关的傅立叶分析的显示图形称为语谱图(Sonogram,或者Spectrogram)。
语谱图是一种三维频谱,它表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。
语谱图中显示了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。
记录这种谱图的仪器就是语谱仪。
语谱仪实际上是一个带通滤波器组的输出随时间连续变化,连续重复进行语音信号频率分析的仪器。
带通滤波器有两种带宽选择:窄带为45Hz,宽带为300Hz。
窄带语谱图具有较好的频率分辨率,有利于显示基音频率及其各次谐波,但时间分辨率较差,不利于观察共振峰的变化;宽带语谱图则具有良好的时间分辨率及较差的频率分辨率。
它能给出语音的共振峰频率及清辅音的能量汇集区,在语谱图中共振峰呈现为黑色条纹。
语谱图上因其不同的黑白程度,形成不同的纹路,称为“声纹”,其因人而异,即不同说话人语谱图的声纹是不同的。
因而可以利用声纹鉴别不同说话人。