第二章语谱图分析.
第二章语谱图分析

特性中又没有语音信号随时间的变化关系。
因此人们致力于研究语音的时频分析特性,把和时序相关 的傅里叶分析的显示图形称为语谱图。
语谱图在1941年由贝尔实验室研究人员发明,它试图用三 维的方式显示语音频谱特性, 纵轴表示频率,横轴表示 时间,颜色的深浅表示特定频带的能量大小,语谱图的发 明是语音研究的一个里程碑,它将语音的许多特征直观的 呈现出来。
语谱图中显示了大量的与语音的语句特性有关的信息,它
综合了频谱图和时域波形的特点,明显地显示出语音频谱
随时间的变化情况,或者说是一种动态的频谱。
A
3
语谱图产生流程
语音录制
数据读入程序 信号分帧加窗
能量密度谱计算
功率谱伪彩色显示
语谱图显示
A
4
一、语谱图的分类
语谱图分为宽带语谱图和窄带语谱图两种。
宽带语谱图:带宽约为300Hz,具有良好的时 间分辨率,但是频率分辨率较差;
宽带语谱图能给出语音的共振峰频率及清辅 音的能量汇集区,在语谱图里共振峰呈现为 黑色的条纹。
窄带语谱图:带宽约为45Hz,具有良好的频率 分辨率,但是时间分辨率较差。
有利于显示基音频率及其各次谐波,不利于 观察共振峰的变化。
每个竖直条相当于一个基音,条纹的起点相
当于声门脉冲的起点,条纹之间的距离表示
基音。条纹越密表示基音频率越高。
A
8
A
9
Every salt breeze comes form the sea
Wide band
narrow band
A
10
Matlab 命令:specgram
specgram computes the windowed discrete-time Fourier transform of a signal using a sliding window. The spectrogram is the magnitude of this function.
语音信号处理PPT_第二章 语音信号处理基础知识

把从肺部呼出的直流气流变为音源,即变为交流的断续 流或乱流; 喉对音源起共振和反共振的作用,使它带有音色; 从嘴唇或鼻孔去空间辐射的作用;
肺把气流送入喉;喉将来自肺的气流调制为周期性脉冲或类 似随机噪声的激励声源,并送入声道;声道对频谱进行润色 后在嘴唇处的气压变化形成可以传播的声波。 肺相当于动力源,喉相当于调制器,声道相当于滤波器和扩 音器。
3.
韵母
38个韵母:8个单韵母,14个复韵母,16个鼻韵母。 单韵母是由单元音构成的,如:a、o、e、i、u、u。 复韵母是由复合元音构成的韵母,如:ai、ei、ao、ou等。 鼻韵母是由鼻辅音“n”或“ng”收尾的韵母,如:an、en、 uan、ang、eng、iang等。 韵母发音时声带是振动的,音强也较大,波形上可以看到大 的振幅,而且呈现周期性。 注意:元音不等同于韵母,元音、辅音是按音素的发音特征 来分的;而声母、韵母则是按音节结构来分的。
2.5.2 语音信号的语谱图
声纹:语谱图上其不同的黑白程度, 形成的不同的纹路。不同的人有不同的 声纹,利用声纹进行说话人识别。 横杆:与时间轴平行的几条深黑色 条纹,对应共振峰。语谱图中有无横杆 是判断是否是浊音的标志。 竖直条:与时间轴垂直的窄黑条, 每个竖直条相当于一个基音,条纹间隔 表示基音周期。 元音在语谱图上对应横杆(共振峰的存在) 噪声和清擦音表现为乱纹。
2.1 语音和语言 一、语音的定义
语音是由一连串的音组成语言的声音。
语言
语音
声音
对语言的研究分为两方面: 语言学:各个音的排列规则及其含义的研究。 语音学:各个音的物理特性和分类的研究。考虑的是语 音的产生、感知等过程。三个主要的分支:发音语音学、 声学语音学、听觉语音学。
语谱图

基于信号分析与处理的语谱图显示1 语谱图语音的发音过程中, 声道通常都是处于运动状态的, 因此它的共振峰特性也是时变的。
不过这个时变过程比起振动过程来说要缓慢得多, 因此一般可以假定它是短时平稳的, 每一时刻我们都可以用这时刻附近的一短段( 例如15ms) 语音信号分析得到一种频谱。
对语音信号连续地进行频谱分析就可以得到一种二维图谱, 其横坐标表示时间, 纵坐标表示频率, 而每像素的灰度值大小反映相应时刻和相应频率的信号能量密度。
这种时频图称为语谱图( Sonogram 或Spectrogam), 这种反映语音信号动态频谱特性的时频图在语音分析中有重要实用价值, 被视为可视语言。
从语谱图上不仅能看出任一时刻发音器官的共振峰特征,而且可以看出语音的基音频率, 是否清音、爆破音等。
语谱分析在语音识别、合成及编码中很有意义。
1.1 语谱图的产生基理语音信号是一种典型的非平稳信号, 但是其非平稳性是由发音器官的物理运动过程而产生的, 此过程与声波振动的速度相比较缓慢, 可以假定在10~30ms这样的短时间内是平稳的。
傅立叶分析是分析线性系统和平稳信号稳态特性的强有力的手段, 而短时傅里叶分析, 也叫时间依赖傅立叶变换, 就是在短时平稳的假定下, 用稳态分析方法处理非平稳信号的一种方法。
设离散时域采样信号为x(n), n=0,1,⋯,N- 1, 其中n 为时域采样点序号, N 是信号长度。
然后对信号进行分帧处理, 则x(n)表示为xn(m), n=0,1,⋯,N- 1, 其中n 是帧序号, m 是帧同步的时间序号, N 为帧长( 一帧内的采样点数) 。
信号{x(n)}短时傅里叶变换为:其中{w(n)}为窗序列, 则信号x(n)的离散时域傅里叶变换(DTFT) 为:采用离散傅里叶变换(DFT)得:则P(n,k)是二维的非负实值函数, 并且不难证明它是信号x(n)的短时自相关函数的傅里叶变换。
用时间n 作为横坐标, k 作纵坐标, 将P(n,k)的值表示为灰度级所构成的二维图像就是语谱图。
数字语音信号处理教案

数字语音信号处理实验指导书前言语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。
通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。
同时,语言也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为信息处理系统建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化程度。
语音信号处理是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。
虽然从事这一领域研究的人员主要来自信号与信息处理及计算机应用等学科,但是它与语音学、语言学、声学、认知科学、生理学、心理学等许多学科也有非常密切的联系。
20世纪60年代中期形成的一系列数字信号处理的理论和算法,如数字滤波器、快速傅立叶变换(FFT)等是语音信号数字处理的理论和技术基础。
随着信息科学技术的飞速发展,语音信号处理取得了重大的进展:进入70年代之后,提出了用于语音信号的信息压缩和特征提取的线性预测技术(LPC),并已成为语音信号处理最强有力的工具,广泛应用于语音信号的分析、合成及各个应用领域,以及用于输入语音与参考样本之间时间匹配的动态规划方法;80年代初一种新的基于聚类分析的高效数据压缩技术—矢量量化(VQ)应用于语音信号处理中;而用隐马尔可夫模型(HMM)描述语音信号过程的产生是80年代语音信号处理技术的重大发展,目前HMM已构成了现代语音识别研究的重要基石。
近年来人工神经网络(ANN)的研究取得了迅速发展,语音信号处理的各项课题是促进其发展的重要动力之一,同时,它的许多成果也体现在有关语音信号处理的各项技术之中。
为了深入理解语音信号数字处理的基础理论、算法原理、研究方法和难点,根据数字语音信号处理教学大纲,结合课程建设的需求,我们编写了本实验参考书。
本本参考书针对教学大纲规定的四个研究设计型实验,每个实验给出了参考程序,目的是起一个抛砖引玉的作用,学生在学习过程中,可以针对某一个实验进行延伸的创新学习,比如说,语音端点的检测、语音共振峰提取、基于HMM或DTW的有限词汇或大词汇的特定人、非特定人的语音识别、识别率的提高(如何提高有噪环境下的识别率)、以及编码问题等,同时在学习中还可深入思考如何将有关的方法在嵌入式系统或DSP 下的实现问题等。
第二章 人的听觉感知与声音信号-现代多媒体通信技术-阮秀凯-清华大学出版社

L 33.33lgN 40
图2-4 响度级和响亮的关系
• 2.2.2 听阈与痛阈
听阈即人耳能感受的声音频率和强度的范围,人耳刚 好能感觉到其存在的声音的声压就是听阈,听阈对于不同 频率的声波是不相同的。听阈是由某声音信号在多次实验 中能引起的听觉的最小有效声压,听阈应根据许多正常常 青年的耳朵测试结果求平均。试验求得的等响曲线中最低 的一条零方(Phon)曲线就是听域曲线,它是纯音的最低 可听声压的频率响应。
2.2 人耳的听觉特性
3 2.2.3 听觉定律
(2)听觉驻留
研究表明,人听到一个脉冲不是和它的强度有关,而 是和强度与时间的乘积有关。直到时间相当长了(几 十毫秒或一百多毫秒以上),才感觉声音还是那样响, 只是时间延长而已。例如,一个短促的脉冲声,若强 度不变,长度由1ms变为2ms,人昕起来不是长度变 了,而是更响了。国际上已根据这个现象规定了测量 脉冲声的电表响应应具有35ms的时间常数。
1距声源1m处的平均声压级65691520语言扩声演唱8011008080003040管风琴的频率范围更宽名族乐器的基频范围为1002000hz乐器1640003016000单个乐器0011003050交响乐能量集中范3020000大型交响乐10w1518件乐器乐队演出离乐队10m处的平均声压级951054060件大型交响乐队为100听觉2020000痛阈值1wm痛阈值120120hifi系统40160005055数字音频系统2020000709023声音信号表22语言和音乐的一些重要特性23声音信号图215其它声信号及其谱图24声音质量评价方法图215声质量涉及的因素
2.2 人耳的听觉特性
1 2.2.1 声强级和响度 2 2.2.2 听阈与痛阈 3 2.2.3 听觉定律 4 2.2.4 人耳的听觉效应
语言学知识系统图解

4句法学范畴之间的关系---一致与支配
句子的种类---简单句、并列句和复合句
组合和聚合关系
结构语法直接成分分析
内向结构和外向结构
生成语法(略)
功能语法(略)
语义学的定义
命名论
概念论
意义理论语境论
使用论
行为论
利奇的意义七分法
意义的分类
其他意义分类法
同义关系
互补反义词
英语语言学各章节系统图解
语言的定义及定义的理解
语言的甄别性特征
语言语言的功能
语言的起源
1语言和语言学
语言学的定义及定义的理解
语言学普通语言学及其研究范围
常见的重要区别性概念
语音学的定义
听觉语音学
声学语音学
语音学分类(清辅音、浊辅音)
辅音描述(发音部位、发音方式、清浊性)
标音(宽式标音、严式标音)
发音语音学
分类(前、中、后元音)
元音描述(唇、舌位、开口度/舌高度、紧/松)
标音(宽式标音、严式标音)
2语音学
音系学最小对立体
音位、音位变体
音位理论自由变异
音位对立、区别性特征
音位分布、互补分布
音系学
序列规则
音系规则同化规则(顺同化、逆同化)
省略规则
超切分音位特征(音节、重音、声调、语调)
定义
形态基本模块:词素、形素、词素变体
5语义学反义关系等级反义词
词之间的意义关系关系反义词
上下义关系
一词多义
同音/同形异义
蕴含
预设
矛盾
句子之间的意义关系不一致
同义关系
语义异常
语义成分分析
第二章语谱图
汉语拼音“sou ke”的时间波形
元音[ou]的频谱图
语音特性分析实例:Ten above in suburbs
辅音[s]的频谱
语音波形及特性 女声“他去无锡市”的时域波形图
对上段语音信号的分析:
❖ 这段语音的频率带宽为300-3400Hz ❖ 横轴为时间,纵轴为语音的幅度。 ❖ 采样频率为8kHz,持续时间为4s。 ❖ 时间轴压缩很短,只能看清该段语音的轮廓,无法辨识语音波形的具体细节。
10
20
30
40
50
60
70
N=1024 hamming window 幅度谱
600 500 400 300 200 100
0 0
10
20
30
40
50
60
70
1200 1000
800 600 400 200
0 0
10
20
30
40
50
60
70
N=2048 hamming window 幅度谱
1200 1000
“受用”语谱图
“ “
语谱图分析
你 好 ” 宽 带 语 谱 图 灰 度 显 示 图
你 好 ” 窄 带 语 谱 图 灰 度 显 示 图
特点:(1)窗长短,可以获得较高的时间分辨 率;(2)功率谱的谐波结构在频率轴方向被平 滑掉了,谐波间隙被填平了,因此在频域看不 出基音频率和频谱的谐波形式结构,但可以明 显的看成共振峰结构和语谱包络
彩色语谱图 发 “ah.”时的单元音 /a/
发音 “real”
发 “eye”时的双元音 /ai/ 发音 “mean”
同一个人的语谱图
不同的讲话者的语谱图 具有不同的“声纹”。 据此可以区别说话人, 这与不同的人有不同的 指纹,根据指纹可以区 别不同的人是一个道理。
语音信号处理(第2版)赵力编著语音信号处理勾画要点
语音信号处理(第2版)赵力编著语音信号处理勾画要点语音信号处理(第2版)赵力编著重点考点第2章语音信号处理的基础知识1.语音(Speech)是声音(Acoustic)和语言(Language)的组合体。
可以这样定义语音:语音是由一连串的音组成语言的声音。
2.人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)理解阶段(5)接收阶段。
3.语音是人的发声器官发出的一种声波,它具有一定的音色,音调,音强和音长。
其中,音色也叫音质,是一种声音区别于另一种声音的基本特征。
音调是指声音的高低,它取决于声波的频率。
声音的强弱叫音强,它由声波的振动幅度决定。
声音的长短叫音长,它取决于发音时间的长短。
4.说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。
一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。
音素是语音发音的最小单位。
任何语言都有语音的元音(Vowel)和辅音(Consonant)两种音素。
5.元音的另一个重要声学特性是共振峰(Formant)。
共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。
6.区分语音是男声还是女声、是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。
7.浊音的声带振动基本频率称基音周期(或基音频率),F0表示。
8.人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉掩蔽效应。
9.掩蔽效应分为同时掩蔽和短时掩蔽。
10.激励模型:一般分成浊音激励和清音激励。
浊音激励波是一个以基音周期为周期的斜三角脉冲串。
11.声道模型:一是把声道视为由多个等长的不同截面积的管子串联而成的系统。
按此观点推导出的叫“声管模型”。
另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。
12.完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。
第二章 语音信号处理基础知识
下面我们再看一下语音的时域波形和频谱特性:
10、语音信号的时域波形和频谱特性
时间域中,语音信号可以直接用时间波形表示出来,通过观察时间波形可以看出语音信号的一些重要特性。
观察语音信号时间波形的特性,可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别。
下图为汉语拼音“sou ke”的时间波形。表示这段语音波形时采用的采样频率为8kHz,量化精度为16bit。图上标明了时间及各个音节的起始位置。由于在时域波形里各个单音节间不好明显地分界,因此,图上标出的某个音的起点只是粗略的。
本章第二部分是语音信号的特性分析,包括语音的声学特性,时域波形,频谱特性和统计特性。首先来了解一下语音的声学特性。
7、语音信号的声学特性
语音是人的发声器官发出的一种声波,具有一定的音色、音调、音强和音长。音色也叫音质,是一种声音区别于另一种声音的基本特征;音调是指声音的高低,取决于声音的频率;音强是指声音的强弱,由声波的振幅决定;音长即声音的长短,取决于发音时间的长短。
6、语音学
Phonetics是研究言语过程的一门科学。它考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类问题。现代语音学发展成为三个分支:发音语音学、声学语音学以及听觉语音学。发音语音学研究语音产生机理,借助仪器观察发音器官,以确定发音部位和发音方法;声学语音学研究语音传递阶段的声学特性,与传统语音学和现代语音分析手段相结合,用声学和非平稳信号分析理论来解释各种语音现象;听觉语音学研究语音感知的生理和心理特性,即研究耳朵怎么听音的,大脑怎么理解语音的,语音信息在大脑中存储的部位和形式。
语言学概论第二章-(123)ppt课件
2021/7/6
.
第一节 语音和语音学
•
语音特性
• • 语音特性 • • •
1.生理特性 2.物理特性 3.心理特性 4.社会特性
2021/7/6
.
第一节 语音和语音学
• 1.语音的生理特性(发音器官部位及其活动、配合的方法) • (1)动力器官——肺和气管 • (2)发音器官——声带、软骨和肌肉 • (3)共鸣调节器——口腔、鼻腔和咽腔
2021/7/6
.
第二节 语言的声音——音节5
• 音节的结构层次
1.汉语音韵学
(1)最多由四个因素成分组合,其中韵腹不可少; (2)无复辅音,声母只占一个位置; (3)分声母、韵母,每个音节有声调; (4)一个字为一个音节,音节界限分明; (5)辅音韵尾比元音韵尾少。
点汉 语 音 节 特
2.音段
克列曼和凯瑟认为音节没有什么内在结构,同属一个音节的音段 彼此关系相等
特性
由共鸣器形状决定
根据口腔舌头 起作用的部位
1.舌面元音 2.舌尖元音
口元音
2021/7/6
.
第二节 语言的声音——音素
舌面 元音
1.什么是舌面元 音?
2.区分舌面元音 的根据?
3.基本元音有哪8 个?
舌面元音是舌面起 主要作用改变共鸣 器形状而发出的音。
根据舌位的高低、 前后、唇形的圆展 区分不同的舌面元 音。
[i]、[e]、[ɛ]、[a] [ɑ]、[o]、[Ɔ]、[u]
2021/7/6
.
第二节 语言的声音——音素
舌尖 元音
舌尖起主要作用改变 共鸣器形状而发的音
舌尖前元音 舌尖后元音
[ɿ] 不圆唇 [ɥ] 圆唇 [ʅ] 不圆唇 [ɥ]圆唇
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语谱图在1941年由贝尔实验室研究人员发明,它试图用三 维的方式显示语音频谱特性, 纵轴表示频率,横轴表示 时间,颜色的深浅表示特定频带的能量大小,语谱图的发 明是语音研究的一个里程碑,它将语音的许多特征直观的 呈现出来。
(3)时间分辨率高,可以清楚的看 到浊音共振峰时变过程
N=256
你 好 ” 窄 带 语 谱 图 灰 度 显 示 图
特点:(1)窗长长,可以 获得较高的频率分辨率。 (2)滤波器的带宽能在浊 音区分辨出每个谐波。(3) 语谱的谐波形式的结构在频 率方向清晰可见,并能看到 基音频率的时变过程。 22
N=2048
5
二、宽带语谱图的典型谱型
宽带语谱图的典型谱型: 宽横杠(Bar):代表元音的共振峰位置,表现为 图中与水平时间轴平行的较宽的黑杠,不同元音的 共振峰位置不同,根据宽带语谱图上各横杠的位置 可以区分不同的元音,不同人发音的第一共振峰位 置会不同,但其分布结构是相似的。
竖直条(spike)代表塞音(b,d,g,p,t,k)或塞 擦音(z,zh,j,c,ch,q),表现为图中与垂直频率轴 平行的较宽的黑条,在时间上持续时间很短,在频 率轴上集中区位置随不同的辅音而不同
Wideband spectrogram:给出共振峰频率 Narrowband spectrogram:基音周期及其谐波1112 13600500
400
300
200
100
0 0
10
20
30
40
50
60
70
N=1024 hamming window 幅度谱
600 500 400 300 200 100
语 谱 图 识 别
23
瀑布 语谱图(SPECTROGRAM) 时间、频率、幅值三维坐标, 频谱帧随时间
变化
24
彩色语谱图
发 “ah.”时的单元音 /a/
发 “eye”时的双元音 /ai/
发音 “real”
发音 “mean”
25
同一个人的语谱图 5个不同发音者发音“0”的语谱图
不同的讲话者 的语谱图具有 不同的“声 纹”。据此可 以区别说话人, 这与不同的人 有不同的指纹, 根据指纹可以 区别不同的人 是一个道理。
语谱图中显示了大量的与语音的语句特性有关的信息,它 综合了频谱图和时域波形的特点,明显地显示出语音频谱 随时间的变化情况,或者说是一种动态的频谱。
3
语谱图产生流程
语音录制
数据读入程序 信号分帧加窗
能量密度谱计算
功率谱伪彩色显示
语谱图显示
4
一、语谱图的分类
语谱图分为宽带语谱图和窄带语谱图两种。 宽带语谱图:带宽约为300Hz,具有良好的时
10
Matlab 命令:specgram
specgram computes the windowed discrete-time Fourier transform of a signal using a sliding window. The spectrogram is the magnitude of this function.
16
17
宽带语谱图:“毕业”语谱图
语谱图因 其不同的 黑白程度, 形成不同 的花纹, 被称作 “声纹”
18
“旷课”语谱图
❖从语谱图上可以看出语音的音调变化,蓝色的就是音调 19
“曼谷”语谱图
20
“受用”语谱图
21
“ “
语谱图分析
图你 好 ” 宽 带 语 谱 图 灰 度 显 示
特点:(1)窗长短,可以获得较高 的时间分辨率;(2)功率谱的谐波 结构在频率轴方向被平滑掉了,谐波 间隙被填平了,因此在频域看不出基 音频率和频谱的谐波形式结构,但可 以明显的看成共振峰结构和语谱包络
26
话者1发音“0”的结果
话者1另一次发音“0”的结果
27
话者1发音“0”的结果
28
话者2发音“0”的结果
3.6.2 语音信号特性分析
一首歌曲的截取语音段 29
3.6.2 语音信号特性分析
❖ 语音信号的特性主要指它的声学特性、语音 信号的时域波形和频谱特性以及语音信号的 统计特性。
❖ 关于声学特性前面已做了介绍,下面主要分 析它的时域波形和频谱特性。
30
汉语拼音“sou ke”的时间波
31
形
元音[ou]的频谱图
32
语音特性分析实例:Ten above in suburbs
33
34
35
36
37
38
辅音[s]的频谱
39
语音波形及特性
女声“他去无锡市”的时域波形图
40
对上段语音信号的分析:
❖ 这段语音的频率带宽为300-3400Hz ❖ 横轴为时间,纵轴为语音的幅度。 ❖ 采样频率为8kHz,持续时间为4s。 ❖ 时间轴压缩很短,只能看清该段语音的轮
廓,无法辨识语音波形的具体细节。
41
图女 声 “ 他 去 无 锡 市 ” 的 时 域 波 形 展 开
他
去
无 锡
市
42
竖直条(又叫冲直条)是语谱图中出现与时 间轴垂直的一条窄黑条。
每个竖直条相当于一个基音,条纹的起点相 当于声门脉冲的起点,条纹之间的距离表示 基音。条纹越密表示基音频率越高。
8
9
Every salt breeze comes form the sea Wide band
narrow band
这种反映语音信号动态频谱特性的时频图在语音
分析中具有重要的实用价值,被称为“可视语言”
7
语谱图分析
语谱图中的花纹有横杠、乱纹和竖直条等
横杠是与时间轴平行的几条黑色带纹,它们 是共振峰,从横杠对应的频率和带宽可以确 定相应的共振峰频率和带宽
在一个语音段的语谱图中,有没有横杠出现 是判断它是否是浊音的重要标志。
间分辨率,但是频率分辨率较差;
宽带语谱图能给出语音的共振峰频率及清辅 音的能量汇集区,在语谱图里共振峰呈现为 黑色的条纹。
窄带语谱图:带宽约为45Hz,具有良好的频率 分辨率,但是时间分辨率较差。
有利于显示基音频率及其各次谐波,不利于 观察共振峰的变化。
在不同的语谱图上所表现的语音特征也不同。
3.6 语音信号的 语谱图分析
3.6.1 语谱图分析 3.6.2 语音信号特性分析
1
3.6.1 语谱图分析
语音时域波形
对应的语谱图
一段语音的时域波形及其语谱图
2
语谱图
语音的时域分析和频域分析是语音分析的两种重要方法。 但是这两种方法均有局限性:
时域分析对语音信号的频率特性没有直观的了解;
特性中又没有语音信号随时间的变化关系。
0 0
10
20
30
40
50
60
70
14
1200 1000
800 600 400 200
0 0
10
20
30
40
50
60
70
N=2048 hamming window 幅度谱
1200 1000
800 600 400 200
0 0
10
20
30
40
50
60
70
15
欢迎使用微软中国研究院中文语音合成系统
的时域波形和语谱图
摩擦乱纹(fill):代表摩擦音(s,sh,x,f,h)或者 送气音的送气部分,表现为图中无规则的乱纹。
6
三、窄带语谱图的典型谱型
窄横条:代表元音的基音频率及各次谐波, 表现为图中与水平轴平行的线条,窄横条在 频率轴的位置对应了音高频率值,随时间轴 的曲折、升降变化代表了音高变化的模式
无声间隙段:对应于语音的停顿间隙,在图 中表现为空白区,在两种语谱图中都存在。