第二章语谱图

合集下载

语音信号处理PPT_第二章语音信号处理基础知识

• • •
把从肺部呼出的直流气流变为音源，即变为交流的断续流或乱流；喉对音源起共振和反共振的作用，使它带有音色；从嘴唇或鼻孔去空间辐射的作用；
肺把气流送入喉；喉将来自肺的气流调制为周期性脉冲或类似随机噪声的激励声源，并送入声道；声道对频谱进行润色后在嘴唇处的气压变化形成可以传播的声波。肺相当于动力源，喉相当于调制器，声道相当于滤波器和扩音器。
3.
韵母
38个韵母：8个单韵母，14个复韵母，16个鼻韵母。单韵母是由单元音构成的，如：a、o、e、i、u、u。复韵母是由复合元音构成的韵母，如：ai、ei、ao、ou等。鼻韵母是由鼻辅音“n”或“ng”收尾的韵母，如：an、en、 uan、ang、eng、iang等。韵母发音时声带是振动的，音强也较大，波形上可以看到大的振幅，而且呈现周期性。注意：元音不等同于韵母，元音、辅音是按音素的发音特征来分的；而声母、韵母则是按音节结构来分的。

2.5.2 语音信号的语谱图
声纹：语谱图上其不同的黑白程度，形成的不同的纹路。不同的人有不同的声纹，利用声纹进行说话人识别。横杆：与时间轴平行的几条深黑色条纹，对应共振峰。语谱图中有无横杆是判断是否是浊音的标志。竖直条：与时间轴垂直的窄黑条，每个竖直条相当于一个基音，条纹间隔表示基音周期。元音在语谱图上对应横杆（共振峰的存在）噪声和清擦音表现为乱纹。
2.1 语音和语言一、语音的定义
语音是由一连串的音组成语言的声音。
语言
语音
声音
对语言的研究分为两方面：语言学：各个音的排列规则及其含义的研究。语音学：各个音的物理特性和分类的研究。考虑的是语音的产生、感知等过程。三个主要的分支：发音语音学、声学语音学、听觉语音学。

语谱图

基于信号分析与处理的语谱图显示1 语谱图语音的发音过程中, 声道通常都是处于运动状态的, 因此它的共振峰特性也是时变的。

不过这个时变过程比起振动过程来说要缓慢得多, 因此一般可以假定它是短时平稳的, 每一时刻我们都可以用这时刻附近的一短段( 例如15ms) 语音信号分析得到一种频谱。

对语音信号连续地进行频谱分析就可以得到一种二维图谱, 其横坐标表示时间, 纵坐标表示频率, 而每像素的灰度值大小反映相应时刻和相应频率的信号能量密度。

这种时频图称为语谱图( Sonogram 或Spectrogam), 这种反映语音信号动态频谱特性的时频图在语音分析中有重要实用价值, 被视为可视语言。

从语谱图上不仅能看出任一时刻发音器官的共振峰特征,而且可以看出语音的基音频率, 是否清音、爆破音等。

语谱分析在语音识别、合成及编码中很有意义。

1.1 语谱图的产生基理语音信号是一种典型的非平稳信号, 但是其非平稳性是由发音器官的物理运动过程而产生的, 此过程与声波振动的速度相比较缓慢, 可以假定在10～30ms这样的短时间内是平稳的。

傅立叶分析是分析线性系统和平稳信号稳态特性的强有力的手段, 而短时傅里叶分析, 也叫时间依赖傅立叶变换, 就是在短时平稳的假定下, 用稳态分析方法处理非平稳信号的一种方法。

设离散时域采样信号为x(n), n=0,1,⋯,N- 1, 其中n 为时域采样点序号, N 是信号长度。

然后对信号进行分帧处理, 则x(n)表示为xn(m), n=0,1,⋯,N- 1, 其中n 是帧序号, m 是帧同步的时间序号, N 为帧长( 一帧内的采样点数) 。

信号{x(n)}短时傅里叶变换为:其中{w(n)}为窗序列, 则信号x(n)的离散时域傅里叶变换(DTFT) 为:采用离散傅里叶变换（DFT）得：则P(n,k)是二维的非负实值函数, 并且不难证明它是信号x(n)的短时自相关函数的傅里叶变换。

用时间n 作为横坐标, k 作纵坐标, 将P(n,k)的值表示为灰度级所构成的二维图像就是语谱图。

第2章-语音信号的数字模型

“十二五”普通高等教育本科国家级规划教材
2.2.4 耳蜗的信号处理机制
图2.6 耳蜗内流体波的简单表示
25
2.2 语音的听觉机理
“十二五”普通高等教育本科国家级规划教材
当声音经外耳传入中耳时，镫骨的运动引起耳蜗内流体压强的变化，从而引起行波沿基底膜的传播。图2.6是流体波的简单表示。在耳蜗的底部基底膜的硬度很高，流体波传播的很快。随着波的传播，膜的硬度变得越来越小，波的传播也逐渐变缓。不同频率的声音产生不同的行波，而峰值出现在基底膜的不同位置上。
有三部分作用施加在语音的声波上：
声门产生的激励模型G(z)；声道产生的调制函数V(z)；嘴唇产生的辐射函数R(z)。
语音信号的传递函数由这三个函数级联而成，
即： H(z)=G(z)V(z)R(z)
（2.1）
32
2.3 语音信号的线性模型
“十二五”普通高等教育本科国家级规划教材
2.3.1 激励模型
20
2.2 语音的听觉机理
“十二五”普通高等教育本科国家级规划教材
3. 内耳内耳是一个充
满液体的骨质结构，由前庭、圆形窗、卵形窗及耳蜗组成。
图2.5 耳蜗未展开时的内耳
21
2.2 语音的听觉机理
2.2.2
“十二五”普通高等教育本科国家级规划教材
听觉掩蔽效应
人耳听觉界限的频率范围大约为20Hz-20kHz。语音感知的强度范围是0－130dB声压级。响度这是频率和强度级的函数。
16
2.1 语音的发声机理
“十二五”普通高等教育本科国家级规划教材
共振峰频率或共振峰
声音产生后，便沿着声道进行传播。声道可以看成是一根具有非均匀截面的声管，在发音时起着共鸣器的作用。声音进入声道后，其频谱必定会受到声道的共振特性的影响，声道具有一组共振频率，称为共振峰频率或共振峰。声道的频谱特性便主要地反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道的形状和尺寸，因而不同的语音对应于一组不同的共振峰参数。

第二章语谱图分析.

因此人们致力于研究语音的时频分析特性，把和时序相关的傅里叶分析的显示图形称为语谱图。
语谱图在1941年由贝尔实验室研究人员发明，它试图用三维的方式显示语音频谱特性，纵轴表示频率，横轴表示时间，颜色的深浅表示特定频带的能量大小，语谱图的发明是语音研究的一个里程碑，它将语音的许多特征直观的呈现出来。
（3）时间分辨率高，可以清楚的看到浊音共振峰时变过程
N=256
你好 ” 窄带语谱图灰度显示图
特点：（1）窗长长，可以获得较高的频率分辨率。（2）滤波器的带宽能在浊音区分辨出每个谐波。（3）语谱的谐波形式的结构在频率方向清晰可见，并能看到基音频率的时变过程。 22
N=2048
5
二、宽带语谱图的典型谱型
宽带语谱图的典型谱型：宽横杠（Bar）：代表元音的共振峰位置，表现为图中与水平时间轴平行的较宽的黑杠，不同元音的共振峰位置不同，根据宽带语谱图上各横杠的位置可以区分不同的元音，不同人发音的第一共振峰位置会不同，但其分布结构是相似的。
竖直条（spike）代表塞音（b,d,g,p,t,k）或塞擦音（z,zh,j,c,ch,q）,表现为图中与垂直频率轴平行的较宽的黑条，在时间上持续时间很短，在频率轴上集中区位置随不同的辅音而不同
Wideband spectrogram：给出共振峰频率 Narrowband spectrogram：基音周期及其谐波1112 13600500
400
300
200
100
0 0
10
20
30
40
50
60
70
N=1024 hamming window 幅度谱
600 500 400 300 200 100

第二章人的听觉感知与声音信号-现代多媒体通信技术-阮秀凯-清华大学出版社

N 0.063100.03L
L 33.33lgN 40
图2-4 响度级和响亮的关系
• 2.2.2 听阈与痛阈
听阈即人耳能感受的声音频率和强度的范围，人耳刚好能感觉到其存在的声音的声压就是听阈，听阈对于不同频率的声波是不相同的。听阈是由某声音信号在多次实验中能引起的听觉的最小有效声压，听阈应根据许多正常常青年的耳朵测试结果求平均。试验求得的等响曲线中最低的一条零方（Phon）曲线就是听域曲线，它是纯音的最低可听声压的频率响应。
2.2 人耳的听觉特性
3 2.2.3 听觉定律
（2）听觉驻留
研究表明，人听到一个脉冲不是和它的强度有关，而是和强度与时间的乘积有关。直到时间相当长了（几十毫秒或一百多毫秒以上），才感觉声音还是那样响，只是时间延长而已。例如，一个短促的脉冲声，若强度不变，长度由1ms变为2ms，人昕起来不是长度变了，而是更响了。国际上已根据这个现象规定了测量脉冲声的电表响应应具有35ms的时间常数。
1距声源1m处的平均声压级65691520语言扩声演唱8011008080003040管风琴的频率范围更宽名族乐器的基频范围为1002000hz乐器1640003016000单个乐器0011003050交响乐能量集中范3020000大型交响乐10w1518件乐器乐队演出离乐队10m处的平均声压级951054060件大型交响乐队为100听觉2020000痛阈值1wm痛阈值120120hifi系统40160005055数字音频系统2020000709023声音信号表22语言和音乐的一些重要特性23声音信号图215其它声信号及其谱图24声音质量评价方法图215声质量涉及的因素
2.2 人耳的听觉特性
1 2.2.1 声强级和响度 2 2.2.2 听阈与痛阈 3 2.2.3 听觉定律 4 2.2.4 人耳的听觉效应

第二讲--一二章概要

第二讲--一二章概要
重要概念
表达—— 内容（content）、表达（expression）实体（substance）、形式（form）
形式实体
内容内容形式内容实体
表达表达形式表达实体
层次与体现层次与级阶
第二讲--一二章概要
第二章走向功能语法
2.1 语法的成分关系 2.2 最大括弧切分法和最小括弧切分法 2.3 标签 2.4 类和功能 2.5 主语、动作者、主位 2.6 小句的三重意义
第二讲--一二章概要
第二讲--一二章概要
第一二章总结
1.1 书写中的成分关系 1.2 言语中的成分关系 1.3 韵律：音步 1.4 语调：声调群 1.5 音节与音位 1.6 成分结构的意义 2.1 语法的成分关系 2.2 最大括弧切分法和最小括弧切分法 2.3 标签 2.4 类和功能 2.5 主语、动作者、主位 2.6 小句的三重意义
第二讲--一二章概要
第二讲--一二章概要
重要概念
句子、词、字母/字结构标记成分关系成分结构括弧法字音系统
[(To) (market) (to) (market) (to) (buy) (a) (fat) (pig)]
第二讲--一二章概要
1.2 言语中的成分关系；1.3 韵律：音步； 1.4 语调：声调群；1.5 音节和音位
第二讲--一二章概要
陌：一个句子必须而且不能不有一个主语。
费：是的……
陌：我给你说一个句子，由一个名词和一个动词把一个事物和一个动作组合在一起。你得告诉我这个句子说的是谁。
费：好的，我尽力而为。
陌：费亚提特坐着——句子不长。
费：不长。陌：这个句子说的是谁……你得告诉我这个句子说的主语是谁。

第二章语音信号处理基础知识

语谱图是一种三维频谱，它表示语音频谱随时间变化的图形，其纵轴为频率，横轴为时间，任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。语谱图中显示了大量的与语音的语句特性有关的信息，它综合了频谱图和时域波形的特点，明显地显示出语音频谱随时间的变化情况，或者说是一种动态的频谱。记录这种谱图的仪器就是语谱仪。
下面我们再看一下语音的时域波形和频谱特性：
10、语音信号的时域波形和频谱特性
时间域中，语音信号可以直接用时间波形表示出来，通过观察时间波形可以看出语音信号的一些重要特性。
观察语音信号时间波形的特性，可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别。
下图为汉语拼音“sou ke”的时间波形。表示这段语音波形时采用的采样频率为8kHz，量化精度为16bit。图上标明了时间及各个音节的起始位置。由于在时域波形里各个单音节间不好明显地分界，因此，图上标出的某个音的起点只是粗略的。
本章第二部分是语音信号的特性分析，包括语音的声学特性，时域波形，频谱特性和统计特性。首先来了解一下语音的声学特性。
7、语音信号的声学特性
语音是人的发声器官发出的一种声波，具有一定的音色、音调、音强和音长。音色也叫音质，是一种声音区别于另一种声音的基本特征；音调是指声音的高低，取决于声音的频率；音强是指声音的强弱，由声波的振幅决定；音长即声音的长短，取决于发音时间的长短。
6、语音学
Phonetics是研究言语过程的一门科学。它考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类问题。现代语音学发展成为三个分支：发音语音学、声学语音学以及听觉语音学。发音语音学研究语音产生机理，借助仪器观察发音器官，以确定发音部位和发音方法；声学语音学研究语音传递阶段的声学特性，与传统语音学和现代语音分析手段相结合，用声学和非平稳信号分析理论来解释各种语音现象；听觉语音学研究语音感知的生理和心理特性，即研究耳朵怎么听音的，大脑怎么理解语音的，语音信息在大脑中存储的部位和形式。

语言学概论第二章-(123)ppt课件

2021/7/6
.
第一节语音和语音学
•
语音特性
• • 语音特性 • • •
1.生理特性 2.物理特性 3.心理特性 4.社会特性
2021/7/6
.
第一节语音和语音学
• 1.语音的生理特性（发音器官部位及其活动、配合的方法） • （1）动力器官——肺和气管 • （2）发音器官——声带、软骨和肌肉 • （3）共鸣调节器——口腔、鼻腔和咽腔
2021/7/6
.
第二节语言的声音——音节5
• 音节的结构层次
1.汉语音韵学
（1）最多由四个因素成分组合，其中韵腹不可少；（2）无复辅音，声母只占一个位置；（3）分声母、韵母，每个音节有声调；（4）一个字为一个音节，音节界限分明；（5）辅音韵尾比元音韵尾少。
点汉语音节特
2.音段
克列曼和凯瑟认为音节没有什么内在结构，同属一个音节的音段彼此关系相等
特性
由共鸣器形状决定
根据口腔舌头起作用的部位
1.舌面元音 2.舌尖元音
口元音
2021/7/6
.
第二节语言的声音——音素
舌面元音
1.什么是舌面元音？
2.区分舌面元音的根据？
3.基本元音有哪8 个？
舌面元音是舌面起主要作用改变共鸣器形状而发出的音。
根据舌位的高低、前后、唇形的圆展区分不同的舌面元音。
[i]、[e]、[ɛ]、[a] [ɑ]、[o]、[Ɔ]、[u]
2021/7/6
.
第二节语言的声音——音素
舌尖元音
舌尖起主要作用改变共鸣器形状而发的音
舌尖前元音舌尖后元音
[ɿ] 不圆唇 [ɥ] 圆唇 [ʅ] 不圆唇 [ɥ]圆唇

语音信号处理-第02章语音信号的产生、特征与人耳的听觉特性

语音信号处理Speech Signal Processing长春工业大学图像工程研究所史东承教授dcshi@ 2010.8第二章语音信号的产生、特征与人耳的听觉特性§2.1 语音信号的产生鼻腔软腭口腔鼻子嘴巴气管声带人类发音器官示意图发音器官：产生语音的器官1)肺和气管：能源与能量传输； 2)咽喉：振动源，包括声带和声门； 3)声道（声门到嘴唇的呼气通道）：谐振腔 (包括口腔、鼻腔等)； 4)其他发音器官：包括嘴唇、齿、舌、面颊等，使谐振腔改变形状。

1发音机理• 喉位于气管的上端，实际上是气管末端一圈软骨构成的一个框架，前方稍高处的软骨称为甲状软骨，前后方环成一圈的称为喉部环形软骨，喉中两片肌肉称为声带，声带之间的空隙为声门。

• 当声带张开时，声门打开，空气可自由呼出，正常呼吸就处于这种情况；当声带闭合，声门关闭。

当说话时，声带在软骨的作用下相互靠近但不完全闭合，声门变成一条窄缝，当气流通过窄缝时压力减小，外界压力大，从而两片声带完全闭合使得气流不能通过，当气声带靠拢流阻断时压力恢复正常，推开两片声带，声门再次打开，气流再次流过。

声带的开启和闭合称为振动。

这一振动过程周而复始，形成了一串周期性脉冲气流送入声道。

这个过程发出的音称为浊音。

如汉语发音的[a]、[i]、 [u]和[o]等。

Tp 基音周期男声发音“我的语音”的时域波形和语谱图2第二章语音信号的产生、特征与人耳的听觉特性§2.2 语音信号的分类声学语音学，根据激励方式划分：（1）浊音(Voiced Speech)，又称为有声语音基音（pitch）：声道打开，声带在先打开后关闭，气流经过使声带要发生张驰振动，变为准周期振动气流。

浊音的激励源被等效为准周期的脉冲信号。

（2）清音(Unvoiced Speech)，又称为无声语音：声带不振动，而在某处保持收缩，气流在声道里收缩后高速通过产生湍流，再经过主声道（咽、口腔）的调整最终形成清音。

语音信号分析的课程设计

语音信号分析的课程设计一、课程目标知识目标：1. 理解并掌握语音信号的基础知识和分析方法，包括语音信号的时域、频域特性。

2. 学习并识别不同语音特征参数，如振幅、频率、共振峰等，及其在语音信号分析中的应用。

3. 掌握语音信号的数字化过程，理解采样、量化等基本概念。

技能目标：1. 能够运用所学知识，使用软件工具对语音信号进行基本分析，如绘制频谱图、语谱图。

2. 培养学生通过分析语音信号，识别和改进语音质量的能力，例如去噪、增强等。

3. 能够设计简单的语音信号处理程序，提高解决实际问题的能力。

情感态度价值观目标：1. 培养学生对语音信号分析的兴趣，激发其探索声音世界的热情。

2. 增强学生的团队协作意识，通过小组合作完成任务，学会相互尊重和沟通。

3. 通过对语音信号处理的学习，引导学生关注其在生活中的应用，如智能助手、语音识别等，培养学生的创新意识和实践能力。

本课程针对高年级学生，结合其已具备的基础知识和抽象思维能力，设计具有挑战性和实用性的教学内容。

课程性质偏重理论与实验相结合，强调在理论学习的基础上，通过实际操作加深理解，达到学以致用的目的。

在教学过程中，注重引导学生主动探究，激发学习兴趣，培养学生解决实际问题的能力。

通过具体的学习成果分解，使学生在知识、技能和情感态度价值观方面得到全面提升。

二、教学内容1. 语音信号基础概念：包括语音信号的物理特性、心理声学基础，介绍声音的产生、传播和接收过程。

教材章节：第一章语音信号概述内容列举：声音的三要素、声波图、听觉特性。

2. 语音信号的数字化：讲解采样、量化、编码等基本概念，以及语音信号在计算机中的表示方法。

教材章节：第二章语音信号的数字化内容列举：采样定理、量化方法、编码技术。

3. 语音信号的时频分析：介绍短时傅里叶变换、语谱图等分析方法，以及如何提取语音信号的频域特征。

教材章节：第三章语音信号的时频分析内容列举：短时傅里叶变换、语谱图、频谱特征提取。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

汉语拼音“sou ke”的时间波形
元音[ou]的频谱图
语音特性分析实例：Ten above in suburbs
辅音[s]的频谱
语音波形及特性女声“他去无锡市”的时域波形图
对上段语音信号的分析：
❖ 这段语音的频率带宽为300-3400Hz ❖ 横轴为时间，纵轴为语音的幅度。 ❖ 采样频率为8kHz，持续时间为4s。 ❖ 时间轴压缩很短，只能看清该段语音的轮廓，无法辨识语音波形的具体细节。
10
20
30
40
50
60
70
N=1024 hamming window 幅度谱
600 500 400 300 200 100
0 0
10
20
30
40
50
60
70
1200 1000
800 600 400 200
0 0
10
20
30
40
50
60
70
N=2048 hamming window 幅度谱
1200 1000
“受用”语谱图
“ “
语谱图分析
你好 ” 宽带语谱图灰度显示图
你好 ” 窄带语谱图灰度显示图
特点：（1）窗长短，可以获得较高的时间分辨率；（2）功率谱的谐波结构在频率轴方向被平滑掉了，谐波间隙被填平了，因此在频域看不出基音频率和频谱的谐波形式结构，但可以明显的看成共振峰结构和语谱包络
彩色语谱图发 “ah.”时的单元音 /a/
发音 “real”
发 “eye”时的双元音 /ai/ 发音 “mean”
同一个人的语谱图
不同的讲话者的语谱图具有不同的“声纹”。据此可以区别说话人，这与不同的人有不同的指纹，根据指纹可以区别不同的人是一个道理。
5个不同发音者发音“0”的语谱图
（3）时间分辨率高，可以清楚的看到浊音共振峰时变过程
特点：（1）窗长长，可以获得较高的频率分辨率。（2）滤波器的带宽能在浊音区分辨出每个谐波。（3）语谱的谐波形式的结构在频率方向清晰可见，并能看到基音频率的时变过程。
N=256
N=2048
语谱图识别
瀑布语谱图（SPECTROGRAM）时间、频率、幅值三维坐标，频谱帧随时间变化
话者1发音“0”的结果话者1另一次发音“0”的结果
话者1发音“0”的结果话者2发音“0”的结果
3.6.2 语音信号特性分析一首歌曲的截取语音段
3.6.2 语音信号特性分析
❖ 语音信号的特性主要指它的声学特性、语音信号的时域波形和频谱特性以及语音信号的统计特性。 ❖ 关于声学特性前面已做了介绍，下面主要分析它的时域波形和频谱特性。
第二章语谱图
3.6.1 语谱图分析
语音时域波形
一段语音的时域波形及其语谱图
对应的语谱图
语谱图
语音的时域分析和频域分析是语音分析的两种重要方法。但是这两种方法均有局限性：时域分析对语音信号的频率特性没有直观的了解；特性中又没有语音信号随时间的变化关系。
因此人们致力于研究语音的时频分析特性，把和时序相关的傅里叶分析的显示图形称为语谱图。语谱图在1941年由贝尔实验室研究人员发明，它试图用三维的方式显示语音频谱特性，纵轴表示频
率，横轴表示时间，颜色的深浅表示特定频带的能量大小，语谱图的发明是语音研究的一个里程碑，它将语音的许多特征直观的呈现出来。语谱图中显示了大量的与语音的语句特性有关的信息，它综合了频谱图和时域波形的特点，明显地显示出语音频谱随时间的变化情况，或者说是一种动态的频谱。
语谱图产生流程
语音录制
数据读入程序
语谱图分析语谱图中的花纹有横杠、乱纹和竖直条等
横杠是与时间轴平行的几条黑色带纹，它们是共振峰，从横杠对应的频率和带宽可以确定相应的共振峰频率和带宽
在一个语音段的语谱图中，有没有横杠出现是判断它是否是浊音的重要标志。竖直条（又叫冲直条）是语谱图中出现与时间轴垂直的一条窄黑条。
每个竖直条相当于一个基音，条纹的起点相当于声门脉冲的起点，条纹之间的距离表示基音。条纹越密表示基音频率越高。
sliding window. The spectrogram is the magnitude of this function.
Wideband spectrogram：给出共振峰频率 Narrowband spectrogram：基音周期及其谐波
600
500
400
300
200
100
0 0
三、窄带语谱图的典型谱型窄横条：代表元音的基音频率及各次谐波，表现为图中与水平轴平行的线条，窄横条在频率轴
的位置对应了音高频率值，随时间轴的曲折、升降变化代表了音高变化的模式无声间隙段：对应于语音的停顿间隙，在图中表现为空白区，在两种语谱图中都存在。
这种反映语音信号动态频谱特性的时频图在语音分析中具有重要的实用价值，被称为“可视语言”
女
声
“
他
他
去
无
锡
市
”
的
时域
去
波
形
展
开
图
无
锡
市
谢谢观赏
Every salt breeze comes form the sea
Wide band narrowband
Matlab 命令：specgram specgram computes the windowed discrete-time Fourier transform of a signal using a
信号分帧加窗
能量密度谱计算
功率谱伪彩色显示
语谱图显示
ห้องสมุดไป่ตู้
一、语谱图的分类
语谱图分为宽带语谱图和窄带语谱图两种。宽带语谱图：带宽约为300Hz，具有良好的时间分辨率，但是频率分辨率较差；
宽带语谱图能给出语音的共振峰频率及清辅音的能量汇集区，在语谱图里共振峰呈现为黑色的条纹。
窄带语谱图：带宽约为45Hz,具有良好的频率分辨率，但是时间分辨率较差。有利于显示基音频率及其各次谐波，不利于观察共振峰的变化。
在不同的语谱图上所表现的语音特征也不同。
二、宽带语谱图的典型谱型
宽带语谱图的典型谱型：宽横杠（Bar）：代表元音的共振峰位置，表现为图中与水平时间轴平行的较宽的黑杠，不同元音的共振峰位置不同，根据宽带语谱图上各横杠的位置可以区分不同的元音，不同人发音的第一共振峰位置会不同，但其分布结构是相似的。竖直条（spike）代表塞音（b,d,g,p,t,k）或塞擦音（z,zh,j,c,ch,q）,表现为图中与垂直频率轴平行的较宽的黑条，在时间上持续时间很短，在频率轴上集中区位置随不同的辅音而不同摩擦乱纹（fill）:代表摩擦音（s,sh,x,f,h）或者送气音的送气部分，表现为图中无规则的乱纹。
800 600 400 200
0 0
10
20
30
40
50
60
70
欢迎使用微软中国研究院中文语音合成系统的时域波形和语谱图
宽带语谱图：“毕业”语谱图
语谱图因其不同的黑白程度，形成不同的花纹，被称作 “声纹”
“旷课”语谱图 ❖从语谱图上可以看出语音的音调变化，蓝色的就是音调
“曼谷”语谱图