第二章语谱图
语音信号处理PPT_第二章 语音信号处理基础知识

把从肺部呼出的直流气流变为音源,即变为交流的断续 流或乱流; 喉对音源起共振和反共振的作用,使它带有音色; 从嘴唇或鼻孔去空间辐射的作用;
肺把气流送入喉;喉将来自肺的气流调制为周期性脉冲或类 似随机噪声的激励声源,并送入声道;声道对频谱进行润色 后在嘴唇处的气压变化形成可以传播的声波。 肺相当于动力源,喉相当于调制器,声道相当于滤波器和扩 音器。
3.
韵母
38个韵母:8个单韵母,14个复韵母,16个鼻韵母。 单韵母是由单元音构成的,如:a、o、e、i、u、u。 复韵母是由复合元音构成的韵母,如:ai、ei、ao、ou等。 鼻韵母是由鼻辅音“n”或“ng”收尾的韵母,如:an、en、 uan、ang、eng、iang等。 韵母发音时声带是振动的,音强也较大,波形上可以看到大 的振幅,而且呈现周期性。 注意:元音不等同于韵母,元音、辅音是按音素的发音特征 来分的;而声母、韵母则是按音节结构来分的。
2.5.2 语音信号的语谱图
声纹:语谱图上其不同的黑白程度, 形成的不同的纹路。不同的人有不同的 声纹,利用声纹进行说话人识别。 横杆:与时间轴平行的几条深黑色 条纹,对应共振峰。语谱图中有无横杆 是判断是否是浊音的标志。 竖直条:与时间轴垂直的窄黑条, 每个竖直条相当于一个基音,条纹间隔 表示基音周期。 元音在语谱图上对应横杆(共振峰的存在) 噪声和清擦音表现为乱纹。
2.1 语音和语言 一、语音的定义
语音是由一连串的音组成语言的声音。
语言
语音
声音
对语言的研究分为两方面: 语言学:各个音的排列规则及其含义的研究。 语音学:各个音的物理特性和分类的研究。考虑的是语 音的产生、感知等过程。三个主要的分支:发音语音学、 声学语音学、听觉语音学。
语谱图

基于信号分析与处理的语谱图显示1 语谱图语音的发音过程中, 声道通常都是处于运动状态的, 因此它的共振峰特性也是时变的。
不过这个时变过程比起振动过程来说要缓慢得多, 因此一般可以假定它是短时平稳的, 每一时刻我们都可以用这时刻附近的一短段( 例如15ms) 语音信号分析得到一种频谱。
对语音信号连续地进行频谱分析就可以得到一种二维图谱, 其横坐标表示时间, 纵坐标表示频率, 而每像素的灰度值大小反映相应时刻和相应频率的信号能量密度。
这种时频图称为语谱图( Sonogram 或Spectrogam), 这种反映语音信号动态频谱特性的时频图在语音分析中有重要实用价值, 被视为可视语言。
从语谱图上不仅能看出任一时刻发音器官的共振峰特征,而且可以看出语音的基音频率, 是否清音、爆破音等。
语谱分析在语音识别、合成及编码中很有意义。
1.1 语谱图的产生基理语音信号是一种典型的非平稳信号, 但是其非平稳性是由发音器官的物理运动过程而产生的, 此过程与声波振动的速度相比较缓慢, 可以假定在10~30ms这样的短时间内是平稳的。
傅立叶分析是分析线性系统和平稳信号稳态特性的强有力的手段, 而短时傅里叶分析, 也叫时间依赖傅立叶变换, 就是在短时平稳的假定下, 用稳态分析方法处理非平稳信号的一种方法。
设离散时域采样信号为x(n), n=0,1,⋯,N- 1, 其中n 为时域采样点序号, N 是信号长度。
然后对信号进行分帧处理, 则x(n)表示为xn(m), n=0,1,⋯,N- 1, 其中n 是帧序号, m 是帧同步的时间序号, N 为帧长( 一帧内的采样点数) 。
信号{x(n)}短时傅里叶变换为:其中{w(n)}为窗序列, 则信号x(n)的离散时域傅里叶变换(DTFT) 为:采用离散傅里叶变换(DFT)得:则P(n,k)是二维的非负实值函数, 并且不难证明它是信号x(n)的短时自相关函数的傅里叶变换。
用时间n 作为横坐标, k 作纵坐标, 将P(n,k)的值表示为灰度级所构成的二维图像就是语谱图。
第2章-语音信号的数字模型

“十二五”普通高等教育本科国家级规划教材
2.2.4 耳蜗的信号处理机制
图2.6 耳蜗内流体波的简单表示
25
2.2 语音的听觉机理
“十二五”普通高等教育本科国家级规划教材
当声音经外耳传入中耳时,镫骨的运动引起 耳蜗内流体压强的变化,从而引起行波沿基底膜的 传播。图2.6是流体波的简单表示。在耳蜗的底部 基底膜的硬度很高,流体波传播的很快。随着波的 传播,膜的硬度变得越来越小,波的传播也逐渐变 缓。不同频率的声音产生不同的行波,而峰值出现 在基底膜的不同位置上。
有三部分作用施加在语音的声波上:
声门产生的激励模型G(z); 声道产生的调制函数V(z); 嘴唇产生的辐射函数R(z)。
语音信号的传递函数由这三个函数级联而成,
即: H(z)=G(z)V(z)R(z)
(2.1)
32
2.3 语音信号的线性模型
“十二五”普通高等教育本科国家级规划教材
2.3.1 激励模型
20
2.2 语音的听觉机理
“十二五”普通高等教育本科国家级规划教材
3. 内耳 内耳是一个充
满液体的骨质结构, 由前庭、圆形窗、 卵形窗及耳蜗组成。
图2.5 耳蜗未展开时的内耳
21
2.2 语音的听觉机理
2.2.2
“十二五”普通高等教育本科国家级规划教材
听觉掩蔽效应
人耳听觉界限的频率范围大约为20Hz-20kHz。 语音感知的强度范围是0-130dB声压级。 响度 这是频率和强度级的函数。
16
2.1 语音的发声机理
“十二五”普通高等教育本科国家级规划教材
共振峰频率或共振峰
声音产生后,便沿着声道进行传播。声道可 以看成是一根具有非均匀截面的声管,在发音时 起着共鸣器的作用。声音进入声道后,其频谱必 定会受到声道的共振特性的影响,声道具有一组 共振频率,称为共振峰频率或共振峰。声道的频 谱特性便主要地反映出这些共振峰的不同位置以 及各个峰的频带宽度。共振峰及其带宽取决于声 道的形状和尺寸,因而不同的语音对应于一组不 同的共振峰参数。
第二章语谱图分析.

语谱图在1941年由贝尔实验室研究人员发明,它试图用三 维的方式显示语音频谱特性, 纵轴表示频率,横轴表示 时间,颜色的深浅表示特定频带的能量大小,语谱图的发 明是语音研究的一个里程碑,它将语音的许多特征直观的 呈现出来。
(3)时间分辨率高,可以清楚的看 到浊音共振峰时变过程
N=256
你 好 ” 窄 带 语 谱 图 灰 度 显 示 图
特点:(1)窗长长,可以 获得较高的频率分辨率。 (2)滤波器的带宽能在浊 音区分辨出每个谐波。(3) 语谱的谐波形式的结构在频 率方向清晰可见,并能看到 基音频率的时变过程。 22
N=2048
5
二、宽带语谱图的典型谱型
宽带语谱图的典型谱型: 宽横杠(Bar):代表元音的共振峰位置,表现为 图中与水平时间轴平行的较宽的黑杠,不同元音的 共振峰位置不同,根据宽带语谱图上各横杠的位置 可以区分不同的元音,不同人发音的第一共振峰位 置会不同,但其分布结构是相似的。
竖直条(spike)代表塞音(b,d,g,p,t,k)或塞 擦音(z,zh,j,c,ch,q),表现为图中与垂直频率轴 平行的较宽的黑条,在时间上持续时间很短,在频 率轴上集中区位置随不同的辅音而不同
Wideband spectrogram:给出共振峰频率 Narrowband spectrogram:基音周期及其谐波1112 13600500
400
300
200
100
0 0
10
20
30
40
50
60
70
N=1024 hamming window 幅度谱
600 500 400 300 200 100
第二章 人的听觉感知与声音信号-现代多媒体通信技术-阮秀凯-清华大学出版社

L 33.33lgN 40
图2-4 响度级和响亮的关系
• 2.2.2 听阈与痛阈
听阈即人耳能感受的声音频率和强度的范围,人耳刚 好能感觉到其存在的声音的声压就是听阈,听阈对于不同 频率的声波是不相同的。听阈是由某声音信号在多次实验 中能引起的听觉的最小有效声压,听阈应根据许多正常常 青年的耳朵测试结果求平均。试验求得的等响曲线中最低 的一条零方(Phon)曲线就是听域曲线,它是纯音的最低 可听声压的频率响应。
2.2 人耳的听觉特性
3 2.2.3 听觉定律
(2)听觉驻留
研究表明,人听到一个脉冲不是和它的强度有关,而 是和强度与时间的乘积有关。直到时间相当长了(几 十毫秒或一百多毫秒以上),才感觉声音还是那样响, 只是时间延长而已。例如,一个短促的脉冲声,若强 度不变,长度由1ms变为2ms,人昕起来不是长度变 了,而是更响了。国际上已根据这个现象规定了测量 脉冲声的电表响应应具有35ms的时间常数。
1距声源1m处的平均声压级65691520语言扩声演唱8011008080003040管风琴的频率范围更宽名族乐器的基频范围为1002000hz乐器1640003016000单个乐器0011003050交响乐能量集中范3020000大型交响乐10w1518件乐器乐队演出离乐队10m处的平均声压级951054060件大型交响乐队为100听觉2020000痛阈值1wm痛阈值120120hifi系统40160005055数字音频系统2020000709023声音信号表22语言和音乐的一些重要特性23声音信号图215其它声信号及其谱图24声音质量评价方法图215声质量涉及的因素
2.2 人耳的听觉特性
1 2.2.1 声强级和响度 2 2.2.2 听阈与痛阈 3 2.2.3 听觉定律 4 2.2.4 人耳的听觉效应
第二讲--一二章概要

第二讲--一二章概要
重要概念
表达—— 内容(content)、表达(expression) 实体(substance)、形式(form)
形式 实体
内容 内容形式 内容实体
表达 表达形式 表达实体
层次与体现 层次与级阶
第二讲--一二章概要
第二章 走向功能语法
2.1 语法的成分关系 2.2 最大括弧切分法和最小括弧切分法 2.3 标签 2.4 类和功能 2.5 主语、动作者、主位 2.6 小句的三重意义
第二讲--一二章概要
第二讲--一二章概要
第一二章总结
1.1 书写中的成分关系 1.2 言语中的成分关系 1.3 韵律:音步 1.4 语调:声调群 1.5 音节与音位 1.6 成分结构的意义 2.1 语法的成分关系 2.2 最大括弧切分法和最小括弧切分法 2.3 标签 2.4 类和功能 2.5 主语、动作者、主位 2.6 小句的三重意义
第二讲--一二章概要
第二讲--一二章概要
重要概念
句子、词、字母/字 结构标记 成分关系 成分结构 括弧法 字音系统
[(To) (market) (to) (market) (to) (buy) (a) (fat) (pig)]
第二讲--一二章概要
1.2 言语中的成分关系;1.3 韵律:音步; 1.4 语调:声调群;1.5 音节和音位
第二讲--一二章概要
陌:一个句子必须而且不能不有一个主语。
费:是的……
陌:我给你说一个句子,由一个名词和一个动词把一 个事物和一个动作组合在一起。你得告诉我这个句子 说的是谁。
费:好的,我尽力而为。
陌:费亚提特坐着——句子不长。
费:不长。陌:这个句子说的是谁……你得告诉我这 个句子说的主语是谁。
第二章 语音信号处理基础知识
下面我们再看一下语音的时域波形和频谱特性:
10、语音信号的时域波形和频谱特性
时间域中,语音信号可以直接用时间波形表示出来,通过观察时间波形可以看出语音信号的一些重要特性。
观察语音信号时间波形的特性,可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别。
下图为汉语拼音“sou ke”的时间波形。表示这段语音波形时采用的采样频率为8kHz,量化精度为16bit。图上标明了时间及各个音节的起始位置。由于在时域波形里各个单音节间不好明显地分界,因此,图上标出的某个音的起点只是粗略的。
本章第二部分是语音信号的特性分析,包括语音的声学特性,时域波形,频谱特性和统计特性。首先来了解一下语音的声学特性。
7、语音信号的声学特性
语音是人的发声器官发出的一种声波,具有一定的音色、音调、音强和音长。音色也叫音质,是一种声音区别于另一种声音的基本特征;音调是指声音的高低,取决于声音的频率;音强是指声音的强弱,由声波的振幅决定;音长即声音的长短,取决于发音时间的长短。
6、语音学
Phonetics是研究言语过程的一门科学。它考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类问题。现代语音学发展成为三个分支:发音语音学、声学语音学以及听觉语音学。发音语音学研究语音产生机理,借助仪器观察发音器官,以确定发音部位和发音方法;声学语音学研究语音传递阶段的声学特性,与传统语音学和现代语音分析手段相结合,用声学和非平稳信号分析理论来解释各种语音现象;听觉语音学研究语音感知的生理和心理特性,即研究耳朵怎么听音的,大脑怎么理解语音的,语音信息在大脑中存储的部位和形式。
语言学概论第二章-(123)ppt课件
2021/7/6
.
第一节 语音和语音学
•
语音特性
• • 语音特性 • • •
1.生理特性 2.物理特性 3.心理特性 4.社会特性
2021/7/6
.
第一节 语音和语音学
• 1.语音的生理特性(发音器官部位及其活动、配合的方法) • (1)动力器官——肺和气管 • (2)发音器官——声带、软骨和肌肉 • (3)共鸣调节器——口腔、鼻腔和咽腔
2021/7/6
.
第二节 语言的声音——音节5
• 音节的结构层次
1.汉语音韵学
(1)最多由四个因素成分组合,其中韵腹不可少; (2)无复辅音,声母只占一个位置; (3)分声母、韵母,每个音节有声调; (4)一个字为一个音节,音节界限分明; (5)辅音韵尾比元音韵尾少。
点汉 语 音 节 特
2.音段
克列曼和凯瑟认为音节没有什么内在结构,同属一个音节的音段 彼此关系相等
特性
由共鸣器形状决定
根据口腔舌头 起作用的部位
1.舌面元音 2.舌尖元音
口元音
2021/7/6
.
第二节 语言的声音——音素
舌面 元音
1.什么是舌面元 音?
2.区分舌面元音 的根据?
3.基本元音有哪8 个?
舌面元音是舌面起 主要作用改变共鸣 器形状而发出的音。
根据舌位的高低、 前后、唇形的圆展 区分不同的舌面元 音。
[i]、[e]、[ɛ]、[a] [ɑ]、[o]、[Ɔ]、[u]
2021/7/6
.
第二节 语言的声音——音素
舌尖 元音
舌尖起主要作用改变 共鸣器形状而发的音
舌尖前元音 舌尖后元音
[ɿ] 不圆唇 [ɥ] 圆唇 [ʅ] 不圆唇 [ɥ]圆唇
语音信号处理-第02章 语音信号的产生、特征与人耳的听觉特性
语音信号处理Speech Signal Processing长春工业大学图像工程研究所 史东承教授dcshi@ 2010.8第二章 语音信号的产生、特征 与人耳的听觉特性§2.1 语音信号的产生鼻腔 软腭 口腔 鼻子嘴巴气管 声带人类发音器官示意图发音器官:产生语音的器官1)肺和气管:能源与能量传输; 2)咽喉:振动源,包括声带和声门; 3)声道(声门到嘴唇的呼气通道):谐振腔 (包括口腔、鼻腔等); 4)其他发音器官:包括嘴唇、齿、舌、面颊 等,使谐振腔改变形状。
1发音机理• 喉位于气管的上端,实际 上是气管末端一圈软骨构 成的一个框架,前方稍高 处的软骨称为甲状软骨, 前后方环成一圈的称为喉 部环形软骨,喉中两片肌 肉称为声带,声带之间的 空隙为声门。
• 当声带张开时,声门打 开,空气可自由呼出,正 常呼吸就处于这种情况; 当声带闭合,声门关闭。
当说话时,声带在软骨的作用下相互靠 近但不完全闭合,声门变成一条窄缝,当气 流通过窄缝时压力减小,外界压力大,从而 两片声带完全闭合使得气流不能通过,当气 声带靠拢 流阻断时压力恢复正常,推开两片声带,声 门再次打开,气流再次流过。
声带的开启和闭合称 为振动。
这一振动过程周 而复始,形成了一串周期 性脉冲气流送入声道。
这 个过程发出的音称为浊音。
如汉语发音的[a]、[i]、 [u]和[o]等。
Tp 基音周期男声发音“我的语音”的时域波形和语谱图2第二章 语音信号的产生、特征 与人耳的听觉特性§2.2 语音信号的分类 声学语音学,根据激励方式划分:(1)浊音(Voiced Speech),又称为有声语音基音(pitch): 声道打开,声带在先打开后关闭,气流经过使声带要发生张 驰振动,变为准周期振动气流。
浊音的激励源被等效为准周 期的脉冲信号。
(2)清音(Unvoiced Speech),又称为无声语音:声带不振 动,而在某处保持收缩,气流在声道里收缩后高速通过产生 湍流,再经过主声道(咽、口腔)的调整最终形成清音。
语音信号分析的课程设计
语音信号分析的课程设计一、课程目标知识目标:1. 理解并掌握语音信号的基础知识和分析方法,包括语音信号的时域、频域特性。
2. 学习并识别不同语音特征参数,如振幅、频率、共振峰等,及其在语音信号分析中的应用。
3. 掌握语音信号的数字化过程,理解采样、量化等基本概念。
技能目标:1. 能够运用所学知识,使用软件工具对语音信号进行基本分析,如绘制频谱图、语谱图。
2. 培养学生通过分析语音信号,识别和改进语音质量的能力,例如去噪、增强等。
3. 能够设计简单的语音信号处理程序,提高解决实际问题的能力。
情感态度价值观目标:1. 培养学生对语音信号分析的兴趣,激发其探索声音世界的热情。
2. 增强学生的团队协作意识,通过小组合作完成任务,学会相互尊重和沟通。
3. 通过对语音信号处理的学习,引导学生关注其在生活中的应用,如智能助手、语音识别等,培养学生的创新意识和实践能力。
本课程针对高年级学生,结合其已具备的基础知识和抽象思维能力,设计具有挑战性和实用性的教学内容。
课程性质偏重理论与实验相结合,强调在理论学习的基础上,通过实际操作加深理解,达到学以致用的目的。
在教学过程中,注重引导学生主动探究,激发学习兴趣,培养学生解决实际问题的能力。
通过具体的学习成果分解,使学生在知识、技能和情感态度价值观方面得到全面提升。
二、教学内容1. 语音信号基础概念:包括语音信号的物理特性、心理声学基础,介绍声音的产生、传播和接收过程。
教材章节:第一章 语音信号概述内容列举:声音的三要素、声波图、听觉特性。
2. 语音信号的数字化:讲解采样、量化、编码等基本概念,以及语音信号在计算机中的表示方法。
教材章节:第二章 语音信号的数字化内容列举:采样定理、量化方法、编码技术。
3. 语音信号的时频分析:介绍短时傅里叶变换、语谱图等分析方法,以及如何提取语音信号的频域特征。
教材章节:第三章 语音信号的时频分析内容列举:短时傅里叶变换、语谱图、频谱特征提取。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉语拼音“sou ke”的时间波形
元音[ou]的频谱图
语音特性分析实例:Ten above in suburbs
辅音[s]的频谱
语音波形及特性 女声“他去无锡市”的时域波形图
对上段语音信号的分析:
❖ 这段语音的频率带宽为300-3400Hz ❖ 横轴为时间,纵轴为语音的幅度。 ❖ 采样频率为8kHz,持续时间为4s。 ❖ 时间轴压缩很短,只能看清该段语音的轮廓,无法辨识语音波形的具体细节。
10
20
30
40
50
60
70
N=1024 hamming window 幅度谱
600 500 400 300 200 100
0 0
10
20
30
40
50
60
70
1200 1000
800 600 400 200
0 0
10
20
30
40
50
60
70
N=2048 hamming window 幅度谱
1200 1000
“受用”语谱图
“ “
语谱图分析
你 好 ” 宽 带 语 谱 图 灰 度 显 示 图
你 好 ” 窄 带 语 谱 图 灰 度 显 示 图
特点:(1)窗长短,可以获得较高的时间分辨 率;(2)功率谱的谐波结构在频率轴方向被平 滑掉了,谐波间隙被填平了,因此在频域看不 出基音频率和频谱的谐波形式结构,但可以明 显的看成共振峰结构和语谱包络
彩色语谱图 发 “ah.”时的单元音 /a/
发音 “real”
发 “eye”时的双元音 /ai/ 发音 “mean”
同一个人的语谱图
不同的讲话者的语谱图 具有不同的“声纹”。 据此可以区别说话人, 这与不同的人有不同的 指纹,根据指纹可以区 别不同的人是一个道理。
5个不同发音者发音“0”的语谱图
(3)时间分辨率高,可以清楚的看到浊音共振 峰时变过程
特点:(1)窗长长,可以获得较高的频率分辨 率。(2)滤波器的带宽能在浊音区分辨出每个 谐波。(3)语谱的谐波形式的结构在频率方向 清晰可见,并能看到基音频率的时变过程。
N=256
N=2048
语 谱 图 识 别
瀑布 语谱图(SPECTROGRAM) 时间、频率、幅值三维坐标, 频谱帧随时间变化
话者1发音“0”的结果 话者1另一次发音“0”的结果
话者1发音“0”的结果 话者2发音“0”的结果
3.6.2 语音信号特性分析 一首歌曲的截取语音段
3.6.2 语音信号特性分析
❖ 语音信号的特性主要指它的声学特性、语音信号的时域波形和频谱特性以及语音信号的统计特性。 ❖ 关于声学特性前面已做了介绍,下面主要分析它的时域波形和频谱特性。
第二章语谱图
3.6.1 语谱图分析
语音时域波形
一段语音的时域波形及其语谱图
对应的语谱图
语谱图
语音的时域分析和频域分析是语音分析的两种重要方法。但是这两种方法均有局限性: 时域分析对语音信号的频率特性没有直观的了解; 特性中又没有语音信号随时间的变化关系。
因此人们致力于研究语音的时频分析特性,把和时序相关的傅里叶分析的显示图形称为语谱图。 语谱图在1941年由贝尔实验室研究人员发明,它试图用三维的方式显示语音频谱特性, 纵轴表示频
率,横轴表示时间,颜色的深浅表示特定频带的能量大小,语谱图的发明是语音研究的一个里程碑, 它将语音的许多特征直观的呈现出来。 语谱图中显示了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显地 显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。
语谱图产生流程
语音录制
数据读入程序
语谱图分析 语谱图中的花纹有横杠、乱纹和竖直条等
横杠是与时间轴平行的几条黑色带纹,它们是共振峰,从横杠对应的频率和带宽可以确定相应的 共振峰频率和带宽
在一个语音段的语谱图中,有没有横杠出现是判断它是否是浊音的重要标志。 竖直条(又叫冲直条)是语谱图中出现与时间轴垂直的一条窄黑条。
每个竖直条相当于一个基音,条纹的起点相当于声门脉冲的起点,条纹之间的距离表示基音。条 纹越密表示基音频率越高。
sliding window. The spectrogram is the magnitude of this function.
Wideband spectrogram:给出共振峰频率 Narrowband spectrogram:基音周期及其谐波
600
500
400
300
200
100
0 0
三、窄带语谱图的典型谱型 窄横条:代表元音的基音频率及各次谐波,表现为图中与水平轴平行的线条,窄横条在频率轴
的位置对应了音高频率值,随时间轴的曲折、升降变化代表了音高变化的模式 无声间隙段:对应于语音的停顿间隙,在图中表现为空白区,在两种语谱图中都存在。
这种反映语音信号动态频谱特性的时频图在语音 分析中具有重要的实用价值,被称为“可视语言”
女
声
“
他
他
去
无
锡
市
”
的
时 域
去
波
形
展
开
图
无
锡
市
谢谢观赏
Every salt breeze comes form the sea
Wide band narrowband
Matlab 命令:specgram specgram computes the windowed discrete-time Fourier transform of a signal using a
信号分帧加窗
能量密度谱计算
功率谱伪彩色显示
语谱图显示
ห้องสมุดไป่ตู้
一、语谱图的分类
语谱图分为宽带语谱图和窄带语谱图两种。 宽带语谱图:带宽约为300Hz,具有良好的时间分辨率,但是频率分辨率较差;
宽带语谱图能给出语音的共振峰频率及清辅音的能量汇集区,在语谱图里共振峰呈现为 黑色的条纹。
窄带语谱图:带宽约为45Hz,具有良好的频率分辨率,但是时间分辨率较差。 有利于显示基音频率及其各次谐波,不利于观察共振峰的变化。
在不同的语谱图上所表现的语音特征也不同。
二、宽带语谱图的典型谱型
宽带语谱图的典型谱型: 宽横杠(Bar):代表元音的共振峰位置,表现为图中与水平时间轴平行的较宽的黑杠, 不同元音的共振峰位置不同,根据宽带语谱图上各横杠的位置可以区分不同的元音,不 同人发音的第一共振峰位置会不同,但其分布结构是相似的。 竖直条(spike)代表塞音(b,d,g,p,t,k)或塞擦音(z,zh,j,c,ch,q),表现为图中与 垂直频率轴平行的较宽的黑条,在时间上持续时间很短,在频率轴上集中区位置随不同 的辅音而不同 摩擦乱纹(fill):代表摩擦音(s,sh,x,f,h)或者送气音的送气部分,表现为图中无规 则的乱纹。
800 600 400 200
0 0
10
20
30
40
50
60
70
欢迎使用微软中国研究院中文语音合成系统 的时域波形和语谱图
宽带语谱图:“毕业”语谱图
语谱图因其不同的 黑白程度,形成不 同的花纹,被称作 “声纹”
“旷课”语谱图 ❖从语谱图上可以看出语音的音调变化,蓝色的就是音调
“曼谷”语谱图