第二章语谱图分析
语音信号处理PPT_第二章 语音信号处理基础知识

把从肺部呼出的直流气流变为音源,即变为交流的断续 流或乱流; 喉对音源起共振和反共振的作用,使它带有音色; 从嘴唇或鼻孔去空间辐射的作用;
肺把气流送入喉;喉将来自肺的气流调制为周期性脉冲或类 似随机噪声的激励声源,并送入声道;声道对频谱进行润色 后在嘴唇处的气压变化形成可以传播的声波。 肺相当于动力源,喉相当于调制器,声道相当于滤波器和扩 音器。
3.
韵母
38个韵母:8个单韵母,14个复韵母,16个鼻韵母。 单韵母是由单元音构成的,如:a、o、e、i、u、u。 复韵母是由复合元音构成的韵母,如:ai、ei、ao、ou等。 鼻韵母是由鼻辅音“n”或“ng”收尾的韵母,如:an、en、 uan、ang、eng、iang等。 韵母发音时声带是振动的,音强也较大,波形上可以看到大 的振幅,而且呈现周期性。 注意:元音不等同于韵母,元音、辅音是按音素的发音特征 来分的;而声母、韵母则是按音节结构来分的。
2.5.2 语音信号的语谱图
声纹:语谱图上其不同的黑白程度, 形成的不同的纹路。不同的人有不同的 声纹,利用声纹进行说话人识别。 横杆:与时间轴平行的几条深黑色 条纹,对应共振峰。语谱图中有无横杆 是判断是否是浊音的标志。 竖直条:与时间轴垂直的窄黑条, 每个竖直条相当于一个基音,条纹间隔 表示基音周期。 元音在语谱图上对应横杆(共振峰的存在) 噪声和清擦音表现为乱纹。
2.1 语音和语言 一、语音的定义
语音是由一连串的音组成语言的声音。
语言
语音
声音
对语言的研究分为两方面: 语言学:各个音的排列规则及其含义的研究。 语音学:各个音的物理特性和分类的研究。考虑的是语 音的产生、感知等过程。三个主要的分支:发音语音学、 声学语音学、听觉语音学。
语音信号产生的数字模型

基音频率 输出气流的频率
共振峰频率
女声英文a的频谱
男声汉语拼音声母s的频谱
总结
一种声道形状对应一套共振峰 不同人的声道大小不同,共振峰不同 同一人,发不同音,共振峰也不同
共振峰
f1 f2 f3
成年男子
200~800 600~2800 1300~3400
成年女子
250~1000 700~3300 1500~4000
爆破音〔plosive/stop sounds声带完全舒展开 来,声道的某个部位完全闭合在一起,当空气流到 达时便在此处建立起空气压力,一旦闭合点突然
基音频率<Fundamental Frequency-pitch>F0
☆ F0 =1/Tp,基音频率,由声带的质量来决定. ☆ F0的大小决定了声音的高低,称为音高. ☆ 男性的F0大致分布在: 50~250Hz ☆ 女性和儿童的F0大致分布在:100~500Hz
鼻腔是一个谐振腔,由于形状固定,故其共振峰频率是 确定的.
Vocal cords
Nasal cavity Velum
Nose output
Mouth cavity
Mouth output
The complete physiological mechanism of speech production
r0 N
i1
1 ak zk
k1
V3
Vi(z)1BizA 1iCiz2
V4
零极点IIR滤波器总是可以用全极
点IIR 滤波器来代替.因此可以用全极
点模型来表示任何语音.
V5
三、辐射模型
R<z>=R0<1-z-1>
唇端辐射损耗在高频端较为显著,而在低频端 影响较小, R<z>应具有高通特性.对高频提升大约 为每倍频程6dB.
数字语音信号处理教案

数字语音信号处理实验指导书前言语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。
通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。
同时,语言也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为信息处理系统建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化程度。
语音信号处理是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。
虽然从事这一领域研究的人员主要来自信号与信息处理及计算机应用等学科,但是它与语音学、语言学、声学、认知科学、生理学、心理学等许多学科也有非常密切的联系。
20世纪60年代中期形成的一系列数字信号处理的理论和算法,如数字滤波器、快速傅立叶变换(FFT)等是语音信号数字处理的理论和技术基础。
随着信息科学技术的飞速发展,语音信号处理取得了重大的进展:进入70年代之后,提出了用于语音信号的信息压缩和特征提取的线性预测技术(LPC),并已成为语音信号处理最强有力的工具,广泛应用于语音信号的分析、合成及各个应用领域,以及用于输入语音与参考样本之间时间匹配的动态规划方法;80年代初一种新的基于聚类分析的高效数据压缩技术—矢量量化(VQ)应用于语音信号处理中;而用隐马尔可夫模型(HMM)描述语音信号过程的产生是80年代语音信号处理技术的重大发展,目前HMM已构成了现代语音识别研究的重要基石。
近年来人工神经网络(ANN)的研究取得了迅速发展,语音信号处理的各项课题是促进其发展的重要动力之一,同时,它的许多成果也体现在有关语音信号处理的各项技术之中。
为了深入理解语音信号数字处理的基础理论、算法原理、研究方法和难点,根据数字语音信号处理教学大纲,结合课程建设的需求,我们编写了本实验参考书。
本本参考书针对教学大纲规定的四个研究设计型实验,每个实验给出了参考程序,目的是起一个抛砖引玉的作用,学生在学习过程中,可以针对某一个实验进行延伸的创新学习,比如说,语音端点的检测、语音共振峰提取、基于HMM或DTW的有限词汇或大词汇的特定人、非特定人的语音识别、识别率的提高(如何提高有噪环境下的识别率)、以及编码问题等,同时在学习中还可深入思考如何将有关的方法在嵌入式系统或DSP 下的实现问题等。
第二章语谱图分析.

语谱图在1941年由贝尔实验室研究人员发明,它试图用三 维的方式显示语音频谱特性, 纵轴表示频率,横轴表示 时间,颜色的深浅表示特定频带的能量大小,语谱图的发 明是语音研究的一个里程碑,它将语音的许多特征直观的 呈现出来。
(3)时间分辨率高,可以清楚的看 到浊音共振峰时变过程
N=256
你 好 ” 窄 带 语 谱 图 灰 度 显 示 图
特点:(1)窗长长,可以 获得较高的频率分辨率。 (2)滤波器的带宽能在浊 音区分辨出每个谐波。(3) 语谱的谐波形式的结构在频 率方向清晰可见,并能看到 基音频率的时变过程。 22
N=2048
5
二、宽带语谱图的典型谱型
宽带语谱图的典型谱型: 宽横杠(Bar):代表元音的共振峰位置,表现为 图中与水平时间轴平行的较宽的黑杠,不同元音的 共振峰位置不同,根据宽带语谱图上各横杠的位置 可以区分不同的元音,不同人发音的第一共振峰位 置会不同,但其分布结构是相似的。
竖直条(spike)代表塞音(b,d,g,p,t,k)或塞 擦音(z,zh,j,c,ch,q),表现为图中与垂直频率轴 平行的较宽的黑条,在时间上持续时间很短,在频 率轴上集中区位置随不同的辅音而不同
Wideband spectrogram:给出共振峰频率 Narrowband spectrogram:基音周期及其谐波1112 13600500
400
300
200
100
0 0
10
20
30
40
50
60
70
N=1024 hamming window 幅度谱
600 500 400 300 200 100
第二章 人的听觉感知与声音信号-现代多媒体通信技术-阮秀凯-清华大学出版社

L 33.33lgN 40
图2-4 响度级和响亮的关系
• 2.2.2 听阈与痛阈
听阈即人耳能感受的声音频率和强度的范围,人耳刚 好能感觉到其存在的声音的声压就是听阈,听阈对于不同 频率的声波是不相同的。听阈是由某声音信号在多次实验 中能引起的听觉的最小有效声压,听阈应根据许多正常常 青年的耳朵测试结果求平均。试验求得的等响曲线中最低 的一条零方(Phon)曲线就是听域曲线,它是纯音的最低 可听声压的频率响应。
2.2 人耳的听觉特性
3 2.2.3 听觉定律
(2)听觉驻留
研究表明,人听到一个脉冲不是和它的强度有关,而 是和强度与时间的乘积有关。直到时间相当长了(几 十毫秒或一百多毫秒以上),才感觉声音还是那样响, 只是时间延长而已。例如,一个短促的脉冲声,若强 度不变,长度由1ms变为2ms,人昕起来不是长度变 了,而是更响了。国际上已根据这个现象规定了测量 脉冲声的电表响应应具有35ms的时间常数。
1距声源1m处的平均声压级65691520语言扩声演唱8011008080003040管风琴的频率范围更宽名族乐器的基频范围为1002000hz乐器1640003016000单个乐器0011003050交响乐能量集中范3020000大型交响乐10w1518件乐器乐队演出离乐队10m处的平均声压级951054060件大型交响乐队为100听觉2020000痛阈值1wm痛阈值120120hifi系统40160005055数字音频系统2020000709023声音信号表22语言和音乐的一些重要特性23声音信号图215其它声信号及其谱图24声音质量评价方法图215声质量涉及的因素
2.2 人耳的听觉特性
1 2.2.1 声强级和响度 2 2.2.2 听阈与痛阈 3 2.2.3 听觉定律 4 2.2.4 人耳的听觉效应
第二章语谱图分析

每个竖直条相当于一个基音,条纹的起点相 当于声门脉冲的起点,条纹之间的距离表示 基音。条纹越密表示基音频率越高。
8
9
Every salt breeze comes form the sea Wide band
narrow band
10
Matlab 命令:specgram
specgram computes the windowed discrete-time Fourier transform of a signal using a sliding window. The spectrogram is the magnitude of this function.
16
17
宽带语谱图:“毕业”语谱图
语谱图因 其不同的 黑白程度, 形成不同 的花纹, 被称作 “声纹”
18
“旷课”语谱图
❖从语谱图上可以看出语音的音调变化,蓝色的就是音调 19
“曼谷”语谱图
20
“受用”语谱图
21
“ “
语谱图分析
图你 好 ” 宽 带 语 谱 图 灰 度 显 示
特点:(1)窗长短,可以获得较高 的时间分辨率;(2)功率谱的谐波 结构在频率轴方向被平滑掉了,谐波 间隙被填平了,因此在频域看不出基 音频率和频谱的谐波形式结构,但可 以明显的看成共振峰结构和语谱包络
40
对上段语音信号的分析:
第二章语谱图
汉语拼音“sou ke”的时间波形
元音[ou]的频谱图
语音特性分析实例:Ten above in suburbs
辅音[s]的频谱
语音波形及特性 女声“他去无锡市”的时域波形图
对上段语音信号的分析:
❖ 这段语音的频率带宽为300-3400Hz ❖ 横轴为时间,纵轴为语音的幅度。 ❖ 采样频率为8kHz,持续时间为4s。 ❖ 时间轴压缩很短,只能看清该段语音的轮廓,无法辨识语音波形的具体细节。
10
20
30
40
50
60
70
N=1024 hamming window 幅度谱
600 500 400 300 200 100
0 0
10
20
30
40
50
60
70
1200 1000
800 600 400 200
0 0
10
20
30
40
50
60
70
N=2048 hamming window 幅度谱
1200 1000
“受用”语谱图
“ “
语谱图分析
你 好 ” 宽 带 语 谱 图 灰 度 显 示 图
你 好 ” 窄 带 语 谱 图 灰 度 显 示 图
特点:(1)窗长短,可以获得较高的时间分辨 率;(2)功率谱的谐波结构在频率轴方向被平 滑掉了,谐波间隙被填平了,因此在频域看不 出基音频率和频谱的谐波形式结构,但可以明 显的看成共振峰结构和语谱包络
彩色语谱图 发 “ah.”时的单元音 /a/
发音 “real”
发 “eye”时的双元音 /ai/ 发音 “mean”
同一个人的语谱图
不同的讲话者的语谱图 具有不同的“声纹”。 据此可以区别说话人, 这与不同的人有不同的 指纹,根据指纹可以区 别不同的人是一个道理。
马景仑《汉语》上课件第二章
第二,语音具有系统性。
二、语音分析中的基本概念
(一)音节、音素、音位
1.音节:语音的基本结构单位,是从听觉上自 然分辨的语音片断。
一般情况下,一个汉字就是一个音节(儿化除 外)。
2.音素:从音色角度划分出来的最小的 语音单位。
音素可以分为元音和辅音。普通话共有 32个音素。
u: 舌前部上升,和 i 一样,但是口合拢,嘴唇收缩最圆。嗓子用力,气流放出。
e^
口半开,舌前部半降,嗓子用力,气流放出。如“诶”。随 i u u: 之后,构成复 韵母:ie, ue。
ai
先发 a 音,舌的位置稍靠前(舌尖抵下门牙背后),声音较长,较强,然后把 舌向上移动,到能发接近 i 的音时停。
第二章 语音
内容: 语音概说 声母 韵母 声调 音节 音变和语音规范
第一节 语音概说
一、语音的性质
物理性质、生理性质、社会性质
语音是由人的发 音器官发出的能 够表达一定意义 的声音
(一)物理性质
1.音高:音高决定汉语的声调,语调的变化节 也由音高所决定
2.音长:音长是决定汉语轻声的主要因素 3.音强:音强是构成汉语轻声的因素之一 4.音色:音色是区别意义的最重要的因素
二、声母的发音
1. 舌尖 2. 舌尖 3. 舌尖 4. 舌面 5. 舌根 6. 上下唇 A. 上齿背 B. 上齿龈 C. 上颚前部 D. 硬颚前部 E. 软颚
声母发音技巧
b 双唇 音p
m
唇齿 音
f
d
舌尖 t 音
n
l
g
舌根 音
k
h
双唇紧闭,气流经口腔破唇气流而出;但不是用力送气。如“玻”字 开始的发音。 部位方法同上,但要将气用力尽量送出。 鼻音。紧闭双唇,嗓子用力,气流经过鼻腔,由鼻孔透出。
第二章 语音信号处理基础知识
下面我们再看一下语音的时域波形和频谱特性:
10、语音信号的时域波形和频谱特性
时间域中,语音信号可以直接用时间波形表示出来,通过观察时间波形可以看出语音信号的一些重要特性。
观察语音信号时间波形的特性,可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别。
下图为汉语拼音“sou ke”的时间波形。表示这段语音波形时采用的采样频率为8kHz,量化精度为16bit。图上标明了时间及各个音节的起始位置。由于在时域波形里各个单音节间不好明显地分界,因此,图上标出的某个音的起点只是粗略的。
本章第二部分是语音信号的特性分析,包括语音的声学特性,时域波形,频谱特性和统计特性。首先来了解一下语音的声学特性。
7、语音信号的声学特性
语音是人的发声器官发出的一种声波,具有一定的音色、音调、音强和音长。音色也叫音质,是一种声音区别于另一种声音的基本特征;音调是指声音的高低,取决于声音的频率;音强是指声音的强弱,由声波的振幅决定;音长即声音的长短,取决于发音时间的长短。
6、语音学
Phonetics是研究言语过程的一门科学。它考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类问题。现代语音学发展成为三个分支:发音语音学、声学语音学以及听觉语音学。发音语音学研究语音产生机理,借助仪器观察发音器官,以确定发音部位和发音方法;声学语音学研究语音传递阶段的声学特性,与传统语音学和现代语音分析手段相结合,用声学和非平稳信号分析理论来解释各种语音现象;听觉语音学研究语音感知的生理和心理特性,即研究耳朵怎么听音的,大脑怎么理解语音的,语音信息在大脑中存储的部位和形式。
语言学概论第二章-(123)ppt课件
2021/7/6
.
第一节 语音和语音学
•
语音特性
• • 语音特性 • • •
1.生理特性 2.物理特性 3.心理特性 4.社会特性
2021/7/6
.
第一节 语音和语音学
• 1.语音的生理特性(发音器官部位及其活动、配合的方法) • (1)动力器官——肺和气管 • (2)发音器官——声带、软骨和肌肉 • (3)共鸣调节器——口腔、鼻腔和咽腔
2021/7/6
.
第二节 语言的声音——音节5
• 音节的结构层次
1.汉语音韵学
(1)最多由四个因素成分组合,其中韵腹不可少; (2)无复辅音,声母只占一个位置; (3)分声母、韵母,每个音节有声调; (4)一个字为一个音节,音节界限分明; (5)辅音韵尾比元音韵尾少。
点汉 语 音 节 特
2.音段
克列曼和凯瑟认为音节没有什么内在结构,同属一个音节的音段 彼此关系相等
特性
由共鸣器形状决定
根据口腔舌头 起作用的部位
1.舌面元音 2.舌尖元音
口元音
2021/7/6
.
第二节 语言的声音——音素
舌面 元音
1.什么是舌面元 音?
2.区分舌面元音 的根据?
3.基本元音有哪8 个?
舌面元音是舌面起 主要作用改变共鸣 器形状而发出的音。
根据舌位的高低、 前后、唇形的圆展 区分不同的舌面元 音。
[i]、[e]、[ɛ]、[a] [ɑ]、[o]、[Ɔ]、[u]
2021/7/6
.
第二节 语言的声音——音素
舌尖 元音
舌尖起主要作用改变 共鸣器形状而发的音
舌尖前元音 舌尖后元音
[ɿ] 不圆唇 [ɥ] 圆唇 [ʅ] 不圆唇 [ɥ]圆唇
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
特性中又没有语音信号随时间的变化关系。
因此人们致力于研究语音的时频分析特性,把和时序相关 的傅里叶分析的显示图形称为语谱图。
语谱图在1941年由贝尔实验室研究人员发明,它试图用三 维的方式显示语音频谱特性, 纵轴表示频率,横轴表示 时间,颜色的深浅表示特定频带的能量大小,语谱图的发 明是语音研究的一个里程碑,它将语音的许多特征直观的 呈现出来。
语谱图中显示了大量的与语音的语句特性有关的信息,它
综合了频谱图和时域波形的特点,明显地显示出语音频谱
随时间的变化情况,或者说是一种动态的频谱。
A
3
语谱图产生流程
语音录制
数据读入程序 信号分帧加窗
能量密度谱计算
功率谱伪彩色显示
语谱图显示
A
4
一、语谱图的分类
语谱图分为宽带语谱图和窄带语谱图两种。
宽带语谱图:带宽约为300Hz,具有良好的时 间分辨率,但是频率分辨率较差;
宽带语谱图能给出语音的共振峰频率及清辅 音的能量汇集区,在语谱图里共振峰呈现为 黑色的条纹。
窄带语谱图:带宽约为45Hz,具有良好的频率 分辨率,但是时间分辨率较差。
有利于显示基音频率及其各次谐波,不利于 观察共振峰的变化。
每个竖直条相当于一个基音,条纹的起点相
当于声门脉冲的起点,条纹之间的距离表示
基音。条纹越密表示基音频率越高。
A
8
A
9
Every salt breeze comes form the sea
Wide band
narrow band
A
10
Matlab 命令:specgram
specgram computes the windowed discrete-time Fourier transform of a signal using a sliding window. The spectrogram is the magnitude of this function.
Wideband spectrogram:给出共振峰频率 Narrowband spectrogram:基音周期及其谐波
A
11
A
12
A
13
600
500
400
300
200
100
0 0
10
20
30
40
50
60
70
N=1024 hamming window 幅度谱
600 500 400 300 200 100
在不同的语谱图上所表现的语音特征也不同。
A
5
二、宽带语谱图的典型谱型
宽带语谱图的典型谱型:
宽横杠(Bar):代表元音的共振峰位置,表现为 图中与水平时间轴平行的较宽的黑杠,不同元音的 共振峰位置不同,根据宽带语谱图上各横杠的位置 可以区分不同的元音,不同人发音的第一共振峰位 置会不同,但其分布结构是相似的。
特点:(1)窗长长,可以 获得较高的频率分辨率。 (2)滤波器的带宽能在浊 音区分辨出每个谐波。(3) 语谱的谐波形式的结构在频 率方向清晰可见,并能看到 A基音频率的时变过程。 22
N=2048
语 谱 图 识 别
A
23
瀑布 语谱图(SPECTROGRAM) 时间、频率、幅值三维坐标, 频谱帧随时间
0 0
10
20
30
40
50
60
70
A
14
1200 1000
800 600 400 200
0 0
10
20
30
40
50
60
70
N=2048 hamming window 幅度谱
1200 1000
800 600 400 200
0 0
10
20
30
40
50
60
70
A
15
欢迎使用微软中国研究院中文语音合成系统
分析中具有重要的实用价值,被称为“可视语言”
A
7
语谱图分析
语谱图中的花纹有横杠、乱纹和竖直条等
横杠是与时间轴平行的几条黑色带纹,它们 是共振峰,从横杠对应的频率和带宽可以确 定相应的共振峰频率和带宽
在一个语音段的语谱图中,有没有横杠出现 是判断它是否是浊音的重要标志。
竖直条(又叫冲直条)是语谱图中出现与时 间轴垂直的一条窄黑条。
话者1发音“0”的结果
特点:(1)窗长短,可以获得较高 的时间分辨率;(2)功率谱的谐波 结构在频率轴方向被平滑掉了,谐波 间隙被填平了,因此在频域看不出基 音频率和频谱的谐波形式结构,但可 以明显的看成共振峰结构和语谱包络
(3)时间分辨率高,可以清楚的看 到浊音共振峰时变过程
N=256
你 好 ” 窄 带 语 谱 图 灰 度 显 示 图
变化
A
24
彩色语谱图
发 “ah.”时的单元音 /a/
发 “eye”时的双元音 /ai/
发音 “real”
A
发音 “mean”
25
同一个人的语谱图
不同的讲话者 的语谱图具有 不同的“声 纹”。据此可 以区别说话人, 这与不同的人 有不同的指纹, 根据指纹可以 区别不同的人 是一个道理。
A
26ห้องสมุดไป่ตู้
5个不同发音者发音“0”的语谱图
A
6
三、窄带语谱图的典型谱型
窄横条:代表元音的基音频率及各次谐波, 表现为图中与水平轴平行的线条,窄横条在 频率轴的位置对应了音高频率值,随时间轴 的曲折、升降变化代表了音高变化的模式
无声间隙段:对应于语音的停顿间隙,在图 中表现为空白区,在两种语谱图中都存在。
这种反映语音信号动态频谱特性的时频图在语音
的时域波形和语谱图 A
16
A
17
宽带语谱图:“毕业”语谱图
语谱图因 其不同的 黑白程度, 形成不同 的花纹, 被称作 “声纹”
A
18
“旷课”语谱图
❖从语谱图上可以看出语音的音A 调变化,蓝色的就是音调 19
“曼谷”语谱图
A
20
“受用”语谱图
A
21
语谱图分析
“ “
图你 好 ” 宽 带 语 谱 图 灰 度 显 示
3.6 语音信号的 语谱图分析
3.6.1 语谱图分析 3.6.2 语音信号特性分析
A
1
3.6.1 语谱图分析
语音时域波形
对应的语谱图
一段语音的时域波A 形及其语谱图
2
语谱图
语音的时域分析和频域分析是语音分析的两种重要方法。 但是这两种方法均有局限性:
时域分析对语音信号的频率特性没有直观的了解;
竖直条(spike)代表塞音(b,d,g,p,t,k)或塞 擦音(z,zh,j,c,ch,q),表现为图中与垂直频率轴 平行的较宽的黑条,在时间上持续时间很短,在频 率轴上集中区位置随不同的辅音而不同
摩擦乱纹(fill):代表摩擦音(s,sh,x,f,h)或者
送气音的送气部分,表现为图中无规则的乱纹。