第二章 语音信号的基础知识

合集下载

语音信号处理PPT_第二章 语音信号处理基础知识

语音信号处理PPT_第二章 语音信号处理基础知识
• • •
把从肺部呼出的直流气流变为音源,即变为交流的断续 流或乱流; 喉对音源起共振和反共振的作用,使它带有音色; 从嘴唇或鼻孔去空间辐射的作用;
肺把气流送入喉;喉将来自肺的气流调制为周期性脉冲或类 似随机噪声的激励声源,并送入声道;声道对频谱进行润色 后在嘴唇处的气压变化形成可以传播的声波。 肺相当于动力源,喉相当于调制器,声道相当于滤波器和扩 音器。
3.
韵母
38个韵母:8个单韵母,14个复韵母,16个鼻韵母。 单韵母是由单元音构成的,如:a、o、e、i、u、u。 复韵母是由复合元音构成的韵母,如:ai、ei、ao、ou等。 鼻韵母是由鼻辅音“n”或“ng”收尾的韵母,如:an、en、 uan、ang、eng、iang等。 韵母发音时声带是振动的,音强也较大,波形上可以看到大 的振幅,而且呈现周期性。 注意:元音不等同于韵母,元音、辅音是按音素的发音特征 来分的;而声母、韵母则是按音节结构来分的。

2.5.2 语音信号的语谱图
声纹:语谱图上其不同的黑白程度, 形成的不同的纹路。不同的人有不同的 声纹,利用声纹进行说话人识别。 横杆:与时间轴平行的几条深黑色 条纹,对应共振峰。语谱图中有无横杆 是判断是否是浊音的标志。 竖直条:与时间轴垂直的窄黑条, 每个竖直条相当于一个基音,条纹间隔 表示基音周期。 元音在语谱图上对应横杆(共振峰的存在) 噪声和清擦音表现为乱纹。
2.1 语音和语言 一、语音的定义
语音是由一连串的音组成语言的声音。
语言
语音
声音
对语言的研究分为两方面: 语言学:各个音的排列规则及其含义的研究。 语音学:各个音的物理特性和分类的研究。考虑的是语 音的产生、感知等过程。三个主要的分支:发音语音学、 声学语音学、听觉语音学。

语音信号的基础知识课件

语音信号的基础知识课件

虚拟助手是一种能够协助用户完成日 常任务的应用。通过语音合成与识别 技术,虚拟助手能够理解用户的意图 ,提供相应的服务。例如,日程提醒 、天气查询、音乐播放等。
有声读物是一种将书籍转换为音频形 式的产品。通过语音合成技术,可以 将文字转换为自然语音朗读;通过语 音识别技术,可以方便地实现音频文 件的文字转录。有声读物的出现为那 些不方便阅读或视力不好的人群提供 了方便的阅读方式。
05 语音信号的未来发展
语音信号处理技术的发展趋势
01
深度学习算法的广泛应用
随着深度学习技术的不断发展,语音信号处理将更加依赖于深度学习算
法,如卷积神经网络、循环神经网络等,以提高语音识别的准确率和语
音合成的自然度。
02
端到端语音处理
端到端语音处理技术将逐步成为主流,这种技术能够直接将输入的语音
语音合成技术的原理
语音合成技术主要基于波形编码、统 计建模和深度学习等技术实现。其中 ,波形编码通过模仿人类发音器官的 动作,生成与人类语音相似的波形; 统计建模则通过建立声学模型和语言 模型,预测语音的波形;深度学习则 通过训练神经网络,学习语音的生成 过程。
语音合成技术的应用
语音合成技术的应用非常广泛,包括 智能客服、虚拟助手、有声读物等领 域。通过语音合成技术,这些应用能 够以自然的方式与用户进行交互,提 供更加智能化的服务。
语音识别
将语音信号转换为文本信息, 实现人机交互。
情感分析
通过分析语音信号中的情感特 征,实现情感识别和分类。
语音通信
利用语音信号进行远程通信, 是最常见的应用之一。
语音合成
将文本信息转换为语音信号, 用于自动播报、虚拟人物等领 域。
说话人识别
利用语音信号中的个性特征, 识别出说话人的身份。

2第二章 语音信号处理的基础知识 语音信号处理 课件

2第二章 语音信号处理的基础知识 语音信号处理 课件
当声带张开时,声门打 开,空气可自由呼出,正 常呼吸就处于这种情况; 当声带闭合,声门关闭。
9/17/2020
32
当说话时,声带在软骨的作用下相互靠 近但不完全闭合,声门变成一条窄缝,当气 流通过窄缝时压力减小,外界压力大,从而 两片声带完全闭合使得气流不能通过,当气 声带靠拢 流阻断时压力恢复正常,推开两片声带,声 门再次打开,气流再次流过。
●音色: 又称为音质,是一种声音区别于另一种 声音的基本特性。
●音调:声音的高低,取决于声波的频率 ●音强:声音的强弱,它由声波的振动幅度所决 定 ●音长:发音时间的长短
9/17/2020
27
三、音节与音素
句子的最小单位为单词,单词的最小单位为音节。
音节:发音时,被明显感觉到的语音片段为音节。
音素:是发音的最小单位,一个音节由一个音素或几 个音素构成。分为元音和辅音。元音是构成音节的主 干,从长度和能量来看,在音节中占主要位置;辅音 只是出现在音节的前端或后端或前后两端,它们的时 长和能量较小。
9/17/2020
1
9/17/2020
2
9/17/2020
3
9/17/2020
6
第二章 语音信号处理的基础知识
§2.2 语音和语言 §2.3 汉语语音学 §2.4 语音生成系统和语音感知系统 §2.5 语音信号生成的数学模型 §2.6 语音信号的特性分析
http://www.fon.hum.uva.nl/praat/
L=17cm,声道的长度
n=1,2,3 … 称为第一共振峰F1=500Hz 、第二 共振峰F2=1500Hz 、第三共振峰 F3=2500Hz ,…
语音(Speech)=声音(Acoustic)+语言 (Language) 语音是由一连串的音组成语言的声音。

数字通信原理第二章 PCM

数字通信原理第二章 PCM
18
19
抽样示意图
m (t)
M ( )
t (a ) T (t)
t
(c ) m s(t)
- H O H (b )
T ( )
2
T
(d )
M s( )
t (e )
H O H
2
T
(f )
20
证明
设:被抽样的信号是m(t),它的频谱表达式是 M(ω),频带限制在(0,fH)内。理想的抽样 就是用单位冲击脉冲序列与被抽样的信号相 乘,即
图 连续信号抽样示意图
8
抽样定义
所谓抽样是把时间上连续的模拟信号变成一系列 时间上离散的样值序列的过程:
图 抽样的输入与输出
满足:抽样信号可以无失真地恢复出原始 信号
图2-2 抽样器及抽样波形示意
图 相乘器抽样模型 图 开关函数
思考
关于抽样需要解决两个问题: 由抽样信号完全恢复出原始的模拟 信号,对 fs (t)和抽样频率有什么限制 条件? 如何从抽样信号中还原出原始信号?
ms(t)m(t)T(t)
这里的抽样脉冲序列是一个周期性冲击序列, 它可以表示为
T(t) (t nTS)
21
由于δT(t)是周期性函数,其频谱δT(ω) 必然是 离散的:
2
δT(ω)= Ts δ(ω-nωs),
ωs=2πfs= 2π/Ts
根据冲击函数性质和频率卷积定理:
M s()21 M ()T()
抽样:按抽样定理把时间上连续的模拟信号转换成时间上离散 的抽样信号。 量化:把幅度上仍连续的抽样信号进行幅度离散,即指定M 个规定的电平,把抽样值用最接近的电平表示。 编码:用二进制码组表示量化后的M个样值脉冲。
编码器送出来的是串行二进制码,是典型的数字信号,经变换调制

2第二章_语音信号分析

2第二章_语音信号分析
16
N=51 N=101 N=201 N=401
矩形窗 汉明窗
矩形窗比汉明窗具有显著的平滑效果; 矩形窗比汉明窗具有显著的平滑效果;随着窗的宽度的增 加,平滑效果越来越显著。 平滑效果越来越显著。
17
三.短时平均幅度函数和能量函数的作用 短时平均幅度函数和能量函数的作用
(1)区分清/浊音: (1)区分清/浊音: 区分清 对应浊音; 对应清音。 En、Mn大,对应浊音; En、Mn小,对应清音。 (2)在信噪比高的情况下,能进行有声/ (2)在信噪比高的情况下,能进行有声/无声判决 在信噪比高的情况下 无声时,背景噪声的En、Mn小; 无声时,背景噪声的E 有声时, 显著增大。判决时可设置一个门限。 有声时,En、Mn显著增大。判决时可设置一个门限。 (3)大致能定出浊音变为清音的时刻,或反之。 (3)大致能定出浊音变为清音的时刻,或反之。 大致能定出浊音变为清音的时刻
14
二、短时平均幅度
1.平均幅度分析的依据:清音段幅度小; 1.平均幅度分析的依据:清音段幅度小;浊音段幅度较大 平均幅度分析的依据 2.短时平均幅度函数 2.短时平均幅度函数
M
n
=
m = −∞

+∞
x(m )w (n − m ) =
m = −∞

+∞
h(n) =| w(n) |
x(m ) h(n − m )
1
2.1 语音信号的短时处理方法
A/D of some common audio signals
Frequency scope Telephone Wide band
Broadcasting
Sampling frequency 8 khz 16 khz 37. 37.8 khz 44. 44.1 khz

语音信号处理第2章-语音信号基础

语音信号处理第2章-语音信号基础

信息科学与工程学院
东南大学
2.2 语音和语言
语音研究分为两类:
语言学:包括构成语言的语素、词、短语和句 子等的不同层次的单位,以及词法、句法、文 脉等语法和语义内容等。语言学是语音信号处 理的基础。 语音学:考虑的是语音产生、语音感知等的过 程以及语音中各个音的特征和分类等问题。语 音学发展成为三个主要分支:发音语音学、声 学语音学、听觉语音学。
信息科学与工程学院 东南大学
2.4 语音生成系统和语音感知系统
同时掩蔽
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
短时掩蔽
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
语音信号是非平稳随机过程 短时分析:短段时间内表示语音信号时, 采用线性时不变模型。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语音节的一般结构
汉语的每个汉字是一个音节,音节一般由声母 、韵母和声调三部分组成。 更为细致的将一个音节划分为9个部分,其中1 ~4段属于声母(辅音),6~9段属于韵母( 元音)。第5段是二者的过渡段。 第7段(主要元音段)是每个音节是具有的。 汉语中一般有五个声调,即阴平、阳平、上声 、去声以及轻声。
0.4
-0.2 -0.3
20 40 60 80 100 120 140 160
0
20
40
60
80
100
120
140
160
0.3
50
50
0
0
0.2
-50
-50
-100
0
0.5
1
1.5
2
2.5

语音信号处理-第02章 语音信号的产生、特征与人耳的听觉特性

语音信号处理-第02章 语音信号的产生、特征与人耳的听觉特性

语音信号处理Speech Signal Processing长春工业大学图像工程研究所 史东承教授dcshi@ 2010.8第二章 语音信号的产生、特征 与人耳的听觉特性§2.1 语音信号的产生鼻腔 软腭 口腔 鼻子嘴巴气管 声带人类发音器官示意图发音器官:产生语音的器官1)肺和气管:能源与能量传输; 2)咽喉:振动源,包括声带和声门; 3)声道(声门到嘴唇的呼气通道):谐振腔 (包括口腔、鼻腔等); 4)其他发音器官:包括嘴唇、齿、舌、面颊 等,使谐振腔改变形状。

1发音机理• 喉位于气管的上端,实际 上是气管末端一圈软骨构 成的一个框架,前方稍高 处的软骨称为甲状软骨, 前后方环成一圈的称为喉 部环形软骨,喉中两片肌 肉称为声带,声带之间的 空隙为声门。

• 当声带张开时,声门打 开,空气可自由呼出,正 常呼吸就处于这种情况; 当声带闭合,声门关闭。

当说话时,声带在软骨的作用下相互靠 近但不完全闭合,声门变成一条窄缝,当气 流通过窄缝时压力减小,外界压力大,从而 两片声带完全闭合使得气流不能通过,当气 声带靠拢 流阻断时压力恢复正常,推开两片声带,声 门再次打开,气流再次流过。

声带的开启和闭合称 为振动。

这一振动过程周 而复始,形成了一串周期 性脉冲气流送入声道。

这 个过程发出的音称为浊音。

如汉语发音的[a]、[i]、 [u]和[o]等。

Tp 基音周期男声发音“我的语音”的时域波形和语谱图2第二章 语音信号的产生、特征 与人耳的听觉特性§2.2 语音信号的分类 声学语音学,根据激励方式划分:(1)浊音(Voiced Speech),又称为有声语音基音(pitch): 声道打开,声带在先打开后关闭,气流经过使声带要发生张 驰振动,变为准周期振动气流。

浊音的激励源被等效为准周 期的脉冲信号。

(2)清音(Unvoiced Speech),又称为无声语音:声带不振 动,而在某处保持收缩,气流在声道里收缩后高速通过产生 湍流,再经过主声道(咽、口腔)的调整最终形成清音。

第二章 语音信号的声学基础

第二章 语音信号的声学基础
音调-频率感知曲线 音调 频率感知曲线
25
4、听觉的掩蔽效应 、
一种频率的声音阻碍听觉系统感受另一种频率 的声音的现象称为掩蔽效应。 的声音的现象称为掩蔽效应。 前者称为掩蔽声音(masking tone),后者称为 前者称为掩蔽声音 , 被掩蔽声音(masked tone)。掩蔽可分成频域 被掩蔽声音 。 掩蔽和时域掩蔽。 掩蔽和时域掩蔽。 听觉掩蔽现象是一种心理声学现象, 听觉掩蔽现象是一种心理声学现象,是由人耳 对声音的频率分辨率决定的
通常,人的左、右耳对声音的感知是不太一样的, 通常,人的左、右耳对声音的感知是不太一样的,这种差异性因人而异
20
人耳的听tions/content/soundtransduction.html
21
人听觉特性: 人听觉特性:
一个声强为60 一个声强为 dB、频率为 、频率为1000 Hz的纯音的掩蔽曲线 的纯音的掩蔽曲线 受掩蔽时的听阈曲线 无掩蔽时的听阈曲线
27
声强为60 声强为 dB、频率为 、频率为250 Hz、1 kHz、4 kHz和 、 、 和 8 kHz纯音的掩蔽效应掩蔽曲线 纯音的掩蔽效应掩蔽曲线
纯音附近, 在250 Hz、1 kHz、4 kHz和8 kHz纯音附近, 、 、 和 纯音附近 对其他纯音的掩蔽效果最明显; 对其他纯音的掩蔽效果最明显; 低频纯音可以有效地掩蔽高频纯音, 低频纯音可以有效地掩蔽高频纯音,但高频纯 音对低频纯音的掩蔽作用则不明显。 音对低频纯音的掩蔽作用则不明显。
发出浊音:类似音乐声,有基频, 发出浊音:类似音乐声,有基频,如汉语的元音
声带不振动,放松状态 声带不振动,
摩擦形成湍流(turbulence) 摩擦形成湍流 发出摩擦音:类似噪声,如汉语的辅音/c/,/s/,/h/等 发出摩擦音:类似噪声,如汉语的辅音 等
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一 语音信号的产生
一 语音信号的产生
语音的基本声学特性
语音是发声器官发出的一种声波,具有一定的音色、 语音是发声器官发出的一种声波,具有一定的音色、音 调和音强和音长。 调和音强和音长。 ●音色: 又称为音质,是一种声音区别于另一种声音 音色: 又称为音质, 的基本特性。与声带的振动频率、 的基本特性。与声带的振动频率、发音器官的送气方式和 声道的形状、尺寸密切相关。 声道的形状、尺寸密切相关。 ●音调:声音的高低,取决于声波的频率。 音调:声音的高低,取决于声波的频率。 ●音强:声音的强弱,它由声波的振动幅度所决定 音强:声音的强弱, ●音长:声音的长短,取决于发音持续时间的长短, 音长:声音的长短,取决于发音持续时间的长短,
一 语音信号的产生
发音的分类
浊音( sounds):声道打开, ):声道打开 浊音(voiced sounds):声道打开,声带在 先打开后关闭,气流经过使声带要发生张驰振动, 先打开后关闭,气流经过使声带要发生张驰振动, 变为准周期振动气流。 变为准周期振动气流。浊音的激励源被等效为准周 期的脉冲信号。 期的脉冲信号。 清音( sounds):声带不振动, ):声带不振动 清音(unvoiced sounds):声带不振动,而 在在声道某处保持收缩, 在在声道某处保持收缩,气流在声道里收缩后高速 通过产生湍流,再经过主声道( 口腔) 通过产生湍流,再经过主声道(咽、口腔)的调整 最终形成清音。 最终形成清音。清音的激励源被等效为一种白噪声 信号。 信号。 爆破音( sounds): ):声道关闭之后产 爆破音(plosive sounds):声道关闭之后产 生压缩空气然后突然打开声道所发出的声音。 生压缩空气然后突然打开声道所发出的声音。
一 语音信号的产生
当说话时, 当说话时,声带在软骨的作用下相互靠 近但不完全闭合,声门变成一条窄缝。 近但不完全闭合,声门变成一条窄缝。当气 流通过气管经过咽喉时, 流通过气管经过咽喉时,收紧的声带由于气 流的冲击而产生振动,不断地张开和闭合, 流的冲击而产生振动,不断地张开和闭合, 使声门向上送出一连串喷流。 使声门向上送出一连串喷流。 声带的开启和闭合称为 振动。这一振动过程周而复 振动。 始,形成了一串周期性脉冲 气流送入声道。 气流送入声道。这个过程发 出的音称为浊音 浊音。 出的音称为浊音。如汉语发 音的[a] [i]、[u]和[o]等 [a]、 音的[a]、[i]、[u]和[o]等。
成年男子
200~800 600~2800 1300~3400
成年女子
250~1000 700~3300 1500~4000
带宽
40~70 50~90 60~180
前三个共振峰的大致范围(Hz) 前三个共振峰的大致范围(Hz)
一 语音信号的产生
口腔和鼻腔 鼻腔的作用
在软腭的帮助下,可使空气经过鼻腔排除人体外, 在软腭的帮助下,可使空气经过鼻腔排除人体外,由 此产生的语音称为鼻音。 [n]、[ng]为鼻音韵母 [m]、 为鼻音韵母, 此产生的语音称为鼻音。如[n]、[ng]为鼻音韵母,[m]、 [n]、[l]为鼻音声母 鼻腔是一个谐振腔,由于形状固定, 为鼻音声母。 [n]、[l]为鼻音声母。鼻腔是一个谐振腔,由于形状固定, 故其共振峰频率是确定的。 故其共振峰频率是确定的。
第二章 语音信号处理的基础知识
本章主要讨论的问题: 本章主要讨论的问题:
语音信号的产生 语音信号的感知(了解) 语音信号的感知(了解) 语音信号的线性产生模型 语音信号的非线性产生模型(了解) 语音信号的非线性产生模型(了解)
一 语音信号的产生
人类的说话过程分五个阶段
想说 —大脑中枢 大脑中枢 发音器官 说出 —发音器官 传送 —空气 空气 接收 —听觉器官 听觉器官 理解 —大脑中枢 大脑中枢
Tp=250Hz F1=500Hz,F2=1000Hz, F1=500Hz,F2=1000Hz,F3=1500Hz
一 语音信号的产生
基音周期
一 语音信号的产生
语音信号的语谱图
1)语谱图:表示语音信号随 )语谱图: 时间而变化的频谱特性, 时间而变化的频谱特性,在每 个时刻用其附近的短时段语音 信号分析得到的一种频谱。 信号分析得到的一种频谱。 2)语谱图的纵轴对应于频率, )语谱图的纵轴对应于频率, 横轴对应于时间, 横轴对应于时间,图像的灰度 对应于信号的能量。 对应于信号的能量。 3)声道的谐振频率表示为黑 ) 带,浊音部分则以出现条纹图 形为特征, 形为特征,这是因为此时的时 域波形具有周期性, 域波形具有周期性,而在清音 的时间间隔内比较致密 4)“声纹”,用于说话人识 ) 声纹” 别Βιβλιοθήκη 一 语音信号的产生声道
人在说话时,空气由肺部压入,由嘴唇呼出, 人在说话时,空气由肺部压入,由嘴唇呼出,声门由此开 启和闭合,构成声带振动,然后通过声道(喉腔、咽腔和口腔) 启和闭合,构成声带振动,然后通过声道(喉腔、咽腔和口腔) 响应(引起共振特性)变成语音, 响应(引起共振特性)变成语音,气流从喉向上经过口腔或鼻 腔后从嘴或鼻孔向外辐射,期间的传输通道称为声道。气流流 腔后从嘴或鼻孔向外辐射,期间的传输通道称为声道。 过声道时犹如通过了一个具有某种谐振特性的腔体, 过声道时犹如通过了一个具有某种谐振特性的腔体,放大某些 频率,在频谱上形成相应位置的峰起,称为共振峰 共振峰。 频率,在频谱上形成相应位置的峰起,称为共振峰。 讲话时, 讲话时,由于舌和唇的连 续运动,使声道形状改变,随 续运动,使声道形状改变, 即改变谐振频率, 即改变谐振频率,使得发不同 的音。声道的不同的形状, 的音。声道的不同的形状,对 应不同的谐振频率。 应不同的谐振频率。 声带振动频率 输出气流的 频率 声道的谐振特性
一 语音信号的产生
声门和声带 喉位于气管的上端, 喉位于气管的上端,实际 人的前方 上是气管末端一圈软骨构成的 甲状软骨 一个框架: 一个框架:前方稍高处的软骨 声门 称为甲状软骨, 称为甲状软骨,前后方环成一 圈的称为喉部环形软骨, 圈的称为喉部环形软骨,喉中 声带 两片肌肉称为声带 声带, 两片肌肉称为声带,声带之间 声门。 的空隙为声门 的空隙为声门。 环形软骨 当声带张开时,声门打开, 当声带张开时,声门打开, 喉的生理结构 空气可自由呼出, 空气可自由呼出,正常呼吸就 处于这种情况;当声带闭合, 处于这种情况;当声带闭合, 声门关闭。 声门关闭。
语音交流是通过联结说话人和听话人的一 连串心理、 连串心理、生理和物理的转换过程实现的。
一 语音信号的产生
语音的发音器官
肺和气管: 肺和气管:能量源 咽喉:震动源, 咽喉:震动源,包括声带和声门 声道:谐振腔, 声道:谐振腔,声门到嘴唇的呼吸 通道,包括咽腔、口腔、鼻腔等 通道,包括咽腔、口腔、 其他发音器官:包括唇、 其他发音器官:包括唇、齿、舌、 面颊等, 面颊等,使谐振腔改变形状
声带靠拢
Tp 基音周期
一 语音信号的产生
声带的一个重要参数: 声带的一个重要参数: 基音频率( 基音频率(Fundamental Frequency) F0 ) =1/Tp,基音频率,由声带的质量来决定。 F0 =1/Tp,基音频率,由声带的质量来决定。 的大小决定了声音的高低,称为音高。 F0的大小决定了声音的高低,称为音高。 男性的F 大致分布在:60男性的F0大致分布在:60-200Hz 女性和儿童的F 大致分布在:200女性和儿童的F0大致分布在:200-450Hz
口腔的作用
使空气经过口腔排除人体外, 使空气经过口腔排除人体外,由此产生的语音称为口 音。口腔的形状不固定,故其共振峰频率也是不确定的。 口腔的形状不固定,故其共振峰频率也是不确定的。
一 语音信号的产生 等效为激励源+声道+ 等效为激励源+声道+喇叭口
激励源: 激励源:声带 –声带振动频率-基频(基音 声带振动频率-基频( 声带振动频率 频率) 频率) –清音 - 声带不振动 清音 –浊音 - 声带振动 浊音 声道: 声道:可变谐振腔 –不同形状、不同声音 不同形状、 不同形状 –共振(谐振)频率 共振( 共振 谐振)
第二章 语音信号处理的基础知识
对语音的研究包括两个方面
1) 语音中各个音的排列由一些规则所控制,对这 语音中各个音的排列由一些规则所控制, 语言学(linguistics)。 些规则及其含义的研究称为语言学 。 些规则及其含义的研究称为语言学 语言学是语音信号处理的基础 例如: 是语音信号处理的基础。 语言学是语音信号处理的基础。例如:可以利用 句法和语义信息减少语音识别中搜索匹配范围, 句法和语义信息减少语音识别中搜索匹配范围,提高 正确识别率。 正确识别率。
与箫、 与箫、唢呐比较
一 语音信号的产生
肺和气管 是胸腔内的一团有弹性的海绵状物质, 肺是胸腔内的一团有弹性的海绵状物质,它可以 储存空气。通过正常的呼吸系统空气可以进入肺部, 储存空气。通过正常的呼吸系统空气可以进入肺部, 说话时腹肌收缩使横膈膜向上,挤出肺部的空气, 说话时腹肌收缩使横膈膜向上,挤出肺部的空气,形 成气流。由肺部呼出的气流是语音产生的原动力 原动力。 成气流。由肺部呼出的气流是语音产生的原动力。 气管将肺部呼出的气流送到咽喉 将肺部呼出的气流送到咽喉, 气管将肺部呼出的气流送到咽喉,它是肺部气流 通道。气管的上端是喉部。 的通道。气管的上端是喉部。
一 语音信号的产生
一种声道形状对应一套共振峰 不同人的声道大小不同, 不同人的声道大小不同,共振峰不同 同一人,发不同音,共振峰也不同 同一人,发不同音, 声道的作用相当于一个滤波器,它放大(或 声道的作用相当于一个滤波器,它放大( 增强)某些频率而衰减其他频率分量 增强) 共振峰
f1 f2 f3
第二章 语音信号处理的基础知识
2) 语音中各个音的物理特性和分类的研究称为 语音学(phonetics) 它考虑的是语音产生、 (phonetics)。 语音学(phonetics)。它考虑的是语音产生、语音感 知等过程,以及各个音的特征和分类。 知等过程,以及各个音的特征和分类。语音学基本 内容包括: 内容包括: 确定发音机理<较成熟> 发音语音学 - 确定发音机理<较成熟> 声学语音学 - 信号分析理论解释语音现象 听觉语音学 - 认识感知的过程 语音学和语音信号处理联系更加紧密。如:运 语音学和语音信号处理联系更加紧密。 联系更加紧密 用现代信号处理技术建立发音的数学模型, 用现代信号处理技术建立发音的数学模型,确定发 音方法; 音方法;用声学和非平稳信号分析理论来解释各种 语音现象;语音信息的存储形式等。 语音现象;语音信息的存储形式等。
相关文档
最新文档