试论语音声学参数
语音的声学特征

语音的声学特征语音的声学特征是指各种语音音频信号在声学上的特征。
这些特征是通过语音信号的产生、传输和接收过程中的声学效应所产生的。
在理解语音的声学特征时,需要考虑到语音的基本单位——音素,以及声学参数——频率、幅度、时长、共振等等。
一、音素语音信号是由一系列较小的语音单元构成的。
这些单元被称为音素。
音素是语音的最小基本单位。
它们被用来构建单词、短语和句子。
音素有两种类型:元音和辅音。
元音由良好的声音质量和长短程度特征定义;辅音由有息音、无息音和破裂音组成。
二、频率声波的频率是指一个声音波形中每秒的震荡周期数。
它的单位是赫兹(Hz)。
人类能够听到的最低频率大约是20 Hz,最高频率约为20 kHz。
音素的声学特征与其所包含的频率成正比。
例如,元音的声学特征被定义为频率范围内声波的振幅和共振特征。
辅音的声学特征则取决于它们所包含的频率成分以及这些成分与元音的相对幅度和时序关系。
三、幅度幅度是声波在传播过程中能量的大小。
它的单位是分贝(dB)。
在语音中,幅度通常用来表征语音的响度和音量。
音素的声学特征与其所包含的幅度成正比。
例如,元音的声学特征被定义为声波在不同频率下的幅度响应,其中声波幅度随着频率的上升而降低。
辅音的声学特征则取决于有息音和无息音间幅度的大小关系,以及破裂音的起始时刻的幅度峰值大小。
四、时长时长是声音的持续时间,以秒为单位(s)。
在语音中,时长通常用于描述元音的持续时间和辅音的持续时间。
音素的声学特征与其时长有关。
例如,元音的声学特征被定义为其始音、高峰和次谷之间的时长;辅音的声学特征则被定义为其始音和尾音之间的时长。
五、共振共振是声波在特定频率下放大或减弱的形式。
它的单位是dB。
在语音中,共振通常用来描述元音的音高和声音的质量。
元音的声音质量与其所包含的共振特征成正比,而辅音的声音质量则取决于其所在音素的元音共振特征。
总之,语音的声学特征是指各种语音音频信号在声学上的特征。
这些特征对于语音的理解和识别非常重要,因此对于不同语种的学习和研究都具有重要意义。
《2024年基于语音声学参数库的东部裕固语语音研究》范文

《基于语音声学参数库的东部裕固语语音研究》篇一一、引言随着科技的进步,语音学研究在语言学领域中扮演着越来越重要的角色。
其中,基于语音声学参数库的研究方法为语言学者提供了新的研究途径。
本文旨在探讨基于语音声学参数库的东部裕固语语音研究,通过分析其声学特征,为进一步了解东部裕固语的语音特点和语言演变提供理论依据。
二、东部裕固语概况东部裕固语,又称东部裕固族语,是裕固族的一种方言,主要分布在中国的某些特定地区。
作为一种少数民族语言,其语音特点、词汇和语法等方面具有独特性。
然而,由于历史、地理等多方面原因,东部裕固语的语音研究相对滞后,亟需进一步的研究和保护。
三、语音声学参数库的建立为了深入研究东部裕固语的语音特点,本文首先建立了基于东部裕固语的语音声学参数库。
该参数库主要包括音高、音长、音色等声学参数。
通过对大量东部裕固语语料进行采集、标注和预处理,我们构建了一个包含丰富语音信息的数据库。
四、基于声学参数的语音特征分析利用建立的声学参数库,本文对东部裕固语的语音特征进行了深入分析。
首先,我们分析了音高和音长等参数在各种音节结构中的分布情况,探讨了不同音节结构对音高和音长的影响。
其次,我们通过分析音色参数,探讨了东部裕固语的元音和辅音的音质特点。
此外,我们还研究了不同年龄、性别和方言区等因素对语音特征的影响。
五、研究结果与讨论通过对声学参数库的分析,我们得出以下结论:1. 东部裕固语的音高和音长具有明显的规律性,不同音节结构对音高和音长的影响显著。
这为进一步研究东部裕固语的语音规则提供了重要依据。
2. 东部裕固语的元音和辅音具有独特的音质特点,这与其语言发展历程和地理环境密切相关。
3. 年龄、性别和方言区等因素对东部裕固语的语音特征具有一定影响,这为我们在实际教学中提供了一定的参考依据。
然而,本研究仍存在一定局限性。
首先,由于语料库规模有限,可能存在一定程度的抽样误差。
其次,本研究仅从声学角度分析了东部裕固语的语音特征,未来可结合其他研究方法进行更全面的研究。
声学参数理论

1.A 计权声压级声压有效值定义为一定时间间隔中,瞬时声压对时间的均方根值,用p e表示:将声压有效值p e与基准量p0之比的对数乘以20 便可以得到声压pe的声压级,用L p表示:A 计权声压级(简称 A 声级)用以模拟55dB以下低强度噪声特性,对 1000Hz 以下的低中频段衰减,其结果与人对声音的感知相近。
2.响度响度(Loudness)是基于人耳对声音频谱掩蔽特性的反映人耳对声音强弱感知程度的心理声学参数,单位为宋(sone),规定1000Hz纯音的声压级为40dB时的响度为1宋。
国际标准 ISO532 规定了 A、B 两种计算稳态噪声响度的计算方法:a)Stevens方法(ISO532A):详细内容参见标准 ISO532-A-1975 和。
其数学表达式为:b)Zwicker方法(ISO532B)(本文所采用方法):Zwicker 法适用于自由声场或混响声场的计算,在通常情况下一般采用Zwicker 法的响度计算模型。
Zwicker 法以1/3倍频程频谱为依据,引入了特征频带和特征响度的概念,首先计算每个特征频带特征响度,再由此来得到总响度值。
根据 Zwicker 的响度理论,通过激励E可以计算得到特征响度,其计算公式:式中:E TQ为绝对听阈下的激励(安静状况下),E0为基准声强下的激励,被计算声音的特征频带声压级作为激励级E。
对特征响度在0-24 Bark域上积分,即可得到总响度:注:掩蔽效应是指由于一个声音的存在而使另一个声音听阈提高的现象。
人类的听觉系统具有滤波特性,即频率选择性。
为了描述人耳的频率选择特性和掩蔽效应,Zwicker假设人的听觉系统将声音信号分量分成24个频带,当确定了一个声音的频率时,能够产生掩蔽效应的另外一个声音的频率范围称为“特征频带”,单位是Bark。
在 Zwicker 模型中,特征频带Bark 数z和频率 f(Hz)的对应关系可近似表达为:3.尖锐度尖锐度(Sharpness)是描述高频成分在声音频谱中所占比例的物理量,主要反映人们主观上对高频段声音刺耳程度的感受,单位为 acum。
声学设计中的几个重要参数

声学设计中的几个重要参数1、吸声系数〆建筑声学设计中用吸声材和吸声结构来消除回声,颤动回声,声聚焦和减少混响时间等房间的声学缺陷。
吸声材料吸声结构通常用吸声系数〆来表示。
Eo-Er〆=0Eo式中:Eo-入射到吸声材料的声能:Er-被材料反射出来的声能。
〆=1意味着声能全被吸收;〆=0意味着声能全被反射。
2、临界距离DC前面已提到直达声的传播衰减与传输距离的平方比成反比,离声源的距离越远,声压级越低,混响声的传播衰减不遵守平方反比定律,在理想状态下,理论上它在整个房间的声压级是相等的。
临界距离DC是指在声源轴线方向上,直达声与混响声声能相等的距离,即D/R=(0dB),临界距离在计算声音清晰度时很有用,一般来说,在D/R>-6dB 区域内(即2倍临界距离),声音的清晰度是最好的。
Q-扬声器的指向性因数R-房间常数(即房间的吸声量)〆-房间的平均吸声系数S-房间的总吸声面积3、混响时间R60房间的混响R60与房间的容积V表面面积S和房间的平均吸声系数有关,V-房间容积M3S-房间的总吸声面积房间平均吸声系数应使用EYING公式计算;M为空气吸声系数,它与频率和湿度有关,1KHZ~8KHZ的M值为0.003~0.057。
不同混响时间R60的听觉感受:R60<0.5秒(500HZ);声音清晰,但太于(单薄),适宜于录音室。
R60=0.7~0.8秒(500HZ):声音清晰、干净、适宜于电影院和会议厅。
R60=1.2~1.4秒(500HZ):声音丰满、有气魄、空间感强,适用于音乐厅和剧场。
R60>2秒~3秒(500HZ):声音混浊、语言清晰度差,声音发嗡,有回声感。
吸声材料与吸声结构按吸声机理,常用的吸声材料与吸声结构可分为多孔吸声材料和共振吸声结构。
1、多孔吸声材料多孔吸声材料包括纤维材料和颗粒材料。
几个重要的录音声学参数

几个重要的录音声学参数1、相位:声波在其周期运动中所达到的精确位置。
通常以圆圈的度数来计算。
也就是说所有波峰或者波谷都是同相位的,波峰、波谷之间则是互相反向,相位差正好是180°。
同相位相加,反相位相减。
2、声音的定义:⑴可定义为空气或者其它弹性媒质中的波动(有时候称激励)⑵也可定位为对声敏感器官的感觉。
3、人的听音范围:16Hz-18KHz,人耳最敏感的是1KHz-5KHz。
4、分辨率:分贝:可以分辨2dB的变化;时间:时差为2毫秒频率:基本上是在3Hz5、声音定位:低于1000Hz的声音,具有异向效应(相位差)的效应,1000HZ 以上则声强起主要作用(强度差)。
6、直达声:从声源经视在途经直接到达听者的声音信号。
7、直达声的作用:⑴是我们感受声源本身特征的基本依据,是受周围环境的声学环境影响最小的信号,受到距离的变化而变化。
⑵直达声持续时间与声源的辐射时间相同。
⑶直达声是判断声源宽度和深度的重要依据。
8、延迟声:⑴延迟声的特征:①在一般情况下,延迟声的相对强度是随着时间的加长而减弱的。
②反射声的方向通常也直达声不同,是由反射面的位置和形状所决定的。
③反射声的频率特性因界面的声学性质而异,一般地说,它的频率特性与声源的频率特性不同。
⑵在听音中的作用:①室内反射声的重要作用是给人以空间大小的感觉。
②提高直达声的响度、控制在30毫秒以内,30毫秒以外,则变为镶边效应。
9、混响声⑴混响声场:由声源直接辐射到室内空间,未经任何反射的声场称为直达声场,而经过室内界面一次或多次反射之后称为混响声场。
⑵混响半径:在室内声场中,可以找到一个临界距离,在这一距离上的各点,直达声场与混响声场的作用相等,我们把这一距离称为临界距离或混响半径。
在室内声场达到稳定的情况下,声源停止发声,由于声音的多次反射或散射而使声音延续的现象,称为混响。
混响是耳朵不可辨的多次反射,延迟是耳朵可辨的反射声。
10、混响的作用:⑴提高了听感的响度。
《2024年布里亚特语及其方言语音声学分析》范文

《布里亚特语及其方言语音声学分析》篇一一、引言布里亚特语,作为蒙古族的一个重要语言分支,具有其独特的语音特点和声学结构。
本文旨在通过对布里亚特语及其方言的语音声学分析,揭示其语音特征和声学差异,为布里亚特语的语音研究提供一定的参考。
二、布里亚特语概述布里亚特语属于蒙古语族,具有丰富的语音系统和复杂的音韵结构。
其语音特点包括元音丰富、辅音多样、音节结构灵活等。
布里亚特语在蒙古族地区广泛使用,具有深厚的文化底蕴和历史背景。
三、布里亚特语方言的分类与特点布里亚特语方言众多,各地区之间的语音差异较为明显。
根据地理位置和语言特点,布里亚特语方言可大致分为东、中、西三个方言区。
其中,东方方言区以东部地区为主,语音较为清晰;中部方言区则以中北部地区为主,语音较为柔和;西部方言区则以西部地区为主,语音较为粗犷。
四、布里亚特语语音声学分析(一)元音的声学特征布里亚特语的元音系统丰富多样,包括单元音、复元音和鼻化元音等。
在声学分析中,元音的音质、时长和频率等特征是重要的分析参数。
通过对不同方言区元音的声学分析,可以揭示各地区元音的差异和特点。
(二)辅音的声学特征布里亚特语的辅音系统同样丰富,包括清辅音、浊辅音和鼻辅音等。
辅音的声学特征包括音质、时长、发音部位和发音方法等。
通过对辅音的声学分析,可以了解布里亚特语辅音的发音特点和变化规律。
(三)音节和语调的声学特征布里亚特语的音节结构灵活多变,包括单元音节、复元音节和辅音加元音节等。
此外,布里亚特语的语调也具有明显的特点。
通过对不同方言区音节和语调的声学分析,可以揭示各地区语音的节奏和韵律特点。
五、布里亚特语方言的声学差异与共性通过对布里亚特语及其方言的声学分析,可以发现各地区之间的语音差异和共性。
在元音方面,各地方言的元音音质、时长和频率等特征存在差异;在辅音方面,各地方言的辅音发音部位和发音方法等特征也存在差异。
然而,布里亚特语及其方言在语音上也有共性,如元音系统的基本结构和辅音系统的基本类型等。
声学中的声音的特性和参数
声学中的声音的特性和参数声音是我们日常生活中不可或缺的一部分,它是通过空气、固体或液体传播的机械波。
声学研究声音的产生、传播和接收过程,并通过对声音的特性和参数进行分析来深入了解声音的本质。
本文将介绍声学中声音的特性和参数,以增进对声学科学的理解。
一、声音的特性声音具有以下几个重要的特性:1. 频率:频率表示声音的音调高低。
高频率的声音对应高音,低频率的声音对应低音。
频率的单位是赫兹(Hz),即每秒振动次数。
人的听力范围通常在20Hz到20kHz之间。
2. 响度:响度是声音的主观感受,表示声音的强度或音量大小。
响度的单位是贝尔(B)或分贝(dB)。
分贝是以对数形式表示的响度单位,常用于测量和比较不同声音的强度。
3. 声音色彩:声音色彩是声音特有的音质特征,可以用来区分不同的乐器或声源。
声音的色彩由其频谱成分决定,频谱分析可以显示声音在不同频率上的能量分布情况。
4. 时长:声音的时长表示声音持续的时间长短。
不同声音在时长上有所区别,如短促的爆炸声和持续的长音。
二、声音的参数声音的参数是用来具体描述声音特性的量化指标,以下是常用的声音参数:1. 音频振幅:音频振幅是声音振动的最大幅度,反映了声音的强弱。
振幅的单位是帕斯卡(Pa),即气压单位。
振幅较大的声音听起来会更响亮。
2. 音频功率:音频功率是指声音传递或发射中的总能量。
功率可以用来衡量声音的能量大小,单位通常是瓦特(W)。
3. 声压级:声压级是测量声音强度的指标,也是分贝单位的一种使用。
声压级与声音的振幅和频率有关,通常使用参考声压为2×10^(-5)帕。
4. 频谱分析:频谱分析用于显示声音信号在不同频率上的能量分布情况。
这种分析可以帮助我们更好地了解声音的频率特性和谐波结构。
5. 回声和混响:回声和混响是声音在空间中反射和散射产生的现象,它们在声学研究中有着重要的地位。
回声和混响对听觉体验和音频处理都具有影响。
三、应用声音的特性和参数在多个领域有着广泛的应用,包括:1. 音乐和艺术:声音的特性和参数是音乐创作和演奏的重要基础。
声学基础与常识
A加权(A-weighted)
A加权(A-Weighted)是一种用于音频测量的标准权重曲线,用于反映人耳的响应特性。声压电平源于A加权,用dbA表示,或称为A加 权dB电平。A加权是广泛采用的噪声的单值评价指标,可以通过声级计测量得到。 由于噪声的测量要反映人耳引起的响度感觉大小,其次,需要充分考虑到人耳的听觉特性。人的耳朵对于不同频段的声音变化敏感程 度是不一样的,太高或者太低就越不敏感,就像一个A字,所以叫A-Weighted。A加权的标准是由美国标准协会在20世纪40年代制定, 用于描述人耳对于不同频段声音变化敏感程度。此外,还有B加权,C加权,D加权等等。A加权是模拟人耳对40方纯音的响应;B加权 模拟的是人耳对70方纯音的响应;C加权模拟的是100方纯音的响应;D加权主要用于飞机噪声的评价。一般规定24~55方的噪声测量选 择A加权;55~85方的噪声测量选用B加权;对85方以上的噪声测量选用C加权。在进行音频功率放大器的噪声测试的时候,一般采用的 都是A加权后的数值。可以从手册中看出,在进行输出噪声的电气参数描述的时候,一般会在备注栏写上A-weighted。
听觉的分辨力
声压级不连续变化:声压级不连续变化的时候,听觉对于两 个不同的声压级声音的分辨阈要小于声压级连续变化的情况。 下图反映的是1KHz纯音在连续和非连续的情况下的分辨阈的 对比曲线。可以看到,连续变化的分辨阈基本上是非连续变 化分辨阈的2.5倍左右。
声压级越大,频率越高,声压级不连续变化,这样就更容易 被分辨。
声学参数理论
1.A 计权声压级声压有效值定义为一定时间间隔中,瞬时声压对时间的均方根值,用p e表示:将声压有效值p e与基准量p0之比的对数乘以20 便可以得到声压pe的声压级,用L p 表示:A 计权声压级(简称A 声级)用以模拟55dB以下低强度噪声特性,对1000Hz 以下的低中频段衰减,其结果与人对声音的感知相近。
2.响度响度(Loudness)是基于人耳对声音频谱掩蔽特性的反映人耳对声音强弱感知程度的心理声学参数,单位为宋(sone),规定1000Hz纯音的声压级为40dB时的响度为1宋。
国际标准ISO532 规定了A、B 两种计算稳态噪声响度的计算方法:a)Stevens方法(ISO532A):详细内容参见标准ISO532-A-1975 和ANSIS3.4-1980。
其数学表达式为:b)Zwicker方法(ISO532B)(本文所采用方法):Zwicker 法适用于自由声场或混响声场的计算,在通常情况下一般采用Zwicker 法的响度计算模型。
Zwicker 法以1/3倍频程频谱为依据,引入了特征频带和特征响度的概念,首先计算每个特征频带特征响度,再由此来得到总响度值。
根据Zwicker 的响度理论,通过激励E可以计算得到特征响度,其计算公式:式中:E TQ为绝对听阈下的激励(安静状况下),E0为基准声强下的激励,被计算声音的特征频带声压级作为激励级E。
对特征响度在0-24 Bark域上积分,即可得到总响度:注:掩蔽效应是指由于一个声音的存在而使另一个声音听阈提高的现象。
人类的听觉系统具有滤波特性,即频率选择性。
为了描述人耳的频率选择特性和掩蔽效应,Zwicker假设人的听觉系统将声音信号分量分成24个频带,当确定了一个声音的频率时,能够产生掩蔽效应的另外一个声音的频率范围称为“特征频带”,单位是Bark。
在Zwicker 模型中,特征频带Bark 数z和频率f(Hz)的对应关系可近似表达为:3.尖锐度尖锐度(Sharpness)是描述高频成分在声音频谱中所占比例的物理量,主要反映人们主观上对高频段声音刺耳程度的感受,单位为acum。
语音识别技术中的声学模型算法分析
语音识别技术中的声学模型算法分析语音识别技术是一种将语音信号转化为文本的技术,具有广泛的应用前景。
而声学模型则是语音识别技术中的重要组成部分。
本文将对语音识别技术中常用的声学模型算法进行详细分析。
声学模型是语音识别系统的核心部分,它负责将输入的语音信号转化为概率分布的声学特征。
常见的声学模型算法包括隐马尔可夫模型(HMM)、深度神经网络(DNN)和循环神经网络(RNN)等。
首先,隐马尔可夫模型(HMM)是最早应用于语音识别的声学模型算法之一。
HMM模型假设语音信号是由一系列隐藏的状态和可观测的声学特征序列组成的。
这些隐藏状态是不可直接观测到的,只能通过观测到的声学特征序列进行推断。
HMM模型中的参数包括状态转移概率、状态发射概率和初始状态概率。
通过对这些参数的训练,可以使HMM模型得到更好的语音识别效果。
其次,深度神经网络(DNN)是近年来在语音识别领域取得重大突破的一种声学模型算法。
DNN模型是一种多层前馈神经网络,通常包含输入层、隐藏层和输出层。
通过训练大量的带标签语音数据,DNN模型可以自动学习到语音信号的抽象特征表示。
与传统的GMM-HMM模型相比,DNN模型能够更好地捕捉语音信号中的非线性关系,从而提升了语音识别的准确性。
另外,循环神经网络(RNN)也是一种常用的声学模型算法。
RNN模型可以自然地建模序列数据,它具有记忆单元,可以记住之前的信息,并根据当前的输入进行更新。
在语音识别中,RNN 模型可以有效地处理变长的语音序列,并提取出与识别相关的上下文信息。
除了标准的RNN模型,还有一种更加高效的变体——长短时记忆循环神经网络(LSTM)。
LSTM模型通过引入一个称为“门控单元”的机制,进一步提高了序列建模的能力。
此外,还有一些改进的声学模型算法被提出,如卷积神经网络(CNN)和注意力机制(Attention)。
CNN模型通过共享权重的卷积核来提取局部的特征表示,进而减少参数的数量和模型的复杂度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.1 辅音发音的三个时段和目标位置
辅音的发音过程由三个时段组成: 成阻、 持阻和除阻。成阻指发音器官的动作向辅音 的发音姿态趋进的过程。持阻指维持辅音发 音姿态收紧(constriction)的过程。除阻指 脱离辅音发音姿态的过程。辅音的目标位置 在辅音的发音姿态收紧的时刻。 这三个阶段的时长比例一般是持阻大于 成阻和除阻,送气音除阻与持阻长度接近 [13]。在下面的图中显示了不同发音方法的 辅 音 的 发 音 过 程 , 其 中 LCV 上 出 现 的 T1—T6 分别代表辅音发音过程的几个关键 时刻:T1 成阻的舌腭接触开始;T2 辅音成 阻结束,持阻开始;T3 舌腭接触最大,T4、
试论语音声学参数
郑玉玲
摘要:1本文从动态腭位(EPG)生理研究的 角度论述语音声学参数,对元音、辅音的目 标位置、过渡音;辅音的 GAP、VOT、共振峰 等提出测量建议, 并论述了浊辅音、 复辅音。 关键词: 声学参数、EPG
2. 元音
语流中元音是一个与相邻辅音音段交叠 (Articulatory overlap)的动态过程,分为前 过渡、目标位置和后过渡。应用 EPG 的协同 发音研究表明,元音的前过渡是前接辅音除 阻过程的一部分,后过渡是后接辅音成阻的 全过程。元音的目标位置只是在前后过渡之 间的一个短暂时刻。 当元音受到前后辅音的影响时,该元音 初始和结束时段的高频频谱会发生改变。元 音初始段的共振峰由低到高依次出现,元音 结束则是由高到低依次结束的,甚至高频共 振峰被清化。因此,元音时长的定义也需要 界定。
从我们目前的研究结论,追踪辅音的共 振峰模式完全可以用元音的后过渡体现,元 音的后过渡代表各类后接辅音的共振峰模 式。
3. 辅音
辅音从声学上看,比元音能量弱的多, 有音时程也短,揭示辅音的生理发音过程与 声学的对应关系,EPG 是非常好的一种研究 方法。 本文涉及的语图大致由三部分组成 (见 图 1):声波图、语图和 LCV(舌腭接触面 积曲线 Linguipalatal Contact Varies,LCV) 图。叠加在语图上的是 LCV。三个部分的时 间域一致。
图 5: 大体/t/。
以上是普通话四个辅音 /zh,ch,sh,t/ 在双 音节词中位置的发音过程。 自上而下是声波、 语图、LCV 和时间轴(秒),图 2 增加了 T1—T6 的舌腭图。 T1—T2 为成阻时长,T2—T4 为持阻时 长,T5—T6 为除阻时长。T3 是持阻过程中 舌腭接触面积最大时段的代表点,T5 是从 EPG 能观察到的解除舌腭接触闭塞的瞬间, 冲直条的位置在 T5 时刻或 T4、 T5 之间出现。 擦音的持阻是舌腭收紧缝隙最小的时 段, 除阻时, 肺部气流从收紧缝隙后面持续、 快速释放出来形成湍流,语图上可以看到稳 定的噪音谱,图 4 中 T2—T5 段为持阻。除 阻时长为 T5—T6 段。
2.3 元音的过渡段及与辅音的关系
元音前过渡是前接辅音的除阻,由于辅 音不同的发音方法,只有 VOT 最短的塞音 才能从前过渡看到辅音的共振峰模式。例如 音轨方程(locus equation),音轨理论均以 不送气塞音为研究对象。送气辅音后面的元 音前过渡段几乎没有明显的过渡弯头,过渡 段大部分在送气中完成。 EPG 研究表明,元音的后过渡已经到达 后接辅音的目标位置[9],[10]。因此,元音后 过渡结束位置的共振峰模式可以看作后接 辅音的共振峰模式。
图 1:舌腭接触面积图。
从图 1 可以看到, LCV 曲线最醒目的位 置是辅音, 而声波上最醒目的能量区是元音。 叠加在语图上的舌腭接触面积曲线随着 每一个辅音有声段的出现,前面都有波峰, 波峰是该辅音的持阻,是辅音的舌腭接触最 大的持阻时段,波峰两侧的缓坡是辅音的成 阻和除阻,如果没有大的停顿,辅音的成阻 和除阻都深入到前后的音段内。
2.2 元音的时长
从元音声波图上就可以看出,从有小的 周期信号开始,达到元音基本能量的第一个 周期信号之间,是元音的起始阶段,一般 10-20ms。 这段时间声带从静止达到稳定的目 标振动频率。从语图上,第一共振峰 F1 首 先出现,10-20ms 后出现 F2,后面依次出现 F3、F4。只有出现了 F2,才能说这个音段的出现了,此时,从口腔姿态到听感上都实现 了这个音段。因此,我们采集元音时长的起 始时间以 F2 出现为准。 元音的结束过程也是如此的相反过程, 如果不是在词末、句末,一般 F2 结束后 F1 也不超过 20ms 结束。 元音结束也以 F2 结束 为基准。 如此界定元音的时长符合元音音段的声 学特征,也从声学上划清了与辅音的界限。 尤其是塞音持阻形成的 GAP 段, 经常会有前 面元音 F1 的延续,从 EPG 上看到舌腭已经 完全闭塞,但声带的振动仍在衰减中进行, 通过鼻腔共鸣产生 F1 的延续。因此,对元 音时长的界定也等于对辅音的声学时长有了 同样的界定标准。
不完全准确。EPG 研究发现,语流中受协同 发音的影响,塞音闭塞段不等于无声。普通 话 N1C2 研究指出,鼻韵尾与后面的塞音持 阻时段高度交叠,如“山楂”/n-zh/,/zh/的 持阻闭塞与鼻音/n/同时开始,塞音口腔内的 闭合并不影响鼻音的同时发声[16]。 声学研究中,还经常发现 Silent gap 也 时常出现在浊塞音闭塞段内的嗓音横杠和冲 直条之间。如:藏语、彝语和德昂语广卡话 等[11][15][14]。 准确地说,GAP 是塞音、塞擦音闭塞段 (持组)内的无声间隙段。它包括清塞音也 包括浊塞音。不包括持阻内的其他音段,如 N1C2 的鼻音段和浊塞音的嗓音横杠,确保 GAP 在语图上显示的是无声段,这样 GAP 的时长小于等于持阻时长。 但是,无声不一定是闭塞,言语中的无 声停延(Silent Pause,SP)也表现为无声, 口腔处于自然状态,时长超过 200ms[5],而 GAP 小于 130ms[13],SP 一般出现在较高级 的韵律层级前面。GAP 与 SP 的区别是成因 不同,声学上时长有别。 GAP 是塞音特有的声学表现, GAP+ VOT 是清塞音的声学时长。在浊辅音中, -VOT 包括嗓音横杠和可能出现在其后的 GAP。辅音的声学时长是辅音两侧音段的时 间距离,也可以说是辅音生理时长持阻+除 阻的一部分。 GAP 内并非是寂静无声的空白段, 它有 前一个音段结束后的口腔气流的遗留溢出造 成的低频噪音 (2000Hz 以下) 和声带停止振 动后的余振(F1)延续。见图 2“炉渣”一 词。 3.2.2 VOT VOT (Voice onset time)指破裂音除阻 到声带振动起始点之间的时长。 实际上 VOT 的意义是测量辅音冲直条到后面浊音音段的 时间间距。如前所述,元音的起始是 F1 首 先出现,10—20ms 后 F2 出现。为连续音段 时长之和的计算,在实际测量中,VOT 的结 束位置可与后接元音的起始时间相同。
T5 分别是持阻的最后一刻和除阻的开始, T4、T5 相差 10ms。T6 是除阻的舌腭接触结 束。
3.1.1
成阻
图 2: 炉渣/zh/。
在词中位置的辅音,成阻的时长从前面 元音到达目标位置之后就开始了,因此,元 音的后过渡就是辅音的成阻时段[9]。 EPG 能 够观测到的 T1 位置是舌脱离元音姿态后, 向辅音姿态改变的过程中,与上腭的第一点 接触。因此,它比辅音成阻真正的开始要晚 20-30ms, 辅音除阻也存在这个问题, 实际除 阻的时长比 EPG 监测到的要长一些, 但本文 中谈到的成阻、 除阻时长都是指 EPG 采集到 的时长。 辅音成阻时长与辅音的发音方法无关, 与元音有关。高元音/i/与后接舌尖辅音发音 位置最接近,辅音的成阻时长就最短,反之 则长。词中位置的辅音成阻时长一般在 20ms—40ms 之间。舌腭急剧变化的时段在 成阻后半段,大约 30ms 左右。
本项研究得到中国社科院重大 A 类项目“基于 语音声学参数数据库统一平台的阿尔泰语系诸语 言语音研究”的资助。
位置,因此 F1 最高,且 F1、F2 靠近;/e/ 处于央的位置,F1、F2、F3 分布较为均匀, 没有极端的共振峰值。 判断复合元音目标位置也是依据元音共 振峰的基本模式。复合元音的目标位置一般 在复合元音的两侧接近头、尾的位置,中间 则是两个音段的过渡过程。
1
2.1 元音的目标位置
从语图上判断元音的目标位置,应该是 该音段共振峰模式出现的那一刻。 一般情况下元音的目标位置在元音时长 的中间位置。但是,如果辅音后面是前高元 音/i/,那么前面的送气辅音或擦音与元音/i/ 的发音姿态最接近,辅音的除阻过渡段在送 气段中完成或完成大部, 因此, 进入元音段, 就已经是目标位置或接近目标位置了, 此时, 元音的目标位置是在元音时段的前部。 判断元音目标位置最根本的条件, 还是依 据元音共振峰的模式。根据每个语言音系绘 制的元音图是元音共振峰模式的综合图,元 音图中处于前高、后高、最低和央位置的元 音是判断元音目标位置的最好参照。 对普通话而言, /i,u,a,e/是处于极端位置的 元音:/i/ 处于前高位置,F1 最低,F2 最高 F1、F2 距离最远,;/ u /处于后高位置 F1 和 F2 都最低,且 F1、F2 靠近;/a/处于最低
3.1.3 除阻 除阻(release)是辅音解除发音器官阻 碍的过程,发音姿态向下一个音段过渡的时 程。词尾辅音有时并不除阻,成为不破裂辅 音。 对于塞音、塞擦音而言,除阻在破裂处 (冲直条)开始,擦音的除阻在持续送气之 后开始,过渡到下一个音段结束。参见图 4。 除阻的时长与发音方法密切相关。塞音 除阻在 47ms 左右。塞擦音除阻在 110ms 左 右。均为送气辅音比不送气辅音长[13]。 3.1.4 目标位置 辅音的目标位置在辅音的发音姿态收紧 的时刻。因此,辅音目标位置在持阻时段内 的舌腭收紧度最大的时段,也是 LCV 的 T3 位置。 辅音的目标位置对塞音、塞擦音而言, 在冲直条前面的空白段内,擦音在持续送气 段内。 采集辅音目标位置的频谱特征和能量需 要确定时间点。鼻音、擦音的目标位置在有 声段的前 1/3 处,这个位置受前后音段影响 最小,又处在舌腭接触的最大范围内。对塞 音而言,冲直条是有声段内最接近目标位置 的。对塞擦音而言,冲直条和擦音送气段的 前 1/3 处都是重要的频谱特征。