基于Praat软件的哼唱检索中参数选取分析

合集下载

praat音高参数提取

praat音高参数提取

praat音高参数提取
音高参数提取是指从音频信号中提取出各个音高的频率信息,以便进行分析和处理。

在实际应用中,音高参数提取广泛应用于语音识别、语音合成、音乐分析等领域。

音高参数提取的方法有很多,最常用的是基于傅里叶变换的频域分析方法。

该方法将音频信号转换到频域,提取出各个频率分量的幅度和相位信息,并利用这些信息计算出音高参数。

音高参数通常包括基频(fundamental frequency)、频率(frequency)、音高(pitch)等。

其中基频指的是一段音频信号最主要的周期性分量的频率,即声音的基本频率;频率指的是声波的振动周期,是指每秒钟重复发生的振动次数;音高是指人们对声音高低的主观感受。

在音高参数提取过程中,需要注意信号的采样率、信号长度以及噪声的影响等因素。

同时,还需要进行音高估计,即从基频中推导出音高,这是一个比较复杂的过程,通常需要结合一些特定的算法和模型进行处理。

总的来说,音高参数提取是音频信号处理的一个重要环节,它可以提取出音频信号的重要信息,为后续的处理和应用提供基础。

基于哼唱的音乐检索技术研究与实现的开题报告

基于哼唱的音乐检索技术研究与实现的开题报告

基于哼唱的音乐检索技术研究与实现的开题报告一、研究背景与意义随着数字音乐的普及和音乐市场的快速发展,音乐的版权问题得到了更为广泛的关注,相应地,音乐检索技术也呈现出快速发展的趋势。

传统的基于文本和歌手姓名等信息的音乐检索方法虽然便于实现,但对于一些没有良好标识的音乐,或者用户并不知道歌名和歌手姓名等信息的情况下,限制其应用范围。

相比之下,基于哼唱的音乐检索技术不仅能够方便用户查找自己想要的曲目,而且能够提高音乐市场中的版权保护水平。

基于哼唱的音乐检索技术,就是通过用户通过对音乐旋律哼唱进行搜索,快速地获取输入哼唱内容匹配的音乐的信息。

它通过对输入音频信号进行处理,提取出音频的特征信息,然后将其转化为相对应的文本或者标识符,在与音乐系统的数据库中进行比较,从而实现向哼唱内容最相似的音乐响应的目的。

因此,基于哼唱的音乐检索技术成为了近年来音乐检索领域的热门方向。

二、研究内容和思路本文主要研究基于哼唱的音乐检索技术的实现方法,包括音频文件的预处理、音频信号特征提取、特征匹配以及音乐检索结果输出的模块。

在音频文件预处理模块中,我们将使用OpenCV对输入的音频信号进行处理,主要内容包括声音信号去噪、语音分离等。

在特征提取模块中,我们将使用MFCC算法提取哼唱音频的特征,重点关注MFCC算法对音乐旋律的提取能力。

为了提高匹配准确率,我们将采用KNN算法对提取出的音频特征进行分类匹配,并设置匹配阈值以满足用户需求。

在实验过程中,我们将构建一个音乐数据库,将常见的流行歌曲存放其中,来模拟真实环境中的音乐检索问题。

在数据库中建立索引以提高检索速度。

三、研究计划1. 文献综述:对基于哼唱的音乐检索技术的研究现状及已有研究成果进行分析总结,为研究提供理论支撑和参考。

2. 音频文件预处理:通过OpenCV实现音频文件预处理,对输入的音频信号进行去噪、语音分离等预处理,提高音频信号的质量。

3. 特征提取:利用MFCC算法对处理后的音频文件提取特征,转化为文本或标识符进行后续匹配。

基于praat工具的歌唱声学分析及其在教学中的应用

基于praat工具的歌唱声学分析及其在教学中的应用

适当的频率和振幅 ( 频谱 )的许多不 同的正弦波来模拟 ,人
类 听力设 备 ( 由耳朵 和大脑 组成 ) 通 常 可 以找 出这 些声 音 。 当两 个 或多 个音 调播 放一 次 ,空气 压力 的变化 在耳 边“ 包含” 各 自的 间距 ,人 耳和脑 分离 并解 码分 成不 同 的色调 。
的并 非 声音 感受 过程 中的 , 而是 发声 过程 中的生理 声学 问题 。
中的峰值 ,以及该声室的谐振。任何房间 ,可以说有一个共
振峰 独有 的特定 的房 间 ,因为声音 可 能反 弹不 同在其 墙 壁和
对象的方式。这种性质的房间共振峰通过强调特定的频率和
吸收 体现 。 歌手共 振 峰的研 究始 于 巴塞洛 缪 , 限于许 多历史 和技 术
仿照乐器声学的分析方法, 人类发声器官亦可从能源 、 声源 、
9 8 2 0 1 4年第 8期 ( 总第 9 2期)
的原 因,尽管巴塞洛缪没有给出相应的歌手共振峰声点 ,但
随后西方 国家在关于声乐的研究中给出了歌手共 振峰的范
围 :男 性 出现 在 2 8 0 0 ~ 2 9 0 0 H z ,而 女性 共振 峰在 3 2 0 0 H z 。 在 巴塞洛 缪之 后 ,许 多学 者对 歌手 共振 峰进 行 了研 究 , 如 Ai p a e r m a n 、克 兰德 尔 、范 纳德 等 。其 中瑞 典声 学 专家 桑
在 声学 上 ,它指 的是 一个 在声 音包 络 和在声 源 ,特别 是乐 器
嗓音声学、音律和谐的声学、室内声学等六大部分。在 《 中 国大百科全书・ 音乐舞蹈卷 》 中有关嗓音声学的定义u J 是: “ 就 其涉及人体器官的生理状态而言 ,嗓音质上不同 ,所研究

哼唱检索中核心算法的研究及其在系统中的应用

哼唱检索中核心算法的研究及其在系统中的应用

,3 6 % l ; 3 2, 啦
5 % 站 君 0 口
7D , K l 2,

6 2,

1 5客
7 % 鼹 8 j 7 ' 50 % J/ g o 勰 % '50 % 揪

| .
1 嚣
: 0% ∞ O 5_ % ∞ D ;前 ,
持 君%
l. 8 g
. O %
0 { Oo 6 % ' 2 /

:| , % , m 々 6 S .{ 2 0 o g . d ,
3 3% 站 g, ∞ 0 l . / o
5 口% , 3 l

lS O
6 % tj 3 . 2
拈 _% 0 3l3 _ ' 。
囱I 装 处


I膏件 提敷 取

3j 了 % 6 3 剪 ∞ 君 4窘 3
∞S 站 8

0 . _ o ^ ∞ 8 %

3. t君 . 8 /
l_ 霉g
' B 5

4 实验及 结果分 析 实验 环境 : tlPn u D a 2 3 .0 Hz I e e f m u lT 30 16 O 处理 器 ,GB内存 本实 n i 2 验 由5 名非 专业人 士进行 哼唱 录人 , 别哼唱录 入不 同的歌 曲或 同一首歌 曲的 分 不同部 分 , 共计 6 个音 频( 4 包括 哼唱时 间为 5 S,1S 5 、2 S的各 l 个音 0 、15 0 6 频)音 乐数据 处理 模块 中检测 到的音 频文 件共计 2 个。在 malb . 的环境 ; 3 t 70 a 下分 别采用上 述介 绍的 三种音 高值 算法及 三种 匹配 算法 交替组 合进行 匹配检 索, 最后按匹配相似度从高到低排列, 相似度相 同的按歌名字母顺序排列输出 匹配 结果 , 分别取 输 出结果 的前兰 个 、 六个 、 十个 来统计 准确率 。 果如 前 前 结

基于哼唱的音乐检索系统研究与实现的开题报告

基于哼唱的音乐检索系统研究与实现的开题报告

基于哼唱的音乐检索系统研究与实现的开题报告一、研究背景和意义随着人们对音乐需求的不断增加,有关音乐的科研技术也越来越重要。

音乐检索是一种常见的技术,可以通过输入关键字或音频片段来检索出一些相应的音乐资源,不过一些用户往往无法准确描述某首歌曲或者无法找到关键词,这就需要基于哼唱的音乐检索技术。

一个基于哼唱的音乐检索系统可以使用用户哼唱的录音片段作为输入,通过语音识别和音乐匹配技术,检索出相应的歌曲资源,并播放给用户听。

这种技术可以使得用户更加轻松地找到自己喜欢的音乐资源,也可以带来更好的音乐搜索和推荐体验。

二、研究目标和内容本项目旨在研究和实现一个基于哼唱的音乐检索系统,主要包含以下内容:1.进行相关文献调研,了解基于哼唱的音乐检索技术的发展历程、现状和趋势;2.设计并实现一个音频采集和预处理模块,对用户哼唱的音频片段进行采样、降噪、去噪等处理,以便后续的处理和分析;3.设计并实现一个语音识别模块,将音频片段转换为对应的数字序列,以便后续的匹配和搜索;4.设计并实现一个音乐匹配模块,对输入的数字序列进行计算,找到最优的匹配结果,并返回相应的歌曲资源,以便用户听取。

三、研究方法和步骤本研究采用如下方法和步骤:1.进行相关文献调研,对基于哼唱的音乐检索技术进行探索,并对相应的算法和技术进行分析和总结;2.采集和处理用户哼唱的音频样本,并对采集的音频进行降噪和去噪等预处理;3.构建语音识别模型,将音频片段转换为对应的数字序列,并利用相关数学算法对数字序列进行处理;4.设计和实现音乐匹配模型,找到最优的匹配结果,并返回相应的歌曲资源;5.利用实验数据验证系统的算法和性能,并进行系统优化和改进。

四、预期成果和意义通过本文的研究和实现,预计可以得到如下成果:1.设计并实现一个基于哼唱的音乐检索系统原型,能够有效地实现音频片段到歌曲资源的匹配和检索;2.利用实验数据验证系统的性能和算法的准确性,并进行优化和改进;3.提出一些有价值的技术和方法,为以后的研究和实践提供参考和借鉴。

应用Praat软件分析成人嗓音声学参数

应用Praat软件分析成人嗓音声学参数
据被调查的嗓音病患者中74%因嗓音影响社交;65%感受有心理压力,20%的声乐
学生由于发声困难需限制演出或影响活动。以嗓音疾病为研究对象的嗓音医学是 在传统耳鼻喉科基础上发展起来、并分离为独立的边缘学科。嗓音医学作为耳鼻 咽喉头颈外科学中重要的分支学科,诊断与治疗涉及正常嗓音、艺术嗓音、各类
发音障碍、吞咽障碍及无喉言语康复等许多领域,并与听力学、语言学、声学、
acoustic
30.95,range 20—49).The objective
parameters,including Jitter,Shimmer,
fundamental frequency,and Hamonics—to—Noise Ratio(HNR),and compare the 4 parameters of different groups divided according
and
19
female vocal nodule patients.Compare the acoustic analysis results of 1 9 female vocal
nodule patients with age
and
sex
matched 1 1 6 normal female volunteers((mean age
(P<O.05),Shimmer与年龄无关。谐噪}I',(HNR):HNR性别比无统计学意义(P>0.05),
成年男性埘、『R在不同年龄组无统计学差异,而女性在不同年龄组有统计学差异.
声带小结患者的基频(fundamemal frequency,FO)和基频微扰(Jitter)与健康组有统
计学意义(P<0.05),而振幅微扰值(Shimmer),谐噪比(HNR)与健康组对比无统计

基于哼唱的音乐检索技术研究的开题报告

基于哼唱的音乐检索技术研究的开题报告一、研究背景与问题随着音乐产业的不断发展,音乐市场的需求量也在逐年增长。

然而,人们在寻找自己喜欢的音乐时,往往面临一个普遍的问题:无法准确描述自己所想要的音乐内容。

鉴于这种情况,了解如何有效地找到自己想要的音乐内容成为了亟待解决的问题。

传统的音乐检索方式,包括基于音频特征的检索,需要在音频文件中指定特定的关键字或标签,或者通过人工或机器学习算法来提取和匹配音频特征,搜索结果的准确率较高,但其限制也非常明显:首先,这种搜索方式需要具有专业知识的专业人士才能够完成,这对普通用户来说很不友好;其次,即使使用了机器学习算法,其准确率也并不是很高,尤其是在短音频片段的检索中,更容易产生误差。

为了解决这些问题,音乐哼唱检索技术逐渐成为研究的热点。

一般来说,“哼唱检索”指的是通过用户用自己的嗓音来描述自己需要查找的音乐信息,并通过算法比对数据库中记录的曲目,从而帮助人们找到自己需要的音乐。

二、研究内容和目标本研究旨在探索和研究音乐哼唱检索技术,并从中发掘该技术的应用价值。

具体目标包括:1.实现基于哼唱检索的音乐检索系统。

该系统将依据已有的哼唱库中的声音特征对哼唱录音进行分析、处理,比对数据库中记录的音乐库曲目,并将搜索出的歌曲提供给用户。

2.设计和测试一个符合人性化的用户体验的音乐检索系统。

传统的音乐检索方式需要具备较高的专业知识,而基于哼唱检索的方式则可以将用户的声音转换成可识别的音频,提高检索效果和准确率。

因此,设计一个符合人性化的用户体验,可以帮助用户更快、更便捷地找到自己需要的音乐。

3.评估音乐哼唱检索技术的优势和不足之处,并提出改进建议。

除了研究音乐哼唱检索技术的具体应用之外,也需要对此技术的优劣进行分析。

因此,我们将分析比较该技术与传统音乐检索技术之间的区别,并给出改进建议。

三、研究方法本研究采用以下研究方法:1.文献研究。

通过查阅已有文献,了解音乐哼唱检索技术的发展和应用现状,从理论层面对其精髓和优劣进行分析,并通过对现有技术的分析和比较,有意识地探索改进方案。

哼唱检索中一种新的旋律模糊匹配方法

收稿日期 : 2005 04 05 基金项目 : 十五 国家部委科技电子预研基金资助项目 ( 413160501) 作者简介 : 马志欣 ( 1972 ) , 男, 西安电子科技大学博士研究生 .
[ 1~ 10 ]
86
西安电子科技大学学报 ( 自然科学版 )
第 33 卷
构造距离矩阵的计算过程中引入模糊方法对音高特征数据进行处理.
图 1 动态规划法示意图
第 1期
马志欣等 : 哼唱检索中一种新的旋律模糊匹配方法
87
a) m ( 0 , j) = 0 , 其中 0 ∃ j < J. b) m ( i, 0 ) = & , 其中 0 < i < I. c) m ( i, j ) = d ( < p i, ti > , < x j, y j > ) + m in [m ( i - 1 , j), m ( i - 1 , j - 1 ), m ( i, j - 1 ) ], 其中 1 ∃ i < I, 1 ∃ j < J. d) D = m in {m ( I - 1, j) | 1 ∃ j < J }.
2006年 2 月 第 33卷 第 1 期
西安电子科技大学学报 ( 自 然科学版 ) JOURNA L O F X I D IAN UN I VER SI TY
Feb. 2006 V 模糊匹配方法
马 志 欣, 付 少 锋, 周 利 华
( 西安电子科技大学 多媒体研 究所 , 陕西 西安 710071) 摘要 : 针对哼唱的非精确性 , 提出一种新的方法 , 将模糊集 合及方 法引入旋 律近似 匹配的 过程 , 在用户 查询与数据库目标数据之间构造模糊 隶属函数 , 根据隶属度判断音高差信息的相似度 , 同时 对音长比信 息进行相似度计算 , 用两者加权得分作为动态规划法匹配过程中的转换代价 , 最终得到两个 匹配序列的 编辑距离 , 从而得到查询结果 . 实验结 果显示模糊方法的引 入提高 了检索命 中率 , 同时 考虑音长 特征的 策略也提高了检索精度 . 在样本集内 , 检索结果 的前十位命中率较原有的 5 阶音高差近似匹 配方法提高 了 16% . 关键词 : 哼唱检索 ; 模糊方法 ; 旋律表示 ; 旋律匹配 中图分类号 : TP391. 3 文献标识码 : A 文章编号 : 1001 2400( 2006) 01 0085 04

基于哼唱的音乐检索系统关键技术研究


上海交通大学硕士学位论文
第一章 绪论
音乐是我们经常接触的媒体 像 MIDI MP3 和各种压缩音乐制品 实时的音 乐广播等 音乐检索虽然可以利用文本注释 但音乐的旋律和感受并不都是可以 用语言描述清楚的 通过在查询中出示例子 基于内容的检索技术在某种程度上 可以解决这种问题 除了用示例进行音乐查询之外 用户甚至可以唱或哼出要查 找的曲调 基音抽取算法把这些录音转换成音符形式的表示 然后用于对音乐数 据库的查询
1 如何从哼唱查询信号中有效地提取旋律特征信息 哼唱音符的准确切分 即音高提取和音长切分的准确与否将直接影 响查找效果 因此这是哼唱音乐检索系统的关键之一 经实验分析 利用现有的基音提取技术和能量参数对音符切分很容易出错 尤其是 查询者的哼唱比较轻柔时或对哼唱发音方式没有限制时 在先期的研 究中 根据采用倒谱峰值提取基音时该峰值大小与该帧信号周期性强 弱有关的特点 引入了倒谱峰值曲线协同能量曲线完成音符切分的方
KEY WORDS: Music Signal Analysis, Pitch Estimation, Music, Pitch, Match Algotithm
V
上海交通大学 学位论文原创性声明
本人郑重声明 所呈交的学位论文 是本人在导师的指导下 独立进行研究 工作所取得的成果 除文中已经注明引用的内容外 本论文不包含任何其他个人 或集体已经发表或撰写过的作品成果 对本文的研究做出重要贡献的个人和集体 均已在文中以明确方式标明 本人完全意识到本声明的法律结果由本人承担
III
基于哼唱输入的音乐检索系统关键技术研究 上海交通大学硕士学位论文
Core Technologies Research in Hamming Based Music Retrieveal

基于内容的哼唱式音乐检索研究的开题报告

基于内容的哼唱式音乐检索研究的开题报告一、研究背景随着移动互联网的普及和数字音乐市场的迅速发展,音乐产业迎来了大数据时代。

目前,音乐检索是音乐服务和音乐推荐系统中至关重要的一环,传统的基于歌曲名称或歌手名字的检索方式已经不能满足用户需求。

随着智能手机的普及,哼唱式音乐检索作为一种更加直观、方便的搜索方式已经引起了广泛关注。

哼唱式音乐检索的基本原理是用户通过自己的声音演唱出自己想要搜索的音乐,系统根据用户的演唱声音提取出音乐的基本特征,与音乐库中的音乐进行比对,最终给出匹配的结果。

相比于传统的文本检索方式,哼唱式音乐检索不仅更加直观、方便,而且可以有效地避免用户记不住歌曲名称或作者名字等问题,从而提高了音乐检索的准确性和效率。

目前,已经有一些哼唱式音乐检索系统被广泛应用,如SoundHound、Shazam等。

不过,这些系统基本都是基于音频指纹识别和匹配的方式实现的,即将用户哼唱的声音进行频谱分析,提取出音频指纹后与音乐库中的指纹进行匹配。

但是,这种方法存在几个问题,如对环境杂音、乐器背景等干扰非常敏感,检索效果容易受到音乐库规模的限制,同时由于用户演唱的准确度不同,误差较大的情况也比较常见。

因此,研究如何基于哼唱声音的内容特征实现音乐检索,成为了一个具有挑战性和潜在价值的研究方向。

二、研究问题和目标目前,基于哼唱声音的内容特征实现音乐检索的相关研究还比较少,主要存在如下几个问题:(1)如何提取有效的哼唱声音特征?(2)如何建立哼唱声音特征与歌曲之间的映射关系?(3)如何提高基于内容特征的音乐检索的准确性和效率?因此,本研究的目标是:(1)研究哼唱声音的内容特征提取方法,探索哼唱声音特征表征的最佳方式。

(2)基于深度学习模型,建立哼唱声音特征与歌曲之间的映射模型。

(3)实现一个基于内容特征的哼唱式音乐检索系统,并对其性能进行评估和优化。

三、研究方法和内容在本研究中,我们将采取如下研究方法:(1)研究哼唱声音的内容特征提取方法。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Characteristic Parameters Analysis in Query by Humming Based on Praat Software
Fang Wang1, Qingliang Meng2
College of Sciences, Yanshan University, Qinhuangdao College of Information Science and Engineering, Yanshan University, Qinhuangdao Email: 287949498@
4.2. 共振峰
共振峰[9]是指声音的频谱中能量相对集中的一些区域, 它是反映声道谐振特性的重要特征。 理论上, 在同一件乐器所发出的所有音调中,不论基音频率如何,都会表现出相同的共振峰,只不过有着强弱的 区别,在语音声学中,共振峰决定着元音的音质。人们发音时会受到自己本身生理特征的影响,有着属 于自己的共振峰区(Formant Regions),例如会受到咽腔、口腔大小及鼻孔的影响,并且可以通过改变它们 的形状及大小,就可以改变声音的共振峰。而在计算机音乐中,共振峰是决定音色和音质的重要参数。 在语音科学及语音学中, 描述的是人类声道中的共振情形[10]。 常用的量测方法是由频谱分析或声谱图中, 寻找频谱中的峰值,本文采用的是频谱分析法,其中频率最低的共振峰频率称为 F1,第二低的是 F2,而 第三低的是 F3 等[11]。 图 2、图 3、图 4、图 5、图 6 分别是实验一、实验二、实验三、实验四、实验五得出的共振峰曲线图,
Open Journal of Acoustics and Vibration 声学与振动, 2014, 2, 11-18 Published Online June 2014 in Hans. /journal/ojav /10.12677words
Praat Voice Analysis Software, Query by Humming, Characteristic Parameters, Formant, Pitch
基于Praat软件的哼唱检索中参数选取分析

1 2
芳1,孟庆良2
燕山大学理学院,秦皇岛 燕山大学信息科学与工程学院,秦皇岛 Email: 287949498@
14
基于 Praat 软件的哼唱检索中参数选取分析
(a)
(b)
(c)
Figure 5. Formant curve of experiment four 图 5. 实验四的共振峰曲线
(a)
(b)
(c)
Figure 6. Formant curve of experiment five 图 6. 实验五的共振峰曲线
收稿日期:2014年5月19日;修回日期:2014年5月22日;录用日期:2014年5月30日
11
基于 Praat 软件的哼唱检索中参数选取分析


哼唱检索技术是一种基于内容的音乐检索技术。在哼唱检索技术中,声音特征参数的选取至关重要,它 直接影响检索的最终结果。文章通过 Praat 语音分析软件,对声音的四种特征参数 ( 能量、共振峰、 MFCC-Mel倒谱系数、基音)分别进行了不同的计算机模拟实验,最终通过比对选取出符合哼唱检索要求 的特征参数。
关键词
Praat语音分析软件,哼唱检索,特征参数,共振峰,基音
1. 引言
声音信号的感知过程[1]与人耳的听觉系统是密不可分的,正常人可以依据听到声音的不同,来区分 出是什么人在说话、说的什么内容以及在用什么语调说等信息,但计算机本身并不具备这种特性,这就 需要人们把声音信号分析转换成其本质特征的参数来进行区分。 从物理角度及发声原理来分析,声音的性质可由决定声音效果的四个要素来描述,即音高、音量、 音长及音色[2]。音高(Pitch)主要由物体振动的频率决定;音量主要由物体振动的振幅大小来决定;音长 主要由物体振动持续的时间长短来决定; 音色(Timbre)是指声音的感觉特性, 主要由泛音的多少及泛音间 的相对强度决定。上述四种性质中,前三种性质里提到的“振动”主要是指基音的振动。 在乐音体系中,并不是所有的音都能作为乐音来使用,通常把有着固定音高的音叫做乐音,把音高 不固定或音高不明显的音叫做噪音。根据对声音性质的分析及对乐音的理解,本文通过分析几种常见的 声音特征参数曲线:能量曲线、共振峰曲线、MFCC 曲线、基音曲线,来选取符合要求的特征参数,每 个参数分别做五个计算机实验,对实验结果进行参数分析。
2. Praat 软件介绍
Praat 语音学软件(原名 Praat: doing phonetics by computer), 是一款由荷兰阿姆斯特丹大学人文学院语 音科学研究所的主席保罗博尔斯马(Paul Boersma)教授和大卫威宁克(David Weenink)助教授合作开发的 跨平台多功能语音学专业软件。Praat 的主要功能是对自然语言的语音信号进行采集、分析和标注,并执 行包括变换和滤波等在内的多种处理任务。作为分析结果的文字报表和语图,不但可以输出到个人计算 机的磁盘文件中和终端的显示器上,更能够输出为精致的矢量图或位图,供写作和印刷学术论文与专著 使用[3]。
通过对图 2 中(a)、 (b)两个分图的比对可以看出: 在相同的参数设置下, 不同的人, 在用相同的音调、 演唱相同的歌词时,产生的共振峰个数是相同的,但只有第二共振峰的轨迹变化相似,其余三条轨迹变 化都不相同且不相似。这只能说明他们发音时舌位的前后位置的变化是相似的,并不能说明此时的音调 是否相同。 通过对图 3 中(a)、(b)、(c)三个分图的比对可以看出:在相同的参数设置下,同一个人,用不同的音 调、演唱相同的歌词时,产生的共振峰个数是不相同的,并且相应的共振峰的变化轨迹是不相似的。这 只能说明,此条件下得到的共振峰的变化轨迹是无规律的,不能反映出音调高低变化的不同。 通过对图 4 中(a)、(b)两个分图的比对可以看出:在相同的参数设置下,同一个人,用相同的音调、 演唱不同的歌词时,产生的共振峰个数是相同的,但只有 F1 和 F5 的轨迹变化相似,并且 F1 所处的位置 是不同的。这只能说明,两种情况下舌位高低的变化轨迹是相似的,但不能反映出音调是否相同。 通过对图 5 中(a)、(b)、(c)三个分图的比对可以看出:在相同的参数设置下,同一个人,用相同的音 调、不同的节奏、演唱相同的歌词时,产生的共振峰个数相同,同时它们各自的共振峰的变化轨迹是相 似的,并且当把所有共振峰的变化轨迹在时间轴上线性延展到相同的长度时,它们各自所对应的共振峰 的变化轨迹是完全相同的。 这说明, 在音调相同的情况下, 演唱节奏的快慢对共振峰的变化轨迹无影响。 通过对图 6 中(a)、(b)、(c)三个分图的比对可以看出:在相同的参数设置下,同一个人,用相同的音 调、不同的音量、演唱相同的歌词时,产生的共振峰个数相同,并且它们的共振峰的变化轨迹是完全相 同的。这说明,在音调相同的条件下,音量的高低对共振峰频率值无影响。 理论上,共振峰是决定音色和音质的主要参数,它与音调的高低并无直接联系。上述五个实验结果 与理论相符,共振峰在音量及音调相同的条件下,能区分出不同的人;在同人同音调的条件下,能区分 出不同的哼唱内容。这与哼唱检索对特征参数的要求正好相反。
(a)
(b)
Figure 4. Formant curve of experiment three 图 4. 实验三的共振峰曲线
其中横坐标表示时间(s),纵坐标表示共振峰频率(Hz),图中曲线 F1、F2、F3、F4、F5 分别表示不同的共 振峰轨迹。理论上共振峰特性主要反映在 F1、F2 两个共振峰,F1 与舌位高低密切相关,舌位越高 F1 越 低,舌位越低 F1 越高;F2 与舌位前后密切相关,舌位越靠前 F2 越高,舌位越靠后 F2 越低。
12
基于 Praat 软件的哼唱检索中参数选取分析
按以上要求,通过 Praat 语音分析软件[4]-[6],对声音的特征参数(能量、共振峰、MFCC-Mel 倒谱系 数、基音)分别做以下五种计算机模拟实验: 实验一:两个人分别用“F4”调,在相同的时间内来哼唱“爱”这个词; 实验二:哼唱《离岛》中的一句“距离很好”,把这段音频记为 A;在节奏不变的前提下,在 A 的 基础上把音调整体升 4 个半音,这段音频记为 B;同样在节奏不变的前提下,在 A 的基础上把音调整体 降 5 个半音,这段音频记为 C; 实验三:同一个人,分别用“D4”调及相同的节奏来哼唱“爱”与“狂”; 实验四:哼唱《海阔天空》中的一句“海阔天空”,把这段音频记为 A;在音调不变的前提下,在 A 的基础上把节奏整体加快 20%,这段音频记为 B;同样在音调不变的前提下,在 A 的基础上把节奏整 体减慢 20%,这段音频记为 C。 实验五:哼唱《海阔天空》中的一句“海阔天空”,把这段音频记为 A;在其他条件都不变的前提 下,在 A 的基础上把音量调高 20%,这段音频记为 B;在其他条件都不变的前提下,在 A 的基础上把音 量降低 20%,这段音频记为 C。
3. 实验要求及内容
在基于哼唱的音乐检索中,选取的声音的特征参数要满足:不管什么人唱、唱什么内容,只要音调 相同,特征参数就应相同。具体要求如下: 1) 不同的人、相同的谱、相同的词,特征参数要相同; 2) 相同的人、不同的谱、相同的词,特征参数要不同; 3) 相同的人、相同的谱、不同的词,特征参数要相同; 4) 相同的人、不同节奏、相同谱、相同的词,特征参数要相同; 5) 相同的人、相同的谱、相同的词、不同的音量,特征参数要相同;
4. 实验与分析
4.1. 能量
能量主要反映的是声音音量这一性质,本文研究的能量主要指音强。理论上,它只与声音的大小即 声源振动的幅度有关(振动幅度越大音量越大),与声音的音调高低无关。研究语音信号中声学的性质时, 音强的因素是不可缺少的, 在探讨某些发声情况(如探讨朝鲜语中的紧辅音和松辅音的区别)时, 音强可以 起辨别作用[7]。元音音色的不同实际上就是不同频率段上音强的大小不同,但在语言学中,音强的作用 十分有限,声音的响度是音强、音高、音长、音色的综合表现,而音强往往不起主导作用[8]。而声音强 度(l)与声压(p)的关系如下:
相关文档
最新文档