基于MFCC和HMM的音乐分类方法研究
一种音频比对算法

一种音频比对算法音频比对算法(audio matching algorithm)是一种用于对比和识别不同音频片段之间相似度的技术。
这种算法广泛应用于音频识别、音频搜索、版权保护和音频指纹等领域。
在当前信息爆炸的时代,音频数据日益增长,而音频比对算法正是帮助我们处理这些海量的音频数据的重要工具之一。
音频比对算法的原理是通过将音频数据转换为数字信号,然后分析和提取其中的特征,最终用这些特征来比对和识别不同音频片段之间的相似度。
下面我们将详细介绍一种常见的音频比对算法及其工作原理。
一种常见的音频比对算法是MFCC(Mel-frequency cepstral coefficients,梅尔频率倒谱系数)算法。
MFCC算法是一种基于声学特征的音频处理技术,其原理主要包括音频信号的预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔频率倒谱系数的计算等步骤。
音频信号的预加重是为了增强高频部分,以便后续进行分帧处理。
然后,将音频信号分为若干小段(通常是20-40毫秒),并对每一小段进行加窗(如汉明窗)以减小频谱泄露。
接着,对每一小段进行快速傅里叶变换得到频谱图,然后再将频谱图映射到梅尔频率标度上,最后计算出梅尔频率倒谱系数。
梅尔频率倒谱系数是用于描述音频信号在梅尔频率上的能量分布,其主要作用是模拟人耳对不同频率的感知。
计算出MFCC之后,可以将其作为每段音频的特征向量,用于后续比对和识别。
在实际应用中,比对时通常会将音频数据转换为MFCC特征向量,并计算不同音频片段之间的相似度。
常用的相似度度量包括欧几里得距离、余弦相似度等。
通过比对,可以找出相似度较高的音频片段,从而实现音频识别和检索的功能。
除了MFCC算法外,还有一些其他常见的音频比对算法,如基于小波变换的算法、动态时间规整(DTW)算法等。
这些算法各有优劣,适用于不同的场景和需求。
随着深度学习和人工智能技术的发展,还有一些基于神经网络的音频比对算法不断涌现,取得了很好的效果。
基于MFCC参数和HMM的低空目标声识别方法研究

M ak vmo e, ro d lHMM ) 一 个 时 间 序 列 模 型 , 是 一
1 引 言
战 场 声 目标 识 别 技 术 与 雷 达 探 测 技 术 相 比
维普资讯
第 2 7卷 第 5期
弹 箭 与 制 导 学 报
・ 1 ・ 2 7
基 于 MF C参 数 和 H C MM 的 低 空 目标 声 识 别 方法 研 究
刘 辉 ,杨俊 安 许 学 忠。 ,
( 解 放军电子工程学院 , 肥 1 合 2 0 3 ; 北 核 技 术 研 究所 . 安 3 0 7 2西 西 701) 1 6 3 摘 要 : 出 了 一 种 战 场 声 目标 识 别 方 法 . 拟 人 耳 的听 觉 机 理 提 取 更 能 反 应 出声 音 信 号 动 态 特 征 的 Me 倒 提 模 l
特 征 向 量 。 但 它 们 鲁 棒 性 差 , 在 无 噪 或 噪 声 较 只 小 的 环 境 中 识 别 性 能 良好 , 杂 的 战 场 环 境 下 由 复
有 着抗干 扰 、 易被 发现 、 本低 等 特点n , 可 不 成 :且
确性 与有 效 性 。
关 键 词 : 目标 识 别 ; 声 HMM ; CC MF
中 图 分 类 号 : N9 3 T 5 文献标志码 : A
A v lLo Aliu e Pa sv o s i r e d n i y No e w tt d s i e Ac u tc Ta g tI e tf
谱 系数 ( C ) 为识 别 战场 低 空 目标 的参 数 ; 用 隐 马 尔 可 夫 过 程具 有 很 强 地 表 征 时 变 信 号 的 能 力 来 表现 MF C 作 利 声 信 号 随时 间变 化 呈 现 出 的模 式 演 变 现 象 , 建立 隐 马 尔 可 夫模 型 ( HMM) 由 K 一 值 聚 类 得 出 HMM 模 型 的 ; 均 切l 和识 别 特 征 向量 . 别 时 设 定 阈 值 判定 输入 的 未 知声 信 号 。实 际数 据 的分 析 结 果 表 明 了该 识别 方 法 的准 练 识
语音识别系统中的特征提取与模型训练方法研究

语音识别系统中的特征提取与模型训练方法研究随着人工智能技术的迅猛发展,语音识别系统被广泛应用于语音控制、智能助理和语音翻译等领域。
语音识别的核心任务是将语音信号转化为文本信息,其中特征提取与模型训练是关键步骤。
本文将围绕语音识别系统中的特征提取与模型训练方法展开研究。
一、特征提取方法特征提取是从语音信号中提取出能够代表语音信息的特征向量,常用的特征提取方法包括梅尔频率倒谱系数(MFCC)、线性预测编码(LPC)和隐马尔科夫模型(HMM)等。
1. 梅尔频率倒谱系数(MFCC)MFCC是一种常用的语音信号特征提取方法,其主要思想是通过对语音信号进行傅立叶变换,将频率轴转化为梅尔频率轴,并对频谱进行对数压缩,然后再进行倒谱变换得到MFCC系数。
MFCC能够捕捉语音信号的语音特性,同时对噪声具有一定的鲁棒性,因此在语音识别系统中得到广泛应用。
2. 线性预测编码(LPC)LPC是一种基于线性预测模型的语音信号特征提取方法,其基本原理是利用线性滤波器对语音信号进行建模,通过预测误差的最小化来得到线性预测系数。
LPC系数能够反映语音信号的谐波结构、共振峰信息等特征,常用于语音合成和语音识别等领域。
3. 隐马尔科夫模型(HMM)HMM是一种用于建模时序数据的统计模型,常被用于语音识别系统中的特征建模。
HMM模型假设观测序列是由一系列隐藏状态生成的,通过训练HMM模型来估计观测序列和隐藏状态之间的概率关系。
HMM模型在语音识别中的应用主要集中在声学模型的训练过程,用于建模语音信号和对应的文本标签之间的对应关系。
二、模型训练方法模型训练是语音识别系统中的关键环节,其目标是通过大量的语音训练数据来优化模型参数,以提高语音识别的准确性。
常用的模型训练方法包括最大似然估计(MLE)、隐马尔科夫模型的Baum-Welch算法和深度学习等。
1. 最大似然估计(MLE)MLE是一种常用的参数估计方法,用于估计模型参数使得观测数据的似然概率最大化。
音频特征提取及其在声音分类中的应用

音频特征提取及其在声音分类中的应用随着计算机技术不断的发展,声音信号处理这一领域也得到了很大的发展。
声音分类是声音信号处理的一个重要应用,它可以应用在很多领域,比如语音识别、音乐识别、环境监控等等。
而在声音分类的过程中,音频特征提取是一个非常关键的步骤。
音频特征提取是指从一个音频信号中提取出一些可以代表其特征的数值。
这些数值可以用来描述声音信号的某些方面,比如说频率、能量、时域波形等等。
在声音分类中,合适的音频特征提取可以让机器更好地理解声音信号的特征,从而达到更好的分类效果。
下面介绍一些常见的音频特征提取方法。
1. MFCCMFCC(Mel Frequency Cepstral Coefficients,梅尔频率倒谱系数)是一种比较常见的音频特征提取算法。
它模拟了人耳对声音的感知方式,并将音频信号转换为一组特征向量。
MFCC把声音信号拆分成短时间的小块,然后对每个小块进行特征提取。
MFCC 提取的特征包括梅尔频率倒谱系数、包络线、能量以及一些统计量等等。
2. 频域特征除了MFCC,另外一个常见的音频特征提取方法是频域特征。
频域特征是通过对声音信号做快速傅里叶变换(FFT)后,得到的能量谱密度函数或功率谱密度函数等特征。
常见的频域特征包括谱平均值、谱方差、峰值、谱质心等等。
3. 时域特征时域特征是指直接从原始音频信号中提取的特征。
常见的时域特征包括长时平均能量、短时平均能量、过零率等等。
这些特征可以描述声音信号在时间上的变化情况,对分类具有一定的指导意义。
以上是几种比较常见的音频特征提取方法,当然还有其他一些特征提取方法,比如时频特征、小波变换等等。
在实际应用中,需要根据实际情况选择合适的特征提取算法。
为了更好地说明音频特征提取的应用,下面以语音识别为例。
在语音识别中,常见的做法是将音频信号拆分成小块,对每个小块进行MFCC特征提取,然后将提取到的特征向量输入到模型进行训练。
模型通常采用深度神经网络(DNN)、循环神经网络(RNN)等方法,用于分类识别。
基于MFCC特征聚类变换的歌曲中歌声的识别

基于MFCC特征聚类变换的歌曲中歌声的识别作者:吕兰兰来源:《电脑知识与技术》2016年第31期摘要:针对直接采用MFCC作为歌曲中歌声识别的特征参数存在数据量大、且所包含的歌手歌唱特征较少的问题,提出一种基于MFCC特征聚类变换的歌曲中歌声的识别方法。
通过对MFCC特征进行GMM聚类变换,以各个高斯分布的均值作为SVM分类器的特征参数,利用GMM数据描述能力强的特点,突出歌手的歌唱特征,降低特征参数的数据量。
实验结果表明,该方法在歌曲中歌声识别上的平均识别率较标准GMM方法略有提高,且数据处理量减少了65.8%。
关键词:歌曲中歌声的识别;MFCC;特征聚类变换;高斯混合模型中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)31-0170-02Abstract: Using MFCC directly as feature parameters for singing voice detection in songs leads to large amount of feature parameters and insufficient singer’s singing characteristics. Aim to this,an approach based on clustering and transform of MFCC is proposed in this paper. After GMM clustering of MFCC, the mean of each individual Gaussian distribution is adopt as the new feature for the SVM classifier. The new feature utilizes GMM’s great ability of data description, so as to highlight singer’s singing characteristics and reduce the amount of feature parameters. The experimental results show that the approach proposed in this paper performs a little well than the combination of MFCC and standard GMM, along with the decreasing amount of processing data .Key words:singing voice detection;MFCC;feature clustering and transform1 引言歌曲中歌声识别的任务是,在歌曲中定位歌手开始歌唱以及持续的片段[1]。
音乐分类方法的研究

音乐分类方法的研究李梅林摘要目前语音识别的分辨率已达到较高的水平,语音识别技术涉及面也极其广泛,但是由于数据库信息的海量和音乐分类方法的多样性,如何选择一个高性能、高效率、结构和算法简单的分类方法才是今天我们所研究的目标.本文主要提出梅尔倒谱系数(MFCC)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、支持向量机(SVMS)的介绍,对音乐进行了分类及其研究.通过对歌曲在这四种方法的应用,计算分析音频分类的精确度,判断出这四种方法的优点与不足.关键词梅尔倒谱系数隐马尔可夫模型高斯混合模型支持向量机1、引言科学技术在不断进步,互联网便也普遍广泛便利于我们的生活之中,随之众多的音乐处处弥漫在全球.语音识别其实是一个人机互交的过程,它是通过让计算机理解而进行识别,从而把语音信号转变为文本的技术,整个过程就像是人与人之间进行交流的过程,我们让人机互交,就是让计算机能够以听觉的方式,使人的语言让计算机能够接收到并且听懂理解,从而进一步计算机能够按照人类的意思作出反应进行操作,这将我们的生活更加富有意义.随着Internet和数据库的高速发展,信息也在海量的增长着,传统的对音乐的分类已经不能满足人们的需求,如何寻找有利于人类生活并且可以快速有效算法的信息是当今社会所关心的问题之一,从而我们如何对音乐进行系统分类的分类成为了如今的一个热点问题,不论是对作曲的风格、音频的频谱、音频的幅度、伴奏的旋律、音高音色等,都是对音乐分类管理方面是很重要的采取对象.能够快速有效的对音乐进行分类的算法包括两个重要组成部分:第一部分是特征的提取,第二部分是分类.很多研究者在这个方面做了很多的工作,但是对于数字化的音乐在精确度的算法上有很大的难度,在特征提取方面也是非常困难的,而且很难区分同类音乐.目前音乐的分类主要方法有梅尔倒谱系数(MFCC)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、支持向量机(SVMS)等.随着数据量的巨大,人们对音频分类的精确度与准确度要求更高,针对传统的音乐分类的方法中存在的大量问题.文献[1]和文献[13]是采用了基于Mel倒谱系数的Mel倒谱系数模型和隐马尔可夫模型对音乐进行了分类,而且在有干扰和无干扰两种情况下进行比较分析了它的正确率.梅尔倒谱系数在语音中主要是通过特征的提取来进行识别的一种方法,在分类过程中效果很好尤其是语音识别预处理方面的工作比较突出,而且在处理相同音频特征时,可以对内存和时间大量节省,被普遍运用在语音领域里.隐马尔可夫模型是一种统计特性的概率模型,其算法比较成熟,在各个领域里应用比较广泛,如语音识别、处理自然语言、文本的分类等等.但是隐马尔可夫模型在分类决策能力方面比较弱,识别性能也不是很强,我们可以利用语音状态序列,使其调整为最佳而进行识别,提高其效率.文献[4]重点钻研了高斯混合模型,经由过程音乐的感情剖析了其分类方法.评价出了音乐情感在整个主观趋势下的精确度和直观性.高斯混合模型是通过图像分割而进行的方法,其类似于以均值向量、协方差矩阵来估计极大似然估计值,通过大量计算进行分类.文献[6]和文献[8]对支持向量机在音乐分类方法中使用傅里叶变换等方法的研究成果,对精确度有了较大的提高.支持向量机的方法是主要建立在统计学习理论基础上的,对模式识别的分类问题和判别分析等问题中有大量的研究,在回归分析问题中被推广为最有学问的学科.本文重点尝试运用数学模型和模式识别提高对音乐分类模型的认识和分析,然后可以按照各个音乐特征之间的差异对音乐进行识别和分类,从而判断出这四种方法在音乐分类过程中的正确率和准确度.2、音乐信号特征的分析与提取音乐分类实际上是一个模式识别的过程,模式识别是一种通过比较测试到的数据和已知类别的相似度来判断未知类别的数据的方法,它首先对不同的声音建立一种主观描述,当听到新的或未知类别的声音时,会自觉地把未知声音和已知数据进行比较,从而做出判断.而计算机识别声音的过程就是提取了未知声音的特征向量作为已知类别之间进行比较的对象.识别系统性能的好坏与音乐信号的特征有直接的关系,选取的特征应该能准确合理的表现音乐的实质内容和内在特征.对于同一类的模型,选取的特征之间应该有相似值;对于不同类的模式,选取的特征之间应该有显著的差异.典型的模式识别的过程如图1所示,音乐分类首先要采集数据,然后根据其特征选择分类器,最后通过计算测试分类器的性能.开始图1 音乐识别的流程音乐分类中分类器的选择是至关紧要的,其机能的好坏是我们剖析正确率的尺度.因为音乐的海量,传统的分类方法因为计算量小、速度慢,已经满足对音乐的分类,其偏差也是极大的.在语音信号处理方面,傅里叶变换一直起到一个很重要的作用,其原因一方面是由于语音信号的产生模型由线性系统组成,此系统被一个随时间做周期变化或随机变化的源所激励,因而系统输出频谱反映了机理与语音频率的响应特征.另一方面,语音信号的频谱具有非常明显的语音声学意义,可以获得很重要的语音特征,同时,语音感知的过程与人类听觉系统具有频谱分析作用是密切相关的,因此,对于语音信号进行频谱分析是语音信号和处理语音信号的重要方法.3、音乐分类方式(1)梅尔倒谱系数梅尔倒谱系数(MFCC)是建立在人的听觉的一种模型,它是把频谱转化为以Mel频率的非线性为基础的频谱,最后把Mel频谱转化到倒谱域上.在没有任何前提假设的情形下,利用数学方法,将模拟到的人耳的听觉特征使用一串在低频区域交叉重叠排列的三角滤波器,捕获语音的频谱信息.对于人的听觉机理研究,当音调的频率相近时,人的人耳只会听到一种音调,当音调的频率差小于临界带宽(是一种使人的主观感觉发生突变的带宽边界)时,人便会把两种音调混同成一种,听成一种,这就让我们产生了遮掩效应.临界带宽跟着频率的转变而转变,并与Mel频率的增加相一致.MFCC反映音频信号的能量在不同频带的分布,在音频处理领域里应用非常广泛.研究表明MFCC 可以用作音频分类的特征,而且还可以提高音频分类的精度.MFCC 特征的计算过程为:对得到的每一个信号作傅里叶变换计算它的幅度频谱,然后将幅度频谱用Mel 尺度变换到Mel 域上,经由等带宽的Mel 滤波器组滤波之后,将滤波器的输出能量进行叠加.10[]log([]|[]|),1,2,...,-==⨯=∑n j k e j w k s k j P其中:[]e j 表示的是第j 个滤波器的对数能量输出;[]j w k 表示的是第j 个三角滤波器的第k 个点对应的权值;s[k]表示的是变换到Mel 尺度上的傅里叶变换后的频谱幅值;,.,P 表示的是滤波器的个数平常取24个将滤波器的对数能量进行离散余弦变换之后我们可以得到如下的倒谱域MFCC 系数:1([]cos((0.5))),1,2,...,π==⨯-=P i j i x e j j i L P其中,L 是MFCC 系数的维数,一般L<P,本文取10维.我们采用一串三角滤波器,使其在低频区域交叉重叠排列,最后获得语音的频谱信号,得到MFCC 的Hz-Mel 标准对应的曲线和滤波器组分布如图二所示.图2 MFCC 标准对应曲线和滤波器分布从图2我们可以看出,MFCC 参数与频率的关系是非线性的,在频率低的区域所使用的三角滤波器多,分布比较密集;频率高的区域所使用三角滤波器少,分布比较分散.每个滤波器在低频的区域的通带较窄,其计算精度相对较好,频率分辨率相对低;而每个滤波器高频的区域的通带较宽,其计算精度相对误差大,频率分辨率相对高.(2)隐马尔可夫模型二十世纪七十年代时,Fred Jelinek(贾里尼克)提出了语音识别的方法叫做隐马尔可夫模型,到八十年代,博士李开复运用马尔可夫模型的框架,成功的开发了世界第一个大词汇量连续语音识别系统Sphinx.八十年代CMU大学的J.K.Baker等人在音乐信号的领域里就应用到了HMM,并且在HMM方面获得了极大的成就,成为了语音识别的主要方法.我们把HMM可以看作是一双重随机过程,它是有两部分组成,如图3所示,一个是马尔可夫链,用来描述状态的转移,用转移概率描述,另一个是一般随机过程,用来描述状态与观察序列之间的关系,用观察值概率来描述.状态序列观察值序列图3HMM状态序列为12{,,...}TS s s s=,对应的观察值序列为12{,,...,}TO o o o=,其中{}1,2,...,,{1,2,...,},i is N o M∈∈M和N分别表示每个状态对应的观察事件数和模型中马尔可夫链设定的状态的数目.HMM可以用三元数组来默示:()=,,A Bλπ,其中,A是状态转换概念矩阵,()ij N NA a⨯=,其中()1|ij t ta P s j s i-===;B是状态的观测输出概率矩阵,()ij N MB b⨯=,此中()|i j t tb P o k s j===;π是状态的初始分布概率,{}12=Nππππ,,...,,其中()i iP s iπ==通过以上对隐马尔克夫模型的介绍,我们知道在语音识别当中是用有限状态数的马尔可夫链来模拟语音信号并且观察矢量的一个随机过程,在识别过程中需要大量的算法进行对数据的统计,然后进行建模,通过对特征的提取进行识别.(3)高斯混合模型高斯混合模型作为概率密度函数的线性组合,可以把很多种夹杂的分量进行定义分类,来靠近随便的一种密度函数.音乐情感特征向量通常有平滑的概率密度函数,我们通过选择适当的GMM均值、协方差和概率权重,就可以完成对概率密度函数的建模.GMM可以表示为()()1|li iip x m g xλ==∑其中,()ig x表示第i个分量;im是这个分量的权重.因此声音类别的模型λ就可以有GMM均值iu、协方差i∑和权重im这三个参数来决定,即()=,,i i im uλ∑GMM 算法的精度比较高,它的复杂度不高,但是该算法的实时率只有千分之二,这对于处理实际环境中的大量音频数据是不现实的.(4)支持向量机支持向量机(SVM )是当今在国际上识别模式分类领域的热点.它的原理是以布局危害最小化为根本的,在两种分类问题中,对于线性可分的情形下,SVM 找到使两种分类空隙最大的超平面,这样不但会准确的实现两种分类,而且给了最小的期望风险,如图4所示.图4 SVM 应用于线性可分情形下而对于线性可分的情形下,SVM 可通过核映射到线性可分得特征空间,如图5所示.图5 SVM 应用于线性不可分情况我们通常应用的典型的核函数有:多项式核函数、高斯核函数等.通过大量的研究,我们得出最终的SVM 分类器表达式可表示为:()()1[,]==+∑li i i i f x sign a y K x x b ,此中,{}i x 是输入特征矢量,1i y =±代表待分的两种,i a 和b 是可以从练习集中估量的参数.这里,我们把指数径向基函数作为核函数,表达式为2(,)exp()2σ-=-x y K x y , 我们可以在空间找到一个分隔间隔最大的平面作为支持向量机的目标,如果我们找到的分隔间隔越大,说明其计算精度越高,从而误差也越小.4 音频数据库本文首要的钻研对象是针对音乐歌曲片段的检索运用,采纳格式的音乐歌曲,利用转化软件,将mp3格式转化为wav格式,再运用MATLAB的条件下进行计算.本文所用的音频数据库主要是从网上下载的音乐文件120首,将这些音乐分为流行、摇滚、经典、说唱、爵士和乡村6种类型,每首歌的长度一般为3到5分钟,每类中都不少于5首歌,然后我们提取每种音乐类型中具有代表性的音乐,但是由于音乐中乐器种类、演唱者和伴奏等等的不同,从而导致音乐分类过程中的正确率不高,我们在这里的种种因素不做过多的要求,只是通过音乐段的截图进行计算分析,要求这6首歌曲的每个波形音乐段控制在15s 内,然后按照前面提到的分类方法对歌曲进行实验,在同一时间段内的频率特征进行比较.下面图6a、b、c、d、e、f是各个种类音乐中的代表性音乐段波形的截图.(a)摇滚音乐《迈克唱摇滚》(b)流行音乐《谁动了我的琴弦》(c)乡村音乐《月亮走我也走》(d)说唱音乐《恋爱对白》(e)经典音乐《Breaking》(f)爵士音乐《Various Artists》图6以上音乐段的频率通过计算可以得到下表1所示的性能比较.表15 结论本文主要介绍了几种对于音乐的分类方法,并对音乐特征的提取和音乐的分类的一些简便方法,并且通过计算比较了分类方法的性能.我们在通过各个音乐类型的音乐段来计算分析,从而对音乐分类方法的性能进行比较,判断出其正确率.在分类计算的过程中,对于一些计算机方面的知识进行大量学习,但对于在模型方法中的性能比较方面需要大量的计算,说不上是简便,在简化方面还有一些欠缺,希望在今后的学习会有更好的方法更快捷有效的方式方面得到更大的进步.参考文献:[1] 卢坚,陈毅松,孙正兴,等.基于隐马尔科夫模型的音频自动分类[J].软件学报,2002(13):1593-1597.[2] THOMASFQ.离散时间语音信号处理[M].赵胜辉,刘家康,谢湘,等,译.北京:电子工业出版社,2004.[3] 卢坚,陈毅松,孙正兴,张福炎.语音/音乐自动分类中的特征分析[J].计算机辅助设计与图形学学报,2003-3,14(3).[4] 付强.基于高斯混合模型的语种识别的研究[D].中国科学技术大学,2009.[5] 李国政,王猛,曾华军.支持向量机导论[M].北京:电子工业出版社,2004.[6] 姚斯强,胡剑凌.线性判别分析和支持向量机的音乐分类方法[J].上海交通大学,图像通信与信息处理研究所,2002.[7] 韩纪庆.语音信号处理[M].北京:清华大学出版社,2004.[8] 孙锐,张冰.一种快速支持向量机增量学习算法[J].控制与决策,2005,20(1):1129-1132.[9] 边肇祺,张学工.模式识别[M].北京:清华大学出版社,2001.[10] 谢锦辉.隐Markov模型(HMM)及其在语音处理中的应用[M].武汉:华中理工大学出版社,1995.[11] 余鹏.高斯混合模型在纹理分析中的应用研究[D].北京:北京大学,2005.[12] 易克初.语音信号处理.北京:国防工业出版社,2000.[13] 张燕,唐振民,李燕萍,邹益.基于MFCC和HMM的音乐分类方法研究[J].江苏,南京:南京理工大学,计算机学院,2008.[14] 袁正午,肖旺辉.基于频率段的语音识别算法设计与实现[J].重庆:重庆邮电大学,中韩合作GIS研究所,2011The research of music classification method Abstract Today ,the resolution of the speech recognition has reached a higher level ,Its technology is also very wide ,but due to the huge amounts of database information and the diversity of the music classification method , how to choose a high performance ,high efficiency ,simple structure and algorithm of classification method is the goal of our research today . This article mainly proposed MEL strumpet coefficient (MFCC), Hidden Markov model (HMM) and Gaussian mixture model (GMM) and support vector machines (SVMS) is introduced, and make study on the music classification. Through the application of songs in the four kinds of methods, the accuracy of the calculation and analysis of audio classification, determine the advantages and shortcomings of these four methods.Key Words MEL strumpet coefficient Hidden Markov model Gaussian mixture model Support vector machine致谢我的本科毕业论文撰写工作自始至终都是在席进华老师全面、具体的指导下进行的.席进华老师渊博的学识、敏锐的思维、民主而严谨的作风,使我受益匪浅,终生难忘.席进华老师严谨的治学态度和对工作兢兢业业、一丝不苟的精神将永远激励和鞭策我认真学习、努力工作……感谢我的指导教师席进华对我的关心、指导和教诲!感谢周瑞宏老师和王大胄老师的关心和帮助!感谢我的学友和朋友们对我的关心和帮助!。
小波MFCC和HMM在低空声目标识别中的应用

21年 1 01 2月
信 息 与 电 子 工 程
I ORM AT ON AND E ECT NF I L RONI NGI CE NEERI NG
VO . NO. 1 9. 6 De ., 01 c 2 1
文 章 编 号 : 17 -822 1)60 4 —5 6 2 2 9 (0 0 — 7 4 0 1
a o si a g tr c g ii n c u tc t r e e o n to
Z HAN Yu j n YANG J —o g S —e ,GAO Yo g G — , u u ln , UN Dafi n
( olg f lcrnc n nomainEn iern , Sc u nUnv ri , C e g uSc u n6 0 6 C l eo e t isa dIfr to gn eig ih a iest e E o y h n d ih a 1 0 5,Chn ) ia
a tt d c usi a g t liu e a o tc t r e .Ex e i e t t cu ly g t e e e io tra o si ina n o - ei o t r p rm n s wih a t a l a h r d h lc p e c u tc sg la d n n h lc p e a o si ina r e f r d n e trr c g iin ef c s o t i e Th a i iy a d f a i iiyo h c u tc sg la e p ro me ,a d b te e o n to fe ti b a n d. e v ld t n e sb lt ft e
Ab tat src :Al o g r dt n lMe rq e c e srm C ef in( C )c n smuae h ma t u h T a i o a lF e u n y C p tu o f ce t h i i MF C a i lt u n
基于模式识别的声纹识别技术研究综述

基于模式识别的声纹识别技术研究综述声纹识别技术是一种通过对个体声音特征进行提取和分析,以确定其身份的生物识别技术。
它利用了人的语音特征,通过声音信号的频率、共振等特性,将来自不同人的声音进行鉴别和识别。
在过去几十年里,声纹识别技术得到了广泛的关注和研究,并在实际应用中取得了重要的突破。
本文将对基于模式识别的声纹识别技术进行综述,并探讨其在实际应用中的挑战和前景。
1. 声纹识别技术的原理和模型声纹识别技术基于声音信号的特征,在算法上可以分为两个主要步骤:声音特征提取和模式识别。
声音特征提取通过数学模型和算法,将声音信号转换为数字化的特征向量,以便后续的分析和识别。
常用的声音特征包括梅尔频率倒谱系数(MFCC)、线性预测编码(LPC)等。
模式识别阶段通过对特征向量进行分类和匹配,将其与已知的声纹模型进行比较,从而确定身份。
2. 基于模式识别的声纹识别算法在基于模式识别的声纹识别技术中,有多种常用的算法和方法。
其中,高斯混合模型(GMM)是一种常用的声纹建模方法,它通过对声纹特征向量进行高斯建模和聚类,以实现声纹的分类和识别。
支持向量机(SVM)和隐马尔可夫模型(HMM)也被广泛应用于声纹识别领域。
此外,最近兴起的深度学习技术如卷积神经网络(CNN)和循环神经网络(RNN)也在声纹识别中表现出良好的效果。
3. 声纹识别技术的应用领域声纹识别技术在多个领域有着广泛的应用。
在安全领域,声纹识别技术可以用于身份验证和访问控制,例如在银行、政府机构等场所的门禁系统中应用。
在司法领域,声纹识别技术能够用于犯罪分析和调查,帮助警方快速锁定嫌疑人。
此外,声纹识别技术还可以应用于电话客服、语音助理等领域,提高交互体验和服务质量。
4. 挑战和未来发展方向声纹识别技术在实际应用中仍面临一些挑战。
首先,环境噪声和通讯压缩等因素会对声音信号的质量和特征提取造成影响。
其次,声纹识别技术在大规模应用中的实时性和准确性也需要进一步提高。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于M FCC 和HM M 的音乐分类方法研究张 燕1,2,唐振民2,李燕萍2,邹 益2(1.金陵科技学院信息技术学院,江苏南京210006;2.南京理工大学计算机学院,江苏南京210094)[摘要] 采用基于M el 倒谱系数特征的隐马尔可夫模型对音乐进行分类.对音乐通过有监督的学习方式进行聚类,分类时将测试样本归入似然值最大的类别,对同一音频抽取若干样本,对样本识别结果采用投票法判定该音频的音乐类别,使分类的准确率得到进一步的提高.仿真实验对4种分类器在有干扰和无干扰的环境下的分类性能进行了比较,实验结果表明该方法具有更好的抗干扰能力和正确率.[关键词] M el 倒谱系数,音乐分类,隐马尔可夫模型[中图分类号]TN 912 34 [文献标识码]A [文章编号]1672 1292(2008)04 0112 03Research ofM usic C lassificati on B ased onM FCC Feature and HM M M odelZhang Yan 1,2,Tang Zhenm i n 2,LiY anp i n g 2,Zou Y i2(1.C oll ege of In f or m ati on Ji n li ng Instit u tion ofTechnol ogy ,N an ji ng 210006,C hina ;2.C oll ege of Compu t er Science ,Nan ji ng Un i versity of Science and Technology ,Nan ji ng 210094,Ch i na)Abstrac t :In t h i s paper ,we use hidden M arkov M odel based on M el frequency cepstrum coe ffi c ients to c l assify the mu s i c .Classifi cation d i v i des t he test sa m ples i nto ca tego ries acco rding to the largest li ke li hood va l ue .W e draw seve ra l sa m p l es o f t he sam e m us i c frequency ,i dentify the results o f t he sa m ples us i ng the voti ng m ethod ,and t hus deter m i ne t heca tego ry o f the audio to f urther i m prove c lassifica ti on accuracy.W e m ake a s i m u l a tion exper i m ent to compare t he per for m ance o f f our different c l assifica tions i n the env iron m en ts o f disturbance and nod i stabance .T he resu lts show that HMM class ificati on has m ore advantages on perfor m ance and is less sens itive to d i sturbance .K ey word s :M e l frequency cepstrum coe fficients ,mus i c c l assifica tion ,hi dden M arkov m ode l收稿日期:2008 06 18.基金项目:江苏省教育技术研究 十一五 规划重点课题(2007-I-4704)资助项目.通讯联系人:张 燕,副教授,博士研究生,研究方向:模式识别和音频信号处理.E ma i :l zy @ji t 基于内容的音频信息检索技术(CBA I R )研究如何利用音频的幅度、频谱等物理特征,响度、音高、音色等听觉特征,词字、旋律等语义特征实现基于内容的音频信息检索[1].随着音频数据量的快速增长,对于种类繁多的音乐数据,人们要求有快速高效的方法对它们进行分类管理(根据不同风格或演唱者等),这需要有效的自动分类技术对音频数据进行整理,以便于检索和相关的分析处理.音频分类技术是音频检索以及其它音频处理的重要辅助手段.目前大部分的音频音乐分类算法都包含两个阶段:特征提取和分类阶段.许多音乐特征可用于实现这一算法,包括时域的短时能量、短时过零率、频域的带宽、谱质心等,还有基于听觉感受的M FCC 等.而分类算法可利用模式分类中现存的大量高效算法,例如高斯混合模型、神经网络、支持向量机、隐马尔可夫模型等[2 4].本文提出了基于M el 倒谱系数特征的隐马尔可夫模型对音乐进行分类.在音乐特征提取方面,以感知特征和M el 倒谱系数组成特征向量;在音乐分类方面,以隐马尔可夫模型作为分类器,对同一音频抽取若干样本,对样本识别结果采用投票法判定该音频的音乐类别.仿真实验结果表明该方法具有更好的抗干扰能力和正确率.1 M e l 倒谱系数M el 倒谱系数(MFCC )反映了人耳的音高听觉特性,而且计算量不大,广泛应用于语音处理领域.研究!112!第8卷第4期2008年12月南京师范大学学报(工程技术版)J OURNAL OF NAN JI NG NOR M AL UN I VERS I TY (ENG I NEERI NG AND TECHNOLOGY EDI T I ON )Vo.l 8No .4Dec ,2008结果表明M FCC 系数可以用作音频分类特征,并且可以提高音频分类的精度.MFCC 特征的计算过程为:对每一帧信号作DFT 变换计算幅度频谱,然后将幅度频谱用M el 尺度变换到M el 域,经过等带宽的M el 滤波器组滤波之后,将滤波器的输出能量进行叠加.e[j]=log∀N -1k=0wj[k ]#|s[k ]|,j =1,2,∃,P,(1)其中e[j ]表示第j 个滤波器的对数能量输出;w j [k ]表示第j 个三角滤波器的第k 个点对应的权值;|s[k]|表示变换到M e l 尺度上的DFT 频谱幅值;P 是滤波器的个数,一般为24个.将滤波器的对数能量进行离散余弦变换,可以得到如下的倒谱域M FCC 系数:x i =2P ∀Pj=1(e[j]#cos (iP(j -0 5))),i =1,2,∃,L,(2)其中,L 是M FCC 系数的维数,一般L %P,本文取12维.音乐信号的M FCC 特征参数主要反映音乐信号的静态特征,音乐信号的动态特征可以通过这些静态特征的差分谱来描述,结合一阶差分和二阶差分作为动态特征.这些动态信息和静态信息形成互补,能够很大程度上提高系统的识别性能.2 隐马尔可夫模型隐马尔可夫模型本质上是一种双重随机过程有限状态自动机[5],可以用三元数组来表示: =(A,B, ),其中,A 是状态S i 到S j 的转换概率矩阵;B 是状态的观察输出概率密度; 是状态的初始分布概率.HMM 需要研究的3个基本问题是:(1)已知HMM 模型 的各参数,求某一观察序列O 在该模型下的极大似然,即P (O | ),O =o 1,o 2,∃o T ;T 为观察序列长度;(2)在给定的HMM 模型 的条件下,求观察序列O 最有可能历经的状态序列S;(3)在已知样本集合的条件下,如何根据样本集合训练模型并获得模型参数.问题(a)可以由前向(For w ard)或者后向(Backw ard)算法解决.问题(b)是典型的状态空间搜索问题,经典的算法有基于动态规划的V iterb i 算法、Bea m Sea rch 和A*算法.问题(c)是统计学习过程,其学习算法有Baum W e lch 算法、梯度算法等.3 音频分类系统结构系统结构首先对音乐文件进行预处理,分割成音乐帧、加窗、端点检测,而后进行特征提取,提取出感知特征M e l 倒谱系数(M FCC)的特征序列作为特征向量,通过基于隐马尔可夫模型(HMM )的分类器,对已知类别的音频数据样本进行训练聚类,对于未知类别的音频数据样本进行分类,得出分类结果.分类过程中,当有待分类样本需要识别时,利用已经建立的HMM 参数来计算每套参数产生该音乐序列O 的似然值P (O / i ),将新样本归入似然值最大的类别中,并给出分类结果.表1 不同分类器对不同音乐类型的分类性能Table 1 The classificati on perfor m ance o f different cl a s s ifier and m usic音乐类别正确率/%NC K-NN PNN HMM 流行音乐80 0081 3380 0082 67民歌68 8973 3371 1175 56古典音乐76 3278 9581 5878 95戏曲80 9580 9580 9585 71语音90 3892 3192 3190 384 实验数据与分析实验中将音乐分为流行音乐(P )、民歌(F )、古典音乐(C )、戏曲(O )和语音(S )5个类别,所有音乐皆由I n te r ne t 下载,其中流行音乐(115首)、民歌(85首)、古典音乐(78首)、戏曲(61首)和语音(92首),提取的M FCC 特征维数L =12.实验中抽取样本的长度为5s ,采样率11 025kH z ,采样精度为16b it .训练过程中在每类中随机选取40首音乐归入训练集,其余音乐归入测试集.在此基础上进行了几项实验,每项实验中训练集和测试集的选择都是随机的,进行10次分类并取均值作为最终的分类结果.(P:流行音乐,F:民歌,C:古典音乐,O:戏曲,S:语音)4 1 不同分类器的分类性能比较以感知特征MFCC 及其一、二阶差分作为分类特征向量,本文使用3种经典分类器和HMM 分类器对特征向量进行分类.对4种分类器的分类性能进行比较,如表1所示:!113!张 燕,等:基于M FCC 和HMM 的音乐分类方法研究由于语音内在的与一般音乐不同的时、频特征,因此语音的分类正确率超过了90%.又由于戏曲中固有的特点,特征较其它音乐类型明显,所以使戏曲的分类正确率较高.而流行音乐、民歌和古典音乐由于在音乐类型上的相似性和重叠性,所以这3类比较容易造成误分类,其中流行音乐的误识率稍低一些.从上述表中可以看出,HMM在识别流行音乐、民歌、戏曲方面比其余的分类器正确率高,P NN在识别古典音乐、语音方面表现较好,而HMM与其余的分类器性能相当,可见HMM在4种分类器中还是有一定的性能优势,这主要是因为HMM对时间统计特性的较好表征.使用HMM进行音乐分类的详细结果如表2所示(表格中的数字表示纵向的音乐类别被分类到横向音乐类别的音乐数目),其中语音和戏曲的分类正确率很高,而有较多的流行音乐、民歌和古典音乐之间比较容易混淆.如流行音乐被误分类为民歌(8首)、古典音乐(5首),民歌被误分类为流行音乐(6首)、古典音乐(4首),古典音乐被误分类为流行音乐(3首)、民歌(3首),这是因为它们之间本来就固有的相似性,例如某些流行音乐和民歌在旋律和音调方面具有相当大的类似性,因此提取的特征向量也很接近,分类器无法对其进行准确的分类.表2 H MM分类详细结果Tabl e2 The cl a ssifica tion res ults of HMMP F C O S P628500 F634410 C333020 O012180 S230047表3 加入4个干扰样本后的分类结果Tabl e3 The cl a s s ifica tion res ults when adding four dist urbance s amples P F C O S P5813400F931410C442910O013170S2300474 2 干扰对分类的影响最后,对系统进行了抗干扰实验.以HMM为分类器,在流行音乐的训练样本集中加入了少量民歌样本(取40个训练样本中有4个干扰样本),经过训练后进行测试.加入4个干扰样本后对分类结果的影响如表3所示,从表中可以看出,由于流行音乐训练样本加入了民歌样本,使训练的类别模型参数产生了改变,使流行音乐和民歌之间的误识率有所增加.5 结语本文提出了基于M el倒谱系数特征的隐马尔可夫模型对音乐进行分类.对同一音频抽取若干样本,对样本识别结果采用投票法判定该音频的音乐类别.对相关理论进行了实验验证,开发了音乐自动分类的实验系统.将音乐文件分为5类,在分类中采用了投票法来对分类结果进行判定,提高了分类的准确率和稳定性.实验对比了4种不同分类器的性能,最后对有干扰的模型进行分类实验,实验结果表明本文方法具有更好的抗干扰能力和正确率.[参考文献](References)[1]Foo te J.A n overview o f audio i nforma ti on re tr i eva l[J].M ulti m edia Syste m s,1999,7(1):2 10.[2]Foo te J.Content based re trieval o f music and audio[J].M ulti m edia S torage and A rchiv i ng Syste m II,1997,32(29):138 147.[3]L i S Z.Content based c l assifica ti on and re trieval of audio usi ng the nearest feature li ne m ethod[J].I EEE T rans on Speech A ud i o P rocessing,2000,8(5):619 625.[4]Lu G uo j un,T e m plar H.A techn i que tow ards auto m atic aud i o c lassifica ti on and retr i eva l[C]//P roceed i ngs of t he4t h Internati onal Conference on S i gnal P rocessi ng.Be iji ng:IEEE X plore,1998:1142 1145.[5]卢坚,陈毅松,孙正兴,等.基于隐马尔可夫模型的音频自动分类[J].软件学报,2002,8(13):1593 1597.Lu Jian,Chen Y i song,Sun Zhengx i ng,et a.l A utom ati c aud i o class ificati on by usi ng hi dden M a rkov model[J].Jou rnal o f Sofewa re,2002,8(13):1593 1597.(i n Ch i nese)[责任编辑:刘 健] !114!南京师范大学学报(工程技术版) 第8卷第4期(2008年)。