基于GMM-UBM的飞机发动机声音 识别方法研究
【CN109949823A】一种基于DWPTMFCC与GMM的车内异响识别方法【专利】

GMM模型中包含了Y种异响声音的数据,则分别对应有Y个GMM,分别为λ1 ,λ2 ...λY,在识 别阶段,对待测异响求得特征向量序列Xi,则认为该种异响是属于异响库中第Y个异响声音 的后验概率为P(λi|X) ;根据贝叶斯理论 ,最大后验概率表示为 :
(10)申请公布号 CN 109949823 A (43)申请公布日 2019.06.28
( 54 )发明 名称 一种基于DWPT-MFCC与GMM的车内异响识别
方法 ( 57 )摘要
本发明提供了一种基于DWPT-MFCC与GMM的 车内异响声音识别方法,首先通过收纳并采集常 见的几种车内异响的声音信号,提取其MFCC特征 向 量 ,并针对异响 信号非平稳突变的 特点 ,对 MFCC的提取过程加以改进,将小波变换带入其计 算过程 ,得到新的特征参数 :DWPT-MFCC ,然后对 每种异响声音建立GMM模型 ,训练得到异响声音 数据库,最后将采集到的待识别异响信号与库中 已建立的模型进行比较,根据最大后验概率估计 得到识别结果 ,达到对异响声音进行识别的目 的 。能 够准 确识别车内常见的几 种异响声音 ,为 汽车异响测试提供参考,指导相关人员进行车内 NVH性能的优化。
式中 ,L为DWPT-MFCC系数的阶数 ,n代表参数中的每一阶 ,取值范围为1~L ,M是滤波器 组中滤波器的个数。
6 .根据权利要求1所述的基于DWPT-MFCC与GMM的车内异响声音识别方法,其特征在于, 步骤四的具体步骤为:
将特征参数作为EM算法的输入变量,用EM算法中的E步对待估参量进行似然概率估计, 用M步完成混合高斯函数参数的更新,使期望值达到最大,计算每个特征参数落在隐状态的 似然概率;然后判断模型是否收敛,若未收敛则继续进行EM算法迭代;最终得到一个异响声 音的模板库,用于后续识别过程中的模板匹配。
基于两种GMM—UBM多维概率输出的SVM语音情感识别

G MM n VM.t ead dtetokn f adS I rg re h w ido GMM— BM hdme so a k l o d (h a i n inw t iev co n U mu ii nin liei o s tesmedme s i eg n etra d l h o h mitrso xue fGMM )fro ets p e ha au eo moinfrS o n t e c sf tr f e s e e t VM. hsmeh dto d a tg fh tt t a rp riso o o Ti to o ka v naeo esai i l o et f t sc p e
c a a trz t n o MM n h to gd s rmi ain a i t f VM. p r n a e u t o e l moin ls e c a a a h r c eiai fG o a d t e sr n i i n t b l y o c o i S Ex e i me t1 s l n B r n e t a p e h d tb . r s i o s sa d e t n ls e c a a a e n a i e n t t ta h r p s d meh d a h e e in f a ti rv me t b u e n moi a p e h d tb s sMa d rn d mo sr e h tt e p o o e t o c iv s s i c n mp e n s a o t o a g i o
S e c mo i n r c g iin b s d o wo k n fGM M — p e h e t e o n t a e n t id o o o UBM
说话人识别方法综述

说话人识别方法综述【综述】随着语音识别技术和人工智能技术的不断发展,说话人识别技术已经逐渐成为了人们研究的热点和难点。
说话人识别技术是指计算机通过语音信号识别说话人的身份,实现自动说话人识别。
在实际应用中,说话人识别技术已经广泛应用于身份认证、声纹加密、电话客服等领域。
本文将就说话人识别技术的算法、特点及应用做一综述。
【算法】1.基于GMM-UBM的方法GMM-UBM(Gaussian Mixture Model-Universal Background Model)方法是一种经典的说话人识别算法,它利用GMM模型对语音信号进行建模,并以通用背景模型(UBM)作为训练数据。
该方法通常用于短时语音信号的识别,准确度较高,但对噪声以及长时语音信号的识别效果较差。
2.基于i-vector的方法i-vector方法是由NIST提出的一种说话人识别算法,它将说话人的隐含向量表示为i-vector。
该方法将说话人的长时语音信号进行建模,具有很好的抗噪性能,但需要大量的训练数据和计算复杂度高。
3.深度学习方法随着深度学习技术的发展,深度学习方法在说话人识别领域得到了广泛应用。
其中,卷积神经网络(CNN)和长短时记忆网络(LSTM)是常用的神经网络结构。
该方法具有很高的准确度和鲁棒性,但需要大量的训练数据和计算资源。
【特点】1. 鲁棒性说话人识别技术在实际应用中需要具有较好的鲁棒性,即能够在嘈杂环境和不同话语语速下识别说话人的身份。
基于深度学习的方法和i-vector方法具有很好的抗噪能力。
2. 精度说话人识别技术需要具有较高的识别精度,能够准确识别说话人的身份。
在精度方面,基于GMM-UBM的方法表现并不理想,而基于i-vector和深度学习的方法可以达到很高的准确度。
3. 训练数据说话人识别技术需要大量的训练数据才能得到较好的效果。
基于GMM-UBM的方法需要大量的训练数据才能获得较高的识别精度,而基于i-vector和深度学习的方法需要更多的训练数据。
实验报告-基于GMM-HMM的语音识别

多媒体技术实验报告——基于GMM-HMM的语音识别:学号:2015年5 月24 日目录——基于GMM-HMM的语音识别1一、马尔科夫初步概念理解3(一)两个重要的图3(二)问题:马尔科夫的开始状态如何确定?4二、马尔科夫的三种问题,以与解法4(一)解码,4解法一:最大似然路径4解法二 : Viterbi algorithm4(二)A,B,根据骰子掷出的结果,求出掷出这个结果的概率〔模型检验〕6解法一:穷举6解法二:前向算法6(三)知道骰子状态有几种,不知道A,知道B,观察到很屡次投骰子的结果〔可见状态链〕,我想反推出A。
6三、HMM算法使用条件6(一)隐性状态的转移必须满足马尔可夫性6(二)隐性状态必须能够大概被估计。
6四、EM算法GMM〔高斯混合模型〕。
7(一)单高斯分布模型GSM8(三)样本分类情况下的GMM9(四)样本分类未知情况下的GMM9五、HMM-GMM模型在语音识别中的应用11(一)语言识别的过程11(二)其中HMM与GMM的作用12六、实验结果12(一)代码阅读以与注释12(二)实验结果比照12(三)与DTW结果比照13(四)实验感想与收获错误!未定义书签。
(五)困难与改良错误!未定义书签。
一、马尔科夫初步概念理解(一)两个重要的图(二)问题:马尔科夫的开始状态如何确定?二、马尔科夫的三种问题,以与解法(一)解码,A,B〔隐含状态的数量以与转换概率以与B〕,根据掷骰子掷出的结果〔可见状态链〕,想知道每次掷出来的都是哪种骰子〔隐含状态链〕解法一:最大似然路径➢根本思想:求一串骰子序列,这串骰子序列产生观测结果的概率最大➢算法:穷举解法二 : Viterbi algorithm,求出每次掷出的骰子分别是某种骰子的概率➢根本思想:➢算法: 类似于动态规划;:(二)A,B,根据骰子掷出的结果,求出掷出这个结果的概率〔模型检验〕解法一:穷举➢思想:穷举所有骰子序列〔〕,计算每个骰子序列对应的概率,然后把这些概率相加➢算法:呵呵解法二:前向算法➢根本思想:结果递推,有点像动态规划,就是一步一步往后算,通过前向算法,算出概率加和,其中要用到A和B(三)知道骰子状态有几种,不知道A,知道B,观察到很屡次投骰子的结果〔可见状态链〕,我想反推出A。
语音识别中的声纹识别与说话人鉴别算法研究

语音识别中的声纹识别与说话人鉴别算法研究第一章:介绍语音识别技术作为一种重要的人机交互方式,在现代社会中得到了广泛的应用。
然而,传统的语音识别技术只能根据语音中的文字内容进行识别和分析,无法对说话人的身份进行准确鉴别。
为了解决这一问题,声纹识别与说话人鉴别算法应运而生。
第二章:声纹识别算法声纹识别算法是一种通过分析和比对语音中的声学特征,来进行说话人身份鉴别的技术。
这些声学特征包括说话人的音调、音色、语速、共振特征等。
声纹识别算法主要包括特征提取、特征匹配和建模三个步骤。
特征提取是声纹识别算法的核心步骤,它通过对声音信号进行分析和处理,提取出代表说话人特征的声学信息。
常用的声纹特征包括MFCC(梅尔频率倒谱系数)、LPCC(线性预测倒谱系数)等。
这些特征具有较好的抗噪能力和鲁棒性,可以有效区分不同说话人的声音。
特征匹配是声纹识别算法的关键步骤,它通过比对提取出的声纹特征与数据库中存储的声纹样本进行相似度计算,从而判断说话人的身份。
常用的特征匹配方法包括动态时间规整(DTW)和高斯混合模型(GMM)等。
这些方法可以根据声纹特征之间的相似度计算出匹配得分,并进行后续的判断和决策。
建模是声纹识别算法中的重要环节,它通过对声纹样本进行建模,从而实现对说话人声纹特征的有效提取和表达。
常用的声纹建模方法包括高斯混合模型(GMM)、隐马尔可夫模型(HMM)等。
这些模型可以根据声纹样本之间的统计特性,进行声纹模型参数的训练和优化,提高声纹识别的准确度和稳定性。
第三章:说话人鉴别算法说话人鉴别算法是在声纹识别算法的基础上,进一步提出的一种精细化的说话人身份鉴别技术。
说话人鉴别算法主要解决的问题是在同一声纹特征下,对多个说话人进行区分和判别。
常用的说话人鉴别算法包括GMM-UBM(GMM-Universal Background Model)和i-vector算法等。
GMM-UBM是一种经典的说话人鉴别算法,它通过建立一个通用背景声纹模型(UBM),对不同说话人的声纹进行建模和比对。
基于说话人识别的声纹识别系统设计与优化

基于说话人识别的声纹识别系统设计与优化声纹识别技术是一种利用个体声音特征进行身份认证的技术。
在现今的安全领域中,声纹识别系统被广泛应用于语音账号密码验证、犯罪侦查和电话欺诈检测等领域。
为了提高声纹识别系统的准确性和性能,本文将介绍基于说话人识别的声纹识别系统的设计与优化,以帮助解决实际应用中可能面临的问题。
声纹识别系统的设计包括声学特征提取、特征表示和声纹匹配三个主要步骤。
而说话人识别作为声纹识别系统的一种重要任务,它的目的是识别不同说话人之间的声音差异。
根据说话人识别的原理和技术,声纹识别系统可以细分为以下几个方面的设计与优化。
首先,声纹特征提取是声纹识别系统的基础。
常用的声纹特征提取算法包括梅尔频率倒谱系数(MFCC)、线性频率倒谱系数(LFCC)和迁移学习等。
在声纹特征提取的过程中,应该考虑声音的频谱特性、寿命和噪声等因素,以提高系统对说话人的识别能力。
同时,合理选择特征提取算法,充分利用说话人的声音信息,还可以有效降低系统的运算复杂度。
其次,声纹特征表示是声纹识别系统的核心。
声纹特征表示的目的是将声音转化为可评估和比较的向量。
常用的声纹特征表示方法有高斯混合模型(GMM)、隐马尔可夫模型(HMM)和深度神经网络(DNN)等。
这些方法不仅考虑了声音的语音学特征,还结合了统计模型和机器学习技术,以提高说话人识别的准确性和鲁棒性。
同时,声纹特征表示方法还应注意对说话人的个体特征进行有效建模,提高系统的辨别能力。
最后,声纹匹配是声纹识别系统的决策过程。
声纹匹配的目标是将待识别的声音与已知说话人的声音进行比较,以判断是否来自同一说话人。
常用的声纹匹配方法有动态时间规整(DTW)、高斯混合模型—通用背景模型(GMM-UBM)和i-vector等。
这些方法可以通过比较声纹特征的相似度来进行说话人的识别。
在声纹匹配的过程中,应该考虑系统的鲁棒性和对噪声环境的适应能力,以确保系统在实际应用中能有更好的效果。
声纹识别(说话人识别)技术

声纹识别(说话⼈识别)技术说话⼈识别(Speaker Recognition,SR),⼜称声纹识别(Voiceprint Recognition,VPR),顾名思义,即通过声⾳来识别出来“谁在说话”,是根据语⾳信号中的说话⼈个性信息来识别说话⼈⾝份的⼀项⽣物特征识别技术。
便于⽐较,语⾳识别(Automatic Speech Recognition,ASR)是通过声⾳识别出来“在说什么”。
为了简便,后⽂统⼀称为VPR。
传统的VPR系统多是采⽤MFCC特征以及GMM模型框架,效果相当不错。
后续也出现了基于i-vector,深度神经⽹络的等更多的算法框架。
【持续更新……】基础声纹识别的理论基础是每⼀个声⾳都具有独特的特征,通过该特征能将不同⼈的声⾳进⾏有效的区分。
这种独特的特征主要由两个因素决定,第⼀个是声腔的尺⼨,具体包括咽喉、⿐腔和⼝腔等,这些器官的形状、尺⼨和位置决定了声带张⼒的⼤⼩和声⾳频率的范围。
因此不同的⼈虽然说同样的话,但是声⾳的频率分布是不同的,听起来有的低沉有的洪亮。
每个⼈的发声腔都是不同的,就像指纹⼀样,每个⼈的声⾳也就有独特的特征。
第⼆个决定声⾳特征的因素是发声器官被操纵的⽅式,发声器官包括唇、齿、⾆、软腭及腭肌⾁等,他们之间相互作⽤就会产⽣清晰的语⾳。
⽽他们之间的协作⽅式是⼈通过后天与周围⼈的交流中随机学习到的。
⼈在学习说话的过程中,通过模拟周围不同⼈的说话⽅式,就会逐渐形成⾃⼰的声纹特征。
因此,理论上来说,声纹就像指纹⼀样,很少会有两个⼈具有相同的声纹特征。
美国研究机构已经表明在某些特点的环境下声纹可以⽤来作为有效的证据。
并且美国联邦调查局对2000例与声纹相关的案件进⾏统计,利⽤声纹作为证据只有0.31%的错误率。
⽬前利⽤声纹来区分不同⼈这项技术已经被⼴泛认可,并且在各个领域中都有应⽤。
⽬前来看,声纹识别常⽤的⽅法包括模板匹配法、最近邻⽅法、神经元⽹络⽅法,VQ聚类法等。
语谱图是声⾳信号的⼀种图像化的表⽰⽅式,它的横轴代表时间,纵轴代表频率,语⾳在各个频率点的幅值⼤⼩⽤颜⾊来区分。
基于子带GMM—UBM的广播语音多语种识别

Br a c s p e h La g a e Re o n to s d o b- n M M — o d a t S e c n u g c g ii n Ba e n Su — Ba d G - UBM
LiSi ,DaiBeq an,W an H ai a g yi ii g xi n
维普资讯
第2卷第1 2 期 20 年 3 07 月
数
据 采 集 Nhomakorabea与 处
理
V o .2 o 1 2 N .1
M a .2 7 r 00
J u n l fDaa Ac ust n & Pr c sig o r a t q iii o o o esn
文 章 编 号 :04 93 (0 7 0—0 40 10 —0 72 0 )10 1—5
基 于 子 带 GMM— M 的 广 播 语 音 多语 种 识别 UB
李 思 一 戴 蓓 蓓 王 海 祥
( 国科 学 技 术 大 学 电子 科 学 与 技 术 系 , 肥 ,3 0 6 中 合 202)
f s if r nts s t m s u e d fe e ub ys e .Exp rme t lr s t orr c gn zng 37l ng g sa i l c sv rf e i n a e uls f e o ii a ua e nd d a e t e iy t e v ldiy o h ub b nd GM M — h a i t ft e s — a UBM t d. me ho Ke r s:l g ge r c gnii y wo d an ua e o ton;t x —n pe de ;br a a ts e c e t i de n nt o dc s p e h;s — n ub ba d GM M — BM U
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2. 发动机异常声音识别系统结构
GMM-UBM [2]是一个高阶的 GMM,它是根据训练声音音自适应得到的,可以减小测试声音与训练 声音不同所带来的影响,提高系统识别率。在训练阶段,首先对发动机声音进行预处理之后,提取出发 动机声音的 MFCC (Mel Frequency Cepstral Coefficients)特征[3],然后用部分声音训练统一背景模型即 UBM 模型,再通过最大后验准则 [4] 训练来得到在通用背景模型的每个高斯分量上进行自适应得到 GMM-BUM 模型。最后在识别阶段,把待测试语音的特征,与训练好的 GMM-UBM 结构模型匹配,最 终的输出评分为 GMM 和 UBM 的输出评分之差。图 1 为基于 GMM-UBM 的异常声音识别结构图。
Keywords
Speaker Recognition, GMM-UBM, MFCC, Abnormal Sound Detection, MAP
基于GMM-UBM的飞机发动机声音 识别方法研究
杨毫鸽,孙成立
南昌航空大学信息工程学院,江西 南昌
收稿日期:2017年8月6日;录用日期:2017年8月21日;发布日期:2017年8月28日
Research of Aircraft Engine Sound Recognition Method Based on GMM-UBM
Haoge Yang, Chengli Sun
School of Information Engineering, Nanchang Hangkong University, Nanchang Jiangxi Received: Aug. 6 , 2017; accepted: Aug. 21 , 2017; published: Aug. 28 , 2017
= S
1 T ∑ log P ( X t λTAR ) − log P ( X t λUBM ) T t =1
(10)
式中,X t 是待识别声音的某一帧音频的特征向量, λTAR 和 λUBM 分别表示目标声音模型和 UBM 模型, S 为最终识别的似然度评分。
4. 实验结果与分析
通过对网上数据的搜集和整理,建立了一个飞机发动机声音数据库,数据库包含了民航波音 727、 军用战斗机 F-15 等十几种型号的飞机发动机声音,在本课题中,把发动机声音分为四种类型,包括发动 机启动声音、停止声音、运行声音和一些发动机坠毁声音。在实验中用到的发动机声音的总时长为 1474 s,其中发动机启动声音有 347 s,停止声音有 205 s,正常运行声音 629 s,和 293 s 坠毁声音,声音信号 的采样频率为 16 KHz,单声道录音,采用 16 Bit 量化。声音特征采用 MFCC 特征。根据这些声音信息, 进行了下面三个实验。 实验一比较相同的训练数据时,混合度对识别率的影响。选取 61 个发动机音频作为 UBM 训练,其 中包括 12 个启动音频,8 个熄火音频,30 个正常运行音频以及 11 个坠毁音频,总时长为 6 分 22 秒,用 于 MAP 自适应音频有 39 个包括 8 个启动音频, 8 个熄火音频, 13 个正常运行音频和 10 个坠毁音频总时 长为 5 分 32 s,待识别声音分别是 6 个启动音频,6 个熄火音频,29 个正常运行音频和 11 个坠毁音频。 特征为 9 维 MFCC 参数时,各类声音的识别率结果如下表 1: 由实验数据看出,在其他条件相同的情况下,混合度为 256 的时候总体识别效果较好,但是在该实 验条件下启动声音识别率最高仅为 50%,相比其他类型的声音识别率较低。针对特定的一类声音来说, 随着混合度的增加,识别率也随之增加,但当混合度增加到一定值的时候,识别率不再增加,甚至开始 下降。
Copyright © 2017 by authors and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY). /licenses/by/4.0/
摘
要
高斯混合模型–通用背景模型(Gaussian mixture model-universal background model, GMM-UBM)是 说话人识别技术中最为常用的模型, 该模型在诸多试验中都取得了很好的效果。 本设计探索把GMM-UBM
文章引用 : 杨毫鸽, 孙成立. 基于 GMM-UBM 的飞机发动机声音识别方法研究[J]. 计算机科学与应用, 2017, 7(8): 781-787. DOI: 10.12677/csa.2017.78089
Figure 1. Recognition structure graph of GMM-UBM 图 1. GMM-UBM 识别结构图
3.2. GMM-UBM 模型
高斯混合模型就是对一定数量的高斯概率密度函数进行线性加权组合,M 阶高斯混合模型 GMM 用 M 个单高斯分布的线性组合来描述帧特征在特征空间的分布[9],一个完整高斯混合模型是由参数均值矢 量 µi 、协方差矩阵 ∑i 和权重 ωi 组成,可以表示为:
Open Access
1. 引言
随着科学技术的发展,用科学技术方法来保障人们所处环境的安全越来越得到重视。异常声音识别 技术[1]是近年来语音识别的一个新兴的研究方向,通过对声音信号的监测跟踪,能及时判断出是否有异 常事件发生,进而采取相应的措施。一般来言,当发动机出现异常时,往往都伴随着异常的响动。因此 我们可以通过对发动机的异常声音的监控识别,来判断是否出现了异常,以便提前得到处理,可以预防 危急事件的发生。 本文研究的飞机发动机声音识别属于非语音的识别问题。一直以来,对语音识别的研究很多,但是 对于非语音方面的研究却很匮乏,大多数是把基于单一的 GMM, SVM (Support Vector Machine), HMM (Hidden Markov Model)等作为分类器, 效果并不理想, 因此本文考虑用 GMM-UBM 的方法作为识别模型, 实验证明,识别率比单一的分类器模型高很多。
(
)
(6)
′, 修正后的均值 µm
m m ′ αm = µm Em ( X ) + 1 − α m µm
(
)
(7)
′2 , 修正之后的方差 σ m
DOI: 10.12677/csa.2017.78089 784 计算机科学与应用
杨毫鸽,孙成立
v v 2 2 ′2 α m ′2 = σm Em X 2 + 1 − α m σm + µm − µm
Computer Science and Application 计算机科学与应用, 2017, 7(8), 781-787 Published Online August 2017 in Hans. /journal/csa https:///10.12677/csa.2017.78089
DOI: 10.12677/csa.2017.78089
782
计算机科学与应用
杨毫鸽,孙成立
正常发 动机声 音
预 处 理
特 征 提 取
U B M 建 模
U B M 模 型
目 标 声 音
预 处 理
特 征 提 取
G M M 建 模
G M M 模 型 训练阶段
识别阶段 待测 试声 音 预 处 理 特 征 提 取 比 较 判 别 识 别 结 果
= λ = i {ω , µ , ∑
i i i
1, 2, , M }
(1)
统一背景模型 UBM 也是高斯混合模型,它用很多各种环境下的声音数据训练获得,故 UBM 是所有 声音特征及环境通道的共性反映。因此 UBM 的训练数据集越多、覆盖面越广,最终的识别效果越好。 每一类声音的 GMM 模型是用该类训练声音由 UBM 自适应得到, 本实验中用到的自适应方法是 MAP 自 适应算法[10]。 自适应算法可以很好的解决训练数据少的问题, 它可以利用少量数据通过修改输入声音的 特征矢量,或者调整模型的参数,以此达到训练模型和测试数据相匹配的目的,从而保证了系统良好的 识别性能。由 UBM 模型通过 MAP 自适应得到的 GMM 就是 GMM-UBM 模型。
(2)
µm =
2 第 m 个 GMM 模型的方差 σ m ,
∑ t =1 P ( m X t , λ ) X t T ∑ t =1 P ( m X t , λ )
T T
(3)
σ
2 m
∑ P (m Xt , λ ) Xt µ2 = t =1 m T ∑ t =1 P ( m X t , λ )
ωm N ( X t µ m , Σ m )
th st th
Abstract
Gaussian mixture model-universal background model (GMM-UBM) is the most commonly used model in speaker recognition technology; the model has achieved very good results in many experiments. In this design, the GMM-UBM model is used in the abnormal sound detection. First, we process the aircraft engine sound signal, second extract the MFCC characteristic parameters, then train UBM model and last obtain the GMM-UBM model by MAP adaptive algorithm. The ultimate goal of the test indicates that the method could optimize the recognition rate decline due to interference change.