说话人识别中语音特征参数研究

合集下载

基于深度学习的说话人识别技术研究

基于深度学习的说话人识别技术研究

大连理工大学硕士学位论文摘要说话人识别通常称为声纹识别,是一种身份认证技术。

它具有用户接受度高、所需设备成本低、可扩展性好以及便于移植等优势,可广泛应用于国防军事、银行系统、通信、互联网、公安司法等领域。

说话人识别技术已经取得重要进展,并有产品问世,但尚有许多问题有待深入研究。

深度学习是近年来发展起来的一种神经网络模型,它具有克服学习不充分、深度不足等特点,可用于模式分类、目标跟踪等领域。

本文将深度学习理论用于说话人识别中,从基于深度学习的说话人识别系统、改进特征的说话人识别算法、改进统计准则的说话人识别算法三个方面,对说话人识别技术进行了研究,主要工作如下:(1)基于深度学习的说话人识别系统的性能研究。

将深度学习理论引入到说话人识别系统中,在此基础上分析了测试语音不同单位长度对说话人识别率的影响;在相同测试条件下,不同语音特征参数对说话人识别准确性的影响;在相同条件下,不同的深度学习层数以及层上节点数对于系统识别率的影响,证明了深度学习在说话人识别系统中应用的正确性与可靠性。

(2)基于改进特征的说话人识别算法。

本文将模拟人耳听觉特性的MFCC与GFCC语音特征参数结合起来,组成语音特征向量,并应用于说话人识别系统中,提高了系统识别率。

(3)基于改进统计准则的说话人识别算法。

考虑到传统的系统统计识别算法对于多个说话人识别时存在潜在的误判,本文应用分帧概率打分的统计准则,并进行了说话人识别实验。

实验仿真验证了改进统计准则的可行性与有效性。

关键词:说话人识别:深度学习;受限玻尔兹曼机;梅尔倒谱系数;Gammatone频率倒谱系数基于深度学习的说话人识别系统研究StudyonDeepLe锄ing—basedSpea】brRecognitionAbstractSpeal(errecogIlitioniscalledVoic印rintidentmcation.Itisakilldofautllenticationtechnology.Speal【errecogIlitiontecllIlologyhaSmanyadVan切【ges,includingK曲useracceptance,lowequipmentcosts,s包fongscalabili够andeaLsyt0仃jmsplantation.Itiswidelyusedinmilitaryfield,b砌【system,intemetsecuri够a11djudicialsec谢够.Speakerreco鲥tiontecllllologyisrelatedtoourlifecloselyaIldhaSgreatresearchValue孤dpraCtic2Lli够.Tllist11esismailllystudies廿leSpeal【erreco鲥tionsystem晰Ⅱldeeplea玎1iIlgmodel.Somebasicsystemperfom捌ncetestiIlgiscompletedanddiscuSsed,andttlispapermodifiedspeechfeatureparametersa11dstatisticalmemodtoobtaina11i曲erspea:kerrecogIlitionsystemrate.‰aretllispap盯t2Lll(ingat,0utis2usfollows:(1)111ebaSicpem彻anceofsyst锄baLsedondeep1ean血g.111ede印leanlingmodelisin仃oduCedinspeal(erreco嘶tionsystem.Theimpactofmedi毹rentlengtllofspeechu11itsonspeakerrecogIlitionsystemrateisstudied.Ont11esametestcondition,meiInpactofdifferentspeechf.ean】resonspeakerreco驴“ionsystemrateisalsostlldied.Theimpactofdi脆rentlayersaIldnodesofde印leaHlillgmodelonsystemreco班tionrateisstudied.nleaccuraCya11dreliabil时ofdeeplea玎1iIlgmodelappliedonspeakerrecogIlitionsystemisproVed.(2)BaSedonhUmaIlaudito巧Characteristics,weapplyanewSpeechfIe锨鹏bycombillingMFCCw池GFCCtoSpeakerreco鲥tionsystemt0沛pr0Vemereco鲥tionrate.(3)Consideringtlletmditionalsystemstatisticsalgoritllmformlllti—speakerrecogIlitionleadsto耐匈udgment,、Ⅳeproposedamodifieds蜥sticsaJgorimmformulti-speakerreco卿tionsystem.111ee豌ctiVenessofmodifiedmemodispr0VedbyeXpe血1e鹏.KeyWords:Speal【erReco鲥tion;De印Le锄i119;I沁strictedBoltzm锄Machme;Mel-FrequencyC印snmCoemcients;G锄matoneFrequencyC印s觚lIIlCoe伍cients;一II—基于深度学习的说话人识别系统研究2说话人识别基本知识说话人识别系统包含语音预处理部分、端点检测部分、特征计算部分以及识别模型的选择部分等。

说话人识别中的Mel特征频率倒谱系数

说话人识别中的Mel特征频率倒谱系数

说话人识别中的Mel特征频率倒谱系数曹辉;徐晨;赵晓;吴胜举【摘要】目的研究语音特征梅尔频率倒谱系数(MFCC)的选取对说话人识别系统性能的影响.方法采用基于平均影响值(MIV)的支持向量机(SVM)方法研究了说话人识别中的梅尔频率倒谱系数各维倒谱分量对于识别分类的贡献度.结果选择具有代表性的特征向量进行说话人分类识别,能得到维数更低、识别率更高的特征参数.结论通过MIV值可判断各维特征参数分量的重要性,选取权重值高的MFCC特征参数来提高系统识别率和缩短系统运行时间.【期刊名称】《西北大学学报(自然科学版)》【年(卷),期】2013(043)002【总页数】6页(P203-208)【关键词】说话人识别;语音特征参数;梅尔频率倒谱系数;支持向量机;平均影响值【作者】曹辉;徐晨;赵晓;吴胜举【作者单位】陕西师范大学物理学与信息技术学院/陕西省超声重点实验室,陕西西安710100;陕西师范大学物理学与信息技术学院/陕西省超声重点实验室,陕西西安710100;陕西师范大学物理学与信息技术学院/陕西省超声重点实验室,陕西西安710100;陕西师范大学物理学与信息技术学院/陕西省超声重点实验室,陕西西安710100【正文语种】中文【中图分类】TN912.34说话人识别与指纹识别、虹膜识别等一样,属于生物识别的一种,被认为是最自然的生物特征识别身份鉴定方式,因此又被称为“声纹”识别[1]。

说话人识别(speaker recognition)按照任务可以分为2个范畴:说话人辨认(speaker identification)和说话人确认(speaker verification)。

说话人辨认系统的性能随着说话人集合的规模增大而降低,所以其说话人语音特征参数的选择直接影响着语音识别系统的性能,提取维数小、鉴别能力强的特征矢量对于语音分类系统的计算快慢和识别率有直接的关系。

在说话人识别中最常用的特征参数是基于声道的LPCC、基于听觉特性的MFCC以及基于等响度曲线和临界带的PLP等[2-4],本文选取MFCC特征进行模拟实验。

说话人确认原理

说话人确认原理

说话人确认原理
说话人确认原理是基于声纹识别的一种生物识别技术,也称为说话人识别。

它的原理是通过分析处理说话人的语音信号,提取出包含在其中的个性因素,如发音器官和发音习惯的差异,从而将不同人的声音进行有效区分。

在说话人确认中,通常会建立相应的参考模板或模型,并采用一定的判决规则进行识别。

典型的方法包括模板模型和随机模型。

模板模型将训练特征参数和测试的特征参数进行比较,以两者之间的失真作为相似度;而随机模型则用一个概率密度函数来模拟说话人,训练过程用于预测概率密度函数的参数,匹配过程通过计算相应模型的测试语句的相似度来完成。

在声纹识别的过程中,每个人的语音都带有强烈的个人色彩,这是由于发音器官和发音习惯的差异以复杂的形势反映在说话人语音的波形中。

这种差异使得每个人的语音具有独特的特征,从而可以对说话者进行有效的识别。

总的来说,说话人确认原理是通过分析和比较语音信号中的个性因素来识别说话人的身份,这一技术是交叉运用心理学、生理学、数字信号处理、模式识别、人工智能等知识的综合性研究课题。

一些常用的语音特征提取算法

一些常用的语音特征提取算法

⼀些常⽤的语⾳特征提取算法前⾔语⾔是⼀种复杂的⾃然习得的⼈类运动能⼒。

成⼈的特点是通过⼤约100块肌⾁的协调运动,每秒发出14种不同的声⾳。

说话⼈识别是指软件或硬件接收语⾳信号,识别语⾳信号中出现的说话⼈,然后识别说话⼈的能⼒。

特征提取是通过将语⾳波形以相对最⼩的数据速率转换为参数表⽰形式进⾏后续处理和分析来实现的。

因此,可接受的分类是从优良和优质的特征中衍⽣出来的。

Mel频率倒谱系数(MFCC)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、线谱频率(LSF)、离散⼩波变换(DWT)和感知线性预测(PLP)是本章讨论的语⾳特征提取技术。

这些⽅法已经在⼴泛的应⽤中进⾏了测试,使它们具有很⾼的可靠性和可接受性。

研究⼈员对上述讨论的技术做了⼀些修改,使它们更不受噪⾳影响,更健壮,消耗的时间更少。

总之,没有⼀种⽅法优于另⼀种,应⽤范围将决定选择哪种⽅法。

本⽂主要的关键技术:mel频率倒谱系数(MFCC),线性预测系数(LPC),线性预测倒谱系数(LPCC),线谱频率(LSF),离散⼩波变换(DWT),感知线性预测(PLP)1 介绍⼈类通过⾔语来表达他们的感情、观点、观点和观念。

语⾳⽣成过程包括发⾳、语⾳和流利性[1,2]。

这是⼀种复杂的⾃然习得的⼈类运动能⼒,在正常成年⼈中,这项任务是通过脊椎和颅神经连接的⼤约100块肌⾁协调运动,每秒发出⼤约14种不同的声⾳。

⼈类说话的简单性与任务的复杂性形成对⽐,这种复杂性有助于解释为什⼳语⾔对与神经系统[3]相关的疾病⾮常敏感。

在开发能够分析、分类和识别语⾳信号的系统⽅⾯已经进⾏了⼏次成功的尝试。

为这类任务所开发的硬件和软件已应⽤于保健、政府部门和农业等各个领域。

说话⼈识别是指软件或硬件接收语⾳信号,识别语⾳信号中出现的说话⼈,并在[4]之后识别说话⼈的能⼒。

说话⼈的识别执⾏的任务与⼈脑执⾏的任务类似。

这从语⾳开始,语⾳是说话⼈识别系统的输⼊。

⼀般来说,说话⼈的识别过程主要分为三个步骤:声⾳处理、特征提取和分类/识别[5]。

基于DTW的说话人识别技术研究

基于DTW的说话人识别技术研究
式:

D一 ∑ d ] [时间规整情况 下两矢 量 的距离 , [ ] d X, 是第 i 帧测试矢量 x 和第 i 帧模 板矢量 Y. 之间的距离测 度 ,一 般这个 距 离测度采用欧氏距离 的平方 , 如下式所示 :
想, 解决 了语音发音长短不一 的模板匹配问题 , 是语音识别 中出现较早 , 为经典 的一种算法。 较 设测试语 音参 数共有 I 帧矢量 , 测试 语 则 音模板的特征矢量 序列为 x= X 、 。 ( 。X 、… 、 , x) 参考语音参数共有 J ,则参考模板的特征矢 帧 量 序列为 Y= Y 、 … 、 1。且 , ( .Y 、 Y) ≠J, 动态 则 时间规整就是要找到一个时 间规整 函数 』 =州 它将测 试矢量 的 时间轴 j 线性 地 映射到 参 非 考模板 的时 间轴 j 二 并使 该 函数 w满足 下 j,
】概 述
对 说话人识 别 的研 究始于 2 0世纪 3 0年 代, 早期 的工作主要集 中在人耳听辨实验和探 讨听音识别的可能性 方面。而对说话人 自动识 别的研究则起始于 2 0世纪 6 O年代 ,近几十年 来, 在这一技术的研究上取得 了重大的进展 , 并 在许多领域得到 了应用l l l 。主要讨论了 D W 算 T 法在说话人识别技术 中的应用 ,通过编程做 了 个基于 D W 的说话 人识别系统 ,并 对仿真 T 实验数据进行 了分析。 2 基于动态 时间规 整( T 的说话人 识 D W) 别方法 的算法实现 21 . 基于动态时间规整( T 的说话人识 D W)

预 加重 的 目的在于 消 除唇辐 射 的影 响 ,提 升语 音高 频部 分, 使语 音信号 的频谱 区域平 坦, 被广泛使用 的预加重 网络 是一 固定的数字 系统 , 信号方 程为: sn= ()09 (一 ) ()s 一 . s 1 n 5 n 其Z 变换的传递 函数为 :

语音信号处理第6章 说话人识别

语音信号处理第6章 说话人识别

一般来说,同时满足上述全部要求的特征通常是不可能找 到的,只能使用折衷方案。
6.2.2 特征的选取
说话人识别中常用的参数类别: 1)线性预测参数及其派生参数:包括部分相关系数、声道 面积比函数、线谱对系数以及LPC倒谱系数等。 2)语音频谱直接导出的参数:包括功率谱、基音轮廓、共 振峰及其带宽、语音强度及其变化等。 3)混合参数 4)其他鲁棒性参数:包括Mel频率倒谱系数,以及经过噪 声谱减或者信道谱减的去噪倒谱系数等。
所用特征 倒谱 误识率 9.43%
差值倒谱 基音 差值基音
倒谱与差值倒谱 倒谱、差值倒谱、基音、差值基音
11.81% 74.42% 85.88%
7.93% 2.89%
6.2.3 特征参量评价方法
同一说话人的不同语音会在参数空间映射出不同的点,若 对同一人来说,这些点分布比较集中,而对不同说话人的 分布相距较远,则选取的参数就是有效的。
6.2
说话人识别原理及系统结构
说话人识别系统可分为两个阶段:训练(注册)阶段和识 别阶段。 1)在训练阶段,系统的每一个使用者说出若干训练语料, 系统根据这些训练语料,通过训练学习建立每个使用者的 模板或模型参数参考集。 2)在识别阶段,把从待识别说话人说出的语音信号中提 取的特征参数,与在训练过程中得到的参考参量集或模型 模板加以比较,并且根据一定的相似性准则进行判定。
生活领域 ★
• 声纹监听 • 多人识别 • 声纹比对
技术难题:跨信道、噪声
6.2
说话人识别原理及系统结构
识别 识别结果 模式匹配 识别决策
语音输入
预处理
特征提取
训练
模板库
专家知识
说话人识别系统由预处理、特征提取、模式匹配和识别决 策等几大部分组成。除此之外,完整的说话人识别系统还

基于噪声环境下的说话人识别系统的研究

基于噪声环境下的说话人识别系统的研究

基于噪声环境下的说话人识别系统的研究摘要:对带噪声的语音信号采用消噪算法处理,并提取特征参数mel倒谱系数来建立说话人的特征参数的混合高斯模型,构建了一个基于噪声环境的文本无关的说话人识别系统。

本文详细阐述了梅尔倒谱系数这一主流语音特征及高斯混合通用背景模型来建立说话人识别系统。

实验表明,增加混合高斯模型的维数可以增加系统的识别率。

关键词:说话人识别;梅尔倒谱系数;高斯混合-通用背景模型中图分类号tp391.42 文献标识码a 文章编号 1674-6708(2011)53-0182-03a study on the text-independent speaker recognition system under noisy conditionlin xiu,fan mao-zhischool of software engineering, tongji university, shanghai 2018040 引言说话人识别指在提取代表个人身份的特征信息,最终识别出说话人。

作为身份鉴定的一种方法,说话人识别具有使用简单、获取方便、使用者的接受程度高等优点,但也存在许多值得研究的问题,如训练条件与测试条件不匹配。

说话人识别系统在训练条件与测试条件匹配的情况下,识别系统具有很好的性能。

由于人体声道特征,语音信道及通话环境等因素的干扰,使得说话人识别系统的准确性显著降低。

在说话人识别系统中,有两方面重要的影响因素:一方面,所选取的语音特征参数应尽量突出说话人的个性特征,使得不同说话人可以在特征空间上尽量分离。

另一方面,降低环境噪声对说话人识别系统的干扰,是使训练条件与测试条件匹配的最好办法。

通常提高系统抗噪性能的方法有3种:1)前端处理,如自适应噪声抵消技术等[1];2)提取具有鲁棒性的特征参数[2];3)后端处理,如归一化补偿变换[3]。

本系统的基本思路如下:首先,采用消噪算法对带噪声的语音信号进行消噪。

语音识别技术概述(1)

语音识别技术概述(1)

语音识别技术概述摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的发展前景和应用。

关键词:语音识别;特征提取;模式匹配;模型训练Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.Keywords:Speech identification;Character Pick-up;Mode matching;Model training一、语音识别技术的理论基础语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。

语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

此外,还涉及到语音识别单元的选取。

(一)语音识别单元的选取选择识别单元是语音识别研究的第一步。

语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档