说话人识别中语音特征参数研究

基于深度学习的说话人识别技术研究

大连理工大学硕士学位论文摘要说话人识别通常称为声纹识别，是一种身份认证技术。

它具有用户接受度高、所需设备成本低、可扩展性好以及便于移植等优势，可广泛应用于国防军事、银行系统、通信、互联网、公安司法等领域。

说话人识别技术已经取得重要进展，并有产品问世，但尚有许多问题有待深入研究。

深度学习是近年来发展起来的一种神经网络模型，它具有克服学习不充分、深度不足等特点，可用于模式分类、目标跟踪等领域。

本文将深度学习理论用于说话人识别中，从基于深度学习的说话人识别系统、改进特征的说话人识别算法、改进统计准则的说话人识别算法三个方面，对说话人识别技术进行了研究，主要工作如下：（１）基于深度学习的说话人识别系统的性能研究。

将深度学习理论引入到说话人识别系统中，在此基础上分析了测试语音不同单位长度对说话人识别率的影响；在相同测试条件下，不同语音特征参数对说话人识别准确性的影响；在相同条件下，不同的深度学习层数以及层上节点数对于系统识别率的影响，证明了深度学习在说话人识别系统中应用的正确性与可靠性。

（２）基于改进特征的说话人识别算法。

本文将模拟人耳听觉特性的ＭＦＣＣ与ＧＦＣＣ语音特征参数结合起来，组成语音特征向量，并应用于说话人识别系统中，提高了系统识别率。

（３）基于改进统计准则的说话人识别算法。

考虑到传统的系统统计识别算法对于多个说话人识别时存在潜在的误判，本文应用分帧概率打分的统计准则，并进行了说话人识别实验。

实验仿真验证了改进统计准则的可行性与有效性。

关键词：说话人识别：深度学习；受限玻尔兹曼机；梅尔倒谱系数；Ｇａｍｍａｔｏｎｅ频率倒谱系数基于深度学习的说话人识别系统研究ＳｔｕｄｙｏｎＤｅｅｐＬｅ锄ｉｎｇ—ｂａｓｅｄＳｐｅａ】ｂｒＲｅｃｏｇｎｉｔｉｏｎＡｂｓｔｒａｃｔＳｐｅａｌ（ｅｒｒｅｃｏｇＩｌｉｔｉｏｎｉｓｃａｌｌｅｄＶｏｉｃ印ｒｉｎｔｉｄｅｎｔｍｃａｔｉｏｎ．Ｉｔｉｓａｋｉｌｌｄｏｆａｕｔｌｌｅｎｔｉｃａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ．Ｓｐｅａｌ【ｅｒｒｅｃｏｇＩｌｉｔｉｏｎｔｅｃｌｌＩｌｏｌｏｇｙｈａＳｍａｎｙａｄＶａｎ切【ｇｅｓ，ｉｎｃｌｕｄｉｎｇＫ曲ｕｓｅｒａｃｃｅｐｔａｎｃｅ，ｌｏｗｅｑｕｉｐｍｅｎｔｃｏｓｔｓ，ｓ包ｆｏｎｇｓｃａｌａｂｉｌｉ够ａｎｄｅａＬｓｙｔ０仃ｊｍｓｐｌａｎｔａｔｉｏｎ．Ｉｔｉｓｗｉｄｅｌｙｕｓｅｄｉｎｍｉｌｉｔａｒｙｆｉｅｌｄ，ｂ砌【ｓｙｓｔｅｍ，ｉｎｔｅｍｅｔｓｅｃｕｒｉ够ａ１１ｄｊｕｄｉｃｉａｌｓｅｃ谢够．Ｓｐｅａｋｅｒｒｅｃｏ鲥ｔｉｏｎｔｅｃｌｌｌｌｏｌｏｇｙｉｓｒｅｌａｔｅｄｔｏｏｕｒｌｉｆｅｃｌｏｓｅｌｙａＩｌｄｈａＳｇｒｅａｔｒｅｓｅａｒｃｈＶａｌｕｅ孤ｄｐｒａＣｔｉｃ２Ｌｌｉ够．Ｔｌｌｉｓｔ１１ｅｓｉｓｍａｉｌｌｌｙｓｔｕｄｉｅｓ廿ｌｅＳｐｅａｌ【ｅｒｒｅｃｏ鲥ｔｉｏｎｓｙｓｔｅｍ晰Ⅱｌｄｅｅｐｌｅａ玎１ｉＩｌｇｍｏｄｅｌ．Ｓｏｍｅｂａｓｉｃｓｙｓｔｅｍｐｅｒｆｏｍ捌ｎｃｅｔｅｓｔｉＩｌｇｉｓｃｏｍｐｌｅｔｅｄａｎｄｄｉｓｃｕＳｓｅｄ，ａｎｄｔｔｌｉｓｐａｐｅｒｍｏｄｉｆｉｅｄｓｐｅｅｃｈｆｅａｔｕｒｅｐａｒａｍｅｔｅｒｓａ１１ｄｓｔａｔｉｓｔｉｃａｌｍｅｍｏｄｔｏｏｂｔａｉｎａ１１ｉ曲ｅｒｓｐｅａ：ｋｅｒｒｅｃｏｇＩｌｉｔｉｏｎｓｙｓｔｅｍｒａｔｅ．‰ａｒｅｔｌｌｉｓｐａｐ盯ｔ２Ｌｌｌ（ｉｎｇａｔ，０ｕｔｉｓ２ｕｓｆｏｌｌｏｗｓ：（１）１１１ｅｂａＳｉｃｐｅｍ彻ａｎｃｅｏｆｓｙｓｔ锄ｂａＬｓｅｄｏｎｄｅｅｐ１ｅａｎ血ｇ．１１１ｅｄｅ印ｌｅａｎｌｉｎｇｍｏｄｅｌｉｓｉｎ仃ｏｄｕＣｅｄｉｎｓｐｅａｌ（ｅｒｒｅｃｏ嘶ｔｉｏｎｓｙｓｔｅｍ．Ｔｈｅｉｍｐａｃｔｏｆｍｅｄｉ毹ｒｅｎｔｌｅｎｇｔｌｌｏｆｓｐｅｅｃｈｕ１１ｉｔｓｏｎｓｐｅａｋｅｒｒｅｃｏｇＩｌｉｔｉｏｎｓｙｓｔｅｍｒａｔｅｉｓｓｔｕｄｉｅｄ．Ｏｎｔ１１ｅｓａｍｅｔｅｓｔｃｏｎｄｉｔｉｏｎ，ｍｅｉＩｎｐａｃｔｏｆｄｉｆｆｅｒｅｎｔｓｐｅｅｃｈｆ．ｅａｎ】ｒｅｓｏｎｓｐｅａｋｅｒｒｅｃｏ驴“ｉｏｎｓｙｓｔｅｍｒａｔｅｉｓａｌｓｏｓｔｌｌｄｉｅｄ．Ｔｈｅｉｍｐａｃｔｏｆｄｉ脆ｒｅｎｔｌａｙｅｒｓａＩｌｄｎｏｄｅｓｏｆｄｅ印ｌｅａＨｌｉｌｌｇｍｏｄｅｌｏｎｓｙｓｔｅｍｒｅｃｏ班ｔｉｏｎｒａｔｅｉｓｓｔｕｄｉｅｄ．ｎｌｅａｃｃｕｒａＣｙａ１１ｄｒｅｌｉａｂｉｌ时ｏｆｄｅｅｐｌｅａ玎１ｉＩｌｇｍｏｄｅｌａｐｐｌｉｅｄｏｎｓｐｅａｋｅｒｒｅｃｏｇＩｌｉｔｉｏｎｓｙｓｔｅｍｉｓｐｒｏＶｅｄ．（２）ＢａＳｅｄｏｎｈＵｍａＩｌａｕｄｉｔｏ巧Ｃｈａｒａｃｔｅｒｉｓｔｉｃｓ，ｗｅａｐｐｌｙａｎｅｗＳｐｅｅｃｈｆＩｅ锨鹏ｂｙｃｏｍｂｉｌｌｉｎｇＭＦＣＣｗ池ＧＦＣＣｔｏＳｐｅａｋｅｒｒｅｃｏ鲥ｔｉｏｎｓｙｓｔｅｍｔ０沛ｐｒ０Ｖｅｍｅｒｅｃｏ鲥ｔｉｏｎｒａｔｅ．（３）Ｃｏｎｓｉｄｅｒｉｎｇｔｌｌｅｔｍｄｉｔｉｏｎａｌｓｙｓｔｅｍｓｔａｔｉｓｔｉｃｓａｌｇｏｒｉｔｌｌｍｆｏｒｍｌｌｌｔｉ—ｓｐｅａｋｅｒｒｅｃｏｇＩｌｉｔｉｏｎｌｅａｄｓｔｏ耐匈ｕｄｇｍｅｎｔ，、Ⅳｅｐｒｏｐｏｓｅｄａｍｏｄｉｆｉｅｄｓ蜥ｓｔｉｃｓａＪｇｏｒｉｍｍｆｏｒｍｕｌｔｉ－ｓｐｅａｋｅｒｒｅｃｏ卿ｔｉｏｎｓｙｓｔｅｍ．１１１ｅｅ豌ｃｔｉＶｅｎｅｓｓｏｆｍｏｄｉｆｉｅｄｍｅｍｏｄｉｓｐｒ０ＶｅｄｂｙｅＸｐｅ血１ｅ鹏．ＫｅｙＷｏｒｄｓ：Ｓｐｅａｌ【ｅｒＲｅｃｏ鲥ｔｉｏｎ；Ｄｅ印Ｌｅ锄ｉ１１９；Ｉ沁ｓｔｒｉｃｔｅｄＢｏｌｔｚｍ锄Ｍａｃｈｍｅ；Ｍｅｌ－ＦｒｅｑｕｅｎｃｙＣ印ｓｎｍＣｏｅｍｃｉｅｎｔｓ；Ｇ锄ｍａｔｏｎｅＦｒｅｑｕｅｎｃｙＣ印ｓ觚ｌＩＩｌＣｏｅ伍ｃｉｅｎｔｓ；一ＩＩ—基于深度学习的说话人识别系统研究２说话人识别基本知识说话人识别系统包含语音预处理部分、端点检测部分、特征计算部分以及识别模型的选择部分等。

说话人识别中的Mel特征频率倒谱系数

说话人识别中的Mel特征频率倒谱系数曹辉;徐晨;赵晓;吴胜举【摘要】目的研究语音特征梅尔频率倒谱系数(MFCC)的选取对说话人识别系统性能的影响.方法采用基于平均影响值(MIV)的支持向量机(SVM)方法研究了说话人识别中的梅尔频率倒谱系数各维倒谱分量对于识别分类的贡献度.结果选择具有代表性的特征向量进行说话人分类识别,能得到维数更低、识别率更高的特征参数.结论通过MIV值可判断各维特征参数分量的重要性,选取权重值高的MFCC特征参数来提高系统识别率和缩短系统运行时间.【期刊名称】《西北大学学报（自然科学版）》【年(卷),期】2013(043)002【总页数】6页(P203-208)【关键词】说话人识别;语音特征参数;梅尔频率倒谱系数;支持向量机;平均影响值【作者】曹辉;徐晨;赵晓;吴胜举【作者单位】陕西师范大学物理学与信息技术学院/陕西省超声重点实验室,陕西西安710100;陕西师范大学物理学与信息技术学院/陕西省超声重点实验室,陕西西安710100;陕西师范大学物理学与信息技术学院/陕西省超声重点实验室,陕西西安710100;陕西师范大学物理学与信息技术学院/陕西省超声重点实验室,陕西西安710100【正文语种】中文【中图分类】TN912.34说话人识别与指纹识别、虹膜识别等一样,属于生物识别的一种,被认为是最自然的生物特征识别身份鉴定方式,因此又被称为“声纹”识别[1]。

说话人识别(speaker recognition)按照任务可以分为2个范畴:说话人辨认(speaker identification)和说话人确认(speaker verification)。

说话人辨认系统的性能随着说话人集合的规模增大而降低,所以其说话人语音特征参数的选择直接影响着语音识别系统的性能,提取维数小、鉴别能力强的特征矢量对于语音分类系统的计算快慢和识别率有直接的关系。

在说话人识别中最常用的特征参数是基于声道的LPCC、基于听觉特性的MFCC以及基于等响度曲线和临界带的PLP等[2-4],本文选取MFCC特征进行模拟实验。

说话人确认原理

说话人确认原理
说话人确认原理是基于声纹识别的一种生物识别技术，也称为说话人识别。

它的原理是通过分析处理说话人的语音信号，提取出包含在其中的个性因素，如发音器官和发音习惯的差异，从而将不同人的声音进行有效区分。

在说话人确认中，通常会建立相应的参考模板或模型，并采用一定的判决规则进行识别。

典型的方法包括模板模型和随机模型。

模板模型将训练特征参数和测试的特征参数进行比较，以两者之间的失真作为相似度；而随机模型则用一个概率密度函数来模拟说话人，训练过程用于预测概率密度函数的参数，匹配过程通过计算相应模型的测试语句的相似度来完成。

在声纹识别的过程中，每个人的语音都带有强烈的个人色彩，这是由于发音器官和发音习惯的差异以复杂的形势反映在说话人语音的波形中。

这种差异使得每个人的语音具有独特的特征，从而可以对说话者进行有效的识别。

总的来说，说话人确认原理是通过分析和比较语音信号中的个性因素来识别说话人的身份，这一技术是交叉运用心理学、生理学、数字信号处理、模式识别、人工智能等知识的综合性研究课题。

一些常用的语音特征提取算法

⼀些常⽤的语⾳特征提取算法前⾔语⾔是⼀种复杂的⾃然习得的⼈类运动能⼒。

成⼈的特点是通过⼤约100块肌⾁的协调运动，每秒发出14种不同的声⾳。

说话⼈识别是指软件或硬件接收语⾳信号，识别语⾳信号中出现的说话⼈，然后识别说话⼈的能⼒。

特征提取是通过将语⾳波形以相对最⼩的数据速率转换为参数表⽰形式进⾏后续处理和分析来实现的。

因此，可接受的分类是从优良和优质的特征中衍⽣出来的。

Mel频率倒谱系数(MFCC)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、线谱频率(LSF)、离散⼩波变换(DWT)和感知线性预测(PLP)是本章讨论的语⾳特征提取技术。

这些⽅法已经在⼴泛的应⽤中进⾏了测试，使它们具有很⾼的可靠性和可接受性。

研究⼈员对上述讨论的技术做了⼀些修改，使它们更不受噪⾳影响，更健壮，消耗的时间更少。

总之，没有⼀种⽅法优于另⼀种，应⽤范围将决定选择哪种⽅法。

本⽂主要的关键技术：mel频率倒谱系数(MFCC)，线性预测系数(LPC)，线性预测倒谱系数(LPCC)，线谱频率(LSF)，离散⼩波变换(DWT)，感知线性预测(PLP)1 介绍⼈类通过⾔语来表达他们的感情、观点、观点和观念。

语⾳⽣成过程包括发⾳、语⾳和流利性[1,2]。

这是⼀种复杂的⾃然习得的⼈类运动能⼒，在正常成年⼈中，这项任务是通过脊椎和颅神经连接的⼤约100块肌⾁协调运动，每秒发出⼤约14种不同的声⾳。

⼈类说话的简单性与任务的复杂性形成对⽐，这种复杂性有助于解释为什⼳语⾔对与神经系统[3]相关的疾病⾮常敏感。

在开发能够分析、分类和识别语⾳信号的系统⽅⾯已经进⾏了⼏次成功的尝试。

为这类任务所开发的硬件和软件已应⽤于保健、政府部门和农业等各个领域。

说话⼈识别是指软件或硬件接收语⾳信号，识别语⾳信号中出现的说话⼈，并在[4]之后识别说话⼈的能⼒。

说话⼈的识别执⾏的任务与⼈脑执⾏的任务类似。

这从语⾳开始，语⾳是说话⼈识别系统的输⼊。

⼀般来说，说话⼈的识别过程主要分为三个步骤:声⾳处理、特征提取和分类/识别[5]。

基于DTW的说话人识别技术研究

式：
，
Ｄ一 ∑ ｄ］［时间规整情况下两矢量的距离，［］ｄＸ，是第ｉ帧测试矢量ｘ和第ｉ帧模板矢量Ｙ．之间的距离测度，一般这个距离测度采用欧氏距离的平方，如下式所示：
想，解决了语音发音长短不一的模板匹配问题，是语音识别中出现较早，为经典的一种算法。较设测试语音参数共有Ｉ帧矢量，测试语则音模板的特征矢量序列为ｘ＝Ｘ、。（。Ｘ、… 、，ｘ）参考语音参数共有Ｊ，则参考模板的特征矢帧量序列为Ｙ＝Ｙ、 … 、１。且，（．Ｙ、Ｙ） ≠Ｊ，动态则时间规整就是要找到一个时间规整函数』＝州它将测试矢量的时间轴ｊ线性地映射到参非考模板的时间轴ｊ二并使该函数ｗ满足下ｊ，
】概述
对说话人识别的研究始于２０世纪３０年代，早期的工作主要集中在人耳听辨实验和探讨听音识别的可能性方面。而对说话人自动识别的研究则起始于２０世纪６Ｏ年代，近几十年来，在这一技术的研究上取得了重大的进展，并在许多领域得到了应用ｌｌｌ。主要讨论了ＤＷ算Ｔ法在说话人识别技术中的应用，通过编程做了个基于ＤＷ的说话人识别系统，并对仿真Ｔ实验数据进行了分析。２基于动态时间规整（Ｔ的说话人识ＤＷ）别方法的算法实现２１．基于动态时间规整（Ｔ的说话人识ＤＷ）
一
预加重的目的在于消除唇辐射的影响，提升语音高频部分，使语音信号的频谱区域平坦，被广泛使用的预加重网络是一固定的数字系统，信号方程为：ｓｎ＝（）０９（一）（）ｓ一．ｓ１ｎ５ｎ其Ｚ变换的传递函数为：

语音信号处理第6章说话人识别

一般来说，同时满足上述全部要求的特征通常是不可能找到的，只能使用折衷方案。
6.2.2 特征的选取
说话人识别中常用的参数类别： 1）线性预测参数及其派生参数：包括部分相关系数、声道面积比函数、线谱对系数以及LPC倒谱系数等。 2）语音频谱直接导出的参数：包括功率谱、基音轮廓、共振峰及其带宽、语音强度及其变化等。 3）混合参数 4）其他鲁棒性参数：包括Mel频率倒谱系数，以及经过噪声谱减或者信道谱减的去噪倒谱系数等。
所用特征倒谱误识率 9.43%
差值倒谱基音差值基音
倒谱与差值倒谱倒谱、差值倒谱、基音、差值基音
11.81% 74.42% 85.88%
7.93% 2.89%
6.2.3 特征参量评价方法
同一说话人的不同语音会在参数空间映射出不同的点，若对同一人来说，这些点分布比较集中，而对不同说话人的分布相距较远，则选取的参数就是有效的。
6.2
说话人识别原理及系统结构
说话人识别系统可分为两个阶段：训练（注册）阶段和识别阶段。 1）在训练阶段，系统的每一个使用者说出若干训练语料，系统根据这些训练语料，通过训练学习建立每个使用者的模板或模型参数参考集。 2）在识别阶段，把从待识别说话人说出的语音信号中提取的特征参数，与在训练过程中得到的参考参量集或模型模板加以比较，并且根据一定的相似性准则进行判定。
生活领域 ★
• 声纹监听 • 多人识别 • 声纹比对
技术难题：跨信道、噪声
6.2
说话人识别原理及系统结构
识别识别结果模式匹配识别决策
语音输入
预处理
特征提取
训练
模板库
专家知识
说话人识别系统由预处理、特征提取、模式匹配和识别决策等几大部分组成。除此之外，完整的说话人识别系统还

基于噪声环境下的说话人识别系统的研究

基于噪声环境下的说话人识别系统的研究摘要：对带噪声的语音信号采用消噪算法处理，并提取特征参数mel倒谱系数来建立说话人的特征参数的混合高斯模型，构建了一个基于噪声环境的文本无关的说话人识别系统。

本文详细阐述了梅尔倒谱系数这一主流语音特征及高斯混合通用背景模型来建立说话人识别系统。

实验表明，增加混合高斯模型的维数可以增加系统的识别率。

关键词：说话人识别；梅尔倒谱系数；高斯混合-通用背景模型中图分类号tp391.42 文献标识码a 文章编号 1674-6708（2011）53-0182-03a study on the text-independent speaker recognition system under noisy conditionlin xiu，fan mao-zhischool of software engineering, tongji university, shanghai 2018040 引言说话人识别指在提取代表个人身份的特征信息，最终识别出说话人。

作为身份鉴定的一种方法，说话人识别具有使用简单、获取方便、使用者的接受程度高等优点，但也存在许多值得研究的问题，如训练条件与测试条件不匹配。

说话人识别系统在训练条件与测试条件匹配的情况下，识别系统具有很好的性能。

由于人体声道特征，语音信道及通话环境等因素的干扰，使得说话人识别系统的准确性显著降低。

在说话人识别系统中，有两方面重要的影响因素：一方面，所选取的语音特征参数应尽量突出说话人的个性特征，使得不同说话人可以在特征空间上尽量分离。

另一方面，降低环境噪声对说话人识别系统的干扰，是使训练条件与测试条件匹配的最好办法。

通常提高系统抗噪性能的方法有3种：1）前端处理，如自适应噪声抵消技术等[1]；2）提取具有鲁棒性的特征参数[2]；3）后端处理，如归一化补偿变换[3]。

本系统的基本思路如下：首先，采用消噪算法对带噪声的语音信号进行消噪。

语音识别技术概述(1)

语音识别技术概述摘要：本文简要介绍了语音识别技术理论基础及分类方式，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别技术的发展前景和应用。

关键词：语音识别；特征提取；模式匹配；模型训练Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.Keywords:Speech identification;Character Pick-up;Mode matching;Model training一、语音识别技术的理论基础语音识别技术：是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。

语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言（如人在说话时的表情、手势等行为动作可帮助对方理解），其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

此外，还涉及到语音识别单元的选取。

（一）语音识别单元的选取选择识别单元是语音识别研究的第一步。

语音识别单元有单词（句）、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

说话人识别中的Mel特征频率倒谱系数

Ａｂｓｔｒａｃｔ：ＡｉｍＴｏｓｔｕｄｙｔｈｅｉｎｌｆｕｅｎｃｅｏｆｔｈｅｓｅｌｅｃｔｉｏｎｏｆＭＦＣＣｏｎｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎｓｙｓ —
ｐｏｎｅｎｔｃａｎｂｅｊｕｄｇｅｄｂｙＭＩＶ．ＳｅｌｅｃｔｉｎｇＭＦＣＣｗｉｔｈｈｉ【ｇｈｗｅｉｇｈｔｖａｌｕｅｃａｎｉｍｐｒｏｖｅｔｈｅｓｙｓｔｅｍｒｅｃｏｇｎｉｔｉｏｎａｎｄｒｅ —
（ＣｏｌｌｅｇｅｏｆＰｈｙｓｉｃｓａｎｄＩｎｆｏｒｍａｔｉｏｎ，ＳｈａａｎｘｉＫｅｙＬａｂｏｒａｔｏｒｙｏｆＵｌｔｒａｓｏｕｎｄ，ＳｈａａｎｘｉＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｘｉａｎ７１０１００，Ｃｈｉｎａ）
法采用基于平均影响值（ＭＩＶ）的支持向量机（ＳＶＭ）方法研究了说话人识别中的梅尔频率倒谱
系数各维倒谱分量对于识别分类的贡献度。结果
选择具有代表性的特征向量进行说话人分类识
别，能得到维数更低、识别率更高的特征参数。结论通过ＭＩＶ值可判断各维特征参数分量的重要性，选取权重值高的ＭＦＣＣ特征参数来提高系统识别率和缩短系统运行时间。关键词：说话人识别；语音特征参数；梅尔频率倒谱系数；支持向量机；平均影响值中图分类号：ＴＮ９１２．３４文献标识码：Ａ文章编号：１０００－２７４Ｘ（２０１３）０２－０２０３０－６

作为说话人识别特征参量的M FCC的提取过程

作为说话人识别特征参量的M FCC的提取过程
丁爱明
【期刊名称】《电子工程师》
【年(卷),期】2006(32)1
【摘要】说话人识别是人的个体特征识别中的一个重要分支,在实际生活中已得到广泛应用。

而人的听觉系统是一个比较理想的说话人识别系统,MFCC(Mel倒谱系数)模拟了人的听觉特性,是符合人听觉特性的语音特征参量,在实际应用中取得了较高的识别率。

文中通过一个卷积同态系统简单介绍了语音信号的倒谱分析方法,并通过对Mel频率刻度得到符合人听觉特性的Mel频率等效滤波器组,最后介绍了MFCC求取的一般过程和算法。

【总页数】3页(P51-53)
【关键词】说话人识别;倒谱;MFCC;特征提取
【作者】丁爱明
【作者单位】河海大学计算机及信息工程学院
【正文语种】中文
【中图分类】TN912.3
【相关文献】
1.弯折滤波器在说话人识别的鲁棒特征提取中的应用 [J], 邓蕾;高勇
2.反蓄意模仿说话人识别系统中特征参数提取的研究 [J], 唐宗渤;周萍;王茂蓉;刘继锦
3.说话人识别系统中特征提取的优化方法 [J], 李铮;欧阳贝贝;赵淼;李琳;洪青阳;童峰
4.深度学习说话人识别中语音特征参数提取研究 [J], 张兴明;杨凯
5.文本无关说话人识别的一种多尺度特征提取方法 [J], 陈志高;李鹏;肖润秋;黎塔;王文超
因版权原因，仅展示原文概要，查看原文内容请购买。

说话人识别中语音特征参数研究

基于深度学习的说话人识别技术研究

说话人识别中的Mel特征频率倒谱系数

说话人确认原理

一些常用的语音特征提取算法

基于DTW的说话人识别技术研究

语音信号处理第6章 说话人识别

基于噪声环境下的说话人识别系统的研究

语音识别技术概述(1)

说话人识别中的Mel特征频率倒谱系数

作为说话人识别特征参量的M FCC的提取过程

语音信号处理第6章说话人识别