基于MFCC参数和VQ的说话人识别系统

合集下载

多声源环境下的鲁棒说话人识别

多声源环境下的鲁棒说话人识别

多声源环境下的鲁棒说话人识别张凤仪;夏秀渝;冉国敬;何礼;叶于林【摘要】针对多声源干扰环境下说话人识别系统性能急剧下降的问题,提出一种提取目标语音的前端处理方法,该方法依据独立语音时频域的近似稀疏性,基于目标语音方位信息采用非线性时频掩蔽方法提取目标语音。

建立了基于梅尔倒谱系数(MFCC)的高斯混合模型(GMM)说话人识别系统。

仿真实验证明,该方法能有效提取目标语音,提高说话人识别系统的鲁棒性。

该文多声源干扰仿真实验条件下,说话人识别系统的识别率平均提高了25%左右。

%The Speaker Recognition System is significantly affected by the Multi-Sound sources problem. In order to overcome this problem, a target sound extraction algorithm named time-frequency masking is proposed. The proposed algorithm is based on the sound source azimuth information and the approximate sparse nature of sound. A Mel-frequency cepstral coefficient (MFCC) based Gaussian mixture model (GMM) speaker recognition system is presented to improve the recognition robustness. The proposed algorithm has been tested on the simulated data through a number of experiments which shows the efficiency and robustness of the proposed algorithm. In the Multi-Sound sources environment, the recognition rate of the proposed algorithm can be improved by about 25%.【期刊名称】《计算机系统应用》【年(卷),期】2015(000)004【总页数】6页(P32-37)【关键词】说话人识别;语音增强;方位信息;时频掩蔽;MFCC参数【作者】张凤仪;夏秀渝;冉国敬;何礼;叶于林【作者单位】四川大学电子信息学院,成都 610065;四川大学电子信息学院,成都 610065;四川大学电子信息学院,成都 610065;四川大学电子信息学院,成都610065;四川大学电子信息学院,成都 610065【正文语种】中文随着计算机技术和信息化社会的发展, 说话人识别作为具有语音识别与理解功能的智能人T机接口, 其应用领域在不断扩大, 如保密安全、司法鉴定及军事领域等[1]. 目前说话人识别的主要方法有动态时间规整[2]、GMM[3]、隐马尔科夫[4]、矢量量化[5]和神经网络[6]等.当前大部分说话人识别系统在低噪声、低失真环境下性能已经有所改善, 实验证明, 这些传统方法的识别率可达85%以上. 但系统在实际应用中不可避免的会受到干扰、信道等影响, 导致其性能恶化. 针对这种情况, 现今有提取鲁棒性参数和前段语音增强两种类型处理方法.鲁棒性参数一般有MFCC、线性预测倒谱系数等. 前端语音增强方法有谱减法、维纳滤波法等. 当噪声近似为平稳宽带噪声时, 这两种方法是比较有效的.然而, 实际环境是很复杂的.如当说话人识别系统应用于“鸡尾酒会”, 即多声源环境, 性能就急剧下降.实际多声源环境中, 往往干扰源的类型、个数、方向、混合方式均未知, 要想从众多的干扰源中获取目标语音是非常困难的. 这是说话人识别系统实用化的关键, 也是当前的研究热点.本文针对多声源环境下的语音识别, 提出了使用双通道提取目标语音的前端处理方法, 该方法依据语音的时频稀疏性, 仅利用目标语音的方位信息采用时频掩蔽的方法提取目标语音. 在建立的基于MFCC参数的GMM说话人识别系统上进行的对比实验证明, 在本实验条件下, 说话人识别系统性能有较大幅度提升, 目标语音的识别率平均提高25%左右.2.1基于目标声源方位信息时频掩蔽算法基本原理[7]在实际应用中, 目标说话人相对麦克风方位大致固定, 而干扰源的个数和方向均未知, 如公共场合打电话, 有主讲人的会议系统等. 因此, 提出了一种基于目标语音初始方位信息采用时频掩蔽提取目标语音的双通道系统方案.一般来说, 目标信号与各路干扰信号来自不同方位, 双通道系统能提供一定的声音空间方位信息. 如图1所示, 点声源S发出的信号经过不同传输路径, 到达主、从麦克风. 设, 表示和的差异滤波器. 由图1清晰可见, 当声源方位不同时, 相应的也是不同的. 因此, 我们可以通过来辨识不同方位的信号. 这里将声源方位信息定义为, 为的频率响应.在单声源且无干扰源的情况下, 主、从麦克风接收的信号分别为、, 该声源的方位信息可由式(1)求得:实际可能是多声源情况, 这时麦克风收到的是混合信号, 这些信号无论时域或频域均是混杂的. 但研究表明[7], 独立信号在时频域上具有近似稀疏性, 就混合信号的某个时频单元来看, 它仅属于某个声源. 因此, 可用(1)式估计混合信号每个时频点所对应声源的方位信息, 然后将其和目标声源的方位信息比较, 采用时频掩蔽方法将目标语音分离出来.设主、从麦克风接收的混合语音信号的某时频单元为和, 有:另设目标语音方位信息为, 某频点为. 由于针对的环境目标语音方位大致固定, 其方位信息可预先测定. 定义该时频单元估计的和目标语音的相对误差为参数然后, 采用(4)式求得非线性掩蔽函数:(4)最后由(5)式得到时频掩蔽法提取的目标语音:以上时频掩蔽算法由于采用了非线性掩蔽函数, 在滤掉与目标语音不符频点时采用平滑截断, 因此保留了相对较好的听觉效果.2.2 目标声源的方位信息实时跟踪处理通过上文时频掩蔽方法初步提取的目标语音的信噪比已有很大提高. 但实际运用中, 目标声源的方位可能会有一些小变动, 如说话人移动头部或对身体坐姿进行一定调整等. 目标声源方位信息是该方法中最重要的一环, 若方位信息出现了偏差, 将直接影响到语音增强的效果. 因此, 提出了对目标声源的方位进行实时跟踪处理.用上述时频掩蔽法从主、从麦克风中初步提取的目标语音不仅信噪比提高了, 而且依然保留了声源的方位信息, 进一步可利用这些信号采用批处理相关法辨识法来跟踪的变化. 公式如下:其中, 为初步时频掩蔽处理后主麦克风的信号功率谱, 为初步时频掩蔽处理后主、从麦克风信号的互功率谱. 这个辨识过程可以不断进行以跟踪目标方位的变化. 也可用自适应方法对目标语音的方位进行实时更新, 也会有较好的效果.将得到的准确的用于时频掩蔽过程, 然后通过短时傅里叶逆变换即可得到最终提取的目标声源信号. 当然, 由于本文接下来进行的是基于GMM的说话人识别, 因而可以直接将(5)式得到的频域信号提取MFCC参数备用, 无需在频域信号与时域信号之间反复变换.针对多声源环境下的说话人识别, 整个系统分为两个阶段: 目标语音增强阶段及说话人识别阶段.系统原理图如图2.图2(a)为前端语音增强部分, 由主、从麦克风接收到的混合信号, 利用已知的目标声源的方位信息进行时频掩蔽处理, 得到增强的语音.图2(a)中虚线部分为利用批处理互相关法进行的方位实时更新的处理.图2(b)为说话人识别系统的原理框图, 分为两部分: 第一部分是说话人模型的训练,将仅有目标语音而无其他干扰声源时, 主麦克风收到的语音作为训练语音, 提取特征参数训练模型参数.第二部分是说话人识别部分, 将测试语音进行预处理及特征参数提取, 输入模型进行匹配判决计算, 即为说话人识别.语音的预处理包括: 预加重、加窗分帧、端点检测等.语音信号进行预加重可以减少口唇辐射的影响, 一般通过传递函数为H(z)=1-az-1的一阶FIR高通数字滤波器来实现, 0.9<a<1.0.在本文的实验中, 取a=0.9375. 一般认为语音在10ms~30ms内是平稳的, 因此需对语音进行加窗分帧.端点检测是为了找出语音信号的起止点的位置, 区分开语音和各种非语音信号时段. 本文使用的是基于短时能量和短时过零率的端点检测方法.在说话人识别中, MFCC特征参数借鉴人耳的听觉机理, 相对于其他特征参数具有强抗噪性、高识别率的特点.对语音帧进行短时傅里叶变换并求出其短时能量谱, 用M个Mel带通滤波器进行滤波得到Mel谱, 然后对其取对数并进行反离散余弦变换就得到了L个MFCC系数, 一般L取12~16个左右.说话人识别系统分为训练和识别. 为说话人建立GMM模型, 实际上就是通过训练, 估计其参数, 使其能最好的匹配训练特征矢量的分布. 在这里运用了最大似然的估计方法.由于不易用通常办法找到似然函数的极大值点, 因此采用了EM算法[8][9][10](期望值最大)来估计GMM的参数λ. 它从一个初始模型开始, 每次迭代的估计出一个新的模型参数λ’, 使, 然后再以λ’作为模型的参数开始下一次迭代, 直到收敛. 具体的参数迭代公式如(8)-(10):训练好模型后, 接下来是说话人的识别. 对于有N个人的说话人识别系统, 每个说话人用一个GMM模型来代表, 记为: λ1,λ2,……,λN. 测试语音的识别结果由最大后验概率准则给出, 即:其中, 记测试语音的观测特征矢量序列为O, 为第n个人产生特征矢量集O的条件概率, 为了简化计算, 一般采用对数似然函数.综上, 选取MFCC参数基于GMM方法, 由以上具体步骤便可以完成说话人模型的建立及说话人识别.该实验选取模拟的会议环境进行仿真实验. 参考实际会议环境, 有1个固定方位的主讲人和其他5个方位的听众, 因此, 可以通过主讲人与各听众的方位信息的差异来增强主讲人方位的语音信息. 在该环境下, 作为目标声源的主讲人的方位相对固定, 主、从麦克风的位置固定, 而干扰源类型、个数、幅度和位置均未知. 利用专业软件“Room Impulse Respon-se”构造的实验环境如图3所示: 房间长6米, 宽5米, 高3米, 房间混响时间T=360ms.两个全向麦克风的位置固定且间隔为0.2m, 6个声源处于不同空间方位, 声源S1-S6围绕会议桌布置,各声源到麦克风的冲击响应由专业软件生成.设目标语音为S1, 与主、从麦呈三点一线. S2-S6为干扰源, 为人声、敲门声及短信声等多种干扰源. 实验中, 麦克风的接收端均加入了信噪比为30dB的白噪声来模拟环境噪声.在实验中, 采用了语音库“TIMIT Database”[11].该语音库中每人有10句录音, 每句时长为2s~4s不等.在其中随机抽取17人、共100句语音进行实验.将每人10句话中的其中4句作为说话人模型训练, 其余6句作为说话人识别测试用.带双麦克风前端处理的说话人识别系统的实验步骤分为以下四步:(1) 无干扰源时, 由主麦分别采集N个目标语音, 提取其MFCC特征参数, 分别进行说话人训练, 建立N个GMM模型.(2)在无干扰源时, 由主、从麦克风收到的目标声源信号辨识目标源初始方位信息.(3)多声源情况下分别采集主、从麦中的混合语音, 进行时频掩蔽提取目标语音.(4)将混合语音/增强语音提取MFCC特征参数, 输入各模型进行匹配计算, 进行说话人识别对比实验.在以上实验环境下, 进行了以下四个实验.实验一: 目标语音提取实验在本实验中, s1为TIMIT语音库中随机抽取的1名说话人, s2-s6为5个干扰源, 分别为1个男声、2个女声、1个敲门声和1个诺基亚短信音,实验结果如图4所示.对比图4各波形可知, 从混合信号中较好地提取出了目标语音.对多次实验结果进行分析, 平均信噪比增益达9dB.主观试听处理后的信号, 可清晰听见目标语音, 几乎听不见其他干扰声, 能明确辨别出说话人的词句, 但缺点是有一些音乐噪声.实验二: 不同前端处理方法的说话人识别对比实验用本文方法及传统的谱减法分别对混合语音进行处理.混合语音的组成分两种情况: (1)混合语音由目标语音与5个方向的干扰语音混合而成(后称“多”), (2)混合语音由目标语音与5个方向的白噪声混合而成(后称“白”).实验中用改变干扰源幅度的方法来控制信噪比, 并且将纯净语音(后称“干净”)、混合语音(后称“污染”)、处理后语音分别输入由干净语音训练所得说话人系统中进行识别测试, 说话人的模型参数由干净语音训练所得, 测得干净语音的识别率为93%.多次实验后取平均结果如表1所示.由表1可得以下结论:(1)说话人识别系统的性能在多声源环境下急剧下降, 目标说话人的识别率会因干扰源类型和信噪比大小有不同程度的降低, 识别率平均降低了37%.(2)传统谱减法处理平稳噪声时效果不错, 如干扰源仅为白噪声时, 混合信号经谱减法处理后识别率平均提高了15%.但当干扰源为非平稳的语音或其他声源时, 其语音增强效果就很差了, 识别率仅提高2-3%.(3)本文方法消除多声源干扰效果明显.在各种情况下(不同干扰源和信噪比), 经过本文方法增强后的语音识别率都有显著提高, 平均增加22%.尤其是处理干扰源为多种声源时效果明显, 如SNR=-10dB的多声源混合语音, 增强后识别率提高42%.实验三: 干扰源数目不同时的语音增强对比实验用本文语音增强方法进行了干扰源数目不同时的说话人识别对比实验.实验中的干扰源在1个男声、2个女声以及1个敲门声和1个诺基亚短信音中随机抽取.实验中各干扰源幅和目标语音的幅度大小基本一致.统计多次实验, 结果如表2.由表2可以得出以下结论:(1) 干扰源的数目越多, 污染语音的识别率就越低.(2)经本文语音前端处理, 说话人识别率平均提高27.6%.且处理后的说话人系统识别率能保持在70%以上.(3)由于该方法是建立在语音稀疏性和方位可区分性的基础上, 因此, 随着干扰源数目的进一步增加, 该方法性能会有所下降.实验四: 目标语音方位跟踪实验定义s1、主麦连线和主、从麦连线的夹角为θ, 设目标声源初始方位θ为0O, 实验中设实际目标声源方位θ可在-5o~5o范围内变动, 如图3虚线部分所示.由公式(6)对目标语音方位信息进行跟踪, 并将根据初始方位信息的提取(后称“初步提取”)与更新方位信息后的提取(后称“跟踪提取”)得到的语音分别进行说话人识别, 多次实验取平均结果如表3所示.由表3可得, 初始目标语音方位信息与未处理的污染语音相比, 其识别率平均只提高8%.进行语音目标方位信息实时跟踪后, 目标语音得到了进一步的提取, 其识别率较跟踪前平均提高了11%.针对多声源干扰环境下说话人识别系统性能急剧下降的问题, 本文提出了基于双通道利用目标语音方位信息进行时频掩蔽提取目标语音的前端处理方法.针对目标声源方位可能出现的小范围变动, 还提出了实时跟踪目标声源方位的处理.建立了基于MFCC和GMM说话人识别系统, 在一个多达六个声源的仿真会议系统环境下进行说话人识别实验.实验结果表明, 在多声源干扰情况下, 经本文的前端处理后目标语音的识别率平均提高了25%左右.仿真实验所取得的良好效果显示了该算法的可行性.当然, 随着声源数目的增加以及信噪比的进一步降低, 本系统性能会有所下降.但以上实验已证明该算法对提高系统鲁棒性、增强说话人识别的效果是很好的.1 尹许梅.基于MFCC和矢量量化的说话人识别算法研究[学位论文].长沙:湖南大学,2011.2 檀蕊莲.动态事件规整算法与说话人识别技术研究.科技资讯,2010,8.3 曹洁,潘鹏.基于GMM的说话人识别技术研究.计算机工程与应用,2011,47(11):114–117.4 张学峰,王芳,夏萍.融合LPC与MFCC的特征参数.计算机工程,2011,37(4).5 展领,景新幸.基于VQ-MAP和SVM融合的说话人识别系统.计算机工程与应用,2011,47(13).6 陈仁林.基于神经网络的说话人识别算法研究[学位论文].银川:宁夏大学,2012.7 夏秀渝,何培宇.基于声源方位信息和非线性时频掩蔽的语音盲提取算法.声学学报,2013,38(2).8 Wang G, Yu HY, Shen ZX, et al. Fast convergence parameter estimation method based on Expectation-Maximum algorithm. Journal of Jilin University(Engineering and Technology Edition), 2013, 43(2): 532–537.9 Ramezani A, Moshiri B, Khan AR, et al. Design of an adaptive maximum likelihood estimator for key parameters in macroscopic traffic flow model based on expectation maximum algorithm. IET Science, Measurement & Technology, 2011, 5(5): 189–197.10 Wang G, Yu HY, Shen ZX. An Improved Symbol Detection Algorithm Based on Expectation-Maximum. Information Computing and Applications. Springer Berlin Heidelberg, 2013: 467–476.11 Katsamanis A, Black MP, Georgiou PG, et al. SailAlign: Robust long speech-text alignment. Proc. of Workshop on New Tools and Methods for Very-Large Scale Phonetics Research in Phonetic Science. 2011. 28–31.。

声音信号特征参数的分析和提取方法

声音信号特征参数的分析和提取方法

声音信号特征参数的分析和提取方法田雪阳;杨宇;刘子寒;李渊【摘要】The whole study is based on virtual instrument LabVIEW with the combination of MATLAB. This system processes and analyzes the voice signal collected by computer's sound card, then extracts the signal's characteristic parameters MFCC and save them in the computer. The parameters are designed through VQ algorithma to identify speaker.%在基于虚拟仪器LabVIEW的环境中,通过与MATLAB相结合设计一个语音识别登陆系统,对电脑声卡采集到的语音信号进行处理分析,提取声音的特征参数Mel倒谱系数并保存,然后通过矢量量化的模式匹配来进行身份确认.【期刊名称】《价值工程》【年(卷),期】2017(036)021【总页数】3页(P203-205)【关键词】语音识别;LabVIEW;MATLAB;Mel倒谱系数;矢量量化算法【作者】田雪阳;杨宇;刘子寒;李渊【作者单位】上海电机学院,上海201306;上海电机学院,上海201306;上海电机学院,上海201306;上海电机学院,上海201306【正文语种】中文【中图分类】TN912.3语音识别系统是建立在一定的硬件平台和操作系统之上的一套应用软件系统。

语音识别一般分两个步骤,第一步是训练阶段,是建立识别基本单元的声学模型以及进行文法分析的语言模型等;第二步是语音识别阶段,根据实际情况的要求采用一种语音识别的算法,采用语音分析方法分析出这种识别方法所要求的语音特征参数,按照一定的准则和测度与系统模型进行比较,通过判决得出识别结果。

基于时频分布与MFCC的说话人识别

基于时频分布与MFCC的说话人识别

J厂 £ + 一 I ( P ) £ ≯ 一 6 (= , , 『 )
e J ‘ r “) u r v - f d d d 一
1 g e V l 分布和 C o. la 分布 .Winr ie 2 - l h i l ms Wii 2 O世纪 6 0年代中期, o e C hn发现众 多的时频分布 可 以用统一 的形式表 示,习惯称之 为 C hn类 时频 分 oe.
进行特 征提取 ,并使用支持 向量机作 为识别器来 进行 说话人 识别 。为 了能够 同时考虑语音 的静 态和动 态特 征 , MF C和 MF C相结合来提取特 征参数。仿真 将 C C 实验表 明,MF C和 MF C相结合的特 征参数在说话 C C 人 识别 中识别 性能 明显优 于只使用 MF C 参数 的情 C 况 。而且在 时频 分析基础上再提取 MF C及 MF C C C+
S e k rRe o n to s d o me F e u n y Dit i u i n a d M F p a e c g i nBa e nTi - r q e c srb to n CC i i fNY nY n Y F n — i, EY h i-a , U e gQ n H a .
要 :针对 MF C不能得到高效的说话人识别性能的 问题 ,提 出了将时频特征与 MF C相结合 的说话人特征 C C
提取方法 。首先得到语音信号的时频分布 ,然后将 时频域转换到频域再提取 MF C MF C作为特征参数 ,最 后 C+ C 通过支持 向量机来进行说话人 识别研 究。仿真 实验 比较 了 MF C C 、MF C MF C分别作为特 征参数 时语音信号 C+ C 与各种时频分布 的识别性 能,结果表 明基 于 C WD 分布的 MF C和 MF C的识别率可提 高到 9 . C C 5 %。 7 关键词 :短 时傅里 叶变换 ;Wi e- ie g r l 分布 :C o- la s n Vl h i l m 分布 ;Me 频率倒谱系数:说话人识别 Wii l

基于FCM和FSVM的说话人辨认

基于FCM和FSVM的说话人辨认

基于FCM和FSVM的说话人辨认谭萍;邢玉娟【摘要】针对经典支持向量机对非目标样本没有拒绝能力,且应用于说话人辨认时存在不可分区域的问题,提出一种基于模糊C均值聚类和模糊支持向量机的多级模糊说话人辨认方法.首先利用模糊C均值聚类方法对特征向量进行聚类,减少样本的数目,加快模糊支持向量机训练速度.最终由FSVM得出判决结果.并通过仿真实验验证了该方法的有效性.【期刊名称】《科学技术与工程》【年(卷),期】2010(010)024【总页数】4页(P5919-5922)【关键词】模糊C均值聚类;模糊支持向量机;说话人辨认;多分类支持向量机【作者】谭萍;邢玉娟【作者单位】甘肃联合电子信息工程学院,兰州,730000;甘肃联合电子信息工程学院,兰州,730000【正文语种】中文【中图分类】TP391.42说话人辨认就是把待测说话人的语音判定为属于多个参考说话人之中的某一个,是一个多类分类问题。

在保安、司法、信息检索和军事等诸多领域有着广泛的应用前景。

由 Vapnik提出的基于统计理论的传统支持向量机(Support Vector Machine,SVM),以其出色的分类性能在人脸识别、字符识别、文本识别和指纹识别等领域获得了成功的应用。

然而,SVM是基于二元分类的,当将其应用于说话人辨认这类多元分类问题时,需要构造多元分类器,常用一对多组合分类和一对一组合分类的方法,但是在构造多元分类器的过程中,语音数据存在一些不可分区域,且SVM 对非目标样本没有拒绝能力[1]。

为了解决这个问题,Takuya Inoue和 Shigeo Abe 提取了模糊支持向量机的方法(Fuzzy Support Vector Machine,FSVM)[2],通过对每一类样本设置隶属度解决不可分数据,实验结果表明 FSVM的分类性能优于SVM。

然而,Alistair Shilton和 Daniel i[3]指出 FSVM在大规模训练样本情况下,并不能很好的解决受限优化问题。

基于MFCC的说话人语音识别系统的研究

基于MFCC的说话人语音识别系统的研究

基于MFCC的说话人语音识别系统的研究于树本【摘要】说话人识别是当前语音识别的研究热点之一。

本文主要研究了以下几个方面:说话人语音识别系统,对能够反映人对语音感知特性的Mel频率倒谱系数(MFCC)作为特征参数进行提取。

同时,分析了概率神经网络PNN,概率神经网络是性能良好的分类神经网络。

实验结果表明,概率神经网络PNN对训练的语音样本有着很高的分类准确率。

%Speaker recognition is one of the hot topics in speech recognition. This paper mainly studies the following aspects: Speak-er recognition system, which can reflect the characteristics of the speech perception of the Mel frequency coefficients (MFCC) as a fea-ture parameter extraction. At the same time, it analyzes the probabilistic neural network PNN, and the performance of the neural network is good. The experimental results show that the PNN can have very high classification accuracy for the training of speech samples.【期刊名称】《黑龙江科技信息》【年(卷),期】2015(000)027【总页数】2页(P69-70)【关键词】Mel频率倒谱系数;概率神经网络;说话人语音识别系统;特征提取【作者】于树本【作者单位】海军大连地区装备修理监修室,辽宁大连 116041【正文语种】中文说话人识别(Speaker Recognition,SR)技术(也称为声纹识别技术)是属于生物认证技术的一种,是一种能够依据语音波形中反映说话人行为和生理特征的一种语音识别参数,从而自动的识别说话人身份的一种技术。

基于F-DFCC融合特征的语音情感识别方法

基于F-DFCC融合特征的语音情感识别方法

现代电子技术Modern Electronics TechniqueMar. 2024Vol. 47 No. 62024年3月15日第47卷第6期0 引 言语音情感识别(Speech Emotion Recognition, SER )在人机交互和计算机辅助人际交流等应用中发挥着重要作用。

然而,由于自发情感表达的微妙性和模糊性,要使机器完全正确地解释出语音信号中所包含的情感是具有挑战性的。

尽管SER 已经得到了广泛的应用,但它的性能远远低于人类,识别过程仍然受到很多因素的困扰,因此,有必要进一步提高SER 系统的性能。

深度学习网络,例如卷积神经网络(CNN )和递归神经网络(RNN )等[1],在SER 任务中表现出较高的效率,识别精度较传统方法也有了很大的提高。

注意力机制可以动态地聚焦于某些部分,目前已经被应用于神经网络中。

S. Mirsamadi 等将局部注意力机制引入语音神经网络,DOI :10.16652/j.issn.1004‐373x.2024.06.021引用格式:何朝霞,朱嵘涛,罗辉.基于F‐DFCC 融合特征的语音情感识别方法[J].现代电子技术,2024,47(6):131‐136.基于F⁃DFCC 融合特征的语音情感识别方法何朝霞1, 朱嵘涛1, 罗 辉2(1.长江大学 文理学院, 湖北 荆州 434023; 2.东北林业大学 计算机与控制工程学院, 黑龙江 哈尔滨 150040)摘 要: 结合神经网络、并行多特征向量和注意力机制,有助于提高语音情感识别的性能。

基于此,从前期已经提取的DFCC 参数入手,提取I‐DFCC 和Mid‐DFCC 特征参数,利用Fisher 比选取特征参数构成F‐DFCC ;再将F‐DFCC 特征参数与LPCC 、MFCC 特征参数进行对比并融合,输入到含双向LSTM 网络及注意力机制的ECAPA‐TDNN 模型中;最后,在CASIA 和RAVDESS 数据集上验证F‐DFCC 融合特征参数的有效性。

基于MATLAB和Python实现MFCC特征参数提取

基于MATLAB和Python实现MFCC特征参数提取1、MFCC概述在语⾳识别(Speech Recognition)和话者识别(Speaker Recognition)⽅⾯,最常⽤到的语⾳特征就是梅尔倒谱系数(Mel-scale FrequencyCepstral Coefficients,简称MFCC)。

根据⼈⽿听觉机理的研究发现,⼈⽿对不同频率的声波有不同的听觉敏感度。

从200Hz到5000Hz的语⾳信号对语⾳的清晰度影响较⼤。

两个响度不等的声⾳作⽤于⼈⽿时,则响度较⾼的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。

由于频率较低的声⾳在内⽿蜗基底膜上⾏波传递的距离⼤于频率较⾼的声⾳,故⼀般来说,低⾳容易掩蔽⾼⾳,⽽⾼⾳掩蔽低⾳较困难。

在低频处的声⾳掩蔽的临界带宽较⾼频要⼩。

所以,⼈们从低频到⾼频这⼀段频带内按临界带宽的⼤⼩由密到疏安排⼀组带通滤波器,对输⼊信号进⾏滤波。

将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进⼀步处理后就可以作为语⾳的输⼊特征。

由于这种特征不依赖于信号的性质,对输⼊信号不做任何的假设和限制,⼜利⽤了听觉模型的研究成果。

因此,这种参数⽐基于声道模型的LPCC相⽐具有更好的鲁邦性,更符合⼈⽿的听觉特性,⽽且当信噪⽐降低时仍然具有较好的识别性能。

梅尔倒谱系数是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了⼈⽿频率的⾮线性特性,它与频率的关系可⽤下式近似表⽰:式中f为频率,单位为Hz。

下图为Mel频率与线性频率的关系:2、 MFCC特征参数提取过程详解(1)预处理预处理包括预加重、分帧、加窗函数。

预加重:预加重的⽬的是提升⾼频部分,使信号的频谱变得平坦,保持在低频到⾼频的整个频带中,能⽤同样的信噪⽐求频谱。

同时,也是为了消除发⽣过程中声带和嘴唇的效应,来补偿语⾳信号受到发⾳系统所抑制的⾼频部分,也为了突出⾼频的共振峰。

基于说话人特有特征集的GMM和i-矢量方法的说话人识别

基于说话人特有特征集的GMM和i-矢量方法的说话人识别沈思秋;吕勇;杨芸;齐彦云【摘要】在说话人识别中,当存在两个或多个发声类似的说话人时,会导致错误识别。

为了提高在这种情况下的识别准确率,在音素层次上找出说话人特有的特征,将这些特征的子集构成一个该说话人特有的特征集,然后在这些特征集的基础上用GMM和i-矢量的方法对说话人进行识别。

在实验室环境下收集了50个说话人的声音,分别在不同信噪比的环境下进行测试。

实验结果表明提出的方法能够提高当存在发声类似的说话人时的识别准确率。

%In speaker recognition tasks, one of the reasons for reduced accuracy is due to closely resembling speakers in the acoustic space. In order to improve the recognition accuracy in this condition, this paper proposes a technique by finding speaker-specific features at the level of phonemes and formulate a text using the subset of features that are unique, for speaker recognition task using GMM-based approach and i-vector based approach. Collecting 50 speakers’ speech in the labtorary environment and test them under different Signal-to-Noise Ratios. The experiments show that the proposed method can improve the recognition accuracy when there are closely resembling speakers.【期刊名称】《电子设计工程》【年(卷),期】2014(000)023【总页数】5页(P184-188)【关键词】说话人识别;GMM;i-矢量;特有特征集【作者】沈思秋;吕勇;杨芸;齐彦云【作者单位】河海大学计算机与信息学院,江苏南京 210096;河海大学计算机与信息学院,江苏南京 210096;河海大学计算机与信息学院,江苏南京 210096;河海大学计算机与信息学院,江苏南京 210096【正文语种】中文【中图分类】TN912.34高斯混合模型(Gaussian Mixture Modeling:GMM)[1]和隐马尔可夫模型(Hidden Markov Modeling:HMM)[2]已经被成功应用于多种分类识别中,最大似然估计(MLE)和期望最大(EM)算法能有效地估计模型的参数。

基于DSP的语音识别系统的实现及分析

由于无调音节有412个,有调音节为1 282个,若采用SVM 对所有音节进行分类,数据量很庞大,故本文选择10个人对6个不固定的连续汉语数字进行发音,每人发音15次,音节切分后共900个样本,其中600个样本作为训练样本集,其余300个样本用于特定人的识别;另外选择5个人对汉语数字0~9发音,每人发音3次,共150个测试样本作为非特定人的识别。此外,以上选取的训练或测试样本均考虑到0~9共10个数字的均匀分布,并且样本类型通过手工标定。
本系统针对的是非特定人小词汇量连续语音的识别,硬件结构,主要包括语音数据采集模块、数据传输模块、数据处理模块、程序数据存储及Flash引导装载模块、数据存储器RAM 模块及其他相关模块。
图4 系统硬件结构图
数据采集模块主要采用TLV320AIC23编解码器来实现对语音数据的采集。由AIC23采集的数字信号数据通过McBSP1存入SDRAM 中,数据传输方式为EDMA方式下的McBSP数据传输。数据处理模块是系统的核心模块,用TMS320C6713DSP芯片来完成语音识别算法的实现。训练时,DSP完成语音信号MFCC特征参数的提取、SVM 建模并存入Flash中;识别时,DSP读取待识别语音信号数据并将获得的模型参数与训练模型参数进行比较,进而得到识别结果。
表3给出了针对非特定人的不同SVM 核函数的识别系统性能。表中显示,在取C =3,&gamma;= 125(这里的25为特征参数维数)情况下,尽管核函数为RBF时所需的支持向量数要略高于核函数为Sigmoid时,但系统的正确识别率要明显高于采用其他核函数的系统,因此本文选取RB别系统的实现及分析
本系统设计主要涉及到语音数据段、执行代码段、载入Flash的程序段和模型参数段等。在编程中主要以C语言编程为主,配合使用汇编语言,使程序运行效率更高。

基于FVQMM的说话人识别

困难 。
为差异 的影 响 ,每个人 的语 音 中蕴含 着与 众不 同 的
个人特,I。说话人识别按其被输入的测试语 音来 怔¨
分 可 以分 为 与 文 本 有 关 的 说话 人 识别 和 与 文 本 无
本 文 提 出 了一 种 基 于 模 糊 矢 量 量化 混 合模 型
( VQ F MM )的与 文本 无 关说话 人 识别 方法 ,它 综
C mp tr c n e Z ein ies y Ha g h u3 0 2 , ia) o ue i c, h j gUnv ri , n z o 1 0 7 Chn Se a t
Ab tat I re v ro ed fcs f h p ae og nz t no aio a V n sr c: nod r oo ec met ee t o esek r e ra ia o f rdt n l Q a dGMM , e t h t r i t i an w me o f p a e c g io rsne . h nVQ err c l i a o tdis a fh rb blyo tu y t do e r e o nt ni peetd W e r ae s d pe t do e o a it up t h s k r i s o s ne t p i b
维普资讯
第2 第 5 6卷 期
、0 . 6 ,12 No. 5
辽宁工程技术大学学报
J r a fLi o i g Te h c l i e st ou n lo a n n c nia Un v riy
20 0 7年 1 0月
Oc . t 2 07 0
摘 要 :为了克服传统 V Q与 G M 说话人识别的缺点, M 提出了一种新的F Q V MM 说话人识别方法。 该方法综合了 V 、G M 和模 Q M
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档