基于凸优化的少量样本语音识别

合集下载

基于深度学习的语音识别技术研究

基于深度学习的语音识别技术研究

基于深度学习的语音识别技术研究随着人工智能技术的发展,语音识别技术也日渐成熟。

从最初的基于模板匹配的语音识别到后来的基于统计学习的语音识别,再到今天的基于深度学习的语音识别,语音识别技术已经不再是未来科技,而是已经进入了我们的日常生活。

一、基于深度学习的语音识别技术深度学习技术是人工智能领域的热门技术之一,因其在图像识别、语音识别、自然语言处理等领域的卓越表现而备受关注。

深度学习算法通过模拟人脑的神经元网络实现对输入数据的多层抽象表示和处理。

而在语音识别任务中,深度学习算法可以通过对音频信号的建模和自适应模型训练来有效降低语音识别的误识别率。

目前基于深度学习的语音识别技术主要包括深度神经网络(Deep Neural Networks, DNNs)、卷积神经网络(Convolutional Neural Networks, CNNs)、长短时记忆网络(Long Short-Term Memory, LSTM)等多种模型。

其中,DNNs是基于前馈神经网络实现的语音识别模型,通过多个隐层抽象输入特征,将输入的音频信号映射到语音单元上,通过输出层的激活函数可以得到对音频信号的识别结果。

CNNs则是通过卷积层和池化层实现特征的提取和降维,然后再使用全连接层实现的识别。

而LSTM则是基于循环神经网络实现的模型,对于长序列信号的记忆、建模和识别效果尤为出色。

二、深度学习技术的优点相对于传统语音识别算法,深度学习技术具有以下优点:1. 非线性特征提取: 传统语音信号的特征提取通常采用Mel频率倒谱系数(Mel-frequency cepstral coefficients, MFCCs)等算法,而深度学习技术可以通过多层的非线性变换实现更为复杂的特征提取。

2. 优秀的分类性能: 深度学习算法可以通过大规模数据训练和模型自适应调整,从而获得优秀的分类性能,尤其对于噪声干扰、口音变化等情况的适应能力更强。

3. 高效的训练方法: 深度学习算法可以使用反向传播算法实现模型训练,而且可以结合GPU等并行计算技术加速训练完成。

基于深度学习的语音识别技术研究毕业设计

基于深度学习的语音识别技术研究毕业设计

基于深度学习的语音识别技术研究毕业设计基于深度学习的语音识别技术研究随着科技的快速发展和人工智能的逐渐成熟,语音识别技术逐渐走进了我们的生活。

在语音识别领域,深度学习技术被广泛应用,并在一定程度上提高了语音识别的准确率和性能。

本篇文章将探讨基于深度学习的语音识别技术的研究进展和应用。

一、引言语音识别技术是一项可以将人的语音信息转化为文字或者命令的技术。

它的应用广泛涉及到语音助手、智能音箱、语音交互系统等领域。

传统的语音识别技术主要使用基于统计的方法,如隐马尔可夫模型(Hidden Markov Model,HMM)和高斯混合模型(Gaussian Mixture Model,GMM)。

然而,这些传统方法的准确率相对较低,尤其在复杂语音环境中表现不佳。

二、深度学习在语音识别中的应用近年来,深度学习技术的兴起为语音识别领域带来了革命性的变化。

深度学习技术通过构建多层次的神经网络,可以有效地提取语音信号中的特征,并利用这些特征进行语音识别。

其中最为常用的深度学习模型包括卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)和深度置信网络(Deep Belief Network,DBN)。

1. 卷积神经网络在语音识别中的应用卷积神经网络是一种特殊的神经网络结构,其主要特点是通过卷积操作在局部感受野上共享权重。

在语音识别中,卷积神经网络在语音特征提取和语音识别模型训练中发挥着重要作用。

通过卷积操作,卷积神经网络可以提取语音信号的时域和频域特征,并减少特征的维度。

此外,卷积神经网络还可以通过堆叠多层卷积层和池化层来提取更高级别的抽象特征。

2. 循环神经网络在语音识别中的应用循环神经网络是一种具有记忆功能的神经网络,其可以处理序列数据,并具备一定的时间依赖性。

在语音识别中,循环神经网络主要用于建模语音信号的时间序列特征。

稀疏线性预测字典在语音压缩感知中的应用

稀疏线性预测字典在语音压缩感知中的应用

稀疏线性预测字典在语音压缩感知中的应用游寒旭;李为;李昕;朱杰【摘要】压缩感知理论框架可以同时实现信号的采样和压缩,将压缩感知应用于语音信号处理是近年来的研究热点之一.本文根据语音信号的特点,采用K-SVD算法获得稀疏线性预测字典,作为语音信号的稀疏变换矩阵.高斯随机矩阵用于原语音信号的采样从而实现信号的压缩,最后通过正交匹配追踪算法(OMP)和采样压缩匹配追踪算法(CoSaMP)将已采样压缩的语音信号进行信号重构.实验考察了待处理语音信号帧的长度、压缩比,稀疏变换字典以及压缩感知重构算法等因素对语音压缩感知重构性能的影响,结果表明,基于数据集训练的稀疏线性预测字典相比传统解析构造的离散余弦变换字典,对语音的重构性能具有0.6 dB左右的提升.【期刊名称】《上海师范大学学报(自然科学版)》【年(卷),期】2016(045)002【总页数】7页(P223-229)【关键词】压缩感知;语音信号处理;K-SVD;稀疏线性预测字典【作者】游寒旭;李为;李昕;朱杰【作者单位】上海交通大学电子信息与电气工程学院,上海200240;上海交通大学电子信息与电气工程学院,上海200240;上海交通大学电子信息与电气工程学院,上海200240;上海交通大学电子信息与电气工程学院,上海200240【正文语种】中文【中图分类】TN912Nyquist采样定理要求传统语音信号处理系统的采样率至少是原始信号频率的2倍或以上以保证不失真地重构原始信号.对于传统语音压缩来说,语音首先经过高速采样,然后再采用传统的压缩算法对语音进行压缩处理,这一过程占据了大量的中间采样和存储资源.压缩感知(CS)理论由Donoho、Candes和Tao等[1-3]提出,旨在改变先采样后压缩的传统处理框架,让系统同时完成信号的采样和压缩.CS理论指出,当信号具有稀疏性或可压缩性时,可以通过最少的观测数来采样信号以保证信号的准确重构.这样一方面节约了采样和压缩成本,另一方面又达到了信号的采样和压缩同时完成的目的.CS理论“采样即压缩”的特性使得其应用研究涉及到了国内外语音信号处理的众多领域,如语音编码、语音识别、说话人识别、语音增强、音乐检索等等[4].信号的稀疏性或可压缩性是CS理论的前提和必要条件,信号的稀疏性保证了仅仅利用少量的观测值就可以实现信号的准确重构而不丢失原信号的主要信息.CS理论指出,信号在稀疏基(字典)下的表示系数越稀疏则信号的重构质量越好,而语音信号稀疏分解算法将直接影响信号的稀疏性.Kassim等[5]把CS理论应用于低比特率语音编码,采用FFT,DCT和小波变换分别对语音信号进行稀疏分解;Zhang等[6]采用了DCT结合小波包的方式(DCWPT)来完成语音信号的稀疏分解,并对信号进行压缩感知处理和重构.DCT变换、FFT变换以及小波变换都是基于传统的解析方法,这类变换字典构造简单,但其原子不够丰富,而通过训练语音数据集学习来的过完备字典与解析构造的字典相比,原子的种类和数量更多,对待处理信号进行稀疏分解更有针对性.诸如MOD算法、K-SVD算法、ADMM算法等字典学习算法作为主流的学习算法[7],是稀疏分解领域重要的研究方向.Giacobell等[8]将预测系数求解从最小均方误差约束条件改为稀疏性约束条件,进而提出利用语音帧的线性预测信号与原信号之间残差的稀疏性来实现信号的稀疏分解.孙林慧等[9]则采用稀疏线性预测系数来构造线性预测字典,通过大量训练集并结合LBG聚类算法,构造更符合实用要求的过完备字典.李洋等[10]则采用K-SVD算法作为语音稀疏字典的学习算法,并结合压缩感知技术将之应用于语声恢复领域.本文作者主要考察通过语音训练集来构造稀疏分解字典,从稀疏线性预测系数出发,采用K-SVD算法对语音训练集进行学习,构造稀疏线性预测字典(SLPD),用于语音信号的稀疏分解.首先通过分析语音线性预测系数的原理,利用语音信号帧的帧间相关性及预测残差的稀疏性,得到初始化线性预测字典,然后将之用于K-SVD算法的训练学习.另一方面,K-SVD算法字典的更新策略在字典训练过程中逐步地替换掉不符合要求的原子,直到字典能够达到误差和稀疏性要求为止,保证了语音信号稀疏分解的性能.与传统方法相比,本文作者构造的稀疏线性预测矩阵对语音信号更具有针对性.随着K-SVD算法不断的改进,本文作者提出的联合线性预测系数和K-SVD算法构造的稀疏分解字典也具有一定可扩展性.文章内容安排如下:第1节首先介绍了CS理论的基本理论框架;第2节研究了采用K-SVD学习算法构造SLPD的方法;第3节通过实验来分析CS技术在语音信号处理的应用并分析了各因素对语音压缩感知性能的影响;最后对全文进行了总结,给出了结论.为了缓解信号处理过程中由Nyquist采样率带来的采样和存储压力,Donoho等人提出了基于信号稀疏性的CS理论.这是一种新的信号描述和处理的理论框架,CS理论用远低于Nyquist采样定理要求的速率采样信号并完成压缩,信号的稀疏性和相应的重构算法保证了重构信号的准确性而不损失重要信息.1.1 基本原理考虑信号x∈N×1表示一个N×1维列向量x=[x1,x2,…,xN]T,稀疏字典用D=[d1,d2,…,dL]表示,其中di=[d1,d2,…dN]T(i=1,2,…,L)为字典中的原子,L是字典长度.信号x可以用字典D中原子的线性组合来表示,即:其中s=[s1,s2,…,sL]是信号x在字典上的投影系数的向量表示,即s=D-1x.如果向量中只有K个非零系数且K远远小于信号长度N(K≪N),而剩下的N~K个投影系数都为0或者可忽略,即投影向量的L0范数0=K≪N,则称信号x在D下是K稀疏的.很显然,x与s是等价的,称向量s是信号x的稀疏表示向量.如果信号x是K稀疏的,那么根据压缩感知理论,采用一个与D不相关的观测矩阵Φ∈M×L对信号进行观测采样,其中K≤M≪N,得到一个M×1维的被观测信号y∈M×1,即:其中Θ=ΦD.这里,采样过程是非自适应的,也就是说,Φ无须根据信号s而变化,观测不再是信号的点采样而是更一般的K线性泛函.由于M≪N,这就使得采样的同时也达到了压缩的目的,压缩比为M/N.1.2 信号重构信号的重构就是从压缩观测信号y中恢复出原信号x.由于M远小于N,求解式(2)就成了一个解欠定方程组的问题.考虑到有限等距性质(RIP)保证了观测矩阵不会把两个不同的K稀疏信号映射到同一个集合中(保证原空间到稀疏空间的一一映射关系),CS理论证明[1],当Θ满足RIP并且s是稀疏的,那么s的求解可以转化为一个L1范数优化问题,它与L0范数优化问题具有同等的解,且是唯一解.即L1范数优化问题是一个凸优化问题,可以方便地化简为线性规划问题.目前针对信号的重构,国内外学者已提出许多重构算法[11],主要包括贪婪追踪类算法,凸松弛算法,还有要求对原始信号具有少量先验知识的基于统计性算法.采用正交匹配追踪(OMP)算法和压缩采样匹配追踪(CoSaMP)算法来对语音信号进行重构.如上所述,用于信号稀疏分解的字典通常分为两种:基于解析方法构造的字典以及基于训练样本的字典.孙林慧在文献[9]中指出,常用的基于解析方法构造的字典如DCT 或DWT在低压缩比的情况下,语音信号的重构效果不够好.本文作者利用语音信号的线性预测信号与原信号的误差的冗余性,通过线性预测系数(LPC)来构造稀疏字典,提高语音信号帧的稀疏性.2.1 线性预测系数矩阵语音信号处理理论证明,语音信号帧的各个值在某种准则条件下(如MMSE)可以由过去的若干值线性表示.假设一个长度为N的语音帧为x=[x1,x2,…,xN]T,则语音值xn(n=1,2,…,N)的p阶线性预测值为:其中p是预测阶数,ai是线性预测系数.原信号与预测信号的误差称为稀疏冗余,由下式给出:其中a0=1.式(5)的矩阵形式可以表示为:s=A-1x,其中s=[s1,s2,…,sN]T,A-1是线性预测系数矩阵:信号x可以表示为线性预测系数矩阵与冗余信号的乘积,即x=As,s称为x的线性预测稀疏表示.2.2 K-SVD算法尽管语音信号在线性预测系数矩阵表现出了稀疏特性,但由于每一个信号都对应一个预测矩阵,不同信号的预测矩阵也不相同,这很大地限制了线性预测矩阵在语音压缩感知重构中的实用性.为了避免对每个语音信号求解线性预测矩阵,采用K-SVD 算法,对大量语音帧进行训练学习,构造一个更为适用的稀疏字典.文献[12]详细描述了K-SVD算法的细节和流程,篇幅有限,简单介绍一下K-SVD算法的整体框架.考虑x=Ds,s的稀疏性通过下式保证:ε是最大误差.在D与s未知的情况下,式(7)可以等价地变形为:μ是正则化参数,用于表示1的权重,也称为稀疏性权重,通常取值为0.1.由于D,s未知,K-SVD算法通过循环迭代方式对式(8)进行求解.K-SVD算法属于广义的K均值聚类,迭代过程分为两个阶段:稀疏表示求解与字典更新.在稀疏表示求解阶段,首先固定当前的字典D(t),然后求解稀疏表示向量s(t);在字典更新阶段,用上一阶段的稀疏向量s(t)来对D(t)进行更新得到D(t+1),在下一循环中根据字典D(t+1)求解新的稀疏表示向量s(t+1).通过多次迭代之后达到收敛,得到符合要求的稀疏字典D.采用K-SVD算法和线性预测矩阵来学习稀疏线性预测字典的流程图如图1所示.稀疏字典D的初始化对于训练的结果具有影响,如前所说,采用线性预测矩阵初始化稀疏字典,而训练字典的长度(原子个数)设置4倍于语音帧长度N,即L=4N.需要注意的是K-SVD算法更新字典不是对整个字典一次性更新,而是每次只更新字典的一个原子,通过L次迭代或者达到收敛后完成字典学习[7].3.1 基本实验设置本节通过设计实验并分析实验结果来验证本文作者提出的SLPD在语音压缩感知重构中的有效性.实验语料采用NOIZEUS语料库[13],包含了干净语音和含噪语音.没有考察语音压缩感知的降噪性能,所以只用到了语料库中的干净语音部分.所有干净语音由30条短句组成,6个说话人,3男3女,每人5句,其中编号1~10和21~25由是男声,其余是女声.语音采样率8 kHz,2字节(16 bit)单通道.采用其中的20条作为训练用语音集,其余10条作为测试集.每个说话人随机选取3句作为训练样本,剩下的2句用于测试.总体实验框架分为3部分:SLPD训练、语音压缩感知处理和客观评价,实验的流程图如图2所示.从待处理语音信号帧的长度、压缩比、稀疏变换矩阵以及重构算法等因素从发,通过多个实验分析各参数对于压缩感知性能的影响.表1设置了本实验中涉及到参数. 帧平均信噪比(AFSNR)的定义如下:其中Ln表示语音信号帧的总个数,xi表示第i帧向量,i表示压缩感知重构的第i帧向量.AFSNR越大,表示重构效果越好.选用高斯随机矩阵作为观测矩阵,矩阵大小为(M/N,N),随语音信号帧的长度和压缩比变化.3.2 实验结果与分析实验一将SLPD和OMP重构算法用于语音压缩感知框架,验证SLPD在压缩感知重构中的有效性.图3所示是语音压缩感知重构效果图,压缩比为0.3,SLPD的字典大小为256×1024.(a)表示原语音;(b)是原语音区间1000到6120的放大部分,以显示更多的重构细节;(c)和(d)是相应的重构语音段.实验表明,将SLPD作为稀疏字典可以准确地恢复出原始语音信号而不丢失主要信息.为了考察压缩比和语音帧长度对重构性能的影响,不改变实验一中的稀疏字典类型和重构算法,实验二分别对3类语音帧长度和5个压缩比进行了表1中的设置,采用AFSNR作为评价语音重构的性能指标,单位为dB.实验结果如表2所示.一方面,从表2的行来看,固定语音帧长度和字典大小,随着压缩比的增大,重构语音的AFSNR 也增大;另一方面,从表2中每列的角度来看,固定压缩比,字典的大小也对重构性能有影响.字典越大,重构性能越好,AFSNR越大.表3是采用CoSaMP重构算法重复实验二得到的重构语音信号的AFSNR.从表3可以看出,两种不同的算法的性能在语音压缩感知的应用方面相差无几,当压缩比为0.4和0.5时,OMP算法的重构效果略优于CoSaMP算法;当压缩比较小时,CoSaMP算法的重构性能则略优于OMP算法.为了比较稀疏线性预测字典与传统解析字典在语音压缩感知重构中的性能,实验三分别采用了不同的稀疏字典用于语音信号的压缩感知重构,如表1所述,解析字典采用DCT字典,语音帧的长度为512,字典大小为(512,2048),重构效果比较图如图4所示.图4中的4条曲线分别表示正交匹配追踪算法结合稀疏线性预测字典(OMP+SLPD,星号实线)、正交匹配追踪算法结合离散余弦变换字典(OMP+DCT,菱形虚线)、压缩采样匹配追踪算法结合稀疏线性预测字典(CoSaMP+SLPD,乘号实线)以及压缩采样匹配追踪算法结合离散余弦变换字典(CoSaMP+DCT,方形虚线).即虚线表示的是稀疏方式采用DCT字典,而实线则是表示采用SLPD.从图4中可以看出,采用SLPD的重构效果要高于DCT字典,效果提升约为0.6 dB左右.OMP+SLPD在压缩比为0.4和0.5时候效果优于CoSaMP+SLPD,而OMP+DCT在压缩比为0.4和0.5时候效果优于CoSaMP+DCT.本文作者首先介绍了压缩感知的基本原理,并将压缩感知理论应用于语音信号的采样和压缩.重点研究了语音信号的稀疏性,从稀疏线性预测系数出发,采用K-SVD算法对语音训练集进行学习,构造稀疏线性预测字典,用于语音信号的稀疏分解.最后通过OMP和CoSaMP算法将已采样压缩的语音信号进行了逐帧重构,采用AFSNR 作为语音重构的评价标准.在实验阶段考察了待处理语音信号帧的长度、压缩比、稀疏变换矩阵以及压缩感知重构算法等因素对压缩感知性能的影响,得出结论:(1)在相同压缩比条件下,重构效果随着稀疏字典大小(即语音帧长度)的增大而提高;(2)在字典大小相同的条件下,压缩比越大,重构效果越好;(3)相同重构算法情况下,采用SLPD作为稀疏字典的重构性能与采用DCT字典相比,SLPD能提高大约0.6 dB的重构AFSNR.初步研究了通过训练信号或数据集学习来的过完备字典在压缩感知中的应用,提高了传统的基于解析构造的字典的压缩感知性能,后续应该对压缩感知框架中重构算法的重构效率和观测矩阵与稀疏矩阵的RIP性质进行更深入的研究.【相关文献】[1] Donoho D pressed Sensing [J].IEEE Transactions on InformationTheory,2006,52(4):1289-1306.[2] Candès E J,Romberg J K,Tao T.Stable signal recovery from inc omplete and inaccurate measurements [J].Communications on Pure & Applied Mathematics,2006,59(8):1207-1223.[3] Baraniuk R pressive Sensing [Lecture Notes] [J].IEEE Signal Processing Magazine,2007,24(4):118-121.[4] Christensen M G,Stergaard J,Jensen S H.On compressed sensing and its applicationto speech and audio signals[C]//IEEE.Signals,Systems and Computers,2009 Conference Record of the Forty-Third Asilomar Conference on,2009:356-360.[5] Kassim L A,Gunawan T S,Khalifa O O,et al.Development of Low Bit Rate Speech Encoder based on Vector Quantization and Compressive Sensing [J].Journal of Applied Sciences,2013,13(1):49-59.[6] Zhang C Q,Chen Y P,Tan W.Discrete Cosine Wavelet Packet Transform and Its Application in Compressed Sensing for Speech Signal[C]//IEEE.2012 Fourth InternationalSymposium on Information Science & Engineering.Shanghai:IEEE,2012.[7] Lian Q S,Shi B S,Chen S Z.Research Advances on Dictionary LearningModels,Algorithms and Applications [J].Acta Automatica Sinica,2015,41(2):240-260. [8] Giacobello D,Christensen M G,Murthi M N,et al.Retrieving Sparse Patterns Using a Compressed Sensing Framework:Applications to Speech Coding Based on Sparse Linear Prediction [J].Signal Processing Letters IEEE,2010,17(1):103-106.[9] Sun L H,Yang Z,Ji Y Y,et al.Reconstruction of compressed speech sensing based on overcomplete linear prediction dictionary [J].Chinese Journal of Scientific Instrument,2012,33(4):743-749.[10] Li Y,Li S T.Speech Recovery Model and Algorithm over Sparse Representation based on Compressive Sensing [J].Journal of Signal Processing,2014(8):914-923.[11] Shi G M,Liu D H,Gao D H.Advances in Theory and Application of Compressed Sensing [J].ACTA Electronica Sinica,2009,37(5):1070-1081.[12] Rubinstein R,Faktor T,Elad M.K-SVD dictionary-learning for the analysis sparse model[C]//IEEE.Acoustics,Speech and Signal Processing (ICASSP),2012 IEEE International Conference on.Kyoto:IEEE,2012.[13] Hu Y,Loizou P C.Subjective comparison and evaluation of speech enhancement algorithms [J].Speech Communication,2007,49(49):588-601.。

基于稀疏表征的话者识别

基于稀疏表征的话者识别

基于稀疏表征的话者识别吕小听;李昕;屈燕琴;胡晨【摘要】近年来,随着信号的稀疏性理论越来越受到人们的关注,稀疏表征分类器也作为一种新型的分类算法被应用到话者识别系统中。

该模型的基本思想是:只要超完备字典足够大,任意待测样本都能够用超完备字典进行线性表示。

基于信号的稀疏性理论,未知话者的向量系数,即稀疏解可以通过L1范数最小化获取。

超完备字典则可视为语音特征向量在高斯混合模型-通用背景模型(GMM-UBM)上进行MAP自适应而得到的大型数据库。

采用稀疏表征模型作为话者辨认的分类方法,基于TIMIT语料库的实验结果表明,所采用的话者辨认方法,能够大大提高说话人识别系统的性能。

%The signal sparse theory has received more and more attentions in recent years. Sparse representation, a new classification method for speaker identification has been applied into the speaker identification system. The main idea based on this new approach is that an unknown test utterance can be represented as a linear combination of the training database while the training patterns are sufficient. According to the sparse theory, the coefficients of unknown test utterances corresponding to the class index of test models could be obtained by L1-norm minimization. Over-complete dictionary could be developed by adapting speech features to Gaussian Mixture Model-Universal Background Model(GMM-UBM) using Maximum-A-Posteriori(MAP) adaptation. This paper makes use of the sparse representation model for speaker identification, and the experiments conducted on TIMIT acoustic-phonetic continuous speech corpus show that the perfor-mance of theproposed method consistently outperforms the state of art speaker identification classifiers.【期刊名称】《计算机工程与应用》【年(卷),期】2014(000)020【总页数】4页(P215-217,243)【关键词】稀疏表征;高斯混合模型(GMM)均值超向量;超完备字典;最大后验(MAP)算法【作者】吕小听;李昕;屈燕琴;胡晨【作者单位】上海大学机电工程与自动化学院,上海 200072;上海大学机电工程与自动化学院,上海 200072;上海大学机电工程与自动化学院,上海 200072;上海大学机电工程与自动化学院,上海 200072【正文语种】中文【中图分类】TP391话者识别,是利用说话人的语音信号提取说话人的个性特征来识别说话人身份的一种技术[1]。

基于强化学习的语音识别性能优化

基于强化学习的语音识别性能优化
语音识别中的数据增强
数据不足的问题:探讨语音识别中数据量有限的挑战,导致过拟合和性能下降。 数据增强方法:介绍数据增强技术,如声学扩展和数据合成,以提高模型的鲁棒性。 生成对抗网络(GAN)的角色:讨论生成对抗网络在语音数据增强中的应用,增强模型的泛 化能力。
语音识别中的序列建模
迁移学习和预训练模型
迁移学习的价值:解释迁移学习如何允许在不同语音识别任务 之间共享知识,减少数据需求。 预训练模型的概念:详细介绍预训练模型,如BERT和,以及它 们在语音识别中的适用性。 领域自适应:强调如何使用迁移学习和预训练模型实现跨领域 的语音识别性能优化。
未来趋势和挑战
▪ 多模态语音识别:展望多模态语音识别的发展,涵盖文 本、图像和语音的联合分析。
语音识别性能评估指标
迁移学习与泛化能力
迁移学习概述:说明迁移学习的概念,如何通过迁移学习改进 语音识别性能。 泛化能力提升:探讨如何通过迁移学习提高模型对不同场景、 语种等的泛化能力。
未来发展趋势与前沿技术
自适应学习与动态模型调整:探讨未来可能的发展方向,如 模型自适应、动态调整等,以应对多变环境。 跨模态学习与多模态融合:展望未来的发展趋势,包括跨模 态学习和多模态融合,以提升语音识别性能。
语音识别中的序列建模
基于强化学习的语音识别性能优化
语音识别中的序列建模
序列建模在语音识别中的重要性
序列建模的基本概念:介绍序列建模在语音识别中的核心作用,强调其区别于传统词级 建模的优势。 时序信息的价值:解释序列建模如何捕捉语音数据中的时序信息,提高准确性和连贯性 。 深度学习方法的应用:说明如何运用深度学习技术,如循环神经网络(RNN)和长短时记 忆网络(LSTM),实现序列建模。
实际案例与未来发展趋势

稀疏编码的误差分析与优化方法

稀疏编码的误差分析与优化方法

稀疏编码的误差分析与优化方法稀疏编码是一种重要的信号处理技术,广泛应用于图像处理、语音识别、数据压缩等领域。

它通过将信号表示为少量非零系数的线性组合,实现对信号的高效表示和压缩。

然而,在实际应用中,稀疏编码存在误差问题,需要进行误差分析和优化方法的研究。

首先,我们来分析稀疏编码的误差来源。

稀疏编码的目标是找到最优的稀疏表示,使得重建信号与原始信号之间的误差最小化。

然而,由于信号受到噪声、采样误差等因素的影响,稀疏编码的结果可能存在一定的误差。

这些误差主要包括重建误差和稀疏性误差。

重建误差是指通过稀疏编码得到的重建信号与原始信号之间的差异。

由于稀疏编码是一种近似方法,无法完全还原原始信号,因此重建误差是不可避免的。

重建误差的大小与信号的稀疏性、噪声水平等因素有关。

当信号的稀疏性较高、噪声较小时,重建误差相对较小;反之,重建误差会增大。

稀疏性误差是指由于稀疏编码的限制,无法完全满足信号的稀疏性要求而引入的误差。

稀疏编码通常采用基于字典的方法,将信号表示为一组基函数的线性组合。

然而,由于字典的选择和表示能力的限制,稀疏编码可能无法找到最优的稀疏表示,从而引入稀疏性误差。

为了减小稀疏性误差,需要优化字典的选择和更新策略,提高稀疏编码的表示能力。

针对稀疏编码的误差问题,研究者提出了一系列优化方法。

首先,可以通过改进字典的选择方法来减小稀疏性误差。

传统的字典选择方法如K-SVD算法、OMP算法等,通常是基于训练数据进行字典学习,但这些方法存在一定的局限性。

近年来,研究者提出了一些新的字典学习方法,如深度学习方法、卷积神经网络等,能够更好地提取信号的特征,改善稀疏编码的效果。

其次,可以通过引入先验信息来优化稀疏编码的结果。

先验信息是指对信号的先验知识或假设,可以帮助稀疏编码更准确地还原信号。

常用的先验信息包括信号的分布特性、稀疏性模型等。

通过将先验信息融入稀疏编码的过程中,可以提高稀疏编码的准确性和鲁棒性。

此外,还可以通过改进优化算法来减小重建误差。

基于修正Fukunaga-Koontz变换的说话人识别方法

基于修正Fukunaga-Koontz变换的说话人识别方法赵艳;吕亮;赵力【摘要】研究了修正Fukunaga-Koontz变换在说话人识别中的应用方法.通过修正Fukunaga-Koontz变换对说人语音特征空间进行了降维,并通过高斯混合模型进行说话人建模.采用NIST 2006年测试的1conv4w-1conv4w作为实验,对比了LDA方法与修正Fukunaga-Koontz变换在说话人识别中的识别性能.结果证实,将修正Fukunaga-Koontz变换用于说话人识别获得了理想的效果,与传统的LDA降维方法相比,识别性能得到了较大的提升.【期刊名称】《电子器件》【年(卷),期】2018(041)004【总页数】5页(P1050-1054)【关键词】说话人识别;修正Fukunaga-Koontz变换;特征优化【作者】赵艳;吕亮;赵力【作者单位】南京工程学院电力工程学院,南京211167;东南大学信息科学与工程学院,南京210096;东南大学信息科学与工程学院,南京210096【正文语种】中文【中图分类】TP312自动说话人识别ASR(Automatic Speaker Recognition)[1]在门禁、信用卡交易和法庭证据等方面,起着越来越重要的作用,它已经成为生物识别的热门课题。

自动说话人识别主要分为两部分:说话人特征参数的分析提取和模型的优化识别算法的应用。

通常说话人识别的经典方法是基于高斯混合模型GMM(Gaussian Mixed Model)的识别方法,由于它作为统计模型能够吸收由不同说话人引起的说话人个性特征的变化,可以得到较好的识别性能。

但是由于GMM作为统计模型对模型训练数据量有一定的依赖性,所以对于小样本的与文本无关说话人识别系统,要使GMM完全吸收由不同说话人引起的语音特征的变化是非常困难的。

所以在实际应用中通常采用话者适应的方法使未知说话人的语音去适应已知标准说话人的语音模型。

一种基于改进SCHMM/ANN的语音识别算法

Hi d n d e Ma k v r o Mo e s ti c a Ne r l dl Ar f il i u a Ne — t
序列的处理并以状态输出概率作为一次识别信 息。 具体做法是 : 将描述不同噪声模型概率 , 以及纯净 语音高斯密度 S H C MM概率均值 , 作为神经网络的 输入 。经 A NN网络学 习加性 噪声等 对 S H C MM 的 影 响 后 ,得 到 的输 出 即 为 适 用 的 声 学 模 型 , 用
关 键 词 : MM;C H S HMM ; N; 音 识 别 AN 语
语音 识 别 主 要是 让 机 器 能够 听懂 人 类 的语 合 S HMMAN C / N模型不仅在理论上抛弃了 HMM 后验概率函数, (∑:) I 导出尺度化的观察概率函 系列不合 理假设 , 且在训 练过 程中 自然地 引入 数 : ( /( Pq P , 而 P x P ) (I j () X 一 / q X 容,从而根据其语言中的信息执行人的各种意图, 了 S HMM状态之间的区分机制。这样不仅克服 C 在进行识别时, 因为 ( 对所有的路径来说 ) 因此 语音 识别 系统 其本 质 上就 是— 个模 式识 别 系 了区分能力差的缺陷, 而且在系统体系上又保持 了 都是一样的, 以尺度化的观察概率函数并不会改 所 统。 H M的框架。 M 语音信号的 S H , C MM 完成语音时间 变识别的结果。 因此使用神经网络能极大地体现出 言 , 各种 情况 下 , 准 确地 识别 出语 音 的内 即在 能够

本文所采用的就是 H MM中的一种 ,半连续 隐马尔科夫模型(c S HMM) 。运用 S HMM模型进 C 行 训练 或 }别 主要需 要解决 三个 问题 : 一 输 出概 只 第 率的计算问题 ,第二状态序最佳状态链确定的问 题 , 三模型 的训练 , 数 的估计 问题 。在这 里 , 第 即参 对 于第 一 和第 二个 问题 , 用 常用 的前 向 、 向算 采 后 法和 Vtri i b 算法, e 对于第三个问题的解决 , 采用的 是 B u Wec 法 。本 文 利 用神 经 网 络与 a m- lh算 S HMM的特点 , C 提出一种用于构造语音识别模型 的神经 网络方法 S HMMAN (e iC niu u C / N S m o t o s n

基于改进分数阶SVD的块协作表示的小样本人脸识别算法

基于改进分数阶SVD的块协作表示的小样本人脸识别算法张建明;廖婷婷;吴宏林;刘宇凯【期刊名称】《计算机工程与科学》【年(卷),期】2018(040)007【摘要】随着训练样本数目减少,传统人脸识别方法的性能会急剧下降,因此提出了改进的分数阶SVD(IFSVDR)的块协作表示算法,以提高小样本下人脸识别率.为了减少噪声对分类的干扰,对SVD算法进行改进,利用分数阶增大主要正交基权值,提高特征的判别力;对相对较小权值进行抑制,降低噪声的干扰.然后,将得到的特征图像用基于块的协作表示算法进行分类(PCRC).相对传统稀疏分类算法,PCRC融合了集成学习,能更好地解决小样本问题,且CRC计算复杂度低于SRC.在扩展的Yale B和AR人脸数据库上的实验表明,本文提出的算法在单样本的情况下也有较高的识别率.【总页数】7页(P1237-1243)【作者】张建明;廖婷婷;吴宏林;刘宇凯【作者单位】长沙理工大学综合交通运输大数据智能处理湖南省重点实验室,湖南长沙410114;长沙理工大学计算机与通信工程学院,湖南长沙410114;长沙理工大学综合交通运输大数据智能处理湖南省重点实验室,湖南长沙410114;长沙理工大学计算机与通信工程学院,湖南长沙410114;长沙理工大学综合交通运输大数据智能处理湖南省重点实验室,湖南长沙410114;长沙理工大学计算机与通信工程学院,湖南长沙410114;长沙理工大学综合交通运输大数据智能处理湖南省重点实验室,湖南长沙410114;长沙理工大学计算机与通信工程学院,湖南长沙410114【正文语种】中文【中图分类】TP391.4【相关文献】1.基于GLC-KSVD的稀疏表示人脸识别算法 [J], 封睿;李小霞2.基于局部结构的多尺度协作表示人脸识别算法 [J], 刘宇凯;金晓康;张建明;廖婷婷3.基于Gabor字典缩减的协作表示\r分类人脸识别算法 [J], HU Jing;TAO Yang;GUO Tan4.基于Gabor字典缩减的协作表示分类人脸识别算法 [J], 胡静;陶洋;郭坦5.基于改进局部协作表示的快速人脸识别算法 [J], 施志刚;邵冬华;顾钦平因版权原因,仅展示原文概要,查看原文内容请购买。

基于SVM的语音特征提取及识别模型研究

基于SVM的语音特征提取及识别模型研究吴皓莹;程晶;范凯【摘要】针对非特定文本的说话人识别,研究了特征提取方法及SVM核函数和参数选取对识别结果的影响,分析了现有的语音特征提取算法及各自的优缺点,以及不同核函数、核参数及惩罚参数对识别性能的影响。

采用改进的网格寻优方法,进一步提高语音信息的识别时间。

%The paper chose a fold that a non-specific text speaker identification .The paper focused on feature extraction methods and SVM kernel function and parameter selection on the identification re-sults ,focusing on analysis of the existing voice feature extraction algorithms ,their advantages and disadvantages ,different kernel function ,kernel parameters and penalty parameters on the recognition performance .Grid search method is introduced in order to improve the recognition time .【期刊名称】《武汉理工大学学报(交通科学与工程版)》【年(卷),期】2014(000)002【总页数】4页(P316-319)【关键词】支持向量机(SVM);特征参数;核函数;识别模型;网格寻优算法【作者】吴皓莹;程晶;范凯【作者单位】武汉理工大学信息工程学院武汉 430070;武汉理工大学信息工程学院武汉 430070;湖北工业大学信息技术中心2 武汉 430068【正文语种】中文【中图分类】TN912.340 引言语音识别技术广泛应用于信息论、人工智能、数字信号处理、语言声学、模式识别、生物学、心理学和认知科学等学科.其中语音特征提取是语音识别的关键技术,研究特征提取对提高语音识别系统的识别率的正确率起着十分关键的作用,特征提取的目的是为了找出反映语音本质特征的参数,其基本思想是对经过预处理后的语音信号,提取出具有代表意义且稳定可靠的参数序列,滤除无关的冗余信息,为后面的训练和预测提供数据,从而提高识别的精度和系统的性能.另外支持向量机是建立在统计学习理论的结构风险最小化原理基础上,比起传统的分类器,它可以很好地解决模型选择与过学习问题,解决小样本、非线性和高维数以及局部极小点等问题[1-4].本文以智能推车系统中人机交互和智能控制的应用为背景,主要研究了语音信息的不同特征参数组合,支持向量机(SVM)中的不同模型的选取对语音识别率的影响,从而提高智能推车的人机交互性能.基于SVM的语音识别系统的整体框图见图1.图1 语音识别整体框图1 特征参数1.1 线性预测倒谱系数(linear predictive cepstrum coefficient,LPCC)线性预测分析是在语音产生的数字模型基础上建立的,其基本思想是:每个语音信号采样值都可以用若干个它过去的取样值的加权线性组合来逼近.各加权系数应使实际语音采样值与线性预测采样值之间的差值的平方和达到最小,即进行最小均方误差的逼近[5].在线性组合中的加权系数称为预测器系数,即线性预测系数LPC.式中:x(n)为实际采样值;s(n)为实际采样值与线性预测值之间的差值;ai 为加权系数,即LPC参数.在使式(1)最小的条件下求解ai.14阶的线性预测信号语言信号的对比见图2,图中横轴为1帧信号(30ms)的不同采样点(采样频率为8kHz,采样点数为240个).图2 原始信号波形与预测信号波形对比由LPC推导LPCC,其中clpcc(n)为第n个LPCC系数;clpc(n)为第n个LPC系数.使用线性预测倒谱可以提升参数的稳定性,主要反映声道响应,计算量小,易于实现,但由于LPCC参数是通过线性逼近得到的,只是反映了说话人的声道特征而没有充分利用人耳的听觉特性因此并不能很好的反映出人耳听觉特性.1.2 Mel频率倒谱系数(Mel frequency cepstrum coefficient,MFCC)梅尔频率倒谱系数是将人耳的听觉感知特性和语音产生相结合的一种特征参数,实际上人耳听到的声音的高低与声音的频率并不是成线性正比关系的.实验表明:在频率为1kHz以下时Mel与频率成线性关系,高于1kHz时,Mel与频率成对数关系.因此符合人的听觉系统的频率刻度划分应该在低频部分具有较高的频率分辨率,而在高频部分具有较低的频率分辨率.Mel频率与实际频率的具体转换关系式为MFCC特征在静态条件下能取得较高识别率,为了更好地消除语音帧之间的相关性,更好地逼近语音动态特征,提高语音识别率,在特征参数中引入动态参数.语音的信息大多集中在低频部分,外界环境噪声很容易干扰高频部分.梅尔倒谱参数将线性频率转化为非线性的Mel下的频率,突出要识别的信息,强调语音的低频信息,能够有效的屏蔽噪声的干扰.MFCC充分考虑了人耳的听觉特性,因此具有良好的识别性能和抗噪能力[6-7].2 支持向量机模型选取及参数优化在SVM中,核函数选择、核参数选择、惩罚参数的选择统称为模型选择.SVM学习性能的好坏与核函数类型及其参数选择有着直接的关系,选择恰当的SVM模型可以获得更好的分类性能和泛化能力(推广能力).核函数类型及核参数确定了映射空间的数据分布.核参数的变化会改变样本特征子空间分布的复杂程度.对于使用不同的核函数类型及核参数得到的子空间中数据分布不同,其经验风险随VC维的变化不同,将导致在不同子空间得到的最优SVM不同,因此需要对SVM核参数和误差惩罚参数同时进行优化.即除了在同一子空间中优化惩罚参数c以获得最优SVM外,还要优化核参数以获得全局最优SVM模型.目前,对SVM的参数进行优化并没有公认的最好的方法[8].现在使用较普遍的是网格搜索法.网格搜索法是一种最基本的参数优化算法.其基本过程是在一定的空间范围内按照规定的步长对待搜索的参数进行划分网格,然后遍历网格内所有点取值,并将每次取出的参数组带入系统中验证其性能,最终取出使系统性能达到最优的参数组作为最优参数组.这种方法的缺点是当网格范围大且步长小时寻优过程需要很长时间,但其他方法操作复杂且易陷入局部最优[9].3 仿真实验3.1 实验语音库的建立本文所采用的语音都是在实验室环境下通过个人电脑声卡录制的.录取了12个人的语音,6个男生,6个女生,每个人录两段语音样本,每段40~60s,一段用于训练,一段用于测试.然后对训练和测试语音做预处理工作.预加重过程采用的传递函数为:H (z)=1-μz-1,预加重系数μ=0.9375.分帧加窗过程:帧长取240个采样点(30ms),帧移取80个采样点(10ms),加hamming窗.最后采用过零率和短时能量两者配合采用双门限的方法进行端点检测.3.2 实验方案与结果分析经预处理后的语音信号,本文提取不同的特征参数.为研究不同的语音特征参数及特征参数的不同处理对语音识别效果的影响,采用支持向量机算法分别实验数据分类,分析实验分类结果.1)语音识别中特征参数的对比实验不同阶数LPCC和MFCC在语音识别中的识别率及所需时间.取LPCC和MFCC阶数分别为12~16,利用SVM算法进行说话人识别,数据采集及分类过程所用时间见表1.表1 不同维数MFCC和LPCC特征的识别率及时间特征维数阶数12 13 14 15 16 MFCC时间/s 16.65 16.73 16.84 16.93 17.01 LPCC 时间/s 25.16 25.26 25.40 25.57 25.87 MFCC识别率/% 76.3 77.5 78.6 81.5 83.2 LPCC识别率/% 71.5 72.4 74.3 75.2 76.5通过表1对比可以看出,相同维数下基于人耳听觉的MFCC比基于声道模型的LPCC的识别效果好,且整个训练测试过程所需时间更短.纵向对比可看出,一定范围内随着维数的上升,说话人识别率有所增大,所花费的时间相差不大.但总体时间上随维数的增大所花的时间增大,增加特征维数能有效提高识别性能.然而特征维数的增加,意味着需要更多的模型参数来描述说话人的特征分布,从而加大了时空复杂度.一般情况下,取维数为16.2)针对不同特征组合在语音识别中的识别率分析不同特征组合下,说话人的识别率.取MFCC和LPCC特征维数为16,分别取MFCC+ΔMFCC,LPCC+ΔLPCC,MFCC+ΔMFCC+E,LPCC+ΔLPCC+E,MFCC+ΔMFCC+LPCC+ΔLPCC+E 5种特征组合,实验结果见表2.表2 不同特征组合下的识别结果识别结果 MFCC+ΔMFCC LPCC+ΔLPCC MFCC +ΔMFCC+E LPCC+ΔLPCC+E MFCC+ΔMFCC+LPCC+ΔLP CC+E识别率/%86.59 80.57 87.83 82.09 88.12时间/ms 21.44 42.51 22.51 42.9287.82对比表1~2可看出,加上对应动态特征后的MFCC+ΔMFCC和LPCC+ΔLPCC比只反应语音帧内信息的静态特征MFCC和LPCC的识别效果好,再加上短时能量E,识别效果又有所增加.MFCC+ΔMFCC+LPCC+ΔLPCC+E的识别效果最好,但由于其选择的特征量多,计算量大,训练测试所需的时间长.针对说话人识别,MFCC+ΔMFCC+E能取得较好的识别效果且识别所需时间短.3)语音识别中不同SVM核函数的仿真实验在SVM语音识别系统中,采用不同的核函数会直接影响SVM 的分类能力.使用MFCC+ΔMFCC+E特征参数,选取不同核函数,实验结果见表3.表3 不同SVM核函数下的识别率和所用时间识别结果线性核函数二阶多项式RBF 核函数Sigmoid核函数正确率/% 76.40 85.78 87.83 50.41时间/ms 13.68 14.71 22.14 26.82观察表3可以看出,使用不同的核函数SVM分类的效果不同,所需的时间也不同.对比可以看出,RBF核函数(径向基)的分类效果最好,最适用于语音识别.对比所花费时间可看出,线性核函数所需时间最短,sigmoid核函数所需时间最长且识别效果最差,即核函数越简单建模测试所需时间越短.4)语音识别中不同SVM参数的仿真实验为进一步提高识别率,本文对核参数(RBF核函数对应gamma参数g)和惩罚参数C对识别率的影响做了对比实验,实验结果见表4.表4 同一核函数不同参数下的识别率组别(C,g)说话人识别率/%第一组(2,0.25)83.70第二组(2,0.5)85.23第三组(2,0.0125)78.48第四组(2,0.0625) 80.37第五组(4,0.5) 85.74第六组(8,0.5) 87.32第七组(16,0.25)85.75观察表4的实验结果可以看出,语音识别中使用相同的核函数不同的参数SVM分类的效果不同.表中说话人识别率最大相差了9.1%,可见选取合适的参数进行SVM训练对识别结果来说具有重要的意义.5)改进网格算法的仿真实验由上述实验可知使用SVM算法时,能选取合适的参数,对识别率有很大的提升.而3中介绍的网络搜寻法,由于数据多,寻找范围大,耗时长.作为网格搜索法的一种改进,可以设定:首先用一个步长为4的(C,g)组合,得到学习精度最高的C和g的值.然后在这2个值旁的一定范围内进行一次更细致的网格搜索.采用K 折交叉验证(K-fold CV)对系统性能进行测试(一般取K=5).具体过程:将原始数据分成K份,每次测试时都采用其中K-1组数据作为训练集,另外的一组数据作为测试集,共进行K(K>=2)次测试,最后将这K 次测试得到的结果求平均值作为判断此分类器性能的指标.K-CV 可以十分有效地解决欠学习和过学习问题,同时也使得测试结果更具有说服性.本文对于所有学习精度的估计,均采用K=5.C取2-6~26,g取2-5~25,对测试集和训练集分别用改进前后算法寻优所花时间见表5.表5 改进前后寻优所需时间 ms寻优算法训练集(4197×33)测试集(951×33)改进前9 233.45 438.89改进后479.86 26.42由表5可看出改进前后寻优时间相差很多,改进前所花时间是改进后的19倍左右.改进后的寻优算法能有效地提高语音识别系统性能.4 结束语通过仿真,验证了在语音识别中使用MFCC+ΔMFCC+E特征组合的方法可以提高支持向量机的综合识别性能;对SVM中核函数及参数的选取对识别率的影响进行了深入研究,仿真结果表明,选取RBF核函数及适当的相关参数可以提高语音识别的正确率;另外采用改进的网格寻优算法可以有效缩短识别时间,提高系统的实时性.今后可以将该语音识别方法进一步应用到智能推车的人机交互模块中,从而实现其人性化智能控制.参考文献[1]XUE Hui,YANG Qiang,CHEN Songcan.SVM:Support vector machines,in The top ten algorithms in data mining[M].Boca Raton:CRC Press,2010.[2]MALDONADO S,WEBER R,BASAK J.Simultaneous feature selection and classification using kernelpenalized support vector machines[J].Information Sciences,2011,181(1):115-128.[3]VLADIMIR N V.The nature of statistical learning theory[D].New York:Springer,1999.[4]ARUN K M,GOPAL M.Reduced one-against-all method formulticlass SVM classification[J].Expert Systems with Application,Acta Electronica Sinica,2010,38(7):1626-1633.[5]吴艳艳.孤立词语音识别的关键技术研究[D].青岛:青岛大学,2012. [6]张志霞.语音识别中的个人特征参数提取研究[D].广州:中山大学,2009. [7]叶庆石,蒋佳.基于语音 MFCC特征的改进算法[J].武汉理工大学学报,2007:29(5):150-152.[8]邓乃杨,田英杰.支持向量机:理论、算法与拓展[M].北京:科学出版社,2009.[9]刘新宇,黄德启.基于SVM分类器的道路湿滑图像分类方法研究[J].武汉理工大学学报:交通科学与工程版,2011:35(4):786-787.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于凸优化的少量样本语音识别作者:罗光圣黎文伟
来源:《中文信息》2020年第02期
摘要:本文首先讨论了语音识别的应用研究状况,以及介绍了语音识别的应用流程。

在此基础上讨论了少量样本的基本概念,分析了少量样本的研究状况,然后分析了凸优化的基本原理和算法。

其中重点讨论凸优化算法。

最后总结了少量样本语音识别的工作和展望。

关键词:语音识别少量样本凸优化
中圖分类号:TP181 文献标识码:A 文章编号:1003-9082(2020)02-0-01
一、语音识别
语音识别通过运用语言学、计算机科学、电子工程、模式识别、概率论、信息论以及人工智能等领域的方法和技术,使计算机设备能够精准识别和翻译语音信息,也被称为自动语音识别(ASR)或者语音到文本(STT)。

语音识别的流程如下:
二、少量样本
对图像识别的机器学习少量样本目前大致可分为模型大致可分为三类:Mode Based,Metric Based 和 Optimization Based。

在专业领域语音识别样本不会很多,如银行的电子渠道手机银行语音导航,样本数有账户管理,我的账户,交易明细等类别很少,可以从训练训练50个类,每个类100个样本。

训练过程中,从训练集(50 个类,每类 100 个样本)中随机采样 5 个类,每个类 5 个样本,构成支撑集,去学习 learner;然后从训练集的样本(采出的 5 个类,每类剩下的样本)中采样构成 Batch 集,集合中每类有 15 个样本,用来获得 learner 的 loss,去学习 meta leaner
具体地,它显式的定义一个基于支撑集 S的分类器,对于一个新的数据X ,其分类概率由X与支撑集 S之间的距离度量得出:
其中 a 是基于距离度量的 attention score:
三、凸优化
如果一个最优化问题的可行域是凸集,并且目标函数是凸函数,则该问题为凸优化问题。

凸优化问题可以形式化的写成
其中x为优化变量;f为凸目标函数;C是优化变量的可行域,是一个凸集。

这个定义给了我们证明一个问题是凸优化问题的思路,即证明目标函数是凸函数(一般是证明它的Hessian矩阵半正定),可行域是凸集。

凸优化的证明如下:
1.目标函数
2. 目标函数展开之后为
3. 二阶偏导数为
4. Hessian矩阵为
Hessian矩阵是半正定矩阵,上面的优化问题是一个不带约束条件的凸优化问题。

可以用梯度下降法或牛顿法求解。

训练一个语音识别的神经网络模型,来预测梯度,用一次二次方程的回归问题来训练,采用凸优化的方法进行优化,到的神经网络优化器比Adam,RMSProp还要好。

结语
在这边文章中,我们基于专业语音识别应用领域中,样本少的实际情况,提出了少量样本与优化器凸优化结合的分类模型。

未来的工作,将少量样本的语音,扩展到有噪音环境下的语音识别,同时迁移到其他专业应用领域中如医疗等,或者在此基础上迁移到其他少量语种中去,经过简单的微调而不用太多数据就是准确的实现语音识别功能。

实验验证一下基于凸优化的少量样本语音识别模型和其他优化器的模型性能进行比较。

参考文献
[1] G. Dahl, D. Yu, L. Deng, A. Acero. Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition. IEEE Transactions on Audio, Speech, and Language Processing. 2012.
[2] H. Sak, A. Senior, F. Beaufays. Long Short-term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling. INTERSPEECH 2014.。

相关文档
最新文档