一种改进的线性预测语音编码技术及实现.kdh
二阶隐马尔科夫模型在语音处理中的线性计算原理及优化

二阶隐马尔科夫模型在语音处理中的线性计算原理及优化摘要:简要介绍二阶隐马尔科夫模型在语音处理中的基本原理,对隐马尔科夫模型中生成序列观察、前向——后向算法中的线性计算原理进行归纳,将二维空间向量和矩阵计算的方法引入语音处理的二阶隐马尔科夫过程。
关键词:隐马尔科夫模型语音处理算法线性优化矩阵中图分类号:o211.62 文献标识码:a 文章编号:1007-3973(2013)007-097-031 隐马尔科夫模型隐马尔科夫模型是一种在语音识别中被广泛应用的统计模型。
过去隐马尔科夫模型在语音处理中的应用主要局限在一阶隐马尔科夫过程。
一阶隐马尔科夫模型的两个基本假设在语音处理的研究中并不合理。
其中关于状态转移的假设认为:在t+1时刻的状态转移只与该时刻的状态有关,而与之前的时刻没有关系,这显然是不合理的。
比如在计算语言学中,福田算法是基于上下文无关文法的高效的自然语言分析方法,这种算法考虑了句法结构、图结构线、子树共享和局部歧意紧缩的技术,证实了相邻词汇之间紧密的相关性。
而输出值的马尔科夫假设认为:在t时刻输出观察值的概率,只取决于ti ≤t的时刻,这显然也是不合理的,因为它忽略了在数值输出中的前后相继的必然联系,比如生物信息学中处于生物序列中的核苷酸与其前后链中的分子具有极其密切的关系。
以上两点均说明了一阶隐马尔科夫模型的不合理性。
2 二阶隐马尔科夫模型二阶隐马尔科夫模型基于这样的假设:时刻的t的状态与时刻t??的状态均有关系,即存在:aijk=p(xt+1=sk|xt=sj,xt-1=si,xt-2=…)=p(xt+1=sk|xt=sj,xt-1=si),其中:aijk=1;aijk≥0;i≥1;n≥j,n表示模型中的状态个数;观察当前特征矢量的状态,依赖于系统在t??时刻所处的状态,即存在:bij()=p(yt=vt|xt=sj,xt-1=si),1≤i;j≤n;1≤≤m二阶隐马尔科夫模型的参数集合可以记为: =(,a,b),其中假设: ={ i};a={aijk};b={bij()}表示二阶隐马尔科夫模型的初始状态分布、转移状态分布、观测值的概率分布,二阶马尔科夫模型是我们在计算语言学中实现线性计算和优化的基础。
现代教育技术知识整理

西华师范大学现代教育技术2012期末考试-知识整理二、名词解释(9选4)1教育技术我们把在教育中有机运用的物化技术与非物化技术的总和称为教育技术AECT1994年的定义:教育技术是为了促进学习,对学习过程和学习资源进行设计、开发、利用、管理与评价的理论与实践。
AECT2005年的定义:教育技术是通过创造、使用、管理适当的技术性的过程和资源,以促进学习和提高绩效的研究与符合伦理道德的实践。
2、因特网:在全球范围,由采用TCP/IP协议族的众多计算机网相互连接而成的最大的开放式计算机网络。
其前身是美国的阿帕网(ARPAnet)。
有三层结构特征:用户驱动网;区域网;骨干网。
3、微格教学:是对在校师范生和在职教师进行课堂教学技能训练的一种培训方法。
每次教学时间为5-10分钟,集中训练1-2项教学技能,因此常被称为“微型教学”、“微观教学”、“小型教学等”。
4、教育传播:是由教育者按照一定的目的要求,选定合适的信息内容,通过有效的媒体通道,把知识、技能、思想、观念等传送给特定的教育对象的一种活动。
是教育者和受教育者之间的信息交流活动。
(是人类传播活动的一种特殊表现形式。
)5、多媒体课件:是根据教学大纲的要求和教学的需要,经过严格的教学设计,并以多种媒体的表现方式和超文本结构制作而成的课程软件。
6、教学设计:是一种以认知学习理论为基础,以教育传播过程为对象,应用系统科学的方法分析研究教学问题和需求,确立解决问题的方法和步骤,并对教学结果作出评价的一种计划过程和操作程序。
7、图层:是构成图像的重要组成单位,许多效果可以通过对层的直接操作而得到,用图层来实现效果是一种直观而简便的方法。
它在ps中扮演重要角色,它既是所有操作的平台,也是创作各种效果的重要途径。
8、位图:是指由输入设备捕捉的实际场景画面,或以数字化形式储存的任意画面的图像。
最小单位为像素。
9、矢量图:矢量图是根据几何特性来绘制图形,矢量可以是一个点或一条线,矢量图只能靠软件生成,文件占用内在空间较小,因为这种类型的图像文件包含独立的分离图像,可以自由无限制的重新组合。
第四章 语音信号线性预测编码技术(幻灯讲义)_970801236

V ( z ) = 1 / A(z ) ,这是一个全极点模型。参数解卷的问题便是估计 A( z ) = 1 + ∑ α i z = ∑ α i z −1 ,其中 α 0 = 1
−1
P
P
i =1
i =0
中的参数 α i , i = 1, L , P ,即预测系数。 在 LPC 分析中还对未知的激励序列作如下假定: (1) 对于浊音段语音,模型的激励信号是周期性的脉冲信号即:
e(n) 是理想的噪声序列。 所以一个平稳的随机序列可以分解成一个可预测序列和不可预
测序列两个部分。 线性预测又叫线性预测分析,也就是说每个时刻的信号可以用若干个其它不同时刻 信号的线性组合进行预测,这些组合系数被称为预测系数。 1795 年高斯提出了线性最小均方估值或预测。 1947 年,维纳的著作“单一时间序列的线性预测”中,第一次用到“线性预测”这 个术语。 1966 年,日本的 Itakura, Saito. S. 将线性预测技术用于语音编码分析,这就是线 性预测编码(LPC)。
n
14
2.2.1. 用自关法解LPC正则方程组
在用自相关法求解 LPC 正则方程组时,是用窗函数 w(n) 来截取一段语音信号
sw (n) ,然后再计算它的相关函数 φ (k , i ) 。窗函数定义为:
⎧≠ 0, w(n) = ⎨ ⎩0,
加窗后的语音信号为
0 ≤ n ≤ N −1 其它
2. 基于最小均方误差准则的解法
假设 n 时刻以前的 P ′ 个样点语音样值为 s( n − 1 ) , s( n − 2 ) ,L s (n − P ′) ,当前
s( n ) 样值的预测值 ˆ ( n ) 可以用 s( n − 1 ) , s( n − 2 ) ,L s (n − P ′) 的线性组合来预测, s
改进的小波变换HMM语音识别算法

改进的小波变换HMM语音识别算法洪淑月;施晓钟;徐皓【摘要】Recognition rate of speech recognition systems relied heavily on technology-based Hidden Markov Models-HMM model training. However the classic Baum-Welch training algorithm had a fatal flaw, namely, final solution obtained depended on the selection of the initial value, which was often only locally optimized solution. It would affect the recognition rate of the final system. To increase the recognition rate of traditional speech recognition system, it was presented an improved algorithm based on wavelet transform and HMM model. Firstly, noise in the original signal was reduced by wavelet transform, then an improved HMM model trained by speech samples and used to recognize speech. Experimental results showed that the improved algorithm, which was implemented by genetic algorithm, was practical, effective and system recognition rate was increased significantly.%语音识别系统的识别率十分依赖基于Hidden Markov Models (HMM)模型的训练技术.然而,经典的训练算法(Baum-Welch算法)有一个致命的缺陷,即所得最终解依赖于初始值的选取,只得局部最优解,这就影响了系统的最终识别率.针对传统语音识别系统识别率较低的现状,提出了一种改进的小波变换HMM语音识别算法.该算法首先通过小波变换对原始语音信号进行了降噪处理,然后使用语音样本对利用遗传算法改进后的HMM模型进行训练,并用于语音识别.实验结果表明:所提出的算法实用有效,识别率显著提高.【期刊名称】《浙江师范大学学报(自然科学版)》【年(卷),期】2011(034)004【总页数】6页(P398-403)【关键词】小波变换;降噪;HMM模型;语音识别【作者】洪淑月;施晓钟;徐皓【作者单位】浙江师范大学数理与信息工程学院,浙江金华321004;浙江师范大学行知学院,浙江金华321004;浙江师范大学数理与信息工程学院,浙江金华321004【正文语种】中文【中图分类】TP3910 引言语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连[1].随着人们对语音识别认识的深入,人们对语音识别也提出了越来越高的要求.小波分析作为一种强有力的信号分析工具,近年来被广泛地应用于图像处理和语音处理中,它是时间和频率的局部变换,能有效地从信号中提取信息.通过小波变换,在信号的高频域部分,可以取得较好的时间分辨率;在信号的低频域部分,可以取得较好的频率分辨率,这种特性使得小波特别适合于语音信号处理[2].隐马尔可夫模型(Hidden Markov Models:HMM),作为语音信号的一种统计模型,目前正在语音处理各个领域中获得广泛的应用[3-4].语音识别系统的识别率十分依赖基于HMM模型的训练技术,然而经典的训练算法(Baum-Welch算法)有一个致命的缺陷,即所得最终解依赖于初始值的选取,故只得局部最优解,影响了系统的最终识别率,尤其高噪声环境下语音识别进展困难,必须寻找新的信号分析处理方法[5-6].本文改进思路,将进化算法寻找最优B初值与Baum-Welch算法相结合来训练HMM模型,使得整个语音识别系统的识别率大大提升.1 小波去噪的原理在实际运用中,去除语音信号中的背景噪声显得尤为重要.小波变换是时间和频率的局域变换,能够有效地从信号中提取信息.它不但可以检测到低信噪比信号中的边缘信号,而且可以滤去噪声从而恢复原信号.小波变换的语音降噪原理如下,令观察信号为式(1)中:有用信号噪声序列.假零均值且服从高斯分布的随机序列,即服从布.对式(1)两端作小波变换,有再令零均值、独立同分布的平稳随机信号,记u=[u(0)u(1)…u(N-1)]T,则有式(3)中表求均值运算;Q是u的协方差矩阵.令W是小波变换矩阵,对于正交小波变换,它变换,即由式(2)有令P是U的协方差矩阵,由于,因此,W是正交阵,且Q=σ2uI,所以P=σ2uI.因此,可得到一个重要的结论:平稳白噪声的正交小波变换仍然是平稳的白噪声[7].由该结论可知,对于如同式(1)的加噪声模型,经正交小波变换后,最大程度地去除了s(n)的相关性,其能量将集中在少数小波系数上.小波变换具有一种“集中”的能力,能使信号和噪声在不同尺度上所表现出的特征不同,对于信号函数,随着尺度的增大,小波变换系数也增大;对于噪声,其小波变换系数随着尺度的增大而减小.选择一个合适的阈值对小波系数进行阈值处理,就可以达到滤除噪声而保留有用信号的目的.2 HMM的改进2.1HMM 模型HMM模型作为语音信号的一种统计模型,今天正在语音处理各个领域中获得广泛的应用.语音识别系统的原理图1所示[8].HMM过程是一个双重随机过程:一重用于描述非平稳信号的短时平稳段的统计特征(信号的瞬态特征);另一重随机过程描述了每个短时平稳段如何转变到下一个短时平稳段,即短时统计特征的动态特性(隐含在观察序列中).人的言语过程本质上也是一个双重随机过程,语音信号本身是一个可观测的时变序列.可见,HMM合理地模仿了这一过程,是一种较为理想的语音信号模征参量.HMM模型通常表示成2.2HMM的3个基本问题图1 HMM语音识别系统这3个问题目前都已解决,通常情形下评估问题使用“前向-后向”算法解决,解码问题使用Viterbi算法解决,训练问题使用Baum-Welch算法解决[9].2.3 利用遗传算法改进HMM语音识别系统的识别率十分依赖基于HMM模型的训练技术,经典的训练算法(Baum-Welch算法)有一个致命的缺陷,即所得最终解依赖于初始值的选取,故往往只得局部最优解,影响了系统的最终识别率.改进思路是将遗传算法寻找最优B初值与Baum-Welch算法相结合来训练HMM模型,使得整个语音识别系统的识别率大大提升.进化Baum-Welch算法的设计如下:1)编码方案.在HMM模,参数分为A,B两部分.对于无跳跃从左向右模型,A 中有且仅有9个非零值.由于因此,A中只需5个参数形成染色体的一部分,即所以在遗传操作后还需对B部分作归一化操作.2)适应函数.遗传算法中,适应函数作为区分个体优劣的标准,需保证优秀个体的适应度比差的个体的适应度高.这里个体的适应度用各个训练样本的对数似然概率表示,即式(3)中:O(k)表示用于训练模型的第k个观测序列;P(O(k)|λ)由Viterbi算法求出.3)选择策略.文中采用了基于排名的非线性选择.在每一代中,将群体成员按适应值从高到低依次排列,按照排名分配选择概率,适应值高的个体选择概率也就相应地高.4)遗传算子和控制参数.遗传算子包含杂交算子和变异算子,它直接影响到算法的最终解.杂交算子相当于一个局部搜索操作,它产生父代附近的2个子代,而变异算子则使得个体能够跳出当前的局部搜索区域,两者的结合正好体现了进化算法的精髓所在.实验中采用了3个单点杂交,一点对应一个状态.在个体中A部分随机取一点,将2个父体该点的对应值互换;再对每一状态在B的两部分中个体随机选取一个点,将2个父体该点后的分量进行互换,这样就完成了杂交的操作.变异算子采用均匀性变异.实验中种群大小取40,杂交概率取0.7,变异概率取0.001.5)终止策略.常用的终止准则是预先设置最大进化的代数或预先设置一个适应值改善的门限值.对于前一种准则,在进化代数到达预置值时进化终止.后一种情况下,在适应值改善低于该门限值时进化停止.本系统取最大进化代数为100.3 改进型系统设计基于小波变换和改进型HMM的系统设计模型如图2所示.改进后的系统在预处理之后加入小波变换,可以对瞬间突变的语音信号进行检测与分析,有效降低原始语音信号中的噪声.小波降噪后进行端点检测,之后对语音信号进行特征参数提取MFCC,然后进行矢量量化和编码,再将编码得到的码本使用改进后的算法训练HMM,最后得到输出结果.图2 改进型系统设计框图4 实验结果分析实验基于HMM对人体语音识别系统进行.训练数据取自10人,在不同SNR(高斯白噪声)下,词汇量分别为10,20,30,40,50个,共600个实验样本,其中300个样本用于训练,另外300个用于检测实验结果.时间长度为5~10 s,采样频率为8 kHz,A/D转换精度为16 bit,并采用单声道语音进行识别测试.实验结果如表1所示.表1 4种系统的识别率比较images/BZ_130_242_405_2100_535.png系统Ⅰ 47.8 83.4 85.0 86.7 87.7 89.2系统Ⅱ 53.0 84.5 86.9 87.2 87.6 89.3系统Ⅲ 50.3 87.5 87.4 88.1 88.0 90.2系统Ⅳ 58.5 88.7 89.6 89.6 89.9 90.1 10系统Ⅰ 30.2 75.6 82.1 84.7 84.6 85.1系统Ⅱ 42.5 79.8 84.3 84.8 84.7 85.2系统Ⅲ 39.3 77.2 84.9 85.9 86.0 86.3系统Ⅳ 48.6 83.1 86.1 86.2 86.2 86.3 20系统Ⅰ 28.4 74.7 82.0 83.7 84.0 85.0系统Ⅱ 40.0 77.9 83.8 84.0 83.9 85.0系统Ⅲ 35.7 77.1 84.1 84.9 85.0 86.5系统Ⅳ46.5 82.0 85.0 85.9 86.0 86.2 30系统Ⅰ 25.4 75.0 83.3 82.1 82.5 83.0系统Ⅱ 31.7 78.5 83.4 82.3 82.4 82.7系统Ⅲ 33.3 77.3 82.3 83.1 82.9 83.1系统Ⅳ 45.2 80.4 84.0 84.5 84.4 84.0 40系统Ⅰ 23.2 72.0 79.1 80.4 80.1 81.5系统Ⅱ 30.7 76.6 83.1 80.6 80.7 81.7系统Ⅲ 29.9 76.0 82.6 81.8 83.2 82.1系统Ⅳ 44.1 80.7 83.7 84.0 83.9 84.1 50表1中,系统Ⅰ为基于HMM的语音识别系统;系统Ⅱ为基于小波变换和HMM的语音识别系统;系统Ⅲ为基于改进HMM的语音识别系统;系统Ⅳ为基于小波变换和改进HMM的语音识别系统.因此,可得到以下一些结论:1)在高噪声环境下,小波降噪对语音系统识别率可提升5% ~7%.随着语音质量(信噪比)的提高,小波降噪对识别率的改善越来越小,当信噪比大于35 dB时,小波降噪系统识别率的改善并不明显.图3是利用表1中的实验数据(词汇量为20)制成的小波降噪的识别率比较图.图3 小波变换对系统影响比较图4 系统受词汇量影响比较2)基于遗传算法的改进HMM模型对系统语音识别率有较大改善,平均提高了4个百分点,且由图4可以看出改进后的系统识别率受词汇量大小影响不大.3)改进后的语音识别系统,即系统Ⅳ在实验中表现最优,各种环境下其识别率都是最高的,基本达到了理论预期结果.5 结语提出一种语音识别系统的改进方法,通过小波变换和遗传算法对传统语音识别方法作了一定改进.改进后的语音识别算法性能提升明显,尤其是在恶劣噪声环境下,该算法基本达到了设计目的和现实要求.所提出的方法综合性能优于单独应用HMM模型和小波变换与HMM模型结合的语音识别方法.参考文献:[1]刘么和.语音识别与控制应用技术[M].北京:科学出版社,2008:1-35.[2]Zhou Dexiang,Wang Xianrong.The improvement of HMM algorithm using wavelet dek-noising in speech recognition[C]//2010 3rd International Conference on Advanced Computer Theory and Engineering(Ⅳ),Chengdu:Int Assoc Comput Sci Inf Technol,2010:4438-4441 .[3]García-Moral A I,Solera-Ureña R,Peláez-Moreno C.Data balancing for efficient training of hybrid ANN/HMM automatic speech recognition system[J].IEEE Transactions on Audio,Speech and Language Processing,2011,19:468-481.[4]Terashima R,Yoshimura T,Wakita T.Prediction method of speech recognition performance based on HMM-based speech synthesis technique[J].IEEJ Transactions on Electronics,Information and Systems,2010,130:557-564.[5]Borgstrom B J,Alwan A.HMM-based reconstruction of unreliable spectrographic data for noise robust speech recognition[J].IEEE Transactions on Audio:Speech and Language Processing,2010,18:1612-1623.[6]Hahm S J,Ohkawa Y I.Speech recognition under multiple noise environment based on multi-mixture HMM and weight optimization by the aspect model[J].IEICE Transactions on Information and Systems,2010,93(9):2407-2416.[7]胡广书.现代信号处理教程[M].北京:清华大学出版社,2004:397-398.[8]Rabiner L R,Juang B H.Fundamentals of Speech Recognition [M].New Jersey:Prentice-Hall,1999:321-370.[9]吴朝晖,杨莹春著.说话人识别模型与方法[M].北京:清华大学出版社,2009:21-76.。
《语音线性预测编码》课件

这份PPT课件将介绍语音线性预测编码(LPCC)的原理、过程以及实际应用 案例,展示LPCC在语音信号处理中的重要性和应用前景。
1. 介绍
什么是语音线性预测编码(LPCC)?LPCC是一种用于语音信号压缩和识别。 LPCC的应用场景广泛,包括语音通信、语音识别、语音合成等领域。
4. 优缺点比较
与其他语音编码方法相比,LPCC具有一些独特的优点,如高压缩效率、良好的频谱保持性能等。 然而,LPCC也存在一些缺点,比如对噪声和非线性失真敏感。
5. 实际应用案例
LPCC在语音信号的压缩与传输、语音识别与语音合成等具体应用中发挥着重 要作用。
6. 结论
通过本次演示,我们可以看到LPCC在语音信号处理领域的应用前景广阔,同时也需要进一步探索和发展。 LPCC的发展趋势包括提高编码效率、降低计算复杂度以及应用于更多领域。
参考文献
1. Smith, J. O. (1997). "SPEECH ANALYSIS/SYNTHESIS BASED ON A SINUSOIDAL REPRESENTATION." Proceedings of the IEEE, Vol. 80, No. 4. 2. Rabiner, L. R., & Juang, B. H. (1993). "FUNDAMENTALS OF SPEECH RECOGNITION." Prentice-Hall.
2. 原理
语音信号的线性预测是LPCC的核心原理。通过将语音信号表示为线性预测模 型,可以准确地描述语音信号的特征和频谱成分。 LPC系数的求解和谱包络的计算是LPCC过程中的两个重要步骤。
3. LPCC的过程
一种有效的语音变调算法

一种有效的语音变调算法研究设计电子测量技术EL ECTRON IC M EASU REM EN T TECHNOLO GY第29卷第5期2006年10月一种有效的语音变调算法韩丁沈保锁(天津大学电子信息工程学院天津300072)摘要:语音音调变换是语音处理中一项非常重要的内容。
不同的语音音调主要体现在语音的基音周期和共振峰频率的差别上。
本文以线性预测为基础,按照混合激励线性预测声码器中提取基音周期的方法来获取语音信号的基音周期,并利用内插和抽取的基本原理来改变基音周期,在语速不变的前提下实现语音声调的变化。
关键词:线性预测;内插;抽取;混合激励线性预测;基音周期E ff icient algorithm for pitch2scale modif icationHan Ding Shen Baosuo(School of Electronic Information,Tianjin University,Tianjin300072)Abstract:Pitch2scale modification is an important technology of speech processing.The different pitch and the different formant frequency decide the different pitch2scale.In this paper,a method of pitch2scale modification based on the line prediction coding is introduced.According to the method of getting pitch in M EL P,the pitch of speech is computed. And the pitch is changed by using interpolation or decimation.K eyw ords:L PC;interpolation;decimation;M EL P;pitch0 引言所谓音调变换,主要是指在语速不变的前提下,依据一定的算法来调整说话人的音调,使原本说话的音调变高或变低,好像另一个人在说话。
一种改进的线性预测语音编码技术及实现
一种改进的线性预测语音编码技术及实现
纪友芳;刘桂斌
【期刊名称】《计算机工程与应用》
【年(卷),期】2009(45)15
【摘要】线性预测编码是实现语音编码的一项重要技术,介绍了线性预测编码技术的实现,提出一种改进型的声激励线性预测语音编码方法.最后,将简单LPC语音编码与声激励LPC语音编码进行比较.实验结果表明,该方法能够很好地实现语音编码,声音效果也比简单LPC更理想.
【总页数】3页(P163-165)
【作者】纪友芳;刘桂斌
【作者单位】中国石油大学,华东,计算机与通信工程学院,山东,东营,257061;中国石油大学,华东,计算机与通信工程学院,山东,东营,257061
【正文语种】中文
【中图分类】TN912.3
【相关文献】
1.一种基于FPGA实现的改进语音端点检测算法 [J], 欧阳玲;宋克
2.一种改进的4.8kb/s码激励线性预测语音编码 [J], 鲍长春
3.一种用局部非线性预测模式实现的语音编码算法 [J], 马霓;韦岗
4.一种孤立词语音识别的实现方法及改进 [J], 刘丽媛;严家明
5.一种改进的DHMM语音识别算法的DSP实现 [J], 王维强
因版权原因,仅展示原文概要,查看原文内容请购买。
混合激励线性预测低速率语音编码研究
t nc dn ( P - 0 , x d e ct in l ep e i i ( L ) m l— a d e ct in M E , n sia t n fr o ig i o i L C 1 ) mi x i t i rdc o ME P , ut b n x i t ( B ) i od l r s m c r n o g e ao n tn i ao su a o d
Ab t a tI r e o s t f e n so e d g tlc mmu ia in a d oh rc mme c a p lc t n , e s e c o r s sr c :n o d rt a i y d ma d ft ii o s h a nc t n te o o r ila p ia i s t p e h c mp e - o h s n tc n lg a e n d v lp d r p d yT e e a e s v r l i B C p e al g i e e ty a ss c s l e p e i - i e h o o y h sb e e eo e a i l .h r r e ea n L RS r v i n n r c n e r , h a i r d c o ma i u n
一种改进的DHMM语音识别算法的DSP实现
关键词:语音识别; H D MM; 特征 图案;矢量量化; 非特定人;孤立 词
DS I plm e t to o n I pr ve P m e n a i n fa m o d DHM M g rt Al o ihm
WANG We- a g i n Qi
观察矢量序列 Y [l 2 N,其中 N为输入语音所包 y, , ] y …Y 含 的帧数.语音识别的过程就 是计算每个 H MM 模 型 产生 Y 的概率 PYI ) 并使得该概率达到最大 的 ( ,
H MM 模 型, 么该模型所对应 的词条 即为孤 立词识 那 别 的结果l,即: 3 】
MF C C
/'、
=a gm a PrI ) r x[( 】
L) t
图 3 MF C参数求解过程 C 1 - 2改进的 D MM 算法 H 传统 的 D MM 算法中, H 矢量量 化的作用是将连 续 的输入参数 矢量化为码本标 号,每个说 话人的码本
独立进 行训练 . 如利用 矢量量化对全部说 话人 的数据
目前, MM( H 隐马尔可夫模型) 法是语音识别领 算
域 内使 用 最 为广 泛 的技术 ,HMM 有 O nt 离 散 rV M( H MM)C MM( 、H 连续 r M) S H  ̄l 和 C MM( 半连续 H MM) 等几种.以上三种算法各有其特点:D MM 的存储和 H 计算量较小,但其矢 量量化 的过程会造成 性能的损失; C MM 采用连 续概率密度 函数来描述观测矢量,具有 H
图 2 改进 的 D MM 算法流程框 图 H
④模式 匹配:在识别 时将输 入的语音特征 同声学
模型进行 比较, 得到识别结果【. 2 】 在 训练 阶段 ,用户 将词 汇表 中的词 依次 读 一遍 ,
一种改进的2.4kb/s混合激励线性预测声码器方案
懂 度和 自然度 方面 都有 一定 的提 高。
关键词 ;清浊 音判 决 ;ME P L ;声码 器 ;多级 矢量 量化 ( VQ) MS 中图分类 号 ;T 1. N9 23 文 献标识 码 :A
1
引 言
在 美 国 联 邦 政 府 选 择 新 一 代 24 bs 语 音 编 码 标 准 以代 替 原来 的 L C 1e 模 型 的过 程 中 ,A.. .k / P 一0 V
l I 。
2 改 的型 进模
21 能 量~ 微 分过 零 率 比 ( . )参 数 实 验表 明 ,不 自然 合 成 音 多 发 生 在 元 音 语 音 段 的开 始 、结 束 或
两 个 元 音 发音 之 间 的 结合 部 分 ,也 就 是 人 的发 音 状 态 处 于 过 渡 态 的 时期 。在 元音 段 的 开 始或 结束 时期 ,语 音 能 量 通 常 比较 低 。两 个 元 音 之 间 , 有 一段 基 音 周 期 不 是 很 规 则 的 时期 。不 规 则 的基 音 成 分 或
低 码 率 下 保 证 了 良好 的 合成 语 音 质 量 。
但是 ,经过大量 的听觉测试 ,发现用 ME P方案合成的语音还是存在一些 问题 。特别是在语音 的 L 过 渡 区段 ,人 工 合 成 音 的 迹 象 比较 明显 ,语 音 听起 来 显 得 有 些 生硬 。为 了使 合 成 语 音 听起 来 更加 自然 ,
Vo |2 NO 3 l 1 .
J e 20 un 07
一
种 改进 的 24 bs混合激 励 线性 预测声 码器 方案 .k /
马欣 , 刘 常澍 , 李 文 元 , 张毓 忠
( 天津 大 学 电子 信 息 工 程 学 院 , 天津 3 0 7 ) 002
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2009,45(15)图1简单LPC 音码器的结构图LPC分析器音高检测器编码器信道解码器LPC 合成器s(n )sout(n )发送端接收端1前言语音编码是将当前语音信号进行变换,得到一种更紧凑的形式,使其能够以占用更小内容空间的方式传送出去。
语音编码目前主要分为三类:波形编码、参数编码和混合编码[1]。
混合编码是结合前两类编码方法的优点而发展起来的,波形编码与参数编码的主要区别在于重构的语音时域信号是否在波形上尽量与原始信号一致。
波形编码力图使重构后的语音时域信号的波形与原语音信号波形保持一致,它具有适应能力强、话音质量好等优点,但需要用到的编码速率较高。
参数编码根据对声音形成机理的分析,在以重构语音信号具有足够的可懂性的原则上,通过建立语音信号的产生模型,提取代表语音信号特征的参数来编码,而不一定在波形上与原始信号匹配。
在频域上该模型对应具有一定零极点分布的数字滤波器,编码器需要发送滤波器参数和相关的特征值。
由于话音的短时平稳性,所以模型特征参数更新的频度较低,这就有效的降低了编码比特率,可以低于2.4kb/s 甚至以下。
本文中的语音编码采用一种改进的LPC-10技术。
实验中使用LPC 技术对三男二女读语句的语音信号进行编码,待编码的语音信号是宽频信号,频率范围从0到8kHz ,在100ms 的最大端对端延迟情形下,采样频率取16kHz 。
实验结果表明声激励LPC 方法比简单LPC 方法得到的整个语句声音效果要更好一些。
2简单LPC 音码器线性预测编码(LPC )是基于全极点模型假设,采用时域均方误差最小准则来估计模型参数的,它们能够较准确的表征语音信号的频谱幅度和声道特性,而运算量也不大,应用这组模型参数能够有效的降低语音信号编码的比特率。
LPC 方法可估计出一些基本的语音参数,如:音高、共振峰和频谱。
简单LPC 音码器的结构图,如图1所示。
2.1实现原理LPC 方法的基本思想是:一个语音的采样能够用过去若干个语音采样的线性组合来逼近,在有限的时间间隔内使原始语音信号和估计得到的语音信号间的平方误差最小,进而求取一系列唯一的预测系数,预测系数每帧估计一次。
LPC 模型是以系数a i 和增益G 为模型参数的全极点模型(AR )。
时变数字滤波器的传递函数为[2]:H (z )=G1-pi =1Σa iZ -iΣΣ(1)一种改进的线性预测语音编码技术及实现纪友芳,刘桂斌JI You-fang ,LIU Gui-bin中国石油大学(华东)计算机与通信工程学院,山东东营257061College of Computer and Communication Engineering ,China University of Petroleum ,Dongying ,Shandong 257061,China E-mail :liuguibinab@JI You -fang ,LIU Gui -bin.Improved linear predictive speech coding technique and puter Engineering andApplications ,2009,45(15):163-165.Abstract :The Linear Prediction Coding (LPC )is an important technology to realize speech coding.In this paper ,the linear pre -diction coding technology ’s realization is introduced ,and an improved sound excited linear prediction speech coding method is recommended.Finally ,this paper compares the simple LPC speech coding and the sound excited LPC speech coding.The experimen -tal results demonstrate that the method can achieve speech coding well ,moreover the sound effect is more ideal than simple LPC.Key words :speech coding ;Linear Prediction Coding (LPC );Discrete Cosine Transform (DCT );MATLAB 摘要:线性预测编码是实现语音编码的一项重要技术,介绍了线性预测编码技术的实现,提出一种改进型的声激励线性预测语音编码方法。
最后,将简单LPC 语音编码与声激励LPC 语音编码进行比较。
实验结果表明,该方法能够很好地实现语音编码,声音效果也比简单LPC 更理想。
关键词:语音编码;线性预测编码;离散余弦变换;MATLABDOI :10.3778/j.issn.1002-8331.2009.15.047文章编号:1002-8331(2009)15-0163-03文献标识码:A中图分类号:TN912.3作者简介:纪友芳(1953-),男,高级工程师,硕士生导师,主要研究方向:计算机智能控制、计算机测控技术;刘桂斌(1980-),男,硕士研究生,主要研究方向:人工智能及应用。
收稿日期:2008-03-24修回日期:2008-08-29Computer Engineering and Applications 计算机工程与应用163Computer Engineering and Applications 计算机工程与应用2009,45(15)图2声激励LPC 音码器的结构图LPC分析器激励检测器编码器信道解码器LPC 合成器s(n )sout(n )发送端接收端{a i }预测系数,i =1,…,p ,p 为模型的阶数。
增益因子G 由下式计算得到[3]:G =1M 姨Mi =1Σs 2(i )(2)对于LPC-10算法而言P 为10,本文的改进算法使用18,即,只有前18个系数传输到LPC 音码器。
用于计算预测系数的最常用方法是协方差法和自相关法。
采用自相关法,原因在于该方法能保证式(1)中多项式的根总是位于单位圆内部,从而保证系统传递函数H (z )稳定性。
对于自相关法可用Levin -son-Durbin [4]递推算法计算所需的参数。
该算法过程如下:(1)计算自相关系数R n (i ),j =0,1,…,p ;(2)E (0)=R n(0);(3)i =1;(4)开始按如下公式进行递推运算:k i =R n (i )-i -1j =1Σa (i -1)jR n(i-j ΣΣ)E (i -1)(3)a (i )i =k i (4)a (i )j =a (i -1)j-k i a (i -1)i-j ,j =1,…,i -1(5)E (i )=(1-k 2i )E(i -1)(6)(5)使i=i +1,若i=p ,则算法结束退出,否则返回第(4)步,按式(3)到式(6)进行递推。
a (i )j 表示第i 阶预测系数的第j 个预测系数,E (i )为第i 阶预测器的预测残差能量,经递推计算后,可得i =1,2,…,p 各阶预测器的解。
最终解为:a 赞j =a (p )j,j =1,2,…,p (7)和E (p )=R n (0)pi =1仪(1-k 2i )(8)由于各阶预测器的预测残差能量E (i )都是非负的,因此由式(6)可以推知参数k i 必定满足:|k i |≤1,i =1,2,…,p(9)且E (i )随着预测器阶数的增加而减少,参数k i 称为反射系数(PARCOR )。
可以证明式(9)是保证系统H (z )稳定的充要条件。
2.2预加重滤波器预加重滤波器可以加强语音中的高频共振峰,使语音短时谱与残差谱变得更平坦,从而提高谱参数估值的精确性。
语音信号经历了-6dB/倍频的频谱衰减,为抵消这种效应,使用如下预加重滤波器[5-6]:y (n )=x (n )-ax (n -1)(10)其中,x (n )为输入信号,y (n )为输出信号,a 取0.95。
其传递函数为:H pw (z )=1-0.9375z-1(11)3声激励LPC 音码器简单LPC-10音码器的最大缺陷在于对浊音的激励不强,一个解决方案是使用声激励LPC 音码器来提高声音质量。
其结构图,如图2所示。
3.1基本思想声激励LPC 音码器的主要思想是:避免对音高的非精确检测,合成语音时使用一个脉冲序列,对激励后的信号给出更好的估计。
进而使用LPC 分解器的传输函数对每一帧输入信号进行滤波,为获得高压缩率,需要对滤波后的残差信号实施离散余弦变换(DCT ),按每一帧作DCT 变换,对变换域系数量化编码。
因DCT 在其一阶少量系数中包含了信号的大部分能量,所以压缩信号时仅传输包含大部分能量的系数。
测试与仿真表明,这些系数甚至可以仅用4bit 量化,接收机则简单的实施一个反DCT 变换,利用获得的结果信号来激励出声音。
3.2离散余弦变换设一帧语音信号s (n ),0≤n ≤N -1,帧长为N ,可以形成一个矢量:X =[s (0),s (1),…,s (N -1)]T(12)N 点的DCT 正变换为:X c (k )=N -1n =0Σx (n )c (k )cos(2n +1)k π2NΣ≤(13)其中,0≤n ≤N -1。
DCT 反变换为:x (n )=1N N -1n =0ΣX c (k )c (k )cos(2n +1)k π2N Σ≤(14)其中,0≤n ≤N -1,式中,c (k )=1(k =0)2姨(1≤k ≤N -1≤)(15)可以证明,DCT 与用N 个零点填充矢量X 而得到的2N 点函数的离散傅里叶变换(DFT )[7]有关。
令y (n )为X 的填充形式,设Y 的DFT 为:Y (k )=N -1n =0Σy (n )Wnk(16)式中,W =exp(-j 2π/2N )由于填零的原因,求和计算到N -1为止,Y (k )=W-k /2N -1n =0Σy(n )W (n +1/2)k(17)对实数y 来说,和的实数部分为:N -1n =0Σy(n )cos (2n +1)k π2N(18)因此X 的DCT 为:X c (k )=c (k )Re[W-k /2Y (k )](19)上式表明,利用这个关系可获得计算DCT 的快速算法,同时频谱包络的信息可以从DCT 得到。