语音识别的非线性方法

语音识别的非线性方法
语音识别的非线性方法

52国家自然科学基金资助项目.收文日期:1997年6月12日(June 12,1997)

ΞV ol.3N o.1M arch 1998

电路与系统学报JOURNAL OF CIRCUIT S AND S Y S TEMS 第3卷第1期

1998年3月Ξ

语音识别的非线性方法董远胡光锐

(上海交通大学电子工程系,上海,200030)

【摘要】语音信号是一个复杂的非线性过程,这使得基于线性系统理论发展起来的传统语音识别技术性能难以进一步提高。近年来人们开始逐渐重视非线性理论在语音识别技术中的应用。本文概括地介绍了非线性理论在语音识别技术中的所取得的成果和发展方向,除了涉及较为流行的隐马尔柯夫过程和人工神经网络在语音识别中的应用外,文中着重论述了近年来发展迅猛的混沌、分形理论在语音识别中的应用,本文最后还提到了不可忽视的分形理论在语音编码中的应用。

【关键词】语音识别,隐马尔柯夫过程,人工神经网络,混沌,分形,迭代函数系统,语音编码

Non 2linear Methods for S p eech Reco g nition

D on g Y uan Hu G uan g rui

(De p t.of E lectronic En g ineerin g ,Shan g hai Jiaoton g Universit y ,Shan g hai ,200030)

Abstract :S p eech si g nal is traditionall y treated as a linear p rocess.H ow ever ,it is indicated b y extensive research that the s p eech si g nals are actuall y com p licated non 2linear p rocesses.T o im p rove the reco g nition rate ,recent research ef 2fort has started to m i g rate to anal y ze s p eech si g nal usin g non 2linear theor y .T his article summ arizes the new develo p m ent in this area.Besides HM M and ANN ,which have been w idel y used b y m an y authors ,this p a p er introduces in p articular a series of fast g row in g non 2linear such as chaotic and fractal theories and their a pp lications in s p eech reco g nition and codin g .

K e y w ords :s p eech reco g nition ,HM M ,ANN ,chaos ,fractal ,IFS ,s p eech codin g

引言

语音识别技术自本世纪五十年代起步发展至今已四十多年,取得了很大的进步,语音识别的研究愈来愈受到人们的重视。

语音信号处理分别基于确定性线性系统理论和不确定性非线性系统理论。80年代的子词单元、多级识别、多模板和聚类技术、连续语音匹配技术等语音识别方法都是基于线性系统理论。经研究表明,语音信号是一个复杂的非线性过程,这使得基于线性系统理论发展起来的传统语音识别技术性能难以进一步提高。近年来发展起来并逐渐完善的非线性科学为语音识别技术的发展带来了新的生机。

1语音识别与隐马尔柯夫过程(HM M )

在传统的线性理论难以使得语音识别技术进一步提高时,随着对隐马尔柯夫模型(HM M )的重新认识和广泛应用,掀起了语音识别研究的一个热潮[1]。

语音信号是短时平衡的随机信号,在足够小时音段上语音信号的特性近似稳定,就整个语音序列而言,它可以看成是依次从相对稳定的某一状态过渡到另一状态。尽管如此,语音信号序列用一个按预定顺序排列的状态转移过程来描述是不够充分的,因为不同发音人、不同的发音环境、不同的发音时间发

53

董远等:语音识别的非线性方法

相同音时,其各状态的持续时间、状态的转移过程各不相同。

HM M是一种随机过程,它用概率统计的方法来描述语音信号的变化过程[2][3]。从语音信号产生模型看,语音信号是由激励源激励声道而产生的。人的声道特性可划分为有限个特性平稳的部分或状态,相应地语音信号可以看成由这些平稳状态产生的短时信号的时域级连,而每个状态对语音信号的作用取决于该处的声道物理参数或语音概率分布。如果将声道特性的变化用HM M的状态转移概率来描述,某一声道特性产生短时语音信号观察值的概率分布用HM M状态的生成概率表征,则HM M模型就能有效地用于描述时变语音信号[4]。

由于HM M能够描述语音信号的强时变特性及其对语音信号有很强的时间规整能力,并能集中表述各种语音特征,因而非常适合于采用子词单元的大词汇量的连续语音识别系统[5][6]。

但HM M模型也有其不足:没有有效地利用相邻语音之间的相关性:对模型作了很多不符合语音实际情况的规定,使HM M不能真实地对语音信号的持续时间进行建模;概率密度函数为高斯分布的假设与实际情况不符,解决的方法是用ANN来逼近实际的概率分布。

2人工神经网络在语音识别中的应用

到了八十年代末期,人工神经网络技术的研究兴起,人工神经网络由于具有较强的自组织学习能力和区分模式边界的能力,特别适合于语音识别中的分类问题[7]。传统的语音识别方法有矢量量化、模板匹配等,它们是用逻辑推理和数学运算对语音进行规整、分类与识别。但人的听觉建立在感觉细胞相互作用的基础上,只有根据人的生理特征,模仿神经细胞的功能,才能克服传统方法的不足,于是就出现了人工神经网络方法[8]。特别是人工神经网络与其它一些传统的语音识别方法相结合派生出来的混合型神经网络语音识别系统有广阔的发展前景。

人工神经网络本质上是一种更为接近人的认识过程的计算模型,它模仿生物神经系统中大量简单处理单元—神经元的并行处理。它具有并行分布处理、容错性、自组织和自学习能力等一系列优越性,将人工神经网络用于语音识别主要利用了它的分类、聚类能力和非线性变换能力。

通常人工神经网络是针对静态模式而设计的,语音信号是一个时变信号,而且它的时变特性也是语音理解的一个重要特征,所以将人工神经网络用于语音识别时需要对其作一些必要的修正,使它具备反映输入语音信号时变特性的能力[9][10][11]。另外,人工神经网络还要有足够的容量用于记忆各类语音模式和提供足够的容错能力,能自学习以适应不同的发音人[12]。

3HM M/ANN混合型语音识别

针对HM M模型用于语音识别的不足,人们结合人工神经网络模型解决了这一问题。人工神经网络具有对输入信号进行非线性变换的能力,只要网络有足够的规模,它的输出可以实时逼近任何一种函数[13]。因此可以用人工神经网络来计算HM M的模型参数[14]。人工神经网络与HM M一起构成混合型语音识别系统是一种极有前途的语音识别方法。

HM M/ANN混合型语音识别系统具有以下优点:HM M的模型参数由ANN求得,不必象标准HM M模型那样对信号作很多不切实际的假定;ANN求出的模型参数是与实际输入信号有关的,它包括了语音信号的时变特征;用ANN计算语音的模型参数,可以选用合适的最佳准则,使它所求得的模型参数与本类语音建立最佳匹配关系,同时与非本类语音距离最大;可以进行自学习,用于非特定人语音识别。

4语音识别与混沌

54近年来,非线性理论得到了进一步的发展,产生了诸如混沌、分形等理论分支。混沌、分形理论近来越来越受到重视,同样混沌、分形理论在语音识别中也得到应用。

空气动力学表明语音信号的产生即非一个确定性过程,地非纯随机过程,而一个复杂的非线性过程

[15]。语音是由混沌的自然音素组成的,其中存在着混沌机制。语音信号会在声道边界层产生涡流,并最终形成湍流,而湍流本身已经证明就是一种混沌。并且辅音信号的混沌程度大于元音信号的混沌程度,因为发辅音信号的送气强度及其声道壁的摩擦程度顽抗比元音信号要强。这一结果使人们将混沌理论引入语音信号分析[16][17]。

将混沌引入语音处理目前主要有两种方向。一种方向是引入混沌神经网络的方法[18][19],这是因为人们通过对生物脑细胞的观察发现某些生物脑细胞工作于混沌状态,正是以这一观察结果为依据才提出了混沌神经网络这一模型用于语音识别。混沌神经网络是由混沌神经元以一定的拓扑结构相互连接而成的。将混沌神经元引入常规神经网络可以改进网络性能,使它更好地模仿人的感觉特性。

另一种方向是将分形理论引入语音处理。分形是描述混沌信号的一种手段[20],这是因为人们在试图了解确定混沌状态下的涡流特性时,发现混沌动力学系统可以被建模成分形吸引子。在某种程度上,涡流的一些几何特征是分形,包括涡流点的形成、一些类型涡流的边界、涡流种粒子的路径路线。现已证明语音气流的一些机制可以被视为混沌,所以语音信号中的各种程度的涡流结构特征可以通过分形建模作为数学和计算工具来对语音进行定量分析。

5分形在语音识别中的应用

近来将形理论用于改善语音识别技术越来越受到重视,主要的原因是语音是一种混沌的自然现象,而分形可以有效地为自然现象中的混沌建模,那么分形应该是一个为语音建模的理想方法。

分形的度量是分形维数,分形从测度的角度将维数从整数扩大到分数,突破了一般拓扑集维数为整数界限。分形中维数一般为分数。分形维数是经典欧几里德几何维数的拓广[21]。

在各种分形特征中,语音信号的分形维数是一种主要的选择参数,因为它能定量表示语音波形的混乱程度。语音波形可以被视为二维开曲线,它的轮廓具有分形特性,在一定的限制条件下,不同的音素的波形具有不同的不规则性,分形维数即是代表不同音素波形不规则性的测度。人们发现短时语音的分形维数在语音分割和声音分类中是非常有用的特征参数。

分形维数可以作为语音分割的一种手段[22]。在这种算法中,我们将沿着语音波形(s p eechw ave[K],k =

0,1,2,3…

)用一个规则大小的窗(大小为w indowsize )进行分割,对每个窗内的语音波形求分形维数。窗的大小选择要适当,太小将不能完全地考虑到语音信号的分形特征,太大将由于语音波形中的界限混合难以进行语音分割。窗的步进大小也要适当,如果窗的步进很小将导致过多的计算,如果窗的步进太大将导致失去临界信息。

在一个窗内,依次将窗均匀分割成r 段,r =1/δi =2i ,i =1,2,3,…,n ,在窗被分割成r 段中的第j 段(语音波形域s p eech[1-k]是从s p eechw ave[k]到s p eechw ave[1]),有(M δi (F ))j =m ax (s p eech[l ~K])-m in

(s p eech[L ~K]),则M δi (F )=,再由拟合n 个点,求得的斜率即为分形维数D 。具体是f ratal (s p eechwav e [p oint ])=n *

∑n (lnM

δi (F )*ln (2i ))-

∑n n (2i )*∑n

lnM δi (F )n *

∑n i =1(ln2i *ln2i )-∑n i =1ln2i *∑n i =1

ln2i 语音的特性决定了每一个音素展现其固有模式,使得相邻音素之间的分形维数值不同。在一段发音

董远等:语音识别的非线性方法

j 6(M δi (F ))j ln M δi (F )ln (1/δi )

D =lim δi →0,i =1,2,3,…,n ,

55

图1

董远等:

语音识别的非线性方法

56中,无声时由于其含有不相关噪声而呈现高分形维数值,而发音时由于其中存在高相关性语音波形而使语音波形呈现低分形维数值,由此即可确定出一段发音的起始与结束。在这一段发音中,辅音噪声似的特性因而比波形更规则的元音有更高的分形维数;元音与辅音相比,分形维数较低,且分形维数的轨迹波动较小,这也给辅音与元音之间的分割提供了可能。同样,由于任一个辅音音素的分形维数值的不同,我们也可以用分形维数值进行辅音与辅音之间的分割。这种通过求取语音波形的分形维数轨迹对在噪声中的发音进行边界与分割的方法在性能上优于其它任何基于能量的边界检测与分割技术。这种方法可把人的发音分割成句子、词、甚至音素。

图1(a )是“我们”两个发音的语音波形,(b )是相应的分形维数轨迹。(C )是“发[fa :]”的语音波形,(d )是相应的分形维数轨迹。实验中,我们取8比特量化,采样率11025HZ 。

从图1(b )可以清楚地看到,分形维数轨迹在词与词的边界处存在拐点,从而很容易地完成词与词之间地分割;从图1(d )可以看到,对于发音“发([f ][a :])”,由于辅音[f ]与元音[a :]的波形不规则性不同,使对不规则性的测度一分形维数值发生明显的变化,从而可以完成元音与辅音之间的分割。

通过利用分形维数值进行语音边界分割后,再结合LPC 、共振峰跟踪技术及ANN/HM M 等其它一些技术进行语音识别,会得到更好的结果.

另外,分形维数也可以作为一种重要的语音识别特征参数。聚类分析是语音识别中一种常用的方法。通过建各种语音模型来获得用于聚类分析的参数。这些参数包括有线性预测编码(LPC )的系数、倒谱系数、共振峰值,这些都是被广泛应用的参数。为了改进现有的语音模型进行语音识别,人们开始对基于分形建模进行语音识别进行了研究。实验证明,不同的发音人语音波形的分形维数值不同,女性的语音波形的分形维数值大于男性。不同音节的语音波形的分形维数值有不同的取值范围,大致按下列顺序递减:擦音、塞擦音、塞音、元单、浊辅音。有人通过2秒中的持续发音,算得语音波形的分形维数值的近似值为,海豚约为1.90,人的耳语1.49,猫约为1.74,生气的猫1.78,所以语音波形的分形维数值可作为语音识别的一个重要辅助特征[23][24]。

除了分形维数以外,分形理论还提供另外一些参数可用来用于语音识别,即迭代函数系统(IFS -iter 2ated function s y stem )

[25]。设一段短时语音f i (x ,y ),那么存在一组参数a i ,b i ,c i ,d i ,e i ,f i ,使得f i (x ,y )=a i

b i

c i

d i x

y +e i

f i ,由a i ,b i ,c i ,d i ,e i ,f i ,确定的该函数即是迭代函数,这一函数的吸引子即是短时语音

f i (X ,y ),也就是迭代函数的各参数将不断调整迭代函数所确定的波形无限接近短时语音f i (x ,y )。那么迭代函数系统的参数a i ,b i ,c i ,d i ,e i ,f i 即可用来作为聚类分析的参数。为了进行有效的聚类分析,有人用迭代函数系统中的最能反映IFS 中各参数特征的协方差矩阵的本征值作为聚类用的参数。

分形维数与迭代函数系统也可以结合进行语音识别。即采用两级聚类分析,首先用分形维数值进行聚类,然后在用分形维数值聚类不能有效识别的类中进行第二次用IFS 中各参数的协方差矩阵的本征值作为特征参数的聚类。实验证明,这种基于分形理论提取特征参数进行聚类分析的语音识别方法是非常有效的。

另外,我们在这里再介绍一下非常有前途的分形在语音编码中的应用[17]。分形可以用来对语音波形进行插值,以保证在不增加带宽的情况下增加采样率,即通过预先给定的分形维数来合成分形函数对原始低比特语音数据进行插值来达到增加语音采样率的目的,语音插值对保证带宽不增加的情况下进行语音编码是很重要的。我们知道限制带宽的插值,由于要保证原始带宽而不能重建一些高频率结构,但分形插值只需保证信号的分形维数就可以重建部分高频率结构。将这种分形插值方法用于浊音和元音,可以观察到原始的高频率信号和插值后的低比特率语音信号有很好的一致性和波形相似性。

董远等:语音识别的非线性方法

57

董远等:语音识别的非线性方法

6结论

由于语音的非线性特性,使得诸如混沌理论、分形理论、人工神经网络、HM M等非线性理论在语音信号处理中是非常有效的,因为它克服了传统的线性分析方法的不足,但语音识别的非线性方法不能完全取代线性分析方法,将线性方法与非线性方法相结合,才将是语音识别的发展方向。

参考文献

[1]M or g an N.Bouland H,An introduction to the h y brid HM M connectist a pp roach,IEEE S i g nal p rocassin g M a g azine,V ol.12,N o.3,

pp.25-42,M a y1995

[2]Peinado A.M.S e g ura https://www.360docs.net/doc/8018025832.html,e of multi p le vector q uantisation for sem icontinuous-HM M s p eech reco g nition,IEE Proceedin g s-V ision,

Im a g e and S i g nal Processin g,V ol.141,N o.6,pp391-6,Dec1994

[3]Renal A.S.M or g an,C onnectionist p robabilit y estim ators in HM M s p eech reco g nition,IEEE T rans.on Acoustics S p eech and S i g nal p ro

cessin g,V ol.42,N o.2,pp.161-174,1994

[4]Reichl W.Ruske G.A h y an On,On estim atin g robust p robabilit y distribution in HM M-based s p eech reco g nition,IEEE T ransactions on

S p eech and Audio-Processin g,V ol.3,N o.4,pp.279-85,Jul y1995

[5]Nam S oo K im,Chon g K uan On,On,estim atin g p robabilit y distribution in HM M-based s p eech reco g nition,IEEE T ransactions on S p eech

and Audio Processin g,V ol.3,N o.4,pp.279-85,Jul y1995

[6]Diaz J.E,S LHM M:a continuous s p eech reco g nition s y stem based on Al p hanet-HM M,ICASSP(Cat.N o.94CH3387-8),V ol.1,

pp.213-16,1994

[7]Bodenhausen U.H ild H.Autom atic construction of neural netw orks for s p ecial p ur p ose s p eech reco g nition s y stems,ICASSP(

Cat.N o.95CH35732),V ol.5,pp.3327-30,1995

[8]T an Lee,Chin g P.C.Recurrent neuarl natw orks for s p eech m odelin g and s p eech reco g nition,ICASSP(Cat.N o,95CH35732),V ol.5,

pp.3319-22,1995

[9]Re y es-G arcia C.A.Bandler W.T he use of tra p ezoidal function in a lin g uistic fuzz y relational neural nitw ork for s p eech reco g nition,

IEEE International conference on Netw orks.IEEE W orld C on g ress on C om p utational Intelli g ence(Cat.N o.94CH3429-8)V ol.7, pp.4479-82,1994

[10]Zhan g D.E lm asr y M.I.W indow structure and com p utaton of neural netw orks for s p eech reco g nition,IEEE International C onference on

Netw orks.IEEE W orld C on g ress on C om p utational Intelli g ence(Cat.N o.94CH3429-8)V ol.7,pp.44.4487-92,1994

[11]M iao Zhen j ian g,Y uan Baozon g,s p eech reco g nition b y extended loo p neural netw ork,International S y m p osium on S p eech,Im a g e Pro

cessin g and Neural Neural Netw orks Proceedin g s(Cat.N o.94T h06378-7)V ol.1,pp.335-8,1994

[12]Bourlard H.and M or g an N.CDNN:A conext de p endent neural netw ork for continous s p eech reco g nition,ICASSP,V ol.1,pp.349-352,

1992

[13]Ri g oll G.M ax imum mutual inform ation neural netw orks for h y brid connectionist-HM M s p eech reco g nition s y stem.IEEE T rans.on

S p eech and Audio p rocessin g.V ol.2,N o.2,pp.175-184,1994

[14]Y am a g uchi K.A neural netw ork controlled ada p tive search strate gy for HM M-based s p eech reco g nition,ICASSP at.N o.92CH3252-

4),V ol.2,pp.582-5,1993

[15]Shim oide K.Freem an W.J.M odelin g of chaotic d y nam ics in the biolo g ical s y stem and a pp lication to s p eech reco g nition,I JCNN

(Cat.N o.92CH3114-6),V ol.4pp.655-60,1992

[16]C.T hom p son,A.M ul p ur,and V.M ehta.T ransition to chaos in acousticall y driven flow(acoustic stream in g).J.Acoust.S oc.AM,

V ol.90,N o.7,pp.2097-2103,1991

[17]W ei G an g,Lu y i q in g,Chaos and fractal theories for s p eech si g nal p rocessin g,Acta E lectronica S inica,V ol.24,N o.1,pp.34-9,1996

[18]Jin K y un g R y eu,Nam W on H eoi,S p eech reco g nition usin g chaotic recurrent neural netw orks,ICONIP’95,V ol.1,pp.40-3,1995

[19]Jin K y un g R y eu,H o sun Chin g,Chaotic recurrent neural netw orks and their a pp lication to s p eech reco g nition,Neurocom p utin g,

V ol.13,N o.2,pp.281-7,1994

58

董远等:语音识别的非线性方法

[20]H.O.Peit g en,H.Jur g ens and D.Sau p e,Chaos and Fractals.New Y ork:S p rin g er-Verla g,pp.984,1992

[21]董远,胡光锐,分形理论应用(上下),数据采集与处理,V ol.10,N o.2-3,1997

[22]S enev irathne T.R.,Use of fractals for s p eech se g m entation and reco g nition,MEn g T hesis,Div ision of C om p uter S cience,A sian Institute

of T echnolo gy,Ban g kok,T hailand,pp.23-8,1991

[23]P ickouer C.,A.K horasani,Fractal Characterization of s p eech w aveform G ra p hs,C on p&G ra p hics,V ol10,N o.1,pp.55-61,1986

[24]韦岗,陆以勤,汉语语音时域波形的分特征,第二届全国人机语音通讯学术会议论文集,P.37-42,桂林,1992年2月

[25]Barnsle y M.F.,J.HE lton,D.P.H ardin.Recurrent iterated function s y stems,C onstructive A pp rox im ation,V ol.5,pp.3-31,1989

董远男,1970年3月出生,博士生,主要研究兴趣:语音识别,图象处理,模式识别,分形理论等。

胡光锐男,1938年生,博士生导师,上海市电路与系统研究会理事,信号处理学报编委,中国电子学会中国仪器仪表学会信号处理学会理事。主要研究兴趣:语音识别,信号处理,模式识别等。

语音识别系统实验报告材料

语音识别系统实验报告 专业班级:信息安全 学号: 姓名:

目录 一、设计任务及要求 (1) 二、语音识别的简单介绍 2.1语者识别的概念 (2) 2.2特征参数的提取 (3) 2.3用矢量量化聚类法生成码本 (3) 2.4VQ的说话人识别 (4) 三、算法程序分析 3.1函数关系 (4) 3.2代码说明 (5) 3.2.1函数mfcc (5) 3.2.2函数disteu (5) 3.2.3函数vqlbg (6)

3.2.4函数test (6) 3.2.5函数testDB (7) 3.2.6 函数train (8) 3.2.7函数melfb (8) 四、演示分析 (9) 五、心得体会 (11) 附:GUI程序代码 (12) 一、设计任务及要求 实现语音识别功能。 二、语音识别的简单介绍

基于VQ的说话人识别系统,矢量量化起着双重作用。在训练阶段,把每一个说话者所提取的特征参数进行分类,产生不同码字所组成的码本。在识别(匹配)阶段,我们用VQ方法计算平均失真测度(本系统在计算距离d时,采用欧氏距离测度),从而判断说话人是谁。 语音识别系统结构框图如图1所示。 图1 语音识别系统结构框图 2.1语者识别的概念 语者识别就是根据说话人的语音信号来判别说话人的身份。语音是人的自然属性之一,由于说话人发音器官的生理差异以及后天形成的行为差异,每个人的语音都带有强烈的个人色彩,这就使得通过分析语音信号来识别说话人成为可能。用语音来鉴别说话人的身份有着许多独特的优点,如语音是人的固有的特征,不会丢失或遗忘;语音信号的采集方便,系统设备成本低;利用电话网络还可实现远程客户服务等。因此,近几年来,说话人识别越来越多的受到人们的重视。与其他生物识别技术如指纹识别、手形识别等相比较,说话人识别不仅使用方便,而且属于非接触性,容易被用户接受,并且在已有的各种生物特征识别技术中,

语音识别流程分析

语音识别流程分析

摘要:语言识别是将人类自然语言的声音信号,通过计算机自动转换为与之相对应的文字符号的一门新兴技术,属于模式识别的一个分支。语音识别的结果可以通过屏幕显示出文字符号,也可以存储在文本文件中。语音识别技术能够把语音信息直接转换成文字信息,对于中文信息处理来说,无疑是一个最理想、最自然的汉字输入方式。本文首先分析了语音识别的原理,在此基础上进行语音识别的流程分析,主要内容有:提取语音、端点检测、特征值提取、训练数据、语音识别。选用HMM隐马尔科夫模型,基于VC2005编译环境下的的多线程编程,实现算法的并行运算,提升了语音识别的效率。实验结果表明:所设计的程序满足语音识别系统的基本要求。 关键词:语音识别预处理Mel倒谱系数HMM隐马尔科夫模式OpenMP编程 前言 语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。 广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别。说话人识别技术是以话

音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。 语音识别技术,也被称为自动语音Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列[1]。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。 语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。 语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 一、语音识别的原理 语音识别的基本原理是一个模式匹配的过程:先建立一个标准的模式存放在计算机中,然后把输入的语言信息进行分析处理,采集相关的信息建立目标语音模式,再将目标语音模式与机内标准模式相匹配,找到最近的模式最为识别结果输出。语音识别本质上是一种模式

语音识别方法及发展趋势分析

语音识别改进方法及难点分析 ——《模式识别》结课小论文 学院:化工与环境学院 学号:2120151177 姓名:杜妮

摘要:随着计算机技术的不断发展,人工智能程度也越来越高,作为人工智能的一部分——模式识别也在模型和算法上愈发成熟。本文根据近105年文献,分析最新声音识别的方法和应用。 关键字:模式识别声音识别方法应用 随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。人们致力于能使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。语音识别的研究发展将在不远的将来极大地方便人们的生活。 语音识别大致的流程包括:特征提取、声学模型训练、语音模型训练以及识别搜索算法。作为一项人机交互的关键技术,语音识别在过去的几十年里取得了飞速的发展,人们在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造,以期发现更好的方法来完成语音识别流程中的各步骤,以此来促进在不同环境下语音识别的效率和准确率。本文通过查阅近10年国内外文献,分析目前语音识别流程中的技术进展和趋势,并在文章最后给出几项语音识别在日常生活中的应用案例,从而分析语音识别之后的市场走势和实际利用价值。 一、语音识别的改进方法 (一)特征提取模块改进 特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量。语音信号的特征分析是语音信号处理的前提和基础,只有分析出可以代表语音信号本质特征的参数,才能对这些参数进行高效的语音通信,语音合成,和语音识别等处理,并且语音合成的好坏,语音识别率的高低,也都取决于语音特征提取的准确性和鲁棒性。目前,针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟,已经能够满足通常应用的要求,并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是

讯飞麦克风阵列声学测试方法

讯飞麦克风阵列声学测试 方法 This model paper was revised by the Standardization Office on December 10, 2020

讯飞麦克风阵列声学测试方法 测试准备 环境: 混响环境(模拟家庭客厅环境) 器材: 两个高保真音箱:1个用于播放语音,1个用于播放噪声; 音响支架2个:1个用于放置语音播放设备,1个用于放置噪音播放设备; 笔记本电脑2个:1个用于播放语音信号和噪声信号,1个用于抓取日志或录音; 分贝仪1个:用于噪声、语音信号强度测试,计算信噪比等; 卷尺1个:用于测试与设备的距离; 语料: 唤醒语料:用于测试唤醒率; 命令词语料:用于语音识别,测试识别率; 本机功放播放音频:回声消除测试使用; 家庭环境噪声音频:可播放中央台新闻节目,约30分钟; 硬件:

讯飞demo板1个 裸板1个 整机1个 软件: IPTV主板软件: 可抓日志,准备至少两个串口线。 可录音,可录15分钟以上。准备两个U盘。 可手动打开/关闭唤醒模式。可手动设置波束。 核心板固件:准备烧录工具。 唤醒词:跟唤醒词音频一致。 测试环境搭建 麦克风阵列测试示意图如下:

在安静环境下,放置阵列位于待测区域中间位置,唤醒源位于距阵列1m 处,噪声源位于距阵列处,唤醒源和阵列在一条直线上。 通过高保真音箱播放语料,通过分贝仪在阵列处测试信噪比,要求噪声源、唤醒源在阵列处的响度均为55dB 。安静环境下和噪声环境下分别测试唤醒率和识别率。 调整唤醒源的位置,距阵列的距离分别为3m 和5m 。要求唤醒源在阵列处的响度仍为55dB 。安静环境下和噪声环境下分别进行唤醒率和识别率测试。 测试说明: 测试环境因素影响非常大,唤醒源的位置角度调一调,响度校正时测试值的波动也很大。每次测试都要有对比物,只有同一时间同一环境对比测试的结果才有意义。 一、声学效果测试 1 分别对音箱6麦克整机与音箱裸麦、音箱裸麦与评估板裸麦进行唤醒、声源定位测试 测试步骤: 唤醒源 待测区域 麦克风阵

HTK(V3.1)基础指南中文版

HTK(V3.1)基础指南(原文:HTK(v.3.1):Basic Tutorial) Nicolas Moreau/02.02.2002 陶阳译 taoyangxp@https://www.360docs.net/doc/8018025832.html, 江西.南昌 2009.6.1

目录 0HTK简介 (1) 1Yes/No识别系统 (1) 1.1搭建步骤 (1) 1.2工作环境构建 (1) 1.3标准HTK工具选项 (1) 2创建训练集 (1) 2.1录音 (2) 2.2标注信号 (2) 2.3文件重命名 (2) 3声学分析 (2) 3.1配置参数 (3) 3.2源/目标规范 (3) 4HMM定义 (4) 5HMM训练 (6) 5.1初始化 (6) 5.2训练 (8) 6任务定义 (8) 6.1语法和字典 (8) 6.2网络 (9) 7识别 (10) 8性能测试 (12) 8.1主标签文件 (12) 8.2错误率 (13)

0HTK简介 HTK是指隐马尔可夫模型工具箱(Hidden Markov Model Toolkit),由剑桥大学工程系(CUED)研发而成。该工具箱的目的是搭建使用隐马尔可夫模型(HMMs)。HTK主要 用于语音识别研究(但是HMMs应用范围很广,还有很多其它可能的应用…) HTK由一系列库模块构成,包括C语言形式的可用工具,可自由下载,包括一个完整的文档说明(大约300页),见https://www.360docs.net/doc/8018025832.html,/。 1Yes/No识别系统 本指南中,我们将基于HTK工具集建立一个2-单词识别系统,词汇集是{Yes,No}。 这是可以设计出来的最基本的自动语音识别(ASR)系统。 1.1搭建步骤 构建语音识别系统的主要步骤如下: (1)训练库的创建:词汇集中的每个元素进行多次录制,且与相应词汇做好标签; (2)声学分析:训练波形数据转换为一系列系数向量; (3)模型定义:为总词汇集中的每个元素定义一个HMM原型; (4)模型训练:使用训练数据对每个HMM模型进行初始化、训练; (5)任务定义:识别系统的语法(什么可被识别)的定义; (6)未知输入信号识别; (7)评估:识别系统的性能可通过测试数据进行评估。 1.2工作环境构建 建议创建如下的目录结构: (1)data/:存储训练和测试数据(语音信号、标签等等),包括2个子目录,data/train/ Array和data/test/,用来区分识别系统的训练数据和评估数据; (2)analysis/:存储声学分析步骤的文件; 建立以下目录 (3)training/:存储初始化和训练步骤的相关文件; (4)model/:存储识别系统的模型(HMMs)的相关文件; (5)def/:存储任务定义的相关文件; (6)test/:存储测试相关文件。 1.3标准HTK工具选项 一些标准选项对每个HTK工具都是通用的。我们将使用以下一些选项: (1)-A:显示命令行参数; (2)-D:显示配置设置; (3)-T1:显示算法动作的相关信息。 完整的选项列表请参见:HTK文档,第50页(第四章操作环境)。 2 创建训练集Array 图1录制标签训练数据 首先,我们录制Yes和No两个语音信号,作为要训练的单词模型(训练集)。 然后为每个语音信号打上标签,也就是说,关联一个文本来描述语音内容。录制和打标签,

语音识别为文字Google微软科大讯飞的语音识别引擎对

语音识别为文字:Google,微软,科大讯飞的语音识别引擎对比 学习路线:https://https://www.360docs.net/doc/8018025832.html,/qq_36330643/article/details/80077771 使用外部知识库——tf-idf,还可以加上词语出现的位置进行权重增幅。(推荐) 不使用外部知识库——主要根据文本本身的特征去提取:比如在文本中反复出现且 关键词附近出现关键词的概率非常大,因此就有了TextRank算法。(实现包括FudanNLP和SnowNLP)。类似于PageRank算法;ICTCLAS则是从另外一个思路出发,即一个词如果是关键词那么它反复出现并且左右出现不同的词语的概率非常高。即左右熵比较高。 关键词抽取也可以分为两种: 1.仅仅把词语抽取出来,实现较简单,比如:FundanNLP、jieba、BosonNLP、SnowNLP。 2.连词和短语一起抽取出来,这个还需要增加短语抽取这一步骤,实现如:ICTCLAS、ansj_seg等,可以把类似于“智能手机”、“全面深化改革”、“非公有制经济”这些短语抽取出来。(对于聚类或者分类来说,很明显短语比词语更有价值) 词性标注:(Part-of-speech Tagging, POS)是给句子中每个词一个词性类别的任务。这里的词性类别可能是名词、动词、形容词或其他。python jieba库在执行cut函数之后,完成了分词并进行了词性标注任务。 语义角色标注(Semantic Role Labeling, SRL) 是一种浅层的语义分析技术,标注句子中某些短语为给定谓词的论元(语义角色) ,如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。

语音识别技术论文

摘要:语音识别技术是一门涉及面很广的交叉学科。随着新理论的提出和应用,语音识别技术取得了很大的进步,许多产品已经得以实际的应用,但在其进一步的发展进程中,还有许多棘手的问题有待解决。 关键词:语音识别;动态时间规整算法;人工神经元网络 1 背景介绍 语言是人类特有的功能,是人们思维最重要的寄托体,是人类交流最主要的途径。语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。语言和语音与人类 社会科学文化发展紧密相连。 语音识别技术是让机器接收,识别和理解语音信号,并将其转换成相应的数字信号的 技术。它是一门交叉学科,涉及到语音语言学、数理统计、计算机、信号处理等一系列学科。 2 发展历史 1952年贝尔实验室的Davis等人研制成功了能识别十个英文数字发音的Audry系统,标志着语音识别技术研究工作开始。20世纪60年代计提出了动态规划(Dynamic programming)和线性预测分析技术(Liner Predictive)等重要成果。20世纪70年代,语音识别领域取得了突破。实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别 系统。20世纪80年代语音识别研究进一步走向深入, 基于特定人孤立语音技术的系统研 制成功, 隐马尔可夫模型和人工神经元网络(Artificial Neural Network)在语音识别中的成 功应用。进入20世纪90年代后语音识别系统开始从实验室走向实用。我国对语音识别的研究开始于20世纪80年代,近年来发展迅速,并取得了一系列的成果。 3 具体应用 随着计算机技术、模式识别等技术的发展,适应不同场合的语音识别系统相继被开发 出来,语音识别及处理技术已经越来越突现出其强大的技术优势。近三十年来,语音识别 在计算机、信息处理、通信与电子系统、自动控制等领域的应用越来越广泛。 在许多政府部门、商业机构,语音识别技术的应用,可免除大量操作人员的重复劳动,既经济又方便。如:语音邮件、IP电话和IP传真、电子商务、自动语音应答系统、自动 语音信箱、基于IP的语音、数据、视频的CTI系统、综合语音、数据服务系统、自然语音识别系统、专家咨询信息服务系统、寻呼服务、故障服务、秘书服务、多媒体综合信息服务、专业特别服务号(168自动信息服务系统,112、114、119等信息查询系统)等。许多特定环境下,如工业控制方面,在一些工作环境恶劣、对人身有伤害的地方(如地下、深水及辐射、高温等)或手工难以操作的地方,均可通过语音发出相应的控制命令,让设备完成各种工作。

微软Speech SDK 5.1开发语音识别系统主要步骤

微软语音识别分两种模式:文本识别模式和命令识别模式.此两种模式的主要区别,主要在于识别过程中使用的匹配字典不同.前者使用的是通用字典,特点是内容多,覆盖的词汇量大,字典由sdk提供.适用于没有预定目标的随机听写之类的应用.同时因为词汇量大直接导致识别的精度降低,识别速度较慢.后者的字典需要开发者自己编写,就是你们所说的xml文件.xml 文件作为一种数据存储的方式,有一定的格式,定义了sdk需要确定的一些标签,和用以匹配的词汇.这种方式由开发者定义词汇的数量,大大降低匹配过程中需要检索的词汇量,提高了识别速度.同时因为侯选项极少,所以一般不会识别错误.其缺点也是明显的:词汇量小,只有预先输入字典的词汇可以被识别出来,所以一般用来作为常用命令的识别,方便用户操作,代替菜单命令等. 利用微软Speech SDK 5.1在MFC中进行语音识别开发时的主要步骤,以Speech API 5.1+VC6为例: 1、初始化COM端口 一般在CWinApp的子类中,调用CoInitializeEx函数进行COM初始化,代码如下: ::CoInitializeEx(NULL,COINIT_APARTMENTTHREADED); // 初始化COM 注意:调用这个函数时,要在工程设置(project settings)->C/C++标签,Category中选Preprocessor,在Preprocessor definitions:下的文本框中加上“,_WIN32_DCOM”。否则编译不能通过。 2、创建识别引擎 微软Speech SDK 5.1 支持两种模式的:共享(Share)和独享(InProc)。一般情况下可以使用共享型,大的服务型程序使用InProc。如下: hr = m_cpRecognizer.CoCreateInstance(CLSID_SpSharedRecognizer);//Share hr = m_cpRecognizer.CoCreateInstance(CLSID_SpInprocRecognizer);//InProc 如果是Share型,可直接进到步骤3;如果是InProc型,必须使用ISpRecognizer::SetInput 设置语音输入。如下: CComPtr cpAudioToken; //定义一个token hr = SpGetDefaultTokenFromCategoryId(SPCAT_AUDIOIN, &cpAudioToken); //建立默认的音频输入对象 if (SUCCEEDED(hr)) { hr = m_cpRecognizer->SetInput(cpAudioT oken, TRUE);} 或者: CComPtr cpAudio; //定义一个音频对象 hr = SpCreateDefaultObjectFromCategoryId(SPCAT_AUDIOIN, &cpAudio);//建立默认的音频输入对象 hr = m_cpRecoEngine->SetInput(cpAudio, TRUE);//设置识别引擎输入源 3、创建识别上下文接口 调用ISpRecognizer::CreateRecoContext 创建识别上下文接口(ISpRecoContext),如下:hr = m_cpRecoEngine->CreateRecoContext( &m_cpRecoCtxt ); 4、设置识别消息 调用SetNotifyWindowMessage 告诉Windows哪个是我们的识别消息,需要进行处理。如下:

《语音识别入门教程》

语音识别入门(V1.0) 丁鹏、梁家恩、苏牧、孟猛、李鹏、王士进、王晓瑞、张世磊 中科院自动化所高创中心,北京,100080 【摘要】本文主要以剑桥工程学院(CUED)的语音识别系统为例,并结合我们实验室自身的研究与开发经验,讲述当前主流的大词汇量连续语音识别系统(LVCSR)的框架和相关技术,对实验室的同学进行一个普及和入门引导。 【关键词】语音识别,HTK,LVCSR,SRI 1. 引言 语音识别技术发展到今天,取得了巨大的进步,但也存在很多的问题。本文主要以CUED 的语言识别系统为例,说明LVCSR系统技术的最新进展和研究方向,对实验室的同学进行一个普及和入门引导。 1.1 国际语音识别技术研究机构 (1)Cambridge University Engineering Department (CUED) (2)IBM (3)BBN (4)LIMSI (5)SRI (6)RWTH Aachen (7)AT&T (8)ATR (9)Carnegie Mellon University (CMU) (10)Johns Hopkins University (CLSP) 1.2 国际语音识别技术期刊 (1)Speech Communication (2)Computer Speech and Language (CSL) (3)IEEE Transactions on Speech and Audio Processing 1.3 国际语音识别技术会议 (1)ICASSP(International Conference on Acoustic, Speech and Signal Processing)每年一届,10月截稿,次年5月开会。 (2)ICSLP(International Conference on Spoken Language Processing) 偶数年举办,4月截稿,9月开会。

基于matlab的语音识别系统

机电信息工程学院专业综合课程设计 系:信息与通信工程 专业:通信工程 班级:081班 设计题目:基于matlab的语音识别系统 学生姓名: 指导教师: 完成日期:2011年12月27日

一.设计任务及要求 1.1设计任务 作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。以语音识别开发出的产品应用领域非常广泛,有声控电话交换、语音拨号系统、信息网络查询、家庭服务、宾馆服务、旅行社服务系统、订票系统、声控智能玩具、医疗服务、银行服务、股票查询服务、计算机控制、工业控制、语音通信系统、军事监听、信息检索、应急服务、翻译系统等,几乎深入到社会的每个行业、每个方面,其应用和经济社会效益前景非常广泛。本次任务设计一个简单的语音识别系。 1.2设计要求 要求:使用matlab软件编写语音识别程序 二.算法方案选择 2.1设计方案 语音识别属于模式识别范畴,它与人的认知过程一样,其过程分为训练和识别两个阶段。在训练阶段,语音识别系统对输入的语音信号进行学习。学习结束后,把学习内容组成语音模型库存储起来;在识别阶段,根据当前输入的待识别语音信号,在语音模型库中查找出相应的词义或语义。 语音识别系统与常规模式识别系统一样包括特征提取、模式匹配、模型库等3个基本单元,它的基本结构如图1所示。 图1 语音识别系统基本结构图 本次设计主要是基于HMM模型(隐马尔可夫模型)。这是在20世纪80年代引入语音识别领域的一种语音识别算法。该算法通过对大量语音数据进行数据统计,建立识别词条的统计模型,然后从待识别语音信号中提取特征,与这些模

型进行匹配,通过比较匹配分数以获得识别结果。通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中的各种突发情况。并且,HMM算法具有良好的识别性能和抗噪性能。 2.2方案框图 图2 HMM语音识别系统 2.3隐马尔可夫模型 HMM过程是一个双重随机过程:一重用于描述非平稳信号的短时平稳段的统计特征(信号的瞬态特征);另一重随机过程描述了每个短时平稳段如何转变到下一个短时平稳段,即短时统计特征的动态特性(隐含在观察序列中)。人的言语过程本质上也是一个双重随机过程,语音信号本身是一个可观测的时变列。可见,HMM合理地模仿了这一过程,是一种较为理想的语音信号模型。其初始状态概率向量π,状态转移概率矩阵向量A,以及概率输出向量B一起构成了HMM的3个特征参量。HMM 模型通常表示成λ={π,A,B}。 2.4HMM模型的三个基本问题 HMM模型的核心问题就是解决以下三个基本问题: (1)识别问题:在给定的观测序列O和模型λ=(A,B,π)的条件下,如何有效地计算λ产生观测序列O的条件概率P(O︱λ)最大。常用的算法是前后向算法,它可以使其计算量降低到N2T次运算。 (2)最佳状态链的确定:如何选择一个最佳状态序列Q=q1q2…qT,来解释观察序列O。常用的算法是Viterbi算法。 (3)模型参数优化问题:如何调整模型参数λ=(A,B,π),使P(O︱λ)最大:这是三个问题中最难的一个,因为没有解析法可用来求解最大似然模型,所以只能使用迭代法(如Baum-Welch)或使用最佳梯度法。 第一个问题是评估问题,即已知模型λ=(A,B,π)和一个观测序列O,如何计算由该模型λ产生出该观测序列O的概率,问题1的求解能够选择出与给定的观测序列最匹配的HMM模型。 第二个问题力图揭露模型中隐藏着的部分,即找出“正确的”状态序列,这是一个典型的估计问题。

语音识别的非线性方法

52国家自然科学基金资助项目.收文日期:1997年6月12日(June 12,1997) ΞV ol.3N o.1M arch 1998 电路与系统学报JOURNAL OF CIRCUIT S AND S Y S TEMS 第3卷第1期 1998年3月Ξ 语音识别的非线性方法董远胡光锐 (上海交通大学电子工程系,上海,200030) 【摘要】语音信号是一个复杂的非线性过程,这使得基于线性系统理论发展起来的传统语音识别技术性能难以进一步提高。近年来人们开始逐渐重视非线性理论在语音识别技术中的应用。本文概括地介绍了非线性理论在语音识别技术中的所取得的成果和发展方向,除了涉及较为流行的隐马尔柯夫过程和人工神经网络在语音识别中的应用外,文中着重论述了近年来发展迅猛的混沌、分形理论在语音识别中的应用,本文最后还提到了不可忽视的分形理论在语音编码中的应用。 【关键词】语音识别,隐马尔柯夫过程,人工神经网络,混沌,分形,迭代函数系统,语音编码 Non 2linear Methods for S p eech Reco g nition D on g Y uan Hu G uan g rui (De p t.of E lectronic En g ineerin g ,Shan g hai Jiaoton g Universit y ,Shan g hai ,200030) Abstract :S p eech si g nal is traditionall y treated as a linear p rocess.H ow ever ,it is indicated b y extensive research that the s p eech si g nals are actuall y com p licated non 2linear p rocesses.T o im p rove the reco g nition rate ,recent research ef 2fort has started to m i g rate to anal y ze s p eech si g nal usin g non 2linear theor y .T his article summ arizes the new develo p m ent in this area.Besides HM M and ANN ,which have been w idel y used b y m an y authors ,this p a p er introduces in p articular a series of fast g row in g non 2linear such as chaotic and fractal theories and their a pp lications in s p eech reco g nition and codin g . K e y w ords :s p eech reco g nition ,HM M ,ANN ,chaos ,fractal ,IFS ,s p eech codin g 引言 语音识别技术自本世纪五十年代起步发展至今已四十多年,取得了很大的进步,语音识别的研究愈来愈受到人们的重视。 语音信号处理分别基于确定性线性系统理论和不确定性非线性系统理论。80年代的子词单元、多级识别、多模板和聚类技术、连续语音匹配技术等语音识别方法都是基于线性系统理论。经研究表明,语音信号是一个复杂的非线性过程,这使得基于线性系统理论发展起来的传统语音识别技术性能难以进一步提高。近年来发展起来并逐渐完善的非线性科学为语音识别技术的发展带来了新的生机。 1语音识别与隐马尔柯夫过程(HM M ) 在传统的线性理论难以使得语音识别技术进一步提高时,随着对隐马尔柯夫模型(HM M )的重新认识和广泛应用,掀起了语音识别研究的一个热潮[1]。 语音信号是短时平衡的随机信号,在足够小时音段上语音信号的特性近似稳定,就整个语音序列而言,它可以看成是依次从相对稳定的某一状态过渡到另一状态。尽管如此,语音信号序列用一个按预定顺序排列的状态转移过程来描述是不够充分的,因为不同发音人、不同的发音环境、不同的发音时间发

语音识别系统实验报告

v1.0 可编辑可修改 语音识别系统实验报告 专业班级:信息安全 学号: 姓名:

目录 一、设计任务及要求 (1) 二、语音识别的简单介绍 语者识别的概念 (2) 特征参数的提取 (3) 用矢量量化聚类法生成码本 (3) 的说话人识别 (4) 三、算法程序分析 函数关系 (4)

代码说明 (5) 函数mfcc (5) 函数disteu (5) 函数vqlbg (6) 函数test (6) 函数testDB (7) 函数train (8) 函数melfb (8) 四、演示分析 (9) 五、心得体会 (11) 附:GUI程序代码 (12)

一、设计任务及要求 实现语音识别功能。 二、语音识别的简单介绍 基于VQ的说话人识别系统,矢量量化起着双重作用。在训练阶段,把每一个说话者所提取的特征参数进行分类,产生不同码字所组成的码本。在识别(匹配)阶段,我们用VQ方法计算平均失真测度(本系统在计算距离d时,采用欧氏距离测度),从而判断说话人是谁。 语音识别系统结构框图如图1所示。

图1 语音识别系统结构框图 语者识别的概念 语者识别就是根据说话人的语音信号来判别说话人的身份。语音是人的自然属性之一,由于说话人发音器官的生理差异以及后天形成的行为差异,每个人的语音都带有强烈的个人色彩,这就使得通过分析语音信号来识别说话人成为可能。用语音来鉴别说话人的身份有着许多独特的优点,如语音是人的固有的特征,不会丢失或遗忘;语音信号的采集方便,系统设备成本低;利用电话网络还可实现远程客户服务等。因此,近几年来,说话人识别越来越多的受到人们的重视。与其他生物识别技术如指纹识别、手形识别等相比较,说话人识别不仅使用方便,而且属于非接触性,容易被用户接受,并且在已有的各种生物特征识别技术中,是唯一可以用作远程验证的识别技术。因此,说话人识别的应用前景非常广泛:今天,说话人识别技术已经关系到多学科的研究领域,不同领域中的进步都对说话人识别的发展做出了贡献。说话人识别技术是集声学、语言学、计算机、信息处理和人工智能等诸多领域的一项综合技术,应用需求将十分广阔。在吃力语音信号的时候如何提取信号中关键的成分尤为重要。语音信号的特征参数的好坏直接导致了辨别的准确性。 特征参数的提取 对于特征参数的选取,我们使用mfcc的方法来提取。MFCC参数是基于人的听觉特性利用人听觉的屏蔽效应,在Mel标度频率域提取出来的倒谱特征参数。 MFCC参数的提取过程如下: 1. 对输入的语音信号进行分帧、加窗,然后作离散傅立叶变换,获得频谱分布信息。 设语音信号的DFT为:

Win7语音识别功能 让Win7“听话”

Win7语音识别功能让Win7“听话” 经常你会看到现在很多人开始使用手机的语音功能来交流,而不是传统上的电话,比如苹果iPhone 里的siri,或者是语音QQ、语音输入等,你想要执行什么命令,比如打开一个网页,打开一个程序等,都可以通过语音去执行,而无需手动去查找。在计算机上这个功能也一样存在,我们可以暂时抛开键盘的束缚,跟计算机直接对话交流,从而实现程序的执行,比如播放影音,打开网页,文字输入,这一切并不是科幻,在Win7系统里就有这样一个功能——语音识别,所以,今天我们来一起探寻Win7语音识别的神奇。 开启语音识别功能 当然要使用语音识别功能,你先得把麦克风正确接入计算机,离开了麦克风,计算机可就没有了“耳朵”,无法听到你说的话了。其次,需要启动Windows7的语音识别功能(开始-> 控制面板->语音识别)。进入语音识别项目后,可以看到有5大选项,我们选择“启动语音识别”这一选项。 ▲在控制面板中打开语音识别 首次使用语音识别功能,Win7将引导用户进行语音识别设置,询问用户使用何种麦克风、指导用户如何正确使用麦克风、测试麦克风是否正常、选择语音识别的激活方式等。在最后还有一个打印语音参考卡片的选项,用户可以选择打印或在电脑上直接查看可以使用的

语音命令。 ▲选择麦克风类型

▲测试一下你的麦克风

▲在帮助文档里可以查看语音命令的规则 目前的计算机还没达到真正的人工智能水平,所以想要命令它做事,就得记得用一系列规定的命令,只有命令准确,它才会正确执行,所以建议用户先仔细查看相关的操作命令,再耐心的花一些时间来学习教程。 语音识别的练习 这个引导式的教程很详细,可以让用户在短时间内学会语音识别的基本规则。 ▲ 语音识别教程 正确命令的重要性?请看看这个笑话会让你印象深刻的: “有个人发了笔财,就想买匹马,卖马的人就给他找了一匹合乎他要求的马,并介绍说这马跑起来飞快,又听话,你要是想让它跑就说一声…感谢上帝?,要是想让它停就说一声…阿门?就可以了。那个人听了很高兴,就当场买下了这匹马。 然后就骑上它,说了声…感谢上帝?,那马就真的飞奔了起来,快得把那个人吓得魂不附体,后来它竟然向一个悬崖跑去,那人急了,拼命地拉缰绳也拉不住。 在最后的时刻,他忽然想起了卖马人告诉他的话,就说了句…阿门?,那马就立刻停在了悬崖的边上,那人这才松了口气,他手抚着自己激烈跳动的心脏,觉得自己的一颗心终于掉回了肚里,就说了声---…感谢上帝?!”

语音识别方法

语音识别方法 语音特征提取 将语音信号转换为特征向量,通过这些向量来进行语音相关任务的训练与识别。 语音识别对特征参数有如下要求: 1. 能将语音信号转换为计算机能够处理的语音特征向量; 2. 能够符合或类似人耳的听觉感知特性; 3. 在一定程度上能够增强语音信号、抑制非语音信号; 常用特征提取方法有如下几种: ●LPC ●声谱图 ●倒谱分析 ●MFCC (最常用) 声谱图 将一段连续的语音信号通过分帧、FFT、灰度映射转换为离散、低维的特征向量,框架图如下:

声谱图表示法流程 基本流程如下: (1)将一段语音做分帧处理,即将其剪切为一段段语音片段(20~50ms之间); (2)将每一帧的语音信号通过短时傅里叶变换(FFT)转为频域信号,得到每一帧的频 谱图,如下图所示,横轴为频率、纵轴为当前频率对饮的能量值。在实际使用中,频谱图有 三种,即线性振幅谱、对数振幅谱、自功率谱(对数振幅谱中各谱线的振幅都作了对数计算,所以其纵坐标的单位是dB(分贝)。这个变换的目的是使那些振幅较低的成分相对高振幅成分得以拉高,以便观察掩盖在低幅噪声中的周期信号);

语音频谱图 (3)将每一帧的频谱值映射为灰度图,灰度的深浅就代表了该频率段能量的大小,很黑的地方就是频谱图中的峰值(共振峰formants)。 倒谱分析 倒谱就是一种信号的傅里叶变换经对数运算后再进行傅里叶反变换得到的谱。倒谱分析 的目标是:从语音频谱中得到它的频谱包络(连接所有共振峰值点的平滑曲线),它在语音识别中被广泛用于描述特征。主要流程如下: 1.将原语音信号经过傅里叶变换得到频谱:X[k]=H[k]E[k],只考虑幅度就是:|X[k] |=|H[k]||E[k] |; 2.我们在两边取对数:log||X[k] ||= log ||H[k] ||+ log ||E[k] ||; 3.再在两边取逆傅里叶变换得到:x[k]=h[k]+e[k]。 下面是一个语音的频谱图。峰值就表示语音的主要频率成分,把这些峰值称为共振峰(formants),而共振峰就是携带了声音的辨识属性,用它就可以识别不同的声音。因此,需要把它提取出来。提取的不仅是共振峰的位置,还得提取它们转变的过程。所以我们提取

六年级信息技术《语音识别》教学设计

月日第周星期总第课时 第26课语音识别 【教材分析】 本课是人工智能模块的最后一课。本课是一个实践活动,应用计算思维,结合xDing软件AI模块来解决生活中的问题。 首先提出问题——如何实现语音控制。xDing软件中AI选项中有“智能语音输入”模块。通过该模块可以向开源机器人“小丁”发出语音指令。 然后解决问题——“小丁”怎样才能“听懂”语音指令?教材中指引学生用“如果”条件语句进行指令判断,然后根据语音指令写出不同执行方式。 最后总结验证——运行程序,并通过话筒发出指令,观察舵机运行状况。根据舵机转动情况调整程序让“小丁”能“听懂”更多语音指令。 【学情分析】 六年级学生经过本单元前3课的学习已经对人工智能的定义、发展、分类有了初步的了解。对于xDing软件中AI模块中的控件的应用也有了使用经验。 【教学目标与要求】 1.通过数字化学习方式了解现实生活中语音识别的意义。 2.通过硬件搭建和xDing软件编程制作语音控制的门,培养学生计算思维。 3.尝试利用编程和语音识别技术实现更细致的舵机控制,培养创新意识。 【教学重点与难点】 重点: 1.掌握使舵机摇臂模拟开关门的算法。 2.学会使用xDing软件实现语音控制舵机开关门的编程操作。 难点:体验用计算思维解决生活中的实际问题的方法,尝试利用语音识别技术进行控制舵机的编程。 【教学方法与手段】 方法:通过提问激发学生的学习动机,教学过程中采用了任务驱动法进行教学,将自主探究和小组合作学习相结合,重点培养学生对应用xDing软件实现人工智能的兴趣,提高学生编程热情。 手段:多媒体教学课件、教师演示与学生操作相结合。

【课时安排】 安排1课时。 【教学过程】 一、导入 1. 播放语音识别相关视频,让学生欣赏。 2. 讨论所看到的画面介绍了什么知识? 3. 现实生活中语音识别有哪些实际应用?未来语音识别可能会帮助人们做什么? 4. 小问号看了以后也想要设计一个“听话”的门。小博士说xDing软件中的人工智能模块可以帮助他实现。同学们觉得应该利用哪些控件帮助小问号实现梦想? 板书:语音识别 【设计意图】观看视频了解人工智能正在步入人们的生活之中。特别是语音识别技术越来越成熟,被广泛应用在翻译、门禁等领域。 二、新授 1. 硬件搭建。 (1)舵机接上白色摇臂代表门的开关状态。 舵机是一种位置(角度)伺服的驱动器,适用于那些需要角度不断变化并可以保持的控制系统,在很多玩具中都有使用。 (2)将白色摇臂按照垂直于舵机最长边的方向固定好(这里代表舵机0度)。 (3)用数据线连接开源机器人“小丁”和舵机。 舵机连接线“棕”“红”“橘”,与开源机器人舵机接口1“黑”“红”“黄”相对应。 (4)用USB数据线将开源机器人与电脑连接起来并安装固件。 【设计意图】硬件有固定的连接方法,这里必须通过课件或者教师演示把固定接法讲述清楚,特别是接口号和后面编程时选择的号码要一一对应。 2.编写程序。 (1)设置初始角度。 我们先把门先关上,找找看哪个控件可以帮我们设置好关门的初始状态?

语音识别程序开发方法

VB6.0环境下的语音识别程序开发方法 王军童强 (湖北师范学院计算机科学与技术学院,湖北黄石435002) 摘要:语音识别技术是将音频数据转换成文本或其它形式的计算机可以处理的信息的技术。而语音识别程序就是基于该类技术的计算机应用程序,这类应用程序也正越来越多的受到广大用户的青睐。通过介绍一种基于VB6.0环境下的语音识别程序的开发方法,以此开发方法为切入点分析该开发方法的优缺点及其应用前景,并结合当前技术的发展趋势展望这类技术的发展方向和可能的发展结果。 关键词:语音识别程序;VB6.0环境;语音识别程序开发方法 The method of Speech Recognition program development in VB6.0 Wangjun TongQiang (College of Computer Science & Tecnology ,Hubei normal University,Huangshi 435002 china) Abstract: Speech recognition technology is the audio data into text or other forms of information that could be dealt with computer technology. The speech recognition process is based on such technology, computer applications, such applications are more and more favored by the majority of users. In this paper, by introducing the VB6.0 environment based on the speech recognition program to develop methods and entry points to the development of methods for the analysis of the advantages and disadvantages of the development methodology and its application prospects, combined with the current trend of technological development prospects of such technologies the direction and development of possible results. Key words:Speech recognition procedures VB6.0 program development environment Speech recognition devolopment method 中图分类号:文献标志码:A 1 引言 语音识别是一个复杂的过程,语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。[1]

相关文档
最新文档