语音识别

第10卷 第19期 2010年7月167121815(2010)1924797204 

科 学 技 术 与 工 程

Scie nce Technol ogy and Engineering

 Vol 110 No 119 July 2010

Ζ 2010 Sci 1Tech 1Engng 1

基于神经网络的语音识别研究

叶 虹 祝永华 张有正

(浙江工业大学浙西分校,衢州324000)

摘 要 提出了一种基于双权值神经网络的非特定人连续语音识别的新算法。这种算法可以不经过端点检测和分割,构建连续语音中各不同音节的特征空间覆盖区,可以避免因分割错误而带来的错误识别。通过实验得到了较为满意的识别结果。关键词 双权值神经网络 连续语音 语音识别中图法分类号 T N912.34; 文献标志码 

A

2010年4月9日收到

浙江省自然科学基金项目(Y1090758)资助

第一作者简介:叶 虹(1978—),浙江常山人,讲师,工程硕士,研究方向:模式识别。

语音是人类交流和交换信息中最便捷的工具和最重要的媒体。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工智能等诸领域的一项综合技术,应用需求十分广阔,在近半个多世纪以来一直是人们研究的热点。语音识别系统可以依照语音识别的单元及语音识别系统是否依赖特定人而分成以下四类

[1]

:(1)特定人,孤立词语音识别;(2)非特定人,孤

立词语音识别;(3)特定人,连续语音识别;(4)非特定人,连续语音识别。可以看出,这四类系统的难度是依次增加的。在语音识别系统的性能中,语音识别的正确率以及字表大小和内容是主要的,此外还有系统对发音的要求高低、系统的抗噪声能力、训练量的大小等等

[1]

。目前常用的语音识别算法有动态时间规整法

(DT W )、隐马尔可夫模型(H M M )和人工神经网络(ANN )等,其中基于统计的H M M 算法可能是目前最

为成功的一种语音识别模型和算法了。然而,H M M 语音识别模型也存在一些严重的缺陷,如:鲁棒性不够理想,抗噪音的能力比较弱以及需要大量的训练样本等等。另外,由于连续语音识别技术存在单词切分困难的特点,而单词切分错误又直接影响到语音识别的识别率。基于以上连续语音识别技术的难点,本文从双权值神经网络

[2—5]

的结构出发,提出了一种基于双权值神

经网络的非特定人连续语音识别的新算法。这种算法可以不经过端点检测和分割,构建连续语音中各不同音节的特征空间覆盖区,得到了较为满意的识别结果。

1 双权值神经网络的结构

双权值神经元模型的结构图如图1所示。双权值神经元的典型的特点就是它不仅有相当于前馈网络中的方向权值w ,而且还有相对于RBF 径向基函数网络中的核心权值z 。这样的双权

值神经元是一个具有良好的局部反应性质、各向异性的高阶神经元

图1 双权值神经元模型

双权值神经元的基本计算式为:

Y =f

M

j =0

W j (X j -W ′j )

W j (X j -W ′j )

S

W j (X j -W ′j )

P

-θ。

其中Y 为神经元的输出,f 为神经元激励函数,θ为神

经元的阈值,W f 为由第j 个输入端接至神经元的方向权值,W ′j 为由第j 个输入端接至神经元的核心权值,

X j 为第j 个输入端(正值),M 为输入空间维数,S 为决

定单项正负号方法的参数,S =0时单项符号永为正,

S =1时单项的符号与W j 的符号相同,P 为幂参数。

这种网络模型是一种通用的神经元网络模型,传统的通用前馈网络和径向基函数(RBF )网络都是它的一种特例。如果核心权值W ′j 全为0,S =1,

p =1,则2-12式就是一个经典的神经元数学模型;

如果核心权值W ′j 全为1,S =0,p =2,则y 是一个径向基函数(RBF )网络的神经元。

2 构造双权值神经网络的学习算法

步骤1:设某类问候语单字所有的样本点集合

为α=A 1,A 2,…,A N ,N 为样本点总数。

计算出这些点两两之间的距离,找到距离最小的两个点,记为B 1、B 2,计算其它点到这两点的距离和,将距离和最小,且与B 11、B 12不共线的点记作B 13点,这样构成第一个平面三角形B 11B 12B 13,记作θ1,用一个双权值神经元来覆盖,其覆盖范围为:

P 1=X |ρX θ1

≤Th,X ∈R n

;

θ1={Y |Y =α2α1.B 11+1-α1B 12

+1-α2B 13,α1.∈[0,1],α2∈[0,1]}。

其中ρX θ1

表示点X 到空间θ1的距离。步骤2:对于前一个已构造好的几何形体P 1,判断剩余点是否被该形体包含,若在形体覆盖范围内,则排除该点。对于在形体之外的样本点,按照第1步的方法,找出离B 11B 12B 13三点距离和最小的点B 21,将

B 11B 12B 13三点中离B 21最近的两个点记作B 22B 23,B 22B 23与B 21构成第二个平面三角形B 21B 22B 23,记作θ2,

同样用一个双权值神经元来覆盖,其覆盖范围为:

P 2=X |ρX θ2

≤Th,X ∈R n

;

θ2={Y |Y =α2α1.B 21+1-α1B 22

+1-α2B 23,α1.∈[0,1],α2∈[0,1]}。

其中ρX θ2

表示点X 到空间θ2的距离。步骤3:在剩余点中排除包含在前面(i -1)个双权值神经元覆盖体积内的样本点,在覆盖体积外的样本点中,找出离前面第i -1个三角形的顶点的距离和最近的点记作B i 1,同离其最近的第i -1个三角形的两个顶点记作B i 2B i 3,构成第i 个平面三角形B i 1B i 2B i 3,记作θ3,同样用一个双权值神经元来覆

盖,其覆盖范围为:

P i =X |ρX θ2

≤Th,X ∈R n

;

4θ3={Y |Y =α2α1.B i 1+1-α1B i 2

+

1-α2B i 3,α1.∈[0,1],α2∈[0,1]}。

步骤4:重复步骤(3),直到处理完所有的样本点。最终共产生m 个双权值神经元,每一类问候语单字的覆盖面积是这些神经元覆盖面积的并集:

P =∪m

i =1P i 。

在识别时,取Th =0,pS i 3神经元的表达式为ρ=X -θW 1,W 2,W 3。

神经元的输出ρ是点X 到有限区域θW 1,W 2,W 3

的距离,距离的计算采用的是近似算法。

待识样本X 到第i 类问候语单字的高维空间点覆盖神经网络覆盖区的距离为

ρi =m in M i

j =1ρij ,i =1, (11)

其中M i 为第i 类问候语单字的高维空间点覆盖神经网络的pS i 3神经元的个数。ρij 为待识样本待识样本X 到第i 类问候语单字的高维空间点覆盖神经网络中第j 个神经元覆盖区域的距离。

将离开待识样本X 距离最小的那一类问候语单字的高维空间点覆盖双权值神经元所属类别,作为待识样本X 的所属问候语单字类别,判别方法为:

j =argm in 11

i =1

ρi ,j ∈1, (11)

3 实验及分析

在问候语连续语音识别中,将待识别的问候语连续语音所提取的长度不等的特征向量(128维×

n )作为高维空间的n 个点,求出这n 个点中依次各

点到每一类覆盖区的距离,然后找出每一点到各类覆盖区的最短距离,把最短距离所对应的那一类作为该点所属类别,最短距离是随时间变化的曲线,取最小的几个极小值点对应的问候语单字类别作为最终识别结果。

下面以“ni hao zao shang hao ”的连续语音串为例(n =113),图1为这n 个点到18类问候语中的1类覆盖区的距离,横坐标为时间轴(n 个点),纵坐标为各点(n 个点)到各类高维空间点覆盖区的距离。

8974科 学 技 术 与 工 程10卷

图2 “ni hao zao shang hao ”到“shang ”

的覆盖范围的距离

图3 连续语音到各类高维空间点覆盖区的最短距离

图2为离开“shang ”覆盖范围的距离随时间的变化曲线,图中有1个极小点,它的距离值在50到100之间。通过这种方法找到这n 个点到18类问

候语中的每一类覆盖区的最小距离。由于最短距离是随时间变化的曲线,取最小的几个极小值点对应的问候语单字类别作为最终识别结果。图3就是连续语音“ni hao zao shang hao ”到各类高维空间点覆盖区的最短距离。

据统计我们的识别系统最终达到字错误率为

15.38%,字正确率为84.62%。由于问候语语句受

语法的限制程度较强,对于问候语语句的识别我们采用了关键字识别的方法,即在一个问候语语句中只要识别出它的关键字,我们就认为它识别出了这个句子。在我们的识别系统中,问候语语句的句识别正确率为93.50%。

4 结 论

由于连续语音的分割困难,而它又直接影响到语音识别的识别率,有实验考证如果将在前期的分割错误加以纠正,则系统的字错误率至少可以降低11.7%。因此可以说以外的系统对连续语音的识别率不

高在很大程度上与连续语音端点检测的准确率不高密切相关。因此本文一改传统语音识别先切分后识别的模式,采用了动态搜索的算法,实现了不用切分的连续语音识别。本文从双权值复杂的几何形体出发,给出了双权值神经网络的学习算法在语音中的算法,今后希望能够应用的大词汇语音识别中去。

参 考 文 献

1 李建民.汉语语音识别的研究.北京:清华大学硕士论文,1991

2 Pallett D S,Fiscus J G,A lvin M ,et al .B r oadcast ne ws benchmark

test results english and non 2english,htt p://www .nist .gov/s peech /hist ory /index .ht m ,1997

3 W ang Shoujue .A new devel opment on ANN in China 2B i om i m etic

pattern recogniti on and multi weight vect or neur ons .Lecture Notes in A rtificial I ntelligence,2003;2639:35—43

4 王守觉,徐 健,王宪宝,等.基于仿生模式识别的多镜头人脸

身份确认系统研究.电子学报,2003;31(1):1—3

5 王守觉,李兆洲,陈向东,等.通用神经网络硬件中神经元基本

数学模型的讨论.电子学报,2001;29(5):577—580

Speech Recogn iti on Ba sed on Neura l Networks

YE Hong,Z HU Yong 2hua,Z HANG You 2zheng

(W est B ranch of Zhejiang University of Technol ogy,Quzhou 324000,P .R.China )

[Abstract] T wo weight neural net w ork is described .A ne w dyna m ic searching algorith m based on t w o weight

9

97419期叶 虹,等:基于神经网络的语音识别研究 

neural net w ork is p resented .And then it was app lied t o recognize the continuous s peech of s peaker 2independent .The recogniti on results can be searched dyna m ically without endpoint detecting and seg menting .D ifferent feature 2s pace covers are constructed according t o different classes of syllables .Some satisfact ory recogniti on results are ob 2tained by experi m ent .

[Key words] t w o weight neural net w orks continuous s peech s peech recogniti on

(上接第4780页)

F i n ite Elem en t Ana lysis of Con t act Pressure for S i n gle PCPs

G UO Ying

(Pr oducti on Research &Engineering I nstitute of Daqing O ilfield Company L i m ited,Daqing 163453,P .R.China )

[Abstract] The contact p ressure bet w een the single PCP ′s r ot or and the stat or rubber is one of the most i m por 2tant reas ons f or wearing .A s olid model of single PCP is establishe by using Solid Works s oft w are according t o its working p rinci p le and structure characteristics,and the constitutive relati on of stat or rubber is deter m ined by using the Mooney 2R ivlin model on the basis of tests .The constants of the constitutive relati on can conf or m the material nonlinearity .Thr ough using finite ele ment analysis s oft w are ANSYS,S OL I D 45and S OL I D 185units are chosen af 2ter several atte mp ts t o anal og PCP ’s operating para meters and t o establish finite ele ment model .The distributi on of contact p ressure is obtained by using ANSYS f or mechanical analysis that p r ovides the foundati on for analysis of the PCP ’s wearing and service life .

[Key words] single scre w pu mp contact p ressure s olid model finite ele ment Analysis

(上接第4783页)

M i xed Coa l 2f i red C i rcul a ti n g Flu i d i zed Bed Bo iler M ud Ra ti o Ana lysis

Z HOU Ya

(Nanjing University of Aer onautics and A str onautics,School of Econom ics and Manage ment,Nanjing 210083,P .R.China )

[Abstract] A ther mal power p lant,J iangsu p r ovince,75t/h circulating fluidized bed boiler coal 2fired mud 2doped undertake a situati on analysis and research,thr ough a large nu mber of m ixed coal 2fired circulating fluidized bed boiler mud on the work of the furnace efficiency points of technical analysis t o identify co 2firing .The best rati o of sli m e is scientific and effective t o reduce business operating costs .

[Key words] circulating fluidized bed boiler sli m e rati o sli m e cofiring

0084科 学 技 术 与 工 程10卷

相关文档
最新文档