语音信号识别及处理中英文翻译文献综述
语音信号处理文献翻译

利用扬声器元音的特征进行情感语音合成卡努仆•太郎浅田•川端康成•吉富正义田卧勇太摘要:近来,情感语音合成方法已经在语音合成领域的研究中受到相当的重视。
我们先前提出了一种基于案例的方法,通过利用最大振幅和元音的发声时间,和情感语音的基频特性产生情绪合成语音。
在本研究中,我们提出了一种方法,其中,我们报告的方法是通过控制情绪合成语音的基频进一步提高。
作为一个初步调查,我们采用一个语义是中性的日本名字的话语。
使用该方法,从一个男性受试者带有情绪的讲话做出的情感合成语音,其平均可辨别度达到了83.9%,18名受试者听取了情感合成话语“生气”、“快乐”、“中性”、“悲伤”或者“惊讶”时的发声是日本人“Taro ”,或“Hiroko ”。
在提出的方法中对基频的进一步调整使情感合成语音项目更清楚。
关键词:情感语音 特征参数 合成语音 情感合成语音 元音中图分类号:Ó ISAROB 20131.介绍近来,情感语音合成方法已经在语音合成领域的研究中受到相当的重视。
为了产生情感合成语音,有必要控制该话语的韵律特征。
自然语言主要由元音和辅音组成。
日语有五个元音字母。
元音比辅音留给听者的印象更深,主要是因为元音的发音时间比辅音更长,幅度比辅音更大。
我们之前提出了一种基于实例的方法来产生情感合成语音,就是利用了元音的最大幅度和发音时间,这两个元素可以通过语音识别系统和情感语音的基频得到。
在本研究中,我们提出了一种方法,其中,我们报告的方法是通过控制情绪合成语音的基频进一步提高。
我们的研究在报告研究中的优势是在情感语音中利用了元音的特征来产生情感合成语音。
2.提出的方法在第一阶段中,我们得到的情感语音的音频数据为WA V 文件,受试者讲话时用了特意的情绪“愤怒”、“快乐”、“中性”、“难过”和“感到吃惊”。
那么,对于每一种情绪讲话,我们测量每个元音发声的时间和波形的最大幅值,和情感语音的基频。
在第二阶段中,我们把受试者的话语音素按序列进行综合。
语音信号处理中英文翻译

附录:中英文翻译15SpeechSignalProcessing15.3AnalysisandSynthesisJ esseW. FussellA fte r an acousti c spee ch s i gnal i s conve rte d to an ele ctri cal si gnal by a mi crophone, i t m ay be desi rable toanalyzetheelectricalsignaltoestimatesometime-varyingparameterswhichprovideinformationaboutamodel of the speech producti on me chanism. S peech a na ly sis i s the process of e stim ati ng such paramete rs. Simil arl y , g ive n some parametri c model of spee ch production and a se que nce of param eters for that m odel,speechsynthesis istheprocessofcreatinganelectricalsignalwhichapproximatesspeech.Whileanalysisandsynthesistechniques maybedoneeitheronthecontinuoussignaloronasampledversionofthesignal,mostmode rn anal y sis and sy nthesis methods are base d on di gital si gnal processing.Atypicalspeechproductionmodelisshownin Fig.15.6.Inthismodeltheoutputoftheexcitationfunctionisscaledbythegainparam eterandthenfilteredtoproducespeech.Allofthesefunctionsaretime-varying.F IGUR E 15 .6 A ge ne ra l spee ch productionmodel.F IGUR E 1 5 .7 W ave form of a spoken phone me /i/ as i nbeet.Formanymodels,theparametersarevariedataperiodicrate,typically50to100timespersecond.Mostspee ch inform ati on is containe d i n the porti on of the si gnal bel ow about 4 kHz.Theexcitationisusually modeledaseitheramixtureorachoiceofrandomnoiseandperiodicwaveform.For hum an spee ch, v oi ced e x citati on occurs w hen the vocal fol ds in the lary nx vibrate; unvoi ce d e x citati onoccurs at constri cti ons i n the vocal tract w hi ch cre ate turbulent a i r fl ow [Fl anagan, 1965] . The rel ati ve mi x ofthesetw o type s ofexcitationisterme d ‚v oicing.‛In addition,theperiodi c e xcitation i s characterizedby afundamentalfrequency,termed pitch orF0.Theexcitationisscaledbyafactordesignedtoproducetheproperampli tude or level of the spee ch si gnal . The scaled ex citati on function i s then fi ltere d to produce the properspe ctral characte risti cs. W hile the filter m ay be nonli near, i t i s usuall y m odele d as a li nearfunction.AnalysisofExcitationInasimplifiedform,theexcitationfunctionmaybeconsideredtobepurelyperiodic,forvoicedspeech,orpurel y random, for unvoi ce d. T hese tw o states correspond to voi ce d phoneti c cl asse s such as vow elsand nasalsandunvoicedsoundssuchasunvoicedfricatives.Thisbinaryvoicingmodelisanoversimplificationforsounds such as v oi ced fri cati ves, whi ch consist of a mi xture of peri odi c and random compone nts. Fi gure 15.7is an ex ample of a time w ave form of a spoke n /i/ phoneme , w hi ch is w ell m odeled by onl y pe riodi c e x citation.B oth ti me dom ai n and frequency dom ai n anal y s is te chni ques have bee n used to esti m ate the de greeofvoi ci ng for a short se gme nt or frame of spee ch. One ti me dom ain fe ature, te rme d the ze ro crossing rate,i sthenumberoftimesthesignalchangessigninashortinterval.AsshowninFig.15.7,thezerocrossingrateforvoicedsoundsisrelativ elylow.Sinceunvoicedspeechtypicallyhasalargerproportionofhigh-frequencyenergy than voi ce d spee ch, the ratio of high-fre que ncy to low -frequency e nergy is a fre que ncy dom aintechni que that provi des i nform ation on voi cing.A nothe r measure use d to estim ate the de gree of voi ci ng is the autocorrel ation functi on, w hi ch is de fine d fora sam pled speech se gment, S ,aswheres(n)isthevalueofthenthsamplewithinthesegmentoflengthN.Sincetheautocorrelationfunctionofa periodi c functi on is i tsel f pe ri odi c, voi ci ng can be e sti mated from the de gree of pe ri odi city oftheautocorrel ati on function. Fi gure 15. 8 i s a graph of the nonne gati ve te rms of the autocorrel ation functi on for a64 -ms frame of the w aveform of Fi g . 15. 7. Ex cept for the de cre ase i n amplitude w ith i ncre asi ng lag, whi chresultsfromtherectangularwindowfunctionwhichdelimitsthesegment,theautocorrelationfunctionisseento be quite pe riodi c for thi s voi ce dutterance.F IGUR E 1 5 .8 A utocorrel ati on functi on of one frame of /i/. Ifananalysisofthevoicingofthespeechsignalindicatesavoicedorperiodiccomponentispresent,another ste p i n the anal y si s process m ay be to estim ate the freque ncy ( or pe ri od) of the voi ce d component.Thereareanumberofwaysinwhichthismaybedone.Oneistomeasurethetimelapsebetweenpeaksinthetime dom ai n si gnal. For ex am ple i n Fi g . 15.7 the m aj or peaks are separate d by about 0. 00 71 s, for afundamentalfrequencyofabout141Hz.Note,itwouldbequitepossibletoerrintheestimateoffundamentalfre quency by mistaki ng the sm aller pe aks that occur betwee n the m a jor pe aks for the m aj or pe aks. Thesesmallerpeaksareproducedbyresonanceinthevocaltractwhich,inthisexample,happentobeatabouttwicethe ex citation fre quency . T his ty pe of e rror w ould re sult in an e sti m ate of pitch approxi m atel y tw i ce the corre ct fre quency.The di stance betw ee n m ajor pe ak s of the autocorrel ation functi on is a closel y rel ate d fe ature thatisfre quentl y use d to esti m ate the pitch pe ri od. In Fi g . 15. 8, the di stance between the m aj or peaks in the autocorrelationfunctionisabout0.0071s.Estimatesofpitchfromtheautocorrelationfunctionarealsosusce pti ble to mistaking the fi rst vocal track resonance for the g l ottal e x citati on frequency.The absol ute m agnitude di ffere nce functi on ( AM DF), de fi nedas,is another functi on w hi ch is often use d i n estim ating the pitch of voi ce d spee ch. A n ex ample of the AM DF isshownin Fig.15.9forthesame64-msframeofthe/i/phoneme.However,theminimaoftheAMDFisusedasanindicatorofthepitchperiod.TheAMDFhasbeenshownt obeagoodpitchperiodindicator[Rossetal.,19 74 ] and does not requi re multi pli cations.FourierAnalysisOne of the m ore comm on processe s for e stim ating the spe ctrum of a se gme nt of spee ch is the Fourie rtransform [ Oppenheim and S chafer, 1 97 5 ]. T he Fourie r transform of a seque nce is m athem ati call y de fine daswheres(n)representsthetermsofthesequence.Theshort-timeFouriertransformofasequenceisatimedependentfunction,definedasF IGUR E 1 5 .9 A bsolute m agnitude diffe rence functi on of one frame of /i/.wherethewindowfunctionw(n)isusuallyzeroexceptforsomefiniterange,andthevariablemisusedtoselectthesectionofthesequ enceforanalysis.ThediscreteFouriertransform(DFT)isobtainedbyuniformlysam pling the short-ti me Fourie r transform i n the fre quency dime nsi on. Thus an N-point DFT is computedusingEq.(15.14),wherethe setofNsamples,s(n),may have firstbeenmultiplied by a window function.Anexampleofthemagnitudeofa512-pointDFTofthewaveformofthe/i/from Fig.15.10isshowninFig.15.10.Noteforthisfi gure, the 512 poi nts in the se que nce have been m ulti plied by a Ham ming w i ndow de fi nedbyF IGUR E 1 5 .1 0 M agnitude of 51 2-point FFT of Ham mi ng window e d/i/.S ince the spe ctral characteristi cs of spee ch m ay change dram a ti call y in a fe w milli se conds, the le ngth, type,and l ocation of the wi ndow function are im portant consi derati ons. If the w indow is too long, changi ng spe ctralcharacteristicsmaycauseablurredresult;ifthewindowistooshort,spectralinaccuraciesresult.AHammingwi ndow of 16 to 32 m s durati on is com m onl y use d for spee ch analysis.S everal characte risti cs of a speech utte rance m ay be dete rmine d by ex amination of the DFT m agnitude. InFig.15.10,theDFTofavoicedutterancecontainsaseriesofsharppeaksinthefrequencydomain.Thesepeaks, caused by the peri odi c sampl ing acti on of the g lottal ex ci tation, are separated by the fundame ntalfrequencywhichisabout141Hz,inthisexample.Inaddition,broaderpeakscanbeseen,forexampleatabout300 Hz and at about 2300 Hz. T hese broad peaks, calle d formants, result from resonances in the vocaltract. LinearPredictiveAnalysisGivenasampled(discrete-time)signals(n),apowerfulandgeneralparametric modelfortimeseriesanalysisiswheres(n)istheoutputandu(n)istheinput(perhapsunknown).Themodelparametersare a(k)fork=1,p,b( l ) for l = 1, q, and G. b( 0) is assume d to be unity. Thi s m odel , describe d as an autore g ressi ve m ov ing average(ARM A)orpole-zeromodel,formsthefoundationfortheanalysismethodtermedlinearprediction.Anautoregressive(AR) orall-polemodel,forwhichallofthe‚b‛coe fficientsexceptb(0)arezero,isfrequentlyused for spee ch anal y si s [M arkel and Gray, 1976].In the standard A R formul ati on of li ne ar predi ction, the model paramete rs are sele cte d to mi ni mizethemean-squarederrorbetweenthemodelandthespeechdata.Inoneofthevariantsoflinearprediction,theautocorrelationmethod,themini mizationiscarriedoutforawindowedsegmentofdata.Intheautocorrelationmethod,minimizingthemean-squareerror of the time domain samples is equivalentto minimizing theintegratedratioofthesignalspectrumtothespectrumoftheall-polemodel.Thus,linearpredictiveanalysisisagoodmethod forspectralanalysiswheneverthesignalisproducedby an all-pole system.M ost speechsounds fi t thi s model w ell.One ke y consi deration for li near pre dicti ve anal y si s is the order of the model, p. For spee ch, if the orde ristoosmall,theformantstructureisnot well represented. If the orderis too large, pitch pulses as well asformantsbegintoberepresented.Tenth- or twelfth-order analysis is typical forspeech.Figures15.11 and15.12 provideexamplesof the spectrum produced by eighth-order and sixteenth-order linear predictiveanalysisofthe/i/waveformofFig.15.7.Figure15.11showstheretobethreeformantsatfrequenciesofabout30 0, 23 00, and 3200 Hz , whi ch are ty pi cal for an/i/.Homomorphic(Cepstral)AnalysisFor the speech m odel of Fi g. 15. 6, the e x citati on and filter i mpulse response are convol ved to produce thespeech.Oneoftheproblemsofspeechanalysisistoseparateordeconvolvethespeechintothesetw ocom ponents. Onesuch te chni que is called hom omorphi c filte ri ng [ Oppe nheim and S chafer, 1968 ]. Thecharacte risti c sy ste mfor a sy ste m for hom om orphi c deconvol ution conve rts a convolution operation to anadditi on ope ration. The output of such a characteristi c sy stem is calle d the com ple x cep str u m . The complexcepstrumisdefinedastheinverseFouriertransformofthecomplexlogarithmoftheFouriertransformoftheinput.Iftheinputseque nceisminimumphase(i.e.,thez-transformoftheinputsequencehasnopolesorzerosoutside the unit ci rcle), the se quence can be represe nted by the real portion of the transforms. Thus, the re alcepstrum can be com pute d by cal cul ati ng the inve rse Fourie r transform of the log- spe ctrum of theinput.FIGURE15.11Eighth-orderlinearpredictiveanalysisofan‚i‛.FIGURE15.12Sixteenth-orderlinearpredictiveanalysisofan‚i‛.Fi gure 1 5.1 3 show s an e x ample of the cepstrum for the voi ced /i/ utterance from Fi g. 15.7 . The cepstrum ofsuch a voi ce d utterance i s characte rized by rel ati vel y la rge v alues in the fi rst one or tw o milli se conds as w ellas。
语音识别技术在翻译领域中的应用(Ⅱ)

语音识别技术在翻译领域中的应用随着科技的飞速发展,语音识别技术已经成为了我们日常生活中不可或缺的一部分。
从智能语音助手到语音搜索,人们已经习惯了用声音来控制设备和获取信息。
而在翻译领域,语音识别技术也发挥着越来越重要的作用。
本文将探讨语音识别技术在翻译领域中的应用,以及它对翻译行业的影响。
语音识别技术,顾名思义,是指通过计算机识别和理解人类语言的技术。
在翻译领域中,语音识别技术可以用于语音翻译、同声传译等方面。
首先,语音识别技术可以帮助人们更便捷地进行语言翻译。
通过语音识别技术,人们可以直接将口语输入转换成文字,然后再进行翻译。
这种方式不仅节省了时间,还减少了因打字错误导致的翻译错误。
其次,语音识别技术还可以用于同声传译。
在国际会议、商务谈判等场合,同声传译是非常重要的。
语音识别技术可以帮助传译人员更准确地理解讲话内容,并及时进行翻译。
这对于提高会议效率和准确传达信息至关重要。
除了在翻译过程中的应用,语音识别技术还对翻译行业产生了深远的影响。
首先,它改变了传统翻译的工作模式。
传统翻译主要依靠人工进行,需要大量的时间和精力。
而语音识别技术的出现,加速了翻译的速度,提高了效率。
其次,语音识别技术也改变了翻译人员的工作方式。
传统上,翻译人员需要借助字典和翻译软件进行翻译,这不仅耗时耗力,还容易出现错误。
而通过语音识别技术,翻译人员可以更加便捷地进行翻译,节省了时间和精力。
另外,语音识别技术的出现也催生了新的翻译工具和平台,为翻译行业的发展带来了新的机遇。
然而,语音识别技术在翻译领域中的应用也面临一些挑战。
首先,语音识别技术的准确率仍然不够高。
尤其是在多语种翻译中,语音识别技术往往会受到语言、口音等因素的影响,导致识别错误。
其次,语音识别技术还需要不断地进行语言模型训练和优化,以适应不同的语言环境。
此外,隐私和安全问题也是人们对语音识别技术持保留意见的原因之一。
在翻译领域中,特别需要保护客户的隐私和翻译内容的安全。
语音识别文献综述

噪音环境下的语音识别1.1引言随着社会的不断进步和科技的飞速发展,计算机对人们的帮助越来越大,成为了人们不可缺少的好助手,但是一直以来人们都是通过键盘、鼠标等和它进行通信,这限制了人与计算机之间的交流,更限制了消费人群。
为了能让多数人甚至是残疾人都能使用计算机,让计算机能听懂人的语言,理解人们的意图,人们开始了对语音识别的研究.语音识别是语音学与数字信号处理技术相结合的一门交叉学科,它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科都有密切关系。
1,2语音识别的发展历史和研究现状1.2.1国外语音识别的发展状况国外的语音识别是从1952年贝尔实验室的Davis等人研制的特定说话人孤立数字识别系统开始的。
20世纪60年代,日本的很多研究者开发了相关的特殊硬件来进行语音识别RCA实验室的Martin等人为解决语音信号时间尺度不统一的问题,开发了一系列的时问归正方法,明显地改善了识别性能。
与此同时,苏联的Vmtsyuk提出了采用动态规划方法解决两个语音的时闻对准问题,这是动态时间弯折算法DTW(dymmic time warping)的基础,也是其连续词识别算法的初级版.20世纪70年代,人工智能技术走入语音识别的研究中来.人们对语音识别的研究也取得了突破性进展.线性预测编码技术也被扩展应用到语音识别中,DTw也基本成熟。
20世纪80年代,语音识别研究的一个重要进展,就是识别算法从模式匹配技术转向基于统计模型的技术,更多地追求从整体统计的角度来建立最佳的语音识别系统。
隐马尔可夫模型(hidden Markov model,删)技术就是其中一个典型技术。
删的研究使大词汇量连续语音识别系统的开发成为可能。
20世纪90年代,人工神经网络(artificial neural network,ANN)也被应用到语音识别的研究中,并使相应的研究工作在模型的细化、参数的提取和优化以及系统的自适应技术等方面取得了一些关键性的进展,此时,语音识别技术进一步成熟,并走向实用。
语音识别技术综述

语音识别技术综述随着技术的不断发展,语音识别技术作为其中重要的一部分,已经广泛应用于各个领域。
本文将围绕语音识别技术进行综述,介绍其发展历程、现状以及未来趋势。
语音识别技术是一种将人的语音转换为文本或其他形式的信息,以实现人机交互的技术。
这种技术在许多领域都有广泛的应用,如智能家居、车载系统、智能客服等,为人们的生活和工作带来了极大的便利。
语音识别技术主要涉及三个方面的内容:语音转换、语音识别算法和深度学习算法。
语音转换是将声音信号转换为数字信号的过程,便于计算机处理。
语音识别算法是通过对数字信号进行分析,提取出其中的特征,以识别语音内容。
深度学习算法则是在语音识别算法的基础上,利用大规模数据进行训练,提高识别准确率和效率。
目前,国内外对于语音识别技术的研究已经非常活跃。
在技术方面,随着深度学习技术的发展,端到端语音识别技术得到了广泛应用。
端到端语音识别技术是一种基于数据驱动的语音识别技术,可以有效地提高语音识别的准确率和效率。
同时,研究人员还在探索更为先进的模型和算法,以进一步提高语音识别的性能。
在应用方面,语音识别技术已经广泛应用于智能家居、车载系统、智能客服等领域。
在智能家居领域,语音识别技术可以实现对家居设备的智能控制,提高家居的便利性和舒适性。
在车载系统领域,语音识别技术可以实现智能语音助手、智能导航等功能,提高驾驶体验和行车安全。
在智能客服领域,语音识别技术可以快速准确地识别用户的问题和需求,提供更好的客户服务。
未来,语音识别技术将继续发展和进步。
一方面,技术的进步将会提高语音识别的准确率和效率,甚至实现多语种、远距离、噪音环境下的语音识别。
另一方面,行业应用的发展将会推动语音识别技术的普及和应用范围的扩大,例如在智能医疗、智能工业、智能安防等领域的应用。
随着用户体验的追求,语音识别技术将会与其他交互方式相结合,实现更加自然、便捷的人机交互。
总之,语音识别技术作为领域的重要部分,已经取得了显著的进展。
机器人语音识别中英文对照外文翻译文献

中英文资料外文翻译译文:改进型智能机器人的语音识别方法2、语音识别概述最近,由于其重大的理论意义和实用价值,语音识别已经受到越来越多的关注。
到现在为止,多数的语音识别是基于传统的线性系统理论,例如隐马尔可夫模型和动态时间规整技术。
随着语音识别的深度研究,研究者发现,语音信号是一个复杂的非线性过程,如果语音识别研究想要获得突破,那么就必须引进非线性系统理论方法。
最近,随着非线性系统理论的发展,如人工神经网络,混沌与分形,可能应用这些理论到语音识别中。
因此,本文的研究是在神经网络和混沌与分形理论的基础上介绍了语音识别的过程。
语音识别可以划分为独立发声式和非独立发声式两种。
非独立发声式是指发音模式是由单个人来进行训练,其对训练人命令的识别速度很快,但它对与其他人的指令识别速度很慢,或者不能识别。
独立发声式是指其发音模式是由不同年龄,不同性别,不同地域的人来进行训练,它能识别一个群体的指令。
一般地,由于用户不需要操作训练,独立发声式系统得到了更广泛的应用。
所以,在独立发声式系统中,从语音信号中提取语音特征是语音识别系统的一个基本问题。
语音识别包括训练和识别,我们可以把它看做一种模式化的识别任务。
通常地,语音信号可以看作为一段通过隐马尔可夫模型来表征的时间序列。
通过这些特征提取,语音信号被转化为特征向量并把它作为一种意见,在训练程序中,这些意见将反馈到HMM的模型参数估计中。
这些参数包括意见和他们响应状态所对应的概率密度函数,状态间的转移概率,等等。
经过参数估计以后,这个已训练模式就可以应用到识别任务当中。
输入信号将会被确认为造成词,其精确度是可以评估的。
整个过程如图一所示。
图1 语音识别系统的模块图3、理论与方法从语音信号中进行独立扬声器的特征提取是语音识别系统中的一个基本问题。
解决这个问题的最流行方法是应用线性预测倒谱系数和Mel频率倒谱系数。
这两种方法都是基于一种假设的线形程序,该假设认为说话者所拥有的语音特性是由于声道共振造成的。
语音信号处理综述

语音信号处理综述摘要:随着信息技术的发展,语音信号处理技术不断地融入到各个领域。
作为21世纪信息技术领域最重要的科学技术之一,它成为了人机接口的关键技术,并且越来越受到人们的重视。
本文介绍了国内外语音技术的相关发展及该技术在通讯,家具,导航等领域的应用。
并对他们的语音技术的优缺点进行了总结。
关键词:语音技术通讯Review of Speech Signal ProcessingAbstract: With the development of information technology, the Automatic Speech Recognition (ASR) constantly into the fields. The ASR which is one the most important technology in information fields and it is the key technology of the man-machine interface, and which is more and more appreciated by people. The text introduces the development and application in communication, household and navigation of the ASR. I summer the advantages and disadvantages of their ASR.Key words: ASR communication一、研究语音信号处理技术的背景及其意义随着人们进入信息时代,人们的生活、学习、工作领域也越来越智能化。
作为人和这些领域沟通的关键接口,语音信号处理技术自然引起里人们的足够重视。
该技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高级技术。
语音识别技术在翻译领域中的应用(七)

语音识别技术在翻译领域中的应用语音识别技术是指计算机通过识别人类语音的技术,将语音信号转换成可以理解的文本或命令。
随着人工智能技术的不断发展,语音识别技术在翻译领域中得到了广泛的应用。
本文将从语音识别技术的发展、在翻译中的应用以及未来发展趋势等方面进行论述。
语音识别技术的发展语音识别技术的发展可以追溯到20世纪50年代。
随着计算机技术的飞速发展,语音识别技术也不断得到了改进。
传统的语音识别技术主要是基于统计模型和语音特征提取的方法,但是由于语音信号的特殊性,一直存在着识别准确率低、语音识别速度慢等问题。
近年来,随着深度学习技术的兴起,语音识别技术得到了革命性的突破。
深度学习技术可以有效地提取语音信号的特征,通过大量的数据训练神经网络,使得语音识别准确率大幅提升。
目前,谷歌、微软、苹果等公司都推出了基于深度学习的语音识别产品,例如谷歌的语音助手、苹果的Siri等,这些产品在日常生活中得到了广泛的应用。
语音识别技术在翻译中的应用语音识别技术在翻译领域中有着广泛的应用。
首先,语音识别技术可以应用于口译翻译。
传统的口译翻译需要翻译员现场进行同声传译,工作量大、效率低。
而利用语音识别技术可以将演讲、会议等口语内容实时转换成文字,大大提高了翻译效率。
此外,语音识别技术还可以应用于语音翻译软件,通过录入语音内容,实现即时翻译成其他语言的功能,方便了人们的日常交流。
除了口译翻译,语音识别技术还可以应用于文字翻译。
传统的文字翻译需要翻译人员逐字逐句地进行翻译,工作量大、效率低。
而利用语音识别技术可以将外文稿件实时转换成文字,为翻译人员提供参考,大大提高了翻译效率。
此外,语音识别技术还可以应用于智能翻译软件,通过语音输入外文内容,实现即时翻译成母语的功能,方便了人们的日常阅读、学习。
未来发展趋势随着语音识别技术的不断发展,其在翻译领域中的应用也将得到进一步拓展。
首先,随着深度学习技术的不断成熟,语音识别技术的准确率和速度将进一步提高,为翻译人员提供更加准确、高效的工具。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音识别在计算机技术中,语音识别是指为了达到说话者发音而由计算机生成的功能,利用计算机识别人类语音的技术。
(例如,抄录讲话的文本,数据项;经营电子和机械设备;电话的自动化处理),是通过所谓的自然语言处理的计算机语音技术的一个重要元素。
通过计算机语音处理技术,来自语音发音系统的由人类创造的声音,包括肺,声带和舌头,通过接触,语音模式的变化在婴儿期、儿童学习认识有不同的模式,尽管由不同人的发音,例如,在音调,语气,强调,语调模式不同的发音相同的词或短语,大脑的认知能力,可以使人类实现这一非凡的能力。
在撰写本文时(2008年),我们可以重现,语音识别技术不只表现在有限程度的电脑能力上,在其他许多方面也是有用的。
语音识别技术的挑战古老的书写系统,要回溯到苏美尔人的六千年前。
他们可以将模拟录音通过留声机进行语音播放,直到1877年。
然而,由于与语音识别各种各样的问题,语音识别不得不等待着计算机的发展。
首先,演讲不是简单的口语文本——同样的道理,戴维斯很难捕捉到一个note-for-note曲作为乐谱。
人类所理解的词、短语或句子离散与清晰的边界实际上是将信号连续的流,而不是听起来: I went to the store yesterday昨天我去商店。
单词也可以混合,用Whadd ayawa吗?这代表着你想要做什么。
第二,没有一对一的声音和字母之间的相关性。
在英语,有略多于5个元音字母——a,e,i,o,u,有时y和w。
有超过二十多个不同的元音, 虽然,精确统计可以取决于演讲者的口音而定。
但相反的问题也会发生,在那里一个以上的信号能再现某一特定的声音。
字母C可以有相同的字母K的声音,如蛋糕,或作为字母S,如柑橘。
此外,说同一语言的人使用不相同的声音,即语言不同,他们的声音语音或模式的组织,有不同的口音。
例如“水”这个词,wadder可以显著watter,woader wattah等等。
每个人都有独特的音量——男人说话的时候,一般开的最低音,妇女和儿童具有更高的音高(虽然每个人都有广泛的变异和重叠)。
发音可以被邻近的声音、说话者的速度和说话者的健康状况所影响,当一个人感冒的时候,就要考虑发音的变化。
最后,考虑到不是所有的语音都是有意义的声音组成。
通常语音自身是没有任何意义的,但有些用作分手话语以传达说话人的微妙感情或动机的信息:哦,就像,你知道,好的。
也有一些听起来都不认为是字,这是一项词性的:呃,嗯,嗯。
嗽、打喷嚏、谈笑风生、呜咽,甚至打嗝的可以成为上述的内容之一。
在噪杂的地方与环境自身的噪声中,即使语音识别也是困难的。
“我昨天去了商店”的波形图“我昨天去了商店”的光谱图语音识别的发展史尽管困难重重,语音识别技术却随着数字计算机的诞生一直被努力着。
早在1952年,研究人员在贝尔实验室就已开发出了一种自动数字识别器,取名“奥黛丽”。
如果说话的人是男性,并且发音者在词与词之间停顿350毫秒并把把词汇限制在1—9之间的数字,再加上“哦”,另外如果这台机器能够调整到适应说话者的语音习惯,奥黛丽的精确度将达到97℅—99℅,如果识别器不能够调整自己,那么精确度将低至60℅.奥黛丽通过识别音素或者两个截然不同的声音工作。
这些因素与识别器经训练产生的参考音素是有关联的。
在接下来的20年里研究人员花了大量的时间和金钱来改善这个概念,但是少有成功。
计算机硬件突飞猛进、语音合成技术稳步提高,乔姆斯基的生成语法理论认为语言可以被程序性地分析。
然而,这些似乎并没有提高语音识别技术。
乔姆斯基和哈里的语法生成工作也导致主流语言学放弃音素概念,转而选择将语言的声音模式分解成更小、更易离散的特征。
1969年皮尔斯坦率地写了一封信给美国声学学会的会刊,大部分关于语音识别的研究成果都发表在上面。
皮尔斯是卫星通信的先驱之一,并且是贝尔实验室的执行副主任,贝尔实验室在语音识别研究中处于领先地位。
皮尔斯说所有参与研究的人都是在浪费时间和金钱。
如果你认为一个人之所以从事语音识别方面的研究是因为他能得到金钱,那就太草率了。
这种吸引力也许类似于把水变成汽油、从海水中提取黄金、治愈癌症或者登月的诱惑。
一个人不可能用削减肥皂成本10℅的方法简单地得到钱。
如果想骗到人,他要用欺诈和诱惑。
皮尔斯1969年的信标志着在贝尔实验室持续了十年的研究结束了。
然而,国防研究机构ARPA选择了坚持下去。
1971年他们资助了一项开发一种语音识别器的研究计划,这种语音识别器要能够处理至少1000个词并且能够理解相互连接的语音,即在语音中没有词语之间的明显停顿。
这种语音识别器能够假设一种存在轻微噪音背景的环境,并且它不需要在真正的时间中工作。
到1976年,三个承包公司已经开发出六种系统。
最成功的是由卡耐基麦隆大学开发的叫做“Harpy”的系统。
“Harpy”比较慢,四秒钟的句子要花费五分多钟的时间来处理。
并且它还要求发音者通过说句子来建立一种参考模型。
然而,它确实识别出了1000个词汇,并且支持连音的识别。
研究通过各种途径继续着,但是“Harpy”已经成为未来成功的模型。
它应用隐马尔科夫模型和统计模型来提取语音的意义。
本质上,语音被分解成了相互重叠的声音片段和被认为最可能的词或词的部分所组成的几率模型。
整个程序计算复杂,但它是最成功的。
在1970s到1980s之间,关于语音识别的研究继续进行着。
到1980s,大部分研究者都在使用隐马尔科夫模型,这种模型支持着现代所有的语音识别器。
在1980s后期和1990s,DARPA资助了一些研究。
第一项研究类似于以前遇到的挑战,即1000个词汇量,但是这次要求更加精确。
这个项目使系统词汇出错率从10℅下降了一些。
其余的研究项目都把精力集中在改进算法和提高计算效率上。
2001年微软发布了一个能够与0ffice XP 同时工作的语音识别系统。
它把50年来这项技术的发展和缺点都包含在内了。
这个系统必须用大作家的作品来训练为适应某种指定的声音,比如埃德加爱伦坡的厄舍古屋的倒塌和比尔盖茨的前进的道路。
即使在训练之后,该系统仍然是脆弱的,以至于还提供了一个警告:“如果你改变使用微软语音识别系统的地点导致准确率将降低,请重新启动麦克风”。
从另一方面来说,该系统确实能够在真实的时间中工作,并且它确实能识别连音。
语音识别的今天技术当今的语音识别技术着力于通过共振和光谱分析来对我们的声音产生的声波进行数学分析。
计算机系统第一次通过数字模拟转换器记录了经过麦克风传来的声波。
那种当我们说一个词的时候所产生的模拟的或者持续的声波被分割成了一些时间碎片,然后这些碎片按照它们的振幅水平被度量,振幅是指从一个说话者口中产生的空气压力。
为了测量振幅水平并且将声波转换成为数字格式,现在的语音识别研究普遍采用了奈奎斯特—香农定理。
奈奎斯特—香农定理奈奎斯特—香农定理是在1928年研究发现的,该定理表明一个给定的模拟频率能够由一个是原始模拟频率两倍的数字频率重建出来。
奈奎斯特证明了该规律的真实性,因为一个声波频率必须由于压缩和疏散各取样一次。
例如,一个20kHz的音频信号能准确地被表示为一个44.1kHz的数字信号样本。
工作原理语音识别系统通常使用统计模型来解释方言,口音,背景噪音和发音的不同。
这些模型已经发展到这种程度,在一个安静的环境中准确率可以达到90℅以上。
然而每一个公司都有它们自己关于输入处理的专项技术,存在着4种关于语音如何被识别的共同主题。
1.基于模板:这种模型应用了内置于程序中的语言数据库。
当把语音输入到系统中后,识别器利用其与数据库的匹配进行工作。
为了做到这一点,该程序使用了动态规划算法。
这种语音识别技术的衰落是因为这个识别模型不足以完成对不在数据库中的语音类型的理解。
2.基于知识:基于知识的语音识别技术分析语音的声谱图以收集数据和制定规则,这些数据和规则回馈与操作者的命令和语句等值的信息。
这种识别技术不适用关于语音的语言和语音知识。
3.随机:随机语音识别技术在今天最为常见。
随机语音分析方法利用随机概率模型来模拟语音输入的不确定性。
最流行的随机概率模型是HMM(隐马尔科夫模型)。
如下所示:Yt是观察到的声学数据,p(W)是一个特定词串的先天随机概率,p(Yt∣W)是在给定的声学模型中被观察到的声学数据的概率,W是假设的词汇串。
在分析语音输入的时候,HMM被证明是成功的,因为该算法考虑到了语言模型,人类说话的声音模型和已知的所有词汇。
1.联结:在联结主义语音识别技术当中,关于语音输入的知识是这样获得的,即分析输入的信号并从简单的多层感知器中用多种方式将其储存在延时神经网络中。
如前所述,利用随机模型来分析语言的程序是今天最流行的,并且证明是最成功的。
识别指令当今语音识别软件最重要的目标是识别指令。
这增强了语音软件的功能。
例如微软Sync 被装进了许多新型汽车里面,据说这可以让使用者进入汽车的所有电子配件和免提。
这个软件是成功的。
它询问使用者一系列问题并利用常用词汇的发音来得出语音恒量。
这些常量变成了语音识别技术算法中的一环,这样以后就能够提供更好的语音识别。
当今的技术评论家认为这项技术自20世纪90年代开始已经有了很大进步,但是在短时间内不会取代手控装置。
听写关于指令识别的第二点是听写。
就像接下来讨论的那样,今天的市场看重听写软件在转述医疗记录、学生试卷和作为一种更实用的将思想转化成文字方面的价值。
另外,许多公司看重听写在翻译过程中的价值,在这个过程中,使用者可以把他们的语言翻译成为信件,这样使用者就可以说给他们母语中另一部分人听。
在今天的市场上,关于该软件的生产制造已经存在。
语句翻译中存在的错误当语音识别技术处理你的语句的时候,它们的准确率取决于它们减少错误的能力。
它们在这一点上的评价标准被称为单个词汇错误率(SWER)和指令成功率(CSR)。
当一个句子中一个单词被弄错,那就叫做单个词汇出错。
因为SWERs在指令识别系统中存在,它们在听写软件中最为常见。
指令成功率是由对指令的精确翻译决定的。
一个指令陈述可能不会被完全准确的翻译,但识别系统能够利用数学模型来推断使用者想要发出的指令。
商业主要的语音技术公司随着语音技术产业的发展,更多的公司带着他们新的产品和理念进入这一领域。
下面是一些语音识别技术领域领军公司名单(并非全部)NICE Systems(NASDAQ:NICE and Tel Aviv:Nice),该公司成立于1986年,总部设在以色列,它专长于数字记录和归档技术。
他们在2007年收入5.23亿美元。
欲了解更多信息,请访问 Verint系统公司(OTC:VRNT),总部设在纽约的梅尔维尔,创立于1994年把自己定位为“劳动力优化智能解决方案,IP视频,通讯截取和公共安全设备的领先供应商。
详细信息,请访问Nuance公司(纳斯达克股票代码:NUAN)总部设在伯灵顿,开发商业和客户服务使用语音和图像技术。