语音识别

各大实验室和研究成果

实验室

语音识别与合成

Speech at Carnegie Mellon University

鼎鼎大名的CMU语音组。著名的Sphinx系统的诞生地，李开复当年作研究的地方

https://www.360docs.net/doc/f513612650.html,/

The Center for Language and Speech Processing (CLSP) at The Johns Hopkins University

著名的Jelinek教授领导的语言与语音处理组

https://www.360docs.net/doc/f513612650.html,/

Speech Research-----确是非常全的一个网站

国外比较全的一个语音技术研究的链接

https://www.360docs.net/doc/f513612650.html,/psl/speech.html

Signal Compression Lab, Department of Electrical and Computer Engineering

著名的Allen Gersho教授所在的实验室－University of California, Santa Babra。该实验室包括好几位杰出的教授，像K.Rose, V. Cuperman等等。该校非常令人尊敬的地方是从这里毕业的学生有很多后来都成为了学术科研上的佼佼者

https://www.360docs.net/doc/f513612650.html,/index.htm

The Speech Recognition Group

Rutgers大学CAPI中心下的语音识别组。论文集Modern Methods of Speech Processing中的R.P. Ramachandran就是该中心的教授

https://www.360docs.net/doc/f513612650.html,/ARPA-SLT

Speech Processing Laboratory at at Michigan State University

著名的Deller教授所领导的语音处理研究组

https://www.360docs.net/doc/f513612650.html,/~deller/speechlab_people.html

Purdue University Speech and Language Processing Research Group

Purdue大学语音处理研究组

https://www.360docs.net/doc/f513612650.html,/~speechg

研究成果

早在计算机发明之前，自动语音识别的设想就已经被提上了议事日程，早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器，当这只狗的名字被呼唤的时候，它能够从底座上弹出来。

最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统，它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。。

到1950年代末，伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。1960年代，人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC)，及动态时间弯折Dynamic Time Warp技术。

语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理，经过Labiner等人的研究，卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。。此后严格来说语音识别技术并没有脱离HMM框架.

语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统，它是第一个可以识别十个英文数字的语音识别系统。但真正取得实质性进展，并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能，更重要的是语音信号线性预测编码（LPC）技术和动态时间规整（DTW）技术的提出，有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理，研究的领域局限在特定人，小词汇表的孤立词识别，实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统；同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

实验室语音识别研究的巨大突破产生于20世纪80年代末：人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，第一次把这三个特性都集成在一个系统中，比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统，它是第一个高性能的非特定人、大词汇量连续语音识别系统。这一时期，语音识别研究进一步走向深入，其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力，他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识，从而使统计方法成为了语音识别技术的主流。统计方法将研究者的视线从微观转向宏观，不再刻意追求语音特征的细化，而是更多地从整体平均（统计）的角度来建立最佳的语音识别系统。在声学模型方面，以Markov链为基础的语音序列建模方法HMM（隐式Markov链）比较有效地解决了语音信号短时稳定、长时时变的特性，并且能根据一些基本建模单元构造成连续语音的句子模型，达到了比较高的建模精度和建模灵活性。在语言层面上，通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外，人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。

20世纪90年代前期，许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制，那就是识别的准确率，而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有：

IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform语音平台，Microsoft的Whisper,Sun的VoiceTone等。其中IBM 公司于1997年开发出汉语ViaVoice语音识别系统，次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice'98。它带有一个32,000词的基本词汇表，可以扩展到65,000词,还包括办公常用词条，具有“纠错机制”，其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度，是目前具有代表性的汉语连续语音识别系统。

语音识别的研究工作大约开始于上世纪50年代，当时AT&T的Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。20世纪60年代，计算机的应用推动了语音识别的发展。这一时期的重要成果是提出了动态规划（DP）和线性预测分析技术（LP），其中后者较好地解决了语音信号产生模型的问题，对语音识别的发展产生了深远影响。20世纪70年代，语音识别领域取得了突破。在理论上，LP技术得到进一步发展，动态时间归正技术（DTW）基本成熟，特别是提出了矢量量化（VQ）和隐马尔可夫模型（HMM）理论。在实践上，实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。20世纪80年代，语音识别研究进一步走向深入，其显著特征是HMM模型和人工神经元网络（ANN）在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&T 的Bell实验室Rabiner等科学家的努力，他们把原本艰涩的HMM纯数学模型工程化，从而为更多研究者了解和认识。采用ANN和HMM模型建立的语音识别系统，性能相当。进入20世纪90年代，随着多媒体时代的来临，迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。我国语音识别研究工作一直紧跟国际水平，国家也给予了高度重视。鉴于中国未来庞大的市场，国外也非常重视汉语语音识别的研究。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者，研究成果已达到相当高水平。因此，国内除了要加强理论研究外，更要加快从实验室演示系统到商品的转化。语音识别系统可有不同的分类方式。（1）根据对说话人说话方式的要求，可以分为孤立字（词）语音识别系统，连接字语音识别系统以及连续语音识别系统。（2）根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。（3）根据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取等问题。

由于语音识别系统应用环境的复杂性，各种干扰因素往往导致语音识别系统的性能急剧地下降，因此，如何提高语音识别系统对各种干扰因素的鲁棒性和自适应能力，就成为语音识别技术走向实用化的关键问题。针对语音识别系统中存在着环境差异和环境噪音的问题，在MAP（Maximum a Posterior，最大后验估计）和MLLR（Maximum Likelihood Linear Regression，最大似然线性回归）两种说话人自适应方法的基础上，采用了一种新的渐进使用自适应数据的策略，给出了一种快速综合渐进语音识别自适应方法。实验结果表明，快速综合渐进语音识别自适应方法即使在自适应数据比较少的情况下也可以取得较好的语音识别效果，在一定程度上克服了说话人差异和环境差异对语音识别系统的影响，在无噪音和有噪音的渐进自适

应情况下分别可以降低识别字错误率23.03%和29.69%。给出了用说话人聚类方法为自适应提供一个更好的初始声学模型的说话人自适应方法。该方法以模型自适应技术为核心，采用说话人聚类技术减小训练集的特征分布离散度和基元间混迭度，利用自适应数据为自适应过程选择最适当的初始声学模型，可以极大程度地提高SI（Speaker Independent，非特定人）语音识别系统的性能。针对传统的VTLN（Vocal Tract Length Normalization，声道长度归一化）方法用单一声道因子来描述说话人差异导致频谱弯折函数无法将不同的共振峰同时对齐的问题，提出了用更为细致的频谱弯折函数来完成频谱归一化方法，即基于分段线性弯折函数的频谱归一化方法。在适当的频谱分段下，该方法较好地完成了频谱对齐的任务。传统的声道长度归一化方法可以看作该方法在分段数为2时的特例。由于利用了与模型无关的频谱弯折函数，该方法被证明是一种适用于无监督模式的说话人自适应方法，具有很高的鲁棒性。在基于统计模型化说话人归一化训练方法、CMN（Cepstral Mean Normalization，倒谱均值归一化）方法和说话人自适应训练方法分析基础上，提出了与状态相关的直接均值移动归一化训练方法，并将之与模型自适应方法结合，得到基于MAP估计的直接均值移动归一化训练和MAP/WNR（Weighted Neighbor Regression，加权近邻回归）模型自适应结合方法。实验结果表明，直接均值移动归一化训练方法是一种较好的有监督模式下的鲁棒性方法。

(1)特定人语音识别系统：仅考虑对于专人的话音进行识别；(2)非特定人语音系统：识别的语音与人无关，通常要用大量不同人的语音数据库对识别系统进行学习；(3)多人的识别系统：通常能识别一组人的语音，或者成为特定组语音识别系统，该系统仅要求对要识别的那组人的语音进行训练。从说话的方式考虑也可以将识别系统分为3类：(1)孤立词语音识别系统：孤立词识别系统要求输入每个词后要停顿；(2)连接词语音识别系统：连接词输入系统要求对每个词都清楚发音，一些连音现象开始出现；(3)连续语音识别系统：连续语音输入是自然流利的连续语音输入，大量连音和变音会出现。从识别系统的词汇量大小考虑也可以将识别系统分为3类：(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高，识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。

几种基本方法

一般来说,语音识别的方法有三种：基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。基于语音学和声学的方法该方法起步较早，在语音识别技术提出的开始，就有了这方面的研究，但由于其模型及语音知识过于复杂，现阶段没有达到实用的阶段。通常认为常用语言中有有限个不同的语音基元，而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现：第一步，分段和标号把语音信号按时间分成离散的段，每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号第二步，得到词序列根据第一步所得语音标号序列得到一个语音基元网格，从词典得到有效的词序列，也可结合句子的文法和语义同时进行。

模板匹配的方法

模板匹配的方法发展比较成熟，目前已达到了实用阶段。在模板匹配方法中，要经过四个步骤：特征提取、模板训练、模板分类、判决。常用的技术有三种：动态时间规整(DTW)、隐马尔可夫（HMM）理论、矢量量化（VQ）技术。1、动态时间规整(DTW) 语音

信号的端点检测是进行语音识别中的一个基本步骤，它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置，从语音信号中排除无声段。在早期，进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。60年代日本学者Itakura提出了动态时间规整算法(DTW：DynamicTimeWarping)。算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。在这一过程中，未知单词的时间轴要不均匀地扭曲或弯折，以使其特征与模型特征对正。2、隐马尔可夫法(HMM) 隐马尔可夫法(HMM)是70年代引入语音识别理论的，它的出现使得自然语音识别系统取得了实质性的突破。HMM方法现已成为语音识别的主流技术，目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型，将之看作一个数学上的双重随机过程：一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。可见HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。3、矢量量化(VQ) 矢量量化(VectorQuantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是：将语音信号波形的k个样点的每一帧，或有k个参数的每一参数帧，构成k维空间中的一个矢量，然后对矢量进行量化。量化时，将k维无限空间划分为M个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量，实现最大可能的平均信噪比。核心思想可以这样理解：如果一个码书是为某一特定的信源而优化设计的，那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真，也就是说编码器本身存在区分能力。在实际的应用过程中，人们还研究了多种降低复杂度的方法，这些方法大致可以分为两类：无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。

4.神经网络的方法

利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点，目前仍处于实验探索阶段。由于ANN不能很好的描述语音信号的时间动态特性，所以常把ANN与传统识别方法结合，分别利用各自优点来进行语音识别。

编辑本段语音识别系统的结构

一个完整的基于统计的语音识别系统可大致分为三部分：(1)语音信号预处理与特征提取; (2)声学模型与模式匹配; (3)语言模型与语言处理、语音信号预处理与特征提取选择识别单元是语音识别研究的第一步。语音识别单元有单词（句）、音节和音素三种，具体选择哪一种，由具体的研究任务决定。单词（句）单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。音素单元以前多见于英语语音识别的研究中，

但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母（包括零声母有22个）和韵母（共有28个）构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音信号进行分析处理，去掉与语音识别无关的冗余信息，获得影响语音识别的重要信息，同时对语音信号进行压缩。在实际应用中，语音信号的压缩率介于10-100之间。语音信号包含了大量各种不同的信息，提取哪些信息，用哪种方式提取，需要综合考虑各方面的因素，如成本，性能，响应时间，计算量等。非特定人语音识别系统一般侧重提取反映语义的特征参数，尽量去除说话人的个人信息；而特定人语音识别系统则希望在提取反映语义的特征参数的同时，尽量也包含说话人的个人信息。线性预测（LP）分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。Mel参数和基于感知线性预测（PLP）分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。从目前使用的情况来看，梅尔刻度式倒频谱参数已逐渐取代原本常用的线性预测编码导出的倒频谱参数，原因是它考虑了人类发声与接收声音的特性，具有更好的鲁棒性（Robustness）。也有研究者尝试把小波分析技术应用于特征提取，但目前性能难以与上述技术相比，有待进一步研究。

声学模型与模式匹配

声学模型通常是将获取的语音特征使用训练算法进行训练后产生。在识别时将输入的语音特征同声学模型（模式）进行匹配与比较，得到最佳的识别结果。声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小（字发音模型、半音节模型或音素模型）对语音训练数据量大小、系统识别率，以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。以汉语为例：汉语按音素的发音特征分类分为辅音、单元音、复元音、复鼻尾音四种，按音节结构分类为声母和韵母。并且由音素构成声母或韵母。有时，将含有声调的韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的一个音节就是汉语一个字的音，即音节字。由音节字构成词，最后再由词构成句子。汉语声母共有22个，其中包括零声母，韵母共有38个。按音素分类，汉语辅音共有22个，单元音13个，复元音13个，复鼻尾音16个。目前常用的声学模型基元为声韵母、音节或词，根据实现目的不同来选取不同的基元。汉语加上语气词共有412个音节，包括轻音字，共有1282个有调音节字，所以当在小词汇表孤立词语音识别时常选用词作为基元，在大词汇表语音识别时常采用音节或声韵母建模，而在连续语音识别时，由于协同发音的影响，常采用声韵母建模。基于统计的语音识别模型常用的就是HMM模型λ(N,M,π,A,B)，涉及到HMM模型的相关理论包括模型的结构选取、模型的初始化、模型参数的重估以及相应的识别算法等。

语言模型与语言处理

语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正，特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法

结构命令语言模型。语法结构可以限定不同词之间的相互连接关系，减少了识别系统的搜索空间，这有利于提高系统的识别。

实现非特定人、大词汇表的连续语音识别有两条主要途径,一条是知识工程或称为专家系统的途径,另一条则是统计方法的途径。前者已经不是现代语音识别研究的主流。所谓语音识别的概率统计方法,就是从底层到顶层,将全部语音的统计知识容纳在一个统一的隐含马尔可夫模型(HMM)框架内的研究方法。非特定人大词汇表连续语音识别系统的研究主要集中在声学模型、语言模型和训练识别算法等方面。

1. 声学模型。声学模型是识别系统的底层模型,是语音识别系统中最关键的部分。声学模型的目标是计算语音特征矢量序列和每个发音模板之间的距离。声学模型的设计就是找到最小的识别单元,并为之建立HMM模型,它与语言的发音特点密切相关。识别单元的大小对语音训练数据量的大小、识别率和灵活性有较大影响。识别单元可以是词、字、半音节或音素。汉语识别单元的最新研究集中在半音节、二音子、三音子和五音子上。

选取语音的识别特征参数也是语音识别研究中非常重要的一个方面。比较有效的识别参数为Mel频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)和感觉加权的线性预测倒谱系数(PLPCC)。

2. 语言模型。语言模型是指语言中的一些规则或语法结构,也可以是表现字或词上下文之间的统计模型。由于语音信号的复杂性,不同发音之间存在叠接现象,有些单音如果前后没有联想即使人来分辨也很困难,借助于语言模型则可以提高声学模型的区分度。目前比较成熟的模型是统计语言模型,它通过对大量文本文件的统计提取不同字、词之间的统计关系。语音识别中常用的语言模型为N元文法语言模型,其根据已知前(N-1)个词预测当前第N个词的发生概率。这些常规语言模型的主要缺点是不能做到与任务无关。例如从新闻语料中训练出来的语言模型不能用于识别文学方面的有关内容。更先进的语言模型还有语义模型和词性模型。

3. 语音识别系统的训练算法和识别算法。在确定了声学模型和语言模型后,语音识别系统余下的重要问题还要研究有效的训练算法和识别算法。语音识别系统的训练包括声学模型和语言模型的训练。声学模型的训练采用多步训练方法；语言模型的训练通过对大量的语料进行统计而建立。系统的识别算法要根据语言的特点、模型的整体结构进行设计。语音识别的搜索算法可以分为两类,一类为深度优先(depth-first),一类为宽度优先(breadth-first)。深度优先算法通常用堆栈解码器、A*解码算法；深度优先算法使用维特比解码算法。

语音识别如何处理工作语音识别功能三个处理阶段

语音识别如何处理工作语音识别功能三个处理阶段当今的消费者对技术的要求日益提升，这一点在用于与设备进行互动的界面技术上体现得尤为明显。人们对包括手机、车载电子、家用网络和办公环境下的设备要求越来越高，要求它们能够融入更易操作的、更直观的用户界面，以更贴切反映人与人之间的互动关系。在每一个新的产品周期中，设计人员都倍感压力，要设计出操作更加精确、用户界面更加直观的产品。近年来，继触屏技术逐渐普及到包括电话、平板电脑、显示器、销售点解决方案、ATM和查询机等设备之后，语音识别技术正在快速成为驱动产品创新与运用的下一代用户界面技术。语音识别，甚至是手势与影像识别，成为各种工作与个人设备的标准配备只是个时间问题。由于语音识别技术在某种程度上受制于嵌入式应用的发展，因此其至今仍然处于发展的初期。然而，语音识别交互界面技术将最终被广泛采用，这是技术发展的大势所趋。汽车工业已经在计划引入更多具备更强嵌入式语音识别功能的尖端模块。语音识别技术之所以发展缓慢，部分是由于用户界面越直观，其所需的处理能力与内存就呈指数级别上升，这反过来促进了闪存技术的创新发展。正如大多数设计人员所熟知的那样，用户界面越直观，其所需的技术平台与设计就越复杂。用户界面技术将消耗更多的计算能力与闪存，才能在达到高性能的处理能力的同时，保持最佳用户体验。一种解决方案是采用专门的硬件，即具有下一代闪存能力、集成了逻辑与灵活软件算法的专用协处理器。这些协处理器能够作为独立的硬件加速器分担主应用处理器的负担，从而获得市场上最高水平的用户体验。人机交互界面的演进自从电脑鼠标问世以来，HMI（人机交互）技术取得了长足进步。用户界面的创新从历史上看可归功于新器件的成功运用，例如，从老款移动电话的实体按键变为智能手机的触屏。打造具有吸引力的用户界面极具挑战性，需要相当复杂的系统来创造功能性强、易于访问、逻辑清晰与令人愉悦的用户体验。这种复杂系统对高可靠性、高性能硬件提在处理能力和

语音识别技术综述

语音识别技术综述电子信息工程2010级1班郭珊珊【摘要】随着计算机处理能力的迅速提高，语音识别技术得到了飞速发展，该技术的发展和应用改变了人们的生产和生活方式，正逐步成为计算机处理技术中的关键技术。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。【关键词】语音识别；语音识别原理；语音识别发展；产品语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器人自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的命令或文本的高新技术。 1 语音识别的原理语音识别系统本质是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单位元。未知语音经过话筒变换成电信号后加载识

别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需特征，在此基础上建立语音识别所需的模板。计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表可给出计算机的识别结果。这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。 2 语音识别系统的分类语音识别系统可以根据对输入语音的限制加以分类。 2.1从说话者与识别系统的相关性考虑可以将识别系统分为3类：(1)特定人语音识别系统：仅考虑对于专人的话音进行识别；(2)非特定人语音系统：识别的语音与人无关，通常要用大量不同人的语音数据库对识

别系统进行学习；(3)多人的识别系统：通常能识别一组人的语音，或者成为特定组语音识别系统，该系统仅要求对要识别的那组人的语音进行训练。 2.2从说话的方式考虑也可以将识别系统分为3类：(1)孤立词语音识别系统：孤立词识别系统要求输入每个词后要停顿；(2)连接词语音识别系统：连接词输入系统要求对每个词都清楚发音，一些连音现象开始出现；(3)连续语音识别系统：连续语音输入是自然流利的连续语音输入，大量连音和变音会出现。 2.3从识别系统的词汇量大小考虑也可以将识别系统分为3类：(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高，识别

语音识别系统实验报告材料

语音识别系统实验报告专业班级：信息安全学号：姓名：

目录一、设计任务及要求 (1) 二、语音识别的简单介绍 2.1语者识别的概念 (2) 2.2特征参数的提取 (3) 2.3用矢量量化聚类法生成码本 (3) 2.4VQ的说话人识别 (4) 三、算法程序分析 3.1函数关系 (4) 3.2代码说明 (5) 3.2.1函数mfcc (5) 3.2.2函数disteu (5) 3.2.3函数vqlbg (6)

3.2.4函数test (6) 3.2.5函数testDB (7) 3.2.6 函数train (8) 3.2.7函数melfb (8) 四、演示分析 (9) 五、心得体会 (11) 附：GUI程序代码 (12) 一、设计任务及要求实现语音识别功能。二、语音识别的简单介绍

基于VQ的说话人识别系统，矢量量化起着双重作用。在训练阶段，把每一个说话者所提取的特征参数进行分类，产生不同码字所组成的码本。在识别(匹配)阶段，我们用VQ方法计算平均失真测度(本系统在计算距离d时，采用欧氏距离测度)，从而判断说话人是谁。语音识别系统结构框图如图1所示。图1 语音识别系统结构框图 2.1语者识别的概念语者识别就是根据说话人的语音信号来判别说话人的身份。语音是人的自然属性之一，由于说话人发音器官的生理差异以及后天形成的行为差异，每个人的语音都带有强烈的个人色彩，这就使得通过分析语音信号来识别说话人成为可能。用语音来鉴别说话人的身份有着许多独特的优点，如语音是人的固有的特征，不会丢失或遗忘；语音信号的采集方便，系统设备成本低；利用电话网络还可实现远程客户服务等。因此，近几年来，说话人识别越来越多的受到人们的重视。与其他生物识别技术如指纹识别、手形识别等相比较，说话人识别不仅使用方便，而且属于非接触性，容易被用户接受，并且在已有的各种生物特征识别技术中，

语音识别输入系统

IBM语音识别输入系统(ViaVioce) V9.1 简体中文光盘版| 用嘴巴控制电脑... sjyhsyj 2009-8-28 12:13:271# 软件大小：276.08MB 软件语言：多国语言软件类别：国外软件 / 汉字输入运行环境：Win9x/NT/2000/XP/ 软件介绍：该系统可用于声控打字和语音导航。只要对着微机讲话，不用敲键盘即可打汉字，每分钟可输入150个汉字，是键盘输入的两倍，是普通手写输入的六倍。该系统识别率可达95%以上。并配备了高性能的麦克风，使用便利，特别适合于起草文稿、撰写文章、和准备教案，是文职人员、作家和教育工作者的良好助手。 IBM潜心研究26年，他领导了世界的语音识别技术，其语音识别产品在全球销售已达一百万套以上。使用语音输入方式，您的工作空间更加自由舒畅: *即使您不会打字，也可迅速准备好文稿； *只要集中精力思考问题，无须琢磨怎样拼音，怎样拆字； *当您疲劳时,闭上眼、伸伸腰，双手方在脑后，然后轻松地说：开始听写吧... ... 注：价值超数千元的IBM的中文语音录入工具，有耳麦的朋友可以试一试，也可以当作学习普通话的工具，没有理由不下载使用它。 IBM ViaVoice语音输入系统详解作者: 艾寒出处: 天极网目前汉字输入的方式主要有四种：键盘输入，手写输入，扫描输入和我们现在要谈到的语音输入。让我们先来了解一下这四种输入方式。键盘输入：键盘输入基本上是基于各种输入法，主要又分为字形输入法和拼音输入法。实际上字形输入法是不符合人的写作思维习惯，因为人们在措辞时，头脑中首先反映出的是即将这个词语的语音，所以字形输入法更适合专业录入人员使用。拼音输入法也分两种，一种以词语为输入单位，另一种以语句为输入单位，而后者不符合写作的思维习惯，因为人们在写作时是以词为思考单位。键盘输入法在输入速度有要求的情况下对于键盘操作、指法要求比较高；手写输入：手写输入是最容易上手的输入方法，但是同样由于手写输入的先天不足，很难达到较高的输入速度；扫描输入：扫描输入对于硬件要求比较高，主要是适用于资料的整理；语音输入：语音输入对输入人员的键盘操作能力、指法要求很低，几乎可以说你只要会说汉语，就可以进行语音输入。语音输入尤其是汉字语音输入经历了很长时间的研究和应用，到目前已经达到了一个相

语音识别发展现状与展望

中国中文信息学会第七次全国会员代表大会暨学会成立30周年学术会议语音识别发展现状与展望中科院自动化研究所徐波 2011年12月4日

报告提纲 ?语音识别技术现状及态势?语音识别技术的行业应用?语音识别技术研究方向?结论与展望

2010年始语音识别重新成为产业热点?移动互联网的兴起成为ASR最重要的应用环境。在Google引领下，互联网、通信公司纷纷把语音识别作为重要研究方向 –Android系统内嵌语音识别技术，Google语音翻译等； –iPhone4S 上的Siri软件； –百度、腾讯、盛大、华为等都进军语音识别领域； –我国语音技术领军企业讯飞2010年推出语音云识别、讯飞口讯 –已有的QQ2011版语音输入等等

成熟度分析-技术成熟度曲线 ?美国市场调查咨询公司Gartner于2011年7月发布《2011新兴技术成熟度曲线》报告：

成熟度分析-新兴技术优先矩阵?Gartner评出了2011年具有变革作用的技术，包括语音识别、语音翻译、自然语言问答等。其中语音翻译和自然语言问答有望在5-10年内获得大幅利用，而语音识别有望在2-5年内获得大幅利用；

三十年语音识别技术发展 ---特征提取与知识方面?MFCC，PLP，CMS，RASTA，VTLN；?HLDA, fMPE，neural net-based features ?前端优化 –融入更多特征信息(MLP、TrapNN、Bottle Neck Features等） ?特征很大特点有些是跟模型的训练算法相匹配?大规模FSN图表示，把各种知识源集中在一起–bigram vs. 4-gram, within word dependencies vs. cross-word

基于matlab的语音识别系统

机电信息工程学院专业综合课程设计系：信息与通信工程专业：通信工程班级：081班设计题目：基于matlab的语音识别系统学生姓名：指导教师：完成日期：2011年12月27日

一．设计任务及要求 1.1设计任务作为智能计算机研究的主导方向和人机语音通信的关键技术，语音识别技术一直受到各国科学界的广泛关注。以语音识别开发出的产品应用领域非常广泛，有声控电话交换、语音拨号系统、信息网络查询、家庭服务、宾馆服务、旅行社服务系统、订票系统、声控智能玩具、医疗服务、银行服务、股票查询服务、计算机控制、工业控制、语音通信系统、军事监听、信息检索、应急服务、翻译系统等，几乎深入到社会的每个行业、每个方面，其应用和经济社会效益前景非常广泛。本次任务设计一个简单的语音识别系。 1.2设计要求要求：使用matlab软件编写语音识别程序二．算法方案选择 2.1设计方案语音识别属于模式识别范畴，它与人的认知过程一样，其过程分为训练和识别两个阶段。在训练阶段，语音识别系统对输入的语音信号进行学习。学习结束后，把学习内容组成语音模型库存储起来；在识别阶段，根据当前输入的待识别语音信号，在语音模型库中查找出相应的词义或语义。语音识别系统与常规模式识别系统一样包括特征提取、模式匹配、模型库等3个基本单元，它的基本结构如图1所示。图1 语音识别系统基本结构图本次设计主要是基于HMM模型（隐马尔可夫模型）。这是在20世纪80年代引入语音识别领域的一种语音识别算法。该算法通过对大量语音数据进行数据统计，建立识别词条的统计模型，然后从待识别语音信号中提取特征，与这些模

型进行匹配，通过比较匹配分数以获得识别结果。通过大量的语音，就能够获得一个稳健的统计模型，能够适应实际语音中的各种突发情况。并且，HMM算法具有良好的识别性能和抗噪性能。 2.2方案框图图2 HMM语音识别系统 2.3隐马尔可夫模型 HMM过程是一个双重随机过程：一重用于描述非平稳信号的短时平稳段的统计特征（信号的瞬态特征）；另一重随机过程描述了每个短时平稳段如何转变到下一个短时平稳段，即短时统计特征的动态特性（隐含在观察序列中）。人的言语过程本质上也是一个双重随机过程，语音信号本身是一个可观测的时变列。可见，HMM合理地模仿了这一过程，是一种较为理想的语音信号模型。其初始状态概率向量π，状态转移概率矩阵向量A，以及概率输出向量B一起构成了HMM的3个特征参量。HMM 模型通常表示成λ={π，A，B}。 2.4HMM模型的三个基本问题 HMM模型的核心问题就是解决以下三个基本问题： (1)识别问题：在给定的观测序列O和模型λ=（A,B,π）的条件下，如何有效地计算λ产生观测序列O的条件概率P(O︱λ)最大。常用的算法是前后向算法，它可以使其计算量降低到N2T次运算。 (2)最佳状态链的确定：如何选择一个最佳状态序列Q=q1q2…qT，来解释观察序列O。常用的算法是Viterbi算法。 (3)模型参数优化问题：如何调整模型参数λ=(A,B,π)，使P(O︱λ)最大：这是三个问题中最难的一个，因为没有解析法可用来求解最大似然模型，所以只能使用迭代法(如Baum-Welch)或使用最佳梯度法。第一个问题是评估问题，即已知模型λ=(A,B,π)和一个观测序列O，如何计算由该模型λ产生出该观测序列O的概率，问题1的求解能够选择出与给定的观测序列最匹配的HMM模型。第二个问题力图揭露模型中隐藏着的部分，即找出“正确的”状态序列，这是一个典型的估计问题。

中文电脑的汉语语音输入系统及其方法与制作流程

一种汉语语音输入系统及其方法，用以将任意文句的汉语语音直接转换成相应的中文文字，该系统及其方法包括声音处理过程及语言解码过程两大部分。其特征在于声音处理过程利用“段落统计模型” 计算输入汉语语音的各单音节及声调的机率，进而辨识之；语言解码过程针对声音处理过程送来的一连串音节利用“词类双连中文语言模型”找出对应的中文字。一种包含“智慧型学习技术”的汉语听写机，用本方法将语音输入转换成文字显示。技术要求

1、一种汉语语音输入方法，用以将任意文句的汉语语音直接转换成相对应的中文文字，该方法包括声音处理过程以及语言解码过程两大部分，其特征在于，该声音处理过程利用“段落统计模型”计算输入汉语语音的每一音节以及声调的机率，进而辨识之；该语言解码过程针对该声音处理过程送来的一连串音节，以“马可夫中文语言模型”找出所对应的中文字。 2、根据权利要求1的方法，其特征在于，其中该“马可夫中文语言模型”是以“词”为基础，但以“字”来计算机率的“马可夫中文语言模型”。 3、根据权利要求1的方法，其特征在于，其中该以“词”为基础，以“字”来计算机率的“马可夫中文语言模型”系将输入的音节串所对应的同音字一一分割为若干个词，但根据两两相连的词之间相连的词头字及词尾字相连出现的机率，并比较每一个词出现的频率及前后文关系判断该音节的字。 4、根据权利要求1的方法，其特征在于，其中该“段落统计模型”的训练方式包含下列步骤：（1）若某一单音节α的总长度为T个音框，则将该单音节分为N段，每一段含有T/N个音框; （2）使用者重覆念该单音节数次，长度虽不尽相同，但同样等分成N段; （3）将所有上述单音节的第一段音框的特征向量合在一起，训练成第一段的状态; （4）将所有上述单音节的第二段音框的特征向量混合在一起，训练成第二段的状态，依此类推，训练出N个状态; （5）上述每个状态以M个高斯机率混合来描述，以上述音框的特征向量训练各个高斯机率的参数;和（6）上述M个状态即构成该音节α的“段落统计模型”。

盘点语音识别芯片原厂、方案、平台

语音识别芯片所涉及的技术包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。语音识别分类按照使用者的限制而言，语音识别芯片可以分为特定人语音识别芯片和非特定人语音识别芯片。特定人语音识别芯片是针对指定人的语音识别，其他人的话不识别，须先把使用者的语音参考样本存入当成比对的资料库，即特定人语音识别在使用前必须要进行语音训练，一般按照机器提示训练2遍语音词条即可使用。非特定人语音识别是不用针对指定的人的识别技术，不分年龄、性别，只要说相同语言就可以，应用模式是在产品定型前按照确定的十几个语音交互词条，采集200人左右的声音样本，经过PC算法处理得到交互词条的语音模型和特征数据库，然后烧录到芯片上。应用这种芯片的机器(智能娃娃、电子宠物、儿童电脑)就具有交互功能了。非特定人语音识别应用有的是基于音素的算法，这种模式下不需要采集很多人的声音样本就可以做交互识别，但是缺点是识别率不高，识别性能不稳定。语音识别基本原理嵌入式语音识别系统都采用了模式匹配的原理。录入的语音信号首先经过预处理，包括语音信号的采样、反混叠滤波、语音增强，接下来是特征提取，用以从语音信号波形中提取一组或几组能够描述语音信号特征的参数。特征提取之后的数据一般分为两个步骤，第一步是系统"学习"或"训练"阶段，这一阶段的任务是构建参考模式库，词表中每个词对应一个参考模式，它由这个词重复发音多遍，再经特征提取和某种训练中得到。第二是"识别"或"测试"阶段，按照一定的准则求取待测语音特征参数和语音信息与模式库中相应模板之间的失真测度，最匹配的就是识别结果。语音识别四大平台 1、科大讯飞科大讯飞股份有限公司成立于1999年，是一家专业从事智能语音及语言技术、人工智能技术研究，软件及芯片产品开发，语音信息服务及电子政务系统集成的国家级骨干软件企业。2008年，科大讯飞在深圳证券交易所挂牌上市，股票代码：002230。 11月23日科大讯飞轮值总裁胡郁在发布会上引述了罗永浩在9 月锤子发布会上的演示数据，表示科大讯飞的语音输入识别成功率也达到了97%，即使是离线识别准确率也达到了95%。 2、云知声云知声成立于2012年6月。之前1年，Siri的发布再度唤醒了大家对语音识别的关注。经过四年多的积累，云知声的合作伙伴数量超过2万家，覆盖用户超过1.8亿，其中语音云平台覆盖城市超过470个，覆盖设备超过9000万台。 3、百度百度则在11月22日宣布向开发者开放了情感合成、远场方案、唤醒二期和长语音方案等四项语音识别技术。百度语音开放平台自2013 年10 月上线以来每日在线语音识别请求已经达到了1.4 亿次，开发者数量超过14 万。在如此庞大的数据支撑下，百度语音在“安静条件下”的识别准确率达到了97%。4、搜狗搜狗语音团队在11 月21 日推出了自己的语音实时翻译技术。搜狗的这项技术主要包括两个方面，分别是语音识别和机器翻译。根据该团队的介绍，搜狗语音识别的准确率达到了97%，支持最快400 字每秒的听写。语音识别芯片原厂及芯片方案 1、ICRoute 总部：上海简介：ICRoute专注于开拓语音识别的芯片市场,致力于研发出高性能的语音识别，语音处理芯片。为各种平台的电子产品提供VUI（Voice User Interface）语音人机交互界面。目前提供的语音识别芯片，可以在

基于matlab的语音识别技术

项目题目：基于Matlab的语音识别一、引言语音识别技术是让计算机识别一些语音信号，并把语音信号转换成相应的文本或者命令的一种高科技技术。语音识别技术所涉及的领域非常广泛，包括信号处理、模式识别、人工智能等技术。近年来已经从实验室开始走向市场，渗透到家电、通信、医疗、消费电子产品等各个领域，让人们的生活更加方便。语音识别系统的分类有三种依据:词汇量大小，对说话人说话方式的要求和对说话人的依赖程度。 (1)根据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量及无限词汇量识别系统。 (2)根据对说话人说话方式的要求，可以分为孤立字(词)语音识别系统、连接字语音识别系统及连续语音识别系统。 (3)根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。二、语音识别系统框架设计 2.1语音识别系统的基本结构

语音识别系统本质上是一种模式识别系统，其基本结构原理框图如图l所示，主要包括语音信号预处理、特征提取、特征建模(建立参考模式库)、相似性度量(模式匹配)和后处理等几个功能模块，其中后处理模块为可选部分。三、语音识别设计步骤 3.1语音信号的特征及其端点检测图2 数字‘7’开始部分波形图2是数字”7”的波形进行局部放大后的情况，可以看到，在6800之前的部分信号幅度很低，明显属于静音。而在6800以后，信号幅度开始增强，并呈现明显的周期性。在波形的上半部分可以观察到有规律的尖峰，两个尖峰之间的距离就是所谓的基音周期，实际上也就是说话人的声带振动的周期。这样可以很直观的用信号的幅度作为特征，区分静音和语音。只要设定一个

门限，当信号的幅度超过该门限的时候，就认为语音开始，当幅度降低到门限以下就认为语音结束。 3.2 语音识别系统 3.2.1语音识别系统的分类语音识别按说话人的讲话方式可分为3类：（1）即孤立词识别（isolated word recognition)，孤立词识别的任务是识别事先已知的孤立的词，如“开机”、“关机”等。（3）连续语音识别，连续语音识别的任务则是识别任意的连续语音，如一个句子或一段话。从识别对象的类型来看，语音识别可以分为特定人语音识别和非特定人语音识别，特定人是指针对一个用户的语音识别，非特定人则可用于不同的用户。显然，非特定人语音识别系统更符合实际需要，但它要比针对特定人的识别困难得多。 3.2.2语音识别系统的基本构成语音识别系统的实现方案如图3所示。输入的模拟语音信号首先要进行处理，包括预滤波，采样和量化，加窗，端点检测，预加重等。语音信号经处理后，接下来很重要的一环就是特征参数提取。图3 语音识别系统在训练阶段，将特征参数进行一定的处理之后，为每个词条得到一个模型，保存为模版库。在识别阶段，语音信号经过相同的通道得到语音参数，生成测试模版，与参考模板进行匹配，将匹配分数最高的参考模型作为识别结果。 3. 2.3 语音识别系统的特征参数提取特征提取是对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。语音信号是一种典型的时变信号，然而如果把观察时间缩短到十毫秒至几十毫秒，则可以得到一系列近似稳定的信号。人的发音器官可以用若干段前后连接的声管进行模拟，这就是所谓的声管模型。全极点线性预测参数 (LPC: Liner Prediction Coeffieient)可以对声管模型进行很好的描述，LPC参数是模拟人的发声器官的，是一种基于语音合成的参数模型。在语音识别中，很少用LPC系数，而是用LPC倒谱参数 (LPCC: Liner Prediction Cepstral Coefficient)。LPCC参数的优点是计算量小，对元音有较好的描述能力，其缺点在于对辅音的描述能力较差，抗噪声性能较差。

语音识别技术概述

语音识别技术概述摘要：本文简要介绍了语音识别技术理论基础及分类方式，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别技术的发展前景和应用。关键词：语音识别；特征提取；模式匹配；模型训练 Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part. Keywords:Speech identification;Character Pick-up;Mode matching;Model training 一、语音识别技术的理论基础语音识别技术：是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言（如人在说话时的表情、手势等行为动作可帮助对方理解），其最终目标是实现人与机器进行自然语言通信。不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统主要包括特征提取技术、模式

语音识别方法及发展趋势分析

语音识别改进方法及难点分析 ——《模式识别》结课小论文学院：化工与环境学院学号：2120151177 姓名：杜妮

摘要：随着计算机技术的不断发展，人工智能程度也越来越高，作为人工智能的一部分——模式识别也在模型和算法上愈发成熟。本文根据近105年文献，分析最新声音识别的方法和应用。关键字：模式识别声音识别方法应用随着人工智能的迅速发展，语音识别的技术越来越成为国内外研究机构的焦点。人们致力于能使机器能够听懂人类的话语指令，并希望通过语音实现对机器的控制。语音识别的研究发展将在不远的将来极大地方便人们的生活。语音识别大致的流程包括：特征提取、声学模型训练、语音模型训练以及识别搜索算法。作为一项人机交互的关键技术，语音识别在过去的几十年里取得了飞速的发展，人们在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造，以期发现更好的方法来完成语音识别流程中的各步骤，以此来促进在不同环境下语音识别的效率和准确率。本文通过查阅近10年国内外文献，分析目前语音识别流程中的技术进展和趋势，并在文章最后给出几项语音识别在日常生活中的应用案例，从而分析语音识别之后的市场走势和实际利用价值。一、语音识别的改进方法 (一)特征提取模块改进特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、准确地表达语音信号，特征提取的目的是提取语音信号中能代表语音特征的信息，减少语音识别时所要处理的数据量。语音信号的特征分析是语音信号处理的前提和基础，只有分析出可以代表语音信号本质特征的参数，才能对这些参数进行高效的语音通信，语音合成，和语音识别等处理，并且语音合成的好坏，语音识别率的高低，也都取决于语音特征提取的准确性和鲁棒性。目前，针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟，已经能够满足通常应用的要求，并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是

语音识别实验2

关于语音识别的研究网络工程专业网络C071班贾鸿姗 076040 摘要：语音识别技术的广泛应用 1前言：语音识别技术也被称为自动语音识别 (ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。早在计算机发明之前，自动语音识别的设想就已经被提上了议事日程，早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器，当这只狗的名字被呼唤的时候，它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T 贝尔实验室开发的Audrey语音识别系统，它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。。到1950年代末，伦敦学院(Colledge of London)的Denes 已经将语法概率加入语音识别中。 1960年代，人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC)，及动态时间弯折Dynamic Time Warp技术。语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理，经过Labiner等人的研究，卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。。此后严格来说语音识别技术并没有脱离HMM框架。尽管多年来研究人员一直尝试将“听写机”推广，语音识别技术在目前还无法支持无限领域，无限说话人的听写机应用。 2 正文 2.1应用领域 2.1.1.电话通信的语音拨号特别是在中、高档移动电话上，现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低，普通电话上也将具备语音拨号的功能。 2.1.2.汽车的语音控制由于在汽车的行驶过程中，驾驶员的手必须放在方向盘上，因此在汽车上拨打电话，需要使用具有语音拨号功能的免提电话通信方式。此外，对汽车的卫星导航定位系统（GPS）的操作，汽车空调、照明以及音响等设备的操作，同样也可以由语音来方便的控制。工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下，在增加控制操作时，最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令，机器用语音做出应答。 2.1.3数字助理个人数字助理（Personal Digital Assistant，PDA）的语音交互界面。PDA的体积很小，人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便，因此，现多采用手写体识别的方法输入和查询信息。但是，这种方法仍然让用户感到很不方便。现在业界一致认为，PDA的最佳人机交互界面是以语音作为传输介质的交互方法，并且已有少量应用。随着语音识别技术的提高，可以预见，在不久的将来，语音将成为PDA主要的人机交互界面。智能玩具通过语音识别技术，我们可以与智能娃娃对话，可以用语音对玩具发出命令，让其完成一些简单的任务，甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力，而其关键在

语音识别-科普性介绍

随机过程理论在语音识别中的应用第一章语音识别总述 1.1语音识别技术简介语音识别技术就是让机器通过识别和理解过程，把语音信号转变为相应的文本或命令的技术。在当下流行的即时通讯软件（如：微信、QQ等）里，语音识别技术得到了非常广泛的应用。当对方发来一段语音信息而自己不方便收听时便可以使用语音转化功能将语音信息转化成文字信息。此外，在许多输入法（如：讯飞输入法）中也可以使用语音输入功能。用户只需要对着麦克风说话，输入法便可以将语音转换为文字填入输入框，在方便用户的同时也提高了文字输入效率。语音识别涉及的领域包括:数字信号处理、声学、语音学、计算机科学、心理学、人工智能等，是一门涵盖多个学科领域的交叉科学技术。语音识别的技术原理是模式识别，其一般过程可以总结为：预处理、特征提取、基于语音模型库下的模式匹配、基于语言模型库下的语言处理、完成识别。图1.0.1 语音识别过程第二章预处理声音的实质是波。在现如中得到广泛应用的音频文件格式（如：mp3等）都经过了压缩无法直接识别。语音识别所使用的音频文件格式必须是未经压缩处理的wav格式文件。下图是一个波形示例。

图2.0.2 语音波形示例有了声波源文件输入便可以按照图2.1.1所示的各个步骤进行识别。 2.1静音切除如图2.1.2所示，在得到的声波信号输入中需要实际处理的信号并不一定占满整个时域，会有静音和噪声的存在。因此，必须先对得到的输入信号进行一定的预处理，消去静音的部分并且滤除噪声的干扰才能对实际需要处理的有效语音进行识别。噪声处理部分本文已在上文进行过讨论，这里不再赘述。去除静音需要用到V AD算法，本文对其做简单介绍。 2.1.1 V AD算法 V AD算法全称为V oice Activity Detection，又称语音边界检测。其可实现的功能有对语音信号进行打断、去除语音信号中的静音部分从而获取有效语音，还可以去除一部分噪声对后续语音识别过程造成的干扰。V AD主要是对输入语音信号的一些时域或频域特征判断其是否属于静音部分。本文只对这些参数做简要介绍，具体算法不属于本文重点因而不在此做细致讨论。 2.1.2时域参数时域参数是通过对输入信号在时域上的特征参量进行区分。在信噪比较高的环境下使用时域参数进行区分效果显著。 1.相关性分析通过对足够短的时间范围内的语音信号进行相关性检测可以初步判定该时间范围内的信号是否属于静音部分。在实际应用中，静音的部分实际上会混有各种各样的噪声，因此并非绝对意义上静音。噪声在各个时间范围内的相关性比较低，而人说话的语音相关性则比较强。因此，在高信噪比的条件下区分成功率很

语音识别基本知识及单元模块方案设计

语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术，语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 1语音识别的基本原理语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，它的基本结构如下图所示：未知语音经过话筒变换成电信号后加在识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。2语音识别的方法目前具有代表性的语音识别方法主要有动态时间规整技术（DTW）、隐马尔可夫模型（HMM）、矢量量化（VQ）、人工神经网络（ANN）、支持向量机（SVM）等方法。动态时间规整算法（Dynamic Time Warping，DTW）是在非特定人语音识别中一种简单有效的方法，该算法基于动态规划的思想，解决了发音长短不一的模板匹配问题，是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时，就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度，按照某种距离测度得出两模板间的相似程度并选择最佳路径。隐马尔可夫模型（HMM）是语音信号处理中的一种统计模型，是由Markov链演变来的，所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本，且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出，因此是较理想的语音识别模型。矢量量化（Vector Quantization）是一种重要的信号压缩方法。与HMM相比，矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域，每个小区域寻找一个代表矢量，量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。在实际的应用过程中，人们还研究了多种降低复杂度的方法，包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。人工神经网络（ANN）是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双苏州大学摘要本文回顾了语音识别技术的发展历史，综述了语音识别系统的结构、分类及基本方法，分析了语音识别技术面临的问题及发展方向。关键词：语音识别；特征；匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科，所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等，甚至还涉及到人的体态语言（如人民在说话时的表情手势等行为动作可帮助对方理解）。其应用领域也非常广，例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统，在信息高度化的今天，语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史语音识别技术的研究开始二十世纪50年代。1952年，AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统：Audry系统。

语音识别输入软件

《语音识别输入软件》(Dragon NaturallySpeaking 10 SP1、10.1)[光盘镜像] Dragon NaturallySpeaking 10 Dragon Naturally Speaking 10 Preferred gives small business and advanced PC users the power to create documents, reports and emails three times faster than most people type —with up to 99% accuracy. Surf the Web by voice or dictate and edit in Microsoft Word and Excel, Corel WordPerfect, and most other Windows-based applications. Create voice commands to quickly insert blocks of texts or images —such as your name, title, and signature. Dictate into a handheld device when you're away from your PC, or use a Bluetooth microphone for the same great dictation results without the wires. A high-quality headset is included. 请大家看清自己的操作系统选择合适自己的对应版本！该版本软件不支持中文语音输入《语音识别输入软件》软件售价：249.99美元专业工作人员每天都在为完成创建文档、编写邮件、完成表格以及流线型工作任务而忙碌着，现在，拥有了Dragon NaturallySpeaking Professional 9，您只需开口说话就可以完成以上任务！Dragon Naturally Speaking 速度为动手输入字符速度的三倍，而且准确率高达99%。对着您的电脑讲话，您说的话会立即在office文件、IE浏览器、Corel WordPerfect软件、Lotus Notes 系统或其他基于Windows操作系统的应用程序上显示。您还可以创建语音命令，同时进行多种计算机任务，由此而知，您将节约多少时间！Dragon Naturally Speaking Professional 9经Section 508检验完全合格，并为身有残疾的使用者创造了完全脱离手工操作使用个人计算机的机会。Dragon Naturally Speaking Professional 9 同时也含有多种可供选择的网络部署的工具，如支持Citrix瘦客户机必需设施的配置。您想象不到的准确率 Dragon Naturally Speaking Professional 9实现了前所未有的准确率，甚至比打字都要准确。Dragon Naturally Speaking 从来没有出现过拼写错误，而且，事实上，使用次数越多，Dragon NaturallySpeaking 就越灵活，其准确率越高。快于打字的速度！大多数人说话的速度为每分钟120个字，而打字的速度每分钟少于40个字，Dragon Naturally Speaking 的速度将近手工输入字符速度的三倍！使用简易您马上就可以通过声音来进行信笺、邮件的完成以及进行网上冲浪，不再需要从输入可读字符来开始这一切了。随软件我们附赠事业能够指南和Nuance认可的完全隔离噪音的麦克风。

语音识别技术概述(一)

语音识别技术概述(一) 作者：刘钰马艳丽董蓓蓓摘要：本文简要介绍了语音识别技术理论基础及分类方式，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别技术的发展前景和应用。关键词：语音识别；特征提取；模式匹配；模型训练 Abstract:Thistextbrieflyintroducesthetheoreticalbasisofthespeech-identificationtechnology,itsmo deofclassification,theadoptedkeytechniqueandthedifficultiesandchallengesithavetoface.Then,the developingprospectionandapplicationofthespeech-identificationtechnologyarediscussedinthelast part. Keywords:Speechidentification;CharacterPick-up;Modematching;Modeltraining 一、语音识别技术的理论基础语音识别技术：是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言（如人在说话时的表情、手势等行为动作可帮助对方理解），其最终目标是实现人与机器进行自然语言通信。不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取。（一）语音识别单元的选取选择识别单元是语音识别研究的第一步。语音识别单元有单词（句）、音节和音素三种，具体选择哪一种，由具体的研究任务决定。单词（句）单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母（包括零声母有22个）和韵母（共有28个）构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。（二）特征参数提取技术语音信号中含有丰富的信息，但如何从中提取出对语音识别有用的信息呢？特征提取就是完成这项工作，它对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。对于非特定人语音识别来讲，希望特征参数尽可能多的反映语义信息，尽量减少说话人的个人信息（对特定人语音识别来讲，则相反）。从信息论角度讲，这是信息压缩的过程。线性预测（LP）分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。 Mel参数和基于感知线性预测（PLP）分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。