语音信号的提取与识别技术(说话人识别系统)的研究

合集下载

语音信号的提取与识别技术——说话人识别系统的研究

语音信号的提取与识别技术——说话人识别系统的研究

毕业设计说明书语音信号的提取与识别技术——说话人识别系统的研究作者:学号:学院(系):专业:指导教师:评阅人:20**年6月中北大学毕业设计(论文)任务书学院、系:专业:学生姓名:学号:设计(论文)题目:语音信号的提取与识别技术起迄日期: 20**年2月15日~20**年6月21日设计(论文)地点:指导教师:系主任:发任务书日期:20**年2月15日毕业设计(论文)任务书1.毕业设计(论文)课题的任务和要求:1.了解声音信号的特征参数,及现阶段研究处理方法。

以现阶段信号处理领域比较活跃的语音信号为具体研究对象,进行相关知识的了解与学习。

2.学会在语音信号处理中使用MATLAB软件工具。

3.针对基本的个别个体的特定声音进行与信识别研究。

4.根据研究情况利用MATLAB语言进行相关算法的实现。

2.毕业设计(论文)课题的具体工作内容(包括原始数据、技术要求、工作要求等):1.查阅相关资料,利用已学的相关知识进行消化和理解。

2.了解现阶段的语音处理情况,分析研究相关的产品。

3.研究学习基本的识别处理方法。

4.学习相关信号处理软件。

5.对软件的学习达到能对基本的算法进行软件的处理。

6.完成毕业设计论文。

毕业设计(论文)任务书3.对毕业设计(论文)课题成果的要求〔包括毕业设计(论文)、图纸、实物样品等):1、毕业论文一份;2、英文文献1份,相应的中文译文1份。

4.毕业设计(论文)课题工作进度计划:起迄日期工作内容2006年2月15日~ 3月31日4月 1日~ 5月31日6月 1日~ 6月20日6月20日~ 6月21日系统学习,查阅资料,作开题报告;英文资料翻译;撰写毕业论文;论文答辩。

学生所在系审查意见:系主任:年月日中北大学毕业设计(论文)开题报告学生姓名:学号:学院、系:专业:设计(论文)题目:语音信号提取与识别技术指导教师:20**年 3 月 8 日毕业设计(论文)开题报告1.结合毕业设计(论文)课题情况,根据所查阅的文献资料,撰写2000字左右的文献综述:文献综述语音信号识别研究的根本目的是研究出一种具有听觉功能的机器,能直接接受人的口呼命令,理解人的意图并做出相应的反映。

语音信号的说话人识别技术及其应用

语音信号的说话人识别技术及其应用

语音信号的说话人识别技术及其应用随着科技的不断发展,语音信号的说话人识别技术已经逐渐成为现实。

这样一种技术利用了人们不同的嗓音特征和语音语调,将每个人的声音进行归类,从而能够对声音信号进行辨识,确保声音信号的合法性。

语音信号的说话人识别技术广泛应用于各种领域,如银行、网络安全、犯罪侦查等等,为我们的生活和工作带来了便利。

首先,语音信号的说话人识别技术在银行行业得到了广泛的应用。

通过说话人识别,银行能够提高客户登陆系统的安全性,防止不合法的用户通过银行系统进行非法操作。

这样一种技术防止了不法分子利用他人的身份信息进行欺骗和诈骗,有着非常重要的作用。

除此之外,语音信号的说话人识别技术还在网络安全领域独具优势。

使用这种技术,安全团队能够轻松识别和排除网络攻击中的非法用户,从而提高网络的安全性和稳定性。

在当今时代,网络安全是琳琅满目的威胁,该技术能够有效地防止一些不法分子在网络上的非法行为,对于保护我们的社会、政府、企业信息和数据非常重要。

此外,语音信号的说话人识别技术还在犯罪侦查领域有着广泛的应用。

法医用这种技术来进行声音鉴定、嫌疑人辨识等工作,对于破案起着至关重要的作用。

而在一些刑事案件中,法庭也会依据语音信号的说话人识别技术进行判决。

然而,语音信号的说话人识别技术在实践中也面临着一些困难与挑战。

例如,不同的人可能会在不同的环境中发出不同的语调,这就需要技术人员在设计算法与模型时考虑到复杂情况,进一步提高识别准确率。

总之,由于语音信号的说话人识别技术的应用和实践价值,它在当前的研究中也受到越来越多的关注。

这种技术的出现,大大提高了人们的生活和工作效率,为我们的社会稳定做出了贡献。

我们相信,随着技术的进一步发展和完善,语音信号的说话人识别技术在未来的很短时间内将会呈现更好的应用效果,为我们的生活带来更多的便利和优势。

论语音信号的特征提取和语音识别技术

论语音信号的特征提取和语音识别技术

论语音信号的特征提取和语音识别技术语音信号的特征提取和语音识别技术是语音处理领域中的重要研究方向,主要用于从语音信号中提取有效的特征,并将其应用于语音识别任务中。

一、语音信号的特征提取语音信号的特征提取旨在从原始语音信号中提取出能够最有效地进行区分和表示的信息。

常见的语音信号的特征提取方法包括:1.短时能量和过零率:短时能量描述了语音信号在短时时间内的能量大小,过零率描述了语音信号经过零点的频率,可以用于检测语音的活动性和边界。

2.声谱图:声谱图是将语音信号转换为频谱的一种可视化表示方法,在声谱图中可以看到声音在不同频率上的强度分布情况,可以用于语音信号的频域分析。

3.倒谱系数:倒谱系数是通过对语音信号的离散傅里叶变换(DFT)和对数运算得到的,倒谱系数描述了语音信号在倒谱域内的频谱特性,常用于语音识别中的声学特征表示。

4.线性预测系数:线性预测系数是通过对语音信号进行线性预测分析得到的,用于表示语音信号的谐波结构和共振峰,常用于语音识别中的声学特征表示。

5.梅尔频率倒谱系数:梅尔频率倒谱系数是在倒谱系数的基础上引入了梅尔滤波器组,在梅尔频率域内对语音信号进行分析和表示,更符合人类声音感知的特性。

语音识别技术是指将语音信号转换为对应的文本或命令的过程。

常见的语音识别技术包括:1.隐马尔可夫模型(HMM):HMM是一种统计模型,用于描述语音信号与文本之间的关系。

它将语音信号的声学特征序列映射为文本的概率分布,通过最大似然估计和维特比算法来进行识别。

2.深度神经网络(DNN):DNN是一种基于多层神经网络的机器学习模型,通过训练大量的语音数据来进行语音识别。

DNN在特征提取和模型训练方面都具有较好的性能。

3.循环神经网络(RNN):RNN是一种具有记忆功能的神经网络,在语音识别中可用于处理序列数据,如语音信号的语音帧。

4.语言模型:语言模型是用来描述文本序列的概率分布模型,常用于语音识别中对候选文本进行评分和选择。

语音信号处理与语音识别技术研究

语音信号处理与语音识别技术研究

语音信号处理与语音识别技术研究语音信号处理与语音识别技术是计算机科学领域中的热门研究方向,广泛应用于语音识别、语音合成、自然语言处理等领域。

本文将从语音信号处理和语音识别技术的原理、应用以及未来发展趋势三个方面进行探讨。

一、语音信号处理技术语音信号处理技术主要包括语音前端处理和语音后端处理两大部分。

语音前端处理主要用于对语音信号进行预处理,包括语音分帧、加窗、时频转换、特征提取等步骤,旨在提取出语音信号中的有用信息。

语音后端处理主要用于对已提取的特征进行进一步处理和分析,如说话人识别、情感分析等。

在语音前端处理中,语音分帧将连续的语音信号分成若干个短时段,加窗则是为了减小频谱泄漏和频谱扭曲的影响。

时频转换是将时域信号转换为频域信号,通常使用快速傅里叶变换(FFT)来进行。

特征提取是将频域信号转换为一组更具代表性的特征参数,常用的特征参数包括MFCC(Mel频率倒谱系数)、LPCC(线性预测倒谱系数)等。

语音后端处理中的说话人识别是通过比较不同说话人的声音特征来区分不同的说话人。

情感分析是通过分析语音中的情感特征,如音调、语速等,来判断说话人的情感状态。

这些技术在安全监控、语音助手、情感识别等领域都有广泛应用。

二、语音识别技术语音识别技术旨在将语音信号转化为相应的文本或命令。

它可以帮助人机交互更加便捷高效,广泛应用于语音助手、语音搜索、智能家居等领域。

语音识别技术主要包括声学模型、语言模型和解码器三个部分。

声学模型是语音识别的核心部分,用于建模语音信号和相应的文本之间的关系。

传统的声学模型采用隐马尔可夫模型(HMM)进行建模,近年来深度学习技术的兴起,使得使用深度神经网络(DNN)和卷积神经网络(CNN)来建模声学模型成为主流。

语言模型用于捕捉语言的知识和规律,它可以提升语音识别系统的准确度和可用性。

常见的语言模型有n-gram模型和神经网络语言模型(NNLM)。

n-gram模型基于统计概率进行建模,而NNLM则是通过学习大量语料来捕捉语言的上下文信息。

语音信号的提取与识别技术(说话人识别系统)的研究-开题报告

语音信号的提取与识别技术(说话人识别系统)的研究-开题报告

中北大学毕业设计(论文)开题报告学生姓名:学号:学院、系:信息与通信工程学院通信工程系专业:通信工程设计(论文)题目:语音信号提取与识别技术指导教师:2006年 3 月 8 日开题报告填写要求1.开题报告作为毕业设计(论文)答辩委员会对学生答辩资格审查的依据材料之一。

此报告应在指导教师指导下,由学生在毕业设计(论文)工作前期内完成,经指导教师签署意见及所在专业审查后生效;2.开题报告内容必须用按教务处统一设计的电子文档标准格式(可从教务处网页上下载)打印,禁止打印在其它纸上后剪贴,完成后应及时交给指导教师签署意见;3.学生写文献综述的参考文献应不少于15篇(不包括辞典、手册)。

文中应用参考文献处应标出文献序号,文后“参考文献”的书写,应按照国标GB 7714—87《文后参考文献著录规则》的要求书写,不能有随意性;4.学生的“学号”要写全号(如020*******,为10位数),不能只写最后2位或1位数字;5. 有关年月日等日期的填写,应当按照国标GB/T 7408—94《数据元和交换格式、信息交换、日期和时间表示法》规定的要求,一律用阿拉伯数字书写。

如“2004年3月15日”或“2004-03-15”;6. 指导教师意见和所在专业意见用黑墨水笔工整书写,不得随便涂改或潦草书写。

毕业设计(论文)开题报告毕业设计(论文)开题报告毕业设计(论文)开题报告附件:参考文献注释格式学术期刊作者﹒论文题目﹒期刊名称,出版年份,卷(期):页次如果作者的人数多于3人,则写前三位作者的名字后面加“等”,作者之间以逗号隔开。

例如:[1]李峰,胡征,景苏等. 纳米粒子的控制生长和自组装研究进展. 无机化学学报,2001, 17(3): 315~324[2] J.Y.Li, X.L.Chen,H.Li. Fabrication of zinc oxide nanorods.Journal of Crystal Growth, 2001,233:5~7学术会议论文集作者﹒论文题目﹒文集编者姓名﹒学术会议文集名称,出版地:出版者,出版年份:页次例如:[3] 司宗国谢去病王群﹒重子湮没快度关联的研究﹒见赵维勤,高崇寿编﹒第五届高能粒子产生和重离子碰撞理论研讨会文集,北京:中国高等科学技术中心,1996:105 图书著者﹒书名﹒版本﹒出版地:出版者,出版年﹒页次如果该书是第一版则可以略去版次。

语音识别中的说话人识别技术研究

语音识别中的说话人识别技术研究

语音识别中的说话人识别技术研究语音识别在当今的科技领域中拥有广泛的应用,由于语音识别技术的不断发展,它已经成为人机交互领域中的一个重要组成部分。

语音识别技术可以使人们通过说话来与计算机互动,这为人们的工作和生活带来了许多便利。

然而,在实际应用中,因为每个人的声音都有差异,所以语音识别技术的准确性往往会受到说话人识别技术的影响。

而说话人识别技术是指在语音信号分析的基础上判断不同说话人身份的技术。

本文将从以下四个方面进行阐述:说话人识别技术的背景和概述、说话人识别技术的方法和原理、说话人识别技术的应用、说话人识别技术的发展方向。

一、说话人识别技术的背景与概述说话人识别技术的背景可以追溯到上个世纪60年代末,当时拉贝尔为解决电话线路上的欺骗问题,提出了基于语音中说话人区别的认证技术-说话人识别技术。

而在这之后的几十年里,随着语音处理技术的不断改进和深度学习技术的发展,说话人识别技术也得以更好地应用于语音识别、语音安全、语音助手、智能客户服务等领域。

说话人识别技术是一项可以自动辨别不同语音的身份的技术,说话人识别任务的基本就是寻找“当前语音实例所属的先前已知身份”。

在说话人识别中,要判断两条语音语素是否来自同一个说话人,就需要通过计算声音数据的特征向量来比较语素间的差异。

二、说话人识别技术的方法和原理在说话人识别技术中,主要有基于特征分离的方法和基于深度学习的方法两种。

基于特征分离的方法主要有声道特征提取(Vocal Tract Length Normalization,VTLN)和高斯混合模型。

VTLN把每一段语音信号处理成具有相同性质的语音信号,并控制声音的时长和音高,从而去除了说话人个体性带来的影响,实现对不同个体间语音信号的比较。

高斯混合模型方法,是一种比较常用的方法,它把一个说话人的声音特征向量聚类成高斯分布,通过高斯分布判别模型来进行说话人的辨识。

将每个说话人的特征向量都映射到对应的高斯分布后,再计算两个语音之间的转移概率,最后,再通过贝叶斯判决法来判断两个语音是否属于同一个说话人。

基于声音信号的人脸识别系统研究

基于声音信号的人脸识别系统研究

基于声音信号的人脸识别系统研究近年来,随着人工智能技术的不断进步和应用的广泛推广,人脸识别技术已经成为了应用最广泛的一种生物识别技术。

人脸识别技术的成功主要依赖于光学信号,但是在一些特殊情况下,如低光照情况下或者面罩遮挡的时候,光学信号往往会产生很大的误差。

因此,基于声音信号的人脸识别技术应运而生。

本文将对基于声音信号的人脸识别系统进行一些研究探讨。

一、声音信号与人脸识别技术声音信号与人脸识别技术最大的区别在于,声音信号的传输速度远高于光学信号的传输速度。

声音信号在空气中的传播速度大约是340米/秒,相对于光学信号的传播速度远远快了很多。

因此,基于声音信号的人脸识别技术,能够在短时间内采集到更多的信息,从而提高系统的准确性和可靠性。

另外,声音信号还有一个很大的特点就是能够通过不同的介质传输。

人类的声音能够通过我们的身体组织和血液传输到远处,因此在一些特殊情况下,如遮挡等情况下,声音信号可以帮助我们更好地进行人脸识别。

二、声音信号采集技术声音信号采集技术是基于声音信号的人脸识别技术的基础,因此采集技术的可靠性和准确性对系统的精度和速度影响很大。

常见的声音信号采集技术包括:1. 音频采集音频采集是最常见的一种声音信号采集技术。

通过麦克风将环境中的音频信号采集下来,并将其转换为计算机可以识别的数字信号。

在音频采集前期,需要进行麦克风位置的确定、环境噪声的消除、信噪比的提高等工作以保证信号质量。

2. 声学特征提取声学特征提取是指将采集到的声音信号转换为计算机可以进行分析和判定的形式。

常见的声学特征包括频率、能量、时域等。

3. 声音信号处理声音信号处理是将采集到的语音信号通过一系列处理和分析工作,提取出更加有效的信息来。

常见的语音信号处理技术包括降噪、语音分割、音节划分、韵律分析等。

三、基于声音信号的人脸识别技术基于声音信号的人脸识别技术主要依赖于声纹识别技术。

声纹识别是指在一定的声音环境下,通过采集、处理和识别人的声音信号来达到身份识别的目的。

语音识别技术中的说话人识别与说话人验证方法探讨

语音识别技术中的说话人识别与说话人验证方法探讨

语音识别技术中的说话人识别与说话人验证方法探讨近年来,语音识别技术在人工智能领域得到了广泛的应用和持续的发展。

其中,说话人识别和说话人验证作为语音识别领域的重要研究方向,成为了为人们提供更加个性化和安全的技术解决方案的关键。

本文将探讨在语音识别技术中的说话人识别与说话人验证方法。

首先,说话人识别是指通过声音信号的特征进行识别,从而确定说话人的身份。

说话人识别方法从多个方面进行研究,包括声纹特征提取,模型训练和匹配等。

在声纹特征提取方面,常用的方法包括MFCC(Mel频率倒谱系数)和i-vectors(identity vectors)等。

MFCC 是提取说话人语音特征的常用方法,它通过将语音信号转换为频谱特征来表示说话人声音的特点。

而i-vectors是一种基于高斯混合模型(GMM)的说话人特征提取方法,它可以克服MFCC的缺点,并具有更好的识别性能。

在模型训练和匹配方面,常用的方法包括GMM-UBM(GMM-Universal Background Model)、PLDA(Probabilistic Linear Discriminant Analysis)和深度学习等。

GMM-UBM通过建立一个声学模型来对说话人进行建模,并使用一个通用的背景模型来表示说话人类别之外的声音。

而PLDA则通过一个多元高斯模型来进行建模,进一步提高了说话人识别的准确性。

深度学习方法则利用深度神经网络对语音信号进行特征提取和分类,具有较好的性能。

其次,说话人验证是指通过语音信号验证说话人的身份真实性。

在说话人验证中,常用的方法包括基于特征矢量和基于深度神经网络的方法。

基于特征矢量的方法使用已经提取好的说话人特征,通过计算特征之间的相似度来进行验证。

其中,i-vectors是一种常用的特征矢量,可以用于反映说话人的声音特点。

基于深度神经网络的方法则利用深度学习的技术对语音信号进行特征提取和匹配,具有较好的准确性和鲁棒性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音信号的提取与识别技术摘要语音识别(Speech Recognition)是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术.说话人识别是语音识别的一种特殊方式.本论文中,将主要介绍说话人识别系统.说话人识别是指通过说话人的语音来自动识别说话人的身份,它在许多领域内有良好的应用前景。

本文通过分析语音特征参数的特点和说话人识别的基本方法,提出了以美尔倒谱差分和线性预测差分为特征,通过动态时间归整算法来识别的文本相关说话人辨认系统。

关键词: 语音识别, 说话人识别, 线性预测倒谱,美尔倒谱系数,动态时间归整The pick-up of speech signal and speech recognitionAbstractSpeech Recognition is a kind of technology that is using computer to transfer the voice signal to an associated text or command by identification and understand. Speaker recognition is a kind of special way of V oice-identifications. The paper is going to introduce speaker recognition. Speaker recognition is the process of automatically recognizing who is speaking on the basis of individual information include in speech signals. It has well application prospects in many fields. By analyzing speech characteristic parameters and the basis methods of speaker recognition, we choose MFCC and LPCC's difference to be the speech characteristic parameters. Using DTW to recognize text-dependent speech, we have developed a speaker identification system in this paper.Key words:V oice-Identification, Speaker-identification LPCC,MFCC, Dynamic Time Warping目录1引言 (1)2 语音识别技术的基础 (2)2.1 语音识别发展简史 (2)2.2 语音识别技术的应用 (3)3 说话人识别技术的国内外研究现状 (5)3.1 国内外发展水平 (5)3.2主要应用领域 (5)3.3 技术难点 (6)4 说话人识别技术基础 (8)4.1 说话人识别的基本原理 (8)4.2说话人识别系统中常用的特征 (9)4.3 说话人识别的分类 (10)4.4 说话人识别的主要方法 (11)4.5 说话人识别系统的性能评价 (13)5 语音信号分析与预处理 (16)5.1 语音产生机理 (16)5.2 语音信号的数字化和采集 (17)5.3 语音信号的数字模型 (18)5.3.1激励模型 (18)5.3.2 声道模型 (18)5.3.3辐射模型 (20)5.4语音信号的预加重处理 (20)5.5语音信号的短时参数特征 (21)5.5.1短时频谱 (22)5.5.2短时自相关函数 (22)5.5.3短时能量和短时平均幅度 (22)5.5.4短时过零分析 (23)5.5.5倒谱 (24)5.5.6线性预测编码(LPC)参数 (24)5.5.7短时基音周期估计 (25)5.6语音信号端点检测 (27)5.6.1双门限端点检测算法 (28)5.6.2 LPC美尔倒谱特征端点检测方法 (28)6说话人特征提取 (32)6.1线性预测系数LPC (32)6.1.1线性预测的基本原理 (33)6.2.2线性预测系数的求取 (35)6.2线性预测倒谱系数LPCC (36)6.2.1同态处理基本原理 (36)6.2.2线性预测倒谱 (37)6.2.3线性预测差分倒谱 (38)6.3美尔倒谱系数MFCC (39)6.3.1 MFCC系数的提取 (39)6.3.2美尔差分倒谱参数 (40)6.4特征参数的实际提取 (41)6.4.1 LPCC参数计算流程 (41)6.4.2 MFCC的计算 (43)7.说话人识别系统实现 (46)7.1文本相关说话人辨认系统的实现 (46)7.2线性预测倒谱参数的提取实现 (47)7.3美尔倒谱系数及其差分的提取实现 (48)7.4MFCC参数文本相关系统实现 (51)8结论 (54)致谢 (55)参考文献 (56)1引言语言是人类交流信息的基本手段,在人们日益扩大的交流中占据着重要的地位.在如今高度发达的信息社会中用数字化的方法进行语音的传送、储存、识别、合成、增强等是整个数字化通信网中最重要、最基本的组成部分之一。

随着信息科学技术的飞速发展,语音信号处理的研究也日益显示出它的重要性,并取得了重大进展。

大体上说,语音信号处理技术可以分为以下四个方面:即语音编码,语音合成、说话人识别和语音识别等。

语音压缩编码是压缩语音信号便于传输通信和保密;语音合成系统是模仿和代替人口的发音功能;语音识别系统则是模仿或代替人耳的听觉功能,说话人识别系统属于生物识别技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,识别说话人身份的技术。

与语音识别不同的是,说话人识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调一说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。

说话人识别的应用有一些特殊的优势:比如使用者的接受程度高:获取语音的识别成本低廉,使用简单;适合远程身份确认;配合一些其他措施,如语义识别等,可以进一步提高准确率等。

随着现代数字通讯、多媒体系统、信息高速公路等技术的应用和发展,己经越来越深入地影响并改变着我们每个人的生活和工作方式,这同时也对语音信号处理的研究工作提出了更高的要求,它在各方面的进展也今人嘱目。

本文主要研究了说话人识别中所使用的基于短时频谱分析的传统特征基音周期、共振峰、LPC倒谱特征、美尔倒谱特征等,通过对语音信号的分析和预处理,进行特征提取,根据线性预测倒谱参数及美尔倒谱系数,最后利用动态时间归整法实现说话人的识别。

2 语音识别技术的基础2.1 语音识别发展简史50年代至60年代初是语音识别的初始研究阶段,主要探索声音和语音学的基本概念和原理。

1952年Bell实验室的Davis Buddulph, Balashe等人研制出世界上第一个语音识别系统,该系统采用第一和第二共振峰作为特征参数,能够识别孤立发音的英文数字,识别率高达97%。

该系统的出现标志着语音识别开始的里程碑。

1960 年瑞典科学家Fant 提出了语音产生理论和声源滤波器模型,指出语音信号由激励分量和声道分量作用产生,为语音信号处理奠定了基础。

60年代中期后,随着计算机技术和数字信号处理的兴起,新的有效的数字算法及信号处理技术层出不穷,也出现了语音识别方面能够影响至今的几种有效的技术措施。

1963年Bogert等提出了倒谱算法。

1965年Cooly和Tukey提出了快速傅立叶变换。

1968年Oppenheim把谱应用到语音信号处理,提出了同态声码器[1]。

RCA 实验室的Martin 的一些研究工作在对语音起始和终止可靠检测的基础上解决了语音事件中因时间量度不一致引起的一系列问题。

苏联科学家Vintsyuk 提出了一种用动态规划方法,使一组语音发音在时间上进行对齐,其中包含了动态时间规整的思想和进行连续语音识别的一些基本算法。

这些技术对后来语音识别研究产生了深远的影响,为计算机深入应用于语音识别的研究提供了可能性。

与50年代相比,60年代人们在语音识别的研究上大大前进了一大步,不过由于模型及算法的原因,使得语音识别的研究仍处于实验室研究阶段。

70年代在语音识别领域取得了许多具有里程碑意义的研究:苏联的Velichko 和Zagoruyko 将模式识别思想引入到语音识别领域中来。

日本的Stakoe 和Chiba 提出动态时间规整Dynamic Time Warping 的匹配算法大大提高识别率导致了七十年代语音识别研究的高潮。

美国的Itakura[2]将线性预测编码技术LPC 扩展到语音识别领域,较好的解决了基于语音特征提取问题,这种算法在语音识别应用方面取得基本令人满意的效果。

中后期J.K.Baker 等人将隐马尔可夫模型Hidden Markov Model技术引入语音识别领域,这是语音识别上的重大突破,由于隐马尔可夫模型合理有效地描述语音信号的统计特性,从而成为80年代至今应用非常广泛的语音识别方法;另外矢量量化(Vector Quantization)[3]技术被应用到说话人识别上来,使说话人识别的性能得到了大幅度的提高。

这两大技术推动语音识别的迅速发展。

80年代连续语音识别的研究开始取得重要成果。

技术上从模板匹配方法转向统计建模方法特别是隐马尔可夫模型得到广泛的引用。

人工神经网络方法研究的再度兴起为语音识别注入了新的活力,神经网络方法本身具有自学习自组织联想记忆和抗干扰等特性,它已逐渐成为一种新的语音识别的方法。

90年代,小波分析与支持向量机技术也开始尝试用于语音识别方面的研究。

由于多媒体时代的到来,语音识别系统从实验室走向实用。

许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T等著名公司都为语音识别系统的实用化开发研究投以巨资。

我国也将语音识别系统的研制纳入了“863”计划,由中科院声学所、自动化所及北京大学等单位研究开发,取得了高水平的科研成果,如中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其准确率或系统响应率可达90%以上。

2.2 语音识别技术的应用语音识别技术的解决不仅将使计算机成为普通百姓得心应手的工具,而且对于许多机器的操作、生产过程的控制,还有通信、口语机器翻译等领域来说,语音识别都大有用武之地。

语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展的十大事件之一;比尔·盖茨认为下一代的操作系统和应用程序的用户界面将是语音识别,微软最新操作系统Windows XP就内嵌了语音识别模块,用户可以不用键盘而是直接用活筒控制计算机;计算机行业巨头GoddenMoore说:“语音技术将改变计算机的设计,它将使现在尚未使用计算机的人中的85%用上计算机”:IBM 总裁Lou Gerstner指出,“有朝一日,将有数十亿的人运用自然语言(利用语音识别和语音合成)在Internet上浏览、查询”,ABI ( Allied Business Intelligence)认为,在未来的网络化世界中,语音识别技术将扮演越来越重要的角色,新的语音识别技术可以让用户更为轻松地收发电子邮件,获取股市行情,了解天气、交通和道路情况,不久的将来,它将提供更为全面的更有价值的应用服务[4]。

相关文档
最新文档