说话人识别技术研究
基于声纹的说话人特征识别毕业论文

目前己知的语音特征包括基音周期、语谱图、自相关系数、能量、平均幅度、 过零率、共振峰、线谱对、线性预测系数(LPC)、线性预测倒谱(LPCC)、Mel频率倒谱(MFCC)等。
本文介绍了说话人识别的概念、原理及其识别实现的方法,指出了说话人识 别技术的应用前景。通过在Matlab7.0平台上对语音的基音周期、线性预测倒谱和Mel频率倒谱等特征参数进行提取、分析、对比、识别实现一个简单的说话人识 别系统,实验结果表明实验正确、有效。
This article descnbes the speaker identification concepts, principles and miplementation methods of identification, and pointed out the prospect of speaker recognition teclmology. By the Matlab7.0 platform, voice pitch, lmear prediction cepstnim and Mel Frequency mverted spectra chaiactenstic paiametef extraction, analysis, contrast, identify a simple speaker recogmtion system, experimental results show that the expeiunent is conect, effective・
《基于GMM-UBM模型的说话人识别系统》范文

《基于GMM-UBM模型的说话人识别系统》篇一一、引言随着人工智能技术的不断发展,说话人识别技术已成为生物特征识别领域的重要研究方向。
说话人识别系统能够根据语音信号的特性和规律,对不同说话人的身份进行准确识别。
其中,基于高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,简称GMM-UBM)的说话人识别系统因其高效性和准确性而备受关注。
本文将详细介绍基于GMM-UBM模型的说话人识别系统,并探讨其在实际应用中的优势和挑战。
二、GMM-UBM模型概述GMM-UBM模型是一种常用的说话人识别模型,它采用高斯混合模型(GMM)来描述每个说话人的声纹特征,同时引入通用背景模型(UBM)来对所有说话人的语音数据进行建模。
该模型通过训练大量数据来学习每个说话人的独特特征和语音模式,从而实现对说话人的准确识别。
三、GMM-UBM模型在说话人识别系统中的应用在说话人识别系统中,GMM-UBM模型被广泛应用于特征提取和模型训练阶段。
首先,系统通过采集大量语音数据来构建通用背景模型(UBM),该模型能够捕捉各种语音信号的特征和规律。
然后,针对每个说话人,系统采用高斯混合模型(GMM)对其语音数据进行建模,以提取出具有代表性的声纹特征。
最后,通过比较待识别语音与已建模型的相似度,系统能够实现对说话人的准确识别。
四、GMM-UBM模型的优势与挑战GMM-UBM模型在说话人识别系统中具有以下优势:1. 准确性高:GMM-UBM模型能够准确提取说话人的声纹特征,实现对说话人的准确识别。
2. 鲁棒性强:该模型能够适应不同环境、不同背景下的语音信号,具有较强的鲁棒性。
3. 通用性强:通用背景模型(UBM)的引入使得该模型能够适应各种语言和方言的语音信号,具有较好的通用性。
然而,GMM-UBM模型在应用过程中也面临一些挑战:1. 数据量需求大:该模型需要大量的语音数据进行训练和建模,数据量不足会影响模型的准确性。
语音信号的提取与识别技术(说话人识别系统)的研究-开题报告

中北大学毕业设计(论文)开题报告学生姓名:学号:学院、系:信息与通信工程学院通信工程系专业:通信工程设计(论文)题目:语音信号提取与识别技术指导教师:2006年 3 月 8 日开题报告填写要求1.开题报告作为毕业设计(论文)答辩委员会对学生答辩资格审查的依据材料之一。
此报告应在指导教师指导下,由学生在毕业设计(论文)工作前期内完成,经指导教师签署意见及所在专业审查后生效;2.开题报告内容必须用按教务处统一设计的电子文档标准格式(可从教务处网页上下载)打印,禁止打印在其它纸上后剪贴,完成后应及时交给指导教师签署意见;3.学生写文献综述的参考文献应不少于15篇(不包括辞典、手册)。
文中应用参考文献处应标出文献序号,文后“参考文献”的书写,应按照国标GB 7714—87《文后参考文献著录规则》的要求书写,不能有随意性;4.学生的“学号”要写全号(如020*******,为10位数),不能只写最后2位或1位数字;5. 有关年月日等日期的填写,应当按照国标GB/T 7408—94《数据元和交换格式、信息交换、日期和时间表示法》规定的要求,一律用阿拉伯数字书写。
如“2004年3月15日”或“2004-03-15”;6. 指导教师意见和所在专业意见用黑墨水笔工整书写,不得随便涂改或潦草书写。
毕业设计(论文)开题报告毕业设计(论文)开题报告毕业设计(论文)开题报告附件:参考文献注释格式学术期刊作者﹒论文题目﹒期刊名称,出版年份,卷(期):页次如果作者的人数多于3人,则写前三位作者的名字后面加“等”,作者之间以逗号隔开。
例如:[1]李峰,胡征,景苏等. 纳米粒子的控制生长和自组装研究进展. 无机化学学报,2001, 17(3): 315~324[2] J.Y.Li, X.L.Chen,H.Li. Fabrication of zinc oxide nanorods.Journal of Crystal Growth, 2001,233:5~7学术会议论文集作者﹒论文题目﹒文集编者姓名﹒学术会议文集名称,出版地:出版者,出版年份:页次例如:[3] 司宗国谢去病王群﹒重子湮没快度关联的研究﹒见赵维勤,高崇寿编﹒第五届高能粒子产生和重离子碰撞理论研讨会文集,北京:中国高等科学技术中心,1996:105 图书著者﹒书名﹒版本﹒出版地:出版者,出版年﹒页次如果该书是第一版则可以略去版次。
说话人确认原理

说话人确认原理
说话人确认原理是基于声纹识别的一种生物识别技术,也称为说话人识别。
它的原理是通过分析处理说话人的语音信号,提取出包含在其中的个性因素,如发音器官和发音习惯的差异,从而将不同人的声音进行有效区分。
在说话人确认中,通常会建立相应的参考模板或模型,并采用一定的判决规则进行识别。
典型的方法包括模板模型和随机模型。
模板模型将训练特征参数和测试的特征参数进行比较,以两者之间的失真作为相似度;而随机模型则用一个概率密度函数来模拟说话人,训练过程用于预测概率密度函数的参数,匹配过程通过计算相应模型的测试语句的相似度来完成。
在声纹识别的过程中,每个人的语音都带有强烈的个人色彩,这是由于发音器官和发音习惯的差异以复杂的形势反映在说话人语音的波形中。
这种差异使得每个人的语音具有独特的特征,从而可以对说话者进行有效的识别。
总的来说,说话人确认原理是通过分析和比较语音信号中的个性因素来识别说话人的身份,这一技术是交叉运用心理学、生理学、数字信号处理、模式识别、人工智能等知识的综合性研究课题。
说话人识别方法综述

说话人识别方法综述【综述】随着语音识别技术和人工智能技术的不断发展,说话人识别技术已经逐渐成为了人们研究的热点和难点。
说话人识别技术是指计算机通过语音信号识别说话人的身份,实现自动说话人识别。
在实际应用中,说话人识别技术已经广泛应用于身份认证、声纹加密、电话客服等领域。
本文将就说话人识别技术的算法、特点及应用做一综述。
【算法】1.基于GMM-UBM的方法GMM-UBM(Gaussian Mixture Model-Universal Background Model)方法是一种经典的说话人识别算法,它利用GMM模型对语音信号进行建模,并以通用背景模型(UBM)作为训练数据。
该方法通常用于短时语音信号的识别,准确度较高,但对噪声以及长时语音信号的识别效果较差。
2.基于i-vector的方法i-vector方法是由NIST提出的一种说话人识别算法,它将说话人的隐含向量表示为i-vector。
该方法将说话人的长时语音信号进行建模,具有很好的抗噪性能,但需要大量的训练数据和计算复杂度高。
3.深度学习方法随着深度学习技术的发展,深度学习方法在说话人识别领域得到了广泛应用。
其中,卷积神经网络(CNN)和长短时记忆网络(LSTM)是常用的神经网络结构。
该方法具有很高的准确度和鲁棒性,但需要大量的训练数据和计算资源。
【特点】1. 鲁棒性说话人识别技术在实际应用中需要具有较好的鲁棒性,即能够在嘈杂环境和不同话语语速下识别说话人的身份。
基于深度学习的方法和i-vector方法具有很好的抗噪能力。
2. 精度说话人识别技术需要具有较高的识别精度,能够准确识别说话人的身份。
在精度方面,基于GMM-UBM的方法表现并不理想,而基于i-vector和深度学习的方法可以达到很高的准确度。
3. 训练数据说话人识别技术需要大量的训练数据才能得到较好的效果。
基于GMM-UBM的方法需要大量的训练数据才能获得较高的识别精度,而基于i-vector和深度学习的方法需要更多的训练数据。
基于深度神经网络的语音识别模型研究共3篇

基于深度神经网络的语音识别模型研究共3篇基于深度神经网络的语音识别模型研究1随着人工智能技术的不断发展,语音识别技术已经成为了人机交互的一个重要领域。
语音识别技术对于改善人们的生活和工作具有重要的作用。
传统的语音识别技术主要是基于模板匹配和高斯混合模型的方法。
但是这些方法具有很多的局限性,如处理长文本准确度低、噪声干扰较敏感、实时性不高等问题。
近年来,深度神经网络(Deep Neural Networks,DNN)作为一种新的模型结构被引入到了语音识别中。
基于深度神经网络的语音识别技术,常常被称为“端到端的语音识别”,相比传统技术,它具有许多优势。
首先,DNN 可以自适应学习特征来表示语音信号。
其次,DNN具有实时性,可以很好地处理长语音文本。
最后,DNN具有良好的噪声屏蔽能力,能够在较差的语音环境中准确识别语音。
基于深度神经网络的语音识别模型在近年来的研究中取得了很大的进展。
首先,目前的模型采用了长短期记忆网络(LSTM)、卷积神经网络(CNN)和残差神经网络(ResNet)等结构,在语音识别性能上得到了不错的提升。
此外,针对深度神经网络模型存在的参数多、训练时间长、内存消耗大等问题,学者们提出了很多优化方法,比如剪枝、量化、跳跃连接等。
深度神经网络语音识别的实现过程可大致分为如下几个步骤:首先将语音信号转化为语音特征向量,然后将其送入深度神经网络中进行训练,完成后使用深度神经网络进行验证和应用。
语音识别中最重要的一步就是特征提取,而时频展示法(Spectrogram)是最常用的特征表述法。
Spectrogram 将语音信号在时域方向上进行分割,并将每份信号转换为对应的频谱图。
许多学者通过对 Spectrogram 进行分析和优化,不断提高其性能。
深度神经网络语音识别的训练过程可分为监督学习和无监督学习。
监督学习使用有标注的语音样本作为训练数据,利用这些数据来训练深度神经网络,使其能够自动识别未标注的样本。
人工智能技术在口译领域中的研究
人工智能技术在口译领域中的研究随着全球化的进程加速,语言交流带来的需求也越来越大。
对于那些需要跨越语言障碍进行交流的人来说,口译是一项非常重要的工作。
然而,由于口译的要求很高,受到一些限制,如口译人员的数量、地区和费用等。
但是,随着人工智能的飞速发展,人工智能技术已经开始在口译领域研究和应用。
一、语音识别技术语音识别技术是人工智能技术中的一种。
在口译中,语音识别技术可以用于识别说话人所说的内容,并将其转换为文字,并在显示器上呈现。
这可以帮助口译人员在会议中更好地捕捉肢体语言,以便更好地理解演讲者的意图和背景。
此外,语音识别技术也可以帮助口译人员更好地辨别演讲者的口音和语速,以便更好地做出翻译。
二、自然语言处理技术自然语言处理技术是另一种人工智能技术。
通过自然语言处理技术,计算机可以理解和处理人类自然语言。
在口译领域中,自然语言处理技术可以用于机器翻译。
机器翻译是一种自动翻译,其使用机器进行翻译,而不是人类。
当在会议现场没有口译员的时候,可以使用机器翻译来转换来自说话人的语音输入,并自动将其转换为所需的语言。
现代机器翻译已经越来越精确,特别是在使用神经网络进行翻译方面。
三、机器学习技术机器学习技术是人工智能技术中最重要的技术之一。
机器学习技术可以帮助计算机学习和识别大量数据,并根据数据生成模型。
在口译领域中,机器学习技术可以用于自适应翻译。
自适应翻译是指计算机可以自己进行学习,从而更好地适应各种语言的差异。
四、深度学习技术深度学习技术是机器学习技术中最前沿的技术之一。
深度学习技术可以通过模拟人脑的神经网络进行模型建立。
在口译领域中,深度学习技术可以用于提高机器翻译的精度。
通过将深度学习技术与大量数据集和机器学习技术相结合,机器翻译的精度已经达到了新的高度。
五、数据挖掘技术数据挖掘技术是人工智能技术中的一种。
数据挖掘技术可以帮助计算机发现数据中的隐含模式和规律。
在口译领域中,数据挖掘技术可以用于解决一些特殊的问题。
浅谈语音识别技术论文(2)
浅谈语音识别技术论文(2)浅谈语音识别技术论文篇二语音识别技术的发展【摘要】语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。
【关键词】语音识别技术;发展趋势语音识别是一门交叉学科。
语音识别研究经历了50多年的研究历程,经过50多年的积累研究,获得了巨大的进展。
特别是近20年来,语音识别技术取得了显着的进步,并逐步的走向市场。
在未来的日子里,语音识别技术将应用更为广泛。
一、语音识别技术概述语音识别是解决机器“听懂”人类语言的一项技术。
作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。
如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。
以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。
广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别。
说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。
关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子,例如对一些特殊人名、地名的电话监听等。
语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。
语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。
二、语音识别的研究历史语音识别的研究工作始于20世纪50年代,1952年Bell实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。
1959年,Rorgie和Forge采用数字计算机识别英文元音和孤立词,从此开始了计算机语音识别。
60年代,苏联的Matin等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。
基于卷积神经网络的语音识别技术研究
基于卷积神经网络的语音识别技术研究语音识别技术是人工智能的重要研究领域之一,其核心是自然语言处理。
目前,基于深度学习的语音识别技术已经被广泛应用于语音助手、智能家居、智能客服等领域。
其中,卷积神经网络(CNN)作为一种成功的深度学习架构,在语音识别中也发挥着非常重要的作用。
一、卷积神经网络的基本结构卷积神经网络由卷积层、池化层、全连接层等组成。
其中,卷积层是CNN的核心层次,用来提取语音信号中的特征特征,应用复杂的函数实现了从原始输入到特征提取的映射。
池化层用来对特征进行降维和抽样。
全连接层将特征提取出来的特征进行整合和分类。
整个CNN模型在训练过程中通过反向传播算法自动学习如何从语音信号中提取信息,从而实现了语音识别。
二、卷积神经网络的优点相比传统的语音识别方法,卷积神经网络具有以下优点:1.神经网络能够自动学习语音信号中的特征,避免了繁琐的人工特征提取过程。
2.卷积层的卷积核可以实现对语音信号的局部响应,提高了对信号变化的适应性。
3.卷积神经网络具有高度的灵活性,能够适应不同噪音水平和说话人口音的输入环境,并且模型参数也不需事先平衡。
三、卷积神经网络语音识别的研究问题和解决方案虽然卷积神经网络在语音识别领域具有良好的应用前景,但在实际应用中也存在一些问题。
主要问题如下:1.数据量问题:语音是一个高度动态的信号,需要大量的样本数据才能有效地训练模型。
目前,不同语种及不同口音的大规模数据集仍然是绝大多数研究所面临的难题。
2.语音噪声问题:噪声对语音识别的影响极大,尤其在实际应用环境中,噪声较多,因此如何对卷积神经网络进行优化以适应不同的噪音环境是一个很重要的问题。
3.实时性问题:语音识别在实际应用中需要达到实时性,即输入语音信号到输出文字结果的时延要达到可接受的范围。
如何快速适应语音信号的变化并实现实时性也是一个重要的问题。
针对以上问题,研究人员提出了以下解决方案:1.数据增强:通过降噪、语速变换、声道增强等技术,扩充数据的变化范围,提高模型的鲁棒性和分类效果。
语音识别技术的原理和优点
1.提高工作效率
语音识别技术可以较为快速地将口头信息转换为文本,避免了人们手动快速打字所遇到的困难,从而提高工作效率。在商业领域,语音识别技术可以极大程度地提高会议记录、电子邮件撰写等工作的效率。
2.方便用户交互
语音识别技术使得用户在使用电脑或移动设备时不再需要键盘和鼠标,可以直接用语音进行操作。这在行车、做饭等情况下非常方便,特别是在需要使用手臂、手指等肢体的工作中。
三、语音识别技术的应用
1.个人生活
语音识别技术在个人生活中的应用非常广泛。例如,人们可以使用语音助手来查找信息、答题、播放音乐、控制家电等等。此外,语音识别技术还可以帮助人们在交通出行时进行导航操作,可以在繁忙的街道上使用语音识别技术进行电话拨打、短信发送等操作。
2.商业领域
语音识别技术在商业领域的应用也越来越广泛。可以用于在电话中快速识别客户的声音,并且自动向服务代表推送相应的客户信息。此外,语音识别技术还能帮助服务代表通过电子邮件、短信等方式直接向客户提供帮助和服务。在医疗领域,语音识别技术可以辅助医生快速记录病人的医疗历史,并且在病人病情有变化时提醒医生。
3.提高精度
随着语音识别技术的不断发展,其在实现口译中的精度不断提高,并且已经可以在语言跨度较小的情况下胜任大多数语音转录任务,例如在法庭上进行口供记录。语音识别技术的错误率也随着技术的发展而不断降低。
4.增加可访问性
对于那些在书写或视帮助这些人们更方便地与计算机交互,并且降低了他们使用电脑的门槛。
语音识别技术的原理和优点
随着科技的不断进步,语音识别技术愈发成熟并得到了广泛应用。这项技术的原理和优点也越来越为大众所熟知。本文将介绍语音识别技术的原理和优点,并探讨其在个人生活和商业领域中的应用。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
说话人识别技术研究马 建 郭建东(电子科技大学计算机学院四川成都610054)
【摘 要】 说话人识别,是指通过说话人的语音来自动识别说话人的身份,它主要包括特征提取和模式匹配两个部分。随着计算机技术和人工智能的发展,通过说话人识别实现特定场合的实体鉴别已经具有非常重要的研究和应用价值。【关键词】 说话人识别;说话人辨认;说话人确认
人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官———舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可能来自生理、病理、心理、模拟、伪装,也可能与环境干扰有关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,说话人的鉴定仍能区别不同的人或法定是同一人的声音,从而可以进行个人身份识别。说话人识别(SpeakerRecognition),根据应用环境不同可分为两类,即说话人辨认(SpeakerIdentification)和说话人确认(SpeakerVerification)。说话人辨认是通过一段语音确认身份的过程,在说话人辨认中,我们需要将待识声音和已知人群中的每一个人的特征逐一进行比较,从中辨别出说话人,系统的决策选择数目为说话者的数目。因此,说话人辨认系统的性能是随着说话人集合的规模增大而降低。说话人确认是证实某一说话人是否是他所声称的身份的过程。在说话人确认中,只需将待识声音与注册说话人自己的模型比较,以确定是否是注册者本人的声音,系统只需给出正确或错误两种选择。因此,说话人确认系统的性能是与说话人集合的规模无关。两类系统的不同之处如表1所示。表1 说话人识别的两类系统比较[1]说话人辨认说话人确认说话人未必合作说话人主动合作存在发音伪装问题存在发音模仿问题必须与N个已知模式进行比较只需与一个已知模式进行比较系统响应可以缓慢系统响应必须快速词汇表可以各个不相同词汇表限于标准试验短语通道特性可能不良或不同通道特性往往可以调整信噪比可能太低信噪比通常可调 与语音识别不同的是,说话人识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。说话人识别可能被用三种方式进行:文本相关的(Text-Dependent)、文本提示的(Text-Prompted)和文本无关的(Text-Independent)三种。与文本有关的说话人识别系统要求用户按照规定的内容发音,每个人的声音模型逐个被精确地建立,而识别时也必须按规定的内容发音,因此可以达到较好的识别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该用户。而与文本无关的识别系统则不规定说话人的发音内容,模型建立相对困难,但用户使用方便,可应用范围较宽。无论是与文本有关还是无关,系统都面临一个共同的问题,即无法区分一个声音是现场声音还是录音。但文本提示的说话人识别系统可以有效地避免这种情况发生。具体实现时,可采用随机或其他方法来生成提示文本,如随机的数字串或句子,以使假冒者无法事先录音。在说话人辨认方面,根据待识别的说话人是否在注册的说话人集合内,说话人辨认可以分为开集(open-set)辨认和闭集(close-set)辨认。闭集的说话人辨认是指系统具有这样的先
验知识;测试的说话人肯定是训练集中出现过的说话人。而开集的说话人辨认则指所测试的说话人还有可能是训练集中没有出现过的人。开集的说话人辨认和说话人确认通常都通过一个阈值来判断测试的说话人是不是在训练集中。说话人识别系统主要包括两个部分:特征提取和模式匹配(如图1所示)。特征提取的任务是选取惟一表现说话人身份
的有效且稳定可靠的特征;模式匹配的任务是对训练和识别时的特征模式进行相似性的匹配。
图1 说话人识别系统的典型结构特征提取
说话人的模型不是由语音信号得到的,而是通过从语音信号中提取特征而得到的,是说话人语音特征的模型。测试音只有在经过特征提取后才与说话人的模型进行比较和匹配,训练语音也只有进行语音特征提取后才能得到其特征的模型,因此特征提取是说话人识别系统中的重要组成部分。与计算机处理相对应,可以将人类的声音特征划分为以下三个层次:声道声学层次,在分析短时信号的基础上,抽取对通道、时间等因素不敏感的特征;韵律特征层次,抽取独立于声学、声道等因素的超音段特征,如方言、韵律、语速等;语言结构层次,通过对语音信号的识别,获取更加全面和结构化的语义信息。说话人识别系统主要针对较低层次的声道声学特征进行建模,主要有基音(Pitch)周期、共振峰(Format)、基于线性预测(LinearPredictive)的倒谱(Cepstrum)、基于付氏变换的FFT
倒谱、基于语音信号的滤波器组分析的Mel倒谱和语音谱的过渡信息(TransitionalInformation)等。总之,较好的特征提取,应该能够有效地区分不同的说话人,但又能在同一说话人语音发生变化时保持相对的稳定;不易被他人模仿或能够较好地解决被他人模仿问题;具有较好的抗噪性能等等。模式匹配测试音的特征与说话人模型进行匹配,计算匹配距离。说话人确认时,只与所声称的说话人的模型进行匹配和匹配距离计算;说话人辨认时,与所有人的模型进行匹配和匹配距离计算。目前针对各种特征而提出的模式匹配方法的研究越来越深入,大致可归为三类:基于非参数模型的方法、基于参数模型
8福 建 电 脑 2005年第1期的方法、基于神经网络模型的方法。典型的非参数模型有模板匹配、矢量量化模型(VectorQuantizationModel)等。模板匹配方法用语音信号某些特征的长时间的均值来辨认说话人,这一均值我们也称为统计平均。使用模板匹配方法,就是对待识语音计算平均值。并与已经储存的每一说话人训练平均值进行比较。在模板模型系统中,补偿说话率偏差的最流行方法是动态时间规整(DTW)方法。矢量量化模型作为一种非参数模型,是目前文本无关的说话人识别方法的评估基准。从语音信号中提取的说话人特征,常是一多维矢量的时间序列。矢量量化模型就是从这些矢量中寻找到少数具有代表性的典型矢量进而构的说话人模型。寻找代表矢量(码本)为一矢量聚类问题,可通过聚类等算法来实现。用矢量量化模型识别说话人的过程如下:对某一说话人,其训练语音的特征矢量序列通过聚类算法可聚为M类,求每类中的所有矢量的均值(或选择类中的一个成员)就得到了每类的码本矢量。M个码本矢量构成了该说话人的矢量量化模型。在识别过程中,将待识语音的每一特征矢量到某一说话人的M个三本矢量的一个最小距离进行累加,累加和最小的说话人作为识别结果。这种方法的识别精度较高,且判断速度快。参数模型是指采用某种概率密度函数来描述说话人的语音特征空间的分布情况,并以该概率密度函数的一组参数来作为说话人的模型。这些参数可以用从训练语音中提取的特征参量来估计。说话人识别系统中经常采用的概率模型有:高斯模型、高斯混合模型(GassianMixtureModel,GMM)、隐马尔可夫模型(HiddenMarkovMode,HMM)等。每一说话人的语音特征在特征空间中都形成了特定的分布,可以用这一分布来描述说话人的个性。高斯混合模型(GMM)是用多个高斯分布的线性组合近似说话人的特征分布,识别是将最能够产生测试音特征的说话人分布模型对应的说话人作为识别结果。HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。说话人识别系统中采用的神经网络模型有多层感知器(Multi-LayerPerceptron,MLP)、径向基函数(RadialBasis
Function,RBF)、时延神经网络(Time-DelayNeuralNetwork,TDNN)、自组织特生映射(Self-OrganizingFeatureMap,SOM)等。人工神经网络模仿人脑的信息处理机制,把大量结构非常简单的计算单元相互连接起来,实现高度并行和分散的信息处。尤其适合于说话人识别这类与人的感知有关的信息处理问题。它可以通过从示例中学习,实现网络具有的自我组织、自适应、自学习能力。从语音中说话人个性特征与说话人的对应关系上讲。说话人识别是一个非常复杂的非线性分类问题,
而人工神经网络,尤其是多层感知器结构的人工神经网络有着传统分类方法所不能比拟的分类能力。人工神经网络在某种程度上模拟了生物的感知特性,它是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性,其性能近似理想的分类器。其缺点是训练时间长,动态时间规整能力弱,网络规模随说话人数目的增加可能会大到难以训练的程度。对于说话人确认系统,表征其性能的最重要的两个参量是错误拒绝率和错误接受率。前者是拒绝真实的说话人而造成的错误,后者是接受假冒者而造成的错误,二者与阈值的设定相关。说话人确认系统的错误率与用户数目无关,而说话人辨认系统的性能与用户数目有关,并随着用户数目的增加,系统的性能会不断下降。说话人识别应用前景与其他生物识别技术,诸如指纹识别、掌形识别、虹膜识别等相比较,声纹识别除具有不会遗失和忘记、不需记忆、使用方便等优点。其主要应用领域包括以下几方面:
(1)说话人核对:包括电话预约业务的声音确认转帐、汇
款、余额通知、股票行情咨询等。(2)搜索罪犯:判断犯罪现场记录的声音是多个嫌疑犯中
的哪一个人的声音,有时可能嫌疑犯中不包有真正的罪犯,此时常常需要将说话人辨认与确认合起来。(3)医学应用:如使声纹识别系统响应患者的命令,从而实
现对机器假肢的控制等。(4)军事领域应用:通过电子侦听,在众中信号找出侦听对
象信号;通过语音辨别确认己方指挥员的命令而不致为敌方查假信号所欺骗。