浅谈说话人识别技术及应用分析
基于深度学习的说话人识别技术研究

大连理工大学硕士学位论文摘要说话人识别通常称为声纹识别,是一种身份认证技术。
它具有用户接受度高、所需设备成本低、可扩展性好以及便于移植等优势,可广泛应用于国防军事、银行系统、通信、互联网、公安司法等领域。
说话人识别技术已经取得重要进展,并有产品问世,但尚有许多问题有待深入研究。
深度学习是近年来发展起来的一种神经网络模型,它具有克服学习不充分、深度不足等特点,可用于模式分类、目标跟踪等领域。
本文将深度学习理论用于说话人识别中,从基于深度学习的说话人识别系统、改进特征的说话人识别算法、改进统计准则的说话人识别算法三个方面,对说话人识别技术进行了研究,主要工作如下:(1)基于深度学习的说话人识别系统的性能研究。
将深度学习理论引入到说话人识别系统中,在此基础上分析了测试语音不同单位长度对说话人识别率的影响;在相同测试条件下,不同语音特征参数对说话人识别准确性的影响;在相同条件下,不同的深度学习层数以及层上节点数对于系统识别率的影响,证明了深度学习在说话人识别系统中应用的正确性与可靠性。
(2)基于改进特征的说话人识别算法。
本文将模拟人耳听觉特性的MFCC与GFCC语音特征参数结合起来,组成语音特征向量,并应用于说话人识别系统中,提高了系统识别率。
(3)基于改进统计准则的说话人识别算法。
考虑到传统的系统统计识别算法对于多个说话人识别时存在潜在的误判,本文应用分帧概率打分的统计准则,并进行了说话人识别实验。
实验仿真验证了改进统计准则的可行性与有效性。
关键词:说话人识别:深度学习;受限玻尔兹曼机;梅尔倒谱系数;Gammatone频率倒谱系数基于深度学习的说话人识别系统研究StudyonDeepLe锄ing—basedSpea】brRecognitionAbstractSpeal(errecogIlitioniscalledVoic印rintidentmcation.Itisakilldofautllenticationtechnology.Speal【errecogIlitiontecllIlologyhaSmanyadVan切【ges,includingK曲useracceptance,lowequipmentcosts,s包fongscalabili够andeaLsyt0仃jmsplantation.Itiswidelyusedinmilitaryfield,b砌【system,intemetsecuri够a11djudicialsec谢够.Speakerreco鲥tiontecllllologyisrelatedtoourlifecloselyaIldhaSgreatresearchValue孤dpraCtic2Lli够.Tllist11esismailllystudies廿leSpeal【erreco鲥tionsystem晰Ⅱldeeplea玎1iIlgmodel.Somebasicsystemperfom捌ncetestiIlgiscompletedanddiscuSsed,andttlispapermodifiedspeechfeatureparametersa11dstatisticalmemodtoobtaina11i曲erspea:kerrecogIlitionsystemrate.‰aretllispap盯t2Lll(ingat,0utis2usfollows:(1)111ebaSicpem彻anceofsyst锄baLsedondeep1ean血g.111ede印leanlingmodelisin仃oduCedinspeal(erreco嘶tionsystem.Theimpactofmedi毹rentlengtllofspeechu11itsonspeakerrecogIlitionsystemrateisstudied.Ont11esametestcondition,meiInpactofdifferentspeechf.ean】resonspeakerreco驴“ionsystemrateisalsostlldied.Theimpactofdi脆rentlayersaIldnodesofde印leaHlillgmodelonsystemreco班tionrateisstudied.nleaccuraCya11dreliabil时ofdeeplea玎1iIlgmodelappliedonspeakerrecogIlitionsystemisproVed.(2)BaSedonhUmaIlaudito巧Characteristics,weapplyanewSpeechfIe锨鹏bycombillingMFCCw池GFCCtoSpeakerreco鲥tionsystemt0沛pr0Vemereco鲥tionrate.(3)Consideringtlletmditionalsystemstatisticsalgoritllmformlllti—speakerrecogIlitionleadsto耐匈udgment,、Ⅳeproposedamodifieds蜥sticsaJgorimmformulti-speakerreco卿tionsystem.111ee豌ctiVenessofmodifiedmemodispr0VedbyeXpe血1e鹏.KeyWords:Speal【erReco鲥tion;De印Le锄i119;I沁strictedBoltzm锄Machme;Mel-FrequencyC印snmCoemcients;G锄matoneFrequencyC印s觚lIIlCoe伍cients;一II—基于深度学习的说话人识别系统研究2说话人识别基本知识说话人识别系统包含语音预处理部分、端点检测部分、特征计算部分以及识别模型的选择部分等。
说话人识别模型与方法

说话人识别模型与方法
4. 基于深度学习的说话人识别:深度学习模型,如卷积神经网络(CNN)和循环神经网 络(RNN),可以用于学习和提取说话人的声音特征。通过训练一个深度神经网络来提取语 音特征,并使用这些特征进行说话人的识别。
这些是常见的说话人识别模型和方法,每种方法都有其优势和适用场景。实际应用中,根 据数据集的规模、特征的选择和计算资源的限制等因素,可以选择适合的模型和方法来进行 说话人识别。
说话人识别模型与方法
说话人识别(Speaker 人进行比对和识别的技术。下面介绍一些常见的说话人识别模型和方法:
1. 基于高斯混合模型的说话人识别(GMM-UBM):该方法使用高斯混合模型(GMM )来建模说话人的声音特征,同时使用一个通用背景模型(Universal Background Model ,UBM)来表示说话人之外的声音。通过比较测试语音与GMM和UBM之间的相似度,进行 说话人的识别。
说话人识别模型与方法
2. 基于高斯混合模型和隐马尔可夫模型的说话人识别(GMM-HMM):该方法将高斯混 合模型与隐马尔可夫模型(HMM)结合起来,用于建模说话人的声音特征和语音序列。通 过训练HMM模型来表示每个说话人的声学特征和语音模式,然后使用该模型进行说话人的 识别。
3. 基于i-vector的说话人识别:i-vector是一种用于表示说话人的声音特征的向量表示方 法。它通过将语音信号映射到一个低维的向量空间,捕捉说话人的语音特征和变化。该方法 常用于建立说话人的特征空间和计算说话人之间的相似度来进行识别。
声纹识别原理、技术及应用

GMM缺点:
主要内容
1 2 3 4 5 6 生物识别技术 声纹识别基本原理 文本相关声纹识别及应用 文本无关声纹识别及应用 文本提示声纹识别及应用 总结及展望
基于GMM的文本相关声纹识别
基于GMM的文本相关声纹识别
• 固定口令(0~9) • 采用Znorm得分归一化 • EER<3% • 技术已经成熟可商用。
高斯混合模型(GMM)
GMM本质上是一种多维概率密度函数 M 阶GMM的概率密度函数如下:
P( x | )
i 1
M
P ( x, i | )
i 1
M
ci P( x | i, )
Model
其中
c
i 1
M
i
1
p( x | )
M 阶GMM是用M个单高斯分布的线性组合来描述。
训练-测试环境 模型数 正例测试次数 负例测试次数
1conv4w-1conv4w
351
1595
1159
24945
9398
1conv4w-1convmic 351
声纹辨认
刑侦破案、嫌疑人追踪 情报过滤、反恐侦查、国防军事监听 呼叫中心、个性化应用,等等 金融证券交易、银行交易 司法鉴定、法庭证据 社区矫正 声纹门禁 智能手机、民用安全/娱乐/数码设备,等等
声纹确认
国内产业化进展
中科院声学所、清华大学、中国科技大学、厦 门大学等科研机构和高等院校已研制成功各具 特色的声纹识别系统。
虹膜识别
很低
约10%
视网膜识别 声纹识别
未知 较低
未知 较低
语音情感识别技术了解人的情绪与情感状态

语音情感识别技术了解人的情绪与情感状态随着科技的不断进步,语音情感识别技术逐渐成为人工智能领域的热门话题。
该技术可以通过分析语音信号,了解人的情绪与情感状态,为人们的交流提供更多的可能性。
本文将介绍语音情感识别技术的原理、应用以及发展前景。
一、语音情感识别技术的原理语音情感识别技术的原理是通过对语音信号进行分析和处理,提取出与情绪与情感相关的特征参数。
这些特征参数包括语速、音调、语调、能量等,通过对这些参数进行模式匹配、分类和判别,识别出语音信号中所表达的情绪与情感状态。
二、语音情感识别技术的应用1. 智能助理语音情感识别技术可以应用于智能助理,如苹果的Siri、亚马逊的Alexa等。
通过识别用户语音中的情绪与情感状态,智能助理可以更好地理解用户的需求,提供更加个性化、贴心的服务。
2. 情感分析语音情感识别技术还可以应用于情感分析领域。
例如,在市场调研中,可以通过对消费者电话回访录音进行情感识别分析,了解消费者对产品或服务的满意度,从而有针对性地改进产品和服务质量。
3. 心理健康辅助语音情感识别技术可以为心理健康领域提供有力支持。
通过识别患者语音中的情绪与情感状态,可以对患者的心理状态进行监测与评估,及早发现与干预可能存在的心理问题。
三、语音情感识别技术的发展前景语音情感识别技术在人工智能领域具有广阔的应用前景。
随着语音识别和自然语言处理等相关技术的进一步发展,语音情感识别技术将变得更加准确和稳定,能够更好地理解和识别人类语音中的情感信息。
同时,语音情感识别技术也将与人机交互、智能助手等领域相结合,为人们的生活带来更多的便利和智能化体验。
总结:语音情感识别技术通过对语音信号的分析与处理,可以了解人的情绪与情感状态。
它在智能助理、情感分析、心理健康辅助等领域有着广泛的应用。
随着相关技术的进一步发展,语音情感识别技术的准确性和稳定性将不断提高,为人们的生活带来更多的便利和智能化体验。
AI在语音识别中的应用

AI在语音识别中的应用第一章:介绍随着科技的发展,智能化、自动化等技术越来越多地渗透到我们的生活中,人工智能,尤其是AI语音识别技术,已经成为当前最热门的技术发展方向之一。
AI语音识别技术在许多领域被广泛利用,如智能语音助手、智能客服、语音翻译、智能手写板和语音识别支付等。
本文将详细介绍AI在语音识别中的应用。
第二章:AI语音识别基础知识AI语音识别是基于人工智能技术的一种语音识别技术,其通过文本语言的表示形式识别说话人的语音。
AI语音识别的基本流程为:语音采集、特征提取、声学模型训练、语音识别和后处理等过程。
AI语音识别主要涉及到信号处理、数字信号处理、自然语言处理、机器学习等方面的知识。
第三章:智能语音助手智能语音助手,如Siri和小冰等,是人工智能语音技术的典型应用之一。
智能语音助手利用AI语音识别技术实现语音交互和语音控制等功能,可以回答问题、预订餐馆、播报天气、提醒日程等。
第四章:智能客服智能客服是一个利用人工智能技术提供敏捷客户支持的程序。
使用AI语音技术可以实现语音识别和语音合成功能,让客户可以通过语音与客服机器人沟通。
智能客服可以自动应答常见问题,提供基本的售前售后支持,并采用机器学习方法进一步学习和完善解决方案。
第五章:语音翻译语音翻译是一种将一种语言转换为另一种语言的技术,这种技术的应用场景非常适合旅游和工作等方面。
使用AI语音识别和机器翻译技术实现语音翻译,能够对不同语言的翻译进行处理,完成中文、英语、日语、韩语等语言的翻译。
第六章:智能手写板智能手写板是一种利用人工智能语音识别技术实现的手写笔识别技术,该技术可以将手写笔输入的内容转换为计算机的文本输入。
使用智能手写板可以使人们更加方便地进行手写输入,特别是在笔记和制作演示文稿时特别方便。
第七章:语音识别支付语音识别支付是利用AI 技术,将语音输入与金融支付相结合,从而实现语音指令支付,可以非常方便地进行购物或转账等操作。
说话人识别方法综述

说话人识别方法综述【综述】随着语音识别技术和人工智能技术的不断发展,说话人识别技术已经逐渐成为了人们研究的热点和难点。
说话人识别技术是指计算机通过语音信号识别说话人的身份,实现自动说话人识别。
在实际应用中,说话人识别技术已经广泛应用于身份认证、声纹加密、电话客服等领域。
本文将就说话人识别技术的算法、特点及应用做一综述。
【算法】1.基于GMM-UBM的方法GMM-UBM(Gaussian Mixture Model-Universal Background Model)方法是一种经典的说话人识别算法,它利用GMM模型对语音信号进行建模,并以通用背景模型(UBM)作为训练数据。
该方法通常用于短时语音信号的识别,准确度较高,但对噪声以及长时语音信号的识别效果较差。
2.基于i-vector的方法i-vector方法是由NIST提出的一种说话人识别算法,它将说话人的隐含向量表示为i-vector。
该方法将说话人的长时语音信号进行建模,具有很好的抗噪性能,但需要大量的训练数据和计算复杂度高。
3.深度学习方法随着深度学习技术的发展,深度学习方法在说话人识别领域得到了广泛应用。
其中,卷积神经网络(CNN)和长短时记忆网络(LSTM)是常用的神经网络结构。
该方法具有很高的准确度和鲁棒性,但需要大量的训练数据和计算资源。
【特点】1. 鲁棒性说话人识别技术在实际应用中需要具有较好的鲁棒性,即能够在嘈杂环境和不同话语语速下识别说话人的身份。
基于深度学习的方法和i-vector方法具有很好的抗噪能力。
2. 精度说话人识别技术需要具有较高的识别精度,能够准确识别说话人的身份。
在精度方面,基于GMM-UBM的方法表现并不理想,而基于i-vector和深度学习的方法可以达到很高的准确度。
3. 训练数据说话人识别技术需要大量的训练数据才能得到较好的效果。
基于GMM-UBM的方法需要大量的训练数据才能获得较高的识别精度,而基于i-vector和深度学习的方法需要更多的训练数据。
简要介绍语音识别技术在各领域的应用

简要介绍语音识别技术在各领域的应用语音识别作为信息技术中一种人机接口的关键技术,具有重要的研究意义和广泛的应用价值。
介绍了语音识别技术发展的历程,具体阐述了语音识别概念、基本原理、声学建模方法等基本知识,并对语音识别技术在各领域的应用作了简要介绍。
语言是人类相互交流最常用、最有效、最重要和最方便的通信形式,语音是语言的声学表现,与机器进行语音交流是人类一直以来的梦想。
随着计算机技术的飞速发展,语音识别技术也取得突破性的成就,人与机器用自然语言进行对话的梦想逐步接近实现。
语音识别技术的应用范围极为广泛,不仅涉及到日常生活的方方面面,在军事领域也发挥着极其重要的作用。
它是信息社会朝着智能化和自动化发展的关键技术,使人们对信息的处理和获取更加便捷,从而提高人们的工作效率。
1 语音识别技术的发展语音识别技术起始于20世纪50年代。
这一时期,语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。
20世纪60年代,语音识别研究取得实质性进展。
线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题,并通过语音信号的线性预测编码,有效地解决了语音信号的特征提取。
2O世纪70年代,语音识别技术取得突破性进展。
基于动态规划的动态时间规整(Dynamic Time Warping,DTW)技术基本成熟,特别提出了矢量量化(Vector Quantization,VQ)和隐马尔可夫模型(Hidden Markov Model,HMM)理论。
20世纪80年代,语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别,识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。
在声学模型方面,由于HMM能够很好的描述语音时变性和平稳性,开始被广泛应用于大词汇量连续语音识别(Large V ocabulary Continous Speech Recognition,LVCSR)的声学建模;在语言模型方面,以N元文法为代表的统计语言模型开始广泛应用于语音识别系统。
多媒体应用的语音识别技术

多媒体应用的语音识别技术随着科技的快速发展,多媒体应用的使用变得越来越普遍。
语音识别技术作为一种重要的人机交互方式,在多媒体应用中起到了重要的作用。
本文将介绍多媒体应用的语音识别技术,并分析其应用场景和优势。
一、语音识别技术概述语音识别技术是指将人类的语音信息转化为文字或者命令的计算机技术。
通过对语音信号的分析和处理,计算机可以将语音转化为可读的文字或者执行相关命令。
语音识别技术主要包括语音信号的采集、预处理、特征提取和模型匹配等环节。
二、多媒体应用中的语音识别技术应用场景1. 智能助手随着智能设备的普及,人们越来越多地使用智能助手进行语音交互。
语音识别技术可以使智能助手更加智能化,可以通过语音指令进行操作,如打开软件、播放音乐等。
通过语音识别技术,智能助手可以更好地理解人们的需求,提供更加精准的服务。
2. 语音搜索语音搜索是一种越来越受欢迎的搜索方式。
通过语音识别技术,用户可以直接通过语音输入进行搜索,无需手动输入关键词。
语音搜索技术可以提升搜索的便利性和速度,使用户获得更好的搜索体验。
3. 语音录入在多媒体应用中,语音录入是一种常用的输入方式。
通过语音识别技术,用户可以通过语音进行文本的输入,如发送短信、撰写邮件等。
语音录入可以提高输入效率,避免了繁琐的手动输入。
4. 语音翻译在多媒体应用中,语音翻译是一种重要的功能需求。
通过语音识别技术,可以将其他语言的语音信息转化为文字,并进行翻译。
语音翻译技术可以帮助用户更好地理解其他语言的内容,拓宽跨文化交流的能力。
三、多媒体应用的语音识别技术优势1. 便捷高效语音识别技术可以通过语音指令实现对多媒体应用的控制,节省了操作的步骤和时间。
用户无需手动输入,只需通过语音输入即可完成相应的操作。
语音识别技术使得多媒体应用更加便捷高效。
2. 智能化交互语音识别技术可以使多媒体应用更智能化。
通过语音指令,用户可以与应用进行自然语言交互,更好地表达自己的意图。
语音识别技术可以提高多媒体应用的智能化程度,提供更个性化、智能化的服务。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浅谈说话人识别技术及应用分析引言:随着科学技术的快速发展,生物特征识别技术得到了越来越多的研究和应用,说话人识别是语音识别的一种。
它主要分为说话人辨认和说话人确认两个方面:前者是判断待识别语音是多个参考说话人中哪一个人所说,用于辨认说话者的身份,是一个多元判决问题;后者是说话人先声明身份(如输入用户号) ,然后由系统判定待识别语音是否与其参考声音相符,用于对特定人进行身份验证,是一个二元判决问题。
说话人识别技术的发展始于60 年代,随着信息社会化发展,说话人识别作为具有语音识别与理解功能的智能人机接口,是新一代计算机的重要组成部分,其应用领域不断扩大:在司法领域中,可以帮助对嫌疑人的查证;在保安领域中,可以用于机密场所的进入控制、合法使用通信线路、机要设备的身份核查及电子银行转帐业务的安全检查等;在医学领域,如使识别系统仅响应患者的命令,则可实现对假肢的控制;在玩具、家用电器等领域也有广泛的应用前景。
针对以上领域中的许多商用系统已经投入使用。
关键字:生物特征识别、系统判定、控制、应用前景一、说话人识别技术基础随着全球信息化的快速发展,电子商务等信息技术得到了广泛的应用,人们发现,传统的使用密码来认证用户的方法变的越来越脆弱。
在这种背景下,解决用户高安全性和长效稳定性的生物认证技术逐渐得到人们的青睐。
在众多的生物认证技术中,说话人识别技术以其信号采集简单、系统设备成本低等优点得到了快速发展,展现了广阔的应用前景。
说话人识别技术包括说话人辨认技术和说话人确认技术,他们在本质上是一致的,唯一不同的是说话人辨认技术是从多个说话人语音中辨认出某个人的那一段语音信息,而说话人确认技术是确定某段语音信息是不是某人所说。
两者是一对多和一对一的关系。
每个人的发音因为受到声道和发音特点等影响,总是存在一些代表自己特征的元素,说话人识别技术就是通过采集、提取这些表征说话人固有特征的参数来达到识别的目的。
语音识别技术的应用有着非常多的优点,同时目前的研究也存在一些还没有突破的难点,但我相信,不久的将来,说话人识别技术一定会在我国的信息安全方面起到无以替换的重要作用。
1 特征提取特征提取就是提取语音信号中表征说话人的基本特征,此特征应能有效地区分不同的说话人,且对同一说话人的变化保持相对稳定。
提取的说话人的特征参数应满足相应的条件:对局外变量不敏感,如说话人的情绪的影响;能够长期地保持稳定;可以经常表现出来;易于对之进行测量,与其它特征不相关。
语音信号是一种携带着各种信息的非平稳的时变信号。
在说话人识别系统中,首先我们需要对语音信号进行分析,提取特征参数。
然后对语音信号进行预处理。
语音信号经过预处理过后,会产生很大的数据量。
在提取说话人特征时,就需要通过去除原来语音中的冗余信息来减小数据量。
说话人识别技术中的测试音和训练语音都只有在经过特征提取后才能与说话人模型进行比较、匹配和模型训练。
因此,特征提取是说话人识别技术中的关键步骤,其好坏直接影响到整个系统的性能。
1.1 时域特征矢量由于不稳定和表征语音特征较差,现在已应用很少。
通常是指将一帧语音信号中的各个时域采样直接构成一个矢量;如时域上的幅度(或能量)、平均过零率等。
1.2 变换域矢量对一帧语音信号进行某种变换以后产生的相应矢量,如线性预测系数、LPC 倒谱系数、线谱对参数、共振峰率、短时谱等。
倒谱系数描述了人的声道特征,其中基于声道全极点模型的LPC 倒谱系数(LPCC)具有广泛的应用。
具有更好的识别性能的是基于符合人耳听觉的Mel 频率尺度提取出的倒谱系数MFCC 比LPCC 在去噪方面更出色。
近年来,应用更为广泛的是小波变换,他的分辨率可变、无平稳要求等优点。
2 识别模型所谓的识别模型,是指用什么模型来描述说话人的语音特征在特征空间的分布。
对于说话人识别系统,特征参数被提取出来后,需要用识别模型为说话人建模,并对特征进行分类,以确定属于哪一个说话人。
下面分别简要介绍这几种分类模型。
2.1 矢量量化模型矢量量化是将若干个幅度连续取值的时域采样信号分成一组,即构成矢量,然后用若干离散的数字值(或标号)来表示各种矢量。
用矢量量化模型识别说话人就是对某一说话人的特征矢量序列通过聚类算法可以聚为M类,求每类中所有矢量的均值就得到了每类的码本矢量,M个码本矢量构成了该说话人的矢量量化模型。
在识别过程中,将每一特征矢量到某一说话人的M个码本矢量的最小距离进行累加,累加和最小的说话人作为识别结果。
矢量量化模型分类特性较好,可以通过对长时语音特征参数统计信息的量化来区分说话人,还能压缩数据。
用它建立识别模型,在数据量、训练时间、识别响应等方面都具有很强的优势。
2.2 隐马尔可夫模型马尔可夫链推广的隐马尔可夫模型(HMM)也是一种比较常用的模型。
在HMM模型中,观察到的事件与状态通过一组概率分布相联系,是一个双重随机过程,其中一个是马尔可夫链,它描述了状态之间的转移;另一个随机过程描述了状态和观察值之间的统计对应关系。
隐马尔可夫模型是HMM模型的隐含状态,可以观察到的是状态产生的观察值。
HMM模型的优点在于它既能用短时模型状态解决声学特性中相对稳定段的描述,又能用状态转移规律刻画平衡之间的时变过程,所以能统计地吸收发音的声学特性和时间上的变动。
这是80年代语音信号数字处理技术的一项重大进展。
HMM模型的缺点是分类能力比较弱,对噪声的鲁棒性较低。
在实际环境下基于HMM的说话人识别系统识别性能会显著降低。
2.3 高斯混合模型高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。
描述说话人的个性是因为每一个说话人的语音特征在特征空间中形成特定分布。
高斯混合模型使用多个高斯分布的线性组合近似说话人的特征分布,将最能够产生测试语音特征的说话人分布模型所对应的说话人作为识别结果。
应用高斯混合模型训练时,每个人的语音可以分别建立一个模型,其目的本质上是估计模型参数的过程。
训练结束后,保留每个对应参数;识别时,将未知语音与每个人的参数相结合,求出相对应的似然函数,其中对应最大似然函数的说话人被认为是识别结果。
二、说话人识别-声纹识别技术的应用所谓声纹(voice print)是用电声学仪器显示的携带言语信息的声波频谱。
人的语言产生是人体语言中枢与发音器之间一个复杂的生理物理过程,身体在讲话时使用的器--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。
每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。
这种变异可以来自生理、病理、心理、模拟、伪装,也与环境干扰有关。
尽管如此,在一般情况下,声纹的鉴定仍能区别不同的人或法定是同一人的声音,从而可以进行个人身份识别。
从20世纪60年代开始,声纹识别技术被广泛的进行研究,并应用到了电话查询、电话交易、个人身份证明乃至侦察技术等诸多领域。
具体的说,声纹识别技术可以应用到以下领域:1、在信息查询领域的应用:在传统的呼叫中心系统中,为了向用户提供个性化服务,并提高坐席的工作效率,在坐席的电脑端采用了"Screen Pop"技术。
电话拨打进入呼叫中心后,系统通过识别拨打者的电话号码来进行用户识别,并从数据库里调出该用户的个人及历史交易信息,从而能够提高人工坐席的工作效率并向用户提供更具有针对性的信息服务。
但通过电话号码来进行用户身份识别的缺陷是显而易见的,一方面同一个电话的呼入者未必是同一个人,另一方面某个信息查询用户可能会用不同的电话呼入。
而声纹识别技术就可以很好的解决上面的两个问题。
基于每个人的声音特征都是唯一而且几乎很少会发生变化的特性,可以很好通过声纹识别技术进行用户身份识别,从而提高呼叫中心的工作有效性,尤其在更加需要人性化服务的医疗、教育、投资、票务、旅游等应用方面,声纹识别显得尤其重要。
2、在电话交易方面的应用:在通过电话进行交易的系统中,如电话银行系统、商品电话交易系统、证券交易电话委托系统,交易系统的安全性是最重要的,也是系统设计者所要重点考虑的内容。
传统的电话交易系统采用"用户名密码"的控制机制,以确认用户的身份并确保交易的安全性。
然而这种控制机制有几个明显的缺点:(一)是为了降低用户名以及密码被猜中的可能性,用户名和密码往往很长而难以记忆或者容易遗忘;(二)是密码有可能被猜到,而且现有的电话系统中,如果没有专用的端加密设备,通过DTMF信号输入身份密码,很容易就可能被别人窃取;( 三)是拨打者往往需要拨打很多数字才能完成身份验证并最终进入系统,给用户带来很大的麻烦;若在电话交易系统内采用声纹识别技术来进行交易者身份识别与确认,上面的问题就可以迎刃而解,用户的声纹是唯一的,可以通过简单的说几句交易系统指定的话进行身份确认,其好处是显而易见的:提高了交易的安全性,大大降低了用户名和密码被猜中或者窃取的可能性;对交易系统的用户来说,交易过程更加简单和人性化;若与电话自动语音识别技术相结合,通过语音下达交易指令,则更能提高交易的快捷性,缩短拨打用户的拨打时间,降低电话交易难度;准确的用户身份识别,可以通过用户信息数据库和历史交易数据库,为提供真正的One-to-One 个性服务打下基础;降低交易系统费用:降低坐席的干涉时间,提高效率;由于缩短了拨打用户的拨打时间,从而会减少IVR硬件系统的通道需求数量。
降低欺诈的可能性:商家可以根据有关的声纹识别技术,判断这些信息的可信度如何,并据此决定是否送货等,并可从数据库内查看拨打者的信用状况,由此可以大大地提高电话订购商品的效率,推动"电话商务"的发展。
(3) 在PC以及手持式设备上面的应用:在PC机及手持式设备上,也需要进行用户身份的识别,从而允许或拒绝用户登陆电脑或者使用某些资源,或者进入特定用户的使用界面。
同样采用传统的用户名加密码的保护机制,存在着用户名和密码泄密、被窃取、容易遗忘等问题。
声纹识别技术应用到PC以及手持式设备上面,可以无须记忆密码,保护个人信息安全,大大提高系统的安全性,方便用户使用。
如在MacOS 9操作系统中就增加了V oiceprint pa ssword的功能。
用户不需要通过键盘输入用户名和密码,只需要对着电脑说一句话就可以进行登陆。
(4) 在保安系统以及证件防伪中的应用:声纹识别系统可用于信用卡、银行自动取款机、门、车的钥匙卡、授权使用的电脑、声纹锁以及特殊通道口的身份卡,在卡上事先存储了持卡者的声音特征码。
在需要时,持卡者只要将卡插入专用机的插口上,通过一个传声器读出事先已储存的暗码,同时仪器接收持卡者发出的声音,然后进行分析比较,从而完成身份确认。