说话人识别研究综述(好)
说话人识别综述

说话人识别综述杨迪;戚银城;刘明军;张华芳子;武军娜【摘要】Based on the analysis of the principles and methods of speaker recognition, the development of speaker recognition in recent years is reviewed. Several features and pattern recognition methods in the mainstream speaker recognition technologies are summarized and analyzed. Finally, the research prospects and development trends in the future are given.%在分析说话人识别原理和方法的基础上,对近年来说话人识别技术的发展进行了综述。
分析了当前说话人识别技术中使用的多种特征和模式识别方法,并对其今后的研究前景和发展方向进行了展望。
【期刊名称】《电子科技》【年(卷),期】2012(025)006【总页数】4页(P162-165)【关键词】说话人识别;特征提取;模式识别【作者】杨迪;戚银城;刘明军;张华芳子;武军娜【作者单位】华北电力大学电子与通信工程系,河北保定071003;华北电力大学电子与通信工程系,河北保定071003;华北电力大学电子与通信工程系,河北保定071003;华北电力大学电子与通信工程系,河北保定071003;华北电力大学电子与通信工程系,河北保定071003【正文语种】中文【中图分类】TP391.9说话人识别(Speaker Recognition,SR)又称话者识别[1],是指通过对说话人语音信号的分析处理,自动确认说话人的技术。
其综合了生理学、语音学、数字信号处理、模式识别、人工智能等学科知识的一个研究课题,以独特的方便性、经济性和准确性等优势,在相关领域内发挥着重要作用,并有着广阔的市场应用前景。
语音识别技术综述

模型参数得到后可以用 Viterbi 算法来确定与观察序列对 应的最佳的状态序列。建好模型后,在识别阶段就是要计算 每个模型产生观察符号序列的输出概率,输出概率最大的模 型所表示的词就是我们的识别结果。这个过程计算量很大, 有人提出了前向-后向算法, 大大减少了计算量, 已经被广泛采 用, 关于它们的各种改进方法也被大量提出。 ANN 在语音识别中的应用是现在研究的又一热点。 ANN 本质上是一个自适应非线性动力学系统,是由结点互连组成 的计算网络, 模拟了人类大脑神经元活动的基本原理, 具有自 学习能力、 记忆、 联想、 推理、 概括能力和快速并行实现的特点, 同时还具备自组织、自适应的功能。这些能力是 HMM 模型 不具备的, 可用于处理一些环境信息十分复杂, 背景知识不清 楚, 推理规则不明确的问题, 允许样品有较大的缺损、 畸变, 因 此对于噪声环境下非特定人的语音识别问题来说是一种很好 的解决方案。目前大部分应用神经网络的语音识别系统都采 用了 BP 网并取得了较好的识别效果。 将 ANN 与 HMM 结合分别利用各自优点进行识别将是 今后的一条研究途径。二者结合的混合语音识别方法的研究 开始于上世纪 90 年代, 目前已有一些方法将 ANN 辅助 HMM 进行计算和学习概率参数。 语言模型主要分为规则模型和统计模型两种。统计语言 模型是用概率统计的方法来揭示语言单位内在的统计规律, 其中 N-Gram 简单有效, 被广泛使用。N-Gram 模型基于这样 一种假设: n 个词的出现只与前面 N-1 个词相关, 第 而与其它 任何词都不相关, 整句的概率就是各个词出现概率的乘积。 这 些概率可以通过直接从语料库中统计 N 个词同时出现的次数 得到。常用的是二元的 Bi-Gram 和三元的 Tri-Gram。 5 总结 尽管语音识别技术已经取得了长足的进步,而语音识别 系统也层出不穷, 不断的改变人类现有的生活方式, 但其比较 成功的应用也只是在某些特定的领域,谈不上大规模广泛的 应用。只有建立从声学、 语音学到语言学的知识为基础、 以信 息论、模式识别数理统计和人工智能为主要实现手段的语音 处理机制,把整个语音识别过程从系统工程的高度进行分析 构建, 才有可能获得能与人类相比的高性能的、 完整的计算机 语音识别系统。 参考文献: [1] 易克初,田斌.付强.语音信号处理[M].国防工业出版社,2000. [2] 胡航.语音信号处理[M].哈尔滨工业大学出版社,2000. [3] 赵力.语音信号处理[M].机械工业出版社,2003. [4] 张卫清.语音识别算法的研究[D].南京理工大学 (硕士生论 文) ,2004. [5] 何湘智.语音识别研究与发展[J].计算机与现代化,2002(3).
说话人识别的综述

说话人识别的综述
说话人识别可以分为语音特征和语言特征两种方法。
语音特征是指通过分析声音的频率、时域、能量等参数来区分不同说话人的声音特点。
语言特征则是通过分析说话人的语言习惯、语音特点、语音风格等信息来识别说话人的身份。
此外,说话人识别还可以通过语音识别技术、人脸识别技术、生物特征识别技术等手段来实现。
在技术方法方面,说话人识别主要有基于统计模型的方法和基于深度学习的方法。
前者包括高斯混合模型、支持向量机、隐马尔可夫模型等,后者则包括深度神经网络、卷积神经网络、循环神经网络等。
随着深度学习技术的发展,基于深度学习的方法在说话人识别领域越来越受到关注。
评价指标是评价说话人识别性能的重要标准。
常用的评价指标包括准确率、召回率、F1值、等错误率等。
在实际应用中,还需要考虑识别速度、鲁棒性、可扩展性等因素。
虽然说话人识别技术已经取得了一定的进展,但其仍面临着许多挑战。
如何提高识别准确率、缩短识别时间、降低成本等问题仍需要进一步研究。
另外,在保护个人隐私等方面也需要加强相关的法律法规和技术手段。
- 1 -。
《基于i-vector的说话人识别的研究》范文

《基于i-vector的说话人识别的研究》篇一基于i-vector的说话人识别技术研究一、引言随着人工智能技术的不断发展,说话人识别技术已成为生物特征识别领域的重要研究方向之一。
i-vector技术作为一种有效的说话人识别方法,其准确性和鲁棒性在众多研究中得到了验证。
本文旨在探讨基于i-vector的说话人识别技术的研究,从算法原理、数据集、实验设计及结果等方面进行深入分析。
二、i-vector算法原理i-vector算法是一种基于高斯混合模型(GMM)的说话人识别方法,其核心思想是将说话人的语音特征表示为一个固定长度的向量。
该算法首先通过高斯混合模型将语音数据进行建模,提取语音数据的全局特征,然后将这些特征转换为固定维度的i-vector。
i-vector包含了说话人的独特信息,可以有效地用于说话人识别任务。
三、数据集本文采用的数据集为公开的语音数据集,包括不同语言、不同背景的语音数据。
数据集的选取对于说话人识别的准确性和鲁棒性至关重要。
在数据预处理阶段,需要进行语音信号的预加重、分帧、加窗等操作,以提取出高质量的语音特征。
四、实验设计本文通过实验验证了i-vector算法在说话人识别任务中的性能。
实验中,我们采用了不同的参数配置和特征提取方法,以找到最佳的模型参数和特征表示。
同时,我们还对比了其他说话人识别方法,如传统的基于声纹特征的识别方法和深度学习模型等。
五、实验结果与分析实验结果表明,i-vector算法在说话人识别任务中具有较高的准确性和鲁棒性。
我们通过对比不同参数配置和特征提取方法的性能,找到了最佳的模型参数和特征表示。
同时,我们还发现i-vector算法对于不同语言、不同背景的语音数据具有良好的泛化能力。
与其他说话人识别方法相比,i-vector算法在准确性和鲁棒性方面具有明显优势。
六、结论与展望本文研究了基于i-vector的说话人识别技术,通过实验验证了其性能和泛化能力。
i-vector算法通过高斯混合模型将语音数据进行建模,提取出固定维度的i-vector作为说话人的特征表示。
语音信号的提取与识别技术(说话人识别系统)的研究

语音信号的提取与识别技术摘要语音识别(Speech Recognition)是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术.说话人识别是语音识别的一种特殊方式.本论文中,将主要介绍说话人识别系统.说话人识别是指通过说话人的语音来自动识别说话人的身份,它在许多领域内有良好的应用前景。
本文通过分析语音特征参数的特点和说话人识别的基本方法,提出了以美尔倒谱差分和线性预测差分为特征,通过动态时间归整算法来识别的文本相关说话人辨认系统。
关键词: 语音识别, 说话人识别, 线性预测倒谱,美尔倒谱系数,动态时间归整The pick-up of speech signal and speech recognitionAbstractSpeech Recognition is a kind of technology that is using computer to transfer the voice signal to an associated text or command by identification and understand. Speaker recognition is a kind of special way of V oice-identifications. The paper is going to introduce speaker recognition. Speaker recognition is the process of automatically recognizing who is speaking on the basis of individual information include in speech signals. It has well application prospects in many fields. By analyzing speech characteristic parameters and the basis methods of speaker recognition, we choose MFCC and LPCC's difference to be the speech characteristic parameters. Using DTW to recognize text-dependent speech, we have developed a speaker identification system in this paper.Key words:V oice-Identification, Speaker-identification LPCC,MFCC, Dynamic Time Warping目录1引言 (1)2 语音识别技术的基础 (2)2.1 语音识别发展简史 (2)2.2 语音识别技术的应用 (3)3 说话人识别技术的国内外研究现状 (5)3.1 国内外发展水平 (5)3.2主要应用领域 (5)3.3 技术难点 (6)4 说话人识别技术基础 (8)4.1 说话人识别的基本原理 (8)4.2说话人识别系统中常用的特征 (9)4.3 说话人识别的分类 (10)4.4 说话人识别的主要方法 (11)4.5 说话人识别系统的性能评价 (13)5 语音信号分析与预处理 (16)5.1 语音产生机理 (16)5.2 语音信号的数字化和采集 (17)5.3 语音信号的数字模型 (18)5.3.1激励模型 (18)5.3.2 声道模型 (18)5.3.3辐射模型 (20)5.4语音信号的预加重处理 (20)5.5语音信号的短时参数特征 (21)5.5.1短时频谱 (22)5.5.2短时自相关函数 (22)5.5.3短时能量和短时平均幅度 (22)5.5.4短时过零分析 (23)5.5.5倒谱 (24)5.5.6线性预测编码(LPC)参数 (24)5.5.7短时基音周期估计 (25)5.6语音信号端点检测 (27)5.6.1双门限端点检测算法 (28)5.6.2 LPC美尔倒谱特征端点检测方法 (28)6说话人特征提取 (32)6.1线性预测系数LPC (32)6.1.1线性预测的基本原理 (33)6.2.2线性预测系数的求取 (35)6.2线性预测倒谱系数LPCC (36)6.2.1同态处理基本原理 (36)6.2.2线性预测倒谱 (37)6.2.3线性预测差分倒谱 (38)6.3美尔倒谱系数MFCC (39)6.3.1 MFCC系数的提取 (39)6.3.2美尔差分倒谱参数 (40)6.4特征参数的实际提取 (41)6.4.1 LPCC参数计算流程 (41)6.4.2 MFCC的计算 (43)7.说话人识别系统实现 (46)7.1文本相关说话人辨认系统的实现 (46)7.2线性预测倒谱参数的提取实现 (47)7.3美尔倒谱系数及其差分的提取实现 (48)7.4MFCC参数文本相关系统实现 (51)8结论 (54)致谢 (55)参考文献 (56)1引言语言是人类交流信息的基本手段,在人们日益扩大的交流中占据着重要的地位.在如今高度发达的信息社会中用数字化的方法进行语音的传送、储存、识别、合成、增强等是整个数字化通信网中最重要、最基本的组成部分之一。
说话人识别方法综述

说话人识别方法综述【综述】随着语音识别技术和人工智能技术的不断发展,说话人识别技术已经逐渐成为了人们研究的热点和难点。
说话人识别技术是指计算机通过语音信号识别说话人的身份,实现自动说话人识别。
在实际应用中,说话人识别技术已经广泛应用于身份认证、声纹加密、电话客服等领域。
本文将就说话人识别技术的算法、特点及应用做一综述。
【算法】1.基于GMM-UBM的方法GMM-UBM(Gaussian Mixture Model-Universal Background Model)方法是一种经典的说话人识别算法,它利用GMM模型对语音信号进行建模,并以通用背景模型(UBM)作为训练数据。
该方法通常用于短时语音信号的识别,准确度较高,但对噪声以及长时语音信号的识别效果较差。
2.基于i-vector的方法i-vector方法是由NIST提出的一种说话人识别算法,它将说话人的隐含向量表示为i-vector。
该方法将说话人的长时语音信号进行建模,具有很好的抗噪性能,但需要大量的训练数据和计算复杂度高。
3.深度学习方法随着深度学习技术的发展,深度学习方法在说话人识别领域得到了广泛应用。
其中,卷积神经网络(CNN)和长短时记忆网络(LSTM)是常用的神经网络结构。
该方法具有很高的准确度和鲁棒性,但需要大量的训练数据和计算资源。
【特点】1. 鲁棒性说话人识别技术在实际应用中需要具有较好的鲁棒性,即能够在嘈杂环境和不同话语语速下识别说话人的身份。
基于深度学习的方法和i-vector方法具有很好的抗噪能力。
2. 精度说话人识别技术需要具有较高的识别精度,能够准确识别说话人的身份。
在精度方面,基于GMM-UBM的方法表现并不理想,而基于i-vector和深度学习的方法可以达到很高的准确度。
3. 训练数据说话人识别技术需要大量的训练数据才能得到较好的效果。
基于GMM-UBM的方法需要大量的训练数据才能获得较高的识别精度,而基于i-vector和深度学习的方法需要更多的训练数据。
说话人识别方法综述
说话人识别方法综述陈晨;韩纪庆【摘要】As one of the main technology of speech processing, speaker recognition aiming at speaker distinguishing, has a broad application prospect in the field of mobile interaction, authentication, audio monitor, and so on.After decades of de-velopment, speaker recognition has achieved a high accuracy.This paper will carry on the summary and analysis of speaker recognition, and introduces the current mainstream technology of speaker recognition.%作为语音处理领域的主要技术之一,说话人识别以确认说话人身份为目标,在移动交互、身份验证、音频监控等领域有着广泛的应用前景。
经过数十年的发展,说话人识别技术已经能够取得优秀的识别性能。
本文将对说话人识别方法的研究现状进行总结与分析,介绍目前主流的说话人识别技术。
【期刊名称】《智能计算机与应用》【年(卷),期】2015(000)005【总页数】4页(P92-94,97)【关键词】说话人识别;特征提取;说话人模型【作者】陈晨;韩纪庆【作者单位】哈尔滨工业大学计算机科学与技术学院,哈尔滨 150001;哈尔滨工业大学计算机科学与技术学院,哈尔滨 150001【正文语种】中文【中图分类】TP391.410 引言语音是人类之间交流情感与认知的重要信息载体,是在生活与工作中最基本、最自然的交流方式。
随着信息技术的发展,使得通过分析语音信号中的个人特征来识别说话人成为可能。
基于Res2Net的说话人识别研究
基于Res2Net的说话人识别研究基于Res2Net的说话人识别研究说话人识别是一项重要的音频处理技术,旨在通过声音信号来确定特定个体的身份信息。
随着语音识别和语音合成技术的快速发展,说话人识别在人工智能、安全认证等领域具有广阔的应用前景。
近年来,基于深度学习的说话人识别研究取得了显著成果,其中Res2Net模型以其卓越的性能在声音信号处理中备受关注。
Res2Net模型是基于残差网络(ResNet)的改进版本,通过重新设计残差模块的连接方式,实现更深层次的特征提取。
传统的ResNet模型在卷积层的连接中沿着水平和竖直方向进行信息传递,而Res2Net模型则引入了更细致的多尺度连接方式,并将特征图的维度分为多个层级。
这种改进使得模型能够更好地捕获不同尺度下的特征信息,从而提高了模型的泛化能力和性能。
在基于Res2Net的说话人识别研究中,首先需要收集大量的语音数据集,并对其进行预处理。
预处理过程包括语音信号的采样、分帧、特征提取等步骤,常用的特征提取方法包括梅尔频率倒谱系数(MFCC)、线性频率倒谱系数(LFCC)等。
接下来,利用预处理后的语音特征训练Res2Net模型。
模型的训练通常采用监督学习方法,其中使用的损失函数可以是交叉熵损失、对比损失等。
在训练过程中,可以利用数据增强技术来增加训练样本的多样性,提高模型的鲁棒性。
经过训练,得到的Res2Net模型可以用于说话人识别任务。
对于待识别的语音信号,首先需要将其进行预处理,然后利用已经训练好的模型提取特征。
提取到的特征向量可以通过计算欧氏距离或余弦相似度等方式与数据库中的说话人特征进行比较,得到最终的识别结果。
基于Res2Net的说话人识别研究在多个实验中取得了优秀的性能。
相比传统的说话人识别方法,基于Res2Net的模型能够更准确地区分不同的说话人,且对噪声和变化环境的鲁棒性更强。
此外,Res2Net模型的学习能力更强,可以从大规模数据中学习到更多的隐藏特征信息,进而提升模型的泛化能力。
语音识别技术中的说话人识别与辨别研究
语音识别技术中的说话人识别与辨别研究随着科技的发展,人们的生活越来越依赖于科技的支持。
语音识别技术是其中的一种,通过将人的声音转换成计算机可以识别的数据,使得我们的交互方式更加智能化和自然化。
在语音识别技术中,识别说话人的身份也成为一个热门研究方向,它可以在很多场景下起到很大的作用。
本文将对说话人识别与辨别的研究进行分析和讨论。
一、说话人识别与辨别的意义说话人识别与辨别是语音识别技术中的一个重要研究方向。
在很多应用场景中,都需要对说话人进行识别和辨别,比如:电话客服、安保系统、远程教育等。
在这些场景下,如果能够高效准确地识别出说话人的身份,就可以帮助进行语义理解和智能交互,提高系统的自适应性和用户体验。
二、说话人识别与辨别的技术原理说话人识别与辨别的技术原理主要是基于语音信号的声学特征。
语音信号中包含声音的频率、幅度和相位等信息,可以通过数字信号处理技术进行提取和分析。
具体来说,说话人识别与辨别的算法主要包括两个方面:声学模型和发音模型。
声学模型是对说话人声音特征的建模,通过将语音信号的频谱、倒谱、梅尔频率倒谱系数等信息提取出来,再利用一些统计模型进行训练和分类,最终实现对说话人身份的识别。
发音模型则是对语音信号的发音规律建模。
通过对各种不同音素的声学特征进行描述和比对,发音模型能够较为准确地判断出说话人发音的准确性和流畅性,从而判断身份。
三、说话人识别与辨别的应用现状现在,说话人识别与辨别主要应用于如下四个方面:1.电话客服领域。
在客户拨打电话的时候,就可以自动识别客户的身份,并与客户的编号、账户等信息进行匹配,从而省去了不必要的输入。
2.语音搜索领域。
对于许多语音搜索应用程序,这些请求可能是由多个用户发送的。
在这种情况下,说话人识别可以帮助程序区分用户之间的请求,更好地满足每个请求的需求。
3.远程教育领域。
在线教育平台利用说话人识别技术,可以准确识别学生是否在听课,同时也可以通过语音分析学生的学习习惯并针对性地提供在线学习建议。
说话人识别
一、问题描述1、研究背景:语言是人类相互交流时使用最多、最基本也是最重要的信息载体,是人类最重要的外在特征之一。
而语音室语言的声学表现,是声音和意义的结合体。
人们可以将语言信息转化为声音信号,也可以从极其复杂的语音信号中迅速有效地提取信息。
因此与文字、图像、视频等交流信息的方式相比,语音始终都是对人类最方便、最自然、最理想的方式。
语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科,它主要包括四个部分:语音识别、语音合成、语音编码和语音分类。
除了这四个领域,语音信息处理技术还包括语音增强,语音理解等子学科。
几个部分之间有着密切的联系,它们相互影响,相互促进,语音信号处理技术得到了迅猛地发展。
说话人识别又称为声纹识别,按其最终完成的任务分为说话人辨认和说话人确认两类,其作为一种基于生物特征信息的身份识别方法,通过语音来识别说话人的身份。
为此,需从各个人的发音中找出说话人之间的个性差异,涉及到说话人发声器官、声道、习惯各方面不同等级的个性差异,因此,说话人识别是交叉运用心理学、生理学、语音信号处理、模式识别与人工智能的综合性研究课题。
2、技术实现:说话人识别一般的实现方法有三种。
第一种也是最早的一种,用的是语音声学特征的长时间平均,只不过这类方法有一个缺点。
需要较长的语音(通常大20秒)才能求得比较准的说话人特性。
第二种方法用的区别性类神经网络,这种方法的做法是求得一个识别方程式(di scriminat ive function)来使得所有说话人可以区别得最好,其缺点是当有一个新的说话人加入时,识别方程式就必须重新计算。
第三种方法就是对每一个说话人语音的声学特征及内容用一组模型来表示。
而选用的模型根据对语音内容切段方法的不同而有不同。
如果要对说话人的语音细分到音素的地步,可以用隐马尔科夫模型。
如果不需要对说话人的语音内容作区分的话,则可以用矢量量化或高斯混合模型来进行说话人辨认。
本次课设主要实现了一个用于说话人辨识的系统,其中构造数学模型采用了搞死混合模型(GMM),用EM算法进行训练,识别采用基于概率的打分方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的预处理过程为: ( 1) 采样量化, 语音信号通常以 8 kHz
或更高 的 采 样 速 率 数 字 化 , 每 个 采 样 至 少 用 8 bit 表
示; ( 2) 预加重, 声 音 经 过 8 kHz 或 更 高 采 样 速 率 的 采
样后转换成数字语音信号, 接着通过一个一阶高通滤
WANG Shu- zhao, QIU Tian- shuang
( Department of Electronic Engineering, Dalian University of Technology, Dalian Liaoning 116023, China)
【Abstr act】 Speaker recognition is an important part of the speech signal processing. It is one of the current research
hotspots. The principles of the speaker recognition are introduced in detail. The latest development in the areas of
the feature extraction, model training and classification is reviewed and the trend and rubs are also discussed.
文章编号: 1002- 8684( 2007) 01- 0051- 05
说话人识别研究综述
语音技术
Y Vo ic e t e c h n o lo g
·综述·
王书诏, 邱天爽 ( 大连理工大学 电子与信息工程学院, 辽宁 大连 116023)
【摘 要】说话人识别是语音信号处理中的重要组成部分, 是当前的研究热点之一。详细介绍了说话人识别的基本
典 型的参数模型包括高斯混合模型( Gaussian Mixture
Model, GMM) 和隐马尔可夫模型(Hidden Markov Model,
HMM) [19-24]; 而非参数模型是指说话人模型是由语音特
征经过某种运算直接得来的, 典型的非参数模型是模
式为
fMel=2 595 lg( 1+f/ 700)
( 3)
求取 MFCC 的具体过程为: ( 1) 对已经过预处理的
语音向量分别进行离散傅里叶变换; ( 2) 将得到的离散
频谱用序列三角滤波器进行滤波处理, 得到一组系数
mi; ( 3) 利 用 离 散 余 弦 变 换 将 滤 波 器 输 出 变 换 到 倒 谱 域, 离散余弦变换的公式为
时域方法, 频域方法和综合利用信号时域、频域特性的
方法。
时域方法直接利用语音信号的采样点计算信号的
波峰、波谷和过零率等, 其特点是原理简单、计算量小,
典型的方法是 Gold 和 Rabiner 提出的并行处理方法[11]。
频域的方法主要是计算信号的自相关函数、功率谱和
最大似然函数等, 其精度要高于时域方法, 典型的方法
说话人识别研究中主要采用的特征参数主要 有 : 基 音 周 期 、明 亮 度 、过 零 率 、线 性 预 测 系 数 ( Linear Prediction Coefficients, LPC) 、线性预测倒谱系数( Linear Prediction Cepstral Coefficients, LPCC) 、Mel 频率倒谱系 数( Mel- Frequency Cepstrum Coefficients, MFCC) 、倒谱 特征等[6- 7]。 3.1 LPCC 参数[8]
原理, 从特征提取、模型训 练 和分 类 等 几个 方 面 就近 年 的 主要 研 究 情况 进 行 综述 和 评 价, 并 在 此 基础 上 探 讨了 研 究
难点和发展前景。
【关键词】说话人识别; 特征提取; 模型训练; 分类
【中 图 分 类 号 】 T N912
【文献标识码】A
Sur vey on Speaker Recognition
波器来作预加重处理以突显高频部分, 其传递函数为:
H(
z)
=1-
a
-
z
1
,
一般
a
的值取
0.95
左 右 [5];
(
3)
取音框,
一
般 取 256 点 为 一 个 音 框 ( 32 ms) , 音 框 与 音 框 之 间 重
叠128 点( 16 ms) , 即每次位移 128 点后再取 256 点 作
为下一个音框, 这样可避免音框之间的特性变化过于
根据参数的稳定性, 可把说话人特征参数大致分 为两类: 一类是反映说话人生理结构的固有特征( 例如 声道结构等) , 这类特征主要表现在语音的频谱结构 上, 包含了反映声道共振的频谱包络特征信息和反映 声带振动等音源特性的频谱细节构造特征信息, 具有 代表性的特征参数有基音和共振锋, 这类特征不易被 模仿, 但容易受健康状况的影响; 另一类是反映声道运 动的动态特征, 即发音方式、发 音习惯等, 主要表现在 语音频谱结构随时间的变化上, 包含了特征参数的动 态特性, 这类特征相对稳定但比较容易模仿, 代表性的 特征参数是倒谱系数。
有 中 央 消 波 自 相 关 法[12]、平 均 幅 度 差 分 函 数 法 和 倒 谱
法 等[3]。自 相 关 法 的 原 理 是 语 音 的 短 时 自 相 关 函 数 在 基
音周期整数倍点上有很大的峰值, 只要找到最大峰值
点的位置, 便能估计出基音周期。
3.3.2 倒谱特征[3]
语音信号是激励信号源与声道响应相卷积的结
【Key wor ds】speaker recognition; feature extraction; model training; classification
1 引言
说话人识别作为生物认证技术的一种, 是根据语 音波形中反映说话人生理和行为特征的语音参数自动 鉴别说话人身份的一项技术[1]。因此, 需要从各个说话人 的发音中找出说话人之间的个性差异, 这涉及到说话 人发音器官、发音通道和发音习惯之间等不同级别上 的 个 性 差 异 。 说 话 人 识 别 是 交 叉 运 用 心 理 学 、生 理 学 、 语 音 信 号 处 理 、模 式 识 别 、统 计 学 习 理 论 和 人 工 智 能 的 综合性研究课题。
LPCC 是一个比较重要的特征参数, 它能够比较彻 底地去除语音产生过程中的激励信息, 能较好描述语 音信号的共振峰特性。在实际计算中, LPCC 不是由信
"#$电声技术2007 年 第 31 卷 第 1 期
号直接得到的, 而是由 LPC 求得。LPCC 系数 cLp( n) 与
线性预测系数 ai( i=1, 2, …, p) 的关系为
果, 而“倒谱特征”则是利用了对语音信号进 行适当的
同态滤波后, 可将激励信号与声道信号加以分离的原
理。倒谱中维数较低的分量对应于语音信号的声道分
量, 倒谱中维数较高的分量对应于语音信号的音源激
语音技术
Y Vo ic e t e c h n o lo g
励分量。因此, 利用语音信号倒谱可将它们分离, 彼此
号随时间的幅度变化。
语音信号的短时平均幅度定义为
∞
# Mn= x( m) w( n- m)
( 6)
m=- ∞
式( 6) 中用信号绝对值来代替平方和。
3.3.4 短时平均过零率[13]
信号 ! x( n) " 的短时平均过零率定义为
∞
# Zn= sgn[ x( n) ] - sgn[ x( n- 1) ] w( n- m)
一定的相似性准则形成判断。
输入语音 预处理
特性 提取
训练 识别
模型产生 模型存储
相似性准则
判决
图 1 说话人识别系统框图
2.3 预处理[5] 通常, 输入的语音信号都要进行预处理, 预处理过
程的好坏在一定程度上也影响系统的识别效果。一般
! " # 电声技术 2007 年 第 31 卷 第 1 期
语音技术
说话人识别根据实现的任务不同, 可分为说话 人 辨 认 ( speaker identification) 和 说 话 人 确 认 ( speaker verification) 两种类型[2]; 说话人识别根据系统对待识别 语音内容的不同, 又可分为与文本有关( text- dependent) 和与文本无关( text- independent) 两种方式[3]。
基本上互不干扰, 并可避免声道分量受到有随机变化
的音源激励分量的干扰。
3.3.3 短时能量与短时平均幅度[13]
信号 ! x( n) " 的短时能量定义为
∞
#2
En= [ x( m) w( n- m) ]
( 5)
m=- ∞
其中, w( n) 是窗函数, 一般用矩形窗或汉明窗。短时能
量代表的是一个音框语音信号的能量, 可反映语音信
经网络( Artificial Neural Network, ANN) 模型以及支撑
向量机( Support Vector Machine, SVM) [14-18]。
参数模型是指采用某种特定的概率密度函数来
描述说话人的语音特征在特征空间的分布情况, 并以
该概率密度函数的一组参数来作为说话人的模型。
#cLp( 1) =a1
%
n- 1
! $%cLp( n) = k=1
k n
an- k cLp( k) +an,
1<n≤p
( 2)
%
n- 1