声纹识别
声纹识别

为进一步加强社会养老保险资金的管理与监督,防止养老基金流失,人社局推出一系列的生存认证新方案。 其中,基于声纹识别的社保身份认证受到极大程度的。
根据不同的任务需求,声纹识别还面临一个特征选择或特征选用的问题。例如,对“信道”信息,在刑侦应 用上,希望不用,也就是说希望弱化信道对说话人识别的影响,因为我们希望不管说话人用什么信道系统它都可 以辨认出来;而在银行交易上,希望用信道信息,即希望信道对说话人识别有较大影响,从而可以剔除录音、模 仿等带来的影响。
分类
文本相关
背景模型
从另一方面,声纹识别有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种。与文本有 关的声纹识别系统要求用户按照规定的内容发音,每个人的声纹模型逐个被精确地建立,而识别时也必须按规定 的内容发音,因此可以达到较好的识别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则无 法正确识别该用户。而与文本无关的识别系统则不规定说话人的发音内容,模型建立相对困难,但用户使用方便, 可应用范围较宽。根据特定的任务和应用,两种是有不同的应用范围的。比如,在银行交易时可以使用文本相关 的声纹识别,因为用户自己进行交易时是愿意配合的;而在刑侦或侦听应用中则无法使用文本相关的声纹识别, 因为你无法要求犯罪嫌疑人或被侦听的人配合。
总之,较好的特征,应该能够有效地区分不同的说话人,但又能在同一说话人语音发生变化时保持相对的稳 定;不易被他人模仿或能够较好地解决被他人模仿问题;具有较好的抗噪性能;……。当然,这些问题也可以通 过模型方法去解决。
声纹识别准确率标准

声纹识别准确率标准
声纹识别准确率的计算公式为:准确率(Accuracy,ACC)= 1 - min(FAR + FRR)。
其中,FAR是假接受率,FRR是假拒绝率。
一般来说,如果用户按照事先指定的文本读出内容,声纹识别准确率已达%;如果不照读事先指定的文本内容而随意发声,声纹识别准确率也能达到%。
需要注意的是,尽管声纹识别的准确率已经很高,但仍存在误判的可能。
因此,在使用声纹识别技术时,需要考虑其实际应用场景。
例如,在辅助核实身份、名单识别、防欺诈、声纹锁登录等场景中使用声纹识别是合适的,但在大额支付类的场景中,如果将声纹作为唯一的认证手段,则需要充分评估风险。
以上内容仅供参考,建议查阅声纹识别技术专业书籍或咨询该领域专家获取更全面和准确的信息。
声纹识别技术的优势及其在语音识别领域的应用

声纹识别技术的优势及其在语音识别领域的应用声纹识别技术是一种通过分析和识别人的声音特征来辨别个体身份的技术。
与传统的人脸识别、指纹识别等生物特征识别技术相比,声纹识别具有独特的优势。
本文将探讨声纹识别技术的优势,并重点介绍其在语音识别领域的应用。
一、声纹识别技术的优势声纹识别技术的优势主要体现在以下几个方面:1. 隐私保护:相比其他生物特征识别技术,声纹识别技术无需直接接触身体,不会对被识别者造成任何身体伤害或者侵犯隐私。
个体的声音特征是通过语音信号分析得到的,避免了身体接触和图像采集对个体隐私的侵犯。
2. 不受环境影响:声纹识别技术对环境的适应性较强,不受噪声、回声等环境因素的干扰。
通过建立适应环境的声纹数据库和算法,能够有效识别出个体的声纹特征,提高识别准确率。
3. 高安全性:每个人的声音特征都是独一无二的,具有较高的辨识度。
声纹识别技术在身份认证和安全检测方面应用广泛。
在身份识别、电话银行、语音支付等领域,声纹识别技术可以有效防止冒充、欺诈等违法行为。
二、声纹识别技术在语音识别领域的应用声纹识别技术在语音识别领域有着广泛的应用,涵盖了语音识别、情感分析、人机交互等方面。
1. 语音识别:声纹识别技术可以帮助识别特定人物的语音内容。
在语音助手、智能家居等场景中,通过声纹识别技术可以实现个性化的语音指令和服务。
例如,通过声纹识别技术,语音助手可以根据用户的声音特征识别出用户身份,并提供个性化的服务和信息。
2. 情感分析:声纹识别技术可以通过分析声音的频谱、音调等特征,判断说话者的情感状态。
在电话客服、社交媒体分析等场景中,声纹识别技术可以帮助判断用户的情绪,提供更加人性化的服务和回应。
3. 人机交互:声纹识别技术可以实现人机交互的个性化和智能化。
通过识别用户的声纹特征,智能设备可以根据个体的需求和习惯进行智能推荐和交互。
例如,智能音箱可以通过声纹识别技术识别家庭成员身份,提供不同的音乐播放列表或者提醒事项。
声音的声纹识别原理

声音的声纹识别原理声音的声纹识别原理是通过分析和比对声音的特征,识别出不同个体所具有的声音特征。
声音特征是指声音波形中的频率、幅度、谐波等参数,这些参数在不同个体之间存在差异,可以用于区分和识别不同的声音来源。
声纹识别是一种生物特征识别技术,和人脸识别、指纹识别等技术一样,都是通过个体自身所具有的独特特征进行识别和验证。
声纹识别具有无接触性、非侵入性、隐私性好等特点,在语音识别、安全验证等领域有着广泛的应用。
声音的波形可以用数学模型表示,常用的数学模型包括傅里叶变换、梅尔倒谱系数等。
声纹识别的原理主要包括声音采集、预处理、特征提取和特征匹配四个步骤。
首先,声音采集是获取声音波形的过程,可以通过电脑、手机等设备进行录音,或者通过麦克风等硬件设备采集实时声音。
采集到的声音波形是一个时间序列,包含了声音波形在时间上的变化信息。
然后,对采集到的声音进行预处理,主要是消除噪声、滤波等步骤,以提取出干净的声音波形。
由于声音波形会受到环境噪声、录音设备等因素的影响,预处理可以有效提高特征的提取和识别的准确性。
接下来,进行特征提取,即根据声音波形提取出描述声音特征的参数。
常用的特征提取方法包括短时能量、过零率、线性预测编码系数(L P C)等。
这些特征可以反映声音的音调、频率、语速、音质等特征,具有较好的区分度。
最后,对提取到的特征进行特征匹配,即将采集到的声音特征与数据库中存储的声音特征进行比对。
特征匹配采用的算法包括欧氏距离、相似性度量等。
根据比对结果,可以判断采集到的声音特征与数据库中的哪个声音特征最为相似或匹配度最高,从而完成声纹识别。
声纹识别技术的准确性和稳定性与声音特征的选取和比对算法密切相关。
为了提高识别准确性,可以综合多个声音特征进行比对,或结合其他生物特征进行多模态融合。
同时,对于声音的采集设备和环境也要进行优化和标准化,以提高识别率和抗干扰能力。
声纹识别技术在安全验证、身份识别、欺诈检测等领域有着广泛的应用。
语音识别技术中的声纹特征提取方法

语音识别技术中的声纹特征提取方法声纹识别技术是一种基于人声信号的生物识别技术,通过分析声音中独特的声纹特征,实现对个体身份的准确识别。
声纹特征提取方法是声纹识别技术中的核心环节,决定了识别性能的优劣。
本文将介绍几种常用的声纹特征提取方法,并对其原理和优缺点进行分析。
一、时域特征提取方法时域特征提取方法主要基于声音信号的时序特点,常用的特征包括基音周期、语调、能量等。
1. 基音周期:基音周期是指声音波形中基音振动周期的长度,具有很强的个体差异性。
基于基音周期的特征提取方法主要包括自相关法和互相关法。
自相关法通过计算信号与其自身在不同时间偏移下的互相关系数,来提取基音周期信息。
互相关法则是通过计算两个不同信号之间的互相关系数,来提取基音周期信息。
2. 语调:语调是指声音信号的音高。
不同个体的音高存在一定差异,可以用于声纹特征提取。
语调特征提取方法主要基于基频和基频变化率的计算。
3. 能量:能量是指声音信号的强度。
不同个体的声音在能量上也存在差异,因此能量特征可以用于声纹识别。
能量特征提取方法一般通过计算声音幅度的均方差或绝对值来得到。
二、频域特征提取方法频域特征提取方法基于声音信号在频域上的表现,常用的特征包括音谱、倒谱、Mel频谱等。
1. 音谱:音谱是指声音信号在频域上的幅度谱。
音谱特征提取方法通过对声音信号进行傅里叶变换,将其转换为频域表示,然后提取幅度谱信息。
2. 倒谱:倒谱是将音频信号的频域表示转换为倒谱表示的方法。
倒谱特征提取方法先将声音信号进行傅里叶变换得到音谱,然后进行对数变换和逆傅里叶变换得到倒谱。
3. Mel频谱:Mel频谱是一种对音频信号频域表示进行处理的方法。
Mel频谱特征提取方法通过将频谱映射到Mel频率刻度上,再进行对数变换。
三、时频域特征提取方法时频域特征提取方法是将时域特征和频域特征结合起来,综合考虑声音信号的时序和频率特征。
1. 小波变换:小波变换是一种时频分析方法,可以将声音信号分解为不同尺度和频带的子信号。
2024年声纹识别技术五大发展趋势总结

2024年声纹识别技术五大发展趋势总结声纹识别技术是一种通过分析个体语音特征以识别个体身份的生物识别技术。
随着人们对安全性和便捷性的追求,声纹识别技术在各个领域得到了广泛的应用。
在2024年,声纹识别技术将继续迈向更高水平的发展,以下是五大发展趋势的总结。
一、性能的进一步提升声纹识别技术的关键是提取和分析声音信号中的声纹特征,对于声音信号传输的质量和准确性要求非常高。
在2024年,随着硬件技术的不断进步和算法的优化,声纹识别系统的性能将得到进一步提升。
声纹特征提取和匹配算法将更加精确和高效,准确率和识别速度会有显著的提升。
二、多模态技术的集成应用声纹识别技术可以与其他生物特征识别技术集成,如指纹识别、人脸识别等。
通过多模态技术的集成应用,可以进一步提高识别系统的准确性和鲁棒性。
比如在智能手机中,可以通过声纹识别、指纹识别和人脸识别的多种方式进行身份验证,提高设备的安全性。
三、远程声纹识别的应用远程声纹识别是指在不同地点进行声纹识别的技术。
随着通信技术的进步和云计算的普及,远程声纹识别将逐渐得到广泛应用。
通过远程声纹识别,可以实现远程身份验证、电话银行等服务的安全性提升,在便捷性和安全性之间找到合适的平衡点。
四、声纹识别在物联网领域的应用随着物联网技术的发展,声纹识别技术可以应用于各种智能设备中,如智能家居、智能汽车等。
通过声纹识别技术,智能设备可以根据不同用户的声音指令进行操作,提高用户体验和设备的智能化水平。
声纹识别技术在物联网领域的应用将会呈现出日益丰富的场景和应用。
五、声纹识别在安全领域的应用声纹识别技术在安全领域有着广泛的应用前景。
在金融行业,声纹识别可以用于支付验证和反欺诈识别等方面。
在公共安全领域,声纹识别技术可以应用于身份验证、违法行为识别等方面,提高社会治安的有效性。
随着声纹识别技术的进一步发展,声纹识别在安全领域的应用将会更加广泛。
总之,2024年的声纹识别技术将在性能提升、多模态集成、远程应用、物联网应用和安全领域应用等方面取得重要进展。
面向物联网的声纹识别系统设计与实现

面向物联网的声纹识别系统设计与实现引言随着物联网技术的发展和普及,智能家居、智慧城市、智能交通等各种应用场景已经逐渐普及。
然而,智能化的应用仍有很多安全隐患,因此保障系统的安全性显得尤为重要。
声纹识别技术因为其高安全性、便利性和易用性而成为了越来越多物联网应用的首选技术之一。
本文将探讨面向物联网的声纹识别系统的设计与实现。
一、声纹识别技术概述声纹识别技术是利用人的声音进行人员身份识别或验证的一种生物特征识别技术。
在声音信号的分析方面,有两种方法:基于语音识别和基于声纹识别。
基于语音识别的方法可以识别特定的语句或词汇,而基于声纹识别的方法则是识别人的语音特征,如声调、音量、音质等。
声纹识别技术最初是应用于司法领域,但随着技术的不断发展,越来越多的商业应用场景已经开始采用声纹识别技术。
二、物联网应用场景下的声纹识别系统设计1. 系统架构设计在物联网应用场景下,声纹识别系统主要包括三个部分:声音采集模块、声纹特征提取模块和声纹识别模块。
声音采集模块负责采集人的声音信号,声纹特征提取模块负责提取人的声纹特征,声纹识别模块负责根据声纹特征进行身份识别或验证。
2. 系统安全性设计在物联网应用场景下,声纹识别系统的安全性非常重要。
声纹识别技术的基本原理是依据个人生物特征进行身份验证,这种特征比密码和数字证书更安全。
但是,如果声纹数据被窃取,声纹识别就会失去安全性。
因此,系统安全性设计非常重要。
要确保数据的安全性,声纹识别系统应当采用加密措施,比如使用SSL/TLS协议来保证数据传输的安全性。
3. 系统性能设计声纹识别系统的性能指标主要包括两个方面:识别率和响应时间。
识别率是指系统正确识别的准确率,响应时间是指系统响应请求的时间。
在物联网应用场景下,响应时间应尽可能保持在毫秒级别。
三、物联网应用场景下的声纹识别系统实现1. 硬件设计声音采集模块是物联网应用场景下声纹识别系统实现的关键部分之一。
根据场景不同,可以选择不同的采集设备。
声音的声纹识别原理及应用

声音的声纹识别原理及应用1. 引言声音的声纹识别是一种通过分析声音中的声纹特征来识别个体身份的技术。
声音在每个个体之间都有独特的声纹特征,类似于指纹或虹膜等生物识别特征。
本文将介绍声音的声纹识别原理及其应用。
2. 声纹识别原理声纹识别利用声音的谱特征和时域特征来对声音进行识别。
声音的谱特征是指声音信号在频域中的特征分布,包括声音的频率、幅度等信息。
声音的时域特征是指声音信号在时间域中的波形,包括声音的振幅、周期等信息。
声纹识别的原理主要包括以下几个步骤: - 特征提取:从声音信号中提取出有意义的特征,如声音的频谱信息和时域波形。
- 特征存储:将提取出的声音特征存储在数据库中,以供后续识别使用。
- 特征匹配:将待识别的声音特征与数据库中已存储的特征进行比对,找到最匹配的声音特征。
- 识别结果输出:根据匹配结果,输出声音识别的结果,即判断待识别声音的身份。
3. 声纹识别的应用声纹识别技术在各个领域都有广泛的应用,下面将介绍一些常见的应用场景。
3.1 声纹识别在安全领域的应用声纹识别可应用于安全领域,用于识别个体的身份信息。
例如,在银行或金融机构中使用声纹识别技术可以提高用户的身份验证安全性,避免身份的冒用和欺诈行为。
3.2 声纹识别在司法领域的应用声纹识别在司法领域也有重要的应用价值。
声纹识别可以用于刑侦鉴定,通过对嫌疑人声音的分析和对比,确定其是否是案件中的声音录音的发出者。
3.3 声纹识别在智能家居领域的应用声纹识别技术还可以应用于智能家居领域。
通过声纹识别技术,可以实现智能家居设备的个性化识别,根据家庭成员的声纹特征,智能家居设备可以识别不同的个体,提供个性化的服务,如定制的音乐播放、语音助手互动等。
3.4 声纹识别在语音助手领域的应用声纹识别还可以应用于语音助手领域。
通过声纹识别技术,可以让语音助手识别用户的声音,从而提供个性化的服务、识别不同用户的指令,并进行相应的操作。
4. 声纹识别技术的优势与挑战声纹识别技术具有许多优势,例如: - 不需要额外的硬件设备,只需使用内置的麦克风进行录音即可进行识别。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
P ( X * ) P X , 取 10-5。
问题三: 根据问题一的 MFCC 模型和问题二的 GMM 模型,利用 matlab 编程, 用样本语音数据去训练 GMM 模型得到样本库,让后用未知的测试语音样本 利用模式匹配法去与样本语音库进行匹配,得到一系列的匹配概率,概率最 大者对应的语者为测试语音的主人。我们得出的结论是 EM 算法的初值对最 终的识别率有很大影响, 用来确定 GMM 初始值的 K-means 算法有比较大的 误差,需要改进。 问题四: 基于问题三的测试和查阅的相关资料,我们认为传统的 K-means 算法忽 略特征矢量各维分量对识别的影响,因而无法得到令人满意的识别结果。由 数理统计知,方差是用来衡量样本数据的离散程度的。如果特征矢量的分布 稀疏,则它的方差就会很大,反之,那些分布较集中的矢量方差比较小。为 此,本文提出了基于方差的加权几何距离,在聚类过程中,对特征矢量的各 分量按方差大小进行加权,加权因子为矢量方差的倒数。
相对重要程度: aij 1 3 5 7 9 2,4,6,8 1/2,1/3,..,1/9
定义
若 xi 等价于xj: 赋值 1 若 xi 比xj 重要 : 赋值 3 若 xi 比xj 重要得多: 赋值 5 若 xi 远远比xj 重要: 赋值 7 若xi 是最重要的 重要程度等级介于 xi 和 xj 之间 对应于以上等级的xi 和xj 之间的关系 表1 相对重要程度aij取值情况
图2
Mel 频率滤波器组
7
0, k f ( q 1) k f (q 1) , f ( q 1) k f ( q) f (q ) f (q 1) Hq k f (q 1) k , f ( q) k f ( q 1) f (q 1) f (q ) 0, k f ( q 1)
1 1 / 3 1 B5= 3 1 1 / 3 1 1 / 3 1
所有CRk均小于0.1,均通过一致性检验。
我们把各方案对目标的权向量,称为组合权向量。记做
0.0361 0.0814 0.0814 (2) 0.0814 W = 0.3598 0.3598 0 0 0 0 0 0 0.5222 0.1998 0.1998 0.0781 0 0 0 0 0 0 0 0 0 0 0 0.4030 0.25 0 0.0953 0.5 0.5 0.5017 0.25 0 .5 0 0
关键字:声纹识别 层次分析法(AHP) 美尓倒频谱系数(MFCC) 高 斯混合模型(GMM) 期望值最大化算法(EM) K-means 算法
1
一、问题重述
生物认证是通过人体特征进行人物身份认证的重要手段,包括人脸识 别、虹膜识别、指纹识别、体态识别和声纹识别等方法,它们被广泛地应用 于国防、军事和民用等诸多领域,推动着信息产业的蓬勃发展。 声纹识别又称说话人识别,是通过分析说话人的语音的特点,利用计算 机自动识别说话人的身份。声纹识别又分为文本相关和文本无关说话人的识 别两大类。文本无关是指说话人的说话内容不受限制,文本相关是指说话人 的说话内容必须是指定的内容。 评价声纹识别方法或模型的最重要指标是识别准确率,准确率越高越宜 于应用于实际。评价的另外一个重要指标就是识别所花的时间,即输入待识 别的说话人语音到识别结果的输出说话的时间,该时间越短约好。 请试着利用采集到的说话人语音数据(文本相关和文本无关两类) ,完 成以下几点: 1)建立代表说话人身份的语音特征模型,通过编程从语音数据中提取 说话人特征; 2)利用说话人特征建立说话人模型或声纹识别模型; 3)利用语音数据评价你的说话人模型或声纹识别模型评价的好坏; 4)分析影响准确率的因素,采取措施进一步提高声纹识别的准确率。 二、问题分析 问题一: 在没有人的主观倾向影响的情况下,人类的听觉系统其实就是比较好的 说话人识别系统,具有很高的准确性和抗干扰性。虽然人的听觉系统分辨说 话人的机理不一定是最佳的声纹识别方法,但是在目前的技术下,如果能达 到人类说话人的水平,也是相当可观的。MFCC 是基于短时傅里叶变换谱分 析,并考虑人类的听觉特性后得到的一种倒频特征。心理学的研究进一步表 明,人类对于声音音调的感觉都不是线性的,这必然导致人们去定义新的频 率单位。符合人的听觉特性的频率则以 Mel 或 Bark 作为单位; 问题二:就声学观点而言,每一位语者声学特征能分出很多类别,诸如:鼻音, 摩擦音,元音等,类别还可能更细致,而且每一个声学类别下又有广阔的语音 空间,查阅资料发现,高斯混合模型(GMM)能好的二者兼顾,于是可以建立 GMM 模型对每位语者的声学特征进行仿真。 问题三: 基于上面两问的模型, 用 matlab 编程对实际的数据进行识别率的分析 即可;
5
下面构造方案层对准则层的每个准则的正互反矩阵:
1 1 / 3 1 / 3 1 / 3 3 1 1 1 3 1 1 1 B1= 1 1 3 1 7 5 5 5 5 5 7 5 1 5 1 / 3 B4= 1 / 5 1 1 / 7 1 / 3 7 1 1 / 7 1 / 7 1 / 5 1 / 5 1 / 5 1 / 5 1 / 5 1 / 5 1 1 1 1 3 3 1 1 / 3 1 1 B2= 1 / 3 1 1 1 / 5 1 / 3 1 / 3 5 3 3 1
CI 0.087 = =0.0777<0.1,即通过一致性检验。 RI 1.12
n , n 1
标准化特征向量a(2)=(0.0308 0.0927 0.0927 0.4839 0.2999) 即当前沙哑音,鼻音,个人特点,声学特征,语音习惯的权重为: (0.0308 0.0927 0.0927 0.4839 0.2999)
4
由网络资源查询可对比声学特征,语音习惯,个人特点,鼻音,沙哑音 五个元素得到以下系数矩阵:
aij
沙哑 音 鼻音 个人 特点 声学 特点 语音 习惯
沙哑 音 1
鼻音
个人 特点 1/5
声学 特点 1/9
语音 习惯 1/7
1/5
1/5 1/5
1 1
1 1
1/5 1/5
1/5 1/5
1/9
1/5
1/5
1
四、 模型的建立及求解
4.1 问题一模型的建立与求解:
4.1.1
层次结构模型建立3提取说话人特 征沙哑音
鼻音
个人特点
声学特征
语音习惯
通 道 信 息
韵 律 特 征
口 音
词 法 特 征
频 谱
共 振 峰
倒 频 谱
基 音
图 1 层次结构示意图 首先分析准则层对目标层的影响,设有n个因素(x1,x2,…xn),用aij表示 xi和xj对上层目标的影响比。
(2) (3)
0
0
所以方案Ck在目标中的组合权中应该为a 与a 对应向量的两两乘积之 和,因此可得C1 ,C2 ,C3 ,C4 ,C5 ,C6 ,C7 ,C8在目标中的组合权重。从而得到 方案层对准则层组合权向量: a = (0.0011,0.0025,0.0025,0.3295,0.2257,0.3826,0.0536) 结论: 由当前权重比例来看,建立代表说话人身份的语音特征模型中的8个影 响因素声学特征占有最大的权重。而语者的声学特征能用Mel倒频谱系数 (MFCC)很好的描述。 所以接下来通过matlab编程从源语音数据中提取说话人特征(Mel倒频 谱系数)从而建立代表语者身份的语音特征模型。 4.1.2 语音特征模型的建立与求解 本文采用识别性能较好且能充分模拟人耳听觉感知特性的 Mel 频率倒谱系 数(MFCC),提取的各过程如下:
三、 模型假设与符号说明
3.1 模型假设: (1)本文选用文本无关的声纹识别文件; (2)假设提供的数据完整、可靠、有效; (3)假设查阅的资料和一些结论正确可靠; 3.2 符号说明:
x n :预处理后的语音信号。 X k :将预处理后的语音信号进行短时傅里叶变换后得到的频谱。 Q :频率滤波器个数。 S q :作对数转换后的 Mel 频谱。 C n : Mel 频谱倒谱系数。
声纹识别系统
摘要
本文首先通过用层次分析法(AHP)构建了影响声纹识别的八大因素, 并将其进行量化处理,得到了合理的权重比。同时构建 Mel 倒谱系统提取说 话人的主要特征倒频谱(MFCC 参数) ,利用提取的 MFCC 参数训练话者的 GMM (高斯混合模型) ,得到专属某话者的 GMM 声纹模型。接着通过语 音数据对构建的声纹识别模型进行评价。发现得到的模型虽然可以接受,但 其准确率不是很高。 为了使模型的精确率提高, 我们通过利用改进的 K-means 算法来将模型进行调整。 问题一: 我们通过层次分析发得出语者的声学特征在语音识别中所占的权重最 大,而且限于目前的技术,我们最终将能描绘语者声道结构的 Mel 倒频谱系 数作为语音的特征向量,该方法能很好的模拟人耳对不同频率的感知特性, 具有很好的稳定性和准确度。然后我们利用 matlab 编程将提供的语音数据 的 MFCC 系数提取出来作为声纹识别系统的训练样本。 问题二:基于高斯混合模型(GMM),我们用 EM 算法来估计 GMM 中的未知 参数,由 K-means 算法来得到 EM 算法的初始值,通过不断地迭代 EM 算法更 新 GMM 模 型 中 的 权 重 ( w ) , 均 值 (u) 和 方 差 矩 阵 , 直 到 最 终 使
2
问题四: 传统的K-means算法在聚类过程中采取几何距离就近原则,这只有当类 的自然布为球状或接近于球状时,也就是说当类中各矢量的分布接近于相等 时才能取得识别效果。而语音信号是近似椭圆状的正态分布,各矢量的分布 不等,若用传统K.means算法作为GMM 的初始化方法,将会忽略特征矢量各 维分量对识别的影响,无法得到令人满意的识别结果。 为此,对传统K。means算法进行了改进,语音信号各矢量的分布不同, 且对于不同的说话人这种差别的程度又不一样。好的特征矢量应该对同类语 音的离散程度小,对不同类语音的离散程度大。由数理统计知,方差是用来 衡量样本数据的离散程度的。如果特征矢量的分布稀疏,则它的方差就会很 大,反之,那些分布较集中的矢量方差比较小。为此,本文提出了基于方差 的加权几何距离, 在聚类过程中, 对特征矢量的各分量按方差大小进行加权, 加权因子为矢量方差的倒数。