说话人识别系统~

合集下载

安卓平台说话人识别系统的实现

安卓平台说话人识别系统的实现
Yes
初始化GMM模型参数
No
读取GMM模型参数
估计GMM模型参数
存储模型参数
结束
图 5 模型训练流程图 识别时,同样需要先设置特征向量和 GMM 模型参数, 然后点击“选择语音文件”选择待识别语音文件,最后点击“识 别”按钮进行识别并输出匹配结果,识别流程如图 6 所示。 2.1.3 语音数据 语音数据提取主要实现由类 WavReader(如图 7 所示) 完成,用户选择语音文件后,在选择“建立模型”、“继续 训练”或“识别”按钮时,主程序将语音文件路径传入类 WavReader 中,类 WavReader 则从语音文件中读取并返回语 音数据。 类 WavReader 的主要成员方法说明: 1. public WavReader( String fileName )
I 互联网 + 通信 nternet Communication
安卓平台说话人识别系统的实现
□何建军 深圳电器公司 技术中心
【摘要】 本文在安卓平台上设计实现了基于 GMM 模型的说话人识别系统,完成了 GMM 模型参数的训练和识别过程。并基于 TIMIT 语料库,通过调整 GMM 阶数和测试人数,对基于 GMM 模型的说话人识别系统的时效性进行了验证分析。实验结果表明: ① GMM 模型的阶数越多,系统的识别时间越长;②测试人数越多,系统的识别时间越长。在 GMM 模型阶数不高以及使用人数不 多的情况下,该说话人识别系统基本满足用户的使用需求。 【关键词】 美尔频率倒谱系数 高斯混合模型 说话人识别 安卓
引言: 说话人识别,也叫声纹识别,是通过对说话人语音信号 的分析处理来完成说话人的辨认或确认。随着嵌入式软硬件 技术和无线通信领域的迅猛发展,语音输入和控制将成为手 持移动设备和嵌入式系统最佳的交互方式,以声纹信息为特 征的身份鉴别技术也越发显得重要。 与基于 PC 机的说话人识别系统相比,虽然基于嵌入式 设备的说话人识别系统在存储容量、运算速度等方面都不及 PC 机,但是,基于嵌入式设备的说话人识别系统由于同时 具备嵌入式系统本身的低功耗、便携性、可靠性,以及说话 人识别技术的准确性、方便性、经济性等诸多优势 [1],随着 嵌入式软硬件技术和无线电通信技术的迅猛发展,基于嵌入 式设备的说话人识别系统的优势越发彰显。 一、说话人识别技术 目前,说话人识别新技术接连不断出现,如 GMM-UBM 结构 [2] 与支持向量机(support vector machine,简称 SVM) [3-4] 结 合 技 术、 基 于 得 分 规 整 技 术 的 HNORM、ZNORM 和 TNORM 技 术、 潜 伏 因 子 分 析(latent factor analysis, 简 称 LFA) 技 术、 大 词 汇 表 连 续 语 音 识 别(large vocabulary continuous speech recognition,简称 LVCSR)应用于说话人识 别技术、话音信号中的高维信息使用、以及用于解决通道失 配问题的 SMS 技术等等。然而,当今最出色的说话人识别系 统依然是基于 GMM 模型的,尤其是基于 UBM-MAP 结构的。

说话人识别

说话人识别
H1
说话人识别
UBM模型的另一个用途,是可以在只有少量集 内说话人训练语料的条件下,依据UBM模型自适 应得到集内说话人模型。 最大后验准则 (Maximum A Posteriori, MAP) 方 法
nm P(qt i ot , )
t 1 T
1 T Em (O) P(qt i ot , )ot nm t 1
GMM Gaussian model
说话人识别
GMM本质上是一种多维概率密度函数 M 阶GMM的概率密度函数如下:
P(o ) P(o, i ) ci P(o i, )
i 1 i 1 M M

c
i 1
M
i
1
1
(o μ i )T Σi1 (o μ i ) P(o i, ) N (o,μ i ,Σi ) exp K 1 2 2 2 (2 ) Σi
t
P( q
i | ot , )
说话人识别
2 ik 2 P ( q i | o , )( o ) t tk tk t 1 T T
P( q
t 1
t
i | ot , )
说话人识别
开始 给定初始模型的阶数 M
初始化模型参数
0
对于每个特征参量
n arg max p(ot | n )
1 n N t
说话人识别
文本提示型的识别方法
非特定说话人 的基元模型
训练
基元模型生成
门限设定
语 音 输 入
端点 检测
特征 提取 指定文本 识别 文本模型生成
匹配计算
门限比较
判 定 输 出

《基于GMM-UBM模型的说话人识别系统》范文

《基于GMM-UBM模型的说话人识别系统》范文

《基于GMM-UBM模型的说话人识别系统》篇一一、引言随着人工智能技术的不断发展,说话人识别技术已成为生物特征识别领域的重要研究方向。

说话人识别系统能够根据语音信号的特性和规律,对不同说话人的身份进行准确识别。

其中,基于高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,简称GMM-UBM)的说话人识别系统因其在各种噪声环境下的稳健性和识别准确率方面的优势,被广泛应用于语音识别、语音安全等领域。

本文旨在深入探讨基于GMM-UBM模型的说话人识别系统的高质量设计与实现。

二、GMM-UBM模型理论基础GMM-UBM模型是一种概率生成式模型,它将每个说话人的语音特征表示为一个高斯混合模型(GMM),而通用背景模型(UBM)则用于描述所有说话人的通用语音特征。

在GMM-UBM模型中,每个说话人的语音数据被建模为一系列高斯分布的加权和,而UBM则通过学习大量非标签的语音数据来提取通用语音特征。

通过将特定说话人的GMM与UBM进行适配,可以提取出该说话人的独特特征,从而实现说话人识别。

三、系统设计(一)数据预处理在构建说话人识别系统时,首先需要对语音数据进行预处理。

预处理包括音频信号的采集、数字化、分帧、加窗等步骤。

此外,还需要进行噪声抑制、端点检测等操作,以提高语音数据的信噪比和识别率。

(二)特征提取特征提取是说话人识别系统的关键步骤。

常用的特征包括声谱参数、音素参数等。

在GMM-UBM模型中,通常采用基于MFCC(Mel Frequency Cepstral Coefficients)的特征提取方法。

MFCC能够有效地提取语音信号的时频特性,为后续的模型训练提供有效的特征表示。

(三)模型训练在模型训练阶段,首先需要构建UBM。

通过学习大量非标签的语音数据,提取通用语音特征,构建UBM。

然后,针对每个说话人,从其语音数据中提取GMM模型参数。

语音信号的提取与识别技术(说话人识别系统)的研究-开题报告

语音信号的提取与识别技术(说话人识别系统)的研究-开题报告

中北大学毕业设计(论文)开题报告学生姓名:学号:学院、系:信息与通信工程学院通信工程系专业:通信工程设计(论文)题目:语音信号提取与识别技术指导教师:2006年 3 月 8 日开题报告填写要求1.开题报告作为毕业设计(论文)答辩委员会对学生答辩资格审查的依据材料之一。

此报告应在指导教师指导下,由学生在毕业设计(论文)工作前期内完成,经指导教师签署意见及所在专业审查后生效;2.开题报告内容必须用按教务处统一设计的电子文档标准格式(可从教务处网页上下载)打印,禁止打印在其它纸上后剪贴,完成后应及时交给指导教师签署意见;3.学生写文献综述的参考文献应不少于15篇(不包括辞典、手册)。

文中应用参考文献处应标出文献序号,文后“参考文献”的书写,应按照国标GB 7714—87《文后参考文献著录规则》的要求书写,不能有随意性;4.学生的“学号”要写全号(如020*******,为10位数),不能只写最后2位或1位数字;5. 有关年月日等日期的填写,应当按照国标GB/T 7408—94《数据元和交换格式、信息交换、日期和时间表示法》规定的要求,一律用阿拉伯数字书写。

如“2004年3月15日”或“2004-03-15”;6. 指导教师意见和所在专业意见用黑墨水笔工整书写,不得随便涂改或潦草书写。

毕业设计(论文)开题报告毕业设计(论文)开题报告毕业设计(论文)开题报告附件:参考文献注释格式学术期刊作者﹒论文题目﹒期刊名称,出版年份,卷(期):页次如果作者的人数多于3人,则写前三位作者的名字后面加“等”,作者之间以逗号隔开。

例如:[1]李峰,胡征,景苏等. 纳米粒子的控制生长和自组装研究进展. 无机化学学报,2001, 17(3): 315~324[2] J.Y.Li, X.L.Chen,H.Li. Fabrication of zinc oxide nanorods.Journal of Crystal Growth, 2001,233:5~7学术会议论文集作者﹒论文题目﹒文集编者姓名﹒学术会议文集名称,出版地:出版者,出版年份:页次例如:[3] 司宗国谢去病王群﹒重子湮没快度关联的研究﹒见赵维勤,高崇寿编﹒第五届高能粒子产生和重离子碰撞理论研讨会文集,北京:中国高等科学技术中心,1996:105 图书著者﹒书名﹒版本﹒出版地:出版者,出版年﹒页次如果该书是第一版则可以略去版次。

语音信号处理第6章 说话人识别

语音信号处理第6章 说话人识别

一般来说,同时满足上述全部要求的特征通常是不可能找 到的,只能使用折衷方案。
6.2.2 特征的选取
说话人识别中常用的参数类别: 1)线性预测参数及其派生参数:包括部分相关系数、声道 面积比函数、线谱对系数以及LPC倒谱系数等。 2)语音频谱直接导出的参数:包括功率谱、基音轮廓、共 振峰及其带宽、语音强度及其变化等。 3)混合参数 4)其他鲁棒性参数:包括Mel频率倒谱系数,以及经过噪 声谱减或者信道谱减的去噪倒谱系数等。
所用特征 倒谱 误识率 9.43%
差值倒谱 基音 差值基音
倒谱与差值倒谱 倒谱、差值倒谱、基音、差值基音
11.81% 74.42% 85.88%
7.93% 2.89%
6.2.3 特征参量评价方法
同一说话人的不同语音会在参数空间映射出不同的点,若 对同一人来说,这些点分布比较集中,而对不同说话人的 分布相距较远,则选取的参数就是有效的。
6.2
说话人识别原理及系统结构
说话人识别系统可分为两个阶段:训练(注册)阶段和识 别阶段。 1)在训练阶段,系统的每一个使用者说出若干训练语料, 系统根据这些训练语料,通过训练学习建立每个使用者的 模板或模型参数参考集。 2)在识别阶段,把从待识别说话人说出的语音信号中提 取的特征参数,与在训练过程中得到的参考参量集或模型 模板加以比较,并且根据一定的相似性准则进行判定。
生活领域 ★
• 声纹监听 • 多人识别 • 声纹比对
技术难题:跨信道、噪声
6.2
说话人识别原理及系统结构
识别 识别结果 模式匹配 识别决策
语音输入
预处理
特征提取
训练
模板库
专家知识
说话人识别系统由预处理、特征提取、模式匹配和识别决 策等几大部分组成。除此之外,完整的说话人识别系统还

语音信号的提取与识别技术(说话人识别系统)的研究

语音信号的提取与识别技术(说话人识别系统)的研究

语音信号的提取与识别技术摘要语音识别(Speech Recognition)是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术.说话人识别是语音识别的一种特殊方式.本论文中,将主要介绍说话人识别系统.说话人识别是指通过说话人的语音来自动识别说话人的身份,它在许多领域内有良好的应用前景。

本文通过分析语音特征参数的特点和说话人识别的基本方法,提出了以美尔倒谱差分和线性预测差分为特征,通过动态时间归整算法来识别的文本相关说话人辨认系统。

关键词: 语音识别, 说话人识别, 线性预测倒谱,美尔倒谱系数,动态时间归整The pick-up of speech signal and speech recognitionAbstractSpeech Recognition is a kind of technology that is using computer to transfer the voice signal to an associated text or command by identification and understand. Speaker recognition is a kind of special way of V oice-identifications. The paper is going to introduce speaker recognition. Speaker recognition is the process of automatically recognizing who is speaking on the basis of individual information include in speech signals. It has well application prospects in many fields. By analyzing speech characteristic parameters and the basis methods of speaker recognition, we choose MFCC and LPCC's difference to be the speech characteristic parameters. Using DTW to recognize text-dependent speech, we have developed a speaker identification system in this paper.Key words:V oice-Identification, Speaker-identification LPCC,MFCC, Dynamic Time Warping目录1引言 (1)2 语音识别技术的基础 (2)2.1 语音识别发展简史 (2)2.2 语音识别技术的应用 (3)3 说话人识别技术的国内外研究现状 (5)3.1 国内外发展水平 (5)3.2主要应用领域 (5)3.3 技术难点 (6)4 说话人识别技术基础 (8)4.1 说话人识别的基本原理 (8)4.2说话人识别系统中常用的特征 (9)4.3 说话人识别的分类 (10)4.4 说话人识别的主要方法 (11)4.5 说话人识别系统的性能评价 (13)5 语音信号分析与预处理 (16)5.1 语音产生机理 (16)5.2 语音信号的数字化和采集 (17)5.3 语音信号的数字模型 (18)5.3.1激励模型 (18)5.3.2 声道模型 (18)5.3.3辐射模型 (20)5.4语音信号的预加重处理 (20)5.5语音信号的短时参数特征 (21)5.5.1短时频谱 (22)5.5.2短时自相关函数 (22)5.5.3短时能量和短时平均幅度 (22)5.5.4短时过零分析 (23)5.5.5倒谱 (24)5.5.6线性预测编码(LPC)参数 (24)5.5.7短时基音周期估计 (25)5.6语音信号端点检测 (27)5.6.1双门限端点检测算法 (28)5.6.2 LPC美尔倒谱特征端点检测方法 (28)6说话人特征提取 (32)6.1线性预测系数LPC (32)6.1.1线性预测的基本原理 (33)6.2.2线性预测系数的求取 (35)6.2线性预测倒谱系数LPCC (36)6.2.1同态处理基本原理 (36)6.2.2线性预测倒谱 (37)6.2.3线性预测差分倒谱 (38)6.3美尔倒谱系数MFCC (39)6.3.1 MFCC系数的提取 (39)6.3.2美尔差分倒谱参数 (40)6.4特征参数的实际提取 (41)6.4.1 LPCC参数计算流程 (41)6.4.2 MFCC的计算 (43)7.说话人识别系统实现 (46)7.1文本相关说话人辨认系统的实现 (46)7.2线性预测倒谱参数的提取实现 (47)7.3美尔倒谱系数及其差分的提取实现 (48)7.4MFCC参数文本相关系统实现 (51)8结论 (54)致谢 (55)参考文献 (56)1引言语言是人类交流信息的基本手段,在人们日益扩大的交流中占据着重要的地位.在如今高度发达的信息社会中用数字化的方法进行语音的传送、储存、识别、合成、增强等是整个数字化通信网中最重要、最基本的组成部分之一。

说话人识别

说话人识别

一、问题描述1、研究背景:语言是人类相互交流时使用最多、最基本也是最重要的信息载体,是人类最重要的外在特征之一。

而语音室语言的声学表现,是声音和意义的结合体。

人们可以将语言信息转化为声音信号,也可以从极其复杂的语音信号中迅速有效地提取信息。

因此与文字、图像、视频等交流信息的方式相比,语音始终都是对人类最方便、最自然、最理想的方式。

语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科,它主要包括四个部分:语音识别、语音合成、语音编码和语音分类。

除了这四个领域,语音信息处理技术还包括语音增强,语音理解等子学科。

几个部分之间有着密切的联系,它们相互影响,相互促进,语音信号处理技术得到了迅猛地发展。

说话人识别又称为声纹识别,按其最终完成的任务分为说话人辨认和说话人确认两类,其作为一种基于生物特征信息的身份识别方法,通过语音来识别说话人的身份。

为此,需从各个人的发音中找出说话人之间的个性差异,涉及到说话人发声器官、声道、习惯各方面不同等级的个性差异,因此,说话人识别是交叉运用心理学、生理学、语音信号处理、模式识别与人工智能的综合性研究课题。

2、技术实现:说话人识别一般的实现方法有三种。

第一种也是最早的一种,用的是语音声学特征的长时间平均,只不过这类方法有一个缺点。

需要较长的语音(通常大20秒)才能求得比较准的说话人特性。

第二种方法用的区别性类神经网络,这种方法的做法是求得一个识别方程式(di scriminat ive function)来使得所有说话人可以区别得最好,其缺点是当有一个新的说话人加入时,识别方程式就必须重新计算。

第三种方法就是对每一个说话人语音的声学特征及内容用一组模型来表示。

而选用的模型根据对语音内容切段方法的不同而有不同。

如果要对说话人的语音细分到音素的地步,可以用隐马尔科夫模型。

如果不需要对说话人的语音内容作区分的话,则可以用矢量量化或高斯混合模型来进行说话人辨认。

本次课设主要实现了一个用于说话人辨识的系统,其中构造数学模型采用了搞死混合模型(GMM),用EM算法进行训练,识别采用基于概率的打分方法。

基于GMM的说话人识别系统研究的开题报告

基于GMM的说话人识别系统研究的开题报告

基于GMM的说话人识别系统研究的开题报告一、研究背景和意义随着语音技术的飞速发展,说话人识别技术受到了广泛关注。

说话人识别是指在一段语音中,判断该语音是由哪个人说出的。

其应用范围涵盖了语音识别、语音合成、语音安全等领域。

在实际应用中,说话人识别技术可以被用于辨别电话诈骗、识别呼叫中心客户、语音密码认证等场景。

当前,说话人识别技术已经取得了较大的进展,而高斯混合模型 (GMM) 是一个经典的语音识别技术,在说话人识别领域得到了广泛应用。

GMM 是一个概率模型,它用于建模声学特征。

和其他机器学习技术一样,GMM 用于从大量的数据中学习模型参数。

在说话人识别中,GMM 可以应用于建立声纹库,从语音信号中提取特征,进而对比语音信号与声纹库中的模板。

GMM 在说话人识别领域具有较高的准确性和鲁棒性。

本课题拟通过研究基于 GMM 的说话人识别技术,为语音识别、语音合成等领域提供更加有效的技术支持,具有重要的实际应用价值和研究意义。

二、研究内容本课题的研究内容主要包括以下几个方面:1.基于 GMM 的模型建立GMM 是一种经典的声学模型,它可以描述每一个人的语音特征。

通过已知的训练数据,利用 GMM 可以建立说话人的声学模型。

本课题将探讨如何建立基于 GMM 的说话人识别子系统,包括 GMM 的建模、参数估计等方面的内容。

2.特征提取说话人识别需要从语音信号中提取出能够反应说话人特征的信息,这些信息通常包括语音的时长、能量、频率等特征。

本课题将探讨如何从语音信号中提取有效的语音特征、如何通过有效的特征提取算法提高系统的识别准确率。

3.声纹库设计声纹库是指存储已知用户特征的数据库,说话人识别主要是要比较语音信号与声纹库中的模板。

本课题将探讨如何设计和构建声纹库,包括数据库的格式和存储方式等方面的内容。

4.系统实现本课题将探讨如何实现基于 GMM 的说话人识别系统,包括系统的架构设计、算法实现、性能测试等方面的内容。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
H s 1 s1
其中 为预加重系数,可取为 1 或比 1 稍小的值,一般取, =0.95。
(2)端点检测 端点检测的目的是从包含语音的一段信号中确定出语音的起点以及终点。有效地端
点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具 有良好的识别性能。
共 30 页 第7页
3.1 说话人识别基本原理……………………………………………5 3.2 设计要求…………………………………………………………5 3.3 结构设计…………………………………………………………5 第 4 章 设计方案……………………………………………………………7 4.1 预处理模块………………………………………………………7 4.2 特征参数 ………………………………………………………13 4.3 训练模型 ………………………………………………………17 4.4 识别模型 ………………………………………………………21 第 5 章 实验结果…………………………………………………………22 第 6 章 应用程序…………………………………………………………25 心得体会……………………………………………………………………28 参考文献……………………………………………………………………29
下面为端点检测波形示意图,以便于理解。
共 30 页 第9页
燕山大学专业综合训练说明书
图 2 端点检测示意图
(3)分帧 由于语音信号的准平稳特性,使得只在短时段上才可视为一个平稳过程,所以绝大
第一周
第二周

作 检索、查阅资料,

学习基础知识,构 学习矢量量化法
划 建说话人识别整体
系统。
第三周
第四周
编写程序。
程序调试与撰写报 告。
参 考
Matlab 方面资料、语音信号处理方面资料


答疑地点
A203-1
指导教师签字 Tel:13031860583
答疑时间
周六晚 19 点至 22 点; 周日晚 19 点至 22 点。
共 30 页 第4页
燕山大学专业综合训练说明书
第 3 章 说话人识别系统设计相关知识
3.1 说话人识别基本原理
说话人识别的基本原理是为每一个说话人建立一个能够描述这一说话人个性特征的 模型 。在目前话音特征与说话人个性特征还未很好的从语音特征中得到分离的情况下, 为每一个说话人建立的说话人模型实际是说话人的语音特征模型。
语音信号 X n的短时平均过零率定义为:
Zn
sgnxm sgnxm 1wn m
m
其中:
sgnxm
1, xn 1, xn
0, 0
共 30 页 第8页
燕山大学专业综合训练说明书
wn 为窗口函数,其作用与求短时平均能量时一样。一般取
wn
1 2 N
,0
n
N
1,
0, else
实际应用中常常用到短时过零率的修正参数,它是一帧语音波形穿越某个非零电平 的次数。此电平适当地设置为一个接近零的值时,对于清音仍然有很高的值,而对于无 声则很低。
说话人识别系统具体结构如下图所示:
图 1 说话人识别系统图
共 30 页 第6页

燕山大学专业综合训练说明书
第 4 章 设计方案
我们可以将一个说话人识别系统分成如下几个模块:预处理模块、特征提取模块、 训练模块和识别模块等。
4.1 预处理模块
语音信号的预处理分为四个部分:预加重、端点检测、分帧和加窗。下面对每一部 分进行详细的叙述。
在进行说话人识别时,取与测试音匹配距离最小的说话人模型所对应的说话人作为 说话人识别的结果。
3.2 设计要求
要实现说话人识别,应解决如下基本问题: (1)语音信号的预处理和特征提取, 即提取能够有效表征说话人个性特征的参数。实 际上现在采用的特征都是从语音信号模型中得到的, 它们既包含说话人的语音特征,又 包含说话人的个性特征,并且相互交织在一起, 以复杂的形式存在于语音参数中,目前还 没有建立起准确分离和提取这两种特征的技术。 (2)说话人模型的建立和模型参数的训练。这包括模型结构的表示和参数估计算法。 (3)测试音与说话人模型的匹配距离计算。实际上,采用的说话人模型结构对应于说 话人识别的不同方法。随着技术的发展, 说话人识别的方法不断出现,包括矢量量化, 模 板匹配法,隐马尔可夫模型,高斯混合模型, 人工神经网络方法等。 (4)识别或判决策略。根据匹配距离的计算结果判决说话人是否是所声称的说话人 (说话人确认)或说话人到底是谁(说话人辨认)。
En
N 1
X
mW n
m2
m0
令 hn w2 n,则有:
N 1
En X m2 • hn m m0
语音信号的短时平均幅度为:
N 1
Mn X m wn m m0
En 和 M n 都反映信号强度。
过零分析是考察信号时域波形通过时间轴的情况。对于离散时间信号,如果相邻的
取样值符号改变则称为过零。过零数就是样本改变符号的次数,单位时间内的过零数称 为平均过零数。对于窄带信号,平均过零数作为信号频率的一种简单度量是很精确的。
3.3 结构设计
说话人识别系统分为两个阶段:训练阶段和识别阶段。 在训练阶段,系统根据每个使用者说出的若干训练语句建立相应的模型或模型参量
共 30 页 第5页
燕山大学专业综合训练说明书
参考集;而在识别阶段,在待识别人说的语音信号中导出的参量,要与在训练过程中得 到的参考参量集或模型模板加以比较,并且根据一定的相似性准则进行判定。对于说话 人辨认来说,所提取的参量要与训练过程中的每一个人的参考参量加以比较,并把与它 距离最近的那个参考量所对应的使用者辨认为是发出输入语音的说话人。
目前,较为常用的生物特征认证方法有三种,分别是基于指纹、声纹、人脸的认证 技术。语音是人的自然属性之一,由于说话人发音器官的生理差异以及后天形成的行为 差异,每个人的语音都带有强烈的个人特征色彩,这使得通过分析语音信号来识别说话 人成为可能。说话人识别系统属于生物识技术的一种,是一项根据语音波形中反映说话 人生理和行为特征的语音参数识别说话人身份的技术。与语音识别不同的是,说话人识 别利用的是语音信中的说话人信息,而不考虑语音中的字词意思,它强调一说话人的个 性;而音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强共性。
短时能量和短时过零率都是随机参数,不同性质的语音各自有不同的概率分布。对 于静音、清音和浊音三种情况,浊音的短时平均幅度大而短时过零率最低;清音的短时 平均幅度居中而短时过零率最高;静音的短时平均幅度最低而短时过零率居中。它们的 条件概率分布都接近于正态分布。
端点检测采用短时能量和过零率相乘的办法来判断。检测前,先要为短时能量和过 零率确定两个门限,故称之为双门限端点检测。低能量门限取背景噪声平均能量的 2 倍, 高能量门限取多帧语音数据的平均能量。将信号分为静音段、过渡段、语音段和结束段。 在静音段,如果短时能量或过零率超过了低门限,就开始标记起始点,进入过渡段;在 过渡段,如果两个参数值都回落到低门限以下,则又恢复到静音段;如果两个参数中的 任一个超过了高门限,就表明进入语音段。在语音段,如果两个参数同时低于低门限, 则进入结束段,并判断接下来的语音信号的静音帧数长短,长则继续扫描结束点,短则 标记语音结束。当信号持续时间达不到一定时长时,则可以确定其为噪音,抛弃已经标 记的起始点继续扫描。
(1)预加重 对于输入的语音信号,首先用低通滤波器滤掉高频部分以防止还原信号时在时域内
产生混叠干扰,然后用高通滤波器抑制 50HZ 的电源干扰,这就是抗混叠失真滤波。依据 Nyquist 采样定理,用不低于 2fa 的采样频率对原始模拟信号采样,经过 A/D 转换得到 数字信号。
由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在 800HZ 以 上,按 6dB/倍频程跌落,所以求语音信号频谱时,频率越高相应的信号成分越小,高频 部分的频谱比低频部分难求,为此要进行预加重。预加重的目的是将更为有用的高频部 分的频谱进行提升,使信号的频谱变得平坦,保持在低频到高频的整个频带内,能用同 样的信噪比求频谱,以便于进行频谱分析或声道参数分析。预加重一般用具有 6dB/倍频 程的提升高频特性的数字滤波器来实现,其传递函数为:
基层教学单位主任签字
2012 年 8 月 27 日
共 30 页 第1页
燕山大学专业综合训练说明书
目录
第 1 章 摘要…………………………………………………………………3 第 2 章 前言…………………………………………………………………4 第 3 章 说话人识别系统设计相关知识……………………………………5
燕山大学专业综合训练说明书
目前的端点检测技术大都是基于语音信号的时域特征来进行的,一般采用两种时域 特征:短时能量和短时过零率,通过设定它们的门限来进行检测。
短时能量序列反映了语音振幅随时间缓慢变化的规律。幅度随时间的变化,清音段 一般比浊音段要小,可以用来区分清音段和浊音段;可以用来区分声母和韵母的分界, 无声和有声的分界。短时能量定义为:
共 30 页 第2页
燕山大学专业综合训练说明书
第1章 摘 要
说话人识别系统属于生物识别技术的一种,是一项根据语音波形中反映说话人生理 和行为特征的语音参数识别说话人身份的技术。它是指通过说话人的语音来自动识别说 话人的身份。目前,与文本无关的说话人识别的常用方法有很多,本文应用的是基于非 参数模型的矢量量化 VQ(VectorQuantization)方法。VQ 在孤立词语音识别系统中得到了 很好的应用,特别是有限状态矢量量化技术,对于语音识别更为有效。基于 VQ 的孤立词 语音识别系统具有分类准确,存储数据少,实时响应速度快等综合性能好的特点。借助 MATLAB 工具,设计基于 VQ 码本训练程序和识别程序,识别特定人的语音。其系统处理 过程主要是先对语音进行预加重、端点检测、分帧、加窗处理四个部分的处理,然后提 取特征矢量参数(采用 MFCC 系数),然后对模版语音用矢量量化方法进行训练得到语音 模版,最后用测试语音测试系统性能。其中系统的设计要分为预处理模块、特征提取模 块、训练模块和识别模块等,各个部分结合在一起实现说话人识别功能。 关键词:训练 ,说话人识别, VQ ,MATLAB
相关文档
最新文档