说话人识别模型

合集下载

第三章说话人识别模型

３１引言

在第二章中，我们介绍了如何把语音分成一Ｉ吻顾的语音段，然后逐帧的提取各种特征参数的过

程。经过特征参数提取这个步骤之后，每一帧语音对应一个特征参数矢量（这个特征参数矢量可能包含上一章所介绍的各种特征参数），而一段语音就被处理成一个特征参数矢量的集合。从随机过程

的观点看，每一个特征参数矢量对应观测空间的一个样本点，一段语音则对应一个样本点的集合。

基于模板的说话人识别系统都包含训练和识别两个子模块。训练的过程，就是要对训练语音的样本点集合按某种方式建立模板。对多个人进行训练以后，可以得到多套模板。识别的过程，就是

要把待识别语音的样本点集合与训练所得到的各个模板分别进行比对，与每个模板比对时都按某种

方法得到一个相似度的评判，最后综合这些相似度的结果，进行最终的判决。图１－１是对训练和识

别的一个直观的描述，这里重绘如下。

（ａ）　２１练

未知说话人

（ｂ）识别

图３－１模板匹配的说话人识别方法

２１

３－２平均值形式的模板—简单统计识别方法２２从图３－１中我们可以看出，模板的形式是说话人识别方法中关键的一环，不同的模板形式需要

不同的训练方法、模板比对方法和最后的判决方法可以说不同的模板形式也就决定了不同的说话

人识别方法。模板的形式有简单有复杂，常用的模板形式包括平均值形式的模板、码本形式的模板、建立在随机分布认识上的ＧＭＭ模板和建立在随机过程认识Ｌ的ＨＭＭ模板。本章将分别对这些模

板形式做简单的介绍和分析。并在最后给出我的系统的大致设想并陈述理由

３．２平均值形式的模板—简单统计识别方法

平均值形式的模板是最简单的模板，它取所有训练样本点的平均值样本点来做参考模板。记一

个说话人的训练样本点的集合为｛，、｝几、　Ｎ为训练样本点总数，那么对应这个说话人的模板就是一

个点

（３－１）

在识别的时候，待识别的样本点、到模板的距离定义为

ｄ（ｘ，、）一（ｘ，一、）＇Ｗ（ｘ、一：）（３－２）

这里Ｗ是一个加权矩阵，不同的Ｗ对应不同的距离测度，当Ｗ是一个单位阵时，对应欧氏距离（Ｅｕｃｌｉｄｅａｎ　Ｄｉｓｔａｎｃｅ）；当Ｗ为对应ｚ的逆协方差矩阵时对应马氏距离（Ｍａｈａｌａｎｏｂｉｓ　Ｄｉｓｔａｎｃｅ）：我们

在后面还会介绍到一种对ＬＰＣ参数特别有效的距离测度，在那里，Ｗ为用自相关法计算ＬＰＣ参数

时得到的自相关矩阵，即（２－２５）式中的系数矩阵，对应的距离测度被称为Ｉｔａｋｕｒａ－Ｓａｔｉｏ距离测度

待识别的语音样本点的集合闪二１到一个模板，的距离有一个统计平均・

、＿二｝ｄ（ｘ；，ｚ）Ｎ‘胃（３－３）

其中Ｎ＇为识别样本点总数式中的ｄ就是我们最后用以衡量训练语音和识别语音相近度的依据。在

ＡＳＶ中，说话人声明了自己的身份，因此只需要计算与一个模板的距离歹，如果歹小于某个门限姚，

那么就认为说话人身份与所声明的身份相匹配，否则认为不匹配；而在ＡＳＩ中，说话人可能是一组

说话人中的一个，这组说话人对应模板集ｆ瓦１＂＇ｌｘｋｌｘ＝ｉ，Ｍ为可能的说话人的个数，这时需要分别与这组

说话人模板‘｝算平均距离得到因Ｍｋ－Ｉ　＇取其中最小的那一个作为可能匹配的对象

呱。。一ｍｉｎ　｛ｄｋ　｝（３－４）

如果ｄ，，，，，，小于某个门限ｄｏ，则认为说话人与被指定对象匹配，否则认为说话人不是这组可能说话

人中的任意一个。

平均值形式的模板对应了一类最简单的识别方法—简单统计识别方法，这种方法也是说话人识别领域最初采用的方法。这种方法认为取平均的结果可以使得那些反映说话人信息的成分保留下