线性转换矩阵聚焦于事后概率的计算辨识
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
线性转换矩阵聚焦于事后概率的计算辨识作者:王钧
来源:《文理导航·教育研究与实践》 2017年第6期
【摘要】由于鉴别式训练的效果优越,于是出现使用鉴别式训练法则进行转换矩阵调适,称为最小分类错误率线性回归调适算法。
我们认为使用最小分类错误率准则进行线性回归调适时,若能再进一步考虑线性回归矩阵之事前概率分布,则可以结合贝氏法则之强健性与最小分
类错误率之鉴别性,以估测出更佳之转换矩阵用于语者调适上。
透过聚焦事后概率与鉴别式训
练间之关连及适当之条件简化,则可得到参数更新之封闭解型式以加速鉴别式训练的参数估测。
【关键词】线性;矩阵;事后概率;计算
一、绪论
一般化最小错误率(generalized minimum error rate,GMER),由事后概率的角度出发,
定义聚焦事后概率(aggregate a posteriori,AAP),并将事后概率改写为具鉴别性形式的误辨率(misclassification measure)函式。
在训练模型参数上,不使用一般的广义概率递减法则(generalized probabilistic descent,GPD),透过一些条件假设,即可推导出模型参数估测
的封闭解形式。
在语者调适的研究上,最广为使用的有最大相似度线性回归(maximum
likelihood linear regression,MLLR)调适与最大事后概率调适两大类方法。
在本研究中我们将使用前者作为调适的主要架构,透过所估测出之线性回归矩阵对语音模型参数进行调适。
由
于考虑到使用语料量稀少易造成调适效果失准的情况,引入线性转换矩阵之事前分布信息,以
强健化调适效能外,也将由鉴别式训练之角度出发,尝试找出不同于传统以贝氏法则为准之最
大化。
聚焦事后概率线性回归(aggregate a posteriori linear regression,AAPLR)算法。
故我们会针对文献中所提过之以线性回归为主之调适算法作回顾。
除了最大相似度线性回归调适
算法之外,主要有最大事后概率线性回归(MAPLR)、考虑到渐进式(sequential)学习的近似贝氏线性回归(quasi-Bayes linear regression,QBLR)与最小分类错误线性回归(minimum classification error linear regression,MCELR)。
二、鉴别式训练及线性回归调整
最大相似度参数估测法则是最普遍用来训练隐藏式马可夫模型参数的方法,它利用EM算法估测模型参数非常有效率;最大相似度的缺点是模型参数只利用属于本身模型的数据来估测,
和其它模型的参数估测基本上是独立的。
最小分类错误和最大交互信息,是近来较广为利用的
鉴别式训练方法,除了训练语音模型外,还用在语言模型(language model)的训练上、语者辨
识模型训练、特征参数撷取。
使用鉴别式训练估测模型参数时,除了本身模型的数据外,还考
虑与其它模型参数之鉴别性,所以可以更正确地估测出所需的模型参数内容。
作者提出了另一
种鉴别式训练方法,称作一般化最小错误率,从事后概率出发,定义与最大事后概率相似的目
标函式,并且改写为鉴别式训练的形式,以下分别简介这三种鉴别式训练法则。
在两个类别12C,C的分类器里,假设1x∈C,贝氏分类法则定义了最基本的误辨值函式(misclassificationmeasure)为
其中(x;)ig为观察数据x对类别iC的相似度,表示所有类别的模型参数,
|(x;)(x;)kikMigg,代表一群对观察数据x的相似度比类别kC对观察数据x相似度更具竞争性的类别集合,即混淆类别(confusing classes)或竞争类别(competing classes)的集合。
kS并
非是固定的集合,它随着模型参数和观察数据x而改变,而且该式在不连续,这在最陡坡降法(gradient descent)里并不适用,因此另外定义了一个连续性的误辨值公式为
除了最小分类错误法则外,最大交互信息也是普遍利用的鉴别式训练式法则,最大交互信
息较隐性的引入了观察数据与其它类别的相似度,所以与一般化最小错误率较相似,在混合数
高的情况下,最大交互信息能训练出比最小分类错误辨识率更高的模型参数,由于最大交互信
息考虑了观察数据和所有类别的相似度,因此比最小分类错误在实作上难度更高。
为了快速计
算隐藏式马可夫模型和观察数据x的相似度,必须使用forward-backward算法。
三、最大相似度线性回归(MLLR)
最大相似度线性回归的目标就是,对一群集s,计算一转换矩阵sW,使得群集内所有调适
数据的相似度最大,最大相似度线性回归调适算法的好处在于,调适语料不需要完全涵盖所有
模型,即使没有调适数据的模型,也可以经由同类别的转换矩阵进行调适。
以调整平均值向量
为例,在计算转换矩阵之前,将平均值向量延展为其中,D为向量维度,则更新后的平均值向
量为其中,r(s)代表状态s所属回归类别,r(s)W代表回归类别(regression class)r(s)的转
换矩阵,维度为D×(D1),则透过EM算法,最后可以得到每一个回归类别的转换矩阵之每一列
计算方式如。
由于以最大相似度为主之线性转换矩阵在计算上十分简易,所以其应用十分普遍,然而,若调适语料过少,或语料特性不具代表性时,则可能导致得到的转换矩阵仍旧无法符合
测试语者的语音特性,于是,便考虑到引入转换矩阵的事前分布信息。
矩阵参数的事前分布可
以在估测转换矩阵时限制参数可能的调适量,使得参数的估测更具强健性,由文献实验可看出,最大事后概率线性回归可达到比最大相似度线性回归更好的辨识率。
最小分类错误的鉴别式训练方式在很多应用都能显示出不错的效能,不过最小分类错误一
般以广义概率递减算法实现,并没有在理论上证明它能收敛到更好的模型,当训练数据变少时,错误的收敛停止点更容易发生,因此将MCE应用在模型调适时,使用线性回归有其必要。
Chengalvarayan在1998年提出最小分类错误线性回归,使用全局性的转换矩阵并以广义概率
递减算法估测矩阵参数,实验结果显示出其调适效果比最大相似度线性回归算法好。
而在中,
更进一步使用多组回归类别的转换矩阵进行调适,在同样使用广义概率递减算法下,可以有更
好的调适效能改进。
另外,作者不利用广义概率递减算法实现最小分类错误线性回归调适算法,而以一般化调适作法计算转换矩阵,即转换矩阵以群集为单位,将最小分类错误的目标函式改
写后,可以透过EM算法以封闭解的方式计算转换矩阵。
在最小分类错误估测法则中,并不考虑类别的事前信息,且使用广义概率递减算法实现,
在调适数据少时,更容易发生错误训练的问题,因此,Beyerlin 将所有模型(语音模型、语言
模型)组成一个事后概率的线性组合,利用鉴别式训练估测出线性组合的系数。
由先前所介绍的一般化最小错误率,从最大事后概率的角度出发,另外定义所谓聚焦事后概率(AAP),并将式子改写为鉴别式训练的形式,在所给定的部份假设下,可以得到鉴别式训练的封闭解,相较于传
统使用的广义概率递减算法,有较快的计算速度,而且不用调整学习速率(learning rate)和步进大小(step size)。
由于调适时数据较少,于是将一般化最小错误率代入寻找转换矩阵也应该相当合适。
考虑到最大事后概率在少量训练语料下可以得到比最大相似度较正确的模型参数,由前述
的一般化最小错误率介绍中可以看出,它将事后概率中原本与模型参数无关的( )m,nPx表示成
与模型相关,即具鉴别式训练的形式,将原本最小分类错误中鉴别式函式为相似度函式改为事
后概率函式,可以结合这两种模型估测方式的优点,并利用封闭解的解法可以快速估测出模型
参数,改善以往以广义概率递减法则实作时收敛太慢的缺点。
一般而言,线性转换矩阵是根据所有语音模型参数中具相似特性之分群结果而分为数个类别,如分为R群,被分于同群之语音模型是共享同一组转换矩阵进行转换。
于是在给定语音模
型类别m后,即可以透过上述之关系,得到对应之转换矩阵类别。
另外,我们是以r(m)表示第
r类转换矩阵与第m类语音模型之关系。
从另一方面来看,遵循上述变量、标示之定义,则转
换矩阵W之聚焦事后概率定义式比较可知,在使用EM算法对语音模型或是此处所考虑之转换矩阵之参数进行估测时,是将R(W-|W)针对所欲估测之参数予以偏微分后,而透过封闭解来得到
更新的参数内容。
而在聚焦事后概率的定义式中,则是将各个类别之事后概率全部加总起来,
于是在文献中接下来的推导过程中,才可朝所谓的最小分类错误之鉴别式参数估测之同理性进
行推导,并经一些假设设定后,得以使用封闭解的方式进行参数内容之更新。
四、实验与结果
首先我们从不同方法的调适效果来比较,可以发现所提出之AAPLR与其他调适方法相较,
无论给定多少调适语料,均可达到最佳之效能。
而与MCELR之比较,可以发现最大之效能差距
约有3.3%。
另外,由调适时间来比较,可以发现,AAPLR虽然算是属于鉴别性调适法则,但是
在调适时间上,由于其参数估测有封闭解的存在,可以一次就将调适之最佳参数估测出,所以
较同类型之MCELR花更短的时间在调适上。
另外,由表上可以发现的是,当使用了30句调适语料时,所有方法的调适效果并没有相当大的改进,推测原因应是出在转换矩阵类别数量上的问题。
由于使用之语料数量已不少,但是类别数量还是只有固定在2个,过少的转换矩阵类别数,会使得调适语料无法发挥针对不同模型参数而估测出专属之转换矩阵,而失去大量调适语料应
有之调适效能改进率。
最后,在此初步实验中,我们直接将TCC300所训练出之语音模型,使用公视语料进行少量语料之调适效能实验,而未考虑到两种语料所具备之文句内容与语者分布的
差异。
在此实验结果中,不易区分出调适之效能是来自于针对文句内容的调适效能抑或是来自
语者的调适效能。
这是在未来我们将会再进行修正之处。
在本论文中,一般化最小错误率中之类别概率以一常数表示,在模型参数估测中较不具参
考价值,或许尝试以真正的概率分布来代表,可以推导出更完整之结果。
此外,我们也将再深
入由最基本之理论出发,将此一调适算法演绎得更加完整。
未来我们也将尝试利用近似贝氏的
方法进行理论推导以寻求渐进式调适之效能。
此外,除了我们也将增加线性转换矩阵的类别数,进行更多的实验以验证调适效能之外,也要实行先针对训练与测试语料之文句内容差异进行所
谓的task 调适,以先去除此一因素,再行针对语者调适之效能进行实验评估。
【参考文献】
[1]L.Bahl,P.Brown,P.de Souza and R.Mercer,“Maximum mutual inf ormation estimation of hidden Markov model parameters for speech recognition”,in Proc.IEEE Int. Conf. Acoustics,Speech,Signal Processing(ICASSP),vol.11,April1986,pp.49-
52
[2]P.Beyerlin,“Discriminative model combination”,in Proc.IEEE Int.Conf. Acoustics,Speech,Signal Processing (ICAS
SP),vol.1.1998.pp.481-485
[3]P.C.Chang and B.-H.Juang,“Discriminative training of dynamic programming based speech recognizers”,IEEE Trans.Speech and Audio Processing.vol.1.no.2,pp.135-143. April 1993。