HMM在语音识别系统中的应用

合集下载

马尔可夫模型在语音识别中的应用技巧

马尔可夫模型在语音识别中的应用技巧

马尔可夫模型在语音识别中的应用技巧一、马尔可夫模型介绍在讨论马尔可夫模型在语音识别中的应用技巧之前,我们先来了解一下马尔可夫模型的基本概念。

马尔可夫模型是一种描述随机过程的数学模型,其特点是当前状态只与前一个状态有关,与更早的状态无关。

这种特性使得马尔可夫模型在语音识别中有着广泛的应用。

二、语音信号的特点语音信号是一种时间序列信号,具有瞬时性、时变性和非线性等特点。

这就给语音识别带来了一定的挑战,需要一个有效的模型来描述和识别语音信号。

马尔可夫模型正是能够很好地满足这一需求的模型之一。

三、马尔可夫模型在语音识别中的应用1. 隐马尔可夫模型(HMM)隐马尔可夫模型是马尔可夫模型的一种扩展,它引入了观测变量和隐藏状态,常用于语音识别领域。

在语音识别中,语音信号被看作是一个观测序列,而隐藏状态则对应着语音信号的语音单元(如音素、词等)。

利用HMM模型,可以对语音信号进行建模和识别,进而实现语音识别的功能。

2. 马尔可夫链马尔可夫链是指满足马尔可夫性质的随机序列,其状态空间和状态转移概率决定了整个链的特性。

在语音识别中,可以利用马尔可夫链来建模语音信号的时序特性,从而实现对语音信号的自动识别和分析。

3. 马尔可夫模型参数估计在实际应用中,马尔可夫模型的参数估计是一个关键的问题。

通过对观测序列进行训练,可以估计出模型的状态转移概率、观测概率等参数,从而使得模型能够更好地适应实际的语音信号。

参数估计的准确性对于语音识别的性能有着重要的影响,因此需要运用合适的算法和技巧来进行参数估计。

四、马尔可夫模型在语音识别中的技巧与挑战1. 模型的复杂度语音信号具有高度的时变性和非线性特性,这就要求马尔可夫模型在描述语音信号时能够充分考虑到这些特点。

因此,需要不断提高模型的复杂度和灵活性,以使其能够更好地适应不同类型的语音信号。

在实际应用中,需要通过合理的方法来平衡模型的复杂度和准确性。

2. 数据的准备与处理语音识别的应用通常需要大量的训练数据,而且这些数据需要经过一定的预处理和特征提取。

马尔可夫过程在人工智能中的应用

马尔可夫过程在人工智能中的应用

马尔可夫过程在人工智能中的应用随着人工智能在各个领域的普及和进步,马尔可夫过程越来越被广泛应用。

马尔可夫过程是一种重要的概率模型,它通常用来描述某个系统中状态的转移过程。

在人工智能领域,马尔可夫过程被应用于语音识别、机器翻译、自然语言处理等多个方面。

一、马尔可夫过程在语音识别中的应用语音识别是指将人的语音信号转换为机器可读的文本或指令。

马尔可夫过程在语音识别中的应用通常为“隐马尔可夫模型(HMM)”。

HMM是一种用于建模时间序列数据的统计模型,它可以捕捉语音信号的时间序列特征和状态转移特性。

HMM由观测序列和隐藏状态序列组成,观测序列是样本信号,隐藏状态序列是用来描述该信号的文本或指令。

通过HMM模型,就可以将连续的语音信号序列转换为离散的文本序列。

二、马尔可夫过程在机器翻译中的应用机器翻译是指将一种自然语言翻译成另一种自然语言的技术。

马尔可夫过程在机器翻译中的应用通常为“统计机器翻译(SMT)”。

SMT是一种基于概率模型的翻译方法,它借助大量的平行语料库,并使用语言模型、翻译模型和调序模型等,利用文本之间的相似性和规律性进行翻译。

其中,翻译模型采用马尔可夫过程建模,将翻译任务分解成一系列状态转移过程,并估计转移概率和发射概率等参数。

通过SMT模型,就可以实现不同自然语言之间的互相翻译。

三、马尔可夫过程在自然语言处理中的应用自然语言处理是指将自然语言转换为计算机可处理的形式,通常包括文本分类、情感分析、实体识别等多个任务。

马尔可夫过程在自然语言处理中的应用通常为“条件随机场(CRF)”。

CRF是一种基于马尔可夫过程的图模型,它建立在有向无环图上,通过对序列特征的建模,将一系列观测序列转化为一系列输出标签。

CRF不仅可以捕捉文本间的上下文关系,还可以利用输入特征进行模型优化。

综上所述,马尔可夫过程在人工智能中的应用逐渐被广泛认可和应用。

HMM、SMT、CRF等算法在语音识别、机器翻译和自然语言处理等方面都有非常成功的应用案例,他们在提高机器处理语言的准确性、效率和质量方面,具有非常重要的作用。

隐马尔可夫模型在语音识别中的应用

隐马尔可夫模型在语音识别中的应用

隐马尔可夫模型在语音识别中的应用隐马尔可夫模型(Hidden Markov Model,简称HMM)是一种强大的统计工具,主要用于序列数据的建模和分析。

语音是一种典型的序列数据,因此HMM在语音识别中有着广泛的应用。

本文将就HMM在语音识别中的各种应用进行详细介绍。

一、HMM模型HMM是一种统计模型,它可以描述一个由有限个状态(state)组成的随机过程(process),该过程的状态是非观测的,而只有通过一些不完全(incomplete)可观测的随机变量(observation)来观测该过程。

HMM模型由三个部分组成:状态集合、观测集合和参数集合。

其中,状态集合和观测集合是已知的,参数集合包括状态转移概率、发射概率和初始概率。

在语音识别中,HMM通常被用来表示语音的声学性质。

每个状态对应于一个语音音素(phoneme),而每个观测向量对应于一个声学特征向量。

通常使用高斯混合模型(GMM)来建模每个状态发射概率。

由于一个语音序列对应于一个状态序列和一个观测序列,因此可以通过基于HMM的Viterbi算法来计算最可能的状态序列,从而实现语音识别。

二、基于HMM的语音识别基于HMM的语音识别可以分为三个主要步骤:训练、解码和评估。

1. 训练训练是基于HMM的语音识别的重要步骤,它用于估计HMM模型的参数。

训练过程由两个部分组成:第一部分是初始化,第二部分是迭代优化。

初始化:初始化包括确定状态集合、观测集合和参数集合。

通常情况下,状态集合与待识别的音素集合相对应,而观测集合包括语音的声学特征向量。

初始参数一般采用随机初始化,或者通过聚类方法从数据中提取初始参数。

迭代优化:优化通常采用Baum-Welch算法(也称为EM算法),该算法用于最大化模型似然函数。

Baum-Welch算法是一种迭代算法,迭代过程中会反复运用E步骤和M步骤。

在E步骤中,HMM模型会被使用来计算当前状态概率分布。

在M步骤中,HMM模型会根据已知状态分布和观测数据来更新模型参数。

隐马尔科夫模型在语音识别中的应用(八)

隐马尔科夫模型在语音识别中的应用(八)

隐马尔科夫模型在语音识别中的应用隐马尔科夫模型(Hidden Markov Model,HMM)是一种非常重要的统计模型,它被广泛应用于语音识别、手写识别、生物信息学等领域。

其中,HMM在语音识别领域的应用尤为突出。

本文将从HMM的基本原理、语音识别中的应用及未来发展方向等方面进行探讨。

HMM的基本原理首先,我们来简要介绍一下HMM的基本原理。

HMM是一种用于对观测序列进行建模的统计模型。

它的基本假设是,观测序列的生成过程是由一个不可见的马尔科夫链控制的,并且每个状态生成一个观测值。

在语音识别中,观测序列就是语音信号,而马尔科夫链的状态则对应着语音信号中的音素、音节或单词等。

因此,利用HMM可以对语音信号进行建模,并用于语音识别任务。

语音识别中的应用HMM在语音识别中扮演着重要的角色。

首先,HMM可以用于语音信号的特征提取和建模。

语音信号通常是高度抽象和非结构化的,要提取出有用的特征并建立模型是十分困难的。

而HMM可以很好地对语音信号进行建模,提取出语音信号的特征,从而为后续的语音识别任务提供支持。

其次,HMM也可以用于语音信号的识别和分析。

在语音识别任务中,我们需要将语音信号转换成文本或命令。

HMM可以对语音信号进行建模,并根据模型对语音信号进行识别和分析,从而实现语音识别的任务。

未来发展方向随着深度学习和人工智能等技术的发展,HMM在语音识别中的应用也在不断发展和完善。

未来,我们可以期待HMM与深度学习等技术的结合,以进一步提高语音识别的准确性和性能。

同时,HMM在语音合成、语音情感识别、多语种语音识别等方面也有着广阔的应用前景。

结语总之,HMM在语音识别中扮演着至关重要的角色。

它不仅可以用于语音信号的特征提取和建模,还可以用于语音信号的识别和分析。

未来,随着技术的不断发展,我们可以期待HMM在语音识别领域发挥出更大的作用。

希望本文能够对读者对HMM在语音识别中的应用有所了解。

隐马尔可夫模型在语音识别中的应用

隐马尔可夫模型在语音识别中的应用

隐马尔可夫模型在语音识别中的应用隐马尔可夫模型(Hidden Markov Model,简称HMM)是一种统计模型,常被用于序列数据的建模与分析。

其在语音识别领域有着广泛的应用。

本文将介绍隐马尔可夫模型在语音识别中的原理及应用。

一、引言语音识别是指将人类的语音信息转换为可识别的文字信息的技术。

在实际应用中,语音识别已经被广泛应用于语音助手、语音控制、语音转写等方面,极大地方便了人们的生活。

隐马尔可夫模型作为一种概率模型,其可以对语音信号进行建模与分析,为语音识别提供了有效的方法。

二、隐马尔可夫模型的基本原理隐马尔可夫模型由状态序列和观测序列组成。

状态序列是隐藏的,观测序列是可见的。

在语音识别中,状态序列可以表示语音信号的音素序列,观测序列表示对应的声音特征序列。

隐马尔可夫模型的基本原理可以归纳为三个概率:初始状态概率、状态转移概率和观测概率。

1. 初始状态概率:表示隐马尔可夫模型在时刻t=1时各个状态的概率分布。

在语音识别中,初始状态概率可以表示为开始语音的各个音素出现的概率分布。

2. 状态转移概率:表示隐马尔可夫模型从一个状态转移到另一个状态的概率分布。

在语音识别中,状态转移概率可以表示为音素之间转移的概率。

3. 观测概率:表示隐马尔可夫模型从某个状态生成观测值的概率分布。

在语音识别中,观测概率可以表示为某个音素对应的声音特征序列的概率。

三、隐马尔可夫模型在语音识别中的应用1. 语音识别过程在语音识别中,首先需要通过语音信号提取声音特征序列,例如梅尔倒谱系数(MFCC),线性预测编码(LPC)等。

然后,利用隐马尔可夫模型进行声音特征序列与音素序列之间的对齐操作,找到最可能匹配的音素序列。

最后,通过后处理算法对音素序列进行连续性约束等处理,得到最终的识别结果。

2. 训练过程隐马尔可夫模型的训练过程主要包括参数估计和模型训练两个步骤。

参数估计是指根据给定的语音和标签数据,通过最大似然估计等方法,估计模型的参数。

隐马尔可夫模型在语音识别中的应用

隐马尔可夫模型在语音识别中的应用

隐马尔可夫模型在语音识别中的应用一、引言隐马尔可夫模型(Hidden Markov Model,HMM)是一种基于概率统计的模型,由于其灵活性、通用性和有效性,使其成为自然语言处理、语音识别等领域中重要的工具之一。

语音识别是指通过计算机对语音信号进行处理和分析,从而转换成文本的过程。

本文将探讨隐马尔可夫模型在语音识别中的应用,以及其在该领域中的局限性和发展方向。

二、隐马尔可夫模型的原理隐马尔可夫模型是一种马尔可夫过程,其特点是其状态不是直接观察到的,而是通过观察到的输出来间接推断。

其由状态转移概率矩阵A、观测概率矩阵B和初始状态概率向量π三部分组成。

1.状态转移概率矩阵A状态转移概率矩阵A表示从一个状态转移到另一个状态的概率。

设隐马尔可夫模型中有N个状态,状态集合为{S1,S2,...,SN},则状态转移概率矩阵A为:A=[aij]N×N其中,aij表示从Si转移到Sj的概率。

2.观测概率矩阵B观测概率矩阵B表示在某个状态下产生某个观测值的概率。

设观测值的集合为{O1,O2,...,OM},则观测概率矩阵B为:B=[bj(k)]N×M其中,bj(k)表示在状态Sj下,观察到Ok的概率。

3.初始状态概率向量π初始状态概率向量π表示模型从某个状态开始的概率分布。

设初始状态的集合为{S1,S2,...,SN},则π为:π=[π1,π2,...,πN]其中,πi表示从状态Si开始的初始概率。

三、隐马尔可夫模型在语音识别中的应用在语音识别中,隐马尔可夫模型被广泛应用,其主要应用场景包括:1.语音信号的建模在语音识别中,将语音信号建模为声学特征流是一个核心问题。

而声学特征流是通过将语音信号划分为小时间窗进行采样获得的。

在隐马尔可夫模型中,状态对应着声学特征流的各个时间窗,而观测值则对应着该时间窗的声学特征。

因此,通过隐马尔可夫模型对声学特征流进行建模,可以从语音信号中提取出关键的声学特征,并进行语音识别。

隐马尔可夫模型算法及其在语音识别中的应用

隐马尔可夫模型算法及其在语音识别中的应用隐马尔可夫模型(Hidden Markov Model,HMM)算法是一种经典的统计模型,常被用于对序列数据的建模与分析。

目前,在语音识别、生物信息学、自然语言处理等领域中,HMM算法已经得到广泛的应用。

本文将阐述HMM算法的基本原理及其在语音识别中的应用。

一、HMM算法的基本原理1.概率有限状态自动机HMM算法是一种概率有限状态自动机(Probabilistic Finite State Automata,PFSA)。

PFSA是一种用于描述随机序列的有限状态自动机,在描述序列数据的时候可以考虑序列的概率分布。

PFSA主要包括以下几个部分:(1)一个有限状态的集合S={s_1,s_2,…,s_N},其中s_i表示第i个状态。

(2)一个有限的输出字母表A={a_1,a_2,…,a_K},其中a_i表示第i个输出字母。

(3)一个大小为N×N的转移概率矩阵Ψ={ψ_ij},其中ψ_ij表示在状态s_i的前提下,转移到状态s_j的概率。

(4)一个大小为N×K的输出概率矩阵Φ={φ_ik},其中φ_ik 表示在状态s_i的前提下,输出字母a_k的概率。

2. 隐藏状态在HMM中,序列的具体生成过程是由一个隐藏状态序列和一个观测序列组成的。

隐藏状态是指对于每个观测值而言,在每个时刻都存在一个对应的隐藏状态,但这个隐藏状态对于观测者来说是不可见的。

这就是所谓的“隐藏”状态。

隐藏状态和观测序列中的每个观测值都有一定的概率联系。

3. HMM模型在HMM模型中,隐藏状态和可观察到的输出状态是联合的,且它们都服从马尔可夫过程。

根据不同的模型,HMM模型可以划分为左-右模型、符合模型、环模型等。

其中最常见的是左-右模型。

在这种模型中,隐藏状态之间存在着马尔可夫链的转移。

在任何隐藏状态上,当前状态接下来可以转移到最多两个状态:向右移动一格或不变。

4. HMM的三个问题在HMM模型中,有三个基本问题:概率计算问题、状态路径问题和参数训练问题。

HMM在基于参数语音合成系统中应用

HMM在基于参数的语音合成系统中的应用摘要语音合成是人机交互的关键技术之一。

随着电子计算机的迅猛发展,语音合成技术由早期的基于拼接调整合成,逐渐发展为目前基于参数的语音合成技术。

本文主要是对隐马尔可夫模型(HMM)在基于参数的语音合成系统中的应用方面进行了研究和探索。

本文的主要研究工作如下:首先,基于对现有语音自动切分技术框架的分析,提出了不定长单元模型,改善切分的精度。

目前,基于拼接的语音合成系统需要首先对语料库进行语音自动切分,基于隐马尔可夫模型的语音自动切分方法普遍采用的声学模型是三音子模型。

本文针对一些语音单元间的协同发音现象和音变现象对切分精度造成的不利影响,提出了基于不定长单元模型的语音自动切分方法。

具体定义了不定长语音单元,讨论了不定长单元的选取,并对建立相应的模型,在模型的训练方面也给出了解决的方案。

实验结果,长单元的边界切分精度比三音子模型有了很大的提高,精度从原先的79.55%提高到了89.13%,同时总体切分精度也有了一定的提高。

结果表明, 不定长单元模型对于语音自动切分,特别是对三音子模型表现较差的长单元边界上,能达到比三音子模型更好的效果本文首先介绍基于HMM的自动切分的基本流程,并通过分析由于不同音子间的紧密结合而产生的音变现象,提出一种基于不定长单元模型并给出其训练算法。

基于HMM的自动切分技术的分析和改进工作,为后面基于HMM的可训练语音合成的深入研究奠定一定的基础。

其次,基于现有的模型训练和参数生成技术,对基于参数的语音合成的技术框架中的一些关键技术进行分析,并根据需要构建了中文的基于参数的语音合成系统。

本文建立了一整套的基于参数的语音合成系统,包括模型的训练流程和相应的语音合成模块。

它可以根据原始的语音数据进行训练,并自动生成一个的合成系统。

同时,本文在此框架基础上进行了中文基于参数的语音合成系统的训练和构建,对基于参数的语音合成技术进行效果验证。

此外,本文根据基于最小化生成误差的训练准则,对模型进行了改进,在新的准则下优化合成语音的音质。

HMM介绍及其在语音识别中的应用新


时刻t
t (i)
sN t+1
( t1 j)
估计问题—后向算法
递归求解:
1. 初始: T(i)1 ,(1iN )
N
2. 递归: t(i)a ib jj(o t 1 )t 1 (j)t, T 1 ,T 2 ,.1 ;1 . .i ,N j 1
解码问题—Viterbi算法
t( i) q 1 m ,q 2 .q .t 1 .P [ q a 1 q 2 .q x . t 1 ,q .t i,o 1 o 2 .o t .|.]
实现在语音处理上的应用
隐马尔可夫链—三个硬币隐马尔可夫模型
a11
a22
a12
1
2
a21
a13 a31
a32 a23
3
a33
O(o1o2..o.T)(HHH.T.T.H )
❖ 每个硬币代表一个状态; ❖ 每个状态有两个观测值:
正面 H 和反面 T; ❖ 每个状态产生H的概率为P(H); ❖ 每个状态产生T的概率为1-P(H)
——学习问题
如何解决三个基本问题
估计问题: 前向算法和后向算法 解码问题: Viterbi算法 学习问题:Baum-Welch算法
估计问题—前向算法
定义前向变量:t(i) P (o 1 o 2 .o .t,q .t i| )
表示模型 下,在时刻t,观测事件为Ot,状态为i的概率。
s1
a1j
HMM介绍及其在语音识别中的应用新
The user can demonstrate on a projector or computer print the presentation and make it into e use wider field The user can demonstrate on a projector orcomputer print the presentation and make it into e used in a wider field

隐马尔科夫模型在语音识别中的应用(十)

隐马尔科夫模型在语音识别中的应用隐马尔科夫模型(Hidden Markov Model, HMM)是一种用来描述具有隐含未知参数的概率模型。

在语音识别领域,HMM被广泛应用于对语音信号的建模和识别。

本文将探讨HMM在语音识别中的应用,并针对其原理、优势和挑战进行分析。

HMM的原理HMM将一个系统抽象为一个有限状态的马尔科夫链,并在每个状态上定义一个输出概率分布。

通过状态之间的转移概率和状态到观测之间的概率,HMM能够描述系统的动态演变和输出序列的产生。

在语音识别中,HMM可以用来建模语音信号的时域特征,如帧能量、频谱包络等,从而实现对语音的识别和理解。

HMM的优势HMM在语音识别中具有多方面的优势。

首先,HMM能够有效地建模语音信号的时序特征,对长时序的语音信号进行建模时具有较好的效果。

其次,HMM能够灵活地应对不同说话人、不同环境和噪声下的语音信号,具有一定的鲁棒性。

此外,HMM还能够对语音信号进行自适应建模,根据不同说话人的语音特征进行个性化的识别。

HMM的挑战尽管HMM在语音识别中有诸多优势,但也面临一些挑战。

首先,HMM对语音信号的时序特征建模依赖于输入特征的选择和提取,不同的特征选择可能导致不同的识别效果。

其次,HMM需要大量的训练数据来进行模型训练,对于某些语音信号稀缺的情况,模型的准确性可能受到限制。

此外,HMM在处理较长的语音信号时,容易出现状态爆炸的问题,需要对模型进行优化和简化。

HMM在语音识别中的应用HMM在语音识别中被广泛应用于语音识别、语音合成、语音识别系统评价等多个方面。

在语音识别中,HMM可以用来建模语音信号的时序特征,通过对语音信号的建模和对比,实现对语音信号的识别和理解。

在语音合成中,HMM可以用来生成自然流畅的语音合成,通过对模型参数的调整和优化,实现高质量的语音合成。

在语音识别系统评价中,HMM可以用来评估不同语音识别系统的性能,通过对比实际识别结果和系统预测结果,评估系统的准确性和鲁棒性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

HMM 在语音识别系统中的应用苗 苗,马海武(西安建筑科技大学信息与控制工程学院 陕西西安 710061)摘 要:介绍语音识别技术的应用状况与发展,对基于动态时间伸缩技术、隐含马尔科夫模型及人工神经网络的3种不同的语音识别系统进行了比较,重点介绍了隐含马尔科夫模型(HMM )在语音识别系统中的应用。

其中基于HMM 的语音识别系统是在UniSpeech 芯片上实现基于D HMM 的识别系统,然后又在同一平台上实现了基于CHMM 的识别系统。

关键词:隐马尔科夫模型;语音识别;动态时间伸缩技术;人工神经网络中图分类号:TN912.34 文献标识码:B 文章编号:1004373X (2006)1606403Application of H MM in Automatic Speech R ecognition SystemMIAO Miao ,MA Haiwu(Information and Control Engineering School ,Xi ′an University of Architecture &Technology ,Xi ′an ,710061,China )Abstract :The passage introduces the condition and development of speech recognition technology ,compares three different kinds of speech recognition systems ,such as D TW ,HMM ,ASR ,and place emphasis on how to use HMM in this system.In this passage ,this automatic speech recognition system using HMM can achieve D HMM and CHMM on this UniSpeech chip.K eywords :Hidden Markov Model (HMM );Automatic Speech Recognition (ASR );Dynamic Time Warping (D TW );Artifi 2cial Neural Network (ANN )收稿日期:200602281 引 言语音识别技术是2000~2010年间信息技术领域十大重要的科技发展技术之一。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。

语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

语音识别ASR (AutomaticSpeech Recognition )系统的实用化研究是近十年语音识别研究的一个主要方向。

计算机语音识别过程与人对语音识别处理过程基本上是一致的。

目前主流的语音识别技术是基于统计模式识别的基本理论。

一个完整的语音识别系统可大致分为3部分:(1)语音特征提取其目的是从语音波形中提取随时间变化的语音特征序列。

(2)声学模型与模式匹配(识别算法)声学模型通常将获取的语音特征通过学习算法产生。

在识别时将输入的语音特征与声学模型(模式)进行匹配与比较,得到最佳的识别结果。

(3)语言模型与语言处理语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。

对小词表语音识别系统,往往不需要语言处理部分。

2 语音识别系统比较以下就目前基于整词模型的语音识别的主要技术做一比较。

(1)基于D TW (Dynamic Time Warping )和模拟匹配技术的语音识别系统。

目前,许多移动电话可以提供简单的语音识别功能,甚至使用D TW 和模板匹配技术。

D TW 和模板匹配技术直接利用提取的语音特征作为模板,能较好地实现孤立词识别。

由于D TW 模版匹配的运算量不大,并且限于小词表,一般的应用领域孤立数码、简单命令集、地名或人名集的语音识别。

为减少运算量大多数使用的特征是L PCC (Linear Predictive Cepstrum Co 2efficient )运算。

D TW 和模板匹配技术的缺点是只对特定人语音识别有较好的识别性能,并且在使用前需要对所有词条进行训练。

这一应用从20世纪90年代就进入成熟期。

目前的努力方向是进一步降低成本、提高稳健性(采用双模板)和抗噪性能。

(2)基于隐含马尔科夫模型HMM (Hidden Markov Model )的识别算法。

这是Rabiner 等人在20世纪80年代引入语音识别领域的一种语音识别算法。

该算法通过对大量语音数据进行数据统计,建立识别条的统计模型,然后从待识别语音中提取特征,与这些模型匹配,通过比较46多媒体技术苗 苗等:HMM 在语音识别系统中的应用匹配分数以获得识别结果。

通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中的各种突发情况。

因此,HMM算法具有良好的识别性能和抗噪性能。

基于HMM技术的识别系统可用于非特定人,不需要用户事先训练。

他的缺点在于统计模型的建立需要依赖一个较大的语音库。

这在实际工作中占有很大的工作量。

且模型所需要的存储量和匹配计算(包括特征矢量的输出概率计算)的运算量相对较大,通常需要具有一定容量SRAM的DSP才能完成。

(3)人工神经网络ANN(Artificial Neural Network)。

ANN在语音识别领域的应用是在20世纪80年代中后期发展起来的。

其思想是用大量简单的处理单元并行连接构成一种信息处理系统。

这种系统可以进行自我更新,且有高度的并行处理及容错能力,因而在认知任务中非常吸引人。

但是ANN相对于模式匹配而言,在反映语音的动态特性上存在重大缺陷。

单独使用ANN的系统识别性能不高,所以目前ANN通常在多阶段识别中与HMM算法配合使用。

3 基于H MM的语音识别系统下面详细介绍基于HMM的语音识别系统。

首先在UniSpeech芯片上实现基于D HMM的识别系统,然后又在同一平台上实现基于CHMM的识别系统。

3.1 前端处理语音的前端处理主要包括对语音的采样、A/D变换、分帧、特片提取和端点检测。

模拟语音信号的数字化由A/D变换器实现。

ADC集成在片内,他的采样频率固定为8k Hz。

特征提取基于语音帧,即将语音信号分为有重叠的若干帧,对每一帧提取一次语音特片。

由于语音特征的短时平稳性,帧长一般选取20ms左右。

在分帧时,前一帧和后一帧的一部分是重叠的,用来体现相邻两帧数据之间的相关性,通常帧移为帧长的1/2。

对于本片上系统,为了方便做FF T,采用的帧长为256点(32ms),帧移为128点(16ms)。

特征的选择需要综合考虑存储量的限制和识别性能的要求。

在D HMM系统中,使用24维特征矢量,包括12维MFCC(Mel Frequency Cepstrum Coefficient)和12维一阶差分MFCC;在CHMM系统中,在D HMM系统的基础上增加了归一化能量、一阶差分能量和二阶差分能量3维特征,构成27维特征矢量。

对MFCC和能量分别使用了倒谱均值减CMS(Cepstrum Mean Subtraction)和能量归一化ENM(Energy Normalization)的处理方法提高特征的稳健性。

3.2 声学模型在HMM模型中,首先定义了一系列有限的状态S1,…,S N,系统在每一个离散时刻n只能处在这些状态当中的某一个Xn。

在时间起点n=0时刻,系统依初始概率矢量π处在某一个状态中,即:πi=P{X0=S i},i=1,…,N 以后的每一个时刻n,系统所处的状态Xn仅与前一时刻系统的状态有关,并且依转移概率矩阵A跳转,即:A ij=P{X n=S j|X n-1=S i},n≥1,i,j=1,…,N且满足∑Nj=1A ij=1 系统在任何时刻n所处的状态X n隐藏在系统内部,并不为外界所见,外界只能得到系统在该状态下提供的一个Rq空间随机观察矢量O n。

O n的分布B称为输出概率矩阵,只取决于X n所处状态:P xn=S i{O n}=P{O n|S i} 因为该系统的状态不为外界所见,因此称之为“隐含马尔科夫模型”,简称HMM。

在识别中使用的随机观察矢量就是从信号中提取的特征矢量。

按照随机矢量Q n的概率分布形时,其概率密度函数一般使用混合高斯分布拟合。

p{X n=S i,O n=Y}=∑Mm=1C m×N(μm,σ2m) 其中,M为使用的混合高斯分布的阶数;Cm为各阶高斯分布的加权系数。

此时的HMM模型为连续HMM模型(Continuous density HMM),简称CHMM模型。

在本识别系统中,采用整词模型,每个词条7个状态同,包括首尾各一个静音状态;每个状态使用7阶混合高斯分布拟合。

CHMM识别流程如图1所示。

图1 CHMM识别流程由于CHMM模型的复杂性,也可以假定On的分布是离散的。

通常采用分裂式K Mean算法得到码本,然后对提取的特征矢量根据码本做一次矢量量化VQ(Vector Quantization)。

这样特征矢量的概率分布上就简化为一个离散的概率分布矩阵,此时的HMM模型称为离散HMM模型(Discrete density HMM),简称D HMM模型。

本D HMM识别系统使用的码本大小为128。

D HMM识别流程如图2所示。

D HMM虽然增加了矢量量化这一步骤,但是由于简化了模型的复杂度,从而减少了占用计算量最大的匹配计算。

当然,这是以牺牲一定的识别性能为代价。

在所开发的硬件平台上完成了基于D HMM和56《现代电子技术》2006年第16期总第231期 嵌入式与单片机CHMM 的识别系统。

通过比较发现,对于嵌入式平台而言,实现CHMM 识别系统的关键在于芯片有足够运算太多的增加。

因为词条模型存储在ROM 中,在匹配计算时是按条读取的。

图2 D HMM 识别流程3.3 识别性能使用该识别算法分别对11词的汉语数码和一个59词的命令词集做了实际识别测试,识别率令人非常满意,如表1所示。

表1 汉语数码识别率D HMMCHMM 特征矢量维数2427识别率93.40%98.28%识别速度(11词)10ms 50ms 模型大小(1个词条)1.5kB <5.5kB码本6kB无对于59词命令词集的识别,还增加了静音模型。

由于基线的识别率已经很高,所以静音模型的加入对于识别率的进一步提高作用不大,如表2所示。

但静音模型的加入可以降低对端点判断的依赖。

这在实际使用中对系统的稳健性有很大的提高。

相关文档
最新文档