基于离散隐马尔科夫模型的语音识别技术

合集下载

马尔可夫模型在语音识别中的应用技巧

马尔可夫模型在语音识别中的应用技巧一、马尔可夫模型介绍在讨论马尔可夫模型在语音识别中的应用技巧之前，我们先来了解一下马尔可夫模型的基本概念。

马尔可夫模型是一种描述随机过程的数学模型，其特点是当前状态只与前一个状态有关，与更早的状态无关。

这种特性使得马尔可夫模型在语音识别中有着广泛的应用。

二、语音信号的特点语音信号是一种时间序列信号，具有瞬时性、时变性和非线性等特点。

这就给语音识别带来了一定的挑战，需要一个有效的模型来描述和识别语音信号。

马尔可夫模型正是能够很好地满足这一需求的模型之一。

三、马尔可夫模型在语音识别中的应用1. 隐马尔可夫模型（HMM）隐马尔可夫模型是马尔可夫模型的一种扩展，它引入了观测变量和隐藏状态，常用于语音识别领域。

在语音识别中，语音信号被看作是一个观测序列，而隐藏状态则对应着语音信号的语音单元（如音素、词等）。

利用HMM模型，可以对语音信号进行建模和识别，进而实现语音识别的功能。

2. 马尔可夫链马尔可夫链是指满足马尔可夫性质的随机序列，其状态空间和状态转移概率决定了整个链的特性。

在语音识别中，可以利用马尔可夫链来建模语音信号的时序特性，从而实现对语音信号的自动识别和分析。

3. 马尔可夫模型参数估计在实际应用中，马尔可夫模型的参数估计是一个关键的问题。

通过对观测序列进行训练，可以估计出模型的状态转移概率、观测概率等参数，从而使得模型能够更好地适应实际的语音信号。

参数估计的准确性对于语音识别的性能有着重要的影响，因此需要运用合适的算法和技巧来进行参数估计。

四、马尔可夫模型在语音识别中的技巧与挑战1. 模型的复杂度语音信号具有高度的时变性和非线性特性，这就要求马尔可夫模型在描述语音信号时能够充分考虑到这些特点。

因此，需要不断提高模型的复杂度和灵活性，以使其能够更好地适应不同类型的语音信号。

在实际应用中，需要通过合理的方法来平衡模型的复杂度和准确性。

2. 数据的准备与处理语音识别的应用通常需要大量的训练数据，而且这些数据需要经过一定的预处理和特征提取。

马尔可夫过程在人工智能中的应用

马尔可夫过程在人工智能中的应用随着人工智能在各个领域的普及和进步，马尔可夫过程越来越被广泛应用。

马尔可夫过程是一种重要的概率模型，它通常用来描述某个系统中状态的转移过程。

在人工智能领域，马尔可夫过程被应用于语音识别、机器翻译、自然语言处理等多个方面。

一、马尔可夫过程在语音识别中的应用语音识别是指将人的语音信号转换为机器可读的文本或指令。

马尔可夫过程在语音识别中的应用通常为“隐马尔可夫模型（HMM）”。

HMM是一种用于建模时间序列数据的统计模型，它可以捕捉语音信号的时间序列特征和状态转移特性。

HMM由观测序列和隐藏状态序列组成，观测序列是样本信号，隐藏状态序列是用来描述该信号的文本或指令。

通过HMM模型，就可以将连续的语音信号序列转换为离散的文本序列。

二、马尔可夫过程在机器翻译中的应用机器翻译是指将一种自然语言翻译成另一种自然语言的技术。

马尔可夫过程在机器翻译中的应用通常为“统计机器翻译（SMT）”。

SMT是一种基于概率模型的翻译方法，它借助大量的平行语料库，并使用语言模型、翻译模型和调序模型等，利用文本之间的相似性和规律性进行翻译。

其中，翻译模型采用马尔可夫过程建模，将翻译任务分解成一系列状态转移过程，并估计转移概率和发射概率等参数。

通过SMT模型，就可以实现不同自然语言之间的互相翻译。

三、马尔可夫过程在自然语言处理中的应用自然语言处理是指将自然语言转换为计算机可处理的形式，通常包括文本分类、情感分析、实体识别等多个任务。

马尔可夫过程在自然语言处理中的应用通常为“条件随机场（CRF）”。

CRF是一种基于马尔可夫过程的图模型，它建立在有向无环图上，通过对序列特征的建模，将一系列观测序列转化为一系列输出标签。

CRF不仅可以捕捉文本间的上下文关系，还可以利用输入特征进行模型优化。

综上所述，马尔可夫过程在人工智能中的应用逐渐被广泛认可和应用。

HMM、SMT、CRF等算法在语音识别、机器翻译和自然语言处理等方面都有非常成功的应用案例，他们在提高机器处理语言的准确性、效率和质量方面，具有非常重要的作用。

隐马尔可夫模型在语音识别中的应用

隐马尔可夫模型在语音识别中的应用隐马尔可夫模型（Hidden Markov Model，简称HMM）是一种强大的统计工具，主要用于序列数据的建模和分析。

语音是一种典型的序列数据，因此HMM在语音识别中有着广泛的应用。

本文将就HMM在语音识别中的各种应用进行详细介绍。

一、HMM模型HMM是一种统计模型，它可以描述一个由有限个状态（state）组成的随机过程（process），该过程的状态是非观测的，而只有通过一些不完全（incomplete）可观测的随机变量（observation）来观测该过程。

HMM模型由三个部分组成：状态集合、观测集合和参数集合。

其中，状态集合和观测集合是已知的，参数集合包括状态转移概率、发射概率和初始概率。

在语音识别中，HMM通常被用来表示语音的声学性质。

每个状态对应于一个语音音素（phoneme），而每个观测向量对应于一个声学特征向量。

通常使用高斯混合模型（GMM）来建模每个状态发射概率。

由于一个语音序列对应于一个状态序列和一个观测序列，因此可以通过基于HMM的Viterbi算法来计算最可能的状态序列，从而实现语音识别。

二、基于HMM的语音识别基于HMM的语音识别可以分为三个主要步骤：训练、解码和评估。

1. 训练训练是基于HMM的语音识别的重要步骤，它用于估计HMM模型的参数。

训练过程由两个部分组成：第一部分是初始化，第二部分是迭代优化。

初始化：初始化包括确定状态集合、观测集合和参数集合。

通常情况下，状态集合与待识别的音素集合相对应，而观测集合包括语音的声学特征向量。

初始参数一般采用随机初始化，或者通过聚类方法从数据中提取初始参数。

迭代优化：优化通常采用Baum-Welch算法（也称为EM算法），该算法用于最大化模型似然函数。

Baum-Welch算法是一种迭代算法，迭代过程中会反复运用E步骤和M步骤。

在E步骤中，HMM模型会被使用来计算当前状态概率分布。

在M步骤中，HMM模型会根据已知状态分布和观测数据来更新模型参数。

隐马尔科夫模型在语音识别中的应用(八)

隐马尔科夫模型在语音识别中的应用隐马尔科夫模型（Hidden Markov Model，HMM）是一种非常重要的统计模型，它被广泛应用于语音识别、手写识别、生物信息学等领域。

其中，HMM在语音识别领域的应用尤为突出。

本文将从HMM的基本原理、语音识别中的应用及未来发展方向等方面进行探讨。

HMM的基本原理首先，我们来简要介绍一下HMM的基本原理。

HMM是一种用于对观测序列进行建模的统计模型。

它的基本假设是，观测序列的生成过程是由一个不可见的马尔科夫链控制的，并且每个状态生成一个观测值。

在语音识别中，观测序列就是语音信号，而马尔科夫链的状态则对应着语音信号中的音素、音节或单词等。

因此，利用HMM可以对语音信号进行建模，并用于语音识别任务。

语音识别中的应用HMM在语音识别中扮演着重要的角色。

首先，HMM可以用于语音信号的特征提取和建模。

语音信号通常是高度抽象和非结构化的，要提取出有用的特征并建立模型是十分困难的。

而HMM可以很好地对语音信号进行建模，提取出语音信号的特征，从而为后续的语音识别任务提供支持。

其次，HMM也可以用于语音信号的识别和分析。

在语音识别任务中，我们需要将语音信号转换成文本或命令。

HMM可以对语音信号进行建模，并根据模型对语音信号进行识别和分析，从而实现语音识别的任务。

未来发展方向随着深度学习和人工智能等技术的发展，HMM在语音识别中的应用也在不断发展和完善。

未来，我们可以期待HMM与深度学习等技术的结合，以进一步提高语音识别的准确性和性能。

同时，HMM在语音合成、语音情感识别、多语种语音识别等方面也有着广阔的应用前景。

结语总之，HMM在语音识别中扮演着至关重要的角色。

它不仅可以用于语音信号的特征提取和建模，还可以用于语音信号的识别和分析。

未来，随着技术的不断发展，我们可以期待HMM在语音识别领域发挥出更大的作用。

希望本文能够对读者对HMM在语音识别中的应用有所了解。

隐马尔可夫模型在语音识别中的应用

隐马尔可夫模型在语音识别中的应用隐马尔可夫模型（Hidden Markov Model，简称HMM）是一种统计模型，常被用于序列数据的建模与分析。

其在语音识别领域有着广泛的应用。

本文将介绍隐马尔可夫模型在语音识别中的原理及应用。

一、引言语音识别是指将人类的语音信息转换为可识别的文字信息的技术。

在实际应用中，语音识别已经被广泛应用于语音助手、语音控制、语音转写等方面，极大地方便了人们的生活。

隐马尔可夫模型作为一种概率模型，其可以对语音信号进行建模与分析，为语音识别提供了有效的方法。

二、隐马尔可夫模型的基本原理隐马尔可夫模型由状态序列和观测序列组成。

状态序列是隐藏的，观测序列是可见的。

在语音识别中，状态序列可以表示语音信号的音素序列，观测序列表示对应的声音特征序列。

隐马尔可夫模型的基本原理可以归纳为三个概率：初始状态概率、状态转移概率和观测概率。

1. 初始状态概率：表示隐马尔可夫模型在时刻t=1时各个状态的概率分布。

在语音识别中，初始状态概率可以表示为开始语音的各个音素出现的概率分布。

2. 状态转移概率：表示隐马尔可夫模型从一个状态转移到另一个状态的概率分布。

在语音识别中，状态转移概率可以表示为音素之间转移的概率。

3. 观测概率：表示隐马尔可夫模型从某个状态生成观测值的概率分布。

在语音识别中，观测概率可以表示为某个音素对应的声音特征序列的概率。

三、隐马尔可夫模型在语音识别中的应用1. 语音识别过程在语音识别中，首先需要通过语音信号提取声音特征序列，例如梅尔倒谱系数（MFCC），线性预测编码（LPC）等。

然后，利用隐马尔可夫模型进行声音特征序列与音素序列之间的对齐操作，找到最可能匹配的音素序列。

最后，通过后处理算法对音素序列进行连续性约束等处理，得到最终的识别结果。

2. 训练过程隐马尔可夫模型的训练过程主要包括参数估计和模型训练两个步骤。

参数估计是指根据给定的语音和标签数据，通过最大似然估计等方法，估计模型的参数。

隐马尔可夫模型在语音识别中的应用

隐马尔可夫模型在语音识别中的应用一、引言隐马尔可夫模型（Hidden Markov Model，HMM）是一种基于概率统计的模型，由于其灵活性、通用性和有效性，使其成为自然语言处理、语音识别等领域中重要的工具之一。

语音识别是指通过计算机对语音信号进行处理和分析，从而转换成文本的过程。

本文将探讨隐马尔可夫模型在语音识别中的应用，以及其在该领域中的局限性和发展方向。

二、隐马尔可夫模型的原理隐马尔可夫模型是一种马尔可夫过程，其特点是其状态不是直接观察到的，而是通过观察到的输出来间接推断。

其由状态转移概率矩阵A、观测概率矩阵B和初始状态概率向量π三部分组成。

1.状态转移概率矩阵A状态转移概率矩阵A表示从一个状态转移到另一个状态的概率。

设隐马尔可夫模型中有N个状态，状态集合为{S1,S2,...,SN}，则状态转移概率矩阵A为：A=[aij]N×N其中，aij表示从Si转移到Sj的概率。

2.观测概率矩阵B观测概率矩阵B表示在某个状态下产生某个观测值的概率。

设观测值的集合为{O1,O2,...,OM}，则观测概率矩阵B为：B=[bj(k)]N×M其中，bj(k)表示在状态Sj下，观察到Ok的概率。

3.初始状态概率向量π初始状态概率向量π表示模型从某个状态开始的概率分布。

设初始状态的集合为{S1,S2,...,SN}，则π为：π=[π1,π2,...,πN]其中，πi表示从状态Si开始的初始概率。

三、隐马尔可夫模型在语音识别中的应用在语音识别中，隐马尔可夫模型被广泛应用，其主要应用场景包括：1.语音信号的建模在语音识别中，将语音信号建模为声学特征流是一个核心问题。

而声学特征流是通过将语音信号划分为小时间窗进行采样获得的。

在隐马尔可夫模型中，状态对应着声学特征流的各个时间窗，而观测值则对应着该时间窗的声学特征。

因此，通过隐马尔可夫模型对声学特征流进行建模，可以从语音信号中提取出关键的声学特征，并进行语音识别。

隐马尔可夫模型算法及其在语音识别中的应用

隐马尔可夫模型算法及其在语音识别中的应用隐马尔可夫模型（Hidden Markov Model，HMM）算法是一种经典的统计模型，常被用于对序列数据的建模与分析。

目前，在语音识别、生物信息学、自然语言处理等领域中，HMM算法已经得到广泛的应用。

本文将阐述HMM算法的基本原理及其在语音识别中的应用。

一、HMM算法的基本原理1.概率有限状态自动机HMM算法是一种概率有限状态自动机（Probabilistic Finite State Automata，PFSA）。

PFSA是一种用于描述随机序列的有限状态自动机，在描述序列数据的时候可以考虑序列的概率分布。

PFSA主要包括以下几个部分：（1）一个有限状态的集合S={s_1,s_2,…,s_N}，其中s_i表示第i个状态。

（2）一个有限的输出字母表A={a_1,a_2,…,a_K}，其中a_i表示第i个输出字母。

（3）一个大小为N×N的转移概率矩阵Ψ={ψ_ij}，其中ψ_ij表示在状态s_i的前提下，转移到状态s_j的概率。

（4）一个大小为N×K的输出概率矩阵Φ={φ_ik}，其中φ_ik 表示在状态s_i的前提下，输出字母a_k的概率。

2. 隐藏状态在HMM中，序列的具体生成过程是由一个隐藏状态序列和一个观测序列组成的。

隐藏状态是指对于每个观测值而言，在每个时刻都存在一个对应的隐藏状态，但这个隐藏状态对于观测者来说是不可见的。

这就是所谓的“隐藏”状态。

隐藏状态和观测序列中的每个观测值都有一定的概率联系。

3. HMM模型在HMM模型中，隐藏状态和可观察到的输出状态是联合的，且它们都服从马尔可夫过程。

根据不同的模型，HMM模型可以划分为左-右模型、符合模型、环模型等。

其中最常见的是左-右模型。

在这种模型中，隐藏状态之间存在着马尔可夫链的转移。

在任何隐藏状态上，当前状态接下来可以转移到最多两个状态：向右移动一格或不变。

4. HMM的三个问题在HMM模型中，有三个基本问题：概率计算问题、状态路径问题和参数训练问题。

基于隐马尔可夫模型的机器翻译研究

基于隐马尔可夫模型的机器翻译研究机器翻译是一项依赖于计算机技术的研究，旨在将一种自然语言（源语言）转换成另一种自然语言（目标语言）。

随着人工智能技术的日益发展，机器翻译技术不断完善，其应用领域也越来越广。

与传统的基于规则和统计分析的机器翻译方法相比，基于隐马尔可夫模型（Hidden Markov Model，HMM）的机器翻译方法在语音识别、自然语言处理等领域具有广泛的应用前景。

一、HMM的基本原理HMM是一种基于概率模型的非监督学习算法，是统计机器学习中的经典算法之一。

它被广泛应用于语音识别、文本分类、自然语言处理等领域。

HMM模型由初始概率分布、状态转移概率矩阵、状态观测概率矩阵三部分组成。

假设一个序列的每一个元素到底处于哪一个状态是未知的，仅知道每个状态发射对应观测值的概率。

HMM的目标是根据观测序列，推断出最有可能的隐含状态序列。

这个过程被称为解码。

二、HMM在机器翻译中的应用随着人们生活方式的改变和经济全球化的发展，人们在跨文化交流和国际贸易中越来越需要进行语言翻译。

机器翻译技术的发展不断推动着这项工作的进步。

基于HMM的机器翻译使用的是隐含语言模型，它能够学习源语言和目标语言之间的映射关系，从而实现准确、高速的机器翻译。

HMM作为一种基本的语音识别算法，最早被应用于机器翻译中的语音翻译问题。

由于语音翻译涉及到多个层面的信息，包括声音、语法、词法和语义等方面，所以使用HMM将声学模型和语言模型进行结合，可以有效地提高翻译的准确性。

三、HMM机器翻译技术的优缺点基于HMM的机器翻译技术，虽然能够有效地提高翻译的准确性，但也存在一些不足之处。

比如说，HMM是一种传统方法，它对于长句和复杂句子的处理效果并不好。

此外，HMM模型需要存储大量的概率矩阵，计算速度相对较慢，同时需要大量的训练数据。

不过，尽管存在这些缺点，基于HMM的机器翻译技术仍然具有其独特的优点。

HMM能够精确地识别语音，在音信号处理方面有着广泛的应用。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第 2期
高清伦等 :基于离散隐马尔科夫模型的语音识别技术
9
库之间的相似度 (如匹配距离、似然概率 ) ,判断出输入语音的语意信息 ,得到最佳的识别结果 [4] 。
( 3 )参考模式库在识别之前首先建立参考模式库 ,通过讲话者多次重复语音 ,从原始语音样本中去除冗余信息 ,保留关键数据 ,再按照一定规则对数据加以聚类 ,形成模式库。
=
ν m
(观察
码字 , m = 1, 2, …M ) ( M 时观察矢量 y的维数 )
Ne twork )的识别算法神经网络的概念也已经被应用于语音识别中 ,其中最有效的一种方法是使用多层神经网络 , 不同层之间的神经元通过一定的加权系数相互连接 ,这些加权系数可以在训练中进行学习 ,每一个神经元对所有输入进行读取 ,然后把结果传给下一层的神经网节点上。神经网络的主要缺点是不容易解决时间轴动态归一化问题 ,目前主要用于小词汇量的语音识别系统中。
前向概率的递推公式为 :
L
∑ α n
(
j)
=
α A n +1 ij bj ( yn ) ( j = 1, 2, …L )
(1)
i =1
后向概率的递推公式为 :
L
∑ β n
(
j)
=
β A n +1 ij bj ( yn +1 ) ( j = 1, 2, …L ) ( 2)
i =1
3. 4. 2 参数 A 的估计
2 语音识别三种主流技术比较
2. 1 基于动态时间规整 D TW ( D ynam ic T im e W arp ing)的识别算法
DTW 和模板匹配技术直接利用提取的语音特征作为模板 ,此算法从 20世纪 90年代就进入成熟期 ,其应用动态规划方法成功解决了语音信号特征参数序列比较时长不等的难题 ,在孤立词语语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统 ,目前已被 HMM 模型所取代。 2. 2 基于隐马尔科夫模型 HMM ( H idden
语音识别技术是语音信号处理技术一个重要的研究方向 ,是让机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术 , 它属于多维模式识别和智能计算机接口的范畴 , 涉及到声学、语音学、语言学、计算机科学、信号与信息处理和人工智能等诸多学科 ,是 21世纪衡量一个国家信息科学技术发展水平的重要标准之一。
使用观察值序列调整模型参数称为一个训练过程。训练问题是一个非常重要的问题 ,因为它可以使模型参数最为理想地适应所观察到的训练数据。由生成的 VQ 码本将训练集中的各个矢量序列量化为观察值符号序列 ,最后由 Baum 2W elch 算法训练出离散的 HMM , 并把 VQ 码本和离散 HMM (记为 λν )都训练并存储起来。 3. 4. 1 前向、后向概率
图 1 语音识别系统基本结构
( 2 )模式匹配这是整个语音识别系统的核心 ,它是根据一定规则 (如 HMM )以及专家知识 (如构词规则、语法规则、语义规则等 ) ,计算输入特征与参考模式
3收稿日期 : 2007 - 01 - 26 作者简介 :高清伦 (1976 - ) ,男 ,河北沧州人 ,硕士 ,主要从事信息工程理论应用方面的研究.
高清伦 ,谭月辉 ,王嘉祯
(军械工程学院计算机工程系 , 河北石家庄 050003)
摘要 :概述语音识别技术的基本原理 ,对当前三种主要识别技术 ———动态时间规整技术、隐含马尔科夫模型
技术及人工神经网络技术进行比较 ,重点介绍基于离散隐马尔科夫模型 (DHMM )的语音识别系统的实现。
关键词 :语音识别 ;隐马尔科夫模型 ;动态时间规整 ;人工神经网络
M arkov M odel)的识别算法 HMM 方法现已成为语音识别的主流技术 ,目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于 HMM 的。 HMM 算法很好地描述了语音信号的整体非平稳性和局部平稳性 ,是较为理想的一种语音识别模型。不足之处在于统计模型的建立需要依赖一个较大的语音库 ,这在实际工作中占有很大的工作量 ,且模型所需要的存储量和匹配计算 (包括特征矢量的输出概率计算 )的运算量相对较大。 2. 3 基于人工神经网络 ANN ( Artif ic ia l Neura l
(4)
∑a1 ( i)β1 ( i)
i =1Βιβλιοθήκη 3. 4. 4 参数 B 的估计
N
∑ an ( j)βn ( j)
′ b = n =1∶yn =νm
jm
N
∑an ( j)βn ( j)
n =1
( j = 1, 2, …L ) (5)
(m = 1, 2, …M ) (M 为观察矢量 y 的维数 )
其中分子表示只对当前观察矢量 yn
理论上讲 ,状态数是越多越好 ,这是因为随着状态数的增加 ,识别的错误率会降低到一个很稳定的程度 ,然而由于训练样本是有限的 ,所以状态数 N 不能太大 ,如果实验中 N 取的过大 ,则训练后很多状态在参数 λ = (π, A, B ) 对应项中为 0
10
河北省科学院学报
2007年第 24卷
M
∑bj ( k) = 1 ,其中 M 为编码符号集中符号的总
k =1
数 ,通常采用 K2Mean算法得到码本 ,然后对提取的特征矢量根据码本做一次矢量量化 VQ (Vector Quantization) ,此时 , M 就是码本的大小 [ 1 ] 。 3. 1 前端处理
语音的前端处理主要包括对语音的采样、
第 24卷第 2期 2007年 6月
河北省科学院学报 Journal of the Hebei Academy of Sciences
3 文章编号 : 1001 - 9383 (2007) 02 - 0008 - 04
Vol. 24 No. 2 June 2007
基于离散隐马尔科夫模型的语音识别技术
3 基于离散马尔科夫模型识别系统的实现
HMM 是一组用参数表示的 ,用于描述随机过
程统计特性的概率模型 ,它是由马尔科夫链演变来的。在语音识别领域中所指的随机过程 ,一般都是有限长的随机序列 ,统称观察序列 ,记为 O = ( o1 , o2 , …oT ) 。一个有 N 个状态 (记为 s1 , s2 , …sN )的 HMM 可用三元组参数 λ = (π, A, B ) 表示。其中 π = (π1 ,π2 , …,πN ) 为初始分布矢量 , 用于描述观察序列 O 在 t = 1时刻所处的状态。A 为状态转移概率分布 , A ij = { aij | i, j = 1, 2, …N } 为状态转移概率矩阵 ,其元素 aij 是指 t时刻状态为 Si ,而在 t + 1时刻转移到状态 Sj 的概率 ,即 A
或者非常接近于 0,成为冗余项 ,实验中的状态数按其复杂程度固定为从 3 到 8 不等的数目。本 DHMM 识别系统采用的状态数为 6。 3. 3 D HMM 的 VQ码本形成
离散型 HMM ,其每一个状态的输出概率是按照观察字符离散分布的 ,每一次转移是状态输出的字符 ,是从一个有限的离散字符集中按照一定的离散概率密度分布选出来的。在语音处理中 , 语音信号先被分割成若干帧 ,每帧求取一个特征参数向量 ,即每帧用一个参数向量表示 ,并需要将语音特征参数向量的时间序列进行矢量量化 (VQ ) ,通过矢量量化使每一帧语音信号由特征参数向量表示转变为用码字符号表示的形式 ,由于矢量量化技术在离散 HMM 中的应用 ,必然引入量化误差 ,降低了系统的识别率 ,但此方法简化了模型和复杂度 ,计算量小 ,便于实时实现。[ 3 ]码本容量的大小直接关系到输入矢量同量化后输出矢量畸变的程度 ,码本容量越大平均失真越小 ,但当码本容量增大到一定程度时 ,失真度减小非常缓慢 ,但存储量和搜索所需的计算量大大增加 ,目前常用的容量值一般取为 64, 128 或 256。本 DHMM 识别系统使用的码本大小为 128。 3. 4 参数模型的获取 ———D HMM 的训练
1 语音识别技术概述
语音识别系统本质上是一种模式识别系统 , 目前有很多语音识别算法 ,但其基本原理和基本技术相似。一个完整的语音识别系统一般都包括有特征提取、模式匹配和参考模式库 3 个基本单元 ,它的基本结构如图 1所示。
( 1 )特征提取所谓特征提取就是从语音信号中提取用于语
音识别的有用信息 ,其基本思想是将预处理过的信号通过一次变换 ,去掉冗余部分 ,而把代表语音本质特征的参数抽取出来 ,如平均能量、平均跨零率、共振峰、LPC系数、M FCC系数等。
中图分类号 : TN912. 34
文献标识码 : A
Speech recogn ition technology ba sed on d iscrete HMM
GAO Q ing2lun, TAN Yue 2hu i,WAN G J ia 2zhe n
(D epa rtm ent of Com pu ter Eng ineering, O rdnance Eng ineering College, Sh ijiazhuang Hebei 050003, Ch ina)
Abstract: The condition and the basic p rincip le of speech recognition technology are introduced, three differ2 ent kinds of speech recognition system s such as DTW , HMM , ASR are compared, and p lace emphasis on how to realize DHMM in speech recognition system is p resented emphatically. Keywords: Speech recognition; H idden M arkov Model ( HMM ) ; Dynam ic Time W arp ing (DTW ) ; A rtificial Neural Network (ANN )