HMM语音识别例子

合集下载

语音识别模型及其应用研究

语音识别模型及其应用研究

语音识别模型及其应用研究近年来,随着人工智能技术的发展和普及,语音识别技术受到了广泛的关注和应用,尤其在智能家居、智能客服、语音搜索等领域得到了广泛应用。

本文将从语音识别技术的原理、模型及其应用研究等方面进行探讨,希望能给读者带来一些启发和帮助。

一. 语音识别技术原理语音识别技术是指通过计算机系统实现对人类语音信号的自动识别和转录。

它包括进行信号预处理、特征提取和声学模型匹配等处理过程。

具体来说,它需要通过录音设备采集语音信号,并将其转化成一个数字信号。

然后,通过一系列算法处理数字信号,获得语音信号的特征向量。

最后,通过声学模型对特征向量进行匹配,得到相应的文字输出。

二. 语音识别模型1. 隐马尔可夫模型(HMM)隐马尔可夫模型(HMM)是一种常见的语音识别模型。

它通过对声学特征的建模,将语音信号分解成小的时间区间,称为帧。

每一帧被视为是某个隐藏状态的实现。

这些隐藏状态组成了HMM 的状态序列,可以通过Viterbi算法进行计算。

通过优化HMM的参数和模型结构,可以提高语音识别的准确度和鲁棒性。

2. 深度神经网络(DNN)深度神经网络(DNN)是在语音识别中近年来出现的一种新的模型。

它将输入的声学特征映射到一个高维空间中,然后通过多个隐藏层的非线性变换将其映射到最终输出。

DNN模型可以通过大规模语音数据的训练来提高识别准确率和鲁棒性。

3. 卷积神经网络(CNN)卷积神经网络(CNN)是一种常用的神经网络,在语音识别模型中也得到了广泛应用。

它通过多个卷积层和池化层来学习输入特征的不同尺度和抽象层次表达,从而提高语音识别的准确度和鲁棒性。

三. 语音识别应用研究1. 智能家居智能家居是指通过语音识别技术实现对家庭设备和家庭环境的智能控制和监控。

例如,用户可以通过语音命令控制灯光、空调、电视等设备的开关和模式。

此外,智能家居还可以通过语音识别技术实现家庭安防与环境监控。

例如,用户可以通过语音识别技术实现门禁系统的身份认证和安防监控。

各种形式的HMM模型

各种形式的HMM模型
河海大学硕士学位论文
基于 A R M 技术的语音识别研究
M 于是可以把H M 看作一个五元素组) , = ( N , M,二 , A . B ) 。 其中N , M描 述了H M M的 规 模, 而7 r , A . B l i 6 l 描述了H M M的 统计 特征。 所以 可以 用k = ( 二 , A , B ) 对于语音识别用的H MM也可以用这三个模型参数来表示。 H M M分为两个部分:一部分是马尔可夫链,由二 、 A来描述,产生的输出 为状态序列;另外一 部分是一个随机过程,由 B来描述, 产生的输出为观察值
序列。
3 . 2 . 2各种形式的H MM 模型
H MM有很多结构,并且有不同的分类方法。根据不同的实际需要,选择不 同的类型 I M M 模型: 一、按照 H MM的状态转移概率矩阵分类
历经型和遍历 型 [ 1 5 1 。 所谓的 遍历模型就是经过有限步的转移后, 系统能 达
如下特征: C ; 在i ! = i 时为 0 ,当i = i 时为 1 。即 状态的 转移必须从 1 开始。由 从左到右模型的特征可知, 对考虑随时间变化的信号时, 利用从左到右的模型来 建立比 较合适。 由 于 语音识别的 特征参数是一个时间序列, 所以 在语音识别中 所 使用的H M M一般都采用从左到右的H MM,如图3 . 2 所示。
到任何一个状态。 即系统从一个状态可以允许转移到任何一个状态。 这样的H MM 转移矩阵的每一个元素都为大于 0的数, 没有 0 元素。 所以, 各态历经型不合乎
语音识别的要求,应为它可以回到从前的状态。
从左到右型的H M M " 6 1 。 所谓的 从左到右的 模型, 就是 指随着时间的增加,
CHM M .
( 3 . 1 )

HMM基本原理及在语音识别中的应用.ppt

HMM基本原理及在语音识别中的应用.ppt
6
预加重
数字语音处理及MATLAB仿真 张雪英编著
语音从嘴唇辐射会有6dB/oct的衰减,因此 在对语音信号进行处理之前,希望能按6dB/oct的 比例对信号加以提升(或加重),以使得输出信号 的电平相近似。可采用以下差分方程定义的数字 滤波器:
y(n) x(n) ax(n 1) (10-1)
11
数字语音处理及MATLAB仿真 张雪英编著
孤立词语音识别系统的特征提取一般需要解 决两个问题:
一个是从语音信号中提取(或测量)有代表性 的合适的特征参数(即选取有用的信号表示);
另一个是进行适当的数据压缩。 对于非特定人语音识别来讲,希望特征参数 尽可能多的反映语义信息,尽量减少说话人的个 人信息(对特定人语音识别来讲,则相反)。从信 息论角度讲,这也是信息压缩的过程。
10.1.1 预处理
在语音识别系统中,语音信号预处理主要包 括抗混叠滤波、预加重及端点检测等。
1.抗混叠滤波与预加重
语音信号的频谱分量主要集中在300~3400Hz 范围内。因此需用一个防混叠的带通滤波器将此 范围内的语音信号的频谱分量取出,然后对语音 信号进行采样,得到离散的时域语音信号。
5
数字语音处理及MATLAB仿真 张雪英编著
不同的语音识别系统,尽管设计和实现的细 节不同,但所采用的基本技术是相似的。一个典 型的语音识别系统如下页图所示。主要包括预处 理、特征提取和训练识别网络。
3
数字语音处理及MATLAB仿真 张雪英编著
输入 预处理
特征提取
训练识别 输出 网络
语音识别系统组成部分图示
4
数字语音处理及MATLAB仿真 张雪英编著
抗混叠滤波 根据采样定理,如果模拟信号的频谱的带宽

一文搞懂HMM(隐马尔可夫模型)

一文搞懂HMM(隐马尔可夫模型)

⼀⽂搞懂HMM(隐马尔可夫模型)什么是熵(Entropy)简单来说,熵是表⽰物质系统状态的⼀种度量,⽤它⽼表征系统的⽆序程度。

熵越⼤,系统越⽆序,意味着系统结构和运动的不确定和⽆规则;反之,,熵越⼩,系统越有序,意味着具有确定和有规则的运动状态。

熵的中⽂意思是热量被温度除的商。

负熵是物质系统有序化,组织化,复杂化状态的⼀种度量。

熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯⾸次提出熵的概念,⽤来表⽰任何⼀种能量在空间中分布的均匀程度,能量分布得越均匀,熵就越⼤。

1. ⼀滴墨⽔滴在清⽔中,部成了⼀杯淡蓝⾊溶液2. 热⽔晾在空⽓中,热量会传到空⽓中,最后使得温度⼀致更多的⼀些⽣活中的例⼦:1. 熵⼒的⼀个例⼦是⽿机线,我们将⽿机线整理好放进⼝袋,下次再拿出来已经乱了。

让⽿机线乱掉的看不见的“⼒”就是熵⼒,⽿机线喜欢变成更混乱。

2. 熵⼒另⼀个具体的例⼦是弹性⼒。

⼀根弹簧的⼒,就是熵⼒。

胡克定律其实也是⼀种熵⼒的表现。

3. 万有引⼒也是熵⼒的⼀种(热烈讨论的话题)。

4. 浑⽔澄清[1]于是从微观看,熵就表现了这个系统所处状态的不确定性程度。

⾹农,描述⼀个信息系统的时候就借⽤了熵的概念,这⾥熵表⽰的是这个信息系统的平均信息量(平均不确定程度)。

最⼤熵模型我们在投资时常常讲不要把所有的鸡蛋放在⼀个篮⼦⾥,这样可以降低风险。

在信息处理中,这个原理同样适⽤。

在数学上,这个原理称为最⼤熵原理(the maximum entropy principle)。

让我们看⼀个拼⾳转汉字的简单的例⼦。

假如输⼊的拼⾳是"wang-xiao-bo",利⽤语⾔模型,根据有限的上下⽂(⽐如前两个词),我们能给出两个最常见的名字“王⼩波”和“王晓波 ”。

⾄于要唯⼀确定是哪个名字就难了,即使利⽤较长的上下⽂也做不到。

当然,我们知道如果通篇⽂章是介绍⽂学的,作家王⼩波的可能性就较⼤;⽽在讨论两岸关系时,台湾学者王晓波的可能性会较⼤。

HMM学习最佳范例

HMM学习最佳范例

HMM学习最佳范例一:介绍分类隐马尔科夫模型隐马尔科夫模型(HMM)依然是读者访问“我爱自然语言处理”的一个热门相关关键词,我曾在《HMM学习最佳范例与崔晓源的博客》中介绍过国外的一个不错的HMM学习教程,并且国内崔晓源师兄有一个相应的翻译版本,不过这个版本比较简化和粗略,有些地方只是概况性的翻译了一下,省去了一些内容,所以从今天开始计划在52nlp上系统的重新翻译这个学习教程,希望对大家有点用。

一、介绍(Introduction)我们通常都习惯寻找一个事物在一段时间里的变化模式(规律)。

这些模式发生在很多领域,比如计算机中的指令序列,句子中的词语顺序和口语单词中的音素序列等等,事实上任何领域中的一系列事件都有可能产生有用的模式。

考虑一个简单的例子,有人试图通过一片海藻推断天气——民间传说告诉我们‘湿透的’海藻意味着潮湿阴雨,而‘干燥的’海藻则意味着阳光灿烂。

如果它处于一个中间状态(‘有湿气’),我们就无法确定天气如何。

然而,天气的状态并没有受限于海藻的状态,所以我们可以在观察的基础上预测天气是雨天或晴天的可能性。

另一个有用的线索是前一天的天气状态(或者,至少是它的可能状态)——通过综合昨天的天气及相应观察到的海藻状态,我们有可能更好的预测今天的天气。

这是本教程中我们将考虑的一个典型的系统类型。

首先,我们将介绍产生概率模式的系统,如晴天及雨天间的天气波动。

然后,我们将会看到这样一个系统,我们希望预测的状态并不是观察到的——其底层系统是隐藏的。

在上面的例子中,观察到的序列将是海藻而隐藏的系统将是实际的天气。

最后,我们会利用已经建立的模型解决一些实际的问题。

对于上述例子,我们想知道:1. 给出一个星期每天的海藻观察状态,之后的天气将会是什么2. 给定一个海藻的观察状态序列,预测一下此时是冬季还是夏季直观地,如果一段时间内海藻都是干燥的,那么这段时间很可能是夏季,反之,如果一段时间内海藻都是潮湿的,那么这段时间可能是冬季。

基于短时平均幅度和HMM的语音识别系统研究

基于短时平均幅度和HMM的语音识别系统研究

5人 ×1 0次 的语 音 数 据 进 行 隐 马 尔 可 夫 模 型 训
识别 ( 指 纹识 别 、 手纹 识别 及 眼纹 识别 等 ) 和声 纹 识别 ( 特 殊 口令及 语 音识 别 等 ) , 这两 大 类 方 法各
自存 在 相应 的优 、 缺点 , 其 中声 音识 别最 大 的问
根 据声 音信 号 自身 的非 平 稳 特 征 , 预 处 理 过
程 中采用 加窗 函数 及 短 时平 均 幅 度 的方 法 , 实 现
发音样本 体 系, 提 出 了使 用音 频 波段 检 测 的 思路 。基 于 短 时 平 均 幅 度优 化 获得 音 频 信 号 , 进 而用 隐马尔
可 夫模 型进 行 识 别 , 设 计 了语 音 识 别 系 统 。 实验 结 果表 明 : 每人采集 1 O组 样 本 训 练 , 针 对 五 人 的 不 同样
题 在 于识别 分辨 率不 够高 , 存在 安全 隐患 , 怎 样提
高识 别 分 辨 率 成 为 制 约 这 种 方 法 应 用 的核 心 内 容。
笔 者通 过一 些 基 础 实 验研 究 , 确定 不 同 人 发
零率 3种 预处 理 方 法 , 发 现 短 时平 均 能 量 方法 因对 电平 值过 于 敏 感 而 不够 稳 定 , 短 时平 均过 零
率不 能够 有效 表 征 信 号 特征 , 因 而选 用 短 时平 均
幅度 的预处 理方 式 , 进 行 有 效 的特 征 提 取 和 有效
对齐。
声 的音 频 区别 , 研究语 音 的基本 特 征 , 并 针对 语 音 考 勤这 一 具 体 对 象 , 设 计 基 于 短 时 平 均 幅 度 和 HMM 的语 音识 别 系统 的总体 方案 , 最终 实 现通 过 音 频方 法 对 不 同人 单 个 词 “ 到” 发 声 的判 别 。系 统 研究 过程 中 , 通 过 从 硬 件 到 软件 的研 究 思 路 进 行 逐 步测试 与 改进 , 最终 确定 先用 检测 方案 , 并 达 到有 效 区分 的 目标 。首 先 , 通 过不 同传 感 器 的测

HMM学习最佳范例

HMM学习最佳范例

/hmm-learn-best-practices-four-hidden-markov-modelswiki上一个比较好的HMM例子分类隐马尔科夫模型HMM(隐马尔科夫模型)是自然语言处理中的一个基本模型,用途比较广泛,如汉语分词、词性标注及语音识别等,在NLP中占有很重要的地位。

网上关于HMM的介绍讲解文档很多,我自己当时开始看的时候也有点稀里糊涂。

后来看到wiki上举得一个关于HMM的例子才如醍醐灌顶,忽然间明白HMM的三大问题是怎么回事了。

例子我借助中文wiki重新翻译了一下,并对三大基本问题进行说明,希望对读者朋友有所帮助:Alice 和Bob是好朋友,但是他们离得比较远,每天都是通过电话了解对方那天作了什么.Bob仅仅对三种活动感兴趣:公园散步,购物以及清理房间.他选择做什么事情只凭当天天气.Alice对于Bob所住的地方的天气情况并不了解,但是知道总的趋势.在Bob告诉Alice每天所做的事情基础上,Alice想要猜测Bob 所在地的天气情况.Alice认为天气的运行就像一个马尔可夫链. 其有两个状态“雨”和”晴”,但是无法直接观察它们,也就是说,它们对于Alice是隐藏的.每天,Bob有一定的概率进行下列活动:”散步”, “购物”, 或“清理”. 因为Bob会告诉Alice他的活动,所以这些活动就是Alice的观察数据.这整个系统就是一个隐马尔可夫模型HMM.Alice知道这个地区的总的天气趋势,并且平时知道Bob会做的事情.也就是说这个隐马尔可夫模型的参数是已知的.可以用程序语言(Python)写下来: // 状态数目,两个状态:雨或晴states = (‘Rainy’, ‘Sunny’)// 每个状态下可能的观察值obse rvations = (‘walk’, ’shop’, ‘clean’)//初始状态空间的概率分布start_probability = {‘Rainy’: 0.6, ‘Sunny’: 0.4}// 与时间无关的状态转移概率矩阵transition_probability = {’Rainy’ : {‘Rainy’: 0.7, ‘Sunny’: 0.3},’Sunny’ : {‘Rainy’: 0.4, ‘Sunny’: 0.6},}//给定状态下,观察值概率分布,发射概率emission_probability = {’Rainy’ : {‘walk’: 0.1, ’shop’: 0.4, ‘clean’: 0.5},’Sunny’ : {‘walk’: 0.6, ’shop’: 0.3, ‘clean’: 0.1},}在这些代码中,start_probability代表了Alice对于Bob第一次给她打电话时的天气情况的不确定性(Alice知道的只是那个地方平均起来下雨多些).在这里,这个特定的概率分布并非平衡的,平衡概率应该接近(在给定变迁概率的情况下){‘Rainy’: 0.571, ‘Sunny’: 0.429}。

HMM隐马尔可夫模型在自然语言处理中的应用

HMM隐马尔可夫模型在自然语言处理中的应用

HMM隐马尔可夫模型在自然语言处理中的应用隐马尔可夫模型(Hidden Markov Model,HMM)是自然语言处理中常用的一种概率统计模型,它广泛应用于语音识别、文本分类、机器翻译等领域。

本文将从HMM的基本原理、应用场景和实现方法三个方面,探讨HMM在自然语言处理中的应用。

一、HMM的基本原理HMM是一种二元组( $λ=(A,B)$),其中$A$是状态转移矩阵,$B$是观测概率矩阵。

在HMM中,状态具有时序关系,每个时刻处于某一状态,所取得的观测值与状态相关。

具体来说,可以用以下参数描述HMM模型:- 隐藏状态集合$S={s_1,s_2,...,s_N}$:表示模型所有可能的状态。

- 观测符号集合$V={v_1,v_2,...,v_M}$:表示模型所有可能的观测符号。

- 初始状态分布$\pi={\pi (i)}$:表示最初处于各个状态的概率集合。

- 状态转移矩阵$A={a_{ij}}$:表示从$i$状态转移到$j$状态的概率矩阵。

- 观测概率矩阵$B={b_j(k)}$:表示处于$j$状态时,观测到$k$符号的概率。

HMM的主要任务是在给定观测符号序列下,求出最有可能的对应状态序列。

这个任务可以通过HMM的三种基本问题求解。

- 状态序列概率问题:已知模型参数和观测符号序列,求得该观测符号序列下各个状态序列的概率。

- 观测符号序列概率问题:已知模型参数和状态序列,求得该状态序列下观测符号序列的概率。

- 状态序列预测问题:已知模型参数和观测符号序列,求得使得观测符号序列概率最大的对应状态序列。

二、HMM的应用场景1. 语音识别语音识别是指将语音信号转化成文字的过程,它是自然语言处理的关键技术之一。

HMM在语音识别领域具有广泛应用,主要用于建立声学模型和语言模型。

其中,声学模型描述语音信号的产生模型,是从语音输入信号中提取特征的模型,而语言模型描述语言的组织方式,是指给定一个句子的前提下,下一个字或单词出现的可能性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音识别by HMM
09009226
邓齐林
•语音识别技术,也被称为自动语音识别(A utomatic S peech R ecognition ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,如字符序列。

•语音识别技术主要包括
特征提取技术
模型训练技术
模式匹配技术
•最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。

其识别方法是跟踪语音中的共振峰(在声音的频谱中能量相对集中的一些区域)
•到1950年代末,伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别系统中,成功开发了第一个计算机语音识别系统。

语音识别技术
•转变:进入80年代以后,研究的重点逐渐
转向大词汇量、非特定人的连续语音识
别,研究思路由传统的技术思路开始转向
基于统计模型(HMM)的技术思路
•突破:隐马尔科夫模型HMM(Hidden Markov Model)的应用
•卡内基梅隆大学的李开复最终实现了第一
个基于隐马尔科夫模型的大词汇量语音识
别系统Sphinx。

语音识别系统•特征提取/前端处理
提取语音信号的相关特征•声学模型
对应于语音到音节概率的计算•语言模型
对应于音节到单词概率的计算。

判决规
则估值计算
/VITERBI 解码计算
VQ矢量量
化码本训练
HMM(3)HMM(2)HMM(1)
识别结果Quantization 将若干个标量数据组构成一个矢量,然后在矢量空间给以整体量化
预处理
•预滤波
语音信号的频谱分量
采样和量化
•预加重
语音衰减(6dB/oct)
信号提升/加重
•端点检测
短时平均能量
短时平均过零率离散信号的相邻两个取样值具有不同的符号时,便出现过零现象,单位时间内过零的次数叫做过零率
声学特征
•帧:由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也就是要进行短时分析,这一小段被认为是平稳的分析区间称为帧
•帧与帧之间的偏移距离通常取帧长的1/2或1/3
例如:语音信号可以按256 个采样点为帧长进行分帧, 帧移采用128 个采样点. 这样设置参数后把系统移植到DSP 平台可以利用DFT等算法.
特征提取
•选取的合适的特征参数
声学特征的提取与选择
考虑特征参数的计算量
•进行适当的数据压缩
矢量量化技术
节省存储容量和识别运算量
•对于非特定人语音识别系统来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别系统来讲,则应该增加说话人的个人信息)。

特征提取•时域特征和/或频域特征
•时域特征:
1共振峰
2短时平均能量
3短时平均过零率
频域特征
•线性预测系数(LPC)
•LPC倒谱系数(LPCC)
•梅尔频率倒谱系数(MFCC)
•此外还有基于听觉模型的特征参数提取:感知线性预测(PLP)
声学模型
•马尔可夫模型:离散时域的有限状态自动机•隐马尔可夫模型HMM:则是指马尔可夫模型的内部状态外界不可见,当从一个状态转移到另一个状态时,外界只能观察到各个时刻的输出值,而不能观测到状态转移序列。

•对语音识别系统而言,输出值通常就是从各个帧提取计算而得的声学特征。

•HMM的两个假设
内部状态的转移只与前一个状态有关
输出值只与当前状态有关
HMM 算法•估值算法
HMM向前算法
HMM向后算法
•解码算法
Viterbi算法
对数Viterbi算法
•训练算法
向前向后算法
Baum‐Welch算法
•声学模型是识别系统的底层模型
•目标:提供一种有效的方法, 计算语音的特征矢量序列
•指标
训练数据量
语音识别率
灵活性
基本概念
•音素:最小的语音单位
•音标:记录英语音素的符号
•音节:最自然的语音单位
•汉语中一个汉字就是一个音节,每个音节由声母、韵母和声调三个部分组成
•英语中一个元音音素可构成一个音节,一个元音音素和一个或几个辅音音素结合也可以构成一个音节。

模型识别单元/模型基元
•词发音模型
•音节模型
•半音节模型
•音素模型
•小的识别单元的优点:
计算量
存储量
训练数据量
•带来的问题:
对应语音段的定位和分割困难
更加复杂的识别模型规则
•通常大的识别单元易于包括协同发音在模型中, 这有利于提高系统的识别率但要求的训练数据相对增加
模型结构选取
•语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音节就是一个三至五个状态的HMM
•一个词就是构成词的多个音节的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。

模型结构选取
模型只有惟一的一个初始状态和一个终止状态,并且这个过程只要进入一个新的状态就不能返回到以前的状态,这种模型很适合于其性质随着时间变化的语音信号。

由左至右的HMM,初始状态是1,终止状态是5
上下文相关建模
•协同发音的现象,指的是一个音受前后相邻音的影响而发生变化
•从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异
•只考虑前一音的影响的称为Bi‐Phone,考虑前一音和后一音的影响的称为Tri‐Phone。

上下文相关建模
•英语的上下文相关建模
以音素为模型基元
•有些音素对其后音素的影响是相似的,因而可以通过音素解码状态(Viterbi算法)的聚类共享模型参数
•聚类的结果称为senone
k均值聚类
•k均值聚类是最著名的划分聚类算法,简洁和高效率使得他成为所有聚类算法中最广泛使用的。

•给定一个数据点集合和需要的聚类数目k,k 由用户指定,k均值算法根据某个距离函数反复把数据分入k个聚类中
用决策树来实现高效的tri‐phone对senone的选择,通过回答一系列前后音所属类别的问题(元/辅音、清/浊音),最终确定其HMM状态应使用哪个senone。

语言模型•规则语言模型和统计语言模型
•规则语言模型
音节字典
词法规则
语法规则
•统计语言模型:用概率统计的方法来揭示语言单位内在的统计规律,利用了拼音间的统计信息, 进行基于拼音串的语言理解
•N‐Gram:该模型基于这样一种假设,第n个词的出现只与前面N‐1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。

这些概率可以通过直接从语言资料中统计N个词同时出现的次数统计得到。

•由于计算量太大,N一般取值不会很大,常用的是二元的Bi‐Gram和三元的Tri‐Gram。

训练过程
•想要识别的词表有V 个词, 为每个词设计一个HMM 模型。

用VQ (Vector Quantization, 矢量量化) 技术设计一个尺寸为M的码本(M 为观察符号数)。

•假定每个词有K组训练数据,得到最优的模型参数。

与此同时,可以使用Viterbi算法得到状态数为N 的最可能的状态转移序列。

识别
•目的:寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。

•声学模型估值
•语言模型估值
•对要识别的语音信号用训练所得的模型进行评估,计算模型对于观察序列的后验概率,后验概率最大的即位识别结果
•N‐best策略获取前N个最好的候选音节(获取前N个最好的候选词)
•Viterbi解码算法:得到最佳状态转移序列,并在每个节点记录下相应的状态路径信息以便最后反向获取音节或词的解码序列。

•N‐best搜索产生一个候选列表,在每个节点要保留N条最好的路径
•根据最佳状态序列对应的θ给出候选音节
多遍搜索
•为在搜索中利用各种知识源,通常要进行多遍搜索,第一遍使用代价低的知识源,产生一个词候选列表或词候选网格,在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。

基本的声学模型
基本的语言模型
•这些可以用于第一遍搜索
•更高级的语音识别,往往要利用一些代价更高的知识源:
1.4阶或5阶的N‐Gram
2.4阶或5阶的上下文相关模型N‐phone
3.词间相关模型
4.语法分析
性能指标
•①词汇表范围:这是指机器能识别的单词或词组的范围。

•②说话人限制:是仅能识别指定发话者的语音,还是对任何发话人的语音都能识别。

•③训练要求:使用前要不要训练,即是否需要让机器先听一下给定的语音,以及训练次数的多少。

•④正确识别率:平均正确识别的百分数,它与前面三个指标有关。

Question1
•直接计算后验概率与找出解码状态序列的区别?
Question2
•在连续语音识别中,你认为可能会如何利用语言的词性信息?
•Viterbi 算法(Viterbi algorithm):自然语言处理中的词性标注。

•在词性标注中,句子中的单词是观察状态,词性(语法类别)是隐藏状态(注意对于许多单词,如wind,fish 拥有不止一个词性)
•对于每句话中的单词,通过搜索其最可能的隐藏状态,我们就可以在给定的上下文中找到每个单词最可能的词性标注。

Question3
•你觉得一个语音识别系统是否应用范围越广越好?
•交流•新闻播报•音乐。

相关文档
最新文档