隐马尔可夫模型(有具体例子,方便理解)

合集下载

隐马尔科夫模型(原理图解)

• 下时期状态只取决于当前时期状态和转移概率 P ( q t S j|q t 1 S i , q t 2 S k ,) P ( q t S j|q t 1 S i )
qt-1
t-1时刻
3
qt
t时刻
q1 q2 q3 … qt-1
T=1 T=2 T=3
t-1时刻
qt
t 时刻
S1
隐
藏
S2
)
aa2102 S2
S1
a11 S1 a12 2 ( 2 )
S2
a21
S1
S2
a22 aa0233
1(3) S3
S2
a22 a23
2 (3) S3
S2
SaN0a5aN014aaNNN2
1(4 S4
)
S3
a32 2 ( 4 ) a33 S4
SN
1(5)
O1
S5 O2
2 (5) S5 O3
3 (1 ) t=T-
S1
a11 a12
t=3
t=4
t=5
SS11
a11 a12
SS11
a11 a12
a21
SS22 a22
S2 a22
S2 a22
S2 a22
SS22
a23
a23
a23
a23
a31 a32
a32
a32
a32
S3 a33
SS33 a33
S3
a33
S3 a33
S3
I-隐藏状态
b2(Q3)
Q2
…
…
…
…
…
QM
QM
QM
…
QM

隐马尔可夫模型及其典型应用

隐马尔可夫模型及其典型应⽤【原】隐马尔可夫模型及其典型应⽤----by stackupdown ⽬录前⾔本⽂要介绍的是隐马尔可夫模型及其应⽤。

我们从⼀个史学家开始，假设他在看某国的史料时，⾟⾟苦苦地统计了上下数年，发现了粮⾷的增长和下降的⼀段，他会结合历史去分析⼀些问题。

但是如果史书的其他记载得太少，他就找不到问题的所在，所以⽆从下⼿。

⼜⽐如，⼀个⼈出去旅⾏，相信民间的传说，海藻的湿度跟未来的天⽓有关，未来不同天⽓，海藻的湿度不⼀样，但是海藻有⼀定概率是错的。

尽管如此，他还是想要根据这个来估计明天天⽓的可能性[1]。

这两个问题是跟时间相关的问题，有些这样的问题是解决不了的，有些则不然，我们在接下来的⽂章⾥会讲到相关问题的数学抽象和解决⽅法。

正⽂⼀、随机过程我们在⾃然世界中会遇到各种不确定的过程，它们的发⽣是不确定的，这种过程称为随机过程。

像花粉的布朗运动、股票市值、天⽓变化都是随机过程[2]。

马尔科夫随机过程是⼀类随机过程。

它的原始模型马尔可夫链，由俄国数学家A.A.马尔可夫于1907年提出。

该过程有以下的性质：指定⼀个时间点，则未来时间的状态只与现在有关，跟它的过去没有关系。

在现实⽣活中的马尔科夫过程是我们⼈为抽象进⾏简化的，如果我们认为⼀个事物的未来跟过去的变化没有太⼤关系，那么我们就可以把它抽象成马尔科夫过程[2]。

⽐如我们的天⽓，很不严谨地说，可以抽象成马尔科夫过程，从今天晴天转移到明天多云、下⾬的转移只取决于今天的天⽓，⽽跟前天的天⽓⽆关。

如下图，这样我们按照概率的知识就可以得到今天下⾬，明天放晴的概率：P(明天晴|今天⾬)=0.4 这就当做是我们最简单的⼀个模型了[3]。

马尔科夫过程的假设很简单，就是概率不依赖于之前的序列，写成公式：就好像⼀条鱼不知道⾃⼰之前的运动轨迹，只知道⾃⼰在哪⾥，接着它就会按照现在的位置随机选择⼀个⽅向去游动了。

鱼的前前后后的运动形成了⼀条链。

在⼀个马尔科夫模型中，我们可以利⽤它来计算概率，⽽且由于它是单个状态的转移，我们看起来它就像是⼀条链⼀样，状态从头到尾移动。

隐马尔可夫模型的基本用法

隐马尔可夫模型的基本用法隐马尔可夫模型（HiddenMarkovModel，HMM）是一种用于描述随机过程的概率模型，它在自然语言处理、语音识别、生物信息学、金融分析等领域得到了广泛应用。

本文将介绍隐马尔可夫模型的基本概念、数学表达、参数估计、解码算法等内容，希望对读者理解和应用该模型有所帮助。

一、隐马尔可夫模型的基本概念隐马尔可夫模型是一个二元组（Q, O, A, B, π），其中：Q = {q1, q2, …, qN}是状态集合，表示模型中可能出现的所有状态；O = {o1, o2, …, oT}是观测集合，表示模型中可能出现的所有观测；A = [aij]是状态转移矩阵，其中aij表示从状态i转移到状态j的概率；B = [bj(k)]是观测概率矩阵，其中bj(k)表示在状态j下观测到k的概率；π = [πi]是初始状态概率向量，其中πi表示模型开始时处于状态i的概率。

隐马尔可夫模型的基本假设是：每个时刻系统处于某一状态，但是我们无法观测到该状态，只能观测到该状态下产生的某个观测。

因此，我们称该状态为隐状态，称观测为可观测状态。

隐马尔可夫模型的任务就是根据观测序列推断出最有可能的隐状态序列。

二、隐马尔可夫模型的数学表达隐马尔可夫模型的数学表达可以用贝叶斯公式表示：P(O|λ) = ∑Q P(O|Q, λ)P(Q|λ)其中，O表示观测序列，Q表示隐状态序列，λ表示模型参数。

P(O|Q, λ)表示在给定隐状态序列Q和模型参数λ的条件下，观测序列O出现的概率；P(Q|λ)表示在给定模型参数λ的条件下，隐状态序列Q出现的概率。

P(O|λ)表示在给定模型参数λ的条件下，观测序列O出现的概率。

一文搞懂HMM（隐马尔可夫模型）

⼀⽂搞懂HMM（隐马尔可夫模型）什么是熵(Entropy)简单来说，熵是表⽰物质系统状态的⼀种度量，⽤它⽼表征系统的⽆序程度。

熵越⼤，系统越⽆序，意味着系统结构和运动的不确定和⽆规则；反之，，熵越⼩，系统越有序，意味着具有确定和有规则的运动状态。

熵的中⽂意思是热量被温度除的商。

负熵是物质系统有序化，组织化，复杂化状态的⼀种度量。

熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯⾸次提出熵的概念，⽤来表⽰任何⼀种能量在空间中分布的均匀程度，能量分布得越均匀，熵就越⼤。

1. ⼀滴墨⽔滴在清⽔中，部成了⼀杯淡蓝⾊溶液2. 热⽔晾在空⽓中，热量会传到空⽓中，最后使得温度⼀致更多的⼀些⽣活中的例⼦:1. 熵⼒的⼀个例⼦是⽿机线，我们将⽿机线整理好放进⼝袋，下次再拿出来已经乱了。

让⽿机线乱掉的看不见的“⼒”就是熵⼒，⽿机线喜欢变成更混乱。

2. 熵⼒另⼀个具体的例⼦是弹性⼒。

⼀根弹簧的⼒，就是熵⼒。

胡克定律其实也是⼀种熵⼒的表现。

3. 万有引⼒也是熵⼒的⼀种(热烈讨论的话题)。

4. 浑⽔澄清[1]于是从微观看，熵就表现了这个系统所处状态的不确定性程度。

⾹农，描述⼀个信息系统的时候就借⽤了熵的概念，这⾥熵表⽰的是这个信息系统的平均信息量(平均不确定程度)。

最⼤熵模型我们在投资时常常讲不要把所有的鸡蛋放在⼀个篮⼦⾥，这样可以降低风险。

在信息处理中，这个原理同样适⽤。

在数学上，这个原理称为最⼤熵原理(the maximum entropy principle)。

让我们看⼀个拼⾳转汉字的简单的例⼦。

假如输⼊的拼⾳是"wang-xiao-bo"，利⽤语⾔模型，根据有限的上下⽂(⽐如前两个词)，我们能给出两个最常见的名字“王⼩波”和“王晓波 ”。

⾄于要唯⼀确定是哪个名字就难了，即使利⽤较长的上下⽂也做不到。

当然，我们知道如果通篇⽂章是介绍⽂学的，作家王⼩波的可能性就较⼤；⽽在讨论两岸关系时，台湾学者王晓波的可能性会较⼤。

隐马尔可夫总结

隐马尔可夫〔Hidden Markov Model，HMM〕一、马尔可夫过程〔Markov Process〕1、马尔可夫过程介绍马尔可夫过程(Markov Process)，它因俄罗斯数学家安德烈·马尔可夫而得名，代表数学中具有马尔可夫性质的离散随机过程。

该过程中，每个状态的转移只依赖于之前的n个状态，这个过程被称为1个n阶的模型，其中n是影响转移状态的数目。

最简单的马尔科夫过程就是一阶过程，每一个状态的转移只依赖于其之前的那一个状态。

马尔可夫链是随机变量X1, …, X n的一个数列。

这些变量的范围，即他们所有可能取值的集合，被称为“状态空间”，而X n的值则是在时间n的状态。

如果X n+1对于过去状态的条件概率分布仅是X n的一个函数，则这里x为过程中的某个状态。

上面这个恒等式可以被看作是马尔可夫性质。

2、马尔可夫过程举例以下图展示了天气这个例子中所有可能的一阶转移：注意一个含有N 个状态的一阶过程有N2个状态转移。

每一个转移的概率叫做状态转移概率(state transition probability)，即从一个状态转移到另一个状态的概率。

这所有的N2个概率可以用一个状态转移矩阵来表示，其表示形式如下：对该矩阵有如下约束条件：下面就是海藻例子的状态转移矩阵：这个矩阵表示，如果昨天是晴天，那么今天有50%的可能是晴天，37.5%的概率是阴天，12.5%的概率会下雨，很明显，矩阵中每一行的和都是1。

为了初始化这样一个系统，我们需要一个初始的概率向量：这个向量表示第一天是晴天。

3、一阶马尔可夫过程定义如上述马尔可夫过程例子可知，我们为一阶马尔可夫过程定义了以下三个部分：状态：晴天、阴天和下雨；初始向量：定义系统在时间为0的时候的状态的概率；状态转移矩阵：每种天气转换的概率；所有的能被这样描述的系统都是一个马尔可夫过程。

二、隐马尔可夫过程〔HMM〕1、隐马尔可夫模型介绍隐马尔可夫模型(HMM)是一个输出符号序列统计模型，具有T个状态X1,X2.......X t-1,它按一定的周期从一个状态转移到另一个状态，每次转移时，输出一个符号〔观测值〕。

马尔科夫模型(转载)

隐马尔可夫模型（一）——马尔可夫模型马尔可夫模型（Markov Model)描述了一类随机变量随时间而变化的随机函数。

考察一个状态序列（此时随机变量为状态值），这些状态并不是相互独立的，每个状态的值依赖于序列中此状态之前的状态。

数学描述：一个系统由N个状态S= {s1,s2,...s n},随着时间的推移，该系统从一个状态转换成另一个状态。

Q= {q1,q2,...q n}为一个状态序列，q i∈S,在t时刻的状态为q t,对该系统的描述要给出当前时刻t所处的状态s t，和之前的状态s1,s2,...s t, 则t时刻位于状态q t的概率为：P(q t=s t|q1=s1,q2=s2,...q t-1=s t-1)。

这样的模型叫马尔可夫模型。

特殊状态下，当前时刻的状态只决定于前一时刻的状态叫一阶马尔可夫模型，即P(q t=s i|q1=s1,q2=s2,...q t-1=s j) =P(q t=s i|q t-1=s j)。

状态之间的转化表示为a ij,a ij=P(q t=s j|q t-1=s i),其表示由状态i转移到状态j的概率。

其必须满足两个条件： 1.a ij≥ 0 2.=1对于有N个状态的一阶马尔科夫模型，每个状态可以转移到另一个状态（包括自己），则共有N2次状态转移，可以用状态转移矩阵表示。

例如：一段文字中名词、动词、形容词出现的情况可以用有3个状态的y一阶马尔科夫模型M 表示：状态s1:名词状态s2:动词状态s3:形容词状态转移矩阵： s1 s2 s3A=则状态序列O=“名动形名”（假定第一个词为名词）的概率为：P(O|M) = P(s1,s2,s3,s4} = P(s1)*p(s2|s1)p(s3|s2)p(s1|s3)=p(s1)*a12*a23*a31=1*0.5*0.2*0.4=0.04在马尔可夫模型中，每一个状态都是可观察的序列，是状态关于时间的随机过程，也成为可视马尔可夫模型（Visible Markov Model,VMM）。

HMM隐马尔可夫模型在自然语言处理中的应用

HMM隐马尔可夫模型在自然语言处理中的应用隐马尔可夫模型（Hidden Markov Model，HMM）是自然语言处理中常用的一种概率统计模型，它广泛应用于语音识别、文本分类、机器翻译等领域。

本文将从HMM的基本原理、应用场景和实现方法三个方面，探讨HMM在自然语言处理中的应用。

一、HMM的基本原理HMM是一种二元组（ $λ=(A,B)$），其中$A$是状态转移矩阵，$B$是观测概率矩阵。

在HMM中，状态具有时序关系，每个时刻处于某一状态，所取得的观测值与状态相关。

具体来说，可以用以下参数描述HMM模型：- 隐藏状态集合$S={s_1,s_2,...,s_N}$：表示模型所有可能的状态。

- 观测符号集合$V={v_1,v_2,...,v_M}$：表示模型所有可能的观测符号。

- 初始状态分布$\pi={\pi (i)}$：表示最初处于各个状态的概率集合。

- 状态转移矩阵$A={a_{ij}}$：表示从$i$状态转移到$j$状态的概率矩阵。

- 观测概率矩阵$B={b_j(k)}$：表示处于$j$状态时，观测到$k$符号的概率。

HMM的主要任务是在给定观测符号序列下，求出最有可能的对应状态序列。

这个任务可以通过HMM的三种基本问题求解。

- 状态序列概率问题：已知模型参数和观测符号序列，求得该观测符号序列下各个状态序列的概率。

- 观测符号序列概率问题：已知模型参数和状态序列，求得该状态序列下观测符号序列的概率。

- 状态序列预测问题：已知模型参数和观测符号序列，求得使得观测符号序列概率最大的对应状态序列。

二、HMM的应用场景1. 语音识别语音识别是指将语音信号转化成文字的过程，它是自然语言处理的关键技术之一。

HMM在语音识别领域具有广泛应用，主要用于建立声学模型和语言模型。

其中，声学模型描述语音信号的产生模型，是从语音输入信号中提取特征的模型，而语言模型描述语言的组织方式，是指给定一个句子的前提下，下一个字或单词出现的可能性。

爱情的隐式马尔可夫模型(Love in the Hidden Markov Model)

爱情的隐式马尔可夫模型(Love in the Hidden Markov Model)首先感谢原英文作者Tom Yeh的精彩描述,生动地讲述了HMM模型的原理,在此我斗胆用我自己的语言用中文修改描述一次.感兴趣的可以点击这里下载latex生成的pdf 版本男生和女生分别是来自不同星球的科学事实已经众所周知的了.男生们总是认为,女生们都是迷一样的生物,他们的情感状态浮动似乎是以秒单位在变化的,难以理解,更勿论预测了! 而女生们觉得男生都是没有感觉动物,完全不能理解什么叫感受-尽管已经告诉他们N次了!这种男女之间的根本差别,导致了他们之间的感情关系是受一种超级无敌复杂的系统所支配的.不过,我们可以用一个叫隐式马尔可夫(Hidden Markov Model)的数学模型来分析这个系统.决定性系统首先我们来看看一种最简单的预测系统- 决定性系统.在这个系统中,如果我们知道我们目前所在的状态,那么我们也就能够毫无疑问地预测出下一个状态是什么. 比如一年四季的轮替就是一个决定性系统:每个季节的交替是完全可以预测的,如果现在是春天,那么下一个季节就一定会是夏天,冬天的前一个状态就一定是秋天等等.另外值得一提的是,冬天过后,下一个季节就又会回到春天,以此循环...另外一个常见的决定系统,就是交通灯的轮换: 红灯过后就应该是绿灯. 绿灯过后就应该是黄灯,然后又回到红灯.这种系统非常常见,人的一生大致也能看作是这种系统. 有婴儿,少年,成年,老年,然后死亡等几种状态. 不过不同的是,人的一生又不是完全遵循这种状态轮换的, 每个人都有那么丁点的可能性会跳过其中一个或者多个状态,直接到达死亡的状态...(更勿论Benjamin Buttons的情况了,呵呵).讲到这里,聪明的男生或许已经能想到,我们的世界里最为精妙,最雷人的非决定性系统就是-- 你女朋友的情感状态!对于大部分男生来说,精确地预测女朋友的下一种的情感状态基本上属于扯淡. 一个mm现在可能心情很好,可是下一秒却进入抓狂;她或许某个时刻处于悲伤,下个时刻却变得异常兴奋.在每个女生的情感状态里面,都有一种基于概率却又难以预测的本质,这种无序的本质直接导致无数男生直接蹲地画圈圈......尽管看上去女生的情感状态似乎毫无预测性可言,经过一段长时间的观察,却能发现这种现象是有规律的! 于是小明,作为一名计算机科学家, 决定要系统地去分析他女朋友的情感不确定性, 挖掘出里面的规律!于是乎,小明仔细地记录了半年来他女朋友小丽每天的喜怒哀乐变化状态, 并作了一张图表(Table1)来表示小丽的历史情感变化.小明想知道, 有了这些数据,他能否从中得出知道, 如果小丽某天的情感状态是高兴, 那么第二天她更多的是保持好心情呢,还是更多地变得悲伤了.如此等等...数据胜于雄辩, 小明从这半年的数据里面发现,当小丽高兴的时候,3/4的情况下第二天她仍然保持着好心情,只有1/4的情况小丽第二天心情会改变,比如变得气愤,悲伤等等(小明真TM走运!).小明继续分析其他各种情感状态变化情况,比如从高兴到悲伤, 悲伤到气愤, 高兴到气愤等所有的可能组合.很快小明就得到所有的组合变化数据,从中得知对于任意小丽的某天情感状态下,下一个最有可能的情感状态.为了便于教学,我们假设小明只关心小丽的四种感情状态: 高兴悲伤气愤还有忧虑高兴悲伤气愤忧虑高兴0.75 0.1 0.10.05悲伤0.05 0.5 0.250.2气愤0.15 0.2 0.40.25忧虑0.05 0.2 0.250.5 Table 1: 小丽的情绪状态变化表在这个表格中, 每个数字代表了小丽情绪从某列转变到某行的概率. 比方说, 如果小丽某天的情绪是高兴,那么她将有0.1的概率下一天她会变得悲伤或者是气愤, 有0.05的可能性转变为忧虑. 每一行代表了从某种情绪转变到各种情绪的概率,因此每行的概率之和为 1.同理,每一列代表了由各种情绪转变为该列所代表的情绪的概率,因此每列的概率总和也应该为1.我们可以画一个状态图(图1)来表示表格1, 每个圆圈代表着一种心情状态, 每两种心情变化由一个有向弧,从当前的心情状态指向下一个心情状态表示,每个弧上均带有一个状态转换的概率.Figure 1: 小丽的情绪状态变化图有了这个图表,小明就可以非常直观地看得到小丽最有可能的下个心情会是如何. 她会很有可能变得悲伤吗?(准备好鲜花巧克力),还是更有可能是气愤?(赶紧闪开!) 每天小明只需要看看哪个弧指向的心情概率最大就可以了.这个过程,同学们,就是有名的"马尔可夫过程" (Markov process)不过需要注意的是, 马尔可夫过程有一些假设的前提. 在我们的例子里面, 预测下一天小丽的心情, 我们只依赖当天小丽的心情,而没有去考虑更先前她的心情. 很明显这种假设下的模型是远不够精确的. 很多时候,随着日子一天一天的过去,女生一般会变得越来越体谅.经常女生生气了几天后,气就会慢慢消了. 比方说如果小丽已经生气了3天了,那么她第二天变得高兴起来的可能性,在多数情况下,要比她只生气了一天而第二天变得高兴的可能性要高. 马尔可夫过程并没有考虑这个, 用行话讲, 就是马尔可夫模型忽略远距离历史效应( longrange dependency).我很佩服各位能坚持读到这里, 不过,还没完呢, 我仍然没有说,隐式马尔可夫模型(Hidden Markov Model)是什么呢! 诸位如果已经有点头昏脑涨,请就此打住,以免大脑过热死机!隐式马尔可夫模型- Hidden Markov Model, or HMM for short.有些时候,我们无法直接观测一个事物的状态. 比方说, 有些女生是很能隐瞒自己的情感而不流露出来的! 他们可能天天面带微笑但不代表他们就天天高兴.因此我们必须要有窍门, 去依赖某些我们能够直接观察到的东西.话说回来我们的主人公小明, 自从被小丽发现他这种近乎变态的科学分析行为后,变得非常善于隐藏自己的心情,导致某天小明错误估计了小丽的心情!在误以为那天小丽会心情好的情况下,小明告诉小丽自己不小心摔坏了她心爱的iPod...,小明没想到其实那天小丽正因为前一天错过了商场名牌打折扣的活动而异常气愤... 一场血雨腥风过后,两个人最终分手了.不过很快小明凭着自身的英俊高大潇洒,很快又交上了另外一个女朋友- 小玲. 鉴于小明意识到,女生表面的情感流露非常不可靠, 小明决定要另寻他径, 继续预测女朋友的心情! (作为一个科学家,小明的确有着不怕碰壁的精神!)小明每个月都帮小玲付信用卡的费用(真不明白，有这样的男朋友，小玲有什么理由不高兴啊!), 因此小明每天都可以通过Online banking知道小玲每天都买了什么东西. 小明突然灵机一动: "没准我能通过观测她的购物规律,推导预测出小玲的心情!".听起来有点匪夷所思,不过这个过程,的的确确是可以使用叫作隐式马尔可夫的数学模型来表示并分析的.由于我们需要预测的变量- 心情状态是无法直接观测的,是隐藏(Hidden)起来的.因此这种模型才叫隐式马尔可夫模型.在一次和小玲的好朋友们一起吃饭的时候, 小明得知了以下重要的信息:"小玲高兴的时候经常去买一大堆新衣服", "那天小玲一个人去超市买了一堆吃的,一定是有什么心事了(忧虑)", "你千万不要惹小玲生气阿,不然她会刷爆你的信用卡的!", "小玲好几次伤心难过的时候,一整天都宅在家里看杂志.". 知道了这些信息,小明扩展了他原先一直采用的马尔可夫模型, 为每种隐藏的状态(心情)赋予了新的可观测状态(Observables),这些可观测状态为:1.大部分(>50%)花费是Fashion商场(O1)2.大部分(>50%)花费在超市(O2)3.Oh my God! 一天刷了5000元以上!!! (O3)4.Oh yeah! 这一天她都没花钱(O4)为图简便,我们假设小玲和小明的ex小丽,有着同样的实际心情转换概率(图1).小明通过归类统计小玲过往的信用卡帐单(天啊,怎么这么多!),发现了如表2所示的每天心情与每天信用卡消费之间的关系:Table 2: 小玲的每天情绪状态与当天信用卡花费的关系概率表我要加一句的是, 由于概率的归一性(各种可能性之和为1), 我们为了不降低本文的娱乐搞笑性, 规定如果某天小玲大部分的花费是Fashion或者是在超市,那么她的花费不可能超过5000, 这样我们才有各行的O1+O2+O3+O4 =1.也就是说,当小玲高兴的时候, 小明发现80%的情况下那些天小玲基本都买性感小衣衣了(:Q), 也有那么10%的情况下大部分买吃的了, 令小明郁闷的是,居然小玲高兴了,还有那么5%的情况,刷了他5000+ ;最后剩下5%的情况小玲可能因为太高兴而顾不上消费了(小明暗笑:"对对,就是那次,她心情特好, we BEEP all day, it was the best we ever had!" )自此, 小玲心情的隐式马尔可夫模型就出来了(图2).Figure2: 小玲的隐式马尔可夫模型有了这个模型,我们就可以回答这个问题:"如果我知道了小玲的信用卡花费规律,我能否找出她最有可能的心情变化序列是什么?"具体一点吧, 某次小玲到外地出差了一个星期, 小明每天打电话给她问她今天开心嘛? 小玲都说"开心"...但实际呢?小明自言自语说, 哼你不告诉我, 我就只好算算了! 小明Login到了小玲信用卡网站,打开statement,统计了一下,发现小玲这一个星期的消费规律是:"O2 O1 O4 O2 O3 O1 O4" (对应着消费序列穿的, 吃的, 没刷, 吃的, 刷爆, 穿的, 没刷)有了这个消费序列和图2的模型, 有办法找出小玲这7天最有可能的心情序列是什么吗?信不信由你, Viterbi search algorithm (维特比搜索算法)就是用来计算出HMM模型中给定观测序列O(消费规律), 对应的最有可能的隐藏状态序列(心情变化). 关于Viterbi的原理和实现已经超出本文的讲解范围了,有兴趣的同学可以去Wiki或者动手Google一下. 简单来说Viterbi属于动态规划(Dynamic programming) 算法的一种,用来比较高效地计算出一个转移矩阵及其观测矩阵(分别对应我们的Table1 和Table2)制约下的最大可能的隐藏状态转移序列-如果我们事先知道观测序列的话.根据以上的转移矩阵(table 1})和观测矩阵(table 2), 建立起HMM模型并采用Viterbi算法(HMM还需要添加一个状态起始概率来表示每种状态作为起始状态的可能性,由于小明没有办法知>道这个数字,因此只能作最简单的假设- 假设他们都是均匀分布的(uniformly distributed),所以每种状态的起始>概率均为1/4).可以知道,对应以上观察序列,小玲那七天最为可能的情绪序列为:忧虑悲伤悲伤忧虑气愤高兴悲伤概率为p=1.4x10^-5看来小玲这次出差压力不小啊!呜呼! 至此整个Hidden Markov Model就介绍完了.当然,中间仍然有很多细节我是直接忽略了. 而且在现实使用当中,HMM模型中的规模要大得多,无论是隐藏的状态数目,还是可观测的状态数目,都超过千计. HMM 及其相关算法被大量广泛使用在各行各业.在计算机信息学中, 大量语音识别, 中文分词,中文拼音汉字转换系统采用的都是隐式马尔可夫模型.。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

前向算法过程演示
i=N
i=N-1
i=5
i=4
i=3
i=2
i=1 t=1 t=2 t=3 t=4 t=5 t=6 t=7 t=T-1 t=T
前向算法过程演示
i=N i=N-1 i=5 i=4 i=3 i=2 i=1 t=1 t=2 t=3 t=4 t=5 t=6 t=7 t=T-1 t=T
前向算法过程演示
i=N
i=N-1
i=5
i=4 i=3 i=2 i=1 t=1 t=2 t=3 t=4 t=5 t=6 t=7 t=T-1 t=T
前向算法过程演示
i=N i=N-1 i=5 i=4 i=3 i=2 i=1 t=1 t=2 t=3 t=4 t=5 t=6 t=7 t=T-1 t=T
前向算法过程演示
i=N i=N-1 i=5 i=4 i=3 i=2 i=1 t=1 t=2 t=3 t=4 t=5 t=6 t=7 t=T-1 t=T
前向算法过程演示
i=N i=N-1 i=5 i=4 i=3 i=2 i=1 t=1 t=2 t=3 t=4 t=5 t=6 t=7 t=T-1 t=T
前向算法过程演示
i=N i=N-1 i=5 i=4 i=3 i=2 i=1 t=1 t=2 t=3 t=4 t=5 t=6 t=7 t=T-1 t=T
前向算法过程演示
i=N i=N-1 i=5 i=4 i=3 i=2 i=1 t=1 t=2 t=3 t=4 t=5 t=6 t=7 t=T-1 t=T
前向算法过程演示
i=N i=N-1 i=5 i=4 i=3 i=2 i=1 t=1 t=2 t=3 t=4 t=5 t=6 t=7 t=T-1 t=T
前向算法过程演示
i=N i=N-1 i=5 i=4 i=3 i=2 i=1 t=1 t=2 t=3 t=4 t=5 t=6 t=7 t=T-1 t=T
前向算法过程演示
i=N i=N-1 i=5 i=4 i=3 i=2 i=1 t=1 t=2 t=3 t=4 t=5 t=6 t=7 t=T-1 t=T
前向算法过程演示
i=N i=N-1 i=5 i=4 i=3 i=2 i=1 t=1 t=2 t=3 t=4 t=5 t=6 t=7 t=T-1 t=T
2. 递归
前向算法过程演示
i=N i=N-1 i=5 i=4 i=3 i=2 i=1 t=1 t=2 t=3 t=4 t=5 t=6 t=7 t=T-1 t=T
HMM的三个基本问题
令 λ = {π，A，B} 为给定HMM的参数，
令 O = O1,...,OT 为观察值序列，则有关于隐马尔可夫模型（HMM）的三个基本问题： 1.评估问题：对于给定模型，求某个观察值序列的概率P(O|λ) ；
2.解码问题：对于给定模型和观察值序列，求可能性最大的状态序列maxQ{P(Q|O,λ)}； 3.学习问题：对于给定的一个观察值序列O，调整参数λ，使得观察值出现的概率P(O|λ)最大。
观察序列产生步骤

给定HMM模型 λ = (A， B， π) ，则观察序列 O=O1,O2,…OT 可由以下步骤产生： 1.根据初始状态概率分布π= πi,选择一初始状态 q1=Si； 2.设t=1； 3.根据状态 Si的输出概率分布bjk,输出Ot=vk； 4.根据状态转移概率分布aij,转移到新状态qt+1=Sj； 5.设t=t+1,如果t<T，重复步骤3、4，否则结束。
…
问题 1 – 评估问题
给定一个骰子掷出的点数记录
124552646214614613613666166466163661636616361651561511514612356234
问题会出现这个点数记录的概率有多大?
求P(O|λ)
问题 2 – 解码问题
给定一个骰子掷出的点数记录
124552646214614613613666166466163661636616361651561511514612356234
本例中三个基本问题
1.评估问题
• 给定观察序列O和HMM =(π, A, B), 判断O是由产生出来的可能性有多大
• 计算骰子点数序列的确由“作弊”模型生成的可能性
2.解码问题
• 给定观察序列O和HMM λ =(π, A, B), 计算与序列O相对应的状态序列是什么 • 在骰子点数序列中, 判断哪些点数是用骰子B掷出的
问题点数序列中的哪些点数是用骰子B掷出的?
求maxQ{P(Q|O,λ)}
问题 3 – 学习问题
给定一个骰子掷出的点数记录
124552646214614613613666166466163661636616361651561511514612356234
问题作弊骰子掷出各点数的概率是怎样的?公平骰子掷出各点数的概率又是怎样的 ? 赌场是何时换用骰子的 ?
3.学习问题
• 给定一系列观察序列样本, 确定能够产生出这些序列的模型=(π, A, B) • 如何从大量的点数序列样本中学习得出“作弊模型”的参数
三个基本问题的求解算法

评估问题：前向算法
定义前向变量采用动态规划算法，复杂度O(N2T)

解码问题：韦特比（Viterbi）算法

采用动态规划算法，复杂度O(N2T)
1点 2点 3点 4点 5点 6点
一次连续掷骰子的过程模拟
时间骰子掷出点数
1 A 3 2 A 3 3 A 4 4 B 5 5 A 1 6 A 6 7 A 2 明序列隐序列
查封赌场后, 调查人员发现了一些连续掷骰子的记录, 其中有一个骰子掷出的点数记录如下:
124552646214614613613666166466163661636616361651561511514612356234
0.9
0.8
明字符生成概率 :
b11 = b12=…=b16=1/6
0 骰子B
b21=0, b22=b23=1/8, b24=b25=3/16, b26=3/8
0.2
HMM将两个序列相联系起来：
1. 由离散隐状态组成的状态序列(路径)
Q = (q1,…,qT), 每个qt∈S均是一个状态由初始状态概率及状态转移概率(π, A)所决定
前向算法过程演示
i=N i=N-1 i=5 i=4 i=3 i=2 i=1 t=1 t=2 t=3 t=4 t=5 t=6 t=7 t=T-1 t=T
前向算法过程演示
i=N i=N-1 i=5 i=4 i=3 i=2 i=1 t=1 t=2 t=3 t=4 t=5 t=6 t=7 t=T-1 t=T
2. 由明字符组成的观察序列
O = (o1,…,oT), 每个ot∈V均为一个离散明字符由状态序列及各状态的明字符生成概率(Q,B)所决定
观察序列O
o1
o2
o3
o4
...
oT
HMM λ
状态序列Q
q1
q2
q3
q4
...
qT
赌场的例子中:
隐状态 AAAABAAAAABAAAAAAAAAAAAAAAAAAAAAAABAA BAAAAAAAAA… 明观察 3 3 4 5 4 1 4 1 5 5 3 6 6 3 4 4 1 1 3 4 6 2 5 4 4 5 3 3 4 2 2 3 3 3 2 1 2 4 2 2 5 6 3 1 3 4 1…
本例中HMM的定义
赌场的例子中:
隐状态集: S={骰子A, 骰子B} 明字符集: V={1,2,3,4,5,6} 初始状态概率: π1=1, π2=0 隐状态转移概率 :
a11=0.9, a12=0.1 a21=0.8, a22=0.2
初始状态
1.0 骰子A 0.1
1: 0 2: 1/8 3: 1/8 4: 3/16 5: 3/16 6: 3/8 1: 1/6 2: 1/6 3: 1/6 4: 1/6 5: 1/6 6: 1/6
前向算法过程演示
i=N i=N-1 i=5 i=4 i=3 i=2 i=1 t=1 t=2 t=3 t=4 t=5 t=6 t=7 t=T-1 t=T
前向算法过程演示
i=N i=N-1 i=5 i=4 i=3 i=2 i=1 t=1 t=2 t=3 t=4 t=5 t=6 t=7 t=T-1 t=T
例: 赌场的欺诈
某赌场在掷骰子根据点数决定胜负时 , 暗中采取了如下作弊手段: 在连续多次掷骰子的过程中, 通常使用公平骰子A, 偶而混入一个灌铅骰子B.
0.8 0.9 A 0.1 公平骰子灌铅骰子 B 0.2
公平骰子A与灌铅骰子B的区别:
骰子A 1/6 1/6 1/6 1/6 1/6 1/6 骰子B 0 1/8 1/8 3/16 3/16 3/8
前向算法过程演示
i=N i=N-1 i=5 i=4 i=3 i=2 i=1 t=1 t=2 t=3 t=4 t=5 t=6 t=7 t=T-1 t=T
前向算法过程演示
i=N i=N-1 i=5 i=4 i=3 i=2 i=1 t=1 t=2 t=3 t=4 t=5 t=6 t=7 t=T-1 t=T
例（续）
如果第一天为晴天，根据这一模型，在今后七天中天气为O=“晴晴雨雨晴云晴”的概率为：
隐马尔可夫模型（Hidden Markov Model, HMM）
在MM中，每一个状态代表一个可观察的事件在HMM中观察到的事件是状态的随机函数，因此该模型是一双重随机过程，其中状态转移过程是不可观察（隐蔽）的(马尔可夫链)，而可观察的事件的随机过程是隐蔽的状态转换过程的随机函数(一般随机过程)。

HMM的三个假设
对于一个随机事件，有一观察值序列： O=O1,O2,…OT 该事件隐含着一个状态序列： Q = q1,q2,…qT。假设1：马尔可夫性假设（状态构成一阶马尔可夫链） P(qi|qi-1…q1) = P(qi|qi-1)