概率图模型及求解方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

概率图模型及求解方法

本文介绍概率图模型的定义和几个相关算法,概率图模型是贝叶斯统计和机器学习中的一个常用方法,在自然语言处理和生物信息中也有重要应用。关于概率图模型更详细全面的介绍参见[1],[6]。

1.1什么是概率图模型

概率图模型简单地说是用图作为数据结构来储存概率分布的模型。图中的节点表示概率分布中的随机变量,图中的边表示它连接的两个随机变量之间存在的某种关系(具体是什么关系将在后文提到)。概率图模型可以简洁的表示复杂的概率分布,并且可以利用图论中的算法来求解概率分布中的某些特性(条件独立性和边际概率),因此得到了广泛应用。

1.2有向图模型

1.2.1定义

概率图模型根据模型中的图是否为有向图分为有向图模型和无向图模型两种。有向图模型也叫贝叶斯网络。我们考虑的有向图模型中的图是有向无圈图,有向无圈图是指图中两点之间至多存在一条有向路径。我们可以对有向无圈图中的节点排序,使得图中的边都是从序号小的节点指向序号大的节点,这种排序称为拓扑排序。在有向图中,我们称存在有向边指向节点x 的节点为x 的父节点,节点x 的边指向的节点为x 的子节点。存在由节点x 到节点y 的一条有向路径,并且路径的方向指向节点y 的所有y 的集合称为x 的后代节点。容易看出,在拓扑排序下父节点的序号总是小于子节点的序号。如果图G 中存在有向圈,则节点x 可能既是节点y 的父节点又是节点的子节点,因此父节点、子节点只对有向无圈图有意义。

称概率分布P 可以由有向无圈图G 表出,如果概率分布可以分解为: 1(x)(x |pa )k k K

k P P ==∏ (1.1)

其中,pa k 表示x k 在图G 中所有父节点组成的集合。

图1. 简单的概率图模型

例1. 我们考虑图1对应的概率图模型,概率分布可以写成:

12345123124352(x ,x ,x ,x ,x )(x )(x )P(x |x ,x )P(x |x )P(x |x )P P P =

假设每个自变量可取3个值,那么用概率图模型表示这个概率分布,我们只需记录6+6+18+6+6=42个参数,而如果不用概率图模型,则需要记录3^5-1=242个参数。由此可以看出概率图模型可以节省储存空间。

1.2.2 条件独立

注意到公式(1.1)中(x |pa )k k P 取不同值时,模型表示的概率分布也不相同,但由于这些概率分布有相同的因式图,他们存在一些相同的性质。

考虑随机变量a 、b 、c ;若它们满足P(a |b,c)P(a |b)=或P(b,c)0=,则称a 与b 在给定c 的条件下条件独立,记为a b |c ⊥。

由P(a |b,c)P(a |b)=可以推出P(a,b |c)P(a |c)P(b |c)=;反之当P(b |c)0≠时,由P(a,b |c)P(a |c)P(b |c)=可以推出P(a |b,c)P(a |b)=。因此我们有a b |c ⊥当且仅当P(a,b |c)P(a |c)P(b |c)=。

图2. 三个节点头尾相接

例2. a, b, c 三个节点形状如图2所示,P(a,b,c)P(a)P(c |a)P(b |c)=,a, b 的概率分布可以表示为:P(a,b)P(a)P(c |a)P(b |c)P(a)P(b)=≠∑c ,因a 与b 不独立。a, b

在给定c 下的条件概率为:

P(a)P(c |b)P(b |c)P(a,b |c)P(a |c)P(b |c)P(c)==

因此a b |c ⊥。

图3. 三个节点尾尾相接

例3. a, b, c 三个节点形状如图3所示,P(a,b,c)P(c)P(a |c)P(b |c)=,a, b 的概率分布可以表示为: ,因a 与b 不独立。

a, b 在给定c 下的条件概率为:

P(c)P(a |c)P(b |c)P(a,b |c)P(a |c)P(b |c)P(c)

==, 因此a b |c ⊥。

图4. 三个节点头头相接

例4. a, b, c 三个节点形状如图4所示,P(a,b,c)P(a)P(b)P(c |a,b)=,a, b 的概率分布可以表示为: ,因a 与b 独立。a, b

在给定c 下的条件概率为:

P(a)P(b)P(c |a,b)P(a,b |c)P(a |c)P(b |c)P(c)

=≠, 因此a 与b 在条件c 下不条件独立。

概率图模型中图G 的结构与概率分布P 中的条件独来性存在某种关系,为了揭示这种关系,我们首先给出有向分隔的定义:

A 与

B 被

C 有向分隔如果A 中任意节点到B 中任意节点的路径满足下面两条中的任意一条:

P(a,b)P(a)P(b)P(c |a,b)P(a)P(b)==∑c P(a,b)P(c)P(a |c)P(b |c)P(a)P(b)=≠∑c

1.路径经过C 中某个节点,并且与C 中节点“头尾相连”(形如图2)或“头头相连”(图3中的c )。

2.路径中“头头相连”的节点(形如图4中的c )和它的后代节点都不在C 中。

我们有下面一个定理:

定理1. 概率分布P 可以表示由有向图G 表出当且仅当图G 中有向分隔对应于概率分布P 中的条件独立。

定理证明见参考文献[6]

有了定理1,我们可以通过找出图中所有的有向分隔来找出概率分布满足的条件独立性,但这并不能确保找出概率分布中的所有条件独立性。定理1同时建立了满足图结构的概率分布与满足一定条件独立性的概率分布之间的等价性。

1.3无向图模型

1.3.1定义

无向图模型也叫马尔科夫随机场,顾名思义,无向图模型对应的图是无向图。 首先给出最大团的定义:图的最大团是指图G 的一个完全子图C ,如果在C 中加入G 中的任何不在C 中的节点后,C 都不再是完全图。

我们称概率分布P 可以由无向图G 表出,如果概率分布可以分解为:

1(x)(x )C C C P f Z ∈Ω

=∏ (1.2) 其中x C 是与图G 中的最大团C 对应的随机变量的集合(见1.0),Ω是图G 中所有最大团组成的集合,(x )C C f 是定义在C 上的函数,称为特征函数。我们只考虑C f 取值恒大于0的情形,因为只有在这个条件下,Hammersley-Clifford 成立。

(x )C c X C

Z f =∑∏ (1.3)

Z 称为划分函数,是为了使概率分布满足归一性而定义的量。我们可以灵活的定义C f ,而不用考虑概率分布的归一性。

例5. 图5中的无向图模型的概率分布为:

12341123225334(x ,x ,x ,x )(x ,x ,x )(x ,x )(x ,x )/Z P f f f =

1.3.2条件独立性

与有向图模型类似,我们首先定义无向图模型中分隔的定义,然后给出分隔与条件独立的关系。

相关文档
最新文档