读懂概率图模型:你需要从基本概念和参数估计开始

读懂概率图模型:你需要从基本概念和参数估计开始
读懂概率图模型:你需要从基本概念和参数估计开始

读懂概率图模型:你需要从基本概念和参数估计开始

选自statsbot作者:Prasoon Goyal机器之心编译参与:Panda

概率图模型是人工智能领域内一大主要研究方向。近日,Statsbot 团队邀请数据科学家Prasoon Goyal 在其博客上分两部分发表了一篇有关概率图模型的基础性介绍文章。文章从基础的概念开始谈起,并加入了基础的应用示例来帮助初学者理解概率图模型的实用价值。机器之心对该文章进行了编译介绍。

第一部分:基本术语和问题设定

机器学习领域内很多常见问题都涉及到对彼此相互独立的

孤立数据点进行分类。比如:预测给定图像中是否包含汽车或狗,或预测图像中的手写字符是0 到9 中的哪一个。

事实证明,很多问题都不在上述范围内。比如说,给定一个句子「I like machine learning」,然后标注每个词的词性(名词、代词、动词、形容词等)。正如这个简单例子所表现出的那样:我们不能通过单独处理每个词来解决这个任务——「learning」根据上下文的情况既可以是名词,也可以是动词。这个任务对很多关于文本的更为复杂的任务非常重要,比如从一种语言到另一种语言的翻译、文本转语音等。

使用标准的分类模型来处理这些问题并没有什么显而易见

的方法。概率图模型(PGM/probabilistic graphical model)是一种用于学习这些带有依赖(dependency)的模型的强大框架。这篇文章是Statsbot 团队邀请数据科学家Prasoon Goyal 为这一框架编写的一份教程。

在探讨如何将概率图模型用于机器学习问题之前,我们需要先理解PGM 框架。概率图模型(或简称图模型)在形式上是由图结构组成的。图的每个节点(node)都关联了一个随机变量,而图的边(edge)则被用于编码这些随机变量之间的关系。

根据图是有向的还是无向的,我们可以将图的模式分为两大类——贝叶斯网络(?Bayesian network)和马尔可夫网络(Markov networks)。

贝叶斯网络:有向图模型

贝叶斯网络的一个典型案例是所谓的「学生网络(student network)」,它看起来像是这样:

这个图描述了某个学生注册某个大学课程的设定。该图中有5 个随机变量:课程的难度(Difficulty):可取两个值,0 表示低难度,1 表示高难度

学生的智力水平(Intelligence):可取两个值,0 表示不聪明,1 表示聪明

学生的评级(Grade):可取三个值,1 表示差,2 表示中,3 表示优

学生的SAT 成绩(SAT):可取两个值,0 表示低分,1 表示高分

在完成该课程后学生从教授那里所得到的推荐信的质量(Letter):可取两个值,0 表示推荐信不好,1 表示推荐信很好

该图中的边编码了这些变量之间的依赖关系。学生的Grade 取决于课程的Difficulty 和学生的Intelligence;

而Grade 又反过来决定了学生能否从教授那里得到一份好的Letter;

另外,学生的Intelligence 除了会影响他们的Grade,还会影响他们的SAT 分数。

注意其中箭头的方向表示了因果关系——Intelligence 会影响SAT 分数,但SAT 不会影响Intelligence。

最后,让我们看看与每个节点关联的表格,它们的正式名称是条件概率分布(CPD/conditional probability distribution)。

1. 条件概率分布

Difficulty 和Intelligence 的CPD 非常简单,因为这些变量并不依赖于其它任何变量。基本而言,这两个表格编码了这两个变量取值为0 和1 的概率。你可能已经注意到,每个表格中的值的总和都必须为1。

接下来看看SAT 的CPD。其每一行都对应于其父节点(Intelligence)可以取的值,每一列对应于SAT 可以取的

值。每个单元格都有条件概率p(SAT=s|Intelligence=i),也就是说:给定Intelligence 的值为i,则其为SAT 的值为s 的概率。

比如,我们可以看到p(SAT=s1|Intelligence=i1) 是0.8。也就是说,如果该学生的智力水平高,那么他的SAT 分数也很高的概率是0.8。而p(SAT=s?|Intelligence=i1) 则表示如果该学生的智力水平高,那么SAT 分数很低的概率是0.2。

注意,每一行中的值的总和为1。这是当然而然的,因为当Intelligence=i1 时,SAT 只能是s? 和s1 中的一个,所以两个概率之和必定为1。类似地,Letter 的CPD 编码了条件概率p(Letter=l|Grade=g)。因为Grade 可以取 3 个值,所以这个表格有 3 行。

有了上面的知识,Grade 的CPD 就很容易理解了。因为它有两个父节点,所以它的条件概率是这种形式:

p(Grade=g|Difficulty=d,SAT=s),即当Difficulty 为d 且SAT 为s 时Grade 为g 的概率。这个表格的每一行都对应于一对Difficulty 和Intelligence 值。同样,每一行的值的总和为1。

贝叶斯网络的一个基本要求是图必须是有向无环图

(DAG/directed acyclic graph)。

马尔可夫网络:无向图模型

一个马尔可夫网络的简单例子:为了简洁地说明,我们只

探讨这个抽象的图,其中的节点ABCDE 不像上面的例子有直接的真实案例对应。同样,这些边表示变量之间的相互作用。我们可以看到A 和 B 彼此之间有直接的影响关系,而A 和C 之间则没有。注意马尔可夫网络不需要是无环的,这一点和贝叶斯网络不一样。

1. 可能的用途

正如贝叶斯网络有CPD 一样,马尔可夫网络也有用来整合节点之间的关系的表格。但是,这些表格和CPD 之间有两个关键差异。

首先,这些值不需要总和为1,也就是说这个表格并没有定义一个概率分布。它只是告诉我们值更高的配置有更高的可能性。其次,其中没有条件关系。它与所涉及到的所有变量的联合分布成正比,这与CPD 中的条件分布不同。

这样得到的表格被称为「因子(factor)」或「势函数(potential function)」,使用希腊字母φ表示。比如,我们可以使用下面的势函数来描述变量A、B 和 C 之间的关系,其中C 是A 和B 的「软」异或(XOR),也就是说:如果A 和B 不一样,那么 C 很可能为1;如果 A 和 B 一样,那么C 很可能为0:

一般而言,你要为图中的每个极大团(maximal clique)定义一个势函数。

图结构和表格就可以简洁地表示在这些随机变量上的联合概率分布。

现在你可能会有一个问题:为什么我们需要有向图,也需要无向图?原因是有些问题使用有向图表示会更加自然,比如上面提到的学生网络,有向图可以轻松描述变量之间的因果关系——学生的智力水平会影响SAT 分数,但SAT 分数不会影响智力水平(尽管它也许能反映学生的智力水平)。而对于其它一些问题,比如图像,你可能需要将每个像素都表示成一个节点。我们知道相邻的像素互有影响,但像素之间并不存在因果关系;它们之间的相互作用是对称的。所以我们在这样的案例中使用无向图模型。

问题设置

我们已经讨论了图、随机变量和表格,你可能会想所有这些有什么意义?我们到底想做什么?这里面存在机器学习吗?数据、训练、预测都在哪里?这一节将给你答案。

让我们再回到学生网络那个例子。假设我们已经有图结构了——我们可以根据我们对世界的知识进行创建(在机器学习中,这被称为领域知识(domain knowledge))。但我们没有CPD 表,只有它们的规模。我们确实有一些数据——来自某所大学的十个不同课程,我们有这些课程的难度的测量方法。

另外,我们还有每个课程的每个学生的数据——他们的智力

水平、他们的SAT 分数、他们得到的评级以及他们是否从教授那里得到了好的推荐信。根据这些数据,我们可以估计CPD 的参数。比如说,数据可能表明有高智力水平的学生往往有很好的SAT 分数,然后我们可能会学习到:

p(SAT=s1|Intelligence=i1) 很高。这是学习阶段。我们后面会介绍我们可以如何在贝叶斯网络和马尔可夫网络中执行这

种参数估计。

现在,对于一个新数据点,你可以看到其中一些变量,但不是全部变量。比如,在下面给出的图中,你可以知道一个课程的难度和学生的SAT 分数,你想估计学生得到好的评级的概率。(现在你已经从学习阶段得到了表格中的值。)尽管我们没有可以给我们直接提供信息的CPD,但我们可以看到有高SAT 分数的学生说明该学生智力水平也很可能较高;由此,如果该课程的难度很低,那么该学生得到好评级的概率也会较高,如上图中的红色箭头所示。我们可能也想同时估计多个变量的概率,比如学生同时得到好评级和好推荐信的概率?

这种有已知值的变量被称为显变量(observed variable),而值未被观察到的变量被称为隐变量(hidden variable 或latent variable)。一般来说,显变量用灰色节点表示,而隐变量则用白色节点表示,如上图所示。我们可能想要找到一些或全部显变量的值。

这些问题的解答类似于机器学习的其它领域——在图模型中,这个过程被称为「推理(inference)」。

尽管我们使用了贝叶斯网络来描述上述术语,但这也适用于马尔可夫网络。在我们深入用于学习和推理的算法之前,让我们先形式化我们刚刚看过的思想——给定某些节点的值,我们可以得到有关其它哪些节点的信息?

条件独立

我们刚才探讨过的图结构实际上带有关于这些变量的重要信息。具体来说,它们定义了这些变量之间的一组条件独立(conditional independence),也就是这种形式的陈述——「如果观察到A,那么B 独立于C。」让我们看一些例子。

在学生网络中,让我们假设你看到了一个有很高SAT 分数的学生,你对她的评级怎么看呢?正如我们之前见过的那样,高SAT 分数说明学生的智力水平很高,因此你可以预计评级为优。如果该学生的SAT 分数很低呢?在这个案例中,你可以预计评级不会很好。

现在,让我们假设你不仅知道这个学生SAT 分数较高,也知道她的智力水平也较高。如果SAT 分数较高,那么你可以预测她的评级为优。但如果SAT 分数较低呢?你仍然可以预计评级为优,因为这个学生的智能水平高,而且你可以假设她在SAT 上表现得不够好。因此,知道这个SAT 分数并不能让我们了解有关这个学生的智力水平的任何信息。

要将其用条件独立的方式陈述,可以说——「如果已观察到Intelligence,那么SAT 和Grade 是独立的。」

我们是根据这些节点在图中的连接方式得到这个条件独立信息的。如果这些节点的连接方式不同,那么我们也会得到不同的条件独立信息。

让我们看看另一个例子。

假设你知道这个学生的智力水平高。你能对这门课程的难度有什么了解呢?一无所知,对吧?现在,如果我告诉你这个学生在这门课程上得到了一个差的评级,又会怎样呢?这说明这门课程很难,因为我们知道一个聪明的学生得了一个差。因此我们可以这样写我们的条件独立陈述——「如果未观察到Grade,那么Intelligence 和Difficulty 是相互独立的。」

因为这些陈述都表达了在一定条件下两个节点之间的独立性,所以被称为条件独立。注意这两个例子有相反的语义——在第一个例子中,如果观察到相连的节点则独立性成立;第二个例子则是未观察到相连的节点则独立性成立。这种差异是由节点连接的方式(即箭头的方向)造成的。

为了行文简洁,我们不会在这里覆盖所有可能的情况,但这些情况都很简单,凭直觉就能看出来。

在马尔可夫网络中,我们可以使用类似的直觉,但因为其中没有有方向的边(箭头),所以其条件独立陈述相对简单—

—如果节点A 和 B 之间没有路径能使得该路径上的所有

节点都被观察到,那么A 和 B 就是相互独立的。换种说法:如果在 A 和B 之间至少有一条路径上的所有中间节点都

未被观察到,那么A 和 B 就不是相互独立的。

我们会在本博客的第二部分查看完成参数估计和推理的细节。现在让我们看看贝叶斯网络的应用,我们可以在其中用到我们刚学习到的条件独立思想。

应用:三门问题

你肯定在某个电视游戏节目中看到过这个问题的某个版本:主持人会向你展示三扇关着的门,其中一扇门之后有一辆车,其它门后则有一些无价值的东西。你可以选择一扇门。然后,主持人会打开剩下的两扇门中没有车的一扇。现在,你可以选择是否更换选择的门:坚持你之前选择的那扇门,还是选择主持人剩下的那扇关闭的门。你会更换吗?

直觉上看,主持人似乎并没有透露任何信息。事实证明这种直觉并不完全正确。让我们使用我们的新工具「图模型」来理解这个问题。

我们首先先定义一些变量:D:背后有车的门

F:你的第一个选择

H:主持人打开的门

I:F 是否是D?

D、F 和H 可取值为1、2 或3;I 可取值0 或1。D 和

I 是未被观察到的,而F 是已观察到的。在主持人打开其中一扇门之前,H 都是未被观察到的。因此,我们使用贝叶斯网络来解决我们的问题:

注意箭头的方向——D 和 F 是相互独立的,I 显然依赖于D 和F,主持人选择的门也取决于D 和F。目前你对D 还一无所知。(这与学生网络的结构类似,即知道学生的智力水平不能让你获得有关课程难度的任何信息。)

现在,主持人选择了门H 并打开了它。所以现在H 已被观察到。

观察H 不能为我们提供任何有关I 的信息,也就是说不能表明我们是否选择了正确的门。我们的直觉是这样认为的。但是它却向我们提供了一些有关 D 的信息!(同样,类比一下学生网络,如果你知道学生的智力水平高而评级差,你就能了解一些有关课程难度的信息。)

让我们使用数字来看看。这些变量的CPD 表格如下所示(这是没观察到任何变量的时候):

D 和F 的表格很简单——背后有车的门可能是这些门中的任何一扇且概率相等,我们选择其中一扇的概率是一样的。

I 的表格是说当D 和F 一样时I=1,当D 和F 不一样时I=0。H 的表格是说如果D 和F 一样,那么主持人从另外

两扇门选择一扇门的概率一样;如果 D 和 F 不一样,那么主持人就选择第三扇门。

现在,让我们假设我们已经选择了一扇门。也就是说现在已经观察到F,假设F=1。那么给定F 时,I 和 D 的条件概率是多少?

使用这些等式,我们可以得到以下概率:这些数字是有道理的——到目前为止,我们选对了门的概率都是三分之一,汽车仍然有可能在任何一扇门之后且概率相等。

现在,主持人打开了 F 之外的另一扇门,所以我们观察到了H。假设H=2。让我们再计算给定了 F 和H 时I 和 D 的条件概率。

使用这些等式,我们可以得到以下概率:

因此,我们对I 没有任何额外的信息——我们第一个选择正确的概率仍然是三分之一,我们的直觉也是如此。但是,现在车在第 3 扇门后的概率不再是三分之一,而是三分之二了。

所以如果我们更换选择,那么我们得到车的概率是三分之二;如果我们不换,我们得到车的概率是三分之一。

我们不使用图模型也能得到同样的答案,但图模型给我们提供了一个框架,让我们可以扩展到更大型问题。

结论

在这个概率图模型教程中,我们了解了图模型领域的一些基本术语,包括贝叶斯网络、马尔可夫网络、条件概率分布、势函数和条件独立。我们也探讨了图模型在三门问题上的应用。

在本博客的第二部分,我们将介绍一些用于参数估计和推理的算法以及另一个应用。

第二部分:参数估计和推理算法

在本概率图模型教程的第一部分,Statsbot 团队介绍了两种类型的图模型,即贝叶斯网络和马尔可夫网络。另外还探讨了图模型的问题设定、条件独立以及在三门问题上的应用。这一部分将介绍参数估计和推理,并还将探讨另一个应用。参数估计

1. 贝叶斯网络

估计贝叶斯网络的CPD 表格中的数值很简单,就是计算训练数据中事件发生的次数。也就是说,如果要估计

p(SAT=s1|Intelligence=i1),我们只需要计算SAT=s1 且Intelligence = i1 的数据点在Intelligence = i1 的数据点总量中所占的比例。尽管这种方法看起来似乎是特定于这个问题的,但事实证明这样获得的参数能够最大化被观察到的数据的可能性。

2. 马尔可夫网络

上述计数方法对马尔可夫网络没有统计学上的支持(因此会

得到次优的参数)。所以我们需要使用更加复杂的技术。这些技术背后的基本思想是梯度下降——我们定义一些描述

其概率分布的参数,然后使用梯度下降来寻找能最大化被观察数据的可能性的参数值。

最后,我们有了我们模型的参数,我们想在新数据上使用它们,也就是执行推理!

推理

围绕推理的概率图模型的文献可谓汗牛充栋,原因有两方面:

1. 推理就是我们打造这整个框架的原因——要根据我们已

知的信息做出预测。2. 推理在计算上很困难!在某些特定类型的图中我们可以相当高效地执行推理,但一般而言图的计算都很难。所以我们需要使用近似算法来在准确度和效率之间进行权衡。

我们可以使用推理来解答一些问题:边际推理(marginal inference):寻找一个特定变量的概率分布。比如,给定一个带有变量A、B、C 和 D 的图,其中 A 取值1、2 和3,求p(A=1)、p(A=2) 和p(A=3)。

后验推理(posterior inference):给定某些显变量v_E(E 表示证据(evidence)),其取值为e,求某些隐藏变量v_H 的后验分布p(v_H|v_E=e)。

最大后验(MAP)推理(maximum-a-posteriori inference):

给定某些显变量v_E,其取值为e,求使其它变量v_H 有最高概率的配置。

解答这些问题本身可能就很有用,也可能被用作更大规模的任务的一部分。

接下来,我们将介绍一些用于解答这些问题的流行的算法,其中既有精准的算法,也有近似的算法。所有这些算法都既可用于贝叶斯网络,也可用于马尔可夫网络。

变量消除(variable elimination)

使用条件概率的定义,我们可以将后验分布写作:

我们可以怎样计算上式中的分子和分母呢?让我们用一个简单的例子进行说明。考虑一个有三个变量的网络,其联合分布定义如下:

假设我们想计算p(A|B=1)。注意这意味着我们想计算

p(A=0|B=1) 和p(A=1|B=1),这两个值的和应该为1。使用上面的等式,我们可以写:

分子是A=0 且B=1 的概率。我们不关心 C 的值。所以我们会把 C 的所有值都加起来。(这是由于基本概率p(A=0, B=1, C=0) 和p(A=0, B=1, C=1) 是互斥事件,所以它们的联合概率p(A=0, B=1) 就是各个概率的总和。)

所以我们将第 3 和4 行加起来得到p(A=0, B=1)=0.15。类似地,将第7 和8 行加起来得到p(A=1, B=1)=0.40。另外,我们可以求所有包含B=1 的行的总和来计算分母,即第3、4、7、8 行,从而得到p(B=1)=0.55。从而我们可以得到:p(A=0|B=1) = 0.15 / 0.55 = 0.27p(A=1|B=1) = 0.40 / 0.55 =

0.73

如果你仔细看看上面的计算,你可以发现我们做了一些重复的计算——将 3 和4 行以及7 和8 行加了两次。计算

p(B=1) 的更高效方法是直接将p(A=0, B=1) 和p(A=1, B=1) 的值加起来。这是变量消除的基本思想。

一般来说,当有很多变量时,你不仅可以使用分子的值来计算分母,而且分子本身也可能会包含重复的计算。你可以使用动态编程来高效地使用之前已计算出的值。

因为我们一次对一个变量进行求和,从而可以消除这个变量,所以对多个变量进行求和的过程相当于逐个消除这些变量。所以我们将这个过程称为「变量消除」。

我们也可以相当简单直接地将上述过程用于求解边际推理

或MAP 推理问题。类似地,也可以容易地将上述思想推广应用于马尔可夫网络。

变量消除的时间复杂度取决于图结构以及你消除这些变量

的顺序。在最糟糕的情况下,时间复杂度会指数式增长。

置信度传播(Belief Propagation)

我们刚才看到的变量消除算法只会得到一个最终分布。假设我们想找到所有变量的边际分布。除了多次运行变量消除之外,我们还有更聪明的方法。

假设你有一个图结构了。为了计算某个边际,你需要对其在其它所有变量上的联合分布进行求和,这相当于将整个图的信息聚合到一起。还有另一种聚合整个图的信息的方法——每个节点都检查其邻近节点,然后以局部的方式近似变量的分布。

然后,每一对相邻节点都互相发送「消息」,这些消息中包含了其局部分布。现在,每个节点都检查其收到的消息,然后将它们聚合起来以更新变量的概率分布。

在上图中,C 聚合了来自邻近节点 A 和 B 的信息,然后再发送一个消息给D。然后 D 将这个消息与来自 E 和 F 的信息聚合起来。

这种方法的优点是如果你保存了你在每个节点处发送的消息,那么将这些消息进行一次前向通过,然后再进行一次反向通过,就能让所有节点都得到所有其它节点的信息。然后这个信息可以被用于计算所有的边际,这是无法使用变量消除实现的。

近似推理

对于大型的图模型来说,进行精准的推理可能极其耗时,为

此很多用于图模型的近似推理算法被开发了出来,其中大多数都属于下面两类:

1. 基于采样的近似推理

这些算法使用采样来估计希望得到的概率。举个简单的例子。考虑这个场景:给定一个硬币,你如何确定它被抛出后正面朝上的概率?最简单的做法就是抛这个硬币,比如抛100 次,然后看其中正面朝上多少次。

这是一种用于估计正面朝上的概率的基于采样的算法。对于概率图模型领域内的更复杂的算法,你也可以使用类似的流程。基于采样的算法还可以进一步分为两类。一类中的样本是相互独立的,比如上面抛硬币的例子。这些算法被称为蒙特卡洛方法。

对于有很多变量的问题,生成高质量的独立样本是很困难的,因此我们就生成带有依赖关系的样本,也就是说每个新样本都是随机的,但邻近上一个样本。这种算法被称为马尔可夫链蒙特卡洛(MCMC)方法,因为这些样本会形成一个马尔可夫链(Markov chain)。一旦我们得到了样本,我们就可以将其用于解答各种推理问题。

2. 变分法近似推理

变分法近似推理不是使用采样,而是试图通过分析的方式来近似所需的分布。假设你写出了计算相关分布的表达式——不管这个分布是边际概率分布还是后验概率分布。

通常这些表达式里面有求和或积分,要精确评估是极其消耗计算资源的。要近似这些表达式,一种好方法是求解一个替代表达式,并且通过某种方法使该替代表达式接近原来的表达式。这就是变分法背后的基本思想。

当我们试图估计一个复杂的概率分布p_complex 时,我们定义另一组更易于操作的概率分布P_simple,然后基于

P_simple 得到最接近于p_complex 的概率分布p_approx。应用:图像去噪

现在让我们将刚才探讨的一些思想用在真正的问题上。假设你有以下图像:现在假设这张图像受到了随机噪声的污染,变成了有噪声的图像:

现在你的目标是恢复原始图像。让我们看看如何使用概率图模型来实现。首先第一步是思考哪些变量是观察得到的,哪些变量不能观察到,以及我们可以如何将它们连接起来构成一个图。让我们将有噪声图像中的每个像素都定义为一个观察到的随机变量,并将基准图像中的每个像素都定义为一个未被观察到的变量。由此,如果该图像的大小为MxN,那么观察到的变量和未被观察到的变量都各有MN 个。让我们将观察到的变量表示为X_ij,未被观察到的变量定义为

Y_ij。每个变量都可取值+1 或-1(分别对应于黑色像素和白色像素)。给定观察到的变量,我们希望找到未观察到的

变量的最有可能的值。这对应于MAP 推理。

现在让我们使用一些领域知识来构建图结构。很显然,在有噪声图像中的(i,j) 位置观察到的变量取决于在基准图像中的(i,j) 位置未观察到的变量。原因是大多数时候它们是相等的。

我们还能得到什么信息?对于基准图像,邻近的像素通常有一样的值——在颜色变化的边界不是这样,但在每个单一颜色的区域内有这个性质。因此,如果Y_ij 和Y_kl 是邻近像素,那么我们将它们连接起来。

由此,我们得到图结构:

其中,白色节点表示未被观察到的变量Y_ij,灰色节点表示观察到的变量X_ij。每个X_ij 都连接到对应的Y_ij,每个Y_ij 都连接到它的相邻节点。

注意这是一个马尔可夫网络,因为图像的像素之间不存在因果关系,因此这里不适合使用贝叶斯网络中有方向的箭头。我们的MAP 推理问题可以用数学的方式写出,如下:这里我们使用了最大对数似然(maximum log likelihood)计算中的一些常用的标准简化技术。我们将使用X 和Y(没有下标)来分别表示所有X_ij 值和所有Y_ij 值的集合。

现在,我们需要根据我们的图结构来定义我们的联合分布

P(X,Y)。让我们假设P(X,Y) 由两类因子组成——?(X_ij,

概率论与数理统计浙大四版习题答案第七章

第七章 参数估计 1.[一] 随机地取8只活塞环,测得它们的直径为(以mm 计) 74.001 74.005 74.003 74.001 74.000 73.998 74.006 74.002 求总体均值μ及方差σ2的矩估计,并求样本方差S 2。 解:μ,σ2的矩估计是 61 22 106)(1?,002.74?-=?=-===∑n i i x X n X σ μ 621086.6-?=S 。 2.[二]设X 1,X 1,…,X n 为准总体的一个样本。求下列各总体的密度函数或分布律中的未知参数的矩估计量。 (1)???>=+-其它,0,)()1(c x x c θx f θθ 其中c >0为已知,θ>1,θ为未知参数。 (2)?? ???≤≤=-.,01 0,)(1其它x x θx f θ 其中θ>0,θ为未知参数。 (5)()p p m x p p x X P x m x m x ,10,,,2,1,0,)1()(<<=-==-Λ为未知参数。 解:(1)X θc θθc θc θc θdx x c θdx x xf X E θθc θ θ =--=-== =+-∞+-∞+∞ -? ? 1 ,11)()(1令, 得c X X θ-= (2),1)()(10 += = = ? ? ∞+∞ -θθdx x θdx x xf X E θ 2 )1(,1 X X θX θθ-==+得令 (5)E (X ) = mp 令mp = X , 解得m X p =? 3.[三]求上题中各未知参数的极大似然估计值和估计量。 解:(1)似然函数 1211 )()()(+-=== ∏θn θn n n i i x x x c θ x f θL Λ 0ln ln )(ln ,ln )1(ln )ln()(ln 1 1 =- +=-++=∑∑ ==n i i n i i x c n n θθ d θL d x θc θn θn θL

机器学习 —— 概率图模型(推理:决策)

Koller 教授把决策作为一种单独的模块进行讲解,但我认为,决策和推理本质上是一样的,都是在假设已知CPD或者势函数的情况下对模型给出结论。 1、决策==逐利 决策的基本思想很intuitive,并且非常有用。在赌博行为中,最后获得的钱与硬币的正反,赌注的大小有关。硬币的正反显然是随机变量,而赌注的大小却是决策量。显而易见的是,决策的最终目的是使得某个期望最大化。再举一个视觉中的例子,对于双目配准算法而言,左相机对应右相机的像素可以认为是随机变量。但是否将两个像素配在一起却可以认为是一个决策(假设像素一一对应,如果甲配了乙就不能配丙了,希望配准的最终结果是尽可能正确的)。故决策的数学表达为: 其中,P(X|A)表示在给定决策下,随机变量X的概率。U(x,a)表示给定决策下,x发生所获得的收益。简单的决策如图所示:

2、决策的方法 显然从上面的分析可知,我们要做的决策就是使得期望最大化的那个。换一个角度来看,如果每次的决策都是未知的,决策取决于已知信息,决策影响最终结果,如果决策也是随机变量,我们应该把获利最多的那个决策组作为我们所需采取的决策库。换而言之,凡事应有a,b,c三策,不同的策略对应不同的情况。显然,我们所需要采取的策略取决于已知的信息(Action的父节点)。而策略组本身就是一个随机变量。 如图所示,如果变量真实值无法观测,只能通过一个传感器(survey)来进行推测时,决策应该取决于S的值。S的值又和其所有父节点(M)的值相关。MEU表示所选择的策略。

显然,我们需要P(S)deta(F|S)U(F,M),然后P(S)需要对P(M,S)进行边际获得。故表达式如上。带入数据发现

概率图模型研究进展综述

软件学报ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.360docs.net/doc/264969649.html, Journal of Software,2013,24(11):2476?2497 [doi: 10.3724/SP.J.1001.2013.04486] https://www.360docs.net/doc/264969649.html, +86-10-62562563 ?中国科学院软件研究所版权所有. Tel/Fax: ? 概率图模型研究进展综述 张宏毅1,2, 王立威1,2, 陈瑜希1,2 1(机器感知与智能教育部重点实验室(北京大学),北京 100871) 2(北京大学信息科学技术学院智能科学系,北京 100871) 通讯作者: 张宏毅, E-mail: hongyi.zhang.pku@https://www.360docs.net/doc/264969649.html, 摘要: 概率图模型作为一类有力的工具,能够简洁地表示复杂的概率分布,有效地(近似)计算边缘分布和条件分 布,方便地学习概率模型中的参数和超参数.因此,它作为一种处理不确定性的形式化方法,被广泛应用于需要进行 自动的概率推理的场合,例如计算机视觉、自然语言处理.回顾了有关概率图模型的表示、推理和学习的基本概念 和主要结果,并详细介绍了这些方法在两种重要的概率模型中的应用.还回顾了在加速经典近似推理算法方面的新 进展.最后讨论了相关方向的研究前景. 关键词: 概率图模型;概率推理;机器学习 中图法分类号: TP181文献标识码: A 中文引用格式: 张宏毅,王立威,陈瑜希.概率图模型研究进展综述.软件学报,2013,24(11):2476?2497.https://www.360docs.net/doc/264969649.html,/ 1000-9825/4486.htm 英文引用格式: Zhang HY, Wang LW, Chen YX. Research progress of probabilistic graphical models: A survey. Ruan Jian Xue Bao/Journal of Software, 2013,24(11):2476?2497 (in Chinese).https://www.360docs.net/doc/264969649.html,/1000-9825/4486.htm Research Progress of Probabilistic Graphical Models: A Survey ZHANG Hong-Yi1,2, WANG Li-Wei1,2, CHEN Yu-Xi1,2 1(Key Laboratory of Machine Perception (Peking University), Ministry of Education, Beijing 100871, China) 2(Department of Machine Intelligence, School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China) Corresponding author: ZHANG Hong-Yi, E-mail: hongyi.zhang.pku@https://www.360docs.net/doc/264969649.html, Abstract: Probabilistic graphical models are powerful tools for compactly representing complex probability distributions, efficiently computing (approximate) marginal and conditional distributions, and conveniently learning parameters and hyperparameters in probabilistic models. As a result, they have been widely used in applications that require some sort of automated probabilistic reasoning, such as computer vision and natural language processing, as a formal approach to deal with uncertainty. This paper surveys the basic concepts and key results of representation, inference and learning in probabilistic graphical models, and demonstrates their uses in two important probabilistic models. It also reviews some recent advances in speeding up classic approximate inference algorithms, followed by a discussion of promising research directions. Key words: probabilistic graphical model; probabilistic reasoning; machine learning 我们工作和生活中的许多问题都需要通过推理来解决.通过推理,我们综合已有的信息,对我们感兴趣的未 知量做出估计,或者决定采取某种行动.例如,程序员通过观察程序在测试中的输出判断程序是否有错误以及需 要进一步调试的代码位置,医生通过患者的自我报告、患者体征、医学检测结果和流行病爆发的状态判断患者 可能罹患的疾病.一直以来,计算机科学都在努力将推理自动化,例如,编写能够自动对程序进行测试并且诊断 ?基金项目: 国家自然科学基金(61222307, 61075003) 收稿时间:2013-07-17; 修改时间: 2013-08-02; 定稿时间: 2013-08-27

概率图模型中的推断

概率图模型中的推断 王泉 中国科学院大学网络空间安全学院 2016年11月

?推断问题回顾 ?精确推断:信念传播 –信念传播算法回顾 –信念传播在HMM中的应用?近似推断:吉布斯采样–吉布斯采样算法回顾 –吉布斯采样在LDA中的应用

?推断问题回顾 ?精确推断:信念传播 –信念传播算法回顾 –信念传播在HMM中的应用?近似推断:吉布斯采样–吉布斯采样算法回顾 –吉布斯采样在LDA中的应用

?已知联合概率分布 P x 1,?,x n ,估计 –x Q 问题变量;x E 证据变量;x Q ∪x E =x 1,?,x n P R =1 P R =0 0 P R =1G =1= ? P B =0.001 P E =0.002 P A B ,E =0.95 P A B ,?E =0.94 P A ?B ,E =0.29 P A ?B ,?E =0.001 P J A =0.9 P J ?A =0.05 P M A =0.7 P M ?A =0.01 P B =1E =0,J =1=? P x Q x E =x Q ,x E x E

?已知联合概率分布 P x 1,?,x n ,估计 –x Q 问题变量;x E 证据变量;x Q ∪x E =x 1,?,x n P x Q x E =x Q ,x E x E 观测图片 y i 原始图片 x i y ?=argmax P y x 朴素贝叶斯 x ?=argmax P x y 图像去噪

?精确推断:计算P x Q x E的精确值 –变量消去 (variable elimination) –信念传播 (belief propagation) –计算复杂度随着极大团规模的增长呈指数增长,适用范围有限?近似推断:在较低的时间复杂度下获得原问题的近似解–前向采样 (forward sampling) –吉布斯采样 (Gibbs sampling) –通过采样一组服从特定分布的样本,来近似原始分布,适用范围更广,可操作性更强

概率论与数理统计第四版课后习题答案

概率论与数理统计课后习题答案 第七章 参数估计 1.[一] 随机地取8只活塞环,测得它们的直径为(以mm 计) 求总体均值μ及方差σ2的矩估计,并求样本方差S 2。 解:μ,σ2的矩估计是 61 22 106)(1?,002.74?-=?=-===∑n i i x X n X σ μ 621086.6-?=S 。 2.[二]设X 1,X 1,…,X n 为准总体的一个样本。求下列各总体的密度函数或分布律中的未知参数的矩估计量。 (1)? ??>=+-其它,0,)()1(c x x c θx f θθ 其中c >0为已知,θ>1,θ为未知参数。 (2)?? ???≤≤=-.,01 0,)(1其它x x θx f θ 其中θ>0,θ为未知参数。 (5)()p p m x p p x X P x m x m x ,10,,,2,1,0,)1()(<<=-==-Λ为未知参数。 解:(1)X θc θθc θc θc θdx x c θdx x xf X E θθc θ θ =--=-== =+-∞+-∞+∞ -? ? 1 ,11)()(1令, 得c X X θ-= (2),1)()(10 += = = ? ? ∞+∞ -θθdx x θdx x xf X E θ 2 )1(,1 X X θX θθ-==+得令 (5)E (X ) = mp 令mp = X , 解得m X p =? 3.[三]求上题中各未知参数的极大似然估计值和估计量。 解:(1)似然函数 1211 )()()(+-=== ∏θn θn n n i i x x x c θ x f θL Λ 0ln ln )(ln ,ln )1(ln )ln()(ln 1 1 =- +=-++=∑∑ ==n i i n i i x c n n θ θd θL d x θc θn θn θL

概率图模型介绍与计算

概率图模型介绍与计算 01 简单介绍 概率图模型是图论和概率论结合的产物,它的开创者是鼎鼎大名的Judea Pearl,我十分喜欢概率图模型这个工具,它是一个很有力的多变量而且变量关系可视化的建模工具,主要包括两个大方向:无向图模型和有向图模型。无向图模型又称马氏网络,它的应用很多,有典型的基于马尔科夫随机场的图像处理,图像分割,立体匹配等,也有和机器学习结合求取模型参数的结构化学习方法。严格的说他们都是在求后验概率:p(y|x),即给定数据判定每种标签y的概率,最后选取最大的后验概率最大的标签作为预测结果。这个过程也称概率推理(probabilistic inference)。而有向图的应用也很广,有向图又称贝叶斯网络(bayes networks),说到贝叶斯就足以可以预见这个模型的应用范围咯,比如医疗诊断,绝大多数的机器学习等。但是它也有一些争议的地方,说到这就回到贝叶斯派和频率派几百年的争议这个大话题上去了,因为贝叶斯派假设了一些先验概率,而频率派认为这个先验有点主观,频率派认为模型的参数是客观存在的,假设先验分布就有点武断,用贝叶斯模型预测的结果就有点“水分”,不适用于比较严格的领域,比如精密制造,法律行业等。好吧,如果不遵循贝叶斯观点,前面讲的所有机器学习模型都可以dismiss咯,我们就通过大量数据统计先验来弥补这点“缺陷”吧。无向图和有向图的例子如(图一)所示: 图一(a)无向图(隐马尔科夫)(b)有向图 概率图模型吸取了图论和概率二者的长处,图论在许多计算领域中扮演着重要角色,比如组合优化,统计物理,经济等。图的每个节点都可看成一个变量,每个变量有N个状态(取值范围),节点之间的边表示变量之间的关系,它除了

概率统计第七章参数估计参考答案

概 班级 姓名 学号 任课教师 第七章 参数估计 教学要求: 一、理解点估计的概念,了解矩估计法和极大似然估计法; 二、了解无偏性、有效性、一致性等估计量的评判标准; 三、理解区间估计的概念,会求单个正态总体均值与方差的置信区间,会求两个正态总体均值差与方差比的置信区间. 重点:极大似然估计法、矩估计法. 难点:置信区间的定义及求法. 习题一 点估计 1.随机抽取8只活塞环,测得它们的直径(单位:mm )为: 74.001, 74.005, 74.003, 74.001, 74.000, 73.998, 74.006, 74.002 试求总体均值μ与总体方差2σ的矩估计值,并求样本方差2 s . 解:总体的一、二阶原点矩分别为: ()μ=X E , () ()()[]222 2μσ+=+=X E X D X E ; 样本的一、二阶中心矩分别为: X X n A n i i ==∑=111, ∑==n i i X n A 1 2 21; 由矩估计法有 ()X A X E ===∧ ∧ 1μ, ()22 2 2 A X E =+=∧∧ ∧ μσ , 即 X =∧ μ, () ∑∑==∧∧ -=-=-=n i i n i i X X n X X n A 12 2122 22 11μσ 由题中所给数据得 001.74=∧ μ, 52 10388.1-∧?=σ

2.设总体X 的密度函数为,()??? ??≤>=-;0, 0,0,1x x e x f x θθ 其中θ0>是未知参数,求θ的矩 估计. 解:因为 ()θθ θ=== - ∞ +∞ +∞ -? ? dx e x dx x xf X E x 1 )( 则 X =∧ θ. 3.设总体X 服从泊松分布,其分布律为λλ-==e x x X P x ! }{, ,2,1=x .试求未知参 数λ)0(>λ的矩估计. 解:因为 λλλλλλλ λ λ λ =-=-=? =? =∑∑ ∑∑∞ =---∞ =-∞ =∞ =-1 1 11 )!1()! 1(! ! )(x x x x x x x x x e e x e x x x e x X E , 故 X =∧ λ. 4.设总体X 的密度函数为:σ σ x e x f -=21)( ,)(+∞<<-∞x 求参数σ)0(>σ的最大似然估计. 解:似然函数为 ()σ σσσ σ∑=∏==---=n i i i x n x n i e e L 1 221)(1, σ σσ∑=- -=n i i x n L 1 )2ln()(ln , 对σ求导得似然方程 01 )(ln 1 2 =+-=∑=n i i x n d L d σ σσσ 求得σ的最大似然估计为 ∑=∧ =n i i ML x n 1 1σ. 5.已知某种白炽灯泡的使用寿命服从正态分布,其分布参数均未知.在某个星期所生产的这种灯泡中随机抽取10只,测得其寿命(单位:小时)为: 1067, 919, 1196, 785, 1126, 936, 918, 1156, 920, 948. 试用最大似然估计法估计这个星期中生产的灯泡能使用1300小时以上的概率.

概率论习题试题集6

第六章 参数估计 一、填空题 1. 若一个样本的观测值为0,0,1,1,0,1,则总体均值的矩估计值为___________,总体方差的矩估计值为___________。 2. 设1,0,0,1,1是来自两点分布总体),1(p B 的样本观察值,则参数p q -=1的矩估计值为 ___________。 3. 若由总体),(θx F (θ为未知参数)的样本观察值所求得95.0)9.355.35(=<

概率论与数理统计(理工类-第四版)吴赣昌主编课后习题答案第六章

第六章参数估计 6.1 点估计问题概述 习题1 总体X在区间[0,θ]上均匀分布,X1,X2,?,Xn是它的样本,则下列估计量θ?是θ的一致估计是(). (A)θ?=Xn; (B)θ?=2Xn; (C)θ?=Xˉ=1n∑i=1nXi; (D)θ?=Max{X1,X2,?,Xn}. 解答: 应选(D). 由一致估计的定义,对任意?>0, P(∣Max{X1,X2,?,Xn}-θ∣θ,及F(x)=FMax{X1,X2,?,Xn}(x)=FX1(x)FX2(x)?FXn(x),所以 F(?+θ)=1, F(-?+θ)=P(Max{X1,X2,?,Xn}<-?+θ)=(1-xθ)n, 故 P(∣Max{X1,X2,?,Xn}-θ∣

(A)矩估计量; (B)最大似然估计量; (C)无偏估计量; (D)相合估计量. 解答: 应选(D). 因为,总体标准差σ的矩估计量和最大似然估计量都是未修正的样本标准差;样本方差是总体方差的无偏估计,但是样本标准差不是总体标准差的无偏估计.可见,样本标准差S是总体标准差σ的相合估计量. 习题3 设总体X的数学期望为μ,X1,X2,?,Xn是来自X的样本,a1,a2,?,an是任意常数,验证(∑i=1naiXi)/∑i=1nai(∑i=1nai≠0)是μ的无偏估计量. 解答: E(X)=μ, E(∑i=1naiXi∑i=1nai)=1∑i=1nai?∑i=1naiE(Xi)(E(Xi)=E(X)=μ) =μ∑i=1nai∑i=1n=μ, 综上所证,可知∑i=1naiXi∑i=1nai是μ的无偏估计量. 习题4 设θ?是参数θ的无偏估计,且有D(θ?)>0, 试证θ?2=(θ?)2不是θ2的无偏估计. 解答: 因为D(θ?)=E(θ?2)-[E(θ?)]2, 所以 E(θ?2)=D(θ?)+[E(θ?)]2=θ2+D(θ?)>θ2, 故(θ?)2不是θ2的无偏估计. 习题5

概率论与数理统计参数估计

第六章 参数估计 在实际问题中, 当所研究的总体分布类型已知, 但分布中含有一个或多个未知参数时, 如何根据样本来估计未知参数,这就是参数估计问题. 参数估计问题分为点估计问题与区间估计问题两类. 所谓点估计就是用某一个函数值作为总体未知参数的估计值;区间估计就是对于未知参数给出一个范围,并且在一定的可靠度下使这个范围包含未知参数. 例如, 灯泡的寿命X 是一个总体, 根据实际经验知道, X 服从),(2σμN , 但对每一批灯泡而言, 参数2,σμ是未知的,要写出具体的分布函数, 就必须确定出参数. 此类问题就属于参数估计问题. 参数估计问题的一般提法: 设有一个统计总体, 总体的分布函数为),(θx F , 其中θ为未知参数(θ可以是向量). 现从该总体中随机地抽样, 得一样本 n X X X ,,,21 , 再依据该样本对参数θ作出估计, 或估计参数θ的某已知函数).(θg 第一节 点估计问题概述 内容分布图示 ★ 引言 ★ 点估计的概念 ★ 例1 ★ 评价估计量的标准 ★ 无偏性 ★ 例2 ★ 例3 ★ 有效性 ★ 例4 ★ 例5 ★ 例6 ★ 相合性 ★ 例7 ★ 例8 ★ 内容小结 ★ 课堂练习 ★ 习题6-1 ★ 返回 内容要点: 一、点估计的概念 设n X X X ,,,21 是取自总体X 的一个样本, n x x x ,,,21 是相应的一个样本值. θ是总体分布中的未知参数, 为估计未知参数θ, 需构造一个适当的统计量 ),,,,(?2 1 n X X X θ 然后用其观察值 ),,,(?21n x x x θ 来估计θ的值. 称),,,(?21n X X X θ为θ的估计量. 称),,,(?21n x x x θ为θ的估计值. 在不致混淆的情况下, 估计量与估计值统称为点估计,简称为估计, 并简记为θ?. 注: 估计量),,,(?21n X X X θ是一个随机变量, 是样本的函数,即是一个统计量, 对不同的样本值, θ的估计值θ?一般是不同的. 二、评价估计量的标准 从例1可见,参数点估计的概念相当宽松, 对同一参数,可用不同的方法来估计, 因而得到不同的估计量, 故有必要建立一些评价估计量好坏的标准. 估计量的评价一般有三条标准:

第七章参数估计练习题(最新整理)

第七章参数估计练习题 一.选择题 1.估计量的含义是指() A.用来估计总体参数的统计量的名称 B.用来估计总体参数的统计量的具体数值 C.总体参数的名称 D.总体参数的具体取值 2.一个95%的置信区间是指() A.总体参数有95%的概率落在这一区间内 B.总体参数有5%的概率未落在这一区间内 C. 在用同样方法构造的总体参数的多个区间中,有95%的区间包含该总体参数。 D.在用同样方法构造的总体参数的多个区间中,有95%的区间不包含该总体参数。 3.95%的置信水平是指() A.总体参数落在一个特定的样本所构造的区间内的概率是95% B.在用同样方法构造的总体参数的多个区间中,包含总体参数的区间比例为95% C.总体参数落在一个特定的样本所构造的区间内的概率是5% D.在用同样方法构造的总体参数的多个区间中,包含总体参数的区间比例为5% 4.根据一个具体的样本求出的总体均值的95%的置信区间() A.以95%的概率包含总体均值 B.有5%的可能性包含总体均值 C.一定包含总体均值 D.要么包含总体均值,要么不包含总体均值 5. 当样本量一定时,置信区间的宽度() A.随着置信水平的增大而减小 B. .随着置信水平的增大而增大 C.与置信水平的大小无关D。与置信水平的平方成反比 6.当置信水平一定时,置信区间的宽度() A.随着样本量的增大而减小 B. .随着样本量的增大而增大 C.与样本量的大小无关D。与样本量的平方根成正比 7.在参数估计中,要求通过样本的统计量来估计总体参数,评价统计量的标准之一是使它与总体参数的离差越小越好。这种评价标准称为() A.无偏性 B.有效性 C. 一致性D. 充分性 8. 置信水平(1-α)表达了置信区间的() A.准确性 B. 精确性 C. 显著性D. 可靠性 9. 在总体均值和总体比例的区间估计中,边际误差由() A.置信水平决定 B. 统计量的抽样标准差确定 C. 置信水平和统计量的抽样标准差 D. 统计量的抽样方差确定 10. 当正态总体的方差未知,且为小样本条件下,估计总体均值使用的分布是() A.正态分布 B. t分布 C.χ2分布 D. F分布 11. 当正态总体的方差未知,且为大样本条件下,估计总体均值使用的分布是()

概率论与数理统计习题7解答

习题七解答 7.1.设n X X X ,,,21 为抽自二项分布B(m,p) 的样本 试求p 的矩估计和极大似然估计。 解:(1)求p 的矩估计。),(~p m B X ,因此总体的一阶原点矩为 np EX ==1μ 按矩法估计有 X X n mp n i i == ∑=1 1 因此p 的矩估计m X p =? (2)求p 的极大似然估计。参数P 的极大似然函数为 ∏=--= n i X m X X m i i i p p C p L 1 ) 1()(∑-∑??? ? ??===- =∏n i i n i i i X nm X n i x m p p C 1 ) 1(1 =)(ln p L )1(ln )(ln ln 1 1 1 p X mn p X C n i i n i i n i x m i -- ++??? ? ??=∑ ∑ ∏=== 令 dp p L d ) (ln 0)(1 111 1 =- -+ =∑∑==n i i n i i X mn p X p 即 0)()1(=-+-X n mn p X n p 由此得P 的极大似然估计m X p =? 7.2设总体为指数分布 其概率密度函数为 ?? ?≥=-. , 0;0, )(其它x e x f x λλ 求参数λ的矩估计和极大似然估计。 解 设n X X X ,,,21 为X 的一个样本。 (1)求λ的矩估计。因为总体为指数分布,因此总体的一阶原点矩为

λ μ1 1==EX 按矩法估计有 X X n n i i ==∑=1 1 1λ 因此λ的矩估计X 1= λ (2)求λ的极大似然估计。参数λ的极大似然函数为 [] L e e x i n n x i i i n ==-=-∏=∑λλλλ1 1 lnL=n x i i n ln λλ-=∑1 似然方程为 ?λ?λ λ ln () L n x i i n = -=∑1 =0 解得 λ ===∑ n x x i i n 1 1 7.3设总体为],0[θ上的均匀分布 求参数θ的矩估计和极大似然估计。 解 设n X X X ,,,21 为X 的一个样本。 (1)求θ的矩估计。总体的一阶原点矩为 2 )(001θ θμθθ====??dx x dx x xf EX 按矩法估计有 X n n i i == ∑=1 12 1ξ θ 因此θ的矩估计X 2?=θ。 (2)求参数θ的极大似然估计。由总体X 的密度函数知θ的似然函数为 ?????=≤≤=其它 , 0; ,,2,1,0, 1)(n i X L i n θθθ?????≥=.0};,,max{,1 1其它, n n X X θθ 由此可以看出,要使似然函数达到最大,必须

机器学习 —— 概率图模型(推理:团树算法)

在之前的消息传递算法中,谈到了聚类图模型的一些性质。其中就有消息不能形成闭环,否则会导致“假消息传到最后我自己都信了”。为了解决这种问题,引入了一种称为团树(clique tree)的数据结构,树模型没有图模型中的环,所以此模型要比图模型更健壮,更容易收敛。 1.团树模型 链模型是一种最简单的树模型,其结构如下图所示,假设信息从最左端传入则有以下式子。 假设要对变量CD 进行推断,则应该求Belief(3) = deta 2->3 *deta 4->3 * phi(3). 从这里可以看出,团树算法是一种精确推断算法。它和变量消除算法在理论推导上是等价的。 上面的例子只是一种非常简单的团树,团树的本质还是聚类图,只不过是一种特殊的聚类图。对于更一般的概率图,也可以生成团树图。

其中,每个cluster都是变量消除诱导图中的一个最小map。 2.团树模型的计算 从上面分析可知,团树模型本质上和变量消除算法还有说不清道不明的关系(团树模型也是精确推理模型)。但是这个算法的优势在于,它可以利用消息传递机制达到收敛。之前提过,聚类图模型中的收敛指的是消息不变。除此之外,聚类图的本质是一种数据结构,它可以储存很多中间计算结果。如果我们有很多变量ABCDEF,那么我们想知道P(A),则需要执行一次变量消除。如果要计算P(B)又要执行一次变量消除。如果中途得到了某个变量的观测,又会对算法全局产生影响。但是使用团树模型可以巧妙的避免这些问题。 首先,一旦模型迭代收敛之后。所有的消息都是不变的,每个消息都是可以被读取的。 每个团的belief,实际上就是未归一划的联合概率,要算单个变量的概率,只需要把其他的变量边际掉就行。这样一来,只需要一次迭代收敛,每个变量的概率都是可算的。并且算起来方便。 其次,如果对模型引入先验知识比如A = a 时,我们需要对D 的概率进行估计。按照变量消除的思路又要从头来一次。但是如果使用团树结构则不用,因为A的取值只影

第七章 参数估计

第七章 参数估计 §7.1 参数的点估计 §7.2 估计量的评选标准 一、 填空题 1.矩估计法是通过 参数 与 总体矩 的联系,解出参数,并用 样本矩 代替 总体矩 而得到参数估计的一种方法; 2.极大似然估计法是在 总体分布形式 已知情况下的一种点估计方法; 3.设n X X X 2,1是正态总体),(2σμN 的一个样本,则μ的极大似然估计为 =μ? ∑=n i i X n 11 ;总体方差的矩估计为=σ2 ? ∑=-n i i X X n 1 2)(1 ; 4.设()12?,,,n X X X θ 为未知参数θ的估计量,若() ?E θθ=,则称?θ为θ的无偏估计量; 5.设n X X X 2,1为总体X 的一个样本,则总体均值)(X E 的无偏估计为 ∑==n i i X n X 11 ;总体方差)(X D 的无偏估计为 ∑=--=n i i X X n S 1 22 )(11 ; 6.设总体X 服从二项分布(),,B N p N 已知,()12,,,n X X X 是来自X 的样本,则p 的极大似然估计量为 X N ; 解 {}() 1i i i N x x x i N P x x C p p -==-, ()()11 1111n n i i i i i i i i n n x N x nN x x x x N N i i L C p p C p p ==--==∑??∑=-=- ??? ∏∏, ()111ln ln ln ln 1i n n n x N i i i i i L C x p nN x p ===?????? =++-- ? ? ??? ????∑∑∏, 令11ln 11 0,1n n i i i i d L x nN x dp p p ==????=--= ? ?-????∑∑得到1n i i x X p nN N ===∑。 7.在天平上重复称量一重为a 的物品,假设各次称量结果相互独立且服从正态分布 ()2,0.2N a ,若以n X 表示n 次称量结果的算术平均值,则为使{} 0.10.95n P X a -<≥,n 的最小值应不小于自然数16。 解 ()()2 2 0.2,n n E X a D X n n σ===,所以20.2,n X N a n ?? ???

概率论与数理统计练习题(附答案)

练习题 1、设随机变量)6.0,10(b ~X ,则2 2 [()][(X)] D X E = ; 2、若随机变量X 的分布未知,但2 ,EX DX μσ==,则X 落在区间(2,2) μσμσ-+内的概率必不小于_________ 3、设??(,......)12 X X X n θ θ=是未知参数θ的一个估计量,满足条件_________ 则称?θ θ是的无偏估计。 4. 设X,Y 为随机变量,且D (X +Y )=7, D(X)=4, D(Y)=1,则相关系数XY ρ= 5. 设随机变量12,, ,n X X X 相互独立,且(1,2, ,)=i X i n 都服从区间[0,1]上的均匀分 布,则当n 充分大时,∑== n i i n n X Y 1 1 近似服从 (写出具体分布与参数) 6.设(,)X Y 服从区域222:G x y R +≤上的均匀分布,其概率密度为: 222 (,)0 C x y R f x y ?+≤=? ?其它 ,则C=( ); (A) 2 R π ; (B) 2 1R π; (C) R π2; (D) R π21 。 7.设 ,......12X X X n 为相互独立的随机变量,且2 (,())E X D X i i μσ==(1,2......i n =),11 n X X i i n ∑= =,则DX =( ) (A) 2 n σ (B) 2 n σ (C) n σ (D) 22n σ 8.设一次试验中事件A 不发生的概率为p,独立重复n 次试验,A 发生了X 次则正确的是:( ) (A) ()()2 1p p X E -= ; (B) ()E X np = ; (C) (1)DX np p =- ; (D) 2 DX p p =-。 9.设随机变量X 和Y 不相关,则下列结论中正确的是( )

概率论与数理统计第四版课后习题答案

概率论与数理统计课后习题答案 第七章参数估计 1.[一] 随机地取8只活塞环,测得它们的直径为(以mm 计) 74.001 74.005 74.003 74.001 74.000 73.998 74.006 74.002 求总体均值μ及方差σ2的矩估计,并求样本方差S 2。 解:μ,σ2 的矩估计是 61 22 106)(1?,002.74?-=?=-===∑n i i x X n X σμ 621086.6-?=S 。 2.[二]设X 1,X 1,…,X n 为准总体的一个样本。求下列各总体的密度函数或分布律中的未知参数的矩估计量。 (1)? ??>=+-其它,0,)()1(c x x c θx f θθ 其中c >0为已知,θ>1,θ为未知参数。 (2)?? ???≤≤=-.,01 0,)(1其它x x θx f θ 其中θ>0,θ为未知参数。 (5)()p p m x p p x X P x m x m x ,10,,,2,1,0,)1()(<<=-==- 为未知参数。 解:(1)X c θc θc c θdx x c θdx x xf X E θθc θ θ =--=-== =+-∞+-∞+∞ -? ? 1 ,11)()(1令, 得c X X θ-= (2),1)()(10 += = = ? ? ∞+∞ -θθdx x θdx x xf X E θ 2 )1(,1 X X θX θθ-==+得令 (5)E (X ) = mp 令mp = X , 解得m X p =? 3.[三]求上题中各未知参数的极大似然估计值和估计量。 解:(1)似然函数 1211 )()()(+-=== ∏θn θ n n n i i x x x c θ x f θL 0ln ln )(ln ,ln )1(ln )ln()(ln 1 1 =- +=-++=∑∑ ==n i i n i i x c n n θθ d θL d x θc θn θn θL

概率图模型

概率图模型 过去的一段时间里,忙于考试、忙于完成实验室要求的任务、更忙于过年,很长时间没有以一种良好的心态来回忆、总结自己所学的东西了。这几天总在想,我应该怎么做。后来我才明白,应该想想我现在该做什么,所以我开始写这篇博客了。这将是对概率图模型的一个很基础的总结,主要参考了《PATTERN RECOGNITION and MACHINE LEARNING》。看这部分内容主要是因为LDPC码中涉及到了相关的知识。概率图模型本身是值得深究的,但我了解得不多,本文就纯当是介绍了,如有错误或不当之处还请多多指教。 0. 这是什么? 很多事情是具有不确定性的。人们往往希望从不确定的东西里尽可能多的得到确定的知识、信息。为了达到这一目的,人们创建了概率理论来描述事物的不确定性。在这一基础上,人们希望能够通过已经知道的知识来推测出未知的事情,无论是现在、过去、还是将来。在这一过程中,模型往往是必须的,什么样的模型才是相对正确的?这又是我们需要解决的问题。这些问题出现在很多领域,包括模式识别、差错控制编码等。 概率图模型是解决这些问题的工具之一。从名字上可以看出,这是一种或是一类模型,同时运用了概率和图这两种数学工具来建立的模型。那么,很自然的有下一个问题 1. 为什么要引入概率图模型? 对于一般的统计推断问题,概率模型能够很好的解决,那么引入概率图模型又能带来什么好处呢? LDPC码的译码算法中的置信传播算法的提出早于因子图,这在一定程度上说明概率图模型不是一个从不能解决问题到解决问题的突破,而是采用概率图模型能够更好的解决问题。《模式识别和机器学习》这本书在图模型的开篇就阐明了在概率模型中运用图这一工具带来的一些好的性质,包括

概率图模型理论及应用教学大纲

教学大纲 统计推理和学习(Statistical Inference and Learning)是信号处理、模式识别、通信系统等工程应用中处理不确定性的一个重要方法。新兴的(概率)图模型是概率论与图论相结合的产物,为各种统计推理和学习提供了一个统一的灵活框架。 本课程介绍图模型基本理论,包括:图论相关知识,图模型上条件独立性,有向图模型(贝叶斯网络)、无向图模型(马尔可夫随机场),图模型的统计推理算法,图模型的学习算法(参数学习和结构学习)等,以及图模型在语音识别、图像处理、计算机视觉、通信信道编码(Turbo-coding)等应用中的具体实例。具体包括如下内容:第一章引言 统计推理和学习的概念 第二章图模型 图论相关知识(简介) 图模型上条件独立性(d-separation,Bayes ball) 有向图模型(贝叶斯网络),无向图模型(马尔可夫随机场) 在图模型框架下介绍: 多元高斯模型、 主成分分析(PCA)、 混合分布(Mixtures)、 因子分析(FA)、 隐马尔科夫模型(HMM) 第三章图模型上的推理(Inference) 图论知识深入:簇(Cliques)、可分解图(Decomposable graph),连接树(Junction tree),规范化(Moralization),三角化(Triangulation)等概念 Junction Tree算法 对HMM的前向-后向算法、Viterbi算法,线性动态系统的Kalman滤波的统一描述 1

第四章图模型的参数学习(Parameter Learning) 完整数据下的最大似然(ML)参数估计 不完整数据(Incomplete Data)下的ML参数估计(EM算法) 完整数据下的贝叶斯学习 不完整数据下的贝叶斯学习 第五章图模型的结构学习(Structure Learning) 模型选取准则,包括最小描述长度(Minimum Description Length,MDL),贝叶斯信息准则(Bayesian Information Criterion,BIC)等 结构EM算法(Structural EM) 结构的贝叶斯学习 第六章图模型的应用选讲 图模型在语音识别应用中的实例 图模型在图像处理应用中的实例 图模型在计算机视觉应用中的实例 图模型在通信信道编码(Turbo-coding)应用中的实例 (前面各章中配合理论的讲解,相应有应用实例的介绍。) 2

相关文档
最新文档