读懂概率图模型:你需要从基本概念和参数估计开始
概率图模型的参数学习技巧分享(Ⅲ)

概率图模型的参数学习技巧分享概率图模型是一种用于描述变量之间概率关系的图结构模型。
它在机器学习和人工智能领域有着广泛的应用,如贝叶斯网络、马尔科夫网络等。
在概率图模型中,参数学习是一个至关重要的步骤,它决定了模型的准确度和泛化能力。
本文将分享一些常见的概率图模型参数学习技巧,希望能够为相关领域的研究者和从业者提供一些帮助。
一、极大似然估计(Maximum Likelihood Estimation)极大似然估计是一种常用的参数学习方法,它的思想是通过最大化观测数据的似然函数来估计模型的参数。
在概率图模型中,极大似然估计可以简化为求解一个最优化问题,通过优化算法(如梯度下降、牛顿法等)来求解参数的最优值。
极大似然估计的优点是计算简单,但也存在着过拟合和数据稀疏等问题。
二、贝叶斯估计(Bayesian Estimation)贝叶斯估计是另一种常见的参数学习方法,它基于贝叶斯定理,将参数的不确定性引入到模型中。
贝叶斯估计的核心思想是通过后验概率来估计参数的分布,从而获得更稳健的参数估计结果。
在概率图模型中,贝叶斯估计可以通过马尔科夫链蒙特卡洛(MCMC)等方法来实现,具有较好的鲁棒性和泛化能力。
三、EM算法(Expectation-Maximization Algorithm)EM算法是一种用于概率图模型参数学习的迭代优化算法,它被广泛应用于混合模型、隐马尔可夫模型等。
EM算法的基本思想是通过交替进行“期望步骤”和“最大化步骤”,来逐步优化参数的估计。
在实际应用中,EM算法通常涉及到对数似然函数的优化,需要借助数值计算方法来求解。
四、变分推断(Variational Inference)变分推断是一种近似推断方法,它通过最大化一个变分下界来估计模型的参数。
在概率图模型中,变分推断能够有效地处理复杂的后验分布推断问题,并且具有较好的可解释性和泛化能力。
变分推断的核心挑战在于寻找合适的变分分布和优化算法,以获得高效的参数估计结果。
概率图模型基础知识解析(Ⅲ)

概率图模型基础知识解析概率图模型(Probabilistic Graphical Models)是一种用于建模复杂系统的工具,它将概率论和图论相结合,能够有效地描述变量之间的依赖关系和不确定性。
概率图模型广泛应用于机器学习、人工智能、统计学、计算机视觉等领域,是当今研究的热门话题之一。
本文将对概率图模型的基础知识进行解析,包括概率论、图论、概率图模型的基本概念和常见类型等内容。
概率论基础概率图模型的基础是概率论,因此了解概率论的基本概念对于理解概率图模型至关重要。
概率论是研究随机现象的数学理论,它包括概率空间、随机变量、概率分布、随机过程等内容。
在概率图模型中,我们通常使用贝叶斯概率来描述不确定性,贝叶斯概率是一种主观概率,它表示对未知事件的信念程度。
图论基础另一个概率图模型的基础是图论,图论是研究图的数学理论,它包括图的基本概念、图的表示方法、图的遍历算法等内容。
在概率图模型中,我们通常使用有向图或无向图来表示变量之间的依赖关系。
有向图中的节点表示随机变量,有向边表示变量之间的因果关系;无向图中的节点表示随机变量,无向边表示变量之间的相关关系。
概率图模型基本概念概率图模型是一种用图表示概率分布的模型,它包括两个基本要素:图结构和概率分布。
图结构表示变量之间的依赖关系,概率分布表示变量之间的联合概率分布。
常见的概率图模型包括贝叶斯网络(Bayesian Network)和马尔科夫网络(Markov Network)。
贝叶斯网络是一种有向图模型,它使用条件概率分布来表示变量之间的依赖关系;马尔科夫网络是一种无向图模型,它使用势函数来表示变量之间的相关关系。
贝叶斯网络贝叶斯网络是一种有向图模型,它由有向无环图(DAG)表示变量之间的依赖关系,每个节点表示一个随机变量,每条有向边表示一个变量之间的因果关系。
贝叶斯网络使用条件概率分布来表示变量之间的依赖关系,每个节点的条件概率分布表示了该节点在给定其父节点的取值情况下的条件概率分布。
高中数学学会使用概率模型分析问题

高中数学学会使用概率模型分析问题概率是数学中非常重要的一个分支,可以用来描述不确定性和随机性问题。
在高中数学中,学习概率和统计可以帮助我们更好地理解和分析现实生活中的问题。
本文将介绍如何使用概率模型来分析问题,并通过具体例子进行说明。
一、概率基础知识回顾在学习概率模型之前,我们需要先回顾一些概率的基础知识。
概率是描述事件发生可能性的大小,通常用一个介于0和1之间的数值表示。
事件的概率等于有利结果的个数与总结果个数的比值。
例如,掷一枚均匀的骰子,得到点数1的概率就是1/6。
二、概率模型的构建使用概率模型来分析问题的关键是建立一个适当的概率模型。
概率模型包括样本空间、事件和概率三个要素。
样本空间是指所有可能结果的集合,事件是样本空间的子集,概率是指事件发生的可能性大小。
例如,考虑抛硬币的问题,硬币正面朝上的概率为1/2,反面朝上的概率也为1/2。
在这种情况下,样本空间为{正面,反面},事件可以是得到正面或者反面的情况,而概率分别为1/2。
三、使用概率模型解决问题了解了概率模型的构建后,我们可以开始使用它来解决一些问题。
下面通过几个例子来说明。
例子1:甲乙两位学生参加一次考试,甲的概率和乙的概率分别是0.7和0.6。
现在从中随机选择一位学生,求该学生考试及格的概率。
解:样本空间为{甲及格,甲不及格,乙及格,乙不及格}。
事件可以是选择到甲且及格,概率为0.7*0.5=0.35;事件可以是选择到乙且及格,概率为0.6*0.5=0.3。
所以所求概率为0.35+0.3=0.65。
例子2:某班级有学生30人,其中男生20人,女生10人。
现在从中随机选择一位学生,求该学生为男生且身高超过170cm的概率。
解:样本空间为{男生身高超过170cm,男生身高不超过170cm,女生身高超过170cm,女生身高不超过170cm}。
事件可以是选择到男生且身高超过170cm,概率为20/30 * 1/2 = 1/3。
所以所求概率为1/3。
数学中的概率模型分析

数学中的概率模型分析概率模型是数学中一种重要的工具,用于分析和解释随机事件的发生概率。
通过概率模型的建立和分析,我们能够更好地理解和预测不确定性事件的结果。
一、概率模型的基本概念和定义在进行概率模型分析之前,我们需要了解一些基本的概率模型的概念和定义。
概率模型由样本空间、随机事件和概率分布组成。
样本空间是指所有可能的结果组成的集合,表示为Ω。
随机事件是样本空间的子集,表示为A。
概率分布则描述了每个随机事件发生的概率。
二、概率模型的常用分布在实际应用中,我们常用到几种常见的概率分布来描述随机事件的发生概率。
1.离散型概率分布离散型概率分布是一种描述离散型随机事件概率的分布。
其中最常见的是二项分布和泊松分布。
二项分布描述了n次独立重复实验中,成功事件发生k次的概率分布。
泊松分布则描述了在一段固定时间或区间内,事件发生的次数的概率分布。
2.连续型概率分布连续型概率分布是一种描述连续型随机事件概率的分布。
其中最常见的是正态分布。
正态分布是一种钟形对称分布,常用于描述大量独立随机变量的分布情况。
它在自然界和社会科学中广泛应用,例如描述身高、体重等连续性变量的分布情况。
三、概率模型在实际问题中的应用概率模型在各个领域都有着广泛的应用,下面我们以两个实际问题为例来说明概率模型在实际中的应用。
1.风险评估模型在金融领域,风险评估是一项重要的工作。
概率模型可以用于评估不同投资组合的风险。
通过建立概率模型,我们可以计算各个投资组合的预期收益和风险,并进行比较和选择。
2.生产质量控制模型在制造业中,保证产品质量是一项至关重要的任务。
概率模型可以用于分析和预测产品的质量状况。
通过建立概率模型,我们可以计算不同生产过程中出现次品的概率,并采取相应的控制措施,提高产品质量。
四、概率模型的局限性和改进尽管概率模型在许多领域中都有着广泛的应用,但它也存在着一些局限性。
1.对于复杂事件的处理困难在实际问题中,有些事件较为复杂,无法直接建立简单的概率模型进行描述。
概率图模型在机器学习中的应用指南(四)

概率图模型在机器学习中的应用指南随着人工智能技术的发展,机器学习已经成为了许多领域中的重要工具。
而在机器学习领域中,概率图模型是一种强大的工具,它能够帮助我们建立和分析复杂的概率模型,从而进行预测和推断。
本文将就概率图模型在机器学习中的应用进行指南,从介绍基本概念到实际应用场景,帮助读者更好地了解和应用概率图模型。
一、概率图模型的基本概念概率图模型是用概率论和图论的方法来表达和处理不确定性的一种模型。
它通过图的形式来表示随机变量之间的依赖关系,从而能够更好地描述现实世界中的复杂问题。
概率图模型分为有向图模型和无向图模型两种,其中有向图模型表示变量之间的因果关系,无向图模型表示变量之间的相关关系。
二、概率图模型的应用场景在机器学习领域中,概率图模型有着广泛的应用场景。
其中,贝叶斯网络是一种常用的有向图模型,它可以用于进行概率推断和预测。
在推荐系统中,概率图模型可以用来建立用户和物品之间的关联关系,从而提高推荐的准确性。
此外,在自然语言处理和计算生物学等领域中,概率图模型也有着重要的应用价值。
三、概率图模型的学习方法概率图模型的学习方法可以分为参数学习和结构学习两种。
参数学习是指通过观测数据来估计模型中的参数,常用的方法包括极大似然估计和贝叶斯估计。
而结构学习则是指通过观测数据来学习模型的拓扑结构,常用的方法包括约束满足学习和贝叶斯网络结构学习。
四、概率图模型在实际应用中的挑战尽管概率图模型在机器学习中有着广泛的应用,但是在实际应用中也存在着一些挑战。
其中,模型的复杂性和参数的估计是两个主要的挑战。
由于现实世界中的数据往往是高维和复杂的,因此需要寻找合适的方法来简化模型和进行参数估计。
五、概率图模型在机器学习中的未来发展随着人工智能技术的不断进步,概率图模型在机器学习中的应用也将不断发展。
未来,我们可以期待概率图模型在更多领域中得到应用,例如金融风险管理、医疗诊断和智能交通系统等。
同时,随着深度学习和概率图模型的结合,我们也可以期待更加强大和灵活的机器学习模型的出现。
概率图模型的使用注意事项和常见误区解析(七)

在机器学习和人工智能领域,概率图模型被广泛应用于推断和决策问题的建模和求解。
概率图模型是一种表示和计算复杂概率分布的工具,它能够通过图的方式来描述变量之间的依赖关系,从而更好地理解数据的结构和特征。
然而,在使用概率图模型时,有一些注意事项和常见误区需要引起注意。
本文将对概率图模型的使用注意事项和常见误区进行解析。
首先,对于概率图模型的使用注意事项,我们需要注意以下几点:1. 数据的准备和清洗:在应用概率图模型之前,需要对数据进行充分的准备和清洗。
这包括处理缺失值、异常值和噪声,以及对数据进行标准化和归一化。
只有经过了良好的数据预处理之后,才能够更好地应用概率图模型进行建模和推断。
2. 模型的选择和参数估计:在选择概率图模型时,需要根据实际问题的特点和数据的性质来进行合理的选择。
不同的概率图模型适用于不同类型的问题,例如贝叶斯网络适用于表示变量之间的因果关系,马尔科夫随机场适用于表示变量之间的相关关系。
同时,在进行参数估计时,需要注意避免过拟合和欠拟合问题,以及选择合适的参数估计方法和调参策略。
3. 推断和决策的技术:概率图模型的核心任务是进行推断和决策,因此需要掌握各种推断和决策的技术和算法。
常见的推断算法包括变量消去、信念传播和采样方法,而常见的决策算法包括最大后验概率、期望最大化和决策树等。
其次,对于概率图模型的常见误区,我们需要注意以下几点:1. 过度依赖模型:有时候在使用概率图模型时,人们会过度依赖模型而忽视了数据本身的特点。
在实际应用中,需要根据数据的特点和实际问题来选择合适的概率图模型,并进行充分的模型验证和评估。
2. 忽视概率分布的偏斜性:有时候在建模和推断时,人们会忽视概率分布的偏斜性,从而导致模型的失真和不准确。
因此需要在应用概率图模型时,加强对概率分布的偏斜性进行分析和处理,以避免因此带来的问题。
3. 忽视算法的收敛性和稳定性:在进行推断和决策时,需要注意算法的收敛性和稳定性。
概率图模型及应用

概率图模型及应用概率图模型是一种用于表示和推断概率分布的强大工具,它能够帮助我们理解和解决各种实际问题。
本文将介绍概率图模型的基本概念,探讨其应用领域,并总结其在实际问题中的优势和局限性。
概率图模型,又称为贝叶斯网络或是马尔科夫网络,是一种图形化的概率建模方法。
它通过有向无环图(DAG)或无向图的方式来表示随机变量之间的依赖关系。
概率图模型将复杂的概率分布分解为一系列条件概率的乘积,从而简化了概率计算和推断问题。
一、概率图模型的基本概念1.1 有向图模型有向图模型,也称为贝叶斯网络,是一种使用有向边表示变量之间依赖关系的概率图模型。
在有向图模型中,每个节点代表一个随机变量,边表示变量之间的依赖关系。
节点的概率分布可以通过条件概率表来表示。
1.2 无向图模型无向图模型,也称为马尔科夫网络或是马尔科夫随机场,是一种使用无向边表示变量之间依赖关系的概率图模型。
在无向图模型中,节点代表随机变量,而边表示变量之间的相互作用关系。
节点的概率分布可以通过势函数来表示。
二、概率图模型的应用领域概率图模型在许多领域中都得到了广泛的应用,下面列举了其中几个典型的应用领域:2.1 机器学习概率图模型在机器学习中被广泛应用,特别是在模式识别和数据挖掘中。
通过概率图模型,我们可以建立起变量之间的联系,并利用这些联系进行模式分类和预测。
2.2 自然语言处理在自然语言处理中,概率图模型可以用于语义解析、文本生成和机器翻译等任务。
通过建立语言模型和上下文模型,概率图模型能够更好地理解和生成自然语言。
2.3 生物信息学概率图模型在生物信息学领域中的应用也非常广泛。
例如,在基因表达数据分析中,可以通过概率图模型来推断基因之间的调控关系和信号传导通路。
三、概率图模型的优势和局限性3.1 优势概率图模型具有以下几个优势:(1)能够处理大规模复杂的概率分布。
概率图模型能够将复杂的概率分布分解为一系列条件概率的乘积,从而简化了概率计算的复杂度。
如何利用概率图模型进行数据建模(Ⅰ)

概率图模型(Probabilistic Graphical Models, PGM)是一种用于表示和推断概率分布的强大工具。
它能够帮助我们更好地理解和利用数据,从而进行数据建模和预测。
本文将介绍如何利用概率图模型进行数据建模的基本原理和方法。
概率图模型分为两大类:贝叶斯网络和马尔可夫网络。
贝叶斯网络是一种用有向图表示随机变量之间依赖关系的概率图模型,而马尔可夫网络则是一种用无向图表示随机变量之间相关关系的概率图模型。
这两种模型都可以用来对复杂的数据进行建模和推断。
在利用概率图模型进行数据建模时,首先需要确定模型的结构。
对于贝叶斯网络,可以根据领域知识和数据分析结果来确定变量之间的依赖关系;对于马尔可夫网络,可以利用数据之间的相关性来确定变量之间的连接关系。
确定模型的结构是数据建模的第一步,它决定了模型的表达能力和推断效率。
一旦确定了模型的结构,接下来需要确定模型的参数。
对于贝叶斯网络,参数可以通过最大似然估计或贝叶斯推断来确定;对于马尔可夫网络,可以通过最大似然估计或马尔可夫随机场的学习算法来确定。
确定模型的参数是数据建模的第二步,它决定了模型对数据的拟合程度和泛化能力。
确定了模型的结构和参数之后,就可以利用概率图模型进行数据建模和推断了。
可以利用模型进行概率推断,从而对未知变量的取值进行预测;也可以利用模型进行因果推断,从而对变量之间的因果关系进行分析。
概率图模型可以帮助我们更好地理解和利用数据,从而进行更准确和可靠的数据建模和预测。
除了用于数据建模和推断,概率图模型还可以应用于机器学习和人工智能领域。
可以利用贝叶斯网络进行监督学习和无监督学习,从而对数据进行分类和聚类;也可以利用马尔可夫网络进行强化学习,从而对环境进行建模和决策。
概率图模型在机器学习和人工智能领域有着广泛的应用前景。
总之,概率图模型是一种强大的工具,可以帮助我们更好地理解和利用数据。
通过确定模型的结构和参数,利用模型进行数据建模和推断,可以实现对复杂数据的精确建模和预测。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
读懂概率图模型:你需要从基本概念和参数估计开始选自statsbot作者:Prasoon Goyal机器之心编译参与:Panda概率图模型是人工智能领域内一大主要研究方向。
近日,Statsbot 团队邀请数据科学家Prasoon Goyal 在其博客上分两部分发表了一篇有关概率图模型的基础性介绍文章。
文章从基础的概念开始谈起,并加入了基础的应用示例来帮助初学者理解概率图模型的实用价值。
机器之心对该文章进行了编译介绍。
第一部分:基本术语和问题设定机器学习领域内很多常见问题都涉及到对彼此相互独立的孤立数据点进行分类。
比如:预测给定图像中是否包含汽车或狗,或预测图像中的手写字符是0 到9 中的哪一个。
事实证明,很多问题都不在上述范围内。
比如说,给定一个句子「I like machine learning」,然后标注每个词的词性(名词、代词、动词、形容词等)。
正如这个简单例子所表现出的那样:我们不能通过单独处理每个词来解决这个任务——「learning」根据上下文的情况既可以是名词,也可以是动词。
这个任务对很多关于文本的更为复杂的任务非常重要,比如从一种语言到另一种语言的翻译、文本转语音等。
使用标准的分类模型来处理这些问题并没有什么显而易见的方法。
概率图模型(PGM/probabilistic graphical model)是一种用于学习这些带有依赖(dependency)的模型的强大框架。
这篇文章是Statsbot 团队邀请数据科学家Prasoon Goyal 为这一框架编写的一份教程。
在探讨如何将概率图模型用于机器学习问题之前,我们需要先理解PGM 框架。
概率图模型(或简称图模型)在形式上是由图结构组成的。
图的每个节点(node)都关联了一个随机变量,而图的边(edge)则被用于编码这些随机变量之间的关系。
根据图是有向的还是无向的,我们可以将图的模式分为两大类——贝叶斯网络(?Bayesian network)和马尔可夫网络(Markov networks)。
贝叶斯网络:有向图模型贝叶斯网络的一个典型案例是所谓的「学生网络(student network)」,它看起来像是这样:这个图描述了某个学生注册某个大学课程的设定。
该图中有5 个随机变量:课程的难度(Difficulty):可取两个值,0 表示低难度,1 表示高难度学生的智力水平(Intelligence):可取两个值,0 表示不聪明,1 表示聪明学生的评级(Grade):可取三个值,1 表示差,2 表示中,3 表示优学生的SAT 成绩(SAT):可取两个值,0 表示低分,1 表示高分在完成该课程后学生从教授那里所得到的推荐信的质量(Letter):可取两个值,0 表示推荐信不好,1 表示推荐信很好该图中的边编码了这些变量之间的依赖关系。
学生的Grade 取决于课程的Difficulty 和学生的Intelligence;而Grade 又反过来决定了学生能否从教授那里得到一份好的Letter;另外,学生的Intelligence 除了会影响他们的Grade,还会影响他们的SAT 分数。
注意其中箭头的方向表示了因果关系——Intelligence 会影响SAT 分数,但SAT 不会影响Intelligence。
最后,让我们看看与每个节点关联的表格,它们的正式名称是条件概率分布(CPD/conditional probability distribution)。
1. 条件概率分布Difficulty 和Intelligence 的CPD 非常简单,因为这些变量并不依赖于其它任何变量。
基本而言,这两个表格编码了这两个变量取值为0 和1 的概率。
你可能已经注意到,每个表格中的值的总和都必须为1。
接下来看看SAT 的CPD。
其每一行都对应于其父节点(Intelligence)可以取的值,每一列对应于SAT 可以取的值。
每个单元格都有条件概率p(SAT=s|Intelligence=i),也就是说:给定Intelligence 的值为i,则其为SAT 的值为s 的概率。
比如,我们可以看到p(SAT=s1|Intelligence=i1) 是0.8。
也就是说,如果该学生的智力水平高,那么他的SAT 分数也很高的概率是0.8。
而p(SAT=s?|Intelligence=i1) 则表示如果该学生的智力水平高,那么SAT 分数很低的概率是0.2。
注意,每一行中的值的总和为1。
这是当然而然的,因为当Intelligence=i1 时,SAT 只能是s? 和s1 中的一个,所以两个概率之和必定为1。
类似地,Letter 的CPD 编码了条件概率p(Letter=l|Grade=g)。
因为Grade 可以取 3 个值,所以这个表格有 3 行。
有了上面的知识,Grade 的CPD 就很容易理解了。
因为它有两个父节点,所以它的条件概率是这种形式:p(Grade=g|Difficulty=d,SAT=s),即当Difficulty 为d 且SAT 为s 时Grade 为g 的概率。
这个表格的每一行都对应于一对Difficulty 和Intelligence 值。
同样,每一行的值的总和为1。
贝叶斯网络的一个基本要求是图必须是有向无环图(DAG/directed acyclic graph)。
马尔可夫网络:无向图模型一个马尔可夫网络的简单例子:为了简洁地说明,我们只探讨这个抽象的图,其中的节点ABCDE 不像上面的例子有直接的真实案例对应。
同样,这些边表示变量之间的相互作用。
我们可以看到A 和 B 彼此之间有直接的影响关系,而A 和C 之间则没有。
注意马尔可夫网络不需要是无环的,这一点和贝叶斯网络不一样。
1. 可能的用途正如贝叶斯网络有CPD 一样,马尔可夫网络也有用来整合节点之间的关系的表格。
但是,这些表格和CPD 之间有两个关键差异。
首先,这些值不需要总和为1,也就是说这个表格并没有定义一个概率分布。
它只是告诉我们值更高的配置有更高的可能性。
其次,其中没有条件关系。
它与所涉及到的所有变量的联合分布成正比,这与CPD 中的条件分布不同。
这样得到的表格被称为「因子(factor)」或「势函数(potential function)」,使用希腊字母φ表示。
比如,我们可以使用下面的势函数来描述变量A、B 和 C 之间的关系,其中C 是A 和B 的「软」异或(XOR),也就是说:如果A 和B 不一样,那么 C 很可能为1;如果 A 和 B 一样,那么C 很可能为0:一般而言,你要为图中的每个极大团(maximal clique)定义一个势函数。
图结构和表格就可以简洁地表示在这些随机变量上的联合概率分布。
现在你可能会有一个问题:为什么我们需要有向图,也需要无向图?原因是有些问题使用有向图表示会更加自然,比如上面提到的学生网络,有向图可以轻松描述变量之间的因果关系——学生的智力水平会影响SAT 分数,但SAT 分数不会影响智力水平(尽管它也许能反映学生的智力水平)。
而对于其它一些问题,比如图像,你可能需要将每个像素都表示成一个节点。
我们知道相邻的像素互有影响,但像素之间并不存在因果关系;它们之间的相互作用是对称的。
所以我们在这样的案例中使用无向图模型。
问题设置我们已经讨论了图、随机变量和表格,你可能会想所有这些有什么意义?我们到底想做什么?这里面存在机器学习吗?数据、训练、预测都在哪里?这一节将给你答案。
让我们再回到学生网络那个例子。
假设我们已经有图结构了——我们可以根据我们对世界的知识进行创建(在机器学习中,这被称为领域知识(domain knowledge))。
但我们没有CPD 表,只有它们的规模。
我们确实有一些数据——来自某所大学的十个不同课程,我们有这些课程的难度的测量方法。
另外,我们还有每个课程的每个学生的数据——他们的智力水平、他们的SAT 分数、他们得到的评级以及他们是否从教授那里得到了好的推荐信。
根据这些数据,我们可以估计CPD 的参数。
比如说,数据可能表明有高智力水平的学生往往有很好的SAT 分数,然后我们可能会学习到:p(SAT=s1|Intelligence=i1) 很高。
这是学习阶段。
我们后面会介绍我们可以如何在贝叶斯网络和马尔可夫网络中执行这种参数估计。
现在,对于一个新数据点,你可以看到其中一些变量,但不是全部变量。
比如,在下面给出的图中,你可以知道一个课程的难度和学生的SAT 分数,你想估计学生得到好的评级的概率。
(现在你已经从学习阶段得到了表格中的值。
)尽管我们没有可以给我们直接提供信息的CPD,但我们可以看到有高SAT 分数的学生说明该学生智力水平也很可能较高;由此,如果该课程的难度很低,那么该学生得到好评级的概率也会较高,如上图中的红色箭头所示。
我们可能也想同时估计多个变量的概率,比如学生同时得到好评级和好推荐信的概率?这种有已知值的变量被称为显变量(observed variable),而值未被观察到的变量被称为隐变量(hidden variable 或latent variable)。
一般来说,显变量用灰色节点表示,而隐变量则用白色节点表示,如上图所示。
我们可能想要找到一些或全部显变量的值。
这些问题的解答类似于机器学习的其它领域——在图模型中,这个过程被称为「推理(inference)」。
尽管我们使用了贝叶斯网络来描述上述术语,但这也适用于马尔可夫网络。
在我们深入用于学习和推理的算法之前,让我们先形式化我们刚刚看过的思想——给定某些节点的值,我们可以得到有关其它哪些节点的信息?条件独立我们刚才探讨过的图结构实际上带有关于这些变量的重要信息。
具体来说,它们定义了这些变量之间的一组条件独立(conditional independence),也就是这种形式的陈述——「如果观察到A,那么B 独立于C。
」让我们看一些例子。
在学生网络中,让我们假设你看到了一个有很高SAT 分数的学生,你对她的评级怎么看呢?正如我们之前见过的那样,高SAT 分数说明学生的智力水平很高,因此你可以预计评级为优。
如果该学生的SAT 分数很低呢?在这个案例中,你可以预计评级不会很好。
现在,让我们假设你不仅知道这个学生SAT 分数较高,也知道她的智力水平也较高。
如果SAT 分数较高,那么你可以预测她的评级为优。
但如果SAT 分数较低呢?你仍然可以预计评级为优,因为这个学生的智能水平高,而且你可以假设她在SAT 上表现得不够好。
因此,知道这个SAT 分数并不能让我们了解有关这个学生的智力水平的任何信息。
要将其用条件独立的方式陈述,可以说——「如果已观察到Intelligence,那么SAT 和Grade 是独立的。
」我们是根据这些节点在图中的连接方式得到这个条件独立信息的。