联合概率求条件概率

合集下载

计算条件概率的常用方法

计算条件概率的常用方法

计算条件概率的常用方法一.基本内容1.根据件概率的定义,也就是条件概率的计算公式,先求()(()0)P A P A >和()P AB ,再由定义()(|)()P AB P B A P A =,即可求解(|)P B A .2.根据条件概率的定义,也就是条件概率的计算公式,先求()(()0)P A P A >和()P AB ,再由定义()(|)()n AB P B A n A =,即可求解(|)P B A .3.由条件概率和对立事件的定义,可得条件概率的性质:(|)1(|)P B A P B A =-,利用该性质可以解决一些证明相对复杂的条件概率问题.4.条件概率的性质二.例题分析类型一.概率公式例1.已知3(|)10P B A =,1()5P A =,则()P AB =A.12B.32C.23D.350【解析】由条件概率的公式()(|)()P AB P B A P A =得133()()(|),51050P AB P A P B A =⨯=⨯=故选D.类型二.基本事件数法例2.为响应“援疆援藏万名教师支教计划”,珠海市教育局计划从某学校数学科组的4名男教师(含一名珠海市骨干教师)和英语科组的3名女教师(含一名珠海市骨干教师)中分别选派2名男教师和2名女教师,则在有一名珠海市骨干教师被选派的条件下,两名珠海市骨干教师都被选派的概率为()A.13B.12C.25D.34【解析】记至少有一名骨干教师被选派的事件为A,两名骨干教师被选派的事件为B,则1221113232322243C C C C C C 5()C C 6P A ++==,11322243C C 1()C C 3P AB ==,于是得()2(|)()5P AB P B A P A ==,所以所求概率为25.故选:C 类型三.条件概率的性质例3.已知A ,B 分别为随机事件A,B 的对立事件,()0P A >,()0P B >,则下列说法正确的是()A.()()()P B A P B A P A +=B.若()()1P A P B +=,则A,B 对立C.若A,B 独立,则()()P A B P A =D.若A,B 互斥,则()()1P A B P B A +=【解析】对A,()()()()()1()()P AB P AB P A P B A P B A P A P A ++===,故A 错误;对B,若A,B 对立,则()()1P A P B +=,反之不成立,故B 错误;对C,根据独立事件定义,故C 正确;对D,若A,B 互斥,则()()0P A B P B A +=,故D 错误;故选:C例4.已知随机事件A ,B ,若()13P A =,()3|5P B A =,()4|7P A B =,则()P B =_________.【解析】由题意可得,()()()3|5P AB P B A P A ==,且()13P A =,则()15P AB =,又因为()4|7P A B =,则()()3|1|7P A B P A B =-=,且()()()|P AB P A B P B =,所以()()()1753157P AB P B P A B ===.故答案为:715.类型四.正难反易例5.三行三列的方阵111213212223313233a a a a a a a a a ⎛⎫ ⎪ ⎪ ⎪⎝⎭中有9个数()1,2,3,1,2,3ij a i j ==,从中任取三个数,已知取到22a 的条件下,至少有两个数位于同行或同列的概率是_____________.【解析】记事件A ={任取的三个数中有22a },事件B ={三个数至少有两个数位于同行或同列},则B ={三个数互不同行且不同列},依题意得()28C 28n A ==,()2n A B ⋂=,故()()()212814n A B P B A n A ⋂===,则()()113111414P B A P B A =-=-=.即已知取到22a 的条件下,至少有两个数位于同行或同列的概率为1314.故答案为:1314.类型五.综合问题例6.如果{}n a 不是等差数列,但若k *∃∈N ,使得212k k k a a a +++=,那么称{}n a 为“局部等差”数列.已知数列{}n x 的项数为4,其中{}1,2,3,4,5n x ∈,1n =,2,3,4,记事件A:集合{}{}1234,,,1,2,3,4,5x x x x ⊆;事件B:{}n x 为“局部等差”数列,则()P B A =()A.215B.730C.15D.110【解析】由题意知,事件A 共有4454C A 120⋅=个基本事件,对于事件B ,其中含1,2,3的“局部等差”数列的分别为1,2,3,5和5,1,2,3和4,1,2,3共3个,含3,2,1的“局部等差”数列的同理也有3个,共6个;含3,4,5的和含5,4,3的与上述相同,也有6个;含2,3,4的有5,2,3,4和2,3,4,1共2个;含4,3,2的同理也有2个;含1,3,5的有1,3,5,2和2,1,3,5和4,1,3,5和1,3,5,4共4个;含5,3,1的同理也有4个,所以事件B 共有24个基本事件,所以()2411205P B A ==.故选:C.三.习题练习1.根据历年的气象数据,某市5月份发生中度雾霾的概率为0.25,刮四级以上大风的概率为0.4,既发生中度雾霾又刮四级以上大风的概率为0.2,则在发生中度雾霾的情况下,刮四级以上大风的概率为()A.0.5B.0.625C.0.8D.0.9【解析】设发生中度雾霾为事件A ,刮四级以上大风为事件B ,由题意知:()0.25P A =,()0.4P B =,()0.2P AB =,则在发生中度雾霾的情况下,刮四级以上大风的概率为()()()0.20.80.25P AB P B A P A ===.故选:C.2.已知事件,A B ,()13P B =,()3|4P B A =,()1|2P B A =,则()P A =()A.14B.13C.23D.12【解析】由条件概率公式可知()()()3|4P AB P B A P A ==,即()()34P AB P A =①,()()()1|2P AB P B A P A ==,即()()12P AB P A =②,而()()1P A P A +=,所以()()1P A P A =-③,又已知()()()()213P AB P AB P B P B +==-=④,②③④联立可得()23P A =.故选:C 3.定义:设X,Y 是离散型随机变量,则X 在给定事件Y y =条件下的期望为()()()()11,|n n i i i i i i P X x Y y E X Y y x P X x Y y x P Y y ======⋅===⋅=∑∑,其中{}12,,,n x x x ⋅⋅⋅为X 的所有可能取值集合,(),P X x Y y ==表示事件“X x =”与事件“Y y =”都发生的概率.某日小张掷一枚质地均匀的骰子,若掷出1点向上两次时即停止.设A 表示第一次掷出1点向上时的投掷次数,B 表示第二次掷出1点向上时的投掷次数,则()4E A B ==______.【解析】由4B =可得1A =或2A =或3A =,由题意可得()()()()11,44|44n n i i i i i i P A x B E A B x P A x B x P B ======⋅===⋅=∑∑()()()()()()1,42,43,4123444P A B P A B P A B P B P B P B =======⨯+⨯+⨯===2222222233315151151516666666666232511511511C C C 666666666⎛⎫⎛⎫⨯⨯⨯⨯⨯⨯⨯ ⎪ ⎪⎝⎭⎝⎭=⨯+⨯=⎛⎫⎛⎫⎛⎫⨯⨯⨯⨯⨯⨯ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭故答案为:24.为进一步加强学生的文明养成教育,推进校园文化建设,倡导真善美,用先进人物的先进事迹来感动师生,用身边的榜样去打动师生,用真情去发现美,分享美,弘扬美,某校以争做最美青年为主题,进行“最美青年”评选活动,最终评出了10位“最美青年”,其中6名女生4名男生。

已知联合概率密度求条件概率密度

已知联合概率密度求条件概率密度

已知联合概率密度求条件概率密度以已知联合概率密度求条件概率密度为题,我们首先需要了解联合概率密度和条件概率密度的概念。

联合概率密度是指对于多个随机变量X1,X2,...,Xn,其取值落在特定区域的概率密度函数。

而条件概率密度是在已知一些信息的情况下,特定随机变量的概率密度函数。

在统计学和概率论中,我们经常需要通过已知的联合概率密度来计算条件概率密度。

条件概率密度是在给定一些条件或限制下,某个随机变量的概率密度函数。

通过条件概率密度,我们可以更准确地对随机变量的分布进行描述和分析。

为了更好地理解已知联合概率密度求条件概率密度的过程,我们可以通过一个具体的例子来说明。

假设我们有两个随机变量X和Y,它们的联合概率密度函数为f(x,y)。

我们想要求在已知X的取值为x的情况下,Y的条件概率密度函数f(y|x)。

我们需要明确联合概率密度函数的定义。

联合概率密度函数f(x,y)表示X和Y同时取某个区域内的值的概率密度。

我们可以通过对联合概率密度函数在特定区域内的积分来获得该区域内的概率。

接下来,我们需要明确条件概率密度函数的定义。

条件概率密度函数f(y|x)表示在已知X的取值为x的条件下,Y取某个区域内的值的概率密度。

我们可以通过对联合概率密度函数在给定X的取值为x的条件下,Y取某个区域内的积分来获得该区域内的条件概率。

具体来说,我们可以通过以下步骤来求解条件概率密度函数f(y|x):1. 首先,我们需要根据已知的联合概率密度函数f(x,y)和条件概率的定义,建立条件概率密度的表达式。

2. 然后,我们需要根据条件概率的性质,利用已知的联合概率密度函数来计算条件概率密度。

3. 最后,我们可以对条件概率密度函数进行归一化,使其满足概率密度函数的性质。

需要注意的是,在具体的计算过程中,我们可能需要运用到一些概率论和数学的基本原理和方法,如积分、微分等。

同时,我们还需要注意条件概率密度函数的定义域和取值范围,确保计算的结果是合理和可行的。

条件概率公式推导

条件概率公式推导

条件概率公式推导
条件概率是指在已知某一事件的前提下,另一事件发生的概率。

条件概率的计算需要用到条件概率公式。

下面就来推导一下条件概率公式。

假设有两个事件A和B,且B的概率不为0。

则,在已知B发生的前提下,A发生的概率为:
P(A|B) = P(AB) / P(B)
其中,P(AB)表示事件A和B同时发生的概率,即交集的概率。

P(B)表示事件B发生的概率,即B的概率。

由乘法公式可得:
P(AB) = P(A) * P(B|A)
其中,P(B|A)表示在已知事件A发生的前提下,事件B发生的概率。

即,B在A发生的条件下的概率。

将P(AB)代入条件概率公式中得:
P(A|B) = P(A) * P(B|A) / P(B)
这就是条件概率公式的推导过程。

通过条件概率公式,我们可以计算在已知某事件发生的前提下,另一事件发生的概率。

这对于概率论和统计学都有着重要的应用。

- 1 -。

条件概率公式

条件概率公式

条件概率公式条件概率是指在给定一个事件发生的条件下,另一个事件发生的概率。

条件概率公式可以帮助我们计算这种概率。

首先,我们需要明确以下两个概念:1. 事件 A 在事件 B 发生的条件下发生的概率,称为事件 A 在事件 B 的条件下的概率,记为 P(A|B)。

2. 事件 A 与事件 B 同时发生的概率,称为事件 A 与事件 B 的交集的概率,记为 P(A∩B)。

那么,条件概率公式为:P(A|B) = P(A∩B) / P(B)其中,P(A∩B) 表示事件 A 与事件 B 的交集的概率,而 P(B) 表示事件 B发生的概率。

这个公式可以解释为:在事件 B 发生的条件下,事件 A 发生的概率等于事件 A 与事件 B 同时发生的概率除以事件 B 发生的概率。

例如,假设我们想要计算在一批学生中,男生与喜欢足球的学生的交集的概率。

假设这个批次的总人数为 N,其中男生的人数为 M,喜欢足球的人数为K。

那么,我们可以使用条件概率公式计算:P(男生且喜欢足球) = P(喜欢足球|男生) * P(男生)其中,P(喜欢足球|男生) 表示在已知这些学生是男生的情况下,喜欢足球的学生所占的比例。

而这个比例可以通过在这批学生中数一数同时满足这两个条件的学生数目,并将它除以男生的人数 M 来计算。

即:P(喜欢足球|男生) = K / MP(男生) 表示这些学生中男生所占的比例,即 M / N。

那么,根据条件概率公式,我们得到:P(男生且喜欢足球) = (K / M) * (M / N) = K / N这个结果表示,在这批学生中,男生与喜欢足球的学生的交集的概率等于喜欢足球的学生所占的比例(K / N)。

另外,条件概率公式还可以进一步推广到多个事件的情况。

例如,如果我们想要计算在事件 B 和事件 C 同时发生的条件下,事件 A 发生的概率,可以使用以下公式:P(A|B∩C) = P(A∩B∩C) / P(B∩C)其中,P(A∩B∩C) 表示事件 A、事件 B 和事件 C 的交集的概率,P(B∩C) 表示事件 B 和事件 C 同时发生的概率。

概率图基础:概率基本概念、条件独立性、图求解联合概率的规则合理性推理

概率图基础:概率基本概念、条件独立性、图求解联合概率的规则合理性推理

概率图基础:概率基本概念、条件独⽴性、图求解联合概率的规则合理性推理来源:B站up主Shuhuai008:板书概率图框架:概率图可分为有向(Bayes Network)和⽆向(Markov Netwrok),其中从(随机变量服从离散或者连续概率分布)的分类⾓度可分为⾼斯图(连续)和其他(离散)。

概率基本概念:Bayes是⼀个概率的概念,可从基本的规则推导⽽来。

边缘概率:p(xi);条件概率:p(xj | xi);联合概率:p(x1,x2);基本规则有如下两个规则:sum规则:p(x1)=∫p(x1,x2)dx2 【涉及联合概率;边缘概率】Product规则:p(x1,x2)=p(x1)p(x2|x1)=p(x2)p(x2|x1); 【涉及条件概率;边缘概率】Chain规则:p(x1,x2,x3)=p(x1)p(x2|x1)p(x3|x1,x2);p(x1,x2,…xi)=product(i=1~p)(p(xi|x1,x2,x i-1)); (1)Bayes规则:p(x2|x1)=p(x1,x2)/p(x1)=p(x1,x2)/∫p(x1,x2)dx2=p(x2)p(x1|x2)/∫p(x1,x2)dx2概率模型求解问题时存在的⾼维困局:⽤概率模型解决问题的时候,求解联合概率是关键的⼀步,但由于求解复杂问题时,往往随机变量均为⾼维数据,从chain公式的推导可以看出每⼀个随机变量的计算,都与它之前的随机变量有关,运算量⾮常⼤,那么就存在⼀个⾼维困境的问题,这个问题可以通过以下⽅法解决。

⾼维困局解决⽅法(Naive Bayes; Markov;条件独⽴性):⾸先分析得出,由于随机变量间的条件概率计算繁琐,那么可以假设所有随机变量均为相互独⽴的变量,达到简化计算的⽬的,这就是朴素Bayes的思想,那么p(x1,x2,…xi)=product(i=1~p)(p(xi));。

但是这个假设假设得太“过”了,计算出的结果与实际相差甚远,那么就需要想出折中的办法,由此引出了Markov假设(这⾥只介绍⼀阶Markov假设):xj⊥x i+1 | xi,j<I,在当前状态xi可以被观测的情况下,过去状态xj与未来状态x i+1条件独⽴。

概率的复合事件与条件概率计算

概率的复合事件与条件概率计算

概率的复合事件与条件概率计算概率理论是数学中的一个重要分支,用于描述随机事件发生的可能性。

在概率理论中,复合事件和条件概率是两个基本概念。

本文将详细介绍概率的复合事件和条件概率的计算方法。

一、复合事件的概念复合事件是由两个或多个简单事件组合而成的事件。

简单事件是指不能再分解的基本事件,而复合事件则是由多个简单事件组合而成。

复合事件的发生依赖于其所包含的简单事件的共同发生。

例如,考虑两个色子同时掷出两个骰子点数之和为7的事件。

在这个复合事件中,简单事件包括(1, 6)、(2, 5)、(3, 4)、(4, 3)、(5, 2)和(6, 1)共6种。

要计算这个复合事件发生的概率,可以通过统计实验的结果并计算相应的频率。

二、复合事件的概率计算计算复合事件的概率需要考虑事件的总数和有利事件的数量。

事件的总数是指所有可能的结果数量,有利事件的数量则是指事件发生的结果数量。

概率可以通过有利事件的数量除以事件的总数来计算。

以两个色子点数之和为7的事件为例,色子的点数可能取1、2、3、4、5或6,因此事件的总数为6 * 6 = 36。

而有利事件的数量为6,即(1, 6)、(2, 5)、(3, 4)、(4, 3)、(5, 2)和(6, 1)。

因此,这个复合事件发生的概率为6 / 36 = 1 / 6。

三、条件概率的概念条件概率是在给定某个事件发生的情况下,另一个事件发生的概率。

条件概率可以表示为P(B|A),表示在已知事件A发生的条件下,事件B发生的概率。

其中,P(A)表示事件A发生的概率,P(B)表示事件B发生的概率。

例如,考虑从一副52张的扑克牌中抽取一张牌,事件A表示抽到红心牌,事件B表示抽到大牌(即A、K、Q或J)。

我们想要计算在已知抽到红心牌的条件下,抽到大牌的概率。

四、条件概率的计算方法条件概率可以通过以下公式计算:P(B|A) = P(A ∩ B) / P(A),其中A ∩ B表示事件A和事件B同时发生的交集。

条件概率的公式

条件概率的公式
条件概率是一个重要的概率概念,在统计和概率学中被广泛应用。

严格地讲,条件概率是在事件A发生后,事件B发生的概率。

它可以用图表或公式表示。

条件概率用来衡量不同事件之间的相互影响,帮助我们分析数据及其关系。

条件概率可以用公式表达,它的通用公式可以表示如下:P(B|A)=P(AB)/ P(A),其中P(B|A)表示A发生后B发生的概率(事件B的条件概率);P(AB)表示A和B同时发生的概率;P(A)表示A 发生的概率。

另外,条件概率可以用另一种表示法表示:P(AB)=P(B|A)*P (A),其中与通用公式相同,只是改变了表示顺序。

条件概率有很多应用,比如在投资领域,可以用条件概率分析看不到的投资机会。

在医学研究中,条件概率也可以用来预测患病的风险,帮助决定预防策略。

在教育分析领域,条件概率可以用来分析学生的学习表现,以便进行教育改进和诊断资源分配。

综上所述,条件概率是一个重要的概率概念,它可以用公式来表示P(B|A)=P(AB)/ P(A)或者P(AB)=P(B|A)*P(A),条件概率被广泛应用于统计和投资领域,指导分析师分析数据及其关系,并且还用于其他领域。

概率基本法则随机变量联合分布,边缘分布,条件概率

P(s | m) = 0.8
P(s) = 0.01
P(s | m) P(m)
P(s)
=
已给定的
0.8 x 0.0001 .
0.01
◦ 注意: meningitis 的后验概率还是非常小: 0.008 (但比先验概率大80倍 – 为什么?)
◦ 注意: 如果有了症状还是应该去检查! 为什么?
小练习
假设两个随机变量A和B,它们的值域是 A ∈{ true, false } , B
P(Roll2=5 | Roll1=5) = P(Roll2=5)
举例: 独立性
n 个公平,独立的硬币翻转:
P(X1)
P(X2)
P(Xn)
H
0.5
H
0.5
H
0.5
T
0.5
T
0.5
T
0.5
P(X1,X2,...,Xn)
2n
真实世界里的(概率事件)独立性
独立性是简化建模的假设
有时对于真实世界的变量是合理的
0.01
30
条件独立性(条件无关)
Conditional Independence
无条件的 (绝对的) 独立性非常稀少 (为什么?)
条件独立性是我们对于不确定环境的最基本和鲁棒的知识蕴藏
形式
X 是 条件独立于(conditionally independent) Y, 给定 Z
当且仅当:
x,y,z
上次的内容
概率
概率基本法则
随机变量
联合分布,边缘分布,条件概率,条件分布
人工智能导论:
概率推理
概率推理(Probabilistic Inference)
概率推理: 从其他已知概率里计算一个想知

联合分布、边缘分布及条件分布之间的关系

联合分布、边缘分布及条件分布之间的关系1 联合分布联合分布是指两个或多个随机变量同时出现时的概率分布,通过联合概率密度函数或联合概率质量函数来描述。

它描述了两个或多个随机变量的变化趋势和相关性。

联合分布通常被用于描述两种或以上的变量之间的关系,例如X和Y的关系。

2 边缘分布边缘分布是指从联合分布中推导出来的某个随机变量的概率分布,可以通过联合分布来求出。

边缘分布描述了单个随机变量的变化趋势,与其他随机变量无关。

在具体计算过程中,可以通过边缘概率密度函数或边缘概率质量函数来描述单个随机变量的分布。

例如,在二元联合分布中,计算出X 的边缘分布,将另一个随机变量的取值范围积分掉即可。

3 条件分布条件分布是指当已知某一个或几个随机变量的取值时,另一个或其他随机变量的概率分布,是建立在已有的数据基础上的一种条件概率分布。

其计算方式为联合分布除以相关随机变量的边缘分布。

条件分布也可以用条件概率密度函数或条件概率质量函数来表示。

条件分布在实际应用中非常广泛,例如计算出当已知某一变量取值时其他变量发生的概率,可以用于决策分析、风险识别等。

4 联合分布、边缘分布及条件分布之间的关系联合分布、边缘分布和条件分布是统计学中非常重要的概念,在实际应用中它们常常紧密结合在一起。

它们之间的关系可以总结为以下几个方面:1. 联合分布是由边缘分布和条件分布相结合得到的。

2. 边缘分布是从联合分布中推导出来的,而条件分布则是从边缘分布中推导出来的。

3. 联合分布、边缘分布和条件分布是三种不同的描述方式,但它们所描述的概率分布是一致的。

4. 在具体计算中,可以通过联合分布转换成边缘分布和条件分布进行计算。

可以根据需要,选择不同的概率分布进行计算和分析。

总之,联合分布、边缘分布和条件分布是三种不同的概率分布描述方式,在统计学中具有非常广泛的应用,对于数据的分析和建模具有非常重要的意义。

理解贝叶斯15边际分布

理解贝叶斯15: 边际分布多维分布的联合分布函数全面刻画了各个随机变量的分布, 包括每个变量自身的概率分布, 以及它们之间的相互影响. 其中各个变量自身的概率分布, 在联合分布的背景下就叫边际分布, 它们是从联合分布中提取出来的. 而离开一个变量所属的多维分布的背景, 只从它自身单独的角度看, 边际分布就是我们default 所谓的变量的分布. 这样看, 我们早就在用边际分布了, 只不过没有意识到它所处的多维分布的背景, 因而把边际分布当做了普通的(无条件)分布.一个联合分布f(X, Y, Z…)包含了其中所有变量X, Y, Z 的边际分布. 要提取它们, 比如要得到X 的边际分布, 只需在联合分布函数f(X, Y, Z…)中, 遍历其它随机变量Y, Z 的所有取值而消去它们, 这样在联合分布f(X, Y, Z…)中的未知变量就只剩下X, 于是就成了X 的分布函数(或边际分布). 从这点上看, 边际分布与上一篇所讲的用随机变量的期望值来消去变量有相同的作用.遍历Y, Z 的所有取值其实是穷举的笨办法, 对于没有解析式表达的离散分布也只能如此. 例如, 在联合分布P(X=x i , Y=y j , Z=z k ) = p ijk 中, 求X 的边际分布的办法就是P(X) = Σj (Σk p ijk ), 先按下标k 遍历Z 的取值, 然后按j 遍历Y, 得到的即是X 的边际分布.但对于连续分布, 因为有了积分, 这种笨办法一下子有了神助, 对于未知变量Y, Z, 我们不用再研究它们到底是什么, 只要按它们的取值范围从-∞到+∞积分就行了(当然如果你能知道更精确的取值范围就更好):f X (x) = ⎰⎰+∞∞-+∞∞-dy dz z y x f )),,((这是X 的概率密度函数, 它的概率分布函数要再对X 从-∞积到x:F X (x) = ⎰∞-xX du u f )(=du dy dz z y u f x ])),,(([⎰⎰⎰+∞∞-+∞∞-∞-也就是说, 只要有了联合分布的具体函数形式f(X, Y, Z…), 不用求解Y,Z 的取值, 就能消去它们. 至于函数f(X, Y, Z…)的积分结果是什么, 那是微积分的事, 咱们不用管. 咱们的任务就是要找到联合分布f(X, Y, Z…).以上就是有关边际分布的基本概念. 下面扩展对它的理解.边际分布 vs 无条件分布我觉得概率之所以难学, 除了它本身较抽象以外, 很大一部分原因是教材的问题. 就像武林秘籍, 别看金庸吹的那么神, 你要想照着书学, 保证学不会. 白鹤晾翅, 野马分鬃, 这些动作该怎么做? 它们基本是武师怕忘了而给自己写的口诀. 我们的教材呢, 首先是要保证伟光正, 又生怕有啰嗦重复, 鲜有按照认知的顺序由浅入深地介绍. 其实常人是没法一步登天到达伟光正的境界的, 啰嗦重复, 乃至错误才是认知的必由之路.这里, 为了彻底理解边际分布, 我就得仔细追究一下贝叶斯大拿Jame Berger 关于边际分布的一段不起眼的话:“The interest in the marginal disbribution centers around the fact that, if X has the conditional density f(x|θ) and θ actually is random with density π(θ), then m(x) is the density according to which X will actually occur. ”1“我们之所以对边际分布感兴趣, 是因为如果X有条件分布f( x|θ ), 而且θ是随机的, 有密度函数π(θ), 那么X的边际分布 m(x)就是它的实际分布.”即: 如果随机变量X的分布依赖于参数θ, 而θ本身也是随机的, 那么X的边际分布 m(X=x)就是它的实际分布.这句话平淡得很容易让人忽略, 而要想看出其中的含义, 不真正理解多维随机变量的边际分布, 还真有些让丈二的和尚摸不着头脑.首先, X的分布依赖于一个参数θ, 就是说X的分布是以θ为条件的条件分布, 可记为f( x|θ),假设其中的条件θ =0.1, 0.2, …1.当θ不是随机变量的时候, 对于它的每一个取值, 都应有一个X的条件分布, 这就是一个分布族, 比如对于正态分布, 每个期望值, 方差, 都有一个相应的分布.而当θ也是随机的时候, 就应有一个二维联合分布 f( x, θ)来描述X和θ的分布. 而我们已知在联合分布中, X的边际分布 m(x) 是涵盖了另一个变量θ的所有可能的取值后的分布, 例如:当θ =0.1时, P(X|θ =0.1) = 0.1当θ =0.2时, P(X|θ =0.2) = 0.1当θ =0.3时, P(X|θ =0.3) = 0.1…把以上的条件分布所给出的概率(对于连续变量是概率密度)都累加起来, 就是X的边际分布m(x). 它包含了θ的各种取值: θ =0.1, 0.2, …1, 因而也就不需要用条件分布f( x|θ)中的θ来描述X了. 多元分布的麻烦之处就在于变量之间的相关影响, 否则只要把各个变量的分布相乘就行了. 而一个变量的边际分布已经考虑到了其它变量的相关影响, 因而也就去掉了相关依赖性. X的边际分布m(x)隐含了其他相关变量的全部信息, 我们不必再考虑其他变量了, 而可以把m(x)认作X自身的分布. 这就是Berger这句话的涵义.它与本文开始对于边际分布的描述是一致的, 即在联合分布的背景中, 变量自身的分布就叫边际分布. 两者不过是同一个分布在不同的背景下的称谓的不同而已: 在多元分布的背景下, 一个变量的分布叫边际分布; 离开这个背景, 只从这个变量自身看, 就是它的(无条件)分布.我们可以用随机变量Gender代表男女, 用他们的服装Attire作为分布的参数θ. 每个单元除以1Statistical Decision Theory and Bayesian Analysis, Jame O Berger, p95 $3.5.1其中, 男生的概率P( Gender = Male) = P(男生, 长裤) + P(男生, 短裤) + P(男生, 裙子) = 3/5这就是边际分布, 它是遍历P( Gender, Attire )中的Attire所有的值, 累加概率而来. 又如, 穿长裤的概率P( Attire =长裤) = P(男生, 长裤) + P(女生, 长裤) = 370/500, 它是遍历Gender累加而来.所以我们常常挂在嘴边的分布(即无条件分布), 如果不是条件分布, 就是边际分布, 只不过我们没有意识到而已. 究其根本, 是源于万事万物都是相互联系的哲学思想, 表面上看是一个事件的概率, 它的背后一定还有其他相联系的事件. 这些其他事件, 如果不是用已知的条件代表, 就要用未知的但已经综合了的所有其他相关事件的边际分布来代表, 这种认知上的分叉就是判别式模型和产生式模型的渊源, 我会在下篇细讲.边际分布 vs 条件分布先明确什么是条件分布.我们从条件概率说起, 它说的是已知条件H, 随机事件A的概率P(A|H). 如果用随机变量X代表A, 那就是P(X=A|H). 我们知道随机变量与随机事件的关系, 前者包含多个后者, 因而随机变量的解是由多个随机事件的点概率组成的分布, 而条件概率P(X=A|H)是关于其中的一个随机事件A 的点概率(就离散型分布而言, 连续型可用概率密度). 那么, 已知条件H时X的分布P(X|H)就应该是条件分布了吧?很遗憾, 条件分布的定义要比这窄得多. 它要求已知条件必须与X构成一个多维分布, 而不是任何一个已知条件. 它的定义是, 如果随机变量Y与X构成一个多维分布, 那么Y取固定值H时X的分布是条件分布. 这样, 狗叫对于股市就不是条件分布, 因为它们之间显然无法构成有意义的联合分布.为什么要定义得这样窄?按照我的观点, 其实一点也不窄. 条件概率里隐含了随机事件A对已知条件H的依赖关系2, 条件应该对随机事件A的样本空间构成了逻辑划分. 所以这里的已知条件也不是任意的. 依赖关系实际上比构成联合分布的要求更高. 这是因为条件概率只有一件随机事件, 无法从多个随机事件中建立多维分布的关系, 只能更严格地要求有依赖关系. 所以从形式上看, 条件分布的定义更狭窄, 而从内涵上看, 它比条件概率的定义更宽泛. 究其原因, 两者都不愿意为无意义的联系背书(endorsement), 就像用狗叫预测股市.前面讲了判别式模型和产生式造成了认知上的分叉, 这里又看到了它们还有相互呼应之处. 把事物之间的相互联系建模为判别式就得到条件分布, 建模为产生式就得到联合分布. 而条件分布的前提是事物之间的联系构成的联合分布, 这也就是判别式模型和产生式都有其道理的原因了. 我认为联合分布是最基本的底线认知, 条件分布是在它之上的进一步的认知.现在来PK边际分布和条件分布: 谁的信息量大? 或者说哪个覆盖的情况多?2本人的观点, 尚待证实.边际分布, 除非你有意把条件分布中的条件覆盖得比边际分布还多.条件分布中的条件, 按照定义, 是在多维分布中其他随机变量取确定的值, 这个值是有限的, 常常是以一个点为条件. 它只提供了在某些条件下, 随机变量的分布. 在2维分布f(x, θ)中, θ=1就是一个条件, f(x|θ=1) 就是以θ=1为条件的条件分布. 而边际分布m(x)是对θ的所有取值都考虑后累加出的概率分布, 其中θ的每个取值都是一个条件分布. 说它是分布是因为它给出了X在其取值范围内的每个取值的概率; 说它是条件是这些概率分布是以θ为某个值为条件的.此处我不怕重复, 再把前面的内容抄一下:当θ =0.1时, P(X|θ =0.1) = 0.1当θ =0.2时, P(X|θ =0.2) = 0.1当θ =0.3时, P(X|θ =0.3) = 0.1…把以上的条件分布所给出的概率(对于连续变量是概率密度)都累加起来, 就是X的边际分布m(x). 可见边际分布是无数个条件分布累加而来的. 所以实质上X的边际分布是以θ为条件的条件分布的积分, 它包括了θ的全部取值.有没有一种条件分布能覆盖了θ的全部取值? 有, 那就是θ的边际分布.多维随机变量的联合分布是有关这些变量的最全面的信息描述, 一个变量的边际分布是综合考量了其它各变量后, 反映在这个变量的分布上的信息. 条件分布是当其中的某些变量的值确定后的分布.做个形象的比方, 联合分布描述了一座宫殿的种种纷繁复杂, 对于宫殿的一切它有最彻底的细节. 条件概率描述了这座宫殿某几处的纷繁复杂, 比如某几处的门窗. 条件分布描述了同一类的门窗. 而边际分布就像一座宫殿的外墙, 它把宫殿里面的一切豪华景象都体现在外墙上了. 这豪华的外墙就代表了宫殿里面的种种纷繁复杂.当随机变量相互独立时, 条件分布就等于边际分布, 也就是它们各自的分布. 其实变量相互独立时, 是无所谓联合分布的, 联合分布只是变量各自分布的乘积. 没有联合分布, 当然也就没有条件分布和边际分布, 这里的定义只是为了覆盖全部的情况吧. 不过我们还是要警醒些, 狗叫和股市也是相互独立的, 但这和独立的抽样是不可相提并论的.边际分布与条件概率, 联合概率的关系在男生女生的例子中, 把每个单元的联合概率除以边际分布, 就得到条件概率, 这是根据条件概率的定义而来的:P( Attire | Gender ) = P( Attire , Gender )/P(Gender)P(Gender | Attire ) = P( Attire, Gender )/P(Attire).或者, 如果已知男生的总数, 用它作除数, 把男生的单元来相除, 就是条件分布P(Attire | Gender = 男生), 这实际上是已知由条件Gender = 男生所划分的子空间, 从而得到的概率分布. 同理, 如果最后, 按照男生, 女生各自出现的概率, 作加权累加, 就是Attire概率分布的全概率: P(Attire ) = P( Attire | Male )P(Male) + P( Attire | Female )P(Female).它与计算Attire的边际分布时对Gender遍历所累加而得的概率是一样的. 不过, 那时累加的是联合概率, 而全概率累加的是经过加权的条件分布, 两种计算通过条件分布的公式P(A|B) =P(A,B)/P(B)可以互相转化. 联合概率可以由条件概率求出:P(Attire, Gender=Male U Female) = P( Attire | Male )P(Male) + P( Attire | Female )P(Female) = P( Attire, Male ) + P( Attire, Female )从联合概率求条件概率, 只需依照条件概率的定义, 除以边际分布即可.实际应用中联合分布较难得到, 我们可以先固定一个变量Y, 获得X的条件分布. 然后依次让变量Y取不同的值, 得到相应的X的条件分布. 将全部的X的条件分布综合起来, 就可以得到X,Y的联合分布.边际分布的哲学意义对于未知, 我们靠的是经验, 是人. 过去靠皇上的圣明, 现在靠党的英明. 西方人则觉得人靠不住, 他们靠的是数据. 多年累积的数据就构成了一个数据分布. 这些数据包涵了丰富的内涵, 也就是说, 有多少个随机变量参与影响, 这些实际发生的数据都会体现出来. 可是我们往往只能识别其中的某些变量, 于是我们就想当然地认为这个分布就是这些变量的分布, 而不知道说不定背后还有一些参与作用的变量.但这也无妨, 我们认定的变量分布, 就是这些变量的边际分布, 它们已经把我们未知的变量考虑进去了. 将来发现了其它的变量u, 再把u加入到联合分布中就是了. 对比一下, 如果是用全概率的办法得到的边际分布, 当发现了新的子空间, 仍然可以再调整边际分布. 两种方法都体现了新发现只是增进已有的认知, 而不会颠覆已有认知的哲学思想. 但这2者增进的层次是不同的, 发现新变量, 是增进了一个维度, 是意义更大的发现. 而发现子空间, 则是扩展了已有变量的取值.可以说几乎所有的一维随机分布都是边际分布. 而且可以肯定地说, 所有的一维正态分布都是从多元联合分布中提取的边际分布. 因为, 根据中心极限定理, 大量相互独立的随机因素共同施加影响, 而且每个因素都不起决定作用, 这样的结果就是正态分布. 所以我们看到的一维正态分布, 比如考试成绩, 价格曲线, 表面上看它们是一元变量, 实质上影响它们的因素有成千上万, 而且几乎找不到具有决定作用的因素, 但我们仍可以把这些因素屏蔽起来, 用边际分布来涵盖它们的影响.贝叶斯公式的分母一直没有好好看看贝叶斯公式的分母, 这部分是因为过去它的积分很难求, 部分是因为在贝叶斯分类中可以偷懒不用求, 或在贝叶斯统计中可以找共轭分布来跳过这一关. 但无论如何, 现在是时候了. 我再把贝叶斯分类的公式抄一遍:P(θ=θi |x=X 0) =∑======jjj i i )( )|X p(x )( )|X p(x 00θθπθθθθπθθ 根据条件分布的定义: p(x=X 0|θ=θi ) = p(x=X 0,θ=θi )/π(θ=θi ), 把它带入分母:P(θ=θi |x=X 0) =∑=====jj i i),X p(x )( )|X p(x 00θθθθπθθ 分母就是2维分布中对θ的遍历, 按照定义, 这就是x=X 0的边际分布, 这是一个点X 0的概率.同理, 对于连续变量, 贝叶斯分类的公式为:π(θ=θi |x=X 0) =⎰====θθπθθθπθθ)d ( )|X f(x )( )|X f(x 00i i回忆第14篇, 分母可以作以下解释:1. 随机变量x 的分布为f(x|θ), 将参数θ的解π(θ)絮进函数f(x|θ)2. 作为θ的函数f(x=X 0|θ) 的数学期望, 其中θ的分布为π(θ)3. 已知参数θ的分布π(θ), 对随机变量x 在x=X 0所作的贝叶斯预测4. 当θ的值构成了对随机变量x 的样本空间的分割, 此时的分母就是随机变量x 在x=X 0时的全概率.将条件分布的定义应用于概率密度: f(x=X 0|θ=θi ) = f(x=X 0,θ=θi )/π(θ=θi ), 把它带入分母:π(θ=θi |x=X 0) =⎰====θθθθπθθd ),X f(x )( )|X f(x 00i i 这种结构的分母又可以作以下解释:5. 按照连续变量的边际分布的定义, 它是2元随机分布f(x, θ)中, x 的边际分布m(x)中x=X 0的边际概率.6. 在函数f(x, θ)中, 通过对变量θ积分而消去此变量7. 把随机变量θ的分布π(θ)作为函数f(x, θ)的解带进去.8. 利用已知随机变量θ的分布π(θ), 所得到的θ的函数f(x,θ)的期望.贝叶斯公式的分母可以写得很简单: x 的边际分布m(x), 可这并不意味着容易计算或理解. 我们知道, 要得到多元分布中一个变量的边际分布, 首先需要知道它的联合分布, 然后对其他变量积分. 而联合分布是最难得到的.还有一个出发点, 即x 的边际分布m(x)就是x 的分布, 那么m(x)就是贝叶斯定理中的x 的分布f(x|θ). 如果我们手里已有了x 的分布m(x), 而且它没有未知的参数θ, 那当然可以直接就把 m(x)带入的分母好了. 不过, 我们之所以要用贝叶斯定理, 其目的就是得到f(x|θ)中未知参数θ的分布, 如果已经有了x 的分布m(x), 就没有必要再费劲用贝叶斯了!还好, 有个办法写起来复杂, 但确容易实施, 根据条件分布的定义:f( x|θ ) = f( x,θ )/π(θ)可以把联合分布写成:f( x,θ ) = f(x|θ)π(θ).这样, 分母就是θθπθd ⎰)()|f(x .对这样的写法我要发个牢骚, 分母里的x 是很让人困惑的. 它应该是一个样本, 所以是已知的常量, 应该写成x=X 0, 或X 0. 所以为了求出分母, 只需要求出 m(x=X 0), 这只是一个点X 0的边际概率, 而不是完整的边际分布. 这就与要对整个的联合分布积分很不一样, 说不定通过巧合刚好能找到某个点的边际概率, 而不必对x 的整个分布去计算, 因为x 的边际分布就是它的(无条件)分布, 我们也许能知道X 0的概率P(X 0).好, 现在我们知道了分母由f(x=X 0|θ)和π(θ)组成. 其中, π(θ)是参数的先验分布, f(x=X 0|θ)当x 为已知的X 0时就是likelihood 函数, 而θ的值要从它的值域中一个一个地遍历, 这样所有的都是已知的. 所以贝叶斯定理的分母理论上可以通过积分得到. 当然这个积分可不可积是另一回事, 不过现在这已不是难题了, 第9篇的BUGS 就用模拟抽样的办法解决了这个问题.所以对贝叶斯定理, 需要理解哪个是变量, 哪个是常量. θ是变量, x 是常量, 它等于样本值X 0. 一些教材让x 既代表随机变量, 又代表样本, 认为它们在各自的公式中的涵义很清楚, 殊不知一个简单的f(x|θ)可以是x 的分布(这时可能是对数据x 的预测), 也可以是θ的likelihood, 全靠如何解释x. 不明确x 到底是变量还是已知的常量如何能区分f(x|θ)究竟是分布还是likelihood? 恕我粗鄙, 我还是老老实实地把贝叶斯公式写成:f( θ|X 0 ) = f(X 0|θ)π(θ) / m(x=X 0)= f(X 0|θ)π(θ) /θθπθd ⎰=)()|X f(x 0 其中的m(x=X 0), 就是x=X 0的概率P(x=X 0), 也称为样本x=X 0的证据(evidence).θθπθd ⎰=)()|X f(x 0的涵义是, θ有多个取值θ1, θ2… 每个取值x 都有一定的可能性令x 取得X 0, 其概率为f( x=X 0 | θ=θ1 ), 而θ=θ1的概率是π(θ=θ1). 以此类推, θ=θ2 x 有概率 f( x=X 0 | θ=θ2), 而θ取θ2的概率是π(θ=θ2)… 综合看, x=X 0的可能性就是θ各个取值时x 取得X 0的概率, 再乘以θ每个取值的概率π(θ), 累加而来, 就是贝叶斯的分母θθπθd ⎰=)()|X f(x 0. 其中的f( θ|X 0 )函数形式是已知的, θ的分布π(θ)如果未知时可以按先验分布的原则选取, 这样理论上贝叶斯的分母可以通过积分算出来. 它实质是计算x=X 0的全概率. 这是计算样本evidence 的一条可行的路径. 另一条路径是把x 的分布的参数θ当成随机变量, 从多元联合分布f( x,θ )中对参数θ积分得到样本的边际分布m(x=X 0), 它需要事先知道联合分布f( x,θ ), 如前所述, 联合分布较难得到.虽然θ是变量, 对它的后验分布也要一点一点地计算, 所以在贝叶斯定理中, θ每次只取一个值θ’. 这样, 贝叶斯定理实际应该写成:f( θ’|X 0 ) = f(X 0|θ’)π(θ’) / m(x=X 0)= f(X 0|θ’)π(θ’) /θθπθd ⎰=)()|X f(x 0 注意θ在θθπθd ⎰)()|f(x 中会遍历它的值域的所有的值, 这里θ就与θ’不是一回事了.没有也不可能对x 遍历, x 是样本, 遍历x 就是取所有的population, 这个开销太大了. 只有BUGS 的抽样是模拟对x 的population 的遍历. 但是除了用x=X 0计算后验概率f( θ’|X 0 ), 其他的x 值X i 当然也能计算, 所以x 也可以作为一个变量, 这是贝叶斯定理中x 为什么写成小写, 但我们应该心里清楚在具体计算后验概率时, x 应该是一个常量.贝叶斯定理中变量的取值过程如果变量的作用是可以代表多个取值, 常量代表一个具体的取值, 你可以泛泛地说贝叶斯定理中的x, θ都是变量. 但在不同的时刻, 按照先后顺序, 它们必须以常量的身份出现, 来表示一个具体的值. 过后又会遍历其它取值, 此时它们又还原为变量, 用以代表所有的取值. 具体地说, 贝叶斯定理中变量的取值过程是:(1) 首先要获得一个样本, 此时x 就是常量X 0.(2) 然后对θ的具体某个取值θ’作后验概率的计算, 此时贝叶斯公式分子上的θ就是常量θ’.(3) 分母中积分遍历θ时, 积分内的θ每次要取一个常量值. 不过, θ先取一个常量值, 然后再还原为变量而遍历其它取值的过程都隐藏在积分计算里了. 但显然分母中的θ与分子中的θ’是不同的.(4) 对于连续随机变量θ, 还要对密度f( θ’|X 0 )再次积分以得到它的分布, 此时对应(2), θ还原为变量以代表所有的θ值. 这一步是对第(2)步的呼应.(5) 对于任意一个样本, 都可以计算上述的后验概率. 此时x 为变量, 代表所有的样本. 这一步是对第(1)步的呼应.你觉得把f( θ’|X 0 ) = f(X 0|θ’)π(θ’) /θθπθd ⎰=)()|X f(x 0写成f( θ|x ) = f(x|θ)π(θ) /θθπθd ⎰)()|f(x能体现以上过程吗?将以上过程与第9篇中BUGS 的过程比较, 2者是一致的, 只是BUGS 只考虑一个样本, 因而没有前者的第(1)和第(6)步.BUGS 的过程:1. 对先验概率抽样, 即每次取一个θi , (注意这时θi 的产生是顺序的? 是否也是MCMC 随机游走?, 不是由MCMC 产生的, 它是模拟对θ的积分), 将样本值X 0和θi 带入到likelihood f(X 0|θi ), 与先验分布π(θi )相乘2. 重复第1步, 遍历θ, 将结果累加, 作为贝叶斯定理的分母. 在整个过程中, 只要样本不变, 它是不变的. 即在计算后验概率时, 它只要计算一次. 这是我们讲的第一次遍历.这2步对应贝叶斯定理中变量的取值过程的第(3)步.3. 对参数任取一值作为初值θ0, (初始值可以由你指定)4. 将样本值X 0和θ0和带入到likelihood f(X 0|θ0), 与先验分布π(θ)相乘, 计算贝叶斯定理的分子(以后再循环θ时就由MCMC 产生的下一个值代替).5. 用贝叶斯公式的分子除以分母, 得到θ0的后验概率π(θ0| X 0)这3步对应贝叶斯定理中变量的取值过程的第(2)步.6. 由MCMC algorithm, 得到下一个θ1, loop 第4步, 直至θ100000…, 得到模拟的后验分布. 这就是第二次遍历.这一步对应贝叶斯定理中变量的取值过程的第(4)步.可见BUGS 过程也是遵循贝叶斯定理的过程, 只不过多了一个用MCMC 随机游走来产生θ.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

联合概率求条件概率
联合概率求条件概率
条件概率是在一个或多个事件发生的条件下计算另一个事件发生的概率。

它可
以用联合概率来表示。

联合概率表示两个或更多事件发生的概率。

联合概率可以帮助人们计算出另一个事件的条件概率。

假设有一场考试,分为A、B、C三类,已知A类考试及格几率为20%,B类考
试及格几率为30%,C类考试及格几率为50%。

现在我们想计算出A类考试成绩为
及格,C类考试成绩为及格的条件概率。

首先,我们将联合概率表达为P(A,C)=P(A)×P(C)=20%×50%=10%。


据贝叶斯定理,条件概率的概率可以用联合概率和其他全概率进行计算,可表示为:
条件概率:P(A|C)=P(A,C)/P(C)=10%/50%=20%
因此,A类考试成绩为及格,C类考试成绩为及格的条件概率等于所有考试
同时及格的概率除以 C 类考试及格的概率,即为 20% 。

总结,条件概率可以通过联合概率计算出来。

联合概率是事件相关性信息的重
要体现,有助于我们找出问题的答案,解决实际中的问题。

相关文档
最新文档