第4章 贝叶斯统计推断
数学中的统计学与贝叶斯推断

数学中的统计学与贝叶斯推断在数学中,统计学是一个非常重要的分支,它研究的是如何对数据进行描述、分析和预测。
其中,贝叶斯推断是一种基于贝叶斯定理的统计推断方法,它在很多实际应用中都得到了广泛的应用。
一、统计学的基本概念统计学是一种利用一定的数理方法,对各种随机现象的变异性以及产生的原因、规律和发展趋势进行研究的学科。
统计学的基本任务是探索和利用数据,提供有关变量之间关系的模型和预测。
统计学研究的内容广泛,常见的有描述统计学和推断统计学。
其中,描述统计学是对数据的表现和总结,通过各种图表和指标来描述数据的分布、中心位置和分散程度等特征;而推断统计学则是从样本中推断出总体的特征,通过对样本的信息进行推断,来获取有关总体的信息。
二、贝叶斯推断的基本原理贝叶斯推断是一种基于贝叶斯定理的统计推断方法。
它的核心思想是将已知的先验概率和新数据的似然度相结合,从而得到更新后的后验概率。
具体来说,可以将其表示为以下公式:P(θ|x) = P(x|θ)×P(θ)/P(x)其中,P(θ|x)表示在已知观测数据x的条件下,模型参数θ的后验概率;P(x|θ)表示在模型参数θ已知的条件下,观测数据x的似然度;P(θ)表示模型参数θ的先验概率;P(x)表示观测数据x的边缘概率,也就是归一化常数。
贝叶斯推断的优点在于它能够将先验知识与实际数据相结合,从而可以更准确地推断出目标参数的后验分布。
此外,贝叶斯推断还能够不断地更新后验分布,从而能够逐步提高预测的准确性。
三、贝叶斯推断在实际应用中的例子贝叶斯推断在很多实际应用中得到了广泛的应用。
例如,在互联网广告投放中,我们可以将用户的历史浏览记录作为先验知识,然后利用贝叶斯推断来预测用户会点击哪些广告。
同时,我们还可以不断地根据用户的实际点击情况来更新先验知识,从而提高预测的准确性。
另外,贝叶斯推断还可以应用于医疗诊断中。
例如,在医疗图像诊断中,我们可以将医生的先验知识作为先验概率,然后利用贝叶斯推断来预测患者的疾病类型和程度。
2011-14-贝叶斯推断_234809576

19
此问题中,决策人根据经验对两种意见的看法 属于先验信息,在决策人试验之后,就需要利 用贝叶斯公式,结合试验结果进行后验分析了。 首先计算得到:
P ( A / 1 ) (0.9)5 0.590 P ( A / 2 ) (0.7)5 0.168 P ( A) P ( A / 1 ) P (1 ) P ( A / 2 ) P ( 2 ) 0.590 0.4 0.168 0.6 0.337
15
已具备先验概率的情况下,贝叶斯 决策过程的步骤为:
(1)进行预后验分析,决定是否值得搜集补充 资料以及从补充资料可能得到的结果和如 何决定最优对策。 (2)搜集补充资料,取得条件概率,包括历史 概率和逻辑概率,对历史概率要加以检验, 辨明其是否适合计算后验概率。 (3)用概率的乘法定理计算联合概率,用概率 的加法定理计算边际概率,用贝叶斯定理 计算后验概率。 (4)用后验概率进行决策分析。
16
贝叶斯决策的优点及其局限性- 优点:
(1)贝叶斯决策能对信息的价值或是否需要采集新 的信息做出科学的判断。 (2)它能对调查结果的可能性加以数量化的评价, 而不是像一般的决策方法那样,对调查结果或者是完 全相信,或者是完全不相信。 (3)如果说任何调查结果都不可能完全准确,先验 知识或主观概率也不是完全可以相信的,那么贝叶斯 决策则巧妙地将这两种信息有机地结合起来了。 (4)它可以在决策过程中根据具体情况下不断地使 用,使决策逐步完善和更加科学。
B2
B1
Bn 1
B3
4
Bn
全概率公式
2. 全概率公式
定义 设为试验E的样本空间, A为E的事件, B1 , B2 , , Bn为的一个划分, 且P( Bi ) 0 (i 1, 2, , n), 则 P( A) P( A | B1 ) P ( B1 ) P ( A | B2 ) P ( B2 ) P( A | Bn ) P( Bn ) P( B) P( A | Bi )
贝叶斯理论做统计推断

如何应用贝叶斯理论做统计推断贝叶斯方法的基本思想是,不论你作出何种推断,都只能基于后验分布,即由后验分布所决定(陈希孺,1999).贝叶斯方法是基于贝叶斯定理而发展起来用于系统地阐述和解决统计问题的方法(Kotz和吴喜之,2000).一个完全的贝叶斯分析(full Bayesian analysis)包括数据分析、概率模型的构造、先验信息和效应函数的假设以及最后的决策(Lindley,2000).贝叶斯推断的基本方法是将关于未知参数的先验信息与样本信息综合,再根据贝叶斯定理,得出后验信息,然后根据后验信息去推断未知参数(茆诗松等,1998).袁卫(1990)从认识论的角度阐述了贝叶斯辩证推断的思想.他认为,贝叶斯公式中包含了丰富的辩证思想:(1)贝叶斯公式既考虑了主观概率,又尊重了客观信息.(2)贝叶斯公式将静态与动态结合起来,充分利用前人的知识和经验,符合认识的发展过程.(3)人类的认识过程是一个从实践到认识,再从认识到实践这样循环往复的过程.经典的统计理论仅仅反映了这一无限的认识链条中的一个环节,即“实践~认识”的过程;而贝叶斯推断则反映整个认识链条中互相联系的两个环节“认识~实践~认识”.其中第一个认识活动即先验知识,反映为先验分布;实践活动主要表现为样本观察;第二个认识活动是认识到实践再到认识的重新认识活动,是对第一次认识的补充、修改和提高.毫无疑问,历史和前人的知识对实践会起指导作用.陈希孺院士(1999)从统计推断的观点对贝叶斯理论进行了论述.他从纯科学研究的性质(不考虑损失,只关心获取有关未知参数的知识)解释了贝叶斯方法:(1)先验分布总结了研究者此前(试验之前)对未知参数可能取值的有关知识或看法.(2)在获得样本后,上述知识或看法有了调整,调整结果为后验分布.按照贝叶斯学派的观点,在获得后验分布后,统计推断的任务原则上就完成了.理由很简单,推断的目的是获取有关未知参数的知识,而后验分布反映了当前对未知参数的全部知识.至于为了特定的目的而需要对未知参数作出某种特定形式的推断,它可以由研究者根据后验分布,以他认为合适的方法去做,这些都已不是贝叶斯方法中固有的,而只是研究者个人的选择.陈希孺院士还总结了吸引应用者的贝叶斯推断思想和方法的特点:(1)“先验分布十样本~后验分布”这个模式符合人们的认识过程,即不断以新发现的资料来调整原有的知识或看法.(2)贝叶斯推断有一个固定的、不难实现的程式:方法总是落实到计算后验分布,这可能很复杂但无原则困难.在频率学派的方法中,为进行推断,往往需要知道种种统计量的抽样分布,这在理论上往往是很难解决的问题.(3)用后验分布来描述对未知参数的认识,显得比频率学派通过用统计量来描述更自然些.(4)对某些常见的问题,贝叶斯方法提供的解释比频率学派更加合理.当然,贝叶斯方法也受到了经典统计学派中一些人的批评,批评的理由主要集中在三个方面—主观性、先验分布的误用和先验依赖数据或模型.针对这些批评,贝叶斯学派的回答如下:几乎没有什么统计分析哪怕只是近似地是“客观的”.因为只有在具有研究问题的全部覆盖数据时,才会得到明显的“客观性”,此时,贝叶斯分析也可得出同样的结论.但大多数统计研究都不会如此幸运,以模型作为特性的选择对结论会产生严重的影响.实际上,在许多研究间题中,模型的选择对答案所产生的影响比参数的先验选择所产生的影响要大得多.博克斯(Box,1980)说:“不把纯属假设的东西看做先验……我相信,在逻辑上不可能把模型的假设与参数的先验分布区别开来.”古德(Good,1973)说的更直截了当:“主观主义者直述他的判断,而客观主义者以假设来掩盖其判断,并以此享受着客观性的荣耀.”防止误用先验分布的最好方法就是给人们在先验信息方面以适当的教育.另外,在贝叶斯分析的最后报告中,应将先验和数据、损失分开来报告,以便使其他人对主观的输入做合理性的评价.两个“接近的”先验可能会产生很不相同的结果.没有办法使这个问题完全消失,但通过稳健贝叶斯方法和选择“稳健先验”可以减轻(Berger 1985).当代杰出的贝叶斯统计学家奥黑根(O'Hagan,1977)指出:“劝说某人不加思考地利用贝叶斯方法并不符合贝叶斯统计的初衷.进行贝叶斯分析要花更多的努力.如果存在只有贝叶斯计算方法才能处理的很强的先验信息或者更复杂的数据结构,这时收获很容易超过付出,由此能热情地推荐贝叶斯方法.另一方面,如果有大量的数据和相对较弱的先验信息,而且一目了然的数据结构能导致已知合适的经典方法(即近似于弱先验信息时的贝叶斯分析),则没有理由去过分极度地敲贝叶斯的鼓(过分强调贝叶斯方法).”///////////////////////直至今日,关于统计推断的主张和想法,大体可以纳入到两个体系之内,其一叫频率学派,其特征是把需要推断的参数θ视作固定且未知的常数,而样本X是随机的,其着眼点在样本空间,有关的概率计算都是针对X的分布。
(完整版)贝叶斯统计-习题答案)

第一章 先验分布与后验分布1.1 解:令120.1,0.2θθ==设A 为从产品中随机取出8个,有2个不合格,则22618()0.10.90.1488P A C θ== 22628()0.20.80.2936P A C θ== 从而有5418.03.02936.07.01488.07.01488.0)()|()()|()()|()|(2211111=⨯+⨯⨯=+=θπθθπθθπθθπA P A P A P A 4582.0)|(1)|(4582.03.02936.07.01488.03.02936.0)()|()()|()()|()|(122211222=-==⨯+⨯⨯=+=A A or A P A P A P A θπθπθπθθπθθπθθπ1.2 解:令121, 1.5λλ==设X 为一卷磁带上的缺陷数,则()XP λ∴3(3)3!e P X λλλ-==R 语言求:)4(/)exp(*)3(^gamma λλ-1122(3)(3)()(3)()0.0998P X P X P X λπλλπλ∴===+== 从而有111222(3)()(3)0.2457(3)(3)()(3)0.7543(3)P X X P X P X X P X λπλπλλπλπλ==========1.3 解:设A 为从产品中随机取出8个,有3个不合格,则3358()(1)P A C θθθ=-(1) 由题意知 ()1,01πθθ=<< 从而有.10,)1(504)|(504)6,4(/1)6,4(1)6,4()1()1()1()1()1()1()1()()|()()|()|(535311614531535315338533810<<-==-=--=--=--==⎰⎰⎰⎰--θθθθπθθθθθθθθθθθθθθθθθθθπθθπθθπA beta B R B d d d C C d A P A P A :语言求(2).10,)1(840)|(840)7,4(/1)7,4(1)7,4()1()1()1()1()1()1(2)1()1(2)1()()|()()|()|(636311714631636315338533810<<-==-=--=--=----==⎰⎰⎰⎰--θθθθπθθθθθθθθθθθθθθθθθθθθθπθθπθθπA beta B R B d d d C C d A P A P A :语言求1.5 解:(1)由已知可得.5.125.11,110110/1)()|()()|()|(,2010,101)(5.125.111)|(2112211)|(12,2121,1)|(5.125.11201011111111<<===<<=<<=+<<-==+<<-=⎰⎰θθθθπθθπθθπθθπθθθθθθθθd d x p x p x x p x p x x x p ,,即,时,当(2)由已知可得.6.115.11,1010110/1)()|,,()()|,,(),,|(,2010,101)(6.115.111)|,,(,219.1121,214.1121,211.1121,217.1121215.11212112211)|,,(9.11,4.11,1.11,7.11,5.11,0.12,6,2,1,2121,1)|,,(6.115.112010621621621621621654321621<<===<<=<<=+<<-+<<-+<<-+<<-+<<-+<<-========+<<-=⎰⎰θθθθπθθπθθπθθπθθθθθθθθθθθθθθθθθθd d x x x p x x x p x x x x x x p x x x p x x x x x x i x x x x p i ,即,,时,当【原答案:由已知可得 ()1,0.50.5P x x θθθ=-<<+1(),102010πθθ=<< 11.611.51()0.0110m x d θ==⎰从而有()()()10,11.511.6()P x x m x θπθπθθ==<< 】1.6 证明:设随机变量()XP λ,λ的先验分布为(,)Ga αβ,其中,αβ为已知,则即得证!),(~),,|()()|,,(),,|(,0,)()(,!!)|,,(121)(121211112111βαλπλλπλλπλλαβλπλλλλβαβλααλλ++∑∑∝•∝>Γ=∑===+--+--=-=-==∏∏n x Ga x x x ex x x p x x x e x e x ex x x p ni i n n x n n ni in x ni i x n ni i ni ii【原答案: (),0!x e P x x λλλλ-=>1(),0()e ααβλβπλλλα--=>Γ 因此 11(1)()()()x x x P x e e e λαβλαβλπλλπλλλλ---+--+∝•∝= 所以 (,1)x Ga x λαβ++】 1.7 解:(1)由题意可知.1},max{,1)/(1)/(122)()|,,()()|,,(),,|(,10,1)(,,2,1,10,22)|,,(121},max{221},max{2121121212112122111<<∝===<<==<<<==⎰⎰∏∏⎰∏∏====θθθθθθθθθθπθθπθθπθθπθθθθn nx x nn x x nni in nni inn n n ni i nni inin x x d d x xd x x x p x x x p x x x n i x xx x x x p n n【原答案:由题意可知 ()1,01πθθ=<< 因此122()12(1)xxm x d x θθ=•=-⎰因此 2()()1(),1()1P x x x x m x x θπθπθθθ==<<- (实质是新解当n=1的情形)】(2) 由题意可知.1},max{,1)/(1)/(13232)()|,,()()|,,(),,|(,10,3)(,,2,1,10,22)|,,(12-21},max{2-22-21},max{2212211212121212122111<<∝=⨯⨯==<<==<<<==⎰⎰∏∏⎰∏∏====θθθθθθθθθθθθπθθπθθπθθθπθθθθn n x x n n x x nni in nni inn n n ni i nni inin x x d d x xd x x x p x x x p x x x n i x xx x x x p n n【原答案:由题意可知 1222()36xm x d x θθθ=•=⎰因此 ()()()1,01()P x x m x θπθπθθ==<<】 1.8 解:设A 为100个产品中3个不合格,则3397100()(1)P A C θθθ=-由题意可知 199(202)()(1),01(200)πθθθθΓ=-≤≤Γ 因此 3971994296()()()(1)(1)(1)A P A πθθπθθθθθθθ∝•∝--=- 由上可知)297,5(~)|(Be A θπ1.9 解:设X 为某集团中人的高度,则2(,5)XN θ∴25(,)10XNθ ∴2(176.53)5()p x θθ--=由题意可知 2(172.72)5.08()θπθ--=又由于X 是θ的充分统计量,从而有()()()()x x p x πθπθθπθ=∝•222(176.53)(172.72)(174.64)55.0821.26eeeθθθ------⨯∝•∝因此 (174.64,1.26)x N θ1.10 证明:设22(,),,N u u θσσ其中为已知又由于X 是θ的充分统计量,从而有()()()()x x p x πθπθθπθ=∝•222222251()()11252()11225252u x x u eeeσθθθσσσ+----+⨯--⨯+⨯∝∝因此 222251(,)112525u x xN σθσσ+++又由于21112525σ≤+ 所以 θ的后验标准差一定小于151.11 解:设X 为某人每天早上在车站等候公共汽车的时间,则(0,)X U θ.8,861)/(1192192)()|,,()()|,,(),,|(,4,192)(.81)|,,(8,8,5.3,2,1,0,1)|,,(768778774321321321433213213321>⨯====≥=>=====<<=⎰⎰⎰∞∞∞θθθθθθθθθθπθθπθθπθθθπθθθθθθd d d x x x p x x x p x x x x x x p x x x i x x x x p i ,时,当【原答案:设X 为某人每天早上在车站等候公共汽车的时间,则(0,)XU θ∴1(),0p x x θθθ=<<当8θ>时,31()p x θθ=43819211()8192m x d θθθ+∞==⎰从而有 7()()3()()128p x x m x θπθπθθ==, 计算错误】1.12 证明:由题意可知 1(),0,1,2,...,i np x x i n θθθ=<<=从而有 ()()()()x x p x πθπθθπθ∝•00111n n n ααααθθθθθ++++∝•∝ 因此 θ的后验分布仍是Pareto 分布。
贝叶斯方法估计推断决策

贝叶斯方法估计推断决策引言在数据分析与决策中,贝叶斯方法是一种基于概率统计的推理与决策方法。
贝叶斯方法通过给定观察到的数据,结合先验知识或假设,计算后验概率分布,从而进行推断与决策。
本文将介绍贝叶斯方法的基本原理、相关公式和应用场景。
贝叶斯方法的基本原理贝叶斯方法的基本原理可以用贝叶斯定理来表示。
贝叶斯定理是一种条件概率的计算方法,可以用来更新先验概率分布。
$$ P(A|B) = \\frac{{P(B|A) \\cdot P(A)}}{{P(B)}} $$其中,P(A|B)表示在已知事件 B 发生的条件下事件 A 发生的概率,P(B|A)表示在已知事件 A 发生的条件下事件 B 发生的概率,P(A)和P(B)分别表示事件 A和事件 B 的先验概率。
贝叶斯方法通过计算先验概率和条件概率,可以得到后验概率分布,从而进行推断和决策。
贝叶斯方法的基本步骤包括:确定先验分布,计算似然函数,计算后验概率分布,进行推断与决策。
贝叶斯方法的相关公式贝叶斯定理的推导贝叶斯定理可以通过联合概率的定义和条件概率的定义推导得到。
假设事件 A 和事件 B 是两个相互独立的事件,其联合概率可以表示为 $P(A, B) = P(A) \\cdot P(B)$。
根据条件概率的定义,$P(A|B) = \\frac{{P(A, B)}}{{P(B)}}$,代入联合概率的表达式可以得到 $P(A|B) = \\frac{{P(A) \\cdot P(B)}}{{P(B)}}$。
同样地,根据条件概率的定义,$P(B|A) = \\frac{{P(A, B)}}{{P(A)}}$,代入联合概率的表达式可以得到 $P(B|A) = \\frac{{P(A) \\cdot P(B)}}{{P(A)}}$。
由两个等式可得 $P(A|B) = \\frac{{P(B|A) \\cdot P(A)}}{{P(B)}}$,即贝叶斯定理。
朴素贝叶斯分类器朴素贝叶斯分类器是贝叶斯方法的一种应用,常用于文本分类等任务。
贝叶斯统计推断思想探究与简明纲要

贝叶斯统计推断思想探究与简明纲要作者:李玮来源:《消费导刊》2016年第04期英国统计学家哈罗德曾经说过,概率论实际上就像是个理想人步入茫然无知世界时的整套思维方式,人们总是根据概率论作出他对那个世界的全部推断,就像纯数学是个理想人的思维方式样,因为他总能从纯数学中得到准确的计算结果。
普通人也完全有理由尽其全力来获取问题的全部答案。
当今国际数理统计由贝叶斯学派和频率学派这两大派别组成。
纵观这两大学派,其各自理论存在很大的不同,且均有争议,直至今日尚无定论。
但目前,在概率论与数理统计的大学教材中,有关于统计推断的理论几乎清色的由频率学派主导,几乎看不到贝叶斯统计的相关主张,这使得我们度错误的认为统计推断思想方法早有定论,对贝叶斯统计理论也早已了解。
其实不然,主流教材中一般倾向于选择主观性较小,客观性、可操作性较强的频率学派基本理论观点作为教授对象,但这并不意味着贝叶斯统计学不重要。
随着今日各项技术的发展和新领域的开拓,贝叶斯统计愈加得到人们的重视,并被广泛应用。
一、频率统计学派与贝叶斯统计学派基本思想的差异频率学派的基本思想是:首先建立总体所服从的分布,且将此处总体分布中的参数视为未知常数,然后依据样本信息去估计推断该参数。
贝叶斯统计学派的基本思想是:将总体分布中的参数视为随机变量,并依据人们在实验前的认识确定此参数的先验分布,然后借助样本信息进一步修正先前的认识,得到关于此参数的后验分布。
此外关于概率的定义,频率学派将频率的极限作为概率,而贝叶斯学派则侧重于人的主观认识,提出先验概率,然后再根据贝叶斯公式不断对其作出修正,得到后验概率,且此概率具有无记忆性,可独立于先验概率。
这里我们可以借助例子去感受下:现有两完全相同的两个盒子,盒1中有6个白球,2个红球,盒2中有3个白球,5个红球,任选个盒子取球,问是从盒1中取到白球的概率。
这里令“取到白球”为事件A,“从盒1中取球”为事件B,“从盒2中取球”为事件c,由上述贝叶斯公式可以看到后验概率P(B/A)与先验概率P(B)及其似然P(A/B)成比例。
贝叶斯统计推断

贝叶斯统计推断贝叶斯统计学是一种推断未知参数或假设概率的方法,它转化了经验的概率问题为反向的条件概率问题,提供了一种综合理解的方法。
贝叶斯理论在诸多领域具有广泛应用,如金融风险管理,医学诊断,历史文献研究,机器学习,信息检索等。
它的核心是:基于先验概率和观测数据,通过后验概率推断出未知变量的概率分布。
在贝叶斯统计学中,一个关键的概念是“贝叶斯公式”。
这个公式定义了后验概率和先验概率之间的关系。
公式如下:P(A|B) = P(B|A) * P(A) / P(B)其中,A是我们感兴趣的事情,B是我们收集到的数据。
P(B|A)是给定A时B发生的概率,称为似然性。
P(A)称为先验概率,即我们在数据不足时对A的猜测,而P(B)则是数据的概率。
这个公式可以帮助我们预测未来事件的概率,比如,一个交易员预测某证券股价的概率。
贝叶斯统计学的另一个应用是建立概率模型。
我们可以用它来描述随机事件和变量之间的关系,这些关系可能在现实中发生的概率比我们实际观察到的更为复杂。
例如,数据可能存在多个相关因素,导致某个模式或结论更加复杂。
在这种情况下,我们可以使用贝叶斯方法来确定相关参数的最佳集合,预测未来事件的概率。
在众多例子中,贝叶斯网络模型是一个常见的贝叶斯统计模型,特别适合推断多重条件之间的关系。
网络模型由节点组成,每个节点代表一个随机变量,每个边表示两个随机变量之间的概率关系。
例如,一个贝叶斯网络模型可以表示对于经济发展的“人口”,“GDP”,“社会基础设施”等的关系。
这个模型可以使用Bayes公式连续进行概率推断和参数调整,以更好地预测未来事件。
贝叶斯统计学是基于贝叶斯公式的基础上,使用概率、统计中的方法与思想,推断关于某未知参数的概率分布,对所推断的概率分布的理论、方法与算法的研究。
它可以用来解决很多初一看起来不可能,二者相关性不强的问题,让人有效地进行决策。
在开始贝叶斯统计学之前,我们需要理解贝叶斯公式,理解如何使用先验概率和似然性,以得到后验概率分布。
贝叶斯推断 华中农业大学生物统计学讲义

但如果主持人有偏好,比方说他就是喜欢打开
右边的门(假设C在右边),设K=3/4, 那么B有 车的概率就变成了 3/5,不再是1/3,后验事实改 变了先验概率的估计!
但这并不改变正确的选择,我们仍然应该改选A 门,因为P(A有车|C打开)=1/(k+1)
初等概率论中的贝叶斯公式是用事件的概率形式给 出的。可在贝叶斯统计学中应用更多的是贝叶斯公 式的密度函数形式。下面结合贝叶斯统计学的基本 观点来引出其密度函数形式。贝叶斯统计学的基本 观点可以用下面三个观点归纳出来。
17
假设Ⅰ 随机变量X有一个密度函数p(x;θ),其中θ是一 个参数,不同的θ对应不同的密度函数,故从贝叶斯 观点看,p(x;θ)在给定θ后是个条件密度函数,因此记 为p(x|θ)更恰当一些。这个条件密度能提供我们的有 关的θ信息就是总体信息。
最好形式是在总体分布基础上获得的样本X1,…,
Xn和参数的联合密度函数
19
p(x1, , xn, ) p(x1, , xn ) ( )
在这个联合密度函数中。当样本 X1, , X n 给定之后, 未知的仅是参数θ了,我们关心的是样本给定后,θ的
条件密度函数,依据密度的计算公式,容易获得这个
条件密度函数
假设Ⅱ 当给定θ后,从总体p(x|θ)中随机抽取一个样 本X1,…,Xn,该样本中含有θ的有关信息。这种信 息就是样本信息。
假设Ⅲ 我们对参数θ已经积累了很多资料,经过分析、 整理和加工,可以获得一些有关θ的有用信息,这种信 息就是先验信息。参数θ不是永远固定在一个值上,而 是一个事先不能确定的量。
(
x1,
, xn )
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
布,那么,成功概率 的后验分布为另一个贝塔分布 Beta( x, n x) 。(1)试求 的后验
方差;(2)当先验分布为 Beta(1,1) 时,试求 的后验期望估计ˆE 和后验众数估计ˆMD 的后验均
方差并加以比较。
解:(1)根据贝塔分布的性质,不难求得 的后验方差为
写出
P(a b x) 0.95
并大大方方地说:“ 属于区间[a,b] 的概率为 0.95。”但是,对经典统计的置信区间 就不能这么说,因为经典统计认为 是未知常量,它要么在区间[a,b] 内,要么在此 区间外,所以不能说:“ 在区间[a,b] 内的概率为 0.95”,而只能说:“在 100 次重 复使用这个置信区间时,大约有 95 次能覆盖住 。” 这对于非统计专业的人来说,是
估计。下面给出正式定义。
定义 4.1 后验密度(概率函数) ( x) 的众数ˆMD 称为参数 的后验众数估计(也称为 广义最大似然估计和最大后验估计),后验分布的中位数ˆME 称为 的后验中位数估计,后验 分布的期望(均值)ˆE 称为 的后验期望估计。这三个估计也都可称为 的贝叶斯(点)估
§4.1 贝叶斯估计
4.1.1 点估计
设样本 x (x1, , xn ) 有联合密度(概率函数) p(x ) ,其中 是未知的待估参数。为了 估计该参数,贝叶斯统计的做法是,依据 的先验信息选择一个适当的先验分布 ( ) ,再经 由贝叶斯公式算出后验分布 ( x) ,最后,选择后验分布 ( x) 的某个特征量作为参数 的
利用如下 R 命令就可求得 的 95%区间估计为[0.6187, 0.9890]。
qbeta(c(0.025,0.975), 9.5,1.5)
[1] 0.6186852 0.9889883
§4.2 泊松分布参数的估计
4.2.1 后验分布 设样本 x (x1, , xn ) 来自泊松分布 Poisson() ,其概率函数 是
二者都是特殊的贝塔分布,因此,对应这两个无信息先验的贝叶斯估计也一并解决了。
现在我们特别对先验分布取为均匀分布 Beta(1,1) 的情形做深入一点的讨论。显然,此时参数 的
两个贝叶斯估计分别为
ˆMD
x, n
ˆE
x 1 n 2
这里令人感到惊奇的是参数 的后验众数估计居然就是经典统计中 的最大似然估计,也就是说,
计并记为ˆB 。
在一般情形下,这三种贝叶斯估计是不同的,但当后验密度函数关于均值左右对称时,
这三种贝叶斯估计重合为一个数。另外,一般而言,当先验分布为共轭先验时,贝叶斯估计
比较容易求得。
例 4.1 设样本 x (成功次数)来自二项分布
P( X
x)
n x
x
(1
)n
x
,
显然,ˆE 的后验均方差就是后验方差Var( x) ,而ˆMD 的后验均方差为
PMSE(ˆMD ) var(
x) (ˆE
ˆMD )2
(x 1)(n (n 2)2
x 1) (n 3)
(
x n
1 2
x n
)2
所以, PMSE(ˆE ) PMSE(ˆMD) ,即 的后验期望估计ˆE 优于 的后验众数估计ˆMD 。
P(ˆL ˆU x) 0.95
我们分别找ˆL 和ˆU 使
P( ˆL x) 0.025, P( ˆU x) 0.975
即ˆL 和ˆU 分别是 0.025 分位数和 0.975 分位数。这样就有 P(ˆL ˆU x) P( ˆU x) P( ˆL x) 0.95
P( ˆU x) 1 则称ˆU 为 的1 可信上限。
注: 1. 这里术语“可信区间(Credible interval)”等与经典统计中的术语“置信区 间(Confidence interval)”等不同,不要混淆。虽然在贝叶斯统计中偶尔也有人用术 语“置信区间”,但不是主流。
表 4.1 成功概率 的二种贝叶斯估计的比较
试验编号 试验次数
成功次数
ˆMD
1
5
0
0
2
10
0
0
3
5
5
1
4
10
10
1
ˆE
0.143 0.083 0.857 0.917
4.1.2 贝叶斯估计优良性准则
在经典统计中,比较估计量优良性的一种准则是看均方差的大小,均方差越小,估
计量越好。对于贝叶斯统计,我们有类似的准则来评定一个贝叶斯估计的优良性。具体
定义如下。
定义 4.2 设参数 的后验分布为 ( x) ,其中 x (x1,
一个贝叶斯估计,则 ( ˆ)2 的后验期望
, xn ) 是已知样本,又设ˆ 是 的
PMSE(ˆ) E x ( ˆ)2 E[( ˆ)2 x]
称为ˆ 的后验均方差,其平方根[PMSE(ˆ)]1/2 称为ˆ 的后验标准误。如果ˆ1 和ˆ2 是 的两个 贝叶斯估计且 PMSE(ˆ1) PMSE(ˆ2),则称在后验均方差准则下ˆ1 优于ˆ2 。
P(ˆL ˆU x) 1 则称区间[ˆL,ˆU ]为参数 的可信水平(度)为1 的贝叶斯可信区间(或区间估计) 也可简称为 的1 可信区间(区间估计);(2)如果可找到统计量ˆL ˆL (x) ,使得
P( ˆL x) 1 则称ˆL 为 的1 可信下限;(3)如果可找到统计量ˆU ˆU (x) ,使得
注:当ˆ 为 的后验期望ˆE E( x) 时,有 PMSE(ˆ) E x ( ˆE )2 Var( x)
并称之为 的后验方差,其平方根[Var( x)]1/2 称为后验标准差。对于 的任一个贝叶斯估计ˆ ,其
后验均方差与 的后验方差有如下关系 PMSE(ˆ) E x ( ˆ)2 E x[( ˆE ) (ˆE ˆ)]2 Var( x) (ˆE ˆ)2
估计为
ˆB
E(
|
非常别扭和不易理解的。
例 4.3 在例 4.1 中已经知道对于二项分布总体,如果选用贝塔分布 Beta(, ) 为先验分布, 那么,成功概率 的后验分布为另一个贝塔分布 Beta( x, n x) 。现在通过 10 次独立试 验得到成功次数 x 9 ,而且知道先验分布为 Beta(0.5, 0.5) ,求参数 的后验均值估计和 95%
4.1.3 区间估计
在贝叶斯统计中,区间估计问题处理简明、含义清晰、解释易懂。下面给出正 式定义。
定义 4.3 设给定的样本 x (x1, , xn ) 来自总体 p(x | ) 而且参数 的后验分布为 ( x) 。对于给定的概率1 (一般而言, 是小于或等于 0.1 的正数),(1)如果 可找到二个统计量ˆL ˆL (x) 和ˆU ˆU (x) ,使得
ˆMD
Байду номын сангаас
x
n
1
2
,
ˆ E
x n
注 : 由 第 3 章 例 3.18 知 的 杰 弗 里 斯 先 验 为 ( ) 1/2 (1 )1/2 ( 即 贝 塔 分 布
B e t a( 0 . 5, 0 . 5),) 而由贝叶斯假设得 的先验分布为均匀分布U (0,1) (即贝塔分布 Beta(1,1) ),
x
0,1,..., n
其中参数 为成功概率。现取贝塔分布 Beta(, ) 为 的先验分布,试求参数 的后验众数估
计和后验期望估计。
解:我们已知贝塔分布 Beta(, ) 是参数 的共轭先验分布,所以, 的后验分布为贝塔
分布 Beta( x, n x) 。因此, 的后验众数估计和后验期望估计分别为
区间估计。
解:(1)当先验分布为 Beta(0.5, 0.5) 时,后验分布为 Beta(9.5,1.5) ,所以参数 的后验均
值估计为ˆE 9.5 / (9.5 1.5) 0.8636 。(2)求 的 95%区间估计就是要找到两个统计量ˆL ˆU 使 [ˆL,ˆU ] 的后验概率等于 0.95,即
var(
x)
(x )(n x ) (n )2(n 1 )
(2)由例 4.1 知,这时 的后验期望估计ˆE 和后验众数估计ˆMD 分别为
ˆE
x 1 n2
,ˆMD
x n
根据(1),这时 的后验方差为
var( x) (x 1)(n x 1) (n 2)2 (n 3)
成功概率 的最大似然估计就是取特定的先验分布 Beta(1,1) 下的后验众数估计。这种现象不是孤立
的,以后我们会经常遇到。这种现象表明经典统计在自觉或不自觉地使用特定的贝叶斯推断。其次,
考察表 4.1 中的数据,不难看出 的后验期望估计ˆE 要比后验众数估计ˆMD (即最大似然估计)更 合理一些,而且从下一小节知道后验期望估计在所有的参数 的估计中的后验均方差最小,所以人
p(x | ) x e , x 0,1, 2,
x!
例 2.3 证明了伽玛分布 Gamma(, ) 是均值(方差) 的共轭 先验分布,且此时的后验分布是 Gamma( nx, n) 。例 3.16 证明了 () 1/2 是 的杰弗里斯无信息先验,此时 的后验 分布是
们经常选用后验期望估计作为 的贝叶斯估计。这样,在这个统计模型中贝叶斯估计就优于经典统 计的最大似然估计,而且这里并没有用到先验信息,因为 Beta(1,1) 是无信息先验。换句话说,这里
参数 的贝叶斯估计用到的信息与经典统计中 的最大似然估计用到的信息是一样的,但是,结果
是前者优于后者,这再一次令人感到惊奇!