第五章贝叶斯估计
贝叶斯估计

但是,通常我们并没有真正的先验知识或 者我们在贝叶斯估计时想更客观些,这时 可以选择无信息的先验(noninformative prior)。
或者可以从数据估计先验。这被称为经验
贝叶斯(empirical Bayes)。
H
26
反对贝叶斯学派的观点
后验分布( x1, x2 , …, xn )的计算公式就
是用密度函数表示的贝叶斯公式。它是用
总体和样本对先验分布( )作调整的结果,
贝叶斯统计的一切推断都基于后验分布进 行。
H
14
6.4.3 贝叶斯估计
基于后验分布( x1, x2 , …, xn )对 所作的
贝叶斯估计有多种,常用有如下三种:
➢ 使用后验分布的密度函数最大值作为 的 点估计,称为最大后验估计;
概率描述的是主观信念的程度,而不是频率 。这样除了对从随机变化产生的数据进行概 率描述外,我们还可以对其他事物进行概率 描述。
可以对各个参数进行概率描述,即使它们是 固定的常数。
为参数生成一个概率分布来对它们进行推导 ,点估计和区间估计可以H 从这些分布得到 6
批评1:置信区间
置信区间:
解释:区间[u1,u2]覆盖u的概率
观点:概率就是频率
参数就是参数
联合分布密度:p(x1,x2,..xn ; )
H
3
频率学派的观点
统计学更多关注频率推断
到目前为止我们讲述的都是频率(经典的)统计学
概率指的是相对频率,是真实世界的客观属性。
参数是固定的未知常数。由于参数不会波动,因 此不能对其进行概率描述。
统计过程应该具有定义良好的频率稳定性。如: 一个95%的置信区间应覆盖参数真实值至少95% 的频率。
第五章贝叶斯估计例题

第五章贝叶斯估计例题
第五章贝叶斯估计例题:
这是一个关于抽样分析的贝叶斯估计问题。
考虑总体N及其未知
的总体参数θ,设定如下模型:
在集合A中,X~Binomial(n,θ),θ~Beta(α,β) , α>0, β>0
在本题中,要求求出θ的贝叶斯估计量。
首先,设定一个合理的先验分布,记作π(θ),π(θ)~beta(α,β),∵α>0, β>0,所以可知α=1, β=1.
之后再计算条件概率分布P(A|θ),即根据已知条件求得θ的后
验分布,此时
P(θ|A)=P(A|θ)π(θ)/P(A)=P(A|θ)π(θ)
由此可知
P(θ|A)=P(A|θ)π(θ)=[θ^x(1-θ)^(n-x)]*[Beta(θ;
α,β)]/P(A)
最后再根据后验分布的表示式,计算后验期望值E(θ|A), 即为贝
叶斯估计量
E(θ|A)=∫θ·P(θ|A)dθ
由此计算,考虑到先验分布π(θ)的特殊形式,可知
E(θ|A)=(x+α)/(n+α+β)
因此,求得θ的贝叶斯估计量为:(x+α)/(n+α+β)。
Bayes(贝叶斯)估计

• 缺点:u不是变量
精选版课件ppt
批评2:评价方法
• 假设检验、参数估计等都是多次重复的结 果;
• 想知道:
– 一次实验发生的可能性
精选版课件ppt
ห้องสมุดไป่ตู้
Bayesian方法
精选版课件ppt
Bayesian公式
h(y|x) p(x| y)q(y)
p(x| y)q(y)dy
• 先验分布密度:q(y) • 条件分布密度:p(x|y) 似
• 4、确定的先验分布() • 5、利用Bayesian公式求后验分布密度 • 6、使用后验分布做推断(参数估计、假设检验)
精选版课件ppt
例1:两点分布b(1,p)的
• 1. 联合分布:p(x|)nxx(1)nx
• 2. 先验分布:() 1 01
• 3. 后验分布: h(|x)n xr(1)nr*()
• 平方损失:
L(,)()2
– 最小Bayesian风险估计:后验期望
• 点损失:
L(a,
)
0,|
a
|
1,|
a
|
– 最大后验密度估计
精选版课件ppt
例子: 正态分布
• X1…Xn服从正态分布N(,2) , 2已知, • 的先验分布是N(,2 )
• 求的Bayes估计.
• 求得后验分布还是正态分布
方差未知正态总体的均值检验多项分布的广义似然比检验pearson卡方统计量和似然比handyweinberg均衡在参数估计的例子中引入了handyweinberg均衡bacterialclump泊松散布度检验dispersiontest泊松散布度检验dispersiontest泊松散布度检验
贝叶斯讲义贝叶斯决策

1
R( | x) 0 L( , ) ( | x)d 20 ( ) ( | x)d
1
( ) ( | x)d 30 ( ) ( | x)d E( | x)
(3)求最优行动使上述风险函数达到最小.令:
dR(
| x)
3
(
|
x)d
1
0
则得:
( | x)d 1
d
0
0
3
(4)数值计算:
8
例2 在市场占有率θ的估计问题中,已知损失函数为:
L(
,
)
2(
,
),
0 1
药厂厂长对市场占有率θ无任何先验信息,另外在市场调查中,
在n个购买止痛剂的顾客中有x人买了新药,试在后验风险准则下
对θ作出贝叶斯估计。
解:(1)求参数θ的后验分布: 结果为 Be(x+1,n-x+1)
(2) (x),计算风险函数
| |
解:分三步求解:
(1)求参数θ的后验分布
(
|
x)
N
n
xi
2
, (n
2
)1
(2)对于任意一个决策函数
计算后验风险函数:
R( | x) L( , ) ( | x)d
( | x)d
| |
P|x (| | ) 1 P|x (| | )
(3)求出使得上述风险函数达到最小时的决策函数:
,i 0 ,i 1
斯决策问题:
p0 (x) 0 p1(x)1
①参数空间Θ={0,1}
②行动空间A={0,1}
③先验分布:P(θ=0)=π0, P(θ=1)=π1
④损失函数:决策正确无损失, 决策错误的损失为1.则
(完整版)贝叶斯统计-习题答案)

第一章 先验分布与后验分布1.1 解:令120.1,0.2θθ==设A 为从产品中随机取出8个,有2个不合格,则22618()0.10.90.1488P A C θ== 22628()0.20.80.2936P A C θ== 从而有5418.03.02936.07.01488.07.01488.0)()|()()|()()|()|(2211111=⨯+⨯⨯=+=θπθθπθθπθθπA P A P A P A 4582.0)|(1)|(4582.03.02936.07.01488.03.02936.0)()|()()|()()|()|(122211222=-==⨯+⨯⨯=+=A A or A P A P A P A θπθπθπθθπθθπθθπ1.2 解:令121, 1.5λλ==设X 为一卷磁带上的缺陷数,则()XP λ∴3(3)3!e P X λλλ-==R 语言求:)4(/)exp(*)3(^gamma λλ-1122(3)(3)()(3)()0.0998P X P X P X λπλλπλ∴===+== 从而有111222(3)()(3)0.2457(3)(3)()(3)0.7543(3)P X X P X P X X P X λπλπλλπλπλ==========1.3 解:设A 为从产品中随机取出8个,有3个不合格,则3358()(1)P A C θθθ=-(1) 由题意知 ()1,01πθθ=<< 从而有.10,)1(504)|(504)6,4(/1)6,4(1)6,4()1()1()1()1()1()1()1()()|()()|()|(535311614531535315338533810<<-==-=--=--=--==⎰⎰⎰⎰--θθθθπθθθθθθθθθθθθθθθθθθθπθθπθθπA beta B R B d d d C C d A P A P A :语言求(2).10,)1(840)|(840)7,4(/1)7,4(1)7,4()1()1()1()1()1()1(2)1()1(2)1()()|()()|()|(636311714631636315338533810<<-==-=--=--=----==⎰⎰⎰⎰--θθθθπθθθθθθθθθθθθθθθθθθθθθπθθπθθπA beta B R B d d d C C d A P A P A :语言求1.5 解:(1)由已知可得.5.125.11,110110/1)()|()()|()|(,2010,101)(5.125.111)|(2112211)|(12,2121,1)|(5.125.11201011111111<<===<<=<<=+<<-==+<<-=⎰⎰θθθθπθθπθθπθθπθθθθθθθθd d x p x p x x p x p x x x p ,,即,时,当(2)由已知可得.6.115.11,1010110/1)()|,,()()|,,(),,|(,2010,101)(6.115.111)|,,(,219.1121,214.1121,211.1121,217.1121215.11212112211)|,,(9.11,4.11,1.11,7.11,5.11,0.12,6,2,1,2121,1)|,,(6.115.112010621621621621621654321621<<===<<=<<=+<<-+<<-+<<-+<<-+<<-+<<-========+<<-=⎰⎰θθθθπθθπθθπθθπθθθθθθθθθθθθθθθθθθd d x x x p x x x p x x x x x x p x x x p x x x x x x i x x x x p i ,即,,时,当【原答案:由已知可得 ()1,0.50.5P x x θθθ=-<<+1(),102010πθθ=<< 11.611.51()0.0110m x d θ==⎰从而有()()()10,11.511.6()P x x m x θπθπθθ==<< 】1.6 证明:设随机变量()XP λ,λ的先验分布为(,)Ga αβ,其中,αβ为已知,则即得证!),(~),,|()()|,,(),,|(,0,)()(,!!)|,,(121)(121211112111βαλπλλπλλπλλαβλπλλλλβαβλααλλ++∑∑∝•∝>Γ=∑===+--+--=-=-==∏∏n x Ga x x x ex x x p x x x e x e x ex x x p ni i n n x n n ni in x ni i x n ni i ni ii【原答案: (),0!x e P x x λλλλ-=>1(),0()e ααβλβπλλλα--=>Γ 因此 11(1)()()()x x x P x e e e λαβλαβλπλλπλλλλ---+--+∝•∝= 所以 (,1)x Ga x λαβ++】 1.7 解:(1)由题意可知.1},max{,1)/(1)/(122)()|,,()()|,,(),,|(,10,1)(,,2,1,10,22)|,,(121},max{221},max{2121121212112122111<<∝===<<==<<<==⎰⎰∏∏⎰∏∏====θθθθθθθθθθπθθπθθπθθπθθθθn nx x nn x x nni in nni inn n n ni i nni inin x x d d x xd x x x p x x x p x x x n i x xx x x x p n n【原答案:由题意可知 ()1,01πθθ=<< 因此122()12(1)xxm x d x θθ=•=-⎰因此 2()()1(),1()1P x x x x m x x θπθπθθθ==<<- (实质是新解当n=1的情形)】(2) 由题意可知.1},max{,1)/(1)/(13232)()|,,()()|,,(),,|(,10,3)(,,2,1,10,22)|,,(12-21},max{2-22-21},max{2212211212121212122111<<∝=⨯⨯==<<==<<<==⎰⎰∏∏⎰∏∏====θθθθθθθθθθθθπθθπθθπθθθπθθθθn n x x n n x x nni in nni inn n n ni i nni inin x x d d x xd x x x p x x x p x x x n i x xx x x x p n n【原答案:由题意可知 1222()36xm x d x θθθ=•=⎰因此 ()()()1,01()P x x m x θπθπθθ==<<】 1.8 解:设A 为100个产品中3个不合格,则3397100()(1)P A C θθθ=-由题意可知 199(202)()(1),01(200)πθθθθΓ=-≤≤Γ 因此 3971994296()()()(1)(1)(1)A P A πθθπθθθθθθθ∝•∝--=- 由上可知)297,5(~)|(Be A θπ1.9 解:设X 为某集团中人的高度,则2(,5)XN θ∴25(,)10XNθ ∴2(176.53)5()p x θθ--=由题意可知 2(172.72)5.08()θπθ--=又由于X 是θ的充分统计量,从而有()()()()x x p x πθπθθπθ=∝•222(176.53)(172.72)(174.64)55.0821.26eeeθθθ------⨯∝•∝因此 (174.64,1.26)x N θ1.10 证明:设22(,),,N u u θσσ其中为已知又由于X 是θ的充分统计量,从而有()()()()x x p x πθπθθπθ=∝•222222251()()11252()11225252u x x u eeeσθθθσσσ+----+⨯--⨯+⨯∝∝因此 222251(,)112525u x xN σθσσ+++又由于21112525σ≤+ 所以 θ的后验标准差一定小于151.11 解:设X 为某人每天早上在车站等候公共汽车的时间,则(0,)X U θ.8,861)/(1192192)()|,,()()|,,(),,|(,4,192)(.81)|,,(8,8,5.3,2,1,0,1)|,,(768778774321321321433213213321>⨯====≥=>=====<<=⎰⎰⎰∞∞∞θθθθθθθθθθπθθπθθπθθθπθθθθθθd d d x x x p x x x p x x x x x x p x x x i x x x x p i ,时,当【原答案:设X 为某人每天早上在车站等候公共汽车的时间,则(0,)XU θ∴1(),0p x x θθθ=<<当8θ>时,31()p x θθ=43819211()8192m x d θθθ+∞==⎰从而有 7()()3()()128p x x m x θπθπθθ==, 计算错误】1.12 证明:由题意可知 1(),0,1,2,...,i np x x i n θθθ=<<=从而有 ()()()()x x p x πθπθθπθ∝•00111n n n ααααθθθθθ++++∝•∝ 因此 θ的后验分布仍是Pareto 分布。
贝叶斯方法估计推断决策

贝叶斯方法估计推断决策引言在数据分析与决策中,贝叶斯方法是一种基于概率统计的推理与决策方法。
贝叶斯方法通过给定观察到的数据,结合先验知识或假设,计算后验概率分布,从而进行推断与决策。
本文将介绍贝叶斯方法的基本原理、相关公式和应用场景。
贝叶斯方法的基本原理贝叶斯方法的基本原理可以用贝叶斯定理来表示。
贝叶斯定理是一种条件概率的计算方法,可以用来更新先验概率分布。
$$ P(A|B) = \\frac{{P(B|A) \\cdot P(A)}}{{P(B)}} $$其中,P(A|B)表示在已知事件 B 发生的条件下事件 A 发生的概率,P(B|A)表示在已知事件 A 发生的条件下事件 B 发生的概率,P(A)和P(B)分别表示事件 A和事件 B 的先验概率。
贝叶斯方法通过计算先验概率和条件概率,可以得到后验概率分布,从而进行推断和决策。
贝叶斯方法的基本步骤包括:确定先验分布,计算似然函数,计算后验概率分布,进行推断与决策。
贝叶斯方法的相关公式贝叶斯定理的推导贝叶斯定理可以通过联合概率的定义和条件概率的定义推导得到。
假设事件 A 和事件 B 是两个相互独立的事件,其联合概率可以表示为 $P(A, B) = P(A) \\cdot P(B)$。
根据条件概率的定义,$P(A|B) = \\frac{{P(A, B)}}{{P(B)}}$,代入联合概率的表达式可以得到 $P(A|B) = \\frac{{P(A) \\cdot P(B)}}{{P(B)}}$。
同样地,根据条件概率的定义,$P(B|A) = \\frac{{P(A, B)}}{{P(A)}}$,代入联合概率的表达式可以得到 $P(B|A) = \\frac{{P(A) \\cdot P(B)}}{{P(A)}}$。
由两个等式可得 $P(A|B) = \\frac{{P(B|A) \\cdot P(A)}}{{P(B)}}$,即贝叶斯定理。
朴素贝叶斯分类器朴素贝叶斯分类器是贝叶斯方法的一种应用,常用于文本分类等任务。
贝叶斯估计

例6.4.3 设x1, x2 , …, xn是来自正态分布N(,02) 的一个样本,其中02已知, 未知,假设 的 先验分布亦为正态分布N( , 2),其中先验均值 和先验方差 2均已知,试求 的贝叶斯估计。
解:样本x的分布和 的先验分布分别为
由此可以写出x与 的联合分布
其中
,
。若记
则有
注意到A,B,C均与 无关,由此容易算得样本的边 际密度函数
应用贝叶斯公式即可得到后验分布
这说明在样本给定后, 的后验分布为
N(B/A,1/A),即
后验均值即为其贝叶斯估计:
它是样本均值 与先验均值 的加权平均。
6.4.4 共轭先验分布 若后验分布( x)与( )属于同一个分布族,则称 该分布族是 的共轭先验分布(族)。 二项分布b(n, )中的成功概率 的共轭先验分布是 贝塔分布Be(a,b); 泊松分布P( )中的均值 的共轭先验分布是伽玛分 布Ga(,); 在方差已知时,正态均值 的共轭先验分布是正态 分布பைடு நூலகம்(, 2); 2 在均值已知时,正态方差 的共轭先验分布是倒伽 玛分布IGa(,)。
由此即可利用贝叶斯公式求出 的后验分布。具体如下: 先写出X和 的联合分布 然后求X的边际分布 最后求出 的后验分布 最后的结果说明 X Be(x+1,n-x+1),其后验期望估计为
(6.4.4)
某些场合,贝叶斯估计要比极大似然估计更合理一 点。比如: “抽检3个全是合格品”与“抽检10个全 是合格品”,后者的质量比前者更信得过。这种差 别在不合格品率的极大似然估计中反映不出来(两 者都为0),而用贝叶斯估计两者分别是 0.2 和 0.083。 由此可以看到,在这些极端情况下,贝叶斯估计比 极大似然估计更符合人们的理念。
贝叶斯估计——精选推荐

贝叶斯估计其实这是我之前最想第⼀篇来写的随笔了,今天就先把这⼀部分写⼀写吧。
1.问题 ⼀个医疗诊断问题有两个可选的假设:病⼈有癌症、病⼈⽆癌症可⽤数据来⾃化验结果:阴性和阳性。
有先验知识:在所有⼈⼝中,患病率是0.008,对确实有病的患者的化验准确率为98%,对确实⽆病的患者的化验准确率为97% 。
问题:假定有⼀个新病⼈,化验结果为阳性,是否应将病⼈断定为有癌症? 我们先把问题简单描述⼀下,⽤事件Y表⽰检测为阳性,⽤事件N表⽰检测为阴性,⽤A表⽰患有癌症,⽤B表⽰健康。
那么有:p(A)=0.008p(B)=0.992p(Y|A)=0.98p(N|B)=0.97p(N|A)=0.02p(Y|B)=0.03 然后让我们求p(A|Y) 让我们求已知检测为阳性的情况下,病⼈患有癌症的条件概率,根据条件概率的定义有p(A|Y)=p(A,Y) p(Y) ⽽:p(A,Y)=p(Y|A)p(A) 那么p(Y)怎么求呢? 我们发现A和B是互斥事件,且p(A)+p(B)=1,根据联合概率和边缘概率的关系,有:p(Y,A)+p(Y,B)=p(Y) 再次利⽤联合概率和条件概率:p(Y,A)=p(Y|A)p(A)p(Y,B)=p(Y|B)p(B) 最终得到:p(A|Y)=P(Y|A)p(A)p(Y|A)p(A)+p(Y|B)p(B) 带⼊得p(A|Y)=0.208,这好像和直觉相差甚远,明明对有病患者准确率⾼达98%,为什么检测结果为阳性但是可信度只有21%左右? 我们来看看这种检测⽅法诊断结果为阳性的概率p(Y)=0.0376,发现了什么,该癌症发病率只有0.008,有0.0376的概率的概率是结果为阳性。
假设随机10000个⼈来检查,其中癌症患者的期望为80,但是检测结果为阳性的期望为376。
这表明检测结果为阳性时,假阳性概率很⼤,在0.008的发病率看来,对正常病⼈3%的误差反⽽⼤得多,这也是阳性结果可信度低的最主要原因。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章贝叶斯统计5.1 简介到目前为止,我们已经知道了大量的不同的概率模型,并且我们前面已经讨论了如何用它们去拟合数据等等。
前面我们讨论了如何利用各种先验知识,计算MAP参数来估计θ=argmax p(θ|D)。
同样的,对于某种特定的请况,我们讨论了如何计算后验的全概率p(θ|D)和后验的预测概率密度p(x|D)。
当然在以后的章节我们会讨论一般请况下的算法。
5.2 总结后验分布后验分布总结关于未知变量θ的一切数值。
在这一部分,我们讨论简单的数,这些数是可以通过一个概率分布得到的,比如通过一个后验概率分布得到的数。
与全面联接相比,这些统计汇总常常是比较容易理解和可视化。
5.2.1最大后验估计通过计算后验的均值、中值、或者模型可以轻松地得到未知参数的点估计。
在5.7节,我们将讨论如何利用决策理论从这些模型中做出选择。
典型的后验概率均值或者中值是估计真实值的恰当选择,并且后验边缘分布向量最适合离散数值。
然而,由于简化了优化问题,算法更加高效,后验概率模型,又名最大后验概率估计成为最受欢迎的模型。
另外,通过对先验知识的取对数来正则化后,最大后验概率可能被非贝叶斯方法解释(详情参考6.5节)。
最大后验概率估计模型在计算方面该方法虽然很诱人,但是他有很多缺点,下面简答介绍一下。
在这一章我们将更加全面的学习贝叶斯方法。
图5.1(a)由双峰演示得到的非典型分布的双峰分布,其中瘦高蓝色竖线代表均值,因为他接近大概率,所以对分布有个比较好的概括。
(b)由伽马绘图演示生成偏态分布,它与均值模型完全不同。
5.2.1.1 无法衡量不确定性最大后验估计的最大的缺点是对后验分布的均值或者中值的任何点估计都不能够提供一个不确定性的衡量方法。
在许多应用中,知道给定估计值的置信度非常重要。
我们在5.22节将讨论给出后验估计置信度的衡量方法。
5.2.1.2 深耕最大后验估计可能产生过拟合在机器学习中,相比于解释模型的参数,我们能够得到精确预测结果。
然而,如果我们不能衡量参数的不确定性,那么可能过分信任预测的分布。
在第三章我们介绍了几个例子,之后还有更多这样的例子。
预测中的过度自信对于我们的风险规避很成问题;在随后的5.7节我们将详细介绍。
5.2.1.3 模型是一个非典型的点由于现实模型常常是一个区别于均值或者中值的非典型分布,所以选择一个模型来概括后验分布的效果往往很差。
对于一个一维连续空间图5.1(a)中很好的说明了这一点。
该模型的一个根本问题在于它是一个0-1的测量值,而中值和均值是在空间体积上的考虑。
图5.1(b)给出了另一个例子:图中模型结果是0.但是均值非零。
这样的偏态分布经常在推断方差参数时出现,尤其是在分层模型中。
在这样的例子中,最大后验估计(最大似然估计例外)明显的是一个非常不好的估计方法。
假如模型不是一个很好的选择项,那么我们应该如何概括后验概率呢?在5.7节中讨论的决策理论将会解答这一疑问。
其基本思想是指定一个损失函数,如果你对真实的θ的估计是ˆθ那么损失函数为L(θ, ˆθ) 。
如果我们使用0-1损失L(θ, ˆθ) = I(θ = ˆθ),那么最优估计便是后验模型。
0-1损失意味着,如果没有估计错误那么就是正确的,否则就是错误的。
再这样的损失函数下没有所谓的“部分可信”!对于连续变量,我们偏好用误差平方来表征损失函数即:L(θ, ˆθ) = (θ−ˆθ)2。
对应的最优估计是后验均值,详细参见5.7节。
或者,我们可以使用一个更可靠地损失函数:L(θ, ˆθ) = |θ−ˆθ|,他考虑的是后验的中位数(中值)。
5.2.1.4最大后验估计不是做改变的重新参数化最大后验估计的一个更加微妙的是其结果依赖于概率模型的参数。
从一个表达形式转化为另一个等效的表达形式,例如测量单位的变化(长度的度量,我们可以用厘米也可以用英尺),其结果会变化,这是我们不希望看到的。
为了更好地理解这一问题,假定我们要计算X的后验,如果我们定义y= f(x),其中y的分布为公式(2.87),为方便描述抄写如下公式5.1:|Dx/dy|项我们成为雅可比(Jacobian),他通过f来衡量单位体积大小的变化。
则X的最大后验估计为ˆx = argmaxx px(x)。
通常情况下,f(x)不是y=argmaxypy(y).举个例子来说:x~N(6,1),y=f(x),利用蒙特卡洛仿真能够得到y的分布(见2.7.1节)。
其结果如图5.2.我们看到原始的高斯分布已经被非线性的S曲线乘方。
特别的指出的是,我们看到转化后的分布模型不完全等同于原始模型的形式。
图5.2 在非线性转换下的密度转化形式示例。
注意转化后的分布函数与原始分布的区别。
以练习1.4为例(bishop 2006b)。
图形由方差的贝叶斯变化生成。
为了了解最大后验估计中如何产生这一问题的,考虑如下例子。
伯努利分布是典型的均值μ参数化模型,所以,p(y = 1|μ) = μ, 其中,y ∈{0, 1}。
在每个单元间隔,假定我们有一个统一的先验:pμ(μ) = 1 I(0 ≤μ≤1)。
如果这里没有数据,那么最大后验估计仅仅是前验知识的模型,他们可以是在0 、1之间的任意值。
现在,我们开始介绍参数化的不同能够在这一任意区间挑选出不同的点。
首先,则新的先验为:因此,最大后验估计依赖于参数化。
因为似然度是一个函数而不是概率密度,所以最大似然估计与参数无关。
贝叶斯推断也不受参数化的影响,因为贝叶斯推断在整合参数空间的时候已经考虑了度量方面变化。
解决上述问题的一个方法是最优化下面的目标函数:I(θ)是与P有关的费舍尔信息矩阵(参见6.2.2节)。
这个估计参数是独立的,原因参见(Jermyn 2005;。
不幸运的是,优化方程常常很复杂,这很大限度上降低了该方法的吸引力。
5.2.2 置信区间除了点估计,我们经常想得到可信度的度量。
一个标准的可信度度量形式是数据theta的后验分布的宽度。
我们可以利用置信区间100(1 −α)%度量,就是说,在C = ( l, u),区域中包括1 –α的后验概率的量。
这里可能有许多这样的区间,所以我们选择区域是(1−α)/2,位于分布尾端的区间,并把他称为置信区间。
图5.3(a)中心区域和(b)HPD区域的beta(3,9)检验。
置信区间是(0.06,0.52)和HPD是(0.04,0.48)。
上图是在图3.6的基础上,利用betaHPD生成的。
如果后验是已知的函数形式,我们可以利用l= F−1(α/2) and u = F−1(1−α/2),计算后验分布的中心区间,F为后验分布的累计密度曲线。
例如,如果后验是高斯分布,5.2.2.1 后验密度最高的区域中心区间的存在的一个问题是很有可能这里有一个点它的概率密度很高但是不在置信区间。
图5.3中处于左侧置信区间外的点比刚刚好处于右侧区间的点的概率密度高很多。
这便促使了一个替代变量,称之为最高的后验概率密度或者最高的后验概率密度区间。
这被定义为(一组)最可能的点,这是总的概率的100(1-α)%。
更正式的,我们发现概率分布函数阈值P为:并且定义HPD区域为:在ld,最大概率密度区间有时候被称作最高密度区间或者HDI。
例如,图5.3(b)表明BETA的95%的HDI是(0.04,0.48)。
我们看到这个区间比置信区间狭窄,但即使这样,他依然包含了总量的95%;而且,区间内的每一点都比区间外的概率密度高。
对于单峰分布,最大密度区间将是包含总量95%的最狭窄的区间。
为了看到这个,想想“充水”的反过程,直到全部的95%显示出来,只剩下5%被淹没在水下。
在Id情况下,方便计算使用简单的算法:用最小的宽度简单的搜索满足包含总量的95%的区间。
如果我们知道累计分布曲线的,这个可以通过数值最优化来实现。
或者如果我们有大量样本(从betaHPD图形表示),通过搜索排序的数据点。
如果后验是多峰的分布,最大概率密度区间可能不是一个连续的区域:例如见图5.4(b)。
然而,总结概括多峰后验经常是很难的。
5.2.3 不同比例的推断有时候我们有多个参数,并且想利用这些参数计算出一些函数的后验概率分布。
例如,假如你要从亚马逊上买东西,并且有两个售货商提供相同的价格。
售货商1有90的正面评论,10个反面评论。
售货商2有两条正面评论0条负面评论。
那你想要买谁的?表面上看,我们应该选择销售商2,但是我们不能非常确信销售商2一定比1好,因为他的评论太少了。
在这一方面,我们构筑贝叶斯方法来分析这个问题。
相似的方法可以用来比较不同设置下的群体比例或比率。
假定theta1和theta2是可靠度未知的两个销售商。
因为我们不了解他们更多的信息,我们赋予他们统一的先验分布θi ∼ Beta(1, 1). 后验概率是p(θ1|D1)= eta(91, 11) 和p(θ2|D2) = Beta(3, 1).我们想要计算p(θ1 > θ2|D). 为方便起见,定义δ= θ1 −θ2为比率方面的不同(另外,我们不妨想)利用数值积分,我们可以计算期望值:我们发现p(δ > 0|D) = 0.710,这表明你应该从销售商1哪里买。
代码参见amazonsellerDemo。
一个简单的解决方法是利用蒙特卡洛采样得到近似的后验概率。
这是容易的,因为theta1和theta2在后验概率分布中是相互独立的,并且两者都有beta分布,这样就可以利用标准方法来采样。
p(θi|Di)的分布如图5.5(b)。
通过计算theta1大于theta2的部分能够得到一个p(δ > 0|D)的近似值;结果是0.718,非常接近真实值。
图5.5(a)确切的后验概率分布p(θi|Di). (b)蒙特卡洛近似p(δ|D). 我们运用核密度估计得到一个平滑曲线。
垂直线围住的是中间95%的区间。
5.3 贝叶斯模型选择在图1.18中,我们知道使用过高的多项式导致过拟合,使用过低的多项式又导致欠拟合的发生。
相似的,在图7.8(a)中,我们知道使用太小的正则化参数导致过拟合,使用太大的参数又导致欠拟合。
通常情况,当面对一系列不同复杂性的模型时(相似的参数化分布),怎样才能选择一个最好的呢?这样一个难题称为模型选择问题。
一个方法是利用交叉验证的方法去估计所有候选模型的泛化误差,然后挑选一个看起来最好的。
然而,这需要对每个模型拟合K次,其中,K是训练集交叉验证的次数。
一个更加高效的方法是计算关于模型的后验概率分布通过上式,我们可以容易的计算出最大后验估计模型,称为贝叶斯模型选择。
如果我们在模型中使用了统一的先验,p(m) ∝1,这相当于挑选模型中的最大值对于模型M,这个数被称为边际似然度,集成的似然度或者证据。
在5.3.2中将要详细的介绍如何操作这个积分。
但是首先我们要给出这个值的直观解释。