贝叶斯公式的几个应用

[收稿日期]2008 05 26

[基金项目] 十一五国家课题我国高校应用型人才培养模式研究数学类子课题项目(F IB070335-A 2-15-C)第27卷第2期

大学数学V ol.27, .22011年4月COLLEGE M AT H EM AT ICS Apr.2011

贝叶斯公式的几个应用

杨静1, 陈冬1, 程小红2

(1.北京联合大学基础部,北京100101; 2.首都师范大学初等教育学院,北京100080)

[摘要]介绍了贝叶斯公式的一些应用实例及分析,以使在教学中能帮助学生更深入地理解该公式.

[关键词]贝叶斯公式;应用;案例

[中图分类号]O 211 [文献标识码]C [文章编号]1672 1454(2011)02 0166 04

在一般的概率统计课程的教学中,都会涉及到贝叶斯公式.遗憾的是,多数教材对该公式的探讨都点到为止.同时,教材中所涉及到的应用又都过于单调.据此,本文拟对由贝叶斯公式得到的结论作更深入的探讨以及提供更多类型的应用.通过贝叶斯公式,我们看到,某些看似合理的结论却往往蕴含着不合理.

1 贝叶斯公式

贝叶斯公式是英国学者托马斯贝叶斯(T homas Bayes,1702-1761)最早发现的,首次发表在1763年,当时贝叶斯已经去世,其结果没有受到应有的重视.1774年,法国数学家拉普拉斯(P. https://www.360docs.net/doc/0215035751.html,place,1749-1827)再一次总结了这一结果.此后,人们逐渐认识到这个著名概率公式的重要性.现在,它已在疾病诊断、安全监控、质量控制、安全部门的招募、药剂检测等方面发挥着重要的作用.

贝叶斯公式若事件B 1,B 2, ,B n 是样本空间的一个划分,P (B i )>0(i =1,2, ,n ),A 是任一事件且P (A )>0,则有

P (B j A )=P (B j )P (A B j )P (A ) (j =1,2, ,n ),(1)其中,P (A )可由全概公式得到.即

P (A )=

n i=1P (B i )P (A B i ).(2)

本文主要应用贝叶斯公式的一种简单情形,即对任意两个事件A 和B,根据贝叶斯公式有

P (B A )=P (B)P (A B)P (A),(3)其中

P (A )=P (B)P (A B )+P ( B )P (A B ).

(4)这里,事件B 的概率通常是根据以往的数据分析得到的,叫作先验概率,而P (B A)是在获得新的信息后对先验概率作出重新的认识,称为后验概率

[1].后验概率体现了已有信息带来的知识更新,经常用来

分析事件发生的原因.

2 贝叶斯公式的应用

1.疾病诊断.

贝叶斯公式在疾病诊断方面的应用很多,一般教材多采用这方面的例子.在此,我们引入两个案例.并通过第一个案例,对最后的结果进行详尽的讨论.

资料显示,某项艾滋病血液检测的灵敏度(即真有病的人检查为阳性)为95%,而对没有得病的人这种检测的准确率(即没有病的人检查为阴性)为99%.美国是一个艾滋病比较流行的国家,估计大约有千分之一的人患有这种病.为了能有效地控制、减缓艾滋病的传播,几年前有人建议对申请新婚登记的新婚夫妇进行这种血液检查.该计划提出后,征询专家意见,遭到专家的强烈反对,计划没有被通过.

现在我们用贝叶斯公式分析专家为何反对通过这项计划.

设A={检查为阳性},B={一个人患有艾滋病}.根据文中叙述可知,

P(B)=0.001, P(A B)=0.95, P( B)=1-0.001=0.999, P(A B)=1-0.99=0.01.

由(4)得

P(A)=0.001 0.95+0.999 0.01=0.01094.

根据公式(3),得到

P(B A)=0.001 0.95

0.01094

0.087.

也就是说,被检测患有艾滋病而此人确实患有该病的概率大约为0.087.这个结果使人难以接受,好像与实际不符.从资料显示来看,这种检测的精确性似乎很高.因此,一般人可能猜测,如果一个人检测为阳性,他患有艾滋病的可能性很大,估计应在90%左右,然而计算结果却仅为8.7%.如果通过这项计划,势必给申请登记的新婚夫妇带来不必要的恐慌.因为约有91.3%的人并没有患艾滋病.为什么会出现与直觉如此相悖的结果呢?这是因为人们忽略了一些基础信息,就是患有艾滋病的概率很低,仅为千分之一.因此,在检测出呈阳性的人中大部分是没有患艾滋病的.具体的说,若从该地随机抽取1000个居民,则根据经验概率的含义,这1000个居民中大约有1人患有艾滋病,999人未换艾滋病.检查后,大约有1 0.95+999 0.01=10.94个人检查为阳性,而在这个群体中真正患有艾滋病却仅有1人.因此有必要进行进一步的检测.

但是,我们也应该注意到,这项检测还是为我们提供了一些新的信息.计算结果表明,一个检测结果呈阳性的人患有艾滋病的概率从最初的0.001增加到了0.087,这是原来患有艾滋病概率的87倍.

进一步的计算,我们得到一个检查呈阴性而患有艾滋病的概率为

P(B A)=P(B)P( A B)

P( A)=0.001 0.05

0.98906

0.00006.

因此,通过这项检测,检查呈阴性的人大可放宽心,他患有艾滋病的概率已从千分之一降低到十万分之六.

我们再举一个心理学研究中常被引用的例子:参加常规检查的40岁妇女患乳腺癌的概率是1%.如果一个妇女有乳腺癌,则她有80%的概率将接受早期胸部肿瘤X射线检查.如果一个妇女没有患乳腺癌,也有9.6%的概率将接受早期胸部肿瘤X射线检查.在这一年龄群的常规检查中某妇女接受了早期胸部肿瘤X射线检查,问她实际患乳腺癌的概率是多少?[2]

心理学家关心的是,一个不懂贝叶斯原理的人对上述问题进行直觉推理时的情形是什么样的,并将他们的判断结果与贝叶斯公式计算的结果作比较来研究推理过程的规律.结果,95%的内科医生的判断介于70% 80%,远远偏离正确答案.设B={患有乳腺癌},A={早期胸部肿瘤X射线检查}.由资料知P(B)=0.01,P( B)=0.99,P(A B)=0.8,P(A B)=0.096.由上面公式(4),有P(A)=P(B)P(A B)+P( B)P(A B)=0.01 0.8+0.99 0.096=0.10304.

利用上面公式(3),有

P(B A)=0.01 0.8

0.10304

=0.0776.

167

第2期杨静,等:贝叶斯公式的几个应用

由此可知,在这一年龄群的常规检查中某妇女接受了早期胸部肿瘤X射线检查,她实际患乳腺癌的概率是0.0776.

2.说谎了吗?

测谎仪是用来检测一个人是否说谎的仪器,经常用于征兵、安全部门的筛查、侦破、诉讼等领域.定义事件T= 检测为一个人在说谎 ,L= 一个人真正在说谎 .根据经验,P(T L)=0.88,P( T L) =0.86.看起来,测谎仪比较精确.

假设在一次试验中,检测出被测对象在说谎.按照上面所给资料,也许很多人都认为这个人说谎的概率会很高,也许在0.87左右.然而,在安全部门的招募筛查中,大多数人都是诚实的,假设P(L) =0.01,根据公式(4),有

P(T)=P(L)P(T L)+P( L)P(T L)

=0.01 0.88+0.99 0.14

=0.1474.

应用公式(3),有

P(L T)=P(L)P(T L)

P(T)=0.01 0.88

0.1474

0.06.

从计算结果来看,94%的检测都是错误的.如果测谎试验导致被检测者逮捕或被指控,后果该有多么严重!这也显示了在一般人群中使用这种筛查的危险性.如果检验用在嫌疑犯身上,危险性将大大降低.一般嫌疑犯说谎的概率都很高,假设P(L)=0.5,这时我们得到P(L T)=0.86,这个概率还是可以接受的.

3.诉讼.

1981年3月30日,一个大学退学学生欣克利(Jo hn H inckley Jr.)企图对里根总统行刺.他打伤了里根、里根的新闻秘书以及两个保安.在1982年宣判他时,欣克利的辩护律师以精神病为理由作为其无罪的辩护[3].作证的医师告诉法院当给被诊断为精神分裂症的人以CAT扫描时,扫描显示30%的案例为脑萎缩,而给正常人以CAT扫描时,只有2%的扫描显示脑萎缩.欣克利的辩护律师试图拿欣克利的CA T扫描结果为证据,争辩说因为欣克利的扫描显示了脑萎缩,他极有可能患有精神病,从而应免受到法院的起诉.

让我们尝试用贝叶斯方法对欣克利是否患有精神病作出判断.一般地,在美国精神分裂症的发病率大约为1.5%.

设A={CAT扫描显示脑萎缩};B={做扫描的人患有精神病}.根据上文的叙述可知,

P(B)=0.015, P(A B)=0.3, P( B)=1-0.015=0.985, P(A B)=0.02.

由上面公式(4),得

P(A)=0.015 0.3+0.985 0.02=0.0242,

再由公式(3),有

P(B A)=0.015 0.3

0.0242

=0.186.

这意味着即使欣克利的扫描显示了脑萎缩,他也只有18.6%的可能患有精神病,因此CAT扫描无法作为其无罪的证据.

4.企业资质评判.

在市场经济条件下,一些大的建筑工程都实行招投标制.在发包过程中,对参加招标的施工企业的资质(含施工质量信誉等)进行调查和评定是非常重要的.设B={被调查的施工企业资质不好}, A={被调查的施工企业资质评定为不好}.由过去的资料知P(A B)=0.97,P( A B)=0.95.现已知,在被调查的施工企业当中有6%确实资质不好,我们来看一下评定为资质不好的施工企业确实资质不好的概率.

由上面公式(4),有

(A)=P(=0.06 0.97+0.94 0.05=0.105.

168大学数学第27卷

利用上面公式(3),有P (B A )=0.06 0.970.105

=0.55.由此可知,被评为资质不好的施工企业中,真正不好的约占55%,也就是说,误评的可能性相当大.所以不能对评为不好的企业轻易下不发包的结论.为了使发包工作公正合理地进行,一般应从其他方面对这些企业进行深入了解,再作决定.

3 总结

在教学中应提醒学生以下两个方面.第一、必须注意事件的基础概率,即事件的先验概率.基础概率小的事件,即使某种条件概率,如P (A B i )较高,其出现的概率仍然是较小的.如现实生活中中奖的机会就是小概率事件.第二、应该对信息的外部表征作理性的分析,不应被一些表面特征所迷惑,如条件概率的高低并不决定某一事件出现概率的高低.

[参考文献]

[1] 余家林.概率论及试验统计[M ].北京:高等教育出版社,2001,22.

[2] K ahneman D,et al.Judg ement under uncer tainty:H eur istics and biases[M ].Cambridg e :Cambr idg e U niv ersity

P ress,1982:249.

[3] 陈伟.欣克利行刺案与美苏冷战结束[J].书屋,2005(10):65-72.

Some Applications of Bayesian Formula

YAN G J ing 1, CH EN D ong 1, CH EN G X iao hong 2

(1.D epar tment o f Basic Subjects,Beijing U nio n U niv erstiy,Beijing 100101,China;

2.Elementary Educat ional Co lleg e,Capital No rmal U niver sity,Beijing 100080,China)

Abstract:T his paper gives so me cases for Bay esian fo rmula and anly sizes t hem,which might help students t o learn and understand the for mula and it s application better.

Key words:Bayesian fo rmula;the application;cases 169

第2期杨静,等:贝叶斯公式的几个应用