辛普森悖论及其应用思考
这个著名的统计学悖论,第一次听说的人很可能怀疑人生

这个著名的统计学悖论,第一次听说的人很可能怀疑人生原创把科学带回家把科学带回家 2018-11-21作者七君我们平时在做重大决策的时候,比如择校啊,选专业啊,总是会参考这些比较对象的硬指标,比如它们的录取率啊,就业率啊等等。
像是,哪个学校的就业率高,我们就会去报考这个学校。
统计数字可以帮助我们了解这些比较对象的优劣,让我们做出明智的决策。
不光是个人,公司和国家也是这样做决策的。
那么这样做对吗?其...实...不...对今天我们就来介绍一个让人非常头疼,但非常有用的悖论,它会告诉你,很多时候统计数字相当不可靠,特别容易误导人。
先来看一个假设的例子。
小明生了慢粒白血病,她的失散多年的哥哥找到有2家比较好的医院,医院A和医院B供小明选择就医。
小明的哥哥多方打听,搜集了这两家医院的统计数据,它们是这样的:医院A最近接收的1000个病人里,有900个活着,100个死了。
医院B最近接收的1000个病人里,有800个活着,200个死了。
作为对统计学懵懵懂懂的普通人来说,看起来最明智的选择应该是医院A对吧,病人存活率很高有90%啊!总不可能选医院B吧,存活率只有80%啊。
呵呵,如果小明的选择是医院A,那么她就中计了。
就这么说吧,如果医院A最近接收的1000个病人里,有100个病人病情很严重,900个病人病情并不严重。
在这100个病情严重的病人里,有30个活下来了,其他70人死了。
所以病重的病人在医院A的存活率是30%。
而在病情不严重的900个病人里,870个活着,30个人死了。
所以病情不严重的病人在医院A的存活率是96.7%。
在医院B最近接收的1000个病人里,有400个病情很严重,其中210个人存活,因此病重的病人在医院B的存活率是52.5%。
有600个病人病情不严重,590个人存活,所以病情不严重的病人在医院B的存活率是98.3%。
画成表格,就是这样的——医院A:病情死亡存活总数存活率严重70 30 100 30%不严重30 870 900 96.7%合计100 900 1000 90%医院B:病情死亡存活总数存活率严重190 210 400 52.5%不严重10 590 600 98.3%合计200 800 1000 80%你可以看到,在区分了病情严重和不严重的病人后,不管怎么看,最好的选择都是医院B。
辛普森悖论与生态学谬误-概述说明以及解释

辛普森悖论与生态学谬误-概述说明以及解释1.引言1.1 概述辛普森悖论与生态学谬误是两个在不同领域中都有重要影响的概念。
辛普森悖论是描述个体数量与物种数量之间的关系的现象,而生态学谬误则是指在生态学研究中容易出现的逻辑错误。
本文将分别介绍这两个概念,并探讨它们在生态学研究中的影响和危害。
通过对这两个概念的深入探讨,我们希望能够更好地理解生态系统的复杂性,避免犯同样的错误,并提出预防和纠正的建议。
1.2 文章结构文章结构部分将在以下方面展开探讨:1. 引言- 在引言中,将对辛普森悖论和生态学谬误进行简要介绍,概述文章的主题和目的。
2. 辛普森悖论- 这一部分将详细解释辛普森悖论的定义、相关例子以及对于生态学和生物多样性研究的影响。
3. 生态学谬误- 探讨生态学中常见的谬误,包括其解释、危害和如何预防和纠正这些错误。
4. 结论- 总结全文的主要内容,对辛普森悖论和生态学谬误进行反思和展望,指出未来需要进一步研究和改进的方向。
通过对这些部分的深入分析和论述,希望读者能够更全面地了解辛普森悖论和生态学谬误的重要性和影响,以及如何在实践中避免和纠正这些错误。
1.3 目的本文旨在探讨辛普森悖论与生态学谬误在生态学研究中的重要性及影响。
通过深入分析辛普森悖论的定义、例子和影响,我们可以更好地理解物种多样性与物种丰富度之间的微妙关系,从而为生态系统的保护和可持续发展提供理论依据。
同时,我们也将探讨生态学谬误在研究和应用中的意义。
通过对生态学谬误的解释、危害和预防与纠正措施的讨论,我们可以更好地避免在生态实践中常见的误区和错误,提高生态学研究的准确性和可信度。
通过本文的讨论,希望能够引起更多人对生态学中经典悖论和谬误的关注,促进生态学领域的进步和发展,推动生态环境的保护与可持续利用。
2.辛普森悖论2.1 定义辛普森悖论是由英国生态学家辛普森在20世纪50年代提出的一个悖论。
该悖论指出,在生态系统中,种类的多样性和丰富度并不总是与面积的增加成正比。
由辛普森案件引发的思考

2013-2014冬季学年法理学作业题目:辛普森案件案例分析课程名称:法理学任课老师:潘传表学生学号:12124019学生姓名:李翠萍日期:2014年2月5日辛普森案件引发的思考被誉为“世纪审判”的辛普森杀妻案件,在当时的美国引发了极大的轰动,这个案件在今天看来,无论是案件的审判还是案件审判中所反映出的美国司法状况,都有很多地方值得思考和借鉴。
一、疑罪从无辛普森最后之所以能够逃脱法律的制裁,被判无罪,最根本的原因是美国在司法审判的时候遵守“疑罪从无”原则,即只要案件存有的疑点不能超越合理怀疑,就不轻易的判处有罪,所以辛普森虽然被很多的证据证明有罪,但同时案件又存有很大的不能忽视的疑点来证明他是无罪的,司法机关也就不能轻易判处有罪。
我认为这种审判原则虽然可能会在一定程度上成为一些高明的犯罪者逃脱司法制裁的借口,但是,从更远的地方看,这种原则能对司法机关的权利进行一定的制约,防止司法权利的滥用,起到慎刑的作用,保护嫌疑人的权利,相反的,如果没有这个原则,或者说这个原则没有被很好的遵守,司法审判可能会制造出很多的冤案。
在我国的司法审判中,理论上也有这样的原则,但是,在司法实践中,很多时候司法机关并没有很好的遵守这一原则,相反的去执行一种“疑则有罪”的原则,由此造成了很多的冤案。
比如跟辛普森案件有些相似的“佘祥林杀妻案件”,案件中的佘祥林,因为患精神病的妻子走失,再加上此时在村子里发现女尸,被妻子家属上告杀人,并且被公安机关逮捕,当地法院在证据不足,情节不清楚的情况之下,草率的将其判决有期徒刑15年,之后,走失的妻子回来,佘祥林被释放,并且获得一定的司法赔偿。
在佘祥林的案件中,基本没有直接的证据来证明佘祥林有罪,但是司法机关采用“有罪推论”的原则,判处了佘祥林有罪,无视案件中的一些不可忽视的疑点,由此造成了极大的冤案,虽然后来得以昭雪,但是造成的对当事人的伤害,以及极大的社会不良影响却很难消除,百姓对司法的公正难免都会产生怀疑,而一个不被信任的司法,自然也就失去了它的作用。
辛普森案件用法律思维(3篇)

第1篇摘要:辛普森案件是美国司法史上一宗备受争议的案件,涉及谋杀罪。
本文将从法律思维的角度,对辛普森案件进行深入剖析,探讨法律原则、证据标准、辩护策略以及社会影响等方面,以期为我国法律实践提供借鉴。
一、案件背景1994年6月12日,美国著名橄榄球运动员尼科尔·布朗和她的朋友罗纳德·高曼在洛杉矶的家中被残忍杀害。
警方很快将嫌疑人锁定为前橄榄球运动员奥兰多·詹姆斯·辛普森。
经过长达一年的侦查,警方搜集了大量证据,包括现场指纹、血迹、作案工具等。
然而,在审判过程中,辛普森的辩护律师成功地将案件逆转,辛普森最终被宣判无罪。
二、法律思维分析1. 法律原则(1)无罪推定原则。
根据《美国宪法》第14修正案,任何人在未经证明有罪之前,应被视为无罪。
辛普森案件充分体现了无罪推定原则,即在审判过程中,法庭对被告人的罪责持怀疑态度,必须由控方提供确凿证据。
(2)证据标准。
美国刑事诉讼中,控方必须证明被告人有罪,且证明标准为“排除合理怀疑”。
在辛普森案件中,辩护律师通过质疑证据的可靠性,使陪审团对控方的证据产生怀疑,从而影响案件的判决。
2. 证据标准(1)指纹证据。
警方在案发现场提取了辛普森的指纹,并将其与现场指纹进行比对。
然而,辩护律师指出,指纹鉴定存在误差,且现场指纹可能被污染,导致鉴定结果不可靠。
(2)血迹证据。
警方在案发现场提取了血迹,并证明血型与尼科尔·布朗的相符。
辩护律师则提出,血迹可能被误认,且血型鉴定存在误差。
(3)作案工具。
警方在辛普森家中找到了血迹和凶器,辩护律师则质疑这些证据的来源,认为其可能被伪造。
3. 辩护策略(1)证据质疑。
辩护律师通过质疑证据的可靠性,使陪审团对控方的证据产生怀疑,从而影响案件的判决。
(2)心理战术。
辩护律师在庭审过程中,通过向陪审团展示辛普森的善行,试图使陪审团对辛普森产生同情,从而降低其对辛普森的指控。
(3)舆论引导。
辩护律师在案件审理过程中,利用媒体舆论,试图影响公众对案件的看法,为辛普森争取更多支持。
辛普森悖论的哲学含义

辛普森悖论的哲学含义
辛普森悖论是由美国电视动画片《辛普森一家》中的一集引出的,它引发了有
趣的哲学思考。
该悖论的描述如下:在一项研究中,当我们观察两个亚群体的数据时,可能会得出一个结论;但当我们将这两个亚群体再合并成一个总体时,得出的结论却相反。
换句话说,亚群体之间的关系在总体分析中会被逆转。
这个悖论引起了哲学界对观察和总体分析之间关系的深入思考。
它揭示了一个
重要的哲学问题,即观察的相对性和局限性。
辛普森悖论表明,我们的观察结果可能会受到具体情境、关注的焦点或分类问题的影响。
这个悖论还暗示了人们在进行统计分析时可能存在的误导性。
当我们只看到局
部数据时,我们可能觉得这个数据是统计上的规律或真理。
然而,当我们将这些局部数据放入整体背景下进行分析时,可能会发现事实并非如此。
这对于哲学中的科学方法论来说,提出了一个重要的看法,即科学结论应该基于更全面和综合的观察。
辛普森悖论也引发了人们对于因果关系的思考。
它提醒我们,在观察数据时不
能简单忽略其他可能影响结果的变量。
我们需要考虑更多的相关因素,才能得出更准确和全面的结论。
这个思考角度对于哲学中的因果推理、因果关系和认识论等概念都有着重要的启示意义。
综上所述,辛普森悖论呈现了观察的相对性和局限性,引起了对观察和总体分
析关系的哲学思考。
它提醒我们进行科学研究时,应当注重全面的观察和综合分析,并认识到因果关系的复杂性。
这个悖论为科学方法论和认识论等哲学领域提供了宝贵的思考视角。
什么是辛普森悖论?辛普森悖论的重要性

什么是辛普森悖论?辛普森悖论的重要性什么是辛普森悖论?辛普森悖论的重要性对于数据科学家而言,了解统计现象和问“为什么”是非常重要的。
想象这样一个场景:一天,你和朋友约好了一起吃晚饭,你们俩都想找一家完美的餐厅。
由于选项太多,两人今天的口味也不一定一样,为了避免长达数小时的争论,你们保守地采用了现代人常用的一种方法:查看美食评论。
在用同一个APP看了所有餐厅后,最终你们锁定了其中的两家:Carlos餐厅和Sophia餐厅。
你更喜欢Carlos,因为从两性数据上看来,无论是男性用餐者还是女性用餐者,他们给出的好评率都更高(例:男性好评率=男性好评数/男性评论总数);而你的朋友更倾向于Sophia,因为他发现从整体上来看,Sophia的好评率更高,口味应该更大众。
那么这到底是怎么回事?是APP统计错误了吗?事实上,这两个统计结论都是正确的,只是你们在不知不觉中已经走进了辛普森悖论。
在这里,我们能用完全相同的一组数据证明两个全然相反的论点。
什么是辛普森悖论?辛普森悖论得名于英国统计学家E.H.辛普森(E.H.Simpson),这是他于1951年阐述的一种现象:当我们以分组和聚合两种方式统计同一数据集时,最后得出的两个趋势可能是完全逆转的。
在上面这个“吃饭”案例中,Carlos餐厅的两性推荐率更高,但它的总体推荐率却低了。
如果不想被绕晕,我们可以用一些直观的数据来说明:上表清楚地表明,当数据分组时,Carlos是首选,但是当数据合并时,Sophia是首选!导致这一悖论的原因是样本大小。
当我们分组统计数据时,Carlos餐厅的女性推荐率高达90%,但它的样本只有40个,只占总评论人数的10%;而Sophia餐厅的女性推荐率虽然只有80%,但女性评论者有250个,这显然会大幅拉高餐厅的总体好评率。
所以在挑选餐厅时,我们事先要确定数据的统计方法,是合并更合理,还是分组更合理——这取决于数据生成的过程,即数据的因果模型。
辛普森悖论及其应用思考

起 来 看 一个 向量 图 。详 见 图 1 。
I 新 药
合计
2 0 o
2 加
4 4 0
2 o o 4 O 0 5 0 %
1 6 0
3 6 0
~~ l 传统药物
4 0 o
8 0 o
6 0 %
从 表 l的结 果 看 , 新研发 的药物的有效率 是 5 0 %, 低 于 传 统 药物 的 6 0 %, 对于治疗某种 疾病来说 , 显 得 新 研 发 的药 物 的 价 值
传统药物 合 计
2 1 O 2 9 0
9 0 ‘ 3 ( ) o l 1 0 4 0 0
7 0 %
从 表 2和 表 3 来 看 ,得 到 的结 论 和 表 1 得 到 的结 论 刚 好 相
其中“ P ( A t B ) ” 表示 B发生 时 A发生 的条件 概率 , “ B ” 表示 B不发生 , … C’ 表示混杂因素。忽略了性别这个 因素 , 得到的结论
表 3 女 性 实 验数 据
疗 效
合计
l 5 O
2 5 0
4 0 0
要高 。但不讨论性别 时, 表示传统治疗 的有效率 的斜率反 而比表
合计
l 0 o
有效
处 理 新 药 8 0
无效
2 0
有效率
8 O %
示新药治疗有效 率的斜率大 , 也就是传统治疗 的效果更好 。这也 是我们之前讨论 分析 的结果 。 那么, 从数学上看 , 辛普森悖论也就 是 两个 相对斜率较小 的向量 相加 后反而 比两个 相对斜率较 大的
・1 l 氇 投 ・蕾萎 效
低 于传 统药物 。那么对这种 新研发的药物 的有效率 经过统计分
辛普森悖论解决方法

辛普森悖论解决方法辛普森悖论是一种常见的逻辑谬误,它指的是在一个整体数据中,不同的子集数据的比较结果与整体数据的比较结果相反的现象。
这种悖论常见于统计学和社会科学领域,但也经常出现在日常生活中。
为了解决这种悖论,人们提出了多种方法。
一、分组比较法分组比较法是一种常见的解决辛普森悖论的方法。
它的基本思想是将数据分成不同的组别,然后对每个组别进行比较。
这种方法可以避免数据的混淆,从而减少悖论的发生。
例如,假设有两个医院A和B,它们的手术成功率分别为60%和70%。
但是,如果我们将这两个医院的手术类型分组比较,就会发现A医院在简单手术方面的成功率高于B医院,而在复杂手术方面的成功率低于B医院。
这样,我们就可以得出更准确的结论。
二、加权平均法加权平均法是一种将不同组别的数据进行加权平均的方法。
这种方法可以避免数据的混淆,从而减少悖论的发生。
例如,假设有两个医院A和B,它们的手术成功率分别为60%和70%,但是A医院的手术数量远远多于B医院。
如果我们使用加权平均法,将A医院的成功率乘以手术数量,再将B医院的成功率乘以手术数量,然后将两个结果相加,最后除以总手术数量,就可以得到更准确的结论。
三、多元回归分析法多元回归分析法是一种将多个变量进行回归分析的方法。
这种方法可以避免数据的混淆,从而减少悖论的发生。
例如,假设有两个医院A和B,它们的手术成功率分别为60%和70%,但是A医院的手术类型更加复杂。
如果我们使用多元回归分析法,将手术类型作为一个变量,将手术成功率作为另一个变量,就可以得到更准确的结论。
综上所述,辛普森悖论是一种常见的逻辑谬误,但是我们可以通过分组比较法、加权平均法和多元回归分析法等方法来解决它。
这些方法可以避免数据的混淆,从而得出更准确的结论。
在日常生活中,我们应该注意这种悖论的存在,并采取相应的措施来避免它的发生。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
辛普森悖论及其应用思考【摘要】探讨现实中的辛普森现象,利用辛普森悖论来解释现实生活中的例子,探讨例子发生矛盾的原因,加深对辛普森现象的理解,进而对现实分析的情况进行深入思考并提供作出正确判断的理论依据。
【关键词】辛普森悖论分层抽样统计混杂因素一、辛普森悖论统计分析中,变量间是否有相关关系,常常会左右我们对观察的现象作出正确的决策。
例如,某公司开发一种新药A,想要研究这种新药跟传统的药物B对疾病的处理效果有什么不同。
选择800个人来参与做实验,分成两组,每组400人,两组的结果如表1所示。
从表1的结果看,新研发的药物的有效率是50%,低于传统药物的60%,对于治疗某种疾病来说,显得新研发的药物的价值低于传统药物。
那么对这种新研发的药物的有效率经过统计分析后是否如表1所示?把表1得到的数据再进行分层抽样处理,在细分成男性跟女性对药物的有效率后得到的信息如表2、表3所示。
从表2和表3来看,得到的结论和表1得到的结论刚好相反,也就是说不管是男性患者还是女性患者,新药的有效率都高于传统的药物,这就跟前面的分析出现了矛盾,这就是辛普森现象或称为辛普森悖论。
辛普森悖论是在一定的前提条件下,研究两种变量的相关关系时,利用分组或分层技术对原来总体再进行分析得到的与未分组或分层抽样之前相反的一种结论。
即分组评价都占优的一方在总体评价中却不占优势。
辛普森现象并不是一种稀罕的现象,在现实生活中非常普遍,特别是在社会科学和医学中。
医学上新开发的药物对疾病是否有效,新入学的学生是否受到性别的歧视,中国经济的腾飞与生活水平的降低,吸烟是否有害健康,等等,现实中的方方面面都会出现辛普森现象。
用辛普森悖论来解释这些现象能真正了解现象的本质,从而使人们作出正确的决策。
本文的目的是总结前人的分析结果,去探讨周围的辛普森现象,为大家进一步认清现象提供一些合理的解释及思考。
二、辛普森悖论的数学表示及相应问题一起来看一个向量图。
详见图1。
图1是根据上文第一部分辛普森悖论中的数据得到的向量图。
从图1可以看出,当把数据用向量在图中表示时,向量的斜率就表示药物治疗的有效率,倾斜的角度越大有效率就越高。
在分性别讨论时,上面两条就表示女性的传统药物与新药治疗的有效率,下面两条就表示男性的传统药物与新药治疗的有效率,根据相应的斜率可以知道新药治疗的有效率都比传统治疗的有效率要高。
但不讨论性别时,表示传统治疗的有效率的斜率反而比表示新药治疗有效率的斜率大,也就是传统治疗的效果更好。
这也是我们之前讨论分析的结果。
那么,从数学上看,辛普森悖论也就是两个相对斜率较小的向量相加后反而比两个相对斜率较大的向量相加要大。
什么时候才会出现这种情况呢?更一般的,记(1)P(A|B)>P(A|B');(2)P(A|B)<P(A|B'C')且P(A|BC')<P(A|B'C')。
其中“P(A|B)”表示B发生时A发生的条件概率,“B'”表示B不发生,“C”表示混杂因素。
忽略了性别这个因素,得到的结论却不再一样。
像与性别有一样影响的因素也就称为混杂因素。
如果在使用数据的过程中把这类因素忽略掉将会混杂真正的因果关系,从而得到错误结论。
式子(1)说明B发生时A发生的条件概率比B不发生时A 发生的条件概率大,式子(2)说明B发生且C发生时A发生的条件概率比B不发生且C发生时A发生的条件概率小,同时还有,B发生且C不发生时A发生的条件概率比B不发生且C不发生时A发生的条件概率小。
在加入C这一条件后,我们看到无论是在C发生还是不发生的背景下,B发生时A发生的条件概率都比B不发生时A 发生的条件概率小。
这就与前面式子(1)矛盾了。
这里我们可以看出“C”导致这种矛盾出现的因素。
若(2)成立则有(1)成立,这种现象就称为辛普森悖论。
针对前述表1至表3的例子,若用符号表示如下:记“A”表示药物有效,“A'”表示药物无效,“B”表示所用的药为新药,“B'”表示所用的药为传统药物,“C”表示选择男性作试验,“C'”表示选择女性作试验。
则表1、表2、表3可抽象为以下三个表格,即表4、表5、表6。
这与前面斜率的分析其实是同一个意思,尽管这个问题看似简单,但讨论起来可能比较困难。
因此,此处我们不作过多的讨论。
我们仅考虑在实际问题中,这种现象是否普遍存在。
前述我们所考虑的混杂因素C为二值变量的情况,辛普森悖论还可以考虑混杂因素C为多值变量的情况。
假设考虑C取值为C1,C2,C3…Ckk种情况,此时前述的(2)式可表示为(2)':P(A|BCi)<P(A|B'Ci),i=1,2…k。
三、生活中的辛普森悖论下面给出现实生活中产生辛普森现象的例子,用辛普森悖论来解释这些现象,找出其中引起矛盾的混杂因素,加深人们对辛普森悖论的理解和应用。
(一)“吸烟有害健康”问题。
表7为关于吸烟与肺癌的实验数据。
观察吸烟人群患肺癌的比率(25%)与不吸烟人群患肺癌的比率(40%)的差可以得到,似乎吸烟与人类患肺癌没有相关关系。
然而,当对研究的总体从性别这个因素将数据进行分组后,得到表8的数据,发现此时吸烟与男性、女性患肺癌都有相关关系。
这种矛盾的现象就是辛普森悖论。
因此,在使用统计调查数据进行分析时,应该考虑清楚哪些因素是要观察的,哪些因素是可以省略的。
表7是由一些原始数据整合所得到的,前面的“A”表示患肺癌,“A'”表示未患肺癌,“B”表示选择吸烟的人作试验,“B'”表示选择不吸烟的人作试验,“C”表示选择男性作试验,“C'”表示选择女性作试验。
(二)“性别歧视”问题。
这里是一所高校的两个学院,分别为法学院和商学院新的一个学期招生的情况。
人们怀疑这两个学院的招生存在性别歧视,所以作了如下统计。
详见表9、表10。
观察表9、表10的数据可知,女生在两个学院都是被优先录取的,即女生的录取率比男生的高。
将两个学院的数据汇总后,得到表11。
观察表11的数据中却发现,男生的录取率反而比女生高。
借助一幅向量图可以更好地了解情况,详见图2。
单独两个向量的比较中,女生的斜率都比男生大,这也说明女生的录取率比男生高。
但看总体向量时,男生的斜率却大于女生。
前面的“A”表示被录取,“A'”表示未被录取,“B”表示男学生报考,“B'”表示女学生报考,“C”表示选择报考法学院,“C'”表示选择报考商学院。
从上面的例子可知,简单地将分组数据(也可以称为原始数据)相加汇总是不能反映真实情况的。
下面还有一个类似的例子。
“研究生录取的性别偏差:Berkeley的数据”。
表12是当时一所大学的研究生院录取情况的一些数据。
数据显示向某大学研究生院申请的9000个男性中有4000人被录取(占44.4%),而女性之中4500个只有1500个被录取(占33.3%)。
是不是表明了存在性别歧视呢?表12中的数据是整合该研究生院4个系录取的数据所得。
接着再看描述各个系原始数据的表13。
发现在每一个系中女性录取率都比男性高。
此时,前面的“A”表示被录取,“A'”表示未被录取,“B”表示男学生报考,“B'”表示女学生报考,“C1”表示选择报考A系,“C2”表示选择报考B系,“C3”表示选择报考C系,“C4”表示选择报考D系。
像这样的两种结论,到底哪一个是正确的结论呢?从表12看是男性的录取率比女性高,但如果添加条件,即表13,女性的录取率比男性高。
如果我们仅根据表12的数据就得出结论,可能会获得错误的结论。
这样的结论自然是不可靠的。
(三)“某地房价均价的涨与降”问题。
表14为某地区房地产5、6月份的数据,暂且不论数据里是否有水分假按揭,单凭这个表真的可以说明什么吗?有人根据表14中6月份均价比5月上涨了一些,就得出了上涨7.7%的结论,统计解析房价的人或许对统计学并不怎么了解,从我们上面的例子可以知道,这样的结论是不可靠的,而且不具有统计参考意义。
那么该地区房价是否真的上涨了呢?绝大多数人尤其是不了解统计的人看了之后肯定会说当然涨了。
可是事实上,好房子和烂房子均价都降低了1000元/平方米。
如果是真的话,那么这里也存在辛普森悖论。
同样,如果把好房子和烂房子分开来看统计数据,详见表15,加起来均价和房子总套数和上面的数据是一致的。
从表15得知,其实好房子的均价从12000降至11000,烂房子的均价从9000降至8000,均价都降低了1000块,可是汇总的均价呢?却涨高了800块。
这就是辛普森悖论在生活中的体现。
有时候,概率也可以表示成均价。
而此时,前面的“A”表示房均价,“B”表示选择5月观察,“B'”表示选择6月观察,“C”表示选择好房子销售,“C'”表示选择烂房子销售。
(四)“学生与试卷”问题。
a、b两个学生,都有A、B两套试卷。
A 试卷比较简单,正确率较高,B试卷比较困难,正确率较低。
详见表16、表17。
学生b做A、B两套试卷的正确率都较低,而且绝大多数做题用A套试卷;学生a做A、B两套试卷的正确率都较高,而且绝大多数做题用B套试卷;但分别直接累加A、B两套试卷的正确数量,将得出学生a的正确数要小于学生b的矛盾结论。
前面的“A”表示做题结果正确,“A'”表示做题结果错误,“B”表示选择学生a做题,“B'”表示选择学生b做题,“C”表示选择试卷A做题,“C'”表示选择试卷B 做题。
(五)“羽毛球比赛”问题。
比赛100场羽毛球赛以最后总的胜率评价两个人的实力强弱。
详见表18、表19。
于是第一个找高手挑战40场而胜2场,找一般的对手挑战60场而胜50场,结果总的胜率52%;第二个则找高手挑战60场而胜6场,找一般的对手挑战40场打了个全胜,结果胜率为46%,比第一个的52%要小很多,但观察挑战对象数量及胜率可知,后者明显较有实力。
前面的“A”表示比赛胜利,“A'”表示比赛失败,“B”表示选择甲选手比赛,“B'”表示选择乙选手比赛,“C”表示选择高手做对手,“C'”表示选择一般的人做对手。
四、关于辛普森悖论的一些思考(一)风险认知研究。
现在很多的风险认知研究都会作出两种描述,一种是汇总的,一种是个体的。
现在看来,两种分析确实都是必要的,原理也是一样的。
如果根据两种数据得出的结论相同,那么或许作用是来自实验处理;但若根据两种数据得出的结论不相同,汇总得到的效应可能就只是假象。
(二)因果关系的证明。
辛普森悖论的含义里指出,该悖论涉及的是相关关系,并不是因果关系。
也就是只能说明甲与乙的相关性。
而证明甲与乙的因果性呢?想要证明因为甲所以乙,就必须证明有甲则有乙,并且无甲则无乙。
也就是之前所提到的虚假相关性与虚假独立性的内容,辛普森悖论里提及的只是相关关系,但却因为总是被用做因果关系来解释所以产生这么多自相矛盾的结论。
(三)辛普森悖论出现的原因。
从上面的几个问题分析还可以知道,辛普森悖论可能是由以下两个方面的因素造成的。