辛普森悖论的日常例子
这个著名的统计学悖论,第一次听说的人很可能怀疑人生

这个著名的统计学悖论,第一次听说的人很可能怀疑人生原创把科学带回家把科学带回家 2018-11-21作者七君我们平时在做重大决策的时候,比如择校啊,选专业啊,总是会参考这些比较对象的硬指标,比如它们的录取率啊,就业率啊等等。
像是,哪个学校的就业率高,我们就会去报考这个学校。
统计数字可以帮助我们了解这些比较对象的优劣,让我们做出明智的决策。
不光是个人,公司和国家也是这样做决策的。
那么这样做对吗?其...实...不...对今天我们就来介绍一个让人非常头疼,但非常有用的悖论,它会告诉你,很多时候统计数字相当不可靠,特别容易误导人。
先来看一个假设的例子。
小明生了慢粒白血病,她的失散多年的哥哥找到有2家比较好的医院,医院A和医院B供小明选择就医。
小明的哥哥多方打听,搜集了这两家医院的统计数据,它们是这样的:医院A最近接收的1000个病人里,有900个活着,100个死了。
医院B最近接收的1000个病人里,有800个活着,200个死了。
作为对统计学懵懵懂懂的普通人来说,看起来最明智的选择应该是医院A对吧,病人存活率很高有90%啊!总不可能选医院B吧,存活率只有80%啊。
呵呵,如果小明的选择是医院A,那么她就中计了。
就这么说吧,如果医院A最近接收的1000个病人里,有100个病人病情很严重,900个病人病情并不严重。
在这100个病情严重的病人里,有30个活下来了,其他70人死了。
所以病重的病人在医院A的存活率是30%。
而在病情不严重的900个病人里,870个活着,30个人死了。
所以病情不严重的病人在医院A的存活率是96.7%。
在医院B最近接收的1000个病人里,有400个病情很严重,其中210个人存活,因此病重的病人在医院B的存活率是52.5%。
有600个病人病情不严重,590个人存活,所以病情不严重的病人在医院B的存活率是98.3%。
画成表格,就是这样的——医院A:病情死亡存活总数存活率严重70 30 100 30%不严重30 870 900 96.7%合计100 900 1000 90%医院B:病情死亡存活总数存活率严重190 210 400 52.5%不严重10 590 600 98.3%合计200 800 1000 80%你可以看到,在区分了病情严重和不严重的病人后,不管怎么看,最好的选择都是医院B。
什么是辛普森悖论?辛普森悖论的重要性

什么是辛普森悖论?辛普森悖论的重要性对于数据科学家而言,了解统计现象和问“为什么”是非常重要的。
想象这样一个场景:一天,你和朋友约好了一起吃晚饭,你们俩都想找一家完美的餐厅。
由于选项太多,两人今天的口味也不一定一样,为了避免长达数小时的争论,你们保守地采用了现代人常用的一种方法:查看美食评论。
在用同一个APP看了所有餐厅后,最终你们锁定了其中的两家:Carlos餐厅和Sophia餐厅。
你更喜欢Carlos,因为从两性数据上看来,无论是男性用餐者还是女性用餐者,他们给出的好评率都更高(例:男性好评率=男性好评数/男性评论总数);而你的朋友更倾向于Sophia,因为他发现从整体上来看,Sophia的好评率更高,口味应该更大众。
那么这到底是怎么回事?是APP统计错误了吗?事实上,这两个统计结论都是正确的,只是你们在不知不觉中已经走进了辛普森悖论。
在这里,我们能用完全相同的一组数据证明两个全然相反的论点。
什么是辛普森悖论?辛普森悖论得名于英国统计学家E.H.辛普森(E.H.Simpson),这是他于1951年阐述的一种现象:当我们以分组和聚合两种方式统计同一数据集时,最后得出的两个趋势可能是完全逆转的。
在上面这个“吃饭”案例中,Carlos餐厅的两性推荐率更高,但它的总体推荐率却低了。
如果不想被绕晕,我们可以用一些直观的数据来说明:上表清楚地表明,当数据分组时,Carlos是首选,但是当数据合并时,Sophia是首选!导致这一悖论的原因是样本大小。
当我们分组统计数据时,Carlos餐厅的女性推荐率高达90%,但它的样本只有40个,只占总评论人数的10%;而Sophia餐厅的女性推荐率虽然只有80%,但女性评论者有250个,这显然会大幅拉高餐厅的总体好评率。
所以在挑选餐厅时,我们事先要确定数据的统计方法,是合并更合理,还是分组更合理——这取决于数据生成的过程,即数据的因果模型。
相关性的逆转。
辛普森悖论名词解释(一)

辛普森悖论名词解释(一)辛普森悖论什么是辛普森悖论?辛普森悖论是一种统计学中的悖论,即在两个或多个子群体中观察到的某种趋势可能在将这些子群体合并后发生逆转的现象。
简单来说,辛普森悖论指的是对整体数据产生错误判断的情况。
辛普森悖论的背景辛普森悖论最早由英国数学家辛普森在1951年发现。
他发现,当两个或多个具有不同特征的子群体的数据被合并时,可能会导致观察结果与各个子群体的结果相反。
这一悖论在实际生活中也经常出现,引发了人们对数据分析和解读的思考。
相关名词解释•辛普森悖论:指将不同子群体的数据合并后,观察到的结果与各个子群体的结果相反的现象。
•子群体:指在辛普森悖论中参与比较的不同成员群体,可以是人群、物体或其他社会群体。
•观察结果:指根据数据进行分析后得出的结论。
•逆转:指子群体之间的关系在合并后发生变化,即原本较小子群体的结果超过了较大子群体的结果。
•数据合并:指将不同子群体的数据合并成一个整体进行比较和分析的过程。
举例说明为了更好地理解辛普森悖论,我们可以通过以下实例进行说明:•实例1:–子群体1:男性申请者与女性申请者获得升职的比例–子群体2:在每个部门内,男性申请者与女性申请者获得升职的比例–合并数据:将各个部门的升职比例合并–结果:在子群体1中,女性申请者获得升职的比例高于男性申请者;但在子群体2中,每个部门内男性申请者获得升职的比例都高于女性申请者。
–解释:辛普森悖论在这个例子中表现为,当不同部门的数据被合并时,女性申请者获得升职的比例反而低于男性申请者。
•实例2:–子群体1:一家公司不同地区销售额的增长率–子群体2:在每个地区内,不同产品线的销售额增长率–合并数据:将不同地区和产品线的销售额增长率合并–结果:在子群体1中,有些地区的增长率高于其他地区;但在子群体2中,每个地区内某些产品线的增长率高于其他产品线。
–解释:辛普森悖论在这个例子中表现为,当不同地区和产品线的数据被合并时,某些地区的增长率反而低于其他地区,某些产品线的增长率也反而低于其他产品线。
统计学辛普森悖论

统计学辛普森悖论引言:统计学是一门研究数据收集、分析和解释的学科,它在科学研究、商业决策、政策制定等领域都发挥着重要作用。
然而,我们常常会遇到一个现象,即当我们将数据进行细分分析后,得出的结论与整体数据的结论相反。
这就是统计学中著名的辛普森悖论。
一、什么是辛普森悖论?辛普森悖论,又称为辛普森效应,是指当我们对数据进行细分分析时,得出的结论与整体数据的结论相反的现象。
这种现象常常出现在数据集中存在不同的类别或组群时。
二、辛普森悖论的经典案例为了更好地理解辛普森悖论,我们可以通过一个经典案例来说明。
假设某个学校在招生过程中有两个不同的专业:专业A和专业B。
我们对该学校的录取情况进行统计分析,得出以下数据:专业A:200名男生中有120人被录取,300名女生中有100人被录取;专业B:300名男生中有150人被录取,200名女生中有120人被录取。
整体数据显示,男生的录取率高于女生。
然而,当我们对不同的专业进行分别分析时,却发现女生的录取率在每个专业中都高于男生。
这就是典型的辛普森悖论。
三、辛普森悖论的成因辛普森悖论产生的原因主要有两个方面:样本大小和类别之间的关系。
1. 样本大小:在上述案例中,男生和女生的样本大小存在差异,男生的样本数量要大于女生。
当我们只看整体数据时,男生的录取率较高,但当我们对不同的专业进行分别分析时,女生的录取率却在每个专业中都高于男生。
这是因为男生的样本量大,整体数据中占比较大,从而影响了整体数据的结论。
2. 类别之间的关系:在上述案例中,男生和女生在不同专业的录取情况存在差异。
男生在专业A中录取率高于专业B,而女生在专业A 中录取率低于专业B。
这种差异导致了整体数据和分组数据的结论相反。
四、如何避免辛普森悖论的影响辛普森悖论的出现给我们的数据分析带来了挑战,但我们可以采取一些方法来避免其影响。
1. 充分了解数据:在进行数据分析之前,我们应该充分了解数据的来源、样本数量以及类别之间的关系。
辛普森悖论简单解释

辛普森悖论简单解释在我们探讨数据和统计分析的领域中,有一个颇为有趣且令人深思的现象,那就是辛普森悖论。
首先,咱们来想象一个场景。
假设在一家医院,有两个医生 A 和 B。
咱们来比较他们治疗某种疾病的成功率。
从整体的数据来看,医生 A治疗的成功率好像低于医生 B。
但要是我们把病人按照病情的轻重程度分开来看,就会发现对于病情较轻的病人,医生 A 的治愈率高于医生 B;对于病情较重的病人,医生 A 的治愈率还是高于医生 B。
这是不是很奇怪?这就是辛普森悖论的一个简单例子。
那到底什么是辛普森悖论呢?简单来说,就是在分组比较中都占优势的一方,在总体比较中却可能处于劣势。
为什么会出现这样看似矛盾的情况呢?这通常是因为不同分组中的样本数量或者比例存在差异。
比如说,还是上面医院的例子,如果医生 B 治疗的大多是病情较轻的病人,而医生 A 治疗的更多是病情较重的病人,那么即使 A 在每个病情分组中的治愈率都更高,但由于 B 所治疗的病人整体病情较轻,容易治愈,所以从总体数据上看,就可能出现 B 的成功率高于 A 的情况。
辛普森悖论在很多领域都有出现。
比如在教育领域,我们比较两个学校学生的考试成绩。
可能学校甲在每个学科上的平均分都高于学校乙,但由于学校乙的学生中,成绩好的学生比例较大,而成绩差的学生比例较小,最终总体平均分却高于学校甲。
在市场营销中也有类似的情况。
假设我们比较两种营销策略对销售的促进效果。
在不同的地区或者不同的客户群体中,策略 A 可能表现更优,但由于策略 B 所覆盖的市场规模更大,或者所针对的是消费能力更强的群体,综合来看,策略 B 带来的总销售额反而更高。
那么,如何避免辛普森悖论带来的误导呢?首先,我们要对数据进行更细致的分析和分组。
不能仅仅看总体的数据,而是要深入挖掘不同维度和层次的数据。
比如在前面医院的例子中,除了病情轻重,还可以考虑病人的年龄、性别、基础健康状况等因素。
其次,我们要综合考虑多个相关的指标和因素。
生活中的“辛普森悖论”

生活中的“辛普森悖论”作者:张亭亭来源:《现代商贸工业》2015年第23期摘要:辛普森悖论是指,在分组比较中都占优势的一方,在总体评价中却并不占优势,数据合并前后得到相反的关联性。
从现实生活出发,针对生活中的矛盾现象提出辛普森悖论,并用辛普森悖论来解释生活中出现越来越多平民英雄的原因,以正确理解该悖论。
关键词:辛普森悖论;利他行为;利己行为中图分类号:F27文献标识码:A文章编号:16723198(2015)24011701最近生活中有太多太多的人在用他们的实际行动感动着我们每一个人,“最美司机”吴斌在危急关头强忍剧痛,将车辆缓缓停下,完成一系列完整的安全停车措施,自己却因伤势过重抢救无效而失去了年仅48岁的生命。
“最美女教师”张丽莉面对失控客车瞬间推开学生,自己双腿却遭碾压而只能高位截肢。
“最美妈妈”吴菊萍迅疾出手接住坠楼儿童,自己的左臂却被巨大的冲击力而撞成粉碎性骨折。
回首过去,有一连串的最美瞬间被定格为人们心中催人泪下的心灵图景。
但根据达尔文的自然选择理论:在长期的生存竞争中,对个体生存有利的行为特征将得到进化,对个体生存不利的行为特征都将被自然选择所淘汰。
然而为什么我们身边有越来越多的平民英雄,为什么这种利他不利己的行为特征不但没有被自然选择所淘汰反而在我们的身边时时上演呢?辛普森悖论给出了这种矛盾现象的详细解释。
辛普森悖论最早是由卡尔·皮尔森于1899年提出,但一直到1951年,E.H.辛普森才在他发表的论文中正式描述并解释这一现象,后来就以他的名字命名该悖论。
辛普森悖论是指,在分组比较中都占优势的一方,在总体评价中却并不占优势,数据合并前后得到相反的关联性。
下面的例子是源于美国的一个真实案例,为了研究法庭对黑人和白人的判决是否公正,将美国佛罗里达州1976-1987年间涉嫌多重谋杀的674例案件作为研究对象,统计数据如表1。
由表1可以看出,被告是白人时,被判死刑的比例为53/(53+483)=110%;被告是黑人时,被判死刑的比例为15/(15+176)=79%。
浅谈AB测试里常见的辛普森悖论

总计来说男生录取率只有21%,只有女生录取率42%的一半。
为什么两个学院都是男生录取率高于女生录取率,但是加起来男生录取率却不如女生录取率呢?主要是因为这两个学院男女比例很不一样,具体的统计学原理我们后面会详细分析。
这个诡异(Counter intuitive)的现象在现实生活中经常被忽略,毕竟只是一个统计学现象,一般情况下都不会影响我们的行动。
但是对于使用科学的 AB 测试进行试验的企业决策者来说,如果不了解辛普森悖论,就可能会错误的设计试验,盲目的解读试验结论,对决策产生不利影响。
我们用一个真实的医学 AB 测试案例来说明这个问题。
这是一个肾结石手术疗法的 AB 测试结果:看上去无论是对于大型结石还是小型结石,A 疗法都比 B 疗法的疗效好。
但是总计而言,似乎 B 疗法比 A 疗法要好。
这个 AB 测试的结论是有巨大问题的,无论是从细分结果看,还是从总计结果看,都无法真正判断哪个疗法好。
那么,问题出在哪里呢?这个 AB 测试的两个实验组的病历选取有问题,都不具有足够的代表性。
参与试验的医生人为的制造了两个试验组本身不相似,因为医生似乎觉得病情较重的患者更适合 A 疗法,病情较轻的患者更适合 B 疗法,所以下意识的在随机分配患者的时候,让 A 组里面大结石病历要多,而 B 组里面小结石病历要多。
更重要的问题是,很有可能影响患者康复率的最重要因素并不是疗法的选择,而是病情的轻重!换句话说,A 疗法之所以看上去不如 B 疗法,主要是因为 A 组病人里重病患者多,并不是因为 A 组病人采用 A 疗法。
所以,这一组不成功的 AB 测试,问题出在试验流量分割的不科学,主要是因为流量分割忽略了一个重要的“隐藏因素”,也就是病情轻重。
正确的试验实施方案里,两组试验患者里,重病患者的比例应该保持一致。
因为很多人容易忽略辛普森悖论,以至于有人可以专门利用这个方法来投机取巧。
举个例子,比赛100场球赛以总胜率评价好坏。
辛普森悖论与金融有关的例子

辛普森悖论与金融有关的例子一、什么是辛普森悖论辛普森悖论可神奇啦。
简单说呢,就是在分组比较中都占优势的一方,在总体评价中却可能是劣势的情况。
比如说在金融里吧,就有这样的怪事。
二、辛普森悖论与金融的例子1. 投资回报率假设有两个投资经理,经理A和经理B。
他们分别在大公司股票和小公司股票这两个领域进行投资。
在大公司股票投资方面呢,经理A的投资回报率在过去5年里,每年都比经理B要高一点,比如经理A每年是10%,经理B每年是8%。
在小公司股票投资方面呢,经理A的投资回报率也是每年都比经理B高一点,像经理A每年是15%,经理B每年是13%。
但要是把大公司股票和小公司股票的投资总体加起来算,可能就会发现经理B的总体投资回报率反而比经理A高了。
这就是辛普森悖论在投资回报率上的体现,是不是很有趣呢?2. 贷款违约率有两家银行,银行X和银行Y。
银行X在城市地区和农村地区都发放贷款。
在城市地区,银行X的贷款违约率低于银行Y,比如说银行X是5%,银行Y是8%。
在农村地区呢,银行X的贷款违约率同样低于银行Y,比如银行X是3%,银行Y是6%。
但是把城市和农村地区的贷款综合起来看,可能会发现银行Y的总体贷款违约率反而低于银行X了。
这就是辛普森悖论在贷款违约率方面的例子啦。
3. 基金收益假设有两个基金,基金M和基金N。
它们投资于不同类型的金融产品,比如股票基金和债券基金。
在股票基金投资中,基金M在过去几个季度的收益都比基金N高,像每个季度基金M是12%,基金N是10%。
在债券基金投资中,基金M的收益也比基金N高,例如基金M每个季度是8%,基金N是6%。
但要是把股票基金和债券基金的投资收益综合起来看,可能基金N的总体收益反而比基金M高了呢。
这也是辛普森悖论在基金收益方面的体现哦。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
辛普森悖论的日常例子
辛普森悖论是一种逻辑悖论,指的是当对一个整体进行分类时,与整体有关的特征可能与对其组成部分进行分类时的特征相反。
这个悖论常常在统计学和数据分析领域中出现,但也可以在日常生活中找到一些例子来说明。
一个经典的辛普森悖论的例子是关于医院手术成功率的比较。
假设有两家医院,医院A和医院B,它们都进行了大量的手术。
医院A的整体手术成功率为80%,而医院B的整体手术成功率为70%。
看起来,医院A的手术比医院B的手术成功率更高。
然而,当我们细分考虑不同类型的手术时,情况可能会有所不同。
假设医院A主要进行低风险手术,而医院B主要进行高风险手术。
在低风险手术中,医院A的成功率为90%,远高于医院B的成功率70%。
而在高风险手术中,医院A的成功率为60%,低于医院B的成功率80%。
这个例子展示了辛普森悖论的典型情况。
当仅考虑整体数据时,医院A的整体手术成功率更高。
但当将数据细分为不同类型的手术时,我们发现在每个子类别中,医院B的手术成功率都高于医院A。
辛普森悖论的这个例子告诉我们,在进行数据分析时,不能只看整体数据,还要考虑到数据的细分。
对于复杂的问题,细分数据可能会给
我们提供更准确的结论。
在日常生活中,我们也可以应用这个原则。
比如,当对一所学校的教学质量进行评估时,仅仅看整体的考试成绩可能并不全面,我们还应该考虑不同班级或不同年级的成绩情况。
综上所述,辛普森悖论的日常例子可以帮助我们意识到在进行数据分析和评估时,细分数据是非常重要的,只看整体数据可能会掩盖真实的情况。