数学中的故事:生活中的统计学陷阱

合集下载

统计陷阱

统计陷阱

统计陷阱一、统计陷阱的发现20世纪50年代,美国的各大媒体和宣传机构越来越重视利用统计——“这个神秘的语言” -说话,然而大量的统计数据、统计资料由于主、客观的原因被滥用,很难起到描述事实、传递信息的作用。

相反,还往往对读者形成误导。

达莱尔·哈夫(Darrell Huff),一位具有深厚统计背景的新闻记者——发现了这一现象。

二、统计陷阱的揭示数学是一个很严谨的工具,然而正如任何工具都可以被别有用心的人用作它途一样,数学亦不例外,而在所有数学的分支里,统计学由于与不确定性有关,以致用它来有意或无意地行骗的人存在于各个领域,正是这些人,让统计学背上了“臭名昭着”的恶名,统计学家甚至成了专业骗子的代名词。

要认清这些骗子伎俩,唯有对统计学本身有一定的了解。

毫无疑问,媒体是骗子的最大滋生地,他们无时无刻不在做着夸大、扭曲、隐瞒甚至虚构的报道,他们所报道的新闻里真假的比例是多少,没有人能够统计出来,就这样,他们可以堂而皇之地招摇撞骗。

通常来说,媒体只提供统计数据,而不会花篇幅去写得出此数据的具体过程(显然,媒体不会耗费更多的财力和人力到这个上面,那样会少很多好看的新闻),对于数据,如果不知道它的统计过程,那基本上是没多大意义甚至是毫无意义的。

于是,我们经常会在媒体上看到各种各样的、千奇百怪的违背人常识或与我们想象中不同的惊人结论,每当看到这样的结论时,我们二话不说就会对做出此结论的人一顿谩骂或嘲笑(一般是专家)。

这些统计调查本身往往并没有错,错的是媒体语焉不详,甚至刻意利用数据得出哗众取宠的结论。

比如很多调查只是显示具有相关关系,而不是因果关系,但是媒体通常不会指出这是相关性调查,即使指出我们也会忽略它们,或者完全意识不到这些意味着什么。

错误的把相关性认为因果性会导致很多荒谬的结论,如果B紧跟着A出现,那么A一定导致B,我在屋里跳高,刚一跳正好就地震了,于是我认为是我跳高导致了地震的发生。

就这样,人们对统计数据失去了信任,并不是因为知道了统计数据的骗人手法,而是越来越多不靠谱的结论让我们很难再相信它们。

统计陷阱案例以及解决方案

统计陷阱案例以及解决方案

统计陷阱案例以及解决方案案例一:辛普森悖论情境描述:在一个实验中,对比两组各1000只白鼠的药物治疗效果。

甲组分为两组,一组500只白鼠只接受A药物治疗,另一组500只白鼠只接受B药物治疗;乙组1000只白鼠均只接受A药物治疗。

实验结果显示,接受A药物治疗的甲组白鼠死亡率(4%)低于乙组白鼠(8%),因此A药物在甲组中表现更好。

陷阱点:仔细观察数据,会发现接受B药物治疗的甲组白鼠死亡率(2%)低于接受A药物治疗的甲组白鼠(4%),然而在乙组中,接受A药物治疗的白鼠死亡率却高达8%。

这显示了一个奇怪的现象:在某些情况下,两组数据的总体结果与各自组内的结果存在矛盾。

解决方案:在解释统计数据时,应综合考虑整体与各部分的关系,避免根据局部结果做出片面结论。

同时,对于数据变化可能产生的原因应进行深入分析。

案例二:相关性陷阱情境描述:某研究机构发现,某地区的冰淇淋销量与溺水事故数量呈正相关。

他们得出结论,冰淇淋销量增加导致溺水事故增多。

陷阱点:这里的问题在于研究者错误地将两个相关事件归因为因果关系,忽略了可能存在的其他影响因素。

例如,气温的升高可能导致人们更多地购买冰淇淋,同时也可能导致更多的人选择游泳,从而增加溺水事故的风险。

解决方案:在分析两个变量之间的关系时,应考虑可能存在的其他影响因素,并进行相应的控制实验或调整数据,以确定真正的关系。

案例三:样本选择偏差情境描述:某市场调查机构对1000名在线用户进行了调查,以评估某产品的市场接受度。

结果显示,60%的用户对该产品表示满意。

然而,当该机构对线下用户进行类似调查时,满意率仅为30%。

于是他们得出结论,线下用户对产品的满意度明显低于线上用户。

陷阱点:这里的问题在于样本选择偏差。

在线调查可能吸引了那些更愿意表达意见、对产品更有热情的用户,而线下调查可能涵盖了更广泛的用户群体。

因此,两个样本的满意度存在显著差异并不意味着线下用户对产品的满意度真的低于线上用户。

统计学误用案例

统计学误用案例

统计学误用案例案例一:平均数的陷阱。

咱就说有个小公司,老板想显示员工工资待遇还不错。

公司有10个员工,1个经理月薪10万,然后9个普通员工月薪3000。

老板一算,平均工资=(100000 + 9×3000)÷10 = 12700元。

然后对外宣称公司平均月薪12700元,好多人一听,哇,这工资挺高啊。

但实际上呢,除了那个经理,大部分普通员工的工资少得可怜,这个平均数就完全误导了大家对这个公司工资水平的真实印象。

这就像是拿姚明的身高和一群小学生的身高求平均,然后说这个平均身高就代表大家的身高水平,那可太扯了。

案例二:样本偏差。

有个保健品公司想做个产品调查,证明他们的保健品特别有效。

他们就在自己的专卖店门口找那些来买保健品的人做调查,问“您觉得我们的保健品效果好不好呀?”结果大部分人都说好。

为啥呢?因为来专卖店买的人本来就是相信这个产品才来买的呀,这就是一个有偏差的样本。

就好比你想知道大家喜不喜欢吃榴莲,你专门跑到榴莲专卖店门口去问,那肯定大部分人都说喜欢,这根本就不能代表全体人群的真实想法。

这保健品公司就拿着这个不靠谱的调查结果到处宣传,这就是对统计学的误用。

案例三:相关性误为因果性。

你看,有人发现,在某个城市,冰淇淋的销量和溺水死亡人数在夏天都上升了。

然后就有个“天才”说,冰淇淋会导致溺水。

这可就太荒谬了。

其实呢,这两者只是有相关性,因为夏天到了,天气热,吃冰淇淋的人多了,同时去游泳的人也多了,所以溺水死亡人数也增加了。

这就像每次公鸡打鸣之后太阳就升起来了,但我们不能说公鸡打鸣是太阳升起的原因一样,这种把相关性硬说成因果性的事儿,在统计学里可是个大错特错的事儿。

科学研究的统计学陷阱

科学研究的统计学陷阱

• 许多论文要进行数十乃至数百次对比。在这类论 文中,研究人员如果不肯调整一下标准的p值阈值 (即0.05),那么几乎肯定会出现本来毫无意义 的统计,恰巧被当成是具有统计显著性的情况。 今年2月,《美国临床营养学杂志》发表的一项研 究对数十种物质进行了测试,并得出结论说,蓝 莓中含有的某些物质可以降低高血压风险,p值为 0.03。不过,这些研究人员检验的物质如此之多, 所作的对比也是相当可观(50次以上),因此几 乎可以肯定,该论文中有些p值之所以小于0.05纯 粹是因为巧合。
• 无独有偶,一批心理学家对某条鲑鱼所作的研究 也是如此。在这项广为人知的研究中,当心理学 家让鲑鱼看到人们表达情绪的一组图片时,鲑鱼 大脑中的某些部位便活跃起来。此结果是有统计 显著性的,p值低于0.001。不过,诚如这些心理 学家所言,既然可能存在的模式多如牛毛,以至 于几乎肯定会得到一个具有统计显著性的结果, 因而这种结果毫无意义。p值高也好低也好,反正 那条鱼本来就不可能对人的情绪有所反应:心理 学家放进磁共振成像仪中的鲑鱼恰好是条死鱼。
高度显著性”的签。
• 假定你已经开展了一项科学实验,对比一种治疗心脏病的 新药和一种安慰剂的效果。实验结束时,你比较了两组受 试者。瞧,服药组患者的心脏病发作次数少于服用安慰剂 的患者。成功啦!这种药真的有效! • 且慢,说不定并非如此。即使此药根本无效,它在服药组 患者中的效果,也有50%的可能好于安慰剂组(不管怎么 说,总有一组的效果要优于另一组,而服药组和安慰剂组 占上风的可能性各占一半)。 • p值其实就是把随机性用一个数值表示出来。严格来讲, 它是指观察到某一实验结果(即使你的假说有错)的概率。 在众多科研领域中,长期通行的一个惯例就是,凡p值在 0.05以下的结果均被认为具有统计显著性。这是个随意约 定的惯例,它常常会出错。每当你把某种无效药物和兴奋 剂作对比时,便有1/20的机会得到统计显著性结果。因此 平均说来,倘若你在一篇论文中进行了20次这样的对比, 就会得到一个统计显著性结果(也就是p值小于0.05), 即使该药完全无效。

生活中的统计骗术

生活中的统计骗术

数据·2011/0254在用事实说话的社会里,统计越来越受到重视。

但如同任何事物具有两重性一样,统计有时也被利用为恶意夸大或简化事实、迷惑他人的工具,往往堂而皇之出现,而不易让人察觉。

不懂统计的人很容易被误导、被欺骗,从而做出错误的判断或决策。

为了避免更多的人被误导,在此介绍几招生活中常见的统计骗术。

其实,只要我们掌握了相关的统计知识,那些别有用心的人就再没用武之地了。

“蒙人”的绝对数绝对数是统计绝对数的简称。

它是反映现象总体在一定时间和空间条件下所达到的总规模、总水平或工作总量的综合指标。

有以货币单位(元、美元、日元等)计量的价值指标,如2010年我国GDP(初步测算数)为397983亿元,也有以实物单位(包括自然单位、度量衡单位、标准实物单位等)计量的实物指标,如2010年我国的粮食产量为54641万吨。

数值的大小受总体范围的制约,总体范围增大,数值也随之增大;相反总体范围缩小,数值也随之减小。

因此,对于规模不等的总体,其绝对数值不能直接对比并以此判断事物的优劣。

但在日常生活中,常常有人有意无意忽视总体规模的大小,用不匹配的绝对数数据达到蒙人的目的。

最为常见的是有关交通意外事故的数据,如果不懂得它们是极其不匹配的数据的话,无论哪种交通手段的事故记录,都可能让人们得出错误的结论。

公安部发布的2005年中国道路交通事故统计分析数据指出:2005年,全国公路上发生交通事故272840起,造成76689人死亡,其中高速公路上交通事故造成6407人死亡,二三级公路上交通死亡事故最多,共造成47448人死亡,给人的感觉好似二三级公路比高速公路更容易出事故。

其实不然,虽然中国的高速公路近年发展很快,到2005年底,高速公路总里程达到4.1万公里,位居世界第二位,但二级公路有24.6万公里、三级公路有34.5万公里,合计达59.1万公里。

在营运里程14倍余高速公路的二三级公路上出现的交通事故较多是很自然的事,因为二三级公路的营运里程长,行驶的车辆和行人更多,出现事故的可能性更大。

统计中的骗局

统计中的骗局

统计中的骗局致谢语:在多方的帮助下,经过广泛的收集,我得到了散见在本书各章当中的关于狡辩和欺诈的小例子。

在我通过美国统计学会发出呼吁后,许多专业统计学家--请相信我,他们和其他人一样痛恨统计资料的滥用--从他们自身收集的资料中为我提供了大量的实例。

这些人,我猜想,将乐意成为无名英雄。

同样,我在许多书籍中发现了有价值的案例,仅列出其中主要的书籍:Martin A. Brumbaugh 和Lester S. Kellogg所著的《商业统计学》;Hadley Cantril的《公共观点的测定》;Willard Cope Brinton的《图表表示法》;Frederick E. Croxton 和Dudley J. Cowden的《实用商业统计学》;George Simpson 和Fritz Kafka的《基础统计学》以及Helen M. Walker 的《基础统计方法》。

Darrell HuffⅠ序言:我的岳父从爱荷华州到加利福尼亚州不久便对我说:"你们这儿治安不好。

"在他所阅读的关于加州的报道的确如此。

但是,这些报道通常来自一份爱荷华州的报纸。

这份报纸不会轻易忽略掉加州发生的任何犯罪行为,虽然它也报道本州的谋杀案,但看起来它更乐意大肆渲染加州出现的同类情况,而且还因此而闻名。

我岳父得出的这个结论是建立在明显有偏样本基础之上的,是一个随意的统计结论。

类似于其他更为精致的统计结论,也存在着证据与结果不匹配的问题,因为这些结论都在假定:报纸专栏中对犯罪行为的报道是测量犯罪率的工具。

几年前,十来个调查人员独立地发表了关于抗组织胺药的试验数据。

所有的数据都证明,在经过抗组织胺药物治疗后,相当高比例的感冒能够治愈。

这一结论引起了传媒的大肆宣传报道,抗组织胺药的广告铺天盖地,医药界也掀起了此类药物的生产热潮。

人们对健康永恒不变的追求造就了这种热潮,但奇怪的是,人们拒绝越过统计资料去注意一下早就了解的事实。

警惕统计数据误读!

警惕统计数据误读!

警惕统计数据误读!随着大数据在各行各业的“深加工”,“看数说话”和“看图说话”正在变得越来越普遍。

言之凿凿的那些从数据中得出的看似“合理”“科学”甚至“高大上”的结论,也许并没有看起来那么值得相信。

在第二次世界大战中一个关于统计学的小故事流传甚广。

讲的是美国陆军航空队为了减少轰炸机部队在执行任务过程中被攻击造成的损失,请统计学家帮忙。

只要有执行任务的轰炸机部队返航,统计学家就第一时间详细地记录下每一架飞机受损伤的情况,随后在模型上用墨汁将所有被击中的部位涂黑。

结果,不到两个月时间,轰炸机模型上除了几个很小的区域还是机身原来的颜色以外,其他部位全被涂黑了。

并且很多地方显然是被反复涂过,墨汁都已经像油漆一样凝结成厚厚的一层。

统计学家建议厂商将轰炸机上这些没有被涂成黑色的部位,尽快增加装甲。

厂商提出疑问:难道不应该是在被涂得最黑的地方增加装甲吗?统计学家给出的理由是,给那些没涂黑的地方加装甲,并不是因为返航的飞机中那里不会被击中,而是因为所有被击中这些部位的飞机,最终都没有返回基地。

这个故事被看作是说明统计学应用的经典案例。

看似只是简单逻辑转换的背后,其实涉及诸多复杂的统计学专业知识,中央财经大学统计与数学学院教授、博士生导师专家提醒说,这个简单故事背后的专业论文,长度有百页之巨。

说到日常生活中经常遇到的统计学先陷阱,专家表示,大家首先要刻在脑子里的一个观念就是“相关不等于因果”。

比如冰激凌的销售量与溺水人数有相关性,溺水人数越多,冰激凌销量越好。

“这很容易知道不是因果关系,而是因为有共同的原因——天气热。

天气热,冰激凌的销量自然高;去游泳的人数自然多,那么溺水的人自然也多。

”专家解释说,有些时候事件之间会呈现相关性,但即使有相关性,也不意味着它们之间有因果关系。

“两件事情相关可能有很多原因:A和B相关,有可能A确实是B的原因,也有可能B是A的原因,或者还可能A和B有其他共同的原因C。

又A和C共同作用导致了B,也有可能B和C共同作用导致了A。

《统计陷阱》读书笔记

《统计陷阱》读书笔记

《统计陷阱》读书笔记谨慎对待生活中的统计数据——《统计陷阱》读书笔记第一眼看到《统计陷阱》这本书的时候,以为它是用来指导学生如何学习统计学,如何避开统计学中那些具有误导性和迷惑性的知识与易错点。

抱着尝试的心态读了读总序,才发现它挖掘的是生活中的统计陷阱,揭露生活中那些运用统计学知识来设计、操纵的诡计。

这一发现令我兴趣大增。

而且这本书抛弃了以往一些学科著作一贯说教的方式,,采用活泼有趣的语言,拉近读者与作者的距离,其中娓娓道来的各个事例也让你不禁感叹陷阱就在身旁,与作者一同处于第三方的角度剖析统计陷阱的诡秘之处更是让人大呼过瘾。

其中一章介绍关于平均数的知识,这里的“平均数”真是令人大开眼界。

原来平均数有着很广泛的概念,它既指均值也包括中位数和众数。

也许这样看来这个“平均数”还不够有趣,不过当它们被“精心挑选”后用于不同的地方便会有大大不同的效果。

书中提到的事例是关于某一住宅区居民的年均收入。

当房地产公司希望你能购买此处房子时,你会得知此处居民的年均收入为15000美元,而当你遇见某纳税委员会的成员为了降低税率、降低财产估价或者降低公共交通费用而四处奔走时,你会得知此处居民的年均收入只有3500美元。

他们谁也没有撒谎,出现差距如此之大的数据只是因为他们用了两种不同的平均数,数值较大的均值与数值较小的中位数。

均值与中位数的巨大差别则是来自于在此区拥有房产用于度周末的三位百万富翁,他们的巨大年收入拉高了此处绝大多数居民的年均收入——那些小农、工薪阶层还有靠退休金过日子的老人。

相同的数据,选择不同的操作便能显现出不同的效果用以达成各人的目的。

实际生活中的大公司也经常如此处理平均数用来发布数据,这便是生活中一部分关于统计学的陷阱。

所以当我们看到那些漂亮的,精确的、令人心动的数字时,先不忙着激动欢呼或者沮丧叹气,不妨先认真地研究一下这些数据是如何被得到的以及如何被处理的,它的精确含义是什么,因为也许你看到的数字只是有心人为了得到读者的像你最初那样反应而精心处理过的。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生活中的统计学陷阱
在你听到一种统计关系时,可得慎重一些,千万不要轻率地对事件发生的因果关系做出判定,因为事情并不那么简单。

让我们来看几个不可轻率做出结论的例子。

①统计资料表明,大多数汽车事故出在中等速度的行驶中,极少的事故是出在大于150公里/小时的行驶速度上。

这是否就意味着高速行驶比较安全呢?
正确答案:绝不是这样。

统计关系往往不能表明因果关系。

由于多数人是以中等速度开车,所以多数事故是出在中等速度的行驶中。

②有一个调查研究说脚大孩子的拼音比脚小的孩子好。

这是否是说一个人脚的大小是他拼音能力的度量?
正确答案:不是的。

这个研究对象是一群年龄不等的孩子。

它的结果实际上是因为年龄较大的孩子脚大些,他们当然比年龄小的孩子拼得好些。

③常常听说,汽车事故多数发生在离家不远的地方,这是否就意味着在离家很远的公路上行车要比在城里安全些呢?
正确答案:不是,统计只不过反映了人们往接是在离家不远的地方开车,而很少在远处的公路上开车。

④有一项研究表明某一个国家的人民,喝牛奶和死于癌症的比例都很高。

这是否说明是牛奶引起癌症呢?
正确答案:不对!原因是这个国家老年人的比例也很高。

由于癌
症通常是年龄大的人易得,正是这个因素提高了这个国家癌症死亡者的比例。

上述例子表明,统计学论述在涉及因果关系时很容易造成误读。

现代的广告,尤其是很多电视的商业广告正是以这种统计误读为根基的。

相关文档
最新文档