科学研究的统计学陷阱
统计陷阱

统计陷阱一、统计陷阱的发现20世纪50年代,美国的各大媒体和宣传机构越来越重视利用统计——“这个神秘的语言” -说话,然而大量的统计数据、统计资料由于主、客观的原因被滥用,很难起到描述事实、传递信息的作用。
相反,还往往对读者形成误导。
达莱尔·哈夫(Darrell Huff),一位具有深厚统计背景的新闻记者——发现了这一现象。
二、统计陷阱的揭示数学是一个很严谨的工具,然而正如任何工具都可以被别有用心的人用作它途一样,数学亦不例外,而在所有数学的分支里,统计学由于与不确定性有关,以致用它来有意或无意地行骗的人存在于各个领域,正是这些人,让统计学背上了“臭名昭着”的恶名,统计学家甚至成了专业骗子的代名词。
要认清这些骗子伎俩,唯有对统计学本身有一定的了解。
毫无疑问,媒体是骗子的最大滋生地,他们无时无刻不在做着夸大、扭曲、隐瞒甚至虚构的报道,他们所报道的新闻里真假的比例是多少,没有人能够统计出来,就这样,他们可以堂而皇之地招摇撞骗。
通常来说,媒体只提供统计数据,而不会花篇幅去写得出此数据的具体过程(显然,媒体不会耗费更多的财力和人力到这个上面,那样会少很多好看的新闻),对于数据,如果不知道它的统计过程,那基本上是没多大意义甚至是毫无意义的。
于是,我们经常会在媒体上看到各种各样的、千奇百怪的违背人常识或与我们想象中不同的惊人结论,每当看到这样的结论时,我们二话不说就会对做出此结论的人一顿谩骂或嘲笑(一般是专家)。
这些统计调查本身往往并没有错,错的是媒体语焉不详,甚至刻意利用数据得出哗众取宠的结论。
比如很多调查只是显示具有相关关系,而不是因果关系,但是媒体通常不会指出这是相关性调查,即使指出我们也会忽略它们,或者完全意识不到这些意味着什么。
错误的把相关性认为因果性会导致很多荒谬的结论,如果B紧跟着A出现,那么A一定导致B,我在屋里跳高,刚一跳正好就地震了,于是我认为是我跳高导致了地震的发生。
就这样,人们对统计数据失去了信任,并不是因为知道了统计数据的骗人手法,而是越来越多不靠谱的结论让我们很难再相信它们。
统计陷阱案例以及解决方案

统计陷阱案例以及解决方案案例一:辛普森悖论情境描述:在一个实验中,对比两组各1000只白鼠的药物治疗效果。
甲组分为两组,一组500只白鼠只接受A药物治疗,另一组500只白鼠只接受B药物治疗;乙组1000只白鼠均只接受A药物治疗。
实验结果显示,接受A药物治疗的甲组白鼠死亡率(4%)低于乙组白鼠(8%),因此A药物在甲组中表现更好。
陷阱点:仔细观察数据,会发现接受B药物治疗的甲组白鼠死亡率(2%)低于接受A药物治疗的甲组白鼠(4%),然而在乙组中,接受A药物治疗的白鼠死亡率却高达8%。
这显示了一个奇怪的现象:在某些情况下,两组数据的总体结果与各自组内的结果存在矛盾。
解决方案:在解释统计数据时,应综合考虑整体与各部分的关系,避免根据局部结果做出片面结论。
同时,对于数据变化可能产生的原因应进行深入分析。
案例二:相关性陷阱情境描述:某研究机构发现,某地区的冰淇淋销量与溺水事故数量呈正相关。
他们得出结论,冰淇淋销量增加导致溺水事故增多。
陷阱点:这里的问题在于研究者错误地将两个相关事件归因为因果关系,忽略了可能存在的其他影响因素。
例如,气温的升高可能导致人们更多地购买冰淇淋,同时也可能导致更多的人选择游泳,从而增加溺水事故的风险。
解决方案:在分析两个变量之间的关系时,应考虑可能存在的其他影响因素,并进行相应的控制实验或调整数据,以确定真正的关系。
案例三:样本选择偏差情境描述:某市场调查机构对1000名在线用户进行了调查,以评估某产品的市场接受度。
结果显示,60%的用户对该产品表示满意。
然而,当该机构对线下用户进行类似调查时,满意率仅为30%。
于是他们得出结论,线下用户对产品的满意度明显低于线上用户。
陷阱点:这里的问题在于样本选择偏差。
在线调查可能吸引了那些更愿意表达意见、对产品更有热情的用户,而线下调查可能涵盖了更广泛的用户群体。
因此,两个样本的满意度存在显著差异并不意味着线下用户对产品的满意度真的低于线上用户。
生活中统计学的陷阱

在当今社会中生活,会遇到各种各样的数据。
当你打开电视,你会看到电视歌曲大奖赛正在举行,歌手们正焦急地等待着自己的最后得分;翻开报纸,社会调查机构在向你介绍10~14岁的孩子们,最喜欢什么,最不喜欢什么……正由于统计学做的就是收集、整理和分析数量信息的工作,因此它在今天的社会中变得越来越重要了。
这里,我们打算举出一些典型的统计学悖论,让迷信数据的人们有所警觉——数据中也有陷阱。
骗人的“平均数”刘木头开了一家小工厂,生产一种儿童玩具。
工厂里的管理人员由刘木头、他的弟弟及其他六个亲戚组成。
工作人员由5个领工和1 0个工人组成。
工厂经营得很顺利,现在需要一个新工人。
现在,刘木头来到了人才市场,正与一个叫小齐的年青人谈工作问题。
刘木头说:“我们这里报酬不错。
平均薪金是每周300元。
你在学徒期间每周得75元,不过很快就可以加工资。
”小齐上了几天班以后,要求和厂长刘木头谈谈。
小齐说:“你骗我!我已经找其他工人核对过了,没有一个人的工资超过每周100元。
平均工资怎么可能是一周300元呢?”刘木头皮笑肉不笑地回答:“小齐,不要激动嘛。
平均工资确实是300元,不信你可以自己算一算。
”刘木头拿出了一张表,说道:“这是我每周付出的酬金。
我得2400元,我弟弟得1000元,我的六个亲戚每人得250元,五个领工每人得200元,10个工人每人100元。
总共是每周6900元,付给23个人,对吧?”“对,对,对!你是对的,平均工资是每周300元。
可你还是骗了我。
”小齐生气地说。
刘木头说:“这我可不同意!你自己算的结果也表明我没骗你呀。
”接着,刘木头得意洋洋地拍着小齐的肩膀说:“小兄弟,你的问题是出在你根本不懂平均数的含义。
怪不得别人呦。
”小齐气得说不出话来,最后,他一跺脚,说:“好,现在我可懂了,我不干了!”在这个故事里,狡猾的刘木头利用小齐对统计数字的误解,骗了他。
小齐产生误解的根源在于,他不了解平均数的确切含义。
“平均”这个词往往是“算术平均值”的简称。
4.统计陷阱

拿垃圾当宝贝
•但通常调查报告对这些没有意义 的比例照登不误,不给出样本量、 置信度、置信区间。
27
例:一个全国性的调查…
• • • • 其领导小组有6名、学术顾问3名 项目办公室8人、学术委员会26人 课题组12人、调查报告主要撰稿人2人 在这57个人中没有一个是学统计的(仅仅在合作成 员中有3个统计教师和8个学生) • 其二百多页的调查报告(A4纸)展示了5800多个比例 (百分比) • 这些比例没有任何一个有样本量、置信区间和置信 度
22
可用的 分子分母交为空集 不能用正态近似
23
置信度
• 在可用的4236996个比例的误差±3%的置信度中 只有79652个(1.88%)大于或等于95%。 • 这和近一千五百万的总数比起来简直微不足道。 • 绝 大 部 分 ( 有 59.49% 的 比 例 ) 的 置 信 度 小 于 50%。这4236996个误差±3%的置信度由下面的 直方图显示。
30
需要变换还是不需要变换? 我们究竟是在什么空间中呢
31
了解数据背景。
• 在对数据进行统计分析时,必须对各种数据的 背景有所了解。 • 比如笔者曾经在一个人口数据上发现了某种可 疑的“周期性”, • 后来发现这是由于统计方式的不同而产生的人 造周期;如果把这些人为错误放入模型,就贻 笑大方了。
13
统计教科书把现实世界大大简化了
• 经过这样的统计教育,人们(特别是缺乏实际经验的学生) 有可能把一个人造的、但又并不完全虚幻的世界当成真 实世界。 • 为了人们容易理解,教科书把本来复杂的世界进行简化, 是完全必要的。 • 但如果已经掌握了某领域一定的知识,就有必要认识到 书本和现实之间的差距。 • 教科书倾向于把世界过于理想化并不是大问题,但如果 我们这些写书的教师或“权威”自己也这么认为, 问题就 没这么简单了.
统计中的骗局

统计中的骗局致谢语:在多方的帮助下,经过广泛的收集,我得到了散见在本书各章当中的关于狡辩和欺诈的小例子。
在我通过美国统计学会发出呼吁后,许多专业统计学家--请相信我,他们和其他人一样痛恨统计资料的滥用--从他们自身收集的资料中为我提供了大量的实例。
这些人,我猜想,将乐意成为无名英雄。
同样,我在许多书籍中发现了有价值的案例,仅列出其中主要的书籍:Martin A. Brumbaugh 和Lester S. Kellogg所著的《商业统计学》;Hadley Cantril的《公共观点的测定》;Willard Cope Brinton的《图表表示法》;Frederick E. Croxton 和Dudley J. Cowden的《实用商业统计学》;George Simpson 和Fritz Kafka的《基础统计学》以及Helen M. Walker 的《基础统计方法》。
Darrell HuffⅠ序言:我的岳父从爱荷华州到加利福尼亚州不久便对我说:"你们这儿治安不好。
"在他所阅读的关于加州的报道的确如此。
但是,这些报道通常来自一份爱荷华州的报纸。
这份报纸不会轻易忽略掉加州发生的任何犯罪行为,虽然它也报道本州的谋杀案,但看起来它更乐意大肆渲染加州出现的同类情况,而且还因此而闻名。
我岳父得出的这个结论是建立在明显有偏样本基础之上的,是一个随意的统计结论。
类似于其他更为精致的统计结论,也存在着证据与结果不匹配的问题,因为这些结论都在假定:报纸专栏中对犯罪行为的报道是测量犯罪率的工具。
几年前,十来个调查人员独立地发表了关于抗组织胺药的试验数据。
所有的数据都证明,在经过抗组织胺药物治疗后,相当高比例的感冒能够治愈。
这一结论引起了传媒的大肆宣传报道,抗组织胺药的广告铺天盖地,医药界也掀起了此类药物的生产热潮。
人们对健康永恒不变的追求造就了这种热潮,但奇怪的是,人们拒绝越过统计资料去注意一下早就了解的事实。
警惕统计数据误读!

警惕统计数据误读!随着大数据在各行各业的“深加工”,“看数说话”和“看图说话”正在变得越来越普遍。
言之凿凿的那些从数据中得出的看似“合理”“科学”甚至“高大上”的结论,也许并没有看起来那么值得相信。
在第二次世界大战中一个关于统计学的小故事流传甚广。
讲的是美国陆军航空队为了减少轰炸机部队在执行任务过程中被攻击造成的损失,请统计学家帮忙。
只要有执行任务的轰炸机部队返航,统计学家就第一时间详细地记录下每一架飞机受损伤的情况,随后在模型上用墨汁将所有被击中的部位涂黑。
结果,不到两个月时间,轰炸机模型上除了几个很小的区域还是机身原来的颜色以外,其他部位全被涂黑了。
并且很多地方显然是被反复涂过,墨汁都已经像油漆一样凝结成厚厚的一层。
统计学家建议厂商将轰炸机上这些没有被涂成黑色的部位,尽快增加装甲。
厂商提出疑问:难道不应该是在被涂得最黑的地方增加装甲吗?统计学家给出的理由是,给那些没涂黑的地方加装甲,并不是因为返航的飞机中那里不会被击中,而是因为所有被击中这些部位的飞机,最终都没有返回基地。
这个故事被看作是说明统计学应用的经典案例。
看似只是简单逻辑转换的背后,其实涉及诸多复杂的统计学专业知识,中央财经大学统计与数学学院教授、博士生导师专家提醒说,这个简单故事背后的专业论文,长度有百页之巨。
说到日常生活中经常遇到的统计学先陷阱,专家表示,大家首先要刻在脑子里的一个观念就是“相关不等于因果”。
比如冰激凌的销售量与溺水人数有相关性,溺水人数越多,冰激凌销量越好。
“这很容易知道不是因果关系,而是因为有共同的原因——天气热。
天气热,冰激凌的销量自然高;去游泳的人数自然多,那么溺水的人自然也多。
”专家解释说,有些时候事件之间会呈现相关性,但即使有相关性,也不意味着它们之间有因果关系。
“两件事情相关可能有很多原因:A和B相关,有可能A确实是B的原因,也有可能B是A的原因,或者还可能A和B有其他共同的原因C。
又A和C共同作用导致了B,也有可能B和C共同作用导致了A。
漫谈统计陷阱New-InstituteofStatisticalScienceAcademiaSinica

留意隱藏變數 Beware the Lurking Variable
5
表面的資料未必可信 比較兩航空公司的班機延誤率:
On time Delayed Rate of Late Flights
Alaska 3274 501 Airlines
501/3775 =13.3%
America 6438 787 West
112 200
Total 286
274 560
percents
Accepted
Not accepted
Men 55% 45%
Women 44% 56%
男性被接受的比例較高: 歧視?
歧視? (Simpson’s Paradox)
分開成申請商學院和藝術學院之人數
商學院
counts
Accepted
Not accepted
Technology Review, October 1994,
Department of Transportation.
Simpson’s paradox
辛普森悖論(Simpson’s Paradox)
當研究兩個變數之間的關聯性,有可能存在一個 隱藏變數(lurking variable) ,而當隱藏變數被 考慮時,兩個變數之間的關聯性方向剛好與隱藏 變數沒有被考慮時相反
由13個 臨床試驗資料顯示,乳房攝影可以使 50~64歲女性死於乳癌的風險降低26%
風險降低率之95%信賴區間(confidence interval) 為17%~34%
H. C. Cox, “Editorial: benefit and harm associated
with screening for breast cancer,” New England Journal of Medicine, 338, No. 16 (1998)
《统计陷阱》读书笔记

《统计陷阱》读书笔记谨慎对待生活中的统计数据——《统计陷阱》读书笔记第一眼看到《统计陷阱》这本书的时候,以为它是用来指导学生如何学习统计学,如何避开统计学中那些具有误导性和迷惑性的知识与易错点。
抱着尝试的心态读了读总序,才发现它挖掘的是生活中的统计陷阱,揭露生活中那些运用统计学知识来设计、操纵的诡计。
这一发现令我兴趣大增。
而且这本书抛弃了以往一些学科著作一贯说教的方式,,采用活泼有趣的语言,拉近读者与作者的距离,其中娓娓道来的各个事例也让你不禁感叹陷阱就在身旁,与作者一同处于第三方的角度剖析统计陷阱的诡秘之处更是让人大呼过瘾。
其中一章介绍关于平均数的知识,这里的“平均数”真是令人大开眼界。
原来平均数有着很广泛的概念,它既指均值也包括中位数和众数。
也许这样看来这个“平均数”还不够有趣,不过当它们被“精心挑选”后用于不同的地方便会有大大不同的效果。
书中提到的事例是关于某一住宅区居民的年均收入。
当房地产公司希望你能购买此处房子时,你会得知此处居民的年均收入为15000美元,而当你遇见某纳税委员会的成员为了降低税率、降低财产估价或者降低公共交通费用而四处奔走时,你会得知此处居民的年均收入只有3500美元。
他们谁也没有撒谎,出现差距如此之大的数据只是因为他们用了两种不同的平均数,数值较大的均值与数值较小的中位数。
均值与中位数的巨大差别则是来自于在此区拥有房产用于度周末的三位百万富翁,他们的巨大年收入拉高了此处绝大多数居民的年均收入——那些小农、工薪阶层还有靠退休金过日子的老人。
相同的数据,选择不同的操作便能显现出不同的效果用以达成各人的目的。
实际生活中的大公司也经常如此处理平均数用来发布数据,这便是生活中一部分关于统计学的陷阱。
所以当我们看到那些漂亮的,精确的、令人心动的数字时,先不忙着激动欢呼或者沮丧叹气,不妨先认真地研究一下这些数据是如何被得到的以及如何被处理的,它的精确含义是什么,因为也许你看到的数字只是有心人为了得到读者的像你最初那样反应而精心处理过的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 许多论文要进行数十乃至数百次对比。在这类论 文中,研究人员如果不肯调整一下标准的p值阈值 (即0.05),那么几乎肯定会出现本来毫无意义 的统计,恰巧被当成是具有统计显著性的情况。 今年2月,《美国临床营养学杂志》发表的一项研 究对数十种物质进行了测试,并得出结论说,蓝 莓中含有的某些物质可以降低高血压风险,p值为 0.03。不过,这些研究人员检验的物质如此之多, 所作的对比也是相当可观(50次以上),因此几 乎可以肯定,该论文中有些p值之所以小于0.05纯 粹是因为巧合。
• 无独有偶,一批心理学家对某条鲑鱼所作的研究 也是如此。在这项广为人知的研究中,当心理学 家让鲑鱼看到人们表达情绪的一组图片时,鲑鱼 大脑中的某些部位便活跃起来。此结果是有统计 显著性的,p值低于0.001。不过,诚如这些心理 学家所言,既然可能存在的模式多如牛毛,以至 于几乎肯定会得到一个具有统计显著性的结果, 因而这种结果毫无意义。p值高也好低也好,反正 那条鱼本来就不可能对人的情绪有所反应:心理 学家放进磁共振成像仪中的鲑鱼恰好是条死鱼。
高度显著性”的签。
• 假定你已经开展了一项科学实验,对比一种治疗心脏病的 新药和一种安慰剂的效果。实验结束时,你比较了两组受 试者。瞧,服药组患者的心脏病发作次数少于服用安慰剂 的患者。成功啦!这种药真的有效! • 且慢,说不定并非如此。即使此药根本无效,它在服药组 患者中的效果,也有50%的可能好于安慰剂组(不管怎么 说,总有一组的效果要优于另一组,而服药组和安慰剂组 占上风的可能性各占一半)。 • p值其实就是把随机性用一个数值表示出来。严格来讲, 它是指观察到某一实验结果(即使你的假说有错)的概率。 在众多科研领域中,长期通行的一个惯例就是,凡p值在 0.05以下的结果均被认为具有统计显著性。这是个随意约 定的惯例,它常常会出错。每当你把某种无效药物和兴奋 剂作对比时,便有1/20的机会得到统计显著性结果。因此 平均说来,倘若你在一篇论文中进行了20次这样的对比, 就会得到一个统计显著性结果(也就是p值小于0.05), 即使该药完全无效。
科学研究的统计学陷阱 统计分析常常遭遇“巧合”,让科学家上当受骗 环球科学· 数学篇 如果你想让全世界的人都相信鱼能感觉到你的情 绪,那么说实在的,只用一种统计指标即p值就 够了。p值是一种万金油式的指标,科学家常用 它来确定一项实验结果是否具有“统计显著性”。 遗憾的是,p值检验并非总像人们所吹嘘的那样 给力。结果,即使一项观测结果有时只是一种毫 无意义的巧合,研究人员也会给它贴上“有