生活中的统计学陷阱

合集下载

生活中的统计骗术

数据·2011/0254在用事实说话的社会里，统计越来越受到重视。

但如同任何事物具有两重性一样，统计有时也被利用为恶意夸大或简化事实、迷惑他人的工具，往往堂而皇之出现，而不易让人察觉。

不懂统计的人很容易被误导、被欺骗，从而做出错误的判断或决策。

为了避免更多的人被误导，在此介绍几招生活中常见的统计骗术。

其实，只要我们掌握了相关的统计知识，那些别有用心的人就再没用武之地了。

“蒙人”的绝对数绝对数是统计绝对数的简称。

它是反映现象总体在一定时间和空间条件下所达到的总规模、总水平或工作总量的综合指标。

有以货币单位（元、美元、日元等）计量的价值指标，如2010年我国GDP（初步测算数）为397983亿元，也有以实物单位（包括自然单位、度量衡单位、标准实物单位等）计量的实物指标，如2010年我国的粮食产量为54641万吨。

数值的大小受总体范围的制约，总体范围增大，数值也随之增大；相反总体范围缩小，数值也随之减小。

因此，对于规模不等的总体，其绝对数值不能直接对比并以此判断事物的优劣。

但在日常生活中，常常有人有意无意忽视总体规模的大小，用不匹配的绝对数数据达到蒙人的目的。

最为常见的是有关交通意外事故的数据，如果不懂得它们是极其不匹配的数据的话，无论哪种交通手段的事故记录，都可能让人们得出错误的结论。

公安部发布的2005年中国道路交通事故统计分析数据指出：2005年，全国公路上发生交通事故272840起，造成76689人死亡，其中高速公路上交通事故造成6407人死亡，二三级公路上交通死亡事故最多，共造成47448人死亡，给人的感觉好似二三级公路比高速公路更容易出事故。

其实不然，虽然中国的高速公路近年发展很快，到2005年底，高速公路总里程达到4.1万公里，位居世界第二位，但二级公路有24.6万公里、三级公路有34.5万公里，合计达59.1万公里。

在营运里程14倍余高速公路的二三级公路上出现的交通事故较多是很自然的事，因为二三级公路的营运里程长，行驶的车辆和行人更多，出现事故的可能性更大。

统计中的骗局

统计中的骗局致谢语：在多方的帮助下，经过广泛的收集，我得到了散见在本书各章当中的关于狡辩和欺诈的小例子。

在我通过美国统计学会发出呼吁后，许多专业统计学家--请相信我，他们和其他人一样痛恨统计资料的滥用--从他们自身收集的资料中为我提供了大量的实例。

这些人，我猜想，将乐意成为无名英雄。

同样，我在许多书籍中发现了有价值的案例，仅列出其中主要的书籍：Martin A. Brumbaugh 和Lester S. Kellogg所著的《商业统计学》；Hadley Cantril的《公共观点的测定》；Willard Cope Brinton的《图表表示法》；Frederick E. Croxton 和Dudley J. Cowden的《实用商业统计学》；George Simpson 和Fritz Kafka的《基础统计学》以及Helen M. Walker 的《基础统计方法》。

Darrell HuffⅠ序言：我的岳父从爱荷华州到加利福尼亚州不久便对我说："你们这儿治安不好。

"在他所阅读的关于加州的报道的确如此。

但是，这些报道通常来自一份爱荷华州的报纸。

这份报纸不会轻易忽略掉加州发生的任何犯罪行为，虽然它也报道本州的谋杀案，但看起来它更乐意大肆渲染加州出现的同类情况，而且还因此而闻名。

我岳父得出的这个结论是建立在明显有偏样本基础之上的，是一个随意的统计结论。

类似于其他更为精致的统计结论，也存在着证据与结果不匹配的问题，因为这些结论都在假定：报纸专栏中对犯罪行为的报道是测量犯罪率的工具。

几年前，十来个调查人员独立地发表了关于抗组织胺药的试验数据。

所有的数据都证明，在经过抗组织胺药物治疗后，相当高比例的感冒能够治愈。

这一结论引起了传媒的大肆宣传报道，抗组织胺药的广告铺天盖地，医药界也掀起了此类药物的生产热潮。

人们对健康永恒不变的追求造就了这种热潮，但奇怪的是，人们拒绝越过统计资料去注意一下早就了解的事实。

平均数的陷阱

平均数是统计中最常用的概念之一，小到日常计算，大至GDP核算，都离不开平均数的身影；简单如速度测量，复杂至航天器稳定性测试，都要仰仗平均数出马。

它让纷繁复杂的群体有了可度量的标准，但也将事物的全貌单一化，数据的结构、数据的周期、数据的优劣全部掩盖在一个数字后面，这就给我们客观全面了解事物埋下了“陷阱”，如何跨越平均数的缺陷去客观地考察事物呢？这就需要我们熟悉平均数的陷阱。

陷阱一：安思科姆四重奏由耶鲁大学统计学教授佛朗西斯·安思科姆提出的“四重奏”理论表明：迷信平均值而忽略数据结构将导致数据认识的严重偏差。

以下4组数据是一个典型的“安思科姆四重奏”。

对表1中4组数据统计平均数，结果如下：X1=X2=X3=X4=9Y1=Y2=Y3=Y4=7.54组数据X和Y平均值相同，单从平均数指标看4组数据是无区别的。

但是在对以上4组数据绘制散点图后（见图1~图4），我们惊奇地发现，平均数“欺骗”了我们，4组数据呈现形态迥异的4种图形分布，它们之间并没有共同之处。

这是因为平均数的集中性使得我们对数据的结构分布视而不见，高度的综合掩盖了数据背后的图形规律。

陷阱二：辛普森悖论这是某高校的研究生录取情况，从总体看，男生的平均录取率为21%，远低于女生的平均录取率42%，从平均值看男生考取这所学校可比女生难多了，实际情况是否真的如此呢？让我们分学院再看一下录取情况，怪事发生了！无论是统计学院还是外语学院，男生的录取率都远高于女生，为什么每个学院录取中都占据优势的男生，在取总体平均数之后反而变成了弱势一方呢？从表格上我们可以看出，统计学院考取的难度较外语学院要大得多，虽然男生在两个学院的录取上都比女生有优势，但他们大多选择报考低录取率的统计学院，女生则基本选择报考录取率高的外语学院，所以男生的录取率平均后被大幅拉低，被女生的平均录取率超越了。

陷阱三：依赖平均数进行决策的误区一家连锁餐厅做了详尽的统计分析后推出以螃蟹为主打的海鲜特惠自助餐促销，他们事先统计了吃螃蟹顾客的平均比例，每位顾客的平均螃蟹消费量以及螃蟹的市场平均售价，并以此为依据制定了促销价格，按照这个价格每位顾客可以为餐厅带来25元的利润。

50个思维陷阱，很容易掉进去，不得不防

50个思维陷阱，很容易掉进去，不得不防1.差理由偏误：“为什么要把蓝色和黑色的衣服分开洗？”，“因为我想分开洗”。

事实：人们只要听到“因为”，就倾向于产生理解，理由好坏有时并不重要。

所以，注意不要被差理由忽悠。

2.疲劳决策：劳累一天头昏脑胀的时候，做了一个重要决定，后来发现很不明智。

事实：做决定是需要消耗能量的，疲劳后人容易做出不理性的决定。

所以，不要在疲劳的时候，做重要的决定。

3.关联谬误：选择了自己吉祥数字的房间，尽管这个房间其实没那么好。

事实：人们倾向于把本身不相关的事，赋予某种荒唐的关联，在没有因果的地方强加因果。

所以，谨防关联偏误，做出错误决策。

4.平均数偏误：尝试去蹚一条平均1米深的河，以为完全没危险。

事实：人们经常把平均数当真相，但平均数很多时候并没有意义，因为它常常不具有代表性。

所以，了解事实还是要看，数据整体分布情况。

5.激励排挤效应：出于友情帮朋友搬家，结果朋友给我发了一个100的红包。

事实：有些时候人的动力源于精神层面，金钱上的激励会排挤掉非金钱意义上的动力。

所以，有些时候，给钱并不管用，可能还会引起负面的效果。

6.废话倾向：一个人滔滔不绝，但似乎听起来，并没有表达什么有价值的信息。

事实：人常有废话倾向，害怕不说话，别人把自己当傻瓜，于是废话连篇，彻底暴露了自己糊涂的思想。

所以，没有什么可说的时候，最好就什么也不说。

7.移民效应：有个笑话说，那些从俄克拉荷马州搬到加利福尼亚州的人，一下提高了两个州的平均智商。

事实：数据变好，事情并不一定就变好，比如，通过调换组员，将两组的平均值都变好，但其实并没有实质上让两组都变好。

所以，要警惕移民效应。

8.信息偏倚：拿一张1比1的地图，是学不到知识的。

事实：人们总是希望尽可能多地获取信息，来支撑自己决策，但过量的信息反而会干扰决策。

所以，重要的是，掌握关键信息，而不是更多信息。

9.聚集性幻觉：从天空中的一堆云里看到一只猫，便以为是一种上天的启示。

【统计陷阱】分析数据时常见的 7 类统计陷阱

【统计陷阱】分析数据时常见的7 类统计陷阱我们会发生各种极有可能出现的混淆，数据抽取之后「迷恋」于数字，脑子里没有分析的目标，自己的局限影响指标选择......当分析数据的时候我们都很容易犯错。

不过，用户体验团队需要用户行为的准确画像，你就要记下分析数据（用户体验分析）时最常见的几个错误，或者说读数据时几个最大的失误。

这些都与对用户行为进行错误的假设有关，然后你就会发现：o较小的数字通常表示负面信号o如果数据结果表明有一个相关性，那么肯定存在一个因果关系·····等等。

现在，允许我向你揭示当做统计说明时7 个最常见的错误。

1. 访问和浏览：混淆它们并且过度依赖它们不管是不是新手数据分析师，都会陷入交替使用这两个概念的陷阱：不同的数据分析工具对同一概念使用不同的术语，（甚至）在同一工具中都会使用令人感到模糊的术语，难怪你会将浏览当作访问，反之亦然。

不过要确保你完全理解术语，否则你就有以下风险：o使用错误的数据做报告o将一些极不准确的报告整合在一起毫不意外，这是进行数据解释时最常见的错误。

现在，让我们定义浏览和访问，并一次性地将它们的区别列出：o浏览（页面浏览）是指浏览网站上的一个页面，可被追踪分析代码所追踪。

o访问（session）是指用户在特定时间内，在你网站上进行的所有动作。

现在说到浏览和访问还有一个在分析解释数据时颇为常见的错误，那就是：过于依赖浏览和访问！作为UX 设计师，你也许想要将提升访问量和浏览量的任务交给做市场的人。

然后集中处理与用户体验有关的数据。

2. 要有全局观而不是深挖数据简要地浏览一下可以获取的数据：o快速评估手头的数据o迅速浏览「头行」数字这样只能得到一些网站当前的运行状态，不会给你任何提升用户体验的线索。

怎样提高数据分析效率呢？换句话说：访问量仅仅是一个指标用来告诉你有多少人在给定时间段内到达你的网站，不会告诉你怎样鼓励这些人浏览网页。

不靠谱的统计数字如何欺骗了你？

不靠谱的统计数字如何欺骗了你？【⼀】在这个信息爆炸的时代，我们的周围总是充斥着各种各样的新闻和数据，⽐如“⼴东本科⽣平均⽉薪7000，你拖后腿了吗？”、“北京⼈初婚平均年龄为27岁，结婚越晚越稳定”、“从除⼣开始放假会让很多员⼯觉得浪费⼀天假期”……⾯对这些数字时，你是否会在被戳中痛点后默默回⼀句“我⼜⼀次被代表了”或者“哥⼜拖后退了”？当然，还有⼀些所谓的研究结果甚⾄通过⽹络被快速传播，成为了⼈⼈都知道的“科学”事实：“近视眼戴眼镜会眼球变突”、“家⽤电⼦设备辐射⼤，所以⼿机不要放床头、电脑⼀定要⽤防辐射的机箱，接电话时不要离⽿朵太近”、“碱性体质的孕妇更容易⽣⼉⼦”……这些所谓的“科学”通过“⽤数字说话”的⽅式吸引了你的注意⼒。

可是，客观真实的数字摆在那，我们就能正确认识世界了吗？今天，精读君就为⼤家推荐⼀部美国统计专家达莱尔·哈夫的著作《统计数字会撒谎》，看看我们周围的数据中都暗含了哪些骗局。

作者达莱尔是⼀名⾃由记者，因其1954年出版的这本精彩、⼤为畅销的《统计数字会撒谎》⽽深受数代极客的爱戴。

【⼆】“平均年收⼊10万”，对你来说是什么概念？作为揭露数据造假的经典⼯具书，这本《统计数字会撒谎》在50年代⼀出版，就成为有些⼈的“⼼头⼤患”，他们在全世界对其进⾏围追堵截，就是因为害怕读者看到书中的真相。

它诞⽣之后，不仅被奉为“世界统计学普及读物第⼀畅销书”、“25本投资经典之⼀”、“经典社会学读本”，⽽且被誉为“数据造假曝光宝典”，在世界畅销50年⽽不衰。

达莱尔⽤风趣的插图和通俗的语⾔把⾼深的统计写得像“故事书”⼀样精彩，这种独具⼀格的⾏⽂和编排使得此书更具魅⼒。

此外，书中还揭露了⼤量⾄今仍被销售员、专家、记者或者⼴告撰稿⼈频频使⽤的“⾏骗⼯具”，如：有偏的样本，精⼼挑选的平均数，遗漏某些重要的数据，混淆因果关系，滥⽤⼀维图形等。

更为重要的是，达莱尔在书中破解了如何识破虚假统计数据。

不要掉入统计数字的陷阱

现代经济信息不要掉入统计数字的陷阱王心仪广州市第四十七中学摘要：我们生活在信息时代，信息的主题就是统计数据，统计数据覆盖经济和社会的各个领域，但是并非所有的统计数据都是客观真实的，本文通过实例来分析有偏的样本、精选的平均数、隐藏的部分数据、误解的相关关系、不完全匹配的资料等几种统计数字说谎的方式及其破解的方法。

关键词：统计数字；陷阱；破解方法中图分类号：F713.8；F712.3 文献识别码：A 文章编号：1001-828X(2017)001-000154-02在这个信息爆炸的时代，各种各样的数据充斥在我们周围，比如“广东本科生平均月薪7000元，你拖后腿了吗？”、“北京人初婚平均年龄为27岁，结婚越晚越稳定”……可是，数字摆在那儿，我们就能正确认识世界了吗？我们要如何才能够看清这些漫天飞舞、貌似客观真实的统计数据背后的谎言？下面我们就来看看几种统计数字说谎的例子及其破解的方法。

一、有偏的样本我们来看一则媒体报道：“6月15日，人工智能公司在北京发布了《2015年中国大学薪酬排行榜》，清华大学高居榜首，复旦大学和上海财经大学分列二三位。

这份薪酬排行榜是根据来自招聘和猎头公司的4000万大学毕业生真实毕业去向数据分析所得，由各大学毕业五年薪酬指数计算所得。

”(来自新浪教育频道，2015年6月17日)2015年本科毕业生薪酬最高的100所大学名次学校名称毕业五年薪酬数值(元/月)北上广深就业比例(%)学校类型所在城市1清华大学128072复旦大学116613上海财大11235……事实上，这个数据中就使用了一个有偏的样本，从以下几个方面，我们可以看出破绽：首先，对于一群已经离开学校的人，了解他们的平均收入，且精确到以元为单位，几乎不太可能；其次，对于年收入10万元以上的阶层来说，投资渠道更广，因此他们的收入不可能完全来自于薪水；再次，这些毕业生不一定坚持说真话，有些人可能出于虚荣或天生乐观而夸大数据，还有一些人也有可能故意缩小数字；最后，没有人能够掌握那些不通过招聘和猎头公司的学生就业情况，比如自我创业者。

《统计陷阱》读书笔记

谨慎对待生活中的统计数据——《统计陷阱》读书笔记第一眼看到《统计陷阱》这本书的时候，以为它是用来指导学生如何学习统计学，如何避开统计学中那些具有误导性和迷惑性的知识与易错点。

抱着尝试的心态读了读总序，才发现它挖掘的是生活中的统计陷阱，揭露生活中那些运用统计学知识来设计、操纵的诡计。

这一发现令我兴趣大增。

而且这本书抛弃了以往一些学科著作一贯说教的方式，，采用活泼有趣的语言，拉近读者与作者的距离，其中娓娓道来的各个事例也让你不禁感叹陷阱就在身旁，与作者一同处于第三方的角度剖析统计陷阱的诡秘之处更是让人大呼过瘾。

其中一章介绍关于平均数的知识，这里的“平均数”真是令人大开眼界。

原来平均数有着很广泛的概念，它既指均值也包括中位数和众数。

也许这样看来这个“平均数”还不够有趣，不过当它们被“精心挑选”后用于不同的地方便会有大大不同的效果。

书中提到的事例是关于某一住宅区居民的年均收入。

当房地产公司希望你能购买此处房子时，你会得知此处居民的年均收入为15000美元，而当你遇见某纳税委员会的成员为了降低税率、降低财产估价或者降低公共交通费用而四处奔走时，你会得知此处居民的年均收入只有3500美元。

他们谁也没有撒谎，出现差距如此之大的数据只是因为他们用了两种不同的平均数，数值较大的均值与数值较小的中位数。

均值与中位数的巨大差别则是来自于在此区拥有房产用于度周末的三位百万富翁，他们的巨大年收入拉高了此处绝大多数居民的年均收入——那些小农、工薪阶层还有靠退休金过日子的老人。

相同的数据，选择不同的操作便能显现出不同的效果用以达成各人的目的。

实际生活中的大公司也经常如此处理平均数用来发布数据，这便是生活中一部分关于统计学的陷阱。

所以当我们看到那些漂亮的，精确的、令人心动的数字时，先不忙着激动欢呼或者沮丧叹气，不妨先认真地研究一下这些数据是如何被得到的以及如何被处理的，它的精确含义是什么，因为也许你看到的数字只是有心人为了得到读者的像你最初那样反应而精心处理过的。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

生活中的统计学陷阱
在你听到一种统计关系时，可得慎重一些，千万不要轻率地对事件发生的因果关系做出判定，因为事情并不那么简单。

让我们来看几个不可轻率做出结论的例子。

①统计资料表明，大多数汽车事故出在中等速度的行驶中，极少的事故是出在大于150公里/小时的行驶速度上。

这是否就意味着高速行驶比较安全呢?
正确答案:绝不是这样。

统计关系往往不能表明因果关系。

由于多数人是以中等速度开车，所以多数事故是出在中等速度的行驶中。

②有一个调查研究说脚大孩子的拼音比脚小的孩子好。

这是否是说一个人脚的大小是他拼音能力的度量？
正确答案：不是的。

这个研究对象是一群年龄不等的孩子。

它的结果实际上是因为年龄较大的孩子脚大些，他们当然比年龄小的孩子拼得好些。

③常常听说，汽车事故多数发生在离家不远的地方，这是否就意味着在离家很远的公路上行车要比在城里安全些呢？
正确答案：不是，统计只不过反映了人们往接是在离家不远的地方开车，而很少在远处的公路上开车。

④有一项研究表明某一个国家的人民，喝牛奶和死于癌症的比例都很高。

这是否说明是牛奶引起癌症呢？
正确答案：不对！原因是这个国家老年人的比例也很高。

由于癌
症通常是年龄大的人易得，正是这个因素提高了这个国家癌症死亡者的比例。

上述例子表明，统计学论述在涉及因果关系时很容易造成误读。

现代的广告，尤其是很多电视的商业广告正是以这种统计误读为根基的。