统计数据背后的真相 — 读《How to lie with statistics》

合集下载

统计学数据背后的故事

统计学数据背后的故事统计学是一门研究数据收集、分析和解释的科学。

通过统计学，我们可以深入了解数据背后的故事，揭示出隐藏在数字背后的真相。

本文将探讨统计学数据背后的故事，从而窥探数据背后的真实意义。

一、数据背后的故事数据，并不仅仅是一些冰冷的数字，它是对于现实世界的抽象和总结。

而这些数字背后，往往隐藏着人们的行为、心理和社会规律。

统计学正是通过分析这些数据，帮助我们理解背后的故事。

以人口统计为例，通过对人口数量、年龄分布、性别比例等数据进行分析，我们能够了解到一个地区的人口结构和发展趋势。

从这些数据中，可以发现人口老龄化的程度，以及一些社会问题的原因和解决方案。

数据背后的故事可能包括某一地区经济的繁荣或衰退，社会的稳定或动荡等等。

同样，对于经济统计数据的分析也能揭示出一国或地区的经济发展状态。

通过分析国内生产总值（GDP）、消费指数、就业率等经济指标，我们可以判断一个经济体的发展速度、经济结构的改善和投资方向的优化等。

这些数据背后的故事可能包括某个行业的兴衰，某个地区的经济合作模式等。

二、揭示数据背后的真相统计学不仅仅是对数据的收集和整理，更重要的是通过适当的方法，揭示数据背后隐藏的真相。

在数据的分析中，我们需要小心陷入到数据的陷阱中，避免被误导。

首先，我们需要考虑数据的来源和采集方法。

数据的来源和采集方法会对数据的可靠性和有效性产生重要影响。

如果数据来源不确切或采集方法存在偏差，那么分析结果可能会出现错误的偏差。

因此，在进行数据分析时，我们需要注意对数据进行可靠性和有效性的验证。

其次，我们需要关注数据之间的关系和相关性。

在统计学中，我们通过相关性分析等方法来探究不同数据之间的关系。

相关系数的计算可以帮助我们了解两个变量之间的相关性，从而进一步解读数据的背后故事。

最后，我们需要审慎地解读数据。

数据本身并没有价值，真正的价值在于我们如何解读并运用数据。

我们需要避免盲目追求数字背后的表面含义，而是要有系统的思维和深入的分析。

《统计数据会说谎》课件

描述统计数据误导
当描述性统计数据被断章取义或无视背景时，会导致人们产生错误的印象。
推断统计数据误导
当推断性统计数据的样本选取或分析方法存在问题时，会导致错误的结论。
统计数据的谎言案例分析
案例一：政治民调数据的谎言
政治民调常常被用来操纵公众舆论，通过有选择性的数据展示来达到特定的政治目的。
案例二：商业广告中的谎言
许多商业广告使用模糊的统计数据或夸大的效果来误导消费者，以增加销售量。
案例三：科学实验数据的谎言
有些科学研究可能受到资金、压力或偏见的影响，导致其结果被错误地呈现或解读。
如何辨别统计数据的谎言
1
多方获取信息
通过多个不同的渠道获取信息，以避免过于依赖单一数据源。
2
1 自然观测
通过观察和记录自然现象、行为或事件来收集数据，例如天气变化或动物行为。
2 人工实验
在控制环境中进行的实验来收集数据，例如药物试验或心理学实验。
3 抽样调查
通过随机抽样收集数据，以便代表总体进行统计推断。
统计数据的谎言
误导性统计数据
通过选择性地呈现数据或使用不正确的统计方法来误导观众。
《统计数据会说谎》PPT 课件
统计数据是我们生活中无处不在的一部分，它们既普遍又重要。然而，我们必须认识到统计数据可能存在谎言的问题。
统计数据的类型
描述性统计数据
用于总结和展示数据的特征，例如平均值、中位数和标准差。
推断性统计数据
基于样本数据进行推断以得出总体数据的估计值和结果。

统计数据的来源
调查统计样本
仔细检查统计数据的样本，确保其代表性和可靠性。
3
检查数据来源

《统计学基础：透过数据看世界》随笔

《统计学基础：透过数据看世界》读书笔记目录一、统计学基础概述 (2)1.1 统计学定义与作用 (3)1.2 统计学的基本概念 (3)1.2.1 总体与样本 (5)1.2.2 参数与统计量 (5)1.2.3 随机变量与概率分布 (7)二、数据收集与整理 (7)2.1 数据的来源与类型 (9)2.2 数据收集方法 (11)2.3 数据整理与描述 (12)三、数据分析方法 (13)3.1 描述性统计分析 (15)3.1.1 均值、中位数与方差 (16)3.1.2 偏度与峰度 (17)3.1.3 数据可视化 (17)3.2 推断性统计分析 (18)3.2.1 假设检验 (20)3.2.2 置信区间 (22)3.2.3 方差分析 (22)四、回归分析与预测 (24)4.1 线性回归分析 (25)4.2 多元线性回归分析 (26)4.3 时间序列分析 (28)五、统计学应用案例 (30)5.1 经济学领域 (31)5.2 社会学领域 (32)5.3 生物学领域 (34)六、总结与展望 (35)6.1 本书重点回顾 (36)6.2 统计学的未来发展趋势 (38)一、统计学基础概述作为一门处理数据的科学，为我们提供了一种系统的方法来收集、整理、分析和解释数据，从而揭示事物的内在规律和趋势。

在日常生活和工作中，我们经常需要面对大量的数据，如销售数据、人口统计数据、医疗记录等。

这些数据背后隐藏着许多有价值的信息，但只有通过科学的统计方法才能被挖掘出来并加以利用。

统计学的基础主要包括描述性统计和推断性统计两部分，描述性统计主要通过对数据的整理和展示，提供对数据的基本认识，如平均数、中位数、众数等统计量。

这些统计量可以帮助我们概括和描述数据的中心趋势和离散程度。

而推断性统计则是基于样本数据对总体进行推断和预测，它可以帮助我们估计总体的参数值，并检验我们对总体的假设是否成立。

统计学还涉及数据的收集和抽样方法，有效的收集方法能够确保数据的准确性和完整性，而合理的抽样方法则能够使我们以较小的成本获取足够的信息来支持决策和分析。

每周一本书《揭开数据真相》：质疑“看得见”的数据，挖出“看不见”的真相

每周一本书《揭开数据真相》：质疑“看得见”的数据，挖出“看不见”的真相本周给大家推荐的书是《揭开数据真相：从小白到数据分析达人》，这本书的技术门槛不高，主要目的是让读者学会如何质疑“看得见”的数据，并挖出“看不见”的数据真相，还原基本的事实。

来源：数据猿作者：jean小编寄语：“你看到的，只是我想让你看到的”，让数据说话，说客观其实也不客观，所以别太迷信数据啦~统计数据之所以强大有力，是因为它一点都不care我们的情怀、梦想和信仰——数据让我们客观地看待事物。

但是，当数据耿直的显示了人们讨厌的结果时，命运只能被操纵，最终变成“漂亮”的数据（企业财报、销售额、阅读量等等）……因此懂得解释统计数据，了解各种歪曲、滥用数据的技术对于理解数据真相是非常必要的。

本周给大家推荐的书是《揭开数据真相：从小白到数据分析达人》，这本书的技术门槛不高，主要目的是让读者学会如何质疑“看得见”的数据，并挖出“看不见”的数据真相，还原基本的事实。

有人会担心，我没有经过系统科学训练，是不是要再去读一个数学课程呢？其实完全没必要，那些复杂的数学公式主要用来让你崩溃的（回想自己的高数课程），最重要的还是见识一些常见套路，遇到类似的能举一反三，升华出来一些方法论就更棒了。

这本书就从很多实例中总结了数据分析的技巧和“骗人”招数。

比如通过内在不完备的样本，精心挑选的平均数，统计图表范围的切割，相关系数因果关系的误解，混淆逻辑，操控是非，达到一些不可告人的目的。

这并不是一本教科书，让你去学习深奥枯燥的统计数学，而是用风趣幽默的例子从别的视角来观察世界，启迪智慧。

比如本书的第十章在讲确认性偏差时，作者就“分母”的重要性举了一个很有趣的例子：假设有一群人看见你盯着一根树枝就把树枝折断了只要你不告诉这些人一个事实——你盯着这些树枝看了很久而树枝迟迟不断，那么，这些人肯定会对你表面上的断树功力大感敬畏。

在奇妙的统计学讨论中，只提分子、不提分母可以让不真实的事情看上去很真实。

统计数字会撒谎

统计数字会撒谎作者：廖颖林来源：《中国纺织》2010年第03期“自从使用了某某牌牙膏，我们的蛀牙减少了23％。

”或许你刚被这样的广告宣传攻陷，对这新款牙膏的“神奇功效”深信不疑，但是美国统计专家达莱尔·哈夫(Darrell Huff)告诉你：“没有比这更无聊的广告了。

”没错，问题就在这个“23％”上。

在一个用事实说话的社会，我们接触到了越来越多的统计数据和资料，例如各种经济数据、证券信息、投资可行性研究报告、公司财务报告等。

但是却有不少销售员、公关公司、广告撰稿人等在滥用书中所揭露的“数据造彼方法”来蒙蔽对数据知识不甚了解的客户、消费者和上司。

面对这些良莠不齐、真伪并存的数据或资料，我们需要去粗取精、去伪存真的过程。

我们又该如何进行鉴别?20世纪50年代，美国的各大媒体和宣传机构就已经开始越来越重视利用统计——“这个神秘的语言”——说话，然而大量的统计数据、统计资料由于主、客观的原因被滥用，很难起到描述事实、传递信息的作用。

相反，还往往对读者形成误导。

达莱尔·哈夫——一位具有深厚统计背景的新闻记者一发现了这一现象。

他在广泛调查的基础上，从报刊、杂志、书籍中，从美国统计学会一些统计学家提供的实例中，收集了大量案例，并在1954年写下了《How to Lie with Statistics》一书。

该书一经出版，便畅销美国，成为美国20世纪50年代的畅销书之一，并受到了当时美国各种书评杂志的好评，至今依然常常被美国不少权威媒体所引用。

《管理评论》认为：“哈夫先生用如此生动的，充满人情味的方式来论述统计这个干巴巴的课题，真是一剂灵丹妙药，我们太需要这本书了，它虽然娱乐性强、浅显易读，却十分具有说服力。

”《图书期刊》如此评价：“作者和制图者倾注了全力，给大家提供了一本十分轻松活泼的读物和卡通画。

它们能给你带来娱乐，又能引发思考，而且还揭穿了许多统计方法的谎言。

”《大西洋》评价道：“这是一本具有善意破坏性的书，读完它后，你对于‘万能统计’的信任将大大降低。

《统计陷阱》读后感

《统计陷阱》《统计陷阱》本书是美国著名的统计学家达菜尔·哈夫的名著。

该书自1954年出版至今，多次重印并被译成多国文字，是一本影响深远的经典性著作。

《统计陷阱》一书之所以能够历久弥新，是因为其实用性，作者重说明、轻证明，重文字描述、轻理论推导，并结合活生生的案例，语方轻松诙谐，深入浅出，介绍了一些统计语和方法，更揭示了许多统计骗局，本书一共分八章：第一章内在有偏的样本主要将通过偏差的样本来获得想要的数据，文中举例耶鲁大学毕业生的工资来说明这个问题，给出统计结论时却并未给出样本，通过合理的猜测，可以知道这样的样本是有偏差的，例如能联系上的人一般都不穷，愿意告诉别人自己工资的人更不穷第二章精心挑选的平均数一般给统计结论时却并不给出是哪种平均数，是算术平均还是中位数或者是众数，通过这种方式来欺骗人，例如最近很流行的居民平均居住面积，平均收入等第三章没有披露的数据反复做试验，指给出对自己有利的数据，例如我想证明抛硬币正面出现的次数是80%，那么我每次抛10次，反复抛，直到某次试验正面出现8次，以此作为支持我结论的数据第四章毫无意义的工作计算某一个数据时，需要知道这个数据可能的误差，如果不考虑这个误差，则数据毫无意义，例如智力测验，需要首先明确测验可能的误差，例如正负3，平均智力是100正负3，如果不考虑这个误差，而直接说平均智力是100，a的智力是98，b的智力是101，b的智力比a的好，这样的结论是没有意义的第五章惊人的统计图形通过对图形的夸张画法，来达到误导读者的目的，例如将y轴不从0开始，x，y比例不一致等第六章平面图形本章与上一章比较类似，不过图形换成了平面图形，平面图形不只有高度还有宽度，例如通过钱袋子来比较工资，本来2倍的工资只需要钱袋子高两倍就可以，但这样不协调，因此要更宽，更鼓，导致的结果就是不是2倍，看着是8倍第七章不相匹配的资料问题本身并不能真实地反映这个问题所代表的观点，例如黑人与白人的就业机会均等 == 黑人与白人平等，事实上有种族歧视的人更愿意回答二者的工作机会相等，而同情黑人的人更愿意回答不等，另外很多数据与最终的结论也没有多大的关系，例如药物实现，实验室的环境，药物与最后在药店里购买的药物有可能很不一样，或者实验室环境与人体环境差别很大，等等，都导致数据的不准确性。

《统计数据会说谎》课件

详细描述
一些学者在研究中为了证明自己的观点，可能会篡改或编造实验数据，或者选择性地使用部分数据来支持自己的论点，导致研究结果失真。
05
如何避免统计数据的说谎
提高公众的数据素养
培养对数据的敏感性和批判性思维
01
让公众了解数据的基本概念、特点和局限性，学会从多角度分
析数据，不盲目相信或传播数据。
惕，仔细核实数据的真实性和可靠性。
04
统计数据的说谎案例
媒体报道中的数据误用
总结词
媒体在报道时往往为了制造轰动效应或引导读者做出某种判断，会选择性地使用或解读数据，导致数据误导。
详细描述
媒体在报道时有时会忽略数据的背景信息，只选取部分数据来支持他们的观点，或者对数据进行断章取义的解读，使读者产生误解。
数据的选取偏差
总结词
在收集和选择数据时，可能会因为主观因素或外部压力而产生偏差，导致数据不能客观反映实际情况。
详细描述
数据的选取偏差通常源于对数据的理解不足或偏见，导致只选取符合某种观点或利益的数据，而忽略其他重要信息。例如，在市场调研中，如果只选择有利于自己产品的数据，而忽略其他竞争产品的优点，就会产生数据选取的偏差。
损害信任
不准确的统计数据会破坏人们对数据和信息来源的信任，影响数据和信息的公信力。
浪费资源
基于错误数据的决策可能导致资源的不合理分配，造成资源浪费。
提高对统计数据的重视和警惕性
增强意识
通过培训和宣传，提高人们对统计数据重要性的认识，了解数据质量对决策的影响。
严格审核
建立数据审核机制，对统计数据进行严格把关，确保数据的准确性和可靠性。
数据解读的误区

统计陷阱读书笔记

统计陷阱读书笔记（摘抄为黑色字体，个人感悟为蓝色字体）译者的话20世纪50年代，美国的各大媒体和宣传机构越来越重视利用统计——“这个神秘的语言”—一说话，然而大量的统计数据、统计资料由于主、客观的原因被滥用，很难起到描述事实、传递信息的作用。

相反，还往往对读者形成误导。

从1950年开始，越来越多的人开始注重数据的作用，但是，由于数据被一些机构和商家滥用，甚至是被不正确的利用，很有可能使人们形成错误观念，而达成这些机构和商家的目的。

协助行骗的工具有很多，包括:有偏的样本、刻意挑选的平均数、遗漏某些重要的数据、样本的误差、统计图、平面图、不匹配的资料、混淆相关关系与因果关系以及不正确地使用资料。

每一种工具从某种角度上都可以提高人们对某一数据的信服度，但也可以诱导人们信服错误的虚假的数据。

对“统计资料”应该“提出的五个问题”:“谁说的?”“如何知道的?”“是否遗漏了什么?’’“是否偷换了概念?’’"资料是否有意义?”通过寻找这5个问题的答案，读者能初步判断资料是否真实可信在遇到数据时，应该对数据保持一种怀疑的态度，可能看起来那么真实的数据也有可能是被故意歪曲真相所创造的。

所以对于数据可以提出五个问题来验证数据的可信度，同时在自己运用数据时也要求做到更加真实客观。

培根曾经说过:“如果一个人以种种肯定的立论开始，他必将终止于各种怀疑;但如果他愿意艳着怀疑的态度开始，那么他必将获得肯定的结论。

”我想对数据资料的判断和接收也是如此。

对一个事情一个说法留有怀疑的态度，并为之去检验验证，那么最终得到的结论会有检验的结果作为依据去支撑它的正确性，但如果从一开始就肯定各种事物，那么最后也只能得到一个看似是肯定，实际上可能错误的结论。

有3种谎言:谎言，楷糕透顶的谎言和统计资料。

---Disraeli这句话体现统计资料被滥用后缺乏真实性，常常会引导大众产生错误观念。

绪言平均数、作用关系、趋势和图表与看上去的并不总是一致。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

范围、方法等都不一样，两方面数据结果根本没有可比性。

新浪公布的那个结果是我们在国内128个城市采取计算机辅助电话访问的调查结果，而搜狐公布的那份结果是我们在北京、上海、广州、青岛、南京5个重要城市采取街访方式的调查结果。

那5个最重要的城市和其他128个城市的网络普及率、人对网络的偏好都不一样，数据结果反映的东西肯定也不同”，普通网民在关注到“第一”的同时会去关注这些背后的数据吗？
另外就是同一个数据，但是图表的基准值、刻度等不一样，也会导致图表表达出的效果截然不同，比如下面两个图，左边第一眼给人的感觉是2名用户之间的上网时长差异不大，而右边这个给人的感觉是差异非常大。

这个资料有意义吗？
许多统计资料在我们一眼就能看出是有误的。

比如前一阵因为BT事件，一调查机构宣称：在他们随机调查的100位网友中，有87.53%的网友支持封杀BTchina；有时在对用户进行分类时，对于分类结果，分成的各个类别的用户是否都能在现实中找到对应的人群，或者说周围认识的每一个人是否都能找到属于自己的类别，这都是一眼能够看出是否有意义的。

最后再举一个最常见但也最经常被误导的两个例子：
很多人在学生时代肯定都听过老师有过这样的计算：离某某考试还有1个月时间，扣去一天8小时共10天的睡眠时间，扣去一天约4小时共5天的进餐活动等时间，再扣掉每周两天共8天的双休日，这时余下的学习时间就只剩7天了，这时一听都觉得很紧张，但是感觉没有这么短啊，其实是我们被老师忽悠了；一个产品开发项目计划本来总时长是1个月，后来因为某种变更，需求规划时间要增加15%，界面设计时间要增加20%，开发的时间要增加10%，测试时间要增加5%，则总时间要增加50%？实际总时间增加肯定不到20%。

在这个信息爆炸的时代，统计本是一个通过数据揭露本质的有力工具，但遗憾的是，统计未必能够揭示真实，有时候还可能成为假象的帮凶。

当我们面对生活中形形色色的统计数据时，还要多保持一些理智和清醒，并要有所保留地看待问题。

因为“如果一个人以种种肯定的立论开始，他必将终止于各种怀疑；但如果他愿意抱着怀疑的态度开始，那么他必将获得肯定的结论。

”
(本文出自Tencent CDC Blog，转载时请注明出处)
人人都是产品经理（）中国最大最活跃的产品经理学习、交流、分享平台。