生活中统计学的陷阱

合集下载

统计陷阱

统计陷阱

统计陷阱一、统计陷阱的发现20世纪50年代,美国的各大媒体和宣传机构越来越重视利用统计——“这个神秘的语言” -说话,然而大量的统计数据、统计资料由于主、客观的原因被滥用,很难起到描述事实、传递信息的作用。

相反,还往往对读者形成误导。

达莱尔·哈夫(Darrell Huff),一位具有深厚统计背景的新闻记者——发现了这一现象。

二、统计陷阱的揭示数学是一个很严谨的工具,然而正如任何工具都可以被别有用心的人用作它途一样,数学亦不例外,而在所有数学的分支里,统计学由于与不确定性有关,以致用它来有意或无意地行骗的人存在于各个领域,正是这些人,让统计学背上了“臭名昭着”的恶名,统计学家甚至成了专业骗子的代名词。

要认清这些骗子伎俩,唯有对统计学本身有一定的了解。

毫无疑问,媒体是骗子的最大滋生地,他们无时无刻不在做着夸大、扭曲、隐瞒甚至虚构的报道,他们所报道的新闻里真假的比例是多少,没有人能够统计出来,就这样,他们可以堂而皇之地招摇撞骗。

通常来说,媒体只提供统计数据,而不会花篇幅去写得出此数据的具体过程(显然,媒体不会耗费更多的财力和人力到这个上面,那样会少很多好看的新闻),对于数据,如果不知道它的统计过程,那基本上是没多大意义甚至是毫无意义的。

于是,我们经常会在媒体上看到各种各样的、千奇百怪的违背人常识或与我们想象中不同的惊人结论,每当看到这样的结论时,我们二话不说就会对做出此结论的人一顿谩骂或嘲笑(一般是专家)。

这些统计调查本身往往并没有错,错的是媒体语焉不详,甚至刻意利用数据得出哗众取宠的结论。

比如很多调查只是显示具有相关关系,而不是因果关系,但是媒体通常不会指出这是相关性调查,即使指出我们也会忽略它们,或者完全意识不到这些意味着什么。

错误的把相关性认为因果性会导致很多荒谬的结论,如果B紧跟着A出现,那么A一定导致B,我在屋里跳高,刚一跳正好就地震了,于是我认为是我跳高导致了地震的发生。

就这样,人们对统计数据失去了信任,并不是因为知道了统计数据的骗人手法,而是越来越多不靠谱的结论让我们很难再相信它们。

统计陷阱案例以及解决方案

统计陷阱案例以及解决方案

统计陷阱案例以及解决方案案例一:辛普森悖论情境描述:在一个实验中,对比两组各1000只白鼠的药物治疗效果。

甲组分为两组,一组500只白鼠只接受A药物治疗,另一组500只白鼠只接受B药物治疗;乙组1000只白鼠均只接受A药物治疗。

实验结果显示,接受A药物治疗的甲组白鼠死亡率(4%)低于乙组白鼠(8%),因此A药物在甲组中表现更好。

陷阱点:仔细观察数据,会发现接受B药物治疗的甲组白鼠死亡率(2%)低于接受A药物治疗的甲组白鼠(4%),然而在乙组中,接受A药物治疗的白鼠死亡率却高达8%。

这显示了一个奇怪的现象:在某些情况下,两组数据的总体结果与各自组内的结果存在矛盾。

解决方案:在解释统计数据时,应综合考虑整体与各部分的关系,避免根据局部结果做出片面结论。

同时,对于数据变化可能产生的原因应进行深入分析。

案例二:相关性陷阱情境描述:某研究机构发现,某地区的冰淇淋销量与溺水事故数量呈正相关。

他们得出结论,冰淇淋销量增加导致溺水事故增多。

陷阱点:这里的问题在于研究者错误地将两个相关事件归因为因果关系,忽略了可能存在的其他影响因素。

例如,气温的升高可能导致人们更多地购买冰淇淋,同时也可能导致更多的人选择游泳,从而增加溺水事故的风险。

解决方案:在分析两个变量之间的关系时,应考虑可能存在的其他影响因素,并进行相应的控制实验或调整数据,以确定真正的关系。

案例三:样本选择偏差情境描述:某市场调查机构对1000名在线用户进行了调查,以评估某产品的市场接受度。

结果显示,60%的用户对该产品表示满意。

然而,当该机构对线下用户进行类似调查时,满意率仅为30%。

于是他们得出结论,线下用户对产品的满意度明显低于线上用户。

陷阱点:这里的问题在于样本选择偏差。

在线调查可能吸引了那些更愿意表达意见、对产品更有热情的用户,而线下调查可能涵盖了更广泛的用户群体。

因此,两个样本的满意度存在显著差异并不意味着线下用户对产品的满意度真的低于线上用户。

浅议平均数的应用及陷阱

浅议平均数的应用及陷阱

浅议平均数的应用及陷阱平均数是常见的统计数据之一,用于描述一组数据的集中趋势,是最常被人们接受和使用的一种统计指标之一。

然而,平均数也存在一些应用和陷阱,需要我们在实际应用中加以注意。

首先,平均数在很多情况下是非常有用的。

例如,在调查中,我们经常用到平均数来描述一组数据的集中趋势。

比如,我们可以用平均年龄来描述一个国家或地区的人口结构,平均工资来描述一个地区的收入水平等。

在经济学中,我们也会用平均数来计算一个国家或地区的国内生产总值(GDP),来描述其经济发展水平。

此外,平均数还可以用于计算投资组合的平均收益率,来评估投资组合的投资效果。

在这些应用中,平均数可以提供一个简单且易于理解的数据指标,方便人们对数据进行比较和分析。

然而,平均数也存在一些陷阱,需要我们在使用时要注意。

首先,平均数对极端值非常敏感。

如果数据集中存在离群值(outliers),即极端值或异常值,那么平均数可能会被这些离群值拉动,导致整体数据的集中趋势被扭曲。

例如,有一组数据集中在1到10之间,但是存在一个极端值100,那么平均数将会受到这个极端值的影响,大幅度增加。

在这种情况下,使用中位数(将数据从小到大排列,找到中间的那个数)可能更为合适,因为中位数对极端值不敏感。

其次,平均数不能很好地描述数据的分布形态。

平均数只是描述了数据的集中趋势,而未能提供关于数据的分散程度或分布形态的信息。

例如,如果某地区的平均工资为5000元,那么不能说明这个地区的工资水平普遍较高还是较低,因为平均数无法反映工资的分布情况。

对于这种情况,我们可以使用方差或标准差来描述数据的分散程度,使用柱状图、箱线图等来描述数据的分布形态。

另外,平均数还存在一种称为“Simpson's Paradox”(辛普森悖论)的现象,即在不同条件下计算的平均数可能会出现相反的结果。

这是由于条件的不同导致数据的结构和规模发生变化,从而影响平均数的计算。

例如,在一项调查中,男性和女性的通过率分别为60%和40%,然而,当把这些数据按学院划分时,有些学院的通过率男性和女性均高于平均水平。

这个著名的统计学悖论,第一次听说的人很可能怀疑人生

这个著名的统计学悖论,第一次听说的人很可能怀疑人生

这个著名的统计学悖论,第一次听说的人很可能怀疑人生原创把科学带回家把科学带回家 2018-11-21作者七君我们平时在做重大决策的时候,比如择校啊,选专业啊,总是会参考这些比较对象的硬指标,比如它们的录取率啊,就业率啊等等。

像是,哪个学校的就业率高,我们就会去报考这个学校。

统计数字可以帮助我们了解这些比较对象的优劣,让我们做出明智的决策。

不光是个人,公司和国家也是这样做决策的。

那么这样做对吗?其...实...不...对今天我们就来介绍一个让人非常头疼,但非常有用的悖论,它会告诉你,很多时候统计数字相当不可靠,特别容易误导人。

先来看一个假设的例子。

小明生了慢粒白血病,她的失散多年的哥哥找到有2家比较好的医院,医院A和医院B供小明选择就医。

小明的哥哥多方打听,搜集了这两家医院的统计数据,它们是这样的:医院A最近接收的1000个病人里,有900个活着,100个死了。

医院B最近接收的1000个病人里,有800个活着,200个死了。

作为对统计学懵懵懂懂的普通人来说,看起来最明智的选择应该是医院A对吧,病人存活率很高有90%啊!总不可能选医院B吧,存活率只有80%啊。

呵呵,如果小明的选择是医院A,那么她就中计了。

就这么说吧,如果医院A最近接收的1000个病人里,有100个病人病情很严重,900个病人病情并不严重。

在这100个病情严重的病人里,有30个活下来了,其他70人死了。

所以病重的病人在医院A的存活率是30%。

而在病情不严重的900个病人里,870个活着,30个人死了。

所以病情不严重的病人在医院A的存活率是96.7%。

在医院B最近接收的1000个病人里,有400个病情很严重,其中210个人存活,因此病重的病人在医院B的存活率是52.5%。

有600个病人病情不严重,590个人存活,所以病情不严重的病人在医院B的存活率是98.3%。

画成表格,就是这样的——医院A:病情死亡存活总数存活率严重70 30 100 30%不严重30 870 900 96.7%合计100 900 1000 90%医院B:病情死亡存活总数存活率严重190 210 400 52.5%不严重10 590 600 98.3%合计200 800 1000 80%你可以看到,在区分了病情严重和不严重的病人后,不管怎么看,最好的选择都是医院B。

统计学中的几个问题

统计学中的几个问题

记者
一八 一二 一0 九 四 二
第一选择 A B四 C二九 D E E
第二选择 D
E
B CBC
第三选择 E
D
E
EDD
第四选择 C
C
D BCB
第五选择 B
A
A AAA
逐论选举
采用这种方式的有
奥斯卡奖评选 爱尔兰议会选举, 澳大利亚上院选举
博尔达记分法
规则:对每种选择赋予一定分值,然后累加出总分 值,以最高分者获胜。一八世纪法国数家博尔达首 先提出,故命名之。
药物 安慰剂
试验次数 三00 五四0
成功次数 二四六 四五四
平均 八二% 八四%
辛普森悖论
以上三个悖论的实质是相同的。这类问题在二0实际 初就有人讨论。
一九五一年E.H.辛普森在他发表的论文中,对此现象 进行了正式描述。于是,就把这类悖论统称为“辛 普森悖论”
这类悖论表明这样一个事实:在某些情况下,在分 组比较中都占优势的一方,会在合并后的总评中成 为失势的一方。
数值。如果数值有奇数个,则中位数就简单取中间 项的值。如果有偶数项,中位数往往取中间两项的 算术平均 众数:数项中出现次数最多的值
平均数的陷阱
算术平均容易受少数极端数值的影响,事实上,很 多和钱有关的分布,如收入房价财富等,都有很强 的右偏现象,用算术平均往往会给人以歪曲的印象。
从统计角度看,用中位数和众数表达,最大的好处 是不受两头的影响。对一些有偏的分布,用中位数 和众数往往能更好地反映情况。一般而言,有关收 入的统计若用中位数和众数来表述,较为公平。
魔术家的数魔术
魔术家大卫.科波菲尔提出一个数魔术:只要走动一 个人,就可以使整整两个国家增加他们的平均国民 收入

生活中的统计学陷阱

生活中的统计学陷阱

生活中的统计学陷阱
在你听到一种统计关系时,可得慎重一些,千万不要轻率地对事件发生的因果关系做出判定,因为事情并不那么简单。

让我们来看几个不可轻率做出结论的例子。

①统计资料表明,大多数汽车事故出在中等速度的行驶中,极少的事故是出在大于150公里/小时的行驶速度上。

这是否就意味着高速行驶比较安全呢?
正确答案:绝不是这样。

统计关系往往不能表明因果关系。

由于多数人是以中等速度开车,所以多数事故是出在中等速度的行驶中。

②有一个调查研究说脚大孩子的拼音比脚小的孩子好。

这是否是说一个人脚的大小是他拼音能力的度量?
正确答案:不是的。

这个研究对象是一群年龄不等的孩子。

它的结果实际上是因为年龄较大的孩子脚大些,他们当然比年龄小的孩子拼得好些。

③常常听说,汽车事故多数发生在离家不远的地方,这是否就意味着在离家很远的公路上行车要比在城里安全些呢?
正确答案:不是,统计只不过反映了人们往接是在离家不远的地方开车,而很少在远处的公路上开车。

④有一项研究表明某一个国家的人民,喝牛奶和死于癌症的比例都很高。

这是否说明是牛奶引起癌症呢?
正确答案:不对!原因是这个国家老年人的比例也很高。

由于癌
症通常是年龄大的人易得,正是这个因素提高了这个国家癌症死亡者的比例。

上述例子表明,统计学论述在涉及因果关系时很容易造成误读。

现代的广告,尤其是很多电视的商业广告正是以这种统计误读为根基的。

统计学误用案例

统计学误用案例

统计学误用案例案例一:平均数的陷阱。

咱就说有个小公司,老板想显示员工工资待遇还不错。

公司有10个员工,1个经理月薪10万,然后9个普通员工月薪3000。

老板一算,平均工资=(100000 + 9×3000)÷10 = 12700元。

然后对外宣称公司平均月薪12700元,好多人一听,哇,这工资挺高啊。

但实际上呢,除了那个经理,大部分普通员工的工资少得可怜,这个平均数就完全误导了大家对这个公司工资水平的真实印象。

这就像是拿姚明的身高和一群小学生的身高求平均,然后说这个平均身高就代表大家的身高水平,那可太扯了。

案例二:样本偏差。

有个保健品公司想做个产品调查,证明他们的保健品特别有效。

他们就在自己的专卖店门口找那些来买保健品的人做调查,问“您觉得我们的保健品效果好不好呀?”结果大部分人都说好。

为啥呢?因为来专卖店买的人本来就是相信这个产品才来买的呀,这就是一个有偏差的样本。

就好比你想知道大家喜不喜欢吃榴莲,你专门跑到榴莲专卖店门口去问,那肯定大部分人都说喜欢,这根本就不能代表全体人群的真实想法。

这保健品公司就拿着这个不靠谱的调查结果到处宣传,这就是对统计学的误用。

案例三:相关性误为因果性。

你看,有人发现,在某个城市,冰淇淋的销量和溺水死亡人数在夏天都上升了。

然后就有个“天才”说,冰淇淋会导致溺水。

这可就太荒谬了。

其实呢,这两者只是有相关性,因为夏天到了,天气热,吃冰淇淋的人多了,同时去游泳的人也多了,所以溺水死亡人数也增加了。

这就像每次公鸡打鸣之后太阳就升起来了,但我们不能说公鸡打鸣是太阳升起的原因一样,这种把相关性硬说成因果性的事儿,在统计学里可是个大错特错的事儿。

生活中的统计骗术

生活中的统计骗术

数据·2011/0254在用事实说话的社会里,统计越来越受到重视。

但如同任何事物具有两重性一样,统计有时也被利用为恶意夸大或简化事实、迷惑他人的工具,往往堂而皇之出现,而不易让人察觉。

不懂统计的人很容易被误导、被欺骗,从而做出错误的判断或决策。

为了避免更多的人被误导,在此介绍几招生活中常见的统计骗术。

其实,只要我们掌握了相关的统计知识,那些别有用心的人就再没用武之地了。

“蒙人”的绝对数绝对数是统计绝对数的简称。

它是反映现象总体在一定时间和空间条件下所达到的总规模、总水平或工作总量的综合指标。

有以货币单位(元、美元、日元等)计量的价值指标,如2010年我国GDP(初步测算数)为397983亿元,也有以实物单位(包括自然单位、度量衡单位、标准实物单位等)计量的实物指标,如2010年我国的粮食产量为54641万吨。

数值的大小受总体范围的制约,总体范围增大,数值也随之增大;相反总体范围缩小,数值也随之减小。

因此,对于规模不等的总体,其绝对数值不能直接对比并以此判断事物的优劣。

但在日常生活中,常常有人有意无意忽视总体规模的大小,用不匹配的绝对数数据达到蒙人的目的。

最为常见的是有关交通意外事故的数据,如果不懂得它们是极其不匹配的数据的话,无论哪种交通手段的事故记录,都可能让人们得出错误的结论。

公安部发布的2005年中国道路交通事故统计分析数据指出:2005年,全国公路上发生交通事故272840起,造成76689人死亡,其中高速公路上交通事故造成6407人死亡,二三级公路上交通死亡事故最多,共造成47448人死亡,给人的感觉好似二三级公路比高速公路更容易出事故。

其实不然,虽然中国的高速公路近年发展很快,到2005年底,高速公路总里程达到4.1万公里,位居世界第二位,但二级公路有24.6万公里、三级公路有34.5万公里,合计达59.1万公里。

在营运里程14倍余高速公路的二三级公路上出现的交通事故较多是很自然的事,因为二三级公路的营运里程长,行驶的车辆和行人更多,出现事故的可能性更大。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

在当今社会中生活,会遇到各种各样的数据。

当你打开电视,你会看到电视歌曲大奖赛正在举行,歌手们正焦急地等待着自己的最后得分;翻开报纸,社会调查机构在向你介绍10~14岁的孩子们,最喜欢什么,最不喜欢什么……
正由于统计学做的就是收集、整理和分析数量信息的工作,因此它在今天的社会中变得越来越重要了。

这里,我们打算举出一些典型的统计学悖论,让迷信数据的人们有所警觉——数据中也有陷阱。

骗人的“平均数”
刘木头开了一家小工厂,生产一种儿童玩具。

工厂里的管理人员由刘木头、他的弟弟及其他六个亲戚组成。

工作人员由5个领工和1 0个工人组成。

工厂经营得很顺利,现在需要一个新工人。

现在,刘木头来到了人才市场,正与一个叫小齐的年青人谈工作问题。

刘木头说:“我们这里报酬不错。

平均薪金是每周300元。

你在学徒期间每周得75元,不过很快就可以加工资。


小齐上了几天班以后,要求和厂长刘木头谈谈。

小齐说:“你骗我!我已经找其他工人核对过了,没有一个人的工资超过每周100元。

平均工资怎么可能是一周300元呢?”
刘木头皮笑肉不笑地回答:“小齐,不要激动嘛。

平均工资确实是300元,不信你可以自己算一算。


刘木头拿出了一张表,说道:“这是我每周付出的酬金。

我得2400元,我弟弟得1000元,我的六个亲戚每人得250元,五个领工每人得200元,10个工人每人100元。

总共是每周6900元,付给23个人,对吧?”
“对,对,对!你是对的,平均工资是每周300元。

可你还是骗了我。

”小齐生气地说。

刘木头说:“这我可不同意!你自己算的结果也表明我没骗你呀。


接着,刘木头得意洋洋地拍着小齐的肩膀说:“小兄弟,你的问题是出在你根本不懂平均数的含义。

怪不得别人呦。


小齐气得说不出话来,最后,他一跺脚,说:“好,现在我可懂了,我不干了!”
在这个故事里,狡猾的刘木头利用小齐对统计数字的误解,骗了他。

小齐产生误解的根源在于,他不了解平均数的确切含义。

“平均”这个词往往是“算术平均值”的简称。

这是一个很有用的统计学的度量指
类似的会引起误解的例子有很多。

譬如,报纸上报道有个人在一条河中淹死了,这条河的平均深度只有2尺。

这不使人吃惊吗?不!你要知道,这个人是在一个10多尺深的陷坑处沉下去的。

2.平均人数的家庭
在南方的某个城市里,诞生了一个5胞胎姐妹。

这种事情并不容易发生,所以,地方报纸刊登了这个家庭的照片,有父亲、母亲,还有那5个可爱的孩子。

报纸主编对这张照片很满意。

他对摄影记者小李说:“干得好,小李。

我有了一个新构思,你给我弄一张这个城里平均大小的家庭的照片来。

可是小李根本无法完成这个任务,为什么?因为统计的结果表明这个城里家庭的平均小孩数是1.5个。

而我们知道,满足这种平均数的家庭是不可能找到的。

这是关于“平均”的又一个错误概念。

人们总是以为平均的实际例子必然存在,其实未必!
3.轻率的结论
在你听到一种统计关系时,可得慎重一些,千万不要轻率地对事件友生的因果关系作出判定,
因为事情并不那么简单。

让我们来看几个不可轻率作出结论的例子。

①统计资料表明,大多数汽车事故出在中等速度的行驶中,极少的事故是出在大于150公里/小时的行驶速度上的。

这是否就意味着高速行驶比较安全?
正确答案:绝不是这样。

统计关系往往不能表明因果关系。

由于多数人是以中等速度开车,所以多数事故是出在中等速度的行驶中。

②有一个调查研究说脚大的孩子拼音比脚小的孩子好。

这是否是说一个人脚的大小是他拼音能力的度量?
正确答案:不是的。

这个研究对象是一群年龄不等的孩子。

它的结果实际上是因为年龄较大的孩子脚大些,他们当然比年龄小的孩子拼得好些。

③常常听说,汽车事故多数发生在离家不远的地方,这是否就意味着在离家很远的公路上行车要比在城里安全些呢?
正确答案:不是,统计只不过反映了人们往往是在离家不远的地方开车,而很少在远处的公路上开车。

④有一项研究表明某一个国家的人民,喝牛奶和死于癌症的比例都很高。

这是否说明是牛奶引起癌症呢?
正确答案:不对!原因是这个国家老年人的比例也很高。

由于癌症通常是年龄大的人易得,正是这个因素提高了这个国家癌症死亡者的比例。

上述例子表明,统计学论述在涉及到因果关系时很容易造成误解。

现代的广告,尤其是很多电视的商业广告正是以这种统计误解为其根基的。

相关文档
最新文档