数据时代的推断陷阱心得体会

合集下载

统计数据会说谎?!——读书心得

统计数据会说谎?!——读书心得

统计数据会说谎?!“自从使用了某某牌牙膏,我们的蛀牙减少了23%”;“1924级的耶鲁毕业生平均年收入是25111美元”;“根据相同的收入取样,计算方法也完全正确,同一个小区居民的年平均收入可以是2000英镑,也能是10000英镑”。

只需施展一点小技巧,就能让数据面目全非!你是否执着于打听智力测验的结果?你是否对电视上那些专家所言的各种标准坚信不疑?你是否认为抽烟与成绩的好坏直接相关?抑或受高等教育与晚婚有必然联系?你是否确信眼见为实?如果图形能让事实的1:2瞬间变为眼前的1:8呢?你还确信自己的感觉吗?真相果真如此?数字的魔力决不仅止于此!这本“故事书”般的经典之作将为您轻松揭开谜底。

作为揭露数据造假的经典工具书,达莱尔〃哈夫这本《统计数据会说谎》在上世纪50年代一经出版,就成为有些人的“心头大患”,他们相当害怕读者看到书中的真相。

这本书不仅被奉为“世界统计学普及读物第一畅销书”,而且被誉为“数据造假曝光宝典”,经久不衰。

达莱尔〃哈夫用风趣的插图和通俗的语言把高深的统计写得像“故事书”一样精彩,这种独具一格的行文和编排使得此书更具魅力。

此外,书中还揭露了大量至今仍被销售员、专家、记者或者广告撰稿人频频使用的“行骗工具”:带有偏差的样本,可以挑选的平均数,没有透露的小小数据,混淆因果关系,滥用一维图形等等。

翻翻报纸,房价,工资,增长率,利润率……你都有可能被这些统计数据狠狠地忽悠一把;看看广告,效果、疗效是真的吗?类似于这样的质疑越来越多,我们要如何才能够看清这些漫天飞舞的数据背后的谎言?在没有重要数据的情况下,千万不要轻易相信一个平均数,一张图表,或是一条趋势线。

否则你就会像一个只凭平均气温选择露营地的人一样盲目。

随便处理数据或利用小数点来混淆因果关系比封建迷信强不了多少,而且前者更具误导性。

放在统计学家桌子上的数据一旦到了推销员、公共关系专家、记者和广告文案撰写人的手里,马上就被歪曲夸大、过分简化,或者在层层筛选中变得面目全非。

统计数字会说谎读后感

统计数字会说谎读后感

统计数字会说谎读后感以前吧,看到那些统计数字,就觉得特权威,感觉数字说啥就是啥。

可这本书告诉我,数字也会“撒谎”呢!比如说,书里提到平均数这个事儿。

咱平时听到平均数,就觉得能代表一群东西的大概情况。

但这里面的水可深了。

就像有个小镇,大部分人收入都挺低的,但是有几个超级富豪住在那儿。

要是只算平均数的话,这个数字就会显得比实际大家普遍的收入水平高很多。

这就好像把我和马云的钱平均一下,那我瞬间就成“有钱人”了,可实际上我还是个普通小老百姓啊。

这就是平均数的骗局,它可能会被那些想要美化或者歪曲某些事实的人利用。

还有抽样这个环节。

书里讲得特别清楚,抽样要是没搞好,那得出的统计数字就完全是个“歪瓜裂枣”。

如果在抽样的时候专门挑那些符合自己想法的样本,那这个统计结果能靠谱才怪呢。

这就好比我想证明某个地方的人都爱吃辣,然后我专门跑到火锅店门口去抽样调查,那结果肯定是大部分人都说爱吃辣呀,可这能代表整个地方的人的口味吗?显然不能嘛。

再说说那些统计图表。

书里有好多例子,本来是一样的数据,但是图表画得不一样,给人的感觉就完全不一样。

就像把坐标轴偷偷地改改范围、比例啥的,就能让一个平平无奇的增长看起来像是火箭发射一样迅猛,或者让一个巨大的差距在图表上看起来微不足道。

这就跟变魔术似的,只不过这个魔术是在骗我们的眼睛,让我们对真实的情况产生错误的判断。

读完这本书,我就像个刚学会武功的小菜鸟,有了一双能看穿数字陷阱的眼睛。

以后再看到那些统计数字的时候,我可不会轻易就相信了。

我得好好琢磨琢磨,这数字背后是不是藏着什么猫腻。

而且啊,我也明白了,不管是在生活里还是在工作上,自己要是想用数字来说话,可一定要小心谨慎,不能稀里糊涂地就掉进了这些统计数字的谎言陷阱里。

这就好比走在路上,要小心那些看似平坦,其实暗藏坑洼的路段一样。

总之呢,这本书让我对统计数字有了全新的认识,可真是一本让人脑洞大开的好书啊!。

读大数据时代心得体会

读大数据时代心得体会

读大数据时代心得体会大数据时代是一个信息爆炸的时代,各类数据层出不穷,而人们也开始意识到数据的重要性和价值。

作为一名数据分析师,在工作中我深刻体会到了大数据时代的变革和带来的巨大机遇。

首先,大数据时代使得数据的获取更加便捷。

以前,我们需要在各个渠道上进行调查和收集数据,然后进行整理和分析,非常耗时耗力。

而现在,互联网的普及使得数据获取变得极其容易,只需通过搜索引擎或者专业的数据平台就可以获得海量的数据,极大地提高了分析的效率和准确性。

例如,在研究市场需求时,我们可以通过互联网搜索相关的消费者反馈和评论,从而更好地理解他们的需求和偏好。

其次,大数据时代赋予数据更多的价值。

大数据的特点是数量大、速度快、种类多和价值高,通过充分利用这些数据,我们可以进行更加深入的分析和挖掘,发现其中蕴藏的商机和发展方向。

例如,我们可以通过分析用户的购买记录、浏览记录等数据,来预测用户的下一步行为,从而为企业提供个性化的服务和产品。

同时,我们还可以通过大数据分析来优化企业的运营和管理,提高效率和竞争力。

此外,大数据时代对数据分析的要求也更高。

传统的数据分析主要依靠人工的经验和直觉,而在大数据时代,我们需要掌握更多的技术和工具,例如数据挖掘、机器学习、人工智能等,来完成更加复杂的分析任务。

同时,由于数据量的增大和多样性的增加,我们需要更加注重数据的质量和准确性,避免因为数据质量问题而导致错误的分析结果。

在大数据时代,数据隐私和安全问题也变得更加重要。

由于大数据所涉及的数据量和范围很广,其中可能涉及到用户的个人隐私和商业机密等敏感信息。

因此,我们需要更加注重数据的安全性和隐私保护,采取各种措施来防止数据泄露和滥用。

同时,政府和企业也需要加强对数据的法律和政策的监管和保护,为大数据的发展提供良好的环境和保障。

总的来说,大数据时代为数据分析师带来了巨大的机遇和挑战。

通过充分利用大数据,我们可以更好地理解用户需求、发现商机、优化运营等,为企业提供更好的决策支持。

统计数字会撒谎观后感

统计数字会撒谎观后感

统计数字会撒谎观后感第一篇:统计数字会撒谎观后感统计数字会撒谎生活中我们会接触到各式各样的谎言,每个人都需要对各种信息进行识别,因此、掌握书中的工具是防止受骗的可行方法。

培根曾经说过:“如果一个人以种种肯定的立论开始,他必将终止于各种怀疑;但如果他愿意抱着怀疑的态度开始,那么他必将获得肯定的结论。

”我想对数据资料的判断和接受也是如此。

统计学是一个很大的课题。

统计这种神秘的语言,在一个用事实说话的社会里是如此的吸引人,但有时它却别利用并成为耸人听闻、恶意夸大或简化事实、迷惑他人的工具。

在报告社会经济趋势、商业状况、民意测验和普查的大量数据时,统计方法或者统计术语是必不可少的。

但如果人们不能正确理解并恰当地使用这些统计语言,而读者又并不能真正懂得这些术语的含义,那么,统计结果只能是一堆废话。

统计数据通常被人们所滥用,把一些重要的事实弄得似是而非。

本书中也例举了很多很多例子,让我们深入了了解了统计学的另一面,让我们知道很多时候数字是要一定的范围,一定的限定,否则总是有这里哪里的缺陷。

本书常常提到的“平均数”,有的时候人们把中位数当作平均数,有的时候人们又把众数当作平均数,然后再把信息公布于社会。

各个国家、企业、个体把数据公诸于世的时候都是想另读者相信自己的能力,也许食用的是均值,以便利用高收入读者群来大道吸引广告商的目的。

总有那些漏洞可以让人们有机可趁,使报出的这些数据逃避法律的责任,这样就让他们既不用负到法律的责任,又可以以此获得巨大的利益。

群众总是被他们的数据所欺骗,即使是再精明的老统计学专家,也不一定是这组数据的对手。

有的调查报告也是不完整、不规范的,很多时候为了利益,他们也可能会去做一些调查,但是做的调查为了使其更有真实感,不一定会让自己的统计数字十全十美,但是的确又都是利于自己的,在调查的过程中,他们抽样的样本是不是具有片面性,是不是够广泛也是调查结果差异的重要原因。

为了吸引读者,现今大多人开始使用图形来说明数据,形象化的图形的前身是普通的柱状图,在比较两种或两种以上事物时,柱状图是一种描绘数量的便捷常用的方法。

大数据分析师的数据分析过程中的常见错误和陷阱

大数据分析师的数据分析过程中的常见错误和陷阱

大数据分析师的数据分析过程中的常见错误和陷阱在当今信息时代,大数据的崛起使得数据分析成为了各个行业中不可或缺的一环。

作为一名大数据分析师,正确地进行数据分析对于决策者来说至关重要。

然而,在数据分析的过程中,常常会出现一些错误和陷阱,可能导致分析结果不准确或误导决策。

本文将探讨大数据分析师在数据分析过程中常见的错误和陷阱,并提出相应的解决方法。

一、数据采集阶段的错误和陷阱在数据分析的第一步中,数据采集是至关重要的一环。

然而,很多分析师在数据采集阶段会出现以下错误和陷阱:1. 数据的不完整性:在采集数据时,很容易忽视一些数据源或遗漏了重要的数据点,导致分析结果不完整。

解决这个问题的方法是,明确分析目标,确保涵盖了所有相关的数据源,并进行全面的数据采集。

2. 数据的不准确性:数据的准确性是数据分析的基础,但是由于数据源本身可能存在问题,例如数据输入错误、采集设备故障等,导致数据的准确性受到威胁。

为了解决这个问题,分析师需要在数据采集阶段进行数据验证和清洗,确保数据的准确性。

3. 数据偏差的影响:在数据采集过程中,数据偏差是一个不容忽视的问题。

例如,在调查问卷中,回答者可能存在回避某些问题或者给出不真实的答案,导致数据的偏差。

解决这个问题的方法是,采用合理的调查问卷设计,加强问卷回答者的信任感,尽量减少数据偏差的发生。

二、数据清洗阶段的错误和陷阱在数据采集之后,数据清洗是必不可少的一步。

然而,在数据清洗阶段,常常会出现以下错误和陷阱:1. 缺失值的处理不当:在数据清洗中,缺失值是一个常见的问题。

分析师需要注意对缺失值进行合理的处理,而不是将其简单地删除或用平均值填充。

根据实际情况选择合适的处理方法,以保证数据的准确性。

2. 异常值的处理错误:异常值的存在会对数据分析结果产生重要影响。

在处理异常值时,分析师需要根据分析目标和数据的特点,选择合适的方法进行处理。

需要注意的是,过度处理异常值可能会导致数据的失真,因此需要谨慎处理。

移动互联网时代的陷阱读书摘录学习笔记

移动互联网时代的陷阱读书摘录学习笔记

移动互联网时代的陷阱1.信息爆炸的困惑网络工具让我们方便找到一切信息,真实的和不那么真实的,但事实上也让我们陷入某种极端的困惑之中。

移动互联网时代到来之后,越来越多的信息开始充斥着我们每天的生活,从微博、朋友圈,到知乎、果壳、豆瓣以及各种资讯订阅的客户端,只要拿起智能手机,大量有用的、无用的信息便朝我们涌来,塞满我们的脑袋。

与书本知识不同,网络提供的往往是一种“未加工的信息”,“不加区分,也没有核实出处。

”我们对待它们的正确方式应当是“核实这些信息”,把有用的知识筛选出来,认真阅读并“转化为生活经验”。

然而现实情况并非如此,我们的脑袋被大量无用的信息占据着,比如层出不穷的娱乐八卦和社会热点新闻、微博新鲜事、朋友圈里别人的生活、知乎上那些我们本无兴趣关注的话题……浏览取代了阅读,每一个都只停留短暂的一瞬,我们对一个话题的关注和记忆变得越来越短。

另外,信息的膨胀和迅速传播让其真伪无法在广为流传之前被有效鉴定,而我们作为读者通常也没有甄别的能力和怀疑的习惯,总是愿意接受我们所看到的,将那些人人谈论的信以为真,从而构成我们对这个世界的判断。

然而,互联网时代的危险恰恰在于此,一些错误的或是不完全的信息从某些别有用心的人嘴里说出来,然后迅速地遍及整个社交平台,掀起波澜,我们很多人都错把谣言当做真相,把偏见当做真理,并在网络匿名的庇护下声讨这个世界。

然而有些谣言最终被真相戳破,人们却不能反省,也不大会从中吸取教训,因为我们的注意力已被新的没有被鉴定的信息占据。

2.当下延续性的消失我们处于运动、变化、更新和转瞬即逝之中。

如今,一部手机不像从前那样能用很多年。

几年前3G时代大张旗鼓地到来,不久4G时代又来了。

科技不断更新,社交工具也层出不穷,微博打败了博客,微信打败了微博,而下一个打败微信的社交工具兴许正在程序员和创业者的构想中逐渐成型。

太多的资讯和网络社交占据了我们每天的生活,不断地敲诈我们的零碎时间。

信息的过度泛滥和传播之迅猛,造成了信息以前所未有的速度失效,从前持续了几个月甚至几年的话题如今不到几天就会被遗忘,我们已不再关心不久前还被大家谈论得沸沸扬扬的新闻,因为已有新的话题占据了我们的社交主页,而这新的话题也将很快沦为历史。

统计数据会说谎读后感

统计数据会说谎读后感

统计数据会说谎读后感
你知道吗,以前我总觉得统计数据那就是板上钉钉的事实,就像数学公式一样,一加一肯定等于二。

可是这本书完全颠覆了我的想法。

书里讲了好多例子,都是关于那些看似确凿的统计数据,其实背后藏着各种猫腻。

我当时就想,原来我们平时看到的数据,说不定很多都是在“骗”我们呢!
就比如说,有些数据的样本选取就很有问题。

可能只选了一小部分特定的对象,然后就得出一个看似普遍适用的结论。

这就好比你只看了一群爱运动的人的健康状况,就说所有人只要运动就肯定健康,这显然不合理嘛。

看到这里的时候,我就忍不住摇头,心里想着,这也太能糊弄人了吧!
还有那些数据的呈现方式,那也是大有文章。

同样的数据,用不同的图表或者表述方式,给人的感觉就完全不一样。

这让我想起了有时候在广告里看到的数据,看着好像很厉害,可仔细一琢磨,可能就是被“美化”过的。

这真的很容易误导我们消费者啊,你说是不是?
不过呢,这本书也不是一味地在揭露黑暗面。

它其实也在提醒我们,要学会正确地看待统计数据。

不能盲目相信,要有点批判性思维。

我觉得这一点对我们在这个信息爆炸的时代特别重要。

现在到处都是数据,各种各样的统计结果在我们眼前晃悠,如果我们没有一点分辨能力,那就只能被牵着鼻子走了。

我在想,要是更多的人能读一读这本书就好了。

这样大家在面对那些看似权威的统计数据时,就不会轻易被忽悠了。

你看了这本书也会有同样的感觉吗?这真的是一
本能让你对数据有全新认识的好书啊!我感觉我以后再看到数据,肯定会多留个心眼儿了。

这书的影响,真的是很深远呢!。

统计陷阱读后感

统计陷阱读后感

《统计陷阱》读后感放寒假前,经学长的介绍,特地在图书馆里借了一本《统计陷阱》在假期里读,看完之后的感触到真不少,而且总想着什么时候写一点读后心得之类的东西,无奈,因为惰性,总是找各种各样的理由来推迟。

这次还得感谢学校这个次机会,让我终于可以完成早该结束的任务了。

先来谈谈写这本书的背景:在20世纪50年代,美国出现了一种尊崇统计风,太多的人都乐意,也轻易的相信了那些统计数据,原因很简单,大多数的统计数据都可以让不同的人产生不同的效果.例如,一个企业可以让员工看出今年的效益,同样的数据,换一种统计方法,也可以反映出企业的不景气,这就是为什么太多的公司,企业,甚至政府部门都习惯用统计的方法来传达自己的意思.介于这个背景之下,美国作家达莱尔·哈夫以一个经验老道,且退休的窃贼的身份,用回忆录的形式,在本书的前八章讲述了常用的一些行骗手段,在第九章总结了前面所列出的所有方法,而在最后一章中,教人们如何识破统计数据中的陷阱,告诫人们以一个正确的态度去看待一个数据,从而不做一个被数据玩弄于手的玩偶.本书中列举出的,常用统计手段大致可分为:利用内在有偏样本,选出不同的平均数,隐藏总要的数据,忽略必要的误差,滥用统计图形,采用不完整匹配的资料以及误解相关关系等。

当读完这本书时,回过头在,如果你用书中的衡量标准来看任何一组数据,都会发现其中的不可行性,所有的数据都是可以质疑的,那么不禁会有两种念头:其一,为什么统计着要这样做,公布这样的数据是为什么?答案很简单,无非是利益所趋,商家,政府乃至所有人都想隐藏掉那些自己认为很重要的数据,公诸于世的无非是想博得同情或者获得荣耀.其二,这个世上不就没有可以相信的数据,因为没哟绝对的正确,那么我们是否就因此而否定自己看到的,听到的一切呢?显然不是,这本书最重要的是,教会我们如何正确的看待数据,正确的从数据中拿去自己需要的,不可全信,但不意味着一点也都不可信。

在这里,我重点来谈谈:内在有偏样本,选取不同平均数,采用不完整匹配的资料以及误解相关关系这几种“行骗手段”.首先说说内在有偏样本,我用原文中的一个例子来解释这种方法的意思:“1924级的耶鲁毕业生平均年收入有25111美元。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据时代的推断陷阱心得体会
统计是经济社会管理的重要依据,也是现代(社会)科学研究的重要技术手段,在大数据出现以前更是如此。

然而,任何技术都具有两面性,具有双刃剑作用,只有正确使用才能产生好的效果,否则,滥用或错误运用,其破坏性也是不容小觑的。

善于运用统计是科学理性的表现,是进步的标志之一。

最典型例子,大概20多年前,天气预报往往会用肯定性的语言,如今天小雨,或阴天,或晴天,或小雨转多云等。

但发现群众意见很大,因为依据天气预报来安排日程,往往出错。

于是后来的表述就更科学一些了,采用统计或概率的方法,如降水概率50%,或者湿度80%。

小数据时代,统计学在研究宏观现象时非常有效,用于微观现象则要慎重,但如果正确运用则具有意想不到的效果。

比如,量子力学、统计力学在理解很多热力学概念(例如熵、温度、气体状态)的起源方面取得了巨大成功,尤其是在普朗克1911年提出光量子的统计原
理后,与量子理论的结合进一步完善了统计力学的基础。

大数据学科的出现,在一定程度上丰富了统计学的内容,提升了统计技术。

大多数情况下,可以运用云计算直接分析整体(全样本)大数据,而不必要进行抽样,以样本推断总体,这就改变了传统科学研究的线性思维,而用直接面对复杂科学的系统思维,更多考虑要素之间的相关性,而不是因果关系。

但这并不能否定统计思维的作用,因为大数据学科中包括了统计学中数据分析的基本方法,如回归分析、
分类模型、集成模型、聚类模型等,描述的性质也是统计学语言,仍然需要统计思维来发现规律。

我们经常会在媒体上看到各种各样违背常识或是与我们想象中
不同的惊人结论,每当看到这样的结论时,公众都会产生疑惑,时间长了人们可能逐渐不再相信媒体报道的数据。

越来越多不靠谱的结论让人们很难再相信它们。

这不是统计思维的问题,而是使用统计技术的人出现了错误。

对于公众来说,了解统计技术,具备统计思维,更有利于识别和判断信息的有效性。

否则,一旦统计结论和实际情况的偏差并且不能让我们意识到,我们就会很轻易地相信了这些结论。

所以,在学习使用统计思维时,通过思考如何避免常见的统计陷阱是非常有必要的。

我们这样做不仅可以避免相信错误结论,而且能够让我们对于统计思维的本质有更深层次的思考。

一些作者尤其是学生,喜欢用调查数据来论证,用定量方法进行分析,从研究的角度考虑,这是提高科学性增进结论可靠性的有效技术路线。

但问题是很多作者只是停留在形式上,并不考虑抽样框如何确定、技术是否合理,数据是否可靠,即使用了定量分析,也不能把结论与分析结合起来,有时都不知道为什么要研究这个问题,于是,大量的研究成为无效劳动,出现很多伪命题伪研究,浪费时间和资源。

大数据时代的到来,对于公众来说,提升统计思维显得非常必要。

但要避免统计陷阱。

一是要思考数据的来源和方法。

当看到结论时,我们要同时思考辅助结论推导出来的源数据是如何进行采集、录入、
加工到输出的,这中间是否存在影响结论客观公正性的问题。

二是统计方法是否合适。

日常工作生活中,我们要结合研究目的、数据类型及特点,来选择合适的方式。

例如,平均值适合的情况是样本分布呈正态分布或是橄榄球形状的,在偏态分布或是两极分化严重的随机现象中,更合适的方式是采用分位数。

三是避免大数据忽悠。

所有的分析工作最终都是为了得到一个结论,有了结论就会做出相应的决策,这些决策一般都会带来较为重要的影响,所以发现结论错误是非常重要且非常有必要的。

常见的结论谬误是以偏概全,即将结论的影响因素只归结到了少数几种因素,对于某些重要因素并没有考虑到。

相关文档
最新文档