17-310. 大数据思维的陷阱

合集下载

大数据的思维误区与价值纬度

大数据的思维误区与价值纬度

大数据的思维误区与价值纬度by 吴甘沙2014-04-26本文为“泰山会”微信群线下沙龙速记稿,全文如下:分享嘉宾:吴甘沙,英特尔中国研究院首席工程师大家周末好,我是吴甘沙,在英特尔中国研究院工作。

清华基于微博分析获得的大数据幸福指数发现人们周六最幸福,相信大家心情不错,因此今天不谈枯燥的技术。

关于大数据的思维、理念、方法论已经被反复消费了,本来我想直接进入交互环节,继挺兄还是要求先有一部分规定动作,我就先自弹自唱几十分钟,既然是漫谈,也不见得扣题,说到哪里是哪里。

各位有问题,我可以择时择机插入讨论。

先说大数据思想的形成吧。

自从人类开始文字和数字,数据就开始产生。

就数据增长曲线而言,极小的初值确实要经历漫长的过程达到人类能感知的曲线拐点。

谷歌前CEO埃里克·施密特曾给出了一个有趣的数据:从人类文明曙光初现到2003年一共产生的数据,只相当于2010年两天产生的数据量。

而一旦越过拐点,“大数据摩尔定律”的滚滚铁轮下,指数效应爆发:最近两年产生的数据量相当于之前产生的全部数据量。

在漫长的数据蓄水过程中,数学和统计学逐渐发展,人们开始注意对数据的量化分析,在人类进入信息时代以前这样的例子就不胜枚举。

比如经济上,黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。

又如军事,“向林彪学习数据挖掘”的桥段不论真假,其背后量化分析的思想无疑有其现实基础,而这一基础甚至可以回推到2000多年前,孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利用庞涓的量化分析习惯对其进行诱杀。

到上世纪50-60年代,磁带取代穿孔卡片机,启动了数据存储的革命。

磁盘驱动器随即发明,它带来的最大想象空间并不是容量,而是随机读写的能力,这一下子解放了数据工作者的思维模式,开始数据的非线性表达和管理。

数据库应运而生,从层次型数据库(IBM为阿波罗登月设计的层次型数据库迄今仍在建行使用),到网状数据库,再到现在通用的关系数据库。

大数据的陷阱

大数据的陷阱

大数据的陷阱在当今数字化的时代,大数据无疑是一个热门的话题。

它被广泛应用于各个领域,从商业营销到医疗保健,从金融服务到社交媒体。

大数据似乎拥有神奇的力量,能够帮助我们做出更明智的决策,发现隐藏的模式和趋势,甚至预测未来。

然而,在我们对大数据的热情拥抱中,却往往容易忽视其背后隐藏的陷阱。

首先,大数据的质量问题是一个不容忽视的陷阱。

大量的数据并不总是意味着高质量的数据。

数据可能存在错误、缺失、重复或者不准确的情况。

比如,在医疗领域,患者的病历数据可能因为人为输入错误或者不同医疗机构之间的数据格式不一致而出现偏差。

这些质量不佳的数据如果被用于分析和决策,很可能会导致错误的结论和不良的后果。

其次,大数据的隐私问题是一个令人担忧的陷阱。

随着数据的收集和分析越来越广泛,个人的隐私受到了前所未有的威胁。

我们的购物习惯、浏览历史、社交关系等大量个人信息被收集和分析,而这些信息的使用往往超出了我们的预期和控制。

例如,一些公司可能会根据我们的在线行为来推送个性化的广告,甚至将这些数据出售给第三方。

这种对个人隐私的侵犯不仅会让我们感到不安,还可能导致更严重的后果,如身份盗窃、欺诈等。

再者,大数据的分析和解读也存在陷阱。

尽管大数据分析工具越来越先进,但它们仍然依赖于人类的设计和操作。

分析人员的偏见、错误的假设或者不合适的分析方法都可能导致对数据的错误解读。

而且,大数据往往只能揭示相关性,而不能确定因果关系。

例如,我们可能发现购买某种商品的消费者往往也会购买另一种商品,但这并不意味着前者导致了后者的购买行为,可能只是一种巧合或者受到其他未知因素的影响。

另外,大数据还可能导致决策的过度依赖。

当我们拥有大量的数据时,很容易陷入一种“数据崇拜”的误区,认为数据可以解决一切问题,从而忽视了人类的直觉、经验和判断力。

然而,在某些情况下,特别是在面对复杂的、不确定的情况时,人类的智慧和判断力仍然是不可替代的。

此外,大数据的应用还可能加剧社会的不平等。

大数据的泡沫 价值和陷阱 你分得清吗_光环大数据培训

大数据的泡沫 价值和陷阱 你分得清吗_光环大数据培训

大数据的泡沫价值和陷阱你分得清吗_光环大数据培训我们所生活的世界,就像一片混沌(chaos),大数据时代,我们周围更是充斥着各种不同的理论、知识、信息和噪音,数据爆炸式增长和科技高速发展所带来的冲击,加大了未来的不确定性。

当我们接收的数据和信息越多,面临的选择就越多,如若不善于过滤、挖掘和处理,对各种决策就可能会造成负面影响,当然也会放大我们对未来不确定性的恐惧。

小到个人命运大到国家前途,都是在这样一片混沌中煎熬着。

如何从混沌中发现规律,成为预测未来的“先知”,抑或是少出几只黑天鹅?是历代人类的梦想,不管是古人的占卜、算命还是现在的专家系统、商业智能、数据挖掘、机器学习、人工智能、智慧地球、智慧城市等应用,都源于我们对未来不确定性的恐惧。

当然还有应对当前管理走向的失控,软件在加速吞噬世界,而大部分人类对其原理和特性却知之甚少,就像华尔街的金融交易一样,系统越复杂出现黑天鹅的概率就会增大;社交网络的实时性打破了时空限制,信息的流动速度和广度让也管理者越发难以掌控。

随着舍恩伯格教授《大数据时代》一书的面世,给我们带来了“醍醐灌顶”式的认知洗礼,难道抓住大数据这根救命稻草,我们就有机会做“先知”?从而也更有能力把自己和周遭世界管理得更好吗?在一定程度上是这样的,但我们也要知道,任何技术都是把双刃剑。

舍恩伯格其实没有机器学习背景,书上所说的某些内容也是有争议的,不过在教育民众和政府官员科普方面,还是具有重要意义,至少让大家知道了什么是大数据,也能在一定程度上促使我们思考大数据的价值和潜力,从而提升大数据应用水平以应对管理失控和黑天鹅等问题。

大数据泡沫:泡沫是必然但有其深远意义数据科学其实已经兴起多年,从早年的专家系统、数据挖掘到前些年的商业智能,不少大型企业和机构在管理大数据方面积累了丰富的经验,笔者10年前就曾参与过运营商的数据挖掘系统建设,那都是实实在在的大数据,只不过当时技术手段有限罢了,所以很少人能挖出什么高价值的东西,更谈不上智能化决策了。

17-310. 大数据思维的陷阱

17-310.  大数据思维的陷阱

大数据思维的陷阱大数据思维的陷阱大数据营销应用的现状可用这样几个“多”来形容:说的比投(入)的多;投的比做的多,如有些大型国企投入资金,建部门、雇海归,但并没有真正做什么;做的比懂的多,收集了一些数据,但读不出有价值的信息来;懂的比赚的多;认为今后赚的比现在想到的多。

如何才能实现光明的前景?一要养成大数据思维,二要避开三大陷阱。

大数据思维大数据思维有如下四个维度。

定量思维:一切皆可测?POS机、网上购物、社交媒体以及各种各样的卡,都是大数据的来源。

例如,通过传感器,利用红外线微波可以观测人的生理状态、脑电波等,如果驾车人员犯困,其心理指标发生变化并到一个临界值,汽车后台就会告诫驾驶员休息。

赌场入口处的红外传感器,会根据脑部热量情况,分析进来的是冲动型赌徒还是冷静的赌徒。

汽车行业的大数据有人、车、环境三个来源。

“人”不仅包括车主或者驾驶人员,还应包括乘客;“环境”不光是路面信息,还包括行车所到之处的周边信息,如旅馆、加油站、旅游景点等等,典型如地图应用。

“车”的应用也已有案例,如美国一家保险公司为汽车加装了跟踪器,根据行驶数据来决定保险费率;米其林也会搜集与环境相关的数据,某智能芯片厂商为长途货运汽车提供的芯片,可以全球定位、调节物流和运输。

跨界思维:一切或可联?跨界有不同媒介、渠道间的跨界,如O2O和LBS,也有商业模式、数据应用的跨界。

例如,GoPro是穿戴式照相机,但它也为寻求刺激的滑雪、跳伞运动爱好者,剪辑加工影像,并在电视上播出,吸引了广告和巨量的粉丝团队。

操作思维:一切要可行?应用大数据,不等于非得要上高大上的设备和硬件投入。

例如视频公司根据用户观看视频的过程来决定推送什么广告,其算法可能比较简陋,但速度快。

其次,要把数据和用户心理结合起来,营销精准但不要引起顾客的反感。

第三,大数据管理要与KPI结合起来,协调各个部门的利益,否则大家对数据采集不积极甚至不合作。

例如,运营部门如果看重节省运营成本,可能就对数据采集的意愿不强烈。

大数据时代让客户数据驱动利润奔跑大数据分析中的陷阱

大数据时代让客户数据驱动利润奔跑大数据分析中的陷阱

大数据时代让客户数据驱动利润奔跑大数据分析中的陷阱在大数据时代,企业可以利用海量的客户数据来驱动业务发展和提高利润。

然而,大数据分析也存在一些陷阱需要注意。

本文将介绍大数据时代中客户数据驱动利润的潜在风险和解决方案。

首先,大数据分析的陷阱之一是处理庞大数据量的挑战。

随着数据量的增加,企业面临着处理和分析数据的困难。

传统的数据处理工具和技术往往无法胜任这个任务。

解决这个问题的方式是采用先进的数据处理和分析技术,如云计算和分布式计算,以加快数据处理速度并提高分析效率。

其次,大数据分析中的另一个陷阱是数据的质量问题。

大数据中常常存在数据质量不一致、数据缺失、数据重复等问题。

这些问题会影响数据分析的准确性和可信度。

因此,企业需要建立严格的数据管理和数据清洗机制,确保数据的准确性和完整性。

此外,选择合适的数据源和数据采集方法也非常重要,以获得高质量的数据。

第三个陷阱是隐私和安全问题。

在大数据分析中,企业通常需要处理客户的敏感信息,如个人身份、财务状况等。

泄漏这些信息可能会导致严重的法律和道德问题。

因此,企业应该制定严格的数据隐私和安全政策,并采用安全的数据存储和传输方式来保护客户数据的机密性和完整性。

此外,大数据分析还面临着算法和模型的选择挑战。

在选择合适的分析算法和模型时,企业需要考虑问题的复杂性、数据的特点以及分析目标。

选择不合适的算法和模型可能导致分析结果的不准确或不可靠。

为了解决这个问题,企业可以依靠数据科学家和专业人士的意见,并进行充分的测试和验证。

最后,大数据分析中的时间和成本也是一个重要的陷阱。

大数据分析需要投入大量的时间、资源和人力,包括数据收集、清洗、分析和解释等环节。

如果企业没有足够的资源来支持这些过程,大数据分析的效果可能会大打折扣。

因此,企业应该在进行大数据分析之前充分评估自身的能力和资源,并制定合理的计划和预算。

综上所述,大数据时代让客户数据驱动利润的同时,也存在一些潜在的陷阱。

大数据分析师的数据分析过程中的常见错误和陷阱

大数据分析师的数据分析过程中的常见错误和陷阱

大数据分析师的数据分析过程中的常见错误和陷阱在当今信息时代,大数据的崛起使得数据分析成为了各个行业中不可或缺的一环。

作为一名大数据分析师,正确地进行数据分析对于决策者来说至关重要。

然而,在数据分析的过程中,常常会出现一些错误和陷阱,可能导致分析结果不准确或误导决策。

本文将探讨大数据分析师在数据分析过程中常见的错误和陷阱,并提出相应的解决方法。

一、数据采集阶段的错误和陷阱在数据分析的第一步中,数据采集是至关重要的一环。

然而,很多分析师在数据采集阶段会出现以下错误和陷阱:1. 数据的不完整性:在采集数据时,很容易忽视一些数据源或遗漏了重要的数据点,导致分析结果不完整。

解决这个问题的方法是,明确分析目标,确保涵盖了所有相关的数据源,并进行全面的数据采集。

2. 数据的不准确性:数据的准确性是数据分析的基础,但是由于数据源本身可能存在问题,例如数据输入错误、采集设备故障等,导致数据的准确性受到威胁。

为了解决这个问题,分析师需要在数据采集阶段进行数据验证和清洗,确保数据的准确性。

3. 数据偏差的影响:在数据采集过程中,数据偏差是一个不容忽视的问题。

例如,在调查问卷中,回答者可能存在回避某些问题或者给出不真实的答案,导致数据的偏差。

解决这个问题的方法是,采用合理的调查问卷设计,加强问卷回答者的信任感,尽量减少数据偏差的发生。

二、数据清洗阶段的错误和陷阱在数据采集之后,数据清洗是必不可少的一步。

然而,在数据清洗阶段,常常会出现以下错误和陷阱:1. 缺失值的处理不当:在数据清洗中,缺失值是一个常见的问题。

分析师需要注意对缺失值进行合理的处理,而不是将其简单地删除或用平均值填充。

根据实际情况选择合适的处理方法,以保证数据的准确性。

2. 异常值的处理错误:异常值的存在会对数据分析结果产生重要影响。

在处理异常值时,分析师需要根据分析目标和数据的特点,选择合适的方法进行处理。

需要注意的是,过度处理异常值可能会导致数据的失真,因此需要谨慎处理。

大数据分析的光荣与陷阱

大数据分析的光荣与陷阱

大数据分析的光荣与陷阱本文从谷歌流感趋势2009年前后表现差异谈起,讨论了大数据分析容易面临的大数据自大、算法演化、看不见的动机导致数据生成机制变化等陷阱,以及对我国大数据产业发展的借鉴。

本文认为,为健康发展大数据产业,我国需要防范大数据自大风险、推动大数据产业和小数据产业齐头并进,并强化提高大数据透明度、审慎评估大数据质量等方面的努力。

一、谷歌流感趋势:未卜先知?“谷歌流感趋势”(Google Flu Trends,GFT)未卜先知的故事,常被看做大数据分析优势的明证。

2008年11月谷歌公司启动的GFT项目,目标是预测美国疾控中心(CDC)报告的流感发病率。

甫一登场,GFT就亮出十分惊艳的成绩单。

2009年,GFT团队在《自然》发文报告,只需分析数十亿搜索中45个与流感相关的关键词,GFT就能比CDC提前两周预报2007-2008季流感的发病率。

也就是说,人们不需要等CDC公布根据就诊人数计算出的发病率,就可以提前两周知道未来医院因流感就诊的人数了。

有了这两周,人们就可以有充足的时间提前预备,避免中招。

多少人可以因为大数据避免不必要的痛苦、麻烦和经济损失啊。

此一时,彼一时。

2014年, Lazer等学者在《科学》发文报告了GFT近年的表现。

2009年,GFT没有能预测到非季节性流感A-H1N1;从2011年8月到2013年8月的108周里,GFT有100周高估了CDC报告的流感发病率。

高估有多高呢?在2011-2012季,GFT预测的发病率是CDC报告值的1.5倍多;而到了2012-2013季,GFT流感发病率已经是CDC报告值的双倍多了。

这样看来,GFT不就成了那个喊“狼来了”的熊孩子了么。

那么不用大数据会如何?作者报告,只用两周前CDC的历史数据来预测发病率,其表现也要比GFT好很多。

2013年,谷歌调整了GFT的算法,并回应称出现偏差的罪魁祸首是媒体对GFT 的大幅报道导致人们的搜索行为发生了变化。

50个思维陷阱,很容易掉进去,不得不防

50个思维陷阱,很容易掉进去,不得不防

50个思维陷阱,很容易掉进去,不得不防1.差理由偏误:“为什么要把蓝色和黑色的衣服分开洗?”,“因为我想分开洗”。

事实:人们只要听到“因为”,就倾向于产生理解,理由好坏有时并不重要。

所以,注意不要被差理由忽悠。

2.疲劳决策:劳累一天头昏脑胀的时候,做了一个重要决定,后来发现很不明智。

事实:做决定是需要消耗能量的,疲劳后人容易做出不理性的决定。

所以,不要在疲劳的时候,做重要的决定。

3.关联谬误:选择了自己吉祥数字的房间,尽管这个房间其实没那么好。

事实:人们倾向于把本身不相关的事,赋予某种荒唐的关联,在没有因果的地方强加因果。

所以,谨防关联偏误,做出错误决策。

4.平均数偏误:尝试去蹚一条平均1米深的河,以为完全没危险。

事实:人们经常把平均数当真相,但平均数很多时候并没有意义,因为它常常不具有代表性。

所以,了解事实还是要看,数据整体分布情况。

5.激励排挤效应:出于友情帮朋友搬家,结果朋友给我发了一个100的红包。

事实:有些时候人的动力源于精神层面,金钱上的激励会排挤掉非金钱意义上的动力。

所以,有些时候,给钱并不管用,可能还会引起负面的效果。

6.废话倾向:一个人滔滔不绝,但似乎听起来,并没有表达什么有价值的信息。

事实:人常有废话倾向,害怕不说话,别人把自己当傻瓜,于是废话连篇,彻底暴露了自己糊涂的思想。

所以,没有什么可说的时候,最好就什么也不说。

7.移民效应:有个笑话说,那些从俄克拉荷马州搬到加利福尼亚州的人,一下提高了两个州的平均智商。

事实:数据变好,事情并不一定就变好,比如,通过调换组员,将两组的平均值都变好,但其实并没有实质上让两组都变好。

所以,要警惕移民效应。

8.信息偏倚:拿一张1比1的地图,是学不到知识的。

事实:人们总是希望尽可能多地获取信息,来支撑自己决策,但过量的信息反而会干扰决策。

所以,重要的是,掌握关键信息,而不是更多信息。

9.聚集性幻觉:从天空中的一堆云里看到一只猫,便以为是一种上天的启示。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据思维的陷阱
大数据思维的陷阱
大数据营销应用的现状可用这样几个“多”来形容:说的比投(入)的多;投的比做的多,如有些大型国企投入资金,建部门、雇海归,但并没有真正做什么;做的比懂的多,收集了一些数据,但读不出有价值的信息来;懂的比赚的多;认为今后赚的比现在想到的多。

如何才能实现光明的前景?一要养成大数据思维,二要避开三大陷阱。

大数据思维
大数据思维有如下四个维度。

定量思维:一切皆可测?
POS机、网上购物、社交媒体以及各种各样的卡,都是大数据的来源。

例如,通过传感器,利用红外线微波可以观测人的生理状态、脑电波等,如果驾车人员犯困,其心理指标发生变化并到一个临界值,汽车后台就会告诫驾驶员休息。

赌场入口处的红外传感器,会根据脑部热量情况,分析进来的是冲动型赌徒还是冷静的赌徒。

汽车行业的大数据有人、车、环境三个来源。

“人”不仅包括车主或者驾驶人员,还应包括乘客;“环境”不光是路面信息,还包括行车所到之处的周边信息,如旅馆、加油站、旅游景点等等,典型如地图应用。

“车”的应用也已有案例,如美国一家保险公司为汽车加装了跟踪器,根据行驶数据来决定保险费率;米其林也会搜集与环境相关的数据,某智能芯片厂商为长途货运汽车提供的芯片,可以全球定位、调节物流和运输。

跨界思维:一切或可联?
跨界有不同媒介、渠道间的跨界,如O2O和LBS,也有商业模式、数据应用的跨界。

例如,GoPro是穿戴式照相机,但它也为寻求刺激的滑雪、跳伞运动爱好者,剪辑加工影像,并在电视上播出,吸引了广告和巨量的粉丝团队。

操作思维:一切要可行?
应用大数据,不等于非得要上高大上的设备和硬件投入。

例如视频公司根据用户观看视频的过程来决定推送什么广告,其算法可能比较简陋,但速度快。

其次,要把数据和用户心理结合起来,营销精准但不要引起顾客的反感。

第三,大数据管理要与KPI结合起来,协调各个部门的利益,否则大家对数据采集不积极甚至不合作。

例如,运营部门如果看重节省运营成本,可能就对数据采集的意愿不强烈。

实验思维:一切应可试?
比如,要想知道推荐的效果,可以做一个实验。

一半消费者有推荐,一半没有。

从短期看,推荐效果并不明显,但长期效果非常明显。

因为推荐是购物体验的一部分。

短时间内,消费者对所推荐的产品可能没需求,但到有需求时就会想起来,尤其是当推荐产品符合他们的品位和风格时。

三大陷阱
应用大数据进行精准营销,要注意规避如下三大陷阱。

有数不一定有据?
应用大数据需要什么样的统计或逻辑背景?首先,描述。

要能辨识出我们描述的人跟心里想的目标人群是不是一群人。

其次,预测。

理解现象、变量之间的相关性。

第三,优化。

理解因果关系,否则无法优化。

简言之,预测需要相关性,而优化则需要因果性,而描述关键在样本的代表性。

大而不全?
有些大数据应用收集的数据非常多,但对其倾向性却不清楚。

解决的办法是跨界,收集企业之外的数据。

例如,汽车制造商要跟电商结合,要跟社交媒体结合,通过跨界把数据做全,才能把精准营销做得更好。

其次,要把营销、销售和库存等内部信息打通。

内生变量模糊了因果关系?
大数据介入消费者购买过程越多,可能对消费者真实偏好的了解越少。

例如,视频网站给某用户推荐了一个同性恋电影,他看了;再推荐一部,他又看了。

这时,推荐系统就会认定该用户是同性恋,从而继续推荐,实际上该用户可能不过是一时好奇,最后深受其害。

解决办法是定期实验。

基于大数据的精准营销到底谁会胜出?在直线管理看来,要至少具备以下资源优势的一种:产品有优势、对客户特别了解、数据来源特别多、平台优势。

目前,电商的优势显而易见,因为其数据量非常大,而且有平台优势。

制造商的机会在哪里?一要把产品做得非常好,二要联网提供服务,就像特斯拉,买车,更是买背后的互联网服务。

然而,无论谁是赢家,笑到最后的应该是消费者,特别是新一代以网络为家的消费者。

相关文档
最新文档