大数据的思维误区与价值纬度
大数据时代

(2). 你确定要鸡蛋碰石头吗?
“好吧,但是为什么我们一定需要新的工具?我们不能 用原来的软件工具来分析大数据吗?”我们在讨论使用 Hadoop去排列成百上千的非结构数据输入。讨论中有位听 众提问,为什么他不能简单地使用SPSS来分析大量的文本语 料库。事实上,一旦你领会了#1中的内容,那么你将意识 到你需要一个可以理解、存储和分析不同数据输入(图像, 点击流,视频,声纹,元数据,XML,等),并且可以并行 处理他们的新的工具。 这就是为什么内存中的桌面工具足以处理本地内存中的 分析(SPSS,R,WEKA,等)却无法处理大量的大数据源。 所以我们需要新的技术来管理这些各不相Biblioteka 的数据源,并以 并行的原则管理他们。
马云说:互联网还没搞清楚的时候,移动互联就来 了,移动互联还没搞清楚的时候,大数据就来了。互联 网和移动互联网还好理解,面对大数据,相信许多人都 一头雾水。下面我们通过几个经典案例,让大家实打实 触摸一把“大数据”。你会发现它其实就在身边。
奥巴马大选连任成功 2012年11月奥巴马大选连任成功的胜利果实也被归功 于大数据,因为他的竞选团队进行了大规模与深入的数据挖 掘。时代杂志更是断言,依靠直觉与经验进行决策的优势急 剧下降,在政治领域,大数据的时代已经到来;各色媒体、 论坛、专家铺天盖地的宣传让人们对大数据时代的来临兴奋 不已,无数公司和创业者都纷纷跳进了这个狂欢队伍。
2.大数据的三大误区
关于大数据的三大误区随着整个行业对大数据的兴趣越来越大,使我们接触到了 一大堆关于大数据的评论,提问以及错误的理解。 以下是对于大数据的三大误区:
(1). 最重要的,是关于大数据本身的大小
大数据主要是数据的大小,因为大数据就是大的,对吗? 其实,并不完全是。哈佛的定量社科学院的Gary King说。当 然,如今的数据处理量要远超过去(这里是指”3Vs”的量-量, 多变性及速度),但如果人们只关注于GB、TB或PB,他们将 仅仅视大数据为关于存储和科技的问题。尽管这也是绝对重 要的,但大数据的更突出的几个方面通常是另外两个V:多变 性(Variety)和速度(Velocity)。速度指的是数据流及非常快 的数据,数据积累或进入数据仓库时的低延迟,以使人们可 以更加快速地(或者甚至自动地)做出决定。数据流的确是个大 问题,其多变性是3V当中最有趣的。
大数据的五大误解

大数据的五大误解
大数据是当今社会发展的重要力量,它的应用范围也越来越广泛,但是也有许多人对大数据存在误解。
下面就来谈谈大数据的五大误解。
首先,有人认为大数据只是一种技术,只能用来处理大量的数据。
实际上,大数据不仅仅是一种技术,它还是一种新的思维方式,它可以帮助企业更好地理解客户的需求,更好地满足客户的需求,从而提高企业的竞争力。
其次,有人认为大数据只能用来做统计分析。
实际上,大数据不仅可以用来做统计分析,还可以用来做模型分析,从而更好地预测未来的趋势,为企业提供更多的发展机会。
第三,有人认为大数据只能用来做数据分析。
实际上,大数据不仅可以用来做数据分析,还可以用来做智能分析,从而更好地挖掘数据中的有价值信息,为企业提供更多的商业价值。
第四,有人认为大数据只能用来做数据挖掘。
实际上,大数据不仅可以用来做数据挖掘,还可以用来做模式识别,从而更好地发现数据中的潜在规律,为企业提供更多的发展机会。
最后,有人认为大数据只能用来做数据分析和挖掘。
实际上,大数据不仅可以用来做数据分析和挖掘,还可以用来做智能决策,从而更好地支持企业的决策,为企业提供更多的发展机会。
总之,大数据不仅仅是一种技术,它还是一种新的思维方式,可以帮助企业更好地理解客户的需求,更好地满足客户的需求,从而提高企
业的竞争力。
大数据不仅可以用来做统计分析、模型分析、智能分析、数据挖掘和模式识别,还可以用来做智能决策,从而更好地支持企业
的决策,为企业提供更多的发展机会。
因此,大数据的应用范围非常
广泛,可以为企业带来更多的商业价值。
大数据时代的思维

大数据时代的思维在大数据时代,海量的数据被生成、存储和利用。
这些数据对我们的生活和工作产生了深远的影响。
然而,仅仅拥有大量的数据是不够的,我们还需要正确的思维方式来解读和应用这些数据。
本文将探讨大数据时代的思维方式,并探讨如何在日常生活和工作中灵活运用这种思维方式。
1. 数据驱动思维数据驱动思维是大数据时代最重要的思维方式之一。
它强调通过数据来指导、支持和验证决策过程。
在过去,很多决策都是基于主观经验和直觉做出的,但在大数据时代,我们可以通过收集和分析大量的数据来做出更明智的决策。
以营销为例,过去的营销决策通常基于营销人员的经验和感觉,而现在,营销决策越来越多地依赖于数据分析。
通过分析顾客的购买行为、偏好和反馈,企业可以更准确地了解顾客需求,优化产品和服务,提高市场竞争力。
因此,数据驱动思维在市场营销中起着重要的作用。
2. 数据分析思维数据分析思维是大数据时代另一个重要的思维方式。
它涉及到理解和解释数据的能力,以从中获得有价值的见解。
在处理大数据时,我们需要学会使用各种数据分析工具和技术,例如统计分析、机器学习和人工智能等。
数据分析思维可以帮助我们发现数据中的模式和规律,预测未来趋势和行为。
例如,通过对过去的销售数据进行分析,企业可以预测未来销售额,制定合理的生产计划和库存管理策略。
此外,数据分析思维还可以帮助企业挖掘和发现隐藏在数据背后的信息,以获得竞争优势。
3. 创新思维大数据时代需要创新思维来应对不断变化的环境和机遇。
创新思维是指超越传统思维范围,勇于尝试新想法和方法的能力。
在面对复杂的大数据时代,我们需要学会思考问题、解决问题的方式。
创新思维涉及到观察、提问和连接的能力。
通过观察和洞察力,我们可以发现问题、挖掘需求和发现机会。
通过提问和质疑,我们可以更好地理解问题和寻找解决方案。
通过连接和整合不同的观点和概念,我们可以创造出新的想法和方法。
4. 风险管理思维大数据时代充满了不确定性和风险。
大数据认识误区的案例

大数据认识误区的案例大数据作为一种新兴的技术和方法,正在广泛应用于各个领域。
然而,由于对大数据的认识存在一些误区,导致了一些错误的决策和做法。
下面列举了十个大数据认识误区的案例。
一、数据越多越好很多人认为,数据越多越好,可以得到更准确的结果。
然而,过多的数据可能会导致维度灾难和信息超载的问题,增加了分析的复杂性和计算的成本。
二、大数据等于数据分析有些人认为,拥有大量的数据就可以进行数据分析。
然而,大数据只是数据分析的一部分,还需要结合合适的算法和模型来进行分析和挖掘。
三、数据的价值在于数量很多人认为,数据的价值主要在于数量,即数据越多越有价值。
然而,数据的价值主要在于质量,即数据的准确性、完整性和可信度等。
四、数据分析是一种技术活有些人认为,数据分析是一种高深的技术活,只有专业人士才能进行。
然而,随着大数据分析工具的普及和简化,越来越多的人可以进行数据分析。
五、数据分析只适用于大企业有些人认为,数据分析只适用于大企业,对于中小企业来说并不重要。
然而,数据分析对于所有企业来说都是重要的,可以帮助企业提高效率和竞争力。
六、数据分析只能解决业务问题有些人认为,数据分析只能解决业务问题,对于其他领域没有作用。
然而,数据分析可以应用于各个领域,包括医疗、金融、教育等,可以帮助解决各种问题。
七、数据分析只能用于预测有些人认为,数据分析只能用于预测,不能用于其他方面。
然而,数据分析可以用于预测、分类、聚类、关联等多种分析任务。
八、数据分析需要大量的计算资源有些人认为,进行数据分析需要大量的计算资源,只有拥有强大的计算机才能进行。
然而,随着云计算和分布式计算的发展,可以在云平台上进行数据分析,无需拥有强大的计算机。
九、数据分析只能处理结构化数据有些人认为,数据分析只能处理结构化数据,对于非结构化数据无能为力。
然而,随着文本挖掘和图像分析等技术的发展,数据分析可以处理各种类型的数据。
十、数据分析是一种黑盒操作有些人认为,数据分析是一种黑盒操作,不知道其中的原理和过程。
大数据分析存在的问题及建议

大数据分析存在的问题及建议随着数字化时代的到来,大数据分析已成为企业和组织在决策和市场竞争中的重要工具。
然而,尽管大数据分析的潜力巨大,但在实际应用中仍然存在一些问题和挑战。
本文将讨论大数据分析存在的问题,并提出一些建议以解决这些问题。
一、数据质量问题大数据分析的前提是数据的准确性和完整性,然而,大规模数据的采集、存储和处理过程中难免会引入一些噪声和错误。
这些问题可能源于数据源的不一致和不可靠,也可能是数据采集和传输过程中产生的问题。
此外,数据质量问题还可能导致分析结果的误导和不准确。
解决数据质量问题的建议是,建立严格的数据管理流程,包括数据采集、清洗和验证。
此外,采用先进的数据质量工具和算法,对数据进行质量评估和修复,以确保数据的准确性和可靠性。
二、隐私和安全问题在大数据分析中,个人和企业的隐私和数据安全是一个重要的关注点。
大规模数据的收集和分析可能会导致个人敏感信息的泄露,甚至可能被黑客攻击和数据泄露。
为了应对隐私和安全问题,组织应采取一系列措施来保护数据的安全性和隐私性。
这包括加密数据传输和存储,建立安全的访问控制和身份验证机制,以及符合相关法律法规的数据处理规范和标准。
三、数据分析能力问题大数据分析需要专业的技术和工具以及相关领域的知识。
然而,许多组织在人才方面存在短缺,缺乏具备大数据分析能力的专业人员。
这可能导致数据分析工作的效率和质量不达标。
为了解决数据分析能力问题,组织应该加强对员工的培训和技能提升,提供必要的教育和培训机会,吸引和留住具备大数据分析能力的人才。
另外,与高校和研究机构合作,建立人才培养计划和实习机会也是一个有效的途径。
四、数据隔离问题在某些情况下,大数据分析可能需要同时处理多个组织或部门的数据,然而,不同组织和部门的数据通常存在格式、结构和安全策略的差异。
这可能导致数据集成和分析的困难。
为了解决数据隔离问题,组织应建立统一的数据标准和规范,明确数据采集、处理和共享的流程和标准。
大数据的思维

大数据的思维在当今这个数字化的时代,大数据已经成为了一个热门话题。
无论是企业的决策制定、市场营销,还是政府的公共服务、政策规划,甚至我们日常生活中的点点滴滴,都离不开大数据的影响。
然而,要真正理解和运用大数据,不仅仅是掌握相关的技术和工具,更重要的是拥有大数据的思维。
那么,什么是大数据的思维呢?简单来说,大数据思维就是一种基于海量数据进行思考、分析和决策的方式。
它与传统的思维方式有着很大的不同。
在传统思维中,我们往往依靠有限的样本数据、个人经验和直觉来做出判断和决策。
比如说,一家企业想要了解消费者对某个产品的喜好,可能会通过发放几百份调查问卷,然后对这些问卷的结果进行分析,得出一个大概的结论。
但是,这种方式存在很多局限性。
首先,样本数量有限,可能无法代表整个消费者群体的真实情况。
其次,问卷的设计和调查方式可能存在偏差,影响结果的准确性。
而大数据思维则是从海量的数据中寻找规律和趋势。
不再局限于小样本,而是将视野扩大到几乎全体的数据。
以电商平台为例,它们可以收集到数以亿计的用户购买行为、浏览记录、评价等数据。
通过对这些数据的深度挖掘和分析,能够准确地了解消费者的喜好、需求和消费习惯,从而精准地推荐商品,优化运营策略。
大数据思维的一个重要特点是重视相关性而非因果性。
在传统的研究中,我们总是试图找出事物之间的因果关系。
但在大数据时代,由于数据的复杂性和多样性,有时候很难明确地确定因果关系。
然而,通过分析数据之间的相关性,我们仍然能够发现有价值的信息。
比如,通过分析发现,每当气温升高时,冰淇淋的销量就会增加,虽然我们可能无法确切地说明气温升高导致人们购买冰淇淋的具体原因,但这种相关性足以让商家在气温升高时提前做好备货和促销的准备。
拥有大数据思维还意味着能够接受数据的不精确性。
在处理海量数据时,很难保证每一个数据都是准确无误的。
但这并不妨碍我们从整体上把握趋势和规律。
相比追求绝对的精确,更重要的是从大量的数据中获取有价值的信息。
大数据分析的价值与局限如何充分发挥其潜力

大数据分析的价值与局限如何充分发挥其潜力随着信息技术的快速发展,大数据分析已经成为企业决策和发展的重要工具。
通过对海量数据的收集、整理和分析,企业可以更好地了解市场趋势、消费者需求以及竞争对手的动态,从而做出更准确的决策。
然而,大数据分析也存在一些局限,需要充分发挥其潜力。
首先,大数据分析的价值在于帮助企业了解市场趋势和消费者需求。
通过对大量的数据进行分析,企业可以发现市场的变化和趋势,及时调整产品和服务的策略。
例如,某电商平台通过对用户购买记录的分析,发现某一类产品的销量呈现上升趋势,于是加大了该类产品的推广力度,取得了良好的销售业绩。
此外,大数据分析还可以帮助企业了解消费者的需求和偏好,从而提供更加个性化的产品和服务。
例如,某餐饮企业通过对用户点餐记录的分析,发现不同用户对菜品的偏好有所不同,于是推出了个性化的套餐,满足了不同消费者的需求。
其次,大数据分析可以帮助企业了解竞争对手的动态。
通过对竞争对手的数据进行分析,企业可以了解竞争对手的产品、定价、促销等策略,从而制定相应的竞争策略。
例如,某手机厂商通过对竞争对手的销售数据进行分析,发现某一款手机在市场上的销量一直保持较高水平,于是推出了类似的产品,并采取了更具竞争力的定价策略,取得了较好的销售业绩。
然而,大数据分析也存在一些局限,需要充分发挥其潜力。
首先,大数据分析需要大量的数据支持。
只有在数据量足够大的情况下,才能进行准确的分析和预测。
如果企业的数据量不足,那么大数据分析的效果将大打折扣。
其次,大数据分析需要专业的技术和人才支持。
大数据分析涉及到数据的收集、整理、存储和分析等多个环节,需要专业的技术和人才进行支持。
如果企业缺乏相关的技术和人才,那么大数据分析的效果将大打折扣。
此外,大数据分析还存在数据隐私和安全的问题。
在进行大数据分析的过程中,企业需要收集和使用大量的用户数据,如果处理不当,可能会引发用户的隐私泄露和数据安全问题,给企业带来不可估量的损失。
如何避免大数据分析技术中的常见误区

如何避免大数据分析技术中的常见误区随着科技的不断发展,大数据分析技术在各个领域扮演着重要角色,它能够帮助企业、学术界和政府等实现更有效的决策和资源管理。
然而,由于大数据分析技术的复杂性和特殊性,常常会导致一些常见的误区。
本文将探讨如何避免这些误区,确保大数据分析技术的准确性和有效性。
首先,一个常见的误区是忽视数据收集的质量。
大数据的价值取决于数据的质量和准确性。
如果数据收集过程中有误差或数据质量差,那么分析的结果就会出现偏差。
因此,在进行大数据分析之前,首先要确保提供给算法的数据是准确可靠的。
这意味着要对数据进行严格的验证和清洗,排除掉无效或错误的数据,以免对后续分析产生影响。
其次,常见的误区之一是误解相关性和因果关系。
在大数据分析中,有时候两个变量之间可能存在同步变化,但并不意味着它们之间存在因果关系。
因此,在进行大数据分析时,我们需要注意相关性与因果关系之间的区别。
为了判断两个变量之间是否存在因果关系,我们需要进一步的研究和实验证明,而不仅仅是通过数据分析得出结论。
另一个常见的误区是过度依赖数据分析工具。
尽管大数据分析工具可以大大提高数据分析的效率和准确性,但作为分析人员,我们不能完全依赖这些工具。
我们需要具备扎实的数据分析基础知识和一定的领域专业知识,以对分析结果进行合理的解释和判断。
此外,数据分析工具也有其局限性,可能会受到数据源或算法等方面的限制,因此需要分析人员进行补充和修正。
另外一个误区是忽视数据隐私和安全问题。
随着个人信息保护和数据安全意识的提高,大数据分析面临着更加严峻的隐私和安全挑战。
在进行大数据分析之前,我们需要确保获得数据的合法性,并且要采取相应的数据保护措施,以确保数据的隐私和安全。
同时,还应遵守相关的隐私和数据保护法规,不得滥用和泄露用户的个人信息。
最后一个常见的误区是过分追求大数据的数量而忽视数据的质量。
在大数据分析中,数据的质量和准确性比数据的数量更加重要。
不准确、不完整或错误的数据可能会导致分析结果的失真。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据的思维误区与价值纬度by 吴甘沙2014-04-26本文为“泰山会”微信群线下沙龙速记稿,全文如下:分享嘉宾:吴甘沙,英特尔中国研究院首席工程师大家周末好,我是吴甘沙,在英特尔中国研究院工作。
清华基于微博分析获得的大数据幸福指数发现人们周六最幸福,相信大家心情不错,因此今天不谈枯燥的技术。
关于大数据的思维、理念、方法论已经被反复消费了,本来我想直接进入交互环节,继挺兄还是要求先有一部分规定动作,我就先自弹自唱几十分钟,既然是漫谈,也不见得扣题,说到哪里是哪里。
各位有问题,我可以择时择机插入讨论。
先说大数据思想的形成吧。
自从人类开始文字和数字,数据就开始产生。
就数据增长曲线而言,极小的初值确实要经历漫长的过程达到人类能感知的曲线拐点。
谷歌前CEO埃里克·施密特曾给出了一个有趣的数据:从人类文明曙光初现到2003年一共产生的数据,只相当于2010年两天产生的数据量。
而一旦越过拐点,“大数据摩尔定律”的滚滚铁轮下,指数效应爆发:最近两年产生的数据量相当于之前产生的全部数据量。
在漫长的数据蓄水过程中,数学和统计学逐渐发展,人们开始注意对数据的量化分析,在人类进入信息时代以前这样的例子就不胜枚举。
比如经济上,黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用(可惜王安石变法有始无终)。
又如军事,“向林彪学习数据挖掘”的桥段不论真假,其背后量化分析的思想无疑有其现实基础,而这一基础甚至可以回推到2000多年前,孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利用庞涓的量化分析习惯对其进行诱杀。
到上世纪50-60年代,磁带取代穿孔卡片机,启动了数据存储的革命。
磁盘驱动器随即发明,它带来的最大想象空间并不是容量,而是随机读写的能力,这一下子解放了数据工作者的思维模式,开始数据的非线性表达和管理。
数据库应运而生,从层次型数据库(IBM为阿波罗登月设计的层次型数据库迄今仍在建行使用),到网状数据库,再到现在通用的关系数据库。
与数据管理同时发源的是决策支持系统(DSS),80年代演变到商业智能(BI)和数据仓库,开辟了数据分析——也就是为数据赋予意义——的道路。
那个时代运用数据管理和分析最厉害的是商业。
第一个数据仓库是为宝洁做的,第一个太字节的数据仓库是在沃尔玛。
沃尔玛的典型应用是两个:一是基于retail link的供应链优化,把数据与供应商共享,指导它们的产品设计、生产、定价、配送、营销等整个流程,同时供应商可以优化库存、及时补货;二是购物篮分析,也就是常说的啤酒加尿布。
关于啤酒加尿布,几乎所有的营销书都言之凿凿,我告诉大家,是Teradata的一个经理编的,人类历史上从没有发生过,但是,先教育市场,再收获市场,它是有功的。
仅次于沃尔玛的乐购(Tesco),强在客户关系管理(CRM),细分客户群,分析其行为和意图,做精准营销。
这些都发生在90年代。
00年代时,科研产生了大量的数据,如天文观测、粒子碰撞,数据库大拿吉姆·格雷等提出了第四范式,是数据方法论的一次提升。
前三个范式是实验(伽利略从斜塔往下扔),理论(牛顿被苹果砸出灵感,形成经典物理学定律),模拟(粒子加速太贵,核试验太脏,于是乎用计算代替)。
第四范式是数据探索。
这其实也不是新鲜的,开普勒根据前人对行星位置的观测数据拟合出椭圆轨道,就是数据方法。
但是到90年代的时候,科研数据实在太多了,数据探索成为显学。
在现今的学科里,有一对孪生兄弟,计算XX学和XX信息学,前者是模拟/计算范式,后者是数据范式,如计算生物学和生物信息学。
有时候计算XX学包含了数据范式,如计算社会学、计算广告学。
2008年克里斯·安德森(长尾理论的作者)在《连线》杂志写了一篇《理论的终结》,引起轩然大波。
他主要的观点是有了数据,就不要模型了,或者很难获得具有可解释性的模型,那么模型所代表的理论也没有意义了。
跟大家说一下数据、模型和理论。
大家先看个粗糙的图。
首先,我们在观察客观世界中采集了三个点的数据,根据这些数据,可以对客观世界有个理论假设,用一个简化的模型来表示,比如说三角形。
可以有更多的模型,如四边形,五边形。
随着观察的深入,又采集了两个点,这时发现三角形、四边形的模型都是错的,于是确定模型为五边形,这个模型反映的世界就在那个五边形里,殊不知真正的时间是圆形。
大数据时代的问题是数据是如此的多、杂,已经无法用简单、可解释的模型来表达,这样,数据本身成了模型,严格地说,数据及应用数学(尤其是统计学)取代了理论。
安德森用谷歌翻译的例子,统一的统计学模型取代了各种语言的理论/模型(如语法),能从英文翻译到法文,就能从瑞典文翻译到中文,只要有语料数据。
谷歌甚至能翻译克莱贡语(Star Trek里编出来的语言)。
安德森提出了要相关性不要因果性的问题,以后舍恩伯格(下面称之为老舍)只是拾人牙慧了。
当然,科学界不认同《理论的终结》,认为科学家的直觉、因果性、可解释性仍是人类获得突破的重要因素。
有了数据,机器可以发现当前知识疆域里面隐藏的未知部分。
而没有模型,知识疆域的上限就是机器线性增长的计算力,它不能扩展到新的空间。
在人类历史上,每一次知识疆域的跨越式拓展都是由天才和他们的理论率先吹起的号角。
2010年左右,大数据的浪潮卷起,这些争论迅速被淹没了。
看谷歌趋势,"big data"这个词就是那个时间一下子蹿升了起来。
吹鼓手有几家,一家是IDC,每年给EMC做digital universe的报告,上升到泽字节范畴(给大家个概念,现在硬盘是太字节,1000太=1拍,阿里、Facebook 的数据是几百拍字节,1000拍=1艾,百度是个位数艾字节,谷歌是两位数艾字节,1000艾=1泽);一家是麦肯锡,发布《大数据:创新、竞争和生产力的下一个前沿》;一家是《经济学人》,其中的重要写手是跟老舍同著《大数据时代》的肯尼思•库克耶;还有一家是Gartner,杜撰了3V(大、杂、快),其实这3V在2001年就已经被编出来了,只不过在大数据语境里有了全新的诠释。
咱们国内,欢总、国栋总也是在2011年左右开始呼吁对大数据的重视。
2012年子沛的书《大数据》教育政府官员有功。
老舍和库克耶的《大数据时代》提出了三大思维,现在已经被奉为圭臬,但千万别当作放之四海而皆准的真理了。
比如要数据全集不要采样。
现实地讲,1. 没有全集数据,数据都在孤岛里;2.全集太贵,鉴于大数据信息密度低,是贫矿,投入产出比不见得好;3.宏观分析中采样还是有用的,盖洛普用5000个样本胜过几百万调查的做法还是有实践意义;4.采样要有随机性、代表性,采访火车上的民工得出都买到票的结论不是好采样,现在只做固定电话采样调查也不行了(移动电话是大头),在国外基于Twitter采样也发现不完全具有代表性(老年人没被包括);5.采样的缺点是有百分之几的偏差,更会丢失黑天鹅的信号,因此在全集数据存在且可分析的前提下,全量是首选。
全量>好的采样>不均匀的大量。
再说混杂性由于精确性。
拥抱混杂性(这样一种客观现象)的态度是不错的,但不等于喜欢混杂性。
数据清洗比以前更重要,数据失去辨识度、失去有效性,就该扔了。
老舍引用谷歌Peter Novig 的结论,少数高质量数据+复杂算法被大量低质量数据+简单算法打败,来证明这一思维。
Peter 的研究是Web文本分析,确实成立。
但谷歌的深度学习已经证明这个不完全对,对于信息维度丰富的语音、图片数据,需要大量数据+复杂模型。
最后是要相关性不要因果性。
对于大批量的小决策,相关性是有用的,如亚马逊的个性化推荐;而对于小批量的大决策,因果性依然重要。
就如中药,只到达了相关性这一步,但它没有可解释性,无法得出是有些树皮和虫壳的因导致治愈的果。
西药在发现相关性后,要做随机对照试验,把所有可能导致“治愈的果”的干扰因素排除,获得因果性和可解释性。
在商业决策上也是一样,相关性只是开始,它取代了拍脑袋、直觉获得的假设,而后面验证因果性的过程仍然重要。
把大数据的一些分析结果落实在相关性上也是伦理的需要,动机不代表行为。
预测性分析也一样,不然警察会预测人犯罪,保险公司会预测人生病,社会很麻烦。
大数据算法极大影响了我们的生活,有时候会觉得挺悲哀的,是算法觉得了你贷不贷得到款,谷歌每调整一次算法,很多在线商业就会受到影响,因为被排到后面去了。
下面时间不多了,关于价值维度,我贴一些以前讲过的东西。
大数据思想中很重要的一点是决策智能化之外,还有数据本身的价值化。
这一点不赘述了,引用马云的话吧,“信息的出发点是我认为我比别人聪明,数据的出发点是认为别人比我聪明;信息是你拿到数据编辑以后给别人,而数据是你搜集数据以后交给比你更聪明的人去处理。
”大数据能做什么?价值这个V怎么映射到其他3V和时空象限中?我画了个图:再贴上解释。
“见微”与“知著”在Volume的空间维度。
小数据见微,作个人刻画,我曾用《一代宗师》中“见自己”形容之;大数据知著,反映自然和群体的特征和趋势,我以“见天地、见众生”比喻之。
“著”推动“微”(如把人群细分为buckets),又拉动“微”(如推荐相似人群的偏好给个人)。
“微”与“著”又反映了时间维度,数据刚产生时个人价值最大,随着时间decay最后退化为以集合价值为主。
“当下”和“皆明”在Velocity的时间维度。
当下在时间原点,是闪念之间的实时智慧,结合过往(负轴)、预测未来(正轴),可以皆明,即获得perpetual智慧。
《西游记》里形容真假孙悟空,一个是“知天时、通变化”,一个是“知前后、万物皆明”,正好对应。
为达到皆明,需要全量分析、预测分析和处方式分析(prescriptive analytics,为让设定的未来发生,需要采取什么样的行动)。
“辨讹”和“晓意”在Variety的空间维度。
基于大体量、多源异质的数据,辨讹过滤噪声、查漏补缺、去伪存真。
晓意达到更高境界,从非结构数据中提取语义、使机器能够窥探人的思想境界、达到过去结构化数据分析不能达到之高度。
先看知著,对宏观现象规律的研究早已有之,大数据的知著有两个新特点,一是从采样到全量,比如央视去年“你幸福吗”的调查,是街头的采样,前不久《中国经济生活大调查》关于幸福城市排名的结论,是基于10万份问卷(17个问题)的采样,而清华行为与大数据实验室做的幸福指数(继挺兄、我、还有多位本群群友参与),是基于新浪微博数据的全集(托老王的福),这些数据是人们的自然表达(而不是面对问卷时的被动应对),同时又有上下文语境,因此更真实、也更有解释性。
北上广不幸福,是因为空气还是房价或教育,在微博上更容易传播的积极情绪还是消极情绪,数据告诉你答案。