big data《大数据时代》读书笔记——精华观点和核心语句
big data《大数据时代》读书笔记——精华观点和核心语句

big data《大数据时代》精华观点和核心语句不再追求精确度,不再追求因果关系,而是承认混杂性,探索相关关系。
如同工业革命要开放物质交易、流通一样,开放、流通的数据是时代趋势的要求。
开放所带来的改变远远大于拥有权和隐私性保护所带来的问题。
要全体不要抽样,要效率不要绝对精确,要相关不要因果。
作者认为相关关系比因果关系重要,译者表示反对,认为放弃因果等于放弃人类的智力优势,是末日之始。
导致相关关系比因果关系重要的原因在于,我们机器学习和以结果为导向的研究思路误导人类。
公共医疗:Google通过分析03到08的流感相关搜索词条,将45中词条组合输入一个数学模型之后,得到的流感预测数据和官方统计数据有97%吻合。
09年判断准确,及时预报流感。
商业:farecast利用十万亿条飞机票价记录,预测飞机票价准确度高达75%,利用farecast购买机票的旅客平均每张机票节省50美元。
不再需要一致性的数据库和僵化的层次结构,不再需要结构化查询语言sql,最新的数据库为非关系型数据库nosql。
美国股市每天成交量高达70亿股,其中三分之二都是由数学模型和算法之上的计算机程序自动完成的,这些程序利用海量数据来预测利益和降低风险。
数据爆炸式增长,绝大部分为数字信息,极少部分为模拟数据。
数据每三年多翻一番。
数据规模的量变产生质变,就比如万有引力对生物体大小的关系,纳米技术对现实生活物质的性质有所改变一样,空气阻力和重量和形状关系一样。
大数据的核心在于预测,把数学算法运用到海量数据中来预测事情发生的可能性。
不再依赖于随机采样,不在热衷于追求精确度。
并非完全放弃精确度,只是不再沉迷于此。
不在热衷于寻找因果关系,而是寻找事物之间的相关性。
数据化意味着从一切事物中汲取数据,甚至包括我们以前认为和“信息”搭不上边的事情。
比方说,一个人所在的位置、引擎的振动、桥梁的承重等等。
如同电影《点石成金》中,棒球球探们在统计学家面前相形见绌——直觉的判断被迫让位于精准的数据分析。
《大数据时代》读书笔记

《大数据时代》读书笔记《大数据时代》读书笔记《大数据时代》是由英国作者维克托麦尔〃舍恩伯格等所著,主要描述的是大数据时代到临人们生活、工作与思维各方面所遇到的重大变革。
下面是小编整理的《大数据时代》读书笔记,欢迎查看。
篇一:《大数据时代》读书笔记读了《大数据时代》后,感觉到一个大变革的时代将要来临。
虽然还不怎么明了到底要彻底改变哪些思维和操作方式,但显然作者想要“终结”或颠覆一些传统上作为我们思维和生存基本理论、方法和方式。
在这样的想法面前,我的思想被强烈震撼,不禁战栗起来。
“在小数据时代,我们会假象世界是怎样运作的,然后通过收集和分析数据来验证这种假想。
”“随着由假想时代到数据时代的过渡,我们也很可能认为我们不在需要理论了。
”书中几乎肯定要颠覆统计学的理论和方法,也试图通过引用《连线》杂志主编安德森的话“量子物理学的理论已经脱离实际”来“终结”量子力学。
对此我很高兴,因为统计学和量子力学都是我在大学学习时学到抽筋都不能及格的课目。
但这两个理论实在太大,太权威,太基本了,我想我不可能靠一本书就能摆脱这两个让我头疼一辈子的东西。
作者其实也不敢旗帜鲜明地提出要颠覆它们的论点,毕竟还是在前面加上了“很可能认为”这样的保护伞。
近几十年,我们总是在遇到各种各样的新思维。
在新思维面前我们首先应该做到的就是要破和立,要改变自己的传统,跟上时代的脚步。
即使脑子还跟不上,嘴巴上也必须跟上,否则可能会被扣上思想僵化甚至阻碍世界发展的大帽子。
既然大数据是“通往未来的必然改变”,那我就必须“不受限于传统的思维模式和特定领域里隐含的固有偏见”,跟作者一起先把统计学和量子力学否定掉再说。
反正我也不喜欢、也学不会它们。
当我们人类的数据收集和处理能力达到拍字节甚至更大之后,我们可以把样本变成全部,再加上有能力正视混杂性而忽视精确性后,似乎真的可以抛弃以抽样调查为基础的统计学了。
但是由统计学和量子力学以及其他很多“我们也很可能认为我们不再需要的”理论上溯,它们几乎都基于一个共同的基础——逻辑。
大数据时代读书笔记

大数据时代——读书笔记一、引论1.大数据时代的三个转变:1.可以分析更多的数据,处理和某个现象相关的所有数据,而不是随机采样2.不热衷于精确度3.不热衷与寻找因果关系2.习惯:用来决策的信息必须是少量而精确的。
实际:数据量变大,数据处理速度变快,数据不在精确3.危险:不是隐私的泄露而是未来行动的预判二、大数据时代的思维变革1.原因:没有意识到处理大规模数据的能力,假设信息匮乏,发展一些使用少量信息的技术(随机采样)1.1086年末日审判书英国对人的记载2.约翰·格朗特:统计学,采样分析精确性随着采样随机性上升而大幅上升,与样本数量关系不大3.1890年,穿孔卡片制表机,人口普查4.随机采样有固有的缺陷1.采样过程中存在偏差2.采样不适合考察子类别3.只能得出实现设计好的问题的结果4.忽视了细节考察2.全数据模式:样本=总体1.通过异常量判断信用卡诈骗2.大数据分析:不用随机抽样,而是采用所有数据。
不是绝对意义而是相对意义。
(Xroom信用卡诈骗,日本相扑比赛)3.多样性的价值(社区外联系很多》社区内联系很多)3. 混杂性而非精确性1. 葡萄树温度测量:数据变多,虽然可能有错误数据,但总体而言会更加精确。
2. 包容错误有更大好处3. word语法检查:语料库》算法发展4. google翻译:让计算机自己估算对应关系,寻找成千上万对译结论:大数据的简单算法好过小数据的复杂算法5. 大数据让我们不执著于也无法执着于精确6. MIT的通货紧缩软件:即时的大数据7. 标签:不精确8. 想要获得大规模数据的好处,混乱是一种标准途经9. 新的数据库:大部分数据是非结构化的,无法被利用10. Hadoop:与mapreduce系统相对的开源式分布系统,输出结果不精确,但是非常快结论:相比于依赖小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事情的真相。
“部分”和”确切“的吸引力是可以理解的。
《大数据时代》读后感_读书笔记五篇范文

Don't think that doing something that seems trivial with your whole heart is a waste. Small things are done handily, and big things will come naturally.简单易用轻享办公(页眉可删)《大数据时代》读后感_读书笔记五篇范文《大数据时代》读后感1在看《大数据》之前,我只知道社会越来越数字化了,看完之后,才觉悟到:人类将迎来一个新的时代。
数字化已经把我们带入一个信息时代,大数据却把我们卷进了一场科技风暴之中,这本书中,作者为我们开启了一个更包容更广阔的新时代,大数据把社会的方方面面融合在了一起,曾经看似因果联系紧密的事物,可能变得不再那么重要;毫无关联的事物,可能隐藏着重要的信息,从科技、商业,到医疗、政治、教育、文化,大数据一概席卷囊括,它改变着我们的传统思维,为这个时代注入了新鲜的血液,就像作者书中所说:“这项技术终将改变我们所居住的星球上的许多东西。
”大数据最显著的影响是对于电子商务,通过大数据,最先洞察出潜在市场的,也必然最先占领市场。
而电子商务对实业的冲击又是势不可挡,可见,掌握了大数据就主导了市场,拥有了先进的科技才能拥有坚实的竞争力。
在医疗方面,曾经的非典时期,就是一个很好的例证,正是有大数据的预测功能,才使疫情得到了控制。
在更小的方面,他也同样改变着我们的生活,书中提到美国著名计算机专家奥伦埃齐奥尼发明了飞机机票价格预测软件,就是利用大数据造福我们生活的很好例子。
大数据不仅节省了时间,提高了效率,更将人类带入一个新的文明阶段。
从分析因果总结经验,转变为搜集数据预测未来;由原来的滞后性变为现在的预见性——大大提高了人类认识世界、改造世界的能力,变被动为主动。
大数据为我们掀开了历史新纪元,不敢想象它将会为我们带来什么,或许会出现新奇的生活方式,从未有过的职业,闻所未闻的商业模式,百家争鸣的文化高峰;也或许会解开更多未解之谜,探索到宇宙之外的秘密。
《大数据时代》读书笔记

“凡是过去,皆为序曲”《大数据时代》读书笔记2014年2月20日 sunjinshuang各章节内容摘要与感想第一部分大数据时代的思维变革1.不是随机样本,而是全体数据--更多通过GOOGLE预测流感流行趋势和Farecast系统预测机票价格等例子说明了大数据时代分析数据立足于海量数据分析的重要性,而非传统的取样分析,并且阐述了在很多领域曾经不被重视的混杂数据在大数据时代而产生了新的商业价值的案例,只有从思想上改变了原始的数据分析方法,重视大数据思维方式,才能更好的发现生活中更具价值的信息和商机。
2.不是精确性,而是混杂性--更杂在“小数据”时代,采样最基本、最重要的要求就是减少错误,保证质量,因为收集的信息量较少,所以要保证记录下来的信息要尽量精确。
但在大数据时代,很多时候数据的量变会产生质变,如果依然沿用以前的分析方法,可能会和更多有价值的信息失之交臂,只有容忍不精确性,拥抱混杂性,以一种高屋建瓴的思维方式跳出传统思维模式,才有可能发现更多平凡数据中隐藏的“宝藏”。
3.不是因果关系,而是相关关系--更好知道“是什么”就够了,没必要知道“为什么”。
在大数据时代,我们不必知道现象背后的原因,而是要让数据自己“发声”。
本节通过列举了亚马逊网站的书评团队输给图书推荐系统、蛋挞与飓风用品捆绑销售、客户购买行为与怀孕预测、纽约沙井盖与爆炸事故预测等众多经典案例来阐述在生活中很多时候我们并不需要寻找事物之间的因果关系,而只要知道了相关关系就足够给我们的生活和工作带来有价值的信息,人们必须转变在以往的日常生活中,习惯性地用因果关系来考虑事情的思维,才能在大数据时代更好的认知自己和这个世界。
第二部分大数据时代的商业变革1.数据化:一切皆可“量化”“数据”(data)一词在拉丁文里是“已知”的意思,也可以理解为“事实”。
信息化的发展其实就是一场逐渐将世界转化为数据的革命,在将世间万物运转过程中所“散发”的特征量化为数据的过程中,其所具有的的商业价值也就如泉水般源源不断的涌现出来,文中莫里的航海导航图的研制和日本教授通过研究司机不同坐姿的臀部经压力传感器数据化后所孕育出的新型产业链,着实让人眼前一亮,大呼数据化研究的不可思议。
大数据时代读后感范本(二篇)

大数据时代读后感范本《大数据时代》这本书是我在大学期间读过的一本非常有深度的书籍。
全书共分为四个部分,分别是“大数据的起源与发展”、“大数据的特征与技术”、“大数据的应用与挑战”和“大数据时代的价值与伦理”。
通过对这四个部分的学习,我对大数据和大数据时代有了更加全面而深入的了解。
在书的第一部分中,作者讲述了大数据的起源和发展历程。
从最早的信息存储和处理方式开始,作者引导读者了解了数据时代的演进过程。
特别是在互联网的普及和快速发展的背景下,大数据逐渐成为全球范围内改变经济、产业、政治和社会生活的重要力量。
通过对各种真实案例的分析和解读,作者生动地揭示了大数据在各个领域的应用和影响,使我对大数据的重要性和价值有了更加清晰的认识。
第二部分是关于大数据的特征和技术。
在这一部分中,作者介绍了大数据的四个特征,即数据量大、数据速度快、数据种类多样和数据价值密度低。
同时,作者也对大数据的获取、存储、分析和应用等方面的技术进行了详细的介绍。
通过对这些技术的学习,我对大数据的技术基础和实现方法有了更加深入的了解。
特别是在了解了大数据的分析和挖掘技术后,我对大数据在商业决策和科学研究中的作用有了更加清晰的认识。
第三部分是关于大数据的应用和挑战。
在这一部分中,作者从商业、医疗、政府和社会等多个领域展开讲述,探讨了大数据在这些领域的应用和发展趋势。
通过对这些案例的学习,我对大数据在商业决策、医疗治疗、政府决策和社会管理中的作用和价值有了更加深入的了解。
同时,作者也客观地提出了大数据应用中存在的问题和挑战,如数据隐私、数据安全、数据质量等,为我们正确认识和应对这些问题提供了思路和方法。
最后一部分是关于大数据时代的价值和伦理。
在这一部分中,作者深入讨论了大数据时代中的价值观和伦理问题。
作者认为,尽管大数据给我们带来了巨大的价值和机遇,但我们也要正视大数据时代中的伦理问题,如个人隐私保护、信息安全和道德约束等。
通过对这些问题的分析和思考,作者为我们提供了关于大数据时代伦理的思考方向和指导原则。
大数据时代读书笔记

No matter what you do, do not rush to return, because sowing and harvesting are not in the same season, and there is a period of time between them. We call it persistence.(页眉可删)大数据时代读书笔记大数据时代读后感1如今说起新媒体和互联网,必提大数据,似乎不这样说就OUT了。
而且人云亦云的居多,不少谈论者甚至还没有认真读过这方面的经典着作——舍恩佰格的《大数据时代》。
维克托·迈尔舍恩伯格何许人也?他现任牛津大学网络学院互联网研究所治理与监管专业教授,曾任哈佛大学肯尼迪学院信息监管科研项目负责人。
他的咨询客户包括微软、惠普和IBM等全球企业,他是欧盟互联网官方政策背后真正的制定者和参与者,他还先后担任多国政府高层的智囊。
这位被誉为:大数据时代的预言家“的牛津教授真牛!那么,这位大师说的都是金科玉律吗?并不一定,读大师的作品一定要做些功课才好读懂,才能能与之进行一场思想上的对话。
舍恩伯格分三部分来讨论大数据,即思维变革、商业变革和管理变革。
在第一部分”大数据时代的思维变革“中,舍恩伯格旗帜鲜明的亮出他的三个观点:一、更多:不是随机样本,而是全体数据。
二、更杂:不是精确性,而是混杂性。
三、更好:不是因果关系,而是相关关系。
对于第一个观点,我不敢苟同。
一方面是对全体数据进行处理,在技术和设备上有相当高的难度。
另一方面是不是都有此必要,对于简单事实进行判断的数据分析难道也要采集全体数据吗?我曾与香港城市大学的祝建华教授讨论过。
祝教授是传播学研究方法和数据分析的专家,他认为一定可以找到一种数理统计方法来进行分析,并不一定需要全部数据。
联系到舍恩伯格第二个观点中所说的相关关系,我理解他说的全体数据不是指数量而是指范围,即大数据的随机样本不限于目标数据,还包括目标以外的所有数据。
《大数据时代读书笔记》

大数据时代读书笔记本书在讲些什么?《大数据时代》的一大贡献在于大数据方兴未艾、众说纷纭的时刻,进一步阐述和厘清了大数据的基本概念和特点,这对许多以为大数据就是“数据大”的人来说很有帮助。
大数据时代的经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展,进而影响人类的价值体系、知识体系和生活方式。
大数据开启了一次重大的时代转型,大数据正在改变我们的生活以及理解世界的方式,成为新发明、新服务的源泉,而更多的改变也蓄势待发. .....《大数据时代》主要从三个方面入手写大数据对我们的影响。
第一是大数据时代的商思维变革,第二是大数据时代的商业变革,第三是大数据时代的管理变革。
作者是如何展开主题?作者通过分析谷歌成功的预测了冬季流感的传播这个案例证实“大数据变革公共卫生”;通过埃齐奥尼创立的一个预测机票在未来一段时间里会增长或者下降的预测系统为乘客们节省了很多钱这一例子来证实“大数据变革商业”;通过提出社会现实中大数据对人类思维的影响来证实“大数据变革思维”这一理论,来引导核心主题:大数据开启了重大的时代转型。
如何从核心主题分解出从属的关键议题?核心主题是大数据开启了重大的时代转型,在这个核心主题下,作者详细介绍了大数据对社会的其他三个方面的变革,思维变革、商业变革、管理变革。
次外,作者分解出“大数据时代的思维变革”、“大数据时代的商业变革”、“大数据时代的管理变革”、“大数据的特征”、“大数据的核心是预测”、“大数据意味着大挑战”等从属关键议题。
作者细说了什么,是怎么说的?第一部分,大数据时代的思维变革中明确了大数据的特点。
“更多,不是随机样本,而是全体数据”,“大数据时代意味着利用所有的数据,而不再仅仅依靠一小部分数据”,方式也从过去依靠随机采样转变为研究整体;“更杂,不是精确性,而是混杂性”,大数据时代允许不精确,我们可以为了高频率、广泛性放弃了精确性,试图扩大数据规模的时候,我们要学会拥抱混乱。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
big data《大数据时代》精华观点和核心语句不再追求精确度,不再追求因果关系,而是承认混杂性,探索相关关系。
如同工业革命要开放物质交易、流通一样,开放、流通的数据是时代趋势的要求。
开放所带来的改变远远大于拥有权和隐私性保护所带来的问题。
要全体不要抽样,要效率不要绝对精确,要相关不要因果。
作者认为相关关系比因果关系重要,译者表示反对,认为放弃因果等于放弃人类的智力优势,是末日之始。
导致相关关系比因果关系重要的原因在于,我们机器学习和以结果为导向的研究思路误导人类。
公共医疗:Google通过分析03到08的流感相关搜索词条,将45中词条组合输入一个数学模型之后,得到的流感预测数据和官方统计数据有97%吻合。
09年判断准确,及时预报流感。
商业:farecast利用十万亿条飞机票价记录,预测飞机票价准确度高达75%,利用farecast购买机票的旅客平均每张机票节省50美元。
不再需要一致性的数据库和僵化的层次结构,不再需要结构化查询语言sql,最新的数据库为非关系型数据库nosql。
美国股市每天成交量高达70亿股,其中三分之二都是由数学模型和算法之上的计算机程序自动完成的,这些程序利用海量数据来预测利益和降低风险。
数据爆炸式增长,绝大部分为数字信息,极少部分为模拟数据。
数据每三年多翻一番。
数据规模的量变产生质变,就比如万有引力对生物体大小的关系,纳米技术对现实生活物质的性质有所改变一样,空气阻力和重量和形状关系一样。
大数据的核心在于预测,把数学算法运用到海量数据中来预测事情发生的可能性。
不再依赖于随机采样,不在热衷于追求精确度。
并非完全放弃精确度,只是不再沉迷于此。
不在热衷于寻找因果关系,而是寻找事物之间的相关性。
数据化意味着从一切事物中汲取数据,甚至包括我们以前认为和“信息”搭不上边的事情。
比方说,一个人所在的位置、引擎的振动、桥梁的承重等等。
如同电影《点石成金》中,棒球球探们在统计学家面前相形见绌——直觉的判断被迫让位于精准的数据分析。
正文:第一章:样本=全体统计学家证明,采样分析的精确性随着采样随机性的增加而大幅度提高,但与样本数量的增加关系不大。
随机采样取得了巨大的成功,但是他的成功利亚与采样的绝对随机性,实现采样的随机性非常困难,一旦采样过程中存在任何偏见,分析结果就会相去甚远。
搜集的数据越来越多,分析和预测结果就会越来越准确,并发现一些细节和微乎其微的重要问题。
有些情况下,异常值才是重要的信息,大数据的处理方法就不会错过这个异常值。
商务是即时的,因此数据分析也应该是即时的。
《魔鬼经济学》大数据是指不用随机分析法这样的捷径,而是通过采用所有数据的方法。
数据量不一定很大,但需要全部,包含了所有的信息。
Lytro相机记录整个光场的信息,搜集了所有的数据,拍摄完之后再对焦,而且有“可循环利用性”。
《爆发》第二章:混杂性。
只有5%的数据是结构化的,可以适用于传统数据库,如果不接受混乱,剩下95%的非结构化数据都无法被利用。
少量数据下运行最佳的算法,可能在大数据下可能会表现差强人意,在少量数据下表现差的算法,可能在大数据下惊呆小伙伴们。
大数据的简单算法比小数据的复杂算法更有效,混杂是关键。
谷歌翻译之所以好,除了数据量庞大以外,还接受了有错误的数据,即来自互联网的废弃内容。
Hadoop超大量数据下的分布式处理,假设系统瘫痪而建立数据副本,假定数据量巨大无法移动,人们必须在本地进行数据分析。
它的输出结果不想关系型数据库那般精确,无法用于卫星发射、开具银行账户明细,但是运行却快很多。
第三章不是因果关系,而是相关关系通过数据推荐产品所增加的销售远远超过书评家的贡献。
计算机可能不知道为什么喜欢海明威作品的客户会购买菲茨吉拉德的书,但是他只要通过算法统计分析,得知这个结果就可以了。
沃尔玛领导了零售链的革命,让供应商监控销售速率、数量、以及存货情况。
这个数据库不仅包含了每一个顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时间,甚至购买当天的天气。
在大数据时代,通过建立在人的偏见上的关联物检测法已经不再可行,因为数据库太大而且需要考虑的领域太复杂。
幸运的是,许多迫使我们选择假想分析法的限制条件也逐渐消失了。
现在我们拥有如此多的数据,这么好的机器计算能力,因而不再需要人工选择一个关联物或者一小部分相似的数据来逐一分析了。
大数据的相关关系分析法,取代了基于假想的易出错的方法。
大数据的相关关系法更准确、更快,而且不易受偏见的影响。
塔基特公司在完全不合准妈妈对话的前提下预测一个女性会在什么时候怀孕。
她们会光顾以前不会去的商店,渐渐对新的品牌建立忠诚。
ups与汽车修理预测,车辆处故障后,造成延误和在装载的负担,消耗大量人力物力。
通过检测汽车的每个部位,及时更换需要更换的零件,免除了可能会造成的困扰。
同样的方法也可以用在人的身上,,检测病人的即时信息。
第四章数据化一切皆可量化莫里整合美国海军的航海日志,绘制更安全和快速的航海图表,其他商船需要使用图表,必须(病毒式传染)按照要求撰写航海日志并提交给莫里。
将海上的船只都变成一个个科学站和天文台。
数据化不是数字化,数字化只是把模拟数据变成1和0来表示。
gps全球定位系统的地理定位能精确到米,实现了自古以来无数航海家、制图家和数学家的梦想。
airsage每天通过处理上百万手机用户的150亿条位置信息,为超过100个美国城市提供实时交通信息。
facebook,twitter等社交网络将我们的关系、经历和情感进行数据化。
他们不仅提供我们寻找和维持朋友、同事关系的场所,也将我们日常生活中的无形元素提取出来,转化为可用作新用途的数据。
华尔街的数学奇才们将数据传输到他们的算法模式当中,寻找能被有效利用的关系模式当中。
社交网络分析之父写了一个程序,能通过监听新微薄的发布频率,预测一部电影的成败,比其他传统方法还要准确。
自我量化是一项由一群健身迷、医学疯子以及技术狂人发起的运动,通过测量身体每一个部位和每一件事来让生活更美好。
第五章价值取之不尽用之不竭验证码输入时,一个用于证明对方是人类,另一个则是图书扫描时计算机无法识别的模糊单词,由网络上大量用户帮忙识别,节省了大量人力物力财力。
随着购物平台、设计平台、金融等的出现,我们的人脉关系、想法、喜好和日常生活模式也逐渐被加入到巨大的个人信息库中。
数据的价值不会随着它的使用而减少,而是可以不断被处理,个人的使用不会妨碍其他人的使用。
ibm搜集汽车电量和路线、充电站插槽、天气等等信息,开发了复杂的预测模型,确定充电的最佳时间和地点,揭示充电站的最佳设置点。
google推出语音识别服务,借助nuance的技术,但是自己储存语音识别记录,依靠此记录重新创建了一个新的语音识别系统。
搜集数据是必须确保数据具有再利用性、重组能力、可拓展能力。
有部分数据价值会随之时间推移失去价值,比如在亚马逊上购买一本书,数月后对这方面的书完全失去了兴趣,则这个数据就失去了价值。
但并非所有的数据都会贬值,大数据下鼓励储存所有数据并试图挖掘其中的价值。
google拥有世界上最完整的拼写检查器,涵盖世界上每一种语言,依据是每天处理的30亿查询中输入搜索框中的错误拼写。
“数据废气”——他是用户在线交互的副产品,包括浏览了那些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。
比如google如果发现用户搜索之后再重复搜索,则表明搜索结果不满意,或者发现用户点击后面的选项,则算法自动将后面的选项调前。
是搜索引擎的自我训练。
电子阅读器捕捉大量关于文学喜好和阅读人群的数据,贩卖给出版社。
比如阅读一页或一节需要多长时间,读者是略读还是直接放弃阅读,是否划线强调还是在空白处做了标记,这些信息都是出版商和作者之前不会知道的信息。
在线课程跟踪学生的web交互来寻找最佳的教学方法,比如多次看一个课程,说明该课程没有讲清楚。
政府是最大规模信息的原始采集者。
美国、欧盟等政府已经公开了很多信息,除了一些机密的信息。
航班时间预测,搜集交通运输局的历史航班延误数据、美国联邦航空管理局的机场信息,以及美国国家海洋和大气管理局的以往天气报告、国美气象服务的实时状态等。
给数据估值——facebook更具会计准则计算出的价值为63亿美元,但市场估值却为1040亿美元,为什么差距这么大?公司账面价值和市场价值之间的差额被记为“无形资产”。
二十世纪八十年代中期,无形资产在美国上市公司市值中约占40%,而在2002年,这一数据已经增长为75%。
无形资产早期包括品牌、人才和战略这些应计入正规金融会计制度的非有形资产部分。
但渐渐地,公司所持有和使用的数据也渐渐纳入了无形资产的范畴。
几乎肯定数据的价值将显示在企业的资产负载表上,成为一个新的资产类别。
催生了一大批倒卖数据的公司和机构,纷纷给数据定价,数据在不断被转手和利用,共同挖掘其中的价值。
第六章角色定位收集电子商务网站上所有的电子产品的价格数据和产品信息,告知用户何时才是购买电子产品的最佳时机。
预测准确率高达77%。
他和farecast都出自奥伦之手。
大数据价值链三大构成:基于数据本身的公司,基于技能的公司,基于思维的公司。
google和亚马逊幸运地同时拥有这三个方面。
数据科学家是统计学家、软件程序员、图形设计师和作家的结合体,通过搜寻数据库来得到新的发现。
信用卡发行商搜集消费信息。
微软和医院合作,分析多年来的匿名医疗记录,发现出现压抑的病人再次入院的概率更高,因此出院以后的医学干预必须以解决病人的心理问题为重心,降低再入院率和医疗成本。
所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。
金矿产业链中,金子最珍贵,因此数据的价值胜过算法技术和大数据思维。
inrix搜集全美和欧洲的汽车交通信息,并提供app给司机,供司机查询交通情况,同时司机自身的交通数据也上传分享了出来。
他同时发现一些价值点,比如一个商场周围车辆很多,说明商场的销量增加。
上下班高峰时期的交通状况变好了,这就说明失业率增加了,经济状况变差了。
行业专家和技术专家的光芒都会被统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。
人们把专业人才看的比全才更重要,深度才是财富。
苹果公司与运营商签订合约的时候规定,运营商提供给它大部分的有用数据。
普通消费者愿意免费提供这些数据来换取更好的服务,比如亚马逊的图书推荐、博客、twitter,维基百科等等。
第七章风险大数据时代,很多数据在搜集的时候并无意用作其他用途,而最终却产生了很多创新性的用途。
无处不在的信息泄露,侵犯了人们的隐私,一个可能的途径是匿名化,但是匿名化对大数据是无效的,因为搜集的数据越来越多,我们会结合越来越多不同来源的数据。