3大数据时代-思维变革 - 2更杂

合集下载

大数据时代的思维变革

大数据时代的思维变革

大数据时代的思维变革作者:贾凯来源:《现代审计与经济》 2016年第4期贾凯大数据是这几年互联网领域的一大热门话题。

最近,这个话题的热度已经不仅局限在互联网领域了,正在逐渐拓展到其他领域,成为全社会关注的话题。

那么,什么是大数据?大数据的特点是什么?为什么现在才有大数据?大数据的应对方法是什么?大数据时代能带来哪些变革?这些变革对于审计工作有什么影响?这一系列问题都有待回答,本文将量力而行,给以上问题做出初步回答。

一、什么是大数据毫无疑问,大数据是一个新鲜概念。

对于这样的新鲜概念,其定义也要经过时间的积淀才能明确。

就目前而言,业界公认度高的是IDC的“ 4V” 理论,即Volume(数据量大)、Variety(数据多样性)、Velocity(数速大)和Value(价值密度低),在此基础上,IBM重新定义并完善了“ 4V”理论,将最后一个“ V” 改而解释为Veracity(真实性)。

但大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理,从大数据中提取、挖掘对业务发展有价值的潜在知识,找出趋势,做出预测性分析。

二、为什么现在才有大数据可以从数据的产生、采集、存储三个步骤来分析:一是生产信息的门槛降低了。

要想知道现在数据产生有多方便,可以首先回顾一下以前的数据产生方式:20年前,如果想让别人知道你的观点,只能是向报纸投稿,或者出版著作,这要求的写作技能太高了,对普通人来说是不可能的。

10年前,博客开始流行,稍有写作水准的人都可以发表文章。

4年前,微博大行其道,只要不是文盲,就能玩转这最多只有140个字的小玩意儿。

现在呢,手机拍照,分享到微信朋友圈,已经成为大多数人的新选择,朋友圈甚至都不鼓励用户发纯文本的状态。

在这个时代,几乎人人都可以玩转朋友圈了。

可以看到,每一次变革都极大地降低了生产信息的难度,极大地扩充了具备生产数据能力的人群。

所以说,技术的进步给了普通人发表观点的机会。

大数据时代读书笔记

大数据时代读书笔记

大数据时代——读书笔记一、引论1.大数据时代的三个转变:1.可以分析更多的数据,处理和某个现象相关的所有数据,而不是随机采样2.不热衷于精确度3.不热衷与寻找因果关系2.习惯:用来决策的信息必须是少量而精确的。

实际:数据量变大,数据处理速度变快,数据不在精确3.危险:不是隐私的泄露而是未来行动的预判二、大数据时代的思维变革1.原因:没有意识到处理大规模数据的能力,假设信息匮乏,发展一些使用少量信息的技术(随机采样)1.1086年末日审判书英国对人的记载2.约翰·格朗特:统计学,采样分析精确性随着采样随机性上升而大幅上升,与样本数量关系不大3.1890年,穿孔卡片制表机,人口普查4.随机采样有固有的缺陷1.采样过程中存在偏差2.采样不适合考察子类别3.只能得出实现设计好的问题的结果4.忽视了细节考察2.全数据模式:样本=总体1.通过异常量判断信用卡诈骗2.大数据分析:不用随机抽样,而是采用所有数据。

不是绝对意义而是相对意义。

(Xroom信用卡诈骗,日本相扑比赛)3.多样性的价值(社区外联系很多》社区内联系很多)3. 混杂性而非精确性1. 葡萄树温度测量:数据变多,虽然可能有错误数据,但总体而言会更加精确。

2. 包容错误有更大好处3. word语法检查:语料库》算法发展4. google翻译:让计算机自己估算对应关系,寻找成千上万对译结论:大数据的简单算法好过小数据的复杂算法5. 大数据让我们不执著于也无法执着于精确6. MIT的通货紧缩软件:即时的大数据7. 标签:不精确8. 想要获得大规模数据的好处,混乱是一种标准途经9. 新的数据库:大部分数据是非结构化的,无法被利用10. Hadoop:与mapreduce系统相对的开源式分布系统,输出结果不精确,但是非常快结论:相比于依赖小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事情的真相。

“部分”和”确切“的吸引力是可以理解的。

创新思维与方法第4章 大数据时代的思维变革

创新思维与方法第4章  大数据时代的思维变革

4.1.1 天文学——信息爆炸的起源
互联网公司更是要被数据淹没了。谷歌公司每天要处理超过24拍字节(PB, 250字节)的数据,这意味着其每天的数据处理量是美国国家图书馆所有纸质 出版物所含数据量的上千倍。Facebook(脸书)这个创立不过十来年的公司, 每天更新的照片量超过1 000万张,每天人们在网站上点“赞”(Like)按钮 或者写评论大约有三十亿次,这就为Facebook公司挖掘用户喜好提供了大量 的数据线索。与此同时,谷歌子公司YouTube 每月接待多达8亿的访客,平均 每一秒钟就会有一段长度在一小时以上的视频上传。推特(Twitter) 上的信 息量几乎每年翻一番,每天都会发布超过4亿条微博。
4.1.2 大数据的定义
所谓大数据,狭义上可以定义为:用现有的一般技术难以管理的大量数据的 集合。对大量数据进行分析,并从中获得有用观点,这种做法在一部分研究 机构和大企业中,过去就已经存在了。
现在的大数据和过去相比,主要有三点区别: 第一,随着社交媒体和传感器网络等的发展,在我们身边正产生出大量 且多样的数据; 第二,随着硬件和软件技术的发展,数据的存储、处理成本大幅下降; 第三,随着云计算的兴起,大数据的存储、处理环境已经没有必要自行 搭建。
4.1.1 天文学——信息爆炸的起源
图4-1 美国斯隆数字巡天望远镜
4.1.1 天文学——信息爆炸的起源
天文学领域发生的变化在社会各个领域都在发生。2003年,人类第一次破译 人体基因密码的时候,辛苦工作了十年才完成了三十亿对碱基对的排序。大 约十年之后,世界范围内的基因仪每15分钟就可以完成同样的工作。在金融 领域,美国股市每天的成交量高达70亿股,而其中三分之二的交易都是由建 立在数学模型和算法之上的计算机程序自动完成的,这些程序运用海量数据 来预测利益和降低风险。

大数据时代下的思维方式变革

大数据时代下的思维方式变革

大数据时代下的思维方式变革一、本文概述随着信息技术的飞速发展,大数据已经渗透到我们生活的方方面面,对各行各业产生了深远的影响。

在这个背景下,大数据时代的思维方式变革成为了我们必须面对的重要议题。

本文旨在探讨大数据时代下思维方式的转变,分析这种变革对我们认识世界、解决问题和决策制定的影响,并探讨如何在新的时代背景下适应并应用这种思维方式。

我们将从大数据的基本特征入手,解析大数据如何改变了我们对世界的认知,以及这种认知变革如何进一步推动我们思维方式的转变。

我们还将探讨大数据时代下思维方式变革的挑战与机遇,以及如何在实践中应用这种新的思维方式,以更好地应对未来的挑战。

二、大数据时代的特征在大数据时代的浪潮中,我们见证了一场前所未有的思维方式变革。

这个时代,数据无处不在,无时不有,且规模庞大,类型多样。

大数据时代的特征主要体现在以下几个方面:数据量级的爆炸式增长。

随着物联网、云计算等技术的广泛应用,数据生成的速度和规模呈现出前所未有的增长态势。

这种增长不仅体现在数据的数量上,更体现在数据的维度和复杂性上。

数据类型的多样性。

大数据时代,数据的来源和形式日益多样化,包括结构化数据、半结构化数据和非结构化数据等。

这些不同类型的数据相互交织,形成了复杂的数据网络,为我们的分析和决策提供了更为丰富的信息来源。

数据关联性的重视。

在大数据时代,人们开始更加注重数据之间的关联性,而非简单的因果关系。

这种思维方式的转变,使得我们能够在海量数据中发现隐藏的模式和趋势,为预测未来提供可能。

数据处理的高效性。

随着计算能力的提升和算法的优化,大数据处理变得更加高效和精确。

这使得我们能够在较短的时间内完成大规模数据的分析和挖掘,为实时决策提供了有力支持。

数据价值的挖掘和利用。

大数据的价值在于其潜在的信息和知识。

通过深度分析和挖掘,我们可以从数据中提取出有价值的信息,为企业的决策和创新提供有力支持。

同时,数据也成为了一种新的资产和资源,为经济的发展和社会的进步提供了新的动力。

《大数据时代:生活、工作与思维的大变革》读书笔记1

《大数据时代:生活、工作与思维的大变革》读书笔记1

《⼤数据时代:⽣活、⼯作与思维的⼤变⾰》读书笔记1 在北航读⼤数据也已经有⼀年多了,但是我感觉到⾃⼰始终没能够从宏观的⽅⾯想清楚⼤数据为什么是趋势、效率如何评估、怎么⽤才最好。

这可能是因为⾃⼰还没有学习到位、思考的少;也可能是因为诸如机器学习、云计算、数据挖掘以及R语⾔⼯程实践这样的课程涉及的都是具体的技术,从技术谈起最好,⽽专门花费⼀门课去谈概论在这个阶段略显多余;还有可能是因为⼤数据这个领域太新太繁杂,很多东西渗透在技术其间⽽不好单独剥离⽽出,所以避⽽不谈让你⾃⾏品味悟道......这就激发了我去读关于⼤数据概论的书籍。

这本《⼤数据时代:⽣活、⼯作与思维的⼤变⾰》很符合我的需求,因为要的就是站在⼀个全新的思维层⾯去思考⾃⼰到底在学些什么,以后会做些什么,事实上这本书也就是这样写的。

本书在引⾔部分开门见⼭的点明作者观点,即⼤数据开启了⼀次重⼤的时代转型;在正⽂部分从三个主要的⽅⾯探讨了⼤数据时代的特性、规则和优势,即⼤数据时代所带来的思维变⾰、商业变⾰和管理变⾰;在结语章节预测了⼀下⼤数据的未来。

全书结构清晰、⽂字通俗易懂,本书的两位作者,英国⽜津⼤学⽹络学院的教授维克托迈尔-舍恩伯格、《经济学⼈》数据编辑肯尼恩-库克耶,举了很多的例⼦,在每个例⼦⾥都着重对⽐了⼤数据时代前后的不同,让⼈读后⾼下⽴判。

1、引⾔——⼀场⽣活、⼯作与思维的⼤变⾰ ⼤数据,变⾰公共卫⽣:在甲型H1N1禽流感⼤爆发的时候,美国也是要求医⽣在发现新型流感病例的时候告知疾病控制与预防中⼼。

但是问题在于,这种统计疫情的⽅式会有⼀定的延迟。

⽐如说,⼈们可能患病多⽇受不了了才去医院、医⽣把情况确认并传给疾控中⼼需要时间、疾控中⼼每周才进⾏⼀次数据汇总等等,延迟的时间往往在⼀到两周。

对于甲流这种飞速传播的致命疾病来说,信息滞后两周是致命的,因为这种滞后会导致公共卫⽣机构在疫情爆发的关键时期⽆所适从。

⾯对这个问题,⾕歌的⼯程师们发表了⼀篇引⼈注⽬的论⽂,论⽂不仅解决了这个信息迟滞的问题,⽽且在疫情爆发的初期就能够发现源头,定位传播辐射轨迹,精确程度可以到特定的地区和州。

大数据时代——生活、工作与思维大变革

大数据时代——生活、工作与思维大变革
; 未来:物联 + 淘58宝0.天03猫亿双元1人1那民一币天;营业额达191亿人民币。中国网的小每数商天据产将品生 会城全年成交额才 + 累积起来,互联网一天之内产生的信息总量,可是以海装量满的1。.68亿张DVD光盘。 + ……
一、认识大数据(续)
大数据处理技术让大数据能够为我所用, 大数据时代终于开启了。
大数据与云计算
大数据与云计算
• 云计算的模式是业务模式,本质是数据处理技术。 (肉体+灵魂)
• 数据是资产,云为数据资产提供存储、访问和计算。
• 盘活资产,使其为国家治理、企业决策、个人生活服 务,是大数据核心议题,也是云计算的最终方向。
如果将云计算与大数据进行一些比较,最明显的区分在两个方面:
第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务 。然而大数据必须有云作为基础架构,才能得以顺畅运营。
第二,大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是 一个进阶的IT解决方案。而大数据是CEO关注的、是业务层的产品,而大数 据的决策者是业务层。
+ 脸书此次幕后试验的曝光,是一个警醒的明示。用户、互联网企业 以及政府之间的权衡,是一个当即也是长期去努力协作的过程。在 个人隐私和道德制约的前提下,“大数据“时代,不是一个滥用数 据的时代,而是一个需要善用数据的时代。
+ 大数据属于谁?
+ 数据独裁
卓越的才华并不依赖大数据, 大数据扼杀创新。 如果对不可量化的事物进行量化, 我们将失去全面了解该事物的机会。
月:收录数据235TB ) + 1EB = 4000倍美国国会图书馆存储的信息量
一、认识大数据(续)
+ 每天有2940亿封电子邮件发出,如果这些是纸质信件,在美国需要花费两年 时间处理;

《大数据时代》的读后感范文4篇

《大数据时代》的读后感范文4篇
《大数据时代》的读后感4
如今说起新媒体和互联网,必提大数据,似乎不这样说就OUT了。而且人云亦云的居多,不少谈论者甚至还没有认真读过这方面的经典著作——舍恩佰格的《大数据时代》。维克托·迈尔——舍恩伯格何许人也?他现任牛津大学网络学院互联网研究所治理与监管专业教授,曾任哈佛大学肯尼迪学院信息监管科研项目负责人。
2)变革商业大数据所带来的商机,同时会衍生出一系列与大数据相关的商业机遇与商业模式,数据的潜在价值会源源不断地发挥作用可以容易想到的是未来有专门的数据收集,数据分析,数据生成的一条数据产业链产生。影响最大的,当然是IT公司
3)变革思维书中所说:因为有海量的数据作基础,未来,我们可能更关注数据的相关,而非精细度。对这条,本人还是持保留意见的。
同样,在公共事业类的政府机构,大数据的作用也许也能很好的发挥。反而感觉在大多数中小型企业应用大数据,似乎有点大题小作。书中说:大数据是企业竞争力。诚然,数据是一个企业的核心无形资源(利用得好的话),但是否所有的数据,或都换则方式说:所有的企业都以大数据为竞争力,是否真的合适么?是否在中小企业中,会显示得小题大做呢?
数据之大,漫无边际,无穷无尽,包含着我们人类的一呼一吸,一举一动。处在大数据帝国的前夜,眺望星空,这是个最好的时代,因为数据时代转折的重要性,不亚ቤተ መጻሕፍቲ ባይዱ黑猩猩站立起来行走划时代,很多科幻片里的场景会出现在我们的日常;这也会是个最坏的时代,因为人类最终会为此走向哪里,只有苍穹能知道!
当我们拥有海量数据时,绝对的精准不再是我们追求的主要目标,我们乐于接受数据的纷繁复杂,也只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。——《大数据时代》
在小数据时代人们只关心因果关系,对相关关系认识不足,大数据时代相关关系举足轻重,如何强调都不为过,但不应该完全排斥它。大数据从何而来?为何而用?如果我们完全忽略因果关系,不知道大数据产生的前因后果,也就消解了大数据的人文价值。如今不少学者为了阐述和传播其观点往往语出惊人,对旧有观念进行彻底的否定。

大数据时代生活工作思维的大变革

大数据时代生活工作思维的大变革
• Google处理了5000万条历史记录 、4.5亿个不同的数学模型。
什么是大数据
• Farecast是一个对机票价格 进行预测的公司,帮助消费 者抓住最佳购买机票的时机 ,使乘客节省很多钱。
• 最初预测系统建立在41天之 内的12000个价格样本基础上 ,数据是从旅游网站上抓取 的,如今已经拥有超过2000 亿条飞行记录。
➢允许不精确 ➢大数据的简单算法比小数据的复杂算法更有效 ➢纷繁的数据越多越好 ➢混杂性,不是竭力避免,而是标准途径 ➢新的数据库设计的诞生
一、大数据时代的思维变革—更好
“更好”——不是因果关系,而是相关关系 知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我
们不必非得知道现象背后的原因,而是要让数据自己“发声”。
➢数据创新1:数据的再利用 ➢数据创新2:重组数据 ➢数据创新3:可扩展数据 ➢数据创新4:数据的折旧值 ➢数据创新5:数据废气 ➢数据创新6:开放数据 ➢给数据估值
二、大数据时代的商业变革—角色定位
“角色定位”——数据、技术与思维的三足鼎立 微软以1.1亿美元的价格购买了大数据公司Farecast,而两年后谷歌则
➢关联物,预测的关键 ➢“是什么”,而不是“为什么” ➢改变,从操作方式开始 ➢大数据,改变人类探索世界的方法
二、大数据时代的商业变革
二、大数据时代的商业变革—数据化
“数据化”——一切皆可“量化” 大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信
息技术变革随处可见,但是如今信息技术变革的重点在“T”(技术)上 , 而不是在“I”(信息)上。现在,我们是时候把聚光灯打向“I”,开始 关 注信息本身了。
• 系统只推测机票的价格何时 最便宜,不关心是什么原因 导致的价格下降。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据的简单算法 数据量 简单算法 较优算法
小数据的复杂算法 500万 75 86 10亿 95 94
• 无所不包的google翻译系统
– 2006年 Google 上万亿的语料库 翻译 – 2012涵盖了60多种语言 14种语音输入
纷繁的数据越多越好
• 大数据时代要求我们重新审视精确性的优 劣。
– 第一个折中是,我们默认自己不能使用更多的数据, 所以我们就不会去使用更多的数据。但是,数据量的 限制正在逐渐消失,而且通过无限接近“样本=总体” 的方式来处理数据,我们会获得极大的好处。 – 第二个折中出现在数据的质量上。在小数据时代,追 求精确度是合理的。因为当时我们收集的数据很少, 所以需要越精确越好。如今这依然适用于一些事情。 但是对于其他事情,快速获得一个大概的轮廓和发展 脉络,就要比严格的精确性要重要得多。
混杂性,不是竭力避免,而是标准途径
• 在许多技术和社会领域,我们更倾向于纷繁杂乱。
– 分类法和索引法 – 标签
• “欣赏不精确而不会假装精确” • 据估计,只有5%的数字数据是结构化的妾适用于传 统数据。 • 数据库设计
– 传统数据库引擎要求数据高度精确和准确排列。 – 新的数据库设计的诞生
大数据与传统数据库的区别
• 混乱
– 错误的数据 – 格式的不一致
“大数据”通常用概率说话,而不是板着“确凿无 疑”的面孔。
计算机的速度
• 摩尔定律
– 每块芯片上晶体管的数量每两年就会翻一番。
• 驱动各类系统的算法
– 在很多领域算法带来的进步胜于芯片进步
• 大数据
– 2000年,微软研究者,改进word语法检查的 方法,数据的增多提高了算法的表现。 – 发展算法还是丰富语料库?
1. 大数据时代的思维变革
1. 大数据时代的思维变革——更杂ห้องสมุดไป่ตู้
“更杂”——不是精确性,而是混杂性 执迷于精确性是信息缺乏时代和模拟时代的产物。只有 5%的数据是有框架且能适用于传统数据库的。如果不能接 受混乱,剩下95%的非框架数据都无法被利用,只有接受 不精确性,我们才能打开一扇从未涉足的世界的窗户
• 这家公司帮助决策者判断是否应该向某些拥有不良 信用记录的人提供小额短期贷款。 • 2012年,让ZestFinance引以为豪的就是,它的贷 款拖欠率比行业平均水平要低三分之一左右。唯一 的得胜之道还是拥抱混杂。
• 据估计,只有5%的数字数据是结构化的且能适用 于传统数据库。如果不接受混乱,剩下95%的非结 构化数据都无法被利用。
允许不精确
大数据的简单算法比小数据的复杂算法更
有效
纷繁的数据越多越好
混杂性,不是竭力避免,而是标准途径
新的数据库设计的诞生
允许不精确 • 对“小数据”而言,最基本、最重要的要求是减 少错误,保证质量。 • 允许不精确
– 容错标准的放松能获取更多数据 – 大量数据创造更好的结果
纷繁的数据越多越好
• 错误性并不是大数据本身固有的。它只是 我们用来测量、记录和交流数据的工具的 一个缺陷。如果说哪天技术变得完美无缺 了,不精确的问题也就不复存在了。 • 实例:麻省理工与通货紧缩预测软件
– 美国劳工统计局:
• 90个城市 80000价格信息 两亿五千万美金
– MIT
• 每天50万种商品的价格信息收集
• 传统数据库的设计要求在不同的时间提供一致的结 果。 • 大数据是在传统数据库学科的分支——数据仓库与 数据挖掘的基础上进一步发展起来的。但有两点比 较主要的不同:
1. 结构化程度
• 传统数据库保存的是结构化或者半结构化的数据,以二维表或 者标准XML文件的方式存储数据,由于结构清晰,处理相对容 易; • 大数据面向的是一切计算机可以存储的数据格式,包括互联网 上的各种网页、图片、音频、视频,包括办公文档、报表,包 括人们在搜索引擎中输入的关键词、在社交网络中的留言、喜 好,也包括各种传感器自动收集的监控结果等等,显然不同的 格式处理起来更加困难。
大数据与传统数据库的区别
– 异常数据的处理
• 传统数据库通常把异常数据先剔除,应用在需要高 精确度的领域,如银行对每个账户的管理; • 大数据则允许异常数据存在,更多应用在预测方面 ,找出大量数据中隐藏的关联关系,少量异常数据 不会对总体结果产生影响。
• 实例
– ZestFinance,一个由谷歌前任首席信息官道 格拉斯·梅里尔创立的公司,用自己的经验再次 验证了“宽容错误会给我们带来更多价值” 。
– 英国石油公司(BP)切里波因特(Cherry Point)炼 油厂里,无线感应器遍布于整个工厂,形成无形的网 络,能够产生大量实时数据。 – 酷热的恶劣环境和电气设备的存在有时会对感应器读 数有所影响,形成错误的数据。 – 数据生成的数量之多可以弥补这些小错误。 – 随时监测管道的承压使得BP能够了解到,有些种类的 原油比其他种类更具有腐蚀性。以前,这都是无法发 现也无法防止的。
实例:Hadoop与VISA的13分钟
• Hadoop?
– 是与谷歌的Mapreduce系统相对应的开源式分 布系统的基础架构。 – 把大数据分成小模块然后分配给其他机器进行 分析。 – 假定数据无法移动,本地处理 – 结果不精确
• VISA使用Hadoop,能够将处理两年内730亿 单交易所需的时间,从一个月缩短为13分 钟。
相关文档
最新文档