大数据工程师必读手册
大数据应用技术手册

大数据应用技术手册随着信息时代的到来,大数据已成为当今社会最热门的话题之一。
大数据具有海量、高维、多样化等特点,它的出现使数据得到了更好的发挥与应用。
随着大数据技术和应用的快速发展,各种技术手册也在不断涌现。
而本手册旨在为读者提供一份全面、实用、易学的大数据应用技术手册。
第一章:大数据基础1.1 大数据概述随着智能化时代的到来,越来越多的数据涌入我们的视野,产生了“大数据”的概念。
大数据是指结构化和非结构化的海量数据,其中包含了传统数据存储技术难以处理的数据集合。
1.2 大数据的特征大数据具有海量、高维、多样化、时效性等特点。
其中,海量性意味着数据量非常大,可能会超过计算机存储能力;高维性则意味着数据包含很多属性,需要进行维度约简和预处理;多样性是指数据来源多样,数据形式多样,数据质量多样等等。
1.3 大数据的分类大数据可分为结构化数据和非结构化数据。
结构化数据是基于数据库、关系型数据库等结构化存储方式的数据,它们可以方便地进行查询和处理。
而非结构化数据则是指没有固定格式的数据,例如文本、音视频等。
第二章:大数据处理技术2.1 分布式存储系统分布式存储系统是大数据处理的基础设施之一,包括Hadoop HDFS、Hbase、Cassandra等。
分布式存储系统可以将数据分散存储在多台计算机节点上,保证了数据的可靠性和可扩展性。
2.2 分布式计算框架分布式计算框架是大数据处理的另一重要基础设施,例如Hadoop MapReduce、Spark、Flink等。
分布式计算框架利用计算机集群中的多个计算节点协同处理大数据,具有分布式扩展性、高容错性等优点。
2.3 数据预处理技术数据预处理是指在进行数据分析前对数据进行处理,例如数据清洗、去重、归一化、特征选取等。
数据预处理可以有效提高数据分析的准确性和效率。
第三章:大数据分析技术3.1 数据挖掘技术数据挖掘技术是指用于发现数据中隐含的知识或者规律的方法和工具,例如关联规则挖掘、分类、聚类等。
大数据书单推荐(应用类)

大数据书单推荐(应用类)当前大数据的书籍,琳琅满目,有些也确实都是空理论,无案例无严谨的思维。
看书学习比较遵循应用为导向的原则,要学习,就要看你在什么岗位,以及要解决什么样的问题,有针对性的去学习,才是最有效的学习。
当前市面上的关于大数据的书籍,主要有三大类。
第一大类:理论类。
理论层面的书籍,比如《大数据时代》、《数据之巅》。
这一类的书籍,主要的内容是,大数据时代来了,大数据多么地重要,大数据能够解决各方面的问题,大数据战略多么重要,大数据如何变革,以及大数据的管理和运营等等。
对于大数据要学习首先要建立认同感,这两本书能很好的“洗脑”。
不用看太多,只要看一两本就差不多了,总结起来就是一句话:重视大数据,引导构建企业的大数据战略,实现基于大数据的商业变革。
第二大类:技术类。
技术层面的书籍,比如《Hadoop技术内幕》系列。
这一类的书籍,主要是指系统技术类,在构建大数据系统时,系统如何运作,各系统组件的设计目标、框架结构、适用场景、工作原理、运作机制、实现功能等等。
这类书籍,适合于IT系统部,开发部的技术人员。
他们需要明白系统的运作机制,利用系统来实现大数据的应用开发,以及系统运维优化等。
第三大类:应用类。
应用层面的书籍,比如《数据挖掘技术》、《基于SPSS的数据分析》等等。
这一类的书籍,主要是指应用技术类,告诉你如何应用工具和方法,从海量数据中提取有用的信息,来解决真实的业务问题。
这类书籍,适合于业务部门、市场营销部门及与业务结合比较紧密的人员。
他们更关注业务问题的解决,围绕业务问题来构建分析和解决方案。
除了前面的理论层面,要深入大数据,则要考虑你本身的发展方向。
可以参考下方的大数据职位体系和大数据职位发展通道,不同的发展方向,你的学习内容也应该是不同的。
大数据职位体系大数据职位发展通道下面从应用层面来推荐大家如何学习大数据和数据分析,由浅入深。
《谁说菜鸟不会数据分析》——先把excel学号再说!这是我看过比较简单比较容易入门级的数据分析书,非常适合于初学者。
大数据技术基础比较好的书籍

大数据技术基础比较好的书籍
1.《Hadoop权威指南》:该书详细介绍了Hadoop的相关知识和应用,是Hadoop入门的好教材。
2. 《Spark快速大数据分析》:该书介绍了Spark的相关知识和应用,具有很高的实用性。
3. 《大数据处理:机器学习与数据科学》:该书介绍了大数据处理和机器学习的相关知识,适合初学者和高级用户。
4. 《数据仓库工具箱》:该书详细介绍了数据仓库的相关知识和应用,包括ETL、OLAP、数据挖掘等方面。
5. 《大数据时代》:该书从大数据时代的背景、技术、应用等方面进行了全面的介绍,是了解大数据时代的好入门书籍。
6. 《大数据与云计算技术》:该书介绍了大数据和云计算的相关知识和应用,是了解云计算和大数据的好教材。
7. 《数据挖掘导论》:该书详细介绍了数据挖掘的基础知识和应用,包括分类、聚类、关联规则等方面。
8. 《NoSQL数据库技术与应用》:该书介绍了NoSQL数据库的相关知识和应用,适合想了解和应用NoSQL数据库的用户。
9. 《R语言实战:数据分析与数据挖掘》:该书介绍了R语言的相关知识和应用,适合初学者和高级用户。
10. 《Python数据科学入门》:该书介绍了Python语言的数据科学应用,包括数据分析、数据挖掘等方面,适合初学者和高级用户。
- 1 -。
《大数据及人工智能》应知应会手册

1.1大数据根底学问1.1.1大数据应用流程数据源数据采集数据建模数据加工1.1.2大数据数据采集:flume〔日志收集系统〕Kafka(分布式公布订阅消息系统)1.1.3 Flume 介绍:Flume 是Cloudera 供给的一个高可用的,高牢靠的,分布式的海量日志采集、聚合和传输的系统,Flume 支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume 供给对数据进展简洁处理,并写到各种数据承受方〔比方文本、HDFS、Hbase 等〕的力气。
1.1.3.1 Flume 核心概念:Client:Client 生产数据,运行在一个独立的线程。
Event:一个数据单元,消息头和消息体组成。
〔Events 可以是日志记录、 avro 对象等。
〕Flow: Event 从源点到达目的点的迁移的抽象。
Agent:一个独立的Flume 进程,包含组件 Source、 Channel、 Sink。
〔Agent 使用JVM 运行Flume。
每台机器运行一个agent,但是可以在一个agent中包含多个sources和sinks。
〕Source:数据收集组件。
〔source 从Client 收集数据,传递给Channel〕Channel:中转Event 的一个临时存储,保存由Source 组件传递过来的Event。
〔Channel 连接 sources 和 sinks ,这个有点像一个队列。
〕Sink:从 Channel 中读取并移除Event,将 Event 传递到FlowPipeline 中的下一个Agent 〔假设有的话〕〔Sink从Channel收集数据,运行在一个独立线程。
〕1.1.3.2 Flume 的牢靠性:Flume 供给了三种级别的牢靠性保障,从强到弱依次分别为:end-to-end〔收到数据agent 首先将event写到磁盘上,当数据传送成功后,再删除;假设数据发送失败,可以重发送。
大数据知识手册

大数据知识手册作为2008年提出的概念,随着互联网的发展,大数据逐渐被大众所知晓,而由于人与互联网特别是移动互联网的交互不断增多,大数据和人们生活的方方面面越来越紧密联系起来。
什么是大数据大数据(big data),指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
大数据的特性业界常用四个V来说明大数据的特征:数据体量巨大(Volume)数据类型繁多(Variety)价值密度低(Value)处理速度快(Velocity)同时,大数据还具有可变性(Variability)真实性(Veracity)复杂性(Complexity)的特点。
大数据的价值现代社会是个飞速发展的社会,大数据就是社会发展的产物,它拥有着巨大的开发价值,各行各业的公司已经开始将目光聚焦在大数据上,并采取一定行动对大数据整合开发。
京东集团董事长刘强东就曾描述过如何在物流领域利用大数据:“前一段对某手机品牌进行首发时,最快的消费者13分钟就能收到货,这是京东利用大数据的分析,已经提前把货备到了小区的边上。
京东第一次利用大数据分析,改变了过去送到库房,被动接受订单,最后有了订单再生产,然后再配送到消费者家里去。
”阿里巴巴董事长马云也曾在演讲中表示,人类正从IT时代走向DT(Data technology)时代。
而大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。
同时,正在兴起的物联网、移动互联网也参与到了大数据发展的潮流中,进一步增加大数据营销价值。
大数据的安全隐患大数据中包含各种私人或企业的信息,近些年,数据泄露之势愈演愈烈。
无论是个人还是企业,敏感信息的流出都会带来极大的安全隐患。
12306用户信息泄露,大麦网用户账号密码泄露、领英账户信息被贩卖等等,越来越多的数据安全事件在提醒着人们要不断提升信息安全意识。
大数据分析师行业的读书推荐和学习资料

大数据分析师行业的读书推荐和学习资料在当今信息爆炸的时代,大数据分析师的需求日益增长。
作为一项具有前景的职业,大数据分析师的学习和研究需要建立在扎实的基础上。
本文将为大家推荐几本经典书籍,并介绍一些有效的学习资料,帮助您在此领域取得进一步的突破。
一、经典书籍推荐1.《Python数据分析与挖掘实战》该书由麦老师编写,讲解了如何利用Python进行数据的清洗、分析和挖掘。
书中以实际案例为基础,结合代码和分析过程,详细介绍了数据分析的基本技术和方法。
这本书适合初学者,对于掌握Python和数据分析有很大帮助。
2.《R语言实战》R语言在大数据分析领域广泛应用,该书由Hadley Wickham和Garrett Grolemund合著,通过实例讲解了如何使用R语言进行数据分析,其中包括数据整理、可视化和建模等方面。
这本书对于有编程和统计学基础的读者非常友好。
3.《Hadoop权威指南》Hadoop作为大数据处理的基础工具,该书由Tom White编写,详细介绍了Hadoop的体系结构、原理和使用方法。
书中包含了丰富的示例和实战案例,对于理解大数据处理框架和技术非常有帮助。
4.《数据科学中的统计学》该书由Hadley Wickham和Garrett Grolemund合著,讲解了统计学在数据科学中的应用。
书中详细介绍了统计学的原理和方法,并通过实例演示了如何利用统计学方法对数据进行分析和推断。
这本书对于想要深入了解统计学在数据科学中应用的读者非常有价值。
二、学习资料推荐1. CourseraCoursera是一个在线学习平台,提供了许多与大数据分析相关的课程。
这些课程由世界各地的大学和专家教授提供,并且内容涵盖了从基础知识到高级技术的全方位学习。
您可以根据自己的需求和兴趣选择相应的课程,并跟随教学视频和作业进行学习。
2. KaggleKaggle是一个数据科学竞赛平台,您可以在这里参与数据分析和机器学习的竞赛项目。
大数据入门必读经典
大数据入门必读经典作为一位在北风教育从事多年大数据教学的老师,很多学生一上来问得最多的问题就是“大数据可以干什么?零基础可以学习大数据吗?如何学习大数据?有没有好的书籍推荐什么的?”言归正传,要想摆脱大数据小白的标签,首先要从理念上彻底转变,彻底理解大数据思维,并渗透到血液和骨髓中,换句话说,你的世界观是要颠覆的!今天,我就针对这些问题,收集一些好的书籍,罗列给你们,也是希望你们可以系统地了解大数据,感受大数据的魅力。
也欢迎各位资深人士补充……小生感激不尽。
一、入门级1、《大数据时代》[英] 维克托•迈尔•舍恩伯格(Viktor Mayer-Schönberger)/ 周涛译/ 浙江人民出版社/ 2012-12《大数据时代》是国外大数据系统研究的先河之作,本书作者维克托•迈尔•舍恩伯格被誉为“大数据商业应用第一人”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历,早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。
维克托最具洞见之处在于,他明确指出,大数据时代最大的转变就是“放弃对因果关系的渴求,而取而代之关注相关关系”。
也就是说只要知道“是什么”,而不需要知道“为什么”。
这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
本书认为大数据的核心就是预测。
大数据将为人类的生活创造前所未有的可量化的维度。
大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。
书中展示了谷歌、微软、亚马逊、IBM、苹果、facebook、twitter、VISA等大数据先锋们最具价值的应用案例。
让人知道大数据究竟有什么作用。
2、《大数据思维与决策》[美]伊恩·艾瑞斯/ 宫相真/ 人民邮电出版社/ 2014-9-1没有数字就没有真相!传统的社会专家靠直觉,甚至是个人感情好恶来做研究,而未来属于数字。
统计是一个非常强大的研究社会问题的手段。
大数据经典手册_光环大数据培训
大数据经典手册_光环大数据培训大数据经典手册,大数据学习不是一朝一夕就能完成的,最重要的就是要坚持,同时也要好学。
如果学习自控能力不足,还是早点报大数据培训班吧。
给大家介绍一下学习大数据的步骤。
1. 理解数据:单纯的、没有任何背景的数据是没有意义的,也容易让人误解。
数据需要有具体的背景才能说明问题。
数据就像是一种颜色,需要有一个具体的外观才能证明它的存在。
以红色为例,它需要一些具体的外观才能让我们看到,比如红色的汽车、红色的围巾、红色的领带、红色的鞋子或任何红色的东西。
同理,数据也需要和它的环境、内容、模型、方法以及它产生、发生、使用、修改、执行和终止的整个生命周期结合在一起。
我还没发现一个数据科学家和我谈数据的时候不提及像Hadoop、NoSQL、Tableau的技术或其它老牌供应商与流行语。
你需要与你的数据建立亲密的关系,你需要彻底地了解它。
问他人“你的”数据为何出现异常就像是问自己的妻子怀了谁的孩子一样荒谬。
我们在与联合国的合作以及确保学校远离爆炸的相关软件中具备一个独有的优势是:对底层数据的控制力。
当全世界在使用统计图表讨论这些数据时,我们是那些回家体验数据的人,让它融入我们的日常生活,这些数据的价值、细节和增值,是我们不能在其它地方找到的。
对于其它的项目和客户,我们也是同样对待的。
2. 理解数据科学家:不幸的是,“数据科学家”恰好是数据科学这个领域中最容易使人困惑和被误用的词之一。
有人将其联想为知晓世间所有事情的神秘预言家;有人认为他们仅仅是统计学家;少数人认为他们只是一些熟悉Hadoop 和 NoSQL的人;还有人认为他们就是一些会做简单测试或是在管理会议中使用很多晦涩难懂的数学和统计学术语的人。
甚至于,某些人眼中的可视化控制面板,在另一些人看来只是永无止境的ETL(Extract-Transform-Load,数据仓库技术)过程。
在我看来,数据科学家是一类比数据创造者少一些对科学的理解,比数据生成者少一点对数据的理解的人,而他们恰恰是知道如何把这两部分工作融会贯通的人。
大数据开发新手学习指南(经典)
大数据开发新手学习指南(经典)随着互联网的快速发展,大数据技术已经成为了当今世界的热门话题。
大数据技术的应用范围非常广泛,涉及到金融、医疗、零售、物流等各个行业。
因此,学习大数据技术已经成为了许多IT从业者的必备技能之一。
对于新手来说,学习大数据技术可能会感到有些困难,但只要有正确的学习方法和坚定的信心,就一定能够掌握这门技能。
本文将为大数据开发新手提供一份经典的学习指南,帮助他们快速入门大数据开发。
1. 学习大数据基础知识。
在学习大数据开发之前,首先要对大数据的基础知识有一定的了解。
大数据技术主要包括数据采集、数据存储、数据处理和数据分析等方面。
新手可以通过阅读相关的书籍或者在线课程来学习大数据的基础知识,了解大数据的概念、特点、应用场景等内容。
2. 学习编程语言。
大数据开发通常需要掌握一些编程语言,比如Java、Python、Scala等。
对于新手来说,建议先学习一门编程语言,掌握基本的语法和编程思想。
可以通过阅读相关的书籍、参加培训课程或者在线学习平台来学习编程语言。
3. 学习大数据框架。
大数据开发通常会涉及到一些大数据框架,比如Hadoop、Spark、Flink等。
这些框架提供了大数据处理和分析的基本工具和技术。
新手可以通过阅读相关的文档、参加培训课程或者实践项目来学习大数据框架,掌握其基本的使用方法和原理。
4. 实践项目。
学习大数据开发最重要的一点就是要多实践。
新手可以选择一些小型的实践项目,比如数据清洗、数据分析、数据可视化等,通过实践项目来巩固所学的知识和技能。
可以选择一些开源项目或者自己设计一些项目来进行实践。
5. 参与社区。
大数据领域有许多活跃的社区和论坛,新手可以通过参与这些社区来获取更多的学习资源和交流机会。
在社区里可以学习到其他人的经验和技巧,也可以向其他人请教问题。
同时,也可以通过社区来结识一些志同道合的朋友,一起学习和进步。
6. 持续学习。
学习大数据技术是一个持续学习的过程,新手需要不断地学习和更新自己的知识。
数据可视化书本
大数据时代必读的十本书: 谢谢采纳1、《大数据分析:点“数”成金》你现在正坐在一座金矿之上,这些金子或被深埋于备份、存档数据之中,或正藏在你眼前的数据集里,大数据是提升公司效益、大数据是拓展新的商业关系、大数据是制订更直观决策的秘诀所在,大数据足以使你的企业更上一层楼。
你将明白如何利用大数据、分析和驾驭大数据来获得丰厚回报。
如今,大数据已成为企业发展战略中的一枚重要“棋子”,任何组织若想跟上时代的脚步就必须张开双臂拥抱大数据!大数据分析,尽在点数成金!2、《大数据: 战略技术实践》(1)全面剖析当前大数据领域中的主流技术,并配以行业应用实例和一线研发人员的独到见解。
(2)配置精美彩插,多视角完美展现大数据的力量。
(3)学界知名专家、企业领袖联袂作序推荐。
3、《空间大数据信息基础设施》大数据计算是指规模在P级(1015)-E级(1018)-Z级(1021)的极大规模数据处理。
又指传统文件系统、关系数据库、并行处理等技术无法有效处理的极大规模数据计算。
大数据计算是随着网格计算、云计算发展一起来的新一代数据处理技术。
随着国家空间信息基础设施的逐步推进,研究和开发新一代的空间信息基础设施技术成为迫切需求。
大数据是空间信息最为典型的特征。
本书结合大数据计算的最新发展与国家空间信息基础设施建设的发展,系统性的探讨了一系列新一代空间大数据处理的相关技术和体系架构。
4、《大数据:大价值、大机遇、大变革》不管你愿意不愿意,我们每天都在制造和分享大数据;不管你关心不关心,我们已经生活在大数据的包围之中。
大数据,这个在 2012 年突然火爆起来的词汇,我们究竟该如何解读?本书介绍了大数据产生的背景、大数据的特征和大数据的发展趋势,从实证的角度探讨了大数据对社会和商业智能的影响,并认为大数据正影响着商业模式的转变,大数据将带来新的商业机会。
能否对大数据进行处理、对大数据进行分析与整合将成为提升企业核心竞争力的关键!大数据,既是一场大机遇,也将引发一场大变革!5、《云端时代杀手级应用:大数据分析》胡世忠所著的《云端时代杀手级应用(大数据分析)》分什么是大数据、大数据大商机、技术与前瞻3个部分。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
徐晟
阿里云智能计算平台 事业部资深技术专家
摘要:2019 云栖大会大数据 &AI 专场,阿 里云智能计算平台事业部研究员关涛、资深专 家徐晟来为我们分享《AI 加持的阿里云飞天大 数据平台技术揭秘》。本文主要讲了三大部分, 一是原创技术优化 + 系统融合,打破了数据增 长和成本增长的线性关系,二是从云原生大数 据平台到全域云数仓,阿里开始从原生系统走 入到全域系统模式,三是大数据与 AI 双生系 统,讲如何更好的支撑 AI 系统以及通过 AI 系 统来优化大数据系统。
AI 加持的阿里云飞天大数据平台技术揭秘 < 5
放到那个平台上,我们构建了中台体系,在那个时候阿里巴巴的数据进入到腾飞的过 程,每月大概是几百个 PB 的数据涌入到这样的平台里来,那个时候的数据比较小, 大概是数千台的服务器、几百个基架的状态。当时每个月就会有那么多的服务器开始 摆进来,从 2015 年开始,也就是从海量的数据爆炸开始,系统走过这个稳定时期之 后,后续的关键问题是什么?
AI 加持的阿里云飞天大数据平台技术揭秘 < 7
那么,计算力持续升级是如何做到的?如图是我们经常用到的系统升级的三角理 论,最底层的计算模型是高效的算子层和存储层,这是非常底层的基础优化,往上面 要找到最优的执行计划,也就是算子组合,再往上是新的方向,即怎么做到动态调整 与自学习的调优。
我们先来看单一算子和引擎框架的极致优化,我们用的是比较难写难维护的框 架,但是因为它比较贴近物理硬件,所以带来了更极致的性能追求。对于很多系统来 说可能 5% 的性能提升并不关键,但对于飞天技术平台来讲,5% 的性能提升就是 5 千台的规模,大概就是 2 ~ 3 亿的成本。如图做了一个简单的小例子做单一算子的极 致优化,在 shuffle 子场景中,利用 Non-temporal Store 优化 shuffling 中的缓存 策略,在这样的策略上有 30% 的性能提升。
大家知道飞天大数据平台是从 2009 年发展到今天的系统。飞天平台从发展的 角度来讲经历了 2 个阶段,第一个阶段是从 2009 年到 2015 年,那个阶段我们主要 解决的是稳定性问题、可用的问题和异用的问题,从这个角度,到 2015 年的时候我 们完成了一个非常有名的项目叫登月,登月就是把阿里巴巴所有的数据都融合在一起
55
飞天大数据平台机器学习 PAI 最新特性
77
搜索与推荐
88
飞天大数据平台 OpenSearch 最新特性
88
飞天大数据平台 Elasticsearch 最新特性
101
飞天大数据平台智能推荐 AIRec 最新特性
110
开篇
AI 加持的阿里云飞天大数据平台技术揭秘
关涛
阿里云智能计算平台 事业部研究员
6 > AI 加持的阿里云飞天大数据平台技术揭秘
天平台在 2015 年后就是围绕这三个关键性的问题来做工作的。
原创技术优化 + 系统融合
当阿里巴巴的大数据走过 10 万台规模的时候,我们已经走入到技术的无人区, 这样的挑战绝大多数公司不一定能遇到,但是对于阿里巴巴这样的体量来讲,这个挑 战是一直摆在我们面前的。
在 2015 年的时候,我们开始关注到数据的海量增长对系统带来了越来越高的要 求,随着深度学习的需求增长,数据和数据对应的处理能力是制约人工智能发展的关键 问题,我们在给客户聊到一个摆在每个 CIO/CTO 面前的现实问题——如果数据增长 10 倍,应该怎么办?图中数字大家看得非常清晰,非常简单的拍立淘系统背后是 PB 的数 据在做支撑,阿里小蜜客服系统有 20 个 PB,大家每天在淘宝上日常使用的个性化推 荐系统,后台要超过 100 个 PB 的数据来支撑后台的决策,10 倍到 100 倍的数据 增长是非常常见的。从这个角度上来讲,10 倍的数据增长通常意味着什么问题?
大家可以看到,2015 年的时候,我们整个的体系建立起来之后,就开始做各 种各样的 Benchmark,比如 2015 年 100TB 的 Sorting,2016 年我们做 CloudSort,去看性价比,2017 年我们选择了 Bigbench。如图是我们最新发布的数据,在 2017、2018 和 2019 年,每年都有一倍的性能提升,同时我们在 30TB 的规模上比 第二名的产品有一倍的性能增长,并且有一半的成本节省,这是我们的计算力持续上 升的优化趋势。
说到阿里巴巴大数据,不得不提到的是 10 年前王坚博士率领建构的飞天大数据平 台,十年磨一剑,今天飞天大数据平台已是阿里巴巴 10 年大平台建设最佳实践的结晶, 是阿里大数据生产的基石。飞天大数据平台在阿里巴巴集团内每天有数万名数据和算法 开发工程师在使用,承载了阿里 99% 的数据业务构建。同时也已经广泛应用于城市大 脑、数字政府、电力、金融、新零售、智能制造、智慧农业等各领域的大数据建设。
目录
开篇
4
AI 加持的阿里云飞天大数据平台技术揭秘
4
计算存储引擎
19
飞天大数据平台计算引擎 MaxCompute 最新特性
19
飞天大数据平台实时计算 Flink on Kubernetes 最新特性
36
飞天大数据平台 E-MapReduce 4.0 最新特性
43
大数据 & AI 开发平台
55
飞天大数据平台智能开发云平台 DataWorks 最新特性
除了计算模块,它还有存储模块,存储分为 4 个象限。一四象限是存储数据本身 的压缩能力,数据增长最直接的成本就是存储成本的上升,我们怎么做更好的压缩和 编码以及 indexing ?这是一四象限做的相关工作;二三象限是在性能节省上做的相 关工作,我们存储层其实是基于开源 ORC 的标准,我们在上面做了非常多的改进和 优化,其中白框里面都有非常多的标准改动,我们读取性能对比开源 Java ORC 均 快 50%,我们是 ORC 社区过去两年最大贡献者,贡献了 2W+ 行代码,这是我们在 算子层和存储层的优化,这是最底层的架构。