大数据技术基础第一章:大数据技术概述

合集下载

大数据的概念、技术及应用

大数据的概念、技术及应用

大数据的概念、技术及应用1 概述1.1 大数据的概念和特点1.1.1 大数据的基础1.1.2 大数据如何“与时俱进”?1.1.3 大数据发展趋势人工智能物联网结合各个行业的深入1.2 大数据的技术基础1.2.1 从数据仓库开始1.2.2 HADOOP 生态圈1.2.3 与云计算的关系1.2.4 数据运维能力提升1.3 大数据的应用举例1.3.1 大数据提升客户分析能力1.3.2 大数据提升产品分析能力1.3.3 大数据提升管理水平1.3.4 大数据提升各行业“智慧”1.4 大数据下的人工智能(AI)1.4.1 什么是人工智能1.4.2 人工智能改变哪些行业?1.4.3 大数据下的人工智能有何不同?1.4.4 人工智能的“颠覆”1.5 大数据如何精细化管理1.5.1 量化管理的引出1.5.2 大数据如何提升“量化”的维度和深度1.5.3 从艺术到技术1.5.4 自动驾驶到自动管理?1.6 电信企业的大数据“商机”1.6.1 从网络运营到数据运营1.6.2 提炼“内功”1.6.3 提升外部管理能力1.6.4 扩展增值产品运营市场2 大数据的行业解决方案应用案例2.1 基础应用范围2.2 石油行业应用案例2.3 交通行业应用案例2.4 旅游行业应用案例2.5 金融行业应用案例2.6 电信行业应用案例2.7 互联网行业应用案例等3 大数据技术基础3.1 从数据仓库开始3.1.1 数据仓库的“集中”3.1.2 数据仓库的模型标准化3.1.3 大数据的演进3.2 HADOOP 生态圈3.2.1 开源社区概述3.2.2 开源改变了什么?3.2.3 HADOOP 生态圈内容3.2.4 HADOOP 的技术原则3.2.5 HADOOP 的运维3.3 HADOOP 基础3.3.1 HDFS 的原理3.3.2 MAP/REDUCE 原理3.3.3 YARN 原理3.4 HIVE/HBASE 技术3.4.1 HIVE 的原理3.4.2 HBASE 的原理3.4.3 两者的关系3.5 SPARK 技术3.5.1 基本原理。

大数据技术专题研究

大数据技术专题研究


数据源
现代数据处理框架
大数据产业
产业链环节
大数据概述
• 大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合
包含内容
IT基础设施层
包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业, 比如,提供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提 供虚拟化管理软件的微软、思杰、SUN、Redhat等
数据存储技术 数据处理技术 数据可视化技 术 数据安全技术
系统运维技术
两大核心技术
大数据主要技术
大数据
分布式存储 GFS\HDFS BigTable\HBase NoSQL(键值、列族、图形、文档数据库) NewSQL(如:SQL Azure)
分布式处理 MapReduce
关键技术介绍
hadoop
大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、 交通大数据(交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据( 政府部门)、电商大数据(淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据 (、转换、存储和管理等服务的各类企业或产品,比如分布式文件系统( 如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等) 、数据库和数据仓库(Oracle、MySQL、SQL Server、HBase、GreenPlum等) 包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,比如,分布式 计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视 化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等 包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业能电网等行业应用的企业、机构或政府部门 ,比如交通主管部门、各大医疗机构、菜鸟网络、国家电网等

大数据

大数据

大数据大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。

适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。

大数据的定义大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。

大数据的大小经常改变,截至2012年,单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。

在一份2001年的研究与相关的演讲中,麦塔集团(META Group,现为高德纳)分析员道格·莱尼(Doug Laney)指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。

高德纳与现在大部分大数据产业中的公司,都继续使用3V来描述大数据。

高德纳于2012年修改对大数据的定义:“大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最优化处理。

”另外,有机构在3V之外定义第4个V:真实性(Veracity)为第四特点。

大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。

美国在2012年就开始着手大数据,奥巴马更在同年投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油。

数据挖掘(data mining)则是在探讨用以解析大数据的方法。

大数据的特点具体来说,大数据具有4个基本特征:一是数据体量巨大。

百度资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。

有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。

二是数据类型多样。

现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。

大数据技术原理与应用第三版核心知识点

大数据技术原理与应用第三版核心知识点

大数据技术原理与应用第三版核心知识点一、大数据概述1. 大数据定义大数据是指规模巨大、种类繁多的数据集合,这些数据量大到传统数据处理工具无法处理。

2. 大数据特点- 五V特点:大数据具有Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)五个特点。

- 非结构化数据:大部分大数据都是非结构化数据,需要通过特定的技术进行处理和分析。

二、大数据技术基础1. 分布式存储- Hadoop分布式文件系统HDFS:将大数据存储在多个节点上,提高了数据的可靠性和并行处理能力。

2. 分布式计算- MapReduce计算模型:将数据分片并行处理,提高了数据处理的速度和效率。

3. 数据清洗和预处理- 数据清洗:去除噪音数据、填补缺失值、处理异常值等。

- 数据预处理:将数据转换成可供分析的格式,如规范化、归一化等。

三、大数据存储技术1. NoSQL数据库- HBase:面向列的分布式数据库,适用于大规模结构化数据存储。

- MongoDB:面向文档的数据库,适用于存储半结构化数据。

2. 大数据文件格式- Parquet、ORC等列式存储格式:适用于大规模数据存储和分析,能够减少I/O操作。

四、大数据处理技术1. 数据挖掘- 聚类分析、分类分析、关联规则挖掘、异常检测等。

2. 机器学习- 逻辑回归、决策树、支持向量机、神经网络等机器学习算法在大数据中的应用。

3. 实时流式处理- Storm、Flink等实时流式处理框架,在大数据实时处理中的应用。

4. 图计算- 图数据库、图计算框架如Neo4j、GraphX等在大数据图计算中的应用。

五、大数据分析与应用1. 数据可视化- Tableau、Power BI等工具的应用,将大数据分析结果直观展现。

2. 业务智能- 利用大数据分析结果进行商业决策和趋势预测。

3. 个性化推荐系统- 利用用户行为数据进行个性化推荐,提升用户体验。

大数据基础知识

大数据基础知识

大数据基础知识
随着互联网和智能化时代的到来,大数据已成为人们研究和开发新技术、新产品的重要工具和基础。

那么,什么是大数据?大数据有哪些特点?大数据的应用有哪些?让我们一起来学习大数据的基础
知识。

一、什么是大数据?
大数据是指数据量巨大、类型复杂、处理速度快的数据集合。

通常,大数据的数据量在TB或PB级别,而且受众范围广泛,包括企业、政府、科研机构等。

二、大数据的特点
1.数据量大:大数据的数据量通常在TB或PB级别,远远超过传统数据处理的能力。

2.类型复杂:大数据包括结构化数据、半结构化数据和非结构化数据,数据类型多样,难以分析。

3.处理速度快:大数据的处理速度需要快速高效,否则难以满足实时处理的要求。

4.价值高:大数据中蕴含着重要的商业价值、科研价值和社会价值,可以帮助企业、政府等机构做出更好的决策。

三、大数据的应用
1.商业智能:通过大数据的分析,企业可以了解市场需求、产品趋势、竞争对手等商业信息,为业务决策提供支持。

2.营销策略:利用大数据分析,企业可以更有效地实施精准营销,
提高营销效率和效果。

3.医疗健康:大数据可以帮助医疗机构进行疾病预测、诊断和治疗,提升医疗效率和健康水平。

4.公共服务:政府可以利用大数据分析提高公共服务的效率和质量,如城市交通管理、环境保护、安全监控等。

总之,大数据是当今时代的重要资源,具有广泛的应用前景和商业价值。

掌握大数据的基础知识,可以更好地把握时代机遇,实现个人和企业的发展。

大数据技术的基础与应用

大数据技术的基础与应用

大数据技术的基础与应用随着互联网的普及,各种数字数据不断被产生和存储。

这些数据,可以来自社交网络、手机应用、电子商务平台等各个领域,数据的数量庞大,涉及的信息也很广泛。

如何挖掘和利用这些数字信息,成为了当今社会关注的焦点。

大数据技术因此应运而生,并且正迅速发展和普及。

大数据技术是指通过一定的技术手段和方法,对大规模非结构化和半结构化数据进行处理、挖掘和应用的一种数据处理技术。

大数据技术涵盖数据采集、数据存储、数据处理、数据挖掘、数据可视化和数据分析等方面。

同时大数据技术具有高效快速、高容错性、高可扩展性等特点,并能为企业提供全新的商业价值和经济效益。

大数据技术的基础是数据采集和数据存储。

数据采集是指在应用程序中设定规则和参数,以自动化方式从各种数据源中实时或定期地获取信息的过程。

数据源可以是数据库、文本文件、网站、邮件、短信等形式。

要进行数据采集必须确定好数据的来源、格式和获取频率等关键性参数。

简单的数据采集可通过程序来完成,复杂的采集可通过爬虫技术进行。

数据存储是指将采集的数据进行分类、规范化和整合存储的过程。

数据存储方式可以是关系型数据库,也可是非关系型数据库。

非关系型数据库通常被称为NoSQL数据库,其优点是能存储更为复杂的数据形式,支持高并发和高吞吐量。

数据处理是大数据技术的核心部分,主要包括实时计算和批量处理两种形式。

实时计算是指在数据流经过系统时,系统将实时计算并输出结果的方式。

批量处理则是先将要处理的数据集放入到系统中,再对数据进行计算处理。

数据处理的方式和算法也非常多,我在这里只举一个例子,Hadoop是大数据计算的重要工具之一,其框架主要包括Map-Reduce和HDFS两个组件。

Map-Reduce是一种分布式计算模型,能够在分布式环境下完成所有数据处理任务,并将结果汇总完成大数据计算。

HDFS则是Hadoop 的文件系统,可以存储海量数据,并支持数据的分布式存储和扩展。

大数据技术的应用场景也日益广泛,如智慧城市、智能医疗、智能交通、互联网广告投放等领域。

大数据技术基础

通过网络提供软件的模式,用 户无需购买软件,而是向提供 商租用基于Web的软件,来管 理企业经营活动。
云提供商在云端安装和运行应 用软件,云用户通过云客户端 (通常是 Web 浏览器)使用 软件。
云用户不能管理应用软件运行 的基础设施和平台,只能做有 限的应用程序设置。
PaaS 平台既服务
IaaS 基础设施即
信息安全技术
平行计算 分布式计算
负载均衡技术
虚拟化技术
计算机系统
网络技术
网络存储 效能计算
资源配置技术
Page 6
什么云计算
云计算的演进
分布式计算 平行计算 网格计算
效用计算 公用计算 计量收费
网上编程、 网上计算 网上软件
云计算 (计算设 施、开发 平台、软 件应用)
Page 7
云计算基本思路和技术成分
思路:分布与集中技术的有机结合 +虚拟与实施理念的对外服务
三种基本服务性系统架构
PaaS 平台既服务
IaaS 基础设施即
服务
SaaS 软件既服务
Page 8
云计算基本思路和技术成分
IaaS (设施即服务)
通过互联网获取计算机基 础设施方面的服务。
计算机、存储空间、 网义:
IT基础设施、资源、需求性服务的交付使用模式
狭义的定义:
云计算是一种通过Internet以服务的方式提供动态可伸 缩的虚拟化的资源的计算模式。
Page 5
什么云计算
是分布式计算、并行计算、效用计算、网络存储、 虚拟化、负载均衡等传统计算机和网络技术发展 融合的产物
云计算
网格技术
Page 14
谢谢观赏!
page11云计算的特点技术特征资源配置动态化扩展化需求服务智能化自助化用户使用便捷化高效化项目服务可计化优质化设施资源虚拟化共享化page12云计算的价值应用价值和潜力提高生产效率降低成本节省能源可持续发展的有效手段改变it现状的应用模式带动传统产业的升级改造转型调整产业经济结构促进商业产业事业模式发生变化page13云计算面临的挑战技术方面虚拟技术安全技术资源管理开放式技术社会文化对虚拟设施的理解对安全信息的重视对共享资源的保护规范标准化理念page14谢谢观赏

(完整)大数据技术与应用基础-教学大纲

(完整)大数据技术与应用基础-教学大纲编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望((完整)大数据技术与应用基础-教学大纲)的内容能够给您的工作和学习带来便利。

同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。

本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为(完整)大数据技术与应用基础-教学大纲的全部内容。

《大数据技术与应用基础》教学大纲学时:60代码:适用专业:制定:审核:批准:一、课程的地位、性质和任务大数据技术的发展,已被列为国家重大发展战略。

而在过去的几年里,无论是聚焦大数据发展的《促进大数据发展行动纲要》,还是《“十三五”规划》中都深刻体现了政府对大数据产业和应用发展的重视。

目前国内大数据发展还处于加速期、转型期,数据与传统产业的融合还处于起步阶段,各行业对大数据分析和挖掘的应用还不理想。

但随着市场竞争的加剧,各行业对大数据技术研究的热情越来越高,在未来几年,各领域的数据分析都将大规模应用。

本课程在注重大数据时代应用环境前提下,考虑大数据处理分析需求多样复杂的基本情况,从初学者角度出发,以轻量级理论、丰富的实例对比性地介绍大数据常用计算模式的各种系统和工具.考虑到当前大数据发展处于起步并逐步赶超先进的阶段,其应用领域丰富广泛,在教学过程中应注重掌握大数据分析的实践操作.本课程通过丰富简单易上手的实例,让学生能够切实体会和掌握各种类型工具的特点和应用.二、课程教学基本要求1. 了解大数据的发展和基本概念,理解并掌握大数据的特征及主要技术层面。

2。

掌握Scrapy环境的搭建,了解网络爬虫获取数据的过程,熟悉爬虫项目的创建。

3。

深刻了解hadoop的基础理论,理解并掌握Hadoop单机及集群环境的部署方法。

大数据技术的基础理论和应用

大数据技术的基础理论和应用近年来,随着互联网技术的不断发展,大数据技术逐渐走进人们的视野。

大数据技术是指通过收集、存储、处理和分析大量的数据,从而发现其中的规律和关联性,进而为企业和政府决策提供支持。

本文将从大数据技术的基础理论和应用方面进行论述。

一、大数据技术的基础理论1、数据挖掘技术数据挖掘技术是大数据技术的重要组成部分。

它通过构建模型、应用统计学和机器学习算法等方式,从大量的数据中提炼有用的信息,实现知识发现和预测。

数据挖掘技术主要包括分类、聚类、关联规则和异常检测等基本方法,可以帮助企业和政府发现新的商业机会和决策洞见。

2、云计算技术云计算技术是大数据技术的支撑基础之一。

它通过虚拟化技术,将计算资源和数据存储在互联网上的数据中心中,实现计算能力的共享和弹性伸缩。

云计算技术能够提高计算效率和降低成本,为大数据分析提供强大的计算支持。

3、分布式计算技术分布式计算技术是大数据技术的另一个关键技术。

它将计算任务分散到多个计算节点中,使得每个节点只需处理部分数据和任务,从而提高计算效率和可靠性。

分布式计算技术主要包括MapReduce框架和分布式数据库等技术,能够满足大数据处理的高效性和可扩展性要求。

二、大数据技术的应用领域1、金融领域大数据技术在金融领域的应用非常广泛。

通过对大量的金融数据进行挖掘,可以提高金融风险预测和交易决策的准确性,降低金融机构的风险和成本。

例如,利用大数据技术进行风险模型构建和风险评估,可以帮助银行和保险公司发现潜在的风险和机会,从而制定更加有效的风险管理策略。

2、医疗领域大数据技术在医疗领域的应用也逐渐变得重要。

通过对医疗数据进行分析和挖掘,可以实现疾病预防和诊断的准确性、个性化治疗的优化和临床决策的智能化。

例如,利用大数据技术进行基因测序和疾病模型构建,可以精确地诊断疾病和确定个性化治疗方案。

3、智能制造领域大数据技术在智能制造领域的应用也非常广泛。

通过对制造过程和产品数据的收集和分析,可以实现制造过程的优化和产品质量的提高,从而提高制造效率和降低生产成本。

大数据

什么是大数据大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。

适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。

大数据的定义大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。

大数据的大小经常改变,截至2012年,单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。

在一份2001年的研究与相关的演讲中,麦塔集团(META Group,现为高德纳)分析员道格·莱尼(Doug Laney)指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。

高德纳与现在大部分大数据产业中的公司,都继续使用3V来描述大数据。

高德纳于2012年修改对大数据的定义:“大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最优化处理。

”另外,有机构在3V之外定义第4个V:真实性(Veracity)为第四特点。

大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。

美国在2012年就开始着手大数据,奥巴马更在同年投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油。

数据挖掘(data mining)则是在探讨用以解析大数据的方法。

大数据的特点一是数据体量巨大。

百度资料表明,其新首页导航每天需要提供的数据超过 1.5PB (1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。

有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。

二是数据类型多样。

现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.1.2 大数据技术的影响
• 1. 大数据技术在国外 • 2013年5月,麦肯锡全球研究所 (McKinsey Global Institute)发布了一份名为《颠覆性 技术:技术进步改变生活、商业和全球经济》的研究报告。 • 2014年5月,美国政府发布了2014年全球大数据白皮书的 研究报告《大数据:抓住机遇、守护价值》。 • 美国和欧洲一些发达国家政府都从国家科技战略层面提出 了一系列的大数据技术研究计划,以推动政府机构、重大 行业、学术界和工业界对大数据技术的研究和应用。
1.3 大数据的存储与计算模式
• 大数据时代的出现,简单地说是海量数据同完美计算能力 结合的结果,准确地说是移动互联网、物联网产生了海量 的数据,大数据计算技术完美地解决了海量数据的收集、 存储、计算、分析的问题
1.3.1 大数据的存储模式
• • • • • 1. 大数据存储问题与挑战 大数据存储系统面临的挑战主要来自以下3个方面。 (1) 存储规模大,通常达到 PB(1,000 TB)甚至 EB(1,000 PB)量级。 (2) 存储管理复杂,需要兼顾结构化、非结构化和半结构化的数据。 (3) 数据服务的种类和水平要求高,换言之,上层应用对存储系统的 性能、可靠性等指标有不同的要求,而数据的大规模和高复杂度放大 了达到这些指标的技术难度。
1.2 大数据的概念、特征及意义
1.2.1 什么是大数据
• 关于大数据,不同的机构或个人有不同的理解,难以有一个非 常定量的定义。大数据是一个宽泛的概念,见仁见智,有些人 可能强调数据的规模,即“大”字;有些人可能强调大数据的 作用,即大数据能帮助人们做什么;甚至有些人更强调新数范围内用常规软件工具进行捕捉、 管理和处理的数据集合,是需要新处理模式才能具有更强的决 策力、洞察发现力和流程优化能力来适应海量、高增长率和多 样化的信息资产。
1.2.4 大数据的挑战
• • • • 1. 大数据对技术的挑战 2. 大数据对信息安全的挑战 3. 大数据对运营商的挑战 4. 大数据对企业经营与管理的挑战
1.2.5 研究大数据的意义
• • • • • 1. 大数据计算提高数据处理效率,增加人类认知盈余 2. 全局的大数据让人类了解事物背后的真相 3. 大数据有助于了解事物发展的客观规律,利于科学决策 4. 大数据提供了同事物的连接,客观了解人类行为 5. 大数据改变过去的经验思维,帮助人们建立 • • • 它具有以下五大特征: 1. 数据量大(Volume) 2. 类型繁多(Variety) 3. 价值密度低(Value) 4. 速度快时效高(Velocity) 5. 永远在线(Online)
1.2.3 大数据来自哪儿
• • • • • • • • 1. 搜索引擎服务 2. 电子商务 3. 社交网络 4. 音视频在线服务 5. 个人数据业务 6. 地理信息数据 7. 传统企业 8. 公共机构
1.3.1 大数据的存储模式
• • • • • • 2. 大数据存储的关键技术 大数据存储的关键技术有以下4个。 (1) 分布式文件系统 (2) 分布式数据库 (4) 实时流式大数据存储与处理技术 (3) 大数据索引和查询技术 (4) 实时流式大数据存储与处理技术
1.1.1 大数据技术的发展过程
• 1. 萌芽阶段 • 20世纪90年代至21世纪初,是大数据发展的萌芽期。在 此阶段,数据库技术已逐步成熟,数据挖掘理论也不断完 善,因此也被称为数据挖掘技术阶段。 • 2. 突破阶段 • 2003年至2006年是大数据发展的突破期。在此阶段,学 术界和企业界开始从多角度对数据处理系统、数据库架构 进行重新思考。
第1章 大数据技术概述
• • • • • • 主要内容: 1.1 大数据技术的发展背景 1.2 大数据的概念、特征及意义 1.3 大数据的存储与计算模式 1.4 大数据的典型应用 1.5 初识Hadoop大数据平台
1.1 大数据技术的发展背景
Cartner曲线2013年针对Big Data的预测情况
1.1.2 大数据技术的影响
• 2.大数据技术在我国 • 中央电视台分别于2013年4月做了两期大数据专题谈话节目 “谁在引爆大数据”、“谁在掘金大数据”。 • 2013年以后,国家自然科学基金、973计划、核高基、863等 重大研究计划都已经把大数据研究列为重大的研究课题。 • 2015年9月,国务院印发《促进大数据发展行动纲要》,系统 部署大数据发展工作。 • 2016年3月17日,国家“十三五”规划纲要发布。该纲要明确 指出:一是加快政府数据开放共享。全面推进重点领域大数据 高效采集、有效整合,深化政府数据和社会数据关联分析、融 合利用,提高宏观调控、市场监管、社会治理和公共服务精准性 和有效性。
1.1.3 大数据发展的重大事件
• 2005年Hadoop项目诞生。 • 2008年末发表了一份有影响力的白皮书《大数据计算: 在商务、科学和社会领域创建革命性突破》。 • 2011年5月,全球知名咨询公司麦肯锡全球研究院(MGI) 发布了一份报告——《大数据:创新、竞争和生产力的下 一个新领域》,大数据开始备受关注,这也是专业机构第 一次全方面的介绍和展望大数据。 • 2014年5月,美国白宫发布了2014年全球大数据白皮书的 研究报告《大数据:抓住机遇、守护价值》。 • 2016年3月17日,国家“十三五”规划纲要发布。
1.1.1 大数据技术的发展过程
• 3. 成熟阶段 • 2006年至2009年,是大数据技术发展的成熟阶段。在此 期间,大数据技术研究的焦点是性能(Performance)、 云计算(Cloud Computing)、大规模数据集并行运算 算法(MapReduce)以及开源分布式系统基础架构 (Hadoop)等。 • 4. 应用阶段 • 2009年至现在,大数据技术架构和大数据技术生态系统 越来越完善,尤其是Hadoop大数据技术平台的成熟标志 着大数据技术的发展正式进入了落地应用阶段。学术界和 企业界开始从大数据技术的基础性研究纷纷转向大数据技 术的应用研究。
相关文档
最新文档