大数据导论第一章 大数据概述

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
LOGO
第一章
大数据概述
随着信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩 大,其所产生的数据呈指数型增长。达到PB(1024TB)级规模的海 量数据已远远超出了传统的计算技术和信息系统的处理能力,从而 促进了大数据(Big Data)的产生。
大数据概述
什么是大数据
01
大数据的数据特征及对科学研究的影响
大数据分析 实战
具有数据挖掘基本思想;掌握有监督和无监督学习 算法
掌握Spark理论;SparkRDD 基本概念及操作; Spark 流式计算框架 SparkStreaming、StructuredStreaming;
Spark 机器学习算法库 SparkMLlib 基本使用方法
掌握数据可视化基础;Python数据可视化;Python高 级数据可视化方法
1.1.1 大数据的来源
被动式生成数据是由于数据库技术的产生
✓ 数据库技术使数据的保存和管理变得简单,业务系统在运行时产生的数据 直接保存数据库中,这个时候数据的产生是被动的,数据是随着业务系统 的运行产生的,并且更多地依赖人工收集数据。.
主动式生成数据是由于万维网的发明与发展
✓ Web 2.0的发展大大加速了数据的产生,人们可以通过手机、电脑等终端随 时随地生成数据。据统计,在1分钟内,新浪平均有2万条微博产生,苹果 商店平均有4.7万次应用下载,淘宝平均有6万件商品交易记录,百度大约产 生了90万次的搜索查询,数据的生成相比之前大大加速。
大数据的产生首先源于互联网企业对于日益增长的网络 数据分析的需求,如图所示。
1.1.1Biblioteka Baidu大数据的来源
利用大数据-问题的产生
有效地为如此巨大的用户群体服务,让他们参与时能够享受方便、快捷的服务,成为网站不 得不解决的一个问题。
为了解决大型网站的访问量大、并发量高、海量数据的问题,一般会考虑业务拆分和分布式 部署。
可以利用 HDFSShell 操作 HDFS 文件系统;利用 HiveSQL 进行数据清 洗;;利用 Sqoop 进行数据传输;利用 SparkSQL 进行数据读取;利用 SparkMLlib 进行机器学习建模;利用 Python 进行建模结果数据可视化
1.1.1 大数据的来源

生产数据的三个阶段 1.被动式生成数据是由于数据库技术的产生 2.主动式生成数据是由于万维网的发明与发展 3.感知生成数据是由于物联网的飞速发展
数据库理论 及工具
具有Hadoop相关知识;了解HDFS分布式文件系 统;MapReduce理论实战等Hadoop其他组件
具有数据库理论基础;熟练掌握MySQL或Oracle数据 库或其他关系型数据库;Hbase,Hive,Sqoop使用;
大数据分 析师能力
数据挖掘
Spark工具及 实战
大数据可视 化
大数据的人才培养
大数据分析师能力占比
Spark工具及实战 41%
数据可视化方法
5%
大数据分析实战
1%
基础理论 9%
数据挖掘 12%
Hadoop理论 14%
数据理论工具 18%
大数据的人才培养
大数据基础 理论
具有大数据分析基础;Python基础; Linux&Ubuntu操作系统基础等
Hadoop理论
感知生成数据是由于物联网的飞速发展
✓ 感知技术尤其是物联网的发展促进了数据生成方式发生了根本性的变化。各 种智能传感设备、智能仪表、监控探头和GPS(Global Positioning System,全 球定位系统)定位等数据采集设备源源不断地自动采集、生成数据。
1.1.1 大数据的来源
利用大数据
1.1.2 大数据的定义
各个机构对大数据的描述
维基百科将大数据描述为: 大数据又称为巨量数据、海量数据,指的是传统数据处理应用软件不足以处理它们大或复杂的数 据集的术语。
麦肯锡全球研究所对大数据的解释: 一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集 合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据的人才培养
大数据的人才培养
数据分析师能力占比
数据建模分析 40%
数据分析概念与统计学 基础 30%
SQL数据库基础 10%
数据采集与处理 20%
大数据的人才培养
数据分析概 念与统计学
具有数据分析的概念及方法论;可以分析 描述性统计分析和推断性统计分析;方差
分析;回归分析等能力
数据分析 师能力
SQL数据库基 础
具有SQL关系型数据库基本概念;熟练使 用增删改查SQL语言;熟练使用SQL函 数;对事务和多用户并发有处理办法等
数据采集与 处理
掌握数据采集的方法;做过市场调研;掌 握数据预处理方法;可以将数据可视化等
数据建模分 析
掌握主成分分析法;因子分析法;多元回 归分析法;聚类分析法;时间序列等
以2018年双11期间,淘宝和天猫共实现 2135亿的交易额为例,其服务所支撑的用 户点击所产生的数据量是海量并且是非结 构化数据,用户所产生的数据是一项宝贵 的资源,若能从这类海量数据中快速地分 析出数据的价值,便可以用于分析并理解 客户的市场需求,积极改善公司的市场设 施配置策略和服务模式,还可以极大地提 高服务的用户体验。
由于海量非结构化、半结构化数据的出现,数据已没有办法在可容忍的时间内,使用常规软 件方法完成存储、管理和处理任务。
快速增长的数据量要求数据处理的速度也要紧跟其步伐,才能使得获取到大量的数据被有效 利用,否则,快速增长的数据量会成为解决问题的负担。
在获取数据的过程中,数据不是一成不变的,而是随着互联网在时时发生变化,通常这样的 数据价值会随着时间的推移而呈现降低的趋势,如果数据在获取时间内没有得到有效的处理,就 会导致其失去价值。
02
大数据的数据类型
03
大数据的可用性及衍生价值
04
大数据的发展趋势
05
PART 01 什么是大数据
目前,我们已经进入大数据时代,但对很多人来说,什么是大数 据,大数据是怎么产生的,它有什么用?从计算机的角度认识从信 息时代怎么进入大数据时代的,这些东西并不清楚,所以本节主要 解决以上问题,让我们能够从科学的角度认识大数据。
研究机构Gartner(第一家信息技术研究和分析的公司)对大数据的解释: 大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增 长率和多样化的信息资产。
相关文档
最新文档