Hadoop大数据开发实战第01章大数据概论

合集下载

《Hadoop大数据技术》课程理论教学大纲

《Hadoop大数据技术》课程教学大纲一、课程基本情况课程代码：1041139083课程名称（中/英文）：Hadoop大数据技术/Hadoop Big Data Technology课程类别：专业必修课学分：3.5总学时：56理论学时：32实验/实践学时：24适用专业：数据科学与大数据技术适用对象：本科先修课程：JA V A程序设计、Linux基础教学环境：课堂、多媒体、实验机房二、课程简介《Hadoop大数据技术》课程是数据科学与大数据技术专业的专业必修课程。

《Hadoop大数据技术》主要学习当前广泛使用的大数据Hadoop平台及其主要组件的作用及使用。

通过学习Hadoop 平台框架，学会手动搭建Hadoop环境，掌握Hadoop平台上存储及计算的原理、结构、工作流程，掌握基础的MapReduce编程，掌握Hadoop生态圈常用组件的作用、结构、配置和工作流程，并具备大数据的动手及问题分析能力，使用掌握的知识应用到实际的项目实践中。

课程由理论及实践两部分组成，课程理论部分的内容以介绍Hadoop平台主要组件的作用、结构、工作流程为主，对Hadoop 平台组件的作用及其工作原理有比较深入的了解；课程同时为各组件设计有若干实验，使学生在学习理论知识的同时，提高实践动手能力，做到在Hadoop的大数据平台上进行大数据项目开发。

三、课程教学目标2.课程教学目标及其与毕业要求指标点、主要教学内容的对应关系四、教学内容（一）初识Hadoop大数据技术1.主要内容：掌握大数据的基本概念、大数据简史、大数据的类型和特征、大数据对于企业带来的挑战。

了解对于大数据问题，传统方法、Google的解决方案、Hadoop框架下的解决方案，重点了解Google的三篇论文。

掌握Hadoop核心构成、Hadoop生态系统的主要组件、Hadoop发行版本的差异及如何选择；了解Hadoop典型应用场景；了解本课程内容涉及到的Java语言基础；了解本课程实验涉及到的Linux基础。

教学课件《Hadoop大数据原理与应用》(徐鲁辉)

Value
Velocity
1.2.1 Volume
• 大数据的体量非常大，PB级别将是常态，且增长速度较快。 • 据IDC于2018年11月发布的《数据时代2025》报告预测，全球数
据总量将从2018年的33ZB增至2025年的175ZB，相当于每天产生 491EB的数据。
1.2.2 Variety
• Hadoop旨在从单一服务器扩展到成千上万台机器，每台机器都提供本地计算和存储，且将数据备份在多个节点上，由此来提升集群的高可用性，而不是通过硬件提升，当一台机器宕机时，其它节点依然可以提供数据和计算服务。
2.1.1 Hadoop简介
• 第一代Hadoop（即Hadoop 1.0）的核心由分布式文件系统HDFS和分布式计算框架MapReduce组成，为了克服Hadoop1.0中HDFS和 MapReduce的架构设计和应用性能方面的各种问题，提出了第二代Hadoop（即Hadoop 2.0），Hadoop 2.0的核心包括分布式文件系统HDFS、统一资源管理和调度框架YARN和分布式计算框架 MapReduce。
数据库运维工程师
系统运维工程师
1.6 大数据岗位介绍
大数据人才所处主要行业互联网/电子商务/网络游戏电子信息及软件和信息服务业通信/电信运营、网络设备金融、基金、投资、证券教育、培训、院校专业服务（咨询、法律、财务、人力资源等）
大数据领域岗位需求排行平台开发/大数据开发/数据分析//数据挖掘智能硬件/硬件系统开发图像/视觉智能语音/NLP
1.6 大数据岗位介绍
大数据管理
大数据分析
大数据挖掘
首席数据官
数据管理员
数据安全工程师
数据仓库工程师

01第一章初识Hadoop大数据技术

第1章初识Hadoop大数据技术本章主要介绍大数据的时代背景，给出了大数据的概念、特征，还介绍了大数据相关问题的解决方案、Hadoop大数据技术以及Hadoop的应用案例。

本章的主要内容如下。

（1）大数据技术概述。

（2）Google的三篇论文及其思想。

（3）Hadoop概述。

（4）Hadoop生态圈。

（5）Hadoop的典型应用场景和应用架构。

1.1 大数据技术概述1.1.1 大数据产生的背景1946年，计算机诞生，当时的数据与应用紧密捆绑在文件中，彼此不分。

19世纪60年代，IT系统规模和复杂度变大，数据与应用分离的需求开始产生，数据库技术开始萌芽并蓬勃发展，并在1990年后逐步统一到以关系型数据库为主导，具体发展阶段如图1-1所示。

Hadoop 大数据技术与应用图1-1 数据管理技术在2001年前的两个发展阶段 2001年后，互联网迅速发展，数据量成倍递增。

据统计，目前，超过150亿个设备连接到互联网，全球每秒钟发送290万封电子邮件，每天有2.88万小时视频上传到YouTube 网站，Facebook 网站每日评论达32亿条，每天上传照片近3亿张，每月处理数据总量约130万TB 。

2016年全球产生数据量16.1ZB ，预计2020年将增长到35ZB （1ZB = 1百万，PB = 10亿TB ），如图1-2所示。

图1-2 IDC 数据量增长预测报告2011年5月，EMC World 2011大会主题是“云计算相遇大数据”，会议除了聚焦EMC 公司一直倡导的云计算概念外，还抛出了“大数据”（BigData ）的概念。

2011年6月底，IBM 、麦肯锡等众多国外机构发布“大数据”相关研究报告，并予以积极的跟进。

19世纪60年代，IT 系统规模和复杂度变大，数据与应用分离的需求开始产生，数据库技术开始萌芽并蓬勃发展，并在1990年后逐步统一到以关系型数据库为主导1946年，计算机诞生，数据与应用紧密捆绑在文件中，彼此不分1946 1951 1956 1961 1970 1974 1979 1991 2001 … 网络型E-RSQL 关系型数据库数据仓库第一台计算机 ENIAC 面世磁带+ 卡片人工管理磁盘被发明，进入文件管理时代 GE 公司发明第一个网络模型数据库，但仅限于GE 自己的主机 IBM E. F.Dodd 提出关系模型 SQL 语言被发明 ORACLE 发布第一个商用SQL 关系数据库，后续快速发展数据仓库开始涌现，关系数据库开始全面普及且与平台无关，数据管理技术进入成熟期 0.8ZB ：将一堆DVD 堆起来够地球到月亮一个来回 35ZB ：将一堆DVD 堆起来是地球到火星距离的一半IDC 报告“Data Universe Study ”预测：全世界数据量将从2009年的0.8ZB 增长到2020年的35ZB ，增长44倍！年均增长率>40%！1.1.2 大数据的定义“大数据”是一个涵盖多种技术的概念，简单地说，是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

hadoop大数据技术实验指导书

Hadoop大数据技术实验指导书第一章实验概述1.1 实验目的本实验旨在全面了解Hadoop大数据技术的相关概念、架构和使用方法，通过实际操作掌握Hadoop大数据技术的基本应用和管理技能。

1.2 实验内容本实验内容包括Hadoop大数据技术的基本概念、HDFS分布式文件系统的搭建和管理、MapReduce分布式计算框架的使用、Hadoop 生态系统的其他相关工具等。

1.3 实验环境本实验采用Ubuntu 18.04操作系统，Hadoop版本为3.1.3，Java 版本为1.8。

1.4 实验预备知识对Linux操作系统的基本操作有一定了解，对Java编程语言有一定的基础认识，了解分布式系统和大数据概念。

第二章 Hadoop基础概念2.1 Hadoop概述Hadoop是一个开源的分布式计算框架，用于存储和处理大规模数据。

Hadoop项目由Apache软件基金会开发，主要包括Hadoop分布式文件系统（HDFS）和MapReduce分布式计算框架。

2.2 Hadoop架构Hadoop架构包括HDFS、MapReduce和YARN（资源调度和管理），HDFS负责数据的存储和管理，MapReduce负责数据的计算和处理，YARN负责集裙资源的调度和管理。

2.3 Hadoop生态系统除了HDFS和MapReduce，Hadoop生态系统还包括其他相关工具，如HBase（分布式数据库）、Hive（数据仓库）、Pig（数据分析）、Spark（内存计算框架）等。

第三章 HDFS分布式文件系统实验3.1 HDFS搭建1) 准备Hadoop安装包，解压到指定目录2) 配置hadoop-env.sh文件，设置JAVA_HOME环境变量3) 配置core-site.xml和hdfs-site.xml文件，设置Hadoop集裙的基本信息和存储路径3.2 HDFS管理1) 使用命令行工具上传、下载、删除文件2) 查看HDFS存储空间情况3) 监控HDFS集裙状态第四章 MapReduce分布式计算实验4.1 MapReduce程序编写1) 编写Map阶段的程序2) 编写Reduce阶段的程序3) 编译打包MapReduce程序4.2 MapReduce作业提交与监控1) 将MapReduce程序提交到Hadoop集裙2) 查看作业运行状态和日志3) 监控作业的运行情况第五章 Hadoop生态系统实验5.1 HBase实验1) 安装HBase并配置2) 创建HBase表并进行CRUD操作3) 监控HBase集裙状态5.2 Hive实验1) 安装Hive并配置2) 创建Hive表并进行数据查询3) 执行HiveQL语句进行数据分析5.3 Spark实验1) 安装Spark并配置2) 编写Spark应用程序3) 提交Spark应用程序到集裙运行结语通过本实验指导书的学习，相信读者对Hadoop大数据技术有了更深入的了解，掌握了HDFS的搭建与管理、MapReduce的编程与作业监控、Hadoop生态系统的应用等相关技能。

《Hadoop大数据技术原理与应用》课程教学大纲

《Hadoop大数据技术原理与应用》课程教学大纲课程编号：3250578学分：4学分学时：72学时（其中：讲课学时36 上机学时：36）先修课程：《Linux基础》、《关系数据库基础》、《程序设计基础》、《Java面向对象编程》后续课程：Spark，《Python编程基础》、《Python数据分析与应用》适用专业：大数据应用技术一、课程的性质与目标《大数据应用开发》本课程是软件技术专业核心课程，大数据技术入门课程。

通过学习课程使得学生掌握大数据分析的主要思想和基本步骤，并通过编程练习和典型应用实例加深了解；同时对Hadoop平台应用与开发的一般理论有所了解，如分布式数据收集、分布式数据存储、分布式数据计算、分布式数据展示。

开设本学科的目的是让学生掌握如何使用大数据分析技术解决特定业务领域的问题。

完成本课程学习后能够熟练的应用大数据技术解决企业中的实际生产问题。

二、教学条件要求操作系统：Center OSHadoop版本：Hadoop2.7.4开发工具：Eclipse三、课程的主要内容及基本要求第1章初识Hadoop第2章构建Hadoop集群第3章 HDFS分布式文件系统第4章 MapReduce分布式计算系统第5章 Zookeeper分布式协调服务第6章 Hadoop2.0新特性第7章 Hive数据仓库第8章 Flume日志采集系统第9章 Azkaban工作流管理器第10章 Sqoop数据迁移第11章综合项目——网站流量日志数据分析系统四、学时分配五、考核模式与成绩评定办法本课程为考试课程，期末考试采用百分制的闭卷考试模式。

学生的考试成绩由平时成绩（30%）和期末考试（70%）组成，其中，平时成绩包括出勤（5%）、作业（5%）、上机成绩（20%）。

六、选用教材和主要参考书本大纲是参考教材《Hadoop大数据技术原理与应用》所设计的。

七、大纲说明本课程的授课模式为：课堂授课+上机，其中，课堂主要采用多媒体的方式进行授课，并且会通过测试题阶段测试学生的掌握程度；上机主要是编写程序，要求学生动手完成指定的程序设计或验证。

《Hadoop大数据开发基础》教学大纲

《Hadoop大数据开发基础》教学大纲课程名称：Hadoop大数据开发基础课程类别：必修适用专业：大数据技术类相关专业总学时：64学时（其中理论28学时，实验36学时）总学分：4.0学分一、课程的性质随着时代的发展，大数据已经成为一个耳熟能详的词汇。

与此同时，针对大数据处理的新技术也在不断的开发和运用中，逐渐成为数据处理挖掘行业广泛使用的主流技术之一。

Hadoop分布式集群系统架构，具有高可用性、高容错性和高扩展性等优点，由于它提供了一个开放式的平台，用户可以在不了解底层实现细节的情形下，开发适合自身应用的分布式程序。

经过多年的发展，目前Hadoop已经成长为一个全栈式的大数据技术生态圈，包括了Hive、HBase、Spark等一系列组件，成为应用最广泛、最具有代表性的大数据技术之一。

因此，学习Hadoop技术是从事大数据行业工作所必不可少的一步。

为了满足企业的大数据人才需求，帮助学者掌握相关技术知识解决实际的业务需求，特开设Hadoop大数据开发基础课程。

二、课程的任务通过本课程的学习，使学生掌握Hadoop、Hive和HBase集群的安装配置，能够根据具体需求编写MapReduce程序解决实际业务问题，使用Hive、HBase进行数据存储、查询余分析，最后详细拆解并学习电影网站用户影评分析案例，将理论与实践相结合，为将来从事数据分析挖掘研究、工作奠定基础。

三、课程学时分配四、教学内容及学时安排1.理论教学2.实验教学五、考核方式突出学生解决实际问题的能力，加强过程性考核。

课程考核的成绩构成= 平时作业（10%）+ 课堂参与（20%）+ 期末考核（70%），期末考试建议采用开卷形式，试题应包括基本概念、组件安装流程、开发环境搭建流程、MapReduce编程、Hive与HBase的数据存储与查询操作、案例分析实现流程等部分，题型可采用选择题、判断题、简答题、应用题等方式。

六、教材与参考资料1.教材Hadoop大数据开发基础2.参考资料。

大数据教程01第一章大数据概述

数据量很大，超大的数据量决定了需要考虑的数据价值和潜在
（Volume）信息；同时也决定了计算的规模。
多样
多样指大数据数据类型的多样性，大数据包含着半结构化、非结构化的
（Variety）数据。
价值
海量的大数据中，真正有价值的数据可能很少，因此从整体来看，大数
（Value）据的价值密度低。
Master 是 Namenode ， Slave 是 Datanode ， HDFS 集群由一个名称节点（Namenode）和一定数量的数据节点（Datanode）组成。其中 Namenode控制客户端对数据的访问和负责管理文件系统命名空间，是一个负责管理文件系统命名空间和客户端访问文件的中央服务器。Datanode通常用于管理连接到节点的存储，即管理正在运行的节点上的数据存储。在内部，Datanode节点包含有一个或多个块（blocks）并将数据存储在其中，HDFS是使用Java语言构建的;任何支持Java的机器都可以运行NameNode或DataNode。
第一章大数据基础
1.1 大数据发展背景概述 1.2 大数据相关概念及特点 1.3 大数据应用过程 1.4 大数据技术 1.5 大数据应用行业 1.6 大数据的挑战和机遇
1.3 大数据应用过程
1.3.1 数据采集 1.3.2 预处理 1.3.3 数据存储管理 1.3.4 数据挖掘分析
1.3.1 数据采集
2.集群（Clustering）指将多台计算机或者服务器通过物理上以及软件上的部署，使其像一台计算机一样被使用。集群强调的是扩展。
3.分布式（Distribute）指是将任务或者数据切分到不同的服务器进行计算或者存储，分布式强调的是切分。

《Hadoop大数据开发实战》教学教案(全)

《Hadoop大数据开发实战》教学教案（第一部分）一、教学目标1. 理解Hadoop的基本概念和架构2. 掌握Hadoop的安装和配置3. 掌握Hadoop的核心组件及其作用4. 能够搭建简单的Hadoop集群并进行基本的操作二、教学内容1. Hadoop简介1.1 Hadoop的定义1.2 Hadoop的发展历程1.3 Hadoop的应用场景2. Hadoop架构2.1 Hadoop的组成部分2.2 Hadoop的分布式文件系统HDFS2.3 Hadoop的计算框架MapReduce3. Hadoop的安装和配置3.1 Hadoop的版本选择3.2 Hadoop的安装步骤3.3 Hadoop的配置文件解读4. Hadoop的核心组件4.1 NameNode和DataNode4.2 JobTracker和TaskTracker4.3 HDFS和MapReduce的运行原理三、教学方法1. 讲授法：讲解Hadoop的基本概念、架构和组件2. 实践法：引导学生动手实践，安装和配置Hadoop，了解其运行原理3. 讨论法：鼓励学生提问、发表观点，共同探讨Hadoop的应用场景和优缺点四、教学准备1. 教师准备：熟悉Hadoop的安装和配置，了解其运行原理2. 学生准备：具备一定的Linux操作基础，了解Java编程五、教学评价1. 课堂参与度：学生提问、回答问题的积极性2. 实践操作：学生动手实践的能力，如能够独立完成Hadoop的安装和配置3. 课后作业：学生完成课后练习的情况，如编写简单的MapReduce程序4. 综合评价：结合学生的课堂表现、实践操作和课后作业，综合评价学生的学习效果《Hadoop大数据开发实战》教学教案（第二部分）六、教学目标1. 掌握Hadoop生态系统中的常用组件2. 理解Hadoop数据存储和处理的高级特性3. 学会使用Hadoop进行大数据处理和分析4. 能够运用Hadoop解决实际的大数据问题七、教学内容1. Hadoop生态系统组件7.1 YARN的概念和架构7.2 HBase的概念和架构7.3 Hive的概念和架构7.4 Sqoop的概念和架构7.5 Flink的概念和架构（可选）2. Hadoop高级特性8.1 HDFS的高可用性8.2 HDFS的存储策略8.3 MapReduce的高级特性8.4 YARN的资源管理3. 大数据处理和分析9.1 Hadoop在数据处理中的应用案例9.2 Hadoop在数据分析中的应用案例9.3 Hadoop在机器学习中的应用案例4. Hadoop解决实际问题10.1 Hadoop在日志分析中的应用10.2 Hadoop在网络爬虫中的应用10.3 Hadoop在图像处理中的应用八、教学方法1. 讲授法：讲解Hadoop生态系统组件的原理和应用2. 实践法：引导学生动手实践，使用Hadoop进行数据处理和分析3. 案例教学法：分析实际应用案例，让学生了解Hadoop在不同领域的应用九、教学准备1. 教师准备：熟悉Hadoop生态系统组件的原理和应用，具备实际操作经验2. 学生准备：掌握Hadoop的基本操作，了解Hadoop的核心组件十、教学评价1. 课堂参与度：学生提问、回答问题的积极性2. 实践操作：学生动手实践的能力，如能够独立完成数据处理和分析任务3. 案例分析：学生分析实际应用案例的能力，如能够理解Hadoop在不同领域的应用4. 课后作业：学生完成课后练习的情况，如编写复杂的MapReduce程序或使用Hadoop生态系统组件进行数据处理5. 综合评价：结合学生的课堂表现、实践操作、案例分析和课后作业，综合评价学生的学习效果重点和难点解析一、Hadoop的基本概念和架构二、Hadoop的安装和配置三、Hadoop的核心组件四、Hadoop生态系统组件五、Hadoop数据存储和处理的高级特性六、大数据处理和分析七、Hadoop解决实际问题本教案涵盖了Hadoop的基本概念、安装配置、核心组件、生态系统组件、数据存储和处理的高级特性，以及大数据处理和分析的实际应用。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• Map
• 映射和分发
• Reduce
• 汇聚和聚合
MapReduce 执行流程
Sogou搜狗海量日志分析
需求
统计“仙剑奇侠传”这款游戏在互联网上的热度，进而为粉丝推送更精彩的游戏。
数据存储
HDFS文件系统
数据计算
MapReduce计算框架
那大数据到底是什么？
门槛绝壁很高
Marketing与学术男眼中的大数据特征
Volume
数据体量巨ห้องสมุดไป่ตู้ PB级-＞EB级-＞ZB级
速度要求快
Velocity
数据输出输入的速度
Big Data
Vanity
数据类型多样文本|图像|视频|音频|
Value
价值密度低商业价值高
Marketing与学术男眼中的大数据
大数据之定义
是不是有点飘乎乎的感觉？
大数据案例
大数据基本概念
大数据之核心
1. 数据的存储 2. 数据的计算（处理）
全球信息数据概览
全球80%的信息是非结构化的。非结构化信息正在以15倍于结构化信息的速率增长。原始的计算能力正在以极高的速率增长，以至于现今的商用机器已开始
展现出5年前的超级计算机的能力。对信息的访问已民主化：它可供（或者应该供）所有人使用。数据量已经达到PB级-＞EB级-＞ZB级
定义
大数据是需要新处理模式才能具有更强大的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产
Marketing与学术男眼中的大数据
够大、够多、够快才是大数据。大数据是不可逆的浪潮。你就站在浪潮之巅。大数据应该用在市场营销！大数据
应该有准确的定义！
“哲学”层面看大数据
为什么我们的星爷这几年拍的电影越来越少？
—— “这是可行的！”
Google
• GoogleMapReduce • 首次发表于2004年12月，旧金山 • 基于GFS • 汲取了函数式编程的设计思想 • 把计算移动到数据
Google
• Google BigTable • 首次发表于2006年11月，西雅图 • 同样基于GFS • 同样是告诉大家 —— “这是可行的！”
“哲学”层面看大数据
“哲学”层面看大数据
典型因果关系，而这个社会很多事情是解释不清的！
“哲学”层面看大数据
“哲学”层面看大数据
大数据是一种思维方式，因果->相关... 生活不只是眼前的苟且，还有诗和远方...
思维要跟上~~~~~
一个时代，一场革命
一个时代，一场革命
这是一场革命，庞大的数据资源使得各个领域开始了量化进程，无论学术界、商界还是政府，所有领域都将开始这种进程。
为何从Hadoop开始
Hadoop在哪里？
这么多？
Hadoop分布式架构
• Master/Slave • Master节点
• NameNode NN • SecondaryNameNode SNN • ResourceManager RM
• Slave节点
• NodeManager NM • DataNode DN
Hadoop来了
• Hadoop是
– Apache开源软件基金会开发的 – 运行于大规模普通服务器上的 – 大数据存储、计算、分析的 – 分布式存储系统和分布式运算框架
• Hadoop2.0由三个部分组成
– 分布式文件系统HDFS – 资源分配系统Yarn – 分布式运算框架MapReduce
Google论文 vs. Apache项目
HDFS 从下面开始
YARN到上面了
大数据实战技术
MapReduce 计算框架
• 将计算移动到数据
硬盘存储成本不断降低传输速率提升不大磁头定位时间无提升
• MapReduce的特性
自动实现分布式并行计算容错提供状态监控工具模型抽象简洁，程序员易用
MapReudce 分而治之
MapReduce 函数式编程
大数据概论
核心内容
大数据背景大数据案例大数据基本概念大数据技术
大数据到底是个啥？
就这半瓶水你想到的是什么？
仁者见仁
一条裙子引起一场颜色之争不同人看出不同颜色
那大数据到底是什么？
技术？概念？思维？时代？
资深码农眼中的大数据
资深码农眼中的大数据
大数据当然是技术，一大堆的技术，so many 平台，那是相当复杂，分布式懂不？
传统的解决方案
• 甲骨文 Oracle数据库 • IBM DB2数据库 • 开源的MySQL数据库 • Sybase公司 Sybase数据库 • ...... • 一般处理的能力的在GB级别
Google
• GFS文件系统 The Google File System
• 首次发表于2003年10月，纽约 • 首个商用的超大型分布式文件系统 • 价值在于经验的分享，而不是架构的先进