《Hadoop大数据技术与应用》教学大纲 - 20180823

合集下载

《Hadoop大数据技术与应用》-Hadoop环境搭建

《Hadoop大数据技术与应用》实验报告实验1：hadoop环境搭建一、实验目的1. 安装Java环境2.搭建Hadoop单机模式3.在Hadoop单机基础上搭建伪分成式模式环境二、实验环境Linux操作系统三、实验内容与实验过程及分析（写出详细的实验步骤，并分析实验结果）实验内容：1.完成安装Java环境。

2. 完成搭建Hadoop单机模式（1）在Linux终端用wget命令直接下载至Linux系统中（命令在同一行）。

$wget /dist/hadoop/common/hadoop-2.7.5/hadoop-2.7.5.tar.gz（2）解压安装包：解压安装包至~目录下，并创建软链接（或重命名mv）$ tar zxvf hadoop-2.7.5.tar.gz -C ~$ ln -s ~/hadoop-2.7.5 ~/hadoop（3）执行命令$ ./bin/hadoop version 查看hadoop版本信息：$ cd ~/hadoop/etc/hadoop$ vi hadoop-env.sh（4）找到export JAVA_HOME，把#去掉，并修改为：# The java implementation to use.export JAVA_HOME=/home/hadoop/jdk1.8.0_181（5）如果出现以下信息，说明安装成功：Hadoop 2.7.5Subversion https:///repos/asf/hadoop.git -r baa91f7c6bc9cb92be5982de4719c1c8af91ccffCompiled by root on 2016-08-18T01:41ZCompiled with protoc 2.5.0From source with checksum 2e4ce5f957ea4db193bce3734ff29ff4This command was run using ~/hadoop/share/hadoop/common/hadoop-common-2.7.3.jar3. 完成在Hadoop单机基础上搭建伪分成式模式环境单机模式测试：伪分布式模式测试：Web访问Hadoop：四、实验总结（每项不少于20字）存在问题：安装Ubuntu耗费大量时间，对hadoop的操作不熟练。

大数据开发技术(Hadoop)-大纲

《大数据开发技术（Hadoop）》教学大纲课程编号：071333B课程类型：□通识教育必修课□通识教育选修课□专业必修课█专业选修课□学科基础课总学时：48讲课学时：16 实验（上机）学时：32学分：3适用对象：计算机科学与技术专业，大三本科生先修课程：人工智能、面向对象程序设计、数据库原理、高性能计算一、教学目标目标是让学生了解并掌握四个领域（即大数据系统的起源及系统特征、大数据系统的架构设计及功能目标设计、大数据系统程序开发、企业大数据案例分析）的内容，同时利用真机实验环节以及大数据实训一体机来提升学生对大数据开发的实践能力；本课程重点让学生掌握四个方面的内容：目标1：HDFS使用操作目标2：Map/Reduce开发目标3：HBase数据库的开发目标4：Hive数据仓库开发二、教学内容及其与毕业要求的对应关系1：Hadoop大数据处理平台安装与部署目标及要求：让学生掌握Hadoop平台的安装，熟悉大数据处理的软硬件环境。

2：HDFS操作命令操作目标及要求：让学生掌握分布式文件系统HDFS的文件操作，包含导入导出文件、列表、查找、删除文件等。

3：MapReduce开发目标及要求：让学生掌握在HDFS文件系统内的Map及Reduce的Java开发，实现对指定文本文件的单词计数，将统计结果输出至控制台。

4：HBase数据库命令操作目标及要求：让学生掌握分布式文件数据库系统HBase的数据库操作，包含创建表、删除表、增加列、导入记录、删除记录等。

5：Hive数据仓库基础使用目标及要求：让学生掌握在Hive数据仓库的基本命令的操作，包含创建数据仓库、创建表、删除表、导入及导出数据，统计查询等在CLI模式下的使用操作。

三、各教学环节学时分配（黑体，小四号字）教学课时分配四、教学内容第一章大数据概述授课学时：1基本要求：1. 了解大数据概念、特征、数据计量单位以及大数据的类型；2. 了解大数据系统的设计背景、以及当前大数据系统存在的不足；3. 了解大数据系统的设计思想、设计目标和设计原则；4. 了解大数据系统的整体逻辑架构设计及运行逻辑，了解当前大数据系统的主流架构；第二章大数据应用开发思路和开发环境配置授课学时：1基本要求：1. 掌握大数据系统应用读写操作的开发流程；2. 掌握分析大数据开发技术及思路；3. 掌握大数据Java开发的环境配置、Plugin插件的安装，Hadoop环境配置；4. 真机实操训练（实验环节1）；第三章HDFS 分布式文件系统授课学时：2基本要求：1. 了解HDFS设计目标、基本概念；2. 掌握HDFS文件系统的命令操作；3. 掌握Java对HDFS的程序开发操作，包含目录管理、文件列表、读取、导入导出、文件压缩等开发；4. 真机实操训练（实验环节2）；第四章MapReduce 分布式编程授课学时：4基本要求：1. 了解MapReduce的设计思想、基本概念；2. 了解MapReduce的系统架构、作业运行机制和关键技术；3. 掌握MapReduce的数据类型的自定义以及数据类型的使用；4. 掌握MapReduce开发，定制输入输出的数据格式；5. 掌握将HDFS文件系统中整个文件作为输入数据的开发；6. 掌握利用MapReduce完成小文件聚合成一个大文件的开发；7. 掌握压缩数据处理程序开发；8. 掌握任务组合过程，掌握迭代组合、并行组合及串行组合；9. 掌握任务的前后链式组合；10. 掌握多数据源连接的开发，包含Map端开发以及Reduce端开发；11. 掌握Hadoop全局参数的使用，全局文件的使用；12. 掌握与关系型数据库的访问连接；13. 真机实操训练（实验环节3）；第五章HBase 分布式数据库授课学时：4基本要求：1. 了解HBase分布式数据库的设计目标、基本概念；2. 了解HBase逻辑架构以及物理架构；3. 掌握HBase分布式数据库Shell命令操作；4. 掌握HBase数据库系统的Java开发，包含创建表、删除表，查询所有表操作；5. 掌握HBase数据库系统的Java开发，包含插入记录、查询数据，组合查询、修改删除记录等开发；6. 真机实操训练（实验环节4）；第六章Hive数据仓库开发授课学时：4基本要求：1. 了解Hive数据仓库的工作原理及特点；2. 了解Hive架构设计，包含数据类型、数据存储方式以及查询方式；3. 掌握Hive数据仓库系统的HQL语言语法；4. 掌握HQL的创建表、查看表及查询有结构，修改表以及删除表；5. 掌握利用HQL语句将HDFS的文件导入数据仓库；6. 掌握分区表、桶表、外部表的使用；7. 掌握HQL语句的联合查询、子查询、创建视图等操作；8. 掌握利用Java开发UDF自定义函数，以及自定义函数的使用；9. 掌握Java连接Hive数据仓库进行数据查询；10. 真机实操训练（实验环节5）；五、考核方式、成绩评定（黑体，小四号字）考核方式：考查，采用平时成绩+期末课程设计。

重大社2023《hadoop大数据技术原理与应用》教学课件u5

<k1,v1>是Map的输入，<k2,v2>是Map的输出
<k3,v3>是Reduce的输入，<k4,v4>是Reduce的输出
➢ k2=k3，v3是一个集合，v3的元素就是v2
➢ 所有的输入和输出的数据类型必须是hadoop的数据类型（实现Writable接口）
Integer -> IntWritable Long -> LongWritable
➢ JobTracker可以和NameNode运行在同一个服务器上 ▪ 集群规模较大或是任务繁重的场景，建议单独运行JobTracker
04 MapReduce简介
• JobTracker任务分配策略
➢ 把计算移动到数据 ➢ JobTracker会与NameNode通信以定位任务所需数据的位置
▪ 从而更有效的分配任务执行节点 ➢ JobTracker不保证一定在数据所在节点处理数据
13 MapReduce编程模型
• MapReduce编程模型工作流程
➢ 映射完成之后，输出值会被传输到其他节点作为 Reduce的输人。在开始 Reduce之前；键值对会被重新整理并打乱次序。在归约阶段，上述子条目相加得到每个单词的单条目。在下图中，我们可以看到 Reduce的输出：bi g. data加起来是19次， GreenPlum加起来是17， Hadoop加起来是19
Hadoop技术原理
分布式计算框架MapReduce
01 分布式计算框架MapReduce
01 MapReduce简介
• 什么是MapReduce ➢ MapReduce是一种简化并行计算的编程模型，用于进行大数据量的计算。
• MapReduce设计思想 ➢ MapReduce采用“分而治之”的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个子节点共同完成，然后整合各个子节点的中间结果，得到最终的计算结果。

大数据技术教学大纲

大数据技术教学大纲大数据技术教学大纲随着科技的不断进步和信息的快速增长，大数据技术已经成为了当今社会中不可或缺的一部分。

大数据技术的快速发展和广泛应用，使得越来越多的人对此产生了浓厚的兴趣，并希望能够在这个领域中有所建树。

因此，制定一份合理的大数据技术教学大纲是至关重要的。

一、课程介绍大数据技术教学大纲的第一部分应该是课程介绍。

在这一部分中，应该包括课程的目标、内容和学习方法。

目标是明确学生在学习大数据技术方面应该达到的能力和水平。

内容方面，应该包括大数据的基本概念、技术原理、数据处理和分析方法等。

学习方法可以包括理论学习、实践操作、案例分析等。

二、基础知识与技能大数据技术的学习需要一定的基础知识和技能。

在这一部分中，可以包括数据库、数据结构、算法等方面的基础知识。

此外，还可以包括编程语言和工具的使用，如Python、R、Hadoop、Spark等。

通过这些基础知识和技能的学习，学生能够更好地理解和应用大数据技术。

三、数据采集与清洗大数据技术的第一步是数据的采集和清洗。

在这一部分中，可以介绍数据采集的方法和技术，如网络爬虫、API接口等。

同时，也需要学习数据清洗的方法和技术，如数据去重、数据格式转换等。

通过学习数据采集和清洗，学生能够获取到高质量的数据，为后续的数据处理和分析打下基础。

四、数据存储与管理大数据技术需要强大的存储和管理能力。

在这一部分中，可以介绍分布式文件系统和数据库的原理和应用。

例如，可以学习Hadoop分布式文件系统和HBase数据库的使用。

此外，还可以学习数据仓库和数据湖的概念和实践。

通过学习数据存储和管理，学生能够有效地存储和管理大规模的数据。

五、数据处理与分析大数据技术的核心是数据处理和分析。

在这一部分中，可以学习数据处理的方法和技术，如MapReduce、Spark等。

同时，还可以学习数据分析的方法和技术，如数据挖掘、机器学习等。

通过学习数据处理和分析，学生能够从海量的数据中提取有价值的信息和知识。

《Hadoop大数据开发实战》教学教案(全)

《Hadoop大数据开发实战》教学教案（第一部分）一、教学目标1. 理解Hadoop的基本概念和架构2. 掌握Hadoop的安装和配置3. 掌握Hadoop的核心组件及其作用4. 能够搭建简单的Hadoop集群并进行基本的操作二、教学内容1. Hadoop简介1.1 Hadoop的定义1.2 Hadoop的发展历程1.3 Hadoop的应用场景2. Hadoop架构2.1 Hadoop的组成部分2.2 Hadoop的分布式文件系统HDFS2.3 Hadoop的计算框架MapReduce3. Hadoop的安装和配置3.1 Hadoop的版本选择3.2 Hadoop的安装步骤3.3 Hadoop的配置文件解读4. Hadoop的核心组件4.1 NameNode和DataNode4.2 JobTracker和TaskTracker4.3 HDFS和MapReduce的运行原理三、教学方法1. 讲授法：讲解Hadoop的基本概念、架构和组件2. 实践法：引导学生动手实践，安装和配置Hadoop，了解其运行原理3. 讨论法：鼓励学生提问、发表观点，共同探讨Hadoop的应用场景和优缺点四、教学准备1. 教师准备：熟悉Hadoop的安装和配置，了解其运行原理2. 学生准备：具备一定的Linux操作基础，了解Java编程五、教学评价1. 课堂参与度：学生提问、回答问题的积极性2. 实践操作：学生动手实践的能力，如能够独立完成Hadoop的安装和配置3. 课后作业：学生完成课后练习的情况，如编写简单的MapReduce程序4. 综合评价：结合学生的课堂表现、实践操作和课后作业，综合评价学生的学习效果《Hadoop大数据开发实战》教学教案（第二部分）六、教学目标1. 掌握Hadoop生态系统中的常用组件2. 理解Hadoop数据存储和处理的高级特性3. 学会使用Hadoop进行大数据处理和分析4. 能够运用Hadoop解决实际的大数据问题七、教学内容1. Hadoop生态系统组件7.1 YARN的概念和架构7.2 HBase的概念和架构7.3 Hive的概念和架构7.4 Sqoop的概念和架构7.5 Flink的概念和架构（可选）2. Hadoop高级特性8.1 HDFS的高可用性8.2 HDFS的存储策略8.3 MapReduce的高级特性8.4 YARN的资源管理3. 大数据处理和分析9.1 Hadoop在数据处理中的应用案例9.2 Hadoop在数据分析中的应用案例9.3 Hadoop在机器学习中的应用案例4. Hadoop解决实际问题10.1 Hadoop在日志分析中的应用10.2 Hadoop在网络爬虫中的应用10.3 Hadoop在图像处理中的应用八、教学方法1. 讲授法：讲解Hadoop生态系统组件的原理和应用2. 实践法：引导学生动手实践，使用Hadoop进行数据处理和分析3. 案例教学法：分析实际应用案例，让学生了解Hadoop在不同领域的应用九、教学准备1. 教师准备：熟悉Hadoop生态系统组件的原理和应用，具备实际操作经验2. 学生准备：掌握Hadoop的基本操作，了解Hadoop的核心组件十、教学评价1. 课堂参与度：学生提问、回答问题的积极性2. 实践操作：学生动手实践的能力，如能够独立完成数据处理和分析任务3. 案例分析：学生分析实际应用案例的能力，如能够理解Hadoop在不同领域的应用4. 课后作业：学生完成课后练习的情况，如编写复杂的MapReduce程序或使用Hadoop生态系统组件进行数据处理5. 综合评价：结合学生的课堂表现、实践操作、案例分析和课后作业，综合评价学生的学习效果重点和难点解析一、Hadoop的基本概念和架构二、Hadoop的安装和配置三、Hadoop的核心组件四、Hadoop生态系统组件五、Hadoop数据存储和处理的高级特性六、大数据处理和分析七、Hadoop解决实际问题本教案涵盖了Hadoop的基本概念、安装配置、核心组件、生态系统组件、数据存储和处理的高级特性，以及大数据处理和分析的实际应用。

Hadoop大数据技术基础与应用第1章 Hadoop技术概述

4.Hadoop发展历程
• 第一阶段
✓ 前Hadoop时代（2003-2007） ✓ 三大论文、Doug Cutting、Hadoop HBase ✓ 萌芽阶段
HBase （NOSQL分布式数据库）
MapReduce (分布式离线计算框架)
HDFS （分布式文件系统）
4.Hadoop发展历程
• 第二阶段
✓ 后Hadoop时代（2008-2014） ✓ Hadoop、HBase、Hive、Pig、Sqoop等百花齐放，眼花缭乱 ✓ 各个组件层出不穷，相互之间的兼容性管理混乱，虽然选择性多，但是很乱
Oozie
Zookeeper
HBase
Hive
Pig
MapReduce (分布式离线计算框架)
HDFS （分布式文件系统）
易理解。
• 使用方便通用的SQL语言使得操作关系型数据库非常方便。
• 易于维护丰富的完整性（实体完整性、参照完整性和用户定义的完整性）大大降低了数据冗余和数据
不一致的概率。
• 支持SQL 支持SQL语言完成复杂的查询功能。
3.Hadoop VS RDBMS
3.Hadoop VS RDBMS
• 数据规模 RDBMS适合处理GB级别的数据，数据量超过这个范围就会出现性能急剧下降，而Hadoop可以
2.Spark的特点
• 运行速度快 Spark源码是由Scala语言编写的，Scala语言非常简洁并具有丰富的表达力。 Spark充分利
用和集成了Hadoop等其他第三方组件，同时着眼于大数据处理，那么数据处理速度是至关重要的，Spark通过将中间结果缓存在内存从而减少磁盘I/O来达到性能的提升。
第1章 Hadoop技术概述

重大社2023《hadoop大数据技术原理与应用》教学课件u6

• YARN中任务进度监控
13 Yarn新增功能
➢ 新旧框架比较 • 同：客户端不变，其调用API及接口大部分保持兼容 • 异：原框架中核心的JobTasker和TaskTracker不见了，取而代之的是RM，AppMaster和 NM三个部分
➢ Yarn的改进 • RM相对于JobTracker，大大减少了资源的消耗，并且让监测每个Job子任务（task）状态的程序分布式化了。 • 在Yarn中，AppMaster是一个可变更的部分，用户可以对不同的程序模型编写自己的 AppMaster，让更多类型的编程模型能够跑在Hadoop集群中。 • 容错率更好，AppMaster监控task运行情况，RM监控AppMaster的状况，一旦出问题会在其他机器上重启
▪ 与ResourceManager调度器协商以获取抽象资源（Container）； ▪ 负责应用的监控，跟踪应用执行状态，重启失败任务等； ▪ 并且与NodeManager协同工作完成Task的执行和监控。
11 Yarn的工作机制
• YARN中应用（Application）运行机制（流程）
12 Yarn的工作机制
Hadoop技术原理
资源管理器Yarn
01 资源管理器Yarn
01 Yarn的产生背景
• Hadoop的主要组成
MapReduce随着Hadoop的变化也经历了两个版本，Hadoop1.x及之前对应的是MapReduce1， Hadoop2.x对应的是MapReduce2，MapReuce两个版本的两大任务是不变的，分别是Map任务和Reduce任务，不同的是MapReduce1和MapReduce2的资源管理器是不一样的。
14 Yarn调度器
• 调度器种类

大数据技术原理与应用课程教学大纲

大数据技术原理与应用课程教学大纲课程名称：大数据技术原理与应用课程类型：专业选修课课程学时：60学时课程教学目标：本课程旨在介绍大数据技术的原理和应用，使学生了解大数据技术的基本概念、关键技术和应用场景，并具备基本的大数据技术分析和应用能力。

通过本课程的学习，学生将能够掌握大数据技术的基本原理、企业级大数据技术体系结构、大数据分析方法和工具、大数据应用案例等知识，为学生未来从事大数据相关职业提供良好的基础。

授课内容和教学安排：第一章：大数据技术概述1.1 大数据技术的定义和特点1.2 大数据对社会和企业的影响1.3 大数据技术的发展历程1.4 大数据技术体系结构和组成部分第二章：大数据存储和处理技术2.1 大数据存储技术概述2.2 关系型数据库和NoSQL数据库2.3 Hadoop分布式文件系统2.4 大数据处理技术概述2.5 大数据处理框架：Hadoop MapReduce第三章：大数据挖掘和分析技术3.1 数据挖掘概述3.2 数据预处理和特征选择3.3 分类和聚类算法3.4 关联规则挖掘和推荐系统3.5 大数据分析工具概述：Spark、Flink等第四章：大数据应用实践4.1 电商大数据分析实践4.2 社交媒体数据分析实践4.3 金融数据分析实践4.4 健康医疗数据分析实践第五章：大数据技术发展趋势和展望5.1 大数据技术的发展趋势5.2 大数据技术在人工智能和物联网中的应用5.3 大数据伦理和安全问题教学方法：本课程采用多种教学方法，包括理论讲解、实例分析、案例研究和实践操作等。

通过理论讲解，学生将了解大数据技术的基本概念和原理；通过实例分析，学生将掌握大数据技术在实际场景中的应用方法；通过案例研究，学生将学会分析和解决大数据相关问题；通过实践操作，学生将运用所学知识完成大数据分析任务。

同时，教师将引导学生参与小组讨论和项目实践，促进学生的合作能力和创新思维。

评估方式：本课程的评估方式包括平时成绩和期末考试成绩两部分。

大数据技术原理与应用教学大纲

大数据技术原理与应用教学大纲课程概述入门级大数据课程，适合初学者，完备的课程在线服务体系，可以帮助初学者实现“零基础”学习大数据课程。

课程采用厦门大学林子雨老师编著的国内高校第一本系统性介绍大数据知识专业教材《大数据技术原理与应用》。

课程紧紧围绕“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”的指导思想，对大数据知识体系进行系统梳理，做到“有序组织、去粗取精、由浅入深、渐次展开”。

课程由国内高校知名大数据教师厦门大学林子雨副教授主讲。

授课目标课程的定位是入门级课程，本课程的目标是为学生搭建起通向“大数据知识空间”的桥梁和纽带。

本课程将系统梳理总结大数据相关技术，介绍大数据技术的基本原理和大数据主要应用，帮助学生形成对大数据知识体系及其应用领域的轮廓性认识，为学生在大数据领域“深耕细作”奠定基础、指明方向。

课程大纲第1讲大数据概述1.1 大数据时代1.2 大数据概念和影响1.3 大数据的应用1.4 大数据的关键技术1.5 大数据与云计算、物联网本讲配套讲义PPT-第1讲-大数据概述第1讲大数据概述章节单元测验第2讲大数据处理架构Hadoop本讲实验答疑-第2讲-大数据处理架构Hadoop2.1 概述2.2 Hadoop项目结构2.3 Hadoop的安装与使用2.4 Hadoop集群的部署和使用本讲配套讲义PPT-第2讲-大数据处理架构Hadoop 大数据处理架构Hadoop单元测验第3讲分布式文件系统HDFS3.1 分布式文件系统HDFS简介3.2 HDFS相关概念3.3 HDFS体系结构3.4 HDFS存储原理3.5 HDFS数据读写过程3.6 HDFS编程实践本讲配套讲义PPT-第3讲-分布式文件系统HDFS 分布式文件系统HDFS单元测验第4讲分布式数据库HBase4.1 HBase简介4.2 HBase数据模型4.3 HBase的实现原理4.4 HBase运行机制4.5 HBase应用方案4.6 HBase安装配置和常用Shell命令4.7 HBase常用Java API及应用实例本讲配套讲义PPT-第4讲-分布式数据库HBase 分布式数据库HBase单元测验第5讲NoSQL数据库5.1 NoSQL概述5.2 NoSQL与关系数据库的比较5.3 NoSQL的四大类型5.4 NoSQL的三大基石5.5 从NoSQL到NewSQL数据库5.6 文档数据库MongoDB本讲配套讲义PPT-第5讲-NoSQL数据库NoSQL数据库单元测验第6讲云数据库6.1 云数据库概述6.2 云数据库产品6.3 云数据库系统架构6.4 Amazon AWS和云数据库6.5 微软云数据库SQL Azure6.6 云数据库实践本讲配套讲义PPT-第6讲-云数据库云数据库单元测验第7讲MapReduce7.1 MapReduce概述7.2 MapReduce的体系结构7.3 MapReduce工作流程7.4 Shuffle过程原理7.5 MapReduce应用程序执行过程7.6 实例分析：WordCount7.7 MapReduce的具体应用7.8 MapReduce编程实践本讲配套讲义PPT-第7讲-MapReduce MapReduce单元测验第8讲Hadoop再探讨8.1 Hadoop的优化与发展8.2 HDFS2.0的新特性8.3 新一代资源管理调度框架YARN8.4 Hadoop生态系统中具有代表性的功能组件本讲配套讲义PPT-第9讲-Hadoop再探讨Hadoop再探讨单元测验第9讲数据仓库Hive9.1 数据仓库概念9.2 Hive简介9.3 SQL转换成MapReduce作业的原理9.4 Impala9.5 Hive编程实践本讲配套讲义PPT-第9讲-数据仓库Hive数据仓库Hive单元测验第10讲Spark10.1 Spark概述10.2 Spark生态系统10.3 Spark运行架构10.4 Spark SQL10.5 Spark的部署和应用方式10.6 Spark编程实践本讲配套讲义PPT-第10讲-SparkSpark单元测验第11讲流计算11.1 流计算概述11.2 流计算处理流程11.3 流计算的应用11.4 开源流计算框架Storm11.5 Spark Streaming、Samza以及三种流计算框架的比较11.6 Storm编程实践本讲配套讲义PPT-第11讲-流计算流计算单元测验第12讲Flink12.1Flink简介12.2为什么选择Flink12.3Flink应用场景12.4Flink技术栈、体系架构和编程模型12.5 Flink的安装与编程实践本讲配套讲义PPT-第12讲-FlinkFlink单元测验第13讲图计算13.1 图计算简介13.2 Pregel简介13.3 Pregel图计算模型13.4 Pregel的C++ API13.5 Pregel的体系结构13.6 Pregel的应用实例——单源最短路径13.7 Hama的安装和使用本讲配套讲义PPT-第13讲-图计算图计算单元测验第14讲大数据在不同领域的应用14.1 大数据应用概览14.2 推荐系统14.3 大数据在智能医疗和智能物流领域运用本讲配套讲义PPT-第14讲-大数据在不同领域的应用大数据在不同领域的应用单元测验预备知识面向对象编程（比如Java）、数据库、操作系统参考资料林子雨.大数据技术原理与应用（第3版），人民邮电出版社，2020年9月（教材官网）。

hadoop大数据技术原理与应用

hadoop大数据技术原理与应用
Hadoop是由Apache基金会在2006年提出的分布式处理系统。

它由一系列技术和系统所组成，包括Hadoop集群、Hadoop Distributed File System (HDFS)、MapReduce任务和JobTracker以及基于Apache HBase的非关系型数据库技术。

Hadoop集群是一群Hadoop包所组成的虚拟机，每个机器都具有它所需要和管理Hadoop系统所需要的功能。

HDFS是Hadoop的核心，它可以将数据存储在集群中的不同服务器上。

MapReduce是一种编程模型，可以用来在分布式集群上大规模的运行任务，开发和优化并行应用的表示方法。

JobTracker是Hadoop集群的集群管理器，负责管理任务。

HBase是基于Apache的非关系型数据库技术，可以支持大量的结构化数据以及查询和操纵它们。

Hadoop技术可以将海量数据存储在分布式系统中，然后再快速有效地处理这些数据。

它可以执行更复杂的计算，不受台式机和服务器硬件限制，同时可靠。

它也可以节省机器资源和购置费用，因为可以用更少的服务器来支撑更多的工作负载。

由于Hadoop的易用性，它被许多行业所采用，用来处理和分析数据，也可以
用来进行大规模的科学和工程类的计算。

它也可以在搜索引擎以及商业数据挖掘方面得到应用。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Hadoop大数据技术与应用（含实验）（1104201510）教学大纲

（2018版）

曙光瑞翼教育合作中心 2018年8月前言一、大纲编写依据《Hadoop大数据技术与应用》是数据科学、大数据方向本科生的一门必修课。通过该课程的学习，使学生系统的学习当前广泛使用的大数据Hadoop平台及其主要组件的作用及使用。课程由理论及实践两部分组成，课程理论部分的内容以介绍Hadoop平台主要组件的作用、结构、工作流程为主，让学生对Hadoop平台组件的作用及其工作原理有比较深入的了解；课程同时为各组件设计有若干实验，帮助学生在学习理论知识的同时，提高学生的实践能力，系统的掌握Hadoop主要组件的原理及应用，为其他相关课程的学习提供必要的帮助。二、课程目的 1、知识目标学习Hadoop平台框架，学会手动搭建Hadoop环境，掌握Hadoop平台上存储及计算的原理、结构、工作流程，掌握基础的MapReduce编程，掌握Hadoop生态圈常用组件的作用、结构、配置和工作流程，并具备一定的动手及问题分析能力，使用掌握的知识应用到实际的项目实践中。 2、能力目标 (1) 工程师思维方式通过本课程的学习，引导学生养成工程师逻辑思维、系统思维的思维方式及习惯。 (2) 分析及解决问题的能力课程中实验由浅及深，有一定的步骤及难度，操作不当可能会遇到问题；遇到问题时老师会给出引导，但不会直接告诉解决方法，因此，如何分析、分析完成后实施具体的解决步骤，都需要学生摸索完成，在这个摸索实践过程中，学生的分析及解决问题的能力得到培养。三、教学方法 1、课堂教学 (1) 讲授本课程的理论教学内容以讲授为主、辅以操作演示，讲授的主要内容有：Hadoop概述，Hadoop安装部署，分布式文件系统HDFS，分布式计算MapReduce，资源管理调度组件YARN，列式存储HBase，数据仓库组件Hive，数据分析引擎Pig，日志采集组件Flume，数据迁移组件Sqoop，集群管理组件Ambari，分布式应用程序协调组件Zookeeper，集成的可扩展的机器学习算法库Mahout。根据教学大纲的要求，突出重点和难点。 (2) 实践实践课程由若干实验组成，每个实验都包含实验目的、实验原理、实验环境等，需要学生结合理论知识，充分发挥自主学习的能力来完成实验，老师在这个过程中更多起到辅导的作用。 (3) 其它教学方法采用多媒体辅助教学手段、提供实验相关视频，结合传统教学方法，解决好教学内容多、信息量大与学时少的矛盾；充分利用教学实验系统EDU资源和学校的图书馆的资源优势，查阅与课程相关的资料；通过辅导学生完成实验来提高学生的综合处理问题的能力和软件开发的能力。

2、课外学习（1）课外练习。（2）上机实验报告。四、适用对象数据科学与大数据技术、计算机科学与技术、软件工程、信息安全、信息管理、网络、数学、统计学专业。五、先修课程及后续课程（或相关课程）（一）先修课程：《高级语言程序设计（Java）》、《Linux》、《大数据导论》、《数据库原理》；（二）后续课程：《数据挖掘》、《Spark大数据技术与应用》。六、课程性质必修。七、总课时及各章的分配授课总课时数为64学时，各章的学时具体安排如下：章节教学内容理论学时实验学时合计第一章初识Hadoop大数据技术 2 0 2 第二章 Hadoop环境设置 2 4 6 第三章 HDFS（重点章节） 6 8 14 第四章 YARN 2 0 2 第五章 MapReduce（重点章节） 6 8 14 第六章 HBase、Hive、Pig（重点章节） 8 8 16 第七章 Flume 1 1 2 第八章 Sqoop 1 1 2 第九章 ZooKeeper 3 2 5 第十章 Ambari 1 0 1 第十一章 Mahout 0 0 0 总结课程总结、综合实验 0 0 0 合计 32 32 64 八、使用教材及主要参考书目（一）选用教材自编教材：《Hadoop大数据技术与应用》（二）主要参考书目 1．Tom White：《Hadoop权威指南:大数据的存储与分析（第4版）》，清华大学出版社，2017年7月。 2．林子雨：《大数据技术原理与应用:概念、存储、处理、分析与应用(第2版)》，人民邮电出版社，2017年1月。九、考核方式及成绩评定标准 1、考核内容与形式 (1) 知识类考核本课程采用闭卷考试形式。重点考试内容：HDFS、MapReduce、HBase、Hive、Pig、Flume、Sqoop等组件的使用方法。 (2) 能力类考核利用学生平时作业、课堂提问与讨论考查学生的学习能力，理解和掌握相关知识的程度以及实际应用能力。通过实验考查学生的实践动手能力、软件开发能力，促进学生自主性学习和研究性学习，启迪学生的创新思维。 2、课程成绩构成 (1) 平时成绩占百分比平时成绩(包括平时考勤、作业情况和上机实验情况)占总分40%； (2) 考试成绩占百分比期末考试成绩占总分60% 第一章初识Hadoop大数据技术

第一节大数据概述了解什么是大数据、大数据简史、大数据的类型和特征、大数据对于企业带来的挑战。第二节大数据相关问题的解决方法（本章重点）

了解对于大数据问题，传统方法、Google的解决方案、Hadoop框架下的解决方案，重点了解Google的三篇论文。第三节 Hadoop概述（本章重点）

了解Hadoop核心构成、Hadoop生态系统的主要组件、Hadoop发行版本的差异及如何选择。第四节 Hadoop应用案例了解Hadoop典型应用场景。第二章 Hadoop环境设置

第一节安装前准备了解Hadoop环境搭建前所需做的准备工作。第二节 Hadoop模式（本章重点）

逐一介绍Hadoop的三种模式：单机、伪分布式和完全分布式。第三章 HDFS（重点章节）

第一节 HDFS简介掌握HDFS组件的作用、优缺点。第二节 HDFS组成与架构（本章重点）

掌握HDFS的组成与架构：NameNode、DataNode、SecondaryNameNode等，掌握工作流程。第三节 HDFS工作机制（本章重点、难点）

掌握机架感应、HDFS文件读取写入流程、掌握HDFS数据容错相关处理机制。第四节 HDFS操作（本章重点、难点）

从Web访问、HDFS Shell、HDFS API三个方面掌握HDFS操作。第五节 HDFS高级功能

了解HDFS高级功能，包括：安全模式、回收站、快照、配额。第四章 YARN

第一节 YARN简介了解YARN的作用，了解YARN出现的原因，以帮助下一节对YARN的结构有更好的理解。第二节 YARN架构（本章难点）了解YARN组件、YARN工作流程（重点）、YARN资源模型。第三节 YARN调度组件

了解YARN调度组件，了解FIFO调度器，了解Capacity调度器和Fair调度器。第五章 MapReduce（重点章节）

第一节 MapReduce概述了解MapReduce指的是什么，重点掌握MapReduce设计思想，了解MapReduce特点和不擅长的场景。第二节 MapReduce编程模型（本章重点、难点）

重点掌握MapReduce编程模型，掌握MapReduce编程实例之wordcount、统计各个部门员工薪水总和、序列化。第三节 MapReduce编程进阶（本章难点）

了解MapReduce的数据输入、输出格式，掌握分区和合并的概念。第四节 MapReduce工作机制（本章重点、难点）

重点掌握MapReduce作业运行机制，掌握Shuffle与排序。第五节 MapReduce编程案例

通过案例，熟悉MapReduce常用编程案例之排序、去重和多表查询。第六章 HBase、Hive、Pig（重点章节）

第一节 HBase 一、了解什么是HBase。二、掌握HBase数据模型。（本节重点）三、掌握HBase物理模型。四、了解HBase系统架构。（本节重点）五、了解HBase与传统数据库的差异。第二节 Hive

一、了解Hive架构与工作原理。二、掌握Hive数据类型与存储格式。（本节重点）三、掌握Hive数据模型。（本节重点）四、掌握查询数据。（本节重点）五、了解用户定义函数。第三节 Pig

一、了解什么是Pig：Pig组件、Pig与Hive的比较；重点了解Pig数据模型。二、掌握什么是Pig Latin编程语言：数据类型、语句、表达式、函数。（本节重点）三、掌握Pig代码实例。（本节重点）四、了解用户自定义函数。第七章 Flume

第一节 Flume产生的背景了解Flume产生的背景。第二节 Flume简介

了解什么是Flume。第三节 Flume安装

掌握Flume安装。第四节 Flume架构（本章重点）

掌握Flume架构和工作方式。第五节 Flume配置（本章重点）

掌握Flume常用的配置。第八章 Sqoop

第一节 Sqoop背景简介了解Sqoop产生的背景及作用。第二节 Sqoop基本原理

掌握Sqoop工作原理。