Hadoop大数据开发实战-教学大纲
《Hadoop大数据开发实战》教学教案—07Hive

Hadoop大数据开发实战教学设计课程名称:Hadoop大数据开发实战授课年级:______ ______________ ___ 授课学期:___ ____ ________ ________ 教师姓名:______________ ________第一课时(数据仓库简介、认识Hive、Hive安装、Hive数据类型)回顾内容,引出本课时主题1.回顾内容,引出本课时的主题上节学习了Hadoop2.0新特性的相关知识,本节带领大家学习数据仓库、Hive、安装Hive、Hive数据类型的相关知识。
Hive是建立在Hadoop上的数据仓库工具,可以借助提取、转化、加载技术(Extract-Transform-Load,ETL)存储、查询和分析存储在Hadoop中的大规模数据。
Hive的出现使得开发人员使用相对简单类SQL(Struture Query Language,结构查询语言)语句,就可以操作Hadoop处理海量数据,大大降低了开发人员的学习成本。
2.明确学习目标(1)能够了解数据仓库的概念(2)能够理解数据仓库的使用(3)能够了解数据仓库的特点和主流的数据仓库(4)能够掌握Hive架构(5)能够理解Hive和关系型数据库比较(6)能够掌握Hive安装(7)能够掌握Hive数据类型知识讲解➢数据仓库概述数据仓库是一个面向主题的、集成的、随时间变化但信息本身相对稳定的数据集合,用于支持管理决策过程。
总体来说,数据仓库可以整合多个数据源的历史数据,进行细粒度的、多维的分析,帮助高层管理者或者业务分析人员做出商业战略决策或商业报表。
➢数据仓库的使用一个公司的不同项目可能用到不同的数据源,有的项目数据存在MySQL 里面,有的项目存在MongoDB里面,甚至还有些要做第三方数据。
如果想把这些数据整合起来,进行数据分析,数据仓库(Data Warehouse,DW)就派上用场了。
它可以对多种业务数据进行筛选和整合,用于数据分析、数据挖掘、数据报表,如图所示。
《Hadoop大数据技术》课程理论教学大纲

《Hadoop大数据技术》课程教学大纲一、课程基本情况课程代码:1041139083课程名称(中/英文):Hadoop大数据技术/Hadoop Big Data Technology课程类别:专业必修课学分:3.5总学时:56理论学时:32实验/实践学时:24适用专业:数据科学与大数据技术适用对象:本科先修课程:JA V A程序设计、Linux基础教学环境:课堂、多媒体、实验机房二、课程简介《Hadoop大数据技术》课程是数据科学与大数据技术专业的专业必修课程。
《Hadoop大数据技术》主要学习当前广泛使用的大数据Hadoop平台及其主要组件的作用及使用。
通过学习Hadoop 平台框架,学会手动搭建Hadoop环境,掌握Hadoop平台上存储及计算的原理、结构、工作流程,掌握基础的MapReduce编程,掌握Hadoop生态圈常用组件的作用、结构、配置和工作流程,并具备大数据的动手及问题分析能力,使用掌握的知识应用到实际的项目实践中。
课程由理论及实践两部分组成,课程理论部分的内容以介绍Hadoop平台主要组件的作用、结构、工作流程为主,对Hadoop 平台组件的作用及其工作原理有比较深入的了解;课程同时为各组件设计有若干实验,使学生在学习理论知识的同时,提高实践动手能力,做到在Hadoop的大数据平台上进行大数据项目开发。
三、课程教学目标2.课程教学目标及其与毕业要求指标点、主要教学内容的对应关系四、教学内容(一)初识Hadoop大数据技术1.主要内容:掌握大数据的基本概念、大数据简史、大数据的类型和特征、大数据对于企业带来的挑战。
了解对于大数据问题,传统方法、Google的解决方案、Hadoop框架下的解决方案,重点了解Google的三篇论文。
掌握Hadoop核心构成、Hadoop生态系统的主要组件、Hadoop发行版本的差异及如何选择;了解Hadoop典型应用场景;了解本课程内容涉及到的Java语言基础;了解本课程实验涉及到的Linux基础。
大数据开发技术(Hadoop)-大纲

《大数据开发技术(Hadoop)》教学大纲课程编号:071333B课程类型:□通识教育必修课□通识教育选修课□专业必修课█专业选修课□学科基础课总学时:48讲课学时:16 实验(上机)学时:32学分:3适用对象:计算机科学与技术专业,大三本科生先修课程:人工智能、面向对象程序设计、数据库原理、高性能计算一、教学目标目标是让学生了解并掌握四个领域(即大数据系统的起源及系统特征、大数据系统的架构设计及功能目标设计、大数据系统程序开发、企业大数据案例分析)的内容,同时利用真机实验环节以及大数据实训一体机来提升学生对大数据开发的实践能力;本课程重点让学生掌握四个方面的内容:目标1:HDFS使用操作目标2:Map/Reduce开发目标3:HBase数据库的开发目标4:Hive数据仓库开发二、教学内容及其与毕业要求的对应关系1:Hadoop大数据处理平台安装与部署目标及要求:让学生掌握Hadoop平台的安装,熟悉大数据处理的软硬件环境。
2:HDFS操作命令操作目标及要求:让学生掌握分布式文件系统HDFS的文件操作,包含导入导出文件、列表、查找、删除文件等。
3:MapReduce开发目标及要求:让学生掌握在HDFS文件系统内的Map及Reduce的Java开发,实现对指定文本文件的单词计数,将统计结果输出至控制台。
4:HBase数据库命令操作目标及要求:让学生掌握分布式文件数据库系统HBase的数据库操作,包含创建表、删除表、增加列、导入记录、删除记录等。
5:Hive数据仓库基础使用目标及要求:让学生掌握在Hive数据仓库的基本命令的操作,包含创建数据仓库、创建表、删除表、导入及导出数据,统计查询等在CLI模式下的使用操作。
三、各教学环节学时分配(黑体,小四号字)教学课时分配四、教学内容第一章大数据概述授课学时:1基本要求:1. 了解大数据概念、特征、数据计量单位以及大数据的类型;2. 了解大数据系统的设计背景、以及当前大数据系统存在的不足;3. 了解大数据系统的设计思想、设计目标和设计原则;4. 了解大数据系统的整体逻辑架构设计及运行逻辑,了解当前大数据系统的主流架构;第二章大数据应用开发思路和开发环境配置授课学时:1基本要求:1. 掌握大数据系统应用读写操作的开发流程;2. 掌握分析大数据开发技术及思路;3. 掌握大数据Java开发的环境配置、Plugin插件的安装,Hadoop环境配置;4. 真机实操训练(实验环节1);第三章HDFS 分布式文件系统授课学时:2基本要求:1. 了解HDFS设计目标、基本概念;2. 掌握HDFS文件系统的命令操作;3. 掌握Java对HDFS的程序开发操作,包含目录管理、文件列表、读取、导入导出、文件压缩等开发;4. 真机实操训练(实验环节2);第四章MapReduce 分布式编程授课学时:4基本要求:1. 了解MapReduce的设计思想、基本概念;2. 了解MapReduce的系统架构、作业运行机制和关键技术;3. 掌握MapReduce的数据类型的自定义以及数据类型的使用;4. 掌握MapReduce开发,定制输入输出的数据格式;5. 掌握将HDFS文件系统中整个文件作为输入数据的开发;6. 掌握利用MapReduce完成小文件聚合成一个大文件的开发;7. 掌握压缩数据处理程序开发;8. 掌握任务组合过程,掌握迭代组合、并行组合及串行组合;9. 掌握任务的前后链式组合;10. 掌握多数据源连接的开发,包含Map端开发以及Reduce端开发;11. 掌握Hadoop全局参数的使用,全局文件的使用;12. 掌握与关系型数据库的访问连接;13. 真机实操训练(实验环节3);第五章HBase 分布式数据库授课学时:4基本要求:1. 了解HBase分布式数据库的设计目标、基本概念;2. 了解HBase逻辑架构以及物理架构;3. 掌握HBase分布式数据库Shell命令操作;4. 掌握HBase数据库系统的Java开发,包含创建表、删除表,查询所有表操作;5. 掌握HBase数据库系统的Java开发,包含插入记录、查询数据,组合查询、修改删除记录等开发;6. 真机实操训练(实验环节4);第六章Hive数据仓库开发授课学时:4基本要求:1. 了解Hive数据仓库的工作原理及特点;2. 了解Hive架构设计,包含数据类型、数据存储方式以及查询方式;3. 掌握Hive数据仓库系统的HQL语言语法;4. 掌握HQL的创建表、查看表及查询有结构,修改表以及删除表;5. 掌握利用HQL语句将HDFS的文件导入数据仓库;6. 掌握分区表、桶表、外部表的使用;7. 掌握HQL语句的联合查询、子查询、创建视图等操作;8. 掌握利用Java开发UDF自定义函数,以及自定义函数的使用;9. 掌握Java连接Hive数据仓库进行数据查询;10. 真机实操训练(实验环节5);五、考核方式、成绩评定(黑体,小四号字)考核方式:考查,采用平时成绩+期末课程设计。
《Hadoop》实验教学大纲(大数据)

《H a d o o p》实验教学大纲课程代码:实验学时:16先修课程:《大数据导论》一、目的要求目的:使学生能够掌握大数据平台Hadoop的基本概念,并根据Hadoop处理大批量数据集的存储与分析计算,掌握调试程序的基本技巧,初步了解大数据开发所要经历的阶段,为学生从事大数据开发和数据处理工作打下坚实的基础。
要求:熟悉Linux系统和Java se编程,根据实验内容和要求,认真完成程序编写、上机调试、运行结果分析,书写实验报告。
二、实验项目内容及学时分配实验一、Linux及虚拟机安装搭建(3学时)1.实验目的要求(1)安装VMware虚拟机;(2)通过VMware虚拟机编译、安装Linux CentOS系统。
2.实验主要内容通过在计算机系统上编译和安装Linux系统环境,为Hadoop软件安装和搭建提供工作环境。
3.实验类别:基础4.实验类型:验证5.实验要求:必做6.主要仪器:微型计算机实验二、Hadoop的安装搭建(3学时)1.实验目的要求掌握大数据核心框架Hadoop的安装和部署,包括伪分布式集群的安装部署和完全分布式的安装和部署。
2.实验主要内容通过上机在Linux系统环境进行Hadoop平台的安装和部署,完成大数据分布式处理平台的搭建。
3.实验类别:基础4.实验类型:验证5.实验要求:必做6.主要仪器:微型计算机实验三、HDFS Shell应用(3学时)1.实验目的要求(1)掌握分布式文件存储与管理系统hdfs的数据上传与下载命令;(2)掌握hdfs文件增删改查等操作命令;(3)掌握分布式系统hdfs的运行原理。
2.实验主要内容(1)hdfs hadoop put get mkdir ls 等命令的使用(2)NameNode datanode的作用及原理3.实验类别:基础4.实验类型:设计5.实验要求:必做6.主要仪器:微型计算机实验四、MapReduce编程(3学时)1.实验目的要求(1)正确使用MapReduce编程;(2)MapReduce编程的编程格式;(3)“WC”编程;2.实验主要内容(1)MapReduce固定格式语法编程,map编程、reduce编程(2)自定义函数编程,UDF、UDAF等函数编程3.实验类别:专业基础4.实验类型:设计5.实验要求:必做6.主要仪器:微型计算机实验五、MapReduce数据倾斜等优化(4学时)1.实验目的要求(1)掌握MapReduce编程的优化;(2)熟练掌握数据倾斜等MapReduce任务问题的优化。
《Hadoop大数据开发实战》教学教案—10Sqoop

Hadoop大数据开发实战教学设计课程名称:Hadoop大数据开发实战授课年级:______ ______________ ___ 授课学期:___ ____ ________ ________ 教师姓名:______________ ________第一课时(认识Sqoop、Sqoop安装、Sqoop命令、Sqoop数据导入)回顾内容,引出本课时主题1.回顾内容,引出本课时的主题上节学习了Flume的相关知识,本节将带领学习进行Sqoop安装、Sqoop 命令、Sqoop数据导入的学习。
Sqoop通过Hadoop的MapReduce实现了数据在关系型数据库与HDFS、Hive、HBase等组件之间的传输。
在大数据项目中,Sqoop为大规模数据的处理与存储提供了重要支持。
2.明确学习目标(1)能够了解Sqoop(2)能够掌握Sqoop原理和架构(3)能够掌握Sqoop安装和Sqoop命令(4)能够掌握将MySQL的数据导入HDFS(5)能够掌握将MySQL的数据导入Hive知识讲解➢Sqoop简介Sqoop是一种用于在Hadoop和结构化数据系统(如关系数据库、大型机)之间高效传输数据的工具。
Sqoop项目开始于2009年,它的出现主要是为了满足以下两种需求。
(1)企业的业务数据大多存放在关系数据库(如MySQL、Oracle)中,数据量达到一定规模后,如果需要对其进行统计和分析,直接使用关系数据库处理数据的效率较低,这时可以通过Sqoop将数据从关系型数据库导入Hadoop的HDFS(或HBase、Hive)进行离线分析。
(2)使用Hadoop处理后的数据,往往需要同步到关系数据库中作为业务的辅助数据,这时可以通过Sqoop将Hadoop中的数据导出到关系数据库。
Sqoop担负了将数据导入和导出Hadoop的任务。
Sqoop的核心设计思想是利用MapReduce提高数据传输速度。
Sqoop 的导入和导出功能就是通过MapReduce 作业来实现的。
《Hadoop大数据开发实战》教学教案—06Hadoop2.0新特性

Hadoop大数据开发实战教学设计课程名称:Hadoop大数据开发实战授课年级:______ ______________ ___ 授课学期:___ ____ ________ ________ 教师姓名:______________ ________第一课时(Hadoop2.0的改进、YARN资源管理框架、Hadoop的HA模式)回顾内容,引出本课时主题1.回顾内容,引出本课时的主题上节学习了Zookeeper分布式协调服务,本节将介绍关于Hadoop2.0新特性的现关知识。
Hadoop诞生以来,主要分为Hadoop1.0、Hadoop2.0、Hadoop3 .0三个系列的多个版本。
目前最常见的是Hadoop2.0系列。
Hadoop2.0指的是第2代Hadoop,它是从Hadoop1.0发展而来的,相对于Hadoop1.0有很多改进。
下面对Hadoop2.0新特性进行详细讲解。
2.明确学习目标(1)能够理解HDFS存在的问题(2)能够理解MapReduce存在的问题(3)能够理解HDFS2.0解决HDFS1.0中的问题(4)能够掌握Zookeeper的工作原理(5)能够掌握YARN架构(6)能够掌握YARN的优势(7)能够了解HA模式知识讲解➢Hadoop2.0的改进Hadoop1.0由MapReduce和HDFS组成,在高可用、扩展性方面存在一些问题。
Hadoop 2.0由HDFS、MapReduce和Y ARN三个分支构成。
如图所示。
MapReduce(cluster resource management&data processing)HADOOP1.0HDFS (redundant,reliable storage)YARN(cluster resource management )HADOOP2.0HDFS(redundant,reliable storage) MapReduce(data processing)Others(data processing)➢HDFS存在的问题(1)NameNode单点故障。
《Hadoop大数据开发实战》教学教案(全)
《Hadoop大数据开发实战》教学教案(第一部分)一、教学目标1. 理解Hadoop的基本概念和架构2. 掌握Hadoop的安装和配置3. 掌握Hadoop的核心组件及其作用4. 能够搭建简单的Hadoop集群并进行基本的操作二、教学内容1. Hadoop简介1.1 Hadoop的定义1.2 Hadoop的发展历程1.3 Hadoop的应用场景2. Hadoop架构2.1 Hadoop的组成部分2.2 Hadoop的分布式文件系统HDFS2.3 Hadoop的计算框架MapReduce3. Hadoop的安装和配置3.1 Hadoop的版本选择3.2 Hadoop的安装步骤3.3 Hadoop的配置文件解读4. Hadoop的核心组件4.1 NameNode和DataNode4.2 JobTracker和TaskTracker4.3 HDFS和MapReduce的运行原理三、教学方法1. 讲授法:讲解Hadoop的基本概念、架构和组件2. 实践法:引导学生动手实践,安装和配置Hadoop,了解其运行原理3. 讨论法:鼓励学生提问、发表观点,共同探讨Hadoop的应用场景和优缺点四、教学准备1. 教师准备:熟悉Hadoop的安装和配置,了解其运行原理2. 学生准备:具备一定的Linux操作基础,了解Java编程五、教学评价1. 课堂参与度:学生提问、回答问题的积极性2. 实践操作:学生动手实践的能力,如能够独立完成Hadoop的安装和配置3. 课后作业:学生完成课后练习的情况,如编写简单的MapReduce程序4. 综合评价:结合学生的课堂表现、实践操作和课后作业,综合评价学生的学习效果《Hadoop大数据开发实战》教学教案(第二部分)六、教学目标1. 掌握Hadoop生态系统中的常用组件2. 理解Hadoop数据存储和处理的高级特性3. 学会使用Hadoop进行大数据处理和分析4. 能够运用Hadoop解决实际的大数据问题七、教学内容1. Hadoop生态系统组件7.1 YARN的概念和架构7.2 HBase的概念和架构7.3 Hive的概念和架构7.4 Sqoop的概念和架构7.5 Flink的概念和架构(可选)2. Hadoop高级特性8.1 HDFS的高可用性8.2 HDFS的存储策略8.3 MapReduce的高级特性8.4 YARN的资源管理3. 大数据处理和分析9.1 Hadoop在数据处理中的应用案例9.2 Hadoop在数据分析中的应用案例9.3 Hadoop在机器学习中的应用案例4. Hadoop解决实际问题10.1 Hadoop在日志分析中的应用10.2 Hadoop在网络爬虫中的应用10.3 Hadoop在图像处理中的应用八、教学方法1. 讲授法:讲解Hadoop生态系统组件的原理和应用2. 实践法:引导学生动手实践,使用Hadoop进行数据处理和分析3. 案例教学法:分析实际应用案例,让学生了解Hadoop在不同领域的应用九、教学准备1. 教师准备:熟悉Hadoop生态系统组件的原理和应用,具备实际操作经验2. 学生准备:掌握Hadoop的基本操作,了解Hadoop的核心组件十、教学评价1. 课堂参与度:学生提问、回答问题的积极性2. 实践操作:学生动手实践的能力,如能够独立完成数据处理和分析任务3. 案例分析:学生分析实际应用案例的能力,如能够理解Hadoop在不同领域的应用4. 课后作业:学生完成课后练习的情况,如编写复杂的MapReduce程序或使用Hadoop生态系统组件进行数据处理5. 综合评价:结合学生的课堂表现、实践操作、案例分析和课后作业,综合评价学生的学习效果重点和难点解析一、Hadoop的基本概念和架构二、Hadoop的安装和配置三、Hadoop的核心组件四、Hadoop生态系统组件五、Hadoop数据存储和处理的高级特性六、大数据处理和分析七、Hadoop解决实际问题本教案涵盖了Hadoop的基本概念、安装配置、核心组件、生态系统组件、数据存储和处理的高级特性,以及大数据处理和分析的实际应用。
《Hadoop大数据开发实战》教学教案—03HDFS分布式文件系统
Hadoop大数据开发实战教学设计课程名称:Hadoop大数据开发实战授课年级:______ ______________ ___ 授课学期:___ ____ ________ ________ 教师姓名:______________ ________第一课时(HDFS简介、HDFS存储架构和数据读写流程、HDFS的Shell命令、Java程序操作HDFS)回顾内容,引出本课时主题1.回顾内容,引出本课时的主题上节学习了Hadoop集群搭建和使用,本节将学习HDFS分布式文件系统的相关知识。
Hadoop的核心是HDFS和MapReduce。
HDFS由NDFS系统演变而来,主要解决海量大数据存储的问题,也是目前分布式文件系统中应用比较广泛的一个。
本章将带领大家深刻理解和运用HDFS系统。
2.明确学习目标(1)能够了解HDFS(2)能够理解HDFS数据的存储和读取方式(3)能够掌握HDFS的特点(4)能够掌握HDFS的存储架构和数据读写流程(5)能够掌握HDFS的Shell命令(6)能够掌握Java程序操作HDFS知识讲解➢HDFS的概念HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。
分布式存储比普通存储方式节省时间。
例如,现有10台计算机,每台计算机上有1TB的硬盘。
如果将Hadoop 安装在这10台计算机上,可以使用HDFS进行分布式的文件存储。
相当于登录到一台具有10 TB存储容量的大型机器。
而用HDFS分布式的文件存储方式在10台计算机上存储,显然比用普通方式在1台计算机上存储更节省时间,这就如同3个人吃3个苹果比1个人吃3个苹果要快。
1.NameNodeNameNode(名称节点)管理文件系统的命名空间。
它负责维护文件系统树及树内所有的文件和目录。
这些信息以两个文件(命名空间镜像文件和编辑日志文件)的形式永久保存在本地磁盘上。
《Hadoop》理论教学大纲(大数据)
《H a d o o p》理论教学大纲课程代码:总学时:32学时(其中:讲课16学时、实验16学时)先修课程:《大数据导论》一、课程的性质、目的与任务《Hadoop》是数据科学与大数据技术专业必修课程。
通过本课程的学习,应掌握大数据核心平台框架的基本知识,具有应用Hadoop平台实施海量数据存储和分析计算的能力;初步掌握大数据开发的技巧和方法,以及平台的安装、调试和测试方法;对Hadoop 平台的各种成份有较好的理解;能够根据要求编制程序解决实际问题;为后续课程的学习打下必备的基础。
二、教学基本内容与基本要求1.基本内容本课程主要内容为大数据的基本概念、分布式文件存储与管理系统HDFS、分布式文件计算引擎MapReduce、yarn等组件的原理及使用等。
2.基本要求本课程借助Hadoop平台讲授海量数据的存储与分析计算。
通过hdfs shell及MapReduce编程,使学生掌握大批量数据集读写及计算的原理、方法和技巧,具有一定的大数据开发的能力。
为后续课程的学习打下基础。
(教学要求:A—熟练掌握;B—掌握;C—了解)五、教学方法与教学手段1.教学方法:Hadoop是一门理论与实践并重的课程,因此,本课程采用理论课程教学与实验课程教学相结合的方法。
通过对知识点和典型例题的讲解分析以及上机实验的指导答疑,发挥学生思考问题的主动性和创造性,能用Hadoop框架处理大数据计算。
2.教学手段:利用多媒体、CAI课件等现代化教学手段,提高教学质量。
六、建议教材与参考书目1.参考教材:《大数据技术原理与应用(第2版)》,林子雨,人民邮电出版社,2017年1月第2版。
2.参考书目:①《大数据基础编程、实验和案例教程》,林子雨编,清华大学出版社,2017年1月第1版。
七、大纲编写的依据与说明本课程教学大纲,是根据数据科学与大数据技术专业培养目标和基本要求,结合本课程的性质,经学校教学委员会审定后编写的。
本课程着重训练学生程序设计的思想和编程技巧,培养学生初步应用大数据框架解决和处理实际问题的能力,为《数据结构》、《Python语言程序设计》、《Java程序设计》、《WEB程序设计》等后续课程打下坚实的基础。
《Hadoop大数据开发实战》教学教案—02搭建Hadoop集群
《Hadoop大数据开发实战》教学教案—02搭建Hadoop集群Hadoop大数据开发实战教学设计课程名称:Hadoop大数据开发实战授课年级:______ ______________ ___ 授课学期:___ ____ ________ ________ 教师姓名:______________ ________第一课时(搭建Hadoop集群)回顾内容,引出本课时主题1.回顾内容,引出本课时的主题上节学习了Hadoop的基本知识,“工欲善其事,必先利其器”,在深入学习Hadoop,掌握其相关应用前,需要学会搭建集群环境。
下面将带领大家从零开始搭建一个简单的Hadoop集群。
本节主要讲解安装前的准备工作。
Hadoop可以安装在Linux系统和Windows系统上使用。
由于Linux系统具备便捷性和稳定性,所以在实际开发过程中,更多的Hadoop集群是在Linux系统上运行的,本书对Linux 系统上的Hadoop集群搭建以及使用进行讲解。
2.明确学习目标(1)能够独立完成虚拟机安装(2)能够独立完成虚拟机克隆(3)能够掌握Linux系统网络配置(4)能够独立完成SSH服务配置知识讲解虚拟机安装搭建Hadoop集群需要很多台机器,这在个人开发测试和学习时,肯定是不切实际的。
所以,可以使用虚拟机软件在一台电脑中,搭建出多个Linux 虚拟机环境,来进行个人开发测试和学习。
下面就开始分步演示VMware Workstation虚拟软件工具进行Linux系统虚拟机安装配置的过程。
1.创建虚拟机2.虚拟机启动初始化具体细节参见教材2.1.1节内容。
虚拟机克隆一台搭载CentOS镜像文件的Linux 虚拟机已经安装成功,但是搭建Hadoop集群,一台虚拟机远远不能满足需求,这时需要对已安装的虚拟机进行克隆。
克隆就是复制原始虚拟机全部状态的,克隆操作一旦完成,克隆的虚拟机就可以脱离原始虚拟机独立存在,而且在克隆的虚拟机中和原始虚拟机中的操作是相对独立的,不相互影响(1)关闭虚拟机qf01,克隆虚拟机只能在虚拟机关机状态下进行。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《Hadoop大数据开发基础》教学大纲课程名称:Hadoop大数据开发基础
课程类别:必修
适用专业:大数据技术类相关专业
总学时:48学时
总学分:3.0学分
一、课程的性质
本课程是为大数据技术类相关专业学生开设的课程。
随着时代的发展,大数据已经成为一个耳熟能详的词汇。
与此同时,针对大数据处理的新技术也在不断的开发和运用中,逐渐成为数据处理挖掘行业广泛使用的主流技术之一。
Hadoop作为处理大数据的分布式存储和计算框架,得到了国内外大小型企业广泛的应用。
Hadoop是一个可以搭建在廉价服务器上的分布式集群系统架构,它具有可用性高、容错性高和可扩展性高等优点。
由于它提供了一个开放式的平台,用户可以在完全不了解底层实现细节的情形下,开发适合自身应用的分布式程序。
经过十多年的发展,目前Hadoop已经成长为一个全栈式的大数据技术生态圈,并在事实上成为应用最广泛最具有代表性的大数据技术。
因此,学习Hadoop技术是从事大数据行业工作所必不可少的一步。
二、课程的任务
通过本课程的学习,使学生学会搭建Hadoop完全分布式集群,掌握HDFS的原理和基础操作,掌握MapReduce原理架构、MapReduce程序的编写。
为将来从事大数据挖掘研究工作以及后续课程的学习奠定基础。
三、教学内容及学时安排
四、考核方式
突出学生解决实际问题的能力,加强过程性考核。
课程考核的成绩构成= 平时作业(20%)+ 课堂参与(10%)+ 期末考核(70%),期末考试建议采用开卷形式,试题应包括基本概念、基本理论、程序设计、综合应用等部分,题型可采用判断题、选择、简答、应用题等方式。