HADOOP课程大纲

合集下载

《Hadoop大数据技术与应用》课程教学大纲 - 20190422

Hadoop大数据技术与应用（含实验）教学大纲前言一、大纲编写依据《Hadoop大数据技术与应用》是数据科学、大数据方向本科生的一门必修课。

通过该课程的学习，使学生系统的学习当前广泛使用的大数据Hadoop平台及其主要组件的作用及使用。

课程由理论及实践两部分组成，课程理论部分的内容以介绍Hadoop平台主要组件的作用、结构、工作流程为主，让学生对Hadoop平台组件的作用及其工作原理有比较深入的了解；课程同时为各组件设计有若干实验，帮助学生在学习理论知识的同时，提高学生的实践能力，系统的掌握Hadoop主要组件的原理及应用，为其他相关课程的学习提供必要的帮助。

二、课程目的1、知识目标学习Hadoop平台框架，学会手动搭建Hadoop环境，掌握Hadoop平台上存储及计算的原理、结构、工作流程，掌握基础的MapReduce编程，掌握Hadoop生态圈常用组件的作用、结构、配置和工作流程，并具备一定的动手及问题分析能力，使用掌握的知识应用到实际的项目实践中。

2、能力目标(1) 工程师思维方式通过本课程的学习，引导学生养成工程师逻辑思维、系统思维的思维方式及习惯。

(2) 分析及解决问题的能力课程中实验由浅及深，有一定的步骤及难度，操作不当可能会遇到问题；遇到问题时老师会给出引导，但不会直接告诉解决方法，因此，如何分析、分析完成后实施具体的解决步骤，都需要学生摸索完成，在这个摸索实践过程中，学生的分析及解决问题的能力得到培养。

三、教学方法1、课堂教学(1) 讲授本课程的理论教学内容以讲授为主、辅以操作演示，讲授的主要内容有：Hadoop概述，Hadoop安装部署，分布式文件系统HDFS，分布式计算MapReduce，资源管理调度组件YARN，列式存储HBase，数据仓库组件Hive，数据分析引擎Pig，日志采集组件Flume等。

根据教学大纲的要求，突出重点和难点。

(2) 教师指导下的学生自学实践课程由若干实验组成，每个实验都包含实验目的、实验原理、实验环境等，需要学生结合理论知识，充分发挥自主学习的能力来完成实验，老师在这个过程中更多起到辅导的作用。

《Hadoop大数据技术》课程理论教学大纲

《Hadoop大数据技术》课程教学大纲一、课程基本情况课程代码：1041139083课程名称（中/英文）：Hadoop大数据技术/Hadoop Big Data Technology课程类别：专业必修课学分：3.5总学时：56理论学时：32实验/实践学时：24适用专业：数据科学与大数据技术适用对象：本科先修课程：JA V A程序设计、Linux基础教学环境：课堂、多媒体、实验机房二、课程简介《Hadoop大数据技术》课程是数据科学与大数据技术专业的专业必修课程。

《Hadoop大数据技术》主要学习当前广泛使用的大数据Hadoop平台及其主要组件的作用及使用。

通过学习Hadoop 平台框架，学会手动搭建Hadoop环境，掌握Hadoop平台上存储及计算的原理、结构、工作流程，掌握基础的MapReduce编程，掌握Hadoop生态圈常用组件的作用、结构、配置和工作流程，并具备大数据的动手及问题分析能力，使用掌握的知识应用到实际的项目实践中。

课程由理论及实践两部分组成，课程理论部分的内容以介绍Hadoop平台主要组件的作用、结构、工作流程为主，对Hadoop 平台组件的作用及其工作原理有比较深入的了解；课程同时为各组件设计有若干实验，使学生在学习理论知识的同时，提高实践动手能力，做到在Hadoop的大数据平台上进行大数据项目开发。

三、课程教学目标2.课程教学目标及其与毕业要求指标点、主要教学内容的对应关系四、教学内容（一）初识Hadoop大数据技术1.主要内容：掌握大数据的基本概念、大数据简史、大数据的类型和特征、大数据对于企业带来的挑战。

了解对于大数据问题，传统方法、Google的解决方案、Hadoop框架下的解决方案，重点了解Google的三篇论文。

掌握Hadoop核心构成、Hadoop生态系统的主要组件、Hadoop发行版本的差异及如何选择；了解Hadoop典型应用场景；了解本课程内容涉及到的Java语言基础；了解本课程实验涉及到的Linux基础。

大数据开发技术(Hadoop)-大纲

《大数据开发技术（Hadoop）》教学大纲课程编号：071333B课程类型：□通识教育必修课□通识教育选修课□专业必修课█专业选修课□学科基础课总学时：48讲课学时：16 实验（上机）学时：32学分：3适用对象：计算机科学与技术专业，大三本科生先修课程：人工智能、面向对象程序设计、数据库原理、高性能计算一、教学目标目标是让学生了解并掌握四个领域（即大数据系统的起源及系统特征、大数据系统的架构设计及功能目标设计、大数据系统程序开发、企业大数据案例分析）的内容，同时利用真机实验环节以及大数据实训一体机来提升学生对大数据开发的实践能力；本课程重点让学生掌握四个方面的内容：目标1：HDFS使用操作目标2：Map/Reduce开发目标3：HBase数据库的开发目标4：Hive数据仓库开发二、教学内容及其与毕业要求的对应关系1：Hadoop大数据处理平台安装与部署目标及要求：让学生掌握Hadoop平台的安装，熟悉大数据处理的软硬件环境。

2：HDFS操作命令操作目标及要求：让学生掌握分布式文件系统HDFS的文件操作，包含导入导出文件、列表、查找、删除文件等。

3：MapReduce开发目标及要求：让学生掌握在HDFS文件系统内的Map及Reduce的Java开发，实现对指定文本文件的单词计数，将统计结果输出至控制台。

4：HBase数据库命令操作目标及要求：让学生掌握分布式文件数据库系统HBase的数据库操作，包含创建表、删除表、增加列、导入记录、删除记录等。

5：Hive数据仓库基础使用目标及要求：让学生掌握在Hive数据仓库的基本命令的操作，包含创建数据仓库、创建表、删除表、导入及导出数据，统计查询等在CLI模式下的使用操作。

三、各教学环节学时分配（黑体，小四号字）教学课时分配四、教学内容第一章大数据概述授课学时：1基本要求：1. 了解大数据概念、特征、数据计量单位以及大数据的类型；2. 了解大数据系统的设计背景、以及当前大数据系统存在的不足；3. 了解大数据系统的设计思想、设计目标和设计原则；4. 了解大数据系统的整体逻辑架构设计及运行逻辑，了解当前大数据系统的主流架构；第二章大数据应用开发思路和开发环境配置授课学时：1基本要求：1. 掌握大数据系统应用读写操作的开发流程；2. 掌握分析大数据开发技术及思路；3. 掌握大数据Java开发的环境配置、Plugin插件的安装，Hadoop环境配置；4. 真机实操训练（实验环节1）；第三章HDFS 分布式文件系统授课学时：2基本要求：1. 了解HDFS设计目标、基本概念；2. 掌握HDFS文件系统的命令操作；3. 掌握Java对HDFS的程序开发操作，包含目录管理、文件列表、读取、导入导出、文件压缩等开发；4. 真机实操训练（实验环节2）；第四章MapReduce 分布式编程授课学时：4基本要求：1. 了解MapReduce的设计思想、基本概念；2. 了解MapReduce的系统架构、作业运行机制和关键技术；3. 掌握MapReduce的数据类型的自定义以及数据类型的使用；4. 掌握MapReduce开发，定制输入输出的数据格式；5. 掌握将HDFS文件系统中整个文件作为输入数据的开发；6. 掌握利用MapReduce完成小文件聚合成一个大文件的开发；7. 掌握压缩数据处理程序开发；8. 掌握任务组合过程，掌握迭代组合、并行组合及串行组合；9. 掌握任务的前后链式组合；10. 掌握多数据源连接的开发，包含Map端开发以及Reduce端开发；11. 掌握Hadoop全局参数的使用，全局文件的使用；12. 掌握与关系型数据库的访问连接；13. 真机实操训练（实验环节3）；第五章HBase 分布式数据库授课学时：4基本要求：1. 了解HBase分布式数据库的设计目标、基本概念；2. 了解HBase逻辑架构以及物理架构；3. 掌握HBase分布式数据库Shell命令操作；4. 掌握HBase数据库系统的Java开发，包含创建表、删除表，查询所有表操作；5. 掌握HBase数据库系统的Java开发，包含插入记录、查询数据，组合查询、修改删除记录等开发；6. 真机实操训练（实验环节4）；第六章Hive数据仓库开发授课学时：4基本要求：1. 了解Hive数据仓库的工作原理及特点；2. 了解Hive架构设计，包含数据类型、数据存储方式以及查询方式；3. 掌握Hive数据仓库系统的HQL语言语法；4. 掌握HQL的创建表、查看表及查询有结构，修改表以及删除表；5. 掌握利用HQL语句将HDFS的文件导入数据仓库；6. 掌握分区表、桶表、外部表的使用；7. 掌握HQL语句的联合查询、子查询、创建视图等操作；8. 掌握利用Java开发UDF自定义函数，以及自定义函数的使用；9. 掌握Java连接Hive数据仓库进行数据查询；10. 真机实操训练（实验环节5）；五、考核方式、成绩评定（黑体，小四号字）考核方式：考查，采用平时成绩+期末课程设计。

《Hadoop大数据技术原理与应用》课程教学大纲

《Hadoop大数据技术原理与应用》课程教学大纲课程编号：3250578学分：4学分学时：72学时（其中：讲课学时36 上机学时：36）先修课程：《Linux基础》、《关系数据库基础》、《程序设计基础》、《Java面向对象编程》后续课程：Spark，《Python编程基础》、《Python数据分析与应用》适用专业：大数据应用技术一、课程的性质与目标《大数据应用开发》本课程是软件技术专业核心课程，大数据技术入门课程。

通过学习课程使得学生掌握大数据分析的主要思想和基本步骤，并通过编程练习和典型应用实例加深了解；同时对Hadoop平台应用与开发的一般理论有所了解，如分布式数据收集、分布式数据存储、分布式数据计算、分布式数据展示。

开设本学科的目的是让学生掌握如何使用大数据分析技术解决特定业务领域的问题。

完成本课程学习后能够熟练的应用大数据技术解决企业中的实际生产问题。

二、教学条件要求操作系统：Center OSHadoop版本：Hadoop2.7.4开发工具：Eclipse三、课程的主要内容及基本要求第1章初识Hadoop第2章构建Hadoop集群第3章 HDFS分布式文件系统第4章 MapReduce分布式计算系统第5章 Zookeeper分布式协调服务第6章 Hadoop2.0新特性第7章 Hive数据仓库第8章 Flume日志采集系统第9章 Azkaban工作流管理器第10章 Sqoop数据迁移第11章综合项目——网站流量日志数据分析系统四、学时分配五、考核模式与成绩评定办法本课程为考试课程，期末考试采用百分制的闭卷考试模式。

学生的考试成绩由平时成绩（30%）和期末考试（70%）组成，其中，平时成绩包括出勤（5%）、作业（5%）、上机成绩（20%）。

六、选用教材和主要参考书本大纲是参考教材《Hadoop大数据技术原理与应用》所设计的。

七、大纲说明本课程的授课模式为：课堂授课+上机，其中，课堂主要采用多媒体的方式进行授课，并且会通过测试题阶段测试学生的掌握程度；上机主要是编写程序，要求学生动手完成指定的程序设计或验证。

《Hadoop》实验教学大纲(大数据)

《H a d o o p》实验教学大纲课程代码：实验学时：16先修课程：《大数据导论》一、目的要求目的：使学生能够掌握大数据平台Hadoop的基本概念，并根据Hadoop处理大批量数据集的存储与分析计算，掌握调试程序的基本技巧，初步了解大数据开发所要经历的阶段，为学生从事大数据开发和数据处理工作打下坚实的基础。

要求：熟悉Linux系统和Java se编程，根据实验内容和要求，认真完成程序编写、上机调试、运行结果分析，书写实验报告。

二、实验项目内容及学时分配实验一、Linux及虚拟机安装搭建（3学时）1.实验目的要求（1）安装VMware虚拟机；（2）通过VMware虚拟机编译、安装Linux CentOS系统。

2.实验主要内容通过在计算机系统上编译和安装Linux系统环境，为Hadoop软件安装和搭建提供工作环境。

3.实验类别：基础4.实验类型：验证5.实验要求：必做6.主要仪器：微型计算机实验二、Hadoop的安装搭建（3学时）1.实验目的要求掌握大数据核心框架Hadoop的安装和部署，包括伪分布式集群的安装部署和完全分布式的安装和部署。

2.实验主要内容通过上机在Linux系统环境进行Hadoop平台的安装和部署，完成大数据分布式处理平台的搭建。

3.实验类别：基础4.实验类型：验证5.实验要求：必做6.主要仪器：微型计算机实验三、HDFS Shell应用（3学时）1.实验目的要求（1）掌握分布式文件存储与管理系统hdfs的数据上传与下载命令；（2）掌握hdfs文件增删改查等操作命令；（3）掌握分布式系统hdfs的运行原理。

2.实验主要内容（1）hdfs hadoop put get mkdir ls 等命令的使用（2）NameNode datanode的作用及原理3.实验类别：基础4.实验类型：设计5.实验要求：必做6.主要仪器：微型计算机实验四、MapReduce编程（3学时）1.实验目的要求（1）正确使用MapReduce编程；（2）MapReduce编程的编程格式；（3）“WC”编程；2.实验主要内容（1）MapReduce固定格式语法编程，map编程、reduce编程（2）自定义函数编程，UDF、UDAF等函数编程3.实验类别：专业基础4.实验类型：设计5.实验要求：必做6.主要仪器：微型计算机实验五、MapReduce数据倾斜等优化（4学时）1.实验目的要求（1）掌握MapReduce编程的优化；（2）熟练掌握数据倾斜等MapReduce任务问题的优化。

Hadoop大数据开发实战教学大纲

《Hadoop大数据开发基础》教学大纲课程名称：Hadoop大数据开发基础课程类别：必修适用专业：大数据技术类相关专业总学时：48学时总学分：3.0学分一、课程的性质本课程是为大数据技术类相关专业学生开设的课程。

随着时代的发展，大数据已经成为一个耳熟能详的词汇。

与此同时，针对大数据处理的新技术也在不断的开发和运用中，逐渐成为数据处理挖掘行业广泛使用的主流技术之一。

Hadoop作为处理大数据的分布式存储和计算框架，得到了国内外大小型企业广泛的应用。

Hadoop是一个可以搭建在廉价服务器上的分布式集群系统架构，它具有可用性高、容错性高和可扩展性高等优点。

由于它提供了一个开放式的平台，用户可以在完全不了解底层实现细节的情形下，开发适合自身应用的分布式程序。

经过十多年的发展，目前Hadoop已经成长为一个全栈式的大数据技术生态圈，并在事实上成为应用最广泛最具有代表性的大数据技术。

因此，学习Hadoop技术是从事大数据行业工作所必不可少的一步。

二、课程的任务通过本课程的学习，使学生学会搭建Hadoop完全分布式集群，掌握HDFS的原理和基础操作，掌握MapReduce原理架构、MapReduce程序的编写。

为将来从事大数据挖掘研究工作以及后续课程的学习奠定基础。

三、教学内容及学时安排序号章节名称主要内容教学目标学时1 大数据概论1. 大数据学习基础2. 大数据背景3. 大数据的定义4. 大数据的行业案例5. 大数据的基本概念6.大数据技术生态圈1.了解大数据的背景和大数据生态群技术2.理解大数据基本概念和大数据行业案例。

22Hadoop集群的搭建及配置1. 设置固定IP的方法2. 设置远程连接虚拟机3. Linux在线安装软件的方法4. 在Window和Linux下安装Java5. 了解Hadoop集群相关配置文件6. SSH免密码登录配置7. 时间同步服务配置8. 启动关闭Hadoop集群以及查看Hadoop集群监控1. 掌握安装配置虚拟机和安装JDK2. 掌握搭建Hadoop完全分布式集群环境的方法103Hadoop集群基础操作1. 解HDFS的操作方法2. MapReduce任务的运行和中断方法3. 集群监控的查看方法1. 学会查看Hadoop集群的基本信息2. 掌握HDFS的基本操作3. 掌握运行MapReduce任务的命令64MapReduce入门编程1. Eclipse安装2. MapReduce原理3. MapReduce的编程逻辑1. 掌握MapReduce的原理2. 掌握MapReduce程序的编程逻辑95MapReduce进阶编程1. MapReduce的输入及输出格式2. Hadoop Java API使用方法3. 自定义键值对方法4. Combiner及Partitioner的原理与编程5. 在Eclipse中提交MapReduce任务的方法1. 掌握MapReduce框架中的进阶应用，包括自定义键值对、Combiner、Partitioner等126 项目案例：汽车销售数据统计分析项目1. 数据概况2. 数据背景介绍3. 需求分析及代码实现1. 掌握项目开发流程，数据业务数据。

《Hadoop大数据技术与应用》教学大纲

《Hadoop大数据技术与应用》课程教学大纲
【课程名称】HadoOP大数据技术与应用
【课程类型】专业必修课
【授课对象】大数据技术与应用、云计算技术与应用专业、人工智能技术专业高职，二年级学生【学时学分】周学时4,64学时，6学分
【课程概况】
《Hadoop大数据技术与应用》课程是大数据技术与应用、云计算技术与应用专业必修课，是计算机基础理论与应用实践相结合的课程，也是大数据专业的高核心课程，它担负着系统、全面地理解大数据，提高大数据应用技能的重任。

本课程的先修课为《大数据技术概论》、《编程基础》、《1inux操作系统》、《数据库设计与实现》等课程，要求学生掌握HadOOP生态系统的框架组件，操作方法。

［课程目标］
通过本课程的学习，让学生接触并了解HadOOP生态系统各组件的原理和使用方法，使学生具有Had。

P相关技术，具备大数据开发的基本技能，并具有较强的分析问题和解决问题的能力，为将来从事大数据相关领域的工作打下坚实的基础。

【课程内容及学时分布】
【使用教材及教学参考书】
使用教材：《Hadoop生态系统及开发》，邓永生、刘铭皓等主编，西安电子
科技大学出版社,2023年
大纲执笔人：
大纲审定人：
年月日。

hardoop教学大纲

hardoop教学大纲Hadoop教学大纲随着大数据时代的到来，Hadoop作为一种分布式计算框架，成为了处理海量数据的重要工具。

对于学习Hadoop的人来说，掌握其核心概念和技术是非常重要的。

本文将围绕Hadoop教学大纲展开，帮助读者了解Hadoop的基本知识和应用。

一、Hadoop概述1.1 Hadoop的起源和发展1.2 Hadoop的特点和优势1.3 Hadoop在大数据处理中的应用场景二、Hadoop核心组件2.1 Hadoop分布式文件系统（HDFS）2.1.1 HDFS的架构和工作原理2.1.2 HDFS的数据读写和容错机制2.2 Hadoop分布式计算框架（MapReduce）2.2.1 MapReduce的基本原理和编程模型2.2.2 MapReduce的任务调度和数据处理流程2.3 Hadoop集群管理器（YARN）2.3.1 YARN的架构和功能2.3.2 YARN的资源调度和作业管理三、Hadoop生态系统3.1 Hadoop生态系统的概述3.2 Hadoop的相关工具和组件3.2.1 Hadoop的数据导入和导出工具3.2.2 Hadoop的数据存储和查询工具3.2.3 Hadoop的数据处理和分析工具四、Hadoop的安装和配置4.1 Hadoop的安装环境和前期准备4.2 Hadoop的安装步骤和配置文件4.3 Hadoop集群的搭建和管理五、Hadoop应用开发5.1 Hadoop编程模型和API介绍5.2 Hadoop的数据输入和输出格式5.3 Hadoop的开发工具和调试技巧5.4 Hadoop的性能调优和优化策略六、Hadoop的实际应用6.1 Hadoop在互联网行业的应用案例6.2 Hadoop在金融行业的应用案例6.3 Hadoop在医疗行业的应用案例6.4 Hadoop在其他领域的应用前景七、Hadoop的未来发展7.1 Hadoop的发展趋势和挑战7.2 Hadoop与人工智能的结合7.3 Hadoop在边缘计算中的应用7.4 Hadoop生态系统的扩展和创新总结：通过本文对Hadoop教学大纲的论述，我们可以了解到Hadoop的概述、核心组件、生态系统、安装配置、应用开发以及实际应用等方面的知识。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

运用MapReduce 构建数据库算法
Select Sort GrougBy Sum Count
Join 新进流失算法
使用 Y-Smart 快速转换SQL 为MapReduce 代码
模块七
编写MapReduce高级程序
使用 Hadoop MapReduce Streaming 编程
MapReduce流程
数据开放,数据云服务平台(DAAS)时代
Hadoop平台在数据云平台(DAAS)上的天然优势
数据云平台(DAAS 平台)组成部分
互联网公共数据大云(DAAS)案例
Hadoop构建构建游戏云(Web Game Daas)平台
模块二
Hadoop生态系统介绍和演示
Hadoop HDFS 和 MapReduce
使用分布式缓存（Distributed Cache）
直接访问Hadoop分布式文件系统（HDFS）
利用Combiners来减少中间数据
编写Partitioner来优化负载平衡
模块九
使用Hive和Pig开发及技巧
Hive和Pig基础
Hive的作用和原理说明
Hadoop仓库和传统数据仓库的协作关系
Hadoop/Hive仓库数据数据流
Hadoop数据库之HBase
Hadoop数据仓库之Hive
Hadoop数据处理脚本Pig
Hadoop数据接口Sqoop和Flume，Scribe DataX
Hadoop工作流引擎 Oozie
运用Hadoop自下而上构建大规模企业数据仓库
暴风影音数据仓库实战解析
模块三
Hadoop组件详解
Hadoop HDFS 基本结构
剖析一个MapReduce程序
基本MapReduceAPI概念
驱动代码 Mapper、Reducer
Hadoop流
API 使用Eclipse进行快速开发
新MapReduce API
MapReduce的优化
MapReduce的任务调度
MapReduce编程实战
如何利用其他Hadoop相关技术，包括Apache Hive， Apache Pig，Sqoop和Oozie等
Hadoop HDFS 副本存放策略
Hadoop NameNode 详解
HadoopSecondaryNameNode 详解
Hadoop DataNode 详解
Hadoop JobTracker 详解
Hadoop TaskTracker 详解
Hadoop Mapper类核心代码
Hadoop Reduce类核心代码
模块十四
Spark原理和入门
Spark原理；Spark的架构图；Spark运行模式介绍
—local；—standalone；—messos；—yarn；Spark的RDD
什么是RDD；RDD的种类；—Tranformation；—Action
Spark的存储级别；Cache介绍；Spark的容错原理
Red hat Linux基础环境搭建
Hadoop 单机系统版本安装配置
Hadoop 集群系统版本安装和启动配置
使用 Hadoop MapReduce Streaming 快速测试系统
Hadoopcore-site，hdfs-site，mapred-site 配置详解
模块五
Hadoop集群规划
Hadoop 集群内存要求
Hbase 运维和管理
使用Hbase+Hive 提供 OLAP SQL查询能力
使用Hbase+Phoenix提供 OLTP SQL能力
基于Hbase 的时间序列数据库 OpenTsDb 结构解析
模块十一
Hadoop2.0 集群探索
Hadoop2.0 HDFS 原理
Hadoop2.0 Yarn 原理
Hadoop2.0 生态系统
课程模块
课程主题
主要内容
案例和演示
模块一
Hadoop在云计算技术的作用和地位
传统大规模系统存在的问题
Hadoop概述
Hadoop分布式文件系统
MapReduce工作原理
Hadoop集群剖析
Hadoop生态系统对一种新的解决方案的需求
Hadoop的行业应用案例分析
Hadoop在云计算和大数据的位置和关系
Hadoop 核Biblioteka 代码模块四Hadoop安装和部署
Hadoop系统模块组件概述
Hadoop试验集群的部署结构
Hadoop 安装依赖关系
Hadoop 生产环境的部署结构
Hadoop集群部署
Hadoop 高可用配置方法
Hadoop 集群简单测试方法
Hadoop 集群异常Debug方法
Hadoop安装部署实验
辅助排序在Reducer方的合并
定制Writables和WritableComparables
使用SequenceFiles和Avro文件保存二进制数据
创建InputFormats OutputFormats
Hadoop的二次排序
Hadoop的海量日志分析
在Map方的合并
模块八
集成Hadoop到现有工作流
基于Hadoop2.0 构建分布式系统
模块十二
Hadoop企业级别案例解析
Hadoop 结构化数据案例
Hadoop 非结构化案例
Hbase 数据库案例
Hadoop 视频分析案例
利用大数据分析改进交通管理
区域医疗大数据应用案例
银联大数据数据票据详单平台
广东移动省公司请账单系统
上海电信网络优化
某通信运营商全国用户上网记录
及Hadoop API深入探讨
存储系统
利用Sqoop从关系型数据库系统中导入数据到Hadoop
利用Flume导入实时数据到Hadoop
ToolRunner介绍、使用MRUnit进行测试
使用Configure和Close方法来进行Map/Reduce设置和关闭
使用FuseDFS和Hadoop访问HDFS
Lineage容错；Checkpoint容错；RDD的创建
案例—统计单词的个数
联系方式***************
满足解决实际数据分析问题的高级Hadoop API
Hadoop Streaming 和 Java MapReduce Api 差异。
MapReduce 实现数据库功能
利用Combiners来减少中间数据
编写Partitioner来优化负载平衡
直接访问Hadoop分布式文件系统（HDFS）
Hadoop的join操作
浙江台州市智能交通系统
移动广州详单实时查询系统
跨区域实时视频监控系统
模块十三
RedHadoop 企业版本
运用RedHadoop快速构建服务集群
运用RedHadoop DW 构建数据仓库
基于RedHadoop Hive构建数据仓库平台
灵活运用 Hive 加速游戏数据仓库
基于Pig+OpenCV大规模图像人脸识别
Hadoop集群磁盘分区
集群和网络拓扑要求
集群软件的端口配置
针对NameNode JobtrackerDataNode TaskTracker Hiveserver 等不同组件需求推荐服务器配置
模块六
MapReduce 算法原理
Hadoop MapReduce 算法的原理和优化思想
灵活运用MapReduce 实现算法
Hive 部署和安装
Hive Cli 的基本用法
HQL基本语法
运用Pig 过滤用户数据
使用JDBC 连接Hive进行查询和分析
使用正则表达式加载数据
HQL高级语法
编写UDF函数
编写UDAF自定义函数
基于Hive脚本内嵌Streaming 编程
模块十
Hbase安装和使用
Hbase 安装部署
Hbase原理和结构