15_尚硅谷大数据之MapReduce入门

合集下载

mapreduce基础概念

MapReduce是一种大数据处理模型，用于并行处理大规模的数据集。

它由Google在2004年提出，并成为Apache Hadoop的核心组件之一。

MapReduce模型的设计目的是为了简化并行计算任务，使得开发人员可以在分布式系统上高效地处理大规模数据。

MapReduce模型的基本概念如下：1. 输入数据集：MapReduce将输入数据集分割成多个小数据块，并且每个数据块可以由一个或多个键值对组成。

2. 映射 Map）函数：映射函数是并行处理输入数据块的核心操作。

它将输入数据块的每个键值对进行处理，并生成一系列中间键值对。

映射函数可以根据需求进行自定义操作，比如提取关键词、计数等。

3. 中间数据集：MapReduce将映射函数生成的中间键值对根据键进行分组，将具有相同键的值组合在一起，形成中间数据集。

4. 归约 Reduce）函数：归约函数对每个中间键值对的值列表进行处理，并生成最终的输出结果。

归约函数通常是进行聚合操作，比如求和、求平均值等。

5. 输出数据集：MapReduce将归约函数处理后的结果保存在输出数据集中。

MapReduce模型的工作过程如下：1. 切分输入数据集：将大规模的输入数据集切分成多个小数据块，并分配给不同的计算节点。

2. 映射：每个计算节点将分配到的数据块使用映射函数进行处理，并生成中间键值对。

3. 分组：根据中间键的值，将相同键的中间值进行分组，以便后续的归约操作。

4. 归约：每个计算节点对分组后的中间值进行归约操作，生成最终的输出结果。

5. 合并输出结果：将所有计算节点的输出结果进行合并，形成最终的输出数据集。

MapReduce模型的优点包括：- 可扩展性：可以处理非常大规模的数据，并利用分布式计算资源进行并行处理，提高处理效率。

- 容错性：MapReduce具备容错机制，当某个计算节点发生故障时，可以重新分配任务到其他节点上。

- 灵活性：开发人员可以根据具体需求自定义映射和归约函数，实现各种数据处理操作。

mapreduce基础编程

mapreduce基础编程MapReduce是一种用于大规模数据处理的编程模型和软件框架。

它可以将大数据集分成多个小数据集，并通过多个计算节点并行处理，最后汇总处理结果。

MapReduce将数据处理过程分成两个阶段：Map阶段和Reduce阶段。

在Map阶段中，数据被分成多个小数据集，每个小数据集上运行相同的计算任务，然后产生中间结果。

在Reduce阶段中，中间结果被合并，最终产生处理结果。

MapReduce的基础编程模型可以分为以下几个步骤：1. 输入数据的读取：输入数据可以来自于Hadoop Distributed File System (HDFS)、本地文件系统或其他数据源。

2. Map阶段的编写：开发者需要编写Map函数，该函数将输入数据切分成多个小数据集，并在每个小数据集上运行相同的计算任务，生成中间结果。

Map函数的输出通常是一个键值对（key-value pair），其中键表示中间结果的类型，值表示中间结果的值。

3. Reduce阶段的编写：开发者需要编写Reduce函数，该函数将中间结果根据键值进行合并，生成最终的处理结果。

Reduce函数的输出通常是一个键值对（key-value pair），其中键表示最终处理结果的类型，值表示最终处理结果的值。

4. 输出数据的写入：最终处理结果可以写入到HDFS或其他数据源中。

MapReduce程序的开发需要掌握Java或其他编程语言。

除了基础编程模型外，还需要了解MapReduce的一些高级编程技术，如Combiner、Partitioner、InputFormat、OutputFormat等。

通过这些技术，可以进一步提高MapReduce程序的性能和可扩展性。

总之，MapReduce是一种强大的大数据处理工具，掌握基础编程模型是进行大数据分析和处理的必要条件。

17_尚硅谷大数据之MapReduce框架原理

copyAndConfigureFiles(job, submitJobDir); rUploader.uploadFiles(job, jobSubmitDir); // 4）计算切片，生成切片规划文件 writeSplits(job, submitJobDir); maps = writeNewSplits(job, jobSubmitDir); input.getSplits(job); // 5）向 Stag 路径写 xml 配置文件 writeConf(conf, submitJobFile); conf.writeXml(out); // 6）提交 job,返回提交状态 status = submitClient.submitJob(jobId, submitJobDir.toString(),
File://..../.staging/xxx.jar hfds://..../.staging/job.jar
2）FileInputFormat 源码解析(input.getSplits(job)) （1）找到你数据存储的目录。（2）开始遍历处理（规划切片）目录下的每一个文件（3）遍历第一个文件 ss.txt a）获取文件大小 fs.sizeOf(ss.txt) b）计算切片大小 computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M
3.2 InputFormat 数据输入 3.2.1 Job 提交流程和切片源码详解
1）job 提交流程源码详解 waitForCompletion() submit(); // 1 建立连接 connect(); // 1）创建提交 job 的代理 new Cluster(getConfiguration()); // （1）判断是本地 yarn 还是远程 initialize(jobTrackAddr, conf); // 2 提交 job submitter.submitJobInternal(Job.this, cluster) // 1）创建给集群提交数据的 Stag 路径 Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf); // 2）获取 jobid ，并创建 job 路径 JobID jobId = submitClient.getNewJobID(); // 3）拷贝 jar 包到集群

第4章大数据技术教程-MapReduce

第四章分布式计算框架MapReduce4.1初识MapReduceMapReduce是一种面向大规模数据并行处理的编程模型，也一种并行分布式计算框架。

在Hadoop流行之前，分布式框架虽然也有，但是实现比较复杂，基本都是大公司的专利，小公司没有能力和人力来实现分布式系统的开发。

Hadoop的出现，使用MapReduce框架让分布式编程变得简单。

如名称所示，MapReduce主要由两个处理阶段：Map阶段和Reduce 阶段，每个阶段都以键值对作为输入和输出，键值对类型可由用户定义。

程序员只需要实现Map和Reduce两个函数，便可实现分布式计算，而其余的部分，如分布式实现、资源协调、内部通信等，都是由平台底层实现，无需开发者关心。

基于Hadoop开发项目相对简单，小公司也可以轻松的开发分布式处理软件。

4.1.1 MapReduce基本过程MapReduce是一种编程模型，用户在这个模型框架下编写自己的Map函数和Reduce函数来实现分布式数据处理。

MapReduce程序的执行过程主要就是调用Map函数和Reduce函数，Hadoop把MapReduce程序的执行过程分为Map和Reduce两个大的阶段，如果细分可以为Map、Shuffle（洗牌）、Reduce三个阶段。

Map含义是映射，将要操作的每个元素映射成一对键和值，Reduce含义是归约，将要操作的元素按键做合并计算，Shuffle在第三节详细介绍。

下面以一个比较简单的示例，形象直观介绍一下Map、Reduce阶段是如何执行的。

有一组图形，包含三角形、圆形、正方形三种形状图形，要计算每种形状图形的个数，见下图4-1。

图：4-1 map/reduce计算不同形状的过程在Map阶段，将每个图形映射成形状（键Key）和数量（值Value），每个形状图形的数量值是“1”；Shuffle阶段的Combine（合并），相同的形状做归类；在Reduce阶段，对相同形状的值做求和计算。

MapReduce简介

7.3.2
MapReduce各个执行阶段
节点1 节点2
从分布式文件系统中加载文件
从分布式文件系统中加载文件
InputFormat 文件文件 Split Split Split Split
InputFormat 文件 Split Split 文件
输入 <key,value>
RR Map
RR Map
7.3.3
Shuffle过程详解
其他Reduce任务
3. Reduce端的Shuffle过程
Map任务磁盘
1 “领取”数据
Reduce任务缓存
2 归并数据
分区
分区
磁盘文件归并
3
把数据输入给 Reduce任务
其他Map任务
其他Reduce任务
图7-5 Reduce端的Shuffle过程
7.3.4
合并（Combine）和归并（Merge）的区别：两个键值对<“a”,1>和<“a”,1>，如果合并，会得到<“a”,2>，如果归并，会得到<“a”,<1,1>>
7.3.3
Shuffle过程详解
3. Reduce端的Shuffle过程
•Reduce任务通过RPC向JobTracker询问Map任务是否已经完成，若完成，则领取数据 •Reduce领取数据先放入缓存，来自不同Map机器，先归并，再合并，写入磁盘 •多个溢写文件归并成一个或多个大文件，文件中的键值对是排序的 •当数据很少时，不需要溢写到磁盘，直接在缓存中归并，然后输出给Reduce
RR Map
RR Map
RR Map
RR Map

大数据技术基础培训-MapReduce技术培训

6
Staging - Job related info including jar - Lib - Streamiask Task DataNode
Task 8 Tracker
Server
16
MapReduce失效处理
• TaskTracker失效
– – – – 通过心跳机制，可以被检测到失效需要重新执行已完成的、正在执行的Map任务需要重新执行正在执行的Reduce任务通过JobTracker实现失效处理
Sort
“be”, 1 “be”, 1 “be”, 1 “break”, 1 “it”, 1 “not”, 1
Reduce
“be”, 3 “break”, 1 “it”, 1 “not”, 1
“to be or not to be”
“it will be make or break”
“it”, 1 “will”, 1 “be”, 1 “make”, 1 “or”, 1 “break”, 1
•
JobTracker失效
– 如果配置了高可用性，未完成的任务会在备份JobTracker启动之后重新提交
17
MapReduce编程
18
MapReduce编程模型
• • MapReduce使用Java编写输入和输出
– Key/Value对的集合
•
•
实现Map和Reduce方法
map (in_key, in_value) -> list(out_key, intermediate_value)
“make”, 1 “or”, 2 “to”, 2 “will”, 1
11
JobTracker & TaskTracker

mapreduce的介绍及工作流程

mapreduce的介绍及工作流程MapReduce是一种用于大规模数据处理的编程模型和计算框架。

它可以有效地处理大规模数据集，提供了分布式计算的能力，以及自动化的数据分片、任务调度和容错机制。

本文将介绍MapReduce的基本概念、工作流程以及其在大数据处理中的应用。

一、MapReduce的基本概念MapReduce的基本概念分为两个部分：Map和Reduce。

Map用于对输入数据进行初步处理，将输入数据分解成若干个<key, value>对。

Reduce则对Map的输出进行聚合操作，生成最终的结果。

MapReduce的输入数据通常是一个大型数据集，可以是文件、数据库中的表或者其他形式的数据源。

输入数据被划分为若干个数据块，每个数据块由一个Map任务处理。

Map任务将输入数据块转化为若干个中间结果，每个中间结果都是一个<key, value>对。

Reduce任务负责对Map任务的输出进行进一步处理，将具有相同key的中间结果进行聚合操作，生成最终的结果。

Reduce任务的输出结果通常是一个<key, value>对的集合。

二、MapReduce的工作流程MapReduce的工作流程可以简单概括为以下几个步骤：输入数据的划分、Map任务的执行、中间结果的合并与排序、Reduce任务的执行、最终结果的输出。

1. 输入数据的划分：输入数据被划分成若干个数据块，在分布式环境下，每个数据块都会被分配到不同的节点上进行处理。

数据块的大小通常由系统自动设置，以保证每个Map任务的负载均衡。

2. Map任务的执行：每个Map任务独立地处理一个数据块，将输入数据转化为若干个中间结果。

Map任务可以并行执行，每个任务都在独立的节点上运行。

Map任务的输出中间结果被存储在本地磁盘上。

3. 中间结果的合并与排序：Map任务输出的中间结果需要在Reduce任务执行之前进行合并和排序。

16_尚硅谷大数据之MapReduce_Hadoop序列化

二 Hadoop 序列化
2.1 序列化概述
1）什么是序列化序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。 2）为什么要序列化一般来说， “活的”对象只生存在内存里，关机断电就没有了。而且“活的”对象只能由本地的进程使用，不能被发送到网络上的另外一台计算机。然而序列化可以存储 “活的” 对象，可以将“活的”对象发送到远程计算机。 3）为什么不用 Java 的序列化 Java 的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系等），不便于在网络中高效传输。所以， hadoop 自己开发了一套序列化机制（Writable），特点如下：（1）紧凑：紧凑的格式能让我们充分利用网络带宽，而带宽是数据中心最稀缺的资（2）快速：进程通信形成了分布式系统的骨架，所以需要尽量减少序列化和反序列化的性能开销，这是基本的；（3）可扩展：协议为了满足新的需求变化，所以控制客户端和服务器过程中，需要直接引进相应的协议，这些是新协议，原序列化方式能支持新的协议报文；（4）互操作：能支持不同语言写的客户端和服务端进行交互；
2.4 序列化案例实操
1）需求：统计每一个手机号耗费的总上行流量、下行流量、总流量 2）数据准备
phone_data.txt
输入数据格式：
1363157993055 13560436666 C4-17-FE-BA-DE-D9:CMCC 120.196.100.99 18 15 1116 954 200
map array

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

aap和Reduce阶段
1）读数据 2）按行处理 maptask 3）按空格切分行内单词 4）Hashmap（单词，1） 5）将hashmap里面的单词，按照首个字母分成2个分区溢写到磁盘 1）分布式的运算程序往往需要分成至少2个阶段 2）第一个阶段的maptask并发实例，完全并行运行，互不相干 3）第二个阶段的reduce task并发实例互不相干，但是他们的数据依赖于上一个阶段的所有maptask并发实例的输出 4）aapReduce编程模型只能包含一个map阶段和一个 reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个mapreduce程序，串行运行
context.write(k, v); } } } （2）编写 reducer 类 package com.atguigu.mapreduce.wordcount; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Reducer; public class WordcountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{ int sum; LongWritable v = new LongWritable(); @Override protected void reduce(Text key, Iterable<IntWritable> value, Context context) throws IOException, InterruptedException { // 1 累加求和 sum = 0; for (IntWritable count : value) { sum += count.get(); } // 2 输出 v.set(sum); context.write(key,v); } } （3）编写驱动类 package com.atguigu.mapreduce.wordcount; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class WordcountDriver {
if you wish
if 1 you 1 wish 1
you wish to wish
you 1 wish 1 to 1 wish 1
to 1 to 1 I 1
to 2 I 1
4）编写程序（1）编写 mapper 类 package com.atguigu.mapreduce; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; public class WordcountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{ Text k = new Text(); IntWritable v = new IntWritable(1); @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { // 1 获取一行 String line = value.toString(); // 2 切割 String[] words = line.split(" "); // 3 输出 for (String word : words) { k.set(word);
1.2 MapReduce 优缺点 1.2.1 优点
1）MapReduce 易于编程。它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的 PC 机器上运行。也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。就是因为这个特点使得 MapReduce 编程变得非常流行。 2）良好的扩展性。当你的计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力。 3）高容错性。MapReduce 设计的初衷就是使程序能够部署在廉价的 PC 机器上，这就要求它具有很高的容错性。比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由 Hadoop 内部完成的。 4）适合 PB 级以上海量数据的离线处理。这里加红字体离线处理，说明它适合离线处理而不适合在线处理。比如像毫秒级别的返回一个结果，MapReduce 很难做到。
Wordcount案例简单分析
split map task I wish to wish 1 1 1 1 group and sorting if wish wish wish wish wish you you 1 1 1 1 1 1 1 1 reduce task
I wish to wish
if 1 wish 5 you 2
用户编写的程序分成三个部分：Mapper、Reducer 和 Driver。 1）Mapper 阶段（1）用户自定义的 Mapper 要继承自己的父类（2）Mapper 的输入数据是 KV 对的形式（KV 的类型可自定义）（3）Mapper 中的业务逻辑写在 map()方法中（4）Mapper 的输出数据是 KV 对的形式（KV 的类型可自定义）
1.4 MapReduce 进程
一个完整的 mapreduce 程序在分布式运行时有三类实例进程： 1）MrAppMaster：负责整个程序的过程调度及状态协调。 2）MapTask：负责 map 阶段的整个数据处理流程。 3）ReduceTask：负责 reduce 阶段的整个数据处理流程。
1.5 MapReduce 编程规范
1.3 MapReduce 核心思想
需求：统计其中每一个单词出现的总次数(查询结果：ap一个文件，q-z一个文件) Hadoop spark hive Hbase Hadoop spark … Java php Android Html5 Bigdata python … 输入数据
MapReduce核心编程思想
（5）map()方法（maptask 进程）对每一个<K,V>调用一次 2）Reducer 阶段（1）用户自定义的 Reducer 要继承自己的父类（2）Reducer 的输入数据类型对应 Mapper 的输出数据类型，也是 KV （3）Reducer 的业务逻辑写在 reduce()方法中（4）Reducetask 进程对每一组相同 k 的<k,v>组调用一次 reduce()方法 3）Driver 阶段整个程序需要一个 Drvier 来进行提交，提交的是一个描述了各种必要信息的 job 对象
1.6 WordCount 案例实操
1）需求：在一堆给定的文本文件中统计输出每一个单词出现的总次数 2）数据准备：
hello .txt
3）分析按照 mapreduce 编程规范，分别编写 Mapper，Reducer，Driver。
需求：统计一堆文件中单词出现的个数（WordCount案例）
Mapper // 1 将 maptask 传给我们的文本内容先转换成 String Reducer // 1 汇总各个 key的个数 Driver // 1 获取配置信息，获取 job对象实例 // 2 指定本程序的 jar包所在的本地路径 // 3 关联 mapper/Reducer业务类 // 2 根据空格将这一行切分成单词 // 2输出该 key的总次数 // 4 指定 mapper输出数据的 kv类型 // D 指定最终输出的数据的 kv类型 // 6 指定 job的输入原始文件所在目录 // 3 将单词输出为 <单词， 1> // 7 提交
一 MapReduce 入门
1.1 MapReduce 定义
Mapreduce 是一个分布式运算程序的编程框架，是用户开发“基于 hadoop 的数据分析应用”的核心框架。 Mapreduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 hadoop 集群上。
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException { // 1 获取配置信息以及封装任务 Configuration configuration = new Configuration(); Job job = Job.getInstance(configuration); // 2 设置 jar 加载路径 job.setJarByClass(WordcountDriver.class); // 3 设置 map 和 reduce 类 job.setMapperClass(WordcountMapper.class); job.setReducerClass(WordcountReducer.class); // 4 设置 map 输出 job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(IntWritable.class); // 5 设置 Reduce 输出 job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); // 6 设置输入和输出路径 FileInputFormat.setInputPaths(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); // 7 提交 boolean result = job.waitForCompletion(true); System.exit(result ? 0 : 1); } } 5）本地测试（1）在 windows 环境上配置 HADOOP_HOME 环境变量（2）在 eclipse 上运行程序（3）注意：如果 eclipse 打印不出日志，在控制台上只显示 1.log4j:WARN No appenders could be found for logger (org.apache.hadoop.util.Shell). 2.log4j:WARN Please initialize the log4j system properly. 3.log4j:WARN See /log4j/1.2/faq.html#noconfig for more info. 需要在项目的 src 目录下，新建一个文件，命名为“log4j.properties”，在文件中填入 log4j.rootLogger=INFO, stdout