并行计算模型MapReduce

合集下载

实验5-MapReduce实验：单词计数

实验五MapReduce实验：单词计数5.1 实验目的基于MapReduce思想，编写WordCount程序。

5.2 实验要求1．理解MapReduce编程思想；2．会编写MapReduce版本WordCount；3．会执行该程序；4．自行分析执行过程。

5.3 实验原理MapReduce是一种计算模型，简单的说就是将大批量的工作（数据）分解（MAP）执行，然后再将结果合并成最终结果（REDUCE）。

这样做的好处是可以在任务被分解后，可以通过大量机器进行并行计算，减少整个操作的时间。

适用范围：数据量大，但是数据种类小可以放入内存。

基本原理及要点：将数据交给不同的机器去处理，数据划分，结果归约。

理解MapReduce和Yarn：在新版Hadoop中，Yarn作为一个资源管理调度框架，是Hadoop下MapReduce程序运行的生存环境。

其实MapRuduce除了可以运行Yarn框架下，也可以运行在诸如Mesos，Corona之类的调度框架上，使用不同的调度框架，需要针对Hadoop做不同的适配。

一个完成的MapReduce程序在Yarn中执行过程如下：（1）ResourcManager JobClient向ResourcManager提交一个job。

（2）ResourcManager向Scheduler请求一个供MRAppMaster运行的container，然后启动它。

（3）MRAppMaster启动起来后向ResourcManager注册。

（4）ResourcManagerJobClient向ResourcManager获取到MRAppMaster相关的信息，然后直接与MRAppMaster进行通信。

（5）MRAppMaster算splits并为所有的map构造资源请求。

（6）MRAppMaster做一些必要的MR OutputCommitter的准备工作。

（7）MRAppMaster向RM(Scheduler)发起资源请求，得到一组供map/reduce task运行的container，然后与NodeManager一起对每一个container执行一些必要的任务，包括资源本地化等。

简述mapreduce的运行流程

简述mapreduce的运行流程MapReduce是一种用于在大规模数据集上并行计算的模型，它由Google 公司提出并应用于分布式计算领域。

MapReduce的核心思想是将计算任务拆分为多个阶段，并在多台计算机上进行并行计算，从而提高计算效率。

本文将从MapReduce的基本概念开始，逐步解释其运行流程。

一、MapReduce概述MapReduce模型将计算任务分为两个阶段：Map（映射）和Reduce（归约）。

Map阶段将输入数据集划分为多个子集，并为每个子集生成一组键-值对。

Reduce阶段将相同键的键-值对进行归约操作，生成最终结果。

在MapReduce中，计算任务的执行由一个主节点（称为JobTracker）和多个工作节点（称为TaskTracker）协同完成。

二、任务提交阶段1.生成任务：用户向计算集群提交一个MapReduce任务，并指定输入数据集的路径、Map函数、Reduce函数等信息。

提交任务后，JobTracker 为该任务生成一个唯一的任务ID，并将任务添加到待处理任务列表中。

2.任务划分：JobTracker根据输入数据的大小和计算资源的可用情况，将任务划分为若干个MapTask和ReduceTask，并将它们分配给相应的TaskTracker进行处理。

3.任务分配：JobTracker根据与各个TaskTracker之间的网络延迟和负载情况等因素，将MapTask和ReduceTask分配给合适的TaskTracker。

任务分配过程相对复杂，需要考虑多个因素，以实现负载均衡和最大化计算资源的利用率。

三、Map阶段1.数据划分：每个Map任务在启动时，首先从数据源中读取输入数据集。

输入数据集通常被划分为多个等大小的数据块，每个数据块由单独的Map 任务处理。

2.Map函数执行：每个Map任务将输入数据块作为输入，并根据用户定义的Map函数对数据进行处理。

Map函数将输入数据转换为一组键-值对，并将它们输出到本地磁盘上的临时输出文件中。

简述mapreduce的shuffle过程。

MapReduce是一种用于处理大规模数据的并行计算模型，其核心思想是将任务分为两个阶段：Map阶段和Reduce阶段。

在Map阶段，数据被划分为多个独立的片段，每个Map任务对每个数据片段进行处理并生成若干键值对。

而在Reduce阶段，输入键值对按照键的哈希值被分配给特定的Reduce任务进行处理。

而在MapReduce的过程中，Shuffle过程是连接Map阶段和Reduce 阶段的重要步骤。

Shuffle过程主要负责将Map任务生成的中间键值对按照键重新分发给特定的Reduce任务，以便进行后续的处理。

Shuffle过程涉及到三个主要的操作：分区（Partitioning），排序（Sorting）和合并（Merging）。

首先，分区操作用于确定每个中间键值对应该被发送给哪个Reduce 任务。

通常情况下，分区操作会根据中间键的哈希值和Reduce任务的数量进行计算，以确保相同键的键值对被发送到同一个Reduce任务。

这个过程可以保证相同键的键值对在Reduce阶段被正确地聚合和处理。

其次，排序操作用于对每个分区中的键值对进行排序。

这是为了确保Reduce任务能够按照键的顺序进行处理，从而方便后续的聚合操作。

排序可以提高Reduce任务的处理效率，因为相同键的键值对会被连续地处理，减少了数据的读取和写入操作。

最后，合并操作用于将排序后的键值对进行合并，以减少数据的传输量和磁盘IO。

合并操作会将具有相同键的键值对进行合并，生成更少的键值对。

这样可以减少Reduce任务之间的数据传输量，并提高整个MapReduce过程的效率。

总的来说，Shuffle过程在MapReduce中起到了连接Map阶段和Reduce阶段的桥梁作用。

通过分区、排序和合并操作，Shuffle过程可以确保中间键值对被正确地分发给特定的Reduce任务，并按照键的顺序进行处理，从而提高整个MapReduce过程的效率。

简述mapredure概念和特点

简述mapredure概念和特点
MapReduce是一种用于处理大规模数据集的编程模型和算法。

它的核心思想是将数据处理任务分为两个主要阶段：Map阶段和Reduce 阶段。

在Map阶段中，数据集被拆分成小块并由多个计算节点（也称为Map任务）并行处理；在Reduce阶段中，Map任务的输出结果被合并和归约，生成最终的结果。

MapReduce的特点包括：
1. 可扩展性：由于MapReduce模型的并行处理特性，它能够有效地处理大规模数据集。

通过将任务分解为多个并行的Map和Reduce任务，可以在集群中的多个计算节点上同时处理数据，从而实现横向扩展。

2. 容错性：在MapReduce中，每个Map和Reduce任务都是独立的，它们之间没有依赖关系。

当一个计算节点发生故障时，系统可以自动重新分配任务给其他可用的节点，从而实现容错性。

3. 简单性：MapReduce模型提供了一种简单而直观的方法来处理大规模数据集。

开发人员只需要实现Map和Reduce函数，而无需关注并行计算、数据分片和任务调度等底层细节。

4. 适用性广泛：MapReduce模型可以应用于各种不同类型的数据处理任务。

它已经被广泛应用于搜索引擎、数据挖掘、日志分析等领域。

值得注意的是，MapReduce模型并不适用于所有类型的数据处理任务。

对于那些需要复杂的迭代计算、实时处理或低延迟的任务，其他的计算模型可能更为合适。

大数据处理中的并行计算模型选择与实现

大数据处理中的并行计算模型选择与实现在大数据处理领域，选择合适的并行计算模型是至关重要的。

不同的并行计算模型适用于不同的数据处理任务，其性能和效率直接影响到数据处理的结果。

本文将讨论大数据处理中的并行计算模型选择与实现，介绍常见的几种并行计算模型，并讨论它们的优缺点。

1. MapReduce模型MapReduce是一种经典的并行计算模型，由Google提出并应用于大规模数据处理。

它的核心思想是将整个数据集分解成多个小的数据块，并将计算任务分发给多个计算节点。

每个计算节点在本地执行Map和Reduce函数，并将结果传输给主节点进行聚合。

MapReduce模型适用于批处理任务，能够实现数据的高效处理和分布式计算。

2. Spark模型Spark是一个开源的大数据处理框架，提供了一种高性能的计算模型。

Spark模型基于弹性分布式数据集（RDD），能够在内存中存储和处理数据。

它支持多种并行计算模型，如MapReduce、流处理、图计算等。

Spark模型具有较高的性能和灵活性，适用于迭代计算、实时流处理和图计算等多种场景。

3. Pregel模型Pregel是Google提出的图计算模型，用于解决大规模图数据的计算问题。

Pregel模型将图分割成多个顶点和边的子图，并通过消息传递机制进行通信和计算。

每个节点执行一系列的计算步骤，直到达到结束条件。

Pregel模型适用于图算法的并行计算，能够高效地处理大规模的图数据。

4. MPI模型MPI（Message Passing Interface）是一种用于并行计算的编程接口标准。

MPI模型基于消息传递机制，在多个计算节点之间进行通信和协调。

它适用于分布式内存系统和超级计算机等高性能计算环境，能够实现高效的并行计算和数据交换。

在选择并行计算模型时，需要考虑以下几个因素：1. 数据特点：不同的数据处理任务有不同的特点，如数据大小、数据类型、数据访问模式等。

选择并行计算模型时，需要根据数据的特点选择最合适的模型，以提高计算效率和性能。

MapReduce简介

7.3.2
MapReduce各个执行阶段
节点1 节点2
从分布式文件系统中加载文件
从分布式文件系统中加载文件
InputFormat 文件文件 Split Split Split Split
InputFormat 文件 Split Split 文件
输入 <key,value>
RR Map
RR Map
7.3.3
Shuffle过程详解
其他Reduce任务
3. Reduce端的Shuffle过程
Map任务磁盘
1 “领取”数据
Reduce任务缓存
2 归并数据
分区
分区
磁盘文件归并
3
把数据输入给 Reduce任务
其他Map任务
其他Reduce任务
图7-5 Reduce端的Shuffle过程
7.3.4
合并（Combine）和归并（Merge）的区别：两个键值对<“a”,1>和<“a”,1>，如果合并，会得到<“a”,2>，如果归并，会得到<“a”,<1,1>>
7.3.3
Shuffle过程详解
3. Reduce端的Shuffle过程
•Reduce任务通过RPC向JobTracker询问Map任务是否已经完成，若完成，则领取数据 •Reduce领取数据先放入缓存，来自不同Map机器，先归并，再合并，写入磁盘 •多个溢写文件归并成一个或多个大文件，文件中的键值对是排序的 •当数据很少时，不需要溢写到磁盘，直接在缓存中归并，然后输出给Reduce
RR Map
RR Map
RR Map
RR Map

MapReduce（分布式计算框架）

MapReduce（分布式计算框架）MapReduce是⼀种计算模型，⽤于处理⼤数据量的计算，其计算过程可以分为两个阶段（实质上是三个阶段），即Map和Reduce.图2-3-1：MapReduce执⾏步骤其中Map将输⼊的原始数据集转化为Key-Value（键-值对），拆分给不同节点并⾏进⾏指定的计算操作（例如排序、聚集），形成中间结果，这个计算操作的过程称为Map shuffle；Reduce则并⾏地对⽣成的中间结果中相同的Key的所有Value进⾏规约合并汇总处理后，输出新的Key-Value得到最终结果，这个处理相同Key的过程称为Reduce shuffle. 可以看出，在Map和Reduce中间，其实还有⼀个过程，就是对Map的输出进⾏整理并交给Reduce，这个过程就是shuffle. Map和Reduce操作需要我们⾃⼰定义相应的Map类和Reduce类，⽽shuffle则是系统⾃动帮我们实现的。

简单点理解，可以将Map看作是拆分数据集给不同的节点进⾏并⾏计算操作，将Reduce看作是整合每个节点的计算结果以汇总出最终结果（即Map负责分的计算，Reduce负责合的计算）。

图2-3-2：MapReduce⼯作原理1. JobTracker和TaskTrackerMapReduce由两种主要的后台程序运⾏：JobTracker和TaskTracker.(1) JobTrackerJobTracker是master节点，⼀个集群中只有⼀个，负责管理所有作业、任务/作业的监控及错误处理等，并将任务分解成⼀系列任务，分派给TaskTracker.(2) TaskTrackerTaskTracker是slave节点，负责运⾏Map Task和Reduce Task，并通过周期性的⼼跳与JobTracker交互，通知JobTracker其当前的健康状态，每⼀次⼼跳包含了可⽤的Map和Reduce任务数⽬、占⽤的数⽬以及运⾏中的任务详细信息。

mapreduce的map阶段和reduce阶段

mapreduce的map阶段和reduce阶段MapReduce是一个用于大数据处理的计算模型和编程框架，最初由Google公司开发并推出。

MapReduce的基本思想是利用并行计算和分布式存储的特点，将大规模的数据集分成若干个小部分，通过Map 函数将这些小部分独立地处理成一系列键值对，并通过Reduce函数合并这些键值对，形成最终的结果。

在MapReduce中，每个Map任务和Reduce任务都是独立的计算单元，可以在分布式计算集群中并行地执行，从而以极高的性能和可伸缩性处理海量数据。

MapReduce的Map阶段和Reduce阶段是这个计算模型的核心，下面分别进行详细的解释。

1. Map阶段在MapReduce中，Map阶段的主要作用是将原始数据抽象为一系列键值对，并输出到Reduce阶段进行处理。

在具体的实现中，Map函数会将输入的数据映射到一组中间结果中，并将这些结果输出到Reduce函数中处理。

Map函数的输入和输出都是键值对形式的数据，其中输入通常是一条记录，输出通常是若干个键值对。

Map函数的实现通常是通过编写一个Map任务，并将这个任务分发到MapReduce框架的计算节点中执行。

在Map任务中，会对每条输入数据进行处理，将它分解成若干个键值对，并输出到Reduce函数进行处理。

在具体的实现中，Map任务的输入可以来源于分布式文件系统中的一个或多个数据块，输出可以保存到分布式文件系统中的一个或多个文件中。

2. Reduce阶段在MapReduce中，Reduce阶段的主要作用是将Map阶段输出的中间结果进行合并，并输出最终的计算结果。

在具体的实现中，Reduce 函数会接收Map阶段输出的一组键值对，并将它们分组处理成一组新的键值对，形成最终的输出结果。

Reduce函数的实现通常是通过编写一个Reduce任务，并将这个任务分发到MapReduce框架的计算节点中执行。

在Reduce任务中，会对所有输入数据进行汇总和合并处理，并输出最终的结果。

分布式并行计算模型

分布式并行计算模型分布式并行计算模型是一种基于分布式系统的计算模型，通过将计算任务划分为多个子任务，并在多个计算节点上并行执行这些子任务，以提高计算效率和性能。

这种计算模型在现代计算领域被广泛应用，它能够处理大规模的计算问题，并且具有良好的可扩展性和弹性。

分布式并行计算模型的主要特点包括任务划分与调度、通信协议和数据同步。

任务划分与调度是将整个计算任务划分为多个子任务，并将这些子任务分配到不同的计算节点上执行。

在任务划分与调度过程中，需要考虑任务的复杂度和数据依赖性，以及计算节点的负载均衡和容错能力。

通信协议是指计算节点之间的通信方式和协议，它们需要通过网络进行通信，并将计算结果传输回主节点。

数据同步是指计算节点之间的数据同步方式，包括数据的分发、收集和合并，以确保最终结果的一致性。

在分布式并行计算模型中，有多种不同的实现方式和技术。

其中比较常见的有MapReduce模型、MPI模型和分布式流处理模型。

MapReduce模型是由Google提出的一种分布式计算模型，它将计算任务划分为Map和Reduce两个阶段，并通过中间结果进行通信和数据同步。

MPI模型是一种消息传递接口，主要用于在分布式系统中进行进程间通信和数据传输。

分布式流处理模型是一种实时计算模型，通过流式数据处理来实现实时计算和大数据分析。

分布式并行计算模型具有许多优点。

首先，它能够处理大规模的计算问题，通过并行执行子任务，大大缩短了计算时间。

其次，它具有较好的可扩展性和弹性，可以根据需要动态添加或删除计算节点，以满足实际计算需求。

此外，分布式并行计算模型可以通过复制和冗余来提高容错能力，保证计算的可靠性和稳定性。

然而，分布式并行计算模型也存在一些挑战和问题。

首先，任务划分和调度是一个复杂的问题，需要考虑任务的复杂度和数据依赖性，并同时保证计算节点的负载均衡和容错能力。

其次，通信协议和数据同步是模型中的关键环节，需要设计高效的通信方式和数据同步策略，以减少计算节点之间的通信开销。

基于mapreduce的并行贝叶斯分类算法的设计与实现

基于mapreduce的并行贝叶斯分类算法的设计与实现随着大数据时代的到来，海量数据的处理和分析成为数据科学领域的一个重要问题。

在这个过程中，机器学习是一个非常重要的工具。

贝叶斯分类是机器学习中的一种重要技术，其核心思想是基于样本的先验概率和条件概率来进行分类。

为了处理大规模数据集，许多研究人员利用并行计算技术来进行优化。

本文提供了一种基于MapReduce 的并行贝叶斯分类算法的设计与实现。

一、贝叶斯分类算法的原理贝叶斯分类算法是一种基于概率的分类方法，可以根据一些已知的训练样本来计算出一个新样本属于不同类别的概率，并将其分到概率最大的类别中。

该算法的关键在于假设一个先验概率和条件概率模型，其中先验概率是每个类别在数据集中出现的频率，条件概率是指已知某个特征在某个类别下的频率。

假设对于一个新的数据样本，其特征向量为x = [x1, x2, ..., xn]，针对每个类别y，可以计算出其对应的条件概率，即P(x | y) ，由于每个数据点只属于一个类别，所以可以应用贝叶斯定理来计算在给定数据下，某个类别y的条件概率P(y | x)。

贝叶斯公式如下：P(y | x) = P(x | y) * P(y) / P(x)其中，P(y)是每个类别在数据集中的概率，P(x | y) 是在类别y下样本特征向量为x的条件概率，P(x) 为样本的边缘概率，即P(y | x) 对应的概率和。

二、并行贝叶斯分类算法的设计当数据集非常大时，贝叶斯分类算法的计算复杂度会很高，所以为了节约时间和资源，我们可以采用并行计算模型来提高算法的效率。

这里，我们采用了MapReduce模型进行并行计算。

MapReduce模型是一种分布式计算模型，可以将大规模的数据集分为若干个小数据集，然后在不同的计算节点上并行处理，最后将处理结果聚合在一起，得到最终的结果。

通过MapReduce模型，我们可以将贝叶斯分类算法分为两个部分：Map阶段：针对每个类别，计算出其对应的条件概率P(x | y)和先验概率P(y)，然后将计算结果输出到Reducer阶段； Reducer阶段：将Map阶段输出的同类别的计算结果进行合并，并计算出每个类别y的P(y | x) 的值，并找出概率最高的类别，作为预测值。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

conf.setMapperClass(MaxTemperatureMapper.class); conf.setReducerClass(MaxTemperatureReducer.class);
•
• •
conf.setOutputKeyClass(Text.class);
conf.setOutputValueClass(IntWritable.class);
Map
Map
„
Map
Reduce „ Reduce
结果 1
结果 R
• 数据分布存储，带来计算上的并行化：
横向扩展
• 为实现横向扩展, 需要把数据存储在HDFS中
• Hadoop 将 MapReduce 计算转移到各机器上
• 每台承担一部分数据.
MapReduce操作执行流程图
例1：一个单词统计的实例
适合非结构化和结构化的海量数据的搜索、挖掘、分析与机器智能学习等
MapReduce 计算模型
• 分布式计算的瓶颈是网络带宽 • “本地计算”是最有效的一种节约网络带宽的手段
• “移动计算比移动数据更经济”。
MapReduce的特点
• 输入的键值是不固定的，由分析人员选择 • 对于非结构化和半结构化数据，非常有效 • 适合于大规模数据的一次写入，多次查询 • MapReduce其核心就是高速、流式读写操作
按照首字母将Map 中不同桶中的字符串集合放置到相应的Reduce中进行处理。
Splits分片
• Hadoop 将 MapReduce 的输入数据划分成等长的小数据块split.
• Split意味着处理每个分片所需的时间，将少于处理整个输入数据所化时间.
• Hadoop 为每个分片建立一个map任务，并由该任务来执行用户定义的map函数，从而处理分片中的每条记录.
MapReduce job代码
•
• • • • •
JobConf conf = new JobConf(MaxTemperature.class);
conf.setJobName("Max temperature");
FileInputFormat.addInputPath(conf, new Path(args[0])); FileOutputFormat.setOutputPath(conf, new Path(args[1]));
• 在 org.apache.hadoop.io 中有
• LongWritable(Java Long), Text (Java
String), IntWritable (Java Integer).
Reducer 参数
• Reducer<Text, IntWritable, Text, IntWritable> • reduce前 2个输入参数 (Text和 IntWritable ) 应该与map的输出类型一致
25
问题分析
• 对气象数据中的年份和温度进行分析
• 找出
• • • • 最高气温平均气温 … 待处理的气象数据如下：
Example. 气象数据的格式
0057 332130 99999 19500101 0300 +51317 +028783 00450 1 010000 1
-0128 1 -0139 1 10268 1
• values 是一个 Iterator, 遍历这个 Iterator, 就可以得到属于同一个 key 的所有 value.
• 此处，key是一个单词，value 是词频。只需要将所有的 value 相加，就可以得到这个单词的总的出现次数。
WordCount-Reduce
Reduce Input Reduce(K, V[ ]) { Int count = 0; For each v in V count += v; Collect(K, count); }
Map阶段数据本地优化
• Hadoop 在存储有输入数据（HDFS中）的节点上运行map任务可以获得最佳性能.
• 分片大小应该与HDFS块block的大小一致, 64 MB • 如果分片跨越两块, 同一分片中的两部分数据将频繁的通过网络传输到map任务节点,导致低效率
方法：使用MapReduce分析
• 根据MapReduce的设计思路，采用Map 和 Reduce两阶段：
• 以键值对(key-value pair,KVP)作为输入/输出, 其类型由程序员选择.
• 为此要定义两个函数:
• map 和 reduce函数.
MapReduce 数据流
• 最底下是一个Unix pipeline模拟 MapReduce 流程
Java MapReduce
• 代码中的三个组成:
• map函数, • reduce函数, • 运行job的代码. See Example 最高气温的Mapper
Mapper 参数
• Mapper<LongWritable, Text, Text, IntWritable>
• • • • input key 是long integer offset input value 是 line of text, output key 是 year output value 是 temperature (integer).
MapReduce —并行计算模式及其应用
杨文川 2014.2
主要内容
• • • • 1) 2) 3) 4) MapReduce产生背景 MapReduce编程模型 MapReduce实现机制 MapReduce案例分析
MapReduce 一种处理海量数据的并行编程模式，用于大规模数据集（通常大于1TB）的并行运算。 “Map（映射）”、“Reduce（化简）”的概念和主要思想，都是从函数式编程语言和矢量编程语言借鉴
Reduce
<Hello,1> <World,2> <Bye,1>
Internal Grouping
<Bye 1, 1, 1>
<Hello,1> <Hadoop,2> <Bye,1>
Reduce Output
<Hadoop 2, 2> Reduce
<Bye,1> <Hadoop,2> <Hello,1>
2, “Hello Hadoop Bye Hadoop” Map
Map(K, V) { For each word w in V Collect(w, 1); }
3, “Bye Hadoop Hello Hadoop” Map
实现 Reduce 类
• 这个类实现 Reducer 接口中的 reduce 方法, 输入参数中的 key, values 是由 Map 任务输出的中间结果，
数据本地化
• 数据本地化是MapReduce 的灵魂，也是其高效的原因 • MapReduce尽量将数据靠近计算节点，数据本地化导致数据获取可以快速高效
• 网络带宽是数据中心最稀缺的资源
• MapReduce采用合理的网络拓扑设置来预留网络带宽. • 这些布局不会影响MapReduce快速的CPU 分析能力.
无共享(share nothing)
• 无共享结构让MapReduce程序员无需考虑系统的部分失效问题， • 因为自身的系统实现，能够检测到失败的map或 reduce任务 • 并让正常的机器重新执行这些失败的任务， • 因为各个任务之间彼此独立， • 任务的执行顺序是无关紧要的
设计目标
• MapReduce 设计目标是服务于那些数分钟或数小时可完成的任务 • 最适合于内部通过高速网络连接的单一数据中心内 • 这些数据中心内的计算机最好由可靠、定制的硬件组成.
MapReduce计算流程
原始数据 1 原始数据 2 原始数据 M
MapReduce运行模型 Map函数 ——对一部分原始数据进
行指定的操作。每个Map操作都针对不同的原始数据，因此Map与 Map之间是互相独立的，这使得它们可以充分并行化 Reduce操作——对每个Map所产生的一部分中间结果进行合并操作，每个Reduce所处理的Map中间结果是互不交叉的，所有Reduce产生的最终结果经过简单连接就形成了完整的结果集
Output:
Number of occurrences of each word MapReduce Bye 3 Hadoop 4 Hello 3 World 2
对原始的数据进行分割（Split），得到N个不同的数据分块
每一个数据分块都启动一个Map进行处理。每个Map中按照首字母将字符串分配到26个不同的桶中
WordCount-Map
Input
1, “Hello World Bye World
<Hello,1> <World,1> <Bye,1> <World,1> <Hello,1> <Hadoop,1> <Bye,1> <Hadoop,1> <Bye,1> <Hadoop,1> <Hello,1> <Hadoop,1>
<Hello 1, 1, 1>
Reduce
<Bye, 3> <Hadoop, 4> <Hello, 3> <World, 2>
<World 2>
Reduce
运行 Job
• 在 Hadoop 中一次计算任务称之为一个 job, 可以通过一个 JobConf 对象设置如何运行这个 job。