spark中spark-submit内部实现原理

spark中spark-submit内部实现原理
spark中spark-submit内部实现原理

这两天在看spark-submit之后任务是怎么启动的,写篇文章记录一下自己的理解思路:SparkSubmit→SparkDeploySchedulerBackend→AppClient→tryRegisterAllMaster

1:客户端启动,初始化相关的环境变量,包括Application代码的提交

2:向Master注册Driver

这里需要注意,Master,Worker是已经启动,换句话说,我们的spark集群已经启动。3: SparkDeploySchedulerBackend中启动Application。向Master注册Application def registerWithMaster() {

tryRegisterAllMasters()

import context.dispatcher

var retries = 0

registrationRetryTimer = Some {

context.system.scheduler.schedule(REGISTRATION_TIMEOUT, REGISTRATION_TIMEOUT) {

Utils.tryOrExit {

retries += 1

if (registered) {

registrationRetryTimer.foreach(_.cancel())

} else if (retries >= REGISTRATION_RETRIES) {

markDead("All masters are unresponsive! Giving up.")

} else {

tryRegisterAllMasters()

}

}

}

}

}

def tryRegisterAllMasters() {

for (masterAkkaUrl <- masterAkkaUrls) {

logInfo("Connecting to master " + masterAkkaUrl + "...")

val actor = context.actorSelection(masterAkkaUrl)

actor ! RegisterApplication(appDescription)

}

}

主要是这两段代码:SparkDeploySchedulerBackend中有Application的start函数,进入到APPClient中之后,首先向master注册Application,就是上面代码中的tryRegisterAllMasters(),这里会向Master发送RegisterApplication(appDescription)。在Master端通过AKKA收到消息后处理该消息,处理代码如下:

case RegisterApplication(description) => {

if (state == RecoveryState.STANDBY) {

// ignore, don't send response

} else {

logInfo("Registering app " + https://www.360docs.net/doc/e418566544.html,)

val app = createApplication(description, sender)

registerApplication(app)

logInfo("Registered app " + https://www.360docs.net/doc/e418566544.html, + " with ID " + app.id)

persistenceEngine.addApplication(app)

sender ! RegisteredApplication(app.id, masterUrl)

schedule()

}

}

进行注册Application,并且发送已经注册App的消息。然后进行schedule()。

Schedule函数如下:

/**

* Schedule the currently available resources among waiting apps. This method will be called

* every time a new app joins or resource availability changes.

*/

private def schedule(): Unit = {

if (state != RecoveryState.ALIVE) { return }

// Drivers take strict precedence over executors

val shuffledWorkers = Random.shuffle(workers) // Randomization helps balance drivers

for (worker <- shuffledWorkers if worker.state == WorkerState.ALIVE) {

for (driver <- waitingDrivers) {

if (worker.memoryFree >= driver.desc.mem && worker.coresFree >= driver.desc.cores) {

launchDriver(worker, driver)

waitingDrivers -= driver

}

}

}

startExecutorsOnWorkers()

}

4:Master接受请求后,根据资源情况向worker发送指令启动Executor。(上面最后一行代码)

private def startExecutorsOnWorkers(): Unit = {

// Right now this is a very simple FIFO scheduler. We keep trying to fit in the first app

// in the queue, then the second app, etc.

if (spreadOutApps) {

// Try to spread out each app among all the workers, until it has all its cores

for (app <- waitingApps if app.coresLeft > 0) {

val usableWorkers = workers.toArray.filter(_.state == WorkerState.ALIVE)

.filter(worker => worker.memoryFree >= app.desc.memoryPerExecutorMB &&

worker.coresFree >= app.desc.coresPerExecutor.getOrElse(1))

.sortBy(_.coresFree).reverse

val numUsable = usableWorkers.length

val assigned = new Array[Int](numUsable) // Number of cores to give on each node

var toAssign = math.min(app.coresLeft, usableWorkers.map(_.coresFree).sum)

var pos = 0

while (toAssign > 0) {

if (usableWorkers(pos).coresFree - assigned(pos) > 0) {

toAssign -= 1

assigned(pos) += 1

}

pos = (pos + 1) % numUsable

}

// Now that we've decided how many cores to give on each node, let's actually give them

for (pos <- 0 until numUsable if assigned(pos) > 0) {

allocateWorkerResourceToExecutors(app, assigned(pos), usableWorkers(pos))

}

}

} else {

// Pack each app into as few workers as possible until we've assigned all its cores

for (worker <- workers if worker.coresFree > 0 && worker.state == WorkerState.ALIVE) {

for (app <- waitingApps if app.coresLeft > 0) {

allocateWorkerResourceToExecutors(app, app.coresLeft, worker)

}

}

}

}

这段代码就是在worker上启动executor。代码中的注释如下:Schedule executors to be launched on the workers.

* There are two modes of launching executors. The first attempts to spread out an application's * executors on as many workers as possible, while the second does the opposite (i.e. launch them on as few workers as possible). The former is usually better for data locality purposes and is the default.

注释中同时指出:对于executor的启动有两种方式:第一种是在一台worker上启动最够多的executor,第二种是相反的,在worker上启动足够少的executor。这就和Application的分发刚好对应上。

Schedule函数中关键代码allocateWorkerResourceToExecutors功能如下:

private def allocateWorkerResourceToExecutors(

app: ApplicationInfo,

coresToAllocate: Int,

worker: WorkerInfo): Unit = {

val memoryPerExecutor = app.desc.memoryPerExecutorMB

val coresPerExecutor = app.desc.coresPerExecutor.getOrElse(coresToAllocate)

var coresLeft = coresToAllocate

while (coresLeft >= coresPerExecutor && worker.memoryFree >= memoryPerExecutor) {

val exec = app.addExecutor(worker, coresPerExecutor)

coresLeft -= coresPerExecutor

launchExecutor(worker, exec)

app.state = ApplicationState.RUNNING

}

}

红色字体,这下应该看明白了吧。这里启动了Executor。

这里executor已经启动了,然后就等着来运行任务了。而对于任务的运行,是不是想到了

DAGScheduler和TaskScheduler。。。

5:DAGScheduler进行Job的Stage划分(这里我之前写过一篇文章,所以不再细贴代码了,大体介绍一下就可以了)

这里主要是处理handleJobSubmitted事件,首先需要新建stage和activejob。Stage构建的话有几点需要注意哦。Partition和依赖。然后开始提交Stage,这里可以看到,需要先检测有没有miss的stage。执行submitMissingTasks(stage, jobId.get)。针对不同类型的stage,所做的操作是不一样的,我们的stage类型有ShuffleMapStage和ResultStage。然后就是非常重要的一点了,task的序列化。

注意:DAGScheduler提交给TaskScheduler的是TaskSet,即一组相同的任务,只是处理的数据不同。

OK,继续说task的序列化。ShuffleMapStage和ResultStage序列化的过程也是不一样的。序列化后的任务用广播的方式发送,每个executor得到之后首先会进行反序列化,这样在不同的executor上运行的task是隔离的,不会互相影响。

然后开始构建task,ShuffleMapTask和ResultTask。构建完之后,形成TaskSet,将其提交给TaskScheduler。

6:TaskScheduler向注册来的Executor发送LaunchTask命令进行任务的运行。这里解释一下,因为源码中比较绕,首先会在TaskSchedulerImpl中执行SubmitTask函数,backend.reviveOffers()。

var backend: SchedulerBackend = null

这里能够看到我们是调用了reviveOffers函数。然后进入到原函数中看到如下代码:

override def reviveOffers() {

driverEndpoint.send(ReviveOffers)

}

这里向driverEndpoint发送了ReviveOffers消息。所以我们需要进入到driverEndpoint中找到处理ReviveOffers的函数。

driverEndpoint = rpcEnv.setupEndpoint(

CoarseGrainedSchedulerBackend.ENDPOINT_NAME, new DriverEndpoint(rpcEnv, properties))

这里能够看到new DriverEndpoint,是在CoarseGrainedSchedulerBackend里面。OK,在这里面找ReviveOffers函数。

case ReviveOffers =>

makeOffers()

def makeOffers() {

launchTasks(scheduler.resourceOffers(executorDataMap.map { case (id, executorData) =>

new WorkerOffer(id, executorData.executorHost, executorData.freeCores)

}.toSeq))

}

LaunchTasks函数开始处理了。

// Launch tasks returned by a set of resource offers

def launchTasks(tasks: Seq[Seq[TaskDescription]]) {

for (task <- tasks.flatten) {

val ser = SparkEnv.get.closureSerializer.newInstance()

val serializedTask = ser.serialize(task)

if (serializedTask.limit >= akkaFrameSize - AkkaUtils.reservedSizeBytes) {

val taskSetId = scheduler.taskIdToTaskSetId(task.taskId)

scheduler.activeTaskSets.get(taskSetId).foreach { taskSet =>

try {

var msg = "Serialized task %s:%d was %d bytes, which exceeds max allowed: " +

"spark.akka.frameSize (%d bytes) - reserved (%d bytes). Consider increasing " +

"spark.akka.frameSize or using broadcast variables for large values."

msg = msg.format(task.taskId, task.index, serializedTask.limit, akkaFrameSize,

AkkaUtils.reservedSizeBytes)

taskSet.abort(msg)

} catch {

case e: Exception => logError("Exception in error callback", e)

}

}

}

else {

val executorData = executorDataMap(task.executorId)

executorData.freeCores -= scheduler.CPUS_PER_TASK

executorData.executorEndpoint.send(LaunchTask(new SerializableBuffer(serializedTask)))

}

}

}

OK,这里标红的一段我们能够看到是向Executor发送启动LaunchTask命令。

7:Executor端进行Task相关信息的反序列化,根据jar包和配置文件的下载,并运行。8:如果运行的是ShuffleMapTask,将结果保存到本地文件中,汇报给Driver等待ResultTask 或者其他ShuffleMapTask获取,如果是ResultTask,则进行结果的获取和Reduce,最后结果汇报给Driver。

9:运行结束。

以上为原创,如有问题,欢迎指正。

574605698@https://www.360docs.net/doc/e418566544.html,李晓燕

Scala从基础到开发实战

Scala从基础到开发实战 对于进化缓慢的Java跟C++语言来说,目前Scala无疑更适应现代化特质的语言,语法简洁,同时兼备函数式编程与面向对象编程,具有令人耳目一新的编程范式。而运行在Java 虚拟机上的编译环境使得其具有很多的现有工具与类库,拥有快速的可靠的解释器和编译器。 本课程是Scala语言基础课程,面向没有或仅有少量编程语言基础的同学,当然,具有一定的Java或C、C++语言基础将有助于本课程的学习。在本课程内,将更注重scala的各种语言规则和应用,通过学习本课程能具备初步的Scala语言实际编程能力。 Scala最近的红火也得益于Spark分布式内存计算平台的兴起,由于其惊人的计算速度,Spark将要革命Hadoop的说法尘嚣日上,但学习Spark的一项瓶颈是其原生语言Scala并不为大众所熟知,即使是资深程序员,从未听说过Scala者大有人在,于是本门课程也可以称为Spark系列的前置课程,供深入学习大数据技术的同仁们进行热身运动。 课程大纲: 第一课:Scala介绍——如何安装Scala REPL、SBT、IDE,编写简单的Scala程序;函数式编程简介 第二课:Scala的class和object,Scala的变量、类的介绍 第三课:Scala的基本数据类型、控制语句 第四课:高阶函数、Currying、尾递归 第五课:数据结构:List、Map、Set 第六课:组合和继承 第七课:Trait 第八课:响应式编程介绍 第九课:Akka框架(一)——akka的基本用法 第十课:Akka框架(二)——actor的监控 第十一课:Akka框架(三)——网络编程 第十二课:Akka框架(四)——akka使用技巧

大数据开发新手学习指南(经典)

上市公司,官网:https://www.360docs.net/doc/e418566544.html, 大数据开发初学者该如何学习 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章:一夫多妻制 第七章:越来越多的分析任务 第八章:我的数据要实时 第九章:我的数据要对外 第十章:牛逼高大上的机器学习 经常有初学者会问,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高……首先,如果你确定了想往这个方面发展,先考虑自己的过去从业经历、专业、兴趣是什么。计算机专业——操作系统、硬件、网络、服务器?软件专业——软件开发、编程、写代码?还是数学、统计学专业——对数据和数字特别感兴趣? 其实这就是想告诉你大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。 先扯一下大数据的4V特征: ?数据量大,TB->PB ?数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等;

上市公司,官网:https://www.360docs.net/doc/e418566544.html, ?商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; ?处理时效性高,海量数据的处理需求不再局限在离线计算当中。 现如今,正式为了应对大数据的这几个特点,开源的大数据框架越来越多,越来越强,先列举一些常见的: 文件存储:Hadoop HDFS、Tachyon、KFS 离线计算:Hadoop MapReduce、Spark 流式、实时计算:Storm、Spark Streaming、S4、Heron K-V、NOSQL数据库:HBase、Redis、MongoDB 资源管理:YARN、Mesos 日志收集:Flume、Scribe、Logstash、Kibana 消息系统:Kafka、StormMQ、ZeroMQ、RabbitMQ 查询分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid 分布式协调服务:Zookeeper 集群管理与监控:Ambari、Ganglia、Nagios、Cloudera Manager 数据挖掘、机器学习:Mahout、Spark MLLib 数据同步:Sqoop 任务调度:Oozie 1.1 学会百度与Google

用Apache Spark进行大数据处理——第一部分:入门介绍

用Apache Spark进行大数据处理——第一部分:入门介绍 什么是Spark Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。 首先,Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。 Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍。 Spark让开发者可以快速的用Java、Scala或Python编写程序。它本身自带了一个超过80个高阶操作符集合。而且还可以用它在shell中以交互式地查询数据。 除了Map和Reduce操作之外,它还支持SQL查询,流数据,机器学习和图表数据处理。开发者可以在一个数据管道用例中单独使用某一能力或者将这些能力结合在一起使用。 在这个Apache Spark文章系列的第一部分中,我们将了解到什么是Spark,它与典型的MapReduce解决方案的比较以及它如何为大数据处理提供了一套完整的工具。 Hadoop和Spark Hadoop这项大数据处理技术大概已有十年历史,而且被看做是首选的大数据集合处理的解决方案。MapReduce是一路计算的优秀解决方案,不过对于需要多路计算和算法的用例来说,并非十分高效。数据处理流程中的每一步都需要一个Map阶段和一个Reduce阶段,而且如果要利用这一解决方案,需要将所有用例都转换成MapReduce模式。 在下一步开始之前,上一步的作业输出数据必须要存储到分布式文件系统中。因此,复制和磁盘存储会导致这种方式速度变慢。另外Hadoop解决方案中通常会包含难以安装和管理的集群。而且为了处理不同的大数据用例,还需要集成多种不同的工具(如用于机器学习的Mahout和流数据处理的Storm)。 如果想要完成比较复杂的工作,就必须将一系列的MapReduce作业串联起来然后顺序执行这些作业。每一个作业都是高时延的,而且只有在前一个作业完成之后下一个作业才能开始启动。 而Spark则允许程序开发者使用有向无环图(DAG)开发复杂的多步数据管道。而且还支持跨有向无环图的内存数据共享,以便不同的作业可以共同处理同一个数据。

利用Scala语言开发Spark应用程序

利用Scala语言开发Spark应用程序 park内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情。如果你对Scala语言还不太熟悉,可以阅读网络教程A Scala Tutorial for Java Programmers或者相关Scala书籍进行学习。 AD: Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情。如果你对Scala语言还不太熟悉,可以阅读网络教程A Scala Tutorial for Java Programmers或者相关Scala书籍进行学习。 本文将介绍3个Scala Spark编程实例,分别是WordCount、TopK和SparkJoin,分别代表了Spark 的三种典型应用。 1. WordCount编程实例 WordCount是一个最简单的分布式应用实例,主要功能是统计输入目录中所有单词出现的总次数,编写步骤如下: 步骤1:创建一个SparkContext对象,该对象有四个参数:Spark master位置、应用程序名称,Spark安装目录和jar存放位置,对于Spark On Y ARN而言,最重要的是前两个参数,第一个参数指定为yarn-standalone ,第二个参数是自定义的字符串,举例如下: valsc=newSparkContext(args(0), WordCount ,System.getenv( SPARK_HOME ),Seq(System.getenv( SPARK_TEST_JAR ))) 步骤2:读取输入数据。我们要从HDFS上读取文本数据,可以使用SparkCon valtextFile=sc.textFile(args(1)) 当然,Spark允许你采用任何Hadoop InputFormat,比如二进制输入格式SequenceFileInputFormat,此时你可以使用SparkContext中的hadoopRDD函数,举例如下: valinputFormatClass=classOf[SequenceFileInputFormat[Text,Text]]varhadoopRdd=sc.hadoopRDD(c onf,inputFormatClass,classOf[Text],classOf[Text]) 或者直接创建一个HadoopRDD对象: varhadoopRdd=newHadoopRDD(sc,conf,classOf[SequenceFileInputFormat[Text,Text,classOf[Text],c lassOf[Text]) 步骤3:通过RDD转换算子操作和转换RDD,对于WordCount而言,首先需要从输入数据中每行字符串中解析出单词,水草玛瑙 https://www.360docs.net/doc/e418566544.html,然后将相同单词放到一个桶中,最后统计每个桶中每个单词出现的频率,举例如下: valresult=hadoopRdd.flatMap{case(key,value)= value.toString().split( \\s+ }.map(word= (word,1)).reduceByKey(_+_) 其中,flatMap函数可以将一条记录转换成多条记录(一对多关系),map函数将一条记录转换为另一条记录(一对一关系),高山茶 https://www.360docs.net/doc/e418566544.html, reduceByKey函数将key相同的数据划分到一个桶中,并以key为单位分组进行计算,这些函数的具体含义可参考:Spark Transformation。步骤4:将产生的RDD数据集保存到HDFS上。可以使用SparkContext中的saveAsTextFile哈数将数据集保存到HDFS目录下,默认采用Hadoop提供的TextOutputFormat,每条记录以(key,value)的形式打印输出,你也可以采用saveAsSequenceFile函数将数据保存为SequenceFile格式等,举例如下: result.saveAsSequenceFile(args(2)) 当然,一般我们写Spark程序时,需要包含以下两个头文件: importorg.apache.spark._importSparkContext._ WordCount完整程序已在Apache Spark学习:利用Eclipse构建Spark集成开发环境一文中进行了介绍,在次不赘述。 需要注意的是,指定输入输出文件时,需要指定hdfs的URI,比如输入目录是hdfs:hadoop-testtmpinput,输出目录是hdfs:hadoop-testtmpoutput,其中,hdfs:hadoop-test 是由Hadoop配置文件core- site.xml中参数https://www.360docs.net/doc/e418566544.html,指定的,具体替换成你的配置即可。 2. TopK编程实例

51CTO学院-Scala深入浅出实战初级入门经典视频课程

51cto学院-Scala深入浅出实战初级入门经典视频课程 课程目标 为进一步推动大数据技术的发展和应用,在王家林的带领下联合大数据狂热爱好者和一线实践专家构建了“DT大数据梦工厂”公益团队,旨在免 费分享大数据最佳实践技术,帮助您和公司在大数据时代重铸强大IT大 脑,笑傲互联网+时代!在这里,先从Scala语言的编程开发实战学起。。。适用人群 Scala语言爱好者,Spark技术爱好者,大数据技术学习者 课程简介 《Scala深入浅出实战初级入门经典视频课程》 从Scala的开发环境的搭建起步,基于纯粹动手实战的原则,循序渐进的覆盖Scal a基础、Scala面向对象编程、Scala函数式编程、集合的操作深度实战、Scala测 试等实用实战内容,是《Scala深入浅出实战中级---进阶经典》和《Scala深入浅 出实战高级---高手之巅》的前置课程。纯粹的实战精华课程打造能够进行Scala编程实战的您! 从零开始,跟随着王家林老师每天早晨4点左右发布的一个绝对精华的约15分钟的大数据免费视频学习大数据方面的技术,先从Scala语言的编程开发实战学起。。。 Scala是一门以JVM为目标运行环境并将面向对象和函数式编程语言的最佳特性结合在一起的编程语言,此课程是大数据框架Spark的前置课程: 1、Spark框架是采用Scala语言编写的,精致而优雅。要想成为Spark高手,你 就必须阅读Spark的源代码,就必须掌握Scala;

2、虽然说现在的Spark可以采用多语言Java、Python等进行应用程序开发,但 是最快速的和支持最好的开发API依然并将永远是Scala方式的API,所以你必须掌握Scala来编写复杂的和高性能的Spark分布式程序; 3、本课程采用循序渐进的实战方式,深入浅出的讲解Scala所有核心内容和高级实 战技巧 课程 1 第1讲:Scala开发环境搭建和HelloWorld解析 24分钟 本视频介绍了Scala语言的特性,Java的安装,详细介绍了Scala的下载、Scala的环境变量配置,ScalaIDE工具的安装。在Scala的环境安装完成后又动手演示了一个在ScalaIDE中建立Sc ala工程的例子,并演示运行结果。 2 第2讲:Scala函数定义、流程控制、异常处理入门实战 24分钟 本视频以具体的例子代码详细介绍了1)Scala中函数的定义格式,以main函数为例介绍了ma in函数中的参数意义和返回值,同时还介绍了无参数函数的调用方式和有参数函数的调用方式。 2)介绍了Scala中流程控制do-while循环、for循环的使用方式。3)Scala中的异常处理try-catch-finally的使用流程。 3 第3讲:Tuple、Array、Map与文件操作入门实战 15分钟 本视频以具体的例子代码详细介绍了1)Scala中的元组的定义、元组的元素访问方式。2)Scal a中数组的定义、数组的遍历方式。3)Scala中Map集合的定义和访问方式。4)Scala中网络文件和本地文件的访问方式。 4

给大数据开发初学者的一些建议

IT=挨踢,这是IT人的自嘲,进入IT行业是有四五年了,也算得上是一个“老人”了吧,见了不少新人,面试了不少新人,也带了一些新人,多多少少还是有点发言权的。 新人们常常会说我看了多少多少的书,看过某某人写的书,仿佛书看了就会做了。其实不然,很多新人在面试的时候夸夸其谈,说啥啥都知道一点,到真正做的时候,啥都不会。归根到底是没有经验,技术这玩意儿经验非常重要,很多东西如果不是你碰到了,你从书上一辈子都找不到答案。 一般都是先把整个书翻一下,了解一下书的基本内容,然后在实际项目中遇到相应的问题再去翻书,当然这是因为我对技术已经有一定的了解,不需要通读整本书。初学者应该找一些适合自己的书,通读一遍,其中的例子要认真做,一定要自己去写代码,而不是Copy。我以前在学做网页的时候,别人都用Dreamweaver去做,只有我打开源代码编辑器学习HTML源代码的编写。 做完书的例子只能说明你会削木头了,但会削木头离会做柜子还有很远的路要走。还记得达·芬奇画鸡蛋的故事么?不停地重复肯定是枯燥的,所以你需要自己尝试去做一些实际的东西,比如做一个个人主页、一个留言本、一个通信地址本......在这些实际的东西中去实现你的创意,去实现你在书本上所学习的例子,并且将这些例子加入你的思想。 永远不要认为书本能给你带来多少东西,虽然它们很有用,但它们只是一个Key,一个引你入门的Key。 四川是旅游的天堂,无法拒绝她火辣辣的美食,无法拒绝她惊艳的自然风光,更无法拒绝她的古蜀文化。随着社会物质文明和精神文明的不断提高,越来越多的人在社会的残酷竞争中优胜劣汰!在追求男女平等的同时,男生和女生却面临同样的竞争,这就是社会生存潜

Spark 实战第 1 部分使用Scala 语言开发Spark 应用程序

Spark 实战,第1 部分: 使用Scala 语言开发Spark 应用程序 本文旨在通过具有实际意义的案例向读者介绍如何使用Scala 语言开发Spark 应用程序并在Spark 集群上运行。本文涉及的所有源数据都将从HDFS(Hadoop Distributed File System)读取,部分案例的输出结果也会写入到HDFS, 所以通过阅读本文,读者也会学习到Spark 和HDFS 交互的一些知识。 查看本系列更多内容|3评论: 王龙, 软件开发工程师, IBM 内容

关于Spark Spark 由加州大学伯克利分校AMP 实验室(Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的大数据处理的应用程序。并且提供了用于机器学习(MLlib), 流计算(Streaming), 图计算(GraphX) 等子模块,最新的1.4.0 版本更是提供了与R 语言的集成,这使得Spark 几乎成为了多领域通吃的全能技术。Spark 对数据的存储,转换,以及计算都是基于一个叫RDD(Resilient Distributed Dataset) 分布式内存的抽象,应用程序对需要计算的数据的操作都是通过对RDD 的一系列转化(Transformation) 和动作(Action) 算子完成的,其中转化算子可以把一个RDD 转成另一个RDD,如filter 算子可以通过添加过滤条件生成一个只包含符合条件的数据的新的RDD。动作算子负责完成最终的计算,如count 算子可以计算出整个RDD 表示的数据集中元素的个数。关于Spark 所支持的算子以及使用方法请参考Spark 官方网站。本文所使用的Spark 的发行版是1.3.1,读者可根据需要下载相应的版本。 回页首关于Scala Scala 语言是一门类Java 的多范式语言,其设计初衷就是为了继承函数式编程的面向对象编程的各种特性,正如Scala 语言官网描述的那样:Object-Oriented Meets Functional, 就是给出了一个关于Scala 语言特性的最简单明了的概括。 Spark 框架使用Scala 语言开发,那么使用Scala 语言开发Spark 应用程序就变成一件很自然的事情,虽然Spark 提供了面向Python,Java 等语言的编程接口,但是从各个方面来看使用Scala 编程都是最简单最容易理解的,特别是当程序出现异常或者是需要通过学习源码来定位问题时,您会发现学习Scala 语言来编写Spark 应用程序是多么有意义的事情。关于Scala 语言,如果您还没有基础,请参考 ?Scala 语言官网 ?Scala 中文网 ?Twitter 提供的Scala 课堂 ?面向Java 开发人员的Scala 指南系列 由于Spark 1.3.1 版本使用的是Scala 2.10.x 版本,所以本文将使用Scala 2.10.5 版本。 回页首搭建开发环境 1. 安装Scala IDE

零基础学习hadoop(编程篇)

1.hadoop编程需要哪些基础? 2.hadoop编程需要注意哪些问题? 3.如何创建mapreduce程序及其包含几部分? 4.如何远程连接eclipse,可能会遇到什么问题? 5.如何编译hadoop源码? 阅读此篇文章,需要些基础下面两篇文章 零基础学习hadoop到上手工作线路指导(初级篇) 零基础学习hadoop到上手工作线路指导(中级篇) 如果看过的话,看这篇不成问题,此篇讲hadoop编程篇。 hadoop编程,hadoop是一个Java框架,同时也是编程的一次革命,使得传统开发运行程序由单台客户端(单台电脑)转换为可以由多个客户端运行(多台机器)运行,使得任务得以分解,这大大提高了效率。

hadoop既然是一个Java框架,因为我们必须要懂Java,网上有大量的资料,所以学习Java 不是件难事。但是学到什么程度,可能是我们零基础同学所关心的。 语言很多情况下都是相通的,如果你是学生,还处于打基础的阶段,那么难度对于你来说还是不小的。 1.初学者要求必须有理论基础,并且能够完成一个小项目,最起码能够完成几个小例子,例如图书馆里等。 初学者基本的要求: (1)懂什么是对象、接口、继续、多态 (2)必须熟悉Java语法 (3)掌握一定的常用包 (4)会使用maven下载代码 (5)会使用eclipse,包括里面的快捷键,如何打开项目 传统程序员,因为具有丰富的编程经验,因此只要能够掌握开发工具: (1)会使用maven下载代码 (2)会使用eclipse,包括里面的快捷键,如何打开项目 (3)简单熟悉Java语法 上面的只是基础,如果想开发hadoop,还需要懂得下面内容 (1)会编译hadoop (2)会使用hadoop-eclipse-plugin插件,远程连接集群 (3)会运行hadoop程序。 上面列出大概的内容,下面我们具体说一些需要学习的内容。 无论是传统开发人员还是学生,零基础下面都是需要掌握的: 我们就需要进入开发了。开发零基础,该如何,咱们提供了相关的内容分别介绍下面文章 学习hadoop----java零基础学习线路指导视频(1) 这一篇我们使用什么开发工具,甚至考虑使用什么操作系统。然后就是Java基础知识篇,包括变量、函数等。 学习hadoop---Java初级快读入门指导(2) 第一篇是属于思想篇,那么这一篇属于实战篇,通过不同的方式,交给你怎么编写第一个小

大数据Spark企业级实战书籍推荐

Life is short,you need Spark! Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台。基于RDD,Spark成功地构建起了一体化、多元化的大数据处理体系。 雅虎、Conviva、淘宝、网易、大众点评、优酷土豆、腾讯、华为等公司均在生产环境中部署了大规模的Spark。 《大数据Spark企业级实战》完全从企业处理大数据业务场景的角度出发,完全基于实战代码来组织内容,从零起步,不需任何基础,完全无痛地掌握Spark大数据处理实战技术,源码解析: Spark集群的动手构建 Spark架构 Spark内核的深入解析 Spark四大子框架的细致剖析和实战 Tachyon文件系统揭秘 Spark多语言编程 SparkR Spark性能调优和最佳实践 一站式实现Spark企业级开发实战! 内容简介: Spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台,是Apache软件基金会下所有开源项目中三大顶级开源项目之一。 在“One Stack to rule them all”理念的指引下,Spark基于RDD成功地构建起了大数据处理的一体化解决方案,将MapReduce、Streaming、SQL、Machine Learning、Graph Processing等大数据计算模型统一到一个技术堆栈中,开发者使用一致的API操作Spark中的所有功能;更为重要的是Spark的Spark SQL、MLLib、GraphX、Spark Streaming等四大子框架之间可以在内存中完美的无缝集成并可以互相操作彼此的数据,这不仅打造了Spark在当今大数据计算领域其他任何计算框架都无可匹敌的优势,更使得Spark正在加速成为大数据处理中心首选的和唯一的计算平台。 《大数据Spark企业级实战》详细解析了企业级Spark开发所需的几乎所有技术内容,涵盖Spark的架构设计、Spark的集群搭建、Spark内核的解析、Spark SQL、MLLib、GraphX、Spark Streaming、Tachyon、SparkR、Spark多语言编程、Spark常见问题及调优等,并且结合Spark源码细致的解析了Spark内核和四大子框架,最后在附录中提供了的Spark的开发语言Scala快速入门实战内容,学习完此书即可胜任绝大多数的企业级Spark开发需要。 《大数据Spark企业级实战》从零起步,完全从企业处理大数据业务场景的角度出发,基于实战代码来组织内容,对于一名大数据爱好者来说,《大数据Spark企业级实战》内容可以帮助您一站式地完成从零起步到进行Spark企业级开发所需要的全部核心内容和实战需要。 作者简介: 王家林,Spark亚太研究院首席专家,中国移动互联网和云计算大数据集大成者。在Spark、Hadoop、Android等方面有丰富的源码、实务和性能优化经验。彻底研究了Spark从0.5.0到0.9.1共13个版本的Spark源码,并已完成2014年5月31日发布的Spark1.0源码研究。 目录: 第1章Spark编程模型 1.1 Spark:一体化、多元化的高速 大数据通用计算平台和库 1.1.1 为什么需要使用Spark 1.1.2 Spark技术生态系统简介 1.2 Spark大数据处理框架 1.2.1 Spark速度为何如此之快 1.2.2 RDD:分布式函数式编程 1.3 Spark子框架解析 1.3.1 图计算框架Spark GraphX 1.3.2 实时流处理框架 (Spark Streaming) 1.3.3 交互式SQL处理框架

Spark入门(Python)

Spark入门 Hadoop是对大数据集进行分布式计算的标准工具,这也是为什么当你穿过机场时能看到”大数据(Big Data)”广告的原因。它已经成为大数据的操作系统,提供了包括工具和技巧在内的丰富生态系统,允许使用相对便宜的商业硬件集群进行超级计算机级别的计算。2003和2004年,两个来自Google的观点使Hadoop 成为可能:一个分布式存储框架(Google文件系统),在Hadoop中被实现为HDFS;一个分布式计算框架(MapReduce)。 这两个观点成为过去十年规模分析(scaling analytics)、大规模机器学习(machine learning),以及其他大数据应用出现的主要推动力!但是,从技术角度上讲,十年是一段非常长的时间,而且Hadoop还存在很多已知限制,尤其是MapReduce。对MapReduce编程明显是困难的。对大多数分析,你都必须用很多步骤将Map和Reduce任务串接起来。这造成类SQL的计算或机器学习需要专门的系统来进行。更糟的是,MapReduce要求每个步骤间的数据要序列化到磁盘,这意味着MapReduce作业的I/O成本很高,导致交互分析和迭代算法(iterative algorithms)开销很大;而事实是,几乎所有的最优化和机器学习都是迭代的。 为了解决这些问题,Hadoop一直在向一种更为通用的资源管理框架转变,即YARN (Yet Another Resource Negotiator, 又一个资源协调者)。YARN实现了下一代的MapReduce,但同时也允许应用利用分布式资源而不必采用MapReduce进行计算。通过将集群管理一般化,研究转到分布式计算的一般化上,来扩展了MapReduce的初衷。 Spark是第一个脱胎于该转变的快速、通用分布式计算范式,并且很快流行起来。Spark使用函数式编程范式扩展了MapReduce模型以支持更多计算类型,可以涵盖广泛的工作流,这些工作流之前被实现为Hadoop之上的特殊系统。Spark使用内存缓存来提升性能,因此进行交互式分析也足够快速(就如同使用Python 解释器,与集群进行交互一样)。缓存同时提升了迭代算法的性能,这使得Spark 非常适合数据理论任务,特别是机器学习。 本文中,我们将首先讨论如何在本地机器上或者EC2的集群上设置Spark进行简单分析。然后,我们在入门级水平探索Spark,了解Spark是什么以及它如何工作(希望可以激发更多探索)。最后两节我们开始通过命令行与Spark进行交互,然后演示如何用Python写Spark应用,并作为Spark作业提交到集群上。 设置Spark 在本机设置和运行Spark非常简单。你只需要下载一个预构建的包,只要你安装了Java 6+和Python 2.6+,就可以在Windows、Mac OS X和Linux上运行Spark。确保java程序在PATH环境变量中,或者设置了JAVA_HOME环境变量。类似的,python也要在PATH中。

spark Scala 介绍 教程 入门 手册 调研

第一章Scala语法介绍 1.1阅读说明 本文档针对scala2.10.x,由于scala目前发展迅速,因此可能会和其他版本的不同。 本手册适合对象:有Java编程经验的程序员。阅读时如果发现难以理解,可以根据关键词自行上网搜索对应内容进行辅助学习。 *标注的小节,表示阅读优先级较低或者可以不用阅读。 阅读时遵循先易后难得准则,从有代码示例的地方着手会比较简单。 1.2第一个scala程序 参考:https://www.360docs.net/doc/e418566544.html,/documentation/getting-started.html object ScalaTest{ def main(args:Array[String]){ println("hello scala.") } } 1.2.1scala解释器 安装好scala并配置好PATH环境变量之后,就可以在终端中输入“scala”命令打开scala 解释器。在其中,你可以像使用shell一样,使用TAB补全、Ctrl+r搜索、上下方向键切换历史命令等等。退出scala解释器,可以使用命令:“:q”或者“:quit”。 由于解释器是输入一句执行一句,因此也常称为REPL。REPL一次只能看到一行代码,因此如果你要在其中粘贴代码段的话,可能会出现问题,这时你可以使用粘贴模式,键入如下语句: :paste 然后把代码粘贴进去,再按下Ctrl+d,这样REPL就会把代码段当作一个整体来分析。 1.2.2scala作为脚本运行 scala代码也可以作为脚本运行,只要你设置好代码文件的shell前导词(preamble),并将代码文件设置为可执行。如下: #!/usr/bin/env scala println("这是scala脚本") 设置代码文件为可执行,即可执行。 scala脚本的命令行参数保存在名为args的数组中,你可以使用args获取命令行输入的程序参数: hello.scala文件中:println("hello,"+args(0)) 在命令行中执行:scala hello.scala vitohuang

相关文档
最新文档