大数据技术Spark基础实验指导书

合集下载

大数据 Spark编程基础(Scala版)-第8章-Spark MLlib

《Spark编程基础》
第8章 Spark MLlib
提纲
8.1 Spark MLlib简介 8.2 机器学习工作流 8.3 特征抽取、转化和选择 8.4 分类与回归 8.5 聚类算法 8.6 推荐算法 8.7 机器学习参数调优
8.1 Spark MLlib简介
8.1.1 什么是机器学习 8.1.2 基于大数据的机器学习 8.1.3 Spark 机器学习库MLLib
8.2.1 机器学习工作流概念
• 工作流的各个阶段按顺序运行，输入的DataFrame在它通过每个阶段时被转换
8.2.1 机器学习工作流概念
值得注意的是，工作流本身也可以看做是一个估计器。在工作流的fit（）方法运行之后，它产生一个PipelineModel，它是一个Transformer。这个管道模型将在测试数据的时候使用。下图说明了这种用法。
import org.apache.spark.ml.feature._ import org.apache.spark.ml.classification.LogisticRegression import org.apache.spark.ml.{Pipeline,PipelineModel} import org.apache.spark.ml.linalg.Vector import org.apache.spark.sql.Row
可以看到，model的类型是一个PipelineModel，这个工作流模型将在测试数据的时候使用
8.2.2 构建一个机器学习工作流
（4）构建测试数据
scala> val test = spark.createDataFrame(Seq( | (4L, "spark i j k"), | (5L, "l m n"), | (6L, "spark a"), | (7L, "apache hadoop") | )).toDF("id", "text") test: org.apache.spark.sql.DataFrame = [id: bigint, text: string]

《Spark大数据编程基础(Scala版)》第八章 Spark GraphX

GraphX使用的Vertex Cut，即对顶点进行切分，在集群上均匀分布边，进而更均匀地平衡整个群集的数据。第一次构建图时，要么用Graph.apply()[与Graph()等价]，要么用GraphLoader，这都使用了默认的初始边分区，但图整体上并不以任何逻辑形式分区。这会导致性能很差，此外，像triangleCount()这样的一些函数要求图分区才能正确运算。
8.1 GraphX简介
（2）操作层：在抽象类Graph及其实现类GraphImpl两个类中定义了构建图操作、转换操作、结构操作、聚合操作和缓存操作等；另外，在GraphOps类中也实现了图基本属性操作和连接操作等。Graph类是最重要的一个类，也是一个抽象类，Graph类中一些没有具体实现的内容是由GraphImpl完成， GraphOps是一个协同工作类。
8.2.2 GraphX图分割
GraphX支持边上的4种不同的Partition（分区）策略：（1）RandomVertexCut：边随机分布; （2）CanonicalRandomVertexCut：要求两个顶点间如果有多条边则分在同一分区中; （3）EdgePatition1D：从一个顶点连出去的边在同一分区; （4）EdgePatition2D：边通过元组(srcId,dstId)划分为两维的坐标系统。
8.1 GraphX简介
GraphX是一个分布式图处理框架，基于Spark平台提供对图计算和图挖掘简洁易用而丰富多彩的接口，满足了大规模图处理的需求。与其他的图处理系统和图数据库相比，基于图概念和图处理原语的GraphX，优势在于既可以将底层数据看成一个完整的图，也可以对边RDD和顶点RDD使用数据并行处理原语。
8.1 GraphX简介

大数据技术Spark基础实验指导书

实验一Scala部署及基本语法 (5)1. 安装Scala (6)1.1 进入安装目录 (6)2. Scala基础 (7)2.1 基础语法 (7)2.2 控制结构 (11)实验二Scala数据结构 (13)3. Scala数据结构 (14)3.1 列表 (14)3.2 集合 (14)3.3 映射（Map） (15)3.4 迭代器 (17)实验三Scala类和对象 (20)4. 类 (21)4.1 简单的类 (21)5. 对象 (24)5.1 单例对象 (25)5.2 伴生对象 (25)5.3 应用程序对象 (26)实验四Scala函数式编程WordCount (27)6. 实验操作 (29)6.1 创建需要统计的目录 (29)实验五spark安装部署 (31)1、检查环境hadoop集群环境 (31)2、Spark部署 (32)1实验六Spark RDD编程 (45)1.RDD编程 (46)实验七Spark单词统计实验 (47)2、检查hadoop集群环境 (49)2、创建项目 (50)2.1创建java maven项目 (51)2.2更改JDK版本 (54)2.3配置pom.xml文件 (58)2.4创建SparkWordCount类 (64)4、打包项目 (70)5、运行打包好的jar程序 (76)5.1 运行程序 (76)实验八Spark Hbase读写实验 (77)1、检查hadoop集群环境 (79)2、Hbase创建studen表 (80)2.1 进入hbase环境 (80)2.2 查看表是否存在 (80)2.3 创建student表 (81)2.4 往表里插入数据 (81)2.5 使用scan命令查看表结构 (82)3、创建项目 (83)3.1创建java maven项目 (84)3.2更改JDK版本 (87)3.3配置pom.xml文件 (91)15、Spark运行打包好的jar文件 (101)6、java代码和配置文件（附） (104)实验九Spark stream实验 (109)1.实验准备 (110)2. 创建Scala jar包 (111)2.1 创建Scala项目 (111)2.2 把scala项目Maven管理 (111)3. Spark运行打包好的jar文件 (114)4. java代码和配置文件（附） (116)4.1 Stream类 (116)实验十Spark SQL实验 (119)1.实验准备 (120)5. 创建Scala jar包 (121)5.1 创建Scala项目 (121)5.2 把scala项目Maven管理 (121)6. Spark运行打包好的jar文件 (124)7. java代码和配置文件（附） (126)7.1 SQL类 (126)1旗开得胜实验一Scala部署及基本语法【实验名称】Scala基本语法【实验目的】1.熟悉Scala的安装和基础语法学习12.掌握Scala基本数据类型和操作3.熟悉使用Scala控制语句【实验要求】要求实验结束后，每位学生都能够自行安装Scala，并且能熟悉应用Scala的基础语法和基本数据类型，能在Scala成功编写程序。

实验18-Spark实验：Spark Streaming

实验十八Spark实验：Spark Streaming18.1 实验目的1．了解Spark Streaming版本的WordCount和MapReduce版本的WordCount的区别；2．理解Spark Streaming的工作流程；3．理解Spark Streaming的工作原理。

18.2 实验要求要求实验结束时，每位学生能正确运行成功本实验中所写的jar包程序，能正确的计算出单词数目。

18.3 实验原理18.3.1 Spark Streaming架构计算流程：Spark Streaming是将流式计算分解成一系列短小的批处理作业。

这里的批处理引擎是Spark，也就是把Spark Streaming的输入数据按照batch size（如1秒）分成一段一段的数据（Discretized Stream），每一段数据都转换成Spark中的RDD（Resilient Distributed Dataset），然后将Spark Streaming中对DStream的Transformation操作变为针对Spark中对RDD的Transformation操作，将RDD经过操作变成中间结果保存在内存中。

整个流式计算根据业务的需求可以对中间的结果进行叠加，或者存储到外部设备。

如图18-1所示：102图18-1容错性：对于流式计算来说，容错性至关重要。

首先我们要明确一下Spark 中RDD 的容错机制。

每一个RDD 都是一个不可变的分布式可重算的数据集，其记录着确定性的操作继承关系（lineage ），所以只要输入数据是可容错的，那么任意一个RDD 的分区（Partition ）出错或不可用，都是可以利用原始输入数据通过转换操作而重新算出的。

对于Spark Streaming 来说，其RDD 的传承关系如下图所示，图中的每一个椭圆形表示一个RDD ，椭圆形中的每个圆形代表一个RDD 中的一个Partition ，图中的每一列的多个RDD 表示一个DStream （图中有三个DStream ），而每一行最后一个RDD 则表示每一个Batch Size 所产生的中间结果RDD 。

《Spark大数据编程基础(Scala版)》第九章 Spark机器学习原理

9.2.1 Pipeline概念
3.Estimator Estimator直译为评估器。其包括拟合和训练数据的所有
算法。通过执行以DataFrame为输入的fit()操作，生成一个模型，该模型就是Transformer。例如：LogisticRegression是评估器，通过执行fit()操作，训练产生LogisticRegressionModel，即转换器。
9.2.1 Pipeline概念
4. Parameter Transformer和Estimator使用统一的API设置参数，换言
之，设置参数方法相同。设置参数方法有两种：一种是使用 setter方法设置；另一种是使用ParamMap方法设置。
9.2.2 Pipeline工作流程
Spark机器学习库将多个stage有序组成的工作流定义为 Pipeline，每个stage完成一个任务，比如数据处理及转化、模型训练、参数设置或者数据预测等。
9.1 Spark机器学习简介
spark.ml和spark.mllib都属于Spark的机器学习库，它们之间的主要区别如下：
(1) spark.ml是升级版的spark.mllib，最新的Spark版本优先支持spark.ml，2.0版本后，spark.mllib进入维护阶段，只进行bug修复。
9.2.2 Pipeline工作流程
(3) 唯一的Pipeline stage ID 组成Pipeline的stage，必须有唯一的实例ID，例如
HashingTF（Transformer）的实例myHashingTF不能在Pipeline 中使用两次。但是可以创建两个HashingTF（Transformer）实例myHashingTF1和myHashingTF2，在同一个Pipeline中出现，因为不同的实例会创建不同的ID。

第2章 Spark基础-Spark大数据分析与实战-黑马程序员-清华大学出版社

4 搭建和配置
理解Spark作业提交的
工作原理
3
✎ 目录
初识Spark
☞点击查看本节相关知识点
搭建Spark开发环境
☞点击查看本节相关知识点
Spark运行架构与原理
☞点击查看本节相关知识点
✎ 目录
体验第一个Spark程序
☞点击查看本节相关知识点
启动Spark-Shell
☞点击查看本节相关知识点
IDEA开发WordCount程序
☞点击查看本节相关知识点
✎ 章节概要
Spark于2009年诞生于美国加州大学伯克利分校的AMP实验室，它是一个可应用于大规模数据处理的统一分析引擎。Spark不仅计算速度快，而且内置了丰富的API，使得我们能够更加容易编写程序。
本章将从Spark的发展说起，针对Spark集群部署、Spark运行架构及其原理进行详细讲解。
易用性
速度快
通用性
兼容性
✎ 2.1 初识Spark
Spark应用场景

• 数据工程师可以利用Spark进行数据分析与建模，由于Spark具有良好
的易用性，数据工程师只需要具备一定的SQL语言基础、统计学、机
器学习等方面的经验，以及使用Python、Matlab或者R语言的基础编
程能力，就可以使用Spark进行上述工作。
01 编程方式
Hadoop的MapReduce计算数据时，要转化为Map和Reduce两个
过程，从而难以描述复杂的数据处理过程；而Spark的计算模型不
局限于Map和Reduce操作，还提供了多种数据集的操作类型，编
程模型比MapReduce更加灵活。
0
02
数据存储
Hadoop的MapReduce进行计算时，每次产生的中间结果都存储在本地磁盘中；而Spark在计算时产生的中间结果存储在内存中。

实验16-Spark实验：Spark综例

实验十六Spark实验：Spark综例16.1 实验目的1．理解Spark编程思想；2．学会在Spark Shell中编写Scala程序；3．学会在Spark Shell中运行Scala程序。

16.2 实验要求实验结束后，能够编写Scala代码解决一下问题，并能够自行分析执行过程。

有三个RDD，要求统计rawRDDA中“aa”、“bb”两个单词出现的次数；要求对去重后的rawRDDA再去掉rawRDDB中的内容；最后将上述两个结果合并成同一个文件然后存入HDFS中。

16.3 实验原理16.3.1 ScalaScala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。

Scala有几项关键特性表明了它的面向对象的本质。

例如，Scala中的每个值都是一个对象，包括基本数据类型（即布尔值、数字等）在内，连函数也是对象。

另外，类可以被子类化，而且Scala还提供了基于mixin的组合（mixin-based composition）。

与只支持单继承的语言相比，Scala具有更广泛意义上的类重用。

Scala允许定义新类的时候重用“一个类中新增的成员定义（即相较于其父类的差异之处）”。

Scala称之为mixin类组合。

Scala还包含了若干函数式语言的关键概念，包括高阶函数（Higher-Order Function）、局部套用（Currying）、嵌套函数（Nested Function）、序列解读（Sequence Comprehensions）等等。

Scala是静态类型的，这就允许它提供泛型类、内部类、甚至多态方法（Polymorphic Method）。

另外值得一提的是，Scala被特意设计成能够与Java和.NET互操作。

Scala可以与Java互操作。

它用scalac这个编译器把源文件编译成Java的class文件。

你可以从Scala中调用所有的Java类库，也同样可以从Java应用程序中调用Scala的代码。

《大数据技术》MapReduce和Spark实验报告

《大数据技术》MapReduce和Spark实验报告一、实验目的：1.通过实验掌握基本的MapReduce编程方法；2.掌握用MapReduce解决一些常见数据处理问题的方法；3.掌握使用Spark访问本地文件和HDFS文件的方法。

4.掌握Spark应用程序的编写、编译和运行方法。

二、实验平台：1.操作系统：Ubuntu18.04（或Ubuntu16.04）。

2.Hadoop版本：3.1.3。

3. Spark版本：2.4.0。

4.JDK版本：1.8；5.Java IDE：Eclipse。

二、实验内容：（一） MapReduce的基本操作1.词频统计任务要求：首先，在Linux系统本地创建两个文件，即文件wordfile1.txt和wordfile2.txt。

在实际应用中，这两个文件可能会非常大，会被分布存储到多个节点上。

但是，为了简化任务，这里的两个文件只包含几行简单的内容。

需要说明的是，针对这两个小数据集样本编写的MapReduce词频统计程序，不作任何修改，就可以用来处理大规模数据集的词频统计。

文件wordfile1.txt的内容如下：I love SparkI love Hadoop文件wordfile2.txt的内容如下：Hadoop is goodSpark is fast假设HDFS中有一个/user/hadoop/input文件夹，并且文件夹为空，请把文件wordfile1.txt 和wordfile2.txt上传到HDFS中的input文件夹下。

现在需要设计一个词频统计程序，统计input 文件夹下所有文件中每个单词的出现次数，也就是说，程序应该输出如下形式的结果：2.编写Java API应用程序实现以上任务（1）创建名为WordCount的Java项目：20170102 y20170103 x20170104 y20170104 z20170105 y20170105 z20170106 z3. 编写独立应用程序实现求平均值问题每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生名字，第二个是学生的成绩；编写Spark独立应用程序求出所有学生的平均成绩，并输出到一个新文件中。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验一Scala部署及基本语法 (5)
1. 安装Scala (6)
1.1 进入安装目录 (6)
2. Scala基础 (7)
2.1 基础语法 (7)
2.2 控制结构 (11)
实验二Scala数据结构 (13)
3. Scala数据结构 (14)
3.1 列表 (14)
3.2 集合 (14)
3.3 映射（Map） (15)
3.4 迭代器 (17)
实验三Scala类和对象 (20)
4. 类 (21)
4.1 简单的类 (21)
5. 对象 (24)
5.1 单例对象 (25)
5.2 伴生对象 (25)
5.3 应用程序对象 (26)
实验四Scala函数式编程WordCount (27)
6. 实验操作 (29)
6.1 创建需要统计的目录 (29)
实验五spark安装部署 (31)
1、检查环境hadoop集群环境 (31)
2、Spark部署 (32)
1
实验六Spark RDD编程 (45)
1.RDD编程 (46)
实验七Spark单词统计实验 (47)
2、检查hadoop集群环境 (49)
2、创建项目 (50)
2.1创建java maven项目 (51)
2.2更改JDK版本 (54)
2.3配置pom.xml文件 (58)
2.4创建SparkWordCount类 (64)
4、打包项目 (70)
5、运行打包好的jar程序 (76)
5.1 运行程序 (76)
实验八Spark Hbase读写实验 (77)
1、检查hadoop集群环境 (79)
2、Hbase创建studen表 (80)
2.1 进入hbase环境 (80)
2.2 查看表是否存在 (80)
2.3 创建student表 (81)
2.4 往表里插入数据 (81)
2.5 使用scan命令查看表结构 (82)
3、创建项目 (83)
3.1创建java maven项目 (84)
3.2更改JDK版本 (87)
3.3配置pom.xml文件 (91)
1
5、Spark运行打包好的jar文件 (101)
6、java代码和配置文件（附） (104)
实验九Spark stream实验 (109)
1.实验准备 (110)
2. 创建Scala jar包 (111)
2.1 创建Scala项目 (111)
2.2 把scala项目Maven管理 (111)
3. Spark运行打包好的jar文件 (114)
4. java代码和配置文件（附） (116)
4.1 Stream类 (116)
实验十Spark SQL实验 (119)
1.实验准备 (120)
5. 创建Scala jar包 (121)
5.1 创建Scala项目 (121)
5.2 把scala项目Maven管理 (121)
6. Spark运行打包好的jar文件 (124)
7. java代码和配置文件（附） (126)
7.1 SQL类 (126)
1
旗开得胜
实验一Scala部署及基本语法
【实验名称】
Scala基本语法
【实验目的】
1.熟悉Scala的安装和基础语法学习
1
旗开得胜
2.掌握Scala基本数据类型和操作
3.熟悉使用Scala控制语句
【实验要求】
要求实验结束后，每位学生都能够自行安装Scala，并且能熟悉应用Scala的基础语法和基本数据类型，能在Scala成功编写程序。

【实验环境】
1、1台Centos6.8虚拟机
2、实验所需安装包
1。