10-大数据分析与内存计算-第4章

合集下载

大数据概论(专,2020春)_第四章测试——单选题0

大数据概论(专,2020春)_第四章测试——单选题0

试卷总分:20 得分:20
1.以下说法正确的是
A.Spark既无法基于HDFS这样分布式文件存储系统也无法基于Tachyon这样基于内存分布式文件存储系统
B.Spark只能基于Tachyon这样基于内存分布式文件存储系统
C.Spark可以基于HDFS这样分布式文件存储系统也可以基于Tachyon这样基于内存分布式文件存储系统
D.Spark只能基于HDFS这样分布式文件存储系统
答案:C
2.能同时进行交互式计算,批处理,流式计算的计算框架为
A.Spark
B.Storm
C.Shark
D.Impala
答案:A
3.Storm属于()计算
A.流式
B.批处理
C.云
D.交互式
答案:D
4.Spark生态图中,()提供了图存储结构和常见的图算法
B.在分析方法上更注重相关分析而不是因果分析
C.在数据基础上倾向于全体数据而不是抽样数据
D.在数据规模上强调相对数据而不是绝对数据
答案:B
12.下列关于舍恩伯格对大数据特点的说法中,错误的是( )。
A.数据规模大
B.数据价值密度高
C.数据处理速度快
D.数据类型多样
答案:B
13.当前社会中,最为突出的大数据环境是( )。
20.Mac OS系统的开发者是( )。
A.微软公司
B.惠普公司
C.苹果公司
D.IBM公司
答案:C
答案:C
10.大数据的最显著特征是( )。
A.数据类型多样
B.数据价值密度高
C.数据规模大

Spark大数据技术与应用智慧树知到课后章节答案2023年下山西职业技术学院

Spark大数据技术与应用智慧树知到课后章节答案2023年下山西职业技术学院

Spark大数据技术与应用智慧树知到课后章节答案2023年下山西职业技术学院山西职业技术学院绪论单元测试1.大数据的起源是以下哪个领域()A:互联网 B:金融 C:公共管理 D:电信答案:互联网第一章测试1.与MapReduce相比,Spark更适合处理以下哪种类型的任务()A:较少迭代次数的长任务 B:较少迭代次数的短任务 C:较多迭代次数的短任务 D:较多迭代次数的长任务答案:较多迭代次数的短任务2.Standalone模式下配置Spark集群时,master节点的工作端口号需要在conf文件夹下的哪个文件指明()A:regionserver B:slaves C:spark-defaults.conf D:spark-env.sh答案:spark-env.sh3.以下关于SPARK中的spark context,描述错误的是:()A:可以控制dagsheduler组件 B:可以控制task scheduler组件 C:控制整个application的生命周期 D:SparkContext为Spark的主要入口点答案:控制整个application的生命周期4.以下对Spark中Work的主要工作描述错误的是()A:不会运行业务逻辑代码 B:会运行业务逻辑代码 C:管理当前节点内存 D:接收master分配过来的资源指令答案:会运行业务逻辑代码5.配置Standalone模式下的Spark集群,Worker节点需要在conf文件夹下的哪个文件中指明()A:spark-env.sh B:spark-defaults.conf C:slaves D:regionserver答案:slaves6.Spark支持的分布式部署方式中哪个是错误的()A:Spark on local B:spark on YARN C:spark on mesos D:standalone答案:Spark on local7.Spark单机伪分布式模式,它的特点是在一台节点上既有Master服务,又有Worker服务()A:对 B:错答案:对8.在部署Spark独立模式时,配置spark内部通信的端口为()A:16010 B:7070 C:9870 D:7077答案:70779.在部署Spark独立模式时,配置spark的web端口为()A:7077 B:8080 C:9870 D:4040答案:707710.Spark的bin目录是spark运行脚本目录,该目录中包含了加载spark的配置信息,提交作业等执行命令的脚本()A:错 B:对答案:对第二章测试1.valrdd=sc.parallelize(1 to 10).filter(_%2== 0)rdd.collect上述代码的执行结果为()A:Array(1, 3, 5,7,9) B:Array(2, 4, 6, 8, 10) C:Array(1,2,3,4,5,6,7,8,9,10)D:Array(1,10)答案:Array(2, 4, 6, 8, 10)2.下面哪个操作是窄依赖()A:filter B:sort C:group D:join答案:filter3.下面哪个操作肯定是宽依赖()A:map B:sample C:flatMap D:reduceByKey答案:reduceByKey4.以下操作中,哪个不是Spark RDD编程中的操作。

云计算与大数据技术知到章节答案智慧树2023年北京联合大学

云计算与大数据技术知到章节答案智慧树2023年北京联合大学

云计算与大数据技术知到章节测试答案智慧树2023年最新北京联合大学绪论单元测试1.下列哪些应用属于大数据技术的应用()。

参考答案:音视频网站上通过分析注册用户的浏览习惯,为用户推送感兴趣的音视频。

;手机银行或网上银行在用户画像基础上,对用户群进行定位,挖掘潜在金融服务需求。

;政务领域中的智慧城市建设,如智慧交通、智慧医疗、智慧教育等。

;电商网站上对注册用户浏览信息记录、分析、挖掘,为用户推送感兴趣的商品。

2.日常我们用到的云服务器、钉钉办公软件、百度网盘等应用都是云计算服务厂商提供的云计算服务。

()参考答案:对第一章测试1.云计算的服务模式包括()。

参考答案:平台即服务;软件即服务;基础设施即服务2.云计算的劣势有()。

参考答案:风险被集中;数据泄密的环节增多;严重依赖网络3.云计算部署模型有()。

参考答案:公有云;私有云;混合云4.云计算是把有形的产品(网络设备、服务器、存储设备、各种软件等)转化为服务产品(IaaS,PaaS,SaaS),并通过网络让人们远程在线使用。

()参考答案:对5.云计算是一种计算模式,能够提供随时随地、便捷的、随需应变的网络接入,访问可配置的计算资源共享池。

()参考答案:对第二章测试1.虚拟化技术主要用于云计算物理资源的池化,物理资源不包括()。

参考答案:操作系统2.虚拟技术特性有()。

参考答案:隔离;封装;分区;相对于硬件独立3.虚拟化的益处包括()。

参考答案:实现节能减排;实现动态负载均衡;实现资源最优利用;通过系统自愈功能提升可靠性4.个人PC上使用比较多的虚拟化工具有()。

参考答案:Virtual Box;VMware Workstation5.虚拟化是一项技术,而云是一种环境或服务。

()参考答案:对6.虚拟化的主要功能是把单个资源抽象成多个给用户使用,而云计算则是帮助不同部门或公司访问一个自动置备的资源池。

()参考答案:对第三章测试1.开放系统的存储类型分为内置存储和外挂存储,其中外挂存储可分为()。

大学生大数据技术原理与应用章节测验期末考试答案

大学生大数据技术原理与应用章节测验期末考试答案

大数据技术原理与应用第1章大数据概述1单选(2分)第三次信息化浪潮的标志是:A.个人电脑的普及B.云计算、大数据、物联网技术的普及C.虚拟现实技术的普及D.互联网的普及正确答案:B你选对了2单选(2分)就数据的量级而言,1PB数据是多少TB?A.2048B.1000C.512D.1024正确答案:D你选对了3单选(2分)以下关于云计算、大数据和物联网之间的关系,论述错误的是:A.云计算侧重于数据分析B.物联网可借助于云计算实现海量数据的存储C.物联网可借助于大数据实现海量数据的分析D.云计算、大数据和物联网三者紧密相关,相辅相成正确答案:A你选对了4单选(2分)以下哪个不是大数据时代新兴的技术:A.SparkB.HadoopC.HBaseD.MySQL正确答案:D你选对了5单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:A.MapReduceB.DremelC.StormD.Pregel正确答案:A你选对了6单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:A.GraphXB.S4C.ImpalaD.Hive正确答案:B你选对了7单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:A.PregelB.StormC.CassandraD.Flume正确答案:A你选对了8单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:A.HDFSB.S4C.DremelD.MapReduce正确答案:C你选对了9多选(3分)数据产生方式大致经历三个阶段,包括:A.运营式系统阶段B.感知式系统阶段C.移动互联网数据阶段D.用户原创内容阶段正确答案:ABD你选对了10多选(3分)大数据发展三个阶段是:A.低谷期B.成熟期C.大规模应用期D.萌芽期正确答案:BCD你选对了11多选(3分)大数据的特性包括:A.价值密度低B.处理速度快C.数据类型繁多D.数据量大正确答案:ABCD你选对了12多选(3分)图领奖获得者、著名数据库专家Jim Gray博士认为,人类自古以来在科学研究上先后经历哪几种范式:A.计算科学B.数据密集型科学C.实验科学D.理论科学正确答案:ABCD你选对了13多选(3分)大数据带来思维方式的三个转变是:A.效率而非精确B.相关而非因果C.精确而非全面D.全样而非抽样正确答案:ABD你选对了14多选(3分)大数据主要有哪几种计算模式:B.图计算C.查询分析计算D.批处理计算正确答案:ABCD你选对了15多选(3分)云计算的典型服务模式包括三种:A.SaaSB.IaaSC.MaaSD.PaaS正确答案:ABD你选对了第2章大数据处理架构Hadoop1单选(2分)启动hadoop所有进程的命令是:A.start-dfs.shB.start-all.shC.start-hadoop.shD.start-hdfs.sh正确答案:B你选对了2单选(2分)以下对Hadoop的说法错误的是:A.Hadoop是基于Java语言开发的,只支持Java语言编程B.Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性C.Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算D.Hadoop的核心是HDFS和MapReduce正确答案:A你选对了3单选(2分)以下哪个不是Hadoop的特性:A.成本高B.支持多种编程语言C.高容错性正确答案:A你选对了4单选(2分)以下名词解释不正确的是:A.Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统B.HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现C.Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储D.HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现正确答案:B你选对了5多选(3分)以下哪些组件是Hadoop的生态系统的组件:A.HBaseB.OracleC.HDFSD.MapReduce正确答案:ACD你选对了6多选(3分)以下哪个命令可用来操作HDFS文件:A.hadoop fsB.hadoop dfsC.hdfs fsD.hdfs dfs正确答案:ABD你选对了第3章分布式文件系统HDFS1单选(2分)HDFS的命名空间不包含:A.字节B.文件C.块D.目录正确答案:A你选对了2单选(2分)对HDFS通信协议的理解错误的是:A.客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的B.客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互C.名称节点和数据节点之间则使用数据节点协议进行交互D.HDFS通信协议都是构建在IoT协议基础之上的正确答案:D你选对了3单选(2分)采用多副本冗余存储的优势不包含:A.保证数据可靠性B.容易检查数据错误C.加快数据传输速度D.节约存储空间正确答案:D你选对了4单选(2分)假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是:A.start-dfs.sh,stop-hdfs.shB.start-hdfs.sh,stop-hdfs.shC.start-dfs.sh,stop-dfs.shD.start-hdfs.sh,stop-dfs.sh正确答案:C你选对了5单选(2分)分布式文件系统HDFS采用主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫,另一类存储具体数据叫 :A.名称节点,主节点B.从节点,主节点C.名称节点,数据节点D.数据节点,名称节点正确答案:C你选对了6单选(2分)下面关于分布式文件系统HDFS的描述正确的是:A.分布式文件系统HDFS是Google Bigtable的一种开源实现B.分布式文件系统HDFS是谷歌分布式文件系统GFS(Google File System)的一种开源实现C.分布式文件系统HDFS比较适合存储大量零碎的小文件D.分布式文件系统HDFS是一种关系型数据库正确答案:B你选对了7多选(3分)以下对名称节点理解正确的是:A.名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问B.名称节点用来负责具体用户数据的存储C.名称节点通常用来保存元数据D.名称节点的数据保存在内存中正确答案:ACD你选对了8多选(3分)以下对数据节点理解正确的是:A.数据节点通常只有一个B.数据节点用来存储具体的文件内容C.数据节点的数据保存在磁盘中D.数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作正确答案:BCD你选对了9多选(3分)HDFS只设置唯一一个名称节点带来的局限性包括:A.集群的可用性B.性能的瓶颈C.命名空间的限制D.隔离问题正确答案:ABCD你选对了10多选(3分)以下HDFS相关的shell命令不正确的是:A.hadoop dfs mkdir <path>:创建<path>指定的文件夹B.hdfs dfs -rm <path>:删除路径<path>指定的文件C.hadoop fs -copyFromLocal <path1> <path2>:将路径<path2>指定的文件或文件夹复制到路径<path1>指定的文件夹中D.hadoop fs -ls <path>:显示<path>指定的文件的详细信息正确答案:AC你选对了第4章分布式数据库HBase1单选(2分)HBase是一种数据库A.行式数据库B.关系数据库C.文档数据库D.列式数据库正确答案:D你选对了2单选(2分)下列对HBase数据模型的描述错误的是:A.每个HBase表都由若干行组成,每个行由行键(row key)来标识B.HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳C.HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本D.HBase列族支持动态扩展,可很轻松地添加一个列族或列正确答案:C你选对了3单选(2分)下列说法正确的是:A.如果不启动Hadoop,则HBase完全无法使用B.HBase的实现包括的主要功能组件是库函数,一个Master主服务器和一个Region服务器C.如果通过HBase Shell插入表数据,可以插入一行数据或一个单元格数据D.Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等正确答案:D你选对了4单选(2分)在HBase数据库中,每个Region的建议最佳大小是:A.2GB-4GBB.100MB-200MBC.500MB-1000MBD.1GB-2GB正确答案:D你选对了5单选(2分)HBase三层结构的顺序是:A.Zookeeper文件,.MEATA.表,-ROOT-表B.-ROOT-表,Zookeeper文件,.MEATA.表C.Zookeeper文件,-ROOT-表,.MEATA.表D..MEATA.表,Zookeeper文件,-ROOT-表正确答案:C你选对了6单选(2分)客户端是通过级寻址来定位Region:A.三B.二C.一D.四正确答案:A你选对了7单选(2分)关于HBase Shell命令解释错误的是:A.create:创建表B.put:向表、行、列指定的单元格添加数据C.list:显示表的所有数据D.get:通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值正确答案:C你选对了8多选(3分)下列对HBase的理解正确的是:A.HBase是针对谷歌BigTable的开源实现B.HBase是一种关系型数据库,现成功应用于互联网服务领域C.HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件D.HBase多用于存储非结构化和半结构化的松散数据正确答案:AD你选对了9多选(3分)HBase和传统关系型数据库的区别在于哪些方面:A.数据操作B.数据索引C.数据模型D.存储模式正确答案:ABCD你选对了10多选(3分)访问HBase表中的行,有哪些方式:A.通过某列的值区间B.全表扫描C.通过一个行健的区间来访问D.通过单个行健访问正确答案:BCD你选对了第5章 NoSQL数据库1单选(2分)下列关于NoSQL数据库和关系型数据库的比较,不正确的是:A.NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性B.NoSQL数据库缺乏统一的查询语言,而关系型数据库有标准化查询语言C.NoSQL数据库的可扩展性比传统的关系型数据库更好D.NoSQL数据库具有弱一致性,关系型数据库具有强一致性正确答案:A你选对了2单选(2分)以下对各类数据库的理解错误的是:A.键值数据库的键是一个字符串对象,值可以是任意类型的数据,比如整型和字符型等B.文档数据库的数据是松散的,XML和JSON 文档等都可作为数据存储在文档数据库中C.图数据库灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱D.HBase数据库是列族数据库,可扩展性强,支持事务一致性正确答案:D你选对了3单选(2分)下列数据库属于文档数据库的是:A.MySQLB.RedisC.MongoDBD.HBase正确答案:C你选对了4单选(2分)NoSQL数据库的三大理论基石不包括:A.最终一致性B.BASEC.ACIDD.CAP正确答案:C你选对了5多选(3分)关于NoSQL数据库和关系数据库,下列说法正确的是:A.NoSQL数据库可支持超大规模数据存储,具有强大的横向扩展能力B.NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库C.大多数NoSQL数据库很难实现数据完整性D.关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础正确答案:ACD你选对了6多选(3分)NoSQL数据库的类型包括:A.键值数据库B.列族数据库C.文档数据库D.图数据库正确答案:ABCD你选对了7多选(3分)CAP是指:A.一致性B.可用性C.持久性D.分区容忍性正确答案:ABD你选对了8多选(3分)NoSQL数据库的BASE特性是指:A.软状态B.持续性C.最终一致性D.基本可用正确答案:ACD你选对了第6章云数据库1单选(2分)下列Amazon的云数据库属于关系数据库的是:A.Amazon SimpleDBB.Amazon DynamoDBC.Amazon RDSD.Amazon Redshift正确答案:C你选对了2单选(2分)下列关于UMP系统的说法不正确的是:A.Controller服务器向UMP集群提供各种管理服务,实现集群成员管理、元数据存储等功能B.Agent服务器部署在运行MySQL进程的机器上,用来管理每台物理机上的MySQL实例C.UMP系统是低成本和高性能的MySQL云数据库方案D.Mnesia是UMP系统的一个组件,是一个分布式数据库管理系统,且不支持事务正确答案:D你选对了3多选(3分)UMP依赖的开源组件包括A.LVSB.ZooKeeperC.MnesiaD.RabbitMQ正确答案:ABCD你选对了4多选(3分)在UMP系统中,Zookeeper主要发挥的作用包括:A.监控所有MySQL实例B.负责集群负载均衡C.提供分布式锁,选出一个集群的“总管”D.作为全局的配置服务器正确答案:ACD你选对了5多选(3分)UMP系统设计了哪些机制来保证数据安全:A.记录用户操作日志B.数据访问IP白名单C.SSL数据库连接D.SQL拦截正确答案:ABCD你选对了第7章 MapReduce1单选(2分)下列说法错误的是:A.Map函数将输入的元素转换成<key,value>形式的键值对B.Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写C.MapReduce框架采用了Master/Slave架构,包括一个Master和若干个SlaveD.不同的Map任务之间不能互相通信正确答案:B你选对了2单选(2分)在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hello world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应是下面哪种形式:A.<"hello",1,1>、<"hadoop",1>和<"world",1>B.<"hello",2>、<"hadoop",1>和<"world",1>C.<"hello",<1,1>>、<"hadoop",1>和<"world",1>D.<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>正确答案:D你选对了3单选(2分)对于文本行“hello hadoop hello world”,经过WordCount的Reduce函数处理后的结果是:A.<"hello",<1,1>><"hadoop",1><"world",1>B.<"hello",1><"hello",1><"hadoop",1><"world",1>C.<"hello",1,1><"hadoop",1><"world",1>D.<"hello",2><"hadoop",1><"world",1>正确答案:B你选对了4多选(3分)下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是:A.前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好B.前者相比后者学习起来更难C.前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好D.前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型正确答案:ABCD你选对了5多选(3分)MapReduce1.0的体系结构主要由哪几个部分组成:A.JobTrackerB.TaskTrackerC.ClientD.Task正确答案:ABCD你选对了第8章 Hadoop再探讨1单选(2分)下列说法正确的是:A.HDFS HA可用性不好B.第二名称节点是热备份C.HDFS HA提供高可用性,可实现可扩展性、系统性能和隔离性D.第二名称节点无法解决单点故障问题正确答案:D你选对了2单选(2分)HDFS Federation设计不能解决“单名称节点”存在的哪个问题:A.单点故障问题B.HDFS集群扩展性C.性能更高效D.良好的隔离性正确答案:A你选对了3多选(3分)下列哪些是Hadoop1.0存在的问题:A.抽象层次低B.表达能力有限C.开发者自己管理作业之间的依赖关系D.执行迭代操作效率低正确答案:ABCD你选对了下列对Hadoop各组件的理解正确的是:A.Oozie:工作流和协作服务引擎B.Pig:处理大规模数据的脚本语言C.Kafka:分布式发布订阅消息系统D.Tez:支持DAG作业的计算框架正确答案:ABCD你选对了5多选(3分)对新一代资源管理调度框架YARN的理解正确的是:A.YARN既是资源管理调度框架,也是一个计算框架B.MapReduce2.0是运行在YARN之上的计算框架,由YARN来为MapReduce提供资源管理调度服务C.YARN可以实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架D.YARN的体系结构包含三个组件:ResourceManager,NodeManager,ApplicationMaster正确答案:BCD你选对了第9章数据仓库Hive1单选(2分)下列有关Hive和Impala的对比错误的是:A.Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划B.Hive与Impala使用相同的元数据C.Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询D.Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此正确答案:D你选对了2单选(2分)下列关于Hive基本操作命令的解释错误的是:A.create table if not exists usr(id bigint,name string,age int);//如usr表不存在,创建表usr,含三个属性id,name,ageB.load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表C.create database userdb;//创建数据库userdbD.insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据正确答案:B你选对了下列说法正确的是:A.Impala和Hive、HDFS、HBase等工具可统一部署在一个Hadoop平台上B.数据仓库Hive不需要借助于HDFS就可完成数据的存储C.Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据D.HiveQL语法与传统的SQL语法很相似正确答案:ACD你选对了4多选(3分)Impala主要由哪几个部分组成:A.HiveB.ImpaladC.State StoreD.CLI正确答案:BCD你选对了5多选(3分)以下属于Hive的基本数据类型是:A.BINARYB.STRINGC.FLOATD.TINYINT正确答案:ABCD你选对了第10章 Spark1单选(2分)Spark SQL目前暂时不支持下列哪种语言:A.PythonB.JavaC.ScalaD.Lisp正确答案:D你选对了2单选(2分)RDD操作分为转换(Transformation)和动作(Action)两种类型,下列属于动作(Action)类型的操作的是:A.groupByB.filterC.countD.map正确答案:C你选对了3单选(2分)下列说法错误的是:A.在选择Spark Streaming和Storm时,对实时性要求高(比如要求毫秒级响应)的企业更倾向于选择流计算框架StormB.RDD采用惰性调用,遇到“转换(Transformation)”类型的操作时,只会记录RDD生成的轨迹,只有遇到“动作(Action)”类型的操作时才会触发真正的计算C.Spark支持三种类型的部署方式:Standalone,Spark on Mesos,Spark on YARND.RDD提供的转换接口既适用filter等粗粒度的转换,也适合某一数据项的细粒度转换正确答案:D你选对了4单选(2分)下列关于常见的动作(Action)和转换(Transformation)操作的API解释错误的是:A.filter(func):筛选出满足函数func的元素,并返回一个新的数据集B.map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集C.count():返回数据集中的元素个数D.take(n):返回数据集中的第n个元素正确答案:D你选对了5单选(2分)下列大数据处理类型与其对应的软件框架不匹配的是:A.复杂的批量数据处理:MapReduceB.基于历史数据的交互式查询:ImpalaC.基于实时数据流的数据处理:StormD.图结构数据的计算:Hive正确答案:D你选对了6多选(3分)Apache软件基金会最重要的三大分布式计算系统开源项目包括:A.OracleB.HadoopC.StormD.Spark正确答案:ABC你选对了7多选(3分)Spark的主要特点包括:A.运行模式多样B.运行速度快C.通用性好D.容易使用正确答案:ABCD你选对了8多选(3分)下列关于Scala的说法正确的是:A.Scala运行于Java平台,兼容现有的Java程序B.Scala具备强大的并发性,支持函数式编程C.Scala是一种多范式编程语言D.Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言正确答案:ABCD你选对了9多选(3分)Spark的运行架构包括:A.运行作业任务的工作节点 Worker NodeB.每个工作节点上负责具体任务的执行进程 ExecutorC.每个应用的任务控制节点 DriverD.集群资源管理器 Cluster Manager正确答案:ABCD你选对了第11章流计算1单选(2分)流计算秉承一个基本理念,即数据的价值随着时间的流逝而,如用户点击流:A.降低B.不确定C.不变D.升高正确答案:A你选对了2单选(2分)Hadoop运行的是MapReduce任务,类似地,Storm运行的任务叫做A.SpoutB.BoltC.TupleD.Topology正确答案:D你选对了3多选(3分)对于一个流计算系统来说,它应达到如下哪些需求:A.海量式B.高性能C.分布式D.实时性正确答案:A、B、C、D你选对了4多选(3分)数据采集系统的基本架构包括哪些部分:A.ControllerB.StoreC.AgentD.Collector正确答案:B、C、D你选对了5多选(3分)以下哪些是开源的流计算框架:A.Facebook PumaB.Yahoo! S4C.IBM InfoSphere StreamsD.Twitter Storm正确答案:B、D你选对了6多选(3分)下面哪几个属于Storm中的Stream Groupings的分组方式:A.按照字段分组B.广播发送C.随机分组D.全局分组正确答案:A、B、C、D你选对了第12章 Flink1单选(2分)以下哪个不是Flink的优势:A.同时支持高吞吐、低延迟、高性能B.不支持增量迭代C.同时支持流处理和批处理D.支持有状态计算正确答案:B你选对了2单选(2分)在Flink中哪个是基于批处理的图计算库:A.SQL&Table库B.FlinkMLC.GellyD.CEP正确答案:C你选对了3多选(3分)下面关于Flink的说法正确的是:A.Flink起源于Stratosphere 项目,该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的B.Flink可以同时支持实时计算和批量计算C.Flink不是Apache软件基金会的项目D.Flink是Apache软件基金会的5个最大的大数据项目之一正确答案:A、B、D你选对了4多选(3分)Flink的主要特性包括:A.精确一次的状态一致性保障B.批流一体化C.精密的状态管理D.事件时间支持正确答案:A、B、C、D你选对了5多选(3分)下面论述正确的是:A.Spark Streaming通过采用微批处理方法实现高吞吐和容错性,但是牺牲了低延迟和实时处理能力B.Storm虽然可以做到低延迟,但是无法实现高吞吐,也不能在故障发生时准确地处理计算状态C.流处理架构需要具备低延迟、高吞吐和高性能的特性,而目前从市场上已有的产品来看,只有Flink 可满足要求D.Flink实现了Google Dataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理正确答案:A、B、C、D你选对了6多选(3分)Flink常见的应用场景包括:A.数据流水线应用B.事件驱动型应用C.地图应用D.数据分析应用正确答案:A、B、D你选对了7多选(3分)Flink核心组件栈分为哪三层:A.物理部署层B.Runtime核心层C.Core层D.API&Libraries层正确答案:A、B、D你选对了8多选(3分)Flink有哪几种部署模式:A.运行在GCE(谷歌云服务)和EC2(亚马逊云服务)上B.YARN集群模式C.Standalone集群模式D.Local模式正确答案:A、B、C、D你选对了9多选(3分)Flink系统主要由两个组件组成,分别为:A.JobManagerB.JobSchedulerC.TaskSchedulerD.TaskManager正确答案:A、D你选对了10多选(3分)在编程模型方面,Flink 提供了不同级别的抽象,以开发流或批处理作业,主要包括哪几个级别的抽象:A.DataStream API(有界或无界流数据)以及 DataSet API(有界数据集)B.Table APIC.状态化的数据流接口D. SQL正确答案:A、B、C、D你选对了第13章图计算1单选(2分)Pregel是一种基于模型实现的并行图处理系统:A.TSPB.STPC.BSPD.SBP正确答案:C你选对了2单选(2分)谷歌在后Hadoop时代的新“三驾马车”不包括:A.CaffeineB.DremelC. PregelD.Hama正确答案:D你选对了3多选(3分)下列哪些是以图顶点为中心的,基于消息传递批处理的并行图计算框架:A.HamaB.GiraphC.PregelD.Neo4j正确答案:A、B、C你选对了4多选(3分)以下关于Pregel图计算框架说法正确的是:A.通常只对满足交换律和结合律的操作才会开启Combiner功能B.Pregel采用检查点机制来实现容错C.对于全局拓扑改变,Pregel采用了惰性协调机制D.Aggregator提供了一种全局通信、监控和数据查看的机制正确答案:A、B、C、D你选对了第14章大数据在不同领域的应用1单选(2分)下列说法错误的是:A.ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品B.基于用户的协同过滤算法(简称UserCF算法)是目前业界应用最多的算法erCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品erCF算法的推荐更偏向社会化,而ItemCF算法的推荐更偏向于个性化正确答案:B你选对了2多选(3分)推荐方法包括哪些类型:A.专家推荐B.协同过滤推荐C.基于内容的推荐D.基于统计的推荐正确答案:A、B、C、D你选对了期末试卷1单选(2分)数据产生方式的变革主要经历了三个阶段,以下哪个不属于这三个阶段:A.运营式系统阶段B.感知式系统阶段C.数据流阶段D.用户原创内容阶段正确答案:C你选对了2单选(2分)第三次信息化浪潮的发生标志是以下哪种技术的普及:A.互联网B.CPUC.物联网、云计算和大数据D.个人计算机正确答案:C你选对了3单选(2分)在Flink中哪个是基于批处理的图计算库:A.SQL&Table库B.CEPC. GellyD. FlinkML正确答案:C你选对了4单选(2分)Hadoop的两大核心是和A.MapReduce; HBaseB. HDFS; HBaseC.HDFS; MapReduceD.GFS; MapReduce正确答案:C你选对了5单选(2分)HDFS默认的一个块大小是A.64MBB.8KBC. 32KBD.16KB正确答案:A你选对了6单选(2分)在分布式文件系统HDFS中,负责数据的存储和读取:A.数据节点B.第二名称节点C.名称节点D.主节点正确答案:A你选对了7单选(2分)上传当前目录下的本地文件file.txt到分布式文件系统HDFS的“/path”目录下的Shell命令是:A.hdfs dfs -put /path file.txtB.hadoop dfs -put /path file.txtC.hdfs fs -put file.txt /pathD.hdfs dfs -put file.txt /path正确答案:D你选对了8单选(2分)在HDFS根目录下创建一个文件夹/test,且/test文件夹内还包含一个文件夹dir,正确的shell命令是:A.hadoop fs -mkdir -p /test/dirB.hdfs fs -mkdir -p /test/dirC.hadoop dfs -mkdir /test/dirD.hdfs dfs *mkdir -p /test/dir正确答案:A你选对了9单选(2分)下列有关HBase的说法正确的是:A.在向数据库中插入记录时,HBase和关系数据库一样,每次都是以“行”为单位把整条记录插入数据库B.HBase是针对谷歌BigTable的开源实现,是高可靠、高性能的图数据库C.HBase是一种NoSQL数据库。

尚硅谷大数据技术之 Hadoop(生产调优手册)说明书

尚硅谷大数据技术之 Hadoop(生产调优手册)说明书

尚硅谷大数据技术之Hadoop(生产调优手册)(作者:尚硅谷大数据研发部)版本:V3.3第1章HDFS—核心参数1.1 NameNode内存生产配置1)NameNode内存计算每个文件块大概占用150byte,一台服务器128G内存为例,能存储多少文件块呢?128 * 1024 * 1024 * 1024 / 150Byte ≈9.1亿G MB KB Byte2)Hadoop2.x系列,配置NameNode内存NameNode内存默认2000m,如果服务器内存4G,NameNode内存可以配置3g。

在hadoop-env.sh文件中配置如下。

HADOOP_NAMENODE_OPTS=-Xmx3072m3)Hadoop3.x系列,配置NameNode内存(1)hadoop-env.sh中描述Hadoop的内存是动态分配的# The maximum amount of heap to use (Java -Xmx). If no unit # is provided, it will be converted to MB. Daemons will# prefer any Xmx setting in their respective _OPT variable.# There is no default; the JVM will autoscale based upon machine # memory size.# export HADOOP_HEAPSIZE_MAX=# The minimum amount of heap to use (Java -Xms). If no unit # is provided, it will be converted to MB. Daemons will# prefer any Xms setting in their respective _OPT variable.# There is no default; the JVM will autoscale based upon machine # memory size.# export HADOOP_HEAPSIZE_MIN=HADOOP_NAMENODE_OPTS=-Xmx102400m(2)查看NameNode占用内存[atguigu@hadoop102 ~]$ jps3088 NodeManager2611 NameNode3271 JobHistoryServer2744 DataNode3579 Jps[atguigu@hadoop102 ~]$ jmap -heap 2611Heap Configuration:MaxHeapSize = 1031798784 (984.0MB)(3)查看DataNode占用内存[atguigu@hadoop102 ~]$ jmap -heap 2744Heap Configuration:MaxHeapSize = 1031798784 (984.0MB)查看发现hadoop102上的NameNode和DataNode占用内存都是自动分配的,且相等。

2020智慧树知到《大数据算法》章节测试[完整]

2020智慧树知到《大数据算法》章节测试[完整]

最新资料欢迎阅读2020 智慧树知到《大数据算法》章节测试[ 完好答案 ]智慧树知到《大数据算法》章节测试答案1.以下对于大数据的特色 , 表达错误的选项是 () 。

答案:速度慢A、速度慢B、多元、异构C、数据规模大D、鉴于高度剖析的新价值2.在《法华经》中 , “那由他”描绘的“大”的数目级是 () 。

答案: 10A 、10B、10C、10D、1083.以下选项中 , 大数据波及的领域中包含 () 。

答案:交际网络计算机艺术医疗数据A、交际网络B、医疗数据C、计算机艺术D、医疗数据4.大数据的应用包含 () 。

答案:介绍科学研究展望商业情报剖析A、展望B、介绍C、商业情报剖析D、科学研究5.当前 , 对于大数据已有公认确实定定义。

&times;6.大数据种类众多 , 在编码方式、数据格式、应用特色等方面都存在差别。

()&radic;1.大数据求解计算问题过程的第三步一般是() 。

答案:算法设计与剖析A、判断可计算否B、判断能行可计算否C、算法设计与剖析D、用计算机语言实现算法2.在大数据求解计算问题中 , 判断能否为能行可计算的要素包含() 。

答案:资源拘束数据量时间拘束A、数据量B、资源拘束C、速度拘束D、时间拘束3.大数据求解计算问题过程的第一步是确立该问题能否可计算。

&radic;4.大数据计算模型与一般小规模计算模型同样 , 都使用的是图灵机模型。

&radic;1.资源拘束包含 () 。

答案:网络带宽外存 CPU内存A、CPUB、网络带宽C、内存D、外存2.大数据算法能够不是 () 。

答案:精准算法串行算法内存算法A、云计算B、精准算法C、内存算法D、串行算法3.大数据算法是在给定的时间拘束下 , 以大数据为输入 , 在给定资源拘束内能够生成知足给定拘束结果的算法。

&times;4.MapReduce 是一种比较好实现大数据算法的编程架构 , 在生产中获取宽泛应用。

Hadoop生态中的大数据处理与分析

Hadoop生态中的大数据处理与分析

Hadoop生态中的大数据处理与分析第一章介绍Hadoop生态Hadoop是由Apache基金会开发的一个开源Java框架,用于处理大数据。

Hadoop生态系统是由许多不同的组件组成的,包括Hadoop文件系统(HDFS)、MapReduce、Hive、Pig、HBase等。

每个组件都有不同的目的和特点。

Hadoop生态系统为大数据处理提供了一整套完备的工具。

在Hadoop生态系统中,MapReduce是最常用的一项工具,它提供了分布式的数据处理功能。

在大数据处理中,MapReduce通常用于将大量数据分解为不同的小块,并在不同的节点间并行运算和处理。

第二章大数据的处理与分析大数据处理和分析是指处理大量数据并提取有用信息的过程。

大数据处理和分析可以帮助企业了解其业务、排除风险和改进业务决策。

但是,对于大数据的处理和分析来说,非结构化数据和半结构化数据是一个巨大的挑战。

这时候Hadoop生态系统可以帮助企业解决这个问题。

Hadoop生态系统的组件,如Hive、Pig、Spark和Storm等可以处理非常大的数据集,并提供高效的并行计算。

这些工具可以从海量的数据中提取有用的信息。

Hive和Pig可以将非结构化数据转换成结构化数据,并通过SQL查询进行分析。

Spark和Storm可以通过Stream Processing技术进行数据分析和处理。

Hadoop生态系统可以帮助企业在分析和处理大数据时提高效率并节省成本。

第三章 Hadoop生态系统的组件1. Hadoop文件系统(HDFS)HDFS是Hadoop生态系统中的核心组件,用于存储和管理大量数据。

在HDFS中,数据被分解为多个块,并分布在不同的服务器上,使得数据存储和处理更加高效。

HDFS提供了高可靠性、高可用性和高扩展性。

HDFS可以容错处理所有的节点故障,同时支持横向扩展。

2. MapReduceMapReduce是Hadoop生态系统中最常用的一项组件,用于分布式计算。

大数据导论智慧树知到答案2024年商丘工学院

大数据导论智慧树知到答案2024年商丘工学院

大数据导论商丘工学院智慧树知到答案2024年第一章测试1.大数据的前沿技术是()。

A:数据定义B:数据结构.C:数据处理D:数据分析答案:D2.大数据赖以生存的土壤是()。

A:互联网B:前沿技术C:物联网D:网络信息答案:A3.第三次信息化浪潮的标志是哪些技术的兴起?( )A:云计算B:大数据C:个人计算机D:物联网答案:ABD4.以下是大数据存储面临的挑战的选项是( )。

A:数据问题B:管理问题C:应用问题D:系统问题答案:BCD5.信息科技为大数据时代提供哪些技术支撑?( )A:网络带宽不断增加B:CPU 处理能力大幅提升C:存储设备容量不断增加D:数据量不断增大答案:ABC6.大数据产业指的是什么()。

A:一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合B:提供分布式计算、数据挖掘、统计分析等服务的各类企业C:提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业D:提供数据分享平台、数据分析平台、数据租售平台等服务的企业答案:A7.万维网之父是 ( )。

A:蒂姆●伯纳斯-李B:彼得●德鲁克C:舍恩伯格D:斯科特布朗答案:A8.以下哪一项不属于大数据的特征()。

A:数据价值密度高B:单位处理数据的速度高C:数据类型复杂D:数据量大答案:A9.大数据存储的特点与挑战有( )。

A:成本问题B:容量问题C:安全问题D:延迟问题答案:ABCD10.大数据可以帮助发现规律,大数据可以帮助解释现象,大数据可以帮助预测未来。

()A:对 B:错答案:A第二章测试1.大数据的最显著特征是( )。

A:数据类型多样B:数据价值密度高C:数据处理速度快D:数据规模大答案:D2.下列不属于 Google云计算平台技术架构的是()。

A:结构化数据表 BigTableB:分布式锁 ChubbyC:并行数据处理 MapReduceD:弹性云计算 EC2答案:D3.物联网的全球发展形势可能提前推动人类进入“智能时代”,也称()。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
storageLevel) } else { //直接从磁盘中读取 或 从 检查点中读取 computeOrReadCheckpoint(split, context) }
RDD的五个主要属性
分区信息 (Partition)
• 数据集的基 本组成单位
Compute
函数
• 对于给定的 数据集,需 要做哪些计 算
RDD简介 01
RDD是什么
官宣:
弹性分布式数据集
RDD是只读的、分区记录的集合
RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作 来创建
RDD是什么--需要清楚的几个问题
1.什么是弹性?
1. RDD可以在内存和磁盘之间手动或自动切换 2. RDD可以通过转换成为其他的RDD 3. RDD可以存储任意类型的数据
谢谢观看
• parallelize函数可以传入分片个数参数,否则采用defaultParallelism。
• count函数返回RDD中元素的个数
RDD操作
算子 (Operation)
转换(transformantion) 行动(action)
在一个已存在的 RDD上创建一 个新的 RDD,但实际的计算并 没有执行,仅仅记录操作过程
大数据分析与内存计算 第四章
Spark RDD
课前回顾 使用Python开发Spark应用
(1)Python编程语言 (2)PySpark启动与日志设置 (3)Pyspark开发包的安装
(4) 使用开发工具Pycharm编写Spark应用
RDD简介
01
Hale Waihona Puke RDD算子02共享变量
03
CONTENT
04 RDD依赖关 系 05 RDD持久化
RDD是什么--需要清楚的几个问题 2. 存储的内容是什么?是数据么?
初代RDD:存储的的只是真实数据的分区信息,还有就是针对 单个分区的读取方法 ,血统的顶层
子代RDD:存储初代RDD到底干了什么才会产生自己,还有就 是初代RDD的引用,血统的下层
RDD是什么--需要清楚的几个问题
3.数据读取发生在什么时候
Partitioner
函数
• 对于计算出 来的数据结 果如何分发
优先位置列 表
• 对于data partition的 位置偏好
依赖关系
• RDD的依赖 关系,描述 了RDD之间 的Lineage
创建RDD 基于外部数据源创建
distFile = sc.textFile("file:///home/camel/Repos/spark/README.md") distFile.count()
发生在运行的Task中,即数据是在任务分发的executor上运行 的时候读取的
if (storageLevel != StorageLevel.NONE) { //先判断是否有缓存 ,有则直接从缓存中取 , 没有就从磁盘中取出来, 然后
再执行缓存操作 SparkEnv.get.cacheManager.getOrCompute(this, split, context,
• distFile是一个RDD,该RDD是从本地文件创建的。 • textFile函数支持从多种源创建RDD,如hdfs://,s3n:// 。 • count函数在这里会计算文本的行数。
创建RDD 基于数据集合创建
data = [1, 2, 3, 4, 5] distData = sc.parallelize(data) #通过并行化创建RDD distData.count() • distData是一个RDD,该RDD是从已存在的集合创建的。
执行 RDD记录的所有运行 transformations操作,并计算 结果,结果可返回到 driver程 序
RDD操作
如何区分两种算子:
transformation算子一定会返回一个rdd Action有的没返回值,也可能有返回值,但是一定不是rdd
小节
01
RDD的创建
03
RDD是什么
02
RDD操作
相关文档
最新文档