大数据技术原理与应用第一章大数据概述

合集下载

大学生mooc大数据技术原理与应用（林子雨）题库答案

⼤学⽣mooc⼤数据技术原理与应⽤（林⼦⾬）题库答案作者：解忧书店 JieYouBookshop 第1章⼤数据概述1单选(2分)第三次信息化浪潮的标志是：A.个⼈电脑的普及B.云计算、⼤数据、物联⽹技术的普及C.虚拟现实技术的普及D.互联⽹的普及正确答案：B你选对了2单选(2分)就数据的量级⽽⾔，1PB数据是多少TB？A.2048B.1000C.512D.1024正确答案：D你选对了3单选(2分)以下关于云计算、⼤数据和物联⽹之间的关系，论述错误的是：A.云计算侧重于数据分析B.物联⽹可以借助于云计算实现海量数据的存储C.物联⽹可以借助于⼤数据实现海量数据的分析D.云计算、⼤数据和物联⽹三者紧密相关，相辅相成正确答案：A你选对了4单选(2分)以下哪个不是⼤数据时代新兴的技术：A.SparkB.HadoopC.HBaseD.MySQL正确答案：D你选对了每种⼤数据产品都有特定的应⽤场景，以下哪个产品是⽤于批处理的：A.MapReduceB.DremelC.StormD.Pregel正确答案：A你选对了6单选(2分)每种⼤数据产品都有特定的应⽤场景，以下哪个产品是⽤于流计算的：A.GraphXB.S4C.ImpalaD.Hive正确答案：B你选对了7单选(2分)每种⼤数据产品都有特定的应⽤场景，以下哪个产品是⽤于图计算的：A.PregelB.StormC.CassandraD.Flume正确答案：A你选对了8单选(2分)每种⼤数据产品都有特定的应⽤场景，以下哪个产品是⽤于查询分析计算的：A.HDFSB.S4C.DremelD.MapReduce正确答案：C你选对了9多选(3分)数据产⽣⽅式⼤致经历了三个阶段，包括：A.运营式系统阶段B.感知式系统阶段C.移动互联⽹数据阶段正确答案：ABD你选对了10多选(3分)⼤数据发展的三个阶段是：A.低⾕期B.成熟期C.⼤规模应⽤期D.萌芽期正确答案：BCD你选对了11多选(3分)⼤数据的特性包括：A.价值密度低B.处理速度快C.数据类型繁多D.数据量⼤正确答案：ABCD你选对了12多选(3分)图领奖获得者、著名数据库专家Jim Gray博⼠认为，⼈类⾃古以来在科学研究上先后经历了哪⼏种范式：A.计算科学B.数据密集型科学C.实验科学D.理论科学正确答案：ABCD你选对了13多选(3分)⼤数据带来思维⽅式的三个转变是：A.效率⽽⾮精确B.相关⽽⾮因果C.精确⽽⾮全⾯D.全样⽽⾮抽样正确答案：ABD你选对了14多选(3分)⼤数据主要有哪⼏种计算模式：。

Chapter1-林子雨-大数据技术原理与应用-大数据概述(2016年2月17日版本)

典型的大数据应用实例
Kevin Spacey
大数据分析 David Fincher 风靡全球的美剧《纸牌屋》英国同名小说《纸牌屋》
《大数据技术原理与应用》厦门大学计算机科学系林子雨 ziyulin@
典型的大数据应用实例
从谷歌流感趋势看大数据的应用价值
“谷歌流感趋势”，通过跟踪搜索词相关数据来判断全美地区的流感情况
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
1.4大数据的应用
• 大数据无处不在，包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
1.2.3处理速度快
从数据的生成到消耗，时间窗口非常小，可用于生成决策的时间非常少 1秒定律：这一点也是和传统的数据挖掘技术有着本质的不同
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
流计算
图计算查询分析计算
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
1.7大数据产业
• 大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合
产业链环节 IT基础设施层包含内容包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业，比如，提供数据中心解决方案的IBM、惠普和戴尔等，提供存储解决方案的EMC，提供虚拟化管理软件的微软、思杰、SUN、Redhat等大数据生态圈里的数据提供者，是生物大数据（生物信息学领域的各类研究机构）、交通大数据（交通主管部门）、医疗大数据（各大医院、体检机构）、政务大数据（政府部门）、电商大数据（淘宝、天猫、苏宁云商、京东等电商）、社交网络大数据（微、转换、存储和管理等服务的各类企业或产品，比如分布式文件系统（如Hadoop的 HDFS和谷歌的GFS）、ETL工具（Informatica、Datastage、Kettle等）、数据库和数据仓库（Oracle 、MySQL、SQL Server、HBase、GreenPlum等）包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品，比如，分布式计算框架 MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具（ MicroStrategy、Cognos、BO）等等包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业能电网等行业应用的企业、机构或政府部门，比如交通主管部门、各大医疗机构、菜鸟网络、国家电网等

大数据技术原理与应用

大数据技术原理与应用【大数据技术原理与应用（上）】一、前言近年来，由于信息技术的迅猛发展，数据的规模和种类不断增加，给我们带来了各种新的机遇和挑战。

而大数据技术就应运而生，成为当今IT领域的热门话题之一。

本文将介绍大数据技术的原理和应用，希望对读者有所帮助。

二、大数据技术的定义大数据技术是一种应对海量、高维、异构、分布式数据的计算机技术。

由于大数据的特点如上所述，传统的单机计算和数据库技术已经无法满足需求，因此需要采用一些新的技术和方法。

三、大数据技术的原理1. 分布式存储传统的文件系统和数据库都是采用单机存储的方式，无法处理海量数据。

大数据技术采用分布式存储的方式，将数据分散存储在多个节点上，通过网络协议进行通信，实现数据的共享和管理。

2. 分布式计算分布式计算是大数据处理的核心技术之一。

它充分利用多个计算节点的计算能力，将任务划分为多个子任务进行并行计算，大大提高了处理效率和性能。

3. 数据挖掘与机器学习大数据中存在着大量的隐含信息和暗示规律，挖掘这些信息和规律对于数据分析和应用具有重要的价值。

数据挖掘和机器学习技术可以帮助人们从大数据中发现隐含的知识和规律。

4. 数据可视化数据可视化是将数据以图形、表格等视觉化的方式表达出来，使得人们更加直观地理解数据。

在大数据领域，数据可视化技术可以帮助人们快速了解数据的特点和趋势，方便决策和管理。

四、大数据技术的应用1. 营销大数据技术可以用来分析用户的行为和习惯，了解用户的需求和偏好，从而制定出更加精准的营销策略。

2. 医疗健康大数据技术可以应用于医疗健康领域，通过分析患者的健康记录和医疗数据，为医生提供更加精准的诊断和治疗方案。

3. 金融大数据技术可以用来分析金融市场的趋势和规律，预测股市波动趋势，帮助投资者做出更明智的投资决策。

4. 物流大数据技术可以用来分析物流企业的运营情况，预测货物运输时间，优化货物运输路线和运输模式，提高物流效率和质量。

五、总结大数据技术的出现，为我们提供了解决海量数据处理问题的新途径。

《大数据技术原理与应用(第3版)》期末复习题库(含答案)

第一章大数据概述单选题1、第一次信息化浪潮主要解决什么问题？B（A）信息传输（B）信息处理（C）信息爆炸（D）信息转换2、下面哪个选项属于大数据技术的“数据存储和管理”技术层面的功能？A（A）利用分布式文件系统、数据仓库、关系数据库等实现对结构化、半结构化和非结构化海量数据的存储和管理（B）利用分布式并行编程模型和计算框架，结合机器学习和数据挖掘算法，实现对海量数据的处理和分析（C）构建隐私数据保护体系和数据安全体系，有效保护个人隐私和数据安全（D）把实时采集的数据作为流计算系统的输入，进行实时处理分析3、在大数据的计算模式中，流计算解决的是什么问题？D（A）针对大规模数据的批量处理（B）针对大规模图结构数据的处理（C）大规模数据的存储管理和查询分析（D）针对流数据的实时计算4、大数据产业指什么？A（A）一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合（B）提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业（C）提供数据分享平台、数据分析平台、数据租售平台等服务的企业（D）提供分布式计算、数据挖掘、统计分析等服务的各类企业5、下列哪一个不属于大数据产业的产业链环节？A（A）数据循环层（B）数据源层（C）数据分析层（D）数据应用层6、下列哪一个不属于第三次信息化浪潮中新兴的技术？A（A）互联网（B）云计算（C）大数据（D）物联网7、云计算平台层（PaaS）指的是什么？A（A）操作系统和围绕特定应用的必需的服务（B）将基础设施(计算资源和存储)作为服务出租（C）从一个集中的系统部署软件，使之在一台本地计算机上(或从云中远程地)运行的一个模型（D）提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务8、下面关于云计算数据中心的描述正确的是：A（A）数据中心是云计算的重要载体，为各种平台和应用提供运行支撑环境（B）数据中心就是放在企业内部的一台中心服务器（C）每个企业都需要建设一个云计算数据中心（D）数据中心不需要网络带宽的支撑9、下列哪个不属于物联网的应用？D（A）智能物流（B）智能安防（C）环保监测（D）数据清洗10、下列哪项不属于大数据的发展历程？D（A）成熟期（B）萌芽期（C）大规模应用期（D）迷茫期多选题1、第三次信息化浪潮的标志是哪些技术的兴起？BCD（A）个人计算机（B）物联网（C）云计算（D）大数据2、信息科技为大数据时代提供哪些技术支撑？ABC（A）存储设备容量不断增加（B）网络带宽不断增加（C）CPU 处理能力大幅提升（D）数据量不断增大3、大数据具有哪些特点？ABCD（A）数据的“大量化”（B）数据的“快速化”（C）数据的“多样化”（D）数据的“价值密度比较低”4、下面哪个属于大数据的应用领域？ABCD（A）智能医疗研发（B）监控身体情况（C）实时掌握交通状况（D）金融交易5、大数据的两个核心技术是什么？AC（A）分布式存储（B）分布式应用（C）分布式处理（D）集中式存储6、云计算关键技术包括什么？ABCD（A）分布式存储（B）虚拟化（C）分布式计算（D）多租户7、云计算的服务模式和类型主要包括哪三类？ABC（A）软件即服务（SaaS）（B）平台即服务（PaaS）（C）基础设施即服务（IaaS）（D）数据采集即服务（DaaS）8、物联网主要由下列哪些部分组成的？ABCD（A）应用层（B）处理层（C）感知层（D）网络层9、物联网的关键技术包括哪些？ABC（A）识别和感知技术（B）网络与通信技术（C）数据挖掘与融合技术（D）信息处理一体化技术10、大数据对社会发展的影响有哪些？ABC（A）大数据成为一种新的决策方式（B）大数据应用促进信息技术与各行业的深度融合（C）大数据开发推动新技术和新应用的不断涌现（D）大数据对社会发展没有产生积极影响第二章大数据处理架构Hadoop单选题1、下列哪个不属于Hadoop的特性？A（A）成本高（B）高可靠性（C）高容错性（D）运行在Linux平台上2、Hadoop框架中最核心的设计是什么？A（A）为海量数据提供存储的HDFS和对数据进行计算的MapReduce（B）提供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务（C）Hadoop不仅可以运行在企业内部的集群中，也可以运行在云计算环境中（D）Hadoop被视为事实上的大数据处理标准3、在一个基本的Hadoop集群中，DataNode主要负责什么？D（A）负责执行由JobTracker指派的任务（B）协调数据计算任务（C）负责协调集群中的数据存储（D）存储被拆分的数据块4、Hadoop最初是由谁创建的？B（A）Lucene（B）Doug Cutting（C）Apache（D）MapReduce5、下列哪一个不属于Hadoop的大数据层的功能？C（A）数据挖掘（B）离线分析（C）实时计算（D）BI分析6、在一个基本的Hadoop集群中，SecondaryNameNode主要负责什么？A（A）帮助NameNode收集文件系统运行的状态信息（B）负责执行由JobTracker指派的任务（C）协调数据计算任务（D）负责协调集群中的数据存储7、下面哪一项不是Hadoop的特性？B（A）可扩展性高（B）只支持少数几种编程语言（C）成本低（D）能在linux上运行8、在Hadoop项目结构中，HDFS指的是什么？A（A）分布式文件系统（B）分布式并行编程模型（C）资源管理和调度器（D）Hadoop上的数据仓库9、在Hadoop项目结构中，MapReduce指的是什么？A（A）分布式并行编程模型（B）流计算框架（C）Hadoop上的工作流管理系统（D）提供分布式协调一致性服务10、下面哪个不是Hadoop1.0的组件：（C）（A）HDFS（B）MapReduce（C）YARN（D）NameNode和DataNode多选题1、Hadoop的特性包括哪些？ABCD（A）高可扩展性（B）支持多种编程语言（C）成本低（D）运行在Linux平台上2、下面哪个是Hadoop2.0的组件？AD（A）ResourceManager（B）JobTracker（C）TaskTracker（D）NodeManager3、一个基本的Hadoop集群中的节点主要包括什么？ABCD（A）DataNode：存储被拆分的数据块（B）JobTracker：协调数据计算任务（C）TaskTracker：负责执行由JobTracker指派的任务（D）SecondaryNameNode：帮助NameNode收集文件系统运行的状态信息4、下列关于Hadoop的描述，哪些是正确的？ABCD（A）为用户提供了系统底层细节透明的分布式基础架构（B）具有很好的跨平台特性（C）可以部署在廉价的计算机集群中（D）曾经被公认为行业大数据标准开源软件5、Hadoop集群的整体性能主要受到什么因素影响？ABCD（A）CPU性能（B）内存（C）网络（D）存储容量6、下列关于Hadoop的描述，哪些是错误的？AB（A）只能支持一种编程语言（B）具有较差的跨平台特性（C）可以部署在廉价的计算机集群中（D）曾经被公认为行业大数据标准开源软件7、下列哪一项不属于Hadoop的特性？AB（A）较低可扩展性（B）只支持java语言（C）成本低（D）运行在Linux平台上第三章分布式文件系统HDFS单选题1、分布式文件系统指的是什么？A（A）把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群（B）用于在Hadoop与传统数据库之间进行数据传递（C）一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统（D）一种高吞吐量的分布式发布订阅消息系统，可以处理消费者规模的网站中的所有动作流数据2、下面哪一项不属于计算机集群中的节点？B（A）主节点(Master Node)（B）源节点（SourceNode）（C）名称结点(NameNode)（D）从节点（Slave Node）3、在HDFS中，默认一个块多大？A（A）64MB（B）32KB（C）128KB（D）16KB4、下列哪一项不属于HDFS采用抽象的块概念带来的好处？C（A）简化系统设计（B）支持大规模文件存储（C）强大的跨平台兼容性（D）适合数据备份5、在HDFS中，NameNode的主要功能是什么？D（A）维护了block id 到datanode本地文件的映射关系（B）存储文件内容（C）文件内存保存在磁盘中（D）存储元数据6、下面对FsImage的描述，哪个是错误的？D（A）FsImage文件没有记录每个块存储在哪个数据节点（B）FsImage文件包含文件系统中所有目录和文件inode的序列化形式（C）FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据（D）FsImage文件记录了每个块具体被存储在哪个数据节点7、下面对SecondaryNameNode第二名称节点的描述，哪个是错误的？A（A）SecondaryNameNode一般是并行运行在多台机器上（B）它是用来保存名称节点中对HDFS元数据信息的备份，并减少名称节点重启的时间（C）SecondaryNameNode通过HTTPGET方式从NameNode上获取到FsImage和EditLog文件，并下载到本地的相应目录下（D）SecondaryNameNode是HDFS架构中的一个组成部分8、HDFS采用了什么模型？B（A）分层模型（B）主从结构模型（C）管道-过滤器模型（D）点对点模型9、在Hadoop项目结构中，HDFS指的是什么？A（A）分布式文件系统（B）流数据读写（C）资源管理和调度器（D）Hadoop上的数据仓库10、下列关于HDFS的描述，哪个不正确？D（A）HDFS还采用了相应的数据存放、数据读取和数据复制策略，来提升系统整体读写响应性能（B）HDFS采用了主从（Master/Slave）结构模型（C）HDFS采用了冗余数据存储，增强了数据可靠性（D）HDFS采用块的概念，使得系统的设计变得更加复杂多选题1、HDFS要实现以下哪几个目标？ABC（A）兼容廉价的硬件设备（B）流数据读写（C）大数据集（D）复杂的文件模型2、HDFS特殊的设计，在实现优良特性的同时，也使得自身具有一些应用局限性，主要包括以下哪几个方面？BCD（A）较差的跨平台兼容性（B）无法高效存储大量小文件（C）不支持多用户写入及任意修改文件（D）不适合低延迟数据访问3、HDFS采用抽象的块概念可以带来以下哪几个明显的好处？ACD（A）支持大规模文件存储（B）支持小规模文件存储（C）适合数据备份（D）简化系统设计4、在HDFS中，名称节点（NameNode）主要保存了哪些核心的数据结构？AD（A）FsImage（B）DN8（C）Block（D）EditLog5、数据节点（DataNode）的主要功能包括哪些？ABC（A）负责数据的存储和读取（B）根据客户端或者是名称节点的调度来进行数据的存储和检索（C）向名称节点定期发送自己所存储的块的列表（D）用来保存名称节点中对HDFS元数据信息的备份，并减少名称节点重启的时间6、HDFS的命名空间包含什么？BCD（A）磁盘（B）文件（C）块（D）目录7、下列对于客服端的描述，哪些是正确的？ABCD（A）客户端是用户操作HDFS最常用的方式，HDFS在部署时都提供了客户端（B）HDFS客户端是一个库，暴露了HDFS文件系统接口（C）严格来说，客户端并不算是HDFS的一部分（D）客户端可以支持打开、读取、写入等常见的操作8、HDFS只设置唯一一个名称节点，这样做虽然大大简化了系统设计，但也带来了哪些明显的局限性？ABCD（A）命名空间的限制（B）性能的瓶颈（C）隔离问题（D）集群的可用性9、HDFS数据块多副本存储具备以下哪些优点？ABC（A）加快数据传输速度（B）容易检查数据错误（C）保证数据可靠性（D）适合多平台上运行10、HDFS具有较高的容错性，设计了哪些相应的机制检测数据错误和进行自动恢复？BCD（A）数据源太大（B）数据节点出错（C）数据出错（D）名称节点出错第四章分布式数据库HBase单选题1、下列关于BigTable的描述，哪个是错误的？A（A）爬虫持续不断地抓取新页面，这些页面每隔一段时间地存储到BigTable里（B）BigTable是一个分布式存储系统（C）BigTable起初用于解决典型的互联网搜索问题（D）网络搜索应用查询建立好的索引，从BigTable得到网页2、下列选项中，关于HBase和BigTable的底层技术对应关系，哪个是错误的？B（A）GFS与HDFS相对应（B）GFS与Zookeeper相对应（C）MapReduce与Hadoop MapReduce相对应（D）Chubby与Zookeeper相对应3、在HBase中，关于数据操作的描述，下列哪一项是错误的？C（A）HBase采用了更加简单的数据模型，它把数据存储为未经解释的字符串（B）HBase操作不存在复杂的表与表之间的关系（C）HBase不支持修改操作（D）HBase在设计上就避免了复杂的表和表之间的关系4、在HBase访问接口中，Pig主要用在哪个场合？D（A）适合Hadoop MapReduce作业并行批处理HBase表数据（B）适合HBase管理使用（C）适合其他异构系统在线访问HBase表数据（D）适合做数据统计5、HBase中需要根据某些因素来确定一个单元格，这些因素可以视为一个“四维坐标”，下面哪个不属于“四维坐标”？B（A）行键（B）关键字（C）列族（D）时间戳6、关于HBase的三层结构中各层次的名称和作用的说法，哪个是错误的？A（A）Zookeeper文件记录了用户数据表的Region位置信息（B）-ROOT-表记录了.META.表的Region位置信息（C）.META.表保存了HBase中所有用户数据表的Region位置信息（D）Zookeeper文件记录了-ROOT-表的位置信息7、下面关于主服务器Master主要负责表和Region的管理工作的描述，哪个是错误的？D（A）在Region分裂或合并后，负责重新调整Region的分布（B）对发生故障失效的Region服务器上的Region进行迁移（C）管理用户对表的增加、删除、修改、查询等操作（D）不支持不同Region服务器之间的负载均衡8、HBase只有一个针对行健的索引，如果要访问HBase表中的行，下面哪种方式是不可行的？B（A）通过单个行健访问（B）通过时间戳访问（C）通过一个行健的区间来访问（D）全表扫描9、下面关于Region的说法，哪个是错误的？C（A）同一个Region不会被分拆到多个Region服务器（B）为了加快访问速度，.META.表的全部Region都会被保存在内存中（C）一个-ROOT-表可以有多个Region（D）为了加速寻址，客户端会缓存位置信息，同时，需要解决缓存失效问题多选题1、关系数据库已经流行很多年，并且Hadoop已经有了HDFS和MapReduce，为什么需要HBase？ABCD（A）Hadoop可以很好地解决大规模数据的离线批量处理问题，但是，受限于Hadoop MapReduce编程框架的高延迟数据处理机制，使得Hadoop无法满足大规模数据实时处理应用的需求上（B）HDFS面向批量访问模式，不是随机访问模式（C）传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题（D）传统关系数据库在数据结构变化时一般需要停机维护；空列浪费存储空间2、HBase与传统的关系数据库的区别主要体现在以下哪几个方面？ABCD（A）数据类型（B）数据操作（C）存储模式（D）数据维护3、HBase访问接口类型包括哪些？ABCD（A）Native Java API（B）HBase Shell（C）Thrift Gateway（D）REST Gateway4、下列关于数据模型的描述，哪些是正确的？ABCD（A）HBase采用表来组织数据，表由行和列组成，列划分为若干个列族（B）每个HBase表都由若干行组成，每个行由行键（row key）来标识（C）列族里的数据通过列限定符（或列）来定位（D）每个单元格都保存着同一份数据的多个版本，这些版本采用时间戳进行索引5、HBase的实现包括哪三个主要的功能组件？ABC（A）库函数：链接到每个客户端（B）一个Master主服务器（C）许多个Region服务器（D）廉价的计算机集群6、HBase的三层结构中，三层指的是哪三层？ABC（A）Zookeeper文件（B）-ROOT-表（C）.META.表（D）数据类型7、以下哪些软件可以对HBase进行性能监视？ABCD（A）Master-status(自带)（B）Ganglia（C）OpenTSDB（D）Ambari8、Zookeeper是一个很好的集群管理工具，被大量用于分布式计算，它主要提供什么服务？ABC（A）配置维护（B）域名服务（C）分布式同步（D）负载均衡服务9、下列关于Region服务器工作原理的描述，哪些是正确的？ABCD（A）每个Region服务器都有一个自己的HLog 文件（B）每次刷写都生成一个新的StoreFile，数量太多，影响查找速度（C）合并操作比较耗费资源，只有数量达到一个阈值才启动合并（D）Store是Region服务器的核心10、下列关于HLog工作原理的描述，哪些是正确的？ABCD（A）分布式环境必须要考虑系统出错。

大数据技术原理与运用知识

⼤数据技术原理与运⽤知识
⼀·⼤数据概述
随着信息技术发展的巨⼤变⾰，企业和学术机构纷纷加⼤技术、资⾦和⼈员投⼊，加强对⼤数据关键技术的研发与运⽤。

⼤数据的发展历程总体上划分为三个重要阶段：萌芽期、成熟期和⼤规模应⽤期。

⼆.⼤数据概念
⼤数据的4个特点：数据量⼤、数据类型繁多、处理速度快和价值密度低。

三.⼤数据与云计算、物联⽹的关系
⼤数据为云计算机提供了⽤武之地，云计算为⼤数据提供了技术基础。

物联⽹是⼤数据的重要来源，⼤数据技术为物联⽹数据分析提供⽀撑。

云计算为物联⽹提供海量数据存储能⼒，物联⽹为云计算技术提供了⼴阔的应⽤空间。

四.⼤数据处理架构Hadoop
1.Hadoop简介
Hadoop是Apache旗下的⼀个开源分布式计算平台。

是基于Java语⾔开发的，具有很好的跨平台性，并可以部署在⼀般的计算机集群中。

Hadoop的核⼼是分布式⽂件系统HDFS和MapReduce。

HDFS具有较⾼的读写速度、很好的容错性和可伸缩性，很好的保证了数据的安全性。

其中YARN是资源调动，MapReduce是计算框架。

2.Hadoop的特性
⾼可靠性、⾼效性、⾼扩展性、容错性、成本低、运⾏在Linux平台上、⽀持多种编程语⾔。

3.Hadoop⽣态圈
/*图⽚来源于⽹络*/。

信息科技为大数据时代提供技术支撑_大数据技术原理与应用——概念、存储、处理、分析与应用_[共2页]

3 续表信息化浪潮发生时间标志解决的问题代表企业第二次浪潮 1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、百度、腾讯等第三次浪潮 2010年前后物联网、云计算和大数据信息爆炸将涌现出一批新的市场标杆企业1.1.2 信息科技为大数据时代提供技术支撑信息科技需要解决信息存储、信息传输和信息处理3个核心问题，人类社会在信息科技领域的不断进步，为大数据时代的到来提供了技术支撑。

1．存储设备容量不断增加数据被存储在磁盘、磁带、光盘、闪存等各种类型的存储介质中，随着科学技术的不断进步，存储设备制造工艺不断升级，容量大幅增加，速度不断提升，价格却在不断下降（见图1-1）。

图1-1 存储价格随时间的变化情况早期的存储设备容量小、价格高、体积大，例如，IBM 在1956年生产的一个早期的商业硬盘，容量只有5MB ，不仅价格昂贵，而且体积有一个冰箱那么大（见图1-2）。

相反，今天容量为1TB 的硬盘，大小只有3.5英寸（约8.89厘米），读写速度达到200MB/s ，价格仅为400元左右。

廉价、高性能的硬盘存储设备，不仅提供了海量的存储空间，同时大大降低了数据存储成本。

与此同时，以闪存为代表的新型存储介质也开始得到大规模的普及和应用。

闪存是一种新兴的半导体存储器，从1989年诞生第一款闪存产品开始，闪存技术不断获得新的突破，并逐渐在计算机存储产品市场中确立了自己的重要地位。

闪存是一种非易失性存储器，即使发生断电也不会丢失数据，因此，可以作为永久性存储设备，它具有体积小、质量轻、能耗低、抗震性好等优良特性。

闪存芯片可以被封装制作成SD 卡、U 盘和固态盘等各种存储产品，SD 卡和U 盘主要用于个人数据存储，固态盘则越来越多地应用于企业级数据存储。

一个32GB 的SD 卡，体积只有图1-2 IBM 在1956年生产的一个早期的商业硬盘。

大学生大数据技术原理与应用章节测验期末考试答案

大数据技术原理与应用第1章大数据概述1单选(2分)第三次信息化浪潮的标志是：A.个人电脑的普及B.云计算、大数据、物联网技术的普及C.虚拟现实技术的普及D.互联网的普及正确答案：B你选对了2单选(2分)就数据的量级而言，1PB数据是多少TB？A.2048B.1000C.512D.1024正确答案：D你选对了3单选(2分)以下关于云计算、大数据和物联网之间的关系，论述错误的是：A.云计算侧重于数据分析B.物联网可借助于云计算实现海量数据的存储C.物联网可借助于大数据实现海量数据的分析D.云计算、大数据和物联网三者紧密相关，相辅相成正确答案：A你选对了4单选(2分)以下哪个不是大数据时代新兴的技术：A.SparkB.HadoopC.HBaseD.MySQL正确答案：D你选对了5单选(2分)每种大数据产品都有特定的应用场景，以下哪个产品是用于批处理的：A.MapReduceB.DremelC.StormD.Pregel正确答案：A你选对了6单选(2分)每种大数据产品都有特定的应用场景，以下哪个产品是用于流计算的：A.GraphXB.S4C.ImpalaD.Hive正确答案：B你选对了7单选(2分)每种大数据产品都有特定的应用场景，以下哪个产品是用于图计算的：A.PregelB.StormC.CassandraD.Flume正确答案：A你选对了8单选(2分)每种大数据产品都有特定的应用场景，以下哪个产品是用于查询分析计算的：A.HDFSB.S4C.DremelD.MapReduce正确答案：C你选对了9多选(3分)数据产生方式大致经历三个阶段，包括：A.运营式系统阶段B.感知式系统阶段C.移动互联网数据阶段D.用户原创内容阶段正确答案：ABD你选对了10多选(3分)大数据发展三个阶段是：A.低谷期B.成熟期C.大规模应用期D.萌芽期正确答案：BCD你选对了11多选(3分)大数据的特性包括：A.价值密度低B.处理速度快C.数据类型繁多D.数据量大正确答案：ABCD你选对了12多选(3分)图领奖获得者、著名数据库专家Jim Gray博士认为，人类自古以来在科学研究上先后经历哪几种范式：A.计算科学B.数据密集型科学C.实验科学D.理论科学正确答案：ABCD你选对了13多选(3分)大数据带来思维方式的三个转变是：A.效率而非精确B.相关而非因果C.精确而非全面D.全样而非抽样正确答案：ABD你选对了14多选(3分)大数据主要有哪几种计算模式：B.图计算C.查询分析计算D.批处理计算正确答案：ABCD你选对了15多选(3分)云计算的典型服务模式包括三种：A.SaaSB.IaaSC.MaaSD.PaaS正确答案：ABD你选对了第2章大数据处理架构Hadoop1单选(2分)启动hadoop所有进程的命令是:A.start-dfs.shB.start-all.shC.start-hadoop.shD.start-hdfs.sh正确答案：B你选对了2单选(2分)以下对Hadoop的说法错误的是：A.Hadoop是基于Java语言开发的，只支持Java语言编程B.Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性C.Hadoop MapReduce是针对谷歌MapReduce的开源实现，通常用于大规模数据集的并行计算D.Hadoop的核心是HDFS和MapReduce正确答案：A你选对了3单选(2分)以下哪个不是Hadoop的特性:A.成本高B.支持多种编程语言C.高容错性正确答案：A你选对了4单选(2分)以下名词解释不正确的是:A.Zookeeper：针对谷歌Chubby的一个开源实现，是高效可靠的协同工作系统B.HBase：提供高可靠性、高性能、分布式的行式数据库，是谷歌BigTable的开源实现C.Hive：一个基于Hadoop的数据仓库工具，用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储D.HDFS：分布式文件系统，是Hadoop项目的两大核心之一，是谷歌GFS的开源实现正确答案：B你选对了5多选(3分)以下哪些组件是Hadoop的生态系统的组件：A.HBaseB.OracleC.HDFSD.MapReduce正确答案：ACD你选对了6多选(3分)以下哪个命令可用来操作HDFS文件:A.hadoop fsB.hadoop dfsC.hdfs fsD.hdfs dfs正确答案：ABD你选对了第3章分布式文件系统HDFS1单选(2分)HDFS的命名空间不包含:A.字节B.文件C.块D.目录正确答案：A你选对了2单选(2分)对HDFS通信协议的理解错误的是:A.客户端与数据节点的交互是通过RPC（Remote Procedure Call）来实现的B.客户端通过一个可配置的端口向名称节点主动发起TCP连接，并使用客户端协议与名称节点进行交互C.名称节点和数据节点之间则使用数据节点协议进行交互D.HDFS通信协议都是构建在IoT协议基础之上的正确答案：D你选对了3单选(2分)采用多副本冗余存储的优势不包含:A.保证数据可靠性B.容易检查数据错误C.加快数据传输速度D.节约存储空间正确答案：D你选对了4单选(2分)假设已经配置好环境变量，启动Hadoop和关闭Hadoop的命令分别是:A.start-dfs.sh，stop-hdfs.shB.start-hdfs.sh，stop-hdfs.shC.start-dfs.sh，stop-dfs.shD.start-hdfs.sh，stop-dfs.sh正确答案：C你选对了5单选(2分)分布式文件系统HDFS采用主从结构模型，由计算机集群中的多个节点构成的，这些节点分为两类，一类存储元数据叫，另一类存储具体数据叫 :A.名称节点，主节点B.从节点，主节点C.名称节点，数据节点D.数据节点，名称节点正确答案：C你选对了6单选(2分)下面关于分布式文件系统HDFS的描述正确的是：A.分布式文件系统HDFS是Google Bigtable的一种开源实现B.分布式文件系统HDFS是谷歌分布式文件系统GFS（Google File System）的一种开源实现C.分布式文件系统HDFS比较适合存储大量零碎的小文件D.分布式文件系统HDFS是一种关系型数据库正确答案：B你选对了7多选(3分)以下对名称节点理解正确的是:A.名称节点作为中心服务器，负责管理文件系统的命名空间及客户端对文件的访问B.名称节点用来负责具体用户数据的存储C.名称节点通常用来保存元数据D.名称节点的数据保存在内存中正确答案：ACD你选对了8多选(3分)以下对数据节点理解正确的是:A.数据节点通常只有一个B.数据节点用来存储具体的文件内容C.数据节点的数据保存在磁盘中D.数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作正确答案：BCD你选对了9多选(3分)HDFS只设置唯一一个名称节点带来的局限性包括:A.集群的可用性B.性能的瓶颈C.命名空间的限制D.隔离问题正确答案：ABCD你选对了10多选(3分)以下HDFS相关的shell命令不正确的是:A.hadoop dfs mkdir <path>：创建<path>指定的文件夹B.hdfs dfs -rm <path>：删除路径<path>指定的文件C.hadoop fs -copyFromLocal <path1> <path2>：将路径<path2>指定的文件或文件夹复制到路径<path1>指定的文件夹中D.hadoop fs -ls <path>：显示<path>指定的文件的详细信息正确答案：AC你选对了第4章分布式数据库HBase1单选(2分)HBase是一种数据库A.行式数据库B.关系数据库C.文档数据库D.列式数据库正确答案：D你选对了2单选(2分)下列对HBase数据模型的描述错误的是:A.每个HBase表都由若干行组成，每个行由行键（row key）来标识B.HBase是一个稀疏、多维度、排序的映射表，这张表的索引是行键、列族、列限定符和时间戳C.HBase中执行更新操作时，会删除数据旧的版本，并生成一个新的版本D.HBase列族支持动态扩展，可很轻松地添加一个列族或列正确答案：C你选对了3单选(2分)下列说法正确的是:A.如果不启动Hadoop，则HBase完全无法使用B.HBase的实现包括的主要功能组件是库函数，一个Master主服务器和一个Region服务器C.如果通过HBase Shell插入表数据，可以插入一行数据或一个单元格数据D.Zookeeper是一个集群管理工具，常用于分布式计算，提供配置维护、域名服务、分布式同步等正确答案：D你选对了4单选(2分)在HBase数据库中，每个Region的建议最佳大小是：A.2GB-4GBB.100MB-200MBC.500MB-1000MBD.1GB-2GB正确答案：D你选对了5单选(2分)HBase三层结构的顺序是:A.Zookeeper文件，.MEATA.表，-ROOT-表B.-ROOT-表，Zookeeper文件，.MEATA.表C.Zookeeper文件，-ROOT-表，.MEATA.表D..MEATA.表，Zookeeper文件，-ROOT-表正确答案：C你选对了6单选(2分)客户端是通过级寻址来定位Region:A.三B.二C.一D.四正确答案：A你选对了7单选(2分)关于HBase Shell命令解释错误的是:A.create：创建表B.put：向表、行、列指定的单元格添加数据C.list：显示表的所有数据D.get：通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值正确答案：C你选对了8多选(3分)下列对HBase的理解正确的是：A.HBase是针对谷歌BigTable的开源实现B.HBase是一种关系型数据库，现成功应用于互联网服务领域C.HBase是一个行式分布式数据库，是Hadoop生态系统中的一个组件D.HBase多用于存储非结构化和半结构化的松散数据正确答案：AD你选对了9多选(3分)HBase和传统关系型数据库的区别在于哪些方面:A.数据操作B.数据索引C.数据模型D.存储模式正确答案：ABCD你选对了10多选(3分)访问HBase表中的行，有哪些方式:A.通过某列的值区间B.全表扫描C.通过一个行健的区间来访问D.通过单个行健访问正确答案：BCD你选对了第5章 NoSQL数据库1单选(2分)下列关于NoSQL数据库和关系型数据库的比较，不正确的是：A.NoSQL数据库很容易实现数据完整性，关系型数据库很难实现数据完整性B.NoSQL数据库缺乏统一的查询语言，而关系型数据库有标准化查询语言C.NoSQL数据库的可扩展性比传统的关系型数据库更好D.NoSQL数据库具有弱一致性，关系型数据库具有强一致性正确答案：A你选对了2单选(2分)以下对各类数据库的理解错误的是:A.键值数据库的键是一个字符串对象，值可以是任意类型的数据，比如整型和字符型等B.文档数据库的数据是松散的，XML和JSON 文档等都可作为数据存储在文档数据库中C.图数据库灵活性高，支持复杂的图算法，可用于构建复杂的关系图谱D.HBase数据库是列族数据库，可扩展性强，支持事务一致性正确答案：D你选对了3单选(2分)下列数据库属于文档数据库的是:A.MySQLB.RedisC.MongoDBD.HBase正确答案：C你选对了4单选(2分)NoSQL数据库的三大理论基石不包括:A.最终一致性B.BASEC.ACIDD.CAP正确答案：C你选对了5多选(3分)关于NoSQL数据库和关系数据库，下列说法正确的是：A.NoSQL数据库可支持超大规模数据存储，具有强大的横向扩展能力B.NoSQL数据库和关系数据库各有优缺点，但随着NoSQL的发展，终将取代关系数据库C.大多数NoSQL数据库很难实现数据完整性D.关系数据库有关系代数理论作为基础，NoSQL数据库没有统一的理论基础正确答案：ACD你选对了6多选(3分)NoSQL数据库的类型包括：A.键值数据库B.列族数据库C.文档数据库D.图数据库正确答案：ABCD你选对了7多选(3分)CAP是指:A.一致性B.可用性C.持久性D.分区容忍性正确答案：ABD你选对了8多选(3分)NoSQL数据库的BASE特性是指:A.软状态B.持续性C.最终一致性D.基本可用正确答案：ACD你选对了第6章云数据库1单选(2分)下列Amazon的云数据库属于关系数据库的是：A.Amazon SimpleDBB.Amazon DynamoDBC.Amazon RDSD.Amazon Redshift正确答案：C你选对了2单选(2分)下列关于UMP系统的说法不正确的是:A.Controller服务器向UMP集群提供各种管理服务，实现集群成员管理、元数据存储等功能B.Agent服务器部署在运行MySQL进程的机器上，用来管理每台物理机上的MySQL实例C.UMP系统是低成本和高性能的MySQL云数据库方案D.Mnesia是UMP系统的一个组件，是一个分布式数据库管理系统，且不支持事务正确答案：D你选对了3多选(3分)UMP依赖的开源组件包括A.LVSB.ZooKeeperC.MnesiaD.RabbitMQ正确答案：ABCD你选对了4多选(3分)在UMP系统中，Zookeeper主要发挥的作用包括:A.监控所有MySQL实例B.负责集群负载均衡C.提供分布式锁，选出一个集群的“总管”D.作为全局的配置服务器正确答案：ACD你选对了5多选(3分)UMP系统设计了哪些机制来保证数据安全:A.记录用户操作日志B.数据访问IP白名单C.SSL数据库连接D.SQL拦截正确答案：ABCD你选对了第7章 MapReduce1单选(2分)下列说法错误的是:A.Map函数将输入的元素转换成<key,value>形式的键值对B.Hadoop框架是用Java实现的，MapReduce应用程序则一定要用Java来写C.MapReduce框架采用了Master/Slave架构，包括一个Master和若干个SlaveD.不同的Map任务之间不能互相通信正确答案：B你选对了2单选(2分)在使用MapReduce程序WordCount进行词频统计时，对于文本行“hello hadoop hello world”，经过WordCount程序的Map函数处理后直接输出的中间结果，应是下面哪种形式：A.<"hello",1,1>、<"hadoop",1>和<"world",1>B.<"hello",2>、<"hadoop",1>和<"world",1>C.<"hello",<1,1>>、<"hadoop",1>和<"world",1>D.<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>正确答案：D你选对了3单选(2分)对于文本行“hello hadoop hello world”，经过WordCount的Reduce函数处理后的结果是:A.<"hello",<1,1>><"hadoop",1><"world",1>B.<"hello",1><"hello",1><"hadoop",1><"world",1>C.<"hello",1,1><"hadoop",1><"world",1>D.<"hello",2><"hadoop",1><"world",1>正确答案：B你选对了4多选(3分)下列关于传统并行计算框架（比如MPI）和MapReduce并行计算框架比较正确的是：A.前者所需硬件价格贵，可扩展性差，后者硬件便宜，扩展性好B.前者相比后者学习起来更难C.前者是共享式(共享内存/共享存储)，容错性差，后者是非共享式的，容错性好D.前者适用于实时、细粒度计算、计算密集型，后者适用于批处理、非实时、数据密集型正确答案：ABCD你选对了5多选(3分)MapReduce1.0的体系结构主要由哪几个部分组成:A.JobTrackerB.TaskTrackerC.ClientD.Task正确答案：ABCD你选对了第8章 Hadoop再探讨1单选(2分)下列说法正确的是:A.HDFS HA可用性不好B.第二名称节点是热备份C.HDFS HA提供高可用性，可实现可扩展性、系统性能和隔离性D.第二名称节点无法解决单点故障问题正确答案：D你选对了2单选(2分)HDFS Federation设计不能解决“单名称节点”存在的哪个问题:A.单点故障问题B.HDFS集群扩展性C.性能更高效D.良好的隔离性正确答案：A你选对了3多选(3分)下列哪些是Hadoop1.0存在的问题：A.抽象层次低B.表达能力有限C.开发者自己管理作业之间的依赖关系D.执行迭代操作效率低正确答案：ABCD你选对了下列对Hadoop各组件的理解正确的是:A.Oozie:工作流和协作服务引擎B.Pig：处理大规模数据的脚本语言C.Kafka：分布式发布订阅消息系统D.Tez：支持DAG作业的计算框架正确答案：ABCD你选对了5多选(3分)对新一代资源管理调度框架YARN的理解正确的是:A.YARN既是资源管理调度框架，也是一个计算框架B.MapReduce2.0是运行在YARN之上的计算框架，由YARN来为MapReduce提供资源管理调度服务C.YARN可以实现“一个集群多个框架”，即在一个集群上部署一个统一的资源调度管理框架D.YARN的体系结构包含三个组件：ResourceManager，NodeManager，ApplicationMaster正确答案：BCD你选对了第9章数据仓库Hive1单选(2分)下列有关Hive和Impala的对比错误的是:A.Hive与Impala中对SQL的解释处理比较相似，都是通过词法分析生成执行计划B.Hive与Impala使用相同的元数据C.Hive适合于长时间的批处理查询分析，而Impala适合于实时交互式SQL查询D.Hive在内存不足以存储所有数据时，会使用外存，而Impala也是如此正确答案：D你选对了2单选(2分)下列关于Hive基本操作命令的解释错误的是:A.create table if not exists usr(id bigint,name string,age int);//如usr表不存在，创建表usr，含三个属性id,name,ageB.load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表C.create database userdb;//创建数据库userdbD.insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据正确答案：B你选对了下列说法正确的是：A.Impala和Hive、HDFS、HBase等工具可统一部署在一个Hadoop平台上B.数据仓库Hive不需要借助于HDFS就可完成数据的存储C.Hive本身不存储和处理数据，依赖HDFS存储数据，依赖MapReduce处理数据D.HiveQL语法与传统的SQL语法很相似正确答案：ACD你选对了4多选(3分)Impala主要由哪几个部分组成:A.HiveB.ImpaladC.State StoreD.CLI正确答案：BCD你选对了5多选(3分)以下属于Hive的基本数据类型是:A.BINARYB.STRINGC.FLOATD.TINYINT正确答案：ABCD你选对了第10章 Spark1单选(2分)Spark SQL目前暂时不支持下列哪种语言:A.PythonB.JavaC.ScalaD.Lisp正确答案：D你选对了2单选(2分)RDD操作分为转换（Transformation）和动作（Action）两种类型，下列属于动作（Action）类型的操作的是:A.groupByB.filterC.countD.map正确答案：C你选对了3单选(2分)下列说法错误的是：A.在选择Spark Streaming和Storm时，对实时性要求高（比如要求毫秒级响应）的企业更倾向于选择流计算框架StormB.RDD采用惰性调用，遇到“转换(Transformation)”类型的操作时，只会记录RDD生成的轨迹，只有遇到“动作(Action)”类型的操作时才会触发真正的计算C.Spark支持三种类型的部署方式：Standalone，Spark on Mesos，Spark on YARND.RDD提供的转换接口既适用filter等粗粒度的转换，也适合某一数据项的细粒度转换正确答案：D你选对了4单选(2分)下列关于常见的动作（Action）和转换（Transformation）操作的API解释错误的是:A.filter(func)：筛选出满足函数func的元素，并返回一个新的数据集B.map(func)：将每个元素传递到函数func中，并将结果返回为一个新的数据集C.count()：返回数据集中的元素个数D.take(n)：返回数据集中的第n个元素正确答案：D你选对了5单选(2分)下列大数据处理类型与其对应的软件框架不匹配的是:A.复杂的批量数据处理：MapReduceB.基于历史数据的交互式查询：ImpalaC.基于实时数据流的数据处理：StormD.图结构数据的计算：Hive正确答案：D你选对了6多选(3分)Apache软件基金会最重要的三大分布式计算系统开源项目包括：A.OracleB.HadoopC.StormD.Spark正确答案：ABC你选对了7多选(3分)Spark的主要特点包括:A.运行模式多样B.运行速度快C.通用性好D.容易使用正确答案：ABCD你选对了8多选(3分)下列关于Scala的说法正确的是:A.Scala运行于Java平台，兼容现有的Java程序B.Scala具备强大的并发性，支持函数式编程C.Scala是一种多范式编程语言D.Scala是Spark的主要编程语言，但Spark还支持Java、Python、R作为编程语言正确答案：ABCD你选对了9多选(3分)Spark的运行架构包括:A.运行作业任务的工作节点 Worker NodeB.每个工作节点上负责具体任务的执行进程 ExecutorC.每个应用的任务控制节点 DriverD.集群资源管理器 Cluster Manager正确答案：ABCD你选对了第11章流计算1单选(2分)流计算秉承一个基本理念，即数据的价值随着时间的流逝而，如用户点击流：A.降低B.不确定C.不变D.升高正确答案：A你选对了2单选(2分)Hadoop运行的是MapReduce任务，类似地，Storm运行的任务叫做A.SpoutB.BoltC.TupleD.Topology正确答案：D你选对了3多选(3分)对于一个流计算系统来说，它应达到如下哪些需求:A.海量式B.高性能C.分布式D.实时性正确答案：A、B、C、D你选对了4多选(3分)数据采集系统的基本架构包括哪些部分:A.ControllerB.StoreC.AgentD.Collector正确答案：B、C、D你选对了5多选(3分)以下哪些是开源的流计算框架:A.Facebook PumaB.Yahoo! S4C.IBM InfoSphere StreamsD.Twitter Storm正确答案：B、D你选对了6多选(3分)下面哪几个属于Storm中的Stream Groupings的分组方式:A.按照字段分组B.广播发送C.随机分组D.全局分组正确答案：A、B、C、D你选对了第12章 Flink1单选(2分)以下哪个不是Flink的优势：A.同时支持高吞吐、低延迟、高性能B.不支持增量迭代C.同时支持流处理和批处理D.支持有状态计算正确答案：B你选对了2单选(2分)在Flink中哪个是基于批处理的图计算库：A.SQL&Table库B.FlinkMLC.GellyD.CEP正确答案：C你选对了3多选(3分)下面关于Flink的说法正确的是：A.Flink起源于Stratosphere 项目，该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的B.Flink可以同时支持实时计算和批量计算C.Flink不是Apache软件基金会的项目D.Flink是Apache软件基金会的5个最大的大数据项目之一正确答案：A、B、D你选对了4多选(3分)Flink的主要特性包括：A.精确一次的状态一致性保障B.批流一体化C.精密的状态管理D.事件时间支持正确答案：A、B、C、D你选对了5多选(3分)下面论述正确的是：A.Spark Streaming通过采用微批处理方法实现高吞吐和容错性，但是牺牲了低延迟和实时处理能力B.Storm虽然可以做到低延迟，但是无法实现高吞吐，也不能在故障发生时准确地处理计算状态C.流处理架构需要具备低延迟、高吞吐和高性能的特性，而目前从市场上已有的产品来看，只有Flink 可满足要求D.Flink实现了Google Dataflow流计算模型，是一种兼具高吞吐、低延迟和高性能的实时流计算框架，并且同时支持批处理和流处理正确答案：A、B、C、D你选对了6多选(3分)Flink常见的应用场景包括：A.数据流水线应用B.事件驱动型应用C.地图应用D.数据分析应用正确答案：A、B、D你选对了7多选(3分)Flink核心组件栈分为哪三层：A.物理部署层B.Runtime核心层C.Core层D.API&Libraries层正确答案：A、B、D你选对了8多选(3分)Flink有哪几种部署模式：A.运行在GCE（谷歌云服务）和EC2（亚马逊云服务）上B.YARN集群模式C.Standalone集群模式D.Local模式正确答案：A、B、C、D你选对了9多选(3分)Flink系统主要由两个组件组成，分别为:A.JobManagerB.JobSchedulerC.TaskSchedulerD.TaskManager正确答案：A、D你选对了10多选(3分)在编程模型方面，Flink 提供了不同级别的抽象，以开发流或批处理作业，主要包括哪几个级别的抽象：A.DataStream API（有界或无界流数据）以及 DataSet API（有界数据集）B.Table APIC.状态化的数据流接口D. SQL正确答案：A、B、C、D你选对了第13章图计算1单选(2分)Pregel是一种基于模型实现的并行图处理系统:A.TSPB.STPC.BSPD.SBP正确答案：C你选对了2单选(2分)谷歌在后Hadoop时代的新“三驾马车”不包括:A.CaffeineB.DremelC. PregelD.Hama正确答案：D你选对了3多选(3分)下列哪些是以图顶点为中心的，基于消息传递批处理的并行图计算框架：A.HamaB.GiraphC.PregelD.Neo4j正确答案：A、B、C你选对了4多选(3分)以下关于Pregel图计算框架说法正确的是:A.通常只对满足交换律和结合律的操作才会开启Combiner功能B.Pregel采用检查点机制来实现容错C.对于全局拓扑改变，Pregel采用了惰性协调机制D.Aggregator提供了一种全局通信、监控和数据查看的机制正确答案：A、B、C、D你选对了第14章大数据在不同领域的应用1单选(2分)下列说法错误的是：A.ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品B.基于用户的协同过滤算法（简称UserCF算法）是目前业界应用最多的算法erCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品erCF算法的推荐更偏向社会化，而ItemCF算法的推荐更偏向于个性化正确答案：B你选对了2多选(3分)推荐方法包括哪些类型:A.专家推荐B.协同过滤推荐C.基于内容的推荐D.基于统计的推荐正确答案：A、B、C、D你选对了期末试卷1单选(2分)数据产生方式的变革主要经历了三个阶段，以下哪个不属于这三个阶段：A.运营式系统阶段B.感知式系统阶段C.数据流阶段D.用户原创内容阶段正确答案：C你选对了2单选(2分)第三次信息化浪潮的发生标志是以下哪种技术的普及：A.互联网B.CPUC.物联网、云计算和大数据D.个人计算机正确答案：C你选对了3单选(2分)在Flink中哪个是基于批处理的图计算库：A.SQL&Table库B.CEPC. GellyD. FlinkML正确答案：C你选对了4单选(2分)Hadoop的两大核心是和A.MapReduce; HBaseB. HDFS; HBaseC.HDFS; MapReduceD.GFS; MapReduce正确答案：C你选对了5单选(2分)HDFS默认的一个块大小是A.64MBB.8KBC. 32KBD.16KB正确答案：A你选对了6单选(2分)在分布式文件系统HDFS中，负责数据的存储和读取:A.数据节点B.第二名称节点C.名称节点D.主节点正确答案：A你选对了7单选(2分)上传当前目录下的本地文件file.txt到分布式文件系统HDFS的“/path”目录下的Shell命令是：A.hdfs dfs -put /path file.txtB.hadoop dfs -put /path file.txtC.hdfs fs -put file.txt /pathD.hdfs dfs -put file.txt /path正确答案：D你选对了8单选(2分)在HDFS根目录下创建一个文件夹/test，且/test文件夹内还包含一个文件夹dir，正确的shell命令是:A.hadoop fs -mkdir -p /test/dirB.hdfs fs -mkdir -p /test/dirC.hadoop dfs -mkdir /test/dirD.hdfs dfs *mkdir -p /test/dir正确答案：A你选对了9单选(2分)下列有关HBase的说法正确的是：A.在向数据库中插入记录时，HBase和关系数据库一样，每次都是以“行”为单位把整条记录插入数据库B.HBase是针对谷歌BigTable的开源实现，是高可靠、高性能的图数据库C.HBase是一种NoSQL数据库。

林子雨大数据技术原理与应用答案(全)

林子雨大数据技术原理及应用课后题答案大数据第一章大数据概述课后题 (1)大数据第二章大数据处理架构Hadoop课后题 (5)大数据第三章Hadoop分布式文件系统课后题 (10)大数据第四章分布式数据库HBase课后题 (16)大数据第五章NoSQl数据库课后题 (22)大数据第六章云数据库课后作题 (28)大数据第七章MapReduce课后题 (34)大数据第八章流计算课后题 (41)大数据第九章图计算课后题 (50)大数据第十章数据可视化课后题 (53)大数据第一章课后题——大数据概述1.试述信息技术发展史上的3次信息化浪潮及其具体内容。

第一次信息化浪潮1980年前后个人计算机开始普及，计算机走入企业和千家万户。

代表企业：Intel，AMD，IBM，苹果，微软，联想，戴尔，惠普等。

第二次信息化浪潮1995年前后进入互联网时代。

代表企业：雅虎，谷歌阿里巴巴，百度，腾讯。

第三次信息浪潮2010年前后，云计算大数据，物联网快速发展，即将涌现一批新的市场标杆企业。

2.试述数据产生方式经历的几个阶段。

经历了三个阶段:运营式系统阶段数据伴随一定的运营活动而产生并记录在数据库。

用户原创内容阶段Web2.0时代。

感知式系统阶段物联网中的设备每时每刻自动产生大量数据。

3.试述大数据的4个基本特征。

数据量大（Volume）据类型繁多（Variety）处理速度快（Velocity）价值密度低（Value）4.试述大数据时代的“数据爆炸”特性。

大数据摩尔定律：人类社会产生的数据一直都在以每年50%的速度增长，即每两年就增加一倍。

5.科学研究经历了那四个阶段？实验比萨斜塔实验理论采用各种数学，几何，物理等理论，构建问题模型和解决方案。

例如：牛一，牛二，牛三定律。

计算设计算法并编写相应程序输入计算机运行。

数据以数据为中心，从数据中发现问题解决问题。

6.试述大数据对思维方式的重要影响。

全样而非抽样效率而非精确相关而非因果7.大数据决策与传统的基于数据仓库的决策有什么区别？数据仓库以关系数据库为基础，在数据类型和数据量方面存在较大限制。

大数据技术原理与应用第三版核心知识点

大数据技术原理与应用第三版核心知识点一、大数据概述1. 大数据定义大数据是指规模巨大、种类繁多的数据集合，这些数据量大到传统数据处理工具无法处理。

2. 大数据特点- 五V特点：大数据具有Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）、Veracity（真实性）五个特点。

- 非结构化数据：大部分大数据都是非结构化数据，需要通过特定的技术进行处理和分析。

二、大数据技术基础1. 分布式存储- Hadoop分布式文件系统HDFS：将大数据存储在多个节点上，提高了数据的可靠性和并行处理能力。

2. 分布式计算- MapReduce计算模型：将数据分片并行处理，提高了数据处理的速度和效率。

3. 数据清洗和预处理- 数据清洗：去除噪音数据、填补缺失值、处理异常值等。

- 数据预处理：将数据转换成可供分析的格式，如规范化、归一化等。

三、大数据存储技术1. NoSQL数据库- HBase：面向列的分布式数据库，适用于大规模结构化数据存储。

- MongoDB：面向文档的数据库，适用于存储半结构化数据。

2. 大数据文件格式- Parquet、ORC等列式存储格式：适用于大规模数据存储和分析，能够减少I/O操作。

四、大数据处理技术1. 数据挖掘- 聚类分析、分类分析、关联规则挖掘、异常检测等。

2. 机器学习- 逻辑回归、决策树、支持向量机、神经网络等机器学习算法在大数据中的应用。

3. 实时流式处理- Storm、Flink等实时流式处理框架，在大数据实时处理中的应用。

4. 图计算- 图数据库、图计算框架如Neo4j、GraphX等在大数据图计算中的应用。

五、大数据分析与应用1. 数据可视化- Tableau、Power BI等工具的应用，将大数据分析结果直观展现。

2. 业务智能- 利用大数据分析结果进行商业决策和趋势预测。

3. 个性化推荐系统- 利用用户行为数据进行个性化推荐，提升用户体验。

《大数据技术原理与应用》第二版-第一章大数据概述

《⼤数据技术原理与应⽤》第⼆版-第⼀章⼤数据概述
数据量⼤
数据类型繁多
处理速度快
价值密度低
研究变化经历了从实验到理论到计算再到数据
思维的变化
1. 全样⽽⾮抽样
2. 效率⽽⾮精准
3. 相关⽽⾮因果
1. 批处理计算，主要针对于⼤规模的数据批量处理。

MapReduce⽤于⼤规模的数据集（1TB）的并⾏运算。

Spark是⼀个针对超⼤数据集合低延时的集群分布式计算系
统，⽐MapReduce快许多。

2. 流计算，流数据或数据流是指在时间分布和数量上⽆限的⼀系列动态数据集合，必须采⽤实时计算⽅式给出秒级响应。

商业级平台：Streams、StreamBase；第⼆类
是开源的计算平台，Storm、Yahoo、S4、Spark Streaming
3. 图计算。

Pregel是实现并⾏图处理系统，主要⽤于图遍历、最短路径、PageRank计算，还有其他Giraph、GraphX、PowerGraph、GoldenOrb、Hama
4. 查询分析计算，需要提供实时或准实时的响应，⾕歌的Dremel、Impala、Hive、Cassandra
1. 云计算包括三种典型的服务模式，IaaS（基础设施服务即计算资源和存储）、PaaS（平台即服务）、SaaS（软件即服务）
2. 公有云、私有云、混合云
3. 云计算关键技术：包括虚拟技术、分布式存储、分布式计算、多租户。

4. 物联⽹是物物相连的互联⽹的延伸，他利⽤局部⽹络或者互联⽹等通信技术把传感器、控制器、机器、⼈员和物通过新的⽅式连接在⼀起，形成了⼈与物、物与物相
连，实现信息化和远程管理控制。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

表1-1 三次信息化浪潮
信息化浪潮发生时间
标志
解决问题
代表企业
第一次浪潮
1980年前后
个人计算机
Intel、AMD、IBM 信息处理、苹果、微软、联
想、戴尔、惠普等
第二次浪潮
1995年前后
互联网
雅虎、谷歌、阿里信息传输巴巴、、腾讯等第三次浪潮
2010年前后
物联网、云计算和大数据
利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等，实现对结构化、半结构化和非结构化海量数据的存储和管理
利用分布式并行编程模型和计算框架，结合机器学习和数据挖掘算法，实现对海量数据的处理和分析；对分析结果进行可视化呈现，帮助人们更好地理解数据、分析数据
在从大数据中挖掘潜在的巨大商业价值和学术价值的同时，构建隐私数据保护体系和数据安全体系，有效保护个人隐私和数据安全
1.5大数据关键技术
两大核心技术
大数据
分布式存储
分布式处理
GFS\HDFS
在社会发展方面，大数据决策逐渐成为一种新的决策方式，大数据应用有力促进了信息技术与各行业的深度融合，大数据开发大大推动了新技术和新应用的不断涌现
在就业市场方面，大数据的兴起使得数据科学家成为热门职业
在人才培养方面，大数据的兴起，将在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制
“谷歌流感趋势”，通过跟踪搜索词相关数据来判断全美地区的流感情况
1.5大数据关键技术
技术层面数据采集
数据存储和管理
数据处理与分析
数据隐私和安全
表1-5 大数据技术的不同层面及其功能
功能
利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等，抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础；或者也可以把实时采集的数据作为流计算系统的输入，进行实时处理分析
1.3大数据的影响
图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以来，在科学研究上，先后历经了实验、理论、计算和数据四种范式
实验
理论
计算
数据
1.3大数据的影响
在思维方式方面，大数据完全颠覆了传统的思维方式：全样而非抽样效率而非精确相关而非因果
1.3大数据的影响
1.2.2 数据类型繁多
大数据是由结构化和非结构化数据组成科学研究
的
–基因组 –LHC 加速器
– 10%的结构化数据，存储在数据库中 –地球与空间探测
– 90%的非结构化数据，它们与人类信息密切相关
企业应用 –Email、文档、文件 –应用日志
–交易记录
Web 1.0数据
–文本
–图像
–视频
Web 2.0数据
1.1.2信息科技为大数据时代提供技术支撑
2. CPU处理能力大幅提升
图1-3 CPU晶体管数目随时间变化情况
1.1.2信息科技为大数据时代提供技术支撑
摩尔定律：CPU性能每隔18个月提高一倍，价格下降一半
1.1.2信息科技为大数据时代提供技术支撑
3. 网络带宽不断增加
图1-4 网络带宽随时间变化情况
–查询日志/点击流
–Twitter/ Blog / SNS
–Wiki
1.2.3 处理速度快
从数据的生成到消耗，时间窗口非常小，可用于生成决策的时间非常少
1秒定律：这一点也是和传统的数据挖掘技术有着本质的不同
Байду номын сангаас
1.2.4 价值密度低
价值密度低，商业价值高以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒，但是具有很高的商业价值
第一章大数据概述
提纲
1.1 大数据时代 1.2 大数据概念 1.3 大数据的影响 1.4 大数据的应用 1.5 大数据关键技术 1.6 大数据计算模式 1.7 大数据产业 1.8 大数据与云计算、物联网的
关系
1.1大数据时代
1.1.1第三次信息化浪潮
根据IBM前首席执行官郭士纳的观点，IT领域每隔十五年就会迎来一次重大变革
1.1.3数据产生方式的变革促成大数据时代的来临
图1-5 数据产生方式的变革
1.1.4 大数据的发展历程
阶段
表1-2 大数据发展的三个阶段
时间
内容
第一阶段：萌芽期
上世纪90年代至本世纪初
随着数据挖掘理论和数据库技术的逐步成熟，一批商业智能工具和知识管理技术开始被应用，如数据仓库、专家系统、知识管理系统等。
1.4大数据的应用
大数据无处不在，包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹
典型的大数据应用实例
Kevin Spacey
David Fincher
大数据分析
英国同名小说《纸牌屋》
风靡全球的美剧《纸牌屋》
典型的大数据应用实例
从谷歌流感趋势看大数据的应用价值
第二阶段：成熟期
第三阶段：大规模应用期
Web2.0应用迅猛发展，非结构化数据大量产生
，传统处理方法难以应对，带动了大数据技术
本世纪前十年
的快速突破，大数据解决方案逐渐走向成熟，形成了并行计算与分布式系统两大核心技术，
谷歌的GFS和MapReduce等大数据技术受到追
捧，Hadoop平台开始大行其道
2010年以后
大数据应用渗透各行各业，数据驱动决策，信息社会智能化程度大幅提高
1.2大数据概念（4V）
1.2.1 数据量大
根据IDC作出的估测，数据一直都在以每年50%的速度增长，也就是说每两年就增长一倍（大数据摩尔定律）人类在最近两年产生的数据量相当于之前产生的全部数据量预计到2020年，全球将总共拥有35ZB的数据量，相较于2010年，数据量将增长近30倍
信息爆炸
将涌现出一批新的市场标杆企业
1.1.2信息科技为大数据时代提供技术支撑
1. 存储设备容量不断增加，速度不断提升，价格却在不断下降
图1-1 存储价格随时间变化情况
1.2信息科技为大数据时代提供技术支撑
来自斯威本科技大学（Swinburne University of Technology）的研究团队，在2013年6月29日刊出的《自然通讯（Nature Communications）》杂志的文章中，描述了一种全新的数据存储方式，可将1PB（1024TB）的数据存储到一张仅DVD大小的聚合物碟片上。