大数据课堂测验2

合集下载

河北省2023-2024学年高三上学期大数据应用调研联合测评(Ⅱ)政治答案

河北省2023-2024学年高三上学期大数据应用调研联合测评(Ⅱ)政治答案

河北省2024届高三年级大数据应用调研联合测评(Ⅱ)思想政治注意事项:1.答卷前,考生务必将自己的姓名、班级和考号填写在答题卡上。

2.回答选择题时,选出每小题答案后,用2B铅笔把答题卡上对应题目的答案标号涂黑,如需改动,用橡皮擦干净后,再选涂其他答案标号。

回答非选择题时,将答案写在答题卡上。

写在本试卷上无效。

3.考试结束后,将本试卷和答题卡一并交回。

一、选择题:本题共16小题,每小题3分,共48分,在每小题给出的四个选项中,只有一项是符合题目要求的。

【1题答案】【答案】D【2题答案】【答案】C【3题答案】【答案】D【4题答案】【答案】B【5题答案】【答案】C【6题答案】【答案】D【7题答案】【答案】A【8题答案】【答案】C【9题答案】【答案】D【10题答案】【答案】D【11题答案】【答案】B【12题答案】【答案】D【13题答案】【答案】D【14题答案】【答案】A【15题答案】【答案】B【16题答案】【答案】C二、非选择题:本题共4小题,共52分。

【17题答案】【答案】17. 现状:2016年以来,我国的数字经济规模持续增加,增长率高但有波动;我国数字经济在GDP 中所占比重逐年增加但仍低于发达国家;全球数字经济发展不平衡,存在数字鸿沟,表明我国数字经济发展还有很大的空间和潜力。

措施:①我国大力发展数字经济,推动数字技术和实体经济深度融合。

②利用经济全球化的机遇,学习借鉴发达国家的经验,并积极开展交流合作,促进我国数字经济发展,为世界经济增长提供新动能。

18. ①利用数字技术,推进农业供给侧结构性改革,提高农业生产效率,助力农业增效。

②利用农村大数据,对农产品溯源追踪,保障农产品质量安全,助力农业提质。

③大力发展农村电商、旅游,积极培育发展新业态,推动产业融合,促进农民创业就业,培育新型农业经营主体,助力农民增收。

④利用数字技术,建设数字农村,缩小城乡差距,助力农民生活质量提升。

【18题答案】【答案】①发挥了基层党组织的战斗堡垒作用和党员的先锋模范作用,带领村民践行了全过程人民民主;②发挥基层群众自治组织的作用,坚持民主协商、民主决策、民主管理,营造共建共治的氛围;③坚持人民的主体地位,依靠群众组织好赛事;④当地政府依法行政,转变政府职能,建设服务型政府,为赛事举办提供了服务保障。

大数据原理测验2(含答案)

大数据原理测验2(含答案)

大数据原理测验1一、判断题1. 在噪声数据中,波动数据比离群点数据偏离整体水平更大。

(F )2. 对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。

因此,大数据收集的信息量要尽量精确。

( F )3. 一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库。

因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点。

(T )4. 具备很强的报告撰写能力,可以把分析结果通过文字、图表、可视化等多种方式清晰地展现出来,能够清楚地论述分析结果及可能产生的影响,从而说服决策者信服并采纳其建议,是数据分析能力对大数据人才的基本要求。

( F )5. 谷歌流感趋势充分体现了数据重组和扩展对数据价值的重要意义。

(F )6. 数据资产型企业产品线的盈利,主要通过提供收费服务来获取(F )7. 在大数据的荡畴内,应该把用户视为互联网中的数据分子,独立、细致地对其行为进行(F )8. 啤酒与尿布的经典案例,充分体现了实验思维在大数据分析理念中的重要性。

(F)9. 对于企业来说,给用户进行各种促销或者实施运营策略的时机也比较重要,而且对不同兴趣偏好的用户最好集中处理。

(F )二、简答题题目1:MapReduce相较于传统的并行计算框架有什么优势?答:1.共享式,容错性好2.普通PC机,便宜,扩容性好3.批处理、非实时、数据密集型题目2:简述MapReduce中的核心环节Shuffle过程?答:所谓Shuffle,是指Map输出结果进行分区、排序、合并等处理并交给Reduce的过程因此Shuffle过程分为Map端的操作和Reduce端的操作题目3:简述Map任务的数量的设置Hadoop为每个split创建一个Map任务,split的多少决定了Map任务的数目。

大多数情况下,理想的分片大小是一个HDFS块题目4:简述Reduce任务的数量的设置最优的Reduce任务个数取决于集群中可用的Reduce的任务槽的数目通常设置比Reduce任务槽数目稍微小一些的Reduce任务个数(这样可以预留一些系统资源处理可能发生错误)。

大数据考试题库和答案

大数据考试题库和答案

大数据考试题库和答案一、单项选择题1. 大数据的4V特征不包括以下哪一项?A. Volume(体量大)B. Velocity(速度快)C. Variety(种类多)D. Validity(有效性)答案:D2. 以下哪一项不是Hadoop生态系统中的组件?A. HDFSB. MapReduceC. SparkD. Cassandra答案:D3. 在大数据中,以下哪个术语指的是数据的存储格式?A. ETLB. OLAPC. NoSQLD. Hadoop答案:C4. 以下哪个不是大数据技术的优势?A. 处理速度快B. 成本低C. 存储容量小D. 可扩展性高答案:C5. 大数据技术可以应用于以下哪个领域?A. 金融B. 医疗C. 教育D. 所有以上选项答案:D二、多项选择题1. 大数据技术可以解决以下哪些问题?A. 数据挖掘B. 数据存储C. 数据分析D. 数据可视化答案:ABCD2. 以下哪些是大数据技术的关键组成部分?A. 分布式存储B. 分布式计算C. 数据库D. 机器学习答案:ABCD3. 在大数据领域,以下哪些是常见的数据源?A. 社交媒体B. 传感器数据C. 交易记录D. 网络日志答案:ABCD三、判断题1. 大数据技术只能处理结构化数据。

(错误)2. 机器学习是大数据技术的一个重要应用领域。

(正确)3. Hadoop是一个开源的大数据存储和处理框架。

(正确)4. NoSQL数据库不支持事务处理。

(错误)5. 大数据技术可以完全替代传统的数据库技术。

(错误)四、简答题1. 请简述大数据的4V特征。

答案:大数据的4V特征包括:- Volume(体量大):数据量巨大,通常以TB或PB为单位。

- Velocity(速度快):数据生成和处理的速度非常快。

- Variety(种类多):数据类型多样化,包括结构化、半结构化和非结构化数据。

- Veracity(真实性):数据的质量和准确性。

2. 请解释什么是ETL过程。

大数据的考试题及答案

大数据的考试题及答案

大数据的考试题及答案一、单选题(每题2分,共10分)1. 大数据的“4V”特征不包括以下哪一项?A. Volume(体量大)B. Velocity(速度快)C. Variety(种类多)D. Visualization(可视化)答案:D2. 在大数据技术中,Hadoop生态系统中的核心组件是:A. HBaseB. HiveC. MapReduceD. Spark答案:C3. 下列哪个不是大数据存储技术的特点?A. 高扩展性B. 高可靠性C. 低延迟性D. 成本效益答案:C4. 大数据的分析方法中,哪种方法可以发现数据中的隐藏模式和关联规则?A. 描述性分析B. 诊断性分析C. 预测性分析D. 规定性分析答案:C5. 在大数据领域,以下哪个术语与数据清洗无关?A. Data scrubbingB. Data cleansingC. Data integrationD. Data anonymization答案:D二、多选题(每题3分,共15分)1. 大数据在商业智能中的应用包括:A. 客户细分B. 市场趋势分析C. 风险管理D. 产品推荐答案:ABCD2. 大数据技术可以支持以下哪些类型的分析?A. 实时分析B. 批处理分析C. 预测分析D. 描述性分析答案:ABCD3. 在大数据架构中,以下哪些组件是常见的?A. 数据存储层B. 数据处理层C. 数据应用层D. 数据安全层答案:ABCD4. 大数据的挑战包括:A. 数据隐私B. 数据安全C. 数据质量D. 技术复杂性答案:ABCD5. 大数据技术在以下哪些行业中有广泛应用?A. 金融B. 医疗保健C. 零售D. 教育答案:ABCD三、判断题(每题1分,共5分)1. 大数据只能通过分布式计算框架来处理。

(错误)2. 大数据的分析结果可以帮助企业做出更明智的决策。

(正确)3. 大数据技术的发展与云计算无关。

(错误)4. 数据挖掘是大数据技术的一部分。

大数据考试题目及答案

大数据考试题目及答案

大数据考试题目及答案一、单项选择题(每题2分,共10题)1. 大数据的4V特征中,不包括以下哪一项?A. Volume(体量大)B. Velocity(速度快)C. Variety(种类多)D. Validity(准确性)答案:D2. Hadoop的核心组件包括以下哪些?A. HDFSB. MapReduceC. YARND. 以上都是答案:D3. 下列哪个不是大数据的存储技术?A. NoSQL数据库B. 分布式文件系统C. 传统关系型数据库D. 内存数据库答案:C4. 在大数据技术中,用于实时处理数据流的框架是?A. HadoopB. SparkC. HiveD. Pig答案:B5. 大数据环境下,数据挖掘的主要目标是什么?A. 数据清洗B. 数据存储C. 数据分析D. 数据可视化答案:C二、多项选择题(每题3分,共5题)1. 大数据技术可以应用于以下哪些领域?A. 金融分析B. 医疗健康C. 交通规划D. 教育研究答案:ABCD2. 以下哪些是大数据技术的优势?A. 处理速度快B. 存储成本低C. 可扩展性强D. 数据安全性高答案:ABC3. 在大数据技术中,以下哪些是数据预处理的步骤?A. 数据清洗B. 数据转换C. 数据聚合D. 数据压缩答案:ABCD4. 大数据技术中,以下哪些是数据挖掘的常用算法?A. 决策树B. 聚类分析C. 神经网络D. 关联规则答案:ABCD5. 大数据技术中,以下哪些是数据可视化的工具?A. TableauB. Power BIC. D3.jsD. QlikView答案:ABCD三、简答题(每题5分,共2题)1. 请简述大数据技术在商业智能中的应用。

答:大数据技术在商业智能中的应用主要体现在通过分析和挖掘大量数据,帮助企业发现潜在的市场趋势、顾客行为模式以及业务流程中的效率问题,从而优化决策过程,提高运营效率,增强竞争力。

2. 描述一下大数据技术在医疗健康领域的应用。

浙江摄影版(三起)()(信息技术六年级上册《认识大数据》课堂练习附课文知识点

浙江摄影版(三起)()(信息技术六年级上册《认识大数据》课堂练习附课文知识点

小学信息技术六年级上册《认识大数据》课堂练习附课文知识点浙江摄影版(三起)(2020)一、判断题1.大数据就是指数据量特别大的数据集合。

()2.我们口常在网络中的活动,如浏览网页、购物等,都会产生大数据。

()3.大数据只能用传统的数据库进行转存管理和处理。

()二、选择题1.下列哪项不属于大数据的特征?()A.数据量大B.数据类型单一C.处理速度快D.价值密度低2.大数据在网络中如何被应用?()A.仅用于科学研究B.用于各种网络活动,如学习、交流、购物等C.仅用于政府决策D.仅用于娱乐行业3.关于大数据的处理,以下说法正确的是?()A.不需要新的处理模式B.传统数据库足以应对c∙需要新的处理模式以应对其夏杂性和大量性D.大数据处理速度较慢三、填空题1.大数据是指数据量且数据类型的数据集。

2.大数据不能用传统的数据库进行和。

3.大数据的价值在于其强大的、和能力。

四、简答题1.请简述大数据的特征。

2.举例说明大数据在我们生活中的应用。

一、判断题1答案:X解析:大数据不仅指数据量特别大,还指数据类型特别复杂的数据集,不能仅用数据量的大小来衡量。

2答案:7解析:我们在网络中的各种活动,确实会产生大量的数据,这些数据构成了大数据的一部分。

3答案:X解析:大数据的特点之一是数据类型复杂、量大,不能用传统的数据库进行转存管理和处理,而是需要新的处理模式。

二、选择题1答案:B解析:大数据的特征包括数据量大、数据类型复杂、处理速度快和价值密度低,因此数据类型单一不是大数据的特征。

2答案:B解析:大数据在网络中被广泛应用于各种活动,如学习、交流、购物等,而不仅仅局限于科学研究、政府决策或娱乐行业。

3答案:C解析:大数据由于其复杂性和大量性,需要新的处理模式来应对,以提高处理速度和效率。

三、填空题1答案:特别大;特别夏杂2答案:转存:管理3答案:决策力;洞察发现力;流程优化四、简答题1答案:大数据的特征主要包括:数据量大、数据类型复杂、处理速度快和价值密度低。

大数据考试题及答案

大数据考试题及答案

大数据考试题及答案一、单项选择题(每题2分,共10题)1. 大数据的4V特性不包括以下哪一项?A. 体量大B. 速度快C. 价值密度高D. 多样性答案:C2. Hadoop生态系统中,用于数据存储的是以下哪个组件?A. HBaseB. HiveC. YARND. HDFS答案:D3. 下列哪个不是大数据技术的应用领域?A. 金融分析B. 医疗健康C. 交通规划D. 传统制造业答案:D4. Spark与Hadoop相比,最大的优势在于?A. 更高的存储容量B. 更快的查询速度C. 更强的数据分析能力D. 更低的硬件要求答案:C5. 在大数据中,用于实时处理的框架是?A. HadoopB. SparkC. FlinkD. Storm答案:D二、多项选择题(每题3分,共5题)1. 大数据技术可以解决以下哪些问题?A. 数据挖掘B. 机器学习C. 预测分析D. 数据备份答案:ABC2. 下列哪些是大数据技术中常用的数据库?A. MySQLB. MongoDBC. CassandraD. Oracle答案:BC3. 大数据技术在电商领域的应用包括?A. 用户行为分析B. 商品推荐系统C. 库存管理优化D. 客户服务自动化答案:ABCD4. 以下哪些是大数据处理框架?A. HadoopB. SparkC. TensorFlowD. Elasticsearch答案:AB5. 大数据技术可以应用于以下哪些行业?A. 教育B. 政府C. 娱乐D. 农业答案:ABCD三、简答题(每题5分,共2题)1. 请简述大数据技术的主要特点。

答:大数据技术的主要特点包括数据体量大、处理速度快、数据种类多和真实性高。

它能够处理结构化、半结构化和非结构化数据,通过快速分析和处理海量数据,帮助企业和组织做出更精准的决策。

2. 请简述大数据在医疗健康领域的应用。

答:大数据在医疗健康领域的应用包括:通过分析患者数据进行疾病预测和预防;利用医疗影像数据进行辅助诊断;通过患者反馈和药物反应数据优化治疗方案;以及通过基因组数据进行个性化医疗等。

大数据考试题含答案

大数据考试题含答案

1 多选传统大数据质量清洗的特点有:A. 确定性B. 强类型性C. 协调式的D. 非确定性2 多选以下选项中属于数据的作用的是()。

A. 沟通B. 验证假设C. 建立信心D. 欣赏3 多选数据建立信心的作用需具备的条件包括()。

A. 可靠数据源B. 多方的数据源C. 合适的数据分析D. 信得过的第三方单位4 多选数据只有在与()的交互中才能发挥作用。

A. 人B. 物C. 消费者D. 企业5 单选大数据可能带来(),但未必能够带来()。

A. 精确度;准确度B. 准确度;精确度C. 精确度;多样性D. 多样性;准确度6 多选大数据的定义是:A. 指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合B. 任何超过了一台计算机处理能力的数据量C. 技术D. 商业7 多选大数据五大类应用方向是:A. 查询B. 触达C. 统计D. 预警E. 预测8 多选以下哪些指标是衡量大数据应用成功的标准?A. 成本更低B. 质量更高C. 速度更快D. 风险更低9 多选大数据有哪些价值?A. 用户身份识别B. 描述价值C. 实时价值D. 预测价值E. 生产数据的价值10 多选大数据的预测价值体现在:A. 预测用户的偏好、流失B. 预测热卖品与交易额C. 预测经营趋势D. 评价11 单选什么是大数据使用的最可靠方法?A. 大数据源B. 样本数据源C. 规模大D. 大数据与样本数据结合12 多选大数据是描述()所发生的行为。

A. 未来B. 现在C. 过去D. 实时13 多选传统研究中数据采集的方法包括:A. 网络监测B. 电话访谈C. 对面访谈D. 线上互动14 单选大数据整合要保证各个数据源之间的()。

A. 一致性、协调性B. 差异性、协调性C. 一致性、差异性D. 一致性、相容性15 单选分类变量使用()建立预测模型。

A. 决策树B. 分类树C. 离散树D. 回归树16 多选()是大数据应用的步骤。

A. 数据输入B. 建模分析C. 使用决策支持工具输出结果D. 验证假设17 多选避免“数据孤岛”的方法包括:A. 关键匹配变量B. 数据融合C. 数据输入D. 利用样本框18 多选以下属于机器学习的是:A. 监督式学习B. 非监督式学习C. 半监督式学习D. 强化学习19 多选机器学习的四大类分析技术的主要算法包括()A. 描述性统计B. 聚类分析C. 关联分析D. 分类与预测20 单选购物篮分析属于()。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.数据解释
4、大数据的特征
4V1O Volume,Variety,Value,Velocity,On-Line
5、适合大数据的四层堆栈式技术架构
6、大数据的整体技术和关键技术
大数据的整体技术一般包括:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。
大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、开发大数据安全大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
27、Hive
Hive最早是由Facebook设计,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
28、HBase
HBase即Hadoop Database,是一个分布式、面向列的开源数据库。HBase主要用于需要随机访问、实时读写的大数据。
29、Avro
读操作流程
写操作流程
答案在P109-P111
37、HDFS的4类源代码
基础包
实体实现包
应用包
WebHDFS相关包
38、MapReduce
MapReduce是一个针对大规模群组中海量数据处理的分布式编程模型。
39、HDFS接口
远程过程调用接口
与客户端相关接口
HDFS各服务器间的接口
40、HDFS和MapReduce的关系
17、大数据分析模式分类
根据实时性,可分为在线分析和离线分析
根据数据规模,可分为内存级、BI级和海量级
根据算法复杂度的分类
18、大数据建模流程
定义问题、数据理解、数据准备、模型建立、模型评估、模型更新与结果部署等。
19、大数据建模应遵循的规律
以业务目标作为实现目标
业务知识是每一步的核心
做好数据预处理
Avro是一个数据序列化系统。类似于其他序列化机制,Avro可以将数据结构或者对象转换成便于存储和传输的格式,其设计目标是用于支持数据密集型应用,适合大规模数据的存储与交换。
30、Chukwa
Chukwa是开源的数据收集系统,用于监控和分析大型分布式系统的数据。
31、Pig
Pig是一个对大型数据集进行分析和评估的平台。
这四个模块的主要功能如下。
1)分词:对抓取到的网页内容进行切词处理。
2)排重:对众多的网页内容进行排重。
3)整合:对不同来源的数据内容进行格式上的整合。
4)数据:包含两方面的数据,Spider Data和Dp Data。
16、大数据建模概念
大数据建模是为了理解事物而对事物做出的一种抽象,是对事物的一种无歧义的书面描述。
1、简述大数据的来源与数据类型
大数据的来源非常多,如信息管理系统、网络信息系统、物联网系统、科学实验系统等,其数据类型包括结构化数据、半结构化数据和非结构化数据。
2、大数据产生的三个阶段
(1)被动式生成数据
(2)主动式生成数据
(3)感知式生成数据
3、大数据处理的基本流程
1.数据抽取与集成
2.数据分析
12、网络数据采集和处理的四个主要模块
网络爬虫(Spider)、数据处理(Data Process)、URL队列(URL Queue)和数据(Data)。
13、大数据集成
在大数据领域中,数据集成技术也是实现大数据方案的关键组件。大数据中的集成是将大量不同类型的数据原封不动的保存在原地,而将处理过程适当的分配给这些数据。这是一个并行处理的过程,当在这些分布式数据上执行请求后,需要整合并返回结果。
14、数据集成时应解决的问题
数据集成时应解决的问题包括数据转换、数据的迁移、组织内部的数据移动、从非结构化数据中抽取信息和将数据处理移动到数据端。
15、网络数据处理的四个模块及主要功能
分词(Words Analyze)、排重(Content Deduplicate)、整合(Integrate)和数据,如图2-17所示。
59、云计算数据中心的构成
云计算数据中心本质上由云计算平台和云计算服务构成
60、云计算安全关键技术
可信访问控制
密文检索与处理
数据存在与可使用性证明
数据隐私保护
虚拟安全技术
云资源访问控制
可信云计算
61、大数据解决方案系统架构及各层功能
平台层:其中的大数据存储平台提供大数据存储服务,大数据计算平台提供大数据计算服务,多数据中心调度引擎为多区域智能中心的分析架构提供数据调度服务。
26、YARN的基本设计思想
将MapReduce中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster则负责单个应用程序的管理。
4)可靠(Reliable)
25、Hadoop的核心模块
HDFS、MapReduce、Common及YARN,其中HDFS提供了海量数据的存储,MapReduce提供了对数据的计算,Common为在通用硬件上搭建云计算环境提供基本的服务及接口,YARN可以控制整个集群并管理应用程序向基础计算资源的分配。
试验对寻找解决方案是必要的
数据中总含有模式
数据挖掘增大对业务的认知
预测提高了信息作用能力
大数据建模的价值不在于预测的准确率
模式因业务变化而变化
20、数据可视化的概念
数据可视化技术是指运用计算机图形学和图像处理技术,将数据转换为图形或图像,然后在屏幕上显示出来,利用数据分析和开发工具发现其中未知信息的交互处理的理论、方法和技术。
传统数据挖掘
大数据挖掘
样本数量
少量数据样本
分析与事物相关的所有数据,研究的样本数量趋近于总体数量
事物之间的关系
遵循事物之间的因果关系
寻找事物之间的相关关系
追求的目标
追求绝对的准确性
追求效率和趋势
挖掘方式
采集方法,内容分类,采信标准等都已存在即有规则,方法论完整
范围分区
列表分区
哈希分区
48、分布式环境下的数据缓存技术特点
高性能
动态扩展性
高可用性
易用性
49、NoSQL数据库种类
键值(Key-Value)存储
列存储(Column-Oriented)
文档(Document-Oriented)存储
图形存储(Graph-Oriented)。
50、四种类型NoSQL的特点及典型产品
21、数据可视化流程
22、数据可视化工具的特性
1)实时性2)简单操作3)更丰富的展现4)多种数据集成支持方式
23、数据可视化在生物领域中的应用
测序数据可视化
分子结构数据可视化
关系网络可视化
临床数据可视化
24、Hadoop优点
1)可扩展(Scalable)
2)低成本(Economical)
3)高效率(Efficient)
存储类型
特性
典型工具
键值存储
可以通过键快速查询到值,值无需符合特定格式
Redis
列存储
可存储结构化和半结构化数据,对某些列的高频率查询具有很好的I/O优势
Bigtable、Hbase、Cassandra
文档存储
数据以文档形式存储,没有固定格式
CouchDB、MongoDB
图形存储
以图形的形式存储数据及数据之间的关系
HDFS在集群上实现了分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理。
HDFS在MapReduce任务处理过程中提供了对文件操作和存储的支持。
MapReduce在HDFS的基础上实现任务的分发、跟踪、执行等工作,并收集结果。
41、MapReduce技术特征
易于使用
良好的伸缩性
大规模数据处理
CAP,即一致性(Consistency)、可用性(Availability)和分区容错性(Partition Tolerance)
46、大数据分区技术
通过一定的规则将超大型表分割成若干小块来分别处理。表进行分区时需要使用分区键来标志每一行属于哪一个分区,分区键以列的形式保存在表中。
47、几种常见的数据分区算法
功能层:包括大数据集成、存储、管理和挖掘部分,各部分为大数据存储和挖掘提供相应功能。
服务层:基于Web技术和Open API技术提供大数据最终的展现服务。
62、医学大数据的种类
医院医疗大数据
区域卫生信息平台大数据
基于大量人群的医学研究或疾病监测大数据
自我量化大数据
网络大数据
生物信息大数据
63、大数据挖掘与传统数据挖掘方法的区别
42、MapReduce工作机制
答案在P116-P117
43、MapReduce执行流程
Map(映射)和Reduce(化简)是它的主要思想,Map负责将数据打散,Reduce负责对数据进行聚集,用户只需要实现Map和Reduce两个接口,即可完成TB级数据的计算。
向MapReduce框架提交一个计算作业时,它会首先进行Split(分片),将File(文件)分配为多个数据片段,保证作业的并行效率。然后Map把计算作业拆分成若干个Map任务,然后分配到不同的结点上去执行,每一个Map任务处理输入数据中的一部分。当Map任务完成后,它会生成一些中间文件,把这些文件重新组织作为Reduce阶段的输入,该过程称为Shuffle(洗牌),洗牌的操作一般包含本地化混合、分区、排序、复制及合并。Reduce任务的主要目标就是把前面经过洗牌的文件汇总到一起并输出。
33、Spark的优点
轻量级快速处理
支持多语言
支持复杂查询
相关文档
最新文档