2019最新BAT大数据面试题

合集下载

BAT大数据面试100题问答汇总

⼀一、数据采集⾯面试题1. Flume 使⽤用场景？线上数据⼀一般主要是落地（存储到磁盘）或者通过 socket 传输给另外⼀一个系统，这种情况下，你很难推动线上应⽤用或服务去修改接⼝口，实现直接向 kafka⾥里里写数据，这时候你可能就需要 flume 这样的系统帮你去做传输。

2. Flume 丢包问题？单机 upd 的 flume source 的配置，100+M/s 数据量量，10w qps flume 就开始⼤大量量丢包，因此很多公司在搭建系统时，抛弃了了 Flume，⾃自⼰己研发传输系统，但是往往会参考 Flume 的 Source-Channel-Sink 模式。

⼀一些公司在Flume ⼯工作过程中，会对业务⽇日志进⾏行行监控，例例如 Flume agent中有多少条⽇日志，Flume 到 Kafka 后有多少条⽇日志等等，如果数据丢失保持在1%左右是没有问题的，当数据丢失达到 5%左右时就必须采取相应措施。

3. Flume 与 Kafka 的选取？采集层主要可以使⽤用 Flume、Kafka 两种技术。

Flume：Flume 是管道流⽅方式，提供了了很多的默认实现，让⽤用户通过参数部署，及扩展 API。

Kafka：Kafka 是⼀一个可持久化的分布式的消息队列列。

Kafka 是⼀一个⾮非常通⽤用的系统。

你可以有许多⽣生产者和很多的消费者共享多个主题 Topics。

相⽐比之下，Flume 是⼀一个专⽤用⼯工具被设计为旨在往HDFS，HBase 发送数据。

它对 HDFS 有特殊的优化，并且集成了了 Hadoop 的安全特性。

所以，Cloudera 建议如果数据被多个系统消费的话，使⽤用 kafka；如果数据被设计给 Hadoop 使⽤用，使⽤用 Flume。

正如你们所知 Flume 内置很多的 source 和 sink 组件。

然⽽而，Kafka 明显有⼀一个更更⼩小的⽣生产消费者⽣生态系统，并且 Kafka 的社区⽀支持不不好。

大数据行业面试题目及答案

大数据行业面试题目及答案一、概述大数据行业在近年来迅速发展，对于求职者来说，面试是进入这个行业的重要一步。

本文将为大家介绍一些常见的大数据行业面试题目及其答案，希望能够帮助大家更好地准备与应对面试。

二、技术问题1. 什么是大数据？大数据的特点是什么？大数据是指规模庞大、复杂度高且难以通过传统方式进行处理的数据集合。

其特点包括数据量巨大、多样性、高速度和价值密度低。

2. 大数据处理的常用方法有哪些？常用的大数据处理方法包括分布式存储与计算、数据挖掘和机器学习、并行计算和分布式文件系统等。

3. 请介绍一下Hadoop生态系统。

Hadoop生态系统是由Apache基金会开发和维护的一套开源大数据处理平台。

它包括HDFS（分布式文件系统）、MapReduce（分布式计算框架）和YARN（资源管理器）等核心组件。

4. 什么是MapReduce？它的工作原理是什么？MapReduce是一种分布式计算模型，其工作原理基于分治法和函数式编程思想。

它将任务分解成多个子任务，并通过Map和Reduce两个阶段完成数据的处理和计算。

5. 数据清洗在大数据处理中的重要性是什么？数据清洗是指通过对数据集进行去噪、去重、填充缺失值等处理，使数据变得规整、干净、可用。

在大数据处理过程中，数据清洗是确保数据质量和结果准确性的重要步骤。

三、业务问题1. 你认为大数据对于企业有哪些价值？大数据可帮助企业进行市场分析、精准营销、客户关系管理、商业智能等方面的工作，提升企业的运营效率和决策能力，创造更大的商业价值。

2. 在大数据分析中，常用的数据挖掘技术有哪些？常用的数据挖掘技术包括分类、聚类、关联规则挖掘、预测和异常检测等。

3. 请介绍一下数据湖（Data Lake）的概念和作用。

数据湖是指以一种原始、未经加工和结构化的方式存储大量数据的存储库。

它可以集中存储各种类型和格式的数据，为数据科学家和分析师提供快速而灵活的查询和访问，以支持数据分析和决策。

大数据决策面试题目(3篇)

第1篇一、面试背景随着大数据时代的到来，企业对大数据决策人才的需求日益增长。

大数据决策面试旨在考察应聘者对大数据处理、分析、挖掘等方面的专业知识和实际应用能力。

以下是大数据决策面试的题目，涵盖多个方面，以供参考。

一、基础知识1. 请简要介绍大数据的概念、特点以及与传统数据处理的区别。

2. 请列举大数据的五个V，并解释其含义。

3. 请说明Hadoop的基本架构，包括HDFS、MapReduce、YARN等组件。

4. 请描述Spark的核心特性及其在处理大数据中的应用。

5. 请解释数据仓库、数据湖、数据湖house等概念，并比较它们之间的区别。

二、数据处理与分析6. 请描述数据清洗、数据集成、数据转换等ETL过程，并举例说明。

7. 请说明如何处理缺失值、异常值、噪声等数据质量问题。

8. 请介绍数据可视化工具及其在数据分析中的应用。

9. 请描述时间序列分析的基本原理和方法。

10. 请说明如何进行数据降维，并列举几种常用的降维方法。

三、数据挖掘与机器学习11. 请简要介绍机器学习的基本概念，并列举几种常见的机器学习算法。

12. 请描述如何使用K-means算法进行聚类分析。

13. 请说明如何使用决策树进行分类分析。

14. 请描述如何使用线性回归进行回归分析。

15. 请说明如何使用支持向量机（SVM）进行分类分析。

四、大数据应用场景16. 请结合实际案例，说明大数据在金融行业的应用。

17. 请结合实际案例，说明大数据在零售行业的应用。

18. 请结合实际案例，说明大数据在医疗行业的应用。

19. 请结合实际案例，说明大数据在物流行业的应用。

20. 请结合实际案例，说明大数据在智能城市、智慧交通等领域的应用。

五、大数据项目实施21. 请描述大数据项目实施的基本流程，包括需求分析、数据采集、数据预处理、模型训练、模型评估等环节。

22. 请说明如何选择合适的大数据技术栈，包括数据库、计算框架、存储系统等。

23. 请描述大数据项目实施过程中可能遇到的风险及应对措施。

大数据方案面试题目及答案

大数据方案面试题目及答案一、题目：请根据以下情景描述，设计一个大数据方案，提供可行的解决方案，并解释其实施步骤和相关技术工具。

情景描述：某互联网公司拥有海量用户，每天生成的数据量庞大，包括用户行为数据、服务器日志、社交网络数据等。

该公司希望通过对这些大数据进行挖掘，为产品改进、用户画像、市场营销等方面提供支持。

要求：1. 分析并说明如何收集、存储和处理这些大数据。

2. 提出针对以上数据的应用场景，并描述需要采用的技术工具。

3. 阐述如何保证数据安全和隐私保护。

二、解决方案：1. 数据收集、存储和处理针对大数据的收集，可以使用流式处理技术，如Apache Kafka，用于高吞吐量的实时数据流处理。

通过构建数据管道，将各种数据源的数据实时导入到数据湖中，例如Hadoop分布式文件系统(HDFS)。

对于大数据的存储，可以采用分布式存储系统，如Hadoop的HBase，用于高可靠性的海量数据存储和快速检索。

数据可以按照数据类型和业务需求进行合理划分和存储，提高查询效率。

大数据的处理可以采用Apache Spark进行分布式计算和数据处理。

Spark提供了强大的数据分析和机器学习库，可用于处理海量数据，实现复杂的数据挖掘任务。

2. 应用场景和技术工具场景一：用户行为数据分析通过收集用户行为数据，使用Spark的机器学习库进行用户画像分析。

可以运用聚类算法、关联规则挖掘等技术，发现用户的兴趣偏好和行为习惯，为产品改进和个性化推荐提供支持。

场景二：服务器日志监控使用Kafka实时收集服务器日志，并将数据导入HBase进行存储。

通过Spark Streaming技术对日志数据进行实时监控和异常检测，及时发现并解决服务器故障。

场景三：社交网络数据分析收集社交网络平台上的用户数据，使用GraphX图计算引擎进行社交网络分析。

通过建立用户关系图，分析用户社交圈子、影响力等，为精准的社交推荐和营销提供依据。

3. 数据安全和隐私保护为了保证数据的安全性和隐私保护，可以采取以下措施：- 数据加密：对敏感数据进行加密处理，确保数据在传输和存储过程中不被窃取。

大数据人才面试题目及答案

大数据人才面试题目及答案随着大数据技术的迅猛发展，对于大数据人才的需求也越来越高。

而在求职过程中，面试是一个非常重要的环节，通过面试不仅可以了解候选人的专业知识和能力，还能对其适应能力和解决问题的能力进行评估。

以下是一些常见的大数据人才面试题目及其答案，希望能为您准备面试提供帮助。

1. 介绍一下大数据的概念和特点。

大数据是指规模庞大、结构复杂、难以通过传统的数据处理方法获取、存储、管理和分析的数据集合。

其特点包括以下几个方面：- 体量大：大数据的数据量很大，以TB、PB、EB为单位。

- 多样性：大数据来源多样，包括结构化数据、半结构化数据和非结构化数据。

- 时效性：大数据的生成速度快，需要及时处理和分析。

- 价值密度低：大数据中包含了很多无效信息，需要通过技术手段进行提取和筛选。

2. 请介绍一下Hadoop和Spark，它们在大数据处理中的作用是什么？Hadoop是一个分布式的计算框架，主要用于存储和处理大规模数据集。

它的核心组件包括HDFS（分布式文件系统）和MapReduce（分布式计算）。

Hadoop借助分布式存储和计算的特点，可以快速处理大规模的数据，适用于批处理场景。

Spark是一个快速、通用的大数据处理引擎，它提供了内存计算的能力，能够加速数据处理的速度。

相比于Hadoop的MapReduce模型，Spark使用了更高效的计算模型，可以在内存中进行数据操作，大大提高了处理效率。

Spark还提供了丰富的API，支持多种编程语言，并且支持实时流式数据处理。

3. 请说明大数据处理中的数据清洗和数据融合的过程。

数据清洗是指对原始数据进行筛选、去噪、去重、填充缺失值等预处理操作，以确保数据的准确性和完整性。

数据清洗的过程包括以下几个步骤：- 数据筛选：根据需求选择需要处理的数据。

- 数据去噪：删除异常、错误的数据，保留有效数据。

- 数据去重：去除重复的数据记录。

- 缺失值填充：对存在缺失值的数据进行填充，以保证数据的完整性。

大数据计算机面试题及答案

大数据计算机面试题及答案在大数据时代的背景下，大数据计算机相关的职位需求越来越多，因此，面试官们通常会从各个角度考察面试者的能力和知识水平。

以下是一些常见的大数据计算机面试题及其答案，希望能够帮助你在面试中取得好的表现。

1. 请解释什么是大数据？大数据指的是规模非常大，无法用传统的数据处理工具进行捕捉、管理和处理的数据集合。

这些数据通常具有高速生成、多种类型和大量的不确定性。

大数据主要包括结构化、半结构化和非结构化数据。

2. 大数据处理的具体流程是什么？大数据处理通常包括以下几个步骤：数据获取：从不同的数据源中获取数据，如传感器、社交媒体、日志文件等。

数据存储：将数据存储在适当的存储系统中，如分布式文件系统（HDFS）、NoSQL数据库等。

数据清洗：对数据进行清洗和预处理，包括去重、填充缺失值、处理异常值等。

数据分析：使用适当的数据分析工具和算法对数据进行分析，如机器学习、数据挖掘等。

数据可视化：将分析结果以可视化的方式呈现，如图表、报表等。

数据应用：将分析结果应用于实际问题，如推荐系统、风险预测等。

3. 请列举一些大数据处理的框架或工具。

一些常见的大数据处理框架或工具包括：Hadoop：开源的分布式计算框架，包括Hadoop Distributed File System（HDFS）和MapReduce。

Spark：快速而通用的大数据处理引擎，支持内存计算。

Hive：建立在Hadoop之上的数据仓库基础设施，提供类似于SQL的查询接口。

HBase：分布式、可扩展的NoSQL数据库。

Pig：用于分析大型数据集的高级脚本语言和运行环境。

4. 请解释什么是MapReduce？MapReduce是一种用于并行计算的编程模型和算法，最初由Google 提出。

它将计算任务分为两个阶段：Map阶段和Reduce阶段。

在Map阶段中，输入数据会根据用户定义的函数进行转换，并生成键值对。

随后，在Reduce阶段中，相同键的值会被合并和计算，最终得到最终的输出结果。

大数据专员面试题目(3篇)

第1篇一、基础知识与概念理解1. 题目：请简述大数据的基本概念及其与普通数据的主要区别。

解析：考察应聘者对大数据基本概念的理解。

应聘者应能够解释大数据的规模（大量、多样、快速）、价值密度低、处理和分析的技术和方法等特点，并说明大数据与普通数据在数据量、处理方式、分析目标等方面的区别。

2. 题目：大数据的五个V指的是什么？解析：考察应聘者对大数据特征的理解。

大数据的五个V分别是Volume（数据量）、Velocity（数据速度）、Variety（数据多样性）、Veracity（数据真实性）和Value（数据价值）。

应聘者应能够解释每个V的具体含义。

3. 题目：请简述Hadoop生态系统中的主要组件及其功能。

解析：考察应聘者对Hadoop生态系统的了解。

应聘者应能够列举Hadoop生态系统中的主要组件，如Hadoop分布式文件系统（HDFS）、Hadoop YARN、Hadoop MapReduce、Hive、Pig、HBase等，并解释每个组件的基本功能和作用。

4. 题目：请简述数据仓库和数据湖的区别。

解析：考察应聘者对数据仓库和数据湖的理解。

应聘者应能够解释数据仓库和数据湖在数据存储、处理、查询等方面的差异，以及它们在数据分析中的应用场景。

二、数据处理与分析5. 题目：请简述ETL（提取、转换、加载）过程在数据处理中的作用。

解析：考察应聘者对ETL过程的了解。

应聘者应能够解释ETL在数据预处理、数据清洗、数据转换等方面的作用，以及ETL工具在数据处理中的应用。

6. 题目：请描述数据切分、增量同步和全量同步的方法。

解析：考察应聘者对数据同步的理解。

应聘者应能够解释数据切分、增量同步和全量同步的概念，并举例说明在实际应用中的具体操作方法。

7. 题目：请简述数据挖掘中的分类、聚类和预测方法。

解析：考察应聘者对数据挖掘方法的了解。

应聘者应能够列举数据挖掘中的分类、聚类和预测方法，如决策树、K-means、支持向量机、神经网络等，并解释每种方法的基本原理和应用场景。

大数据开发工程师招聘面试题与参考回答(某大型集团公司)

招聘大数据开发工程师面试题与参考回答(某大型集团公司)(答案在后面)面试问答题（总共10个问题）第一题题目：请简述大数据技术在现代企业中的应用及其对企业竞争力的影响。

第二题问题：您在过往的工作中，是否遇到过数据量极大，导致数据处理和分析效率低下的问题？如果是，您是如何解决这个问题的？第三题题目：请描述一下您在以往项目中使用大数据技术解决过的一个具体问题。

详细说明问题背景、您采用的大数据技术、实施过程以及最终取得的成果。

第四题题目：请解释什么是MapReduce，并描述一个场景，在这个场景中使用MapReduce可以极大地提高数据处理效率。

请同时指出在这个场景中Map和Reduce两个阶段是如何工作的，并说明这样做的优势。

第五题题目：请描述一下您在以往项目中遇到的大数据开发过程中最复杂的技术挑战，以及您是如何解决这个问题的。

第六题题目：请解释什么是MapReduce，并描述一个实际场景，在该场景中使用MapReduce可以有效地处理大数据集。

请同时指出MapReduce模型中的主要步骤，并简要说明每个步骤的作用。

第七题题目：请描述一次您在项目中遇到的大数据处理挑战，包括挑战的具体内容、您是如何分析问题的、以及您最终采取的解决方案和效果。

第八题题目：请解释什么是MapReduce，并且举例说明在一个大数据处理场景中如何使用MapReduce来解决实际问题。

在您的解释中，请务必涵盖MapReduce的主要组成部分及其工作流程。

1.Map（映射）阶段：在这个阶段，原始的大数据集被分成若干个小块分发到不同的节点上。

每个节点上的程序对分配给自己的数据进行处理，产生中间键值对。

这些键值对随后会被排序并且传递到下个阶段。

2.Reduce（规约）阶段：在这个阶段，来自Map阶段的数据被重新组织，使得相同键的所有值都被组合在一起。

接下来，reduce函数会处理这些键对应的多个值，并将它们转化为最终的结果输出。

1.Map阶段：首先，系统将整个购买记录数据集分割成多个片段，并将这些片段发送到不同的Map任务中。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1、kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。

当magic的值为1的时候，会在magic和crc32之间多一个字节的数据：attributes(保存一些相关属性，比如是否压缩、压缩格式等等)；如果magic的值为0，那么不存在attributes属性body是由N个字节构成的一个消息体，包含了具体的key/value消息2、怎么查看kafka的offset0.9版本以上，可以用最新的Consumer client 客户端，有consumer.seekToEnd() / c onsumer.position() 可以用于得到当前最新的offset：3、hadoop的shuffle过程一、Map端的shuffleMap端会处理输入数据并产生中间结果，这个中间结果会写到本地磁盘，而不是HDFS。

每个Map的输出会先写到内存缓冲区中，当写入的数据达到设定的阈值时，系统将会启动一个线程将缓冲区的数据写到磁盘，这个过程叫做spill。

在spill写入之前，会先进行二次排序，首先根据数据所属的partition进行排序，然后每个partition中的数据再按key来排序。

partition的目是将记录划分到不同的Reducer 上去，以期望能够达到负载均衡，以后的Reducer就会根据partition来读取自己对应的数据。

接着运行combiner(如果设置了的话)，combiner的本质也是一个Reducer，其目的是对将要写入到磁盘上的文件先进行一次处理，这样，写入到磁盘的数据量就会减少。

最后将数据写到本地磁盘产生spill文件(spill文件保存在{mapred.local.dir}指定的目录中，Map任务结束后就会被删除)。

最后，每个Map任务可能产生多个spill文件，在每个Map任务完成前，会通过多路归并算法将这些spill文件归并成一个文件。

至此，Map的shuffle过程就结束了。

二、Reduce端的shuffleReduce端的shuffle主要包括三个阶段，copy、sort(merge)和reduce。

首先要将Map端产生的输出文件拷贝到Reduce端，但每个Reducer如何知道自己应该处理哪些数据呢？因为Map端进行partition的时候，实际上就相当于指定了每个Reducer要处理的数据(partition就对应了Reducer)，所以Reducer在拷贝数据的时候只需拷贝与自己对应的partition中的数据即可。

每个Reducer会处理一个或者多个partition，但需要先将自己对应的partition中的数据从每个Map的输出结果中拷贝过来。

接下来就是sort阶段，也成为merge阶段，因为这个阶段的主要工作是执行了归并排序。

从Map端拷贝到Reduce端的数据都是有序的，所以很适合归并排序。

最终在Reduce 端生成一个较大的文件作为Reduce的输入。

最后就是Reduce过程了，在这个过程中产生了最终的输出结果，并将其写到HDFS 上。

4、spark集群运算的模式Spark 有很多种模式，最简单就是单机本地模式，还有单机伪分布式模式，复杂的则运行在集群中，目前能很好的运行在Yarn和Mesos 中，当然Spark 还有自带的Standalone 模式，对于大多数情况Standalone 模式就足够了，如果企业已经有Yarn 或者Mes os 环境，也是很方便部署的。

standalone(集群模式)：典型的Mater/slave模式，不过也能看出Master是有单点故障的；Spark支持ZooKeeper来实现HAon yarn(集群模式)：运行在yarn 资源管理器框架之上，由yarn 负责资源管理，Spar k 负责任务调度和计算on mesos(集群模式)：运行在mesos 资源管理器框架之上，由mesos 负责资源管理，Spark 负责任务调度和计算on cloud(集群模式)：比如AWS 的EC2，使用这个模式能很方便的访问Amazon的S 3;Spark 支持多种分布式存储系统：HDFS 和S35、HDFS读写数据的过程读：1、跟namenode通信查询元数据，找到文件块所在的datanode服务器2、挑选一台datanode（就近原则，然后随机）服务器，请求建立socket流3、datanode开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验）4、客户端以packet为单位接收，现在本地缓存，然后写入目标文件写：1、根namenode通信请求上传文件，namenode检查目标文件是否已存在，父目录是否存在2、namenode返回是否可以上传3、client请求第一个block该传输到哪些datanode服务器上4、namenode返回3个datanode服务器ABC5、client请求3台dn中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用B，然后B调用C，将真个pipeline建立完成，逐级返回客户端6、client开始往A上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以p acket为单位，A收到一个packet就会传给B，B传给C；A每传一个packet会放入一个应答队列等待应答7、当一个block传输完成之后，client再次请求namenode上传第二个block的服务器。

6、RDD中reduceBykey与groupByKey哪个性能好，为什么reduceByKey：reduceByKey会在结果发送至reducer之前会对每个mapper在本地进行merge，有点类似于在MapReduce中的combiner。

这样做的好处在于，在map端进行一次reduce之后，数据量会大幅度减小，从而减小传输，保证reduce端能够更快的进行结果计算。

groupByKey：groupByKey会对每一个RDD中的value值进行聚合形成一个序列(Iterator)，此操作发生在reduce端，所以势必会将所有的数据通过网络进行传输，造成不必要的浪费。

同时如果数据量十分大，可能还会造成OutOfMemoryError。

通过以上对比可以发现在进行大量数据的reduce操作时候建议使用reduceByKey。

不仅可以提高速度，还是可以防止使用groupByKey造成的内存溢出问题。

7、spark2.0的了解更简单：ANSI SQL与更合理的API速度更快：用Spark作为编译器更智能：Structured Streaming8、 rdd 怎么分区宽依赖和窄依赖宽依赖：父RDD的分区被子RDD的多个分区使用例如groupByKey、reduceByKey、sortByKey等操作会产生宽依赖，会产生shuffle窄依赖：父RDD的每个分区都只被子RDD的一个分区使用例如map、filter、union等操作会产生窄依赖9、spark streaming 读取kafka数据的两种方式这两种方式分别是：Receiver-base使用Kafka的高层次Consumer API来实现。

receiver从Kafka中获取的数据都存储在Spark Executor的内存中，然后Spark Streaming启动的job会去处理那些数据。

然而，在默认的配置下，这种方式可能会因为底层的失败而丢失数据。

如果要启用高可靠机制，让数据零丢失，就必须启用Spark Streaming的预写日志机制（Write Ahead Log，WAL）。

该机制会同步地将接收到的Kafka数据写入分布式文件系统（比如HDFS）上的预写日志中。

所以，即使底层节点出现了失败，也可以使用预写日志中的数据进行恢复。

DirectSpark1.3中引入Direct方式，用来替代掉使用Receiver接收数据，这种方式会周期性地查询Kafka，获得每个topic+partition的最新的offset，从而定义每个batch的offset的范围。

当处理数据的job启动时，就会使用Kafka的简单consumer api来获取Kafka 指定offset范围的数据。

10、kafka的数据存在内存还是磁盘Kafka最核心的思想是使用磁盘，而不是使用内存，可能所有人都会认为，内存的速度一定比磁盘快，我也不例外。

在看了Kafka的设计思想，查阅了相应资料再加上自己的测试后，发现磁盘的顺序读写速度和内存持平。

而且Linux对于磁盘的读写优化也比较多，包括read-ahead和write-behind，磁盘缓存等。

如果在内存做这些操作的时候，一个是JAVA对象的内存开销很大，另一个是随着堆内存数据的增多，JAVA的GC时间会变得很长，使用磁盘操作有以下几个好处：磁盘缓存由Linux系统维护，减少了程序员的不少工作。

磁盘顺序读写速度超过内存随机读写。

JVM的GC效率低，内存占用大。

使用磁盘可以避免这一问题。

系统冷启动后，磁盘缓存依然可用。

11、怎么解决kafka的数据丢失producer端：宏观上看保证数据的可靠安全性，肯定是依据分区数做好数据备份，设立副本数。

broker端：topic设置多分区，分区自适应所在机器，为了让各分区均匀分布在所在的broker中，分区数要大于broker数。

分区是kafka进行并行读写的单位，是提升kafka速度的关键。

Consumer端consumer端丢失消息的情形比较简单：如果在消息处理完成前就提交了offset，那么就有可能造成数据的丢失。

由于Kafka consumer默认是自动提交位移的，所以在后台提交位移前一定要保证消息被正常处理了，因此不建议采用很重的处理逻辑，如果处理耗时很长，则建议把逻辑放到另一个线程中去做。

为了避免数据丢失，现给出两点建议：mit=false 关闭自动提交位移在消息被完整处理之后再手动提交位移12、fsimage和edit的区别？大家都知道namenode与secondary namenode 的关系，当他们要进行数据同步时叫做checkpoint时就用到了fsimage与edit，fsimage是保存最新的元数据的信息，当fsimage数据到一定的大小事会去生成一个新的文件来保存元数据的信息，这个新的文件就是edit，edit会回滚最新的数据。

13、列举几个配置文件优化？1）Core-site.xml 文件的优化a、fs.trash.interval，默认值：0；说明：这个是开启hdfs文件删除自动转移到垃圾箱的选项，值为垃圾箱文件清除时间。