最新十道海量数据处理面试题 zz

合集下载

Hadoop面试题目及答案

Hadoop面试题目及答案Hadoop面试45个题目及答案1.Hadoop集群可以运行的3个模式？单机（本地）模式伪分布式模式全分布式模式2. 单机（本地）模式中的注意点？在单机模式（standalone）中不会存在守护进程，所有东西都运行在一个JVM上。

这里同样没有DFS，使用的是本地文件系统。

单机模式适用于开发过程中运行MapReduce程序，这也是最少使用的一个模式。

3. 伪分布模式中的注意点？伪分布式（Pseudo）适用于开发和测试环境，在这个模式中，所有守护进程都在同一台机器上Hadoop被安装在cd/usr/lib/hadoop-0.20/。

8. Namenode、Job tracker和task tracker 的端口号是？Namenode，70；Job tracker，30；Task tracker，60。

9. Hadoop的核心配置是什么？Hadoop的核心配置通过两个xml文件来完成：1，hadoop-default.xml；2，hadoop-site.xml。

这些文件都使用xml格式，因此每个xml中都有一些属性，包括名称和值，但是当下这些文件都已不复存在。

10. 那当下又该如何配置？Hadoop现在拥有3个配置文件：1，core-site.xml；2，hdfs-site.xml；3，mapred-site.xml。

这些文件都保存在conf/子目录下。

11. RAM的溢出因子是？溢出因子（Spill factor）是临时文件中储存文件的大小，也就是Hadoop-temp目录。

12. fs.mapr.working.dir只是单一的目录？fs.mapr.working.dir只是一个目录。

13. hdfs-site.xml的3个主要属性？.dir决定的是元数据存储的路径以及DFS的存储方式（磁盘或是远端）dfs.data.dir决定的是数据存储的路径fs.checkpoint.dir用于第二Namenode 14. 如何退出输入模式？退出输入的方式有：1，按ESC；2，键入:q（如果你没有输入任何当下）或者键入:wq（如果你已经输入当下），并且按下Enter。

数据处理面试题目及答案

数据处理面试题目及答案一、问题：请简单介绍一下数据处理的概念。

答案：数据处理是指将原始数据进行整理、清洗、加工和分析，以获得有意义和有用的信息。

数据处理能够帮助我们从大量的数据中提取特定的信息，发现规律和趋势，为决策提供支持。

二、问题：请列举一些常用的数据处理技术。

答案：常用的数据处理技术包括数据清洗、数据转换、数据聚合、数据挖掘、数据可视化等。

数据清洗指的是处理原始数据中存在的错误、缺失或者冗余数据；数据转换是将数据从一种格式或结构转换为另一种格式或结构；数据聚合是将多个数据集合并为一个整体进行分析；数据挖掘是通过使用机器学习和统计分析方法，从大量的数据中发现隐藏的模式和关联规则；数据可视化将数据以图表、图形等形式呈现出来，使得数据更易于理解和分析。

三、问题：请解释一下数据清洗的步骤。

答案：数据清洗的步骤包括数据收集、数据评估、数据处理和数据验证。

首先，我们需要收集原始数据，可以来自不同的渠道，如数据库、文本文件、传感器等。

然后，对收集到的数据进行评估，观察数据是否存在错误、缺失或冗余。

接下来，进行数据处理，即去除错误、补充缺失、去除冗余等。

最后，对处理后的数据进行验证，确保数据的准确性和完整性。

四、问题：请描述一下数据挖掘的过程。

答案：数据挖掘的过程包括问题定义、数据收集、数据清洗、特征选择、模型构建、模型评估和模型应用。

首先，我们需要明确挖掘的问题是什么，比如预测用户购买行为、分类客户群体等。

然后，收集相关的数据，可以通过调查问卷、日志文件等方式获取。

接下来，对收集到的数据进行清洗，去除错误和缺失的数据。

在特征选择阶段，我们选择最具代表性和相关性的特征用于模型构建。

然后，构建模型，可以使用机器学习算法进行训练和预测。

在模型评估过程中，评估模型的性能和准确度。

最后，将训练好的模型应用到实际问题中，得出有意义的结论和预测结果。

五、问题：请提及一些常用的数据可视化工具。

答案：常用的数据可视化工具包括Tableau、Power BI、D3.js、matplotlib、ggplot等。

大数据方案面试题目及答案

大数据方案面试题目及答案一、题目：请根据以下情景描述，设计一个大数据方案，提供可行的解决方案，并解释其实施步骤和相关技术工具。

情景描述：某互联网公司拥有海量用户，每天生成的数据量庞大，包括用户行为数据、服务器日志、社交网络数据等。

该公司希望通过对这些大数据进行挖掘，为产品改进、用户画像、市场营销等方面提供支持。

要求：1. 分析并说明如何收集、存储和处理这些大数据。

2. 提出针对以上数据的应用场景，并描述需要采用的技术工具。

3. 阐述如何保证数据安全和隐私保护。

二、解决方案：1. 数据收集、存储和处理针对大数据的收集，可以使用流式处理技术，如Apache Kafka，用于高吞吐量的实时数据流处理。

通过构建数据管道，将各种数据源的数据实时导入到数据湖中，例如Hadoop分布式文件系统(HDFS)。

对于大数据的存储，可以采用分布式存储系统，如Hadoop的HBase，用于高可靠性的海量数据存储和快速检索。

数据可以按照数据类型和业务需求进行合理划分和存储，提高查询效率。

大数据的处理可以采用Apache Spark进行分布式计算和数据处理。

Spark提供了强大的数据分析和机器学习库，可用于处理海量数据，实现复杂的数据挖掘任务。

2. 应用场景和技术工具场景一：用户行为数据分析通过收集用户行为数据，使用Spark的机器学习库进行用户画像分析。

可以运用聚类算法、关联规则挖掘等技术，发现用户的兴趣偏好和行为习惯，为产品改进和个性化推荐提供支持。

场景二：服务器日志监控使用Kafka实时收集服务器日志，并将数据导入HBase进行存储。

通过Spark Streaming技术对日志数据进行实时监控和异常检测，及时发现并解决服务器故障。

场景三：社交网络数据分析收集社交网络平台上的用户数据，使用GraphX图计算引擎进行社交网络分析。

通过建立用户关系图，分析用户社交圈子、影响力等，为精准的社交推荐和营销提供依据。

3. 数据安全和隐私保护为了保证数据的安全性和隐私保护，可以采取以下措施：- 数据加密：对敏感数据进行加密处理，确保数据在传输和存储过程中不被窃取。

大数据人才面试题目及答案

大数据人才面试题目及答案随着大数据技术的迅猛发展，对于大数据人才的需求也越来越高。

而在求职过程中，面试是一个非常重要的环节，通过面试不仅可以了解候选人的专业知识和能力，还能对其适应能力和解决问题的能力进行评估。

以下是一些常见的大数据人才面试题目及其答案，希望能为您准备面试提供帮助。

1. 介绍一下大数据的概念和特点。

大数据是指规模庞大、结构复杂、难以通过传统的数据处理方法获取、存储、管理和分析的数据集合。

其特点包括以下几个方面：- 体量大：大数据的数据量很大，以TB、PB、EB为单位。

- 多样性：大数据来源多样，包括结构化数据、半结构化数据和非结构化数据。

- 时效性：大数据的生成速度快，需要及时处理和分析。

- 价值密度低：大数据中包含了很多无效信息，需要通过技术手段进行提取和筛选。

2. 请介绍一下Hadoop和Spark，它们在大数据处理中的作用是什么？Hadoop是一个分布式的计算框架，主要用于存储和处理大规模数据集。

它的核心组件包括HDFS（分布式文件系统）和MapReduce（分布式计算）。

Hadoop借助分布式存储和计算的特点，可以快速处理大规模的数据，适用于批处理场景。

Spark是一个快速、通用的大数据处理引擎，它提供了内存计算的能力，能够加速数据处理的速度。

相比于Hadoop的MapReduce模型，Spark使用了更高效的计算模型，可以在内存中进行数据操作，大大提高了处理效率。

Spark还提供了丰富的API，支持多种编程语言，并且支持实时流式数据处理。

3. 请说明大数据处理中的数据清洗和数据融合的过程。

数据清洗是指对原始数据进行筛选、去噪、去重、填充缺失值等预处理操作，以确保数据的准确性和完整性。

数据清洗的过程包括以下几个步骤：- 数据筛选：根据需求选择需要处理的数据。

- 数据去噪：删除异常、错误的数据，保留有效数据。

- 数据去重：去除重复的数据记录。

- 缺失值填充：对存在缺失值的数据进行填充，以保证数据的完整性。

大数据专员面试题目(3篇)

第1篇一、基础知识与概念理解1. 题目：请简述大数据的基本概念及其与普通数据的主要区别。

解析：考察应聘者对大数据基本概念的理解。

应聘者应能够解释大数据的规模（大量、多样、快速）、价值密度低、处理和分析的技术和方法等特点，并说明大数据与普通数据在数据量、处理方式、分析目标等方面的区别。

2. 题目：大数据的五个V指的是什么？解析：考察应聘者对大数据特征的理解。

大数据的五个V分别是Volume（数据量）、Velocity（数据速度）、Variety（数据多样性）、Veracity（数据真实性）和Value（数据价值）。

应聘者应能够解释每个V的具体含义。

3. 题目：请简述Hadoop生态系统中的主要组件及其功能。

解析：考察应聘者对Hadoop生态系统的了解。

应聘者应能够列举Hadoop生态系统中的主要组件，如Hadoop分布式文件系统（HDFS）、Hadoop YARN、Hadoop MapReduce、Hive、Pig、HBase等，并解释每个组件的基本功能和作用。

4. 题目：请简述数据仓库和数据湖的区别。

解析：考察应聘者对数据仓库和数据湖的理解。

应聘者应能够解释数据仓库和数据湖在数据存储、处理、查询等方面的差异，以及它们在数据分析中的应用场景。

二、数据处理与分析5. 题目：请简述ETL（提取、转换、加载）过程在数据处理中的作用。

解析：考察应聘者对ETL过程的了解。

应聘者应能够解释ETL在数据预处理、数据清洗、数据转换等方面的作用，以及ETL工具在数据处理中的应用。

6. 题目：请描述数据切分、增量同步和全量同步的方法。

解析：考察应聘者对数据同步的理解。

应聘者应能够解释数据切分、增量同步和全量同步的概念，并举例说明在实际应用中的具体操作方法。

7. 题目：请简述数据挖掘中的分类、聚类和预测方法。

解析：考察应聘者对数据挖掘方法的了解。

应聘者应能够列举数据挖掘中的分类、聚类和预测方法，如决策树、K-means、支持向量机、神经网络等，并解释每种方法的基本原理和应用场景。

大数据开发工程师招聘面试题与参考回答(某大型集团公司)

招聘大数据开发工程师面试题与参考回答(某大型集团公司)(答案在后面)面试问答题（总共10个问题）第一题题目：请简述大数据技术在现代企业中的应用及其对企业竞争力的影响。

第二题问题：您在过往的工作中，是否遇到过数据量极大，导致数据处理和分析效率低下的问题？如果是，您是如何解决这个问题的？第三题题目：请描述一下您在以往项目中使用大数据技术解决过的一个具体问题。

详细说明问题背景、您采用的大数据技术、实施过程以及最终取得的成果。

第四题题目：请解释什么是MapReduce，并描述一个场景，在这个场景中使用MapReduce可以极大地提高数据处理效率。

请同时指出在这个场景中Map和Reduce两个阶段是如何工作的，并说明这样做的优势。

第五题题目：请描述一下您在以往项目中遇到的大数据开发过程中最复杂的技术挑战，以及您是如何解决这个问题的。

第六题题目：请解释什么是MapReduce，并描述一个实际场景，在该场景中使用MapReduce可以有效地处理大数据集。

请同时指出MapReduce模型中的主要步骤，并简要说明每个步骤的作用。

第七题题目：请描述一次您在项目中遇到的大数据处理挑战，包括挑战的具体内容、您是如何分析问题的、以及您最终采取的解决方案和效果。

第八题题目：请解释什么是MapReduce，并且举例说明在一个大数据处理场景中如何使用MapReduce来解决实际问题。

在您的解释中，请务必涵盖MapReduce的主要组成部分及其工作流程。

1.Map（映射）阶段：在这个阶段，原始的大数据集被分成若干个小块分发到不同的节点上。

每个节点上的程序对分配给自己的数据进行处理，产生中间键值对。

这些键值对随后会被排序并且传递到下个阶段。

2.Reduce（规约）阶段：在这个阶段，来自Map阶段的数据被重新组织，使得相同键的所有值都被组合在一起。

接下来，reduce函数会处理这些键对应的多个值，并将它们转化为最终的结果输出。

1.Map阶段：首先，系统将整个购买记录数据集分割成多个片段，并将这些片段发送到不同的Map任务中。

大数据方向_面试题目(3篇)

第1篇一、基础知识与理论1. 请简述大数据的概念及其与传统数据处理的区别。

2. 请解释什么是Hadoop，并简要说明其组成部分。

3. 请简述MapReduce的核心思想及其在Hadoop中的应用。

4. 请描述HDFS（Hadoop分布式文件系统）的工作原理及其优势。

5. 请说明YARN（Yet Another Resource Negotiator）的作用及其在Hadoop中的地位。

6. 请解释什么是Spark，以及它与传统的大数据处理技术相比有哪些优势。

7. 请描述Spark的架构及其核心组件。

8. 请说明什么是Hive，并简要介绍其作用。

9. 请解释什么是HBase，以及它在大数据中的应用场景。

10. 请说明什么是NoSQL，并列举几种常见的NoSQL数据库及其特点。

二、Hadoop生态系统1. 请介绍Hadoop生态系统中常用的数据处理工具，如Hive、Pig、Spark等。

2. 请说明Hadoop生态系统中常用的数据分析工具，如Elasticsearch、Kafka、Flume等。

3. 请解释Hadoop生态系统中数据存储解决方案，如HDFS、HBase、Cassandra等。

4. 请描述Hadoop生态系统中常用的数据仓库解决方案，如Apache Hudi、Delta Lake等。

5. 请说明Hadoop生态系统中常用的数据可视化工具，如Tableau、Power BI、D3.js等。

三、大数据技术1. 请简述大数据技术中的数据清洗、数据集成、数据存储、数据挖掘等基本概念。

2. 请介绍大数据技术中的数据挖掘算法，如聚类、分类、关联规则等。

3. 请说明大数据技术中的数据可视化方法及其在数据分析中的应用。

4. 请描述大数据技术中的实时数据处理技术，如流处理、事件驱动等。

5. 请介绍大数据技术中的机器学习算法及其在数据分析中的应用。

四、大数据应用案例1. 请列举大数据技术在金融、医疗、电商、物联网等领域的应用案例。

史上最全的大数据面试题,大数据开发者必看

史上最全的大数据面试题,大数据开发者必看在大数据领域，面试常常是求职者获取工作机会的重要环节。

面试官会针对各个方面提问，从技术知识到项目经验，从算法能力到数据处理能力，全方位考察候选人的综合素质。

为了帮助大数据开发者准备面试，本文整理了一份史上最全的大数据面试题，供参考使用。

一、Hadoop基础知识1·Hadoop的核心组件有哪些？分别简要介绍。

2·HDFS的特点和工作原理是什么？3·MapReduce的工作原理是什么？举例说明MapReduce的运行流程。

4·Hadoop集群的搭建步骤和注意事项是什么？5·Hadoop环境中如何进行数据备份和恢复操作？二、Hadoop生态系统1·Hive和HBase有什么区别？适用场景分别是什么？2·Pig和Hive的功能和使用场景有何异同？3·Sqoop和Flume的作用及使用场景有哪些？4·ZooKeeper的作用是什么？简要介绍其应用场景。

5·Spark和Hadoop的区别是什么？它们之间如何共同工作？三、大数据处理技术1·数据采集的方法有哪些？请简要说明每种方法的原理和适用场景。

2·数据清洗的过程和步骤有哪些？如何处理用户输入的脏数据？3·数据存储有哪些方式？请简要介绍每种方式的特点和适用场景。

4·数据挖掘常用的算法有哪些？请简要说明每种算法的原理和适用场景。

5·数据可视化的方法和工具都有哪些？请简要介绍每种方法和工具的特点和适用场景。

四、大数据实战项目1·请简要介绍你参与过的大数据项目，包括项目背景、使用的技术和取得的成果。

2·在项目中如何解决数据倾斜的问题？请具体描述解决方案。

3·在项目中如何保证数据的安全性和隐私性？4·在处理大规模数据时，如何优化性能和提高效率？5·请描述一个你在项目中遇到的难题，并介绍你是如何解决的。

大数据面试题及答案

大数据面试题及答案在大数据领域求职面试中，面试官通常会提问一系列与大数据相关的问题，以了解应聘者对于大数据概念、技术和应用的理解。

本文将列举一些常见的大数据面试题，并提供相应的答案，帮助读者更好地准备和应对大数据面试。

一、大数据的定义及特征1. 请简要解释什么是大数据？大数据指的是规模庞大、结构复杂、速度快速增长的数据集合。

这些数据量大到无法使用传统的数据处理工具进行存储、管理和分析。

2. 大数据有哪些特征？大数据的特征主要包括4个方面：数据量大、数据来源多样、数据处理速度快、数据结构复杂。

3. 大数据的应用领域有哪些？大数据在多个领域都有应用，包括但不限于金融、电子商务、物流、医疗、社交媒体、智能交通、城市管理等。

二、大数据处理及存储技术4. 大数据的处理流程是怎样的？大数据的处理流程通常包括数据获取、数据存储、数据清洗、数据分析和数据可视化等环节。

5. 大数据存储有哪些技术？常见的大数据存储技术包括关系型数据库、NoSQL数据库、分布式文件系统如Hadoop HDFS等。

6. 请简要介绍Hadoop框架。

Hadoop是一个开源的分布式计算框架，它包括Hadoop Distributed File System（HDFS）和MapReduce计算模型。

HDFS用于大规模数据的存储，而MapReduce用于数据的处理和计算。

三、大数据分析与挖掘7. 大数据分析的流程是怎样的？大数据分析的流程通常包括数据预处理、数据挖掘、模型建立、模型评估和结果应用等环节。

8. 大数据分析常用的算法有哪些？大数据分析常用的算法包括关联规则挖掘、聚类分析、分类算法、回归算法、时序分析等。

9. 请简要介绍机器学习和深度学习在大数据分析中的应用。

机器学习和深度学习是大数据分析中常用的技术手段，它们可以通过训练模型从大数据中学习，并根据学习结果进行预测、分类和优化等任务。

四、大数据安全与隐私10. 大数据安全存在哪些风险？大数据安全面临的风险包括数据泄露、数据篡改、数据丢失、隐私保护等问题。

应用大数据面试题目(3篇)

第1篇随着大数据技术的飞速发展，越来越多的企业开始重视大数据的应用，并将其作为提升企业竞争力的重要手段。

为了帮助求职者更好地准备应用大数据的面试，以下将提供一系列面试题目，涵盖大数据的核心概念、技术架构、数据处理、分析应用等多个方面。

一、大数据核心概念1. 请简要介绍大数据的五个V（Volume、Velocity、Variety、Veracity、Value）及其对大数据处理的影响。

2. 什么是Hadoop？请列举Hadoop的主要组件及其功能。

3. 解释MapReduce编程模型的工作原理，并说明其在处理大数据时的优势。

4. 什么是数据仓库？请描述数据仓库的基本架构和功能。

5. 什么是数据湖？它与数据仓库有什么区别？二、大数据技术架构1. 请列举大数据技术栈中常用的开源框架，并简要介绍它们的作用。

2. 什么是Spark？请说明Spark的架构和主要特性。

3. 什么是Flink？请描述Flink与Spark的主要区别。

4. 什么是Hive？请介绍Hive的架构和功能。

5. 什么是Kafka？请说明Kafka在数据处理中的作用。

三、数据处理与分析1. 请描述数据清洗的步骤和常见方法。

2. 什么是数据脱敏？请列举几种数据脱敏技术。

3. 什么是数据压缩？请介绍几种常用的数据压缩算法。

4. 什么是数据挖掘？请列举几种常见的数据挖掘算法。

5. 什么是机器学习？请介绍几种常见的机器学习算法。

四、大数据应用场景1. 请举例说明大数据在金融行业的应用场景。

2. 请举例说明大数据在医疗行业的应用场景。

3. 请举例说明大数据在零售行业的应用场景。

4. 请举例说明大数据在交通行业的应用场景。

5. 请举例说明大数据在政府领域的应用场景。

五、大数据项目经验1. 请描述你参与过的最大规模的大数据项目，包括项目背景、目标、技术选型、实施过程和成果。

2. 请描述你在项目中遇到的技术难题及其解决方案。

3. 请描述你在项目中如何进行数据治理和质量管理。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

十道海量数据处理面试题z z十道海量数据处理面试题 zz十道海量数据处理面试题(zz)2011-06-07 09：07作者：July、youwang、yanxionglu。

时间：二零一一年三月二十六日说明：本文分为俩部分，第一部分为10道海量数据处理的面试题，第二部分为10个海量数据处理的方法总结。

有任何问题，欢迎交流、指正。

出处：第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。

首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。

注意到IP是32位的，最多有个2^32个IP。

同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计，然后再找出频率最大的几个)及相应的频率。

然后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。

或者如下阐述(雪域之鹰)：算法思想：分而治之+Hash 1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理；2.可以考虑采用"分而治之"的思想，按照IP地址的Hash(IP)%1024值，把海量IP日志分别存储到1024个小文件中。

这样，每个小文件最多包含4MB 个IP地址；3.对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址；4.可以得到1024个小文件中的出现次数最多的IP，再依据常规的排序算法得到总体上出现次数最多的IP；2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。

假设目前有一千万个记录(这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。

一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。

)，请你统计最热门的10个查询串，要求使用的内存不能超过1G。

典型的Top K算法，还是在这篇文章里头有所阐述，详情请参见：十一、从头到尾彻底解析Hash表算法。

文中，给出的最终算法是：第一步、先对这批海量数据预处理，在O(N)的时间内用Hash表完成统计(之前写成了排序，特此订正。

July、2011.04.27)；第二步、借助堆这个数据结构，找出Top K，时间复杂度为N'logK。

即，借助堆结构，我们可以在log量级的时间内查找和调整/移动。

因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O(N)+N'*O(logK)，(N 为1000万，N'为300万)。

ok，更多，详情，请参考原文。

或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。

最后用10个元素的最小推来对出现频率进行排序。

3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。

返回频数最高的100个词。

方案：顺序读文件中，对于每个词x，取hash(x)%5000，然后按照该值存到5000个小文件(记为x0,x1,.x4999)中。

这样每个文件大概是200k左右。

如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。

对每个小文件，统计每个文件中出现的词以及相应的频率(可以采用trie 树/hash_map等)，并取出出现频率最大的100个词(可以用含100个结点的最小堆)，并把100个词及相应的频率存入文件，这样又得到了5000个文件。

下一步就是把这5000个文件进行归并(类似与归并排序)的过程了。

4、有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。

要求你按照query的频度排序。

还是典型的TOP K算法，解决方案如下：方案1：顺序读取10个文件，按照hash(query)%10的结果将query写入到另外10个文件(记为)中。

这样新生成的文件每个的大小大约也1G(假设hash函数是随机的)。

找一台内存在2G左右的机器，依次对用hash_map(query,query_count)来统计每个query出现的次数。

利用快速/堆/归并排序按照出现次数进行排序。

将排序好的query和对应的query_cout输出到文件中。

这样得到了10个排好序的文件(记为)。

对这10个文件进行归并排序(内排序与外排序相结合)。

方案2：一般query的总量是有限的，只是重复的次数比较多而已，可能对于所有的query，一次性就可以加入到内存了。

这样，我们就可以采用trie树/hash_map等直接来统计每个query出现的次数，然后按出现次数做快速/堆/归并排序就可以了。

方案3：与方案1类似，但在做完hash，分成多个文件后，可以交给多个文件来处理，采用分布式的架构来处理(比如MapReduce)，最后再进行合并。

5、给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url?方案1：可以估计每个文件安的大小为5G×64=320G，远远大于内存限制的4G。

所以不可能将其完全加载到内存中处理。

考虑采取分而治之的方法。

遍历文件a，对每个url求取hash(url)%1000，然后根据所取得的值将url分别存储到1000个小文件(记为a0,a1,.,a999)中。

这样每个小文件的大约为300M。

遍历文件b，采取和a相同的方式将url分别存储到1000小文件(记为b0,b1,.,b999)。

这样处理后，所有可能相同的url都在对应的小文件(a0vsb0,a1vsb1,.,a999vsb999)中，不对应的小文件不可能有相同的url。

然后我们只要求出1000对小文件中相同的url即可。

求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。

然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。

方案2：如果允许有一定的错误率，可以使用Bloom filter，4G内存大概可以表示340亿bit。

将其中一个文件中的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url(注意会有一定的错误率)。

Bloom filter日后会在本BLOG内详细阐述。

6、在2.5亿个整数中找出不重复的整数，注，内存不足以容纳这2.5亿个整数。

方案1：采用2-Bitmap(每个数分配2bit，00表示不存在，01表示出现一次，10表示多次，11无意义)进行，共需内存2^32*2 bit=1 GB内存，还可以接受。

然后扫描这2.5亿个整数，查看Bitmap中相对应位，如果是00变01，01变10，10保持不变。

所描完事后，查看bitmap，把对应位是01的整数输出即可。

方案2：也可采用与第1题类似的方法，进行划分小文件的方法。

然后在小文件中找出不重复的整数，并排序。

然后再进行归并，注意去除重复的元素。

7、腾讯面试题：给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中?与上第6题类似，我的第一反应时快速排序+二分查找。

以下是其它更好的方法：方案1：oo，申请512M的内存，一个bit位代表一个unsigned int值。

读入40亿个数，设置相应的bit位，读入要查询的数，查看相应bit位是否为1，为1表示存在，为0表示不存在。

dizengrong：方案2：这个问题在《编程珠玑》里有很好的描述，大家可以参考下面的思路，探讨一下：又因为2^32为40亿多，所以给定一个数可能在，也可能不在其中；这里我们把40亿个数中的每一个用32位的二进制来表示假设这40亿个数开始放在一个文件中。

然后将这40亿个数分成两类：1.最高位为02.最高位为1并将这两类分别写入到两个文件中，其中一个文件中数的个数=20亿，而另一个=20亿(这相当于折半了)；与要查找的数的最高位比较并接着进入相应的文件再查找再然后把这个文件为又分成两类：1.次最高位为02.次最高位为1并将这两类分别写入到两个文件中，其中一个文件中数的个数=10亿，而另一个=10亿(这相当于折半了)；与要查找的数的次最高位比较并接着进入相应的文件再查找。

以此类推，就可以找到了,而且时间复杂度为O(logn)，方案2完。

附：这里，再简单介绍下，位图方法：使用位图法判断整形数组是否存在重复判断集合中存在重复是常见编程任务之一，当集合中数据量比较大时我们通常希望少进行几次扫描，这时双重循环法就不可取了。

位图法比较适合于这种情况，它的做法是按照集合中最大元素max创建一个长度为max+1的新数组，然后再次扫描原数组，遇到几就给新数组的第几位置上1，如遇到5就给新数组的第六个元素置1，这样下次再遇到5想置位时发现新数组的第六个元素已经是1了，这说明这次的数据肯定和以前的数据存在着重复。

这种给新数组初始化时置零其后置一的做法类似于位图的处理方法故称位图法。

它的运算次数最坏的情况为2N。

如果已知数组的最大值即能事先给新数组定长的话效率还能提高一倍。

欢迎，有更好的思路，或方法，共同交流。

8、怎么在海量数据中找出重复次数最多的一个?方案1：先做hash，然后求模映射为小文件，求出每个小文件中重复次数最多的一个，并记录重复次数。

然后找出上一步求出的数据中重复次数最多的一个就是所求(具体参考前面的题)。

9、上千万或上亿数据(有重复)，统计其中出现次数最多的钱N个数据。

方案1：上千万或上亿的数据，现在的机器的内存应该能存下。

所以考虑采用hash_map/搜索二叉树/红黑树等来进行统计次数。

然后就是取出前N个出现次数最多的数据了，可以用第2题提到的堆机制完成。

10、一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂度分析。

方案1：这题是考虑时间效率。

用trie树统计每个词出现的次数，时间复杂度是O(n*le)(le表示单词的平准长度)。

然后是找出出现最频繁的前10个词，可以用堆来实现，前面的题中已经讲到了，时间复杂度是O(n*lg10)。

所以总的时间复杂度，是O(n*le)与O(n*lg10)中较大的哪一个。

附、100w个数中找出最大的100个数。

方案1：在前面的题中，我们已经提到了，用一个含100个元素的最小堆完成。