2016年数据分析面试常见问题

合集下载

2016年大数据最新面试题

2016年最新面试题非技术1、难，又是怎么解决的？2、你进公司是否能马上做事写代码3、工作的稳定性，上一家的离职的原因4、是否愿意去做前台5、是否能够容入到这个团队6、7、里8、你是否能够胜任这个岗位9、问一下自学能力和沟通能力逻辑能力公司是否可以培训你10、项目共有多少人？怎么分布11、你对我们公司有什么了解12、你的优点跟缺点、兴趣和爱好13、你用过那些开发工具14、在做项目的时候你遇到最大的问题是什么问题，你是怎么去解决的15、在做项目的时候，客户加了新的需求，在技术上实现有困难的时候，-`16、谈谈你最熟悉的设计模式17、在项目中遇到最大的问题是什么？18、你对加班有什么看法19、你有男朋友吗？20、你未来有什么规划？21、离职的原因？22、大学学过哪些课程？23、你的模块有什么表？24、你的模块中那里最有技术含量？25、项目中遇到最难搞定的事？26、你对加班有什么看法？27、为什么想到来深圳工作呢？28、在做项目中遇到的最大的问题是什么？29、学过那些编程语言？30、在公司与同事相处如何？31、遇到问题解决不了时怎么办？32、在这项目中你最有成就感的是什么？33、在项目中你们都遇到了哪些重大问题？34、大学时学过哪些课程？35、与大学老师是否还有联系？36、大学同学都在那些地方工作及担任什么职务？37、为什么选择来深圳发展？38、对深圳这个城市有何看法？39、会不会云计算？40、对工作转行有何看法？41、工作压力大时如何调节情绪，解压？42、你的抗压能力如何？43、对工作的临时调动有何想法？44、你对加班有什么看法？45、你上一个公司加班多吗？大概是什么时候加班多？46、你的项目获取个人信息是从公安局接口里获取的吗？是如何获取的？47、上家公司的离职原因？48、上架公司的工资？49、你们是怎么写日记的？50、eclipse是用什么版本的.你们系统jdk用什么版本51、对于新技术你是怎么学习的?52、该项目中有什么吸引人的?53、使用开源框架在项目中有什么好处？54、在项目中遇到的最大难题是什么?你是如何解决的55、对于加班你怎么看56、上一家的公司离职原因是什么57、在技术上你有哪些优点？58、说一下SpringAop，在做项目的时候你在哪里怎么用的？59、你们班有几个女生？60、你对加班有什么看法？61、你对你以后有什么规划吗？62、你希望公司能够给你带来什么？63、你平时看过源码吗？64、有没有想过转测试？65、66、你一个星期学习时间又多少67、有问到C++问题。

数据分析面试常见问题

数据分析面试常见问题1. 贝叶斯公式复述并解释应用场景1）P（A|B) = P(B|A)*P(A) / P(B)2）如搜索query纠错，设A为正确的词，B为输入的词，那么：a. P(A|B)表示输入词B实际为A的概率b. P(B|A)表示词A错输为B的概率，可以根据AB的相似度计算（如编辑距离）c. P(A)是词A出现的频率，统计获得d. P(B)对于所有候选的A都一样，所以可以省去2. 如何写SQL求出中位数平均数和众数（除了用count之外的方法）1）中位数：方案1（没考虑到偶数个数的情况）：set @m = (select count(*)/2 from table)select column from table order by column limit @m, 1方案2（考虑偶数个数，中位数是中间两个数的平均）：set @index = -1select avg(table.column)from(select @index:=@index+1 as index, columnfrom table order by column) as twhere t.index in (floor(@index/2),ceiling(@index/2))2）平均数：select avg(distinct column) from table3）众数：select column, count(*) from table group by column order by column desc limit 1(emmm，好像用到count了）3. 学过的机器学习算法有哪些略。

4. 如何避免决策树过拟合1）限制树深2）剪枝3）限制叶节点数量4）正则化项5）增加数据6）bagging（subsample、subfeature、低维空间投影）7）数据增强（加入有杂质的数据）8）早停5. 朴素贝叶斯的理解1）推导（参考：https:///pinard/p/6069267.html）2）理解：朴素贝叶斯是在已知一些先验概率的情况下，由果索因的一种方法3）其它：朴素的意思是假设了事件相互独立6. SVM的优点1）优点：a. 能应用于非线性可分的情况b. 最后分类时由支持向量决定，复杂度取决于支持向量的数目而不是样本空间的维度，避免了维度灾难c. 具有鲁棒性：因为只使用少量支持向量，抓住关键样本，剔除冗余样本d. 高维低样本下性能好，如文本分类2）缺点：a. 模型训练复杂度高b. 难以适应多分类问题c. 核函数选择没有较好的方法论7. Kmeans的原理1）初始化k个点2）根据距离点归入k个类中3）更新k个类的类中心4）重复（2）（3），直到收敛或达到迭代次数8. 对拼多多有什么了解，为什么选择拼多多略。

数据分析师面试可能问到的问题

数据分析师面试可能问到的问题作为数据分析师面试官，以下是一些可能会问的问题以及对应的回答建议：你为什么选择成为一名数据分析师？回答建议：可以从个人兴趣、职业目标和市场趋势等方面阐述。

例如，你可以提到自己对数据处理和分析技术的兴趣和热情，或者你可以提到数据分析在当今数字化时代的广泛应用和重要性，以及你希望在这个领域做出贡献和实现个人价值。

你最擅长的数据分析技能和工具是什么？回答建议：可以介绍你熟练掌握的数据分析技能和工具，例如SQL、Excel、Python、R等，并说明你在实际项目中是如何应用它们的。

同时，也可以说明你对不同工具的优缺点的了解，以及如何根据不同情况选择合适的工具。

你如何处理数据质量和数据清洗问题？回答建议：可以从以下几个方面阐述：数据质量的评估和检测，例如对数据的完整性和准确性进行评估和检测；数据清洗和预处理，例如对缺失值、异常值和重复值进行处理，以及进行数据转换和归一化等操作；数据仓库和数据质量管理，例如建立数据仓库和数据质量管理体系，确保数据的准确性和可靠性；以及数据可视化和报告，例如通过图表和报告等方式将数据呈现出来，帮助他人理解数据和分析结果。

你如何从大量数据中提取有价值的信息和洞见？回答建议：可以从以下几个方面阐述：数据探索和分析，例如通过数据探索和统计分析等方法，发现数据的规律和趋势；数据挖掘和机器学习，例如通过数据挖掘和机器学习等技术，提取有价值的信息和洞见；以及数据可视化和报告，例如通过图表和报告等方式将数据呈现出来，帮助他人理解和决策。

你如何与其他团队成员合作，将数据分析结果应用于业务决策？回答建议：可以从以下几个方面阐述：沟通与合作，例如与业务团队、市场营销团队、技术团队等建立良好的沟通与合作关系；分析与建议，例如通过数据分析为业务提供建议和解决方案，并帮助业务团队更好地理解和应用数据结果；以及实施与优化，例如将数据分析结果应用于业务决策中，并通过监测和优化等方式确保实施效果。

数据分析师面试常见问题及解答

数据分析师面试常见问题及解答数据分析师面试常见问题及解答数据分析师面试是获取数据分析职位的重要步骤。

在这个竞争激烈的行业中，准备充分并了解常见问题及回答是至关重要的。

本文将介绍一些常见的数据分析师面试问题，并提供解答的建议。

1. 请介绍一下你的数据分析背景和经验。

回答建议：在介绍自己的背景时，强调你的教育背景和相关工作经验。

提到你具备哪些数据分析技能，例如数据清洗、数据可视化和统计分析。

强调你在之前的工作中如何应用这些技能。

2. 你如何处理大量的数据？回答建议：强调你的数据处理技能和经验。

对于大数据集，你可以提到使用工具如Hadoop、Spark或SQL进行数据处理。

强调你的能力，能够分析和整理大量的数据并提取有价值的信息。

3. 请描述一次你在分析数据时遇到的挑战以及你是如何解决的。

回答建议：选择一次你之前工作或项目中的具体例子，描述遇到的挑战和解决方案。

强调你的问题解决能力和创造性思维。

提到如何使用适当的工具和技术，以及如何与团队合作解决问题。

4. 你如何解释统计学中的p值和置信区间？回答建议：解释p值是在假设检验中表明观察结果与原假设之间的差异程度。

它是一个衡量结果与原假设一致性的概率。

置信区间是一个样本统计量的上下限范围，表示我们可以对总体参数估计的可信程度。

5. 如何处理缺失值和异常值？回答建议：对于缺失值，可以使用插补方法如均值、中位数或回归模型来填充。

对于异常值，可以使用离群值检测技术来标识并删除异常值，或者根据领域知识和统计学原理来纠正异常值。

6. 如何解释线性回归模型中的R方和残差？回答建议：R 方是一个衡量模型拟合优度的指标，介于0到1之间。

它表示变量的变异中可由模型解释的比例。

残差是观测值与回归模型预测值之间的差异。

残差越小表示模型拟合得越好。

7. 如何选择适当的统计模型来分析数据？回答建议：在选择模型时，需要综合考虑数据的特征和问题的要求。

可以通过探索性数据分析、相关性分析和模型选择技术如AIC或BIC 来帮助选择合适的模型。

数据分析面试题目

数据分析面试题目在数据分析领域，面试是获取工作机会的重要环节。

面试过程中，面试官往往会提出一些有挑战性的数据分析问题，以评估应聘者对数据分析的理解和应用能力。

下面是一些常见的数据分析面试题目，希望能够对你进行准备和复习提供一些帮助。

1. 请解释什么是数据清洗（data cleansing）？数据清洗是指从原始数据集中去除无效、重复、不准确或不完整的数据，以确保数据集的整洁和准确性。

数据清洗通常包括对缺失值、异常值和噪声数据进行处理，同时还可以进行数据格式转换和数据标准化等操作。

2. 如何处理缺失值（missing values）？处理缺失值的常用方法包括删除含有缺失值的记录、使用全局常数填充缺失值、使用平均值或中位数填充缺失值、使用相似记录的值填充缺失值等。

具体的方法选择要根据数据集的特点和具体的分析目标进行决策。

3. 请解释什么是数据可视化（data visualization）？数据可视化是通过图表、图形和其他可视化工具将数据转化成易于理解和分析的形式。

数据可视化可以帮助我们发现数据中的模式、趋势和关联性，提供对数据更全面、直观的认识，从而支持数据驱动的决策和洞察。

4. 你如何选择合适的可视化图表？选择合适的可视化图表需要考虑数据类型、分析目标和受众等因素。

例如，对于数值型数据的比较，可以选择柱状图或折线图；对于离散型数据的分布，可以选择饼图或条形图；对于时间序列数据的趋势，可以选择折线图或面积图等。

选择合适的可视化图表可以更好地展现数据的特征和模式。

5. 请说明你在数据分析项目中如何进行特征选择（feature selection）？特征选择是从原始数据中选择对分析目标有重要影响的特征。

常见的特征选择方法包括过滤法、包装法和嵌入法。

过滤法通过统计指标和相关性等方法对特征进行排序和筛选；包装法通过训练模型进行特征选择，并进行交叉验证来评估特征的重要性；嵌入法则是在模型训练过程中自动选择特征。

数据分析岗位面试题目

数据分析岗位面试题目1. 介绍自己的数据分析背景和经验作为一名数据分析师，我拥有扎实的数学和统计学基础，同时掌握多种数据分析工具和编程语言，如Python和SQL。

在过去的几年里，我参与了多个数据分析项目，通过对大量数据的清洗、处理和分析，成功地为企业提供了有效的商业洞察和决策支持。

2. 请解释一下什么是数据清洗和数据预处理？数据清洗是指对原始数据进行处理，以确保数据的质量和准确性。

它包括删除重复数据、填充缺失值、处理异常值和错误数据，并对数据进行格式转换和去除不必要的噪声。

数据预处理是指在进行数据分析前对原始数据进行处理，以使其符合特定的分析要求。

这可能包括特征选择、特征缩放、数据转换（如对数转换）和离群值处理等。

数据预处理能够提高数据的质量和可用性，从而更好地支持后续的数据分析和建模工作。

3. 什么是假设检验？请举例说明如何进行假设检验。

假设检验是一种统计分析方法，用于根据样本数据对总体参数进行推断，并判断所得的统计差异是否具有统计学意义。

它基于对原始假设（零假设）和备择假设的提出，通过适当的统计检验方法来判断是否拒绝原始假设。

举例来说，假设我们想要检验某个新药是否对疾病的治疗效果有显著影响。

我们可以设置原始假设为“新药对疾病没有治疗效果”，备择假设为“新药对疾病有显著治疗效果”。

然后，我们通过对一组患者进行随机分组实验，给其中一部分患者使用新药，并给另一部分患者使用安慰剂进行比较。

最后，通过比较两组患者的治疗效果，运用适当的统计检验方法（如t检验），来判断是否拒绝原始假设。

4. 请解释一下什么是A/B测试，并说明它的应用场景。

A/B测试（又称为对照实验）是一种常用的实验设计方法，用于比较两个或多个变体之间的差异，并判断这些差异是否具有统计学上的显著性。

在A/B测试中，通常将用户随机分配到不同的实验组，在实验过程中对其行为或反馈进行比较分析。

A/B测试适用于许多场景，如网站设计优化、营销活动效果评估、产品功能改进等。

数据分析面试题及答案

数据分析面试题及答案1、请简要介绍一下数据分析的过程和方法。

答：数据分析的过程通常包括定义问题、数据采集和清理、数据探索、建模和解释结果等步骤。

在这个过程中，数据分析师需要运用各种数据科学技术和方法，如统计学、机器学习、数据挖掘、可视化等，以了解数据的特征、找出相关性和趋势，并从中得出结论和建议。

2、请说明在数据分析中数据质量的重要性。

答：数据质量是数据分析的基础，低质量的数据可能会导致错误的结果和结论。

数据质量可以从多个方面来考虑，如数据精确性、完整性、一致性、及时性和可靠性等。

数据分析师需要对数据质量进行评估和修复，以确保数据分析的准确性和可靠性。

3、请说明你使用过的数据分析工具和技术。

答：数据分析工具和技术非常丰富，常见的包括Excel、SQL、Python、R、Tableau、PowerBI等。

在数据分析过程中，我们通常使用数据可视化、数据清洗、统计分析、机器学习等技术和方法。

具体使用哪些工具和技术需要根据具体的业务需求和数据特点来决定。

4、请说明你在数据分析中最擅长的领域和技术。

答：数据分析的领域和技术非常广泛，不同的应聘者可能有不同的专长。

一些常见的领域包括市场营销分析、用户行为分析、金融风险管理等。

一些常见的技术包括数据可视化、统计分析、机器学习、数据挖掘等。

应聘者需要根据自己的背景和经验来准备这个问题的回答。

5、请描述一下你在前一份工作中使用数据进行的项目和结果。

答：这个问题旨在考察应聘者的实际工作经验和成果。

应聘者需要能够清晰地描述自己的数据分析项目和结果，包括项目目标、使用的工具和技术、数据来源、分析过程、结论和建议等。

同时，应聘者还需要强调自己的贡献和价值，如减少成本、提高效率、增加收入等，以证明自己是一个优秀的数据分析师。

6、请描述一下你在数据清洗方面的经验和技巧。

答：数据清洗是数据分析过程中非常重要的一步，它涉及到数据采集、清洗、转换、加载等操作。

数据清洗的技巧包括发现和解决缺失值、异常值、重复值、错误值等数据问题。

数据分析面试常见问题

数据分析面试常见问题
这是一道数据分析师常见的问题其实主要考验你的逻辑性。

比如公司最近一周的销售额下降了让你分析一下原因：
我认为主要有两个方面的原因：
一个是内部原因，一个是外部原因（这句话体现的就是你的逻辑性）。

我是应届生的时候，面试官问我这个问题的时候，我就回答了这句，面试官评价说我很有逻辑性。

首先考虑内部原因：
主要从影响销售额的因素去分析：
1. 比如是单价下降了还是数量下降了还是单价和数量都下降了这是从直接影响的角度去分析
2. 其次，还有可能是转化方面的原因所以会去看一下前置性的因素比如一个电商的销售额下降可以去看看是不是激活下降了再往前可以看看自己的app排名是否下降了
3. 此外，还有一个思路就是下钻大致分为两个一个是时间上的下钻一个是空间上的下钻时间上的下钻：去看每一天的销售额是否有异常是突然下降还是持续下降空间上的下钻去看具体哪个地区的销售额出现了下降哪个品类的销售额出现了下降哪个人群（新用户、老用户）的销售额出现了下降
然后考虑外部原因
主要分为竞争对手和政策性的原因。

比如竞争对手在搞促销活动肯定会吸引一部分用户过去例如亚马逊图书搞活动会导致京东图书的销售额下降。

政策性的原因
这个很好理解比如最近贸易战出于避险情绪股票的价格突然下挫。

如果你作为一个应届生，能回答成这样，面试官肯定频频点头。

当然，最后得补上一句，以上是我的一个大致思路，具体问题，还得结合业务分析。

数据分析excel面试题目

数据分析excel面试题目1. 数据筛选与排序在Excel中，数据筛选和排序是常见的数据分析操作。

请简要介绍筛选和排序的功能，并举例说明如何使用这些功能进行数据分析。

2. 条件筛选条件筛选是根据特定条件从数据表中提取符合条件的数据。

请详细说明条件筛选的步骤，并结合实际案例展示如何使用条件筛选实现数据的提取。

3. 数据透视表运用数据透视表可以快速分析和汇总大量数据，并展现不同维度的数据分析结果。

请说明数据透视表的基本原理和使用方法，并提供一个小节例子进行解析。

4. 数据图表数据图表是一种直观展示数据分析结果的方式。

请介绍Excel中常用的数据图表类型，并说明如何根据不同的分析需求选择合适的图表类型和设置。

5. 函数与公式在Excel中，函数与公式是进行数据分析的重要工具。

请列举并解释几个常用的函数与公式，例如SUM、AVERAGE、VLOOKUP等，并说明其在数据分析中的应用场景。

6. 数据清理与整理数据分析常常涉及到海量数据的清理和整理工作。

请简要说明数据清理与整理的主要步骤和技巧，并分享一个具体案例展示如何使用Excel进行数据清理与整理。

7. 逻辑与条件判断在数据分析过程中，逻辑与条件判断是解决问题的关键。

请介绍Excel中常用的逻辑函数，如IF、AND、OR等，并结合实际问题说明如何运用逻辑与条件判断进行数据分析。

8. 数据可视化数据可视化是将数据通过图表等形式直观地展现出来，以便更好地理解和分析数据。

请说明如何运用Excel中的工具与功能实现数据的可视化，并分享一个数据可视化的示例。

9. 高级数据分析工具除了基本功能外，Excel还提供了一些高级数据分析工具，如数据透视图、回归分析等。

请简要介绍其中一个高级数据分析工具，并结合示例说明其在实际数据分析中的应用。

10. 错误处理与调试在数据分析过程中，可能会遇到各种错误。

请说明在Excel中如何处理常见的错误，并提供一些调试技巧，帮助读者更有效地解决数据分析中的错误问题。

数据分析面试题及答案

数据分析面试题及答案在数据分析领域，面试是一个重要的环节，能够检验面试者的技术能力和解决问题的能力。

本文将介绍一些常见的数据分析面试题，并提供相应的答案，帮助读者更好地准备数据分析类面试。

一、统计学基础1. 请解释什么是均值、中位数、标准差，以及它们的应用场景是什么？均值是一组数值的平均值，用来衡量集合中的中心位置；中位数是一组数值的中间值，用来忽略极端值的影响；标准差是一组数值的离散程度，用来衡量数据分散的程度。

在数据分析中，均值用于衡量数据集的平均水平，中位数用于代表数据集的典型值，标准差用于评估数据的稳定性和一致性。

2. 什么是假设检验？如何进行假设检验？假设检验是用来判断某个假设在统计学意义下是否成立的方法。

常见的假设检验有t检验、F检验、卡方检验等。

进行假设检验的一般步骤包括：确定原假设和对立假设，选择适当的统计量，计算统计量的观测值，根据观测值和临界值进行判断，得出结论。

二、数据清洗和数据预处理1. 数据清洗的步骤是什么？为什么要进行数据清洗？数据清洗的步骤包括：处理缺失值、处理异常值、处理重复值、处理错误值。

数据清洗的目的是确保数据的质量和准确性，排除影响分析结果的干扰，保证后续分析的可靠性和准确性。

2. 数据预处理的方法有哪些？请解释一个你常用的数据预处理方法。

数据预处理的方法包括：数据平滑、数据集成、数据变换、数据规约等。

其中，数据平滑是通过插补或平滑算法处理数据中的噪声或异常值，使得数据更加可靠和准确。

我常用的数据平滑方法是移动平均法，通过计算数据序列中相邻若干项的平均值来平滑数据，减少噪声对数据的影响。

三、数据可视化1. 数据可视化有哪些常用的图表类型？请简要描述它们的应用场景。

常用的数据可视化图表类型包括：条形图、折线图、散点图、饼图、箱线图等。

条形图适用于比较不同组别或类别之间的数据差异；折线图适用于展示数据的趋势和变化；散点图适用于展示两个变量之间的相关性；饼图适用于展示数据的相对比例；箱线图适用于展示数据的分布和异常值。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1、海量日志数据，提取出某日访问百度次数最多的那个IP。

首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。

注意到IP是32位的，最多有个2^32个IP。

同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。

然后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。

或者如下阐述：算法思想：分而治之+Hash1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理；2.可以考虑采用“分而治之”的思想，按照IP地址的Hash(IP)24值，把海量IP日志分别存储到1024个小文件中。

这样，每个小文件最多包含4MB个IP地址；3.对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址；4.可以得到1024个小文件中的出现次数最多的IP，再依据常规的排序算法得到总体上出现次数最多的IP；2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。

假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。

一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。

），请你统计最热门的10个查询串，要求使用的内存不能超过1G。

典型的Top K算法，还是在这篇文章里头有所阐述，文中，给出的最终算法是：第一步、先对这批海量数据预处理，在O（N）的时间内用Hash表完成统计（之前写成了排序，特此订正。

July、2011.04.27）；第二步、借助堆这个数据结构，找出Top K，时间复杂度为N‘logK。

即，借助堆结构，我们可以在log量级的时间内查找和调整/移动。

因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O（N）+ N’*O（logK），（N为1000万，N’为300万）。

ok，更多，详情，请参考原文。

或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。

最后用10个元素的最小推来对出现频率进行排序。

3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。

返回频数最高的100个词。

方案：顺序读文件中，对于每个词x，取hash(x)P00，然后按照该值存到5000个小文件（记为x0,x1,…x4999）中。

这样每个文件大概是200k左右。

如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。

对每个小文件，统计每个文件中出现的词以及相应的频率（可以采用trie树/hash_map 等），并取出出现频率最大的100个词（可以用含100个结点的最小堆），并把100个词及相应的频率存入文件，这样又得到了5000个文件。

下一步就是把这5000个文件进行归并（类似与归并排序）的过程了。

4、有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。

要求你按照query的频度排序。

还是典型的TOP K算法，解决方案如下：方案1：顺序读取10个文件，按照hash(query)的结果将query写入到另外10个文件（记为）中。

这样新生成的文件每个的大小大约也1G（假设hash函数是随机的）。

找一台内存在2G左右的机器，依次对用hash_map(query, query_count)来统计每个query出现的次数。

利用快速/堆/归并排序按照出现次数进行排序。

将排序好的query和对应的query_cout输出到文件中。

这样得到了10个排好序的文件（记为）。

对这10个文件进行归并排序（内排序与外排序相结合）。

方案2：一般query的总量是有限的，只是重复的次数比较多而已，可能对于所有的query，一次性就可以加入到内存了。

这样，我们就可以采用trie树/hash_map等直接来统计每个query出现的次数，然后按出现次数做快速/堆/归并排序就可以了。

方案3：与方案1类似，但在做完hash，分成多个文件后，可以交给多个文件来处理，采用分布式的架构来处理（比如MapReduce），最后再进行合并。

5、给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？方案1：可以估计每个文件安的大小为5G×64=320G，远远大于内存限制的4G。

所以不可能将其完全加载到内存中处理。

考虑采取分而治之的方法。

遍历文件a，对每个url求取hash(url)00，然后根据所取得的值将url分别存储到1000个小文件（记为a0,a1,…,a999）中。

这样每个小文件的大约为300M。

遍历文件b，采取和a相同的方式将url分别存储到1000小文件（记为b0,b1,…,b999）。

这样处理后，所有可能相同的url都在对应的小文件（a0vsb0,a1vsb1,…,a999vsb999）中，不对应的小文件不可能有相同的url。

然后我们只要求出1000对小文件中相同的url即可。

求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。

然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。

方案2：如果允许有一定的错误率，可以使用Bloom filter，4G内存大概可以表示340亿bit。

将其中一个文件中的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url（注意会有一定的错误率）。

Bloom filter日后会在本BLOG内详细阐述。

、6、在2.5亿个整数中找出不重复的整数，注，内存不足以容纳这2.5亿个整数。

方案1：采用2-Bitmap（每个数分配2bit，00表示不存在，01表示出现一次，10表示多次，11无意义）进行，共需内存2^32 * 2 bit=1 GB内存，还可以接受。

然后扫描这2.5亿个整数，查看Bitmap中相对应位，如果是00变01，01变10，10保持不变。

所描完事后，查看bitmap，把对应位是01的整数输出即可。

方案2：也可采用与第1题类似的方法，进行划分小文件的方法。

然后在小文件中找出不重复的整数，并排序。

然后再进行归并，注意去除重复的元素。

7、腾讯面试题：给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？与上第6题类似，我的第一反应时快速排序+二分查找。

以下是其它更好的方法：方案1：oo，申请512M的内存，一个bit位代表一个unsigned int值。

读入40亿个数，设置相应的bit位，读入要查询的数，查看相应bit位是否为1，为1表示存在，为0表示不存在。

方案2：这个问题在《编程珠玑》里有很好的描述，大家可以参考下面的思路，探讨一下：又因为2^32为40亿多，所以给定一个数可能在，也可能不在其中；这里我们把40亿个数中的每一个用32位的二进制来表示假设这40亿个数开始放在一个文件中。

然后将这40亿个数分成两类:1.最高位为02.最高位为1并将这两类分别写入到两个文件中，其中一个文件中数的个数<=20亿，而另一个>=20亿（这相当于折半了）；与要查找的数的最高位比较并接着进入相应的文件再查找再然后把这个文件为又分成两类:1.次最高位为02.次最高位为1并将这两类分别写入到两个文件中，其中一个文件中数的个数<=10亿，而另一个>=10亿（这相当于折半了）；与要查找的数的次最高位比较并接着进入相应的文件再查找。

…….以此类推，就可以找到了,而且时间复杂度为O(logn)，方案2完。

附：这里，再简单介绍下，位图方法：使用位图法判断整形数组是否存在重复判断集合中存在重复是常见编程任务之一，当集合中数据量比较大时我们通常希望少进行几次扫描，这时双重循环法就不可取了。

位图法比较适合于这种情况，它的做法是按照集合中最大元素max创建一个长度为max+1的新数组，然后再次扫描原数组，遇到几就给新数组的第几位置上1，如遇到5就给新数组的第六个元素置1，这样下次再遇到5想置位时发现新数组的第六个元素已经是1了，这说明这次的数据肯定和以前的数据存在着重复。

这种给新数组初始化时置零其后置一的做法类似于位图的处理方法故称位图法。

它的运算次数最坏的情况为2N。

如果已知数组的最大值即能事先给新数组定长的话效率还能提高一倍。

欢迎，有更好的思路，或方法，共同交流。

8、怎么在海量数据中找出重复次数最多的一个？方案1：先做hash，然后求模映射为小文件，求出每个小文件中重复次数最多的一个，并记录重复次数。

然后找出上一步求出的数据中重复次数最多的一个就是所求（具体参考前面的题）。

9、上千万或上亿数据（有重复），统计其中出现次数最多的钱N个数据。

方案1：上千万或上亿的数据，现在的机器的内存应该能存下。

所以考虑采用hash_map/搜索二叉树/红黑树等来进行统计次数。

然后就是取出前N个出现次数最多的数据了，可以用第2题提到的堆机制完成。

10、一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂度分析。

方案1：这题是考虑时间效率。

用trie树统计每个词出现的次数，时间复杂度是O(n*le)（le表示单词的平准长度）。

然后是找出出现最频繁的前10个词，可以用堆来实现，前面的题中已经讲到了，时间复杂度是O(n*lg10)。

所以总的时间复杂度，是O(n*le)与O(n*lg10)中较大的哪一个。

附、100w个数中找出最大的100个数。

方案1：在前面的题中，我们已经提到了，用一个含100个元素的最小堆完成。

复杂度为O(100w*lg100)。

方案2：采用快速排序的思想，每次分割之后只考虑比轴大的一部分，知道比轴大的一部分在比100多的时候，采用传统排序算法排序，取前100个。

复杂度为O(100w*100)。

方案3：采用局部淘汰法。

选取前100个元素，并排序，记为序列L。

然后一次扫描剩余的元素x，与排好序的100个元素中最小的元素比，如果比这个最小的要大，那么把这个最小的元素删除，并把x利用插入排序的思想，插入到序列L中。

依次循环，知道扫描了所有的元素。

复杂度为O(100w*100)。