Elasticsearch、MongoDB和Hadoop比较

IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配置完成很多同养的事情。

ES是否可以作为一个NoSQL数据库？粗看，这句话说的不太对，但是这是一个合理的场景。类似地，MongoDB在MapReduce的基础上使用分片的技术同样可以完成Hadoop 可以做的工作。当然使用众多功能，我们可以在Hadoop之上（Hive、HBase、Pig和同样的一些）你也可以用多种方式查询Hadoop集群中的数据。

那么，我们现在是否能说Hadoop、MongoDB和Elasticsearch这三个是完全相同的呢？显然不行！每个工具都有自身最为适用的场景，但是每个都有相当的灵活性能够胜任不同的角色。现在的问题就变成“这些技术的最合适的使用场景是什么？”。下面我们来瞧瞧。

Elasticsearch已经超越了其最初的纯搜索引擎的角色，现在已经增加了分析和可视化的特性——但是它的核心仍旧是一个全文搜索引擎。Elasticsearch建立在Lucene之上并且支持极其快速的查询和丰富的查询语法。如果你有数百万的文档需要通过关键词进行定位时，Elasticsearch肯定是最佳选择。当然，如果你的文档是JSON的，你就可以把Elasticsearch 当作一种轻量级的“NoSQL数据库”。但是Elasticsearch不是一个合适的数据库引擎，对

复杂的查询和聚合并不是很强，尽管统计facet可以提供一定的关于给定查询的统计信息的支持。Elasticsearch中的facet主要是用来支持分面的浏览功能。

目前Elasticsearch已经增加了aggregation的功能

如果你在寻找一个对应于一个关键词查询的少量的文档集合，并且要支持在这些结果中分面的导航，那么Elasticsearch肯定是最好的选择。如果你需要进行更加复杂的计算，对数据执行服务端的脚本，轻松地运行MapReduce job，那么MongoDB或者Hadoop就进入待选项中。

MongoDB是NoSQL数据库，被设计成一个高可扩展，并且有自动分片的功能及一些额外性能优化的功能。MongoDB是一个面向文档的数据库，以JSON的形式进行数据的存储（准确地说可以称为BSON，对JSON进行了一些增强）——例如，一个native数据类型。MongoDB提供了一个文本索引类型来支持全文检索，所以我们可以看到在Elasticsearch 和MongoDB之间的界限，基本的关键词搜索对应于文档的集合。

MongoDB超过Elasticsearch的地方在于其对于服务器端js脚本的支持、聚合的管道、MapReduce的支持和capped collections。使用MongoDB，你可以使用聚合管道来处理一个集合中的文档，通过一个管道操作的序列来多步地对文档进行处理。管道操作可以生成全新的文档并且从最终的结果中移除文档。这是一个在检索数据时的相当强的过滤、处理和转化数据的特点。MongoDB也支持对一个数据collection进行map/reduce job的执行，使用定制的js函数进行操作的map和reduce过程。这就保证了MongoDB可以对选定的数据执行任意类型的计算或者转换的终极的灵活性。

MongoDB另一个极其强大的特性称之为“Capped collections”。使用这个特性，用户可以定义一个collection的最大size——然后这个collection可以被盲写，并且会roll-over 必须的数据来获取log和其他供分析的流数据。

你看到，Elasticsearch和MongoDB有一个可能的应用场景的重叠，它们不是同样的工具。但是Hadoop呢？Hadoop就是MapReduce，这已经有MongoDB就地支持了啊！是不是还有一个专属于Hadoop的场景，MongoDB就只是适合。

有Hadoop是老MapReduce了，提供了最为灵活和强大的环境来进行大量数据的处理，毫无疑问的是能够搞定不能使用Elasticsearch或者MongoDB处理的场景。

为了更加清楚地认识到这点，看看Hadoop如何使用HDFS抽象存储的——从关联的计算特性上。通过HDFS中存储的数据，任意job都可以对于数据进行运算，使用写在核心MapReduce API上，或者使用Hadoop流技术直接使用native语言编程。基于Hadoop 2和YARN，甚至核心编程模型都已经被抽象了，你不再受到MapReduce的牵制了。使用YARN你可以在Hadoop上实现MPI并且用那种方式写job。

额外地，Hadoop生态系统提供了一个交错的工具集合，建立在HDFS和核心MapReduce 之上，来进行数据的查询、分析和处理。Hive提供了一个类似SQL的语言，使得业务分析可以使用一个用户习惯的语法进行查询。HBASE提供了一个基于Hadoop的面向列的数据库。Pig和Sizzle提供了两个更加不同的编程模型来查询Hadoop数据。对存储在HDFS

中的数据的使用，你可以继承Mahout的机器学习的能力至你的工具集。当使用RHadoop 时，你可以直接使用R统计语言来对Hadoop数据执行高级的统计分析

所以，尽管Hadoop和MongoDB也有部分重叠的应用场景并且共同拥有一些有用的功能（无缝的水平扩展），但是两者之间还是有着特定的场景。如果你仅仅想要通过关键字和简单的分析，那么Elasticsearch可以完成任务；如果你需要查询文档，并且包含更加复杂的分析过程，那么MongoDB相当适合；如果你有一个海量的数据，需要大量不同的复杂处理和分析，那么Hadoop提供了最为广泛的工具和灵活性。

一个亘古不变的道理就是选择手头最适合的工具做事。在大数据这样的背景下，技术层出不穷，技术间的界限也是相当的模糊，这对我们的选择是一件相当困难的事情。正如你所见，特定的场景有着最适合的技术，这种差异性是相当重要的。最好的消息就是你不在限定在某一种工具或者技术上。依赖于你面对的场景，这就使得我们能够构建一个整合的系统。例如，我们知道Elasticsearch和Hadoop是可以很好地一起共事的，使用Elasticsearch快速的关键词查询，Hadoop job则能处理相当复杂的分析。

最终，采用了最大的搜索和细致的分析来确认最为合适的选择。在选择任何技术或者平台时，需要仔细地验证它们，理解这个东东适合哪些场景，哪里可以进行优化，需要做出哪些牺牲。从一个小小的预研项目开始，确认完毕后，再将技术应用到真正的平台上，缓慢地升级到新的层级。

hadoop大数据技术与应用第1章练习题

第一章一、单选题 1、下面哪个选项不属于Google的三驾马车？（C ） A、GFS B、MapReduce C、HDFS D、BigTable 2、大数据的数据量现在已经达到了哪个级别？（C ） A、GB B、TB C、PB D、ZB 3、2003年，Google公司发表了主要讲解海量数据的可靠存储方法的论文是？（ A ） A、“The Google File System” B、“MapReduce: Simplified Data Processing on Large Clusters” C、“Bigtable: A Distributed Storage System for Structured Data” D、“The Hadoop File System” 4、下面哪个选项不是HDFS架构的组成部分？（ C ） A、NameNode B、DataNode C、Jps D、SecondaryNameNode 5、Hadoop能够使用户轻松开发和运行处理大数据的应用程序，下面不属于Hadoop特性的是（C ） A、高可靠性、高容错性 B、高扩展性 C、高实时性 D、高效性 6、2004年，Google公司发表了主要讲解海量数据的高效计算方法的论文是？（ B ） A、“The Google File System” B、“MapReduce: Simplified Data Processing on Large Clusters” C、“Bigtable: A Distributed Storage System for Structured Data” D、“The Hadoop File System” 7、建立在Hadoop文件系统之上的分布式的列式数据库？（A ）

(完整版)hadoop常见笔试题答案

Hadoop测试题一．填空题，1分（41空），2分（42空）共125分 1.(每空1分) datanode 负责HDFS数据存储。 2.(每空1分)HDFS中的block默认保存 3 份。 3.(每空1分)ResourceManager 程序通常与NameNode 在一个节点启动。 4.(每空1分)hadoop运行的模式有：单机模式、伪分布模式、完全分布式。 5.(每空1分)Hadoop集群搭建中常用的4个配置文件为：core-site.xml 、hdfs-site.xml 、mapred-site.xml 、yarn-site.xml 。 6.(每空2分)HDFS将要存储的大文件进行分割，分割后存放在既定的存储块中，并通过预先设定的优化处理，模式对存储的数据进行预处理，从而解决了大文件储存与计算的需求。 7.(每空2分)一个HDFS集群包括两大部分，即namenode 与datanode 。一般来说，一个集群中会有一个namenode 和多个datanode 共同工作。 8.(每空2分) namenode 是集群的主服务器，主要是用于对HDFS中所有的文件及内容数据进行维护，并不断读取记录集群中datanode 主机情况与工作状态，并通过读取与写入镜像日志文件的方式进行存储。 9.(每空2分) datanode 在HDFS集群中担任任务具体执行角色，是集群的工作节点。文件被分成若干个相同大小的数据块，分别存储在若干个datanode 上，datanode 会定期向集群内namenode 发送自己的运行状态与存储内容，并根据namnode 发送的指令进行工作。 10.(每空2分) namenode 负责接受客户端发送过来的信息，然后将文件存储位置信息发送给client ，由client 直接与datanode 进行联系，从而进行部分文件的运算与操作。 11.(每空1分) block 是HDFS的基本存储单元，默认大小是128M 。 12.(每空1分)HDFS还可以对已经存储的Block进行多副本备份，将每个Block至少复制到 3 个相互独立的硬件上，这样可以快速恢复损坏的数据。 13.(每空2分)当客户端的读取操作发生错误的时候，客户端会向namenode 报告错误，并请求namenode 排除错误的datanode 后，重新根据距离排序，从而获得一个新的的读取路径。如果所有的datanode 都报告读取失败，那么整个任务就读取失败。14.(每空2分)对于写出操作过程中出现的问题，FSDataOutputStream 并不会立即关闭。客户端向Namenode报告错误信息，并直接向提供备份的datanode 中写入数据。备份datanode 被升级为首选datanode ，并在其余2个datanode 中备份复制数据。 NameNode对错误的DataNode进行标记以便后续对其进行处理。 15.(每空1分)格式化HDFS系统的命令为：hdfs namenode –format 。 16.(每空1分)启动hdfs的shell脚本为：start-dfs.sh 。 17.(每空1分)启动yarn的shell脚本为：start-yarn.sh 。 18.(每空1分)停止hdfs的shell脚本为：stop-dfs.sh 。 19.(每空1分)hadoop创建多级目录（如：/a/b/c）的命令为：hadoop fs –mkdir –p /a/b/c 。 20.(每空1分)hadoop显示根目录命令为：hadoop fs –lsr 。 21.(每空1分)hadoop包含的四大模块分别是：Hadoop common 、HDFS 、

hadoop基本命令_建表-删除-导数据

HADOOP表操作 1、hadoop简单说明 hadoop 数据库中的数据是以文件方式存存储。一个数据表即是一个数据文件。hadoop目前仅在LINUX 的环境下面运行。使用hadoop数据库的语法即hive语法。（可百度hive语法学习）通过s_crt连接到主机。使用SCRT连接到主机，输入hive命令，进行hadoop数据库操作。 2、使用hive 进行HADOOP数据库操作

3、hadoop数据库几个基本命令 show datebases; 查看数据库内容; 注意：hadoop用的hive语法用“;”结束，代表一个命令输入完成。 usezb_dim; show tables;

4、在hadoop数据库上面建表； a1: 了解hadoop的数据类型 int 整型; bigint 整型，与int 的区别是长度在于int; int，bigint 相当于oralce的number型，但是不带小数点。 doubble 相当于oracle的numbe型,可带小数点； string 相当于oralce的varchar2(),但是不用带长度； a2: 建表，由于hadoop的数据是以文件有形式存放，所以需要指定分隔符。 create table zb_dim.dim_bi_test_yu3(id bigint,test1 string,test2 string)

row format delimited fields terminated by '\t' stored as textfile; --这里指定'\t'为分隔符 a2.1 查看建表结构: describe A2.2 往表里面插入数据。由于hadoop的数据是以文件存在，所以插入数据要先生成一个数据文件，然后使用SFTP将数据文件导入表中。

Hadoop大数据技术与应用04 YARN

单选题 1、以下选项哪个是YARN的组成部分？（A） A、Container、ResourceManager、NodeManager、ApplicationMaster B、Container、ResourceManager、NodeManager、ApplicationManager C、Container、ResourceManager、Scheduler、ApplicationMaster D、Container、ApplicationManager、NodeManager、ApplicationMaster 2、下列关于YARN的描述错误的是？（C） A、ResourceManager负责整个系统的资源分配和管理，是一个全局的资源管理器 B、NodeManager是每个节点上的资源和任务管理器 C、ApplicationManager是一个详细的框架库，它结合从ResourceManager 获得的资源和 NodeManager协同工作来运行和监控任务 D、调度器根据资源情况为应用程序分配封装在Container中的资源 3、下列关于调度器的描述不正确的是？（A） A、先进先出调度器可以是多队列 B、容器调度器其实是多个FIFO队列 C、公平调度器不允许管理员为每个队列单独设置调度策略 D、先进先出调度器以集群资源独占的方式运行作业 4、YARN哪种调度器采用的是单队列？（A） A、FIFO Scheduler B、Capacity Scheduler C、Fair Scheduler D、ResourceManager

1、YARN不仅支持MapReduce，还支持Spark，Strom等框架。 ( √ ) 2、Container是YARN中资源的抽象，它封装了某个节点上的多维度资源。 ( √ ) 3、YARN的三种调度器只有FIFO是属于单队列的。 ( √ ) 4、在YARN的整个工作过程中，Container是属于动态分配的。 ( √ )

一文读懂大数据：Hadoop,大数据技术、案例及相关应用

你想了解大数据，却对生涩的术语毫不知情？你想了解大数据的市场和应用，却又没有好的案例和解说？别担心，这本来自Wikibon社区的小书想要帮你。是的，这是一本小书而不是一篇文章，因为它详实细致的让你从一个完全不了解大数据技术及相关应用的门外汉，变成一个熟知其概念和意义的“内行人”，所以它很棒！主要内容目录 1.来自Wikibon社区的大数据宣言 (1) 2.数据处理和分析：传统方式 (2) 3.大数据性质的变化 (3) 4.大数据处理和分析的新方法 (5) 4.1 Hadoop (5) 4.1.1 Hadoop如何工作 (6) 4.1.2 Hadoop的技术组件 (7) 4.1.3 Hadoop：优点和缺点 (8) 4.2 NoSQL (8) 4.3 大规模并行分析数据库 (9) 5.大数据方法的互补 (10) 6.大数据供应商发展状况 (12) 7.大数据：实际使用案例 (13) 8.大数据技能差距 (14) 9.大数据：企业和供应商的后续动作 (15) 1.来自Wikibon社区的大数据宣言为公司提供有效的业务分析工具和技术是首席信息官的首要任务。有效的业务分析（从基本报告到高级的数据挖掘和预测分析）使得数据分析人员和业务人员都可以从数据中获得见解，当这些见解转化为行动，会给公司带来更高的效率和盈利能力。所有业务分析都是基于数据的。传统意义上，这意味着企业自己创建和存储的结构化数据，如CRM系统中的客户数据，ERP系统中的运营数据，以及会计数据库

中的财务数据。得益于社交媒体和网络服务（如Facebook，Twitter），数据传感器以及网络设备，机器和人类产生的网上交易，以及其他来源的非结构化和半结构化的数据的普及，企业现有数据的体积和类型以及为追求最大商业价值而产生的近实时分析的需求正在迅速增加。我们称这些为大数据。传统的数据管理和业务分析工具及技术都面临大数据的压力，与此同时帮助企业获得来自大数据分析见解的新方法不断涌现。这些新方法采取一种完全不同于传统工具和技术的方式进行数据处理、分析和应用。这些新方法包括开源框架Hadoop，NoSQL数据库（如Cassandra和Accumulo）以及大规模并行分析数据库（如EMC的Greenplum，惠普的Vertica和TeradataASTERData）。这意味着，企业也需要从技术和文化两个角度重新思考他们对待业务分析的方式。对于大多数企业而言，这种转变并不容易，但对于接受转变并将大数据作为业务分析实践基石的企业来说，他们会拥有远远超过胆小对手的显著竞争优势。大数据助力复杂的业务分析可能为企业带来前所未有的关于客户行为以及动荡的市场环境的深入洞察，使得他们能够更快速的做出数据驱动业务的决策，从而比竞争对手更有效率。从存储及支持大数据处理的服务器端技术到为终端用户带来鲜活的新见解的前端数据可视化工具，大数据的出现也为硬件、软件和服务供应商提供了显著的机会。这些帮助企业过渡到大数据实践者的供应商，无论是提供增加商业价值的大数据用例，还是发展让大数据变为现实的技术和服务，都将得到茁壮成长。大数据是所有行业新的权威的竞争优势。认为大数据是昙花一现的企业和技术供应商很快就会发现自己需要很辛苦才能跟上那些提前思考的竞争对手的步伐。在我们看来，他们是非常危险的。对于那些理解并拥抱大数据现实的企业，新创新，高灵活性，以及高盈利能力的可能性几乎是无止境的。 2.数据处理和分析：传统方式传统上，为了特定分析目的进行的数据处理都是基于相当静态的蓝图。通过常规的业务流程，企业通过CRM、ERP和财务系统等应用程序，创建基于稳定数据模型的结构化数据。数据集成工具用于从企业应用程序和事务型数据库中提取、转换和加载数据到一个临时区域，在这个临时区域进行数据质量检查和数据标准化，

hadoop练习题--带答案

Hadoop 练习题姓名：分数：单项选择题 1.下面哪个程序负责HDFS数据存储。 a)NameNode b)Jobtracker c)Datanode √ d)secondaryNameNode e)tasktracker 2.HDfS中的block默认保存几份？ a)3份√ b)2份 c)1份 d)不确定 3.下列哪个程序通常与NameNode在一个节点启动？ a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker√ 4.Hadoop作者 a)Martin Fowler b)Kent Beck c)Doug cutting√ 5.HDFS默认Block Size a)32MB b)64MB√ c)128MB 6.下列哪项通常是集群的最主要的性能瓶颈 a)CPU b)网络 c)磁盘√ d)内存

7.关于SecondaryNameNode哪项是正确的？ a)它是NameNode的热备 b)它对内存没有要求 c)它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间√ d)SecondaryNameNode应与NameNode部署到一个节点 8.一个gzip文件大小75MB，客户端设置Block大小为64MB，请我其占用几个Block？ a) 1 b)2√ c) 3 d) 4 9.HDFS有一个gzip文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce 任务读取该文件时input split大小为？ a)64MB b)75MB√ c)一个map读取64MB，另外一个map读取11MB 10.HDFS有一个LZO（with index）文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为？ a)64MB b)75MB c)一个map读取64MB，另外一个map读取11MB√ 多选题： 11.下列哪项可以作为集群的管理工具 a)Puppet√ b)Pdsh√ c)Cloudera Manager√ d)Rsync + ssh + scp√ 12.配置机架感知的下面哪项正确 a)如果一个机架出问题，不会影响数据读写√ b)写入数据的时候会写到不同机架的DataNode中√ c)MapReduce会根据机架获取离自己比较近的网络数据√ 13.Client端上传文件的时候下列哪项正确 a)数据经过NameNode传递给DataNode b)Client端将文件以Block为单位，管道方式依次传到DataNode√ c)Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作 d)当某个DataNode失败，客户端会继续传给其它DataNode √

Hadoop 集群基本操作命令-王建雄-2016-08-22

Hadoop 集群基本操作命令列出所有Hadoop Shell支持的命令 $ bin/hadoop fs -help （注：一般手动安装hadoop大数据平台，只需要创建一个用户即可，所有的操作命令就可以在这个用户下执行；现在是使用ambari安装的dadoop大数据平台，安装过程中会自动创建hadoop生态系统组件的用户，那么就可以到相应的用户下操作了，当然也可以在root用户下执行。下面的图就是执行的结果，只是hadoop shell 支持的所有命令，详细命令解说在下面，因为太多，我没有粘贴。）显示关于某个命令的详细信息 $ bin/hadoop fs -help command-name （注：可能有些命令，不知道什么意思，那么可以通过上面的命令查看该命令的详细使用信息。例子：这里我用的是hdfs用户。）注：上面的两个命令就可以帮助查找所有的haodoop命令和该命令的详细使用资料。

创建一个名为 /daxiong 的目录 $ bin/hadoop dfs -mkdir /daxiong 查看名为 /daxiong/myfile.txt 的文件内容$ bin/hadoop dfs -cat /hadoop dfs -cat /user/haha/part-m-00000 上图看到的是我上传上去的一张表，我只截了一部分图。注：hadoop fs <..> 命令等同于hadoop dfs <..> 命令（hdfs fs/dfs）显示Datanode列表 $ bin/hadoop dfsadmin -report

$ bin/hadoop dfsadmin -help 命令能列出所有当前支持的命令。比如： -report：报告HDFS的基本统计信息。注：有些信息也可以在NameNode Web服务首页看到运行HDFS文件系统检查工具(fsck tools) 用法：hadoop fsck [GENERIC_OPTIONS] [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]] 命令选项描述检查的起始目录。 -move 移动受损文件到/lost+found -delete 删除受损文件。 -openforwrite 打印出写打开的文件。 -files 打印出正被检查的文件。 -blocks 打印出块信息报告。 -locations 打印出每个块的位置信息。 -racks 打印出data-node的网络拓扑结构。打印版本信息用法：hadoop version 运行集群平衡工具。管理员可以简单的按Ctrl-C来停止平衡过程(balancer)

01第一章初识Hadoop大数据技术

第1章初识Hadoop大数据技术本章主要介绍大数据的时代背景，给出了大数据的概念、特征，还介绍了大数据相关问题的解决方案、Hadoop大数据技术以及Hadoop的应用案例。本章的主要内容如下。（1）大数据技术概述。（2）Google的三篇论文及其思想。（3）Hadoop概述。（4）Hadoop生态圈。（5）Hadoop的典型应用场景和应用架构。 1.1 大数据技术概述 1.1.1 大数据产生的背景 1946年，计算机诞生，当时的数据与应用紧密捆绑在文件中，彼此不分。19世纪60年代，IT系统规模和复杂度变大，数据与应用分离的需求开始产生，数据库技术开始萌芽并蓬勃发展，并在1990年后逐步统一到以关系型数据库为主导，具体发展阶段如图1-1所示。

Hadoop 大数据技术与应用图1-1 数据管理技术在2001年前的两个发展阶段 2001年后，互联网迅速发展，数据量成倍递增。据统计，目前，超过150亿个设备连接到互联网，全球每秒钟发送290万封电子邮件，每天有2.88万小时视频上传到YouTube 网站，Facebook 网站每日评论达32亿条，每天上传照片近3亿张，每月处理数据总量约130万TB 。2016年全球产生数据量16.1ZB ，预计2020年将增长到35ZB （1ZB = 1百万，PB = 10亿TB ），如图1-2所示。图1-2 IDC 数据量增长预测报告 2011年5月，EMC World 2011大会主题是“云计算相遇大数据”，会议除了聚焦EMC 公司一直倡导的云计算概念外，还抛出了“大数据”（BigData ）的概念。2011年6月底，IBM 、麦肯锡等众多国外机构发布“大数据”相关研究报告，并予以积极的跟进。 19世纪60年代，IT 系统规模和复杂度变大，数据与应用分离的需求开始产生，数据库技术开始萌芽并蓬勃发展，并在1990年后逐步统一到以关系型数据库为主导 1946年，计算机诞生，数据与应用紧密捆绑在文件中，彼此不分 1946 1951 1956 1961 1970 1974 1979 1991 2001 … 网络型 E-R SQL 关系型数据库数据仓库第一台计算机 ENIAC 面世磁带+ 卡片人工管理磁盘被发明，进入文件管理时代 GE 公司发明第一个网络模型数据库，但仅限于GE 自己的主机 IBM E. F.Dodd 提出关系模型 SQL 语言被发明 ORACLE 发布第一个商用SQL 关系数据库，后续快速发展数据仓库开始涌现，关系数据库开始全面普及且与平台无关，数据管理技术进入成熟期 0.8ZB ：将一堆 DVD 堆起来够地球到月亮一个来回 35ZB ：将一堆DVD 堆起来是地球到火星距离的一半 IDC 报告“Data Universe Study ” 预测：全世界数据量将从2009 年的0.8ZB 增长到2020年的 35ZB ，增长44倍！年均增长率>40%！

Hadoop 100道面试题及答案解析

3.6 误） 3.7Hadoop支持数据的随机读写。（错） (8) NameNode负责管理metadata，client端每次读写请求，它都会从磁盘中3.8 读取或则会写入metadata信息并反馈client端。（错误） (8) NameNode本地磁盘保存了Block的位置信息。（个人认为正确，欢迎提出其它意见） (9) 3.9 3.10 3.11DataNode通过长连接与NameNode保持通信。（有分歧） (9) Hadoop自身具有严格的权限管理和安全措施保障集群正常运行。（错误）9 3.12 3.13 3.14Slave节点要存储数据，所以它的磁盘越大越好。（错误） (9) hadoop dfsadmin–report命令用于检测HDFS损坏块。（错误） (9) Hadoop默认调度器策略为FIFO（正确） (9) 100道常见Hadoop面试题及答案解析目录 1单选题 (5) 1.1 1.2 1.3 1.4 1.5 1.6 1.7下面哪个程序负责HDFS数据存储。 (5) HDfS中的block默认保存几份？ (5) 下列哪个程序通常与NameNode在一个节点启动？ (5) Hadoop作者 (6) HDFS默认Block Size (6) 下列哪项通常是集群的最主要瓶颈： (6) 关于SecondaryNameNode哪项是正确的？ (6) 2 3多选题 (7) 2.1 2.2 2.3 2.4 2.5 下列哪项可以作为集群的管理？ (7) 配置机架感知的下面哪项正确： (7) Client端上传文件的时候下列哪项正确？ (7) 下列哪个是Hadoop运行的模式： (7) Cloudera提供哪几种安装CDH的方法？ (7) 判断题 (8) 3.1 3.2 3.3 Ganglia不仅可以进行监控，也可以进行告警。（正确） (8) Block Size是不可以修改的。（错误） (8) Nagios不可以监控Hadoop集群，因为它不提供Hadoop支持。（错误） 8 3.4如果NameNode意外终止，SecondaryNameNode会接替它使集群继续工作。（错误） (8) 3.5Cloudera CDH是需要付费使用的。（错误） (8) Hadoop是Java开发的，所以MapReduce只支持Java语言编写。（错 8

Hadoop命令大全

Hadoop命令大全 Hadoop配置： Hadoop配置文件core-site.xml应增加如下配置，否则可能重启后发生Hadoop 命名节点文件丢失问题： hadoop.tmp.dir /home/limingguang/hadoopdata 环境变量设置：为了便于使用各种命令，可以在.bashrc文件中添加如下内容： export JAVA_HOME=/home/limingguang/jdk1.7.0_07 export HADOOP_HOME=/home/limingguang/hadoop-1.0.3 export HIVE_HOME=/home/limingguang/hive-0.9.0 export MAHOUT_HOME=/home/limingguang/mahout-distribution-0.7 export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HIVE_HOME/bin:$MAHOUT_HOME/bin: $PATH export HADOOP_HOME_WARN_SUPPRESS=1 具体目录请更改为安装目录，HADOOP_HOME_WARN_SUPPRESS变量为抑制HADOOP_HOME变量重复时的告警。常用命令：

1、列出所有Hadoop Shell支持的命令 $ bin/hadoop fs -help 2、显示关于某个命令的详细信息 $ bin/hadoop fs -help command-name 3、用户可使用以下命令在指定路径下查看历史日志汇总 $ bin/hadoop job -history output-dir 这条命令会显示作业的细节信息，失败和终止的任务细节。 4、关于作业的更多细节，比如成功的任务，以及对每个任务的所做的尝试次数等可以用下面的命令查看 $ bin/hadoop job -history all output-dir 5、格式化一个新的分布式文件系统： $ bin/hadoop namenode -format 6、在分配的NameNode上，运行下面的命令启动HDFS： $ bin/start-dfs.sh bin/start-dfs.sh脚本会参照NameNode上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上启动DataNode守护进程。 7、在分配的JobTracker上，运行下面的命令启动Map/Reduce： $ bin/start-mapred.sh bin/start-mapred.sh脚本会参照JobTracker上${HADOOP_CONF_DIR}/slaves 文件的内容，在所有列出的slave上启动TaskTracker守护进程。 8、在分配的NameNode上，执行下面的命令停止HDFS： $ bin/stop-dfs.sh bin/stop-dfs.sh脚本会参照NameNode上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上停止DataNode守护进程。 9、在分配的JobTracker上，运行下面的命令停止Map/Reduce： $ bin/stop-mapred.sh bin/stop-mapred.sh脚本会参照JobTracker上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上停止TaskTracker守护进程。 10、启动所有 $ bin/start-all.sh 11、关闭所有 $ bin/stop-all.sh DFSShell 10、创建一个名为 /foodir 的目录 $ bin/hadoop dfs -mkdir /foodir 11、创建一个名为 /foodir 的目录 $ bin/hadoop dfs -mkdir /foodir 12、查看名为 /foodir/myfile.txt 的文件内容 $ bin/hadoop dfs -cat /foodir/myfile.txt

大数据技术Hadoop面试题

大数据技术Hadoop面试题,看看你能答对多少？单项选择题 1. 下面哪个程序负责HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 2. HDfS 中的block 默认保存几份？ a)3 份 b)2 份 c)1 份 d)不确定 3. 下列哪个程序通常与NameNode 在一个节点启动？ a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 4. Hadoop 作者 a)Martin Fowler b)Kent Beck c)Doug cutting 5. HDFS 默认Block Size a)32MB b)64MB c)128MB 6. 下列哪项通常是集群的最主要瓶颈 a)CPU b)网络 c)磁盘 d)内存 7. 关于SecondaryNameNode 哪项是正确的？ a)它是NameNode 的热备 b)它对内存没有要求 c)它的目的是帮助NameNode 合并编辑日志，减少NameNode 启动时间 d)SecondaryNameNode 应与NameNode 部署到一个节点多选题： 8. 下列哪项可以作为集群的管理工具 a)Puppet b)Pdsh c)Cloudera Manager d)d)Zookeeper

9. 配置机架感知的下面哪项正确 a)如果一个机架出问题，不会影响数据读写 b)写入数据的时候会写到不同机架的DataNode 中 c)MapReduce 会根据机架获取离自己比较近的网络数据 10. Client 端上传文件的时候下列哪项正确 a)数据经过NameNode 传递给DataNode b)Client 端将文件切分为Block，依次上传 c)Client 只上传数据到一台DataNode，然后由NameNode 负责Block 复制工作 11. 下列哪个是Hadoop 运行的模式 a)单机版 b)伪分布式 c)分布式 12. Cloudera 提供哪几种安装CDH 的方法 a)Cloudera manager b)Tar ball c)Yum d)Rpm 判断题： 13. Ganglia 不仅可以进行监控，也可以进行告警。（） 14. Block Size 是不可以修改的。（） 15. Nagios 不可以监控Hadoop 集群，因为它不提供Hadoop 支持。（） 16. 如果NameNode 意外终止，SecondaryNameNode 会接替它使集群继续工作。（） 17. Cloudera CDH 是需要付费使用的。（） 18. Hadoop 是Java 开发的，所以MapReduce 只支持Java 语言编写。（） 19. Hadoop 支持数据的随机读写。（） 20. NameNode 负责管理metadata，client 端每次读写请求，它都会从磁盘中读取或则会写入metadata 信息并反馈client 端。（） 21. NameNode 本地磁盘保存了Block 的位置信息。（） 22. DataNode 通过长连接与NameNode 保持通信。（） 23. Hadoop 自身具有严格的权限管理和安全措施保障集群正常运行。（） 24. Slave 节点要存储数据，所以它的磁盘越大越好。（） 25. hadoop dfsadmin –report 命令用于检测HDFS 损坏块。（） 26. Hadoop 默认调度器策略为FIFO（） 27. 集群内每个节点都应该配RAID，这样避免单磁盘损坏，影响整个节点运行。（） 28. 因为HDFS 有多个副本，所以NameNode 是不存在单点问题的。（） 29. 每个map 槽就是一个线程。（） 30. Mapreduce 的input split 就是一个block。（） 31. NameNode 的Web UI 端口是50030，它通过jetty 启动的Web 服务。（） 32. Hadoop 环境变量中的HADOOP_HEAPSIZE 用于设置所有Hadoop 守护线程的内存。它默认是200 GB。（） 33. DataNode 首次加入cluster 的时候，如果log 中报告不兼容文件版本，那需要NameNode执行“Hadoop namenode -format”操作格式化磁盘。（）【编辑推荐】没有数据分析大数据什么也不是...... 大数据告诉你，真正的白富美的生活是怎样的呢？

hadoop常用算法例子解读

基本MapReduce模式计数与求和基本MapReduce模式计数与求和问题陈述: 有许多文档，每个文档都有一些字段组成。需要计算出每个字段在所有文档中的出现次数或者这些字段的其他什么统计值。例如，给定一个log文件，其中的每条记录都包含一个响应时间，需要计算出平均响应时间。解决方案: 让我们先从简单的例子入手。在下面的代码片段里，Mapper每遇到指定词就把频次记1，Reducer一个个遍历这些词的集合然后把他们的频次加和。 1.class Mapper 2. method Map(docid id, doc d) 3. for all term t in doc d do 4. Emit(term t, count 1) 5. 6.class Reducer 7. method Reduce(term t, counts [c1, c2,...]) 8. sum = 0 9. for all count c in [c1, c2,...] do 10. sum = sum + c 11. Emit(term t, count sum) 复制代码这种方法的缺点显而易见，Mapper提交了太多无意义的计数。它完全可以通过先对每个文档中的词进行计数从而减少传递给Reducer的数据量: [size=14.166666030883789px] 1. 1 class Mapper 2. 2 method Map(docid id, doc d) 3. 3 H = new AssociativeArray 4. 4 for all term t in doc d do 5. 5 H{t} = H{t} + 1

Hadoop最全面试题整理(附目录)

Hadoop面试题目及答案(附目录) 选择题 1.下面哪个程序负责HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 答案C datanode 2. HDfS 中的block 默认保存几份？ a)3 份b)2 份c)1 份d)不确定答案A 默认3 份 3.下列哪个程序通常与NameNode 在一个节点启动？ a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 答案D 分析：hadoop 的集群是基于master/slave 模式，namenode 和jobtracker 属于master，datanode 和tasktracker 属于slave，master 只有一个，而slave 有多个SecondaryNameNode 内存需求和NameNode 在一个数量级上，所以通常secondaryNameNode（运行在单独的物理机器上）和NameNode 运行在不同的机器上。 JobTracker 和TaskTracker JobTracker 对应于NameNode，TaskTracker 对应于DataNode，DataNode 和NameNode 是针对数据存放来而言的，JobTracker 和TaskTracker 是对于MapReduce 执行而言的。mapreduce 中几个主要概念，mapreduce 整体上可以分为这么几条执行线索：jobclient，JobTracker 与TaskTracker。 1、JobClient 会在用户端通过JobClient 类将应用已经配置参数打包成jar 文件存储到hdfs，并把路径提交到Jobtracker,然后由JobTracker 创建每一个Task（即MapTask 和ReduceTask）并将它们分发到各个TaskTracker 服务中去执行。 2、JobTracker 是一个master 服务，软件启动之后JobTracker 接收Job，负责调度Job 的每一个子任务task 运行于TaskTracker 上，并监控它们，如果发现有失败的task 就重新运行它。一般情况应该把JobTracker 部署在单独的机器上。 3、TaskTracker 是运行在多个节点上的slaver 服务。TaskTracker 主动与JobTracker 通信，接收作业，并负责直接执行每一个任务。TaskTracker 都需要运行在HDFS 的DataNode 上。 4. Hadoop 作者 a)Martin Fowler b)Kent Beck c)Doug cutting 答案C Doug cutting 5. HDFS 默认Block Size a)32MB b)64MB c)128MB 答案：B 6. 下列哪项通常是集群的最主要瓶颈 a)CPU b)网络c)磁盘IO d)内存答案：C 磁盘首先集群的目的是为了节省成本，用廉价的pc 机，取代小型机及大型机。小型机和大型机

面试必过——50个最受欢迎的Hadoop面试问题

50个最受欢迎的Hadoop面试问题您是否打算在大数据和数据分析领域找到工作？您是否担心破解Hadoop面试？我们整理了一份方便的Hadoop面试问题清单。您可能具有关于软件框架的丰富知识，但是在短短的15分钟面试环节中无法测试所有这些知识。因此，面试官会问您一些特定的大数据面试问题，他们认为这些问题易于判断您对主题的了解。立即注册：Hadoop基础在线培训课程 Hadoop面试的前50名问答当前，与大数据相关的工作正在增加。五分之一的大公司正在迁移到大数据分析，因此现在是时候开始申请该领域的工作了。因此，我们不需再拖延地介绍Hadoop面试的前50名问答，这将帮助您完成面试。 Hadoop基本面试问题这些是您在大数据采访中必将面对的最常见和最受欢迎的大数据Hadoop采访问题。通过准备这些Hadoop面试问题，无疑会给您带来竞争优势。首先，我们将重点关注人们在申请Hadoop相关工作时遇到的常见和基本的Hadoop 面试问题，无论其职位如何。

1. Hadoop框架中使用了哪些概念？答：Hadoop框架在两个核心概念上起作用： ?HDFS：Hadoop分布式文件系统的缩写，它是一个基于Java的文件系统，用于可扩展和可靠地存储大型数据集。HDFS本身在主从架构上工作，并以块形式存储其所有数据。 ?MapReduce：这是用于处理和生成大型数据集的编程模型以及相关的实现。 Hadoop作业基本上分为两个不同的任务作业。映射作业将数据集分解为键值对或元组。然后，reduce作业获取map作业的输出，并将数据元组合并为较小的元组集。 2.什么是Hadoop？命名Hadoop应用程序的主要组件。答：Hadoop是“大数据”问题的解决方案。Hadoop被描述为提供许多用于存储和处理大数据的工具和服务的框架。当难以使用传统方法进行决策时，它在大数据分析和制定有效的业务决策中也起着重要作用。 Hadoop提供了广泛的工具集，可以非常轻松地存储和处理数据。以下是Hadoop的所有主要组件：

hadoop基本操作指令

Hadoop基本操作指令假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop，默认认为Hadoop环境已经由运维人员配置好直接可以使用启动与关闭启动Hadoop 1. 进入HADOOP_HOME目录。 2. 执行sh bin/start-all.sh 关闭Hadoop 1. 进入HADOOP_HOME目录。 2. 执行sh bin/stop-all.sh 文件操作 Hadoop使用的是HDFS，能够实现的功能和我们使用的磁盘系统类似。并且支持通配符，如*。查看文件列表查看hdfs中/user/admin/aaron目录下的文件。 1. 进入HADOOP_HOME目录。 2. 执行sh bin/hadoop fs -ls /user/admin/aaron 这样，我们就找到了hdfs中/user/admin/aaron目录下的文件了。我们也可以列出hdfs中/user/admin/aaron目录下的所有文件（包括子目录下的文件）。 1. 进入HADOOP_HOME目录。 2. 执行sh bin/hadoop fs -lsr /user/admin/aaron 创建文件目录查看hdfs中/user/admin/aaron目录下再新建一个叫做newDir的新目录。 1. 进入HADOOP_HOME目录。 2. 执行sh bin/hadoop fs -mkdir /user/admin/aaron/newDir 删除文件删除hdfs中/user/admin/aaron目录下一个名叫needDelete的文件 1. 进入HADOOP_HOME目录。 2. 执行sh bin/hadoop fs -rm /user/admin/aaron/needDelete 删除hdfs中/user/admin/aaron目录以及该目录下的所有文件

大数据技术之hadoop实战笔记

Hadoop一直是我想学习的技术，正巧最近项目组要做电子商城，我就开始研究Hadoop，虽然最后鉴定Hadoop不适用我们的项目，但是我会继续研究下去，技多不压身。《Hadoop基础教程》是我读的第一本Hadoop书籍，当然在线只能试读第一章，不过对Hadoop历史、核心技术和应用场景有了初步了解。 ?Hadoop历史雏形开始于2002年的Apache的Nutch，Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。随后在2003年Google发表了一篇技术学术论文谷歌文件系统（GFS）。GFS也就是google File System，google公司为了存储海量搜索数据而设计的专用文件系统。 2004年Nutch创始人Doug Cutting基于Google的GFS论文实现了分布式文件存储系统名为NDFS。 2004年Google又发表了一篇技术学术论文MapReduce。MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行分析运算。 2005年Doug Cutting又基于MapReduce，在Nutch搜索引擎实现了该功能。 2006年，Yahoo雇用了Doug Cutting，Doug Cutting将NDFS和MapReduce 升级命名为Hadoop，Yahoo开建了一个独立的团队给Goug Cutting专门研究发展Hadoop。不得不说Google和Yahoo对Hadoop的贡献功不可没。 ?Hadoop核心

Hadoop的核心就是HDFS和MapReduce，而两者只是理论基础，不是具体可使用的高级应用，Hadoop旗下有很多经典子项目，比如HBase、Hive等，这些都是基于HDFS和MapReduce发展出来的。要想了解Hadoop，就必须知道HDFS和MapReduce 是什么。 HDFS HDFS（Hadoop Distributed File System，Hadoop分布式文件系统），它是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，适合那些有着超大数据集（large data set）的应用程序。 HDFS的设计特点是： 1、大数据文件，非常适合上T级别的大文件或者一堆大数据文件的存储，如果文件只有几个G甚至更小就没啥意思了。 2、文件分块存储，HDFS会将一个完整的大文件平均分块存储到不同计算机上，它的意义在于读取文件时可以同时从多个主机取不同区块的文件，多主机读取比单主机读取效率要高得多得多。 3、流式数据访问，一次写入多次读写，这种模式跟传统文件不同，它不支持动态改变文件内容，而是要求让文件一次写入就不做变化，要变化也只能在文件末添加内容。 4、廉价硬件，HDFS可以应用在普通PC机上，这种机制能够让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群。 5、硬件故障，HDFS认为所有计算机都可能会出问题，为了防止某个主机失效读取不到该主机的块文件，它将同一个文件块副本分配到其它某几个主机上，如果其中一台主机失效，可以迅速找另一块副本取文件。