浅析基于Hadoop的大数据分析与应用

龙源期刊网 https://www.360docs.net/doc/7a17431469.html,

浅析基于Hadoop的大数据分析与应用

作者：王博文

来源：《数字技术与应用》2015年第04期

摘要：对于IT行业来说，大数据的处理与分析是目前非常热门的专业技术，很多企业都希望利用大数据处理和应用来帮助自己获得成功。但就目前的现状来看，存储技术还存在一定的问题，为了让大数据能够得以更好的应用且具备更强的扩展性能，Hadoop的出现为企业的成功带来了可能，并开始了蓬勃的发展。本文主要分析了hadoop的工作原理及其特点，并论述了Hadoop与大数据分析与应用的关系。

关键词：hadoop 大数据应用

中图分类号：Tp274 文献标识码：A 文章编号：1007-9416（2015）04-0226-01

最近几年以来，大部分企业都开始认识到数据资产规模化能够给企业带来的潜在价值，而这些不断增长的数据资产主要分为非结构化与半结构化两种类型。怎样利用最低的成本和最快的效率来对这些海量数据进行处理与应用，成为摆在我们面前的一大难题。Google公司率先

提出了MapReduce编程框架，而GFS文件系统与BigTable存储系统也开始成为了大数据处理技术中的领导者，而这三种技术也成为了大数据处理技术的事实标准，以极快的速度普及到各个互联网企业之中，逐渐变为了PB级海量大数据处理的领先技术。那么Hadoop到底是什么？为什么Hadoop可以成为当今热门的大数据应用的开发平台？

1 Hadoop框架工作原理分析

Hadoop属于开源框架，它的本质是一种能够用于编写和运行分布式应用处理的大规模数据。Hadoop和其他的框架相比，自身具备便捷、可扩展性强、操作便利等特征，特别是Hadoop的便利性让它在编写与运行大型分布式程序的过程中独占优势。用户借助于Hadoop能够在很大程度上领略到分布式计算法则带来的优势。Hadoop利用分布式存储、迁移代码等技术，在进行大数据的处理过程中，可以非常好地解决耗时数据传输问题。更关键的一点是，数据冗余机制能够让Hadoop从单点失效中逐渐恢复[1]。

Hadoop框架基本构成包括了分布式文件系统HDFS以及MapReduce。HDFS主要是利用Master/Slave架构，一个HDFS集群包含了NameNode节点与DataNode节点。NameNode属于中心服务器，其主要作用是对文件系统的名字空间进行管理，同时负责文件访问。在集群系统内部，通常来说在某个节点中运行一个DataNode，主要对此节点内的数据信息进行管理，同时处理客户端发送来的文件读写请求，还能够在NameNode的调度下对数据模块进行创建与复制。另外，Hadoop还能够完成MapReduce分布式计算，Mapreduce能够将总任务划分为若干子任务，而各个子任务能够在任意集群节点中进行处理。HDFS创建了若干数据副本，能够确