一文读懂大数据:Hadoop,大数据技术、案例及相关应用

合集下载

hadoop使用场景

hadoop使用场景

hadoop使用场景Hadoop使用场景Hadoop是一个开源的分布式计算框架,可以处理大规模数据集。

它的出现解决了传统计算机无法处理大规模数据的问题,因此被广泛应用于各种场景。

以下是Hadoop的一些使用场景:1. 大数据存储Hadoop的分布式文件系统HDFS可以存储大规模数据集,并在集群中进行数据备份和恢复。

它的数据可靠性和可扩展性是传统文件系统无法比拟的。

因此,许多大型企业和组织都将Hadoop用于大数据存储。

2. 数据处理和分析Hadoop的MapReduce框架使得分布式计算变得简单和高效。

它可以在集群中并行执行任务,处理大规模数据集。

许多企业使用Hadoop来处理和分析数据,以便发现数据中的模式和趋势,作出更好的业务决策。

3. 数据挖掘和机器学习Hadoop的机器学习库Mahout可以帮助企业在大规模数据集上训练机器学习模型。

许多企业使用Hadoop来分析客户行为、识别欺诈或评估风险等。

Mahout还可以用于推荐系统、分类和聚类等任务。

4. 日志分析许多企业使用Hadoop来分析日志,以便了解产品的使用情况、识别系统故障或发现安全问题。

Hadoop可以帮助企业处理大量的日志数据,从中提取有价值的信息。

5. 图像和音频处理Hadoop可以用于处理图像和音频数据。

许多企业使用Hadoop来分析图像和音频数据,以便识别图像中的物体、提取音频中的声音特征等。

这些信息可以用于图像搜索、音频识别等应用。

总结Hadoop是一个强大的分布式计算框架,可以处理大量的数据。

它被广泛应用于各种场景,包括大数据存储、数据处理和分析、数据挖掘和机器学习、日志分析、图像和音频处理等。

随着大数据的不断增长,Hadoop的使用场景会越来越多,对企业的业务决策和发展有着重要的意义。

Hadoop大数据分析技术在电商营销中的应用

Hadoop大数据分析技术在电商营销中的应用

Hadoop大数据分析技术在电商营销中的应用随着互联网的发展,电商行业的竞争越来越激烈。

如何让自己的商品卖的更好、更快,是每家电商公司都必须思考的问题。

而大数据分析技术的应用,可以帮助电商公司更好的了解市场需求,调整营销策略,提升销售额。

Hadoop作为一种大数据分析工具,已经在电商行业中得到了广泛应用,本文将就此展开论述。

一、Hadoop大数据分析技术简介Hadoop是一个由Apache基金会所开发的分布式计算框架,可以在大规模集群上存储和分析数据。

它实现了MapReduce计算模型和分布式文件系统HDFS。

在使用Hadoop进行大数据分析时,可以采用分布式计算的方式,将数据分成多个小块并在多台计算机上进行计算,大大提高了计算效率。

此外,Hadoop还采用了多副本机制,在数据冗余备份的同时保证了数据的安全性。

二、Hadoop在电商营销中的应用1.基于用户需求的推荐系统电商公司可以通过采集用户的浏览、购买、搜索等行为数据,并通过Hadoop进行数据分析,了解用户喜好、消费习惯等,从而精准地为用户推荐商品,并提高用户购买转化率。

例如京东、淘宝等电商公司都在使用推荐系统,从而为用户提供更好的购物体验。

2.商品销售预测电商公司可以通过Hadoop对历史销售数据、用户评论等数据进行分析,预测未来的销售趋势,为公司的采购和销售策略提供参考,提高供需匹配的准确率,降低库存和滞销风险。

3.营销策略调整电商公司可以通过Hadoop对不同营销策略的效果进行分析,比如对促销活动的转化率、销售额等数据进行分析,然后根据数据情况及时调整营销策略。

同时,电商公司还可以对不同用户群体的喜好进行数据分析,从而为不同用户提供不同的营销策略,提高用户购买转化率与销售额。

4.客户细分电商公司可以通过Hadoop对不同的用户进行分类,例如按照年龄、性别、地理位置等进行分类,进而为不同群体提供不同的个性化服务。

同时,通过对不同用户的行为数据进行分析,电商公司可以发现一些有共同行为的用户,并进一步掌握这些用户的需求和兴趣,为这些用户提供更有针对性的服务。

hadoop技术、方法以及原理的理解

hadoop技术、方法以及原理的理解

hadoop技术、方法以及原理的理解Hadoop技术、方法以及原理的理解Hadoop是一个开源的分布式计算框架,它能够存储和处理海量的数据。

它由Apache基金会开发和维护,是目前最流行的大数据处理解决方案之一。

Hadoop的技术、方法以及原理是构成Hadoop 的核心部分,下面我们将对其进行详细的解析。

一、Hadoop的技术1. HDFSHadoop分布式文件系统(HDFS)是Hadoop的核心组件之一。

它是一种高度容错的分布式文件系统,具有高可靠性和高可用性。

该文件系统将海量数据分散存储在多个节点上,以实现快速访问和处理。

2. MapReduceMapReduce是Hadoop的另一个核心组件,它是一种编程模型和处理数据的方式。

MapReduce将数据分成小的块,然后在分布式计算机集群上处理这些块。

MapReduce将任务分为Map和Reduce两个阶段。

在Map阶段,数据被分割并分配给不同的节点进行计算。

在Reduce阶段,计算的结果被合并起来并输出。

3. YARNHadoop资源管理器(YARN)是另一个重要的组件,它是一个分布式的集群管理系统,用于管理Hadoop集群中的资源。

YARN允许多个应用程序同时运行在同一个Hadoop集群上,通过动态管理资源来提高集群的使用效率。

二、Hadoop的方法1. 大数据存储Hadoop通过HDFS实现对海量数据的存储和管理。

HDFS的设计目标是支持大型数据集的分布式处理,它通过多个节点存储数据,提供高可靠性和高可用性。

2. 数据处理Hadoop通过MapReduce实现对海量数据的处理。

MapReduce 将数据分成小的块,然后在分布式计算机集群上处理这些块。

在Map阶段,数据被分割并分配给不同的节点进行计算。

在Reduce 阶段,计算的结果被合并起来并输出。

3. 数据分析Hadoop通过Hive、Pig和Spark等工具实现数据分析。

这些工具提供了高级查询和数据分析功能,可以通过SQL和其他编程语言来处理海量数据。

《Hadoop应用案例》课件

《Hadoop应用案例》课件
《Hadoop应用案例》PPT课件
# Hadoop应用案例 本PPT将介绍Hadoop的应用案例,包括以下内容: - Hadoop基本概念 - HDFS应用案例 - MapReduce应用案例 - Hadoop生态系统应用案例
什么是Hadoop
Hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据集。它具 有高可靠性、高扩展性和高容错性。
总结
以上是Hadoop的应用案例,Hadoop作为一个大数据处理框架,拥有无限的发 展潜力,相信在未来的日子里,Hadoop会发展得越来越好。
2
HBase是一个分布式的NoSQL数据库,用
于实时读写大规模数据。
3
Spark应用案例
4
Spark是一个快速通用的大数据处理引擎, 可用于实时数据分析和机器学习。
Hive应用案例
Hive是一个基于Hadoop的数据仓库工具, 用于进行数据查询和分析。
Pig应用案例
Pig是一个高级数据分析平台,用于提供 简化的数据处理脚本。
通过MapReduce对大量日志数据 进行分析和提取,用于故障排查 和性能优化。
图计算
MapReduce可应用于图算法,如 社交网络分析和路径规划等。
Hadoop生态系统应用案例
Hadoop生态系统包含了许多与Hadoop集成的工具和数据库。以下是一些Hadoop生态系统的应用案例:
1
HBase应用案例
2
2006
Hadoop成为Apache软件基金会的一部分,开始发展壮大。
3
2012
Hadoop 1.0发布,广泛应用于各行各业。
HDFS应用案例
HDFS是Hadoop分布式文件系统,用于存储和管理大规模数据集。以下是一些HDFS的应用案例:

Hadoop十大应用及案例

Hadoop十大应用及案例

Hadoop十大应用及案例Hadoop是一个分布式计算框架,可用于处理和分析大规模数据集。

以下是Hadoop的十大应用场景和案例:1.数据分析Hadoop在数据分析中非常有用,特别是对于大数据集。

它允许用户在集群中并行处理数据,从而使分析更快速和高效。

一种典型的应用是客户行为分析,通过分析大量客户的交易数据和交互数据,企业可以更好地了解客户需求,以制定更加精准的营销策略。

2.搜索引擎搜索引擎是Hadoop的另一个常见应用场景。

例如,Hadoop被用来处理和索引网页,使得用户可以在搜索引擎中快速找到他们需要的信息。

Hadoop的分布式处理能力使得这种大规模的索引和查询操作成为可能。

3.数据仓库Hadoop可以作为数据仓库使用,存储大规模的数据集。

与传统的关系型数据库不同,Hadoop可以处理大规模的半结构化和非结构化数据,而且可以高效地进行查询和分析。

例如,企业可以使用Hadoop作为其数据仓库,存储和分析销售、市场、财务等各个方面的数据。

4.机器学习Hadoop为机器学习提供了强大的支持。

由于Hadoop可以处理大规模的数据集,并且可以在集群中并行执行任务,因此它非常适合进行机器学习算法的训练。

例如,可以使用Hadoop进行大规模的图像识别或者语音识别训练。

5.文本处理Hadoop可以高效地处理文本数据。

例如,可以使用Hadoop对大规模的文本文件进行分词、词频统计、情感分析等操作。

这种操作在传统的单台计算机上是不可能完成的,因为它的计算和存储能力有限。

但是,在Hadoop中,这些操作可以在集群中并行执行,使得它们变得可能并且更加高效。

6.推荐系统Hadoop可以用于构建推荐系统。

推荐系统通常需要分析大量的用户数据以找出用户可能感兴趣的物品或服务。

Hadoop的分布式计算能力使得这种分析能够在短时间内完成。

例如,电子商务网站可以使用Hadoop来分析用户的购买记录和浏览行为,以提供个性化的商品推荐。

hadoop大数据原理与应用

hadoop大数据原理与应用

hadoop大数据原理与应用Hadoop大数据原理与应用随着信息技术的飞速发展,大数据成为当今社会的热门话题之一。

而Hadoop作为大数据处理的重要工具,因其可靠性和高效性而备受关注。

本文将介绍Hadoop大数据的原理和应用。

一、Hadoop的原理Hadoop是一个开源的分布式计算框架,可以处理大规模数据集。

其核心组件包括Hadoop分布式文件系统(HDFS)和Hadoop分布式计算框架(MapReduce)。

HDFS是一个可靠的分布式文件系统,能够将大文件分成多个块并存储在不同的计算机节点上,以实现高容错性和高可用性。

而MapReduce是一种编程模型,将大规模数据集分成多个小的子集,然后在分布式计算集群上进行并行处理。

Hadoop的工作流程如下:首先,将大文件切分成多个块,并将这些块存储在不同的计算机节点上。

然后,在计算机节点上进行并行计算,每个节点都可以处理自己所存储的数据块。

最后,将每个节点的计算结果进行整合,得到最终的结果。

Hadoop的优势在于其可扩展性和容错性。

由于其分布式计算的特性,Hadoop可以轻松地处理大规模数据集。

同时,Hadoop还具有高容错性,即使某个计算机节点发生故障,整个计算任务也不会中断,系统会自动将任务分配给其他可用节点。

二、Hadoop的应用Hadoop广泛应用于大数据分析和处理领域。

以下是几个典型的应用场景:1.数据仓库:Hadoop可以存储和处理海量的结构化和非结构化数据,为企业提供全面的数据仓库解决方案。

通过使用Hadoop,企业可以轻松地将各种类型的数据整合到一个统一的平台上,从而更好地进行数据分析和挖掘。

2.日志分析:随着互联网的普及,各种网站和应用产生的日志数据越来越庞大。

Hadoop可以帮助企业对这些日志数据进行实时分析和处理,从而发现潜在的问题和机会。

3.推荐系统:在电子商务和社交媒体领域,推荐系统起着重要的作用。

Hadoop可以帮助企业分析用户的行为和偏好,从而提供个性化的推荐服务。

hadoop大数据技术基础 python版

hadoop大数据技术基础 python版

Hadoop大数据技术基础 python版随着互联网技术的不断发展和数据量的爆炸式增长,大数据技术成为了当前互联网行业的热门话题之一。

Hadoop作为一种开源的大数据处理评台,其在大数据领域的应用日益广泛。

而Python作为一种简洁、易读、易学的编程语言,也在大数据分析与处理中扮演着不可或缺的角色。

本文将介绍Hadoop大数据技术的基础知识,并结合Python编程语言,分析其在大数据处理中的应用。

一、Hadoop大数据技术基础1. Hadoop简介Hadoop是一种用于存储和处理大规模数据的开源框架,它主要包括Hadoop分布式文件系统(HDFS)和MapReduce计算框架。

Hadoop分布式文件系统用于存储大规模数据,而MapReduce计算框架则用于分布式数据处理。

2. Hadoop生态系统除了HDFS和MapReduce之外,Hadoop生态系统还包括了许多其他组件,例如HBase、Hive、Pig、ZooKeeper等。

这些组件形成了一个完整的大数据处理评台,能够满足各种不同的大数据处理需求。

3. Hadoop集群Hadoop通过在多台服务器上构建集群来实现数据的存储和处理。

集群中的各个计算节点共同参与数据的存储和计算,从而实现了大规模数据的分布式处理。

二、Python在Hadoop大数据处理中的应用1. Hadoop StreamingHadoop Streaming是Hadoop提供的一个用于在MapReduce中使用任意编程语言的工具。

通过Hadoop Streaming,用户可以借助Python编写Map和Reduce的程序,从而实现对大规模数据的处理和分析。

2. Hadoop连接Python除了Hadoop Streaming外,Python还可以通过Hadoop提供的第三方库和接口来连接Hadoop集群,实现对Hadoop集群中数据的读取、存储和计算。

这为Python程序员在大数据处理领域提供了更多的可能性。

如何使用Hadoop处理大数据

如何使用Hadoop处理大数据

如何使用Hadoop处理大数据随着互联网和互联技术的飞速发展,数据的规模不断扩大,如何高效地管理和处理海量的数据成为了各个领域所面临的重要挑战。

在这个背景下,Hadoop作为一种分布式计算框架,逐渐走进了大数据处理的领域。

本文旨在介绍Hadoop的基本概念和使用方法,以帮助读者更好地理解和应用此工具来处理大数据。

一、Hadoop概述Hadoop是一个开源的、基于Java语言的分布式计算框架。

最初由Apache公司开发,并在2006年贡献给了Apache开源社区。

Hadoop是基于Google公司研发的Google File System(GFS)和MapReduce的思想而发展出来的。

它主要包括Hadoop Distributed File System(HDFS)和MapReduce两个模块。

HDFS主要用于大数据的存储,而MapReduce则是基于HDFS的数据计算框架。

除此之外,Hadoop还包括一些较为基础的组件,如ZooKeeper、HBase、Spark等。

二、Hadoop的使用1. Hadoop的安装Hadoop的安装比较简单,只需要下载Hadoop的安装包、运行相应的脚本即可。

但在安装过程中,需要进行一些参数配置和环境变量的设置,才能够使Hadoop正常运行。

安装完成后,可以通过执行“hadoop version”来检查安装结果。

2. Hadoop的使用使用Hadoop主要可以通过以下两种方式:(1)Hadoop shell:Hadoop shell是一个基于命令行的操作界面,可以通过HDFS shell和MapReduce shell两个模块来进行大数据的存储和计算操作。

比如,可以通过hadoop fs -ls /来查看当前HDFS 中的文件目录,通过hadoop fs -put local_file_path hadoop_path来将本地文件上传到HDFS中,通过hadoop jar mapreducejarinput_path output_path JobName来运行Hadoop的MapReduce程序。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

你想了解大数据,却对生涩的术语毫不知情?你想了解大数据的市场和应用,却又没有好的案例和解说?别担心,这本来自Wikibon社区的小书想要帮你。

是的,这是一本小书而不是一篇文章,因为它详实细致的让你从一个完全不了解大数据技术及相关应用的门外汉,变成一个熟知其概念和意义的“内行人”,所以它很棒!主要内容目录1.来自Wikibon社区的大数据宣言 (1)2.数据处理和分析:传统方式 (2)3.大数据性质的变化 (3)4.大数据处理和分析的新方法 (5)4.1 Hadoop (5)4.1.1 Hadoop如何工作 (6)4.1.2 Hadoop的技术组件 (7)4.1.3 Hadoop:优点和缺点 (8)4.2 NoSQL (8)4.3 大规模并行分析数据库 (9)5.大数据方法的互补 (10)6.大数据供应商发展状况 (12)7.大数据:实际使用案例 (13)8.大数据技能差距 (14)9.大数据:企业和供应商的后续动作 (15)1.来自Wikibon社区的大数据宣言为公司提供有效的业务分析工具和技术是首席信息官的首要任务。

有效的业务分析(从基本报告到高级的数据挖掘和预测分析)使得数据分析人员和业务人员都可以从数据中获得见解,当这些见解转化为行动,会给公司带来更高的效率和盈利能力。

所有业务分析都是基于数据的。

传统意义上,这意味着企业自己创建和存储的结构化数据,如CRM系统中的客户数据,ERP系统中的运营数据,以及会计数据库中的财务数据。

得益于社交媒体和网络服务(如Facebook,Twitter),数据传感器以及网络设备,机器和人类产生的网上交易,以及其他来源的非结构化和半结构化的数据的普及,企业现有数据的体积和类型以及为追求最大商业价值而产生的近实时分析的需求正在迅速增加。

我们称这些为大数据。

传统的数据管理和业务分析工具及技术都面临大数据的压力,与此同时帮助企业获得来自大数据分析见解的新方法不断涌现。

这些新方法采取一种完全不同于传统工具和技术的方式进行数据处理、分析和应用。

这些新方法包括开源框架Hadoop,NoSQL数据库(如Cassandra和Accumulo)以及大规模并行分析数据库(如EMC的Greenplum,惠普的Vertica和TeradataASTERData)。

这意味着,企业也需要从技术和文化两个角度重新思考他们对待业务分析的方式。

对于大多数企业而言,这种转变并不容易,但对于接受转变并将大数据作为业务分析实践基石的企业来说,他们会拥有远远超过胆小对手的显著竞争优势。

大数据助力复杂的业务分析可能为企业带来前所未有的关于客户行为以及动荡的市场环境的深入洞察,使得他们能够更快速的做出数据驱动业务的决策,从而比竞争对手更有效率。

从存储及支持大数据处理的服务器端技术到为终端用户带来鲜活的新见解的前端数据可视化工具,大数据的出现也为硬件、软件和服务供应商提供了显著的机会。

这些帮助企业过渡到大数据实践者的供应商,无论是提供增加商业价值的大数据用例,还是发展让大数据变为现实的技术和服务,都将得到茁壮成长。

大数据是所有行业新的权威的竞争优势。

认为大数据是昙花一现的企业和技术供应商很快就会发现自己需要很辛苦才能跟上那些提前思考的竞争对手的步伐。

在我们看来,他们是非常危险的。

对于那些理解并拥抱大数据现实的企业,新创新,高灵活性,以及高盈利能力的可能性几乎是无止境的。

2.数据处理和分析:传统方式传统上,为了特定分析目的进行的数据处理都是基于相当静态的蓝图。

通过常规的业务流程,企业通过CRM、ERP和财务系统等应用程序,创建基于稳定数据模型的结构化数据。

数据集成工具用于从企业应用程序和事务型数据库中提取、转换和加载数据到一个临时区域,在这个临时区域进行数据质量检查和数据标准化,数据最终被模式化到整齐的行和表。

这种模型化和清洗过的数据被加载到企业级数据仓库。

这个过程会周期性发生,如每天或每周,有时会更频繁。

图1–传统的数据处理/分析资料来源:Wikibon2011在传统数据仓库中,数据仓库管理员创建计划,定期计算仓库中的标准化数据,并将产生的报告分配到各业务部门。

他们还为管理人员创建仪表板和其他功能有限的可视化工具。

同时,业务分析师利用数据分析工具在数据仓库进行高级分析,或者通常情况下,由于数据量的限制,将样本数据导入到本地数据库中。

非专业用户通过前端的商业智能工具(SAP的BusinessObjects和IBM的Cognos)对数据仓库进行基础的数据可视化和有限的分析。

传统数据仓库的数据量很少超过几TB,因为大容量的数据会占用数据仓库资源并且降低性能。

3.大数据性质的变化Web、移动设备和其他技术的出现导致数据性质的根本性变化。

大数据具有重要而独特的特性,这种特性使得它与“传统”企业数据区分开来。

不再集中化、高度结构化并且易于管理,与以往任何时候相比,现在的数据都是高度分散的、结构松散(如果存在结构的话)并且体积越来越大。

具体来说:∙体积-通过Web、移动设备、IT基础设施和其他来源产生的企业内部和防火墙外的数据量每年都在成倍增加。

∙类型-数据类型的多样性增加,包括非结构化文本数据以及半结构化数据(如社交媒体数据,基于位置的数据和日志文件数据)。

∙速度-得益于数字化交易、移动计算以及互联网和移动设备的高用户量,新数据被创建的速度以及实时分析的需求正在增加。

广义地说,大数据由多个来源产生,包括:∙社交网络和媒体:目前有超过7亿Facebook用户,2.5亿Twitter用户和1.56亿面向公众开放的博客。

Facebook上的每个更新、Tweet和博客上文章的发布及评论都会创建多个新的数据点(包含结构化、半结构化和非结构化的),这些数据点有时被称为“数据废气”。

∙移动设备:全球有超过50亿正在使用中的移动电话。

每次呼叫、短信和即时消息都被记录为数据。

移动设备(尤其是智能手机和平板电脑)让使用社交媒体等应用程序更容易,而社会媒体的使用会产生大量数据。

移动设备也收集和传送位置数据。

∙网上交易:数十亿的网上购物、股票交易等每天都在发生,包括无数的自动交易。

每次交易都产生了大量数据点,这些数据点会被零售商、银行、信用卡、信贷机构和其他机构收集。

∙网络设备和传感器:各种类型的电子设备(包括服务器和其他IT硬件、智能电表和温度传感器)都会创建半结构化的日志数据记录每一个动作。

图2–传统数据v.大数据资料来源:Wikibon2011从时间或成本效益上看,传统的数据仓库等数据管理工具都无法实现大数据的处理和分析工作。

也就是说,必须将数据组织成关系表(整齐的行和列数据),传统的企业级数据仓库才可以处理。

由于需要的时间和人力成本,对海量的非结构化数据应用这种结构是不切实际的。

此外,扩展传统的企业级数据仓库使其适应潜在的PB级数据需要在新的专用硬件上投资巨额资金。

而由于数据加载这一个瓶颈,传统数据仓库性能也会受到影响。

因此,需要处理和分析大数据的新方法。

4.大数据处理和分析的新方法存在多种方法处理和分析大数据,但多数都有一些共同的特点。

即他们利用硬件的优势,使用扩展的、并行的处理技术,采用非关系型数据存储处理非结构化和半结构化数据,并对大数据运用高级分析和数据可视化技术,向终端用户传达见解。

Wikibon已经确定了三种将会改变业务分析和数据管理市场的大数据方法。

4.1 HadoopHadoop是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。

最初由雅虎的Doug Cutting创建,Hadoop的灵感来自于 MapReduce ,MapReduce是谷歌在2000年代初期开发的用于网页索引的用户定义函数。

它被设计用来处理分布在多个并行节点的PB级和EB级数据。

Hadoop集群运行在廉价的商用硬件上,这样硬件扩展就不存在资金压力。

Hadoop 现在是Apache软件联盟(The Apache Software Foundation)的一个项目,数百名贡献者不断改进其核心技术。

基本概念:与将海量数据限定在一台机器运行的方式不同,Hadoop将大数据分成多个部分,这样每个部分都可以被同时处理和分析。

4.1.1 Hadoop如何工作客户从日志文件、社交媒体供稿和内部数据存储等来源获得非结构化和半结构化数据。

它将数据打碎成“部分”,这些“部分”被载入到商用硬件的多个节点组成的文件系统。

Hadoop的默认文件存储系统是Hadoop分布式文件系统。

文件系统(如HDFS)善于存储大量非结构化和半结构化数据,因为它们不需要将数据组织成关系型的行和列。

各“部分”被复制多次,并加载到文件系统。

这样,如果一个节点失效,另一个节点包含失效节点数据的副本。

名称节点充当调解人,负责沟通信息:如哪些节点是可用的,某些数据存储在集群的什么地方,以及哪些节点失效。

一旦数据被加载到集群中,它就准备好通过MapReduce 框架进行分析。

客户提交一个“匹配”的任务(通常是用Java编写的查询语句)给到一个被称为作业跟踪器的节点。

该作业跟踪器引用名称节点,以确定完成工作需要访问哪些数据,以及所需的数据在集群的存储位置。

一旦确定,作业跟踪器向相关节点提交查询。

每个节点同时、并行处理,而非将所有数据集中到一个位置处理。

这是Hadoop的一个本质特征。

当每个节点处理完指定的作业,它会存储结果。

客户通过任务追踪器启动“Reduce”任务。

汇总map阶段存储在各个节点上的结果数据,获得原始查询的“答案”,然后将“答案”加载到集群的另一个节点中。

客户就可以访问这些可以载入多种分析环境进行分析的结果了。

MapReduce 的工作就完成了。

一旦MapReduce 阶段完成,数据科学家和其他人就可以使用高级数据分析技巧对处理后的数据进一步分析。

也可以对这些数据建模,将数据从Hadoop集群转移到现有的关系型数据库、数据仓库等传统IT系统进行进一步的分析。

4.1.2 Hadoop的技术组件Hadoop “栈”由多个组件组成。

包括:∙Hadoop分布式文件系统(HDFS):所有Hadoop集群的默认存储层;∙名称节点:在Hadoop集群中,提供数据存储位置以及节点失效信息的节点。

∙二级节点:名称节点的备份,它会定期复制和存储名称节点的数据,以防名称节点失效。

∙作业跟踪器:Hadoop集群中发起和协调MapReduce作业或数据处理任务的节点。

∙从节点:Hadoop集群的普通节点,从节点存储数据并且从作业跟踪器那里获取数据处理指令。

除了上述以外,Hadoop生态系统还包括许多免费子项目。

NoSQL数据存储系统(如Cassandra和HBase)也被用于存储Hadoop的MapReduce作业结果。

除了Java,很多 MapReduce 作业及其他Hadoop的功能都是用Pig语言写的,Pig是专门针对Hadoop设计的开源语言。

相关文档
最新文档