Hadoop和大数据:60款顶级开源工具—hadoop大数据开源工具

合集下载

开源大数据平台Hadoop

开源大数据平台Hadoop

开源大数据平台Hadoop## 一、Hadoop简介Hadoop是一种开源的分布式存储和处理系统,它可以在大量多样化的计算资源上存储和处理大规模数据集。

它是Yahoo!和Apache软件基金会的一项开源计划,由Doug Cutting和Mike Cafarella等人设计,他们的目的是构建一个可以在有限的硬件资源上处理大量数据的系统。

Hadoop提供了一个分布式文件系统(Distributed File System),利用它,用户可以在分布式环境中存储大量数据,并能够通过并行计算处理大量数据。

Hadoop通过将大量数据分布存储在网络中的计算机上,克服了单个服务器存储和处理能力有限的瓶颈,可以扩展处理能力和存储能力,支持大数据工作负载。

Hadoop的分布式存储和计算模型,使它能够处理海量的数据,从而满足大数据的需求。

## 二、Hadoop的特性(1)高可用性:Hadoop提供了高可用性,可以确保数据的有效性和一致性,使用它可以实现节点的容忍性,从而在宕机的情况下继续运行。

(2)容错性:Hadoop的分布式存储系统可以自动容纳故障,可以确保数据的完整性,提高了系统的可靠性。

(3)负载均衡:Hadoop可以将任务分担到所有参与节点上,从而实现负载均衡,提高了系统的性能。

(4)灵活性:Hadoop支持跨平台,可以跨越多个平台,如Windows、Linux、Mac OS 等,从而灵活地处理大数据。

(5)高效性:Hadoop支持分布式计算,可以将大量的计算任务分担到多台机器上,从而实现更高的计算效率。

## 三、Hadoop的应用Hadoop的应用非常广泛,主要应用于大数据领域。

下面介绍几个Hadoop的应用。

(1)大数据分析:Hadoop可以将大量数据进行分析,分析数据中的模式和趋势,用于企业决策分析。

(2)设备控制:Hadoop可以实现远程控制,将大量数据传输到设备,控制设备的运行状态。

(3)处理实时数据:Hadoop可以处理海量的实时数据,实现实时数据的存储和处理,从而支持实时应用。

Hadoop 生态系统介绍

Hadoop 生态系统介绍

Hadoop 生态系统介绍Hadoop生态系统是一个开源的大数据处理平台,它由Apache基金会支持和维护,可以在大规模的数据集上实现分布式存储和处理。

Hadoop生态系统是由多个组件和工具构成的,包括Hadoop 核心,Hive、HBase、Pig、Spark等。

接下来,我们将对每个组件及其作用进行介绍。

一、Hadoop核心Hadoop核心是整个Hadoop生态系统的核心组件,它主要由两部分组成,一个是Hadoop分布式文件系统(HDFS),另一个是MapReduce编程模型。

HDFS是一个高可扩展性的分布式文件系统,可以将海量数据存储在数千台计算机上,实现数据的分散储存和高效访问。

MapReduce编程模型是基于Hadoop的针对大数据处理的一种模型,它能够对海量数据进行分布式处理,使大规模数据分析变得容易和快速。

二、HiveHive是一个开源的数据仓库系统,它使用Hadoop作为其计算和存储平台,提供了类似于SQL的查询语法,可以通过HiveQL 来查询和分析大规模的结构化数据。

Hive支持多种数据源,如文本、序列化文件等,同时也可以将结果导出到HDFS或本地文件系统。

三、HBaseHBase是一个开源的基于Hadoop的列式分布式数据库系统,它可以处理海量的非结构化数据,同时也具有高可用性和高性能的特性。

HBase的特点是可以支持快速的数据存储和检索,同时也支持分布式计算模型,提供了易于使用的API。

四、PigPig是一个基于Hadoop的大数据分析平台,提供了一种简单易用的数据分析语言(Pig Latin语言),通过Pig可以进行数据的清洗、管理和处理。

Pig将数据处理分为两个阶段:第一阶段使用Pig Latin语言将数据转换成中间数据,第二阶段使用集合行处理中间数据。

五、SparkSpark是一个快速、通用的大数据处理引擎,可以处理大规模的数据,支持SQL查询、流式数据处理、机器学习等多种数据处理方式。

大数据分析技术的工具与应用

大数据分析技术的工具与应用

大数据分析技术的工具与应用近年来,随着科技的不断发展,人们逐渐意识到数据分析技术的重要性。

大数据分析技术在运营商、金融、医疗、电商、社交等众多领域中得到了广泛应用。

本文将重点阐述大数据分析技术的工具与应用。

一、大数据分析技术的工具1. 数据仓库数据仓库是大数据分析的重要工具。

它是一种用于管理和处理大量数据的仓库。

数据仓库能够将异构数据源统一到一个仓库中,从而方便用户进行分析和查询。

2. HadoopHadoop是目前最流行的开源大数据处理框架。

它能够处理PB级别的数据,并且数据处理速度非常快。

Hadoop采用了分布式存储和计算的思想,能够处理大批量的数据。

3. SparkSpark是一种快速而通用的大数据处理系统。

它能够处理数据流,图形计算和机器学习等多种任务,同时还支持实时数据处理。

二、大数据分析技术的应用1. 运营商运营商通过大数据分析技术能够更好地了解用户的需求。

比如,通过对用户的通信记录、位置、设备等信息的分析,运营商可以推出更合适的套餐、服务和产品,提高用户的满意度和忠诚度。

2. 金融金融领域中也广泛应用大数据分析技术。

通过对用户的信用、交易、行为等数据的分析,可以更好地进行风险控制和预测。

同时,大数据分析还可以帮助金融机构发现新的商机。

3. 医疗大数据分析技术在医疗领域的应用也非常广泛。

比如,在研究某种疾病时,可以通过分析患者的病历、基因等信息,发现相关病因和治疗方法。

此外,大数据分析也可以帮助医院管理和维护病人数据,提高服务质量。

4. 电商在电商领域,大数据分析技术也非常重要。

通过分析用户的购买习惯、交易记录、行为等数据,电商企业可以对产品进行精准推荐,促进销售和营收的提升。

5. 社交社交网络是大数据分析技术的又一个重要应用领域。

通过分析用户在社交网络上的行为,如发布内容、评论、点赞等,可以更好地理解用户的兴趣和需求,从而提供更好的内容和推荐服务。

总之,大数据分析技术的应用范围非常广泛,未来也必将在更多领域中得到应用。

大数据分析的10种常见工具

大数据分析的10种常见工具

大数据分析的10种常见工具近年来,大数据已成为全球互联网和信息技术的一个热门话题。

作为一种宝贵的资源,数据可以帮助企业做出更明智的决策和市场分析。

在大数据时代,分析大量的数据是至关重要的,但是这种工作不可能手工完成。

因此,人们需要运用一些专业的工具来进行大数据分析的工作。

本篇文章将介绍10种常见的大数据分析工具。

一、HadoopHadoop是目前最流行的大数据框架之一。

它可以快速处理大量的数据,而且具有良好的可扩展性和容错性。

Hadoop分为两部分:Hadoop分布式文件系统(HDFS)和MapReduce框架。

HDFS用于存储大量的数据,而MapReduce框架则用于处理这些数据。

同时,Hadoop也可以集成不同的工具和应用程序,为数据科学家提供更多的选择。

二、SparkSpark是一种快速的分布式计算框架,可以处理大规模的数据,而且在数据处理速度上比Hadoop更加快速。

Spark还支持不同类型的数据,包括图形、机器学习和流式数据。

同时,Spark还具有丰富的API和工具,适合不同级别的用户。

三、TableauTableau是一种可视化工具,可以快速创建交互式的数据可视化图表和仪表盘。

该工具不需要编程知识,只需要简单的拖放功能即可创建漂亮的报表。

它还支持对数据的联合查询和分析,帮助用户更好地理解大量的数据。

四、SplunkSplunk是一种可扩展的大数据分析平台,可以帮助企业监视、分析和可视化不同来源的数据。

它通过收集日志文件和可视化数据等方式,帮助企业实时监控其业务运营状况和用户行为。

Splunk还支持触发警报和报告等功能,为用户提供更好的数据驱动决策方案。

五、RapidMinerRapidMiner是一种数据分析工具,可以支持数据挖掘、文本挖掘、机器学习等多种数据处理方式。

快速而且易于使用,RapidMiner可以快速分析和处理不同种类的数据。

该工具还提供了大量的模块和工具,为数据科学家提供更多的选择。

大数据工具资料收集之hadoop

大数据工具资料收集之hadoop

1基本介绍1.1简介Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。

它支持在商品硬件构建的大型集群上运行的应用程序。

Hadoop是根据Google 公司发表的MapReduce和Google档案系统的论文自行实作而成。

Hadoop框架透明地为应用提供可靠性和数据移动。

它实现了名为MapReduce的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。

此外,Hadoop还提供了分布式文件系统,用以存储所有计算节点的数据,这为整个集群带来了非常高的带宽。

MapReduce和分布式文件系统的设计,使得整个框架能够自动处理节点故障。

它使应用程序与成千上万的独立计算的电脑和PB级的数据。

现在普遍认为整个Apache Hadoop“平台”包括Hadoop内核、MapReduce、Hadoop分布式文件系统(HDFS)以及一些相关项目,有Apache Hive和Apache HBase等等。

1.2主要功能组件∙HDFS: Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。

HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。

而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。

∙MapReduce:并行计算框架,MapReduce是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。

概念“Map(映射)”和“Reduce(化简)”,及他们的主要思想,都是从函数式编程语言借来的,还有从矢量编程语言借来的特性。

大数据分析知识:开源大数据分析工具——Spark、Hadoop、和Storm

大数据分析知识:开源大数据分析工具——Spark、Hadoop、和Storm

大数据分析知识:开源大数据分析工具——Spark、Hadoop、和Storm近年来,随着数字与互联网的不断发展,人们每天产生大量的数据。

这些数据包括各种类型的数字、图像、文本等等。

如何对这些数据进行高效查询和分析,已经成为了一个迫切需要解决的问题。

为了应对这个问题,开源社区出现了一批大数据分析工具,其中最为常见和流行的就是Spark、Hadoop和Storm。

这些工具不断发展和壮大,被广泛应用于各种情况下的大数据处理。

一、SparkApache Spark是一个通用引擎系统,支持分布式计算。

它最初是由Berkeley大学AMP实验室开发的,是一个基于内存的计算引擎。

相比于Hadoop,它速度更快,且处理数据的可以达到数PB级别。

Spark 可以与Java、Scala、Python等语言结合使用,提供了强大的开发工具和丰富的API,支持各种类型的数据分析处理。

Spark提供了一个交互式的Shell界面,这个交互式界面可以轻松地从各种数据源中读取数据,进行处理和分析,并将结果保存到各种类型的输出源中。

它也提供了强大的分布式计算模型,可以让用户在大数据分析处理过程中获得更高的效率。

二、HadoopApache Hadoop是一个开源的软件框架,支持分布式存储和处理大数据集的应用程序。

Hadoop提供了一个分布式文件系统(HDFS)和MapReduce编程模型。

在Hadoop中,数据可以分散到许多不同的服务器上进行存储和处理。

MapReduce可以让用户在这些分散节点上执行计算任务,最终将结果合并成单一结果。

Hadoop可以运行在一组廉价的服务器上,而不是在只有一个高成本服务器上进行处理,因此降低了成本和提高了可靠性。

Hadoop的主要特点包括:高扩展性、高可靠性、高稳定性和强数据一致性。

Hadoop可以使用Java、Python和其他编程语言进行开发,但最常见的编程语言是Java。

并且,Hadoop与Linux等操作系统常用的基于命令行的界面交互使用,使用起来十分简便。

hadoop大数据原理与应用

hadoop大数据原理与应用Hadoop大数据原理与应用随着信息技术的飞速发展,大数据成为当今社会的热门话题之一。

而Hadoop作为大数据处理的重要工具,因其可靠性和高效性而备受关注。

本文将介绍Hadoop大数据的原理和应用。

一、Hadoop的原理Hadoop是一个开源的分布式计算框架,可以处理大规模数据集。

其核心组件包括Hadoop分布式文件系统(HDFS)和Hadoop分布式计算框架(MapReduce)。

HDFS是一个可靠的分布式文件系统,能够将大文件分成多个块并存储在不同的计算机节点上,以实现高容错性和高可用性。

而MapReduce是一种编程模型,将大规模数据集分成多个小的子集,然后在分布式计算集群上进行并行处理。

Hadoop的工作流程如下:首先,将大文件切分成多个块,并将这些块存储在不同的计算机节点上。

然后,在计算机节点上进行并行计算,每个节点都可以处理自己所存储的数据块。

最后,将每个节点的计算结果进行整合,得到最终的结果。

Hadoop的优势在于其可扩展性和容错性。

由于其分布式计算的特性,Hadoop可以轻松地处理大规模数据集。

同时,Hadoop还具有高容错性,即使某个计算机节点发生故障,整个计算任务也不会中断,系统会自动将任务分配给其他可用节点。

二、Hadoop的应用Hadoop广泛应用于大数据分析和处理领域。

以下是几个典型的应用场景:1.数据仓库:Hadoop可以存储和处理海量的结构化和非结构化数据,为企业提供全面的数据仓库解决方案。

通过使用Hadoop,企业可以轻松地将各种类型的数据整合到一个统一的平台上,从而更好地进行数据分析和挖掘。

2.日志分析:随着互联网的普及,各种网站和应用产生的日志数据越来越庞大。

Hadoop可以帮助企业对这些日志数据进行实时分析和处理,从而发现潜在的问题和机会。

3.推荐系统:在电子商务和社交媒体领域,推荐系统起着重要的作用。

Hadoop可以帮助企业分析用户的行为和偏好,从而提供个性化的推荐服务。

大数据分析的十个工具

大数据分析的十个工具在如今数字化的时代,数据变得越来越重要了。

数据不仅仅是一组数字,它代表了事实和现实生活中的情况。

但是,处理数据变得越来越困难。

若要快速高效地处理数据,需要工具的帮助。

本文将介绍大数据分析的十个工具。

1. HadoopHadoop是Apache Hadoop生态系统的核心项目,基于Java编写,主要用于存储和处理大数据集。

Hadoop可以处理来自无数来源的大数据集,包括文本、图形数据和孪生数据等。

2. Apache SparkApache Spark是一个高速的大规模数据处理引擎,它使用内存计算而不是磁盘计算,以显著提高处理速度和效率。

Spark支持多种语言,如Java,Scala和Python等。

3. Apache StormApache Storm是一个分布式流处理引擎,可用于处理数据流以及将数据流分析成有价值的信息。

它主要用于实时数据流处理,并且可扩展性非常好。

4. ElasticsearchElasticsearch是一个分布式搜索和分析引擎,可用于处理大量的非结构化和结构化数据。

Elasticsearch还提供了一些丰富的API,使开发人员能够更轻松地使用和管理数据。

5. TableauTableau是一个可视化工具,可用于创建数据可视化和分析。

该工具提供了丰富的功能和工具,可用于从各种数据源中获取数据,并将其视觉化展示给用户。

6. IBM Watson AnalyticsIBM Watson Analytics是一个智能分析工具,可用于透彻了解数据并提供见解。

该工具使用自然语言处理技术,使分析过程更加人性化和智能。

7. PigApache Pig是一种用于分析大型数据集的脚本语言。

它可以与Hadoop一起使用,支持广泛使用的语言和库。

8. Apache CassandraApache Cassandra是一个主要用于处理分布式的非结构化数据的开源NoSQL数据库。

Cassandra具有高可用性和可扩展性,可以为大型分布式数据存储提供高效的解决方案。

大数据分析师常用的数据分析工具与软件

大数据分析师常用的数据分析工具与软件在当今信息爆炸的时代,大数据分析已经成为各个行业中不可或缺的一环。

大数据分析师通过对海量数据进行深入挖掘和分析,为企业决策提供有力支持。

而为了高效地进行数据分析工作,大数据分析师通常会使用各种数据分析工具与软件。

本文将介绍一些大数据分析师常用的数据分析工具与软件,帮助读者更好地了解和选择适合自己的工具。

一、数据管理工具与软件1. HadoopHadoop是一个开源的分布式计算系统,可以处理大量的数据,并提高数据的可靠性和容错性。

它主要用于存储和处理大规模数据集,适用于云计算和大数据分析领域。

Hadoop的核心是分布式文件系统HDFS和分布式处理框架MapReduce。

2. Apache SparkApache Spark是一个快速的、通用的集群计算系统,也是一个大数据处理工具。

它提供了一种高效的数据处理方式,支持批处理、交互查询、流处理和机器学习等多种计算模式。

Spark的一个优点是可以将数据加载到内存中进行处理,从而提高计算速度。

3. Apache KafkaApache Kafka是一个分布式流处理平台,主要用于实时数据流的处理和传输。

它具有高吞吐量、可靠性和可扩展性的特点,可以为大数据分析提供实时的数据流入口。

4. MySQLMySQL是一种开源的关系型数据库管理系统,被广泛应用于大数据分析中。

它支持多用户、多线程的数据访问,并提供了灵活的查询和数据分析功能。

二、数据可视化工具与软件1. TableauTableau是一款流行的数据可视化工具,可以帮助用户将复杂的数据转换成易于理解的图表和图形。

它支持多种数据源的导入和连接,并提供了丰富的图表和仪表盘设计功能。

2. Power BIPower BI是微软推出的一款商业智能工具,可以帮助用户将数据可视化和报告以直观的方式展示出来。

它支持多种数据源的整合,并提供了强大的数据处理和分析功能。

3. R ShinyR Shiny是一种基于R语言的交互式数据可视化工具,可以帮助用户创建交互式的数据分析应用。

大数据处理的工具和技术概述

大数据处理的工具和技术概述在现代社会中,大数据处理已经成为许多企业和组织中不可或缺的一部分。

随着数据规模的不断增长,仅靠传统的数据处理方式已经无法满足对数据分析和挖掘的需求。

因此,大数据处理工具和技术应运而生。

本文将概述一些常用的大数据处理工具和技术,帮助读者更好地了解和应用大数据处理。

一、Hadoop概述Hadoop是目前最为流行的大数据处理框架之一。

它采用分布式计算的方式,将庞大的数据集分割成许多小的数据块,通过分布式的计算节点,对这些数据块进行并行计算和处理。

Hadoop的核心组件包括分布式文件系统HDFS和分布式计算框架MapReduce。

HDFS是Hadoop的文件系统,它能够将大文件切分为多个数据块并分散存储在不同的计算节点上,实现了数据的冗余备份和高可用性。

MapReduce是Hadoop的计算框架,它通过将计算任务分解为多个子任务并行处理,使得大规模数据的处理更加高效和快速。

二、Spark概述Spark是另一个常用的大数据处理框架,比Hadoop更加快速和高效。

与Hadoop不同,Spark采用了内存计算的方式,能够更好地利用计算资源,提高数据处理的速度。

Spark可以与Hadoop配合使用,也可以单独运行。

Spark提供了丰富的API,方便开发者进行数据处理和分析。

其中最常用的是Spark SQL、Spark Streaming和MLlib。

Spark SQL提供了类似于SQL的查询语言,支持数据的关系型操作,方便对结构化数据进行处理。

Spark Streaming用于流式数据的处理和实时分析。

MLlib是Spark的机器学习库,提供了常用的机器学习算法和工具,助力数据分析任务的完成。

三、Apache Flink概述Apache Flink是另一种强大且开源的大数据处理框架。

与Hadoop和Spark相比,Flink在处理流式数据和迭代计算方面具有更好的性能和扩展性。

Flink提供了低延迟的流式处理引擎和支持迭代计算的批处理引擎,能够处理大规模数据流,实现实时分析和批处理任务。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Hadoop和大数据开源工具说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。

弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop。

Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长;到2020年,市场产值会超过10亿美元。

IBM更是非常看好开源大数据工具,派出了3500名研究人员开发Apache Spark,这个工具是Hadoop生态系统的一部分。

这回我们推出了最新的顶级开源大数据工具排行榜。

这个领域最近方兴未艾,许多新项目纷纷启动。

许多最知名的项目由Apache基金会管理,与Hadoop密切相关。

请注意:本文不是要搞什么排名;相反,项目按类别加以介绍。

与往常一样,要是你知道另外的开源大数据及/或Hadoop工具应该榜上有名,欢迎留言交流。

一、Hadoop相关工具1. HadoopApache的Hadoop项目已几乎与大数据划上了等号。

它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算。

支持的操作系统:Windows、Linux和OS X。

相关链接:2. Ambari作为Hadoop生态系统的一部分,这个Apache项目提供了基于Web的直观界面,可用于配置、管理和监控Hadoop集群。

有些开发人员想把Ambari的功能整合到自己的应用程序当中,Ambari也为他们提供了充分利用REST(代表性状态传输协议)的API。

支持的操作系统:Windows、Linux和OS X。

相关链接:3. Avro这个Apache项目提供了数据序列化系统,拥有丰富的数据结构和紧凑格式。

模式用JSON来定义,它很容易与动态语言整合起来。

支持的操作系统:与操作系统无关。

相关链接:4. CascadingCascading是一款基于Hadoop的应用程序开发平台。

提供商业支持和培训服务。

支持的操作系统:与操作系统无关。

相关链接:/projects/cascading/5. ChukwaChukwa基于Hadoop,可以收集来自大型分布式系统的数据,用于监控。

它还含有用于分析和显示数据的工具。

支持的操作系统:Linux和OS X。

相关链接:6. FlumeFlume可以从其他应用程序收集日志数据,然后将这些数据送入到Hadoop。

官方网站声称:“它功能强大、具有容错性,还拥有可以调整优化的可靠性机制和许多故障切换及恢复机制。

”支持的操作系统:Linux和OS X。

相关链接:https:///confluence/display/FLUME/Home7. HBaseHBase是为有数十亿行和数百万列的超大表设计的,这是一种分布式数据库,可以对大数据进行随机性的实时读取/写入访问。

它有点类似谷歌的Bigtable,不过基于Hadoop和Hadoop 分布式文件系统(HDFS)而建。

支持的操作系统:与操作系统无关。

相关链接:8. Hadoop分布式文件系统(HDFS)HDFS是面向Hadoop的文件系统,不过它也可以用作一种独立的分布式文件系统。

它基于Java,具有容错性、高度扩展性和高度配置性。

支持的操作系统:Windows、Linux和OS X。

相关链接:https:///docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html9. HiveApache Hive是面向Hadoop生态系统的数据仓库。

它让用户可以使用HiveQL查询和管理大数据,这是一种类似SQL的语言。

支持的操作系统:与操作系统无关。

相关链接:10. HivemallHivemall结合了面向Hive的多种机器学习算法。

它包括诸多高度扩展性算法,可用于数据分类、递归、推荐、k最近邻、异常检测和特征哈希。

支持的操作系统:与操作系统无关。

相关链接:https:///myui/hivemall11. Mahout据官方网站声称,Mahout项目的目的是“为迅速构建可扩展、高性能的机器学习应用程序打造一个环境。

”它包括用于在Hadoop MapReduce上进行数据挖掘的众多算法,还包括一些面向Scala和Spark环境的新颖算法。

支持的操作系统:与操作系统无关。

相关链接:12. MapReduce作为Hadoop一个不可或缺的部分,MapReduce这种编程模型为处理大型分布式数据集提供了一种方法。

它最初是由谷歌开发的,但现在也被本文介绍的另外几个大数据工具所使用,包括CouchDB、MongoDB和Riak。

支持的操作系统:与操作系统无关。

相关链接:/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html13. Oozie这种工作流程调度工具是为了管理Hadoop任务而专门设计的。

它能够按照时间或按照数据可用情况触发任务,并与MapReduce、Pig、Hive、Sqoop及其他许多相关工具整合起来。

支持的操作系统:Linux和OS X。

相关链接:14. PigApache Pig是一种面向分布式大数据分析的平台。

它依赖一种名为Pig Latin的编程语言,拥有简化的并行编程、优化和可扩展性等优点。

支持的操作系统:与操作系统无关。

相关链接:15. Sqoop企业经常需要在关系数据库与Hadoop之间传输数据,而Sqoop就是能完成这项任务的一款工具。

它可以将数据导入到Hive或HBase,并从Hadoop导出到关系数据库管理系统(RDBMS)。

支持的操作系统:与操作系统无关。

相关链接:16. Spark作为MapReduce之外的一种选择,Spark是一种数据处理引擎。

它声称,用在内存中时,其速度比MapReduce最多快100倍;用在磁盘上时,其速度比MapReduce最多快10倍。

它可以与Hadoop和Apache Mesos一起使用,也可以独立使用。

支持的操作系统:Windows、Linux和OS X。

相关链接:17. TezTez建立在Apache Hadoop YARN的基础上,这是“一种应用程序框架,允许为任务构建一种复杂的有向无环图,以便处理数据。

”它让Hive和Pig可以简化复杂的任务,而这些任务原本需要多个步骤才能完成。

支持的操作系统:Windows、Linux和OS X。

相关链接:18. Zookeeper这种大数据管理工具自称是“一项集中式服务,可用于维护配置信息、命名、提供分布式同步以及提供群组服务。

”它让Hadoop集群里面的节点可以彼此协调。

支持的操作系统:Linux、Windows(只适合开发环境)和OS X(只适合开发环境)。

相关链接:二、大数据分析平台和工具19. DiscoDisco最初由诺基亚开发,这是一种分布式计算框架,与Hadoop一样,它也基于MapReduce。

它包括一种分布式文件系统以及支持数十亿个键和值的数据库。

支持的操作系统:Linux和OS X。

相关链接:20. HPCC作为Hadoop之外的一种选择,HPCC这种大数据平台承诺速度非常快,扩展性超强。

除了免费社区版外,HPCC Systems还提供收费的企业版、收费模块、培训、咨询及其他服务。

支持的操作系统:Linux。

相关链接:21. LumifyLumify归Altamira科技公司(以国家安全技术而闻名)所有,这是一种开源大数据整合、分析和可视化平台。

你只要在Try.Lumify.io试一下演示版,就能看看它的实际效果。

支持的操作系统:Linux。

相关链接:/infinispan.html22. PandasPandas项目包括基于Python编程语言的数据结构和数据分析工具。

它让企业组织可以将Python用作R之外的一种选择,用于大数据分析项目。

支持的操作系统:Windows、Linux和OS X。

相关链接:23. StormStorm现在是一个Apache项目,它提供了实时处理大数据的功能(不像Hadoop只提供批任务处理)。

其用户包括推特、美国天气频道、WebMD、阿里巴巴、Yelp、雅虎日本、Spotify、Group、Flipboard及其他许多公司。

支持的操作系统:Linux。

相关链接:https://三、数据库/数据仓库24. BlazegraphBlazegraph之前名为“Bigdata”,这是一种高度扩展、高性能的数据库。

它既有使用开源许可证的版本,也有使用商业许可证的版本。

支持的操作系统:与操作系统无关。

相关链接:/bigdata25. Cassandra这种NoSQL数据库最初由Facebook开发,现已被1500多家企业组织使用,包括苹果、欧洲原子核研究组织(CERN)、康卡斯特、电子港湾、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netfilx、Reddit及其他机构。

它能支持超大规模集群;比如说,苹果部署的Cassandra系统就包括75000多个节点,拥有的数据量超过10 PB。

支持的操作系统:与操作系统无关。

相关链接:26. CouchDBCouchDB号称是“一款完全拥抱互联网的数据库”,它将数据存储在JSON文档中,这种文档可以通过Web浏览器来查询,并且用JavaScript来处理。

它易于使用,在分布式上网络上具有高可用性和高扩展性。

支持的操作系统:Windows、Linux、OS X和安卓。

相关链接:27. FlockDB由推特开发的FlockDB是一种非常快、扩展性非常好的图形数据库,擅长存储社交网络数据。

虽然它仍可用于下载,但是这个项目的开源版已有一段时间没有更新了。

支持的操作系统:与操作系统无关。

相关链接:https:///twitter/flockdb28. Hibari这个基于Erlang的项目自称是“一种分布式有序键值存储系统,保证拥有很强的一致性”。

它最初是由Gemini Mobile Technologies开发的,现在已被欧洲和亚洲的几家电信运营商所使用。

支持的操作系统:与操作系统无关。

相关链接:http://hibari.github.io/hibari-doc/29. HypertableHypertable是一种与Hadoop兼容的大数据数据库,承诺性能超高,其用户包括电子港湾、百度、高朋、Yelp及另外许多互联网公司。

提供商业支持服务。

支持的操作系统:Linux和OS X。

相关链接:30. ImpalaCloudera声称,基于SQL的Impala数据库是“面向Apache Hadoop的领先的开源分析数据库”。

相关文档
最新文档