大数据平台技术框架选型资料
大数据组件选型方法

大数据组件选型方法随着大数据技术的逐渐普及,越来越多的公司和组织开始意识到大数据所带来的商业价值。
然而,在选取适合自己的大数据组件时,不同的组件有各自独特的特性和优缺点,因此,选取适合自己的大数据组件需要根据自己的需求和场景来做出决策。
本文将从以下几个方面,介绍大数据组件选型的方法和注意事项。
一、需求分析在选取大数据组件之前,首先需要做的就是进行需求分析。
这个阶段需要考虑的问题如下:1. 需要处理哪些数据?2. 数据的体量和规模是多少?3. 需要用到哪些处理方式和分析方法?4. 需要实时分析还是离线分析?5. 公司的信息系统架构和技术水平如何?6. 需要考虑的安全和隐私需求是什么?通过对以上问题进行详细的分析,可以从需求层面上确定自己的大数据组件选型方向。
二、常用的大数据组件常用的大数据组件包括但不限于以下几种:1. Apache Hadoop:是最为流行的大数据处理框架之一,可处理PB级别的数据。
2. Apache Spark:是一个快速而通用的大数据处理引擎,在处理数据时比Hadoop更为迅速。
3. Apache Storm:是一种分布式的流式处理器,可实现实时大数据处理。
4. Apache Cassandra:是一种高度可扩展的分布式数据库,具有高度容错性和高可用性。
5. Apache Kafka:是一种高吞吐量的分布式消息系统,可使不同应用程序之间的数据交换更为高效。
三、选型注意事项在做出自己的大数据组件选型决策时,需要注意以下几个方面:1. 功能和特性:不同的大数据组件都有自己独特的功能和特性。
在选型时需要明确自己的需求,并选择最适合自己需求的组件。
2. 成本和效率:大数据组件的成本和效率也是需要考虑的因素。
在选型时需要综合考虑这两个方面,选择最具有性价比的组件。
3. 可扩展性和兼容性:大数据处理是一个高度动态的领域,选择可扩展性高和兼容性好的组件是非常重要的。
4. 社区支持度和文档资料:好的大数据组件需要有一个活跃的社区和丰富的文档资料,以保证在使用中出现问题时能够得到及时的帮助和解决方案。
大数据平台架构设计

大数据平台架构设计概述大数据平台架构设计是指为了满足大数据处理需求而设计的系统架构。
该架构应该能够有效地收集、存储、处理和分析大量的数据,以提供有价值的信息和洞察力。
设计原则在设计大数据平台架构时,需要考虑以下原则:1. 可扩展性:架构应该能够轻松地扩展以应对不断增长的数据量和用户需求。
2. 可靠性:平台应该能够在面临硬件故障或其他故障时保持稳定运行,不丢失数据。
3. 高性能:平台应该能够快速地处理和分析大量的数据,以尽快提供结果。
4. 安全性:平台应该有良好的安全机制,保护用户的数据免受未经授权的访问和恶意攻击。
架构组件一个典型的大数据平台架构包括以下组件:1. 数据采集层:用于收集各种数据源的数据,并将其转换为适合存储和处理的格式。
常见的数据源包括传感器、日志文件、数据库等。
2. 存储层:用于存储大量的原始和处理后的数据。
常用的存储技术包括分布式文件系统(如HDFS)和NoSQL数据库(如Cassandra)。
3. 处理层:用于对数据进行处理和分析。
常见的处理技术包括MapReduce、Apache Spark等。
4. 查询和分析层:用于提供用户界面和工具,使用户能够查询和分析数据。
常见的工具包括Hive、Presto等。
5. 可视化层:用于将数据可视化并呈现给用户。
常用的可视化工具包括Tableau、Power BI等。
示例架构下面是一个简单的大数据平台架构设计示例:1. 数据采集层:使用Flume收集各种传感器和日志文件的数据。
2. 存储层:使用HDFS存储原始数据,使用Cassandra存储处理后的数据。
3. 处理层:使用Apache Spark进行数据处理和分析。
4. 查询和分析层:使用Presto提供用户界面和查询工具。
5. 可视化层:使用Tableau将数据可视化并提供丰富的报表和图表。
总结大数据平台架构设计是一个复杂且关键的任务,需要综合考虑数据采集、存储、处理和分析等多个方面。
大数据平台的架构与搭建指南

大数据平台的架构与搭建指南随着科技的迅速发展和信息的爆炸性增长,大数据已经成为当今社会中不可忽视的一个重要领域。
大数据分析对企业决策、市场预测、用户行为分析以及社会趋势的研究等起着至关重要的作用。
为了处理和分析这些庞大的数据集,建立一个强大而可靠的大数据平台是非常重要的。
本文将介绍大数据平台的架构与搭建指南,帮助您了解如何构建一个符合需求的大数据平台。
一、架构设计1. 数据采集层:大数据平台的第一层是数据采集层,用于从不同的数据源中收集和获取数据。
这包括传感器、移动设备、日志文件等。
数据采集层需要考虑数据的格式、频率和可靠性等方面。
常见的数据采集工具包括Flume、Kafka和Logstash等。
2. 数据存储层:数据存储层用于存储从数据采集层收集的原始数据或已经处理的中间数据。
常见的数据存储技术包括传统的关系型数据库MySQL、NoSQL数据库(如MongoDB、Cassandra等)以及分布式文件系统(如Hadoop的HDFS)。
根据数据的类型和需求,可以选择合适的数据存储技术。
3. 数据处理层:数据处理层是大数据平台的核心组件,用于处理和分析存储在数据存储层的数据。
该层包括批处理和流式处理两种方式。
批处理可以通过Hadoop的MapReduce或Spark等技术来进行,用于处理大量的离线数据;而流式处理可以使用Apache Storm或Flink等技术,实时处理数据流。
此外,数据处理层还可以使用机器学习算法和人工智能技术来进行复杂的数据分析。
4. 数据可视化与应用层:数据可视化与应用层用于展示和应用数据处理结果。
通过数据可视化工具(如Tableau、Power BI等),可以将数据以图表、报表等形式直观地展示出来,帮助决策者更好地理解和利用数据。
此外,数据可视化与应用层还可以开发相应的应用程序或服务,满足不同的业务需求。
二、搭建指南1. 硬件与网络:搭建大数据平台需要考虑合适的硬件和网络基础设施。
大数据平台的架构设计与部署

大数据平台的架构设计与部署随着互联网和移动互联网的普及,大数据时代已经来临。
大数据平台成为企业和政府机构日常工作中不可或缺的一部分,它可以帮助企业和机构提高工作效率、优化流程、降低成本和风险等。
然而,要实现一个高效稳定的大数据平台,需要经过严密的架构设计和精心的部署。
一、大数据平台架构设计大数据平台的架构设计主要包括硬件架构、软件架构和网络架构。
其中,硬件架构包括服务器和存储设备的选择;软件架构涉及到大数据处理框架的选择和配置;网络架构包括网络拓扑和传输协议的选择。
下面分别介绍一下这些内容。
1、硬件架构:在选择服务器和存储设备时,需要考虑数据量大小、数据处理速度、数据安全和稳定性等因素。
通常情况下,服务器可以选择高主频、高核数的CPU和大内存、高速度的硬盘;存储设备可选择高速度、高稳定性的硬盘和SSD。
此外,为了提高系统的可靠性和扩展性,可以采用分布式存储方案,将数据分散存储在多个存储设备中。
2、软件架构:在软件架构的选择上,需要根据数据处理需求选择适合的大数据处理框架。
例如,实时流数据处理可以采用Apache Storm;批处理数据可以使用Apache Hadoop。
此外,为了提高数据处理速度,可以采用Spark、Impala和Hive等内存计算框架。
3、网络架构:在网络架构的设计上,需要考虑网络拓扑的选择和传输协议的配置。
可以采用星型、环形、总线型、树型和混合型等多种拓扑方式。
在传输协议的选择上,可以选择TCP/IP、HTTP、REST、SOAP等协议,还可以采用专用的数据传输协议,例如HDFS、MapReduce、YARN和HBase等。
二、大数据平台部署在设计完大数据平台的架构之后,需要进行部署。
大数据平台的部署分为服务器物理部署和软件部署两个阶段。
下面对这两个阶段进行详细介绍。
1、服务器物理部署:服务器物理部署包括服务器机箱的安装、电源线和网络线的连接、服务器机箱的风扇、电源和硬盘等部件的安装等。
大数据平台架构介绍

为什么选择这样的大数据平台架构?作者:傅一平当前BAT基本公开了其大数据平台架构,从网上也能查询到一些资料,关于大数据平台的各类技术介绍也不少,但在那个机制、那个环境、那个人才、那个薪酬体系下,对于传统企业,可借鉴的东西也是有限的。
技术最终为业务服务,没必要一定要追求先进性,各个企业应根据自己的实际情况去选择自己的技术路径。
与传统的更多从技术的角度来看待大数据平台架构的方式不同,笔者这次,更多的从业务的视角来谈谈关于大数据架构的理解,即更多的会问为什么要采用这个架构,到底能给业务带来多大价值,实践的最终结果是什么。
它不一定具有通用性,但从一定程度讲,这个架构可能比BAT的架构更适应大多数企业的情况,毕竟,大多数企业,数据没到那个份上,也不可能完全自研,商业和开源的结合可能更好一点,权当抛砖引玉。
大数据平台架构的层次划分没啥标准,以前笔者曾经做过大数据应用规划,也是非常纠结,因为应用的分类也是横纵交错,后来还是觉得体现一个“能用”原则,清晰且容易理解,能指导建设,这里将大数据平台划分为“五横一纵”。
具体见下图示例,这张图是比较经典的,也是妥协的结果,跟当前网上很多的大数据架构图都可以作一定的映射。
何谓五横,基本还是根据数据的流向自底向上划分五层,跟传统的数据仓库其实很类似,数据类的系统,概念上还是相通的,分别为数据采集层、数据处理层、数据分析层、数据访问层及应用层。
同时,大数据平台架构跟传统数据仓库有一个不同,就是同一层次,为了满足不同的场景,会采用更多的技术组件,体现百花齐放的特点,这是一个难点。
数据采集层:既包括传统的ETL离线采集、也有实时采集、互联网爬虫解析等等。
数据处理层:根据数据处理场景要求不同,可以划分为HADOOP、MPP、流处理等等。
数据分析层:主要包含了分析引擎,比如数据挖掘、机器学习、深度学习等。
数据访问层:主要是实现读写分离,将偏向应用的查询等能力与计算能力剥离,包括实时查询、多维查询、常规查询等应用场景。
大数据分析中的常用工具与技术框架

大数据分析中的常用工具与技术框架随着信息技术的快速发展,大数据分析已经成为各个行业的热门话题。
大数据分析能够帮助企业从庞大的数据中挖掘出有价值的信息,为决策提供支持。
在大数据分析的过程中,常用的工具和技术框架发挥着重要的作用。
本文将介绍一些常用的大数据分析工具和技术框架。
一、HadoopHadoop是目前最流行的大数据分析框架之一。
它是一个开源的分布式计算框架,能够处理大规模数据集。
Hadoop的核心组件包括Hadoop Distributed File System(HDFS)和MapReduce。
HDFS是一个分布式文件系统,可以将大规模数据分散存储在多个服务器上,提高数据的可靠性和可扩展性。
MapReduce是一种编程模型,能够将大规模数据分成多个小任务并行处理,最后将结果合并。
Hadoop的优势在于它能够处理海量的数据,并且具有高容错性和可扩展性。
二、SparkSpark是另一个常用的大数据分析框架。
与Hadoop相比,Spark具有更快的速度和更强的内存处理能力。
Spark支持多种编程语言,包括Java、Scala和Python,使得开发人员可以使用自己熟悉的语言进行大数据分析。
Spark的核心组件是Resilient Distributed Datasets(RDD),它是一种弹性分布式数据集,能够在内存中高效地进行数据处理。
Spark还支持流式处理、机器学习和图计算等功能,使得它成为一个功能强大的大数据分析框架。
三、HiveHive是一个基于Hadoop的数据仓库工具,它提供了类似于SQL的查询语言,使得非技术人员也能够方便地进行数据分析。
Hive将查询转换成MapReduce任务,可以在Hadoop集群上高效地处理大规模数据。
Hive还支持自定义函数和用户自定义的聚合函数,使得用户可以根据自己的需求进行数据处理。
Hive的优势在于它的易用性和灵活性,使得它成为大数据分析中的重要工具。
大数据平台的架构
大数据平台的架构大数据平台的架构是指为了支持大数据处理和分析而设计的系统结构和组件。
随着数据量的不断增长,传统的数据处理和分析方法已经无法满足对大规模数据的需求,大数据平台的架构应运而生。
下面将介绍一种常见的大数据平台架构。
1.数据采集层:数据采集层是大数据平台的第一层,用于从各种数据源(例如传感器、日志文件、数据库等)收集和捕获数据。
在这一层,常用的工具包括Flume、Kafka等,它们能够以高效方式实时采集和传输大量的数据。
2.存储层:存储层是用于存储大数据的关键组件。
在大数据平台中,通常使用分布式存储系统来存储数据。
常见的分布式存储系统包括Hadoop分布式文件系统(HDFS)、亚马逊的S3、谷歌的GFS等。
这些系统具有高可靠性、高吞吐量和容错性,并且能够扩展以容纳大量数据。
3.计算层:计算层是大数据平台的核心组件,用于对存储在存储层中的大量数据进行计算和分析。
在该层中,通常使用分布式计算引擎进行大规模数据处理。
常见的分布式计算引擎包括Hadoop的MapReduce、Spark等。
这些引擎可以并行处理大规模数据集,并且具有高性能和可伸缩性。
4.数据处理层:数据处理层是为了满足数据处理需求而构建的组件。
在该层中,使用数据处理框架对数据进行清洗、转换和整合。
常见的数据处理框架包括Apache Pig、Apache Hive等。
这些框架提供了丰富的数据处理和转换功能,使用户能够以更高层次的抽象和简化的方式对大数据进行处理。
5.数据应用层:数据应用层是大数据平台的最上层,用于构建各种具体的数据应用。
在该层中,可以使用各种工具和框架来开发和部署数据应用程序。
常见的工具和框架包括Apache Storm、Apache Flink等。
这些工具和框架可以帮助用户构建实时数据流应用、机器学习应用、数据可视化应用等。
6.安全管理层:安全管理层是大数据平台中不可或缺的一部分,用于确保数据的安全性和隐私性。
在该层中,可以使用各种安全工具和技术来保护数据。
大数据平台建设方案设计
大数据平台建设方案设计随着信息技术的发展和互联网的普及,大数据成为了一个热门话题。
大数据的实际应用需要一个灵活、高效的平台来支持,因此大数据平台的建设变得非常重要。
本文将介绍大数据平台建设的方案设计,包括架构、技术选型、数据存储与处理、安全性和可扩展性等方面。
一、架构设计大数据平台的架构设计需要考虑到数据的采集、存储、处理和可视化展示等环节。
一个常见的大数据平台架构如下:1. 数据采集层:负责从各种数据源(例如传感器、移动设备、社交媒体等)中采集数据,并将数据按照一定的格式发送到数据存储层。
2. 数据存储层:负责存储和管理大量的数据。
可以采用关系型数据库、NoSQL数据库或者分布式文件系统等技术来实现,根据实际需求选择最合适的方案。
3. 数据处理层:负责对存储在数据存储层中的数据进行处理和分析。
可以采用批处理或流处理的方式,使用分布式计算框架(如Hadoop、Spark等)来进行数据处理和计算。
4. 可视化展示层:负责将处理和分析结果以可视化的方式展示给用户,并提供交互式的查询和分析功能。
二、技术选型在大数据平台的建设中,技术选型是一个非常重要的决策。
下面列举一些常见的大数据技术及其应用场景:1. Hadoop:适用于大规模数据的批处理和分布式存储。
2. Spark:适用于迭代计算、实时计算和机器学习等场景。
3. NoSQL数据库(例如MongoDB、Cassandra等):适用于非结构化数据的存储和查询。
4. 分布式文件系统(例如HDFS、GlusterFS等):适用于大规模数据的存储和访问。
三、数据存储与处理数据存储与处理是大数据平台的核心部分。
对于大数据平台的存储,可以根据数据的类型和访问模式选择合适的存储方式。
对于结构化数据,可以选择关系型数据库存储。
对于非结构化数据,可以选择NoSQL数据库进行存储。
对于大规模的数据存储,可以选择分布式文件系统。
同时,数据的处理流程也是需要考虑的重要因素。
2023-大数据资源平台总体技术架构方案V2-1
大数据资源平台总体技术架构方案V2随着互联网技术的迅速发展和普及,我们每天都在产生大量的数据。
这些数据包括文本、图像、视频等等,每个人都能够产生数百兆甚至数G的数据。
虽然这些数据看似毫无关联,但是通过技术处理后,不仅有可能发现它们之间的联系,而且还有可能从中挖掘出我们需要的信息。
因此,大数据已成为服务于整个社会经济的重要资源之一。
为了更好地服务于整个社会经济,需要建立一个大数据资源平台。
大数据资源平台的编制和建设不是简单的技术问题,而是涉及政策、技术、人才等各个方面的问题。
下面将围绕“大数据资源平台总体技术架构方案V2”对其进行详细阐述。
一、基础架构层面设计基础架构层面是大数据系统的基本架构,需要考虑可扩展性,可维护性,可靠性等方面的问题。
大数据系统的基本架构可以分为以下3个子系统:数据存储子系统,数据处理子系统和数据服务子系统。
1.数据存储子系统数据存储子系统是大数据系统的核心组成部分,主要用于存储各类数据。
常见的存储方式包括分布式文件存储系统、分布式数据库和NoSQL 数据库等。
其中,分布式文件存储系统主要用于存储大量的非结构化数据,分布式数据库和NoSQL数据库则主要用于存储结构化数据。
2.数据处理子系统数据处理子系统主要负责对数据进行分析和处理。
它可以分为离线处理和实时处理两类。
其中,离线处理主要用于大规模数据的分析和处理,而实时处理则主要用于对数据进行实时监控和预测。
3.数据服务子系统数据服务子系统主要用于将处理后的数据提供给用户。
它可以提供各种类型的数据服务,如数据查询、数据分析和数据可视化等。
二、技术架构层面设计在技术架构层面,需要考虑大数据平台的数据处理能力、数据存储能力、数据安全性和数据挖掘能力等问题。
1.数据处理能力数据处理能力是大数据平台的核心能力,需要考虑其处理速度和处理规模。
目前,大数据处理框框架有Hadoop、Spark、Flink等。
不同的框架适合不同的需求,需要根据具体的业务需求来选择。
大数据管理平台架构及规划方案
运维管理流程
01
版本控制与升级
02
对大数据管理平台的各个组件进行版本控制,确保系统的稳定
性和可维护性。
根据业务需求和技术发展,及时对系统进行升级和优化。
03
运维团队建设与管理
团队构成 包括系统管理员、数据库管理员、网 络管理员等多个角色,各自负责相应
政府机构应用
总结词
政府机构通过大数据管理平台可以提升公共服务水平,优化资源配置,提高决策的科学性和预见性。
详细描述
政府机构可以利用大数据管理平台分析社会经济数据、民生需求和政策执行效果,为制定更加科学合 理的政策提供支持。同时,通过实时监测社会舆情和公共安全事件,及时作出应对措施,保障公共安 全和社会稳定。
目标
明确大数据管理平台的建设目标,如 提高数据处理效率、降低成本、提升 决策水平等。
原则
制定大数据管理平台规划的原则,如 可扩展性、可靠性、安全性等。
平台建设步骤与时间表
建设步骤
详细规划大数据管理平台的开发、部署和运维等步骤,包括数据采集、存储、处理、查 询和分析等环节。
时间表
制定大数据管理平台的建设时间表,明确各阶段的任务、时间节点和负责人,确保项目 按时完成。
04
大数据管理平台应用场景
金融行业应用
总结词
金融行业是大数据应用的重要领域,通过大数据管理平台, 金融机构可以更好地进行风险控制、客户画像和精准营销。
详细描述
金融机构可以利用大数据管理平台对客户的行为、偏好和信 用状况进行深入分析,提高风险评估和信贷审批的准确性。 同时,通过对市场趋势的预测和竞争对手的分析,制定更加 精准的市场营销策略。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
. - - . 可修编- 大数据平台框架选型分析
一、需求 城市大数据平台,首先是作为一个数据管理平台,核心需数据的存和取,然后因为海量数据、多数据类型的信息需要有丰富的数据接入能力和数据标准化处理能力,有了技术能力就需要纵深挖掘附加价值更好的服务,如信息统计、分析挖掘、全文检索等,考虑到面向的客户对象有的是上层的应用集成商,所以要考虑灵活的数据接口服务来支撑。 二、平台产品业务流程 . - -
. 可修编- 三、选型思路 必要技术组件服务: ETL>非/关系数据仓储>大数据处理引擎>服务协调>分析BI>平台监管 . - -
. 可修编- 四、选型要求 1.需要满足我们平台的几大核心功能需求,子功能不设局限性。如不满足全部,需要对未满足的其它核心功能的开放使用服务支持 2.国外资料及社区尽量丰富,包括组件服务的成熟度流行度较高 3.需要对选型平台自身所包含的核心功能有较为深入的理解,易用其API或基于源码开发 . - - . 可修编- 4.商业服务性价比高,并有空间脱离第三方商业技术服务 5.一些非功能性需求的条件标准清晰,如承载的集群节点、处理数据量及安全机制等 五、选型需要考虑 简单性:亲自试用大数据套件。这也就意味着:安装它,将它连接到你的Hadoop安装,集成你的不同接口(文件、数据库、B2B等等),并最终建模、部署、执行一些大数据作业。自己来了解使用大数据套件的容易程度——仅让某个提供商的顾问来为你展示它是如何工作是远远不够的。亲自做一个概念验证。 广泛性:是否该大数据套件支持广泛使用的开源标准——不只是Hadoop和它的生态系统,还有通过SOAP和REST web服务的数据集成等等。它是否开源,并能根据你的特定问题易于改变或扩展?是否存在一个含有文档、论坛、博客和交流会的大社区? 特性:是否支持所有需要的特性?Hadoop的发行版本(如果你已经使用了某一个)?你想要使用的Hadoop生态系统的所有部分?你想要集成的所有接口、技术、产品?请注意过多的特性可能会大大增加复杂性和费用。所以请查证你是否真正需要一个非常重量级的解决方案。是否你真的需要它的所有特性? 陷阱:请注意某些陷阱。某些大数据套件采用数据驱动的付费方式(“数据税”),也就是说,你得为自己处理的每个数据行付费。因为我们是在谈论大数据,所以这会变得非常昂贵。并不是所有的大数据套件都会生成本地Apache Hadoop代码,通常要在每个Hadoop集群的服务器上安装一个私有引擎,而这样就会解除对于软件提供商的独立性。还要考虑你使用大数据套件真正想做的事情。某些解决方案仅支持将Hadoop用于ETL来填充数据至数据仓库,而其他一些解决方案还提供了诸如后处理、转换或Hadoop集群上的大数据分析。ETL仅是Apache Hadoop和其生态系统的一种使用情形。 . - -
. 可修编- 六、方案分析 自建套件 hortonworks 国类exadoop TDW+fineBI 成本 100%开源 培训服务3k/人 授权支持100K
性能 单集群最大规模达到5600台,处理数据量可达百P级 功能 按需整合 HDFS和YARN数据管理 从各种引擎访问数据 根据策略加载和管理数据 身份验证、授权和数据保护 大规模配置、管理、监控和运营 Hadoop 群集 与您的数据分析工具集成 跨平台配置部署
易操作性 安装复杂,操作需要专业培训。 图形设计界面,参数配置,易上手。 应用成熟度 国外大客户较多
文档/社区支持 文档较多,社区一般,相关专业培训较多。 官方社区比较活跃(英文)中文社区有1个文档较少,多为英文文档 文档较少,无商用服务,无任何技术支持
扩展性 开源开放 开源开放 开源开放 移植性 支持多操作系统 支持多操作系统 支持多操作系统 支持多操作系统 监控 监控功能强大Armbri 元 无 优势 1、跟随产品阶段逐步完善整合自定义套件 2、自选流行组件,资料丰富 1、开源强大支持的开源套件 2、配套商业服务支持 1、国产套件 2、交流支持方便 3、商业服务较灵活 1、开源中文支持 2、基于大数据处理核心,灵活组合其它组件来适应不同产品阶段及项目 劣势 整合周期不可控 商业成本较高 依赖于打包服务公司的支持 半定制套件,预学现用 . - - . 可修编- 七、相关资料 https://prestodb.io/ .thinksaas./group/topic/233669/ HDP (hortonworks) A plete Enterprise Hadoop Data Platform . - -
. 可修编- 开源工具汇总整理 类别 名称 备注
查询引擎 Phoenix Salesforce公司出品,Apache HBase之上的一个SQL中间层,完全使用Java编写
Stinger 原叫Tez,下一代Hive,Hortonworks主导开发,运行在YARN上的DAG计算框架 Presto Facebook开源 Shark Spark上的SQL执行引擎 Pig 基于Hadoop MapReduce的脚本语言
Cloudera Impala 参照Google Dremel实现,能运行在HDFS或HBase上,使用C++开发 Apache Drill 参照Google Dremel实现 Apache Tajo 一个运行在YARN上支持SQL的分布式数据仓库 . - - . 可修编- Hive 基于Hadoop MapReduce的SQL查询引擎
流式计算 Facebook Puma 实时数据流分析 Twitter Rainbird 分布式实时统计系统,如的点击统计
S4 Java开发的一个通用的、分布式的、可扩展的、分区容错的、可插拔的无主架构的流式系统 Twitter Storm 使用Java和Clojure实现
迭代计算 Apache Hama 建立在Hadoop上基于BSP(Bulk Synchronous Parallel)的计算框架,模仿了Google的Pregel。
Apache Giraph 建立在Hadoop上的可伸缩的分布式迭代图处理系统,灵感来自BSP(bulk synchronous parallel)和Google的Pregel
HaLoop 迭代的MapReduce Twister 迭代的MapReduce
离线计算 Hadoop MapReduce 经典的大数据批处理系统 Berkeley Spark 使用Scala语言实现,和MapReduce有较大的竞争关系,性能强于MapReduce DataTorrent 基于Hadoop2.X构建的实时流式处理和分析平台,每秒可以处理超过10亿个实时事件
键值存储 LevelDB Google开源的高效KV编程库,注意它只是个库 RocksDB Facebook开源的,基于Google的LevelDB,但提高了扩展性可以运行在多核处理器上 HyperDex 下一代KV存储系统,支持strings、integers、floats、lists、maps和sets等丰富的数据类型 TokyoCabinet 日本人Mikio Hirabayashi(平林干雄)开发的一款DBM数据库,注意它只是个库(大名鼎鼎的DBM数据库qdbm就是Mikio Hirabayashi开发的),读写非常快 Voldemort 一个分布式键值存储系统,是Amazon Dynamo的一个开源克隆,LinkedIn开源 Amazon Dynamo 亚马逊的KV模式的存储平台,无主架构
Tair 淘宝出品的高性能、分布式、可扩展、高可靠的KV结构存储系统,专为小文件优化,并提供简单易用的接口(类似Map),Tair支持Java和C版本的客户端
Apache Accumulo 一个可靠的、可伸缩的、高性能的排序分布式的KV存储系统,参照Google Bigtable而设计,建立在Hadoop、Thrift和Zookeeper之上。
Redis 使用ANSI C语言编写、支持网络、可基于存亦可持久化的日志型、单机版KV数据库。从2010年3月15日起,Redis的开发工作由VMware主持
OceanBase 支持海量数据的高性能分布式数据库系统,实现了数千亿条记录、数百TB数据上的跨行跨表事务 Amazon SimpleDB 一个可大规模伸缩、用 Erlang 编写的高可用数据存储 . - - . 可修编- Vertica 惠普2011收购Vertica,Vertica是传统的关系型数据库,基于列存储,同时支持MPP,使用标准的SQL查询,可以和Hadoop/MapReduce进行集成
Cassandra Hadoop成员,Facebook于2008将Cassandra开源,基于O(1)DHT的完全P2P架构 HyperTable 搜索引擎公司Zvents针对Bigtable的C++开源实现
FoundationDB 支持ACID事务处理的NoSQL数据库,提供非常好的性能、数据一致性和操作弹性
HBase Bigtable在Hadoop中的实现,最初是Powerset公司为了处理自然语言搜索产生的海量数据而开展的项目
文件存储 CouchDB 面向文档的数据存储 MongoDB 文档数据库 Tachyon 加州大学伯克利分校的AMPLab基于Hadoop的核心组件开发出一个更快的版本Tachyon,它从底层重构了Hadoop平台。 KFS GFS的C++开源版本 HDFS GFS在Hadoop中的实现
资源管理 Twitter Mesos Google Borg的翻版 Hadoop Yarn 类似于Mesos
日志收集系统
Facebook Scribe Facebook开源的日志收集系统,能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理,常与Hadoop结合使用,Scribe用于向HDFS中Push日志 Cloudera Flume Cloudera提供的日志收集系统,支持对日志的实时性收集
logstash 日志管理、分析和传输工具,可配合kibana、ElasticSearch组建成日志查询系统
kibana 为日志提供友好的Web查询页面
消息系统 StormMQ ZeroMQ 很底层的高性能网络库 RabbitMQ 在AMQP基础上完整的,可复用的企业消息系统 Apache ActiveMQ 能力强劲的开源消息总线
Jafka 开源的、高性能的、跨语言分布式消息系统,最早是由Apache孵化的Kafka(由LinkedIn捐助给Apache)克隆而来