Hadoop大数据技术系列一：BasicHadoop

相关主题

hadoop大数据技术

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Sqoop
Cassandra
Common
Avro
Ambari Chukwa
Yarn
Hue
Kafka
MapReduce
Zookeeper
HBase
Pig
Hdfs
Hive Oozie
Flume
Mahout
Hadoop BigData Series
2. Hadoop Ecosystem
组件简介
1 Apache ZooKeeper
Hadoop BigData Series ①
Basic Hadoop
Kyle
Apr. 2016
Hadoop
CONTENTS
1. Hadoop Introduction
2. Hadoop Ecosystem
Hadoop BigData Series
1. Hadoop Introduction
• Hadoop是一个开源的、可靠的、可扩展的分布式并行计算框架
Hadoop BigData Series
2. Hadoop Ecosystem
组件分类
1 分布式存储 HDFS
2 分布式操作系统 Yarn
3 分布式处理算法 MapReduce
用。
7 Apache Mahout
基于Hadoop的分布式程序库
提供了大量机器学习算法的MR实现，并提供了一系列工具，简化了从建模到测试流程。
8 Apache Sqoop
数据相互转移的工具
将一个关系型数据库（MySQL 、Oracle 、Postgres等）中的数据导入Hadoop的 HDFS中，也可以将HDFS的数据导入关系型数据库中。
Hadoop BigData Series
2. Hadoop Ecosystem
组件简介
9 Apache Cassandra
一套开源分布式NoSQL数据库系统
用于存储简单格式数据，集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。
10 Apache Avro
Hadoop BigData Series
1. Hadoop Introduction
Hadoop BigData Series
2. Hadoop Ecosystem
Common
Yarn
Hale Waihona Puke BaiduHdfs
MapReduce
Hadoop BigData Series
2. Hadoop Ecosystem
Spark
• 数据集主要特点
✓ Volume: 数量量从TB到PB级别 ✓ Variety: 数据类型复杂，超过80%的数据是非结构化的 ✓ Velocity:数据量在持续增加(两位数的年增长率)
• 其他特征
✓ 数据来自大量源,需要做相关性分析 ✓ 需要实时或者准实时的流式采集,有些应用90%写vs.10%读 ✓ 数据需要长时间存储,非热点数据也会被随机访问
分布式的数据收集与传输系统
它可以将各种各样类型的数据收集与导入Hadoop。
Hadoop BigData Series
2. Hadoop Ecosystem
组件简介
13 Apache HCatalog
基于Hadoop的数据表和存储管理工具
可用于管理HDFS元数据，它跨越Hadoop和RDBMS，可以利用Pig和Hive提供关系视图。
2. Hadoop Ecosystem
组件简介
5 Apache Oozie
工作流引擎服务
用于管理和协调运行在Hadoop平台上各种类型任务（HDFS、Pig、MR、Shell， Java等）。
6 Apache Flume
分布式日志数据聚合与传输工具
可用于日志数据收集、处理和传输，功能类似于Chukwa，但比Chukwa更小巧实
提供类SQL类型语言，该语言的编译器会把用户写好的Pig型类SQL脚本转换为一系列经过优化的MR操作并负责向集群提交任务。
4 Apache Hive
基于Hadoop的一个数据仓库工具
将结构化的数据文件映射为一张数据库表，通过类SQL语句快速实现简单的MR 统计，适合数据仓库的统计分析。
Hadoop BigData Series
14 Cloudera Hue
Hadoop生态圈组件的Web编辑工具
实现对HDFS、Yarn、MapReduce、Hbase、Hive、Pig等的Web化操作。
15 Apache Kafka
高吞吐量的分布式发布订阅消息系统
Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群机来提供实时的消费。
数据序列化系统
用于大批量数据实时动态交换，它是新的数据序列化与传输工具，估计会逐步
取代Hadoop原有的RPC机制。
11 Apache Ambari
Hadoop及其组件的Web工具
提供Hadoop集群的部署、管理和监控等功能，为运维人员管理Hadoop集群提供了强大的Web界面。
12 Apache Chukwa
分布式、开源的协调服务
主要是用来解决多个分布式应用遇到的互斥协作与通信问题，大大简化分布式应用协调及其管理的难度。
2 Apache Hbase
分布式存储系统
高可靠性、高性能、面向列、可伸缩。可在廉价PC Server上搭建大规模结构化
存储集群。
3 Apache Pig
基于Hadoop的大规模数据分析工具
• 主要组成:分布式文件系统HDFS和MapReduce算法执行 • 作者:Doug Cutting • 语言:Java，支持多种编程语言，如:Python、C++
Hadoop BigData Series
1. Hadoop Introduction
• Hadoop是Google的集群系统的开源实现 ➢ Google集群系统：GFS(Google File System)、 MapReduce、BigTable ➢ Hadoop主要由HDFS(Hadoop Distributed File System Hadoop分布式文件系统)、MapReduce和 HBase组成
• Hadoop的初衷是为解决 Nutch 的海量数据爬取和存储的需要
• Hadoop于2005年秋天作为 Lucene的子项目Nutch的一部分正式引入Apache基金会。
• 名称起源: Doug Cutting儿子的黄色大象玩具的名字
Hadoop BigData Series
1. Hadoop Introduction