Hadoop的HDFS大数据存储技术

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

NameNede
图 3 HDFS文 件 写 入 流 程
3.1 读 取 文件 过 程 (1)客户端用 FILeSystem的 API中 Open() 数打开义件 一 (2) HDFS客 户 端 AP1的 I)istr.hute(1 ksvstem J_}J RPC蒯
用元数据结点并获取文件数据块信息 ,同时记录其地址。 (3)客户 端获 得 Distr utedFilesvstem返 I FSDatBaidu Nhomakorabealnput—




实用第一 --‘智慧 密集



Hadoop的 HDFS大数 据存储 技术
常 广炎
(辽宁行政学院信息技术系 ,沈阳 l10161)
摘 要 :Hadoop的 HDFS是 一 个 部 署 在 廉 价 硬 件 设 备 上 使 用 的 分 布 式 文 件 系统 , 具 有 高 容 错 性 , 适 合 海 量 数 据 集的应 用程序 ,可 用来存储 海量数据 ,为应 用程序提 供 高吞 吐量 。HDFS开放 了一 些可移植操 作 系统接 口,文件 系 统 中数 据 的访 问 采 用 流 的 方 式 ,在 时 下 企 业 数 据 急 剧 膨 胀 ,海 量 存 储 挑 战 严 峻 的 情 况 下 ,提 供 了一 个 好 的技 术 方 法 ,海 量 数 据 的存 储 需 求 就 是 时 下 流 行 的 云 存 储 的概 念 ,以 存 储 海 量 视 频 数 据 为 实例 ,介 绍 HDFS存 储 海 量 的 过 程 。 关 键 词 :云 存储 ;HDFS模 型 ;分 布 式 文件 系统
70 毛电:■ 壤程技巧与雏罐 护 曩
… … 叫m 队 SE&l_f0R啊盯 ION MAN柏 …………………… …………………………… ……………………
(4)文件第 一个 数据块的最近数据节点 由 DFSInputStream 连接保存 ,当数 据块 读取完毕时 ,DFSInputStream关 闭和此数
据结点的连接 .连接下一个数据块最近 的数据结点。 (5) 当 客 户 端 数 据 读 取 结 束 ,调 用 DFSInputStream 的
close0 函数关闭数据流。 3.2 写入 文 件 过 程
(1)客户端用 create0 函数创建文件 。 (2)HDFS客户端 API的 Dist utedFileSystem用 RPC调 用元数据结点 ,在文件系统命 名空间创建一个新文件 。 (3) 户 端 获 得 DistributedFileSystem 返 回 FSDataOutput- Stream的信息 ,调用 stream 的 write()来写入 数据 ,写入 数据 时 Data0utputStream 将 数 据 分 成 块 ,写 入 数 据 队 列 data
Stream的信息 ,调用 stream的 read()来读取数据 。
图 1 HDFS体 系 结构
基 金项 目 :2014年辽宁 省丰.卜会科学 规划基金项 目 (L14BTQ005) 作者简 介 :常广 炎 (1964一),男 ,硕 十 ,教授 ,研究 方 向 电子政 务与计算机 网络 。 收稿 日期 :2015—12-03
1 HDFS的 特点 HDFS的设 汁 目标是 为存储超 大数据 丈件 ,与其他分布式
文件 系统最 大的区别是 “一次写 入 ,多 次读取 ”模 型 ,该模 型的优点是降低并 发控 制要 求 ,简化数据 聚合…,支持高吞吐 量的访问 ,具体如下 :
(1)硬件错误检测并 自动恢 复 HDFS部 署 在 大 量 的廉 价 的机 器组 成 的 集 群 中 ,结 点 故 障 是不可避免 的,HDFS能够保 证某 些结点发生故障时 ,整个集 群 的 正 常 T 作 。 (2)HDFS支 持 大 规模 数 据 集 HDFS上 的文件大小从 几十 GB到几 TB,适用 于大文件 , 可 持几千个结点组成的集群 。 (3)流 式 数 据 访 问 HDFS考虑到 了数据 的批量处 理 ,各结 点将数据以较小 的 数据 包形式进行 传输 ,从 而提 高了数据访 问吞 吐量 ,有 效地 避 免 了南于大 量数 据 同时 出现在信 道 卜所造 成 的网络 阻 塞 。 同时也便于本地文件系统处 理数 据l 。 (4)简 单 一 致 性 模 型 HDFS对 文件实行一 次写 、多次读 的访问模式 。文件一旦 建立 、写入 和关闭之后 ,就不 能再更改 r,这 一特性 简化 了 数 据 的一 致 性 并 提 高 了数 据 吞 吐 量I,I。 (5)跨 硬 件 和 软 件 平 台 的 移 动 HDFS存储 的数据 能够方便地 从一个平台移动到另外 一个 平 台.这有助于 HDFS被作为一个大程序集合的应用平 台。 2 HDFS的体 系架构
HDFS的 系统 架 构 采 .}}j主 从 结 构 . 由 一 个 NameNode、 个 sectmdaryNameNode和若 十 个 DataNode组 成 整个 HDFS集 群 。NameNode负责整个文件 系统 的命名 空间元数据和客 户端 对 文 件 的 访 问 ,是 一 个 中心 服 务 器 。 SecmndarvNameNode定 期 对 NameNode系统信息 文件进行备 份 ,是 NameNode的备份结 点 。一般 情况 下 ,一个物理 结点上运行一 个数据结 点 DataNo de,DataNode将数据作 为块存储在 义件 中l4I。HDFS体系结构 如 图 1所 示
3 HDFS的读/写数 据流 HDFS的数据 流主要分成 文件读取 和文件写入 过程 I..其
文件读取和文件 写入流程 图如 图 2和图 3所示。


“。 {0ut p uIsm Ⅱ I
南 ·碰 蛆 信 扈 I 由 橱 r臼稚/
Nam eNode
图 2 HDFS文 件读 取 流 程
相关文档
最新文档