海量数据存储管理技术研究
海量空间数据管理相关关键技术研究

海 量空 间数据管 理相 关关键技 术研 究
包 文 苑 ( 武汉大 学计算 机学院 湖北 武汉 4 0 2 3 07 ) 摘 要 : 文基于 笔者 空间数据 管理方 向的研究 心得 , 究探 讨 了海量 空间数据 管理的 两大关键技术 的方法 与应用 , 文是 笔者长期研 究 本 研 全 工作 基础 上的理 论 心得 , 相信 对从 事相关 研 究工作 的 同行 能有 所裨益 。 关键词 : 海量 空间数据 数据 管理 矢栅 数据一体化 中 图 分类 号 : P T 3 文献 标 识 码 : A 文章 编号 : 6 2 7 l2 1 ) 3 b 一 0 9 0 1 7 —3 9 ( 0 O 0 () 0 2 — I
其 主要 目的 是根 据数 据 内 容之 间 的 相 互 关 系, 用属性逻辑运算形成新的数据集 , 利 目 前 这 种 操 作 仍 多 采 用 栅 格 数 据 模 型 的 叠 加 。 3 数 据 转 换 。 据 转 换 包 括 格 式 、 性 () 数 属 分 类 等 内 容 , 察 转 换 效 果 的 主 要 标 志 是 考 数 据 损 失 尽 可 能 少 , 中研 究 最 多 的 是 数 其 据 在 不 同数 据 格 式 转 换 中的 问题 。 4 遥 感 () 数 据 与 G S 据 的 集 成 。 感是 地 球 空 间数 I数 遥 据 最 直 接 、 效性 最 强 的来 源 形 式 , 关 键 时 其 是 如 何 把 遥 感 数 据 与 GI 数 据结 合 起 来 。 S 1 海量空 间数据 集成管理 理 想 的海量 空 间数据 集成 模式 是 自动 逐 1 1海 量 空间数 据 集成 的 特点 . 级抽 象 , 即数 据库 中只存 储最 高 分辨率 ( 最 或 海 量 地 理 空 间数 据 除具 有 一 般 空 间 数 小尺 度 ) 数据 , 据 一定 的规 则 自动 对基 础 的 根 据 空 间 特 征 、 结 构化 、 间关 系 、 类 编 数据 进 行 转换 并 生 成需 要 精 度 的数 据 。 非 空 分 码及海量数据等特征外 , 具有以下特点 。 还 多 分 辨 率 : 实 际生 产 和 现 实 应 用 中 , 2 矢量栅格 一体化存储 在 由于 应 用 的 目的 和 范 围不 同 形 成 了多 种 比 2. 1矢量 数据 结构 例 尺 、 分 辨率 空 间数 据 并 存 的 局 面 。 了 多 为 采 用 一 系 列 的线 段 或 形 状 描 述 图像 是 使 这 些 多 比 例 尺 、 分 辨 率 的 空 间数 据 得 矢 量 表 示 法 , 可 使 用 实 心 或 有 等 级 深 浅 多 也 到 更 好 的 应 用 , 须 考 虑 有 效 的 管 理 手 段 或 色彩 填 充 的 一 些 区域 来 表 征 。 必 对其进行 管理。 矢 量 数 据 结 构 是 通 过 记 录 坐 标 的 方 多 层 次 : 目前 常 用 的 GI 系 统 中 , 在 S 空 式 , 可 能 精 确 地 表 示 点线 多 边 形 等 地 理 尽 间数据一般是分层表示的 , 样对要素( 这 实 实 体 , 自然 地 理 实 体 的 位 置 是 用 其 在 坐 标 体 ) 操 作 、 储 较 为 方 便 , 这 些 要 素 在 参 考 系 中 的 空 间 位 置 来 定 义 的 , 标 空 间 的 存 但 坐 空间表达上 也具有 明显的层次 。 种空 间 这 设 为 连 续 , 许 任 意 位 置 长 度 和 面 积 的 精 允 数 据 的 多 层 次 性 , 容 易 造 成 分 析 时 对 空 确 定 义 , 特 点 是 定位 明 显 , 性 隐 含 。 很 其 属 间 实 体 整 体 性 的 忽 略 , 致 对 空 间 数 据 操 导 GI 采 用 的 矢 量 数 据 结 构 模 型 , 将 空 S 是 作效 率 很 低 。 此 , 就 要 求 具 有 严 格 的 拓 间 地 质 实 体 抽 象 成 点 、 、 三 种 几 何 要 因 这 线 面 扑 关 系 和 基 于 空 间实 体 考 虑 的 数 据 模 型 。 素 , 量 数 据 结 构 通 过 优 化 拓 扑 结 构 表 达 矢 多 时 相 性 : 间 、 间 、 性 是 构 成 空 空 间 实 体 的 相 关 关 系 , 空 间数 据 库 建 立 时 空 属 为 间实体的三个 基本要素 , 们的生 活空 间 我 基本框架 。 是在 时时刻刻地变化着 , 因此 , GI 的 应 2. 在 S 2栅 格 数据 结构 用 中 产 生 了大 量 的 历 史 空 间 数 据 。 统 的 传 栅 格 图也 叫 点 阵 图 ( i n P 、 图 , ht a )位 t 是 空 间 数 据 库 为 静 态 空 间数 据 库 , 只描 述 wi d ws 常见 的 图形 格式 。 个 图形 在屏 即 no 中 一 某 一 瞬 间 空 间数 据 和 属 性 数 据 的 状 况 , 缺 幕 上 显 示 时 是 由 很 小 的 点 即 像 素 组 成 的 , 少 关 于 时 间 变 化 的描 述 。 进 行 数 字 化 城 因此 , 在 目前 从 整 体 上 看 栅 格 图是 由 组 成 图 市 、 字化 国家 、 字化地 球等任务 时 , 数 数 建 形 的 大 量 像 素 点 来 确 定 。 个 图 形 的 程 序 一 立 一 个 高 效 、 理 和 操 作 的 时 空 数 据 库 管 只 知 道 画 面 上 每 个 像 素 点 的 特 性 , 不 管 管 而 理 系 统 是 我 们 需 要 解 决 的 关 键 问题 之 一 。 图形 的 整 体 是 什 么 。 1 2海 量 空 间数据 集 成 应用 思 路 . 栅 格 数 据 结 构 是 最 简单 最直 观 的 空 间 空 间 数 据 集 成 方 法 是 面 向 不 同 应 用 数据 结构 , 又称 为 网格数 据结 构 (r e ) g i cl , d 1 的 。 球 空 间数 据 由 于 来 源 不 同 , 参 考 体 是将 平 面 划 分 为m* 个 正 方形 小 方 格 , 个 地 其 n 每 系 及 各 种 参 数 存 在 着 很 大 差 异 , 何 使 之 小 方 格 用 ( y 坐 标 标 识 , 自然 地 理 实 体 如 x, ) 即 匹配 起 来 , 经一 系列 的转 换 、 致 化 操 作 的 位 置 和 形 状 用 它 们 所 占 据 的 栅 格 行 列 号 需 一 等过 程 。 来 定 义 。 格 数 据 模 型 对 地 图 数 据 的 表 示 栅 对 集 成 方 法 和 应 用 的 研 究有 以 下 几 个 可 以 用 每 个 栅 格 的 属 性 值 表 示 , 就 是 以 也 方面 : 规 则 的阵 列 来 表示 空 间 地物 或 现 象 分 布 的 ( ) 据 集 成 中 的 数 据 组 织 。 于 地球 数 据 组 织 , 织 中 的 每 个 数 据 表 示 地 物 或 1数 鉴 组 空 间 数 据 的 分 布式 特征 及潜 在 的 可 视 化 表 现 象 的 非 几 何 属 性 特 征 , 格 结 构 表 示 的 栅 现 力 , 用 多媒 体 技 术 , 地 球 空 间 数 据 进 是 不 连 续 的 , 散 的 数 据 , 最 明 显 的 特 点 利 对 离 其 行 可 视 化 管 理 是 实 际 可 行 的 , 是 集 成 数 是 属 性 明显 , 位 隐 含 。 也 定 例如 可 以 通过 编程 据 的 未 来 组 织 形 式 。2 集 成 中 的 多数 据 叠 对 栅 格 图像 素 点 的 颜 色 进 行 分 析 , 而 计 () 从 加 分 析 。 成 中数 据 的 叠加 属 于 拓 扑 益加 , 算 出 各种 颜 色 像 素 点 所 占 的 百 分 比 。 集
云计算技术在大数据存储管理中的应用研究

云计算技术在大数据存储管理中的应用研究随着信息化的不断发展,各行各业都涉及到了大量的数据处理和存储任务。
由此,云计算成为一种非常重要的技术,而大数据则成为了云计算得到广泛应用的最主要领域之一。
在当今的云计算技术中,大数据存储管理是一个非常关键的环节,如何有效地将大量的数据进行存储、管理和应用是当前云计算技术面临的一个重要难题。
因此,本文将从云计算技术发展、大数据存储管理需求及云计算技术在大数据存储管理中的应用研究等方面进行讨论。
一、云计算技术的发展云计算是一种“按需自助”的计算模式,能够提供可用、可扩展、弹性的IT资源。
它是一种基于互联网、以数据中心为中心、利用虚拟化技术动态分配计算、存储和网络资源以及软件运行环境的计算模式。
云计算是一项根据实际需求,动态地配置计算资源的技术。
在过去,计算资源主要通过购买和安装服务器、网络设备等实体设备来获得,而这种方式需要进行维护、升级、扩容等操作,不仅成本高昂,而且容易出现资源浪费现象。
然而,云计算技术采用了一种更为先进的虚拟化技术,将一批服务器资源虚拟化成为一个整体,用户可以根据需要租借资源,实现了资源的高效利用和开销的最小化。
随着信息量的不断增加,传统的存储方案已经不能胜任处理海量数据的任务,许多企业和机构面临着巨大的数据处理难题。
而云计算技术的出现,彻底改变了 IT 资源管理的方式,大大加强了海量数据的存储和管理能力。
二、大数据存储管理需求随着数据规模不断增大,数据存储和管理已成为现代信息技术发展中的重要领域。
大数据处理需要高速、高容量、高可靠等性能,同时给存储管理带来了更高的安全需求。
基于此,云计算技术作为企业级的大数据存储管理平台,成为了大数据应用发展的首选。
在日常操作和管理中,我们常常会遇到数据不一致、数据丢失、数据访问缓慢等问题。
尤其是在大数据管理领域,这些问题更加突出。
如何解决这些问题就成为了大数据管理和存储的核心问题。
三、云计算技术在大数据存储管理中的应用研究1. 基于云计算的大数据储存及管理系统云计算为处理大数据提供了新的方式和平台,使得大数据储存及管理系统可以通过虚拟化技术,将物理存储资源的使用和维护从用户中分离出来,从而提供更为可扩展、安全和灵活的大数据计算服务。
大数据存储与处理技术高效管理海量数据

大数据存储与处理技术高效管理海量数据随着信息技术的迅猛发展,大数据存储和处理技术成为了企业和机构管理海量数据的重要手段。
面对不断增长的数据量,高效管理海量数据势在必行。
本文将介绍大数据存储与处理技术,并探讨如何实现高效的数据管理。
一、大数据存储技术1.1 分布式文件系统分布式文件系统(Distributed File System,简称DFS)是存储大数据的核心技术之一。
它将海量数据分布在多个独立的存储节点上,通过网络连接形成一个逻辑上的整体。
DFS具有高容错性和高可靠性,能够实现数据的快速存储和访问。
1.2 列存储和行存储在大数据存储中,列存储和行存储是常用的两种数据存储方式。
列存储将同一列的数据存放在一起,适合于查询操作;而行存储将同一行的数据存放在一起,适合于事务处理。
根据应用场景选择合适的存储方式能够提高数据访问效率。
1.3 NoSQL数据库NoSQL数据库(Not Only SQL)是一种非关系型数据库,广泛应用于大数据存储中。
与传统的关系型数据库相比,NoSQL数据库具有分布式处理能力和高扩展性,能够更好地应对大规模数据集和高并发访问的需求。
二、大数据处理技术2.1 批处理批处理是一种常用的大数据处理方式,适用于数据规模较大、计算复杂度较高的场景。
通过将数据划分成若干个批次进行处理,可以提高计算效率和性能。
2.2 流式处理流式处理是一种实时处理数据的方式,能够快速响应数据变化。
它通过将数据流分成一小段一小段进行处理,实现数据的实时计算和分析。
2.3 图计算图计算是用于处理复杂网络关系的大数据处理技术。
通过将数据抽象为图的节点和边,可以进行复杂的网络分析和图算法的计算。
三、高效管理海量数据的实现3.1 数据压缩与归档在海量数据存储中,数据压缩和归档是一种常用的数据管理方式。
通过对冷数据进行压缩和归档,可以节省存储空间和提高数据访问速度。
3.2 数据分片与负载均衡数据分片和负载均衡是实现数据高效管理的关键技术。
大数据时代的存储与管理技术研究

大数据时代的存储与管理技术研究随着互联网的快速发展和信息技术的不断进步,大数据已经成为了当今社会中不可忽视的一部分。
大数据的存储与管理技术在这个时代显得尤为重要,它可以帮助人们储存和管理海量的数据,为各行各业提供有力的支持与帮助。
本文将重点研究大数据时代的存储与管理技术,并探讨其应用于各领域的意义。
首先,大数据的存储技术是大数据管理中的重要一环。
存储技术的发展不仅仅为大数据的存储提供了更高效、更安全、更可靠的解决方案,同时也为大数据的分析与应用奠定了基础。
传统的存储方式已经无法满足海量数据的存储需求,因此,云存储技术应运而生。
云存储技术将数据存储在互联网上的云服务器中,用户可以通过互联网随时随地访问和管理自己的数据。
云存储技术不仅具有高可靠性和高扩展性,还能够提供强大的数据备份与恢复功能,确保数据的安全性。
此外,大数据存储技术中的分布式存储也发挥着重要作用,将数据分散存储在多个节点上,提高了数据的存取效率和可靠性,降低了数据丢失的概率。
其次,大数据的管理技术是大数据存储与分析的关键。
管理技术的发展使得大规模数据的查询、处理和分析成为可能。
数据管理技术可以对大数据进行分类、组织、清洗和分析,为数据应用和决策提供有力的支持。
常见的数据管理技术包括数据清洗、数据仓库、数据挖掘和数据可视化等。
数据清洗是指对数据进行去噪、去重和校验等,保证数据的质量和一致性;数据仓库是指将不同来源的数据集中存储、集成和管理起来,为数据分析提供便利;数据挖掘是指通过机器学习和统计分析方法从大数据中挖掘出有用的信息和知识;数据可视化是指通过图表、图形和仪表盘等展示方式,将大数据转化为可视化的图像,便于用户理解和分析。
这些管理技术的应用为企业决策、市场分析、用户行为分析等提供了有力的支持,帮助企业和个人更好地理解和利用大数据。
大数据存储与管理技术的研究不仅仅是为了满足海量数据的存储和分析需求,更是为了挖掘数据的潜在价值和意义。
云计算环境下的大数据存储与处理技术研究

云计算环境下的大数据存储与处理技术研究在数字化时代,海量的数据成为各个行业发展的核心驱动力。
而随着云计算技术的发展,云计算环境下的大数据存储和处理技术逐渐成为各大企业和机构必须关注的热门话题。
一、云计算环境下的大数据存储技术在云计算环境下,大数据的存储问题一直是一个难题。
如何处理大量数据的传输、存储和保护,是云计算环境下的大数据存储技术所需要解决的问题。
1. 数据备份技术数据备份技术是大数据存储技术最基本的一种技术。
在云计算环境下,数据备份技术不仅能有效保障数据安全,还能提高数据抗毁性和数据冗余性。
数据备份技术的实现需要选用适当的硬件和软件设备,以及选择可靠的备份策略。
2. 分布式文件系统技术分布式文件系统技术,能够有效地处理海量数据的存储问题,保障数据的快速读取和写入。
这种技术的核心是分布式数据存储和管理,将数据在多台机器上分布存储,可以提升数据的可靠性和性能,同时避免了单点故障问题。
3. 对象存储技术对象存储技术是一种新型的大数据存储技术。
在对象存储中,数据和元数据被存储在一个单独的存储单元中,称为对象。
对象存储技术可以有效降低数据存储成本,提高存储密度,同时还能提高数据存储的可靠性和安全性。
二、云计算环境下的大数据处理技术大数据处理技术主要包括数据采集、数据传输、数据预处理、数据分析和数据可视化等几个方面。
1. 数据采集技术数据采集技术是大数据处理的第一步,同样也是最关键的一步。
云计算环境下由于数据来源的多样性和数据类型的复杂性,数据采集成本、采集时间、采集精度等问题更显突出。
为了解决这些问题,可以使用数据挖掘和机器学习等技术对数据进行筛选和过滤。
2. 数据传输技术数据传输技术是将大数据从采集源传送到云计算环境中的关键技术。
在云计算环境下,大多数的数据传输都是在云之间或从云到端设备之间进行。
对于大数据处理,需要采用高效的网络传输技术,例如多路径传输技术。
3. 数据预处理技术数据预处理技术是在处理大数据之前进行的一系列处理工作。
海量存储系统的研究与应用

与 关键技 术 ,并结 合上 海 市 医联 工程 影像 存储 需求 分析 了P ACS
影 像 数 据 对 海 量存 储 的并 发 访 问 、 可扩 展 性 与 安 全 节 能等 先进
存 储特 性 。
关 键词 海量存储 并行存 储 P CS 绿 色节 能 A
1引言
人 类 社 会 已进 入一 个 信息 大爆 炸 的时代 , 信息 量 呈 几 何级 数 增 长 : 每 1 个月新 产生 的数 据 量 等 于有史 以来 数 据 量之 和 !D 于2 1 年 5 8 IC 0 0 月
础 ,对存储区域网络S N A 、网络附属存储N S、集群存储 、对象存储系 A 统等方面进行 了广泛的研究 ;国内企业如浪潮 、华赛 、圣桥等 ,研制出
了一 系列 网络 存储 产 品。 虽 然 目前 学 术界 和 产业 界 都 已对T 级 的 数据 存 储有 了相 对 完善 的 B 解决 方 案 ,但随 着 数据 持 续 高 速增 长 ,P 级 数据 的 存储 需 求 已迫 在 眉 B 睫 。无论 是在 生 物信 息 、核能 、 空航 天 、武 器装 备等 科学 研究 和工 业 航 领域 ,还 是在 电 子商 务 、平安城 市工 程 、各 级备 份 和容灾 中心 、医疗数
存 储 技 术 在 近 十几 年 内一直保 持 快 速 发 展 态 势 , 在 存储 网络 技 术 、 储 系统 架构 、 入 式存 储 操作 系统 、 存 嵌 数 据保 护技 术 、 绿色存 储 等方面都 取得 了一系列重 大进 展 。
图1海量存储 系统架构 比较
节 点规模 的扩 展而 线性 扩 展 ,具 备优 秀 的扩 展能 力 ,是
其 存 储需 求 是把 握 存 储 系统 及 产业 发 展方 向和 趋势 的 根本 出发 点 。 国 际 上 以 I 、EMC 、HP 为 代 表 的 企 业 界 ,和 以CMU、UC BM 等
面向海量数据处理的数据压缩与存储技术研究

面向海量数据处理的数据压缩与存储技术研究随着互联网和数字化时代的到来,海量数据处理已成为当今社会不可或缺的重要任务。
海量数据的处理涉及到数据的压缩与存储技术,这是在处理大规模数据时必不可少的环节。
数据压缩技术是通过对数据进行压缩,以减少数据的存储空间和传输带宽的消耗。
海量数据处理需要高效的数据压缩算法,它能够在不显著损失数据质量的前提下,将数据压缩到更小的体积。
在压缩算法的选择上,可以考虑使用无损压缩算法或有损压缩算法。
无损压缩算法是在压缩的过程中保持数据的完整性和准确性,而有损压缩算法则在一定程度上牺牲了数据的精确性以换取更高的压缩比。
常见的无损压缩算法包括哈夫曼编码、算术编码和霍夫曼-离散余弦变换(Huffman-DCT)算法等。
这些算法适用于各种类型的数据,例如文本、图像、音频和视频等。
无损压缩算法在保持数据的完整性方面具有优势,但压缩率相对较低。
而有损压缩算法则能够实现更高的压缩率,但会在数据还原的过程中引入一定的失真。
对于特定类型的数据,可以使用更加专门的压缩算法。
例如,对于图像数据,JPEG(Joint Photographic Experts Group)和PNG(Portable Network Graphics)等压缩算法广泛应用于图像压缩领域。
而对于音频数据,MP3(MPEG Audio Layer III)和AAC(Advanced Audio Coding)等压缩算法常用于音频压缩和存储。
这些算法通过对数据的特征进行分析和利用,实现了在保持一定质量的前提下,将数据压缩到更小的体积。
除了数据压缩技术,海量数据处理还需要高效的数据存储技术。
数据存储技术涉及到数据的存储结构和存储介质的选择。
在存储结构方面,可以选择传统的关系型数据库或新兴的非关系型数据库。
关系型数据库适用于结构化数据的存储和查询,而非关系型数据库则适用于半结构化和非结构化数据的存储和处理。
非关系型数据库具有高扩展性、高性能和灵活的特点,能够满足海量数据处理的需求。
大数据存储与管理技术的研究与应用

大数据存储与管理技术的研究与应用大数据已经成为当今社会的重要话题。
各个领域正在努力研究和应用大数据技术,以更有效地处理和分析海量的数据。
而在大数据技术领域,存储和管理技术也是至关重要的一环。
本文将从大数据存储和管理技术的研究和应用两个方面进行探讨。
一、大数据存储技术的研究与应用随着数据量的不断增长,传统的存储方式已经无法满足大数据存储的需求。
数据量庞大、数据类型多样化、数据来源多样化,都是对存储技术提出了更高的要求。
因此,大数据存储技术的研究不断深入。
1.1 分布式存储技术在传统的存储方式中,数据存储在本地磁盘上,容易造成硬盘容量不够、数据安全性不够等问题。
分布式存储技术的出现,解决了这些问题。
分布式存储指将数据存储在多个节点上,通过数据分割、备份等方式,确保数据的可靠性和安全性。
分布式存储技术的应用非常广泛,例如海量数据存储、云存储、文件共享等。
同时,分布式存储技术的不断发展,也使得大数据在存储方面更加灵活高效。
1.2 桶式存储技术桶式存储技术是一种非结构化数据存储方式。
它将数据以桶为单位进行存储,并不需要考虑数据的结构和类型。
好处在于,可以存储大数据流,并且对于非结构化数据,可以以不同的方式进行查询和检索。
桶式存储技术在处理半结构化或非结构化数据方面表现出色。
在搜索引擎、社交媒体等领域广泛应用。
同时,桶式存储技术可以有效减少存储空间的浪费,提高存储效率。
二、大数据管理技术的研究与应用大量数据需要处理,大数据管理技术就必不可少。
大数据管理的目标是让数据以高效、可靠、安全、可扩展的方式在整个数据中心或云中存储、查询、分析。
现在,大数据管理技术已经发展了很多种,例如数据治理、数据质量控制、数据预处理、数据集成等等。
2.1 数据治理数据治理是企业保证数据质量的重要手段。
它是一种通过制定规程和策略来管理数据的方法,涉及到数据访问、存储、共享、传输、分类和审计等方面。
数据治理的好处在于保障数据的准确性和安全性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第32卷第10期2011年10月微计算机应用MICROCOMPUTER APPLICATIONSVol.32No.10Oct.2011海量数据存储管理技术研究刘阳成周俭谢玉波(华北计算技术研究所地理信息与数据库研究室北京100083)摘要:海量数据存储管理在各行业的信息化过程中越来越重要,受到了广泛的关注。
综述了海量存储管理技术的研究及应用现状,介绍了一些关键技术,包括数据存储架构,分级存储,数据自动化归档,业务流程控制,并发设计,数据服务等,最后,结合当前海量数据存储管理技术,指出了海量数据存储管理面临的一些新的发展方向。
关键词:海量数据存储管理分级存储业务自动化并发设计数据服务Mass Data Storage Management Technology ResearchLIU Yangcheng,ZHOU Jian,XIE Yubo(Department of GIS&DB,North China Institude of Computing Technology,Beijing,100083,China)Abstract:Mass data storage management becomes more and more important in process of many areas.Key techniques about this inclu-ding storage structure,hierarchical storage,auto import,process control,concurrent design and data service were st,combi-ning present development of mass data storage and management,it pointed out some new direction of it.Keywords:mass data,storage management,hierarchical storage,business automation,concurrent design,data service海量存储管理技术得到了越来越多的关注和应用。
随着各行各业信息化程度的提高,企业数据急剧膨胀,尤其是近年来卫星遥感技术的发展,海量数据存储管理在国民经济中应用的越来越广泛。
结合近年来从事的海量数据存储管理研究及实际项目研发,谈谈海量存储管理的若干技术。
1存储技术发展海量信息存储早期采用大型服务器存储,基本都是以服务器为中心的处理模式,使用直连存储(Direct Attached Storage),存储设备(包括磁盘阵列,磁带库,光盘库等)作为服务器的外设使用。
随着网络技术的发展,服务器之间交换数据或向磁盘库等存储设备备份数据时,开始通过局域网进行,这主要依赖网络附加存储(Network Attached Storage)技术来实现网络存储。
NAS实际上使用TCP/IP协议的以太网文件服务器,它安装优化的文件系统和瘦操作系统(弱化计算功能,增强数据的安全管理)。
NAS将存储设备从服务器的后端移到通信网络上来,具有成本低、易安装、易管理、有效利用原有存储设备等优点,但这将占用大量的网络开销,严重影响网络的整体性能。
为了能够共享大容量,高速度存储设备,并且不占用局域网资源的海量信息传输和备份,就需要专用存储区域网络(Storage Area Network)来实现。
目前海量存储系统大多采用SAN存储架构的文件共享系统,所有服务器(客户端)都以光纤通道(Fibre Channel,简称FC)直接访问盘阵上的共享文件系统(如图1所示)。
数据在存储上是共享的,数据在任何一台服务器(客户端)上都可以直接通过FC链路进行访问,无需考虑服务器(客户端)的操作系统平台,存储区本文于2011-07-26收到。
微计算机应用2011年域网络(SAN )避免了对传统LAN 带宽的依赖和影响。
SAN 存储架构可以方便的通过扩展盘阵数量以达到扩展存储容量的目的,且不影响数据共享效率。
图1存储区域网络结构示意图2分级存储技术分级存储是当今存储策略中最有影响力的方案,它的主要意图在于在几乎不降低效率的同时,极大的降低存储成本,是最具性价比的存储策略。
分级存储又称为数据生命周期管理,它的理论依据是数据的价值随时间的推移而变化(一般是降低),并借鉴了计算机系统结构设计的缓存/主存/硬盘的设计原理。
通常采用分级存储(也称为分层存储)技术,将价值最大的数据保存在等级最高、性能最好的存储资源上,以保证高性能、高可靠性,通常这部分数据在所有存储量中占的比例相对较小,但应用频繁,所要求的访问实时性也较高;而对应用不太频繁的数据,可以存储在相对廉价的存储资源上。
根据需要可划分为两级、三级存储,目前应用较多的三级存储:在线、近线、离线。
在线设备一般采用性能较高的高端盘阵(例如光纤盘阵),近线设备一般采用普通的大容量盘阵(如SATA 盘阵),离线设备一般采用磁带库设备。
在需要离线数据的时候,可以将磁带库中的数据恢复到近线(或在线)设备上。
分级存储的技术保证了重要数据的高可用性,又最大程度的降低了整个存储系统的成本,在工程应用中被普遍采用。
分级存储技术需要迁移、回迁软件的配合才能真正发挥作用,具体来讲就是定时(如每天)或条件触发(如存储空间空闲率小于一定的阈值)迁移,按照算法(如存储最久数据或或最久未访问等)将满足条件的数据迁移到低一级存储设备上。
如果要访问离线数据,还需要把相关数据恢复到在线设备上。
技术实现路线既可以采用成熟的商业软件,也可以根据业务具体情况自行研发,还可以在封装商业软件的命令加入自身的业务处理逻辑。
3数据自动化归档由于在海量数据存储管理系统中,每天都有大量的新数据到达(没有节假日),且这些数据通常是根据上级数据产生系统不定时到达的,如果靠人工操作程序来完成数据的入库归档工作,成本无疑太过巨大,效率低、容易出错,且时效性不高。
因此,数据自动化归档技术就成为海量存储管理系统中的一个关键技术,4310期刘阳成等:海量数据存储管理技术研究特别是针对卫星数据,要求接收处理后要及时入库归档。
自动化归档一般设计为后台服务进程,开机即启动,7ˑ24小时随服务器运行。
自动化归档需要完成数据接收、数据解析、数据入库、日志记录、状态反馈等工作。
对于海量数据(尤其是大文件数据),一般不采取全部入关系数据库的做法,这样会使关系数据库的库体急剧膨胀,而适宜存储在共享文件系统中。
归档操作完成数据文件从接收区到数据存储共享区的数据搬移,并从文件名、文件头或专门的元数据文件中抽取出用于管理、查询的元数据信息,把元数据信息插入到关系数据库中,利用成熟的关系数据库优化性能以方便对这些数据的查询、管理。
4业务流程控制在一个完整的海量数据存储管理系统中,通常包括数据接收、数据归档、数据备份、数据迁移(回迁)、数据输出等多个后台业务进程,这些业务进程各负其责,共同完成一些业务流程。
如果这些进程直接进行通信完成控制指令(反馈)的交互,则各个业务进程的通信工作就会显得复杂,而且也不便于集中控制流程、掌握业务运行情况。
因此在海量数据存储管理系统中需要有一个业务控制进程,各个业务进程受业务控制进程的调度指挥,并把业务执行情况反馈给业务控制进程,而不必关心负责自己的任务处理完后下一步该执行什么任务,业务控制进程负责接收各业务进程的状态反馈,并根据状态反馈决定接下来该向什么业务进程发送调度指令。
这样各业务进程之间避免了直接的耦合,各业务进程只负责和总指挥(业务调度控制进程)通信,业务控制进程不负责具体业务,仅负责业务流程的控制,也有利于业务控制进程统一监视记录业务的执行情况。
对于需要人工控制干预(或发起业务)的情况,也可由前台界面把控制信息发送给业务控制进程,由业务控制进程调度相关的业务进程,并反馈执行情况,这样就避免了前台界面与各个业务进程进行通信,降低了复杂度。
常见的海量数据存储管理系统业务流程如图2所示。
图2海量数据存储管理系统业务流程5并发设计在海量数据存储管理系统中,为提高收发、归档、服务、备份等业务的处理能力,常采用并发设计。
并发设计可以采用多线程和多进程两种模式。
一个业务处理可以采用单进程多线程的方式,也可以采用多进程的方式。
前者由进程的主线程完成任务消息的接收,针对每个任务,启动一个线程进行业务处理,一次业务处理完毕,相应的业务线程也就随之结束。
后者则由多个业务进程并发的从消息队列中获取任务消息(同一个消息可保证不会被取走两次),分5363微计算机应用2011年别进行处理。
对于多进程的模式,需要有一个进程控制程序,根据任务的繁忙程度,负责启动或停止相应的业务进程。
但作为系统业务中心的调度程序一般不采用并发,而采用主备模式。
6数据服务模型海量数据存储管理系统通常还包括对外提供数据服务的功能,这也是数据存储管理系统发挥价值的关键所在。
提供服务的方式一般包括以下几种:API调用、订单服务、实时推送等。
API调用通常用于实时性要求高、使用方式灵活的场景下,API调用对使用者有一定的编程要求,编程者可在API的基础上实现更复杂、更强大的功能。
订单服务由数据使用者通过网站填写订单,存储管理系统接收到订单后查询数据库,提取满足条件的数据,并提供给订单提交者。
实时推送主要针对少量对特定数据实时性要求高的场景,一旦接收到相关种类的数据,就向数据使用者(或应用系统)推送对应的数据,使数据使用者在第一时间获取到数据。
使用何种服务模型要根据业务的情况具体分析,在大型的海量存储管理系统中一般都同时采用多种数据服务模型,对不同的服务需求采用不同的服务模式,充分发挥每种服务模型的优点。
7展望海量数据存储管理技术的发展如火如荼的进行中,海量存储管理目前要面对的问题包括海量数据存储管理数据量的持续增加、存储管理业务的容错处理、文件系统与关系数据库的无缝连接等。
目前海量存储管理技术在在以下几个方面面临着重大的发展机遇:IPSAN技术:将存储和IP网络相结合,使得用户可以在IP网络上传输块级的存储流量负载。
IPSAN具有SAN的大部分优点,成本却远低于SAN,且由于其存储与访问同时基于IP使得存储、计算和网络可以结为一体,为数据密集型的网格计算提供良好的基础。
对象存储技术:为了解决文件数量的增加而产生的,基本的存储单元是对象而不是块,对象存储设备相对于块设备具有更高的智能,对象是智能化、封装的更好的块。
集群存储:将每个存储设备作为一个存储节点,并通过高速互联网联接,统一对外提供I/O服务。
集群存储模式下每台存储设备都安装有操作系统可以独立运作。