面向空间大数据的分布式存储策略
大数据存储的三种路径

大数据存储的三种路径1.引言1.1 概述大数据存储是指存储和管理大规模数据的技术和方法。
随着大数据应用的广泛普及,数据量的快速增长给传统的存储方式带来了巨大的挑战。
为了高效地存储和处理大规模数据,人们提出了不同的存储路径。
本文将介绍三种主要的大数据存储路径,并分析它们的特点和适用场景。
第一种路径是分布式文件系统存储。
分布式文件系统是一种将数据分散存储在多个独立节点上的系统,可以提供高可靠性和高性能的数据存储服务。
这种路径适用于需要处理大容量数据的场景,可以通过横向扩展的方式增加存储容量和计算能力。
第二种路径是分布式数据库存储。
分布式数据库是一种将数据分片存储在多个节点上,并通过分布式计算和数据复制等技术实现数据一致性和高可用性的存储系统。
这种路径适用于需要频繁进行数据查询和分析的场景,可以提供高性能的数据访问能力。
第三种路径是对象存储。
对象存储通过将数据划分为独立的对象,并使用唯一的标识符进行管理和访问。
对象存储提供了高度伸缩性和可靠性的存储服务,适用于需要长期保存和管理大规模数据的场景。
通过对这三种不同的存储路径的介绍,我们可以看到它们各自具有一定的优势和适用场景。
在实际应用中,我们需要根据数据的具体特点和需求来选择最合适的存储路径,以便实现高效的数据存储和管理。
在未来的研究中,我们还可以进一步探索不同存储路径之间的融合和优化,提升大数据存储的性能和可扩展性。
1.2文章结构1.2 文章结构本文将就大数据存储的三种路径进行探讨和分析。
文章分为引言、正文和结论三个部分进行组织。
引言部分将对大数据存储的概述进行介绍,包括对大数据存储的重要性和应用范围进行说明。
同时,我们将介绍文章的结构和目的,以便读者能够清晰地了解文章的内容和意义。
正文部分将分为三个小节,分别阐述了大数据存储的三种路径。
每个小节包含路径的详细描述和关键要点的介绍。
第一种路径中,我们将详细描述这种存储路径并突出要点1的重要性。
具体而言,我们将探讨这种路径的适用性、使用方法以及可能的应用场景。
分布式存储及应用场景研究

分布式存储及应用场景研究随着互联网技术的不断发展,大量的数据不断涌入人们的视野,这些数据需求储存与处理,传统的储存与计算方式已经无法满足大数据的需求。
因此,出现了一种新的技术——分布式存储技术。
一、分布式存储技术介绍分布式存储技术,是指将数据分别存储于多个物理节点上,并通过网络连接起来,形成一个虚拟的跨网络存储集群。
由于数据分存于多个节点上,相对传统的存储方式,分布式存储技术能大大提高储存资源的效率,同时还能为用户提供更可靠、灵活的存储服务。
与传统的集中式数据存储方式比较,分布式存储技术有以下优点:1. 高效可靠。
分布式存储技术采用的是多节点的存储方式,即使某一个节点损坏或出现故障,仍然可以保证数据的完整性和可用性。
2. 灵活性强。
分布式存储可以根据实际需求动态调整存储的空间大小,在存储空间不足的情况下,还可以扩展存储节点。
3. 易扩展。
在传统的集中式存储系统中,增加存储容量需要增加物理存储设备,增加存储节点比较麻烦。
而分布式存储系统则可以通过添加节点来实现存储容量的扩展。
二、分布式存储的应用场景1. 大型分布式应用程序分布式存储技术在大型分布式应用程序中得到广泛应用,尤其是在互联网技术领域。
例如,搜索引擎页面缓存、大量数据的在线分析和处理、电商网站的日志记录等。
2. 云计算分布式存储技术是云计算的核心技术之一,它可以用于云存储和云计算平台的实现。
目前,云存储和云计算已成为互联网的主流趋势,尤其是在数据的存储、备份和恢复、以及数据处理等方面。
3. 大数据场景随着大数据技术的不断发展,分布式存储技术也越来越得到广泛的应用。
目前,大数据技术已应用于几乎所有行业中,例如科研、金融、医疗、教育等。
在大数据场景中,需要处理的数据量非常庞大,并且需要快速高效的处理,分布式存储技术能够在较短的时间内完成数据的读写操作,大大提高了数据的处理效率。
三、分布式存储的挑战1. 网络传输带宽要求高。
分布式存储系统需要采用高速的网络传输技术,保证节点之间的数据传输速度比较快,这对网络传输带宽提出了较高要求。
分布式存储解决方案

分布式存储解决方案目录一、内容概览 (2)1. 背景介绍 (3)2. 目标与意义 (3)二、分布式存储技术概述 (5)1. 分布式存储定义 (6)2. 分布式存储技术分类 (7)3. 分布式存储原理及特点 (8)三、分布式存储解决方案架构 (9)1. 整体架构设计 (10)1.1 硬件层 (12)1.2 软件层 (13)1.3 网络层 (14)2. 关键组件介绍 (15)2.1 数据节点 (16)2.2 控制节点 (18)2.3 存储节点 (19)2.4 其他辅助组件 (20)四、分布式存储解决方案核心技术 (22)1. 数据分片技术 (23)1.1 数据分片原理 (25)1.2 数据分片策略 (26)1.3 数据分片实例分析 (28)2. 数据复制与容错技术 (29)2.1 数据复制原理及策略 (31)2.2 容错机制与实现方法 (32)2.3 错误恢复过程 (34)3. 数据一致性技术 (35)3.1 数据一致性概念及重要性 (36)3.2 数据一致性协议与算法 (37)3.3 数据一致性维护与保障措施 (38)4. 负载均衡与性能优化技术 (39)4.1 负载均衡原理及策略 (41)4.2 性能优化方法与手段 (43)4.3 实例分析与展示 (43)五、分布式存储解决方案应用场景及案例分析 (44)1. 场景应用分类 (46)2. 具体案例分析报告展示 (47)一、内容概览分布式存储解决方案是一种旨在解决大规模数据存储和管理挑战的技术架构,它通过将数据分散存储在多个独立的节点上,提高数据的可用性、扩展性和容错能力。
本文档将全面介绍分布式存储系统的核心原理、架构设计、应用场景以及优势与挑战。
我们将从分布式存储的基本概念出发,阐述其相较于集中式存储的优势,如数据分布的均匀性、高可用性和可扩展性。
深入探讨分布式存储系统的关键组件,包括元数据管理、数据分布策略、负载均衡和容错机制等,并分析这些组件如何协同工作以保障数据的可靠存储和高效访问。
面向大数据分析的分布式数据库系统设计与性能优化

面向大数据分析的分布式数据库系统设计与性能优化随着大数据时代的到来,传统的关系型数据库已经无法满足对海量数据的高效处理和分析需求。
为了解决这一问题,分布式数据库系统应运而生。
分布式数据库系统采用了分布式存储和计算的方式,将数据分散存储在不同的节点上,并通过网络连接进行通信和协作,从而实现对大数据的高效管理和分析。
本文将探讨面向大数据分析的分布式数据库系统的设计原则及性能优化方法。
一、分布式数据库系统的设计原则1. 数据分布和复制策略:在设计分布式数据库系统时,需要考虑数据的分布和复制策略。
数据的分布方式可以采用水平分区或垂直分区,根据实际需求选择合适的分区键。
同时,为了提高系统的可用性和容错性,数据的复制策略也需要合理设计,可以采用主从复制或多主复制等方式。
2. 数据访问和查询优化:分布式数据库系统需要支持高效的数据访问和查询操作。
在设计系统架构时,需要考虑数据的局部性原则,将经常一起访问的数据放置在同一个节点或分片上,以减少网络通信的开销。
此外,还需要设计高效的查询优化算法,如索引优化、查询重写等,以提高查询效率。
3. 事务管理和一致性保证:分布式数据库系统需要保证事务的一致性和可靠性。
在设计系统架构时,需要采用合适的分布式事务管理协议,如二阶段提交协议或多阶段提交协议,来保证数据的一致性。
同时,还需要合理设计并发控制机制,以避免数据的冲突和不一致问题。
二、分布式数据库性能优化方法1. 并行计算和数据分区:为了提高分布式数据库系统的计算和查询性能,可以采用并行计算和数据分区的方法。
并行计算可以将数据分配到多个节点上进行并行处理,提高计算效率和响应速度;数据分区可以将数据按照某种规则分散存储在不同节点上,减少单个节点的负载压力,提高系统的可扩展性。
2. 缓存和数据预取:分布式数据库系统可以利用缓存和数据预取技术来提高数据的访问性能。
通过缓存热点数据或常用查询结果,可以减少对底层存储系统的访问,加速数据访问速度。
云计算——分布式存储

THANKS
感谢观看
云计算——分布式存储
汇报人: 2023-12-14
目录
• 分布式存储概述 • 分布式存储技术原理 • 分布式存储系统架构 • 分布式存储应用场景 • 分布式存储性能优化策略 • 分布式存储安全问题及解决方案
01
分布式存储概述
定义与特点
定义
分布式存储是一种数据存储技术,它通过将数据分散到多个独立的节点上,以 实现数据的分布式存储和访问。
云计算平台建设
01
02
03
云存储服务
分布式存储作为云计算平 台的核心组件,提供高效 、可扩展的存储服务。
云服务集成
与其他云服务(如计算、 网络、安全等)紧密集成 ,形成完整的云计算解决 方案。
自动化运维与管理
通过自动化工具实现分布 式存储系统的运维和管理 ,提高效率。
物联网数据存储与处理
实时数据采集
现状
目前,分布式存储技术已经成为了云计算领域的重要组成部 分,各大云服务提供商都提供了基于分布式存储的云存储服 务。同时,随着技术的不断发展,分布式存储的性能和稳定 性也在不断提高。
优势与挑战
优势
分布式存储具有高性能、高可用性、安全性、容错性和可维护性等优势,它可以 提供更加高效、灵活和可靠的数据存储服务,同时还可以提供更加灵活的扩展能 力,以满足不断增长的数据存储需求。
支持物联网设备实时采集 数据,并存储在分布式存 储系统中。
数据处理与分析
对物联网数据进行处理和 分析,提取有价值的信息 。
智能决策与控制
基于物联网数据分析结果 ,实现智能决策和控制, 提高生产效率。
05
分布式存储性能优化策略
数据压缩与解压缩技术
大数据存储方式概述

大数据存储方式概述在当今信息时代,大数据已经成为各行各业的重要组成部分。
随着数据量的不断增长,如何高效地存储大数据成为了一个重要课题。
本文将从不同的角度对大数据存储方式进行概述,帮助读者更好地了解大数据存储的基本原理和方法。
一、分布式文件系统存储方式1.1 Hadoop分布式文件系统(HDFS)HDFS是Apache Hadoop项目的核心组件,采用分布式存储的方式,将大文件切分成多个块存储在不同的节点上,保证数据的可靠性和高可用性。
1.2 Google文件系统(GFS)GFS是Google开发的分布式文件系统,具有高容错性和高扩展性的特点,适用于大规模的数据存储和处理。
1.3 Amazon S3Amazon S3是亚马逊提供的对象存储服务,通过简单的API接口可以实现大规模数据的存储和访问,适用于云计算环境下的大数据存储。
二、分布式数据库存储方式2.1 HBaseHBase是基于Hadoop的分布式数据库,采用列式存储的方式,适用于实时读写大规模数据的场景,具有高性能和可伸缩性。
2.2 CassandraCassandra是一个高可用的分布式数据库系统,采用分区存储和副本复制的方式,适用于分布式数据存储和处理。
2.3 MongoDBMongoDB是一个NoSQL数据库,采用文档存储的方式,适用于存储半结构化和非结构化数据,具有灵活的数据模型和高性能的特点。
三、内存数据库存储方式3.1 RedisRedis是一个高性能的内存数据库,采用键值对存储的方式,适用于缓存和实时数据处理的场景,具有快速的读写速度和持久化功能。
3.2 MemcachedMemcached是一个分布式内存对象缓存系统,适用于存储热点数据和加速数据访问,具有简单的设计和高性能的特点。
3.3 AerospikeAerospike是一个高性能的NoSQL数据库,采用内存和闪存混合存储的方式,适用于实时数据处理和高并发访问的场景,具有可扩展性和可靠性。
如何进行大数据存储和分布式计算

如何进行大数据存储和分布式计算随着互联网的快速发展,大数据的崛起已经成为了一个明确的趋势。
然而,大数据的存储和计算是一个巨大的挑战,传统的数据库已经无法满足这种规模的需求。
因此,大数据存储和分布式计算成为了解决方案。
在本文中,我们将讨论如何进行大数据存储和分布式计算。
1. 大数据存储大数据存储是指将海量的数据进行有效地组织和保存。
与传统的关系型数据库不同,大数据存储采用了分布式文件系统,如Hadoop Distributed File System(HDFS)和谷歌文件系统(GFS)。
这些分布式文件系统的特点是可靠性高、可扩展性强、容错能力强。
下面是一些常用的大数据存储技术:a. Hadoop Distributed File System(HDFS)HDFS是一个开源的分布式文件系统,它基于Google的GFS。
HDFS的设计目标是处理大规模数据集,并能在普通硬件上提供高可靠性。
HDFS采用了主从架构,在多个物理节点上存储数据的副本,以提供高容错能力。
b. NoSQL数据库除了传统的关系型数据库,NoSQL数据库也被广泛用于大数据存储。
NoSQL数据库不使用固定的模式,因此可以更好地适应动态变化的数据。
常见的NoSQL数据库有MongoDB、Cassandra等。
2. 分布式计算分布式计算是指通过多个计算机节点共同完成任务的计算方式。
大数据的计算量巨大,传统的计算方式已经无法满足需求。
下面是一些常用的分布式计算框架:a. HadoopHadoop是一个开源的分布式计算框架,它包含了分布式文件系统HDFS和分布式计算框架MapReduce。
Hadoop通过将数据和计算移动到计算节点而不是传统的数据传输到计算节点的方式,实现了高效的分布式计算。
b. SparkSpark是一个基于内存的快速通用计算系统,它与Hadoop相比,具有更高的性能和更多的功能。
Spark支持多种编程语言,如Java、Python和Scala等,可以进行更灵活的大数据处理。
数据中心中的大数据存储技术解析

数据中心中的大数据存储技术解析在当今信息时代,数据已经成为了企业和组织运营的核心资产。
数据的飞速增长催生了大数据技术的诞生,而大数据存储技术作为大数据技术的重要组成部分,扮演着关键角色。
本文将从存储架构、存储技术和挑战等方面对数据中心中的大数据存储技术进行解析。
一、存储架构数据中心中的大数据存储通常采用分布式存储架构。
分布式存储架构由多个存储节点组成,各个节点通过网络连接进行协同工作。
这种架构能够将大数据分散存储在不同的节点上,并实现数据的冗余备份,提高数据的可靠性和可用性。
在分布式存储架构中,常见的存储模式有分布式文件系统和对象存储。
分布式文件系统将数据分割成多个文件块,并存储在不同的存储节点上。
而对象存储则将数据保存为对象,并赋予每个对象唯一的标识符,以方便数据的管理和检索。
二、存储技术1. 磁盘存储技术在数据中心中,磁盘存储技术是最常见和主流的存储技术。
磁盘存储技术包括硬盘驱动器(HDD)和固态硬盘(SSD)。
HDD通过旋转磁盘和机械臂的移动实现数据的读写,而SSD则使用闪存芯片进行数据的存储和读写。
SSD相比于HDD具备更高的读写速度和更低的能耗,但成本较高。
2. 存储阵列技术存储阵列技术结合了多个存储设备,形成一个存储池。
存储阵列通过使用冗余阵列独立磁盘(RAID)等技术,提供数据的冗余备份和快速恢复功能。
此外,存储阵列还支持快照和数据压缩等功能,提高了数据的管理和存储效率。
3. 对象存储技术对象存储技术是一种将数据存储为对象进行管理的技术。
每个对象都有唯一的标识符,且对象可以包含多个数据块。
对象存储技术具备良好的可伸缩性和可靠性,能够满足大规模数据存储和管理的需求,因此在数据中心中得到广泛应用。
三、挑战与解决1. 存储性能挑战随着数据规模的不断增大,存储性能成为了数据中心中的一个重要挑战。
传统的存储技术在面对大规模数据的并发读写时,往往会出现性能 bottleneck 的问题。
解决这一问题的方法之一是采用分布式存储架构,通过增加存储节点和并行读写操作提高存储性能。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期:2018-03-27 修回日期:2018-07-31 网络出版时间:2018-12-19基金项目:国家自然科学基金创新研究群体项目(41421001);科技基础性工作专项重点项目(2013FY 110900)作者简介:唐桂文(1973-),女,博士,副教授,研究方向为数据库应用及地理信息系统㊂网络出版地址:http :// /kcms /detail /61.1450.TP.20181219.1511.030.html面向空间大数据的分布式存储策略唐桂文1,韩嘉福2,李洪省2(1.北京市西城经济科学大学,北京100035;2.中国科学院地理科学与资源研究所,北京100101)摘 要:云计算㊁物联网㊁互联网等的发展使社会进入了大数据时代,空间大数据是大数据的主体数据集之一,在国民经济和社会各领域应用广泛㊂空间大数据要发挥价值就需要在数据共享上做出突破,因此将空间大数据进行有效存储和管理是数据共享及利用所目前面临的问题㊂通过分析比较目前大数据存储的主要技术,提出了一种基于iSCSI 技术的分布式数据库和分布式文件系统相结合的空间大数据存储策略㊂采用iSCSI 技术构建分布式Oracel RAC ,完成对空间大数据中的矢量数据㊁影像和其他数据索引的存储㊂结合工作实践将这种存储策略应用到空间大数据管理中,验证了该策略的可靠性和可行性,对空间大数据的管理及应用有一定的参考价值㊂关键词:空间大数据;iSCSI 网络存储技术;分布式文件系统;分布式数据库中图分类号:TP 31 文献标识码:A 文章编号:1673-629X (2019)03-0194-04doi :10.3969/j.issn.1673-629X.2019.03.041Distributed Storage Strategy for Spatial Big DataTANG Gui -wen 1,HAN Jia -fu 2,LI Hong -sheng 2(1.Beijing Xicheng College of Economic Science ,Beijing 100035,China ;2.Institute of Geographic Sciencesand Natural Resources Research ,CAS ,Beijing 100101,China )Abstract :With the development of cloud computing ,Internet of things and Internet ,the society has entered the era of big data.As one of the main data sets of big data ,spatial big data is widely used in various fields of national economy and society.In order to give full play to the value of spatial big data ,it is necessary to make a breakthrough in data sharing.Therefore ,the effective storage and management of spatial big data is a problem currently faced by data sharing and utilization.By analyzing and comparing the main technologies of big da⁃ta storage ,we propose a spatial big data storage strategy based on iSCSI technology and distributed file system.The distributed Oracel RAC is built by iSCSI technology to complete the storage of vector data ,image and other data indexes in spatial big bined with work practice ,this storage strategy is applied to the management of spatial big data to verify its reliability and feasibility ,which has certain reference for the management and application of spatial big data.Key words :spatial big data ;iSCSI network storage technology ;distributed file system ;distributed database0 引 言现代社会已经进入了产生和使用空间大数据的时代㊂空间大数据具有数据量大㊁多源异构性㊁多时空尺度㊁多维度等特点[1],在总量上日益膨胀,使得空间大数据的存储逐渐成为一个更独立的技术问题㊂面对不断增长的空间数据利用与共享的需求,如何将这些空间大数据进行有效地存储和管理,以更好地进行数据共享,成为了一个急需解决的问题㊂针对大数据存储,目前主要技术手段有基于Ha⁃doop 云计算㊁基于NoSQL 数据库㊁基于分布式等㊂Hadoop 以其高可靠性㊁高扩展性㊁高效性和高容错性,特别是在海量的非结构化或半结构化数据上的分析处理优势[2],为大数据的处理提供了一种思路㊂但是Hadoop 使用的MapReduce 模型更适合简单的统计,无法支持更多复杂的数据分析及可视化展示㊂近年来以BigTable ㊁HBase ㊁MongoDB 为代表的NoSQL 数据库发展迅速,它采用key -value 的数据存储模式[3-5],很好地弥补了关系型数据库在海量数据存储中存在的不足,且部署过程简易㊂此类数据存储方式不用事先为数据建立字段,随时可以自由添加字第29卷 第3期2019年3月 计算机技术与发展COMPUTER TECHNOLOGY AND DEVELOPMENT Vol.29 No.3Mar. 2019段,但会增加数据结构解析难度且会产生数据冗余㊂基于分布式系统的存储方式主要有分布式数据库和分布式文件系统两大块㊂分布式数据库是数据库技术与计算机网络技术结合的产物,利用现有成熟的关系数据库技术,将数据存储于数据库中,数据可以分布在多个节点上[6],分布式数据库适用于结构化的数据存储;分布式文件系统是指网络中普通分散的存储节点组成一个逻辑集中的存储设备,存储节点之间通过网络相互通信与控制的文件系统[7-9],分布式文件系统适用于非结构化的数据存储㊂基于上述大数据的研究,文中提出一种结合分布式数据库和分布式文件系统来存储空间大数据的解决方案㊂1 空间大数据分布式存储策略提出了一种基于iSCSI(Internet small computer system interface,网络小型计算机系统接口)技术构建分布式数据库和分布式文件系统的策略㊂利用计算资源㊁网络资源㊁存储资源等构建数据库服务器集群和文件服务器集群,提供空间大数据的分布式存储环境,并分别结合iSCSI网络存储技术,构建分布式数据库和分布式文件系统,将不同类型数据以不同的数据库表或文件形式进行管理,实现对空间大数据的分布式存储㊂能够满足结构化数据与非结构化数据的存储,并且具备可扩展性,能满足动态无限增长数据的存储㊁查询及分析等需求㊂1.1 iSCSI网络存储技术iSCSI是工作在TCP/IP之上的SCSI传输协议, SCSI是块数据传输协议,在存储行业应用广泛,是存储设备最基本的标准协议[10]㊂iSCSI将现有的SCSI 接口与以太网技术相结合,使同一个网络上的多种操作系统平台的服务器可以与使用TCP/IP网络的存储设备互相交换存储资料[11]㊂iSCSI的体系结构是基于发起端/目标端模式,发起端将SCSI命令和数据封装到TCP/IP包中,再通过网络转发,目标端接收到TCP/IP包之后,将其还原为SCSI命令和数据并执行,完成之后将返回的SCSI命令和数据再封装到TCP/IP 包中,再传送回发起端㊂其体系结构如图1所示㊂图1 iSCSI体系结构1.2 分布式文件系统存储技术分布式文件系统管理的物理存储资源是通过计算机网络与计算节点相连,每个计算节点可以分布在不同的地点,通过网络进行节点间的通信和数据传输㊂存储节点也可以分布在不同的地点,其中的存储资源可以是本地硬盘或通过虚拟技术提供的网络块存储设备㊂其架构如图2所示㊂图2 分布式文件系统架构1.3 空间大数据分布式存储策略采用分布式数据库存储矢量数据㊁影像和其他数据索引,分布式文件系统存储影像及其他数据,实现对空间大数据的分布式存储㊂矢量数据的传统存储方式有文件㊁文件与数据库混合㊁数据库等集中式模式[12]㊂随着矢量数据规模的不断增大,单节点的处理能力会逐渐成为瓶颈,单点故障的问题也逐渐变得严重㊂Oracle RAC作为Oracle 提供的一个并行集群系统[13],具有两个或两个以上的数据库节点协调运作能力,可提供强大的数据库处理能力㊂该集群系统中所有数据库服务器采用共享磁盘的方式共享事务与数据,其实现方式有多种,其中最常用的是磁盘阵列,但磁盘阵列价格昂贵,对存储设备的性能要求较高㊂文中采用iSCSI技术构建分布式Ora⁃cle RAC,可将分散的普通服务器的存储设备集中起来,创建数据库共享磁盘,实现分布式数据库,完成对空间大数据中矢量数据㊁影像和其他数据索引的存储㊂在存储节点的服务器上使用iSCSI技术将存储资源通过网络输送到Oracle RAC计算节点,再利用Ora⁃cle RAC将存储资源创建成共享磁盘并进行管理,集群内部自动实现分布式存储设备的维护㊂通过配置共享存储管理空间大数据,在计算节点上分别创建数据库实例,节点之间通过网络通讯,相互监控其他节点状态,所有节点都可以读取数据㊂其架构如图3所示㊂影像及其他数据作为空间大数据的组成之一,具有单个文件大,且整体数据量大的特点,对设备的容量有较大需求,其存储方式由传统的集中式发展到目前的分布式文件系统㊂常见的分布式文件系统包括NFS㊁AFS㊁CODA㊁GFS等[14],这些分布式文件系统一般需要在Linux操作系统下搭建,而大多数的空间数据应用都在Windows平台下㊂文中利用iSCSI技术构建分布式文件系统来存储影像及其他数据,能够充分利用㊃591㊃ 第3期 唐桂文等:面向空间大数据的分布式存储策略零散的存储空间,实现跨平台的分布式文件系统㊂图3 基于iSCSI技术的分布式数据库架构 在分布式文件系统的主服务器节点上通过挂载分布式集群,使用文件共享服务软件为选定的目录建立网络共享,将存储空间提供出来,以供网络内的其他服务器进行共享访问,就像访问本地文件一样访问数据㊂在分布式文件系统架构中影像及其他数据存储在各个节点上,数据能根据相应的规则进行分布㊂影像及其他数据的索引数据存储在分布式数据库中,与存储在分布式文件系统中的数据本身建立联系㊂1.4 空间大数据管理系统基于上述空间大数据分布式存储的策略,设计了一套空间大数据管理系统㊂该系统按照四层架构设计,分为基础设施层㊁数据资源层㊁组件服务层和系统应用层㊂总体架构如图4所示㊂图4 空间大数据管理系统总体架构 (1)基础设施层:是支撑整个系统的基础设施,主要包含计算资源㊁存储资源㊁网络资源以及安全设备等基础设施资源㊂(2)数据资源层:是整个系统的数据资源层,提供数据的存储和管理能力㊂数据资源层基于数据库服务集群,实现空间大数据的快速存取与高效计算,满足空间时空信息浏览㊁高效分析处理与应用的需求㊂(3)组件服务层:是系统基本服务能力的体现,通过功能组件和服务接口向上能支撑应用层的应用构建,向下通过统一数据访问接口能操作数据层的数据资源㊂(4)系统应用层:基于组件服务层提供的功能组件和服务接口,面向桌面端㊁Web端,面向不同接入模式进行应用构建㊂其中桌面应用主要包括数据更新维护㊁系统安全管理等,Web应用主要包括二三维数据浏览㊁信息查询检索㊁成果数据展示等㊂2 试验案例2.1 数据准备与分布式环境搭建选用某地区的空间数据作为试验数据,包括高低空遥感获取的影像数据㊁导航定位数据㊁外业实测数据㊁社会经济专题数据㊁从基础测绘成果提取与整合的㊃691㊃ 计算机技术与发展 第29卷数据等,涉及测绘㊁国土㊁交通㊁水文㊁林业㊁电力㊁医疗等多种行业㊂该试验数据体现了数据量大㊁多源异构性㊁多时空尺度㊁多维度等特点㊂数据总量约35.0 TB,矢量数据约117GB,共48个图层,表1列出了其中8个要素多㊁结构复杂的图层;影像及其他数据约34.9TB,包括351GB的DEM㊁33.8TB的DOM,769 GB的图片㊁文档㊁表格等其他数据㊂表1 要素多、结构复杂的8个矢量图层图层要素数量/万条数据量/GB字段数/个道路2289.518水系1698.220居民地2139.314管线682.99境界151.215植被33715.111地貌1938.412等高线60832.414 采用两台服务器构建分布式数据库系统;一台服务器作为分布式文件系统的主节点,十台服务器作为分布式文件系统的子节点,构建分布式文件系统;一台计算机作为系统运行的客户端㊂2.2 试验评价基于上述试验数据和分布式环境,开发了一套空间大数据管理系统㊂该系统能够有效完成矢量㊁影像数据的入库,浏览展示,数据投影变换㊁格式转换等处理,空间数据提取及制图等操作㊂基于该管理系统,分别在单节点和集群环境下进行了矢量数据入库㊁影像数据入库㊁矢量数据浏览展示的耗时试验,结果如表2所示㊂表2 耗时试验结果测试内容数据量节点数耗时矢量数据入库300000个要素119.5s 211.3s影像数据入库3.6TB 12h 51.4h 1150min矢量数据浏览展示300000个要素114.2s 29.1s 试验结果表明,分布式环境下的数据入库与浏览效率远高于单节点环境;并且通过连接更多的计算节点,能够有效提升数据的入库效率,性能得到了明显提升,有助于提高空间数据的分析能力,解决复杂计算的性能瓶颈㊂综上所述,该策略能通过网络分布式连接多台普通计算机设备,利用已有的分散的普通计算资源,完成对空间大数据的有效存储㊂通过这种方式使管理系统具备灵活的分布式体系结构,支持存储资源的动态无缝扩展,能够满足日益增长的数据存储需求㊁数据二维和三维可视化及复杂空间分析,并且降低了硬件成本㊂3 结束语从空间大数据的存储㊁应用方面出发,基于iSCSI 技术实现了成本低㊁技术成熟㊁高稳定性的分布式数据库和分布式文件系统㊂今后的工作中需要从空间大数据大规模并发访问㊁并行空间计算㊁空间大数据的数据挖掘㊁时空数据管理等角度出发,研究一种更加适用于空间大数据的存储管理机制㊂参考文献:[1] 尤文辰,徐跃通,高 尚.浅析GIS大数据[J].电脑知识与技术,2013,9(24):5399-5402.[2] 李 燕.Hadoop架构下地理信息存储与计算关键技术研究[D].青岛:中国海洋大学,2015.[3] 李邵俊,杨海军,黄耀欢,等.基于NoSQL数据库的空间大数据分布式存储策略[J].武汉大学学报:信息科学版, 2017,42(2):163-169.[4] HUANG Yu,LUO Tiejian.NoSQL database:a scalable,a⁃vailability,high performance storage for big data[M].[s.l.]:Springer International Publishing,2014.[5] 肖 凌,刘继红,姚建初.分布式数据库系统的研究与应用[J].计算机工程,2001,27(1):33-35.[6] ALBANI S,GIARETTA D.Long-term preservation of earthobservation data and knowledge in ESA through CASPARlong-term preservation of earth observation data and knowl⁃edge in ESA through CASPAR[J].International Journal ofDigital Curation,2009,4(3):4-16.[7] 王旭东.面向海量遥感影像数据的分布式文件系统管理技术研究[D].兰州:兰州交通大学,2012.[8] LEVY E,SILBERSCHATZ A.Distributed file systems:con⁃cepts and examples[J].ACM Computing Surveys,1990,22(4):321-374.[9] ZHU Yifeng,JIANG Hong,WANG Jun,et al.HBA:distribu⁃ted metadata management for large cluster-based storagesystems[J].IEEE Transactions on Parallel&DistributedSystems,2008,19(6):750-763.[10]张 立,徐学雷.iSCSI技术在数字图书馆中的应用研究[J].现代图书情报技术,2005(9):14-16. [11]METH K Z,SATRAN J.Design of the iSCSI protocol[C]//20th IEEE/11th NASA goddard conference on mass storagesystems and technologies.San Diego,CA,USA:IEEE,2003: 116-122.[12]王福涛,李景文,李占元.GIS空间数据表达与存储研究综述[J].中国水运,2006,6(11):139-141. [13]闫 黎.基于Oracle RAC的数据库架构分析与企业应用[J].计算机系统应用,2013,22(11):200-203. [14]薛 伟.分布式文件系统关键技术研究与实现[D].合肥:中国科学技术大学,2011.㊃791㊃ 第3期 唐桂文等:面向空间大数据的分布式存储策略。