25第7章常见的分布式存储

合集下载

卫星资源利用的挑战与应对策略

卫星资源利用的挑战与应对策略作者：张玲来源：《无线互联科技》2023年第24期摘要：随着科学技术的发展与社会的进步，卫星资源的开发和利用已经成为我国社会经济发展与日常生活中不可或缺的因素。

需要不断加强对卫星资源与技术的开发与应用，使卫星资源的利用更加高效，从而为国家安全和国民经济的飞速发展提供重要支撑。

文章讨论了卫星资源利用所面临的挑战以及应对策略，并通过应用案例分析，验证了方法的有效性，旨在为提高卫星资源利用效率提供有益的思路和方法。

关键词：卫星资源；利用效率；挑战；实践分析中图分类号：TN927 文献标志码：A0 引言随着科技的不断发展，卫星资源的利用效率成了一个重要议题。

卫星资源的有效利用可以提高通信的质量和速度，提供更准确的导航服务，可以更好地监测和预测天气变化和地球环境。

因此，提高卫星资源的利用效率对于现代社会的发展至关重要。

1 卫星资源利用面临的挑战1.1 卫星任务规划和调度的复杂性卫星系统需要根据用户需求和任务要求，合理安排卫星的轨道、姿态和通信资源等，以实现卫星的最优利用。

然而，由于卫星系统的复杂性和用户需求的动态性，卫星任务规划和调度变得非常复杂。

需要考虑的因素包括卫星的轨道参数、通信链路的质量、任务的优先级和时效性等。

如何在有限的资源条件下，合理分配卫星任务，以最大限度地满足用户需求，是一个具有挑战性的问题。

为了解决这个问题，需要开发高效的任务规划和调度算法，并结合实时数据和用户反馈进行动态调整。

1.2 卫星数据处理和传输面临的挑战1.2.1 数据处理的计算量与存储量大卫星收集的数据量庞大，包括图像、视频、传感器数据等，需要进行复杂的处理和分析，以提取有用的信息。

这些数据可能需要进行图像处理、模式识别、数据挖掘等算法操作，需要高性能的计算设备来支持。

同时，由于数据量大，需要大容量的存储设备来存储和管理数据。

然而，卫星资源有限，无法提供足够的计算和存储能力，这就限制了数据处理的效率和速度。

分布式存储的策略

分布式存储是指将数据分散存储在多个节点上，以提高数据的可用性和容错性。

以下是一些常见的分布式存储策略：
1. 数据分片
数据分片是将数据分散存储在多个节点上的一种策略。

数据分片可以通过哈希算法将数据分散到不同的节点上，也可以按照数据的大小进行分片。

数据分片可以提高数据的可用性和容错性，但也会增加数据的读写延迟。

2. 冗余备份
冗余备份是将数据备份到多个节点上的一种策略。

通过冗余备份，可以保证数据的可靠性和可用性。

当某个节点发生故障时，备份节点可以顶替原节点继续提供服务。

冗余备份也可以提高数据的读写性能。

3. 副本复制
副本复制是将数据复制到多个节点上的一种策略。

通过副本复制，可以保证数据的可靠性和可用性。

当某个节点发生故障时，副本节点可以顶替原节点继续提供服务。

副本复制也可以提高数据的读写性能。

4. 分片复制
分片复制是将数据分片后，将每个分片复制到多个节点上的一种策略。

通过分片复制，可以提高数据的可用性和容错性。

当某个分片发生故障时，备份分片可以顶替原分片继续提供服务。

5. 多副本同步
多副本同步是将数据副本同步到多个节点上的一种策略。

通过多副本同步，可以保证数据的一致性。

当某个节点发生故障时，备份节点可以顶替原节点继续提供服务。

多副本同步也可以提高数据的读写性能。

总之，分布式存储的策略需要根据具体的应用场景和需求来选择。

不同的策略有不同的优缺点，需要综合考虑。

分布式存储技术及应用介绍

根据did you know(/)的数据，目前互联网上可访问的信息数量接近1秭= 1百万亿亿 (1024)。

毫无疑问，各个大型网站也都存储着海量的数据，这些海量的数据如何有效存储，是每个大型网站的架构师必须要解决的问题。

分布式存储技术就是为了解决这个问题而发展起来的技术，下面让将会详细介绍这个技术及应用。

分布式存储概念与目前常见的集中式存储技术不同，分布式存储技术并不是将数据存储在某个或多个特定的节点上，而是通过网络使用企业中的每台机器上的磁盘空间，并将这些分散的存储资源构成一个虚拟的存储设备，数据分散的存储在企业的各个角落。

具体技术及应用：海量的数据按照结构化程度来分，可以大致分为结构化数据，非结构化数据，半结构化数据。

本文接下来将会分别介绍这三种数据如何分布式存储。

结构化数据的存储及应用所谓结构化数据是一种用户定义的数据类型，它包含了一系列的属性，每一个属性都有一个数据类型，存储在关系数据库里,可以用二维表结构来表达实现的数据。

大多数系统都有大量的结构化数据，一般存储在Oracle或MySQL的等的关系型数据库中，当系统规模大到单一节点的数据库无法支撑时，一般有两种方法：垂直扩展与水平扩展。

∙垂直扩展：垂直扩展比较好理解，简单来说就是按照功能切分数据库，将不同功能的数据，存储在不同的数据库中，这样一个大数据库就被切分成多个小数据库，从而达到了数据库的扩展。

一个架构设计良好的应用系统，其总体功能一般肯定是由很多个松耦合的功能模块所组成的，而每一个功能模块所需要的数据对应到数据库中就是一张或多张表。

各个功能模块之间交互越少，越统一，系统的耦合度越低，这样的系统就越容易实现垂直切分。

∙水平扩展：简单来说，可以将数据的水平切分理解为按照数据行来切分，就是将表中的某些行切分到一个数据库中，而另外的某些行又切分到其他的数据库中。

为了能够比较容易地判断各行数据切分到了哪个数据库中，切分总是需要按照某种特定的规则来进行的，如按照某个数字字段的范围，某个时间类型字段的范围，或者某个字段的hash值。

分布式存储解决方案

分布式存储解决方案目录一、内容概览 (2)1. 背景介绍 (3)2. 目标与意义 (3)二、分布式存储技术概述 (5)1. 分布式存储定义 (6)2. 分布式存储技术分类 (7)3. 分布式存储原理及特点 (8)三、分布式存储解决方案架构 (9)1. 整体架构设计 (10)1.1 硬件层 (12)1.2 软件层 (13)1.3 网络层 (14)2. 关键组件介绍 (15)2.1 数据节点 (16)2.2 控制节点 (18)2.3 存储节点 (19)2.4 其他辅助组件 (20)四、分布式存储解决方案核心技术 (22)1. 数据分片技术 (23)1.1 数据分片原理 (25)1.2 数据分片策略 (26)1.3 数据分片实例分析 (28)2. 数据复制与容错技术 (29)2.1 数据复制原理及策略 (31)2.2 容错机制与实现方法 (32)2.3 错误恢复过程 (34)3. 数据一致性技术 (35)3.1 数据一致性概念及重要性 (36)3.2 数据一致性协议与算法 (37)3.3 数据一致性维护与保障措施 (38)4. 负载均衡与性能优化技术 (39)4.1 负载均衡原理及策略 (41)4.2 性能优化方法与手段 (43)4.3 实例分析与展示 (43)五、分布式存储解决方案应用场景及案例分析 (44)1. 场景应用分类 (46)2. 具体案例分析报告展示 (47)一、内容概览分布式存储解决方案是一种旨在解决大规模数据存储和管理挑战的技术架构，它通过将数据分散存储在多个独立的节点上，提高数据的可用性、扩展性和容错能力。

本文档将全面介绍分布式存储系统的核心原理、架构设计、应用场景以及优势与挑战。

我们将从分布式存储的基本概念出发，阐述其相较于集中式存储的优势，如数据分布的均匀性、高可用性和可扩展性。

深入探讨分布式存储系统的关键组件，包括元数据管理、数据分布策略、负载均衡和容错机制等，并分析这些组件如何协同工作以保障数据的可靠存储和高效访问。

分布式存储参数

17
对象存储桶支持多版本，开启多版本后，桶中的对象都以多版本形式存储。
18
对象存储多中心同步动态感知，支持多中心动态感知功能，能够展示对象存储主站点的业务情况，和实时同步速率；（要求提供界面截图）
19
配置多数据中心部署，通过设置策略可实现多中心的对象数据进行同步或异步复制，当某中心故障，其它数据中心可实现自动接管，保障业务的连续性。当故障中心修复可实现数据反同步，保障数据一致性。多中心可实现统一管理运维。（提供具备CNAS(中国合格评定国家认可委员会)资质的第三方权威评测机构签字盖章的测试报告）
产品参数
类别
序号
参数要求
基本要求
1
国内知名品牌，非OEM产品，非联合产品。拥有自主知识产权，能够提供分布式存储授权软件的自主知识产权证书
2
采用控制器集群全对称冗余架构设计，无独立元数据节点。性能随节点数量的增加而近线性提升。提供多控制器负载均衡及故障自动切换功能。
3
★实配统一容量授权，容量授权不区分块、文件、对象存储服务。要求可灵活分配容量授权到不同存储需求。
配置要求
8
存储节点，本次配置≥4个存储节点；
9
高速缓存，要求至少配置单控制器≥64GB。
10
系统支持千兆、10GE、40GE主机接口，本次要求每个存储节点配置4个千兆口，4个10GE接口（含光模块）。
11
要求每节点配置2块128GB企业级SSD，x块xTB 企业级SSD，x块xT 企业级SATA磁盘。
25
支持Qos功能，可以设置不同用户访问某个bucket的带宽/请求数
26
支持多数据中心部署，统一管理各地数据中心集群，实现数据同步存储；（提供具备CNAS(中国合格评定国家认可委员会)资质的第三方权威评测机构签字盖章的测试报告）

分布式存储冗余策略

分布式存储冗余策略
分布式存储冗余策略是指在分布式存储系统中，为了确保数据的可靠性和可用性而采取的数据冗余措施。

常见的分布式存储冗余策略有以下几种：
1. 副本冗余：将数据在不同节点上进行副本存储，当某个节点发生故障时，可以从其他节点上获取副本数据继续访问。

副本冗余的优点是简单、易于实现，但需要消耗较多的存储空间。

2. 擦写码冗余：通过冗余编码算法将原始数据切分成多个数据块，并将数据块分布在不同节点上存储。

当某个节点发生故障时，可以通过擦除码算法恢复出缺失数据块。

擦写码冗余的优点是可以有效地降低存储空间的消耗，但需要进行复杂的冗余编码和解码操作。

3. 纠删码冗余：类似于擦写码冗余，通过纠删码算法将原始数据切分成多个数据块，并将数据块分布在不同节点上存储。

当某个节点发生故障时，可以通过纠删码算法恢复出缺失数据块。

纠删码冗余的优点是可以更灵活地选择冗余系数，从而提供更高的数据可靠性和容错能力。

4. RAID冗余：RAID（Redundant Array of Independent Disks）是一种硬件级别的冗余技术，通过将数据在多个独立磁盘上进行分布存储和冗余存储，实现数据的可靠性和可用性。

RAID冗余的优点是可以提供快速的数据访问速度和较高的容错能力，但需要专门的硬件支持。

以上是常见的分布式存储冗余策略，不同的策略适用于不同的应用场景和性能要求。

在实际应用中，通常会根据实际需求进行选择和组合使用。

分布式存储——精选推荐

分布式存储⽬录分布式系统理论基础什么是分布式系统,这个概念我们很难⽤⼀个精准的描述⽅式来概括出,所有的意义来。

但⼤体上来讲，我们可以从两个层⾯来描述⼀个分布式系统的特性。

第⼀，分布式系统⼀定是,他有很多种组1、系统的各组件分布于⽹络上多个计算机2、各组件彼此之间仅仅通过消息传递来通信并协调⾏动分布式系统存在的意义：那⼀般⽽⾔，我们要使⽤分布式系统的主要原因在于，第⼀，我们系统扩展可以有两种模型。

所谓向上和向外对不对，⽽经验表明，向上扩展的这种模型，他的性价⽐越来越低。

第⼆，单机1、向上扩展的性价⽐越来越低；2、单机扩展存在性能上升临界点：3、出于稳定性及可⽤性考虑，单机会存在多⽅⾯的问题CPU，内存，IO要想理解分布式系统所能够带给我们的意义，分布式系统的⽬的，主要是扩展了单机处理能⼒的弱势，或者说瓶颈。

我们计算机主要包含五⼤部件，根据所谓的冯诺依曼架构所构成的系统，多CPU,多线程编程假设刚开始使⽤的是LAMP或者LNMP。

最简单的时候就是这么⼀种架构。

⽽且还有可能是构建在单机上。

所以我们的⽹站刚开始的时候有可能只有⼀台主机。

⼀个主机内部有⼀个所谓的ap LAMP,LNMP应⽤从资源占⽤的⾓度分两类：CPU Bound（CPU密集型应⽤）IO Bound（IO密集型应⽤）session sticky（会话粘滞，基于IP地址的session粘滞）ip basedcookie based（基于cookie的session分发）session replication（会话复制，不是⽤⼤规模集群中，所以使⽤第3种。

）session server（session集中存储）引出缓存：1、页⾯缓存varnish, squid2、数据緩存key-value（memcached）主库写操作压⼒：数据库拆分垂直拆分：把数据库中不同的业务的数据拆分到不同的数据库服务器中⽔平拆分，把⼀个单独的表中的数据拆分到多个不同的数据库服务器上NoSQL：⾮关系数据⽂档数据库列式数据库... ...SFS：⾮结构化数据TFS，MogileFS：适⽤于存储海量⼩⽂件。

一文看懂分布式存储架构，这篇分析值得收藏

⼀⽂看懂分布式存储架构，这篇分析值得收藏【摘要】本⽂介绍了分布式存储的架构类型、分布式理论、不同的分布式⽂件系统和分布式键值系统等，较为系统详尽，可阅读收藏。

【作者】Rock，⽬前担任某国内著名餐饮连锁企业运维负责⼈，从事过数据库、⼤数据和容器集群的⼯作，对DevOps流程和⼯具⽅⾯有⽐较深刻的理解。

⼀、集中存储结构说到分布式存储，我们先来看⼀下传统的存储是怎么个样⼦。

传统的存储也称为集中式存储，从概念上可以看出来是具有集中性的，也就是整个存储是集中在⼀个系统中的，但集中式存储并不是⼀个单独的设备，是集中在⼀套系统当中的多个设备，⽐如下图中的 EMC 存储就需要⼏个机柜来存放。

在这个存储系统中包含很多组件，除了核⼼的机头（控制器）、磁盘阵列（ JBOD ）和交换机等设备外，还有管理设备等辅助设备。

结构中包含⼀个机头，这个是存储系统中最为核⼼的部件。

通常在机头中有包含两个控制器，互为备⽤，避免硬件故障导致整个存储系统的不可⽤。

机头中通常包含前端端⼝和后端端⼝，前端端⼝⽤户为服务器提供存储服务，⽽后端端⼝⽤于扩充存储系统的容量。

通过后端端⼝机头可以连接更多的存储设备，从⽽形成⼀个⾮常⼤的存储资源池。

在整个结构中，机头中是整个存储系统的核⼼部件，整个存储系统的⾼级功能都在其中实现。

控制器中的软件实现对磁盘的管理，将磁盘抽象化为存储资源池，然后划分为 LUN 提供给服务器使⽤。

这⾥的 LUN 其实就是在服务器上看到的磁盘。

当然，⼀些集中式存储本⾝也是⽂件服务器，可以提供共享⽂件服务。

⽆论如何，从上⾯我们可以看出集中式存储最⼤的特点是有⼀个统⼀的⼊⼝，所有数据都要经过这个⼊⼝，这个⼊⼝就是存储系统的机头。

这也就是集中式存储区别于分布式存储最显著的特点。

如下图所⽰：⼆、分布式存储分布式存储最早是由⾕歌提出的，其⽬的是通过廉价的服务器来提供使⽤与⼤规模，⾼并发场景下的 Web 访问问题。

它采⽤可扩展的系统结构，利⽤多台存储服务器分担存储负荷，利⽤位置服务器定位存储信息，它不但提⾼了系统的可靠性、可⽤性和存取效率，还易于扩展。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

目录
Contents
01 HDFS分布式存储 02 实验24：HDFS搭建和使用 03 GlusterFS分布式存储 04 实验25:GlusterFS搭建和使用 05 Lustre分布式存储
06 实验26：Lustre搭建和使用 07 MooseFS分布式存储
08 实验27：MooseFS搭建和使用 09 Ceph分布式存储 10 实验28：Ceph搭建和使用
熟练掌握GlusterFS文件的挂载。
二、实验内容
GlusterFS实验流程图
三、实验步骤
详细操作步骤见本书提供的操作视频。
05
Lustre分布式存储
HDFS 架构
HDFS 架构
Lustre集群组件包含了MDS（元数据服务器）、MDT（元数据存储节点）、OSS（对象存储服务器）、OST（对象存储节点）、Client（客户端），以及连接这些组件的高速网络，如图所示。（1）MDS（元数据服务器）提供元数据服务。MDS负责管理元数据，提供一个全局的命名空间，Client可以通过MDS读取到保存于MDT之上的元数据。在Lustre中MDS可以有2个，采用了Active-Standby的容错机制，当其中一个MDS不能正常工作时，另外一个后备MDS可以启动服务。（2）MGS（管理服务器）提供Lustre文件系统的配置信息。（3）OSS（对象存储服务器）Expose块设备并提供数据。接受并服务来自网络的请求。（4）MDS/MGS和OSS/OST的集合有时称为Lustre服务前端（Lustreserver Fronts），而Fsfilt和Ldiskfs则被称为Lustre服务后端（Luster Server Backends）。
二、实验内容
实验架构图
【实验24】：HDFS搭建和使用
二、实验内容
如上图所示，在 node-1 、 node-2 、 node-3 上部署 HDFS 文件系统，其中
NameNode部署在node-1节点上，Secondarynamenode部署在node-2节点上，单节点DataNode部署在node-3节点上，启动集群，进行集群的维护，进行简单的文件上传、查看操作。
三、实验步骤
详细操作步骤见本书提供的操作视频。
03
GlusterFS分布式存储
GlusterFS架构
HDFS 架构
04
GlusterFS搭建和使用
【实验25】：GlusterFS搭建和使用
一、实验目的
了解GlusterFS架构原理及其组件功能。
通过实验掌握GlusterFS文件系统的安装、配置和集群管理。
01
HDFS分布式存储
HDFS简介
HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集（ Large Data Set）的应用处理带来了很多便利。
接收客户端的读写请求，NN中保存文件的Metadata数据(元数据是最重要的,元数据丢失的话，Datenode也就丢失)包括除文件内容外的文件信息。（2） SNN节点功能
它的主要工作是帮助NN合并Edits Log,减少NN启动时间,另一方面合并会有大量的 IO操作,但是NN最主要的作用是接收用户的读写服务的,所以大量的资源不能用来进行合并操作。（3）
06
Lustre搭建和使用
【实验26】：Lustre搭建和使用
一、实验目的
了解Lustre架构原理及其组件功能。实验掌握Lustre文件系统的安装、配置和集群管理。熟练掌握Lustre文件的挂载。
二、实验内容
【实验26】：Lustre搭建和使用
二、实验内容
在3个节点node-1、node-2、node-3分别留有sdb空白硬盘，大小为20Gb,其中
HDFS优点：高容错性，适合批处理，可构建在廉价机器上。 HDFS缺点：低延迟数据访问，小文件存取。
架构
HDFS 架构
HDFS包含3种节点，NameNode(NN)，Secondary NameNode(SNN)， DataNode(DN)。以下分别介绍各个节点的功能: (1) NN节点功能
3
node-3
192.168.1.104/24
4
node-4
192.168.1.105/24
三、实验步骤
角色 MDT MDS OST（sdb 20GB） OST（sdb 20GB）测试 Client
详细操作步骤见本书提供的操作视频。
07
MooseFS分布式存储
MooseFS架构
MooseFS架构
node-1节点为MDS索引服务器，node-2、node-3为OSD底层提供存储的服务器，
node-4为测试客户端，通过安装、配置相关服务，启动集群，在node-4上面挂载实现
Lustre文件系统，各机器名、网络配置、角色分配如下：
节点号 1 2
主机名 node-1 node-2
网络 IP 地址/掩码 192.168.1.102/24 192.168.1.103/24
MFS整体架构的四种角色：（1）Master（元数据服务器）：这个组件的角色是管理整个MFS文件系统的主服务器，除了分发用户请求外，还用来存储整个文件系统中的每个数据文件的 Metadata 信息， Metadata（元数据）信息包括文件（也可以是目录、Socket、管道、设备等）的大小、属性、文件位置路径等，以及文件空间的回收和恢复，控制多Chunk Server节点的数据拷贝。（2）Metalogger（元数据日志服务器）：这个组件的作用是备份管理服务器Master的变化的Metadata信息日志文件，文件类型为Changelog_Ml.*.MFS，以便于在主服务器出现问题的时候，可以经过简单的操作即可让新主服务器进行工作。（3）Chunk（数据存储服务器）：这个组件就是真正存放数据文件实体的服务器了，这个角色可以有多台不同的物理服务器或不同的磁盘及分区来充当，当配置数据的副本多于
存储数据，启动DN线程的时候向NN汇报Block信息；通过向NN发送心跳保持与其联系(3秒1次),如果NN10分钟没有收到DN心跳,则认为其Lost,并Copy其上的Block到其他
HDFS如何读数据
HDFS如何写数据
02
HDFS搭建和使用
【实验24】：HDFS搭建和使用
一、实验目的
了解HDFS架构原理及其组件功能。通过实验掌握HDFS文件系统的安装、配置和集群管理。熟练掌握常见的HDFS运行管理命令行的使用。