3种分布式文件系统

合集下载

大数据存储方式概述

大数据存储方式概述标题：大数据存储方式概述引言概述：随着信息技术的不断发展，大数据已经成为当今社会中一个重要的信息资源。

为了有效管理和利用大数据，各种存储方式应运而生。

本文将就大数据存储方式进行概述，帮助读者更好地了解大数据存储的相关知识。

一、分布式文件系统存储方式1.1 HDFS（Hadoop分布式文件系统）：HDFS是Apache Hadoop项目中的一个分布式文件系统，适用于存储大规模数据，并且具有高可靠性和高扩展性。

1.2 GFS（Google文件系统）：GFS是Google开发的分布式文件系统，采用主从架构，能够有效地处理大规模数据的存储和访问。

1.3 Ceph：Ceph是一个开源的分布式存储系统，具有高可用性和高性能，支持对象存储、块存储和文件系统存储。

二、NoSQL数据库存储方式2.1 MongoDB：MongoDB是一种面向文档的NoSQL数据库，适用于存储半结构化数据，并且具有高性能和可扩展性。

2.2 Cassandra：Cassandra是一个高度可扩展的NoSQL数据库，适用于分布式存储大规模数据，并且支持高可用性和容错性。

2.3 Redis：Redis是一个开源的内存数据库，适用于缓存和实时数据处理，具有快速的读写速度和高性能。

三、列式数据库存储方式3.1 HBase：HBase是一个基于Hadoop的列式数据库，适用于存储大规模结构化数据，并且支持高可用性和高性能。

3.2 Vertica：Vertica是一种高性能列式数据库，适用于数据仓库和实时分析，具有快速的查询速度和高压缩比。

3.3 ClickHouse：ClickHouse是一个开源的列式数据库，适用于实时分析和数据仓库，具有高性能和可扩展性。

四、云存储方式4.1 AWS S3（Amazon Simple Storage Service）：AWS S3是亚马逊提供的云存储服务，适用于存储大规模数据，并且具有高可靠性和安全性。

大数据存储方式概述

大数据存储方式概述概述：随着信息技术的快速发展，大数据已经成为当今社会中不可忽视的重要资源。

然而，大数据的存储方式对于数据的管理和分析起着至关重要的作用。

本文将对大数据存储方式进行概述，介绍常见的几种存储方式及其特点。

一、分布式文件系统分布式文件系统是一种将文件划分为多个块并存储在不同的节点上的存储方式。

它具有高可靠性、高可扩展性和高吞吐量的特点。

常见的分布式文件系统包括Hadoop分布式文件系统（HDFS）和谷歌文件系统（GFS）。

这些系统通过将数据划分为多个块并在多个节点上进行冗余存储，实现了数据的高可靠性和高可用性。

二、列式存储列式存储是一种将数据按列存储的方式。

相比于传统的行式存储方式，列式存储在大数据场景下具有更高的压缩率和查询效率。

它适合于需要对大量数据进行聚合和分析的场景。

常见的列式存储系统包括Apache Parquet和Apache ORC。

三、内存数据库内存数据库是一种将数据存储在内存中的数据库系统。

相比于传统的磁盘存储方式，内存数据库具有更快的读写速度和更低的延迟。

它适合于对实时性要求较高的应用场景，如实时分析和实时推荐系统。

常见的内存数据库包括Redis和Memcached。

四、NoSQL数据库NoSQL数据库是一种非关系型数据库，它适合于存储大规模非结构化和半结构化数据。

NoSQL数据库具有分布式、高可扩展和高性能的特点。

常见的NoSQL数据库包括MongoDB、Cassandra和HBase。

五、对象存储对象存储是一种将数据以对象的形式存储的方式。

每一个对象包含数据、元数据和惟一标识符。

对象存储适合于存储海量的非结构化数据，如图象、音频和视频等。

常见的对象存储系统包括Amazon S3和OpenStack Swift。

六、混合存储混合存储是一种将数据同时存储在内存和磁盘中的存储方式。

它兼具内存数据库的高性能和磁盘存储的持久性。

混合存储适合于对读写性能和数据安全性要求较高的应用场景。

第3章分布式文件及数据库系统

– 每一个文件具有唯一的逻辑地址，每一个文件副本对应一个物理地址
26/20
名字服务器
• 文件服务器管理
– 动态管理文件服务器
• 添加、删除文件服务器
– 指导文件服务器进行文件备份
• 同一个文件在两台文件服务器中保存副本
– 实时获取文件服务器信息
• 剩余空间、负载
– 文件服务器选择策略:剩余空间+负载
3.3.2 分布式数据库系统的定义
分布式数据库包含两个重要组成部分：分布式数据库（DDB）和分布式数据库管理系统（DDBMS）。分布式数据库是计算机网络环境中各场地上数据库的逻辑集合。分布式数据库管理系统是分布式数据库系统中的一组软件，它复杂管理分布环境下逻辑集成数据的存取、一致性、有效性和完备性。
28/20
文件的传输
• 文件服务器：监控管理程序
– 监控文件服务器信息，提供当前的磁盘空间等资源信息 – 响应删除文件命令，删除文件服务器上的文件 – 响应备份命令，将本地文件备份到另一文件服务器上
• 客户端使用的工具包
– 上传文件、下载文件、删除文件 – ftp协议
• NS使用的工具包
– 提供资源信息查询 – 通知备份文件到第三方文件服务器 – 删除文件服务器上的备份文件功能
3.3.3分布式数据库的基本特点
物理分布性：数据不是存储在一个场地上，而是存储在计算机网络的多个场地上。
• MapReduce 模式的思想是通过自动分割将要执行的问题(程序)、拆解成Map(映射)和 Reduce(化简)的方式。
• 在自动分割后通过Map 程序将数据映射成不相关的区块，分配(调度)给大量计算机处理达到分散运算的效果，再通过Reduce 程序将结果汇整，输出开发者需要的结果。

ofs的分类 -回复

ofs的分类-回复ofs是一种用于存储和处理大规模数据的技术，其提供了高可靠性、高可扩展性和高性能的数据管理能力。

现在，让我们一步一步来回答"ofs 的分类"这个主题。

第一步：什么是ofs？在开始讨论ofs的分类之前，先来了解一下ofs的基本概念。

ofs，全称为Object File System，是一种基于对象存储的分布式文件系统，旨在存储海量数据并提供高性能、高可靠性和高扩展性的数据管理能力。

与传统的文件系统不同，ofs将数据以对象的形式组织和存储，每个对象都有唯一的标识符，并可以通过该标识符进行快速访问。

ofs还提供了多种数据访问接口和数据保护机制，以满足不同应用场景的需求。

第二步：ofs的分类基于不同的特性和应用场景，ofs可以被分为以下几类：1. 分布式文件系统（Distributed File System）分布式文件系统是ofs的最基本形式，用于将数据分布式地存储在多个节点（通常是服务器）上。

每个节点都有一定的存储容量，并负责存储和管理一部分数据。

分布式文件系统通过将数据切分成多个块（chunks）并在不同节点之间进行复制来实现数据的高可靠性和高可用性。

常见的分布式文件系统包括Hadoop HDFS、Google File System（GFS）和Ceph等。

2. 对象存储（Object Storage）对象存储是ofs的一种进化形式，其将数据以对象的形式存储在分布式的存储集群中。

每个对象都有唯一的全局标识符（通常是一个URL），可以通过该标识符来进行访问和操作。

对象存储不同于传统的文件系统，不再依赖文件层次结构，而是将数据和元数据（包括文件名、文件类型、时间戳等）封装成一个完整的对象。

对象存储的优势在于其高度可扩展性、高效的数据访问速度和灵活的数据管理能力。

常见的对象存储系统包括Amazon S3、OpenStack Swift和Alibaba Cloud OSS等。

分布式存储系统及解决方案介绍

分布式存储系统及解决方案介绍分布式存储系统是指将数据分散存储在多个节点或服务器上，以实现高可靠性、高性能和可扩展性的存储解决方案。

分布式存储系统广泛应用于云计算、大数据分析和存储等领域。

本文将介绍几种常见的分布式存储系统及其解决方案。

1. Hadoop分布式文件系统（HDFS）：Hadoop分布式文件系统是Apache Hadoop生态系统的一部分，用于存储大规模数据集。

该系统基于块存储模型，将文件划分为块，并将这些块分布式存储在多个节点上。

HDFS使用主从架构，其中NameNode负责管理文件系统的命名空间和协调数据块的存储位置，而DataNode负责实际的数据存储。

HDFS提供了高吞吐量和容错性，但对于小型文件存储效率较低。

2. Ceph分布式文件系统：Ceph是一个开源的分布式存储系统，能够提供可伸缩的冗余存储。

其架构包括一个Ceph存储集群，其中包含多个Ceph Monitor节点、Ceph Metadata Server节点和Ceph OSD（对象存储守护进程）节点。

Ceph仅需依赖于普通的网络和标准硬件即可构建高性能和高可靠性的存储系统。

Ceph分布式文件系统支持POSIX接口和对象存储接口，适用于各种应用场景。

3. GlusterFS分布式文件系统：GlusterFS是一个开源的分布式文件系统，能够提供高可用性和可扩展性的存储解决方案。

它使用类似于HDFS的块存储模型，将文件划分为固定大小的存储单元，并将这些存储单元分布式存储在多个节点上。

GlusterFS采用主从架构，其中GlusterFS Server节点负责存储数据和文件系统元数据，而GlusterFS Client节点提供文件系统访问接口。

GlusterFS具有良好的可伸缩性和容错性，并可以支持海量数据存储。

4. Amazon S3分布式存储系统：Amazon S3（Simple Storage Service）是亚马逊云服务提供的分布式对象存储系统。

分布式存储解决方案

分布式存储解决方案下面将系统地介绍几种常见的分布式存储解决方案。

1. 分布式文件系统（Distributed File System, DFS）：分布式文件系统将文件分割为多个块，并将这些块存储在不同的节点上，实现文件的高可靠性、高可扩展性和高性能。

其中比较著名的有Hadoop分布式文件系统（Hadoop Distributed File System, HDFS）和谷歌分布式文件系统（Google File System, GFS）。

HDFS将文件分割为固定大小的数据块，并将这些数据块复制到多个节点上。

通过对数据块的复制，实现了数据的冗余和高可靠性。

同时，HDFS还采用了主从架构和数据局部性原理，使得数据的读写操作能够高效地在节点之间实现负载均衡和数据局部性。

GFS采用了类似的设计思想，将文件分割为大量的数据块，并将这些数据块按照一定的规则分布到多个节点上。

通过为每个文件存储多个副本和采用主从架构，实现了数据的冗余和高可靠性。

同时，GFS还使用了日志结构文件系统和数据局部性原理，使得数据的读写操作能够高效地在节点之间实现负载均衡和数据局部性。

2. 分布式对象存储（Distributed Object Storage, DOS）：分布式对象存储将数据存储为对象，并将这些对象通过哈希算法分布到多个节点上，实现对象的高可靠性、高可扩展性和高性能。

其中比较著名的有亚马逊云存储服务（Amazon S3）和谷歌云存储服务（Google Cloud Storage）。

这些分布式对象存储系统采用了分布式哈希表的设计思想，将对象根据其哈希值分布到多个节点上。

通过为每个对象存储多个副本和采用主从架构，实现了对象的冗余和高可靠性。

同时，这些系统还使用了一致性哈希算法和数据局部性原理，使得对象的读写操作能够高效地在节点之间实现负载均衡和数据局部性。

3. 分布式块存储（Distributed Block Storage, DBS）：分布式块存储将数据划分为固定大小的块，并将这些块存储在多个节点的硬件设备上，实现块的高可靠性、高可扩展性和高性能。

大数据存储方式概述

大数据存储方式概述在当今信息时代，大数据已经成为各行各业的重要组成部分。

随着数据量的不断增长，如何高效地存储大数据成为了一个重要课题。

本文将从不同的角度对大数据存储方式进行概述，帮助读者更好地了解大数据存储的基本原理和方法。

一、分布式文件系统存储方式1.1 Hadoop分布式文件系统（HDFS）HDFS是Apache Hadoop项目的核心组件，采用分布式存储的方式，将大文件切分成多个块存储在不同的节点上，保证数据的可靠性和高可用性。

1.2 Google文件系统（GFS）GFS是Google开发的分布式文件系统，具有高容错性和高扩展性的特点，适用于大规模的数据存储和处理。

1.3 Amazon S3Amazon S3是亚马逊提供的对象存储服务，通过简单的API接口可以实现大规模数据的存储和访问，适用于云计算环境下的大数据存储。

二、分布式数据库存储方式2.1 HBaseHBase是基于Hadoop的分布式数据库，采用列式存储的方式，适用于实时读写大规模数据的场景，具有高性能和可伸缩性。

2.2 CassandraCassandra是一个高可用的分布式数据库系统，采用分区存储和副本复制的方式，适用于分布式数据存储和处理。

2.3 MongoDBMongoDB是一个NoSQL数据库，采用文档存储的方式，适用于存储半结构化和非结构化数据，具有灵活的数据模型和高性能的特点。

三、内存数据库存储方式3.1 RedisRedis是一个高性能的内存数据库，采用键值对存储的方式，适用于缓存和实时数据处理的场景，具有快速的读写速度和持久化功能。

3.2 MemcachedMemcached是一个分布式内存对象缓存系统，适用于存储热点数据和加速数据访问，具有简单的设计和高性能的特点。

3.3 AerospikeAerospike是一个高性能的NoSQL数据库，采用内存和闪存混合存储的方式，适用于实时数据处理和高并发访问的场景，具有可扩展性和可靠性。

linux文件系统的分类

linux文件系统的分类一、引言Linux作为一个开源的操作系统，其文件系统是其核心部分之一。

文件系统是用于组织、存储和访问文件和目录的方法和数据结构。

Linux文件系统的分类是指不同的文件系统类型，可以根据其特点和用途进行分类。

本文将介绍Linux文件系统的几种常见分类。

二、本地文件系统本地文件系统是指在计算机硬盘上存储数据的文件系统。

在Linux 中，常见的本地文件系统有以下几种：1. ext文件系统：ext文件系统是最常用的Linux文件系统，包括ext2、ext3和ext4。

它们具有较高的性能和稳定性，支持大容量存储和快速访问。

2. XFS文件系统：XFS文件系统是一种高性能的日志文件系统，特别适用于大型文件和大容量存储。

它支持快速的数据恢复和高效的文件管理。

3. Btrfs文件系统：Btrfs文件系统是一个新的高级文件系统，具有快速的数据恢复和高效的快照功能。

它支持数据压缩、数据校验和RAID等先进功能。

4. JFS文件系统：JFS文件系统是一个高性能的日志文件系统，具有快速的文件访问和高效的空间管理。

它适用于大容量存储和大型文件。

三、网络文件系统网络文件系统是指通过网络访问远程文件系统的方法。

在Linux中，常见的网络文件系统有以下几种：1. NFS文件系统：NFS是一种标准的网络文件系统协议，用于在不同的计算机之间共享文件和目录。

它允许用户在本地计算机上访问远程服务器上的文件。

2. CIFS文件系统：CIFS是一种用于在Windows和Linux之间共享文件的协议。

它允许Linux系统挂载Windows共享目录，使用户可以在Linux上访问Windows文件。

3. AFS文件系统：AFS是一种分布式文件系统，用于在广域网上共享文件和目录。

它提供高性能和可扩展性，适用于大规模的网络环境。

四、虚拟文件系统虚拟文件系统是指用于访问不同文件系统的统一接口。

在Linux中，常见的虚拟文件系统有以下几种：1. proc文件系统：proc文件系统是一个特殊的文件系统，用于访问内核和进程信息。

分布式文件系统、集群文件系统、并行文件系统

分布式文件系统、集群文件系统、并行文件系统，这三种概念很容易混淆，实际中大家也经常不加区分地使用。

总是有人问起这三者的区别和联系，其实它们之间在概念上的确有交叉重叠的地方，但是也存在显著不同之处。

分布式文件系统自然地，分布式是重点，它是相对与本地文件系统而言的。

分布式文件系统通常指C/S架构或网络文件系统，用户数据没有直接连接到本地主机，而是存储在远程存储服务器上。

NFS/CIFS是最为常见的分布式文件系统，这就是我们说的NAS系统。

分布式文件系统中，存储服务器的节点数可能是1个(如传统NAS)，也可以有多个(如集群NAS)。

对于单个节点的分布式文件系统来说，存在单点故障和性能瓶颈问题。

除了NAS以外，典型的分布式文件系统还有AFS，以及下面将要介绍的集群文件系统(如Lustre, GlusterFS, PVFS2等)。

集群文件系统集群主要分为高性能集群HPC(High Performance Cluster)、高可用集群HAC(High Availablity Cluster)和负载均衡集群LBC(Load Balancing Cluster)。

集群文件系统是指协同多个节点提供高性能、高可用或负载均衡的文件系统，它是分布式文件系统的一个子集，消除了单点故障和性能瓶问题。

对于客户端来说集群是透明的，它看到是一个单一的全局命名空间，用户文件访问请求被分散到所有集群上进行处理。

此外，可扩展性(包括Scale-Up和Scale-Out)、可靠性、易管理等也是集群文件系统追求的目标。

在元数据管理方面，可以采用专用的服务器，也可以采用服务器集群，或者采用完全对等分布的无专用元数据服务器架构。

目前典型的集群文件系统有SONAS, ISILON, IBRIX, NetAPP-GX, Lustre, PVFS2, GlusterFS, Google File System, LoongStore, CZSS等。

分布式存储系统及解决方案介绍

分布式存储系统及解决方案介绍分布式存储系统是指通过将数据分布在多个存储节点上实现数据存储和访问的系统。

它通过数据的冗余备份和分布，提高了系统的可靠性和可扩展性，并能通过并行读写提升系统的性能。

下面将介绍几种常见的分布式存储系统及其解决方案。

1. Hadoop分布式文件系统（HDFS）HDFS是Apache Hadoop项目的核心组件之一，它使用大规模计算集群存储和处理大规模数据集。

HDFS采用了冗余备份机制，将数据分布在多个存储节点上，以提供高可靠性和容错性。

同时，HDFS采用了多副本机制，将数据复制到不同的节点上，以提供高可用性和读取性能。

解决方案：-均衡数据负载：HDFS通过将数据分布在多个节点上，实现均衡的数据负载，提高整个系统的读写性能。

-自动故障检测与恢复：HDFS具有自动检测节点故障并重新复制数据的功能，从而提高数据的可靠性。

-大规模并行处理：HDFS支持将数据划分成多个数据块，并行处理多个数据块，提升系统的处理能力。

2. GlusterFSGlusterFS是一个开源的分布式文件系统，它允许将多个存储节点组合成一个存储池，并提供统一的文件系统接口。

GlusterFS采用分布式哈希表作为元数据管理机制，将数据分布在多个节点上，并提供冗余备份和数据恢复机制。

解决方案：- 弹性伸缩：GlusterFS支持动态添加和移除存储节点，以适应不断变化的存储需求，提供弹性伸缩的能力。

- 均衡负载：GlusterFS使用分布式哈希表进行数据分布，实现均衡的数据负载，提高系统的读写性能。

- 数据冗余和恢复：GlusterFS提供冗余备份和故障恢复机制，以保证数据的可靠性和可用性。

3. CephCeph是一个分布式存储系统，它将数据划分成多个对象，并将对象存储在多个存储节点上。

Ceph通过分布式哈希算法将对象映射到存储节点上，实现均衡的数据负载。

解决方案：- 弹性伸缩：Ceph支持动态添加和移除存储节点，以适应存储需求的变化，并能自动平衡数据分布，提供弹性伸缩的能力。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第一部分CEPH1.1 特点Ceph最大的特点是分布式的元数据服务器通过CRUSH，一种拟算法来分配文件的locaiton，其核心是 RADOS（resilient automatic distributed object storage)，一个对象集群存储，本身提供对象的高可用，错误检测和修复功能。

1.2 组成CEPH文件系统有三个主要模块：a)Client：每个Client实例向主机或进程提供一组类似于POSIX的接口。

b)OSD簇：用于存储所有的数据和元数据。

c)元数据服务簇：协调安全性、一致性与耦合性时，管理命名空间（文件名和目录名）1.3 架构原理Client：用户I/O：输入/输出MDS：Metadata Cluster Server 元数据簇服务器OSD：Object Storage Device 对象存储设备Client通过与OSD的直接通讯实现I/O操作。

这一过程有两种操作方式：1. 直接通过Client实例连接到Client；2. 通过一个文件系统连接到Client。

当一个进行打开一个文件时，Client向MDS簇发送一个请求。

MDS通过文件系统层级结构把文件名翻译成文件节点（inode），并获得节点号、模式（mode）、大小与其他文件元数据。

注意文件节点号与文件意义对应。

如果文件存在并可以获得操作权，则MDS通过结构体返回节点号、文件长度与其他文件信息。

MDS同时赋予Client操作权（如果该Client还没有的话）。

目前操作权有四种，分别通过一个bit表示：读（read）、缓冲读（cache read）、写（write）、缓冲写（buffer write）。

在未来，操作权会增加安全关键字，用于client向OSD证明它们可以对数据进行读写（目前的策略是全部client 都允许）。

之后，包含在文件I/O中的MDS被用于限制管理能力，以保证文件的一致性与语义的合理性。

CEPH产生一组条目来进行文件数据到一系列对象的映射。

为了避免任何为文件分配元数据的需要。

对象名简单的把文件节点需要与条目号对应起来。

对象复制品通过CRUSH（著名的映射函数）分配给OSD。

例如，如果一个或多个Client打开同一个文件进行读操作，一个MDS会赋予他们读与缓存文件内容的能力。

通过文件节点号、层级与文件大小，Client可以命名或分配所有包含该文件数据的对象，并直接从OSD簇中读取。

任何不存在的对象或字节序列被定义为文件洞或0。

同样的，如果Client打开文件进行写操作。

它获得使用缓冲写的能力。

任何位置上的数据都被写到合适的OSD上的合适的对象中。

Client 关闭文件时，会自动放弃这种能力，并向MDS提供新的文件大小（写入时的最大偏移）。

它重新定义了那些存在的并包含文件数据的对象的集合。

CEPH的设计思想有一些创新点主要有以下两个方面：第一，数据的定位是通过CRUSH算法来实现的。

传统的，或者通常的并行文件系统，数据的定位的信息是保存在文件的metadata 中的，也就是inode结构中，通过到metadata server上去获取数据分布的信息。

而在Ceph中，是通过CRUSH 这个算法来提供数据定位的。

第二，元数据服务器可以提供集群metadata server 服务。

只要当我们了解了其结构后，感觉并没有太大的特点。

元数据服务器一般就用来存储文件和目录的信息，提供统一的命名服务。

在Ceph中，元数据的inode ， dentry，以及日志都是在对象存储集群RADOS中存储，这就使得metadata的持久化都是在远程的RADOS中完成，metadata server 不保存状态，只是缓存最近的inode 和 dentry项，当metadata server 失效后，其所所有信息都可以从RADOS中获取，可以比较容易恢复。

CEPH最核心的，就是RADOS就是RADOS（resilient automatic distributed object storage). 其resilient 指的是可以轻松扩展，automatic 指的是其对象存储集群可以处理failover， failure recovery。

RADOS 对象集群其对外提供了一个高可用的，可扩展的，对象集群，从客户端的角度看，就是一个统一命名空间的对象存储。

1.4 使用方式(一)Ceph 的Monitor用来监控集群中所有节点的状态信息，完成类似配置服务的功能。

在Ceph 里，配置主要就是cluster map ，其保存集群所有节点信息，并和所有的节点保持心跳，来监控所有的节点状态。

其通过Paxos算法实现实现自身的高可用，也就是说，这个Ceph Monitor 是不会有单点问题的。

目前流行的zookeeper 的功能，以及实现都类似。

(二)对象存储Ceph文件系统中的数据和元数据都保存在对象中。

对于对象存储，通常的定义是：一个Object，由三部分组成（id，metadata，data），id是对象的标识，这个不必多说。

所谓的metadata，就是key/value的键值存储，至于用来保存什么信息，由文件系统的语义定义。

data就是实际存储的数据。

Ceph的对象，包括四个部分（id，metadata，attribute，data），在Ceph里，一个Object，实际就对应本地文件系统的一个文件，一个对象的attribute，也是key/value的键值对，其保存在本地文件系统的文件的扩展属性中。

对象的metadata就是key/value的键值对，目前Ceph保存在google开源的一个key/value存储系统leveldb中，或者自己写的一个key/value 存储系统中。

数据就保存在对象的文件中。

对于一个对象的更新，都需要写日志中来保持一个Object数据的一致性（consistence），日志有一个单独的设备或者文件来保存。

(三)副本存储一个PG（placement group）由一个OSD列表组成，OSD的个数，就是对象的副本数，一个三副本的PG就是一个主，两个副本的OSD列表组成。

一个PG和OSD列表的映射关系，是通过CRUSH算法计算的，知道PG的id，和当前的cluster map，就可以通过CRUSH算法，计算出OSD列表。

特别强调的是，一个PG是逻辑层概念，也就是说，一个OSD，可能同时是一个或者多个PG的主，同时是另一个PG的从。

一个OSD处于多个PG组中。

一个PG就是复制和修复的基本单位。

每个OSD本地保存其所在的PG列表就可以了，其它OSD可以通过输入当前的该OSD保存的cluster map 和 PG 的id ，通过CRUSH计算得出。

(四)Ceph的容错处理对于Ceph文件系统，错误分两类：一类是磁盘错误或者数据损坏（ disk error or corruptted data），这类错误OSD会自己报告和处理。

（self report ）；第二类是OSD失去网络连接导致该OSD不可达（unreachable on the network）这种情况下需要主动检测（active monitor），在同一个PG组中的其它OSD会发心跳信息互相检测。

这种检测的一个优化的方法就是，当replication复制操作时，就可以顺带检测，不用发单独的消息来检测，只有一段时间没有replication 操作时，才发ping消息里检测。

OSD的失效状态有两种：一种是down状态，这种状态下，被认为是临时错误。

在这种情况下，如果是primay，其任务由下一个replicate接手。

如果该OSD没有迅速恢复（quickly recovery），那么就被标记为out状态，在这种状态下，将有新的osd加入这个PG中。

如何标记一个OSD 从down状态标记为out状态？由于网络分区的问题，需要通过 Ceph Monitor 来裁定。

(五)Ceph 的写流程客户端先写主副本，然后同步到两个从副本。

主副本等待从副本的ack消息和apply消息。

当主副本收到ack消息，说明写操作已经写在内存中完成，收到apply 消息，说明已经apply到磁盘上了。

如果在写的过程中，主副本失效，按顺序下一个从副本接管主副本的工作，这个时候是否返回给客户端写正确？在这种情况下，客户端只是判断正常工作的（acting）的 OSD的返回结果，只要所有正常工作的OSD返回即认为成功，虽然这时候可能只有两副本成功。

同时该临时primay必须保存所有操作的recovey队列里，如果原primay恢复，可以replay所有recovery队列里的操作，如果主副本从down到out状态，也即是永久失效，临时primay转正，由临时primay为正式primay，只是需要加入一个新的OSD到该PG中。

如果是从副本失效，就比较简单。

临时失效，主replay所有写操作，如过永久失效，新加入一个OSD到PG中就可以了。

(六)恢复当有OSD失效，恢复或者增加一个新的OSD时，导致OSD cluster map的变换。

Ceph处理以上三种情况的策略是一致的。

为了恢复，ceph保存了两类数据，一个是每个OSD的一个version，另一个是PG修改的log，这个log包括PG修改的object 的名称和version。

当一个OSD接收到cluster map的更新时：1）检查该OSD的所属的PG，对每个PG，通过CRUSH算法，计算出主副本的三个OSD2）如何该PG里的OSD发生了改变，这时候，所有的replicate向主副本发送log，也就是每个对象最后的version，当primay 决定了最后各个对象的正确的状态，并同步到所有副本上。

3）每个OSD独立的决定，是从其它副本中恢复丢失或者过时的（missingor outdated）对象。

(如何恢复? 好像是整个对象全部拷贝，或者基于整个对象拷贝，但是用了一些类似于rsync的算法？目前还不清楚）4）当OSD在恢复过程中，delay所有的请求，直到恢复成功。

第二部分GlusterFSGlusterFS是Scale-Out存储解决方案Gluster的核心，它是一个开源的分布式文件系统，具有强大的横向扩展能力，通过扩展能够支持数PB存储容量和处理数千客户端。

GlusterFS借助TCP/IP或InfiniBand RDMA网络将物理分布的存储资源聚集在一起，使用单一全局命名空间来管理数据。

GlusterFS基于可堆叠的用户空间设计，可为各种不同的数据负载提供优异的性能。

GlusterFS支持运行在任何标准IP网络上标准应用程序的标准客户端，用户可以在全局统一的命名空间中使用NFS/CIFS等标准协议来访问应用数据。

3种分布式文件系统

大数据存储方式概述

大数据存储方式概述

第3章 分布式文件及数据库系统

ofs的分类 -回复

分布式存储系统及解决方案介绍

分布式存储解决方案

大数据存储方式概述

linux文件系统的分类

分布式文件系统、集群文件系统、并行文件系统

分布式存储系统及解决方案介绍

第3章分布式文件及数据库系统