7种分布式文件系统介绍

合集下载

大数据存储方式概述

大数据存储方式概述标题：大数据存储方式概述引言概述：随着信息技术的不断发展，大数据已经成为当今社会中一个重要的信息资源。

为了有效管理和利用大数据，各种存储方式应运而生。

本文将就大数据存储方式进行概述，帮助读者更好地了解大数据存储的相关知识。

一、分布式文件系统存储方式1.1 HDFS（Hadoop分布式文件系统）：HDFS是Apache Hadoop项目中的一个分布式文件系统，适用于存储大规模数据，并且具有高可靠性和高扩展性。

1.2 GFS（Google文件系统）：GFS是Google开发的分布式文件系统，采用主从架构，能够有效地处理大规模数据的存储和访问。

1.3 Ceph：Ceph是一个开源的分布式存储系统，具有高可用性和高性能，支持对象存储、块存储和文件系统存储。

二、NoSQL数据库存储方式2.1 MongoDB：MongoDB是一种面向文档的NoSQL数据库，适用于存储半结构化数据，并且具有高性能和可扩展性。

2.2 Cassandra：Cassandra是一个高度可扩展的NoSQL数据库，适用于分布式存储大规模数据，并且支持高可用性和容错性。

2.3 Redis：Redis是一个开源的内存数据库，适用于缓存和实时数据处理，具有快速的读写速度和高性能。

三、列式数据库存储方式3.1 HBase：HBase是一个基于Hadoop的列式数据库，适用于存储大规模结构化数据，并且支持高可用性和高性能。

3.2 Vertica：Vertica是一种高性能列式数据库，适用于数据仓库和实时分析，具有快速的查询速度和高压缩比。

3.3 ClickHouse：ClickHouse是一个开源的列式数据库，适用于实时分析和数据仓库，具有高性能和可扩展性。

四、云存储方式4.1 AWS S3（Amazon Simple Storage Service）：AWS S3是亚马逊提供的云存储服务，适用于存储大规模数据，并且具有高可靠性和安全性。

大数据存储方式概述

大数据存储方式概述概述：随着大数据时代的到来，大数据存储成为了一项重要的技术挑战。

大数据存储方式的选择对于数据的处理和分析具有重要的影响。

本文将概述几种常见的大数据存储方式，包括分布式文件系统、关系型数据库、NoSQL数据库和数据仓库。

一、分布式文件系统：分布式文件系统是一种将文件存储在多个服务器上的文件系统。

它通过将文件划分为多个块，并将这些块分布在不同的服务器上，实现了数据的分布式存储。

常见的分布式文件系统包括Hadoop的HDFS和Google的GFS。

分布式文件系统具有高可靠性、高可扩展性和高性能的特点，适合于存储大规模的非结构化数据。

二、关系型数据库：关系型数据库是一种以表格的形式存储数据的数据库。

它使用结构化查询语言（SQL）进行数据的管理和查询。

关系型数据库具有严格的数据一致性和完整性，适合于存储结构化数据。

然而，关系型数据库在处理大规模数据时存在性能瓶颈，因为它们通常采用单机部署模式。

三、NoSQL数据库：NoSQL数据库是一种非关系型数据库，它放宽了对数据一致性和完整性的要求，追求高可扩展性和高性能。

NoSQL数据库适合于存储非结构化和半结构化数据。

常见的NoSQL数据库包括MongoDB、Cassandra和Redis等。

NoSQL数据库可以通过水平扩展来应对大规模数据的存储和处理需求。

四、数据仓库：数据仓库是一种用于存储和管理大量历史数据的数据库。

数据仓库通常采用多维模型，支持复杂的数据分析和查询。

数据仓库可以通过数据抽取、转换和加载（ETL）过程将来自不同数据源的数据集成到一个统一的存储中。

数据仓库适合于企业级的数据分析和决策支持。

综上所述，大数据存储方式的选择应根据数据的特点和应用场景来进行。

对于大规模的非结构化数据，分布式文件系统是一个理想的选择；对于结构化数据，关系型数据库和NoSQL数据库都是可行的方案；对于历史数据的分析和决策支持，数据仓库是一个重要的工具。

在实际应用中，通常会根据具体需求采用多种存储方式的组合，以达到最佳的存储和分析效果。

大数据存储方式概述

大数据存储方式概述概述：随着信息技术的快速发展，大数据已经成为当今社会中不可忽视的重要资源。

然而，大数据的存储方式对于数据的管理和分析起着至关重要的作用。

本文将对大数据存储方式进行概述，介绍常见的几种存储方式及其特点。

一、分布式文件系统分布式文件系统是一种将文件划分为多个块并存储在不同的节点上的存储方式。

它具有高可靠性、高可扩展性和高吞吐量的特点。

常见的分布式文件系统包括Hadoop分布式文件系统（HDFS）和谷歌文件系统（GFS）。

这些系统通过将数据划分为多个块并在多个节点上进行冗余存储，实现了数据的高可靠性和高可用性。

二、列式存储列式存储是一种将数据按列存储的方式。

相比于传统的行式存储方式，列式存储在大数据场景下具有更高的压缩率和查询效率。

它适合于需要对大量数据进行聚合和分析的场景。

常见的列式存储系统包括Apache Parquet和Apache ORC。

三、内存数据库内存数据库是一种将数据存储在内存中的数据库系统。

相比于传统的磁盘存储方式，内存数据库具有更快的读写速度和更低的延迟。

它适合于对实时性要求较高的应用场景，如实时分析和实时推荐系统。

常见的内存数据库包括Redis和Memcached。

四、NoSQL数据库NoSQL数据库是一种非关系型数据库，它适合于存储大规模非结构化和半结构化数据。

NoSQL数据库具有分布式、高可扩展和高性能的特点。

常见的NoSQL数据库包括MongoDB、Cassandra和HBase。

五、对象存储对象存储是一种将数据以对象的形式存储的方式。

每一个对象包含数据、元数据和惟一标识符。

对象存储适合于存储海量的非结构化数据，如图象、音频和视频等。

常见的对象存储系统包括Amazon S3和OpenStack Swift。

六、混合存储混合存储是一种将数据同时存储在内存和磁盘中的存储方式。

它兼具内存数据库的高性能和磁盘存储的持久性。

混合存储适合于对读写性能和数据安全性要求较高的应用场景。

第3章分布式文件及数据库系统

– 每一个文件具有唯一的逻辑地址，每一个文件副本对应一个物理地址
26/20
名字服务器
• 文件服务器管理
– 动态管理文件服务器
• 添加、删除文件服务器
– 指导文件服务器进行文件备份
• 同一个文件在两台文件服务器中保存副本
– 实时获取文件服务器信息
• 剩余空间、负载
– 文件服务器选择策略:剩余空间+负载
3.3.2 分布式数据库系统的定义
分布式数据库包含两个重要组成部分：分布式数据库（DDB）和分布式数据库管理系统（DDBMS）。分布式数据库是计算机网络环境中各场地上数据库的逻辑集合。分布式数据库管理系统是分布式数据库系统中的一组软件，它复杂管理分布环境下逻辑集成数据的存取、一致性、有效性和完备性。
28/20
文件的传输
• 文件服务器：监控管理程序
– 监控文件服务器信息，提供当前的磁盘空间等资源信息 – 响应删除文件命令，删除文件服务器上的文件 – 响应备份命令，将本地文件备份到另一文件服务器上
• 客户端使用的工具包
– 上传文件、下载文件、删除文件 – ftp协议
• NS使用的工具包
– 提供资源信息查询 – 通知备份文件到第三方文件服务器 – 删除文件服务器上的备份文件功能
3.3.3分布式数据库的基本特点
物理分布性：数据不是存储在一个场地上，而是存储在计算机网络的多个场地上。
• MapReduce 模式的思想是通过自动分割将要执行的问题(程序)、拆解成Map(映射)和 Reduce(化简)的方式。
• 在自动分割后通过Map 程序将数据映射成不相关的区块，分配(调度)给大量计算机处理达到分散运算的效果，再通过Reduce 程序将结果汇整，输出开发者需要的结果。

分布式存储系统及解决方案介绍

分布式存储系统及解决方案介绍分布式存储系统是指将数据分散存储在多个节点或服务器上，以实现高可靠性、高性能和可扩展性的存储解决方案。

分布式存储系统广泛应用于云计算、大数据分析和存储等领域。

本文将介绍几种常见的分布式存储系统及其解决方案。

1. Hadoop分布式文件系统（HDFS）：Hadoop分布式文件系统是Apache Hadoop生态系统的一部分，用于存储大规模数据集。

该系统基于块存储模型，将文件划分为块，并将这些块分布式存储在多个节点上。

HDFS使用主从架构，其中NameNode负责管理文件系统的命名空间和协调数据块的存储位置，而DataNode负责实际的数据存储。

HDFS提供了高吞吐量和容错性，但对于小型文件存储效率较低。

2. Ceph分布式文件系统：Ceph是一个开源的分布式存储系统，能够提供可伸缩的冗余存储。

其架构包括一个Ceph存储集群，其中包含多个Ceph Monitor节点、Ceph Metadata Server节点和Ceph OSD（对象存储守护进程）节点。

Ceph仅需依赖于普通的网络和标准硬件即可构建高性能和高可靠性的存储系统。

Ceph分布式文件系统支持POSIX接口和对象存储接口，适用于各种应用场景。

3. GlusterFS分布式文件系统：GlusterFS是一个开源的分布式文件系统，能够提供高可用性和可扩展性的存储解决方案。

它使用类似于HDFS的块存储模型，将文件划分为固定大小的存储单元，并将这些存储单元分布式存储在多个节点上。

GlusterFS采用主从架构，其中GlusterFS Server节点负责存储数据和文件系统元数据，而GlusterFS Client节点提供文件系统访问接口。

GlusterFS具有良好的可伸缩性和容错性，并可以支持海量数据存储。

4. Amazon S3分布式存储系统：Amazon S3（Simple Storage Service）是亚马逊云服务提供的分布式对象存储系统。

分布式存储解决方案

分布式存储解决方案下面将系统地介绍几种常见的分布式存储解决方案。

1. 分布式文件系统（Distributed File System, DFS）：分布式文件系统将文件分割为多个块，并将这些块存储在不同的节点上，实现文件的高可靠性、高可扩展性和高性能。

其中比较著名的有Hadoop分布式文件系统（Hadoop Distributed File System, HDFS）和谷歌分布式文件系统（Google File System, GFS）。

HDFS将文件分割为固定大小的数据块，并将这些数据块复制到多个节点上。

通过对数据块的复制，实现了数据的冗余和高可靠性。

同时，HDFS还采用了主从架构和数据局部性原理，使得数据的读写操作能够高效地在节点之间实现负载均衡和数据局部性。

GFS采用了类似的设计思想，将文件分割为大量的数据块，并将这些数据块按照一定的规则分布到多个节点上。

通过为每个文件存储多个副本和采用主从架构，实现了数据的冗余和高可靠性。

同时，GFS还使用了日志结构文件系统和数据局部性原理，使得数据的读写操作能够高效地在节点之间实现负载均衡和数据局部性。

2. 分布式对象存储（Distributed Object Storage, DOS）：分布式对象存储将数据存储为对象，并将这些对象通过哈希算法分布到多个节点上，实现对象的高可靠性、高可扩展性和高性能。

其中比较著名的有亚马逊云存储服务（Amazon S3）和谷歌云存储服务（Google Cloud Storage）。

这些分布式对象存储系统采用了分布式哈希表的设计思想，将对象根据其哈希值分布到多个节点上。

通过为每个对象存储多个副本和采用主从架构，实现了对象的冗余和高可靠性。

同时，这些系统还使用了一致性哈希算法和数据局部性原理，使得对象的读写操作能够高效地在节点之间实现负载均衡和数据局部性。

3. 分布式块存储（Distributed Block Storage, DBS）：分布式块存储将数据划分为固定大小的块，并将这些块存储在多个节点的硬件设备上，实现块的高可靠性、高可扩展性和高性能。

大数据存储方式概述

大数据存储方式概述在当今信息时代，大数据已经成为各行各业的重要组成部分。

随着数据量的不断增长，如何高效地存储大数据成为了一个重要课题。

本文将从不同的角度对大数据存储方式进行概述，帮助读者更好地了解大数据存储的基本原理和方法。

一、分布式文件系统存储方式1.1 Hadoop分布式文件系统（HDFS）HDFS是Apache Hadoop项目的核心组件，采用分布式存储的方式，将大文件切分成多个块存储在不同的节点上，保证数据的可靠性和高可用性。

1.2 Google文件系统（GFS）GFS是Google开发的分布式文件系统，具有高容错性和高扩展性的特点，适用于大规模的数据存储和处理。

1.3 Amazon S3Amazon S3是亚马逊提供的对象存储服务，通过简单的API接口可以实现大规模数据的存储和访问，适用于云计算环境下的大数据存储。

二、分布式数据库存储方式2.1 HBaseHBase是基于Hadoop的分布式数据库，采用列式存储的方式，适用于实时读写大规模数据的场景，具有高性能和可伸缩性。

2.2 CassandraCassandra是一个高可用的分布式数据库系统，采用分区存储和副本复制的方式，适用于分布式数据存储和处理。

2.3 MongoDBMongoDB是一个NoSQL数据库，采用文档存储的方式，适用于存储半结构化和非结构化数据，具有灵活的数据模型和高性能的特点。

三、内存数据库存储方式3.1 RedisRedis是一个高性能的内存数据库，采用键值对存储的方式，适用于缓存和实时数据处理的场景，具有快速的读写速度和持久化功能。

3.2 MemcachedMemcached是一个分布式内存对象缓存系统，适用于存储热点数据和加速数据访问，具有简单的设计和高性能的特点。

3.3 AerospikeAerospike是一个高性能的NoSQL数据库，采用内存和闪存混合存储的方式，适用于实时数据处理和高并发访问的场景，具有可扩展性和可靠性。

linux文件系统的分类

linux文件系统的分类一、引言Linux作为一个开源的操作系统，其文件系统是其核心部分之一。

文件系统是用于组织、存储和访问文件和目录的方法和数据结构。

Linux文件系统的分类是指不同的文件系统类型，可以根据其特点和用途进行分类。

本文将介绍Linux文件系统的几种常见分类。

二、本地文件系统本地文件系统是指在计算机硬盘上存储数据的文件系统。

在Linux 中，常见的本地文件系统有以下几种：1. ext文件系统：ext文件系统是最常用的Linux文件系统，包括ext2、ext3和ext4。

它们具有较高的性能和稳定性，支持大容量存储和快速访问。

2. XFS文件系统：XFS文件系统是一种高性能的日志文件系统，特别适用于大型文件和大容量存储。

它支持快速的数据恢复和高效的文件管理。

3. Btrfs文件系统：Btrfs文件系统是一个新的高级文件系统，具有快速的数据恢复和高效的快照功能。

它支持数据压缩、数据校验和RAID等先进功能。

4. JFS文件系统：JFS文件系统是一个高性能的日志文件系统，具有快速的文件访问和高效的空间管理。

它适用于大容量存储和大型文件。

三、网络文件系统网络文件系统是指通过网络访问远程文件系统的方法。

在Linux中，常见的网络文件系统有以下几种：1. NFS文件系统：NFS是一种标准的网络文件系统协议，用于在不同的计算机之间共享文件和目录。

它允许用户在本地计算机上访问远程服务器上的文件。

2. CIFS文件系统：CIFS是一种用于在Windows和Linux之间共享文件的协议。

它允许Linux系统挂载Windows共享目录，使用户可以在Linux上访问Windows文件。

3. AFS文件系统：AFS是一种分布式文件系统，用于在广域网上共享文件和目录。

它提供高性能和可扩展性，适用于大规模的网络环境。

四、虚拟文件系统虚拟文件系统是指用于访问不同文件系统的统一接口。

在Linux中，常见的虚拟文件系统有以下几种：1. proc文件系统：proc文件系统是一个特殊的文件系统，用于访问内核和进程信息。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

FastDFS (7)Fastdfs简介 (7)Fastdfs系统结构图 (7)FastDFS和mogileFS的对比 (8)MogileFS (10)Mogilefs简介 (10)Mogilefs组成部分 (10)0）数据库（MySQL）部分 (10)1）存储节点 (11)2）trackers（跟踪器） (11)3）工具 (11)4）Client (11)Mogilefs的特点 (12)1. 应用层——没有特殊的组件要求 (12)2. 无单点失败 (12)3. 自动的文件复制 (12)4. “比RAID好多了” (12)5. 传输中立，无特殊协议 (13)6.简单的命名空间 (13)7.不用共享任何东西 (13)8.不需要RAID (13)9.不会碰到文件系统本身的不可知情况 (13)HDFS (14)HDFS简介 (14)特点和目标 (14)1. 硬件故障 (14)2. 流式的数据访问 (14)3. 简单一致性模型 (15)4. 通信协议 (15)基本概念 (15)1. 数据块(block) (15)2. 元数据节点(Namenode)和数据节点(datanode) . 162.1这些结点的用途 (16)2.2元数据节点文件夹结构 (17)2.3文件系统命名空间映像文件及修改日志 (18)2.4从元数据节点的目录结构 (21)2.5数据节点的目录结构 (21)文件读写 (22)1.读取文件 (22)1.1 读取文件示意图 (22)1.2 文件读取的过程 (23)2.写入文件 (24)2.1 写入文件示意图 (24)2.2 写入文件的过程 (24)HDFS不能提供的特点 (25)1.低延时访问 (25)2.大量小文件 (26)3.多用户写，任意文件修改 (27)TFS (27)TFS简介 (27)TFS系统的基本情况 (28)应用规模 (28)性能参数 (28)TFS的逻辑架构图 (29)结合架构图做了进一步说明 (29)TFS的不足之处 (30)1、通用性方面。

(30)2、性能方面。

(30)3、用户接口。

(30)4、代码方面。

(30)5、技术文档。

(31)6、小文件优化。

(31)MooseFS（简称MFS） (31)MFS简介 (31)MFS的优点 (31)网络示意图(如下) (32)MFS文件系统结构 (33)包含的4种角色 (33)◆管理服务器managing server (master)33◆元数据日志服务器Metalogger serve（Metalogger）33◆数据存储服务器data servers (chunkservers)34◆客户端client computers344种角色的协作过程 (35)MFS读写进程 (35)MFS读进程 (35)MFS写进程 (36)KFS (38)KFS简介 (38)KFS的特性 (38)1.自动存储扩充 (38)2.有效性 (38)3.文件复制粒度 (38)4.还原复制 (38)5.负载平衡 (39)6.数据完整性 (39)7.文件写入 (39)8.契约 (39)9.支持FUSE (39)10.支持C++,Java,Python方式的调用 (40)11.提供了丰富的工具程序 (40)12.提供了启动和停止服务的脚本 (40)KFS高级特性 (40)KFS与HDFS的比较 (40)1.体系结构图的比较 (40)2.特点的比较 (41)Ceph (42)Ceph 的目标 (42)Ceph 生态系统 (42)可以大致划分为四部分 (42)Ceph 生态系统的概念架构 (43)架构视图1 (43)架构视图2 (44)Ceph 组件 (44)Ceph 客户端 (45)Ceph 元数据服务器 (47)Ceph 对象存储 (49)其他有趣功能 (49)Ceph 的地位和未来 (50)其他分布式文件系统 (50)展望未来 (50)FastDFSFastdfs简介—国人在mogileFS基础上进行改进的key-value型文件系统，不支持FUSE,提供比mogileFS更好的性能—轻量级（移植性比较强，资源依赖性小？）的开源分布式文件系统—解决的问题：1.大容量的文件存储 2.高并发的访问 3.文件存取时的负载均衡—特色：实现了软件方式的RAID;支持服务器在线扩充；支持相同的文件只存一份，节省了磁盘空间—限制：只能通过client api方式访问，不支持posix方式访问—适合范围：大中型网站用来存储资源文件（如图片、文档、音频、视频、音频等），即以文件为载体的在线服务—FastDFS服务端有两个角色：跟踪器（）和存储节点（），跟踪器总要做调度工作，在访问上做负载均衡的作用，且跟踪器可用多台服务器进行均衡，这样可避免单点故障的发生。

—通信协议：有专门协议，下载文件支持HTTPFastdfs系统结构图FastDFS和mogileFS的对比1. FastDFS完善程度较高，不需要二次开发即可直接使用；2. 和MogileFs相比，FastDFS裁减了跟踪用的数据库，只有两个角色：tracker和storage。

FastDFS的架构既简化了系统，同时也消除了性能瓶颈；3. 在系统中增加任何角色的服务器都很容易：增加tracker服务器时，只需要修改storage和client的配置文件（增加一行tracker配置）；增加storage服务器时，通常不需要修改任何配置文件，系统会自动将该卷中已有文件复制到该服务器；4. FastDFS比MogileFS更高效。

表现在如下几个方面：1）参见上面的第2点，FastDFS和MogileFS相比，没有文件索引数据库，FastDFS整体性能更高；2）从采用的开发语言上看，FastDFS比MogileFS更底层、更高效。

FastDFS用C语言编写，代码量不到2万行，没有依赖其他开源软件或程序包，安装和部署特别简洁；而MogileFS用perl 编写；3）FastDFS直接使用socket通信方式，相对于MogileFS的H TTP方式，效率更高。

并且FastDFS使用sendfile传输文件，采用了内存零拷贝，系统开销更小，文件传输效率更高。

5. FastDFS有着详细的设计和使用文档，而MogileFS的文档相对比较缺乏。

6. FastDFS的日志记录非常详细，系统运行时发生的任何错误信息都会记录到日志文件中，当出现问题时方便管理员定位错误所在。

7. FastDFS还对文件附加属性（即meta data，如文件大小、图片宽度、高度等）进行存取，应用不需要使用数据库来存储这些信息。

8. FastDFS从V1.14开始支持相同文件内容只保存一份，这样可以节省存储空间，提高文件访问性能。

MogileFSMogilefs简介—一种分布式文件存储系统，可支持文件自动备份的功能，提供可用性和高可扩展性，用Perl语言编写，由于有依赖模块的问题，安装过程需要其他库和模块的支持，安装不算容易。

— key-value型元文件系统，不支持FUSE，应用程序访问它需要API，主要在web领域处理海量小图片，效率高，—适用性：不支持对一个文件的随机读写，只适合做一部分应用。

比如图片服务，静态html服务，即文件写入后基本上那个不需要修改的应用。

Mogilefs组成部分0）数据库（MySQL）部分mogdbsetup程序可用来初始化数据库。

数据库保存了Mogilefs的所有元数据，你可以单独拿数据库服务器来做，也可以跟其他程序跑在一起，数据库部分非常重要，类似邮件系统的认证中心那么重要，如果这儿挂了，那么整个Mogilefs将处于不可用状态。

因此最好是HA结构。

1）存储节点mogstored程序的启动将使本机成为一个存储节点。

启动时默认去读/etc/mogilefs/mogstored.conf ，具体配置可以参考配置部分。

mogstored启动后，便可以通过mogadm增加这台机器到cluster中。

一台机器可以只运行一个mogstored作为存储节点即可，也可以同时运行其他程序。

2）trackers（跟踪器）mogilefsd即trackers程序，类似mogilefs的wiki上介绍的，trackers做了很多工作，Replication ，Deletion，Query，Reaper，Monitor等等。

mogadm,mogtool的所有操作都要跟trackers打交道，Client的一些操作也需要定义好trackers，因此最好同时运行多个trackers来做负载均衡。

trackers也可以只运行在一台机器上，也可以跟其他程序运行在一起，只要你配置好他的配置文件即可，默认在/etc/mogilefs/mogilefsd.conf。

3）工具主要就是mogadm，mogtool这两个工具了，用来在命令行下控制整个mogilefs系统以及查看状态等等。

4）ClientClient实际上是一个Perl的pm，可以写程序调用该pm来使用mogilefs系统，对整个系统进行读写操作。

Mogilefs的特点1. 应用层——没有特殊的组件要求2. 无单点失败MogileFS启动的三个组件（存储节点、跟踪器、跟踪用的数据库），均可运行在多个机器上，因此没有单点失败。

（你也可以将跟踪器和存储节点运行在同一台机器上，这样你就没有必要用4台机器）推荐至少两台机器。

3. 自动的文件复制基于不同的文件“分类”，文件可以被自动的复制到多个有足够存储空间的存储节点上，这样可以满足这个“类别”的最少复制要求。

比如你有一个图片网站，你可以设置原始的JPEG图片需要复制至少三份，但实际只有1 or 2分拷贝，如果丢失了数据，那么Mogile可以重新建立遗失的拷贝数。

用这种办法，MogileFS (不做RAID)可以节约磁盘，否则你将存储同样的拷贝多份，完全没有必要。

4. “比RAID好多了”在一个非存储区域网络的RAID（non-SAN RAID）的建立中，磁盘是冗余的，但主机不是，如果你整个机器坏了，那么文件也将不能访问。

MogileFS在不同的机器之间进行文件复制，因此文件始终是可用的。

5. 传输中立，无特殊协议MogileFS客户端可以通过NFS或HTTP来和MogileFS的存储节点来通信，但首先需要告知跟踪器一下。

6.简单的命名空间文件通过一个给定的key来确定，是一个全局的命名空间。

你可以自己生成多个命名空间，只要你愿意，但是这样可能在同一MogileFS 中，会造成冲突key。

7.不用共享任何东西MogileFS不需要依靠昂贵的SAN来共享磁盘，每个机器只用维护好自己的磁盘。

8.不需要RAID在MogileFS中的磁盘可以是做了RAID的也可以是没有，如果是为了安全性着想的话RAID没有必要买了，因为MogileFS已经提供了。

7种分布式文件系统介绍

大数据存储方式概述

大数据存储方式概述

大数据存储方式概述

第3章 分布式文件及数据库系统

分布式存储系统及解决方案介绍

分布式存储解决方案

大数据存储方式概述

linux文件系统的分类

第3章分布式文件及数据库系统