FASTDFS文件服务器架构方案分析

合集下载

用FastDFS一步步搭建文件管理系统

⽤FastDFS⼀步步搭建⽂件管理系统⼀、FastDFS介绍参考：参考：1、简介FastDFS 是⼀个开源的⾼性能分布式⽂件系统（DFS）。

它的主要功能包括：⽂件存储，⽂件同步和⽂件访问，以及⾼容量和负载平衡。

主要解决了海量数据存储问题，特别适合以中⼩⽂件（建议范围：4KB < file_size <500MB）为载体的在线服务。

FastDFS 系统有三个⾓⾊：跟踪服务器(Tracker Server)、存储服务器(Storage Server)和客户端(Client)。

Tracker Server：跟踪服务器，主要做调度⼯作，起到均衡的作⽤；负责管理所有的 storage server和 group，每个 storage 在启动后会连接 Tracker，告知⾃⼰所属 group 等信息，并保持周期性⼼跳。

Storage Server：存储服务器，主要提供容量和备份服务；以 group 为单位，每个 group 内可以有多台 storage server，数据互为备份。

Client：客户端，上传下载数据的服务器，也就是我们⾃⼰的项⽬所部署在的服务器。

2、FastDFS的存储策略为了⽀持⼤容量，存储节点（服务器）采⽤了分卷（或分组）的组织⽅式。

存储系统由⼀个或多个卷组成，卷与卷之间的⽂件是相互独⽴的，所有卷的⽂件容量累加就是整个存储系统中的⽂件容量。

⼀个卷可以由⼀台或多台存储服务器组成，⼀个卷下的存储服务器中的⽂件都是相同的，卷中的多台存储服务器起到了冗余备份和负载均衡的作⽤。

在卷中增加服务器时，同步已有的⽂件由系统⾃动完成，同步完成后，系统⾃动将新增服务器切换到线上提供服务。

当存储空间不⾜或即将耗尽时，可以动态添加卷。

只需要增加⼀台或多台服务器，并将它们配置为⼀个新的卷，这样就扩⼤了存储系统的容量。

3、FastDFS的上传过程FastDFS向使⽤者提供基本⽂件访问接⼝，⽐如upload、download、append、delete等，以客户端库的⽅式提供给⽤户使⽤。

FastDFS架构分析

FastDFS一个高效的分布式文件系统FastDFS是一款类Google FS的开源分布式文件系统，它用纯C语言实现，支持Linux、FreeBSD、AIX等UNIX系统。

它只能通过专有API对文件进行存取访问，不支持POSIX接口方式，不能mount使用。

准确地讲，Google FS以及FastDFS、mogileFS、HDFS、TFS 等类Google FS都不是系统级的分布式文件系统，而是应用级的分布式文件存储服务。

FastDFS的设计理念FastDFS是为互联网应用量身定做的分布式文件系统，充分考虑了冗余备份、负载均衡、线性扩容等机制，并注重高可用、高性能等指标。

和现有的类Google FS分布式文件系统相比，FastDFS的架构和设计理念有其独到之处，主要体现在轻量级、分组方式和对等结构三个方面。

轻量级FastDFS只有两个角色：Tracker server和Storage server。

Tracker server作为中心结点，其主要作用是负载均衡和调度。

Tracker server在内存中记录分组和Storage server 的状态等信息，不记录文件索引信息，占用的内存量很少。

另外，客户端（应用）和Storage server访问Tracker server时，Tracker server扫描内存中的分组和Storage server信息，然后给出应答。

由此可以看出Tracker server非常轻量化，不会成为系统瓶颈。

FastDFS中的Storage server在其他文件系统中通常称作Trunk server或Data server。

Storage server直接利用OS的文件系统存储文件。

FastDFS不会对文件进行分块存储，客户端上传的文件和Storage server上的文件一一对应。

众所周知，大多数网站都需要存储用户上传的文件，如图片、视频、电子文档等。

出于降低带宽和存储成本的考虑，网站通常都会限制用户上传的文件大小，例如图片文件不能超过5MB、视频文件不能超过100MB等。

FastDFS总结

FastDFS总结FastDFS介绍FastDFS是⽤C语⾔编写的⼀款开源的分布式⽂件系统。

FastDFS为互联⽹量⾝定制，充分考虑了冗余备份、负载均衡、线性扩容等机制，并注重⾼可⽤、⾼性能等指标，使⽤FastDFS很容易搭建⼀套⾼性能的⽂件服务器集群提供⽂件上传、下载等服务。

FastDFS架构FastDFS架构包括Tracker server和Storage server、Client三部分组成。

Client请求Tracker server进⾏⽂件上传、下载，通过Tracker server 调度最终由Storage server完成⽂件上传和下载。

Tracker server作⽤是负载均衡和调度，通过Tracker server在⽂件上传时可以根据⼀些策略找到Storage server提供⽂件上传服务。

可以将Tracker称为追踪服务器或调度服务器。

Storage server作⽤是⽂件存储，客户端上传的⽂件最终存储在Storage服务器上，Storage server没有实现⾃⼰的⽂件系统⽽是利⽤操作系统的⽂件系统来管理⽂件。

可以将Storage称为存储服务器。

Tracker集群FastDFS集群中的Tracker server可以有多台，Tracker server之间是相互平等关系，同时提供服务，Tracker server不存在单点故障。

客户端请求Tracker server采⽤轮询⽅式，如果请求的Tracker⽆法提供服务则换另⼀个Tracker。

Storage集群Storage集群采⽤了分组存储⽅式。

Storage集群由⼀个或多个组构成，集群存储总容量为集群中所有组的存储容量之和。

⼀个组由⼀台或多台存储服务器组成，组内的Storage server之间是平等关系，不同组的Storage server之间不会相互通信，同组内的Storage server之间会相互连接进⾏⽂件同步，从⽽保证同组内每个Storage上的⽂件完全⼀致的。

FASTDFS文件服务器架构方案

FASTDFS文件服务器架构方案FastDFS是一个分布式文件存储系统，主要用于大型网站的文件存储和访问，具有高性能、高可用、高可扩展等特点。

它采用了"一主多备"的架构模式，可以部署在多台服务器上，实现数据的分布式存储和负载均衡。

下面是FastDFS文件服务器的架构方案。

一、架构介绍FastDFS主要由两部分组成：Tracker服务器和Storage服务器。

Tracker服务器负责管理和调度存储服务器，记录文件的存储位置和访问路径信息。

Storage服务器负责实际存储和提供文件的访问。

二、Tracker服务器1. 功能：Tracker服务器主要负责管理和调度Storage服务器，并记录文件的上传和访问路径信息。

2. 部署：可以部署多台Tracker服务器，通过同步和心跳机制保持数据一致性和高可用性。

3. 数据存储：Tracker服务器不保存实际的文件数据，只保存文件的元数据信息，如文件名、文件大小、存储路径等。

4. 负载均衡：Tracker服务器根据Storage服务器的负载情况，将上传请求分发到负载较低的Storage服务器。

三、Storage服务器1. 功能：Storage服务器负责实际的文件存储和提供文件的访问功能。

2. 部署：可以部署多台Storage服务器，每台服务器独立工作，互相之间没有依赖。

每个Storage服务器可以存储多个文件，并且文件会被存储在一些组中的多台服务器上。

3. 数据存储：Storage服务器将文件按照一定的规则切分成多个小文件，存储在本地磁盘上。

文件的元数据信息存储在Tracker服务器上。

4. 负载均衡：Tracker服务器会根据Storage服务器的负载情况，将上传请求分发到负载较低的Storage服务器。

同时，存储在同一组的多台Storage服务器之间也会根据负载情况进行文件的均衡分配。

四、文件上传过程1. 客户端向Tracker服务器发送上传请求，并传递文件的元数据信息。

FASTDFS文件服务器架构方案

文件服务器架构方案
摘要

分布式文件系统的使命 FastDFS如何应对
FastDFS基础应用总结：优缺点其他文件系统的对比

分布式文件系统的使命
冗余备份；负载均衡；线性扩容等机制；大量请求中高可用、高性能；容灾和可拓展性。

FastDFS如何应对
FastDFS的基本架构特征轻量级；分组方式；对等结构。

网络拓扑--实施部署方案
说明：tracker1+squid-1+storage1 使用一台服务器，共2台服务器 2台服务器配置： centOS 6.3x64位 2核+4GB内存 + 1TB存储
达到目标： 1. 扩充空间只需要再增加一组服务器 2. 2台服务器可以均衡负荷访问 3. 2台服务器的数据一致，解决了实时备份
HDFS特点

1 扩容能力（Scalable）：能可靠地（reliably）存储和处理千兆字节（PB）数据。2 成本低（Economical）：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。3 高效率（Efficient）：通过分发数据，hadoop可以在数据所在的节点上并行地（parallel）处理它们，这使得处理非常的快速。4 可靠性（Reliable）：hadoop能自动地维护数据的多份复制，并且在任务失败后能自动地重新部署（redeploy）计算任务。

缺点
自带的http
server端支持不足，storage 扩展建议使用nginx；没有支持python的接口；在服务器配置不统一时不能很好的调节磁盘空间负载压力（非动态）；需要客户端自行记录存储信息，增加了客户端的信息管理量。

fastdfs集群搭建原理

fastdfs集群搭建原理摘要：I.简介- 分布式文件系统FastDFS 介绍- 为什么选择FastDFSII.FastDFS 集群搭建原理- FastDFS 架构设计- 文件存储与命名规则- 数据存储与备份策略- 集群搭建流程- 环境准备- 安装与配置FastDFS 客户端- 部署FastDFS 服务器- 配置FastDFS 集群III.FastDFS 集群管理- 集群监控与性能调优- 数据迁移与负载均衡- 故障检测与恢复IV.总结- FastDFS 集群搭建总结- 展望FastDFS 在分布式存储领域的应用前景正文：I.简介随着互联网的普及和数据量的爆炸式增长，传统的本地文件系统已经无法满足大规模数据存储和管理的需求。

分布式文件系统应运而生，它可以在多台服务器之间分配数据，实现数据的共享和备份。

FastDFS 作为一款优秀的分布式文件系统，具有高性能、高可靠性、易管理等特点，被广泛应用于互联网行业。

本文将详细介绍FastDFS 集群搭建的原理与方法。

II.FastDFS 集群搭建原理FastDFS采用客户端/服务器（C/S）架构，主要由客户端、存储服务器、数据服务器和调度服务器组成。

1.FastDFS 架构设计FastDFS 集群主要包括以下组件：- 客户端：用于上传、下载和删除文件。

- 存储服务器：用于存储文件数据，一个存储服务器可以存储多个文件。

- 数据服务器：用于存储文件的元数据，包括文件名、文件大小、存储服务器地址等。

- 调度服务器：用于协调客户端与存储服务器之间的文件操作。

2.文件存储与命名规则FastDFS 采用文件名+ 路径的方式命名文件，文件名包括组名、域名、端口、文件路径和文件名。

其中，组名和域名用于区分不同的FastDFS 集群，端口用于区分不同的服务器，文件路径和文件名用于唯一标识同一个文件。

3.数据存储与备份策略FastDFS 采用分布式存储策略，将文件数据和元数据存储在不同的服务器上。

fastdfs分享

不同组的存储服务器之间不会相互通信，同组内的存储服务器之间会相互连接进行文件同步。文件同步采用 push方式，接受更新操作的文件称为源文件，其所在 server称为源服务器，其它文件称为备份文件，其它 server称为目标服务器。当文件更新操作发生时，源服务器向目标服务器发起同步，对所有备份文件进行更新。当有新存储服务器加入本组时，由已有的一台存储服务器将其上的所有文件同步给该新增服务器。具体的同步实现在存储服务器中由专门线程根据binlog进行， binlog记录了文件上传、删除等更新操作。
•
FastDFS介绍
FastDFS功能简介： FastDFS功能简介：功能简介
FastDFS是一个开源的轻量级分布式文件系统，它对文件进行管理，功能包括：文件存储、文件同步、文件访问（文件上传、文件下载）等，解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务，如相册网站、视频网站等等。主页地址：/p/fastdfs/
FastDFS介绍
Storage server的文件：：
Storage server直接利用OS的文件系统存储文件。 FastDFS不会对文件进行分块存储，客户端上传的文件和Storage server上的文件一一对应。
FastDFS介绍
Storage server的同步：的同步：的同步
FastDFS介绍
tracker 和storage 的同步：的同步：
（1）如果一个组内增加了新的storage server或者 storage server的状态发生了改变，tracker server都会将 storage server列表同步给该组内的所有storage server。以新增storage server为例，因为新加入的storage server 主动连接tracker server，tracker server发现有新的 storage server加入，就会将该组内所有的storage server 返回给新加入的storage server，并重新将该组的storage server列表返回给该组内的其他storage server。

分布式文件系统FastDFS架构剖析及配置优化

DTCC2012
FastDFS上传文件流程图
1. client询问tracker上传到的storage； 2. tracker返回一台可用的storage； 3. client直接和storage通信完成文件上传，storage返回文件ID。
DTCC2012
FastDFS下载文件流程图
1. client询问tracker可以下载指定文件的storage，参数为文件 ID（组名和文件名）； 2. tracker返回一台可用的storage； 3. client直接和storage通信完成文件下载。
DTCC2012
FastDFS如何做到无索引服务器？
• 上传文件时，文件ID由storage server生成并返回给client • 文件ID包含了组名和文件名，storage server 可以直接根据该文件名定位到文件 • 一个文件ID示例：
DTCC2012
文件名中包含的信息
• 采用Base64编码，包含的字段包括：
DTCC2012
下载文件选择storage的方法
• client询问tracker有哪些storage可以下载指定文件时，tracker返回满足如下四个条件之一的storage：
– (当前时间 -文件创建时间戳) > 同步延迟阀值（如一天） – 文件创建时间戳 < Storage被同步到的时间戳 – 文件创建时间戳 == Storage被同步到的时间戳且(当前时间 -文件创建时间戳) > 文件同步最大时间（如5分钟） – 该文件上传到的源头storage
DTCC2012
FastDFS发展历史
• 2008年4月项目启动，7月发布第一个版本 V1.00，两年的时间内持续升级到V1.29。 • 2010年8月推出V2.00。V2.x最新版本是 V2.13。 • 2011年6月推出V3.00。当前最新版本是 V3.06。V3.x后续会一直进行维护和升级 • V1和V2系列后续不再维护和升级

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

其他文件系统的对比
mogileFS特点 mooseFS特点 TFS特点 Hadoop特点

MogileFS特点
有三个角色：tracker、storage和存
储文件信息的mysql db；使用mysql来存储文件索引等信息，文件同步通过tracker调度和中转；动态冗余，灵活性一般；不支持文件附加属性（meta data）；

网络拓扑--实施部署方案
说明：tracker1+squid-1+storage1 使用一台服务器，共2台服务器 2台服务器配置： centOS 6.3x64位 2核+4GB内存 + 1TB存储
达到目标： 1. 扩充空间只需要再增加一组服务器 2. 2台服务器可以均衡负荷访问 3. 2台服务器的数据一致，解决了实时备份

HTTP下方式二（非tracker跳转）

可以分为两种方式：
跳转方式（redirect）代理方式（proxy）
HTTP下载方式二（redirect）
HTTP下载方式二（proxy）
HTTP下载方式二流程解读
使用扩展模块来解决文件同步延迟问题如果请求文件在当前storage上不存在，通过文件ID反解出源storage，直接请求源storage tracker server上不需要任何web server 在每台storage server上部署web server，直接对外提供HTTP服务目前已提供apache和nginx扩展模块推荐使用扩展模块方式
非tracker跳转方式：Storage server直接提供
文件下载
HTTP下载方式一（tracker跳转）
HTTP下载方式一流程解读
通过Tracker server解决文件同步延迟的问题 Tracker server上需使用内置web server Storage server可以使用内置web server，也可以使用外部web server。推荐使用外部web server，如apache或nginx

不支持文件偏移下载。
MooseFS特点
MooseFS文件系统结构包括以下四种角色：管理服务器 (master)，元数据日志服务器（Metalogger），数据存储服务器 (chunkservers)，客户端（client）；文件分片（64Mb）；多点备份，动态冗余备份；可以自定义文件存储路径；需要保持文件索引，内存消耗较大；对小于64Kb的数据的存储性能不高。
以HTTP方式下载文件
FastDFS分组存储方式，为HTTP方式下载提供了便利 FastDFS支持HTTP方式下载文件，可以使用内置web server或者外部web server 需要解决文件同步延迟的问题可以采取如下两种方式：

tracker跳转方式：通过Tracker server跳转
storage2
storage2’
storage2”
对等结构
FastDFS基础应用
基础操作，数据流程网络拓扑，实际应用容灾，优化，版本升级

文件上传操作
文件下载操作
文件索引解析

文件的存储方式和返回
文件名解析文件名包含：源头storage IP地址和文件创建时间戳、文件大小、随机数、文件拓展名。

总结：优缺点
优缺点（特性）适用业务场景

特性
不记录文件索引信息对等结构，组内所有storage 存储一致采用异步方式将源数据服务器主动push到其他数据库服务器文件不进行分片处理客户端访问时需通过tracker指定storage

优点
支持同一文件只保存一份，节约磁盘空间下载文件支持HTTP协议，可以使用内置 Web Server，也可以和其他Web Server配合使用支持在线扩容，支持主从文件 storage上可以保存文件属性（meta-data）文件不分块存储，上传的文件和OS文件系统中的文件一一对应（实现了软件 RAID ）

缺点
自带的http
server端支持不足，storage 扩展建议使用nginx；没有支持python的接口；在服务器配置不统一时不能很好的调节磁盘空间负载压力（非动态）；需要客户端自行记录存储信息，增加了客户端的信息管理量。
适用的业务场景
某大型网盘（有200个group，存储容量达到了3PB，文件数近1亿） UC （/，存储容量超过10TB）支付宝（/）飞信（/）赶集网（/）淘米网（/）
文件服务器架构方案
摘要

分布式文件系统的使命 FastDFS如何应对
FastDFS基础应用总结：优缺点其他文件系统的对比

பைடு நூலகம் 分布式文件系统的使命
冗余备份；负载均衡；线性扩容等机制；大量请求中高可用、高性能；容灾和可拓展性。

FastDFS如何应对
FastDFS的基本架构特征轻量级；分组方式；对等结构。
附录

参考资料站点：
FastDFS中文：/ FastDFS英文：/p/fastdfs/
HDFS特点

1 扩容能力（Scalable）：能可靠地（reliably）存储和处理千兆字节（PB）数据。2 成本低（Economical）：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。3 高效率（Efficient）：通过分发数据，hadoop可以在数据所在的节点上并行地（parallel）处理它们，这使得处理非常的快速。4 可靠性（Reliable）：hadoop能自动地维护数据的多份复制，并且在任务失败后能自动地重新部署（redeploy）计算任务。

TFS（TaobaoFS）特点

完全扁平化的数据组织结构，抛弃了传统文件系统的目录结构。在块设备基础上建立自有的文件系统，减少 EXT3等文件系统数据碎片带来的性能损耗。单进程管理单块磁盘的方式，摒除RAID5机制。带有HA机制的中央控制节点，在安全稳定和性能复杂度之间取得平衡。尽量缩减元数据大小，将元数据全部加载入内存，提升访问速度。跨机架和IDC的负载均衡和冗余安全策略。完全平滑扩容。

轻量级
服务端只有两角色：跟踪服务器（tracker）和存储服务器（storage）
跟踪服务器
（tracker）
response request
存储服务器
（storage）
分组方式
Tracker servers
group1
storage1
group2
storage1’
group3
storage1”