fastDFS简介（一）-天翼云

一、fastDFS简介

FastDFS 是一个开源的轻量级高性能分布式文件系统（DFS）。它的主要功能包括：文件存储，文件同步和文件访问，以及高容量和负载平衡。主要解决了海量数据存储问题，特别适合以中小文件（建议范围：4KB < file_size <500MB）为载体的在线服务。

FastDFS是一款开源的轻量级分布式文件系统纯C实现，支持Linux、FreeBSD等UNIX系统类google FS，不是通用的文件系统，只能通过专有API访问；

FastDFS 系统有三个角色：跟踪服务器(Tracker Server)、存储服务器(Storage Server)和客户端(Client)。

Tracker Server：跟踪服务器，主要做调度工作，起到均衡的作用；在内存中记录集群中所有存储组和存储服务器的状态信息，是客户端和数据服务器交互的枢纽。相比GFS中的master更为精简，不记录文件索引信息，占用的内存量很少； Tracker是FastDFS的协调者，负责管理所有的 storage server和 group，每个 storage 在启动后会连接 Tracker，告知自己所属 group 等信息，并保持周期性心跳。

Storage Server：存储服务器，主要提供容量和备份服务；文件和文件属性（meta data）都保存到存储服务器上。Storage server直接利用OS的文件系统调用管理文件；以 group 为单位，每个 group 内可以有多台 storage server，数据互为备份。也就是一个分组中有多台服务器，但是每台服务器中的数据都是一样的，作为高可用的作用。

Client：客户端，上传下载数据的服务器，也就是我们自己的项目所部署在的服务器。

fastDFS简介（一）

Tracker相当于FastDFS的大脑，不论是上传还是下载都是通过tracker来分配资源；客户端一般可以使用ngnix等静态服务器来调用或者做一部分的缓存；存储服务器内部分为卷（或者叫做组），卷于卷之间是平行的关系，可以根据资源的使用情况随时增加，卷内服务器文件相互同步备份，以达到容灾的目的。

二、优缺点

优点 :

存储端一台主机一台备机, 我们平时往主机中存储, 主机会将数据同步到备机, 主机和备机中存储的内容一模一样,这叫做冗余存储起到了容灾的效果.；
主机和备机之间有心跳检测机制, 一旦主机宕机, 被替代主机工作, 有高可用的特性；
主机和备机为一组, 理论上可以无限扩展, 所以理论上存储端集群中存储容量是无限大的, 扩展性好.
管理端有负载均衡的特性, 会在高并发的时候, 均匀分配请求到每一台存储端服务器上, 所以我们的fastDFS有负载均衡特性, 可以承载高并发存储任务.;

缺点 :
结构复杂, 需要的服务器很多, 在实际线上环境中成本比较高.

三、fastDFS的存储策略

为了支持大容量，存储节点（服务器）采用了分卷（或分组）的组织方式。存储系统由一个或多个卷组成，卷与卷之间的文件是相互独立的，所有卷的文件容量累加就是整个存储系统中的文件容量。一个卷可以由一台或多台存储服务器组成，一个卷下的存储服务器中的文件都是相同的，卷中的多台存储服务器起到了冗余备份和负载均衡的作用。

在卷中增加服务器时，同步已有的文件由系统自动完成，同步完成后，系统自动将新增服务器切换到线上提供服务。当存储空间不足或即将耗尽时，可以动态添加卷。只需要增加一台或多台服务器，并将它们配置为一个新的卷，这样就扩大了存储系统的容量。

四、上传机制

Storage Server会定期的向Tracker Server发送自己的存储信息。当Tracker Server Cluster中的Tracker Server不止一个时，各个Tracker之间的关系是对等的，所以客户端上传时可以选择任意一个Tracker。当Tracker收到客户端上传文件的请求时，会为该文件分配一个可以存储文件的group，当选定了group后就要决定给客户端分配group中的哪一个storage server。当分配好storage server后，客户端向storage发送写文件请求，storage将会为文件分配一个数据存储目录。然后为文件分配一个fileid，最后根据以上的信息生成文件名存储文件

内部机制如下：

1、选择tracker server

当集群中不止一个tracker server时，由于tracker之间是完全对等的关系，客户端在upload文件时可以任意选择一个trakcer。选择存储的group 当tracker接收到upload file的请求时，会为该文件分配一个可以存储该文件的group，支持如下选择group的规则：

1、Round robin，所有的group间轮询
2、Specified group，指定某一个确定的group
3、Load balance，剩余存储空间多多group优先

2、选择storage server

当选定group后，tracker会在group内选择一个storage server给客户端，支持如下选择storage的规则：

1、Round robin，在group内的所有storage间轮询
2、First server ordered by ip，按ip排序
3、First server ordered by priority，按优先级排序（优先级在storage上配置）

五、下载机制

客户端带上文件名信息请求Tracker服务获取到存储服务器的ip地址和端口，然后客户端根据返回的IP地址和端口号请求下载文件，存储服务器接收到请求后返回文件给客户端。

fastDFS简介（一）
跟upload file一样，在download file时客户端可以选择任意tracker server。tracker发送download请求给某个tracker，必须带上文件名信息，tracke从文件名中解析出文件的group、大小、创建时间等信息，然后为该请求选择一个storage用来服务读请求。由于group内的文件同步时在后台异步进行的，所以有可能出现在读到时候，文件还没有同步到某些storage server上，为了尽量避免访问到这样的storage，
tracker按照如下规则选择group内可读的storage。

1、该文件上传到的源头storage - 源头storage只要存活着，肯定包含这个文件，源头的地址被编码在文件名中。
2、文件创建时间戳==storage被同步到的时间戳且(当前时间-文件创建时间戳) > 文件同步最大时间（如5分钟) - 文件创建后，认为经过最大同步时间后，肯定已经同步到其他storage了。
3、文件创建时间戳 < storage被同步到的时间戳。 - 同步时间戳之前的文件确定已经同步了
4、(当前时间-文件创建时间戳) > 同步延迟阀值（如一天）。 - 经过同步延迟阈值时间，认为文件肯定已经同步了。

六、FastDFS的文件同步

写文件时，客户端将文件写至group内一个storage server即认为写文件成功，storage server写完文件后，会由后台线程将文件同步至同group内其他的storage server。

每个storage写文件后，同时会写一份binlog，binlog里不包含文件数据，只包含文件名等元信息，这份binlog用于后台同步，storage会记录向group内其他storage同步的进度，以便重启后能接上次的进度继续同步；进度以时间戳的方式进行记录，所以最好能保证集群内所有server的时钟保持同步。

storage的同步进度会作为元数据的一部分汇报到tracker上，tracke在选择读storage的时候会以同步进度作为参考。

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

fastDFS简介（一）

fastDFS简介（一）

一、fastDFS简介

二、优缺点

三、fastDFS的存储策略

四、上传机制

五、下载机制

六、FastDFS的文件同步

相关文章

fastDFS异常的处理（四）

作者介绍

最新文章

fastDFS异常的处理（四）

热门文章

fastDFS异常的处理（四）

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

fastDFS异常的处理（四）

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

fastDFS简介（一）

fastDFS简介（一）

一、fastDFS简介

二、优缺点

三、fastDFS的存储策略

四、上传机制

五、下载机制

六、FastDFS的文件同步

相关文章

fastDFS异常的处理（四）

作者介绍

最新文章

fastDFS异常的处理（四）

热门文章

fastDFS异常的处理（四）

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

fastDFS异常的处理（四）