redbud file system
DESCRIPTION
Redbud File system. 清华大学高性能研究所 存储实验室. 1. 2. 3. 4. 高性能计算存储面临的挑战. 并行文件系统的发展. RedBud 并行文件系统关键技术. RFS 存储系统. Contents. client code. client code. client code. client code. client code. client code. client code. client code. client code. client code. client code. client code. - PowerPoint PPT PresentationTRANSCRIPT
Tsinghua University
HPC 面临的难题
永无休止的性能需求 数据的一致性 空间开销不可预料 数据的可靠性 更高的性价比 大规模的存储管理
性能要求为传统存储带来巨大压力
传统的 LINUX 群集使用 NFS 网络文件系统
CPU 100% 空闲磁盘满 硬件故障
数据丢失
client code
client codeclient code
client code
client codeclient codeclient code
client code
client code
client codeclient code
client code
client codeclient codeclient code
client code
client code
client codeclient code
client code
client codeclient codeclient code
client code
client code
client codeclient code
client code
client codeclient codeclient code
client code
client code
client codeclient code
client code
client codeclient codeclient code
client code
client code
client codeclient code
client code
client codeclient codeclient code
client code
client code
client codeclient code
client code
client codeclient codeclient code
client code
client code
client codeclient code
client code
client codeclient codeclient code
client code
Mgmt
x
x厂商 B
客户端
厂商 A厂商 C
Tsinghua University
并行文件系统的发展 以 NFS 为代表的网络文件系统
NFS 的单服务器结构,数据流和控制流都要经过 NFS server ,逐渐不能满足高性能计算的要求
并行文件系统 一般采用带外的传输模式,分离数据流和控制流 客户端并行的访问存储设备,满足高性能计算 包含三种底层数据格式 Block, File, Object
许多文件系统的可用性并不高 GFS 扩展性不足 HP 、 IBM 、 Panasas 、 EMC 系统价格昂贵 Lustre 需要硬件或外部软件实现可靠性,管理和使用复杂
Tsinghua University
Redbud 文件系统
MDS集群
FC di sks I SCSI targets
客户端
Flexible network
HardwareArchitechture
SAN 文件系统有效解决数据共享、文件共享,以及性能需求等问题:
提供数据集中存储
文件系统中数据 I/O并发访问
Tsinghua University
RedBud 并行文件系统
LINUX 群集
统一命名空间可扩充的分布式文件系统线性性能扩充SAN 存储架构
MDS
统一命名空间 , 条带化高性能分布式文件系统
SANIB
FC SCSI IB
Tsinghua University
Redbud 文件系统 ( RFS ) 面向高性能计算优化的文件系统
• 单磁盘带宽利用率达到 90%• 聚合带宽随客户端与存储设备的增长线性增长
高容量• 单个存储组最大为 16TB• RFS 最大支持 512PB 的存储空间
支持 SCSI 存储协议 支持存储资源在线扩展 支持元数据的 Journal 保护 支持可配置的文件分布策略 统一名字空间
Tsinghua University
体系结构
磁盘阵列
SAN文件系统管理层模块
VFS层
元数据文件系统模块
VFS层
TCP/IP
Client
MDS磁盘
客户端模块
SCSI驱动模块
SANSAN
交互层模块
MDS
数据磁盘
SCSI驱动模块
交互层模块
带外存储架构,客户端直接访问存储设备 RPC 协议保证传输安全 使用高性能的存储设备优化元数据访问性能
Tsinghua University
Redbud
客户端简介 提供文件系统访问的
所有 POSIX 标准接口
具有优化的 RPC 通信
优化数据与元数据缓存,开发局部性
客户端直接以带外方式直接访问存储资源
预分配与预取
良好的恢复机制
MDS 简介 多线程、并发的内核服
务器
Layout 的高效管理方法
针对元数据访问优化的元数据文件系统
文件系统快速恢复功能
高可用的资源管理算法
Tsinghua University
Redbud- 配置
A. 编译 MDS
B. 编译 Client
C. 加载 MDS 模块
D. 格式化 MDS 磁盘
E. 启动 MDS 元数据文件系统
F. 启动 MDS 模块
G. 使用 ADDAG命令根据设置添加数据磁盘
H. 加载 Client 端模块
I. Mount 客户端
Tsinghua University
预分配技术 对大文件的大段连续空间的分配进行了优化,性能更好 提高元数据服务器访问性能,减少 MDS 成为热点的可能 预分配文件存储空间,减少碎片的产生,提高访问效率
提高了大文件的访问性能,并不影响小文件的访问性能
Tsinghua University
灵活的条带化配置 创建跨多个存储节点的条带化 提高大文件的读写性能
A1 A2 A3
A4 A5 A6
A(A1-6)
MDS
充分利用设备性能,达到数 GB/s 的访问
Tsinghua University
支持在线添加存储设备 对计算节点透明 , 不改变命名空间 优化负载均衡,防止新设备成为热点瓶颈
A1 A2 A3
A4 A5 A6 A7
A(A1 A2 。。 A7)
B1
BMDS
新存储和 / 或应用无需宕机时间,无缝启用
Tsinghua University
多种网络支持 - InfiniBand 优势
Hardware
Application
Traditional Model RDMA Kernel Bypass Model
Kernel
User
TCP/IPTransport
Driver
Hardware
Application
Kernel
User
TCP/IPTransport
SocketsLayer
SocketsLayer
IB Driver (Verbs i/f)
User Space Access (e.g. MPI, uDAPL)
RDMA i/f
SDP
IPoIB
RFS 的控制路径存储路径都可以使用 IB 网络,只需要一套网络,减少成本,提高系统的可靠性。IB 性能更高,更低的访问延迟,适合高性能计算。
Tsinghua University
并行分配技术 资源被分成多个 AG( 分配组 ) 进行管理, MDS 间使用分布式锁
进行同步 多个 MDS 并行的进行空间分配,高效且保证一致性
AG AG AG AG AG…
sblk sblk sblk sblk sblk …
B+树
B+树
MDS MDS MDS
解决超大规模存储下性能下降和可靠性的问题
Tsinghua University
RFS 技术亮点
高性能
1
带外结构,提高数据访问的响应时间和性能;很高的单盘访问效率;随着客户端和存储设备线性增长的聚合性能;独有的并行分配技术,消除性能瓶颈
2
支持在线扩展技术;独有的分配技术,防止新加入磁盘成为瓶颈
在线扩展
3
方便的文件分布策略设置,根据不同的需求设置优化的分布策略;管理简单,自动优化
灵活的配置管理
Tsinghua University
与其他典型分布式文件系统对比
GFS Lustre PVFS2 Panasas RFS
高性能应用 O O O O O
不需要额外IO 节点 O X O O O
大规模支持 X O O O O
易于使用管理 X X X O O
价格低廉 O O O X O
MDS 集群 X X X O O
与其他分布式文件系统相比, RFS 提供更高的性价比,更好的性能,更方便的管理
Tsinghua University
线性增长的聚合带宽
测试环境使用 4G FC-SAN 存储阵列,聚合带宽性能上限为430MB/s 左右,图中可以看出,文件系统性能随客户端的增多,线性增长,当 7 个客户端时,达到设备性能上限。
Tsinghua University
和 NFS 、 EXT3 的对比
Redbud 文件系统顺序写和随机写访问的吞吐率则分别比 EXT3 高出 21.2%和 15.4% ,这是因为写过程中Redbud 客户端采用 R-ALPA 机制
Redbud 的子文件和目录创建时间优于 NFS