redbud file system

23
Tsinghua Redbud File system 清清清清清清清清清清 清清清清清

Upload: mills

Post on 05-Jan-2016

102 views

Category:

Documents


7 download

DESCRIPTION

Redbud File system. 清华大学高性能研究所 存储实验室. 1. 2. 3. 4. 高性能计算存储面临的挑战. 并行文件系统的发展. RedBud 并行文件系统关键技术. RFS 存储系统. Contents. client code. client code. client code. client code. client code. client code. client code. client code. client code. client code. client code. client code. - PowerPoint PPT Presentation

TRANSCRIPT

Tsinghua

Redbud File system

清华大学高性能研究所存储实验室

Tsinghua University

Contents

高性能计算存储面临的挑战1

并行文件系统的发展2

RedBud 并行文件系统关键技术

3

RFS 存储系统4

Tsinghua University

HPC 面临的难题

永无休止的性能需求 数据的一致性 空间开销不可预料 数据的可靠性 更高的性价比 大规模的存储管理

性能要求为传统存储带来巨大压力

传统的 LINUX 群集使用 NFS 网络文件系统

CPU 100% 空闲磁盘满 硬件故障

数据丢失

client code

client codeclient code

client code

client codeclient codeclient code

client code

client code

client codeclient code

client code

client codeclient codeclient code

client code

client code

client codeclient code

client code

client codeclient codeclient code

client code

client code

client codeclient code

client code

client codeclient codeclient code

client code

client code

client codeclient code

client code

client codeclient codeclient code

client code

client code

client codeclient code

client code

client codeclient codeclient code

client code

client code

client codeclient code

client code

client codeclient codeclient code

client code

client code

client codeclient code

client code

client codeclient codeclient code

client code

Mgmt

x

x厂商 B

客户端

厂商 A厂商 C

Tsinghua University

并行文件系统的发展 以 NFS 为代表的网络文件系统

NFS 的单服务器结构,数据流和控制流都要经过 NFS server ,逐渐不能满足高性能计算的要求

并行文件系统 一般采用带外的传输模式,分离数据流和控制流 客户端并行的访问存储设备,满足高性能计算 包含三种底层数据格式 Block, File, Object

许多文件系统的可用性并不高 GFS 扩展性不足 HP 、 IBM 、 Panasas 、 EMC 系统价格昂贵 Lustre 需要硬件或外部软件实现可靠性,管理和使用复杂

Tsinghua University

Redbud 文件系统

MDS集群

FC di sks I SCSI targets

客户端

Flexible network

HardwareArchitechture

SAN 文件系统有效解决数据共享、文件共享,以及性能需求等问题:

提供数据集中存储

文件系统中数据 I/O并发访问

Tsinghua University

RedBud 并行文件系统

LINUX 群集

统一命名空间可扩充的分布式文件系统线性性能扩充SAN 存储架构

MDS

统一命名空间 , 条带化高性能分布式文件系统

SANIB

FC SCSI IB

Tsinghua University

Redbud 文件系统 ( RFS ) 面向高性能计算优化的文件系统

• 单磁盘带宽利用率达到 90%• 聚合带宽随客户端与存储设备的增长线性增长

高容量• 单个存储组最大为 16TB• RFS 最大支持 512PB 的存储空间

支持 SCSI 存储协议 支持存储资源在线扩展 支持元数据的 Journal 保护 支持可配置的文件分布策略 统一名字空间

Tsinghua University

体系结构

磁盘阵列

SAN文件系统管理层模块

VFS层

元数据文件系统模块

VFS层

TCP/IP

Client

MDS磁盘

客户端模块

SCSI驱动模块

SANSAN

交互层模块

MDS

数据磁盘

SCSI驱动模块

交互层模块

带外存储架构,客户端直接访问存储设备 RPC 协议保证传输安全 使用高性能的存储设备优化元数据访问性能

Tsinghua University

Redbud

客户端简介 提供文件系统访问的

所有 POSIX 标准接口

具有优化的 RPC 通信

优化数据与元数据缓存,开发局部性

客户端直接以带外方式直接访问存储资源

预分配与预取

良好的恢复机制

MDS 简介 多线程、并发的内核服

务器

Layout 的高效管理方法

针对元数据访问优化的元数据文件系统

文件系统快速恢复功能

高可用的资源管理算法

Tsinghua University

Redbud- 配置

A. 编译 MDS

B. 编译 Client

C. 加载 MDS 模块

D. 格式化 MDS 磁盘

E. 启动 MDS 元数据文件系统

F. 启动 MDS 模块

G. 使用 ADDAG命令根据设置添加数据磁盘

H. 加载 Client 端模块

I. Mount 客户端

Tsinghua University

关键技术

MDS 集群

多种网络支持

在线扩展技术 RFS 并行文件系统技术亮点提供

更好的性能

预分配

可配置分布策略

并行分配技术

Tsinghua University

预分配技术 对大文件的大段连续空间的分配进行了优化,性能更好 提高元数据服务器访问性能,减少 MDS 成为热点的可能 预分配文件存储空间,减少碎片的产生,提高访问效率

提高了大文件的访问性能,并不影响小文件的访问性能

Tsinghua University

MDS 自动迁移 当有 MDS 出现故障的时候,其他 MDS 自动接管其工作,实现

自动任务迁移

MDS

MDS

x

向上透明,故障 MDS 实现自动无缝迁移

Tsinghua University

灵活的条带化配置 创建跨多个存储节点的条带化 提高大文件的读写性能

A1 A2 A3

A4 A5 A6

A(A1-6)

MDS

充分利用设备性能,达到数 GB/s 的访问

Tsinghua University

支持在线添加存储设备 对计算节点透明 , 不改变命名空间 优化负载均衡,防止新设备成为热点瓶颈

A1 A2 A3

A4 A5 A6 A7

A(A1 A2 。。 A7)

B1

BMDS

新存储和 / 或应用无需宕机时间,无缝启用

Tsinghua University

多种网络支持 - InfiniBand 优势

Hardware

Application

Traditional Model RDMA Kernel Bypass Model

Kernel

User

TCP/IPTransport

Driver

Hardware

Application

Kernel

User

TCP/IPTransport

SocketsLayer

SocketsLayer

IB Driver (Verbs i/f)

User Space Access (e.g. MPI, uDAPL)

RDMA i/f

SDP

IPoIB

RFS 的控制路径存储路径都可以使用 IB 网络,只需要一套网络,减少成本,提高系统的可靠性。IB 性能更高,更低的访问延迟,适合高性能计算。

Tsinghua University

并行分配技术 资源被分成多个 AG( 分配组 ) 进行管理, MDS 间使用分布式锁

进行同步 多个 MDS 并行的进行空间分配,高效且保证一致性

AG AG AG AG AG…

sblk sblk sblk sblk sblk …

B+树

B+树

MDS MDS MDS

解决超大规模存储下性能下降和可靠性的问题

Tsinghua University

RFS 技术亮点

高性能

1

带外结构,提高数据访问的响应时间和性能;很高的单盘访问效率;随着客户端和存储设备线性增长的聚合性能;独有的并行分配技术,消除性能瓶颈

2

支持在线扩展技术;独有的分配技术,防止新加入磁盘成为瓶颈

在线扩展

3

方便的文件分布策略设置,根据不同的需求设置优化的分布策略;管理简单,自动优化

灵活的配置管理

Tsinghua University

与其他典型分布式文件系统对比

GFS Lustre PVFS2 Panasas RFS

高性能应用 O O O O O

不需要额外IO 节点 O X O O O

大规模支持 X O O O O

易于使用管理 X X X O O

价格低廉 O O O X O

MDS 集群 X X X O O

与其他分布式文件系统相比, RFS 提供更高的性价比,更好的性能,更方便的管理

Tsinghua University

应用方案 SAN + GE

LINUX 群集 MDS

SAN Switch

FC 磁盘阵列SCSI 磁盘阵列iSCSI 磁盘阵列

SATA-FC 磁盘阵列

Tsinghua University

线性增长的聚合带宽

测试环境使用 4G FC-SAN 存储阵列,聚合带宽性能上限为430MB/s 左右,图中可以看出,文件系统性能随客户端的增多,线性增长,当 7 个客户端时,达到设备性能上限。

Tsinghua University

和 NFS 、 EXT3 的对比

Redbud 文件系统顺序写和随机写访问的吞吐率则分别比 EXT3 高出 21.2%和 15.4% ,这是因为写过程中Redbud 客户端采用 R-ALPA 机制

Redbud 的子文件和目录创建时间优于 NFS

Tsinghua