Pure Storage FlashBlade运用S3 over RDMA为人工智能/机器学习工作流增强快速对象存储功能

FlashBlade对象存储即将支持S3 over RDMA，显著提升高要求AI工作负载的性能与成本效益。

当代AI模型不仅需要海量数据，更要彻底革新数据存储和访问的基本方式。纯文本时代一去不复返，音视频数据崛起成为主流。随着多模态数据规模的爆发，对象存储技术正迎来突飞猛进的发展契机。

对象存储为企业赋予灵活扩展与规模化部署的强大潜能。对象存储利用扁平化命名空间和丰富的元数据功能，赋能企业高效实现大规模存储、管理和分析数据等任务。

在人工智能/机器学习环境中，存储性能（吞吐量与延迟）是企业维持竞争优势及领先地位的关键。任何瓶颈都可能导致企业在GPU计算时间上损失数百万美元，亦或延误关键模型部署。

AI训练工作流要求海量速据源源不断从存储系统传输到GPU。一旦这些昂贵的计算引擎无法获取快速数据供给时即会闲置，导致数百万美元投资沦为高成本低效益资产，同时延缓AI创新进程。

这一瓶颈正是远程直接内存访问(RDMA)技术彻底颠覆格局的风口契机，它在存储与GPU内存之间建立了直接通道。我们很高兴地宣布，Pure Storage®对象存储即将开始支持专为AI环境优化的S3 over RDMA，显著提升AI工作负载的性能和成本效率，满足客户最苛刻的要求。

RDMA的优势助力

远程直接内存访问(RDMA)技术大幅提高了人工智能/机器学习环境中的数据传输效率。

RDMA具备如下优势：

提高吞吐量：数据通过直接内存访问高效传输，显著提升网络传输速度。

减少延迟：RDMA传输由网卡直接处理，完全绕过内核和网络栈。

优化CPU利用率：数据直接从存储器传输到GPU内存（称为“复制卸载”），绕过了CPU回弹缓冲区。

诚然，快速对象存储是数据收集与处理阶段的首选，常作为AI环境中的数据湖，但借助S3 over RDMA技术提升性能后，该系统现可同时应用于模型训练与推理阶段。

这就是我们对此解决方案倍感振奋的原因。初步测试结果表明，FlashBlade对象存储结合S3 over RDMA，可为五机箱系统提供约250GB/s的吞吐量。备注：Pure Storage FlashBlade单一命名空间可扩展至10个机箱。

这种方法无需热缓存文件系统，允许GPU直接访问数据湖，因而简化了整体架构。

应用方法

Pure Storage现已研发了一款客户端应用，专为搭载GPU的系统优化设计。这款专用客户端具备两大功能。首先，它会生成通信所需的描述符，并简化数据有效载荷的RDMA传输过程。其次，它会与FlashBlade上的HTTP服务保持通信，以高效传输描述符和S3元数据。

我们将通过S3 GET和S3 PUT这两个操作工作流来阐述RDMA的核心原理。

通过RDMA执行S3 GET操作的目的是绕过标准HTTP协议栈，直接从对象存储中检索数据。此工作流支持按照以下步骤进行数据检索：

内存分配：当应用启动时，Pure Storage客户端会分配内存，并将RDMA内存描述符传递至RDMA客户端。

请求处理：对于S3 GET请求，则会传递RDMA描述符。

服务器检测：S3 GET请求到达HTTP服务器。它快速识别RDMA描述符，执行元数据处理，然后转发数据至RDMA服务器。

数据传输：FlashBlade RDMA服务器从对象存储区读取数据，然后通过RDMA写入请求将数据写入步骤1中分配的内存描述符。

响应：FlashBlade通过HTTP服务器和网络结构管理器向客户端响应S3 GET请求。

通过RDMA执行S3 PUT操作的工作流程允许向对象存储写入数据。这种精简的数据传输过程可有效提高系统吞吐量，具体步骤如下：

内存分配：当应用启动时，Pure Storage客户端会分配内存，并将RDMA内存描述符传递至RDMA客户端。

缓冲数据：数据写入缓冲区，RDMA描述符传递至S3 PUT请求。

服务器检测：HTTP服务器收到S3 PUT请求。自此开始，它会检测RDMA描述符，执行元数据操作，并将数据详情转发给RDMA服务器。

数据传输：FlashBlade RDMA服务器通过RDMA读取请求从客户端获取数据，然后写入对象存储。

响应：FlashBlade系统通过HTTP服务器和网络结构管理器响应客户端的S3 PUT请求。

如此一来，S3 over RDMA在读取和写入数据时绕过了标准HTTP协议栈，由此提高了系统的总体吞吐量，确保GPU更快地获取数据。

纵观AI工作负载领域，FlashBlade深受100家客户的信赖。FlashBlade产品现已广泛获得各种AI认证，包括NVIDIA DGX SuperPOD和NVIDIA DGX BasePOD以及面向NVIDIA Cloud合作伙伴的高性能存储认证。旗下GenAI Pods和FlashStack® for AI等一体化解决方案也通过了AI领域认证。

在S3 over RDMA的上述优势基础上，结合FlashBlade对象存储的广泛适用性、敏捷性、易用性和EB级可扩展性，您就能获得功能完备的一站式AI存储解决方案，可高效管理和分析海量数据集，亦支持模型训练与推理。

对FlashBlade的S3 over RDMA支持预计将于今年晚些时候推出。欲了解有关此功能的更多详情，请联系您的Pure Storage代表。

END