社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

Pure Storage FlashBlade运用S3 over RDMA为人工智能/机器学习工作流增强快速对象存储功能

英迈中国 • 2 天前 • 16 次点击  
图片


FlashBlade对象存储即将支持S3 over RDMA,显著提升高要求AI工作负载的性能与成本效益。


当代AI模型不仅需要海量数据,更要彻底革新数据存储和访问的基本方式。纯文本时代一去不复返,音视频数据崛起成为主流。随着多模态数据规模的爆发,对象存储技术正迎来突飞猛进的发展契机。 

对象存储为企业赋予灵活扩展与规模化部署的强大潜能。对象存储利用扁平化命名空间和丰富的元数据功能,赋能企业高效实现大规模存储、管理和分析数据等任务。  

在人工智能/机器学习环境中,存储性能(吞吐量与延迟)是企业维持竞争优势及领先地位的关键。任何瓶颈都可能导致企业在GPU计算时间上损失数百万美元,亦或延误关键模型部署。 

AI训练工作流要求海量速据源源不断从存储系统传输到GPU。一旦这些昂贵的计算引擎无法获取快速数据供给时即会闲置,导致数百万美元投资沦为高成本低效益资产,同时延缓AI创新进程。 

这一瓶颈正是远程直接内存访问(RDMA)技术彻底颠覆格局的风口契机,它在存储与GPU内存之间建立了直接通道。我们很高兴地宣布,Pure Storage®对象存储即将开始支持专为AI环境优化的S3 over RDMA,显著提升AI工作负载的性能和成本效率,满足客户最苛刻的要求



1


RDMA的优势助力 


远程直接内存访问(RDMA)技术大幅提高了人工智能/机器学习环境中的数据传输效率。 

RDMA具备如下优势:

提高吞吐量:数据通过直接内存访问高效传输,显著提升网络传输速度。

减少延迟:RDMA传输由网卡直接处理,完全绕过内核和网络栈。

优化CPU利用率:数据直接从存储器传输到GPU内存(称为“复制卸载”),绕过了CPU回弹缓冲区。 

诚然,快速对象存储是数据收集与处理阶段的首选,常作为AI环境中的数据湖,但借助S3 over RDMA技术提升性能后,该系统现可同时应用于模型训练与推理阶段。 

这就是我们对此解决方案倍感振奋的原因。初步测试结果表明,FlashBlade对象存储结合S3 over RDMA,可为五机箱系统提供约250GB/s的吞吐量。备注:Pure Storage FlashBlade单一命名空间可扩展至10个机箱。

这种方法无需热缓存文件系统,允许GPU直接访问数据湖,因而简化了整体架构。



2


应用方法 


Pure Storage现已研发了一款客户端应用,专为搭载GPU的系统优化设计。这款专用客户端具备两大功能。首先,它会生成通信所需的描述符,并简化数据有效载荷的RDMA传输过程。其次,它会与FlashBlade上的HTTP服务保持通信,以高效传输描述符和S3元数据。

我们将通过S3 GET和S3 PUT这两个操作工作流来阐述RDMA的核心原理。

通过RDMA执行S3 GET操作的目的是绕过标准HTTP协议栈,直接从对象存储中检索数据。此工作流支持按照以下步骤进行数据检索:

内存分配:当应用启动时,Pure Storage客户端会分配内存,并将RDMA内存描述符传递至RDMA客户端。 

请求处理:对于S3 GET请求,则会传递RDMA描述符。

服务器检测:S3 GET请求到达HTTP服务器。它快速识别RDMA描述符,执行元数据处理,然后转发数据至RDMA服务器。 

数据传输:FlashBlade RDMA服务器从对象存储区读取数据,然后通过RDMA写入请求将数据写入步骤1中分配的内存描述符。

响应:FlashBlade通过HTTP服务器和网络结构管理器向客户端响应S3 GET请求。  

通过RDMA执行S3 PUT操作的工作流程允许向对象存储写入数据。这种精简的数据传输过程可有效提高系统吞吐量,具体步骤如下:

内存分配:当应用启动时,Pure Storage客户端会分配内存,并将RDMA内存描述符传递至RDMA客户端。 

缓冲数据:数据写入缓冲区,RDMA描述符传递至S3 PUT请求。

服务器检测:HTTP服务器收到S3 PUT请求。自此开始,它会检测RDMA描述符,执行元数据操作,并将数据详情转发给RDMA服务器。 

数据传输:FlashBlade RDMA服务器通过RDMA读取请求从客户端获取数据,然后写入对象存储。 

响应:FlashBlade系统通过HTTP服务器和网络结构管理器响应客户端的S3 PUT请求。  

如此一来,S3 over RDMA在读取和写入数据时绕过了标准HTTP协议栈,由此提高了系统的总体吞吐量,确保GPU更快地获取数据。


图片


纵观AI工作负载领域,FlashBlade深受100家客户的信赖。FlashBlade产品现已广泛获得各种AI认证,包括NVIDIA DGX SuperPOD和NVIDIA DGX BasePOD以及面向NVIDIA Cloud合作伙伴的高性能存储认证。旗下GenAI Pods和FlashStack® for AI等一体化解决方案也通过了AI领域认证。 

在S3 over RDMA的上述优势基础上,结合FlashBlade对象存储的广泛适用性、敏捷性、易用性和EB级可扩展性,您就能获得功能完备的一站式AI存储解决方案,可高效管理和分析海量数据集,亦支持模型训练与推理。 

对FlashBlade的S3 over RDMA支持预计将于今年晚些时候推出。欲了解有关此功能的更多详情,请联系您的Pure Storage代表。



图片

END




Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/183167
 
16 次点击