社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

显著提升深度学习 GPU 利用率,阿里云拿下国际网络顶会优胜奖!

阿里云 • 1 年前 • 802 次点击  


国际网络通信顶会SIGCOMM近日闭幕

阿里云共有7篇论文入选

其中,AI网络调度成果论文

斩获SIGCOMM 2024优胜奖!


图|阿里云获 SIGCOMM 2024 优胜奖论文


SIGCOMM 评审专家认为 ——

Crux解决了多租环境深度学习中的一个基础性问题,通过理论创新和实践分析设计了一套高效的解决方案,因此授予 Crux 成果论文SIGCOMM优胜奖。


此次,获奖论文Crux: GPU-Efficient Communication Scheduling for Deep Learning Training 介绍了阿里云自研的集合通信优化调度器 Crux,其可提升高达 14.8%的GPU 计算利用率。


阿里云网络研发团队从实际业务环境的深度学习任务出发,发现任务之间存在通信竞争,是GPU集群的训练效率不高的基础性原因。


对此,团队从学术理论层面突破,证明了GPU利用率问题与基于任务优先级的通信调度问题是近似的,进而创新设计了集合通信优化调度器 Crux,实现更高效的选路和优先级分配机制,提升了 GPU 计算利用率。


图|阿里云自研集合通信优化调度器 Crux,

提升 GPU 计算利用率


实验结果表明,在96卡GPU测试环境中,Crux可以提高GPU计算利用率 8.3% 至 14.8%。在基于大规模生产跟踪仿真中,与Sincronia、TACCL和 CASSINI等已有方案相比,Crux可以将GPU计算利用率最多提高23%。据了解,Crux已被集成到阿里云自研通信库,实现规模化使用。


图|阿里云网络研发团队与大会程序委员会主席合影


从 2019 年以来,阿里云有近30篇成果论文先后发表在 SIGCOMM上,为国内机构之首。今年,阿里云有7篇论文入选SIGCOMM。除上述介绍的Crux论文外,今年关于智算集群网络架构HPN 7.0的成果论文,成为 SIGCOMM在AI智算集群网络架构领域的首篇论文。


HPN7.0架构面向AI时代对网络高性能需求而研发,针对大模型训练场景下规模大、大流多、突发强烈、稳定性需求高的特点,创新性地设计了“双上联+多轨+双平面”的网络架构,并配合最新一代的51.2Tbps单芯片以太网交换机和400G 高性能网卡,自研Solar-RDMA和ACCL通信库,实现了单层千卡、两层万卡的高性能和高稳定互联。


图|HPN7.0架构:为AI设计的高性能网络集群


ACM SIGCOMM是计算机网络通信领域历史最悠久、最权威的顶级学术会议,至今已有 50 多年的历史。SIGCOMM对论文质量要求极高,成果也被学术界和业界视为网络通信领域未来发展的风向标,现在耳熟能详的各种协议、技术几乎都发表在 SIGCOMM上。2024 年度的SIGCOMM 仅录用 62 篇论文, 录取率不到17%,为近五年最低。SIGCOMM 2024 优胜奖(Honorable Mentions,也即最佳论文候选),是对论文成果的业务创新价值和行业影响力的综合评价。




/ END /


相关阅读

Related reading

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/173192