直播预告 | 3月29日9:00，文勇刚教授介绍GPU数据中心大规模深度学习负载调度

MARCH

9:00-10:00

面对人工智能日益增长的问题解决能力和泛化能力需求，现代深度学习模型变得越来越庞大且复杂，需要消耗大量计算资源和时间。利用大规模GPU数据中心进行模型训练和推理优化已成为常见做法。然而，由于深度学习任务的高计算需求和底层硬件的异构性，GPU数据中心管理和调度任务面临多重挑战。

第十三期AIRS-TNSE联合杰出讲座系列活动，AIRS有幸邀请到南洋理工大学的文勇刚教授为我们介绍GPU数据中心大规模深度学习负载调度，并分享他在这个领域内的相关研究成果与有趣发现。

执行主席

Executive Chair

黄建伟

香港中文大学（深圳）校长讲座教授、协理副校长

AIRS副院长兼群体智能中心主任

IEEE TNSE主编

IEEE Fellow

AAIA Fellow

报告嘉宾

Speaker

文勇刚

南洋理工大学计算机科学与工程学院校长讲席教授、研究生院院长

新加坡工程院院士

IEEE TMM主编

IEEE Fellow

文勇刚，南洋理工大学计算机科学与工程学院校长讲席教授，于2008年在美国剑桥的麻省理工学院获得电子工程和计算机科学博士学位（辅修西方文学），目前担任新加坡南洋理工大学副教务长（研究生教育）和研究生院院长。他曾担任新加坡南洋理工大学校长办公室协理副校长（能力建设）（2023年）、工程学院副院长（研究）（2018-2023年）、南洋科技创业中心代理主任（2017-2019年）和计算机科学与工程学院助理主席（创新）（2016-2018年）。文教授在顶级期刊和著名会议上发表了300多篇论文。他的系统研究获得了全球认可，他在多屏云社交电视方面的工作曾受到全球媒体的关注（来自29个国家的1600多篇新闻文章），并获得2013年东盟ICT奖（金奖）。凭借在数据中心认知数字孪生方面的杰出工作，他获得了2015年数据中心动力学奖- APAC（数据中心行业的“奥斯卡”奖）、2016年东盟ICT奖（金奖）、2020年IEEE TCCPS工业技术卓越奖、2021年W.Media APAC云与数据中心技术领袖奖，以及2022年新加坡计算机学会数字成就技术领袖奖。他是2019年南洋研究奖获得者和2016年南洋创新创业奖唯一获得者，这两个奖项都是南洋理工大学的最高荣誉。他曾获得多个最佳论文奖，包括2019年IEEE TCSVT和2015年IEEE Multimedia的最佳论文奖，以及多个国际会议的最佳论文奖，包括2023年ASPLOS、2016年IEEE Globecom、2016年IEEE Infocom MuSIC Workshop、2015年EAI Chinacom、2014年IEEE WCSP、2013年IEEE Globecom和2012年IEEE EUC。他是IEEE Transactions on Multimedia （TMM）的主编，担任或曾担任多个IEEE和ACM Transactions的编辑委员会成员，并当选为IEEE ComSoc多媒体通信技术委员会主席（2014-2016）。文教授的主要研究方向为云计算、绿色数据中心、大数据分析、多媒体网络和移动计算。他是IEEE会士、新加坡工程院院士，也是ACM的杰出成员。

报告介绍

Topic & Abstract

Scheduling Deep Learning Workloads at Scale in GPU Data Centers

To meet the ever-growing demand of problem-solving capability and generalizability via artificial intelligence, modern deep learning models are becoming larger and more sophisticated, while at the cost of huge amounts of computing resources (e.g., GPU) and prolonged training time. it has become a common practice to leverage large-scale GPU data centers (i.e., AI data centers) to optimize and accelerate model training and inference. However, the management and scheduling of these deep learning workloads in the GPU data centers present numerous challenges, due to their high computational requirements, distinct and diverse runtime characteristics, and heterogeneous nature of the underlying hardware.

In this talk, we will investigate deep learning workload scheduling accelerating, training execution over GPU datacenters, with a multifold objective of improving resource utilization, enhancing users’ experience, and easing operators’ management. Specifically, we will introduce novel and practical methodologies and system designs to achieve those goals. These solutions are highly integrated to tackle different challenges, paving the way for optimal utilization of GPU resources and accelerated progress in deep learning applications.

活动时间

2024年3月29日（周五） 9:00-10:00

参与方式

本次活动设多个直播渠道，观众可通过以下任一渠道观看直播。

AIRS-TNSE 联合杰出讲座系列

AIRS-TNSE Joint Distinguished Seminar Series

IEEE Transactions on Network Science and Engineering（简称IEEE TNSE）是位于JCR 1区的网络科学领域顶级期刊，致力于探讨网络科学的理论和应用，以及构成网络系统中各元素之间的相互联系。IEEE TNSE被SCIE数据库收录，位于 JCR 1 区，2023年影响因子为6.6。

AIRS-TNSE联合杰出讲座系列由IEEE TNSE期刊和深圳市人工智能与机器人研究院（AIRS）联合主办，香港中文大学（深圳）、网络通信与经济学实验室（NCEL）、IEEE联合支持。该系列活动旨在汇聚网络科学与工程领域的国际顶级专家学者分享前沿科技成果。

*特别鸣谢成锦提供相关内容