知乎原帖:
https://zhuanlan.zhihu.com/p/1915434513967847356
工作地点: 北京 / 上海
岗位职责(大致方向)
- 设计并实现高效的并行化技术,支持大规模深度学习模型在多设备间的扩展与分布式训练
- 深入分析和优化各种通信过程,包括但不限于DeepEP、NCCL、NVSHMEM,提升跨设备通信效率、优化关键算子(如 GEMM 矩阵乘法、注意力机制等),针对不同 GPU 架构进行性能调优
- 计算机科学、计算机工程、电子工程或相关专业本科/硕士在读,具备扎实的计算机体系结构和并行计算基础
- 熟悉 CUDA 编程等),针对不同 GPU 架构进行性能调优,具备 GPU 并行编程经验,了解 GPU 架构及其性能优化原理
- 具备良好的 C/C++ 编程能力,能够编写高效、可维护的代码
- 具备通信库(如 DeepEP、NCCL 等)或 RDMA等网络相关知识者优先
- 具备良好的分析和问题解决能力,能够独立钻研并优化复杂系统
工作要求、
- 每周至少保证 3 天现场(on-site)工作时间
欢迎对大模型加速计算与深度学习系统优化充满热情的同学加入我们的团队!
有意者请发送简历到peiyuanz@nvidia.com
点击【轻松参会】小程序全部CCF目录会议查截稿/进投稿交流群
点击【轻松参会】小程序查询最新AI/CS硕博招生/科研实习/大厂招聘/博后教职信息
【轻松参会】为所有CCF收录会议与期刊设立投稿交流群,后台回复会议名/期刊名即可进群。公众号文章会发布近期截稿会议、转投会议推荐、录用率趋势、录用分数分析等重要信息,同时会发布最新的CS/AI招聘招生信息。