Py学习  »  Python

开发者新闻 | 使用 nvmath-python 中的通用稀疏张量简化稀疏深度学习

NVIDIA企业开发者社区 • 昨天 • 25 次点击  

使用 nvmath-python 中的通用稀疏张量简化稀疏深度学习

在之前的一篇文章中,我们介绍了通用稀疏张量(Universal Sparse Tensor,UST),使开发人员能够将张量的稀疏性与其内存布局解耦,以获得更大的灵活性和性能。我们很高兴地宣布将 UST 集成到 nvmath-python v0.9.0 中,以加速稀疏科学和深度学习应用程序。

这篇文章提供了关键 UST 特性的演练、实现细节和性能概述,包括:

零成本互操作性:与 PyTorch,SciPy 和 CuPy 进行无数据移动转换。

自定义格式:定义新的稀疏性方案。

多态操作:稀疏性无关函数自动使用优化的内核或生成自定义稀疏代码,从而消除了手动编写新格式的需要。

PyTorch注入:轻松地将 UST 性能优势注入到现有的 PyTorch 模型中。

透明缓存:避免 JIT/LTO 重新编译和重新规划—在随后重复执行相同操作时分摊开销。

https://developer.nvidia.com/blog/simplify-sparse-deep-learning-with-universal-sparse-tensor-in-nvmath-python/


利用 NVIDIA Megatron 推进新兴优化器以加速 LLM 训练

像 Shampoo 这样的高阶优化算法已经有效地应用于神经网络训练至少十年了。这些方法最近在应用于领先的 LLM 时取得了显著的成功。特别是,Muon(牛顿-舒尔茨正交化的矩量法)被用于训练当今一些最好的开源模型,包括 Kimi K2 和 GLM-5。

这篇文章解释了 NVIDIA 如何为 Muon 和其他尖端的新兴优化器提供全面的支持,以及使它们能够训练大规模模型的技术。

在 NVIDIA GB300 NVL72 上的 Muon 训练性能

表1总结了 Kimi K2 和 Qwen3 30B 模型在 NVIDIA GB300 NVL72 系统上使用Muon 和 AdamW 优化器的训练吞吐量。使用将在下一节中介绍的技术,结果表明,与 AdamW 相比,使用 Muon 优化器的训练性能损失非常小。在计算牛顿-舒尔茨迭代中矩阵乘法的 FLOPs 时,Muon 的模型 FLOPs 利用率 ( MFU ) 更高。

这些测量是使用 NVIDIA NeMo Megatron Bridge 26.02 实现的,这是 NeMo 框架中的 PyTorch 原生库,为流行的 LLM 和 VLM 模型提供预训练,SFT 和 LoRA。NVIDIA 团队使用 256 块 NVIDIA GB300 GPU 配合 PP4DP64EP64 进行 Kimi K2 训练,使用 8 块 NVIDIA GB300 GPU 配合 DP8EP8 进行 Qwen3 30B-A3B 训练。

https://developer.nvidia.com/blog/advancing-emerging-optimizers-for-accelerated-llm-training-with-nvidia-megatron/


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/196047