开发者新闻 | 使用 nvmath-python 中的通用稀疏张量简化稀疏深度学习

使用 nvmath-python 中的通用稀疏张量简化稀疏深度学习

在之前的一篇文章中，我们介绍了通用稀疏张量（Universal Sparse Tensor，UST），使开发人员能够将张量的稀疏性与其内存布局解耦，以获得更大的灵活性和性能。我们很高兴地宣布将 UST 集成到 nvmath-python v0.9.0 中，以加速稀疏科学和深度学习应用程序。

这篇文章提供了关键 UST 特性的演练、实现细节和性能概述，包括：

零成本互操作性：与 PyTorch，SciPy 和 CuPy 进行无数据移动转换。

自定义格式：定义新的稀疏性方案。

多态操作：稀疏性无关函数自动使用优化的内核或生成自定义稀疏代码，从而消除了手动编写新格式的需要。

PyTorch注入：轻松地将 UST 性能优势注入到现有的 PyTorch 模型中。

透明缓存：避免 JIT/LTO 重新编译和重新规划—在随后重复执行相同操作时分摊开销。

https://developer.nvidia.com/blog/simplify-sparse-deep-learning-with-universal-sparse-tensor-in-nvmath-python/

利用 NVIDIA Megatron 推进新兴优化器以加速 LLM 训练

像 Shampoo 这样的高阶优化算法已经有效地应用于神经网络训练至少十年了。这些方法最近在应用于领先的 LLM 时取得了显著的成功。特别是，Muon（牛顿-舒尔茨正交化的矩量法）被用于训练当今一些最好的开源模型，包括 Kimi K2 和 GLM-5。

这篇文章解释了 NVIDIA 如何为 Muon 和其他尖端的新兴优化器提供全面的支持，以及使它们能够训练大规模模型的技术。

在 NVIDIA GB300 NVL72 上的 Muon 训练性能

表1总结了 Kimi K2 和 Qwen3 30B 模型在 NVIDIA GB300 NVL72 系统上使用Muon 和 AdamW 优化器的训练吞吐量。使用将在下一节中介绍的技术，结果表明，与 AdamW 相比，使用 Muon 优化器的训练性能损失非常小。在计算牛顿-舒尔茨迭代中矩阵乘法的 FLOPs 时，Muon 的模型 FLOPs 利用率 ( MFU ) 更高。

这些测量是使用 NVIDIA NeMo Megatron Bridge 26.02 实现的，这是 NeMo 框架中的 PyTorch 原生库，为流行的 LLM 和 VLM 模型提供预训练，SFT 和 LoRA。NVIDIA 团队使用 256 块 NVIDIA GB300 GPU 配合 PP4DP64EP64 进行 Kimi K2 训练，使用 8 块 NVIDIA GB300 GPU 配合 DP8EP8 进行 Qwen3 30B-A3B 训练。

https://developer.nvidia.com/blog/advancing-emerging-optimizers-for-accelerated-llm-training-with-nvidia-megatron/