#不写CUDA也能榨干H100##Python写出GPU光速级内-20250711152738

2025-07-11 15:27
本条微博链接

#不写CUDA也能榨干H100##Python写出GPU光速级内核#

无需CUDA代码，给H100加速33%-50%！

Flash Attention、Mamba作者之一Tri Dao的新作火了。

他和两位普林斯顿CS博士生提出了一个名叫QuACK的新SOL内存绑定内核库，借助CuTe-DSL，完全用Python写，一点CUDA C++代码都没用到。

在带宽3TB/s的H100上，它的速度比像PyTorch的torch.compile、Liger这类已经过深度优化的库还要快33%-50%。【图1】

Tri Dao表示，让内存密集型的内核达到“光速”并非什么神秘技巧，只需把几个细节处理到位就行。【图2】

‘’‘
我很喜欢Phil Tillet对不同工具在生产力和性能方面各有取舍的观点，比如torch compile、triton、CUDA、PTX。

但CuTe-DSL以及类似的基于Python的DSL或许能改变这一局面，虽然目前还处于早期阶段。而且，说不定很快我们就能让大语言模型来生成这些内核了！【图3】
’‘’

新作一经发出，吸引不少大佬关注。

英伟达CUTLASS团队资深架构师Vijay转发，自夸他们团队做的CuTe-DSL把各种细节都打磨得很好，由此像Tri Dao这样的专家能够让GPU飞速运行。

同时他还预告今年会有更多相关内容推出：

无需CUDA代码给H100加速33%-50%，Flash Attention作者新作火了