开发者新闻 | 如何使用 PyTriton 在 Python 中部署 AI 模型

如何使用 PyTriton 在 Python 中部署 AI 模型

AI 模型无处不在，以聊天机器人、分类和摘要工具、用于分割和检测的图像模型、推荐模型等形式出现。AI 机器学习 (ML) 模型有助于实现许多业务流程的自动化，从数据中生成见解，并提供新的体验。

Python 是 AI/ML 开发中最流行的语言之一。在这篇文章中，您将学习如何使用NVIDIA Triton Inference Server 通过新的 PyTriton 接口在 Python 代码和环境中提供模型服务。

更具体地说，您将学习如何在 Python 开发环境中使用生产类工具对AI模型进行原型化和测试推理，以及如何使用 PyTriton 接口进行生产。您还将了解与 FastAPI 或 Flask 等通用 web 框架相比，使用 PyTriton 的优势。这篇文章包括几个代码示例，以说明如何激活高性能批处理、预处理和多节点推理;并实施在线学习。

通过减少指令缓存丢失提高 GPU 性能

GPU 是专门为高速处理大量数据而设计的。它们拥有大量的计算资源，称为流式多处理器 (SMs)，以及一系列的设施来为它们提供数据：高带宽到内存、相当大的数据缓存，以及在活动团队数据耗尽时切换到其他工作团队 (warps) 而无需任何开销的能力。

然而，数据饥饿仍然可能发生，许多代码优化都集中在这个问题上。在某些情况下，SM 缺少的不是数据，而是指令。这篇文章介绍了一个由于指令缓存丢失而导致 GPU 工作负载变慢的调查。它描述了如何识别这个瓶颈，以及消除它以提高性能的技术。

认识到问题

这项研究的起源是基因组学领域的一个应用，其中需要解决将 DNA 样本的小片段与参考基因组比对的许多小而独立的问题。背景是众所周知的 Smith-Waterman 算法 (但这本身对讨论并不重要)。

在功能强大的 NVIDIA H100 Hopper GPU 的中型数据集上运行该程序，具有114 个 SM，显示出良好的前景。NVIDIA Nsight Compute (NCU) 工具可以分析一个程序在 GPU 上的执行情况，它证实了 SM 在进行有用的计算时非常忙，但有一个障碍。

构成整体工作负载的许多小问题 (每个问题由自己的线程处理) 可以同时在 GPU 上运行，因此并非所有的计算资源都一直被充分利用。这表示为一个小而非整数的波。GPU 的工作被划分为称为线程块的块，一个或多个可以驻留在 SM 上。如果一些 SM 收到的线程块比其他 SM 少，那么它们将耗尽工作，并且在其他 SM 继续工作时必须空闲。

用线程块完全填充所有 SM 构成一个波。NCU 尽职尽责地报告每个 SM 的波数。如果这个数字恰好是 100.5，这意味着并非所有的 SM 都有相同的工作量要做，并且有些 SM 被迫空闲。但分布不均的影响并不大。大多数情况下，SM上的负载是平衡的。例如，如果波的数量只有 0.5，情况就会改变。在更大比例的时间里，SM 经历了不均匀的工作分配，这被称为 “尾部” 效应。

点击“阅读原文”了解更多开发者新闻