打破门槛，探索用Python写CUDA的技巧

如今，GPU 已不再局限于 3D 图形处理，基于 GPU 的通用计算已成为近些年人们关注的研究热点。将 GPU 用于通用计算的主要目的是为了加速计算，加速的动力来自 GPU 在高性能计算方面所具有的几项优势：高效的并行性、高密集的运算、超长图形流水线。在浮点运算、并行计算等方面，GPU 可以提供数十倍乃至于上百倍于 CPU 的性能。

除了高性能计算，GPU 自身具备的高并行度、矩阵预算与强大的浮点计算能力也符合深度学习的需求。它可以大幅加速深度学习模型的训练，在相同精度下能提供更快的处理速度、更少的服务器投入以及更低的功耗。

而 CUDA 就是这样一个用于 GPU 计算的开发环境，它能够让开发者直接通过硬件访问接口，轻松地使用 GPU 来解决商业、工业以及科学方面的复杂计算问题。

可以说，掌握了 CUDA，就掌握了一把通向并行计算世界的钥匙。另一方面，随着像 Numba 这样支持 Python CUDA 的编译器的出现，Python 开发人员也有了一个简单的进入 GPU 加速计算的入口。开发者仅使用纯 Python 语法，就能创建自定义、调优的并行内核，在保持 Python 的便捷和优势性的同时，实现高性能的并行计算。用 Python 写 CUDA，即便是新手也能一探 CUDA 的奥秘，轻松地加入到 CUDA 开发的队伍之中。

NVIDIA 联合 InfoQ，为广大有高性能计算和人工智能开发需求的开发者提供一系列的 CUDA Python 编程实战在线培训课程，从理论到实践，带你从零开始全面学习 CUDA Python，打破门槛，轻松编程。

上一期，NVIDIA 开发者社区经理何琨（KEN）介绍了 CUDA Python 计算环境的部署与搭建方法、如何使用 CUDA Python 进行快速迭代开发以及使用 CUDA Python 进行图像处理的方法等内容。

2021 年 3 月 10 日 20 点 - 21 点 30 分，何琨将为大家带来 CUDA Python 系列公开课第二期— —“存储管理以及卷积计算”的相关内容。

通过这次在线分享，您将收获以下内容：

获知 CUDA11 的最新特性
深入了解 CUDA 存储模式
掌握 CUDA Python 深入的编程技巧
学习利用 CUDA Python 处理卷积操作
......

扫描下方二维码或点击【阅读原文】即可免费报名。

点个在看少个 bug👇