如今,GPU 已不再局限于 3D 图形处理,基于 GPU 的通用计算已成为近些年人们关注的研究热点。将 GPU 用于通用计算的主要目的是为了加速计算,加速的动力来自 GPU 在高性能计算方面所具有的几项优势:高效的并行性、高密集的运算、超长图形流水线。在浮点运算、并行计算等方面,GPU 可以提供数十倍乃至于上百倍于 CPU 的性能。
除了高性能计算,GPU 自身具备的高并行度、矩阵预算与强大的浮点计算能力也符合深度学习的需求。它可以大幅加速深度学习模型的训练,在相同精度下能提供更快的处理速度、更少的服务器投入以及更低的功耗。
而 CUDA 就是这样一个用于 GPU 计算的开发环境,它能够让开发者直接通过硬件访问接口,轻松地使用 GPU 来解决商业、工业以及科学方面的复杂计算问题。
可以说,掌握了 CUDA,就掌握了一把通向并行计算世界的钥匙。另一方面,随着像 Numba 这样支持 Python CUDA 的编译器的出现,Python 开发人员也有了一个简单的进入 GPU 加速计算的入口。开发者仅使用纯 Python 语法,就能创建自定义、调优的并行内核,在保持 Python 的便捷和优势性的同时,实现高性能的并行计算。用 Python 写 CUDA,即便是新手也能一探 CUDA 的奥秘,轻松地加入到 CUDA 开发的队伍之中。
NVIDIA 联合 InfoQ,为广大有高性能计算和人工智能开发需求的开发者提供一系列的 CUDA Python 编程实战在线培训课程,从理论到实践,带你从零开始全面学习 CUDA Python,打破门槛,轻松编程。
上一期,NVIDIA 开发者社区经理何琨(KEN)介绍了 CUDA Python 计算环境的部署与搭建方法、如何使用 CUDA Python 进行快速迭代开发以及使用 CUDA Python 进行图像处理的方法等内容。
2021 年 3 月 10 日 20 点 - 21 点 30 分,何琨将为大家带来 CUDA Python 系列公开课第二期— —“存储管理以及卷积计算”的相关内容。
通过这次在线分享,您将收获以下内容:
获知 CUDA11 的最新特性
深入了解 CUDA 存储模式
掌握 CUDA Python 深入的编程技巧
学习利用 CUDA Python 处理卷积操作
......
扫描下方二维码或点击【阅读原文】即可免费报名。
点个在看少个 bug👇