用TensorRT极致"榨干"GPU性能！C++/Python高性能推理教程发布

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

部署是人工智能落地的最后一公里，但是这“一公里”往往并不好走。如何让模型落地复杂的软硬件环境，并充分实现最优的推理效果，一直是人工智能从业者们追求和努力的方向。

飞桨听见所有开发者的心声，在未来的一个月中，分別准备了十节不同场景的手把手部署实操课程，其中又分为四月服务器侧部署系列5节课程，及五月端侧部署系列的5节推理实践。今天就来为大家介绍一下4月19、20日的这两节课程，想提前了解课程内容可以观看下方视频哦！

一般来说深度学习部署往往不外乎两个方面: 如何选择合适的推理预测库和相应的硬件。在预测库部分，飞桨深度学习平台除了为人工智能的应用提供了扎实的框架基座，也在预测库上根据不同场景提供了多端多平台的选择：

包含了适合传统数据中心及服务器的高性能预测库 Paddle Inference，其抽取了主框架的前向算子，再整合TensorRT 等加速库达到最极致的性能;

基于 Paddle Inference 封装了 gRPC, bRPC, RestfulAPI 的服务化部署框架 Paddle Serving，让你轻松一键完成模型即服务;

根据手机及端侧的有限内存及功耗最佳化的轻量化预测库 Paddle Lite；

专门设计给 APP 开发者的开箱即用工具 LiteKit 和国内唯一的前端 JavaScript 预测库 Paddle.js 等。

而在硬件方面，英伟达可以说是人工智能时代的领跑者，旗下丰富的通用 GPU 硬件，从服务器端的 Tesla 系列、端侧的 Jeston 系列、到人手一张的消费型显卡 Geforce 系列，相信所有开发者都或多或少使用过。而要想充分释放你手边英伟达 GPU 硬件最大能力，除了使用通用的 CUDA，使用 TensorRT 加速库也是绝对必备的！

扫描下方二维码，立即加入技术交流群

那么飞桨与基于英伟达 GPU＋TensorRT 具体怎么使用，才能够充分实现更卓越的部署体验呢？飞桨将会在部署月活动课程中，详细解读如何在上述各种不同 GPU 硬件场景下如何利用飞桨框架更便利的启用 TensorRT。

举例来说，在对模型推理延时和吞吐量要求极高的数据中心及服务器部署时，飞桨将通过 Paddle Inference 与 TensorRT 的结合，实现高性能的推理。而进一步还可以搭配飞桨的模型压缩工具 PaddleSlim 对模型进行剪枝、量化等操作，或者使用 C++ 的推理库取代大家比较熟悉的 Python 推理库，都能有效提升性能。

直播课精彩内容抢先看

最后，入门深度学习用戶或者传统制造业中常常使用的 Windows 系统台式机，而且 Windows 系统下许多开发者选用的C#编程环境，这类场景中如何结合 TensorRT 做推理呢？又如何解决编译环境通常比较复杂的问题？相关的教程资源网络上还比较少，但是飞桨部署月的课程都会为大家详细讲解。

更多精彩的內容

欢迎大家踊跃报名

我们4 月 19-20 日两天直播间见！

▲点击上方卡片，关注我们

整理不易，请给点赞和在看！