高性能深度学习支持引擎实战——TensorRT

云栖君导读： 随着传统的高性能计算和新兴的深度学习在百度、京东等大型的互联网企业的普及发展，作为训练和推理载体的GPU也被越来越多的使用。NVDIA本着让大家能更好地利用GPU，使其在做深度学习训练的时候达到更好的效果的目标，推出了支持高性能深度学习支持引擎——TensorRT。

本场技术沙龙回顾地址：http://click.aliyun.com/m/46060/

演讲嘉宾简介：

李曦鹏，现任英伟达devTech团队高级软件工程师，毕业于中国科学院过程工程研究所，拥有近10年CUDA/HPC编程经验。主要负责深度神经网络和高性能计算的性能优化。

本次的分享主要分为两部分：

一、TensorRT理论介绍：基础介绍TensorRT是什么；做了哪些优化；为什么在有了框架的基础上还需要TensorRT的优化引擎。

二、TensorRT高阶介绍：对于进阶的用户，出现TensorRT不支持的网络层该如何处理；低精度运算如fp16，大家也知道英伟达最新的v100带的TensorCore支持低精度的fp运算，包括上一代的Pascal的P100也是支持fp16运算，当然我们针对这种推断（Inference）的版本还支持int8，就是说我们用8位的整型来取代原来的fp32做计算，大家可以想象速度上肯定会有很大提升，但是也会需要进行一些额外的工作。

随着传统的高性能计算和新兴的深度学习在百度、京东等大型的互联网企业的普及发展，作为训练和推理载体的GPU也被越来越多的使用。我们团队的目标是让大家能更好地利用GPU，使其在做深度学习训练的时候达到更好的效果。

转自：云栖社区

完整内容请点击“阅读原文”

今天看啥 - 高品质阅读平台
本文地址：http://www.jintiankansha.me/t/GOHfOPOKsZ