社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

深度学习推理优化与部署实践

DataFunTalk • 3 年前 • 380 次点击  

AI 革命如火如荼,为企业带来新的机遇,企业的产品、服务、客户互动等方方面面都将融入 AI 并借助 AI 实现改进。多年来,GPU 已经证明能够非常有效地解决某些极为复杂的深度学习问题。早在 2016 年 NVIDIA 就推出了支持高性能深度学习推理加速引擎 —— TensorRT,NVIDIA 深度学习平台也逐渐成为业界标准的训练解决方案。

NVIDIA TensorRT 是一个用于高性能深度学习推理的SDK,包含深度学习推理优化器和运行时环境,可为深度学习应用提供低延迟、高吞吐率的部署推理。借助 TensorRT,用户可以优化在所有主要框架中训练的神经网络模型,并最终将模型部署到超大规模数据中心、嵌入式或汽车产品平台中。
为了进一步推动加速后的模型部署成服务,Triton推理服务器是一个开源的AI模型服务软件,可以简化深度学习推理的大规模部署。它使团队能够从任何框架(TensorFlow、TensorRT、PyTorch、ONNX Runtime或自定义框架),在任何基于GPU或CPU的环境上(云、数据中心、边缘)大规模部署经过训练的AI模型。
2022年02月19日,由英伟达、中电港联合举办《深度学习推理优化与部署实践》技术分享,邀请英伟达、京东科技、vivo技术大咖,围绕“如何给深度学习加速?”为大家带来系列分享,感兴趣的小伙伴可识别二维码进行报名

(识别二维码 免费观看)

活动安排

活动时间:2022.02.19

活动主办:英伟达、中电港

活动承办:DataFun

活动地点:DataFun直播间

直播链接:报名后进群获取

活动靓点

  • 如何更好的加速深度学习推理
  • 如何使用NVIDIA Torch-TensorRT 来快速加速 Pytorch 模型
  • 如何搞定NVIDIA Triton 编排的问题
  • 如何利用 CUDA MPS 提高推理吞吐和 GPU 利用率
  • NVIDIA Triton + k8s 实现多节点serving的动态扩容和负载均衡
  • 提高 serving 吞吐、提高 GPU 使用率的机理

详细议程


讲师介绍

一、刘一鸣 NVIDIA 解决方案架构师
报告题目:NVIDIA TensorRT Now and Beyond
报告摘要:
1. NVIDIA TensorRT概述
2. NVIDIA TensorRT8.x的新features
3. NVIDIA TensorRT生态的构建以及可期待的未来features
听众收益:
1. 对于非NVIDIA TensorRT 用户或新用户,将获得对NVIDIA TensorRT 优化的基础了解,以及如何开始使用NVIDIA TensorRT
2. 对于老用户,将可以系统性的了解NVIDIA TensorRT 8.x以来的新特性,以及未来规划
内容靓点:
NVIDIA TensorRT 8.x的新features,以及如何运用这些features来更好的加速深度学习推理
1. 如何enable explicit quantization模式来部署QAT 模型?
2. 什么是NVIDIA TRT8.x引入的built-in Transformer结构优化?如何理解与旧版本的性能和使用方式上的差异?
3.  如何通过tactic sources 来减少NVIDIA TensorRT的memory消耗?
4.  如何使用NVIDIA Torch-TensorRT 来快速加速Pytorch模型?
个人简介:毕业于加州大学尔湾分校,自2020年起在NVIDIA担任解决方案架构师,协助企业级GPU用户进行线上模型部署管线的优化,专注于深度学习模型的GPU推理加速与服务部署。

二、卢翔龙 NVIDIA 解决方案架构师
报告题目:如何使用 NVIDIA Triton 推理服务器快速、可扩展的部署AI 模型
演讲议题介绍:
1. NVIDIA Triton的功能性介绍,包括框架的设计思路、框架架构和使用方法
2. 最新NVIDIA Triton features的系统性更新
听众收益:
1. 了解如何在GPU集群上快速部署Triton推理服务器
2. 了解NVIDIA Triton设计思路和提高serving吞吐、提高GPU使用率的机制
3. 了解到NVIDIA Triton最新的roadmap更新
内容靓点:
1. 如何在CPU/GPU集群上快速部署NVIDIA Triton推理服务器
2. NVIDIA Triton架构的设计思路和提高serving吞吐、提高GPU使用率的机理
3. NVIDIA Triton + k8s 实现多节点serving的动态扩容和负载均衡
个人简介:本科毕业于华中科技大学,硕士毕业于美国亚利桑那州立大学。加入NVIDIA之前,就职于美国长安汽车美国研发部和日本瑞萨电子,主要负责自动驾驶汽车感知算法的开发。现供职于英伟达,主要负责支持中国头部消费互联网公司的AI项目的加速落地。

三、陈名华 vivo AI研究院 AI架构工程师
报告题目:vivo使用CUDA MPS实践分享
演讲议题介绍:
1. vivo推理平台上线CUDA MPS的背景和原因;
2. CUDA MPS结合BareMetal和Kubernetes在vivo的落地实践
听众收益:
1. 了解MPS在真实业务场景中的实践经验
2. 了解MPS在推理场景中的加速和吞吐收益
内容靓点:
1. CUDA MPS落地实践
2. 如何结合rust语言快速实现的
个人简介:吉林大学毕业,曾任职于阿里巴巴,加入过创业大军,目前任职于vivo AI研究院从事架构工作。

四、郭祎斌 京东科技 AI软件架构师
报告题目:JD使用Triton 实践分享
演讲议题介绍:
1. JD上线Triton的技术背景和业务诉求
2. Triton在JD部署的现状和规划
3. Rust结合Triton的部署
听众收益:
Triton在业务场景的部署实践以及JD对Triton的架构思考
内容靓点:
1. 让Rust作为Triton的前端,合理利用Triton的batch优势
2. 优化Triton编排
个人简介:前安全工程师,底层内核人员,喜欢较真,性能控,目前任职于京东科技应用算法与研发部。

点击阅读原文即刻报名参与吧
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/126571
 
380 次点击