Py学习  »  机器学习算法

如何让手机快速运行AI应用?这有份TVM优化教程

量子位 • 6 年前 • 733 次点击  
原作:郑怜悯(上海交大)
允中 摘录编译
量子位 出品 | 公众号 QbitAI

在移动设备上部署深度神经网络的需求正在快速增加。

和桌面平台类似,GPU也能在移动平台加速推理速度、降低能耗。但问题是,大多数现有深度学习框架并不能很好的支持移动GPU。

为什么会这样?因为移动GPU和桌面GPU在架构上存在差异。

所以想要利用移动GPU,还得进行专门的优化。这种额外的工作,最终导致的结果就是大多数深度学习框架都对移动GPU的支持不足。

TVM通过引入一个统一的IR堆栈来解决不同硬件平台的部署问题。使用TVM/NNVM可以为ARM Mali GPU生成高效内核,并且进行端到端的编译。

基于Mali-T860 MP4的测试结果表明,与Arm Compute Library相比,上面这个方法在VGG-16上快1.4倍,在MobileNet上快2.2倍。

在郑怜悯发表的这篇文章中,他还从GPU架构、卷积为例的优化等方面进行了更为详细的阐述。我们在这里就不详细复述。

这篇文章的原文地址:http://tvmlang.org/2018/01/16/opt-mali-gpu.html

关于TVM和NNVM,量子位之前也有报道:

关于郑怜悯同学的研究,还有另一个好玩的事情:

作者系网易新闻·网易号“各有态度”签约作者

—  —

加入社群

量子位AI社群13群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot5入群;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进群请加小助手微信号qbitbot5,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/XhuEf2MG9E
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/5686
 
733 次点击