社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
从入门到入魔,100个Python实战项目练习(附答案)!
Github 今日推荐 WebGL2神技!deck.gl:秒渲海量数据的可视化神器"
顶刊《Materials Today》最新成果:机器学习+增材制造
31 岁程序员,6 个月赚了 5.8 亿。 看到一个案例,在外网我搜了搜相关新闻,竟然是真...
Nginx和Apache要成旧爱了?PHP有了新搭档:缝合怪FrankenPHP!
郑州大学田芸/周震 | 下一代电池安全管理:机器学习辅助寿命预测与性能提升
【2025版附安装包】超详细Python+Pycharm安装保姆级教程,永久免费使用,Python环...
ChatGPT化身生活操作系统:奥特曼预告下一代顶级AI
西南交通大学张云辉团队JH|利用无监督机器学习和正定矩阵因子分解模型驱动煤矿农业区域的地下水化学成因...
懒人福音!5行Python代码让电脑自己干活,再也不用重复点鼠标了
关注
Py学习
»
机器学习算法
收藏 | 深度学习如何挑选GPU?
新机器视觉
• 11 月前 • 215 次点击
深度学习是一个对计算有着大量需求的领域,从一定程度上来说,GPU的选择将从根本上决定深度学习的体验。因此,选择购买合适的GPU是一项非常重要的决策。那么2022年,如何选择合适的GPU呢?这篇文章整合了网络上现有的GPU选择标准和评测信息,希望能作为你的购买决策的参考。
1 是什么使一个GPU比另一个GPU更快?
有一些可靠的性能指标可以作为人们的经验判断。以下是针对不同深度学习架构的一些优先准则:
Convolutional networks and Transformers:
Tensor Cores > FLOPs > Memory Bandwidth > 16-bit capability
Recurrent networks:
Memory Bandwidth > 16-bit capability > Tensor Cores > FLOPs
2 如何选择NVIDIA/AMD/Google
NVIDIA的标准库使在CUDA中建立第一个深度学习库变得非常容易。早期的优势加上NVIDIA强大的社区支持意味着如果使用NVIDIA GPU,则在出现问题时可以轻松得到支持。但是NVIDIA现在政策使得只有Tesla GPU能在数据中心使用CUDA,而GTX或RTX则不允许,而
Tesla
与GTX和RTX相比并没有真正的优势,价格却高达10倍。
AMD功能强大,但缺少足够的支持。AMD GPU具有16位计算能力,但是跟NVIDIA GPU的
Tensor内核相比仍然有差距。
Google TPU具备很高的成本效益。由于TPU具有复杂的并行基础结构,因此如果使用多个云TPU(相当于4个GPU),TPU将比GPU具有更大的速度优势。因此,就目前来看,TPU更适合用于训练卷积神经网络。
3 多GPU并行加速
卷积网络和循环网络非常容易并行,尤其是在仅使用一台计算机或4个GPU的情况下。TensorFlow和PyTorch也都非常适合并行递归。但是,包括transformer在内的全连接网络通常在数据并行性方面性能较差,因此需要更高级的算法来加速。如果在多个GPU上运行,应该先尝试在1个GPU上运行,比较两者速度。由于
单个GPU几乎可以完成所有任务,
因此,
在购买多个GPU时,更好的并行性(如PCIe通道数)的质量并不是那么重要
。
4 性能评测
1)来自Tim Dettmers的成本效益评测
[1]
https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/
卷积网络(CNN),递归网络(RNN)和transformer的归一化性能/成本数(越高越好)。RTX 2060的成本效率是Tesla V100的5倍以上。对于长度小于100的短序列,Word RNN表示biLSTM。使用PyTorch 1.0.1和CUDA 10进行基准测试。
从这些数据可以看出,RTX 2060比RTX 2070,RTX 2080或RTX 2080 Ti具有更高的成本效益。原因是使用Tensor Cores进行16位计算的能力比仅仅拥有更多Tensor Cores内核要有价值得多。
2)来自Lambda的评测
[2,3]
https://lambdalabs.com/blog/best-gpu-tensorflow-2080-ti-vs-v100-vs-titan-v-vs-1080-ti-benchmark/
https://lambdalabs.com/blog/choosing-a-gpu-for-deep-learning/
GPU平均加速/系统总成本
GPU性能,以每秒处理的图像为单位
以 Quadro RTX 8000 为基准的
针对Quadro RTX 8000的图像模型训练吞吐量
3) 来自知乎@
Aero的「
在线」GPU评测
[4]
https://www.zhihu.com/question/299434830/answer/1010987691
大家用的最多的可能是
Google Colab
,毕竟免费,甚至能选TPU
不过现在出会员了:
免费版主要是K80,有点弱,可以跑比较简单的模型,有概率分到T4,有欧皇能分到P100。
付费就能确保是T4或者P100,一个月10美元,说是仅限美国。
Colab毕竟是Google的,那么你首先要能连得上google,并且得网络稳定,要是掉线很可能要重新训练,综合来看国内使用体验不太好。
下一个是
百度AI Studio
:
免费送V100时长非常良心,以前很多人自己装tensorflow用,但是现在已经不允许了,实测tensorflow pytorch都不给装,必须得用paddlepaddle。
那么习惯paddlepaddle的用户完全可以选这个,其他人不适合。
不过似乎GPU不太够,白天一直提醒高峰期,真到了22点后才有。
国外的还有
vast.ai:
5 建议
1)来自Tim Dettmers的建议
总体最佳GPU:
RTX 2070 GPU
避免使用 :任何Tesla;任何Quadro;任何Founders Edition;Titan RTX,Titan V,Titan XP
高效但价格昂贵:RTX 2070
高效且廉价:RTX 2060,GTX 1060(6GB)
价格实惠:GTX 1060(6GB)
价格低廉:GTX 1050 Ti(4GB)。或者:CPU(原型设计)+ AWS / TPU(培训);或Colab。
适合Kaggle比赛:RTX 2070
适合计算机视觉研究人员:GTX 2080 Ti,如果训练非常大的网络,建议使用RTX Titans
2)
来自Lambda的建议
截至2020年2月,以下GPU可以训练所有SOTA语言和图像模型:
RTX 8000:48 GB VRAM
RTX 6000:24 GB VRAM
Titan RTX:24 GB VRAM
具体建议:
RTX 2060(6 GB):适合业余时间探索深度学习。
RTX 2070或2080(8 GB):适合深度学习专业研究者,且预算为4-6k
RTX 2080 Ti(11 GB):
适合深度学习专业研究者,
而您的GPU预算约为8-9k。RTX 2080 Ti比RTX 2080快40%。
Titan RTX和Quadro RTX 6000(24 GB):适合广泛使用SOTA型号,但没有用于RTX 8000足够预算的研究者。
Quadro RTX 8000(48 GB):价格相对较高,但性能卓越,适合未来投资。
参考文献
[1] https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/
[2] https://lambdalabs.com/blog/best-gpu-tensorflow-2080-ti-vs-v100-vs-titan-v-vs-1080-ti-benchmark/
[3] https://lambdalabs.com/blog/choosing-a-gpu-for-deep-learning/
[4]
https://www.zhihu.com/question/299434830/answer/1010987691
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/172810
215 次点击
登录后回复