社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
温州大学袁一斐&阿贡实验室刘同超&燕山大学聂安民等:原位电镜+机器学习揭秘电池快充机制,实现 “1分...
【Python技术】利用TA-Lib库进行K线形态识别筛选股票
【2025】Python零基础小白入门学习(看这篇就够了)
【深度学习】彻底搞懂!Transformer多头注意力 !!
2025必看AI干货!《大模型/AIGC/GPT-4/Transformer/DL/KG/NLP/C...
2025必看AI干货!《大模型/AIGC/GPT-4/Transformer/DL/KG/NLP/C...
30 个Python爬虫的实战项目(附源码)
利用 Python 爬虫进行跨境电商数据采集
单细胞+机器学习就能上6+!二区top!不做实验也能发!(免费学)
python想学好你一定要掌握已下知识(新手)
关注
Py学习
»
机器学习算法
收藏 | 深度学习如何挑选GPU?
新机器视觉
• 7 月前 • 192 次点击
深度学习是一个对计算有着大量需求的领域,从一定程度上来说,GPU的选择将从根本上决定深度学习的体验。因此,选择购买合适的GPU是一项非常重要的决策。那么2022年,如何选择合适的GPU呢?这篇文章整合了网络上现有的GPU选择标准和评测信息,希望能作为你的购买决策的参考。
1 是什么使一个GPU比另一个GPU更快?
有一些可靠的性能指标可以作为人们的经验判断。以下是针对不同深度学习架构的一些优先准则:
Convolutional networks and Transformers:
Tensor Cores > FLOPs > Memory Bandwidth > 16-bit capability
Recurrent networks:
Memory Bandwidth > 16-bit capability > Tensor Cores > FLOPs
2 如何选择NVIDIA/AMD/Google
NVIDIA的标准库使在CUDA中建立第一个深度学习库变得非常容易。早期的优势加上NVIDIA强大的社区支持意味着如果使用NVIDIA GPU,则在出现问题时可以轻松得到支持。但是NVIDIA现在政策使得只有Tesla GPU能在数据中心使用CUDA,而GTX或RTX则不允许,而
Tesla
与GTX和RTX相比并没有真正的优势,价格却高达10倍。
AMD功能强大,但缺少足够的支持。AMD GPU具有16位计算能力,但是跟NVIDIA GPU的
Tensor内核相比仍然有差距。
Google TPU具备很高的成本效益。由于TPU具有复杂的并行基础结构,因此如果使用多个云TPU(相当于4个GPU),TPU将比GPU具有更大的速度优势。因此,就目前来看,TPU更适合用于训练卷积神经网络。
3 多GPU并行加速
卷积网络和循环网络非常容易并行,尤其是在仅使用一台计算机或4个GPU的情况下。TensorFlow和PyTorch也都非常适合并行递归。但是,包括transformer在内的全连接网络通常在数据并行性方面性能较差,因此需要更高级的算法来加速。如果在多个GPU上运行,应该先尝试在1个GPU上运行,比较两者速度。由于
单个GPU几乎可以完成所有任务,
因此,
在购买多个GPU时,更好的并行性(如PCIe通道数)的质量并不是那么重要
。
4 性能评测
1)来自Tim Dettmers的成本效益评测
[1]
https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/
卷积网络(CNN),递归网络(RNN)和transformer的归一化性能/成本数(越高越好)。RTX 2060的成本效率是Tesla V100的5倍以上。对于长度小于100的短序列,Word RNN表示biLSTM。使用PyTorch 1.0.1和CUDA 10进行基准测试。
从这些数据可以看出,RTX 2060比RTX 2070,RTX 2080或RTX 2080 Ti具有更高的成本效益。原因是使用Tensor Cores进行16位计算的能力比仅仅拥有更多Tensor Cores内核要有价值得多。
2)来自Lambda的评测
[2,3]
https://lambdalabs.com/blog/best-gpu-tensorflow-2080-ti-vs-v100-vs-titan-v-vs-1080-ti-benchmark/
https://lambdalabs.com/blog/choosing-a-gpu-for-deep-learning/
GPU平均加速/系统总成本
GPU性能,以每秒处理的图像为单位
以 Quadro RTX 8000 为基准的
针对Quadro RTX 8000的图像模型训练吞吐量
3) 来自知乎@
Aero的「
在线」GPU评测
[4]
https://www.zhihu.com/question/299434830/answer/1010987691
大家用的最多的可能是
Google Colab
,毕竟免费,甚至能选TPU
不过现在出会员了:
免费版主要是K80,有点弱,可以跑比较简单的模型,有概率分到T4,有欧皇能分到P100。
付费就能确保是T4或者P100,一个月10美元,说是仅限美国。
Colab毕竟是Google的,那么你首先要能连得上google,并且得网络稳定,要是掉线很可能要重新训练,综合来看国内使用体验不太好。
下一个是
百度AI Studio
:
免费送V100时长非常良心,以前很多人自己装tensorflow用,但是现在已经不允许了,实测tensorflow pytorch都不给装,必须得用paddlepaddle。
那么习惯paddlepaddle的用户完全可以选这个,其他人不适合。
不过似乎GPU不太够,白天一直提醒高峰期,真到了22点后才有。
国外的还有
vast.ai:
5 建议
1)来自Tim Dettmers的建议
总体最佳GPU:
RTX 2070 GPU
避免使用 :任何Tesla;任何Quadro;任何Founders Edition;Titan RTX,Titan V,Titan XP
高效但价格昂贵:RTX 2070
高效且廉价:RTX 2060,GTX 1060(6GB)
价格实惠:GTX 1060(6GB)
价格低廉:GTX 1050 Ti(4GB)。或者:CPU(原型设计)+ AWS / TPU(培训);或Colab。
适合Kaggle比赛:RTX 2070
适合计算机视觉研究人员:GTX 2080 Ti,如果训练非常大的网络,建议使用RTX Titans
2)
来自Lambda的建议
截至2020年2月,以下GPU可以训练所有SOTA语言和图像模型:
RTX 8000:48 GB VRAM
RTX 6000:24 GB VRAM
Titan RTX:24 GB VRAM
具体建议:
RTX 2060(6 GB):适合业余时间探索深度学习。
RTX 2070或2080(8 GB):适合深度学习专业研究者,且预算为4-6k
RTX 2080 Ti(11 GB):
适合深度学习专业研究者,
而您的GPU预算约为8-9k。RTX 2080 Ti比RTX 2080快40%。
Titan RTX和Quadro RTX 6000(24 GB):适合广泛使用SOTA型号,但没有用于RTX 8000足够预算的研究者。
Quadro RTX 8000(48 GB):价格相对较高,但性能卓越,适合未来投资。
参考文献
[1] https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/
[2] https://lambdalabs.com/blog/best-gpu-tensorflow-2080-ti-vs-v100-vs-titan-v-vs-1080-ti-benchmark/
[3] https://lambdalabs.com/blog/choosing-a-gpu-for-deep-learning/
[4]
https://www.zhihu.com/question/299434830/answer/1010987691
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/172810
192 次点击
登录后回复