Epoch AI 使用 2010 年至 2023 年机器学习实验中常用的 47 个机器学习加速器(GPU 和其他 AI 芯片)来研究 GPU 等硬件的计算性能发现:
大型硬件集群对于最先进的 ML 模型训练和推理的整体性能取决于多种因素,包括 GPU 本身的计算性能、内存容量、内存带宽和互连。ML 硬件加速器中的 FLOP/s 性能每 2.3 年翻一番,内存容量和带宽每 4 年翻一番。
鉴于现代 ML 训练运行需要数千个芯片的有效交互,因此内存和互连带宽是利用大型分布式 ML 训练场景中的峰值计算性能的瓶颈。
使用硬件成本或估算的云成本计算 GPU 性价比:ML GPU 的计算性价比 [FLOP/$] 每 2.1 年翻一番,通用 GPU 每 2.5 年翻一番。