Py学习  »  机器学习算法

吴恩达、Jeff Dean力荐机器学习新基准MLPerf,由谷歌、百度等联手打造

AI前线 • 5 年前 • 467 次点击  
策划编辑 | Natalie
作者 | John Russell
译者 | 核子可乐
AI 前线导读:AI 基准测试大战已经拉开帷幕。日前,来自学术界与技术业界的多个组织机构——包括谷歌、百度、英特尔、AMD、哈佛大学与斯坦福大学等——联合发布了新型基准测试工具 MLPerf。这款获得 AI 技术大佬吴恩达和谷歌机器学习领头羊 Jeff Dean 力荐的工具专门用于测量机器学习软件与硬件的执行速度,它的到来代表着原本市场规模较为有限的 AI 性能比较方案正式踏上发展正轨。说人话就是:以后各大公司发布的 AI 性能对比不能再王婆卖瓜自卖自夸了,你说 XX 数据集在自己的设备上训练比友商快 N 倍,或者自己的模型比现有的模型性能好 N 倍,光说都不算,先拿到 MLPerf 上测测看再说!

更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)

上周,RiseML 博客对谷歌 TPUv2 与英伟尔 V100 进行了比较。如今,英特尔公司发布了另一篇博文,其中提到在利用 RNN 进行机器翻译数据处理时,“英特尔 Xeon Scalable 处理器的 AWS Sockeye(https://github.com/awslabs/sockeye )神经机器翻译模型性能可达英伟达 V100 的 4 倍。”

很长一段时间以来,业界对 AI 基准测试需求的现实意义展开了激烈的探讨与争论。支持者们认为,基准测试工具的缺失严重限制了 AI 技术的实际应用。根据 AI 技术先驱吴恩达在 MLPerf 声明中的说法,“AI 正在给各个行业带来改变,但为了充分这项技术的真正潜力,我们仍然需要更快的硬件与软件。”我们当然希望获得更强大的资源平台,而基准测试方案的标准化进程将帮助 AI 技术开发人员创造出此类产品,从而帮助采用者更明智地选择适合需求的 AI 选项。

不止吴恩达,连谷歌机器学习大佬 Jeff Dean 也在推特上强烈推荐这款工具:

大意:谷歌很高兴和斯坦福、伯克利、哈佛、百度、英特尔、AMD 等等企业一起,成为致力于将 MLPerf 作为衡量机器学习性能的通用标准的组织之一。

MLPerf 项目的主要目标包括:

  • 通过公平且实用的衡量标准加快机器学习发展进程。

  • 对各竞争系统进行公平比较,同时鼓励创新以改善业界领先的机器学习技术。

  • 保持基准测试的成本合理性,允许所有人参与其中。

  • 为商业及研究社区提供服务。

  • 提供可重复且可靠的测试结果。

对 AI 性能(包括 h/w 与 s/w 两种方向)的比较此前一直由各既得利益方发布,此次英特尔公司题为《利用英特尔至强 Scalable 处理器实现令人惊艳的推理性能》的博文正是最好的例子。 这里我们并不针对英特尔——但必须承认,此类比较虽然包含重要见解,但通常也会通过故意设计确保某一供应商的方案表现优于其竞争对手。因此,标准化基准测试的存在将彻底解决这种中立性缺失,从而提供公平且客观的比较结果。

MLPerf 项目的定位参考了以往的类似方案,例如 SPEC(即标准性能评估集团)。MLPerf 项目声明指出,“SPEC 基准测试的出现显著推动了通用计算能力的改进。SPEC 由计算机公司联盟于 1988 年推出,并在接下来的 15 年内实现了年均 1.6 倍的 CPU 性能提升。MLPerf 结合有原有基准测试领域的最佳实践,包括 SPEC 使用的程序套件、SOR 使用的性能与创新性分别比较方法、DeepBench 的生产环境内软件部署以及 DAWNBench 的时间精确性度量标准等等。”

Intersect360 Research 公司 CEO Addison Snell 指出,“AI 已经成为目前众多企业不可忽视的技术力量,因此任何中立性质的基准指导结论都非常重要——特别是在挑选竞争性技术方案的场景之内。然而,AI 同时也是一类多元化领域,因此随着时间的推移,任何基准都有可能发展成惟一的主导性选项。五年之前,大数据与分析技术鼓动了整个科技业界的热情 ; 然而时至今日,这一领域仍未出现一种统一的通用基准。我认为 AI 领域可能也会发生同样的情况。”

Hyperion Research 公司高级研究副总裁 Steve Conway 表示,MLPerf 代表着“积极且实用的”一步,“因为多年以来买卖双方一直缺少必要的基准方案,用以证明不同 AI 产品与解决方案之间的差异。原有基准的存在仅仅是为了解决早期 AI 发展阶段中的有界类实际问题。而随着无界类 AI 问题数量的快速增加,我们显然需要额外的基准工具对其进行评估,这一点在经济层面极为重要。所谓有限问题通常比较简单,例如语音与图像识别或游戏 AI 等等。而无界类问题则包括诊断癌症与阅读医学影像内容等,其目标在于真正为复杂的问题提供建议与决策。”

MLPerf 目前已在 GitHub 上发布,但仍处于早期开发阶段。正如 MLPerf 声明当中所强调,“目前的版本尚属于‘前 apha’阶段,因此在很多方面仍然有待改进。基准测试套件仍在开发与完善当中,请参阅以下建议部分以了解如何参与项目贡献。根据用户的反馈,我们预计 5 月底将会对项目进行一轮重大更新。”

目前,MLPerf 套件中的七项基准测试皆已提供参考实现方案(摘自 GitHub):

  • 图像分类– Resnet-50 v1,适用于 ImageNet。

  • 对象检测– Mask R-CNN,适用于 COCO。

  • 语音识别– DeepSpeech2,适用于 Librispeech。

  • 翻译– Transformer,适用于 WMT English-German。

  • 推荐– Neural Collaborative Filtering,适用于 MovieLens 20 Million (简称 ml-20m)。

  • 情绪分析– Seq-CNN,适用于 IMDB 数据集。

  • 强化– Mini-go,适用于预测游戏行动。

每套参考实现皆提供以下内容:在至少一套框架当中实现模型的相关代码,一个可在容器内运行基准测试的 Dockerfile,一个用于下载对应数据集的脚本,一个负责运行模型训练并加以计时的脚本,外加关于数据集、模型以及机器设置的说明文档。

根据 GitHub 页面中的说明,此基准测试已经在以下设备配置中完成验证:

  • 16 CPU,单个英伟达 P100。

  • Ubuntu 16.04,包括支持英伟达硬件的 Docker。

  • 600 GB 磁盘(实际上,大多数基准测试并不需要这么大的存储容量)。

我们期待看到 AI 行业最终会迎来怎样的基准测试前景——少数垄断,还是百家争鸣。在这样一个年轻的市场当中,相信会有很多厂商提供基准测试工具与服务。斯坦福大学就是 MLPerf 项目成员,其最近刚刚发布了首个 DAWNBench v1 深度学习测试结果。

斯坦福大学报告称:“2018 年 4 月 20 日,第一个深度学习端到端基准测试与性能衡量竞赛正式启动,旨在记录普通深度学习任务达到最高准确度水平所需的时间和成本,以及达到此最高推理准确度水平的延迟和成本。专注于端到端性能,意味着我们提供一种更为客观的方法,可用于对不同计算框架、硬件、优化算法、超参数设置以及影响实际性能的其它因素进行标准化比较。”

作为参赛选手之一,fast.ai——一家年轻的人工智能训练与人工智能软件工具开发公司——取得了出色的成绩。这些基准结果非常重要,斯坦福大学也确实在以严肃的态度对待此轮竞赛。但除此之外,目前我们显然还需要更多与之类似的客观、公平的比较平台。在这方面,MLPerf 的出现应该能够帮助我们早日突破困局,真正有理有据地选择最适合实际需求的 AI 解决方案。

MLPerf 开源项目地址:

https://github.com/mlperf/reference

MLPerf 用户指南链接:

https://mlperf.org/assets/static/media/MLPerf-User-Guide.pdf

原文链接:

https://www.hpcwire.com/2018/05/02/mlperf-will-new-machine-learning-benchmark-help-propel-ai-forward/


今日荐文

点击下方图片即可阅读

欲将 BAT变 ATM,“厚道人”雷军和他的野心

活动推荐

「小白」如何从 0到 1构建 AI全套应用?用哪些工具能实现快速上手且帮你省时省力?5月 8日起每周二 14:00-15:30,AWS技术专家将从工具使用、模型构建、动手实例等维度,手把手教你完成 AI基础开发实践。



AI前线
紧跟前沿的AI技术社群

如果你喜欢这篇文章,或希望看到更多类似优质报道,记得给我留言和点赞哦!


今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/xv4eGVrclU
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/11458
 
467 次点击