2018年国外深度学习技术发展综述

点击标题下「海鹰资讯」可快速关注

2018年12月，斯坦福大学牵头发布了“人工智能指数（AI Index）”2018年度报告。其中阐述，在大型会议方面，神经信息处理系统会议（Conference on Neural Information Processing Systems，NeurIPS，曾用名NIPS）、IEEE计算机视觉与模式识别会议（IEEE Conference on Computer Vision and Pattern Recognition，CVPR）和机器学习国际会议（International Conference on Machine Learning，ICML）是参与人数最多的三大人工智能会议，其中NeurIPS和ICML参与人数增长最快（2018年与2012年相比，NeuRIPS增长3.8倍，ICML增长5.8倍）；小型会议的参会人数增长同样有明显增长，甚至比大型会议的增长更加明显，其中最突出的是表征学习国际会议（International Conference on Representation Learning，ICLR），其2018的参会人数达到了2012年的20倍。从以上人工智能的会议看，近年来人工智能领域越来越关注深度学习，特别是深度学习中的强化学习技术。本文将主要阐述2018年国外深度学习技术的发展，以期提供有益的参考。

深度强化学习的价值正在逐渐凸显

深度强化学习是近年来人工智能领域内最受关注的研究方向之一，并已在游戏和机器人控制等领域取得了很多瞩目的成果，其中值得关注的典型案例包括DeepMind攻破雅达利（Atari）游戏的深度Q网络（Deep Q-Network，DQN），在围棋中获得突破性进展的AlphaGo和AlphaGo Zero，以及在Dota 2对战人类职业玩家的OpenAI Five。深度强化学习是深层神经网络的一种形式，将深度学习的感知能力和强化学习的决策能力相结合，可以直接根据输入的对象实施控制，是一种更接近人类思维方式的人工智能方法。强化学习领域主要两大问题：一是如何有效的与环境交互（如探索与利用、样本效率等），二是如何有效地从经历中学习（例如长期信用分配、稀疏奖励信号等）。深度强化学习是开发业务应用程序中的通用技术之一，对于训练模型，它所需要的数据更少；而且其中另一个优点在于可以通过模拟来训练模型，这完全消除了传统深度学习技术对标记数据的严重依赖。

2018年深度强化学习最引人注目的是DeepMind在2018年12月《科学（Science）》公开发表了AlphaZero完整论文，并登上其期刊封面，AlphaZero是AlphaGo和AlphaGo Zero的进化版本，依靠基于深度神经网络的通用强化学习算法和通用树搜索算法，已经学会了三种不同的复杂棋类游戏，并且可能学会任何一种完美信息博弈的游戏：在国际象棋中，AlphaZero训练4小时超越了世界冠军程序Stockfish；在日本将棋中，AlphaZero训练2小时超越了世界冠军程序Elmo；在围棋中，AlphaZero训练30小时超越了与李世石对战的AlphaGo。《科学》期刊评价称，“AlphaZero能够解决多个复杂问题的单一算法，是创建通用机器学习系统，解决实际问题的重要一步”。2018年，历时两年开发完成的Alpha家族另一成员AlphaFold也被公开，能根据基因序列来预测蛋白质的3D结构，并在有着“蛋白质结构预测奥运会”美誉的蛋白质结构预测的关键性评价（Critical Assessment of Protein Structure Prediction，CASP）比赛中夺冠，被誉为“证明人工智能研究驱动、加速科学进展重要里程碑”和“生物学的核心挑战之一上取得了重大进展”。AlphaFold使用两种不同的方法，来构建完整的蛋白质结构预测，这两种方法均依赖深度强化学习技术：第一种方法基于结构生物学中常用的技术，用新的蛋白质片段反复替换蛋白质结构的片段，他们训练了一个生成神经网络来发明新的片段，用来不断提高蛋白质结构的评分；第二种方法通过梯度下降法优化得分，可以进行微小的、增量的改进，从而得到高精度的结构。从2016年AlphaGo论文发表在《自然（Nature）》上，到今天AlphaZero登上《科学》，Alpha家族除了最新的AlphaFold之外，AlphaGo、AlphaGo Zero和AlphaZero已经全部刊登在顶级期刊《科学》和《自然》上。

2018年，谷歌在围绕深度强化学习的研究与应用中取得多项开创性进展。2018年6月，谷歌大脑（Google Brain）提出了一个为强化学习环境构建的神经网络模型“世界模型（World Models）”，“世界模型”可通过无监督的方式快速训练，让人工智能在“梦境”中对外部环境的未来状态进行预测，大幅提高了完成任务的效率；2018年8月，谷歌宣布推出一个新的基于Tensorflow的强化学习框架，称为Dopamine，旨在为强化学习研究人员提供灵活性、稳定性和可重复性，这个强大的新框架有力地推动强化学习研究取得根本性的新突破；2018年10月，谷歌DeepMind开源了一个内部强化学习库TRFL，用于在TensorFlow中编写强化学习智能体，包含了DeepMind内部用于大量非常成功的智能体的关键算法组件，如DQN和IMPALA（Importance Weighted Actor Learner Architecture）等。

2018年9月，麻省理工学院和Google Cloud的研究人员提出AutoML模型压缩技术，利用强化学习将压缩流程自动化，完全无需人工，而且速度更快，性能更高。模型压缩是在计算资源有限、能耗预算紧张的移动设备上有效部署神经网络模型的关键技术。在许多机器学习应用，例如机器人、自动驾驶和广告排名等，深度神经网络经常受到延迟、电力和模型大小预算的限制。该项研究能够自动查找任意网络的压缩策略，以实现比人为设计的基于规则的模型压缩方法更好的性能。

2018年10月，美国能源部旗下劳伦斯伯克利国家实验室发布了新的研究项目，旨在将人工智能应用到自动驾驶车辆中，从而使交通流更为顺畅、节省车辆油耗并改善空气质量。该机构还与加州大学伯克利分校开展合作，将深度强化学习技术用于训练控制器，实现更加可持续的交通模式。

图网络推动深度学习迈向因果推理里程碑

2018年6月，DeepMind联合谷歌大脑（Google Brain）、麻省理工学院等机构将图与深度神经网络相结合，提出了一个全新的深度学习模块“图网络（Graph Network）”，是对以前各种对图进行操作的神经网络方法的推广和扩展。由于“图网络”主要采用神经网络的方式对图进行操作，因此它又可以称为“图神经网络”。图网络具有强大的关系归纳偏置，为操纵结构化知识和生成结构化行为提供了一个直接的界面，由于其支持关系推理和组合泛化的优势，“让深度学习也能因果推理”，引起业界的广泛关注。

图网络的框架定义了一类用于图形结构表示的关系推理的函数，推广并扩展了各种神经网络方法，并为操作结构化知识和生成结构化行为提供了新的思路。图网络框架概括并扩展了各种的图神经网络、多层感知机神经网络等，并支持从简单的构建模块来构建复杂的结构。图网络框架的主要计算单元是图网络模块，即“图到图”模块，它将图作为输入，对图的结构执行计算，并返回图作为输出。图网络框架的模块组织强调了可定制性，并能合成可以表达关系归纳偏置的新架构，其关键的设计原则可以概述为灵活的表征、可配置的模块内部结构以及可组合的多模块框架。2018年10月，DeepMind开源了内部的Graph Nets库，用于在TensorFlow中构建简单而强大的关系推理网络。

BERT模型领航自然语言处理全领域研究

2018年度深度学习技术在自然语言处理领域最瞩目的突破性进展是谷歌的BERT模型。2018年10月，谷歌发布的BERT（Bidirectional Encoder Representation from Transformers）模型，该模型被认为是自然语言处理领域“最强模型”，一经发布便引发了深度学习界持续而强烈的关注。BERT模型是一种对语言表征进行预训练的模型，经过大型文本语料库（如维基百科）训练后获得的通用“语言理解”模型，该模型可用于多种自然语言处理下游任务（如自动问答、情感分析等）。BERT模型之所以表现得比过往的方法要好，是因为它是首个用于进行自然语言处理预训练的无监督、深度双向系统。BERT模型是一种深度双向Transformer模型，刷新了11种自然语言处理任务的最佳表现，包括斯坦福问答数据集（SQuAD）等。在描述该模型的论文发布之后不久，其研究团队还开源了该模型的代码，并发布了可供下载的模型版本，已经在大规模数据集上经过预训练。BERT模型被广泛认为是一个重大的进展，因为它可让任何人都可以构建涉及自然语言处理的机器学习模型，并将这种强大工具用作其中的组件，这能节省从头开始训练语言处理模型所需的时间、精力、知识和资源。

多任务学习探索通用人工智能初级形态

多任务学习（Multi-Task Learning）是指让单个智能体学习如何解决许多不同的任务，一直是人工智能研究的长期目标，被认为是通往通用人工智能（Artificial General Intelligence）的关键一环。关于通用人工智能（也称“强人工智能”）的相关研究希望通过一个通用的数学模型，能够最大限度概括智能的本质。目前对于“智能的本质”的比较主流的看法，是系统能够具有通用效用最大化能力，即系统拥有通用归纳能力，能够逼近任意可逼近的模式，并能利用所识别到的模式取得一个效用函数的最大化效益。

当前多任务学习存在的问题在于，强化学习智能体用来判断成功的奖励方案经常存在差异，导致他们把注意力集中在奖励更高的任务上。为了解决这个问题，2018年9月，DeepMind开发了PopArt（Preserving Outputs Precisely while Adaptively Rescaling Targets），解决了不同游戏奖励机制规范化的问题，它可以玩57款雅达利电子游戏（包括雅达利经典的“突出重围（Breakout）”和“乒乓球（Pong）”游戏），并且在所有57款游戏中达到高于人类中间水平的表现。PopArt的工作机制是在机器对不同任务的学习数据进行加权之前，先对数据目标进行自动的“归一化”调整，再将其转换成原始数据输出给机器。其优势体现在如下两个方面：机器对不同奖励大小和频率的多个任务进行更稳健、一致的学习；能够有效增加机器学习智能体的数据效率，降低训练成本。

近年来，多任务学习领域已经取得许多卓越的进步。随着人工智能研究向更复杂的现实世界领域发展，构建一个单一的强智能体（General Agent）来学习执行多重任务将变得至关重要，而不是构建多个专家智能体。到目前为止，这已经被证明是一项重大挑战。

产业巨头纷纷开源深度学习模型与平台

随着深度学习在计算机视觉、自然语言处理等领域取得的成果越来越显著，对深度学习的讨论越来越多。谷歌、英伟达、脸书、微软等科技巨头在2018年围绕深度学习推出一系列开源框架。

2018年，谷歌第二代人工智能框架TensorFlow进行了多次重大改进，重点在于提高易用性和高效性，推出TensorFlow Hub、TensorFlow.js、TensorFlow Extended；提供Cloud TPU模块与管道；提供新的分布式策略API；提供概率编程工具；集成Cloud Big Table等。目前TensorFlow在各类深度学习框架的对比中处于统治地位，谷歌宣布将于2019年发布TensorFlow 2.0版本。基于TensorFlow，谷歌在2018年开源多款开发平台或模型：2018年1月，谷歌推出机器学习产品Cloud AutoML，拥有视觉、自然语言处理、翻译等多种服务；2018年10月，谷歌开源轻量级AutoML框架AdaNet，该框架基于TensorFlow，提供了一种通用框架，不仅能够学习神经网络架构，还能学习集成从而获得更佳的模型，仅需少量的专家干预便能自动学习高质量模型，在提供学习保证的同时也能保持快速、灵活；2018年10月，DeepMind开源一个用于在TensorFlow环境中开发强化学习智能体的代码库TRFL，打包了许多有用的基础组件，包含DeepMind自己用来开发DQN、DDPG以及IMPALA等知名强化学习技术的许多关键算法组件；2018年11月，围绕称为自然语言处理领域重大进展的BERT模型，谷歌开源了BERT模型TensorFlow代码、BERT-Base与BERT-Large模型的预训练检查点、微调实验结果的自动化复现TensorFlow代码、预训练数据生成和数据训练的代码。

2018年3月，英伟达（NVIDIA）推出了一个更新的、全面优化的软件堆栈，还公布了其全球领先的深度学习计算平台所取得的一系列重要进展，包括NVIDIA Tesla V100（最强大的数据中心GPU）的2倍内存提升，以及革命性的全新GPU互联结构NVIDIA NVSwitch，它可使多达16个Tesla V100 GPU同时以2.4 TB /秒的速度进行通信，这一速度创下历史新高（相较于半年前发布的上一代产品，其深度学习工作负载性能实现10倍提升）；同时，英伟达推出NVIDIA DGX-2，是其在深度学习计算领域取得的重大突破，这是首款能够提供每秒两千万亿次浮点运算能力的单点服务器，具有300台服务器的深度学习处理能力，占用15个数据中心机架空间，而体积则缩小60倍，能效提升18倍。2018年11月，英伟达发布了一个基于Python的迁移学习工具包（Transfer Learning Toolkit），打包了很多预训练的模型，并提供多GPU支持，用户还可以在工具包提供的原有神经网络上，增加数据或者增加特征，然后让它们重新训练以适应变化，该工具包主要面向智能视频分析和医学影像分析等两种应用。

2018年6月，苹果公司在WWDC2018上发布了Core ML 2，该框架是在苹果产品上使用的高性能机器学习和深度学习框架，能帮助开发者快速地将多种机器学习模型融合到移动应用程序中，比初代Core ML提速逾30%；同时，苹果还发布Create ML，支持计算机视觉、自然语言处理等机器学习任务模型开发，能直接在Mac上完成模型训练。

2018年11月，由诸多硅谷科技巨头联合建立的人工智能非营利组织OpenAI推出深度强化学习教育资源Spinning Up，一个旨在提供深度强化学习的项目。Spinning Up包括一系列重要的强化学习研究论文，理解强化学习所必需的术语表，以及一系列用于运行练习的算法。该项目的推出不仅是为了帮助人们了解强化学习是如何工作的，也是为了让更多来自计算机科学领域之外的人参与进来，从而朝着OpenAI安全创建通用人工智能的总体目标迈进。

2018年10月，Facebook发布开源移动端深度学习加速框架QNNPACK，可以成倍提升神经网络的推理效率，几乎比TensorFlow Lite快一倍；2018年12月，Facebook开源PyTorch 1.0稳定版，融合了Caffe2和ONNX支持模块化、面向生产的功能，并保留了PyTorch 现有的灵活、以研究为中心的设计；同月，Facebook开源了一个基于PyTorch的深度学习框架PyText，旨在解决当前自然语言处理任务中时间紧且需要大规模部署之间的矛盾，能够迅捷化构建和部署自然语言处理系统，该框架不仅能简化流程更快部署，还能调取众多预构建模型和程序方便大规模部署。

由斯坦福大学主导发布的“AI Index”2018年度报告指出，在众多深度学习开源框架中，TensorFlow的受欢迎程度在开发者中遥遥领先、稳步增长；排名紧随其后的是Scikit-Learn和BVLC/Caffe，但是落后明显。此外，根据Google Trends过去三年的统计数据可知，在全球范围内计算机科学领域，TensorFlow、Keras、PyTorch、Caffe、Theano这五个深度学习框架在Google网页搜索的热度中，TensorFlow一直处于领先状态且领先优势巨大，Keras位居第二。

当前，深度学习技术在信息科学各领域已无处不在、并正成为各自领域的标准方法，正在对医疗、法律、工程和金融等关键领域产生重大影响。作为现阶段人工智能的核心技术之一，2018年深度学习技术在包括自然语言处理在内的多个研究领域均迎来里程碑式进展，相关研究不断突破小样本（甚至零样本）阻碍、不断探索通用人工智能初级形态。

作者：北京海鹰科技情报研究所 葛悦涛王彤

转载请务必注明出处

作者简介

葛悦涛，博士，北京海鹰科技情报研究所高级工程师，主要研究领域包括反辐射导弹、自主系统、前沿技术等领域的发展研究。

王彤，北京海鹰科技研究所青年学者，主要研究领域包括自主系统、前沿技术、分布式作战等领域的发展研究。

海鹰资讯 hiwing_news

速递新鲜军事资讯
打造一流资讯平台

长按左侧二维码，收看更多精彩内容