图灵奖得主Bengio：深度学习不会被取代，我想让AI会推理、计划和想象

编译 | Just

出品 | AI科技大本营（ID:rgznai100）

在1990年代那个漫长而寒冷的AI寒冬期，大多数人认为神经网络是一条研究的死胡同，Yoshua Bengio等研究者却仍坚持不懈地进行着该领域的研究。

最终他们的努力开花结果。由于对深度学习做出的巨大贡献，他与Yann Lecun和Geofrey Hinton等人在今年3月获得了图灵奖。

如今， AI界关于深度学习缺点的讨论再度掀起浪潮。由于对深度学习发展有不同理解，纽约大学教授 Gary Marcus 质疑Bengio在深度学习上的立场，前一段时间和后者进行了一场隔空“互怼” 。

Marcus称他实际上赞成混合学习，但 Bengio却以为他（非常）反对深度学习，“深度学习是一种很好的工具，但只是众多工具中的一种。”

而Bengio认为需要被进一步挖掘深度学习的潜力，他此前警示了可解释因果关系对深度学习发展的重要性。在他看来，除非深度学习能够超越模式识别并了解因果关系的更多信息，否则它将无法实现其全部潜力，也不会带来真正的AI革命。换句话说，深度学习需要开始知道事情发生的因果关系，这将使现有的AI系统更加智能，更加高效。

今年年初，他与其他研究者合作发表了《通过元迁移目标来学习理解因果关系》一文，提出了一种基于学习器适应稀疏分布变化速度的元学习因果结构，还生成了因果关系的综合数据集。

近来德国学者Bernhard Schölkopf发布的一篇关于因果关系的综述文章也引发了学界关注，作者阐述了一些将因果关系和机器学习结合的想法，并勾勒出一个更大的研究蓝图。

总之，业内对深度学习百家争鸣的讨论，表明现在已到了开启AI下一个研究进程的时候。

当地时间12月11日，Bengio在NeurIPS 2019大会上发表了类似话题的演讲，题目是《从系统1深度学习到系统2深度学习》。

Bengio 介绍，深度学习过去的进展主要集中于从静态数据集学习，主要用于感知任务和其他的系统1任务（人类直观和无意识地完成的任务）。但是，近年来，研究方向的转变以及诸如软注意力和深度强化学习的进步等新工具为解决系统2任务（有意识地完成）的新型深度架构和训练框架的开发打开了大门。例如自然语言处理和其他应用中的推理、计划、捕获因果关系，并获得系统性概括。

在他看来，深度学习从系统1任务到系统2任务的这种扩展对旧的深度学习目标实现发现高级抽象表示很重要，因为系统2的要求将对表示学习造成压力，以发现人类用语言操纵的高级别抽象概念。

为了达到这个目标，他们认为软注意机制是一个关键因素，它将计算一次集中在几个概念上(“意识思维”)，因为先验意识及其相关的假设是，许多高层次的依赖关系可以被一个稀疏因子图近似地捕捉到。

他们还讨论了深度学习中的 agent 视角如何有助于对学习的表示形式施加更多约束，以捕获环境中的可供性（ affordances ）、因果变量和模型转换。

此外，他们建议元学习、先验意识的模块化方面以及表征学习的主体视角应促进以新颖的方式重用所学组件（即使在统计上不太可能，如反事实），从而实现更强大的组合泛化形式。

最后，Bengio 的报告给出了五点结论和问题： 认知神经科学之后，机器学习去探索意识的时机已经成熟； 2、能否带来新的先验来帮助系统地进行良好的归纳？ 3、认知神经科学也会受益吗？ 4、允许将深度学习从系统1扩展到系统2吗？ 5、假设： 需要良好的系统1功能来使系统2有效

Bengio 在NeurIPS 2019的演讲幻灯片：

https://drive.google.com/file/d/1zbe_N8TmAEvPiKXmn6yZlRkFehsAUS8Z/view

此外，IEEE Spectrum就类似的话题采访了Bengio，他从深度学习的不足，脑启发式计算，物理、语言和常识等方面做出了回应。

深度学习及其不足

IEEE Spectrum：您如何看待所有有关深度学习局限性的讨论？

Yoshua Bengio：太多面向公众的场所不了解我们在AI和其他学科中研究的核心内容：我们试图了解当前理论和方法的局限性，以扩大智力工具的范围。因此，深度学习研究人员希望找到不理想的地方，以便我们找出需要补充的内容和需要探索的地方。

Gary Marcus等人注意到了这一点，发出了这样的信息：“看起来，深度学习是行不通的。” 但实际上，像我这样的研究人员正在做的事情是扩大其范围。 当我谈论诸如需要AI系统理解因果关系之类的事情时，我并不是说这将取代深度学习。 我正在尝试向“工具箱”中添加新内容。

作为科学家，对我而言重要的是解决这些问题需要探索的东西，不是谁对谁错了。

Spectrum：您如何评估深度学习的当前状态？

Bengio：在过去的二十年中，我们在这项工作上取得了很多进展，但我认为AI今天还没有拥有接近两岁孩子的智力水平。但是也许我们有等同于低等动物的算法来进行感知。而且，我们在允许实体探索其环境的工具方面正在逐步攀升。

当今最重要的辩论之一是：高级认知的要素是什么？因果关系是其中的一个要素，此外还有推理和计划、想象力和功劳分配。在经典AI中，他们试图通过逻辑和符号来获得这些东西。有人说我们可以通过经典AI来做到这一点，也许可以通过改进来实现。

还有像我这样的人，认为 我们应该采用过去几年构建的工具来创建这些功能，其方式类似于人类进行推理的方式，这实际上与基于搜索的纯逻辑系统执行操作的方式完全不同。

脑启发式计算的曙光

Spectrum：我们如何创建类似于人类推理的功能？

Bengio：注意力机制使我们能够学习如何将计算重点放在几个元素上。人类做到了这一点，这是有意识处理的一个特别重要的部分。当你意识到某件事时，您将注意力集中在一些元素上，也许是某个想法，然后继续想到另一个想法，这与标准神经网络非常不同，后者是大规模并行处理。

由于这些注意力机制，我们在计算机视觉、翻译和记忆方面取得了重大突破，但是我相信这只是另一种来自脑启发式计算的开始。

这并不是说我们已经解决了问题，但我认为我们有很多入门工具。我并不是说这会很容易。我在2017年撰写了一篇论文，题为《先验意识》，阐述了这一问题。我有几个学生正在从事此工作，我知道这是一项长期工作。

论文链接： https://arxiv.org/abs/1709.08568

Spectrum：您想在AI中复制人类智慧的其他哪些方面？

Bengio： 我们还讨论了神经网络想象的能力： 推理、记忆和想象力是同一件事在你脑海中发生的三个部分。 你将自己投射到过去或将来，并且按照这些预测进行操作时，你正在进行推理。如果你预计将来会发生不好的事情，那么会改变路线，这就是你进行计划的方式。而且你也正在使用记忆，因为你会回到已知的事物上来进行判断，可以从现在和过去中选择相关的事物。

注意力（Attention）是这里的关键组成部分。假设我正在将一本书翻译成另一种语言，对于每个单词，我都必须仔细阅读本书的一小部分。注意力使你可以抽象出许多不相关的细节，并集中精力处理重要的内容。能挑选出相关要素，这就是注意力所做的。

Spectrum：这如何转化到机器学习？

Bengio：你不必告诉神经网络要注意什么，这就是它的美。它可以自学习。神经网络学习应该给予一组可能元素中的每个元素多少注意力或权重。

学会学习（learning to learn）

Spectrum：您最近的因果关系研究与这些想法有何关系？

Bengio：你用来推理的高层次概念往往是因果关系的变量。你并不会基于像素进行推理，而是根据门或旋钮或打开或关闭等概念进行推理。 因果关系对于机器学习的下一步发展非常重要。

它与深度学习中人们经常想到的另一个主题有关。系统概括是人类必须概括我们所知道的概念的能力，因此它们可以通过新的方式进行组合，这与我们所见过的其他任何方式都不一样。当今的机器学习不知道该怎么做。因此，你经常会遇到与特定数据集训练有关的问题。假设你在一个国家/地区训练，然后在另一个国家/地区进行部署。你需要概括和迁移学习。你如何训练神经网络以便将其迁移到新环境中时，它可以继续正常工作或快速适应吗？

Spectrum：这种适应性的关键是什么？

Bengio：元学习是当今非常热门的话题：学会学习。我在1991 年就此发表了一篇早期论文（链接

http://bengio.abracadoudou.com/publications/pdf/bengio_1991_ijcnn.pdf），但是直到最近我们才获得实现这种事情的计算能力。它的计算量很大。这个想法是：为了泛化到新环境，你必须练习泛化到新环境。当你考虑它时，它是如此简单。孩子们一直都这样做。当他们从一个房间移动到另一个房间时，环境不是一成不变的，它一直在变化。孩子们训练自己要善于适应。为了有效地做到这一点，他们必须利用过去获得的知识。我们开始了解此能力，并构建能复制它的工具。

对深度学习的一种批评是，它需要大量的数据。如果你仅在一项任务上进行训练，确实是这样。但是孩子们有能力根据很少的数据学习，他们利用以前学到的东西。但更重要的是他们正在利用自己的适应能力和泛化能力。

“还没准备要工业应用”

Spectrum：这些想法中的任何一个会很快在现实世界中应用吗？

Bengio：不。这都是关于玩具问题（ toy problems ）的非常基础的研究。那就是我们的状况。我们可以调试这些想法，继续进行新的假设。这还没有为工业应用做好准备。

但是行业关心两个实际的局限性，这项研究可能会有所帮助。一个是构建对环境变化更具健壮性的系统，另一个是我们如何构建自然语言处理系统，对话系统和虚拟助手？当前使用深度学习的最先进系统的问题在于，它们接受了大量数据的训练，但是他们并不太了解他们在说什么。像Gary Marcus这样的人注意到了这一点会说，“这证明深度学习是行不通的。”像我这样的人说，“那很有趣，让我们应对挑战。”

物理、语言和常识

Spectrum：聊天机器人如何做得更好？

Bengio： 有一个叫做“基础语言学习”的想法最近正在引起的关注。 这个想法是， 人工智能系统不应该仅从文本中学习。 它应该同时学习世界如何运转以及如何用语言描述世界。 问问自己：如果孩子仅通过文本与世界互动，能否理解世界？我怀疑他们会很困难。

这与有意识或无意识知识有关，我们知道但无法具体命名。直观的物理就是一个很好的例子。两岁的孩子懂得直观的物理，他们不知道牛顿方程，但是他们从具体的意义上理解重力等概念。现在，有些人正在尝试构建与环境互动并发现物理基本定律的系统。

Spectrum：为什么基本的物理知识会有助于对话？

Bengio：语言方面的问题是，系统通常并不真正理解单词所指的复杂性。例如，在Winograd模式中使用的语句；为了理解它们，你必须掌握物理知识。像这样的句子：“吉姆想把灯放到他的行李箱里，但是它太大了。”你知道，如果这个物体太大而不能放进行李箱，那么“它”一定是第二个短语的主语“它”。你可以用语言交流这种知识，但这不是我们四处说的那种话：“一件行李的典型大小是x乘x。”

我们需要能够理解世界的语言理解系统。当前，人工智能研究人员正在寻找捷径。但是他们还不够。人工智能系统还需要获取世界运作方式的模型。

图灵奖得主Bengio：深度学习不会被取代，我想让AI会推理、计划和想象

数学学渣必备！拍照上传，分步求解，微软解题神器拯救你

华为诺亚方舟开源预训练模型“哪吒”，4项任务均达到SOTA

蚂蚁金服提新概率图模型GLN，正确率提升8.2%，具备可解释性 | NeurIPS 2019

赠书 | 熵的实际应用，赌场和金融圈最著名的一个数学公式

那些打着AI万金油旗号的产品欺骗大众，如何识别?

扛住100亿次请求——如何做一个“有把握”的春晚红包系统

「刷新 CTO」微软与 CSDN 的 CTO 转型思想汇

想开发智能合约？先 get 下这个适合所有人的模型驱动法（文末有福利）