2020 年了，深度学习接下来到底该怎么走？

作者 | Ajit Rajasekharan

编译 | 亚希伯恩•菲

编辑 | 丛末

在过去的一年，深度学习技术在各个领域一如既往地取得了不少进展。然而当前深度学习技术（本文中称为深度学习1.0）仍然存在着一些明显的局限，例如在解决有意识任务方面的不足。那么针对这些局限性，在未来的一年，有哪些可能的解决方案？深度学习又会在哪些方面带来有希望的突破？

机器学习资深从业者 Ajit Rajasekharan 在本文中汇集了深度学习领域各路大佬的想法，并分享了他本人的一些思考。

这幅图总结了最近Yoshua Bengio，Yann LeCun和Leon Bottou 教授在NeurIPS 2019上的演讲

尽管深度学习模型在2019年继续不断刷新记录，在一系列任务，尤其是自然语言处理任务上取得了当前最优的结果，2019年不仅是对“深度学习1.0之后又是什么？”这一问题的测验跨入公众视野的一年，也是学术界对此问题的研究加快步伐的一年。

一、深度学习1.0 的局限性

深度学习1.0（如上图，Bengio教授将其称为“深度学习系统 1”）已经成功地解决了人们可以在直观上（通常以快速无意识、非语言的方式）解决的任务，比方说，直觉感觉到游戏中采取一种特定的行动是好的，或者感知到一张图片中有一只狗，这些我们可以在不到一秒钟的时间内快速完成任务以及我们惯常解决的任务，都属于此类。

DL 1.0 模型在某些任务的基准测试中具有超越人类的性能，但即使在这些任务中，也存在一些已知的缺陷：

1、与人类相比，DL 1.0 模型需要大量的训练数据或时间。例如，一个模型须经过等效于200年的实时训练，才能掌握策略游戏StarCraft II。而人类则可以在平均20小时内学会驾驶且不易发生事故。

目前为止，尽管消耗比人类多几个数量级的训练数据和时长，我们还没有训练出可以完全自动驾驶的汽车。而且对于很多任务，模型还需要从人类标记的数据中学习概念。

图片来自Yann Lecun最近的演讲《基于能量的自监督学习》。在某些游戏中需要大量增加模型训练时间才能达到或超过专业人类玩家的水平。

2、DL 1.0 模型会犯人类通常不会犯的错误。例如，更改图像的少量像素（我们的眼睛甚至不会注意到）可能导致模型的分类错误。例如人站在电话旁，可能使模型误认为该人正在打电话。

这些错误似乎源于多种原因：（1）模型在某些情况下做出了虚假关联；（2）输入数据存在偏差，导致模型输出受到污染；（3）模型对分布变化的鲁棒性不足，在某些情况下，无法处理训练分布中的罕见情况。

DL 1.0模型会犯的不同类型错误。（a）在左上方的图中，人类甚至无法察觉的噪声注入会导致模型分类错误。来自2015年论文的对抗样本图片。（b）右图中的错误则是因为模型大部分时间都暴露在电话亭附近的人类拨打电话的场景下，这是由于训练数据集的选择偏见所致。图片源自Leon Bottou在2019年10月关于“用因果不变性学习表示”的演讲（c）经常观察到的一类错误是模型无法将训练数据分布泛化到此分布外数据，比方说，训练分布中的罕见事件。下面的图是黑天鹅效应的一个具体例子：不太可能发生，但一旦发生则会造成严重后果，比如一辆自动驾驶汽车，暴露于（尽管从训练数据分布的角度来看不太可能发生的）罕见事件中。图片源自 Yoshua Bengio在 NeurIPS 2019 上的演讲

二、如何实现接近人类水平的 AI ？

答案是目前尚不清楚。具体来说这个问题应该是：我们如何解决 DL 1.0 模型现有的局限性，并克服有意识任务的解决？

一种有前景的方法是从人类中汲取灵感，因为人类除了在解决无意识任务中没有 DL 1.0 的局限性（样本效率低下，无法泛化到数据分布以外）之外，还擅长于解决有意识的任务（系统 2 的任务），例如逻辑推理、规划等任务。

下面列出一些有可能将深度学习研究带入“深度学习2.0”（有意识的任务解决）的研究方向（这些合理的方法、假设和先验中，一些已在早期的小规模实现中成为现实）：

自监督学习：
通过预测输入进行学习
利用分布式表示的组合能力
去掉IID（独立同分布）随机变量假设
两种自监督表示学习方法
注意力机制的作用
多时间尺度的终身学习
架构先验

下面就这些研究方向进行详细介绍，揭示其本质，并说明它们在克服上述 DL 1.0 缺陷的同时，也极可能是通往有意识的任务解决方案（DL 2.0）之路。

1、自监督学习：通过预测输入进行学习

自监督学习本质上是通过输入数据的一部分对输入数据的其他部分进行预测来学习。这些预测可能是对输入数据序列（时间或空间）下一个元素的预测，或者是对序列中缺失值的预测。输入数据的类型可以是一种或多种（图像，音频，文本等）。自监督学习通过重构输入的缺失部分进行学习。

我们通过自监督学习学得大部分的内容。几年前，Geoffrey Hinton在一封信里就预测到了这一点：他那时将通过重构输入数据来监督自己的学习称为无监督，我们现在为清晰起见称其为“自监督”。

大脑大约有1014个突触，而我们仅能存活109秒。这启发了人类肯定需要大量无监督学习的想法。因为感官输入是我们能获得每秒105维度约束的唯一处所。

用于自监督学习的传感器数据流的价值，除了其绝对数量（就每秒训练数据量而言）上的价值之外，还有：

它提供了更多的反馈数据（由于重构类型不同，反馈即使不是关于全部输入数据，也是关于输入数据的一部分），而典型的监督学习（反馈是类别值或对每个输入的几个数字）或强化学习（反馈是对模型预测的标量奖励）的反馈数据较少。
来自环境的传感器数据流是非平稳的。这会迫使学习器，更具体地是嵌入在学习器中的编码器，去学习对象的稳定表示以及在不断变化的环境中基本不变的概念。环境固有的非平稳性也为学习变化的原因提供了机会。分布外泛化（预测事件未在训练分布中出现）和因果关系习得对于学习器做出生存必需的预测至关重要。本质上，环境的非平稳性通过不断评估和完善概念的表示和概念之间的因果关系为持续学习提供了机会。
传感器流包括在学习中起关键作用的智能体（包括学习器在内）。智能体是环境的组成部分，并通过干预来改变环境。在 DL 1.0 中，仅将智能体纳入强化学习中。DL 2.0 模型要实现其目标，将智能体纳入自监督学习中可能是重要的一步。即使是被动的学习者（例如新生儿），在刚出生的几个月里，也主要通过观察环境中其他主体的交互作用来学习。

图片来自Yann LeCun最近的演讲。新生儿童可以用直觉来学习物理知识。例如，9个月左右的婴儿，即使在我们不去教他们什么是重力的情况下，可以通过观察周围的世界了解重力。我们通过一个简单的实验知道婴儿是否能直观地理解重力，实验将一个汽车从桌子上推下，但汽车不会掉落（有看不见的细线牵着车子）的现象不会让一个不到9个月的婴儿感到惊讶。9个月后的婴儿则会感到惊讶，因为他们的观察结果与他们9个月的“内部模型”预测车子会掉落的输出不符。

学习捕获因果关系的概念的稳定表示，使学习者能够在其计算能力之内通过模拟合理的动作序列来预测未来的几个时间步长的序列，并规划未来的动作，以趋利避害（例如学开车时避免在下山时冲下悬崖）。

DL 1.0 中的自监督学习

在 DL 1.0自然语言处理（NLP）任务中，自监督学习已被证明非常有用并取得成功（能实现最佳性能）。我们有一些可以通过预测句子的下一个单词或预测从句子中删除的单词来学习单词表示的模型（如BERT，它在 NLP 界称为无监督预训练，但本质上是自监督学习，该模型通过重建输入的缺失部分来学习）。

但是，DL 1.0语言建模方法仅从文本输入中学习，而未考虑在其他感官流以及智能体交互的环境中学习（2018年有论文做此尝试，感兴趣可前往 https://arxiv.org/pdf/1810.08272.pdf 阅读论文）。基于感官环境的语言学习赋予单词更多的上下文和意义，而不仅仅是单词在句子中上下文的统计（相对于其他单词在句子中的位置）。

而目前的语言学习大多被局限为仅从文本出发进行自监督学习，不仅需要大量的训练文本，而且将模型对语言的理解仅限于单词序列的统计属性，无法与多感官环境学习相匹配。（模型无法仅通过学习单词序列的统计属性获得对空间的理解，比如：奖杯无法放入盒子，因为它太大；奖杯无法放入盒子，因为它太小；需要将“它”对应到正确的对象才能正确理解句子，第一个“它”是指奖杯，第二个“它”则是指盒子。）

迄今为止，自监督学习在图像，视频和音频方面取得的进展不如在文本方面获得的成功，尽管在图像补全（修复），利用 GAN的视频下一帧预测模型等方面取得了一些成果。但是，从有意识的任务解决角度来看，直接在像素，视频和音频的输入空间中进行预测或许不是正确的方法（我们不会在像素级别上有意识地预测电影接下来会发生什么，我们在对象或概念级别预测）。

尽管不同的感管输入对于理解世界具有重要作用，但通过感管模态进行的输入预测或许最好在抽象的表示空间中进行，而不是在原始的输入空间（视频，音频等），而上面已经提到过的语言理解也是需要从多感官理解世界（最后的附加注释说明了语言的特殊性质及其在DL 2.0调试中的潜在作用）。

2、利用分布式表示的组合能力

组合性提供了从一组有限的元素中创建更大（指数）组合的能力。

DL 1.0 已通过以下方式利用组合性的指数增长特点：

分布式表示的每个特征可以参与所有概念的表示，从而实现指数组合。特征组成的表示是自动学得的。将分布式表示可视化为实值（浮点数/双精度数）向量可使其变得具体。向量可以是稠密的（大多数分量具有非零值）或稀疏的（大多数分量为零，最极端情况是独热向量）。
DL 模型的每一计算层都可进一步组合，每层的输出是前一层输出的组合。DL 1.0模型充分利用了这种组合性来学习具有多个层次的表示（例如，NLP模型学会在不同层中捕获不同层面上的句法和语义相似性）
语言具有 DL 1.0 尚未完全利用的其他可组合级别。例如，语言能编写出不可能从训练分布中提取的原创句子，也就是说不仅仅是在训练分布中出现的概率很小，出现概率甚至可能为零。这是一种比分布外（OOD）泛化更进一步的系统化泛化。最近的语言模型可以生成连贯的新颖文章，具有很高的独创性，但模型缺乏对基本概念的理解，特别是当这些文章由诸如工程概念组成时。如前所述，这种缺陷可能在一定程度上是由于缺乏扎实的语言理解，并且可能在DL 2.0中得以克服。
组合性无需仅限于创造新的句子，如下图所示，它也可以是先前概念的原创性组成（尽管语言在某种程度上可以用于描述任何概念）。

DL无法像人类一样出色地用现有数据组成新颖的概念

3、去掉 IID（独立同分布）随机变量假设

大多数DL 1.0模型假定无论是来自训练集还是测试集的数据样本，都彼此独立，并从同一分布中提取（IID假设，即训练和测试数据集的分布都可以用同一组分布参数来描述。）

从非静态环境中进行自监督学习，智能体与这种环境交互过程中（根据其从不断变化的环境中学习的本质）需要去掉 IID 假设。

但是，即使是在有监督学习的问题中（例如，自动驾驶汽车对图像/对象的分类/标识），IID假设也可能会成为负担，因为始终存在模型在训练中从未见过的现实生活场景，而且这些场景下分类错误可能会造成高昂的成本（在自动驾驶汽车的早期版本中已经有一些实例）。

尽管用大量驾驶时间的数据训练模型可以减少错误，但没有 IID 假设的学习模型比通过IID假设学得的模型，更有可能更好地处理稀有和分布外的情况。

放弃IID假设的另一个原因是：“通过对数据进行混洗使训练和测试数据同质化”的做法在创建训练模型的数据集时就引入了选择偏差。

为了实现IID，将从不同来源（包含属性差异）获得的数据进行混洗，然后分为训练集和测试集。这会破坏信息并引入虚假的关联。例如，考虑将图像分类为牛或骆驼的例子。母牛的照片全都在绿色的牧场上，而骆驼则在沙漠中。对模型进行训练后，模型可能无法对沙滩上的母牛图片进行分类，因为模型引入了虚假的关联，将绿色景观分类为母牛，将土色景观分类为骆驼。

我们可以通过让模型学习不同环境中的不变特征来避免这种情况。例如，我们可以在不同绿色比例的牧场上拍摄奶牛的照片，其中一个牧场90％是绿色，另一个牧场80％是绿色。这样模型就可以学到牧场和奶牛之间存在很强但变化的相关性，因此不能通过牧场来判断图片中的动物是不是奶牛。但是，不管母牛本身处于何种环境，模型都应该能够识别它们。

因此，通过利用不同的分布来识别不变属性，而不是将它们全部混在一起，可以防止虚假的关联性。尽管这只是一个例证，但广泛利用分布变化中的信息并学习变化分布中的不变表示，可能有助于学得鲁棒的表示。

顺便说一下，与直接确定因果关系变量相比，确定在分布变化中不变的变量相对容易，因此可以将其用作识别因果关系变量的方法，不过挑战在于找出那些变化的分布中不变的变量。

一个自然的问题是，如果我们放弃IID假设，我们如何在变化的环境中准确地学习表示？

4、两种自监督表示学习方法

自监督表示学习的两种方法为：

在输入空间中预测接下来会发生什么。
在抽象空间中预测接下来会发生什么。

两种自监督学习方法。在左图中，通过预测输入空间的缺失部分来进行表示学习。例如，在从视频流进行自监督学习中，通过使用时间t-1处的图像帧来预测时间t处的图像帧。预测器将时间t-1处的帧和潜变量作为输入来预测时间t处的帧。该模型输出利用潜变量给出多个预测，然后（在基于能量的模型中）选择能量最低的预测对（y，y’）。在右图中，预测发生在学得的表示c和h所在的抽象空间中。训练目标函数V以特定方式使当前状态h与过去状态c匹配，以保持这两个状态之间的一致性。该目标函数的实际实现还有待确定，参考部分提供了有关此方法的更多详细信息。

这两种方法并不是互斥的，模型也可以同时使用两种方法学习表示。

1）在输入空间中预测接下来会发生什么

这通常是通过一个包含了有关环境所有未知信息（包括智能体和智能体之间交互信息）的潜变量来实现的，通过训练模型来预测未来，或者等效地使用重构错误作为学习表示的方法来重构未来。基于能量的模型是学习此类表示的一种方法。

这种方法把输入（x）和输入的预测/重构部分（y）通过一个标量值能量函数映射到能量平面，并使得学得的输入数据点x和y的表示具有较低的能量。这可以通过两种途径来实现：

（1）第一种途径是降低输入数据点（x及其预测y）的能量，同时提高所有其他点的能量（例如，在基于能量的GAN中生成器选择远离输入点所在位置的对比数据点）

（2）第二种途径是（通过网络结构或某种正则化）将输入数据点的能量大小限制在较低水平。如前所述，环境中的未知部分通常由一个潜变量（z）反映，通过变化z可以对y进行多个预测，然后选择具有最低能量的一个预测。

潜变量的信息容量须受到多种方法的限制，例如使潜变量满足稀疏性要求的正则化，添加噪声等方法。这些潜变量通常是在训练期间通过编码器学得的，该编码器同时接受输入（x）和要预测的实际数据（y'）。然后，解码器利用潜变量和x（实际上，是x的变换版本，变换通过某种神经网络完成）来进行预测。

能量函数作为成本函数，然后将此函数的标量输出用于训练模型以学习正确的表示。通过解码器来进行推断（实际上，编码器还可以在下面会讲到的终生训练周期中使用）。Yann LeCun在最近的演讲中（https://youtu.be/A7AnCvYDQrU）详细介绍了这种方法，并展示了这种方法如何使汽车学习在模拟环境中驾驶（训练数据是现实场景中汽车的行车记录视频，模型通过预测在视频的下一帧中该车与其他车在车道上的位置来学习，成本函数考虑了该车与其他车之间的距离以及该车是否还在原来的车道上）。

这种方法在本质上是将 DL 1.0模型用于重构输入的自监督学习任务，该任务的反馈信息非常丰富（视频中的下一个图像帧，音频等），而不仅限于标量奖励（强化学习），或者标签（有监督学习）。

2）在抽象空间中预测接下来会发生什么

该方法基于如下假设：环境变化可以由一些因果变量（最终体现为稀疏表示）来解释，这些因果变量是从高维度表示（类似于DL 1.0中表示的感知空间）中提取的，而高维表示又是通过从环境中的感官输入学得的。最后用因果变量的稀疏表示预测未来，也就是说，不是在原始输入空间中进行预测，而是在所学得的稀疏表示与此表示所衍生的感知空间相一致的空间中进行预测。

这类似于我们计划从工作地点开车回家，是在非常稀疏（低维度）的空间里进行规划路线操作，而不是在车辆行驶中实际感官输入的空间中进行此操作。

相比于从感知流原始输入空间中预测，从抽象空间中预测即将会发生什么具有一些潜在的优势，它不仅可以学得考虑环境变化的输入流的更好表示（类似于DL 1.0中的表示），而且还可以学习输入感知流变化的原因。

本质上，针对分布变化和 OOD 性能训练这些模型（如参考部分所述，用于学习这些表示的训练目标函数该如何设计仍然是一个开放的问题）的做法可用作学习良好低维因果表示的训练信号。同时，可以通过低维表示来解释环境变化的假设对编码器施加了学习此类表示的约束（可能还需要其他约束）。

已有一些早期工作使用DL方法来找变量（有向图）之间的因果关系，该关系可用于在两个随机变量A和B的联合分布P(A,B)的两个等效因式分解---P(A)P(B/A) 和P(B)P(A/B)之间进行选择，以最好地捕获A和B之间的因果关系。具有正确因果因式分解的模型，例如P(A)P(B/A)，即当A是B的原因且A受到一些噪声干扰时，可以更快地适应分布变化。（ Yoshua Bengio 最近的演讲也详细介绍了这种方法）。

虽然这两种方法大不相同，但它们具有潜在的联系。一个联系是两种方法（即使是不同方式的实现）都有稀疏性约束。另一个联系是因子图和能量函数之间的联系。

变量之间（在合适的表示空间中的）的联合分布是对世界的粗略近似，可以帮助智能体进行计划、推理、想象等。因子图可以通过将联合分布划分为多个随机变量子集（一个变量可以在多个子集中）的函数来表示联合分布。正确的划分会使能量函数下降，否则，将划分放入因子图中将不是一种明智的做法。

5、注意力机制的作用

尽管注意力本质上是一个加权和，但是在以内容驱动的训练和推理期间权重本身是动态计算时，这种简单操作的威力显而易见。

注意力集中在哪里？

标准前馈神经网络中任何节点的输出是该节点的输入加权和的非线性函数，该节点在训练时学习权重。相反，注意力机制允许即使在利用输入内容进行推理时，也动态地计算这些权重。这使得在训练和推理时连接计算层的静态权重可以被注意力机制根据内容计算出的动态权重所代替。

Transformer架构（例如BERT）就使用了这种方法。例如，单词的向量表示是其邻居的加权和，权重确定每个邻居在计算单词的向量表示时的重要性（也就是注意力集中在哪里），关键在于这些权重由依赖句子中的所有单词的注意头（BERT模型的每一层中都有多个注意头）动态算出。

注意力集中在哪里？该图说明了在各层间具有动态权重边连接的注意力模型与各层间具有静态权重边连接的普通模型（例如标准FFN）在推理时的比较。在左侧图中：节点X的输出是输入的加权和，在推理期间，权重w1，w2，w3，w4，w5保持不变，与输入（A1-A5，B1-B5）无关。在右侧图中：注意力模型中节点X的输出也是输入的加权和，但权重本身（在训练和推理期间）是根据输入动态计算的。这就使得在输入（A1-A5，B1-B5）不同时权重也会发生变化，如不同颜色的虚线边所示。

什么时候集中注意力？

在机器翻译中，给定由编码器计算出的一组隐藏状态，注意力机制将根据翻译阶段（解码器隐藏状态）的不同，在每个时间步中选择不同数量的隐藏状态矢量（也即决定什么时候集中注意力）来产生翻译，如下图所示。

什么时候集中注意力？该图源自Jay Alammar关于神经机器翻译的文章(https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/)。编码器的输出是三个隐藏状态向量，在输出翻译文本时，两个解码状态（时间步长4和5）通过注意力机制（A4和A5）选择了这三个隐藏状态向量的不同比例求和。

注意力机制在前面所述“在抽象空间中预测”的方法中起着关键作用，用于在大量表示（构成无意识空间的表示）中选择需要注意的方面以帮助有意识的任务解决。因果推理，规划或寻找最佳解决方案的图搜索都可以作为时间上的序列处理任务，在每个时间步中，都需要用注意力机制来选择合适的（源于无意识状态集的）隐藏状态子集。

将噪声注入到图遍历的（用到注意力机制的）下一步选择中，这为解决方案的搜索（类似于 RL 中的蒙特卡洛树搜索）开辟了需要探索的方向。更重要的是，可以像 DL 1.0 在翻译任务中所采取的做法，对序列处理任务合适的注意力掩码（根据感官空间表示的函数动态计算）能通过学习得到。

注意力不仅可用于有意识的任务解决，而且还可以自上而下的方式潜在地影响任务的后续感知。这种自上而下的影响是从大脑中汲取的灵感，大脑新皮层（执行有意识的处理）的每个功能单元（皮质柱）都具有感觉传入和传出的连接，这些连接中的一些与运动区域有关。一旦输入中的某些内容引起我们的注意，这些连接就会有意识地将感知引导到输入流的特定部分。例如，从新皮层的感觉区域到处理音频输入的头部肌肉都有运动连接，一旦有声音引起我们的注意，我们的头部就会转到异常声音的发出位置。

图源自 Yoshua Bengio演讲幻灯片（https://drive.google.com/file/d/1zbe_N8TmAEvPiKXmn6yZlRkFehsAUS8Z/view）。有意识的思想自下而上地选择无意识状态中主要的方面，而这又反过来导致注意自上而下地集中在感觉输入上。

6、多时间尺度的终身学习

多时间尺度的学习和迭代优化促进了 OOD 泛化。例如，智能体可以在不同的环境中学会快速的适应，同时通过较慢的迭代以泛化习得的适应。这种多时间尺度方法是一种学会如何去学习的方式。

DL 1.0的从业者通过人来做“学会如何去学习”部分以达到相同的效果，他们通过失败案例扩展训练集，并由人类专家来找到更多此类边缘案例，然后围绕这些失败案例持续地训练有监督的学习模型，最后将训练好的模型部署到实际应用。

特斯拉的实践就是这种方法的一个例子，他们在汽车的更新过程中不断提高自动驾驶能力。这种缓慢地排除罕见事件的方法能否最终将黑天鹅事件发生的概率降到可以忽略的程度，达到现实中的安全，还有待观察。

7、架构先验

“在抽象空间中进行预测”的方法除了依赖于上述注意力机制之外，还可能需要将模型从DL 1.0中对向量处理的机器过渡到对向量集合进行操作的机器，并由动态重组的神经网络模块对其进行操作（相关工作 https://arxiv.org/pdf/1909.10893.pdf）。

迄今为止，在输入空间预测的自监督学习方法似乎不需要新的体系结构，很多现有模型大都可以归为基于能量的模型（例如BERT等语言模型就是基于能量的模型）。自监督学习则在很大程度上利用了这些现有架构。

三、实现接近人类水平的 AI 的其他方法

1、混合方法

迄今为止，有许多混合方法的实现将DL 1.0与传统的符号处理和算法结合在一起。这些混合方法使应用程序能够利用DL 1.0进行部署。因此，混合方法的重要性不可低估。

所有这些混合方法用在决策用例上时，共同点是它们对 DL 1.0 输出执行进一步的算法处理，通常是将DL 1.0输出的分布式表示归结为符号（图嵌入除外），此时，组合性（符号不像矢量那样适于组合，我们只能将它们与更多符号组合在一起，例如像语法树那样）以及分布式表示中固有的相关性就会丢失。

将 DL 的输出归结为符号，然后进行 DL 2.0 任务（例如对这些符号进行推理和规划）的混合方法是否能够让我们实现人类水平的AI，还有待观察。

如今，不少人关于混合方法在实现人类水平AI方面是否具有潜力的争论，可以归结为：DL 2.0任务可以仅用符号来完成吗？抑或是有了DL 1.0的分布式表示所带来的好处，DL 2.0任务是否一定需要分布式表示才可以捕获相关性？

2、仍然需要从自然智能中获得更多的先验知识？

从智能基本计算单元（从硬件的角度）---神经元（尽管人工神经元仅实现很少一部分生物神经元关键功能）开始，自然智能已经在许多方面启发并继续影响人工智能的发展。深度学习继续从自然智能中汲取灵感，例如从多层计算（类似于视觉皮层的视觉感知过程）提供的组合性到有意识任务解决的先验（Yoshua Bengio的论文，https://arxiv.org/pdf/1709.08568.pdf）。

Christos Papadimitriou 在 2019 年发表的论文（https://ccneuro.org/2019/proceedings/0000998.pdf，尽管论文的核心计算原语根源于生物学家实验验证的大脑计算方法中，但它可能会被迅速视为另一种关于大脑的计算模型）强调了上述问题的重要性。暂且先不论想法，我们还能从自然智能的实践中借鉴一些技巧吗？

以下面概述的机制为例，苍蝇（通常代表昆虫嗅觉系统的硬件和功能）如何仅用一个或两个样本就学会识别气味。将这种学习称为“高样本效率”是一种轻描淡写的说法，“在类固醇上学习”可能更合适。

3、苍蝇是如何学会识别气味的？

大约有 50个神经元会感觉到气味，这些神经元随机投射到2000个神经元上，形成了的随机二部图。用向量的术语来说，由50维矢量捕获的气味输入随机投影到2000维矢量上，然后抑制神经元将其强制变为其中非零值约为10％的稀疏矢量。这2000维稀疏矢量可充当苍蝇对特定气味的记忆。

图摘自Christos Papidimitriou的演讲（https://youtu.be/_sOgIwyjrOA）。上图表示苍蝇如何识别气味的模型。它们能记住只暴露一两次的气味，并且能够将其推广到它们学到的知识之外，而且它们只有大约50种不同的气味传感器（我们大约有500种；小鼠大约有1500种）。

紧随上限其后的随机投影（在硬件中实现），似乎是人类也在使用的有关大脑计算的一个非常基本的功能原语（Christos的大脑模型主要基于在此基本计算原语的基础上构建一些简单的算法操作）。

随机投影和上限保留相似性（在某些合适的超参数选择下）。气味之间的相似性被捕获在它们的记忆表示中（突触权重）。记忆回想唤起了与所学权重有关的激活。苍蝇有大约50种不同类型的嗅觉传感器（我们大约有500种，而老鼠有1500种）。将不同气味映射到捕获相似性的分布式表示的能力对于果蝇的生存至关重要。

从本质上讲，通过这种简单的生物网络，可以实现具有非常高的样本效率（一次或两次尝试就学得一种气味）和分布外的学习（将新的气味映射到现有的气味上）。

从Christos Papidimitriou演讲摘录的插图（https://youtu.be/_sOgIwyjrOA）说明了随机投影和上限保留了相似性。大自然似乎找到了最佳的稀疏度，即找到足够数量的神经元来捕获语义相似性的同时使活动神经元的数量受到限制，以分离出不同的气味。

苍蝇气味系统设计的一个关键方面是表示的稀疏性在信息处理的所有阶段强制执行。将此与DL模型进行对比，会发现，DL模型的每个输入会像改变亮度的活动圣诞树一样照亮整个模型。

也许从输入开始就一直执行稀疏性（类似于随机投影和上限等操作原语）将权重更新限制在几个参数上，有助于快速学习。同样，“一起激发的细胞必定联系在一起”的简单权重更新（学习）规则具有固有的记忆效率，当与随机投影和上限结合使用时，有助于随时间增加的泛化。

DL模型中的学习依赖于随机梯度下降和反向传——迄今为止DL中学习的基础。也许我们还将对DL模型的学习效率进行根本性的改进，最终达到超越自监督学习的DL 2.0目标。

四、最后一点思考

在未来有可能出现一种能够实现接近甚至超越人类水平的人工智能的全新学习方法。假设这种新方法终将出现，则新方法很可能会吸收深度学习的一些核心想法，比如分布式表示，在正确的语义空间中捕获相关性（DL 1.0）和因果关系（DL 2.0目标）等等。

via：https://towardsdatascience.com/deep-learning-beyond-2019-8f7e7a67829e

点击“阅读原文” 前往问卷填写页面