AI科技评论编译了“归纳偏置是什么”以及“未来的研究方向”两部分的内容,希望对读者有所启发。 论文:Inductive Biases for Deep Learning of Higher-Level Cognition地址:https://arxiv.org/pdf/2011.15091.pdf我们不妨做出一个有趣的假设:可以通过一些原理(而非广博的启发式方法)来解释人类和动物的智能。如果这个假设成立,那么我们就可以更容易地理解人类本身的智能并且构建智能机器。正如在物理学中的那样,这些原理并不足以预测像大脑这样的复杂系统的行为,我们可能需要通过大量的计算来模拟类人智能。上述假设意在指出:研究人类和动物利用的归纳偏置,既可以帮助我们清晰地认识这些原理,又可以为人工智能研究和神经科学理论提供启发。实际上,深度学习已经利用了一些关键的归纳偏置,而本文考虑的归纳偏置则涉及更大的范畴,重点关注主要涉及更高级的和对顺序化的意识的处理。辨清这些特定原理的目的在于,它们可能会帮助我们构建更加强大的人工智能系统,这些系统能受益于人类更加灵活的、可以处理训练数据分布之外的情况的能力,以及人类系统化的泛化能力。然而,这正是当下最先进的机器学习系统与人类智能之间一个非常大的鸿沟。 1
由于上述原因,研究人员逐渐对迁移学习和持续学习场景开始感兴趣,而不是使用固定的数据分布并且寻找一个在该分布上效果良好的归纳偏置。在迁移学习和持续学习的场景下,我们可能需要面对无穷无尽的任务流,学习器必须从过去的经验和任务中提取信息,从而提升在未来的、目前未见过的任务上的学习速度(即样本复杂度,而非目前标准的「渐进性能」)。假设学习器面对着任务 A、B、C,我们希望该学习器在新的任务 D 上取得好的表现。但是在缺乏任何假设的条件下,学习器几乎不可能在 D 上运行良好。然而,如果在迁移的目标任务(D)以及源任务(A、B、C)之间有一些共享的结构,就有可能进行泛化,或者从源任务向目标任务迁移知识。因此,如果我们希望针对知识迁移进行有意义的讨论,我们就需要考虑关于学习器将面对的数据分布的种类的假设,即:(a)它们之间有何共同点,在经历的环境之间有哪些稳定和静止的部分;(b)当我们考虑一种顺序化的决策场景时,从一个环境变换到另一个环境下,它们将如何变化或者会发生怎样的改变?这种划分会让人想起有关元学习的工作,我们可以将学习分为「慢学习」(世界中稳定和静止的层面)和「快学习」(世界中针对特定任务的层面)。这涉及到学习的两种时间尺度,我们通过一个外循环进行对元参数的元学习,并通过一个内循环进行对常规参数的常规学习。实际上,我们也可以使用更多的时间尺度。假设我们由慢到快分别有:表示演化的外循环、关于文化学习的循环(在不同的代之间稍微稳定一些)、关于个体人类的学习、一生中关于特定任务以及新环境的学习、对于运动控制和规划的内循环(为了像采摘水果这样的即时目标采用策略)。理想状态下,我们希望构建对于世界的某种理解,它尽可能地将学习转移为较慢且更加稳定的部分,以至于内部的学习循环可以更快地成功,并且需要更少的数据就可以适应环境。
系统性泛化与分布外泛化
在本文中,我们重点关注分布外(OOD)泛化的目标,即泛化到用于采样训练的观测数据的特定数据分布之外。一种更为通用的构想 OOD 的方法是,在面对新任务或变化的分布时,使用样本复杂度的概念。零样本情况下的 OOD 泛化是一种极端的情况,而在元学习环境下常常被研究的更为通用的情况是,涉及 K 样本的泛化(使用新分布中的 K 个示例)。尽管 OOD 泛化的概念以及 OOD 样本复杂度指出了我们想要实现的目标(并且暗示了我们可能如何衡量它),但是它们并没有说明如何实现这一目标。而这正是系统性泛化的概念的有趣之处。系统性泛化这一现象最初被语言学领域的学者所研究,因为它是语言的核心性质,指的是:现有概念(例如,单词)的新型组合的意义可以根据合成的概念的意义系统性地推导出来。上述特性在语言中是显而易见的,但是人类在其它的环境下也受益于这种特性,例如:通过将组合组成某种新物体的不同部分的属性来理解该物体。
系统性的泛化甚至使我们可以更容易的泛化到在训练数据分布下具有零概率的新组合上。这种零概率的组合并不是仅仅未出现在现在的训练数据中,即使我们从训练数据分布中看到了无限量的训练数据,也不会看到任何符合这种特殊组合的样本。例如,当你第一次看到一个科幻小说的场景时,这种场景也许在现实生活中不可能出现,甚至将世界上数十亿人的经历聚合起来都不会出现这种场景,但是你仍然可以想象这种反事实并且对其进行思考(例如,在开头就预测该场景的结局)。Bahdanau 等人对系统性泛化进行了一系列实证研究,其中在训练分布中出现了语言概念的组合的特殊形式,而测试分布中并不存在这些特殊形式。实验结果表明,当下的方法的性能会受到影响,而人类则可以很轻松地回答这些问题。人类可以使用归纳偏置提供各种各样的组合,使其可以从有限的组合集合泛化到更大的概念组合集合上。实际上,深度学习已经受益于分布式表征的组合优势,这也是神经网络之所以效果如此好的关键之处。研究者们关于「为什么分布式表征可以带来潜在的指数级优势」、「分布式表征是否与底层的数据分布的特性相吻合」等话题进行了许多争论。深度神经网络的另一个有效的组合形式来源于其本身的深度(即对函数的组合),在某些恰当的假设下,这同样带来了可以证明的指数级优势。然而,我们认为深度学习应该更好地考虑另一种组合:由语言学家定义的「系统性」,还应该考虑近年来一些机器学习论文提到的系统性泛化。当前的深度学习模型往往会对训练分布产生过拟合。如果我们只关注与训练集分布相同的测试集,则无法清晰地发现这一现象。由于我们希望学习智能体能够以一种系统的方式进行分布外泛化,所以我们需要改变评价学习成功的方式。只有当新环境与智能体之前见过的环境存在足够多的共享成分或结构时,进行这种评价才有意义。对于智能体而言,在新环境与之前见过的环境之间需要有某些关于分布变化的假设,此时就需要一些恰当的关于分布(例如,共享成分)以及分布如何变化(例如,通过智能体的环境)的归纳偏置。近期与扩展归纳偏置相关的工作以下将部分介绍Bengio团队近年来发表的一些有关归纳偏置的研究工作以及最新的研究前沿,更多相关工作请参考原文。
我们们对深度循环网络进行了探究,使用注意力机制动态地将自底向上和自顶向下的信号结合起来。基于 RIM 的结构的模块性以及将注意力机制用于控制信息交换的措施进一步限制了信息的共享和通信。注意力和模块化共同引导了自底向上和自顶向下的信息流,导致感知任务和语言任务得到了可靠的性能提升,尤其是提升了其对于干扰和噪声数据的鲁棒性。该研究建立在与 RIM 相同的归纳偏置之上,但是加入了需要结合自顶向下和自底向上的信息流的归纳偏置。
3. 目标文件和模式 (Goyal et al., 2020)
除了 RIM 中已经利用过的归纳偏置,目标文件和模式的架构还包含了关于共用知识(规则、模式)的归纳偏置。它可以在不同的对象上实例化,将不同版本的通用知识应用到不同的对象上。
另一个重大的挑战是,将声明式的指示表征(如结构化的因果模型)和推理机制(可能通过类似 RIM 及其变体中的注意力和模块化实现)统一在一个架构中。在人类的认知中,有大量关于将基于规则的行为巩固为快速的习惯性技能的数据,这些数据可以作为人类的灵感(例如,也许可以使用海马体的回放来训练类似于大脑皮层的模块,从而使其与声明式的知识保持一致)。关于变分自编码器的一些研究也可以为我们提供灵感(此时编码器作为推理机器,解码器作为因果模型)。