【剑桥大学博士论文】在深度学习时代的可扩展贝叶斯推断：从高斯过程到深度神经网络

大型神经网络在大数据集上的训练已成为机器学习中的主导范式。这些系统依赖于其参数的最大似然点估计，无法表达模型的不确定性。这可能导致过于自信的预测，并且阻碍了深度学习模型在序列决策制定中的应用。本论文开发了可扩展的方法，使神经网络具备模型不确定性。为了实现这一点，我们不是尝试对抗深度学习领域的进展，而是借鉴该领域的思想，使概率方法更具可扩展性。具体来说，我们利用线性化的拉普拉斯近似方法，为预训练的神经网络配备了其切线线性模型提供的不确定性估计。这将神经网络中的贝叶斯推断问题转变为共轭高斯线性模型中的贝叶斯推断问题。然而，这种方法的成本仍然是网络参数数量的立方或者观测数量与输出维度的乘积的立方。假设这两者都不可行。我们通过使用随机梯度下降（SGD）——深度学习的主力算法——来处理线性模型及其凸对偶：高斯过程中的后验采样来解决这种不可行性。通过这种方法，我们回到了线性化的神经网络，发现线性化的拉普拉斯近似与现代深度学习实践——即随机优化、提前停止和归一化层——在用于超参数学习时存在多个不兼容性。我们解决了这些问题，并构建了一个基于样本的EM算法，用于线性化神经网络的可扩展超参数学习。

我们将上述方法应用于使用ResNet50（2500万参数）在Imagenet（120万观测和1000个输出维度）上进行线性化神经网络推断。据我们所知，这是首次在这种真实世界规模的设置中进行贝叶斯推断，而没有假设网络权重间某种程度的独立性。此外，我们还将我们的方法应用于使用深度图像先验网络获得的3D断层重建的不确定性估计，这也是首次。我们最后通过使用线性化的深度图像先验来适应性地选择扫描角度序列，这些角度序列能够在使用更少的辐射剂量的同时，产生更高质量的断层重建图像。

过去几十年中，基于数据学习的程序迅速取代了基于人工设计规则的程序，成为计算机自动化的主导范式。我们在计算机视觉（Dosovitskiy等，2021年）、逆问题（Arridge等，2019年）、自然语言处理（Wang等，2024年）、信息检索（Zhu等，2024年）、文本与图像生成（Jiang等，2024年；Saharia等，2022年）、系统控制（Hu等，2022年）、科学发现（Collaboration等，2021年；Graczykowski等，2022年）以及计算机编程（Chen等，2021年）等领域看到了这一点。这些进步几乎都是通过大规模深度学习（Henighan等，2020年）实现的。确实，有足够的数据、足够灵活的神经网络和足够的计算能力来训练人工智能（AI），数据驱动的决策方法将主宰所有传统计算机程序。

在深度学习革命之前，最优从数据学习的规则已经在贝叶斯概率框架中被规范化（Cox，1946年；Jaynes和Justice，1986年；Jeffreys，1939年；Stigler，1986年）。在这个框架下，我们将我们的知识或无知表示为概率分布。当我们观察到新数据时，所获得的信息被用来将这些先验分布更新为熵较低的后验分布（Gull，1988年；Skilling，1989年）。反过来，这些将作为未来推理的先验。尽管概率方法被广泛用于构建原始神经网络系统（Hinton和van Camp，1993年；Salakhutdinov和Hinton，2009年），现代神经网络方法依赖于将我们的信念表达为点估计而非概率分布。明确建模的不确定性的缺失使现代深度学习系统在遇到训练数据覆盖不足的情况时容易出现错误行为（Goddard，2023年；Weiser和Schweber，2023年）。此外，对于需要基于不确定性探索的决策任务，概率方法仍然是最先进的，例如自动化化学设计（Gómez-Bombarelli等，2018年）。

从贝叶斯的角度看，神经网络可以被视为一个不妥协的模型选择，对要学习的函数类几乎没有限制。个别权重的效果是不可解释的，这阻止了为神经网络参数设计有信息量的贝叶斯先验。然而，这可能正是允许我们使用神经网络以无法被人类可读规则列表简洁总结的方式解决任务的特征。例如，如何巧妙地维持对话或驾驶汽车。有了这个想法，解释贝叶斯推断和神经网络之间看似不兼容的一种直观方式是将前者视为通过每一个与数据一致的程度对一组先验假设进行评分。现代神经网络的问题在于，需要评分的假设太多了。特别是当与大数据集结合使用时，评分变得非常昂贵，这些数据集很可能被神经网络参数空间的相对较小区域很好地拟合。换句话说，虽然最大似然学习很好地适应了现代大网络和大数据的环境，但贝叶斯推断却做不到。

本论文旨在弥合贝叶斯方法和当代深度学习之间的差距。这一努力由Mackay（1992a）开创，他将贝叶斯推断和线性模型中的超参数选择（这也归功于Gull（1989））扩展到神经网络设置中，通过拉普拉斯近似，命名其方法类为证据框架。在过去的30年中，机器学习的方法发生了很大变化；所解决问题的规模和部署模型的规模增长了数个数量级，使得无法直接应用MacKay的方法，并为我提供了撰写论文的题材。事实上，与Mackay（1992a）类似，本论文首先对线性模型和高斯过程领域做出贡献，使用拉普拉斯近似使这些方法适用于神经网络中的近似推断，并最终将开发的贝叶斯神经网络应用于高效数据获取。因此，这篇论文或许最好被描述为对证据框架的现代解读，使其可扩展到现代问题规模并适应现代深度学习架构。为了实现我们的目标，我们不会试图从头开始重建深度学习，使其固有地使用贝叶斯推断，例如通过对我们不理解其效果的权重施加精巧手工制作的先验。我认为这是徒劳的。相反，我们将利用在深度学习领域取得的巨大进步，并借鉴该领域的思想使贝叶斯方法更具可扩展性。例如，在第4章中，我们将使用随机梯度下降——训练神经网络的事实标准方法——使线性模型和高斯过程中的贝叶斯推断更具可扩展性。此外，在处理神经网络时，我们将专注于事后推断设置，在其中我们利用近似贝叶斯方法，为预训练的神经网络获得不确定性估计。这将确保论文的贡献与快速发展的深度学习领域保持兼容。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）
后台回复或发消息“SBID” 就可以获取《【剑桥大学博士论文】在深度学习时代的可扩展贝叶斯推断：从高斯过程到深度神经网络》专知下载链接

点击“阅读原文”，了解使用专知，查看获取100000+AI主题知识资料