【斯坦福博士论文】机器学习的信息论基础

在过去十年中，机器学习取得了令人瞩目的进展，这一成就毋庸置疑。回望过去，令人既惊叹又感到不安的是，这些成果的取得几乎是在缺乏严谨理论指导的情况下，通过实验探索实现的。尽管如此，研究实践者依然能够凭借以往大规模实证研究中积累的观察经验，推动后续实验的开展。

然而，借用柏拉图“洞穴寓言”的比喻，我们或许仅是在观察现实的“影子”——这些经验观察可能只是现实世界碎片的映射。基于这一思考，本文提出了一个理论框架，尝试解答“洞穴之外”的真实图景。

对于理论研究者而言，我们提供了一个数学上严谨的框架，同时留有大量可供未来探索的研究空间；对于实践者而言，我们提出的框架所给出的结果简洁直观，能够为多种学习范式中的研究提供洞见与指导。

具体而言，我们提出的理论框架基于贝叶斯统计学与香农信息论，具备足够的通用性，可以统一分析机器学习中的众多现象。该框架刻画了一个最优贝叶斯学习器在接收连续经验输入过程中的性能表现。与那些在数据复杂度提升时失效的传统分析方法不同，我们的理论工具在各种机器学习场景下都能提供精准有效的洞察。

在全文中，我们不仅推导了相关的理论结果，还通过将其应用于多个具体学习场景，展示了其普适性与适用性。这些场景包括：

从未知分布中独立同分布（i.i.d.）采样的数据中学习，
序列数据学习，
具有层次结构、适用于元学习的任务，
以及模型信念无法完全解释数据的**模型失配（misspecification）**问题。

在我们努力理解并应对这个愈发复杂的世界中不断涌现的机器学习挑战时，这些理论成果具有重要意义。

从战胜围棋这类曾被认为需要人类级学习与抽象能力的游戏【Silver et al., 2016】，到构建出能够体现常识、与全球用户进行连贯对话的系统【Achiam et al., 2023】，机器学习在过去十年所取得的成就远远超出了人们的预期。可以预见，这些突破将在人类理解智能的历史进程中留下浓墨重彩的一笔。

然而，令人惊叹也令人不安的是，这些里程碑式成果的达成几乎是在缺乏严谨理论指导的情况下完成的。尽管理论研究者尝试使用传统的统计工具来分析现代机器学习现象，但这些方法所提供的洞察往往不足以解释实际观察到的经验规律。Zhang 等人【2021】通过一系列简单实验清晰地展示了现有泛化理论与经验现象之间的根本不兼容性。尽管如此，实践者依旧能够凭借以往的大规模实证经验指导后续实验工作。但在缺乏整体图景的情况下，这些努力很可能被“影像”所误导——正如柏拉图“洞穴寓言”所比喻的那样，当前我们对机器学习规律的理解可能只是现实片段的影子。

作为科学家，我们致力于追求真正的理解。既然现有理论框架尚未提供清晰解释，建立一个能够做到这一点的新框架便成为极具吸引力与价值的目标。

在本文中，我们提出了一个旨在“揭示洞外世界”的理论框架。

对于理论研究者，我们提供了一个数学上严谨的结构，并留有诸多值得探索的研究问题；
对于实践者，我们提供了直观而通用的理论结果，有助于建立指导未来研究的基本原理。

具体而言，我们构建了一个以贝叶斯统计学为基础的信息论框架，足够通用以统一对多种机器学习现象的分析。这些学习情境包括：从经典的可交换数据（exchangeable data）学习，到存在强序列性或层次结构的数据；也包括**模型失配（misspecification）**的情境，即学习模型本身与真实数据分布存在结构性不一致的问题——这在面对日益复杂的学习任务时尤为重要。

我们的框架深受香农信息论思想的启发，特别是他提出的核心原则：“先信息，后计算（information first, then computation）”。20 世纪初期，通信领域兴起，对远距离信号传输的研究推动了编码与解码技术的发展，当时许多工作也依赖经验与启发式方法，正如今日深度学习的实践。香农的信息论则回归根本，明确了在不考虑计算资源的前提下，哪些事情是可能的、哪些是不可能的。这一理论不仅指导了极限算法的设计，也推动了后续的工程实践。

当前机器学习与人工智能领域的快速发展让人充满信心，仿佛“只要有足够数据与计算力，一切皆可学习”。但现实是，大多数研究方向仍主要受非正式推理与大量实验数据的驱动，而统计学虽提供部分指导，但难以解释层出不穷的新现象。本专著试图填补这一空白：构建一个通用框架，研究机器学习性能的根本限制是如何由数据的信息量所决定的。

我们从刻画“最优贝叶斯学习器（optimal Bayesian learner）”在面对不同复杂度数据生成过程时的性能表现入手。通过不考虑计算约束，来分析哪些学习任务是信息论上可实现的，从而建立起能指导实证探索的直觉理解。

与许多在数据复杂性提升时性能下降的现有理论不同，我们的信息论工具在多种机器学习情境下仍能提供准确的洞察。例如，现有关于序列数据学习的理论常依赖特定的混合时间假设，而我们借助 Jeon 等人【2024】的成果，利用信息论工具，刻画了由 Transformer【Vaswani et al., 2017】自回归生成的序列数据的样本复杂度。我们还扩展该框架至层次结构数据生成过程，以分析类似于元学习与大语言模型“上下文学习（in-context learning）”的现象。

这些结果在交换数据与复杂结构数据中都适用，体现了理论的基础性与通用性。

近年来，大规模模型训练数据越多、规模越大，其性能持续提升。这说明现实中的数据生成过程远比我们建模时所采用的模型要复杂。这种“模型失配（misspecification）”现象在自然语言处理（NLP）中尤为常见。Kaplan 等人【2020】与 Hoffmann 等人【2022】通过经验研究提出了“神经缩放定律（neural scaling laws）”，揭示了模型性能（如对测试集的 log-loss）如何随着计算资源与数据规模线性改善。

然而，这些缩放定律虽有丰富实证支持，却缺乏扎实的理论分析，尤其是在面对不同数据复杂性时规律如何变化的问题上仍存疑。Jeon 与 Roy【2024】利用本专著提出的理论工具，首次从信息论角度严谨刻画了失配算法的误差。我们在此基础上进一步扩展，分析了更自然的失配学习器 ：一个基于错误先验分布进行贝叶斯推断的算法。我们还研究了一个由无限宽单隐层网络生成数据的过程，并理论推导出在有限计算预算下应如何在参数规模与数据量之间进行最优分配。这一结果与 Hoffmann 等人【2022】提出的经验结论——“最优的数据集大小与参数数量呈线性关系”——在对数因子精度上高度一致。

尽管我们的理论未显式考虑计算约束，但近期神经网络相关实证研究【Zhu et al., 2022】表明，常用的随机梯度方法在实践中足以逼近我们理论中揭示的“信息与性能”之间的最优权衡。

在本书中，我们不仅推导了理论结果，还通过多类具体场景验证其广泛适用性，包括：

从未知分布中独立同分布采样的数据；
顺序数据；
具备层次结构、适用于元学习的数据；
模型失配下的次优算法性能分析。

最后一部分，我们专门探讨了基于上述失配模型的次优算法的性能刻画，这为后续研究提供了激动人心且高度相关的方向。

专知便捷查看，访问下面网址或点击最底端“阅读原文”

https://www.zhuanzhi.ai/vip/e37b4a2e842b3e85e9d50d8826014031

点击“阅读原文”，查看下载本文