多层迹类神经网络贝叶斯深度学习

Bayesian Deep Learning with Multilevel Trace-class Neural Networks

基于多层迹类神经网络的贝叶斯深度学习

https://arxiv.org/pdf/2203.12961

1. 引言 ：

深度神经网络（DNNs）[37]是一种流行而强大的参数模型类别，可用于解决各种机器学习问题。这些架构广泛适用于众多学科和应用领域，其中DNN的一个主要优势在于其具备“通用逼近定理”，简而言之就是神经网络可以逼近一大类目标函数 [43]。在本工作中，我们对DNN的兴趣在于生成随机过程。已有大量研究将DNN与高斯过程和非高斯过程联系起来 [2, 50, 55, 58]。在反问题背景下，已有人使用深层高斯过程和α稳定过程先验进行全贝叶斯边缘保持反演 [19, 20]，但这些研究通常受限于低输入维度，因为计算复杂度非常高。Sell 等人提出了迹类深度神经网络（TNN）先验 [65]，这类先验是非平稳、非高斯的，并且在无限宽度极限下有良好定义，同时能很好地适应输入维度的增长。拟合这类模型通常需要使用蒙特卡罗（MC）方法。

蒙特卡罗方法是一类著名的用于求解随机计算问题的方法，这些方法的发展主要集中在计算物理、统计学和数值分析领域。其中一种改进标准蒙特卡罗方法的技术是多层蒙特卡罗（MLMC）。MLMC旨在减少达到特定均方误差（MSE）阶数所需的计算成本和复杂度，例如达到 O(ε²) 的误差水平（其中 ε > 0）。该方法最初由 [27, 28, 40] 提出，主要用于数学金融中的扩散过程模拟，之后被扩展到其他领域。与本工作相关的是，它已被应用于计算统计中的MC方法，包括序贯蒙特卡罗（SMC）、马尔可夫链蒙特卡罗（MCMC）[4, 5, 41, 46, 47] 以及其他基于从目标分布采样的相关方法。然而，在机器学习中应用MLMC的研究仍较为有限。沿这一方向的重要工作包括在变分推理中改进梯度估计器的复杂度 [25, 67]，以及改进高维偏微分方程和随机微分方程模型的数据驱动代理建模的复杂度 [21, 29, 52]。然而，截至目前，这种方法尚未被用于机器学习中的统计推断问题。因此，我们在本文中的动机是回答以下问题：

是否可以改善贝叶斯深度学习的计算复杂度？

本文聚焦于通过蒙特卡罗模拟方法实现机器学习问题中的全贝叶斯推断。我们将提出一种新的方法论——“多层贝叶斯深度神经网络”，它结合了TNN先验模型与先进的多层序贯蒙特卡罗（MLSMC）算法 [5]。该方法结合了TNN模型在可扩展性和灵活性方面的优势，以及MLSMC的高效性，从而实现了经典的渐近计算复杂度 1/MSE，正面回答了上述问题。对于这类使用MC从近似分布中采样的问题，只有在MLMC框架下才能达到这样的复杂度，而且无法做得更好。

1.1 贡献

本工作的贡献可总结为以下几点：

我们展示了如何在深度神经网络的贝叶斯推断中使用多层蒙特卡罗（MLMC）方法。我们所采用的具体方法是多层序贯蒙特卡罗（MLSMC）采样器。我们的动机是降低计算复杂度，并证明了可以实现经典的收敛速率：Cost = MSE⁻¹ 。
在本文中，我们证明了两个关键性的理论结果。首先，我们在多层设定下推导出了迹类神经网络（TNN）先验的强收敛速率。其次，我们建立了均方误差（MSE）的一个上界，该上界可以分解为方差项和偏差项。通过利用这两个结果，我们证明了我们的方法以经典速率收敛到真实的后验分布。
我们进行了多个数值实验来验证上述理论发现。这些实验不仅验证了强收敛速率的实现，还表明使用TNN先验的MLSMC采样器能够显著降低达到特定MSE所需的成本。用于验证理论的实验涵盖了多个机器学习示例，包括简单的玩具回归与分类问题、MNIST图像分类以及强化学习任务。对于MNIST分类任务，我们还提供了参数选择的敏感性分析。除此之外，我们还研究了一个更实际的例子——IMDb数据集的情感分类任务。

1.2 文章结构

本文的结构安排如下：

第2节将介绍与模型问题及多层蒙特卡罗方法相关的预备知识；
第3节将介绍我们的数值算法以及主要的数学结果，即对均方误差（MSE）建立一个保证方法收敛的上界；
第4节我们将介绍并讨论多层迹类先验，并通过数值实验验证其确实达到了经典的收敛速率；
第5节我们将展示一系列机器学习任务中的数值结果，验证使用MLSMC采样器结合TNN先验在计算成本上的显著优势；
最后，在第6节我们进行总结，并展望未来的研究方向；
我们的主要定理的证明将在补充材料中给出。

2. 模型构建

在本节中，我们将提供关于问题设定和模型构建的初步背景知识。这将包括对我们建模框架的初步讨论，涉及神经网络及其与贝叶斯建模之间的关系，并引入多层蒙特卡罗方法的核心概念。

2.1 多层贝叶斯神经网络

我们首先简要回顾多层蒙特卡罗（MLMC）方法。假设我们有一个概率密度函数 Ψ，定义在状态空间 U 上，并且我们感兴趣的是计算关于 Ψ 可积函数 φ : U → R 的期望值，即：Ψ(φ) := ∫ₐᵤ φ(u) Ψ(u) du，

其中 du 是一个支配性的 σ-有限测度（通常为勒贝格测度）。

现在，我们假设直接处理 Ψ 在计算上是不可行的（例如，其计算成本是无限的），但存在一个标量参数 l ∈ N，它对 Ψ 的一个近似 Ψₗ 进行参数化，其中 Ψₗ 是定义在子状态空间 Uₗ ⊆ U 上的一个密度函数，满足：

我们注意到，(2.12) 中的计算成本可能低于使用估计量 (2.9) 的成本，这取决于参数 (α, β, γ) 的取值。同时，估计量 (2.12) 的均方误差（MSE）为 O(ε²)。当 β > γ 时，称为最优或经典的收敛速率，即 O(ε⁻²)，换句话说，这是可以达到的最佳收敛速率。

在Giles的原始工作中 [27]，MLMC方法的提出动机是用于扩散过程，并应用于金融数学中。在 [27] 中，参数 β ∈ R 表示强收敛速率，α ∈ R 表示弱收敛速率。而在我们的上下文中，由于我们并不处理扩散过程，因此不仅不需要强收敛和弱收敛的概念，在我们的情境下也无法实现耦合的独立同分布（i.i.d.）采样（将在下文中定义）。因此，我们需要采用一种替代的方法来降低高层级 l 差分项的方差。

2.1.1 多层神经网络

现在我们考虑如何选择参数 θ 的维度，特别是对于隐藏层的神经元数量 nd，其中 d ∈ {1, . . . , D − 1}（因为输入层 n₀ 和输出层 nᴰ 是固定的）。为了简化起见，我们假设网络深度 D 是固定的，并且除输入层和输出层外，所有隐藏层的宽度相同，即对于任意 d, d′ ∈ {1, . . . , D − 1}，有 nd = nd′，但该宽度依赖于某个分辨率参数 l ∈ N。

现在我们可以重新定义 nl = 2ˡ，注意 n₀ = n 和 nᴰ = m（分别对应输入和输出维度），因此不再需要保留这些变量。我们将用以下符号表示相应的参数向量：

我们为参数空间 Θₗ 赋予一个先验分布 πₗ，并注意到其性质对于确定多层方法是否有效至关重要——特别是，当 l → ∞ 时，该先验必须在矩阵的行和列上具有趋于零的质量（即参数维度随分辨率增加而增长时，先验不能在多余的维度上保留显著权重）。这一点将在第4节中进行更精确的阐述。

对于分辨率 l，神经网络的输出函数 f(x, θ)（见公式 (2.3)）记为 fₗ(x, θₗ)，似然函数记为 pₗ(y₁:ₙ | θₗ)，后验分布记为：

其中，pₗ(y₁:ₙ | θₗ) 是使用参数 θₗ 的似然函数，如（2.5）式中所示；对于第二节中讨论的第二个例子，则参见（2.6）式。我们将这个后验分布（以及相应的输出函数 fₗ(x, θₗ)）视为当 l → ∞ 时，与非参数极限深度神经网络相关联的后验分布的一个有限逼近（假设该极限存在）。

3. 算法与主要结果

在本节中，我们介绍与贝叶斯机器学习任务相关的方法，并将在第5节中进行数值实验验证。具体来说，我们考虑多层序贯蒙特卡罗（ML Sequential Monte Carlo, MLSMC）方法，并在我们所给定的框架下对其进行阐述。这将引出我们的主要数学结果，即我们提出的多层估计量的收敛性结果，并以均方误差（MSE）上界的形式给出。

本节首先介绍我们用于逼近关于后验分布 π 的泛函期望的算法，例如：

以及一些数学结果，这些结果为算法的实现提供了理论依据。我们选择后验预测期望 作为感兴趣的量，其动机来自于推断过程的目标，即对神经网络输出函数的相关预测进行建模。

我们的结果形式可以很自然地推广到形如 φ ◦ f 的目标函数，其中 φ 是 Lipschitz 函数，例如。我们注意到，我们的结果不仅适用于神经网络本身的输出，还可扩展至一大类可能的测试函数。

结果将首先针对后验预测分布 进行陈述，然后作为推论加以推广。注意到：

3.1 算法

3.2 数学结果

我们考虑当时（3.5）式的收敛性；这一限制可以通过对后续的符号和论证进行微小修改而轻松去除。算法 3.1 的分析已在文献 [4, 5] 中有所研究。然而，在当前的研究背景下，仍有一些细节需要进行相应的调整。在整个分析过程中，我们假设对于每一个层级，我们都已选取了适当的，使得对于所有，满足：

4. 迹类先验（Trace Class Priors）

在本节中，我们将简要介绍我们所使用的迹类先验 （trace class priors），并在后续的手稿中对其进行分析，并为数值实验提供动机。我们将在正式定义之后，首先给出一个关于预测模型收敛性的相关结果。基于所获得的收敛速率，我们还将通过一个简单的数值实验来验证该速率。

我们所考虑的神经网络先验是迹类神经网络 （trace class neural networks），最早由 Sell 等人 [65] 提出。这类先验被提出的目的在于模仿函数空间反问题中的高斯先验。在模拟高斯随机场时，一种常见的方法是使用 Karhunen-Loève 展开式 （Karhunen-Loève expansion）：

注释 4.2（强收敛性） ：要使用 MLMC 方法，需要满足强收敛性 ，这是 TNN 的一个吸引人的性质。而标准的神经网络高斯过程（NNGP）是通过对宽度无限增长的独立同分布权重进行缩放（方差与宽度成反比）得到的，这类模型并不具备这一性质。

注释 4.3（光滑性） ：请注意，TNN 参数的方差在行和列两个方向上都呈衰减趋势（因此靠近对角线的部分质量衰减得更快）。由于随着宽度的增加其支撑集（support）会减少，这种衰减速率精确地控制了函数的光滑性。因此，神经元所在的层级也决定了其所能捕捉的光滑程度：低层级捕捉更平滑的特征，高层级则逐步捕捉更粗糙的特征。

需要注意的是，只要所选择的光滑性约束 α 不至于过大以至于无法捕捉真实的数据生成函数，这种受限的函数形式并不会对重构产生不利影响。我们只是使用了一个相比典型各向同性的“权重衰减”先验具有更精细对角方差结构的高斯先验，因此它提供了一种更具结构性的“宽度衰减”正则化方式。

顺便提一下，这种构造还保证了网络权重在深度上的稳定性，因此不存在阻止构建无限深度网络的限制。

4.1 数值结果

为了验证命题 4.1 中所获得的收敛速率，我们提供了一个简单的数值实验来分析 (4.3) 式，在我们的迹类先验背景下进行验证

我们观察到，在这两张图中，由于使用了 TNN 先验，我们的衰减速率与 (4.3) 式一致，并且达到了经典的收敛速率。

作为一个对比实验，为了说明其他先验选择无法达到这一效果，我们将 TNN 先验与其他类型的先验进行了比较。这一点可以从图 2 中看出：当我们使用其他类型的先验时，收敛速率并未达到预期，表明它们属于次优（非经典）速率。

因此，这为我们提供了动机：将迹类神经网络先验与 MLMC 方法结合使用 ，这也是我们在接下来的小节中所利用的核心思想。

5. 数值实验

在本节中，我们将展示我们的主要数值实验，即将我们提出的迹类神经网络（TNN）先验 应用于多个与机器学习相关的贝叶斯任务。具体来说，我们将把这些先验与第3.1节中提出的方法结合使用，并将其与使用相同先验的单层蒙特卡罗序贯蒙特卡罗（SMC）采样器进行比较。

我们将在一系列机器学习任务上测试该方法，包括回归、分类（螺旋数据和MNIST数据集）以及强化学习任务。在这些任务中，我们希望展示使用多层蒙特卡罗（MLMC）所带来的优势，即达到经典的收敛速率。

此外，我们还对所提出方法在参数选择（如TNN中的参数设置以及MLMC框架中的参数）上的鲁棒性进行了敏感性分析，特别是在MNIST问题上的表现，以说明该方法的稳定性。

最后，我们还展示了另一个更具挑战性的实际例子：使用该方法的一个简化版本，对包含5万条电影评论的IMDb数据集进行情感分类。我们将结果与当前最先进的贝叶斯深度学习不确定性量化（UQ）方法进行比较，从而展示该方法的实际价值、灵活性和通用性。

代码可在以下链接下载：
👉 https://github.com/NKC123/MLTNN

5.1 回归问题

我们的第一个数值实验基于（2.1）式中给出的贝叶斯回归问题。我们的目标是识别（2.4）式中定义的参数 θ 的后验分布，其中似然函数由（2.5）式给出：

在下面的图3中，我们展示了分别应用 SMC 采样器和 MLSMC 采样器所得到的结果。关于 MLSMC 的更多细节可参见文献 [5]。

我们进行数值实验时考虑了层级。第一个数值结果如图3所示，其中我们测试了的几种情况。

我们在图中同时绘制了使用 SMC 和 MLSMC 两种方法的结果，其中每种方法使用的先验均为我们的 TNN 先验。此外，我们还绘制了 MSE 值周围的可信区间（由细蓝线和红线表示）。

从结果中可以明显看出，MLMC 方法在计算上具有显著优势：在给定相同均方误差（MSE）的情况下，MLMC 所需的成本远低于 SMC 采样器。我们观察到，在最低 MSE 下，两者的成本差距大约达到了 10倍。

这表明两种方法的误差-成本比率不同。为了验证我们的理论分析结果，我们在图中用黑色标出了经典的收敛速率线，它与我们提出的方法所展示出的趋势完全吻合。

5.1.1 次优收敛速率（Sub-Canonical Rates）

到目前为止，我们展示的结果都是在能够达到经典收敛速率（canonical rate）的 α 值下进行的。现在我们考虑其他 α 的取值，这些设置将导致 次优收敛速率（sub-canonical rate） 。

我们修改参数值为 α ≤ 1.5，在这种情况下，β ≤ γ = 2。由于单次 fl 模拟的成本为 O(2γ l)，因此此时预期只能达到次优的收敛速率。

我们考虑两个 α 的取值：α ∈ {1.1, 1.4}，并保持实验设置和其余参数不变。结果如图4所示。

正如预期，此时的复杂度速率更接近于单层方法的情况，但在所考虑的分辨率下，仍能观察到约 3倍的成本改进。

图4的结果表明，如果我们使用正则性较低的 TNN 先验，那么在 MSE 与成本之间的复杂度比率上，我们将只能达到次优的收敛速率。

这引发了一个问题：在我们的设定和框架中，是否有可能对**非光滑随机场（non-smooth random fields）**实现经典的收敛速率？这一问题以及相关议题将在未来的研究中进一步探讨。

5.2 螺旋分类问题（Spiral Classification Problem）

根据分类模型（2.2）的定义，就像我们在回归问题中使用似然函数（2.5）一样，在分类问题中我们将使用似然函数（2.6）。后验分布仍然由（2.4）式给出。

对于不属于训练数据集的输入 x∗，其预测结果由后验预测分布 提供。例如，x∗ 条件下类别 k 的边缘后验概率 P(k | x∗, y₁:ₙ) 可表示为：

其中，υᵢ、tᵢ 服从均匀分布 U[0, 1]，ϵᵢ 服从正态分布 N(0, 0.1²)，参数设置为 a = 16 和 p = 0.05。

类别 k = 2 的数据以类似方式生成，只是三角函数的参数上加了一个 π 的偏移。

图5展示了该数据集，其中两个类别分别用颜色表示：标记为类别 k = 1 的数据为蓝色，标记为类别 k = 2 的数据为黄色。

分类问题的设置与回归问题类似。我们同样对不同的 α 值进行实验，即 α = {1.7, 1.9, 2, 3}，并考虑层级 L ∈ {3, 4, ..., 7}。参数设置与回归问题相同。

为了获得参考解（reference solution），我们再次使用 n₇ = 2⁷，并采用 tanh 激活函数作为先验，从而得到一个高分辨率的后验解。

我们在图6中首先展示了在 MSE 与成本之间的收敛速率达到经典速率的相关结果。可以观察到，随着 MSE 减小，两种方法在计算成本上的差异十分明显，差距大约达到了 10¹ 数量级（即约10倍） 。

这再次突出了我们所提出的方法在结合 TNN 先验后的计算效率优势。

在分类问题的最后一组实验中，我们考虑了其他 α 值的选择，即 α ∈ {1.1, 1.4}，结果如图7所示。

与回归问题类似，我们观察到当 α < 1.5 时，只能达到次优收敛速率（sub-canonical rates） ，此时在较低 MSE 下的成本差异不再显著。

5.3 二值 MNIST 分类

现在我们将注意力转向一个更加现实的分类示例，即基于著名的 MNIST 数据集 的分类任务。该数据集是一个相对高维的数据集，包含从 0 到 9 的手写数字图像。

我们当前所考虑的问题是一个二分类 MNIST 问题 ，其中我们只关注两个类别：一类是“0”的图像集合，另一类是“1”的图像集合。这可以从图8中看到。

我们的方法和实验设置保持一致，关于 MLSMC 算法的具体参数选择请参考前一小节的说明。

与之前实验的主要不同之处在于维度和样本数量 的提升：此时输入维度为（对应于 28×28 像素的图像），样本数量为。为了克服这一具有挑战性的高维问题，我们应用了主成分分析（PCA） ，将维度降至。

我们的数值实验结果展示在图9和图10中。

通过分析图9，我们再次注意到两种方法在 MSE 与成本关系图上存在明显差异。具体来说，通过在 MLSMC 方法中引入 TNN 先验，我们成功达到了经典的收敛速率（canonical rate） 。

这一现象在所有子图中均一致出现，对应的 α 取值为 {1.7, 1.9, 2, 3}。

另一方面，如果我们不使用 TNN 先验，虽然相比标准 SMC 采样器方法仍有一定的改进，但无法达到经典收敛速率。这一点在图10中当 α = {1.1, 1.4} 时可以观察到。

5.4 强化学习

5.4.1 设定

我们最后一个数值实验是一个逆强化学习（inverse reinforcement learning）问题。与前两个例子不同，强化学习并不关注模式识别，而是关注 决策制定 。具体来说，它用于求解随机最优控制问题 。

在介绍具体示例之前，我们首先回顾一些常见的符号，并给出我们在贝叶斯强化学习中的设定。这一设定主要受到文献 [65] 的启发和借鉴。

一个马尔可夫决策过程 （Markov Decision Process, MDP）由一个受控的马尔可夫链定义，称为状态过程 ，还有一个控制过程 和一个最优性准则。
状态过程的取值在一个有界集合中；
控制过程的取值在集合中。

因此，状态过程的演化方式为：

现在，我们还需要为该示例定义似然函数 。

我们的数据将由一组带有噪声的状态-动作对组成，目标是推断出导致在当前状态 下选择动作的值函数 （value function）（见公式 (5.1)）。

利用带噪声的动作选择过程 (5.2)，我们定义如下的似然函数：

5.4.2 实验

在我们的贝叶斯强化学习示例中，我们考虑了 HalfCheetah 示例 [70]，其目标是让 HalfCheetah 尽可能快速奔跑，同时尽量减少身体的多余动作。

为了获得“真实解”（ground truth），我们再次使用高分辨率近似解，方法类似于我们在二维螺旋实验中所采用的方式。
这些参数的选择也是为了确保我们能够达到经典的收敛速率。

我们的实验结果如图12所示，展示了在不同 α 值下，结合 TNN 先验的两种方法（MLSMC 与 SMC）之间的比较。

与之前的实验结果类似，我们可以观察到：当 MSE 较小时，计算成本上的差异更加明显，这表明两种方法的误差-成本比率确实存在差异。
为了验证我们的方法达到了经典速率，我们在图中用黑色标出了理论预期的经典收敛速率线。

最后，我们进行最后一个实验，以验证如果我们假设 α < 1.5，则无法达到经典收敛速率。
图13 展示了与图12类似的实验，但我们将 α 的值修改为 {1.1, 1.4}。

我们可以观察到，结果与之前一致：复杂度的增长速率比经典情况更快，但仍慢于单层方法。
这再次验证了我们的理论分析结果。

5.5 敏感性分析

在本小节中，我们将以一个简单的敏感性分析 作为总结，考察不同参数选择对方法性能的影响。

我们的分析基于计算复杂度 与均方误差（MSE）-误差率 之间的关系，这是我们最关心的主要评估指标（也是 MLMC 文献中的标准关注点）。我们修改了多个参数设置，包括：

激活函数 ：我们分别使用了 ReLU 和 Tanh 激活函数 σ（如第4节所述）；
问题维度 ；
参数 α （我们之前已测试过）；
层级最大值 ，即我们使用的最高分辨率层级。

所有实验均在 MNIST 数据集上进行。我们设定一个基准案例（base case），用于比较上述参数变化所带来的影响。结果展示在表1 中。

从表1中可以看出，我们将各种参数设置与我们在 MNIST 数据集中使用的基准情况（Case 1）进行了对比。理论上我们期望达到的收敛速率为，在大多数参数调整下我们确实观察到了这一速率，这表明我们的方法具有良好的鲁棒性 。

在不同的实验案例中，明显表现最差的是 Case 5 ，其差异在于选择了较小的。这是可以预期的，因为在较小时，收敛速率通常会变差。

注释 5.1（参数调优） ：

需要注意的是，在 SMC 中首先必须对 MCMC 进行适当的调参。这可以通过自适应方式进行。SMC 在这方面特别方便，因为在每个 MCMC 阶段，我们都有一组近似服从目标分布的粒子集合，可用于估计矩信息来加速 MCMC 的效率。

此外，还需选择：

中间 MCMC 步数的数量 ；
层级间的退火调度（tempering schedule） ；

这两项也可以通过自适应方式完成——前者可通过自相关性度量来决定，后者则可通过控制有效样本大小（例如设为目标样本数的一半）来实现。

最后，关于 TNN 收敛速率（由不同 α 控制）如何与 MLMC 协同工作的问题，这在前面的实验示例中已有充分说明和探讨。

5.6 实际应用

一个显而易见的问题是：这些方法是否真的具有实际应用价值 ？

为了回答这个问题，我们执行了两个实验，如下一小节所述。

5.6.1 IMDb 大数据集

我们的第一个实验是对包含 50,000 条电影评论 的 IMDb 数据集进行情感（二分类）分类任务¹。该数据集被划分为训练集和测试集，各包含 N = 25,000 条数据。

图14a中展示了第一条和最后一条训练样本，分别标记为负面情感 和正面情感 。

接着，我们对评论文本进行预处理，并使用 SBERT 嵌入 [63] 将其映射到欧几里得空间中。具体来说，我们基于以下两个模型生成嵌入：

all-mpnet-base-v2²
[68]：输出 768 维向量；
all-MiniLM-L6-v2³
[68]：输出 384 维向量。

换句话说，我们使用这些模型的冻结权重 ，直到输出 [CLS] 向量（维度为 768 或 384），然后在其后附加一个贝叶斯逻辑回归模型 。

由于我们仅使用了一个层级（单层结构），因此参数的先验分布设为各向同性形式：

这可能看起来有些人为构造的意味，但请注意，当 η₀ 本身来自一个 SMC 采样器时，这种设定是非常自然的，因为这正是算法某一个阶段所发生的情况：

注释 5.2（可扩展性） ：上述示例的设定并不完全对应于本文中所提出的构造方式，因为它仅涉及两个层级，并且没有使用 TNN 先验。这说明了该方法具有良好的通用性和可扩展性 。

在实际应用中，可能并不会直接与本文所述的方法一一对应。事实上，在上述应用中，我们最初尝试使用一个宽度逐渐增加的单隐藏层网络，但我们发现，对于表2中所展示的频率学派性能指标（performance metrics），其改进效果几乎“不可见”——即无论隐藏层宽度如何变化，其表现基本等同于宽度为0的情况，也就是贝叶斯逻辑回归。因此我们必须采用更具创造性的建模思路。

不确定性量化（Uncertainty Quantification）

在收敛后，贝叶斯方法能够提供如表2所示各类量的贝叶斯最优估计器。然而，贝叶斯方法的最大优势可能在于其量化不确定性 （UQ, Uncertainty Quantification）的能力。

为此，我们提出量化所谓的认知熵（epistemic entropy） ，其定义如下 [33, 17, 66, 34]：

认知熵 （Epistemic entropy）量化的是可以通过获取更多数据来减少的不确定性，这种不确定性只有贝叶斯方法能够捕捉。

它可以被看作是输入下，参数与预测后验随机变量之间的互信息（mutual information）。因此，对于点估计方法来说，该值在定义上为零，因为它们产生的是确定性的预测结果。

图14b展示了在测试数据上平均的认知熵，并根据预测正确与否进行了分类。可以看出，这一指标对误分类具有明显的预测能力。同时可以观察到：随着估计器质量的提升，正确预测的认知熵下降 ，而错误预测的认知熵上升 ，这进一步支持了在可靠性要求较高的应用中使用高质量贝叶斯估计的合理性。

实验结果清楚地表明，我们的一致性贝叶斯方法显著优于最大后验估计（MAP），也优于由30个MAP估计器组成的深度集成模型 [35]（Deep Ensemble, DE）。

值得注意的是，深度集成目前被认为是可扩展贝叶斯深度学习中的最先进方法，并已被证明优于其他可扩展方法 [35, 74, 31]。

在当前示例中，由于层级之间差距较大，导致有效样本量（effective sample size）不够理想，因此我们引入了另一个 SMC 采样器，使得新维度可以按批次逐步引入 。

仅通过额外20步采样，我们就达到了对近似后验 π₁ 的完整有效样本量，我们将这个近似后验记为 ˇπ₁（注意，其计算成本仍低于直接目标为 π₁ 的情况）。

该示例进一步说明，尽管我们的方法在理论形式下非常优雅，但在实际应用中可能需要进行调整，但它仍然是一个有价值的理想目标。

5.6.2 再访 MNIST：数字 0 到 7

我们以一个扩展的 MNIST 示例作为本节的结尾。在此实验中，我们将整个 MNIST 数据集筛选为仅包含数字 0 到 7。

我们比较了以下几种方法：

最大后验估计（MAP）
深度集成（DE）
序贯蒙特卡罗（SMC）
7 层 MLSMC（设置与第 5.3 节相同）

评估指标包括一系列经典的性能指标，如：

准确率（Accuracy）
ROC曲线下面积（AUC-ROC）
平均认知熵（Hep，见前一小节说明）

此外，对于认知熵这一指标，我们还考虑了来自域外（out-of-domain, OOD）的数字 8 和 9 的样本。

表3展示了对比结果。可以看出，在准确率方面，各方法表现相近；但在 AUC-ROC 和认知熵指标上，我们开始观察到明显的提升，这正是我们所期望的结果。这种趋势与 IMDb 数据集上的结果相似。

6. 结论

随着数据可用性和现代先进算法的发展，机器学习方法的研究变得尤为重要。在本文中，我们研究了多层蒙特卡罗（MLMC）方法在多种贝叶斯机器学习问题中的应用，并结合了迹类神经网络 （TNN）先验。

这类先验已被用于多种贝叶斯推断任务中，而我们在本文中将其与基于 MLMC 的多层序贯蒙特卡罗 （MLSMC）采样器相结合。我们特别论证了在多层设定下使用此类先验的合理性，并首次从理论上证明了该方法可以达到经典的蒙特卡罗收敛速率 ——这是传统的基于神经网络的先验所不具备的特性。

我们还通过数学分析建立了均方误差 （MSE）的上界，并展示了如何通过上述方法降低 MSE 与计算成本之间的比率。

我们在多个常见的机器学习任务上进行了数值实验，包括回归、分类和强化学习，验证了我们的方法可以在达到特定阶数的 MSE 时显著降低计算成本。

未来研究方向

在未来的工作中，一个自然的方向是将本文的方法扩展至多指标蒙特卡罗 （Multi-Index Monte Carlo, [38]），它在效率上优于 MLMC 方法。尽管这需要更多的工作，尤其是在最优指标集合的选择方面，但可视为一种自然的延伸。

另一个方向是探索除本文之外的其他应用场景，例如聚类。在贝叶斯框架下，相关方法包括贝叶斯层次聚类（Bayesian hierarchical clustering）[36, 45]，其与混合模型密切相关。

此外，还可以引入更先进的蒙特卡罗建议分布（proposal），例如利用梯度信息来提升性能，尤其适用于强化学习等任务。可能的方法包括调整后的 Metropolis-Hastings 算法或哈密尔顿蒙特卡罗（Hamiltonian Monte Carlo）等。

这些以及其他方向将在未来进一步研究。正如数值实验中所暗示的那样，我们还可以考虑对 TNN 先验进行更广泛的 α ∈ ℝ 分析，以探索在哪些条件下仍能保持经典收敛速率。

针对 MLMC 在数据驱动模型的深度神经网络近似中的应用，也值得开展完整的复杂性分析 [29, 52]。

实际应用与扩展

深度学习常用于处理具有极高输入维度的非结构化数据，这类任务通常计算量巨大，远超本文所讨论的情形。例如，文献 [44] 使用数百个张量处理单元（TPU，谷歌专有的GPU替代方案）对 CIFAR-10 和 IMDb 数据集执行 MCMC 推理。

虽然我们的方法更为高效，但我们目前无法访问如此大规模的资源。不过，我们确实为 IMDb 数据集提供了一个简化版本的方法，并在笔记本电脑上运行，达到了相当的准确率。

我们的方法也易于并行化 [59]，这使得在超级计算机上更有效地部署成为可能。同时，也可以考虑在调整网络宽度的同时调整深度，寻找最优平衡点。

对于现代的卷积神经网络（CNNs）和大语言模型（LLMs）[7]，TNN 架构也需要相应调整，以更巧妙地实现参数衰减。

对于 CNN，候选参数包括核尺寸（不超过输入维度）和通道数量；
对于 LLM，候选参数包括：(i) 嵌入维度，(ii) 多头注意力机制中的头数，(iii) 前馈层隐藏层的宽度。

除此之外，还可以将数据按层级进行分层划分 [69]。

由此引申出一个令人兴奋的方向是：将该方法应用于更复杂的实际应用中，因为一个方法的价值最终体现在其实际影响力上。

本工作的目的在于介绍一种新的方法论，它通过融合不同的数学工具组合而成，具备理论基础与实用潜力。

附录 A. 命题 3.1 的证明

命题 3.1 的证明本质上遵循文献 [4, 定理 3.1] 的思路，但需要进行一些必要的修改。我们主要提供这些新增计算的详细内容；但需要指出的是，为了完全理解整个证明过程，读者应先阅读并理解文献 [4]。

原文链接：https://arxiv.org/pdf/2203.12961