深度学习的兴起不仅革新了人工智能的研究范式，也极大地推动了计算机视觉、自然语言处理、语音识别等多个领域的发展。在深度神经网络训练的过程中，优化算法起着至关重要的作用。尽管牛顿法及拟牛顿法在优化理论和传统数值优化领域有着深厚的理论基础和良好的收敛性质，但深度学习中几乎没有广泛采用这类二阶优化方法，而是更偏好于一阶梯度方法及其变种。为什么会出现这种现象？这背后涉及深度学习模型的规模、非线性复杂度、计算资源限制以及算法本身的特性等多重因素。

1. 优化方法的基本框架和深度学习的特点

深度学习模型的训练本质是一个极其复杂的非凸优化问题。给定一个模型参数集合，损失函数需被最小化。损失函数高度非线性且参数维度极高，通常达到百万甚至数十亿的数量级。

优化方法根据是否利用二阶导数信息大致可分为两类：

一阶方法：仅利用目标函数梯度进行迭代，如梯度下降法（GD）、随机梯度下降法（SGD）及其各种变种（Adam、RMSProp等）。
二阶方法：利用目标函数的海森矩阵（Hessian）信息或其近似，如牛顿法、拟牛顿法（BFGS、L-BFGS等）。

深度学习的非凸性、维度巨大以及训练样本量庞大，决定了优化方法的设计和选择必须兼顾计算复杂度、内存消耗、数值稳定性以及收敛速度。

2. 牛顿法与拟牛顿法的基本原理

牛顿法利用泰勒展开对损失函数在当前参数点进行二阶近似：

通过求解极小化上述二次近似问题，迭代更新参数：

拟牛顿法则不直接计算或存储海森矩阵，而通过迭代估计其逆矩阵近似，从而减少计算复杂度。代表算法如BFGS、L-BFGS等。

牛顿法和拟牛顿法的主要优势在于：

局部二阶收敛性强，理论上可获得快速收敛；
对梯度消失、鞍点等问题有一定的克服能力；
能更精准捕捉函数曲率信息，避免步长过大或过小。

然而，牛顿法及其拟牛顿版本在深度学习中应用受限的主要原因集中体现在以下几个方面。

3. 海森矩阵计算和存储成本过高

深度学习模型的参数规模极大，一般模型参数维度在百万级甚至更高。海森矩阵是一个的对称矩阵，存储空间和计算量都呈平方级增长。

存储问题：对于参数维度为的网络，海森矩阵的存储需要个元素，按64位浮点数计算需要数TB级内存，远远超过普通硬件的存储能力。
计算问题：计算完整的海森矩阵需要对所有二阶偏导数求值，成本极高。即便使用自动微分工具，计算复杂度仍非常大，难以满足训练的效率需求。

拟牛顿法虽减小了直接计算海森矩阵的需求，但仍需在迭代中保存和更新近似的逆海森矩阵信息，通常保持一定的历史信息（如L-BFGS的窗口大小），当参数数量极大时，迭代计算和存储仍不可忽视。

4. 随机梯度的噪声和二阶方法的不兼容性

深度学习中，训练数据规模庞大，直接对全部样本计算梯度代价极高，因此普遍采用随机梯度下降（SGD）及其小批量变种。每一次参数更新仅基于一个小批量（mini-batch）样本计算出的梯度，而非整个数据集上的精确梯度。这样获得的梯度估计不可避免地带有噪声，即随机性。虽然这种噪声带来某些有益效果，如防止模型陷入局部最优点，促进泛化能力，但却给基于精确梯度信息的二阶优化算法带来了显著挑战。

4.1 随机梯度的本质与噪声特性

小批量梯度是对真实梯度的无偏估计，数学上可以视为

其中，是小批量样本集合，是单样本损失。相较于全样本梯度，小批量梯度有估计误差，表现为随机噪声：

其中，为均值为零的随机噪声项，方差随批量大小而变化。

这种梯度噪声在训练过程中持续出现，其性质包括：

噪声方差较大时，梯度方向波动显著；
噪声可激发模型跳出鞍点和浅局部极小值；
随着训练进展，梯度幅度和噪声强度趋于减小。

4.2 二阶方法对精确曲率信息的依赖

牛顿法和拟牛顿法的核心在于利用二阶导数矩阵，即海森矩阵，反映目标函数在当前点的局部曲率结构。海森矩阵用于调整梯度更新方向和步长，理论上能实现快速收敛。

在实际操作中：

牛顿法直接计算和反转海森矩阵以求解更新步长和方向；
拟牛顿法通过构造近似逆海森矩阵来替代真实海森矩阵。

两者都 要求准确且稳定的梯度与海森矩阵信息。然而，当梯度带有噪声时，这些二阶信息变得不可靠。

4.3 海森矩阵估计的噪声和不稳定性

由于梯度本身是带噪声的随机估计，基于小批量数据计算的海森矩阵也具有极高的方差。原因包括：

海森矩阵涉及二阶导数，且计算方式更复杂，随机样本引入的误差被进一步放大；
小批量海森矩阵不再是整体数据的精确曲率估计，导致方向和步长的选择不准确；
海森矩阵的特征值和条件数受噪声影响剧烈，甚至可能产生非正定矩阵。

这些因素综合导致基于随机样本的海森矩阵估计极度不稳定，影响优化算法的收敛性质。

4.4 随机性与二阶更新方向的矛盾

牛顿类方法依赖精确的二阶信息，要求每次迭代的更新方向是充分利用曲率信息修正的梯度下降方向。随机梯度下降中，方向本身就带有较大随机波动：

若基于不稳定海森矩阵进行逆矩阵计算，可能放大噪声，使更新方向偏离最优；
这种偏差在高维空间尤为明显，容易导致参数更新反复震荡或跳跃；
可能发生更新步长过大，损失函数增大，训练过程不稳定。

拟牛顿法虽对海森矩阵取近似，但依赖过去梯度和更新信息，随机梯度带来的噪声依旧会使近似矩阵更新偏离真实曲率，降低算法效率。

4.5 二阶方法与小批量训练的适应性问题

理论上，可以通过增大批量大小减少梯度噪声，使得海森矩阵估计更稳定，但这与深度学习的实践理念相悖：

小批量训练有利于模型泛化性能，且能减少单步计算资源；
过大批量会导致训练收敛速度变慢、泛化能力下降；
使批量变大到足以稳定海森矩阵估计的程度，计算代价极高，不现实。

因此，牛顿法和拟牛顿法难以适应基于小批量的随机梯度训练环境。

4.6 变种算法及其限制

尽管如此，研究者尝试将二阶信息与随机优化结合：

随机二阶方法：利用小批量数据计算海森向量积，结合梯度信息做修正；
自然梯度法：利用Fisher信息矩阵的近似，进行参数空间上的自然梯度调整；
带动量的二阶方法：通过动量平滑梯度噪声，提高海森矩阵估计稳定性。

这些方法在理论和小规模任务上有一定优势，但在大规模深度网络训练中仍难以匹敌高效的自适应一阶优化算法，因计算复杂度和实现难度限制，未成为主流。

5. 深度神经网络的非凸性和鞍点问题

深度神经网络的损失函数通常表现为高度非凸，复杂的参数空间结构中充满了大量局部极小值、鞍点和平坦区域。这种非凸性直接影响优化算法的表现和适用性。

5.1 非凸性对优化的影响

与凸优化问题不同，非凸问题的目标函数有多个局部极小点，无法保证全局最优。深度神经网络参数空间的高维性进一步加剧这一现象：

参数空间维度极高，导致无数复杂结构和形态；
局部极小值可能有较好性能，但更多是性能较差的点；
鞍点普遍出现，即一阶导数为零，但海森矩阵有正负特征值。

这些因素使得优化过程不仅要找到梯度下降方向，还需跳出不良临界点。

5.2 牛顿法对海森矩阵正定性的要求

牛顿法假设目标函数在当前点附近可以用二次函数良好近似，且海森矩阵为正定，确保迭代方向为下降方向：

当海森矩阵正定，牛顿方向是下降方向，算法收敛快速；
若海森矩阵含有负特征值（非正定），则迭代方向可能不是下降方向，甚至导致损失增加；
非正定海森矩阵会导致牛顿更新发散，无法保证稳定训练。

深度神经网络中普遍有鞍点，海森矩阵具有正负特征值并存，标准牛顿法难以直接使用。

5.3 拟牛顿法的海森矩阵修正及其限制

拟牛顿法通过不断更新近似逆海森矩阵来获得搜索方向。为保证搜索方向为下降方向，拟牛顿法通常需要对近似海森矩阵做正定修正，如：

调整特征值，将负特征值修正为正数；
添加正则项使矩阵正定。

然而，对于大规模深度神经网络：

修正过程计算开销巨大；
近似海森矩阵本身受到随机梯度噪声影响，修正难度更大；
修正可能破坏海森矩阵的真实曲率信息，降低优化效果。

这使得拟牛顿法在深度学习训练中难以广泛推广。

5.4 鞍点对优化的挑战

鞍点是梯度为零但非极小点的位置，其海森矩阵具有正负特征值。对于优化算法而言：

一阶方法依靠梯度和随机噪声的扰动，通常能绕过鞍点；
标准牛顿法受负特征值影响，可能沿错误方向更新；
拟牛顿法在缺乏准确曲率估计时，亦难以区分鞍点和极小点。

因此，深度学习训练更倾向于使用一阶方法结合动量、学习率调节等技巧，获得更稳健的优化路径。

5.5 一阶方法在复杂曲率中的优势

尽管缺乏二阶曲率信息，一阶优化方法表现出对非凸问题的较强适应性，原因包括：

仅利用梯度，计算简单且支持大规模分布式训练；
动量机制平滑梯度波动，提高更新稳定性；
学习率调节帮助跨越平坦区域，避免陷入鞍点；
小批量噪声有助于逃离鞍点和浅局部极小值。

这些因素使一阶方法成为深度神经网络训练的主流方案。

6. 高维参数空间的优化难题

在高维空间中，函数的几何特性会发生很大变化：

维度诅咒导致大多数方向上曲率接近零，海森矩阵高度病态且条件数极大；
海森矩阵的逆求解极其敏感，数值误差放大，导致更新步骤不稳定；
计算二阶导数虽然理论上有意义，但实际近似及反演海森矩阵误差很大，无法带来显著优化效果。

深度学习中实际经验表明，在高维环境下，简单且鲁棒的一阶方法往往效果更优。

7. 迭代开销与训练时间的权衡

神经网络训练常涉及上亿次参数更新，训练耗时从数小时到数周不等。优化算法需要兼顾单步迭代成本和整体收敛速度：

牛顿法或拟牛顿法每一步迭代计算量远大于梯度下降，单步开销极高；
即使收敛速度快于一阶方法，整体训练时间不一定更短，因单步成本过大；
梯度下降法利用高效的反向传播技术，可快速计算梯度，且支持GPU并行计算，极大提升效率。

从工程实践角度，保证每步计算快速且资源占用合理比理论收敛速度更重要。

8. 深度学习社区的经验和算法生态

深度学习算法的发展历程形成了较为固定的优化算法生态：

SGD及其变种（如Adam、Adagrad、RMSProp）经过多年研究和调优，积累了丰富的经验和技巧；
这些方法适合大规模分布式训练，可兼顾稳定性和效率；
对超参数（学习率、批大小、正则化等）调整灵活，易于实践；
大多数深度学习框架对一阶方法有极好的支持和优化。

相比之下，牛顿法和拟牛顿法缺乏成熟且高效的分布式实现，难以在工业界和学术界大规模普及。

9. 拟牛顿法的改进尝试与限制

虽然经典拟牛顿法难以直接用于深度学习，但研究者尝试了多种改进方法：

有限记忆拟牛顿法（L-BFGS）：只保留部分历史信息，降低存储需求；
批量拟牛顿方法：结合小批量数据计算，平衡噪声和计算量；
近似二阶方法 ：利用Kronecker分解等技术降低矩阵计算复杂度。

然而，实验证明这些方法虽然在中小规模问题上效果不错，但在非常大规模深度网络训练时依旧难以达到一阶方法的效率和效果。

10. 自适应一阶优化方法的优势

近年来，自适应一阶优化算法成为深度学习训练的主流选择，其优点包括：

自动调整学习率，适应不同参数和训练阶段；
缓解梯度消失和梯度爆炸问题；
较强的鲁棒性，适用于非凸且噪声大的损失函数；
易于并行化和分布式训练。

如Adam算法结合一阶矩估计和二阶矩估计，获得了实用而高效的优化效果，广泛应用于各种任务。

11. 训练动态和优化路径的复杂性

深度学习训练过程复杂，参数空间曲率分布高度不均：

很多参数更新时曲率变化剧烈，二阶方法需要频繁调整海森矩阵近似，计算成本激增；
一阶方法可以动态调整步长和动量，有效在不同训练阶段自适应；
模型训练通常需要多次超参数搜索和调节，简单高效的优化方法更便于实验和应用。

12. 二阶信息的间接利用

虽然直接使用牛顿法和拟牛顿法受限，但部分研究尝试间接利用二阶信息：

利用海森向量积（Hessian-vector product）计算近似曲率信息，辅助优化；
自然梯度法（Natural Gradient）利用Fisher信息矩阵调整梯度方向；
通过二阶矩估计改善自适应学习率策略。

这些方法兼顾了二阶信息与计算效率，但仍基于一阶框架，未完全替代传统二阶优化。

13. 总结

深度学习优化领域的核心挑战包括参数规模巨大、损失函数高度非凸、训练数据庞大且带有噪声。牛顿法和拟牛顿法虽然理论上收敛速度优越，能利用二阶曲率信息，但在实践中因计算复杂度、存储需求、数值稳定性和随机梯度噪声等因素限制，难以胜任深度神经网络大规模训练的需求。

相反，一阶优化方法具备计算效率高、实现简单、适应性强等优势，成为深度学习训练的首选。对二阶信息的间接利用和拟牛顿法的改良依旧是研究热点，但在当前主流应用中，牛顿法及拟牛顿法难以取代基于梯度的一阶方法。

未来随着算法设计、计算能力和理论研究的进步，二阶优化技术或许能够突破现有限制，在深度学习训练中发挥更重要的作用。

微信公众号后台回复

加群：加入全球华人OR|AI|DS社区硕博微信学术群

资料：免费获得大量运筹学相关学习资料

人才库：加入运筹精英人才库，获得独家职位推荐

电子书：免费获取平台小编独家创作的优化理论、运筹实践和数据科学电子书，持续更新中ing...

加入我们：加入「运筹OR帷幄」，参与内容创作平台运营

知识星球：加入「运筹OR帷幄」数据算法社区，免费参与每周「领读计划」、「行业inTalk」、「OR会客厅」等直播活动，与数百位签约大V进行在线交流

文章须知

推文作者：亦然1

微信编辑：疑疑

文章转载自『人工智能科学研究』公众号，原文链接：为什么深度学习不使用牛顿法或拟牛顿法优化？在随机梯度环境下，如何稳定地利用二阶信息提升训练性能？深度学习

关注我们

为什么深度学习不使用牛顿法或拟牛顿法优化？在随机梯度环境下，如何稳定地利用二阶信息提升训练性能？深度学习