深度神经网络之所以卓越,在于它能逐层提炼数据特征,把复杂的高维信息逐渐“压缩”为规整的低维几何结构。但这种学习过程究竟如何由非线性、噪声、学习率等多重因素共同涌现,长期缺乏直观统一的解释。
近日,巴塞尔大学与中国科学技术大学的研究团队在国际顶级物理学期刊 Physical Review Letters上发表论文《Spring-Block Theory of Feature Learning in Deep Neural Networks》[1],提出用经典物理中的“弹簧-方块模型”来刻画神经网络的特征学习机制。
该工作展示了一张“噪声–非线性相图”,揭示在不同训练条件下由浅层或深层承担更多学习任务的规律;并通过宏观的机械类比复现了层级特征学习与泛化之间的联系。
相比依赖强理想化假设的微观理论,这一框架更贴近实际工程场景(小批量、有限步长、数据噪声、Dropout 等),从而为研究者提供了一个用物理直觉理解和诊断神经网络的新视角。
现象模型和宏观视角
很多机器学习理论从第一性原理(first principles)出发,通过计算和统计每个神经元的动力学行为来推导和预测整个神经网络的表现。
尽管这种自下而上的微观分析能够为神经网络提供有价值的见解,但其往往依赖于高度理想化的假设——例如无限小的学习率或线性结构、无限宽极限、精心挑选的初始化,以及通常特定的合成数据集。
虽然这些假设在分析上极具便利性,但也不免让人联想到那句幽默的评论:物理学家常常研究“真空球形机”(spherical cow in a vacuum)。此类模型固然有助于理论构建,但与真实复杂系统之间仍存在一定差距。
在实践中,现代深度网络的运行条件远比这些理想化假设复杂。训练过程通常涉及有限的步长、非高斯且高维的数据、深而窄的结构,以及跳跃连接、层归一化、批归一化、数据增强、自适应优化器等大量工程化手段。
这些多样化的模块和训练策略引入了不同类型的参数及其异质性相互作用,使得单纯依赖微观分析已难以为继。然而,我们仍迫切需要一种理论,能够从宏观角度理解神经网络,并为更优结构的设计提供指导。
数据分离定律与特征学习
研究的起点是所谓的“数据分离定律”。在训练良好的深度网络中,不同类别的数据(如猫与狗)的内部表示会逐层变得更加规则和分离,而且分离幅度往往在各层之间近似保持一致 [2]。这表明,深度神经网络的各层在特征学习与提取中承担了大致均等的工作量。然而,这一现象仅在特定的超参数设置下出现,其背后的机制仍不明朗。
弹簧–方块模型
研究团队通过类比物理系统发现,深度神经网络(DNN)的层级数据分离与“弹簧–方块链”模型存在高度相似性:每一层对数据的特征提取好比弹簧的伸长,而网络中的非线性则对应于摩擦力。如果再考虑噪声,其作用类似于振动使方块短暂“悬空”,从而重新均衡了分离幅度。
这一类比不仅为理解“数据分离定律”提供了直观解释,也揭示了噪声与非线性在学习过程中的关键作用。
更具体地说:
1. 网络某一层从数据中提取特征的程度对应于弹簧的伸长。这种伸长反映了该层所承担的任务负荷比例,而负荷在层间的分布由系统的内在动力学决定。
2. 网络的非线性相当于方块与表面之间的摩擦。更强的非线性(更大摩擦)会加剧深层与浅层之间的差异:深层在高非线性条件下分离更多特征,就像外层弹簧在更大摩擦下被迫伸长更多一样。
3. 训练过程中的噪声或外部振动可间歇性地“解粘”方块(降低有效摩擦),使弹簧的伸长重新均衡。这类似于声学润滑或经典的“粘–滑效应”,从而在一定程度上均衡了层间的学习负荷。
4. 当弹簧的伸长达到均匀分布时,整条链处于最小势能状态;对应地,当任务负荷在神经网络的各层间均匀分布时,往往能够获得更稳健且具备更强泛化性能的模型。
更为重要的是,在广泛的网络结构、数据集和超参数设置下,并且在多种噪声源(比如小批量采样、大步长、数据噪声以及 dropout)的作用下,该弹簧–方块模型均能够再现真实 DNN 中观测到的层级特征学习和泛化性现象。
应用与实践价值
这种宏观模型不仅为理解实践技巧提供了统一的视角,还能作为 DNN 的实用诊断工具。换言之,这一物理启发的理论有望成为一种低成本的“泛化诊断工具”。通过考察任务负荷在各层的分布(模型的“应力图”),可以识别出可能过拟合的过载区域,以及暗示存在冗余的未充分利用区域。
这样的洞见有助于我们更有针对性地优化架构设计、调整训练策略,甚至为后续的模型压缩与泛化能力提升提供直观指导。
[1] Shi, C., Pan, L. and Dokmanić, I., 2025. Spring-Block Theory of Feature Learning in Deep Neural Networks. _Physical Review Letters_, _134_(25), p.257301.
[2] He, H. and Su, W.J., 2023. A law of data separation in deep learning. _Proceedings of the National Academy of Sciences_, _120_(36), p.e2221704120.
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
