这项由耶鲁大学统计与数据科学系研究团队发表的工作,于2026年6月提交至预印本平台arXiv,论文编号为arXiv:2606.02993。有兴趣深入了解的读者可通过该编号查询完整论文。
深度学习中有一个令人着迷却又令人困惑的现象:我们把一堆数字喂给神经网络,训练结束后,网络内部悄悄长出了某种"规律"。这种规律不是人为设计的,而是梯度下降这把"雕刻刀"从高维参数空间里自然刻出来的。问题是,这把刀到底刻出了什么形状?为什么刻出的是这个形状而不是别的?
耶鲁大学的研究团队为了回答这个问题,选择了一个极度干净的实验场地——有限群的运算。群,用最朴素的话说,就是一套带有某种对称结构的运算规则。钟表上的12个小时加减法、魔方的旋转组合、偶数加偶数还是偶数,这些都是群的例子。研究团队训练了一个两层神经网络,让它学会预测两个群元素的"积":给你a和b,告诉我a乘以b等于什么。这个任务听起来简单,却蕴藏着深刻的代数结构。研究的核心发现是:神经网络在训练过程中,自发地发现并编码了群的"不可约表示"——这是数学家花了几百年才系统整理出来的、描述群结构最基本的"频谱成分"。更惊人的是,每个神经元只专注于一种表示,不同神经元之间的分工极其整洁,就像管弦乐团里每个乐手只演奏自己的声部,合奏出完整的乐曲。
这项研究不仅揭示了神经网络学习代数任务的内在机制,还为理解"为什么神经网络总能找到低维、低秩的解"提供了一个具体而清晰的数学框架。
一、群运算:神经网络的"数学练功房"
要理解这项研究,先得搞清楚研究团队选择的训练任务是什么。钟表是一个很好的出发点。假设钟面上只有0到11共12个小时,你问:现在是9点,再过5小时是几点?答案是2点,因为9加5等于14,减去一圈12,剩下2。这种"绕圈加法"就是数学里的模运算,也是最简单的群——循环群的运算规则。
但研究团队野心更大。他们不只研究循环群,而是研究任意有限群,包括那些"乘法不满足交换律"的非阿贝尔群。举个例子,魔方的操作就不满足交换律:先转顶面再转右面,和先转右面再转顶面,结果完全不同。研究团队用的一个具体非阿贝尔群叫做弗罗贝尼乌斯群C??C?,它有21个元素,其运算规则涉及一种特殊的"翻倍"关系——用群论语言说,就是共轭关系yxy??=x?。这个群有五种不可约表示:三个一维的和两个三维的。三维表示意味着每个群元素对应一个3×3的复数矩阵,而不是一个简单的数字。
神经网络的架构也很清晰。每个输入是一对群元素(g?, g?),用独热编码表示;输出是对所有可能答案的概率预测,对应群元素g?*g?;中间是一个两层网络,每个神经元有两套输入嵌入参数θ?和θ?(分别处理左右两个输入),一套输出嵌入参数ξ,以及一个幅度缩放参数a。激活函数选择的是平方函数σ(x)=x?,这个选择不是随意的——平方激活能让傅里叶分析的代数结构保持干净,便于理论推导。网络对输入做内积、求和、平方、再用输出嵌入映射,这个简单的计算图背后隐藏着丰富的数学结构。
训练过程被刻意分成两个阶段。第一阶段,把幅度参数a固定在一个很小的值,只训练方向参数(θ?, θ?, ξ)——它们被约束在单位球面上,通过投影梯度流来更新。第二阶段,把方向参数冻住,只放开幅度参数a让它自由增长。这种分离并非任意设计,而是因为研究团队发现这两个阶段在数学上有本质不同的角色:第一阶段负责"学会看什么",第二阶段负责"看得更清楚"。
二、傅里叶变换:换一副眼镜看参数
接下来是这项研究最关键的技术转换。研究团队把神经网络的参数θ?、θ?、ξ从"直接看每个群元素上的取值"转换到"看其傅里叶频谱上的成分"。
对于循环群Zn,这就是普通的离散傅里叶变换——把一个信号分解成不同频率的正弦波叠加。对于一般的有限群,这个变换的推广叫做"群傅里叶变换",原理相同,但每个"频率成分"不再是一个数,而是一个矩阵。具体来说,对每个不可约表示ρ(可以理解为一种"频率通道"),参数ν的傅里叶系数是一个dρ×dρ的复数矩阵,其中dρ是这个表示的维数。对于循环群,所有表示都是一维的,所以傅里叶系数就是普通复数;对于非阿贝尔群,某些表示是高维的,对应的傅里叶系数就是矩阵。
把参数从"元素域"换到"频谱域",就像把一段音乐从时间轴上的声波波形,换成频率-响度图。波形看起来复杂,频率图却一目了然——哪些音符在响,响多大。研究团队发现,当神经网络训练收敛后,每个神经元的参数在频谱域里呈现出极度稀疏的模式:绝大多数"频率通道"上的系数趋近于零,只有一个通道(加上它的共轭通道)上有非零值。这就是"单一表示"现象——每个神经元只专注于一种不可约表示。
更深层的结构藏在那个非零的矩阵里。研究团队发现,即使是高维表示对应的矩阵,经过训练后都变成了秩为1的矩阵。秩1意味着这个矩阵可以写成两个向量的外积:A=uv*。一个dρ×dρ的矩阵本来有dρ?个自由度,但秩1约束把它压缩到只有2dρ个自由度。这种极端的压缩是自发发生的,不是任何正则化或架构约束强制的——纯粹是梯度下降"选择"了低秩解。
三、主定理:神经网络学到了什么
现在可以完整陈述研究团队证明的核心定理了。在小幅度初始化(让网络输出接近零)和随机球面初始化下,对于任意有限群G,第一阶段训练结束后,每个神经元m几乎必然收敛到以下状态。
其一,"单一表示":存在一个非平凡不可约表示ρ?,使得除了ρ?和它的共轭ρ??之外,所有表示的傅里叶系数都趋近于零矩阵。参数在元素域的表达式因此简化为:只依赖于ρ?在群元素上的矩阵值的实部迹。
其二,"秩一旋转对齐":在存活的表示ρ?上,三套参数的傅里叶系数θ??[ρ]、θ??[ρ]、ξ?[ρ]都是秩1矩阵,并且三者之间满足一种"旋转对齐"的比例关系:ξ?[ρ] ∝? θ??[ρ]θ??[ρ],θ??[ρ] ∝? (θ??[ρ])* ξ?[ρ],θ??[ρ] ∝? ξ?[ρ](θ??[ρ])*。三个等式用正实数比例系数相互约束,形成一个闭合的"三角关系"。
这里的"∝?"表示"以正实数为比例系数成正比"。在阿贝尔群的特例下,所有表示都是一维的,矩阵乘法退化为数字乘法,旋转对齐退化为相位加法关系arg(ξ)=arg(θ?)+arg(θ?),这正是此前针对模运算加法的研究已经观察到的"相位对齐"现象。非阿贝尔群的新鲜之处在于:矩阵乘法不满足交换律,所以三个关系式不再自动等价,需要分别证明;同时,秩一压缩是非阿贝尔情况独有的新现象,在一维情况下根本不存在这个概念。
用音乐类比来说:每个神经元就像一个只会演奏一种乐器(一种不可约表示)的演奏家,而且在这种乐器的频率空间里,他们只拨动一根弦(秩1),三个参数组合的方式就像三部乐谱(输入1、输入2、输出)互相"对齐"——你听了第一部就能推测出第三部的主旋律。
四、证明路径:如何从梯度流推出这一切
要把以上现象从"观察"变成"定理",研究团队走了一条精心设计的数学路径,分四步完成。
第一步是把梯度流"提升"到频谱流形上。通过对交叉熵损失在小输出幅度下做泰勒展开近似,可以得到一个更简洁的近似损失函数Rap。研究团队严格证明了,在足够小的幅度a下,近似损失的梯度流和真实损失的梯度流在任意有限时间区间内的轨迹误差以O(a?|G|^(1/2)/M)的速率积累——这个误差可以通过选取足够小的a控制到任意精度。在近似损失下,把参数替换为它们的傅里叶系数表达,梯度流等价于在傅里叶系数构成的流形上做一种叫做"黎曼梯度上升"的优化。被上升的目标函数叫做Ω?,它是三套傅里叶系数之间矩阵乘积迹的实部求和。这是整个证明的支点:把参数空间的优化转化为一个有明确能量函数的几何流。
第二步是对临界点做穷举分类。黎曼梯度上升的临界点就是梯度为零的状态,即Ω?不再变化的"静止点"。研究团队把所有可能的临界点按能量符号和支撑结构分成五类。能量为负的临界点和能量为零但只有平凡表示支撑的临界点被归入前两类,研究团队证明这两类只能从一个"测度为零"的初始化集合出发才能到达——换句话说,随机初始化几乎必然绕开它们。能量为零但有非平凡表示支撑的临界点和能量为正但总秩大于等于2的临界点被归入中间两类,研究团队通过分析黎曼海森矩阵,证明这两类临界点都是"严格鞍点":黎曼海森矩阵在某个切向量方向上有正特征值,意味着沿这个方向能继续上升,这个点不是真正的"极大值"。只剩下最后一类:能量为正且总秩恰好等于1的临界点——这正是单一表示加秩一对齐的状态。
第三步是证明随机初始化下梯度流几乎必然绕开所有鞍点。研究团队把这个问题归结为一个关于黎曼流形上连续梯度流的一般定理——研究团队将其称为"鞍点回避定理"。核心工具是"中心稳定流形定理":对于严格鞍点p,其切空间可以分解为对应负或零特征值的"中心稳定子空间"和对应正特征值的"不稳定子空间"。中心稳定流形定理保证了存在一个局部的"中心稳定流形",维数严格小于流形总维数,因此测度为零。任何从随机点出发且最终收敛到鞍点p的轨迹,其初始点必须落在这个测度零集内。把所有鞍点的稳定集取可数并,仍然是测度零集。由此,绝对连续的随机初始化几乎必然不落在任何鞍点的稳定集里。
第四步是把前三步拼装起来,完成定理证明:梯度流必然收敛到某个临界点(因为流形是紧致的),前两类被测度零初始化排除,中间两类被鞍点回避排除,于是几乎必然收敛到最后一类。证毕。
五、阿贝尔群的完整画像:多数投票与"残次指示函数"
对于结构更简单的阿贝尔群(乘法满足交换律的群,比如各种模运算加法),研究团队能给出更精细的描述,不只说"每个神经元学一种表示",还能说清楚整个神经元集合的分布。
核心定理说的是:在球面均匀随机初始化下,当神经元数量趋于无穷时,神经元集合的经验分布收敛到一个极限分布μ。这个μ是某个乘积测度的"反傅里叶推前":每个神经元以均匀概率独立地从所有非平凡不可约表示中选一个,再从单位圆上按哈尔测度(即均匀分布)独立地选一个"绝对相位"。用符号写就是μ=T_idft#(Unif(Irr(G)≠1)?Haar(D)),其中T_idft是把"表示-相位对"转换回参数向量的映射。
这个结论背后有两层独立的论证。相位的均匀性来自于:梯度流中相位的演化方程显示,绝对相位θ[ρ]的幅角只是以确定性的方式旋转了一个角度,初始相位的均匀性在旋转下保持不变。表示的均匀性来自于:梯度流关于非平凡表示的重新标记具有对称性,初始化的球面均匀分布也具有这种对称性,所以"哪个表示最终胜出"的概率对所有表示都相等。两者的独立性则来自于:决定哪个表示胜出的信息全部包含在"幅度和相对相位"的初始值中,而绝对相位独立于这些信息。
有了μ的明确形式,就可以计算平均场预测器的输出logit。对于输入(g?,g?)和输出标签j,logit正比于2·1(j=g?*g?)+1(j=g??)+1(j=g??)–4/|G|。正确答案j=g?*g?获得系数2,两个"幽灵"标签g??和g??(分别是两个输入各自与自身的群积)各获得系数1,其余标签获得负的基准值–4/|G|。正确答案始终是系数最大的,因此分类正确。研究团队把这个预测器形象地称为"残次指示函数":它本应该是一个完美的单峰指示,只在正确答案处为1,其余为0;但由于架构的结构性限制,它在两个"幽灵"答案处也有额外的小峰。不过,只要幅度参数a足够大,softmax操作就能把这个"残次"分布锐化为正确答案上的接近确定性预测。
这里用选举打比方很合适。每个神经元像一个选民,投票给某个候选答案。绝大多数选民投给正确答案,少数选民因为"幽灵效应"投给了g??或g??,但正确答案的得票率始终是最高的。当投票人数(神经元数量)足够多时,噪声被平均掉,多数投票的结果稳健地指向正确答案。
六、收敛速率:快慢两个相互缠绕的过程
知道梯度流"最终"会收敛还不够,研究团队还进一步分析了"多快收敛"以及"收敛的机制是什么"。
对于阿贝尔群,整个第一阶段的收敛可以分解为两个相互独立又相互缠绕的子过程。第一个子过程叫"相位对齐":输入嵌入和输出嵌入的相位关系从任意状态逐渐锁定到满足arg(ξ)=2arg(θ)的对齐状态(系数2来自平方激活)。第二个子过程叫"表示竞争":所有非平凡表示的傅里叶系数幅度之间展开"军备竞赛",初始幅度最大的那个表示会指数级扩大自己的优势,其余表示则指数级衰减。
研究团队对这两个子过程分别给出了精确的收敛速率。
相位对齐:如果神经元初始时只有一个表示处于活跃状态,那么相位对齐量R(φ)从初始值到达1-ε精度所需时间正比于M/(a|G|^(1/2))乘以对数因子。相位初始越接近对齐状态,收敛越快;相位初始越偏离,需要的时间越长,但始终是指数收敛。
表示竞争:如果初始时所有相位已经对齐,那么表示幅度之间的比值r?(t)=α?[ρ]/α?[ρ]满足一个简单的增长方程,其解是指数增长——初始比值越大,增长越快,但无论初始优势多小,只要大于1,最终都会无限放大。这就是"彩票机制":哪个表示在初始化时赢得了幅度上的微弱优势,它就赢得了这场竞赛;训练的作用是把这个微弱优势指数级放大,直到其他表示彻底消声匿迹。因为初始化是球面均匀的,所有表示的初始幅度是可交换的,每个表示赢得彩票的概率相等——这正是宏观均匀分布的微观起源。
从训练速度和所需时间的角度来看,两个子过程所需的时间尺度是O(M/(a|G|^(1/2)))和O(M/(a|G|)),前者比后者更慢(因为|G|^(1/2)更小),这意味着相位对齐通常是整个第一阶段的"瓶颈"。训练曲线上那段看起来损失停滞不前的平台期,正是相位对齐正在发生的时期。
七、第二阶段:幅度爆炸与损失归零
第一阶段结束后,每个神经元已经学好了"看什么"(哪个表示)以及"如何看"(对齐的相位/秩一结构)。但预测准确率可能仍然不高,因为幅度参数a太小,使得softmax输出接近均匀分布。第二阶段的任务就是让a生长起来,把softmax从"均匀模糊"锐化为"集中确定"。
研究团队证明了以下结论:只要平均场预测器已经满足"完美精度条件"(即对每个输入对,正确答案的logit严格大于所有错误答案),那么a的梯度流满足a(t)?log(1+|G|·(|G|–1)·t)的下界——即对数增长。交叉熵损失的上界则随时间呈O(1/T)衰减。幅度的对数增长速度看起来很慢,但对于有限群来说,logit间距的正数下界(来自第一阶段学到的结构)保证了最终损失会趋向零。这个动态非常类似于在可线性分离数据上做指数族损失的梯度下降时的隐式偏置——幅度趋于无穷,损失趋于零,但模型的"方向"已经固定。研究团队还证明了,在足够宽的网络下(M?log(|G|?/δ)),有限神经元集合的预测器以1-δ的概率继承了平均场预测器的正确性,从而确保第二阶段的幅度生长确实能带来正确分类。
八、实验验证:理论预测与实践结果的精确对应
研究团队在弗罗贝尼乌斯群C??C?上进行了详尽的数值验证,这个群因为同时具有三维不可约表示(让秩一压缩现象有意义)和非自共轭表示(让共轭对结构清晰可见)而成为理想的测试场。
训练1024个神经元后,研究团队对每个神经元的参数做群傅里叶变换,得到一个"频谱热力图",行对应神经元,列对应不同表示的傅里叶系数块(一维表示贡献一列,三维表示贡献一个3×3的块)。热力图清晰地显示:每个神经元只在一个表示块(加上它的共轭块)处有显著非零值,其余块几乎全为零。这直接验证了单一表示结论。
研究团队还定义了两个量化指标。"对齐度"disal(C?,C?)衡量两个矩阵之间的余弦相似度,值为1表示它们是正比关系。"秩一度"distr1(C)衡量第二奇异值与第一奇异值的比值,值为0表示矩阵是完美秩一。训练过程中,三套参数之间的对齐度稳步趋近1,三套参数各自的秩一度稳步趋近0,两个指标在训练后期都非常接近理论极限,方差也趋近于零。与此同时,分类准确率也在第一阶段末期稳定在100%,确认了平均场完美精度条件成立,为第二阶段打下了基础。第二阶段的幅度增长曲线——无论是"绑定幅度"(所有神经元共享一个幅度参数)还是"独立幅度"(每个神经元有自己的幅度参数)——都呈现出清晰的对数增长模式,与理论预测高度吻合。
说到底,这项研究揭示的是神经网络内部一种极其精妙的"自我组织"能力。你不需要告诉网络群论,不需要告诉它什么是不可约表示,不需要告诉它应该用低秩矩阵——只需要给它数据和梯度,它会自己找到这些数学结构。这背后有一个深刻的道理:数据的对称性(群的结构)会通过损失函数的梯度流,自然地"印刻"进网络的参数形态。数学家发现不可约表示是描述群结构的最紧凑方式,神经网络通过梯度下降也"发现"了同样的结论——不是因为它懂数学,而是因为梯度下降在这类有对称性的数据上,本质上就是在寻找最紧凑的表示方式。
这项工作目前仍有一些悬而未决的问题。对于具有高维不可约表示的非阿贝尔群,神经元集合的极限分布是什么样的?具有自共轭表示的阿贝尔群如何处理相位变成实数符号的情况?从全量数据训练到部分数据训练的泛化间隙,以及那个著名的"grokking"(先过拟合后突然泛化)现象,理论上如何解释?这些问题都是未来研究的方向,而这篇论文已经建立了一个足够坚实的框架,让这些问题变得可以被精确地提出和追问。归根结底,这项研究给我们的最大启示不是某个具体的算法改进,而是一种观察神经网络的新角度:当数据有代数结构时,去频谱域看——你很可能会看到比你预期更干净、更美丽的东西。有兴趣进一步探索的读者,可以通过arXiv编号2606.02993找到完整论文,研究团队也在GitHub上公开了完整代码。
Q&A
Q1:神经网络学习群运算时自发发现的"不可约表示"是什么意思?
A:不可约表示是描述一个群结构最基本的"积木块",类似于把白光分解成七色光谱。每个有限群都有有限种不可约表示,它们无法再被分解。神经网络在训练后,每个神经元的参数在傅里叶频谱上只对应其中一种表示,就像每位乐手只演奏一种乐器,这种自发的专门化现象正是"学到了不可约表示"的含义。
Q2:弗罗贝尼乌斯群C??C?是什么,为什么要用它做实验?
A:弗罗贝尼乌斯群C??C?是一个有21个元素的非阿贝尔群,意思是群里的运算不满足交换律,a乘以b不等于b乘以a。它被选来做实验是因为它同时具备三维不可约表示(让秩一压缩现象有实质意义)和非自共轭表示(共轭结构清晰),是验证理论的理想"最小复杂案例",比对称群简单但又比循环群复杂。
Q3:论文中的"grokking"现象指的是什么?
A:Grokking(顿悟)是深度学习中一个奇特现象:模型在训练数据上早已过拟合(记住答案但不理解规律),却在很久之后突然在测试数据上也获得了高泛化能力,损失曲线上出现明显的延迟跳变。这项论文的两阶段训练框架和幅度对数增长描述了相关机制的一部分,但从部分数据训练到完整泛化的精确理论分析,作者承认仍是未解问题。