注意力的浮点精度不是必须的，归一化流的"精确可逆"是可以放弃的……

作者丨马晓宁

编辑丨岑峰

这里有一幢大楼，叫做深度学习。

过去几年，人们不停地给它加盖、扩建，越盖越高，越盖越复杂。这幢大楼叫 Transformer。盖楼时用了一大批标准件，浮点精度是它的钢筋，层归一化和残差连接是它的混凝土，因果掩码是它的承重隔断。旁边还有两栋附楼：一栋是扩散模型；另一栋归一化流。在漫长的施工期里，人们不断加装更粗的钢筋、更复杂的控制系统，以为这样做就能让这几栋楼更稳固高大美观。但是这样真的是对的吗？

可现在，这些施工的收益越来越小，而有人在附楼里试出了更好的新零件，量化、去噪、可逆约束都有了更轻便的替代品。于是，一批施工队同时进场，对准这些标准件开刀。他们不是来修修补补的，而是问一个更根本的问题：这根柱子、这面墙、这套管道，到底是真承重，还是只因为一直在那儿所以没人动？

更有意思的是，五支施工队去了不同的楼层。有的在楼体外墙动手，拆掉了那些只用来装饰的预制板——那是推理端的精度和定制策略。有的钻进设备层，重新铺设了管线——那是训练目标的参数化方式。还有的直接下到地下室，对着地基里的钢筋动起了大锤——那是归一化层和可逆性约束。把它们放在一起看，你会发现一条清晰的递进线：深度学习的"标准件"正在从外围到核心，被逐个拆掉。

从推理端开刀：

精度和定制策略，不是必须的

最先被质疑的标准件，是那些看起来最"技术性"的，比如说，浮点精度的矩阵乘法，和针对不同架构手工调参的量化策略。这些因为不涉及“模型为什么能work”的核心设计哲学，看起来只是优化效率、节省算力，所以最容易被人当成“普通的工程优化”。

但 CVPR 2026 的这两篇论文告诉我们，远不止"模型可以更省"这么简单。

▎BinaryAttention：1-bit 注意力，比全精度还能打

Transformer 的注意力模块一直是算力黑洞。Query 和 Key 做矩阵乘法，计算量随序列长度平方增长，在高分辨率视觉任务和多步扩散生成里尤其要命。普通工程优化的逻辑：第一步是 FlashAttention，用 IO 优化把访存瓶颈拆掉；第二步是量化，把 FP32 压成 INT8、INT4，低比特框架内，精度降了，但总算还能用。

再往下压，就要把 Q 和 K 压成只有正负两种状态的 1-bit。这条路几乎没人敢走。直觉上太反常识了：一个连续实数变成一个正负号，信息损失那么大，注意力还能算对吗？

BinaryAttention 给出的答案是：不仅算得对，还能算得更快。

这篇来自 Chaodong Xiao、Zhengqiang Zhang 和 Lei Zhang 的论文，首先从理论上论证了一个关键命题——注意力机制的核心逻辑是计算 Q 和 K 之间的相似度关系，而这个相似度关系在二值化之后依然能被有效保留。

换句话说，"这两个位置相关不相关"这件事，不需要精确到小数点后几位，一个正负号就能捕捉到最核心的信息。基于这个理论支撑，BinaryAttention 只保留 Q 和 K 的符号，将传统浮点矩阵乘法替换为 XNOR 加 popcount 的位运算，从根本上改变了注意力的计算方式。

当然，1-bit 量化带来的信息损失是客观存在的。为了弥补这一点，论文引入了可学习的偏置项进行补偿，同时采用量化感知训练让模型学会"用 1-bit 思考"，并用自蒸馏技术以全精度模型为教师，确保量化后的符号相似性与全精度保持一致。

整个设计支持端到端的前向传播加速，不需要额外的推理步骤。实验结果令人意外：在 A100 GPU 上，BinaryAttention 比 FlashAttention2 快 2 倍以上，而在视觉和扩散 Transformer 的广泛基准测试中，1-bit 注意力不仅能维持精度，在部分任务上甚至超过了全精度版本。

这篇论文打破了"低比特必然牺牲精度"的行业常识，把“量化”从一个工程压缩问题，提升到了“重新发现计算本质”的理论层面。

arXiv 论文页面：https://arxiv.org/abs/2603.09582

项目代码仓库：EdwardChasel/BinaryAttention

▎SegQuant：量化不需要给每个模型单独开药方

另一篇论文中，SegQuant 挑战了另一个标准件：量化策略必须针对每个架构手工定制。

在深度学习领域，如果你要对一个模型做量化（比如把32位浮点数压缩成8位或4位整数），那么你几乎必须针对这个模型的具体架构，手工去调整量化参数（比如每一层的缩放因子、零点位置、位宽分配等）。不同架构差异越大，手工调参的工作量就越重。

而扩散模型这个领域，SDXL、DiT、PixArt等模型架构变得非常多样且差异巨大，让这个问题雪上加霜。给一个模型调参之后，换个模型就得重新来一遍。更麻烦的是，这些方法通常依赖大量人工设定的启发式规则，和主流工业部署工具也不兼容，想真正把量化塞进生产线，门槛极高。

浙大 OptiSys 团队提出的 SegQuant，核心思路是让量化策略从模型的计算图里自动"读"出来，而不是靠人工拍脑袋。SegQuant 由两个组件构成：SegLinear 和 DualScale。

SegLinear 是一种基于段的图量化策略，它分析模型的静态计算图，自动捕获线性层的语义结构，识别出哪些层功能类似、哪些层在空间分布上差异显著，然后据此为不同层分配不同的量化配置。整个过程不需要手写规则，完全由图拓扑驱动。

DualScale 则专门对付扩散模型量化里一个老大难问题：激活分布的极性不对称。扩散模型中很多层的激活值正负两侧形状差异极大，如果用同一套量化尺度去量，必然会有一侧被严重失真。DualScale 用双尺度分别校准正负两侧，专门保住视觉输出的保真度。

SegLinear 证明了量化配置可以从计算图自动读取，无需人工经验。DualScale揭示了传统量化失效的根本原因是忽略了正负分布的独立性，并提出了一个更合理的基本形式。

SegQuant 的意义是第一次有人把扩散模型量化做成了一个真正跨架构通用的框架，同一套方法适配 UNet 系和 DiT 系，无需为每个模型单独调参。同时，论文从一开始就按工业部署的标准设计，与主流部署工具无缝兼容。这意味着 SegQuant 不是一篇只活在论文里的方法，而是可以直接推进到生产线上的工具。

arXiv 论文页面：https://arxiv.org/abs/2507.14811

项目代码仓库：https://github.com/OptiSys-ZJU/segquant

训练目标翻案：

扩散模型，你根本没在"去噪"

推理端的标准件被拆掉之后，接下来被质疑的，不再是怎么跑模型，而是模型的目标本身到底对不对。而这一刀，切到了扩散模型最根本的训练范式上。

▎JiT：预测噪声还是预测干净图像？这个问题比你想的更重要

扩散模型的名字里有"去噪"两个字，但早期研究普遍选择让模型预测噪声，而不是干净图像。在技术上，这两种参数化是等价的，可以相互转换，所以一直没人深究：选哪个真的完全一样吗？

Kaiming He 和 Tianhong Li 在这篇论文里指出：两者在实际效果上并不等价，差异藏在流形几何里。流形假设（Manifold Hypothesis）告诉我们，自然图像分布在高维空间里的一个低维流形上。干净图像住在这个流形上，而加了噪声的中间状态则偏离了流形，是"飘出去"的。

这意味着，当模型的训练目标是预测带噪量时，它要在一个弥散的高维空间里工作，网络容量不够就会灾难性失败；而如果目标是预测干净图像，目标始终在流形上，即便网络容量有限也能有效建模。这不是工程细节的差异，而是数学本质的差异，因为预测噪声是在流形之外寻找一个弥散的目标，预测干净图像是在流形之上寻找一个结构化的目标。

基于这个洞察，研究者提出了 JiT（Just image Transformers）：直接用大 patch 的 Transformer 处理原始像素，训练目标就是预测干净图像，损失函数只有简单的 MSE。没有 VAE 或 Tokenizer 做潜空间压缩，没有预训练权重，没有额外的正则化损失。这是一种极简化的设计方式。

在 ImageNet 256 和 512 分辨率上，JiT 都取得了有竞争力的结果，尤其是 32×32 的大 patch 在 512 分辨率下依然表现良好，这打破了"高分辨率必须先压缩到潜空间"的通行做法。

JiT 的意义远不止一组实验数据。它真正动摇的是整个扩散模型的训练范式：过去几年，从 LDM 到 DiT 到 SDXL，所有人都在沿着"先压缩、再预测噪声"的路线走，没人意识到它可能是一个次优解。而 JiT 告诉我们，这条路线的自然性是虚假的，虽然它是在数学上等价的，但在几何上却不是最优的。

更值得注意的是，JiT 的极简设计本身就是一种论证：当去掉 Tokenizer、去掉预训练、去掉复杂损失，模型依然能工作得很好，就引发了越来越多的质疑：那些被加进来的组件，有多少是真正必要的，又有多少只是在为一个次优的训练目标做补偿？

如果说 BinaryAttention 和 SegQuant 是在推理端拆掉标准件，那 JiT 就是在训练目标上翻案——它质疑的不是"怎么做"，而是"为什么这么做"。这个层次的质疑，影响要比推理优化深远得多。而当这种质疑继续往深处推进，就会触及模型架构最底层的那些"默认设置"。

arXiv 论文页面：https://arxiv.org/abs/2511.13720

项目代码仓库：https://github.com/LTH14/JiT

架构层的地基松动：

归一化层和可逆约束，都可以不要

前面三篇论文说的是推理端和训练目标的标准件，接下来要介绍的两篇论文，则是在探讨归一化层和可逆性约束的标准件。归一化层在Transformer里已存在近十年，被视为“必需品”；可逆性约束是归一化流这个方向自始至终的核心约束。拆除归一化层和可逆性约束，相当于修改模型最底层的核心组件。

▎BiFlow：精确可逆这个数学洁癖，可以扔了

归一化流（Normalizing Flow）生成模型中对数学性质要求最严格的一类。

它通过可逆变换在数据分布和先验分布之间建立双向映射，支持精确的对数似然估计，理论上非常漂亮。但这种优雅是有代价的：严格的可逆性约束把网络架构的设计空间框死了，能用的变换类型极其有限。

近年来 TARFlow 把 Transformer 和自回归流结合，性能大幅提升，但自回归的因果解码天生是串行的，就造成了生成一张图的情况下，token 一个一个出的局面。速度成了自回归绕不开的硬伤。

来自 Yiyang Lu、Qiao Sun 等人与 Kaiming He 合作的 BiFlow，提出了一个思路：逆函数不一定需要是精确的解析解。传统归一化流要求前向变换严格可逆，反向过程直接采用解析方法求逆。这一要求由“可逆性”这一名称所定义，看起来是合理的。然而 BiFlow 指出，这一要求带来的实际代价超过了其理论收益：它限制了架构选择，强制了因果解码的串行推理，并使采样速度成为性能的主要制约因素。

该团队的做法是同时学习两个方向：前向模型将数据映射到噪声，反向模型独立学习一个近似逆映射。反向模型不再是前向变换的解析逆，而是一个自由参数化的神经网络——这意味着它可以使用双向注意力而非因果注意力，实现完全并行的解码。两个方向独立训练，反向模型不受可逆性约束，架构选择完全自由。

BiFlow在 ImageNet 上的实验结果是：生成质量显著提升，采样速度比因果解码方法快了两个数量级，在归一化流类方法中达到最优，与单次前向评估的方法相比也具有竞争力。

这项研究重新定义了生成模型中“可逆”的含义：精确可逆是强约束，近似可逆是工程可行的折衷。放弃精确可逆，可提升架构灵活性和计算效率。这与 JiT 的逻辑一致。JiT 表明预测噪声和预测干净图像数学等价但几何不等价；BiFlow 表明精确可逆与近似可逆数学不等价但效果接近。两者都以实际有效性而非理论优雅作为评价标准。

arXiv 论文页面：https://arxiv.org/abs/2512.10953

项目代码仓库：https://github.com/Lyy-iiis/BiFlow

▎Derf：归一化层不仅能替代，还能被打败

BiFlow 尝试去除可逆性约束，而 Derf 则尝试去除 Transformer 中最为基础的归一化层。LayerNorm 与 RMSNorm 在 Transformer 中被普遍视为必要组件，研究者主要关注参数调节而非是否使用。DyT（Dynamic Tanh）出现，证明可以用一个简单的逐点非线性函数替代归一化层，训练同样稳定，性能持平，但 DyT 仅持平而未超越。

Mingzhi Chen、Taiming Lu 等人的这篇论文，问的是更进一步的问题：既然可以用逐点函数替代归一化层，那最优的逐点函数是什么？作者首先从理论上研究了逐点函数的内在特性如何影响训练动态和最终性能，然后基于理论发现开展了大规模的函数形式搜索。最终找到的答案是 Derf——一个基于误差函数的极简设计：Derf(x) = erf(αx + s)，其中 erf 是高斯累积分布函数，α 和 s 是可学习参数。这个设计形式极其简洁，但效果惊人：在视觉识别、视觉生成、语音表示学习、DNA 序列建模等多个领域，Derf 全面优于 LayerNorm、RMSNorm 和 DyT。

更值得注意的是论文对 Derf 性能来源的分析。通常人们会认为，一个更好的替代方案一定是因为拟合能力更强。但作者通过深入实验发现，Derf 的优势主要来自泛化能力的提升，而非拟合能力的增强。这个发现可能带来一种暗示，即归一化层之所以长期以来"不可替代"，可能并不是因为它提供了某种不可取代的计算功能，而是因为它恰好提供了一种泛化性尚可的稳定化手段。而当 Derf 用一种更简洁的方式提供了更好的泛化性时，归一化层的"不可替代性"就站不住脚了。

Derf 的意义不只是一次函数替换。它真正触及的问题是：归一化层在 Transformer 里到底在干什么？多年来，人们用"稳定训练"来解释它的存在，但"稳定训练"这个说法本身就含糊。Derf 可能给出了这样的方向，至少在泛化性这个维度上，归一化层并不是最优答案。一个形式更简洁、参数更少的逐点函数，可以做得更好。

arXiv 论文页面：https://arxiv.org/abs/2512.10938

项目代码仓库：https://github.com/zlab-pku/Derf

结语

把五篇论文放在一起看，最值得关注的不是它们分别把某个指标提高了多少，而是它们几乎不约而同地指向同一件事：深度学习中那些被当作"标准件"装配进去的设计，远没有我们以为的那么不可动摇。

BinaryAttention 证明了注意力的浮点精度不是必须的，1-bit 符号就够了；SegQuant 证明了量化策略不需要给每个架构单独开药方，计算图自己就能推断；JiT 证明了扩散模型"预测噪声"的训练目标不是最优的，直接预测干净图像在几何上更合理；BiFlow 证明了归一化流的"精确可逆"是一种可以放手的奢侈品；Derf 证明了归一化层不仅能被替代，还能被打败。

而且它们不是在同一层拆。从推理端的精度和定制化，到训练目标的参数化方式，再到架构层最底层的归一化层和可逆约束，全部有所涉及。过去几年的深度学习都是在追求规模化，要有更大的模型、更多的数据、更精细的调参，那么 CVPR 2026 的这一批工作，则是在探讨一些根源问题：哪些墙是承重墙，哪些只是隔断？哪些是必须的，哪些只是"一直都在所以以为必须"？

答案正在变得越来越清晰：那些我们以为的承重墙，有不少只是隔断。而拆掉它们之后，房子不但没有塌，反而透进了更多的光。

这次去 CVPR 现场，一定不要错过

【认识大牛+赚外快】的机会

需要你做什么：把你最关注的10个大会报告，每页PPT都拍下来

你能获得什么？

认识大牛：你将可以进入CVPR名师博士社群；

钱多活少：提供丰厚奖金，任务量精简；

听会自由：你的行程你做主，顺手就把外快赚。拍下你最感兴趣的10个报告PPT即可。

如果你即将前往CVPR，想边听会边赚钱，还能顺便为AI学术社区做贡献、认识更多大牛，欢迎联系我们：[添加微信号:MS_Yahei]

【限额5位，先到先得】