作者 | 青暮、陈大鑫

今日，UC伯克利马毅教授发微博称自己团队的一篇 ICML 2021 投稿得到了4个评审一致接收，却被领域主席（AC）说尚不能解释目前深度神经网络所有的tricks为由拒绝了。

“那已经发表的成千上万的关于深度网络理论的文章是怎么发出来的就很让人困惑了。”

马毅教授接着表示：

个人认为，这是迄今为止真正最接近揭示深度神经网络理论与实践基本原理的框架。它隐含的意义甚至远远超出了仅仅解释目前深度学习的范畴。

既泄露了天机，当然也触动了某些人脆弱的神经。

有的人可能并不希望把深度学习的原理(也就是在做什么能做什么)搞清楚，至少希望越晚越好。

马毅教授接着说道“这么做只能适得其反”，并夜以继日以最快速度完成了一版期刊论版本，把整个理论和算法框架彻底梳理清楚了，公开放在了arXiv 上。

论文信息如下所示，整个论文只算正文就有45页，算上附录和参考文献多达97页，数学公式推导与证明、图表实验等等可谓是相当丰富和详尽。

论文链接：https://arxiv.org/pdf/2105.10446.pdf

代码和数据开源链接：https://github.com/Ma-Lab-Berkeley

随便截取一页感受一下数学公式：

下面先来从论文摘要看一下这篇论文讲了什么吧：

这项工作试图提供一个合理的理论框架，旨在从数据压缩和discriminative表示的原理来解释现代深度（卷积）网络。论文表明，对于高维多分类数据，最佳的线性discriminative 表示可以使整个数据集与所有子集的平均值之间的编码率差异最大化。

论文表明，用于优化速率降低目标的基本迭代梯度上升方案自然会导致一个多层的深度网络，称为ReduNet，它具有现代深度网络的共同特征。深度体系结构、线性和非线性运算符，甚至网络的参数都是通过正向传播逐层显式构造的，而不是通过反向传播来学习的。

如此获得的“白盒”网络的所有组件均具有精确的优化、统计和几何解释性。此外，当我们将分类严格地变为平移不变性（shift-invariant）时，派生（so-derived ）网络的所有线性算子自然会变成多通道卷积。

该推导还表明，这种深度卷积网络在谱域中的构建和学习明显更为有效。本文的初步模拟和实验清楚地证明了降低速率目标和相关的ReduNet的有效性。

看了上面的论文摘要可能还是不太清楚论文讲了什么？

那不如再看一下马毅教授即将为自己即将所做的报告（题为《基于第一原理的深度（卷积）神经网络》）所做的介绍：

本次演讲将以完全“白盒”的方式，从数据压缩（以及群不变性）的角度来构造和阐释深度（卷积）神经网络。

具体会说明现代深度层次架构、线性（包括卷积）算子和非线性激活，甚至所有参数，都能用数据压缩中“编码率减小”（Rate Reduction）的原理解释（以及群不变性）。

网络所有层次结构、算子（包括卷积）、以及算子的参数值都能利用前向传播算法显示构造得出，无需反向传播算法进行学习。

众所周知，深度学习算法的一大不可缺少的特色就是反向传播算法且深度学习也因此原因成为曾经一度沉寂又再度崛起的一个关键点（有没有这么大的算力去支持计算反向传播），如果深度学习真的不需要反向传播算法，那确实称得上是一大变革。

由此获得的ReduNet网络具备严格精确的基于几何、统计、以及优化的意义。这种基于原理的方法还有以下几个好处：

1、揭示了不变性和以分类为目的的稀疏表之间存在的权衡关系；

2、揭示了不变深度网络和傅里叶变换之间的基本联系——也就是在谱域中计算的优势（为什么大脑神经元要用频率计算）；

3、揭示了前向传播算法（优化）和反向传播算法（变分）分别扮演的数学角色。

数学是一切自然科学之母，计算机和深度学习也不例外，大家其实也都一直期待着有一种原理来解释深度学习这个黑盒子。

报告链接：https://mp.weixin.qq.com/s/pi-_glpawjPVl08K_6748Q

再回到该微博，评论下，有网友疑问道：“四个reviewers一致接收，AC有权力拒绝么？那么要这么多reviewers写评审意见干什么，AC自己审不就完了？”

随即就有网友帮着回答道：“ac当然有权利这么做…还有那种全是rej然后ac接受了的…只是一般来说ac很少会去这么做而已。”

接着还有网友也在质疑AC:

这件事AC做的到底对不对、有没有道理可言呢？这里先不做过多讨论。

但是从ICML的AC给出的拒绝理由“尚不能解释目前深度神经网络所有的tricks”，可以看出，争议的焦点主要还是在于“第一性原理”上。

在物理学中，第一性原理，是指从基本的物理学定律出发，不外加假设与经验拟合的推导与计算。这个概念来源于第一推动力，由牛顿创立，其目的是用牛顿力学解释整个宇宙的运行。

也就是说，在牛顿时代，第一性原理计算是希望能够推导出万物运行规律的。然而在后来，薛定谔提出的波动力学计算也被纳入了第一性原理计算。也就是说，在广义的第一性原理概念下，并不要求能推导出万物运行规律，而主要是在一定范畴内和经验参数进行区分。

所以马毅教授和AC的分歧主要在于深度学习的范畴边界吗？

这里我们可以回顾一下马毅教授去年发表在NeurIPS 2020上的一篇论文，可以说，这是ReduNet的基础性来源。

马毅教授对于这项工作非常用心，也非常自豪。他指出，这篇论文的主要贡献是以数据压缩的框架和原理将深度学习的监督、无监督、弱监督、对比学习等学习范式进行了统一。

当时NeurIPS评审对这篇论文的优点和缺点给出了评价。

其中，优点包括：

（1）从信息理论的角度而不是纯粹的启发式理论证明了最大非相干设计的合理性；

（2）MCR ^ 2目标函数为随机标签损失提供了额外的鲁棒性，而不需要明确考虑目标函数中的标签噪声；

（3）该学习框架既适用于有监督的环境，可以提高鲁棒性，也可以适用于无监督的环境，可以实现强大的聚类结果。该论文旨在让学习更结构化，在更可解释的表示形式方面取得进展，这是当前的重要研究方向。

同时也指出了论文的一些缺点：

（1）已经存在类似研究，论文没有对此做详细比较；

（2）强调损失函数的作用，而没有研究网络结构的作用；

（3）可能在大规模数据集中会很耗算力。

对此，马毅教授的反应是，“评审没有完全看明白论文的内在价值。”

当时他也预告了后续会有很多相关的工作，对于这项工作的意义，马毅老师的“野心”丝毫没有掩饰， “（这篇论文）对深度学习、深度模型（乃至整个基于数据的机器学习）的终极解释和理解，应该是突破口。”但其实，这只是前菜，这篇论文于2020年6月发表在arXiv上。

论文链接：https://papers.nips.cc/paper/2020/hash/6ad4174eba19ecb5fed17411a34ff5e6-Abstract.html

在另一篇微博里，马毅教授端出了正菜，一篇名为《Deep Networks from the Principle of Rate Reduction》的论文于2020年10月提交在arXiv上。马毅教授表示，这项工作的意义是“将深度模型与低维结构的本质联系起来。”

论文链接：https://arxiv.org/abs/2006.08558

而关于马毅教授研究工作的更具体介绍可以参见“UC Berkeley 马毅：深度学习的第一性原理”一文。

知乎网友@刘斯坦对马毅教授的这几项工作有个通俗易懂的解释：

文章通过建构的方法直接基于数据建立了一个神经网络。其实这个神经网络是整个优化过程的展开。也就是说，优化过程中更新一步，相当于加了一层，如果优化1000步，就等于构建了一个1000层的神经网络。

因为优化的每一步都是几何可解释的，所以这个神经网络的每一层也就是可解释的。等于说你亲手一层一层的建立了一个神经网络，那你当然知道这一层做了些什么。

神奇的地方在于，展开之后的这个神经网络，直接包含了ResNet，Batch Norm，也就意味着这两个东西效果好是必然的。同时也和Switched Transformer的结构相似，当然区别是这是建构出来的，不是猜出来的。

我们平时使用的神经网路，是猜出来的结构，然后用反向传播法去改正一个错误的模型（初始化的模型），正如那个罗丹的故事：有人问罗丹雕塑的技巧是什么？罗丹回答“把多余的石头去掉”。反向传播大抵就是做的这个事情，根据模型犯的错去把它改对了。

而这个ReduNet，是正向的构建，像造房子一样，一块砖一块瓦的去建造。

所以反向传播是让错误越来越少，但问题是一开始就是一团浆糊，不知道错在哪里。而正向传播是让正确越来越多，你知道你这么做是正确的。

那么马毅教授的这项工作是不是完全解决了深度学习问题，让神经网络变得可解释了？

刘斯坦接着表示：

我看不见得，深度学习通过反向传播学习一通操作之后，里面的微结构是乱套的，很多层甚至没什么作用，纯粹的累赘，是高度非结构化的。

应该说，这篇文章做的事情，是构建了一个可解释的神经网络，但他仍然没有办法去解释反向传播学出来的神经网络在干嘛，这两个神经网络很看起来差不多，但在内部很可能做的不是一件事情。

我的猜测是，传统的神经网络做了很多乱七八糟的事情，当然也包括ReduNet做的事情，所以很多问题都得到了很好的解释，比如Resnet，batchnorm，gating。但传统神经网络还有在做其他的很多事情，这些是ReduNet没覆盖的。

那么很可能的是，传统神经网络做的那些玄妙的事情都是浪费时间，是错的。到头来只要做ReduNet解决的那一个问题就可以了，也就是说，我们可能最后没有必要去理解一个错的东西。这个还需要更多的工作去证明和扩展，比如把同样的思路用在各种任务上刷榜。

如果这被证明是对的，那么就真的是神经网络的第一性原理了，只要关注这一个原理就行了。不过暂时还不能下结论。

刘斯坦并没有否定马毅教授的结论，只是认为“尚待实验验证”。

知乎上一位匿名用户也提出了自己的见解：

（1）这项工作提出的率失真函数，其实在概念上和互信息、对比学习类似；

（2）其应用到大规模计算应该很困难；

（3）论文应该还没有触及深度学习的本质，因为信息论的方法没有触及问题的本质，这项工作和信息瓶颈类似，只是提出了一个现象层面的描述；

（4）论文偏重表示的学习，但深度学习远不止这一层面，“并不是所有问题都是要去区分不同类别的数据的。”

（5）论文宣称的fundamental，应该是要针对网络的，而不是针对数据的，所以还达不到真正的fundamental。

所以，关于这项工作能不能冠上“first principle”的名号，还有很多争议。

确实，深度学习的不可解释性自诞生以来就一直受到诟病，如果马毅教授的研究工作能够一劳永逸地解决这个问题，那当然是皆大欢喜、造福整个人工智能社区。

最后，您觉得这项工作如何，假如这项工作或者是后继者的研究真能从第一性原理解释清楚深度学习，值不值得为深度学习再捧回一个图灵奖？

您觉得深度学习的第一性原理还会是什么呢？

或者深度学习能被大一统吗，又该如何大一统？

参考链接：

https://www.zhihu.com/question/423767542/answer/1893558922

赠书福利

AI科技评论本次联合【博文视点】为大家带来10本《联邦学习实战》正版新书。

在AI科技评论微信端5月23日二条《杨强教授新书重磅出炉！揭秘联邦学习如何在视觉等领域应用实践》（注意不是本文）留言区留言，欢迎大家畅所欲言，谈一谈你对本书的看法和期待或者在学习图神经网络时遇到的困难。

AI 科技评论将会在（5月23日）微信端二条留言区选出 10名读者，每人送出《联邦学习实战》一本。

由于微信公众号试行乱序推送，您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道，请将“AI科技评论”设为星标账号，以及常点文末右下角的“在看”。

UC伯克利马毅ICML投稿得到4个评审接收却仍遭AC拒绝！自称论文泄露了深度学习的天机

由于微信公众号试行乱序推送，您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道， 请将“AI科技评论”设为星标账号，以及常点文末右下角的“在看”。

由于微信公众号试行乱序推送，您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道，请将“AI科技评论”设为星标账号，以及常点文末右下角的“在看”。