这篇文章 Analyzing Monotonic Linear Interpolation in Neural Network Loss Landscapes(https://arxiv.org/abs/2104.11044) 管这个特性叫“单调线性插值”。
文章发现从不同的初始值可以走到同一个模型,殊路同归,而且模型符合单调线性插值,如左图。而这个情况文章 Linear Mode Connectivity and the Lottery Ticket Hypothesis(https://arxiv.org/abs/1912.05671) 也说了,随机初始化位置不同,模型经常就会掉到同一个局部极小值,而这个趋势在训练很早期就已经确定了。
而文章 On Connected Sublevel Sets in Deep Learning(https://arxiv.org/abs/1901.07417
)则证明,如果使用分段线性激活函数,比如ReLu,那么这个神经网络模型的所有局部极小值其实都是连在一块儿的,他们其实都属于同一个全局最小值。
文章 Landscape Connectivity and Dropout Stability of SGD Solutions for Over-parameterized Neural Networks(https://arxiv.org/abs/1912.10095)告诉我们,神经网络参数量越大,局部极小值之间的连接性越强。
神经网络损失面的全貌
那么综合以上各种论文的结论,基本可以描绘出神经网络损失面的全貌,应该长这样:
极小值都处于同一个高度,属于同一个全局最小值,而且互相之间是连在一起的。那么很容易想到了,如果你往这个沙盘随机扔弹子,是不是更容易掉到那种特别宽的flat minima?没错,文章 The large learning rate phase of deep learning:the catapult mechanism(https://arxiv.org/abs/2003.02218) 发现,使用大的学习率更容易掉到平坦的极小值(flat wide minima),也就是说,学习率一大,相当于在这些山之间乱跳,当然更容易掉到flat wide minima咯。
如果不调参,很难大幅超过baseline,尤其是在模型/任务大幅度改变的情况下,所需要的超参数往往截然不同。这样的结果是incremental contribution/lack of novelty,还会引发一系列关于方法的concern。我老板曾经曰过,其实很多reviewer对实验的质疑,都是参数没调好导致的。