在这种环境下,我们很高兴看到大量的论文在探索深度学习背后的理论和原理。在今年的NeurIPS上,有31篇论文主题关于各种技术融合。杰出新方向论文奖颁给了Vaishnavh Nagarajan和J. Zico Kolter的《一致收敛理论可能无法解释深度学习中的泛化现象》(Uniform convergence may be unable to explain generalization in deep learning),其论点是一致收敛理论本身并不能解释深度学习泛化的能力。随着数据集大小的增加,泛化差距(模型对可见和不可见数据的性能差距)的理论界限也会增加,而经验泛化差距则会减小。 图片来自Vaishnavh Nagarajan的oral报告
Colin Wei等人的论文“Regularization Matters: Generalization and Optimization of Neural Nets v.s. their Induced Kernel”从理论上证明了具有权值衰减的神经网络泛化效果要比NTK好得多,这表明研究 L2-regularized 神经网络可以更好的理解泛化。NeurIPS的以下论文也表明,传统的神经网络可以超越NTK:
What Can ResNet Learn Efficiently, Going Beyond Kernels?
Limitations of Lazy Training of Two-layers Neural Network
Shirin Jalali等人的论文《高斯混合模型的高效深度学习》(Efficient Deep Learning of Gaussian mix Models)从这个问题引入:“通用逼近定理指出,任何正则函数都可以使用单个隐藏层神经网络进行逼近。深度是否能让它更具效率?”他们指出,在高斯混合模型的最佳贝叶斯分类的情况下,这样的函数可以用具有一个隐藏层的神经网络中的O(exp(n))节点来近似,而在两层网络中只有O(n)节点。
在一篇更实用性的论文:《控制批大小和学习率以很好地泛化:理论和实证证据》(Control Batch Size and Learning Rate to Generalize Well: Theoretical and Empirical Evidence)中,Fengxiang He 的团队在CIFAR数据集上使用SGD训练了1600个ResNet-110和VGG-19模型,发现这些模型的泛化能力与 batch size负相关,与学习率正相关,与批大小/学习率之比负相关。
Aguera y Arcas的演讲是我在大会上最喜欢的。他认为,优化并不足以捕获类人智能:“优化不是生活的运作方式……大脑不只是评估一个功能。它们会发展。它们会自我修改。它们从经验中学习。函数没有这些东西。”他呼吁“一个更通用的、受生物学启发的突触更新规则(synapse update rule),该规则允许但不要求损失函数和梯度下降”。
我也很高兴看到研究界摆脱了追求“更大、更好”的方法。我在poster区得到的印象是,许多论文只在诸如MNIST和CIFAR这样的小数据集上做实验。获得最佳论文奖的Ilias Diakonikolas等人“Distribution-Independent PAC Learning of Halfspaces with Massart Noise”一文,甚至没有做任何实验。