社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

【普林斯顿博士论文】深度学习优化的隐性偏差:数学考察,391页pdf

专知 • 9 月前 • 165 次点击  

近年来,深度学习取得了显著成功,但训练神经网络通常涉及一定的猜测和超参数调优。优化方法的一个关键方面是“隐性偏差”,即优化设置中的细微变化(在收敛时不影响小训练损失)可能显著改变模型收敛的解,从而影响测试性能。本论文提供了一系列数学结果,系统地刻画了不同训练方式中的这种隐性偏差。

本论文的第一部分探讨了梯度下降,即使没有显式正则化,也可能收敛到最大化边界的解。先前的研究已经为同类神经网络的边界一阶最优性提供了理论依据,但由于其非凸性,边界的全局最优性并无保障。本论文在数据具有简单结构时提供了深入的理论分析:对于线性可分的数据,我们展示了关于是否可以达到边界全局最优性的正反结论。此外,我们展示了如何利用基于边界的视角来解释神经网络训练中的一些有趣的泛化现象,无论是否存在显式正则化,包括简约偏差(simplicity bias)和顿悟现象(grokking phenomena)。

论文的第二部分提出了两个结果,揭示了有限学习率引发的隐性偏差。许多现有分析,包括第一部分中的基于边界的分析,描述了即使在学习率无限小的情况下也成立的隐性偏差。然而,实践中通常使用有限学习率,并且观察到它有助于泛化。我们分析了有限学习率下的全批次梯度下降(GD),结合归一化层和权重衰减等关键训练组件,如何产生向平坦极小值的偏差,而平坦极小值与更好的泛化正相关。此外,我们研究了随机优化中的隐性偏差,并通过随机微分方程(SDE)为自适应梯度方法(如 Adam 和 RMSprop)推导了严谨的动态近似,以捕捉有限学习率的影响。在此基础上,我们还推导出平方根缩放规则,作为在更改批次大小时调整自适应梯度方法的优化超参数的实用指南。


专知便捷查看,访问下面网址或点击最底端“阅读原文”

https://www.zhuanzhi.ai/vip/8c956505051bf7f2b1e89e730130c104



点击“阅读原文”,查看下载本文

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/174694
 
165 次点击