Nonconvexity(非凸性). 目标函数的非凸性导致很难在优化过程中保证 Hessian 的正定性。而目标函数的随机性又使得标准的 line search 无法有效的应用。
Apollo算法
Time and Memory Efficiency(时空复杂度)。为了降低 Apollo 算法的时空复杂度,我们仿效之前的工作,用对角矩阵来近似 Hessian,亦即约束每一步 为对角矩阵。为了满足这一约束,我们需要对公式(5)中的 secant equation 进行放松。一个常用的方法是 weak secant equation [4,5]:
这篇文章从去年 9 月开始已经在一年内被多次拒稿,实在让我感慨优化领域的水之深。扪心自问,这篇论文我们算是尽心尽力做到能做的最好,也自认无论从算法还是实验结果都有创新的地方。 据我们的有限所知,Apollo 是目前第一个能在实际中应用的深度神经网络的优化算法,并能在多个任务和网络结构上取得比肩甚至超过 SGD 和 Adam 的效果。然而,仍有审稿人因为各种原因拒稿。其中最多的拒稿原因是 Apollo 中提出的一些方法,例如 stepsize bias correction 和 rectified absolute value 没有明确的理论证明。 说一句有些偏激的话,现在深度学习中有哪个实际中有效的方法有严格的理论证明?甚至有一个审稿人的一条意见是,我们的收敛证明是基于 Adam,而在他/她看来,Adam 的理论证明是达不到发表的标准的。我想说的是,在当下论文井喷的时代,做自己心中觉得真正有用的研究才是一个研究员最该坚持的事。
参考文献
[1] Charles George Broyden. The convergence of a class of double-rank minimization algorithms. IMA Journal of Applied Mathematics, 6(1):76–90, 1970.
[2] William C Davidon. Variable metric method for minimization. SIAM Journal on Optimization, 1(1):1–17, 1991.
[3] Xiao Wang, Shiqian Ma, Donald Goldfarb, and Wei Liu. Stochastic quasi-newton methods for nonconvex stochastic optimization. SIAM Journal on Optimization, 27(2):927–956, 2017.
[4] John E Dennis, Jr and Henry Wolkowicz. Sizing and least-change secant methods. SIAM Journal on Numerical Analysis, 30(5):1291–1314, 1993.
[5] JL Nazareth. If quasi-newton then why not quasi-cauchy. SIAG/Opt Views-and-news, 6: 11–14, 1995.
[6] Sashank J Reddi, Satyen Kale, and Sanjiv Kumar. On the convergence of adam and beyond. In International Conference on Learning Representations, 2018.
[7] X Chen, M Hong, S Liu, and R Sun. On the convergence of a class of adam-type algorithms for non-convex optimization. In 7th International Conference on Learning Representations, ICLR 2019, 2019.