为什么有些学数学的看不惯甚至鄙视深度学习？

一些大学里面的老师尤为明显，类似于说：“深度学习很简单，一个月就可以成专家了呀。”

其实，DL的难度取决于看问题的角度。

DL用线性和非线性函数堆砌来构造函数，用随机梯度下降就可以训练，还有非常好的泛化能力。同时难以想象的是，这样的东西居然没有原理！

不可否认DL很难，难到大家都不知道如何入手、不知道用什么数学工具，因而什么样的理论文章都有：凝聚态物理的（spin-glass)、量子物理的（重整化群）、ODE的（动力系统）及各种优化理论（这个例子太多）与各种复杂度理论，但还没看到真正提炼出本质的。数学领域理论很多，也还没有哪个能搬到DL上且严丝合缝的，至于能进行有效预测的就更没有了。

这就足够说明问题的复杂性，DL是没那么简单的。

要深入DL，各种基础知识是不可少的。但是基础知识并不是拿来炫耀的本钱，因为学了一大堆，可能一个都没用。比如说VC Dimension或者Rademacher Complexity对DL有没有用？它们本身都很漂亮，但可能假设太强得到的结论和现实差很远，或者假设太宽泛得到的结论太弱，都不在DL的工作区间。所以做理论的人，不得不一个个学过来，想过了，试过了，然后放掉，继续下一个。解决问题才是最终的目标，耍弄十八般武艺，比不过高手一招制敌。至于这一招怎么找到，或者从理论分析这边入手，或者从实验入手，都是一样平等且有价值的，不存在谁鄙视谁的问题。鄙视就意味着有不合理的预设立场，忽视另一种思路的作用，对解决问题是不利的。

开创比修补难，与其抱怨DL没有高深数学做框架，不如自己试试看，能不能做些有趣的东西出来。小波是很美，但问题是它的基函数是固定形式的，不能适应具体问题，而且还需要数学家搞一辈子才能搞出来。与之相比，深度模型训练几天就能跑出来，而且针对具体问题（比如说图像分类）效果还更好，你会选哪个？所以说现在思路要转变，一个一个地研究模型太没效率了，做一个对数据自动建模的模型，是不是在战略上会更有趣一点呢？

另外说一下门槛低的问题。几百年前，微积分出来之后，一大类问题都可以用统一的方法解决，让技术进步的门槛降低了，本来高高在上的各种技巧平民化后，立刻带动了相关领域的巨大进展。这个历史进程和我们现在看到深度学习的进程一模一样，开源了，大家都用了，对整个人类而言进步就快了。到了这个时候，单枪匹马干不了什么事，人民群众才是技术进步的原动力。

面对时代洪流，与嘲弄他人随波逐流相比，思考如何顺势而为，或许更有建设性！

文章来源于微信公众号：研究员阿布

本文仅用于学术分享，如有侵权，请联系后台作删文处理