深度学习算法技术迭代总结与未来趋势

回顾深度学习模型过去的发展历史，我们看到过去一些明显的规律和局限：

1. 更宽、更深、更大的模型持续带来效果和能力上的惊喜，但是似乎在22年走到了一个反思的节点。用VGG的100M和Megatron的530B相比，规模提升了1000~10000倍。然而，规模的边际效用降低，能耗和迭代效率都成为较大的问题。

2. 模型越来越全能，算法越来越归一。放在10年前，CV和NLP的研究员可能风马牛不相及。但是现在我发现CV，NLP，语音的SOTA模型都能用上Transformer结构，都能用上自监督训练。而且模型能够编码多种模态的输入。

3. 可解释，可控性，可预测能力依然没有突破。就好像对人脑的理解一样，对于深度学习模型的理解依然很单薄。或许高维空间本身就是无法被直观理解的。无法被理解的基础上，就不容易被管控。通过one-shot似乎可以让模型快速掌握新的能力，但是对于模型其他能力的影响缺失很难判断的。就好比你让一辆车很容易躲避障碍物，却可能导致它侧翻的概率增加。

4. 随机应变和规划能力不足。虽然模型有着超越人类的感知和记忆能力，但是面对复杂世界的行动和决策却相对较弱。从AlphaGo和一些相关工作，可能强化学习是一个可以持续挖掘突破的方向。但是强化学习的发展有可能带来对可控性和可预测性的担忧。假如用强化学习来训练无人机，并用“击中目标”作为Reward。会发生什么？能不能让它“绝不伤害人类”。

5. 算力、数据、算法的进步造就了今天技术成就。但是现在能耗，硬件算力，体系结构（e.g. 冯诺依曼架构、内存墙）都对人工智能的发展产生了制约，可能迈向通用人工智能的路上还需要先进行、更彻底的底层颠覆。

从规律和问题出发，可以展望未来的一些发展趋势：

1. 受限能耗、系统性能、模型迭代效率，边际效益递减等因素，模型的规模增长不会像过去几年一样高速，而是朝更高效的模型结构（e.g. Sparse Activation），训练方式（Self-supervise），更高效的部署（e.g. Distillation）发展。

2. 模型的感知和记忆能力会快速、全面超过人类水平，并且固化下来，形成通用化的应用场景。而模型的动态决策能力，复杂场景的应变能力还有较大的发展空间。模型的可解释性、可控性短期可能不会有比较大的突破，但是大的研究机构会持续的投入，并形成一些差异化的竞争力。

3. 深度学习算法和生命科学，金融风控等场景结合，可能会逐步有更多突破性的应用进展。比如在生命科学、生物制药方向，可能会产生影响整个人类物种的技术。而一旦金融风控等领域取得重大突破，社会的许多治理会逐渐从人变成机器。

4. 在虚拟世界（或者说是现在比较火的元宇宙），未来5~10年可能会先出现比较通用的智能体。原因是基于强化学习的相关技术在虚拟世界有较低的迭代成本和安全顾虑。

5. AI计算的终极硬件可能不是基于布尔逻辑的二进制计算。而是更高效的数字模拟的，更接近神经之间通信的信号。

本文节选自《回顾6年深度学习的算法实践和演进》，作者Peter PanXin，点击标题跳转阅读全文

独家资料

为了帮助大家将扎实掌握深度学习算法理论基础，并实现落地实际应用。DataFun新推出了《深度学习算法实践》专题电子书，该电子书收录了少样本、对比学习、在线学习、生成对抗网络、时间序列模型等相关理论知识点，以及深度学习算法在具体场景或业务上的实践与落地情况。

通过多个案例的学习，将理论与实践结合，真正做到夯实基础，学以致用。

扫码回复「深度学习」免费领取