李沐：《动手学深度学习》的初衷

分享人：李沐，动手学深度学习作者

本文是李沐在Datawhale学习会上的分享：跟李沐导师，动手学深度学习（点击可跳转）

相信大家都听说过 ChatGPT，以及最近发布的 GPT-4。

在五年前，我们开始写《动手学深度学习》的时候，还没有 GPT 这个系列，也没有 Transformer。但是那时候的深度学习，已经非常让人惊讶了。跟传统的机器学习相比，那时候的卷积神经网络、循环神经网络，能够使得我们把原始的数据放进模型里面，比如说文本、图片、语音甚至是视频，然后得到我们最终要的输出，比如说图片的标注、一些文本，甚至是一张图片、一段语音。跟之前的更经典的机器学习算法要求做大量的特征工程相比，已经是非常大的进步了。

但跟现在相比啊，那时候的模型做的事情呢，很像是一个人在 5 秒钟能够完成的事情。比如说 5 秒钟识别一下图片里面的东西，甚至是自动驾驶，我觉得也是一个驾驶的动作，也是大概 5 秒钟能够决策完的。在现在的大的模型，包括 Diffusion 模型以及现在这种大的语言模型，其实是相当于一个专业的人士一个小时的工作量。比如说我给你一段话，然后你为我创造一张图片，或者是我给你一个大纲，你给我写一篇文章。都是要需要专业受过训练的人，在大量的时间才能完成。现在的模型把这一个人的智能水平几乎降到了 0 的成本。所以在过去 5 年里面，我们一直在做的事情就是把这些新的技术逐一地写进书里面，使这本书能够与时俱进。虽然我们 5 年前开始了这本书，但是今天看应该是不会过时的。

但反过来讲，在过去的 20 年里面，机器学习真的发生了本质的变化吗？12 年前，我当时在百度的广告团队，就帮他的整个广告的模型做分布式的训练。在那个时候，12 年前整个模型已经是好几百亿的可学习的参数，每一次训练用到的机器数也是好几百。目前看，现在的模型，GPT-3 也是不到 2000 亿的参数，它每次训练的机器数可能也是不到 1,000。所以从这个角度来看，似乎没有发生太本质的变化。但是这里面发生的事情是，每几年我们也会把一类模型它的智能做到它的顶点。

在 12 年前，我们把整个线性算法推到了它的智能顶点。所谓的智能顶点意思是说，我再加入数据，我再把模型变大的时候，整个模型的智能不一定会有提升了，就已经是学到了它的能学到的上限了。然后在过去的 5 年里面，深度学习我们把整个卷积神经网络推到了一个智能的上限。当你的图片数量达到几千万甚至上亿的时候，再加入新的图片，把你的网络做得更大的时候，似乎看上去没有太多的性能提升了。

然后我们现在就发现，Transformer 这个智能上限还在不断地探索中。我们还没有碰到它的智能上限，就是不断地加数据、把模型做大，我们仍然看到整个模型的智能的一个提升。所以在未来的几年里面，我们应该会去不断地探索它的智能上限在什么地方。而且就算遇到了上限也是没关系的，遇到了上限的时候，就意味着我们的算力和我们的数据都到了那一个规模。这时候我们就会去重新探索新的模型架构，去打开一个新的一个智能的大门吧。

所以现在看上去，虽然深度学习似乎已经火了好几年了，但我觉得还是一个很早期的阶段。对于整个 Transformer 架构，我们对它的了解还不够深刻，下一个新的架构还没有出现。我觉得还是一个比较早期的年代吧。所以大家选择在这个时候来学习的话，我觉得实际是挺好的。而且在座的大家，你们很多人可能之前没有接触过人工智能，甚至不是学计算机科学的。我觉得都没有关系，你去看 OpenAI 最近好几个工作，他的主要贡献者都没有计算机的背景。有些人是学生物的，有些人学物理的，甚至是有人学心理学的。我觉得在这个年代，新的技术不断地出现，乱世出英雄，而且英雄是不问出身的。所以在这里大家不要有什么心理包袱，动手学就是了。也预祝大家在这次学习会，有所收获。谢谢大家。