Py学习  »  机器学习算法

李沐:《动手学深度学习》的初衷

AI算法与图像处理 • 1 年前 • 137 次点击  
分享人:李沐,动手学深度学习作者

本文是李沐在Datawhale学习会上的分享:跟李沐导师,动手学深度学习点击可跳转

相信大家都听说过 ChatGPT,以及最近发布的 GPT-4。

在五年前,我们开始写《动手学深度学习》的时候,还没有 GPT 这个系列,也没有 Transformer。但是那时候的深度学习,已经非常让人惊讶了。跟传统的机器学习相比,那时候的卷积神经网络、循环神经网络,能够使得我们把原始的数据放进模型里面,比如说文本、图片、语音甚至是视频,然后得到我们最终要的输出,比如说图片的标注、一些文本,甚至是一张图片、一段语音。跟之前的更经典的机器学习算法要求做大量的特征工程相比,已经是非常大的进步了。

但跟现在相比啊,那时候的模型做的事情呢,很像是一个人在 5 秒钟能够完成的事情。比如说 5 秒钟识别一下图片里面的东西,甚至是自动驾驶,我觉得也是一个驾驶的动作,也是大概 5 秒钟能够决策完的。在现在的大的模型,包括 Diffusion 模型以及现在这种大的语言模型,其实是相当于一个专业的人士一个小时的工作量。比如说我给你一段话,然后你为我创造一张图片,或者是我给你一个大纲,你给我写一篇文章。都是要需要专业受过训练的人,在大量的时间才能完成。现在的模型把这一个人的智能水平几乎降到了 0 的成本。所以在过去 5 年里面,我们一直在做的事情就是把这些新的技术逐一地写进书里面,使这本书能够与时俱进。虽然我们 5 年前开始了这本书,但是今天看应该是不会过时的。

但反过来讲,在过去的 20 年里面,机器学习真的发生了本质的变化吗12 年前,我当时在百度的广告团队,就帮他的整个广告的模型做分布式的训练。在那个时候,12 年前整个模型已经是好几百亿的可学习的参数,每一次训练用到的机器数也是好几百。目前看,现在的模型,GPT-3 也是不到 2000 亿的参数,它每次训练的机器数可能也是不到 1,000。所以从这个角度来看,似乎没有发生太本质的变化。但是这里面发生的事情是,每几年我们也会把一类模型它的智能做到它的顶点。

在 12 年前,我们把整个线性算法推到了它的智能顶点。所谓的智能顶点意思是说,我再加入数据,我再把模型变大的时候,整个模型的智能不一定会有提升了,就已经是学到了它的能学到的上限了。然后在过去的 5 年里面,深度学习我们把整个卷积神经网络推到了一个智能的上限。当你的图片数量达到几千万甚至上亿的时候,再加入新的图片,把你的网络做得更大的时候,似乎看上去没有太多的性能提升了。

然后我们现在就发现,Transformer 这个智能上限还在不断地探索中。我们还没有碰到它的智能上限,就是不断地加数据、把模型做大,我们仍然看到整个模型的智能的一个提升。所以在未来的几年里面,我们应该会去不断地探索它的智能上限在什么地方。而且就算遇到了上限也是没关系的,遇到了上限的时候,就意味着我们的算力和我们的数据都到了那一个规模。这时候我们就会去重新探索新的模型架构,去打开一个新的一个智能的大门吧。

所以现在看上去,虽然深度学习似乎已经火了好几年了,但我觉得还是一个很早期的阶段。对于整个 Transformer 架构,我们对它的了解还不够深刻,下一个新的架构还没有出现。我觉得还是一个比较早期的年代吧。所以大家选择在这个时候来学习的话,我觉得实际是挺好的。而且在座的大家,你们很多人可能之前没有接触过人工智能,甚至不是学计算机科学的。我觉得都没有关系,你去看 OpenAI 最近好几个工作,他的主要贡献者都没有计算机的背景。有些人是学生物的,有些人学物理的,甚至是有人学心理学的。我觉得在这个年代,新的技术不断地出现,乱世出英雄,而且英雄是不问出身的。所以在这里大家不要有什么心理包袱,动手学就是了。也预祝大家在这次学习会,有所收获。谢谢大家。


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/152978
 
137 次点击