Jürgen Schmidhuber眼中的深度学习十年，以及下一个十年展望

大数据文摘出品

来源：Medium

作者：Jürgen Schmidhuber

编译：张秋玥、马莉

2020年是充满科幻的一年，曾经我们畅想飞行汽车、智能洗碗机器人以及能自动写代码的程序，然而这一切都没有发生。

2020迎接我们的是澳洲大火、新冠病毒和漫天的蝗虫。回想过去的十年，我们或许觉得没有什么科技的发展可以称得上是飞跃，然而事实却是，一切都变了，深度学习算法的进步和影响就是起哄最明显的标志。

AI之父Jürgen Schmidhuber在自己的Medium专栏发布了一篇文章，回顾了深度学习的十年发展历程，回头看看，才发现我们确实见证了历史。

自然语言处理

尽管不像深度学习中的其他领域那么高大上，但可以说NLP算法是迄今为止最复杂、最成功的算法。这种成功可以归因于，与图像和视频相比，在文本语料库上进行训练相对比较容易。在过去的十年中，NLP不仅取得了巨大进步，而且还成功地成为了各种商业应用中的重要组成部分。正如你将在下文中注意到的那样，Google的研究人员在改善NLP算法方面发挥了最重要的作用，不过实话说，几乎所有全球研究实验室都为这一领域的发展做出了贡献。

图片：Ontotext

词嵌入

在技术上也称为分布语义模型，如今，几乎所有NLP算法中都有使用词嵌入。Bengio等人早在2003年就提出将词嵌入为向量这一方法。它仍然非常耗费计算资源，并且需要更有效的算法来实现。2013年，Google提出了“连续词袋模型”（Continuous Bag-of-Words Model, CBOW）和“连续Skpi-gram”模型，并使用word2vec以计算并实现开源，使得词嵌入技术得到广泛应用。在2015年，斯坦福大学的研究人员介绍了GloVe模型，该模型对词嵌入算法进行了进一步改进。

图片：Sebastian Ruder

LSTM算法

图片：Christopher Olah

虽然LSTM最初是由Hochreiter和Schmidhuber早在1997年提出的，但在这过去的十年中，它们才真正地受到关注。尽管许多较新的算法在性能上比LSTM表现更好，但它们在一些商业上成功的翻译软件（例如Google Translate）和Apple的Siri中仍然发挥着重要作用。Cho Kyunghyun Cho等研究人员通过提出门控循环单元（GRU），为LSTM体系结构提供了进一步的改进。GRU自然会引导我们进行下一个创新……

Seq2Seq模型

来自Google的Sutskever等人在2014年推出了现在流行的Seq2Seq模型。在先前RNN、LSTM和GRU相关工作的基础上，这种嵌入解码技术为Google Translate和许多其他NLP任务赋能。在易于实现的同时，这一技术甚至可以用来创建聊天机器人。

Transformers

Google Brain那篇“ 你只需要注意力就够了”（Attention is All You Need）论文可是引起了一场轰动。通过将焦点仅集中在数据的重要组成部分上，这样的注意力可以提供比LSTM更优秀的表现，并且所需的计算量也更小。

BERT

图片：YNG Media

在十年结束之前，谷歌再次在NLP方面取得了突破：BERT模型。它是一种可同时从左向右以及从右向左考虑文本的语言表示模型。虽然可以说谷歌研究人员的确有助力于公司平台无与伦比的处理能力而在多项NLP任务中达到了最先进的水平，模型本身也真的是非常灵活多变。经过预训练的BERT模型可以通过简单添加额外的输出层来适应几乎任何任务。

语音助手

图片：Business Insider / Yu Han

2011年10月发布的iPhone 4S是第一款集成Siri的苹果产品。这在智能手机领域是革命性的，因为这是首次向大众商业市场提供与未来人工智能密切相关的技术。目前市场上充满了语音助手，它们在诸如语音识别、语音转文本、文本翻译等一系列任务上的表现都非常出色。想要知道这一技术有多么普遍的话，你可以随便走入任何一家稍微与科技接轨的家庭，喊出“ Alexa！”——您很可能会听到熟悉的声音回复呢。

计算机视觉

图片：Ilija Mihajlovic

人工智能是人工智能领域中最令人兴奋和研究最多的领域之一。从进化型自动驾驶汽车到已成为智能手机常见功能的人脸识别，计算机视觉无处不在。尽管这十年来主要是研究实验室希望挑战计算机视觉任务的最新结果，我们仍然严重依赖于数据数量和机器处理能力。

CNN

图片：Google

福岛在1980年提出了第一个深度神经网络，随后是Yann LeCun发明的我们今天所知的卷积神经网络（LeNet）。但是，尽管CNN已出现了很多年，它们似乎仅仅在最近十年中才进入主流视野。

现在是计算机视觉任务的标准化基准的ImageNet于2010年才开始年度竞赛。2012年，来自多伦多大学的Krizhevsky等人在此项竞赛中提出了AlexNet，它大大击败了ImageNet中的现有算法。这为接下来的十年中激烈竞争设计最佳CNN的各大实验室奠定了技术基础。

在接下来的几年中，我们看到了几种著名的CNN变体，例如VGG神经网络、提出更深的网络性能更好的Inception，以及甚至更深层的残差学习框架ResNet。尽管CNN架构的发展一直在快速发展，但最近的重点已经转移到了鲁棒性和效率而非仅仅是准确性上。大众对未来的希望是将这些高性能的CNN引入商业应用。

全能的GANs

图片：Sarvasv Kulpati/Sigmoid

自2014年Goodfellow提出了GANs（Generative Adversarial Networks，生成对抗网络），它现在已成为深度神经网络领域最新和最成功的突破之一。它开辟了AI的全新应用领域，而且我认为它代表了深度学习中最直观的架构之一。

时至今日，GANs在研究界非常流行，以至于你能发现各种名称的GANs。他们使用X-GAN规则命名，其中X代表你给自己的GAN所取的有趣的名字。这对他们的实用性丝毫无损，GANs已被发现在多种任务中都表现出色。只有时间能够证明，是否它的发现标志着AI演进中的一个重要里程碑。

AI的艺术

图片：Christie’s

由GANs和类似深度学习模型的成功所推动，AI进入了一个新方向，它模糊了真实的与AI生成的输出之间的界限。我们现在拥有的AI，可以为你描绘一幅美丽的艺术品，能创作和演奏歌曲，能生成文字故事，还能人工模拟很多事情。对于这些deepfakes，大家显然有担忧；但也有一些人开始慢慢接受这种新的艺术潮流进入我们的文化。2018年12月12日，佳士得拍卖了一副AI创作的肖像画，拍卖价格高达432500美元！

自动驾驶汽车

图片鸣谢：DownToEarth

不论你是否支持，它将最终发生，任何事情都无法阻止我们日常生活中的这个巨大改变。在21世纪的前10年，自动驾驶汽车已变成商业现实，所有主要的技术和汽车公司都为此投入巨资。虽然自动驾驶汽车没成为这10年的重大革命，但他们已经奠定了坚实的基础，并在下个10年大发展。如果你想了解这对我们意味着什么，可以查阅我们关于AI伦理的文章：自动驾驶汽车。

强化学习

图片：Intel AI

强化学习是全功能机器人的核心，其目标就是设计出能像人一样，学会实现基于奖励的任务的AI。不像本文讨论的其他领域，强化学习是完全无监督学习，模型缺乏事先可供学习的正确数据。模型要学会在奖励最大化的前提下，对可能的解决方案排序。对于这种新技术，研究界也花费了时间去采纳。但从这个世纪之初，强化学习就已经成为所有主要实验室深度学习研究的一个普遍组成部分。

玩Atari的DQN

图片：DeepMind

DeepMind将深度强化学习应用在Atari游戏环境中玩复杂游戏。深度学习模型成功击败人类游戏专家奠定了深度强化学习在AI研究领域的领先地位。来年，Google收购了DeepMind实验室……

AlphaGo点亮新开端

是的，甚至有一部名为“AlphaGo Movie”的电影。

没有比Google的DeepMind AlphaGo打败职业围棋世界冠军更合适的例证，来说明这十年强化学习的普及。他们更进了一步，没有任何人类监督学习，AlphaGo Master设法以3-0打败了世界排名第一的围棋选手。这个事件包揽了全球头条，并使AI算法普及成为主流。AI目前能在复杂赛事最高级别竞赛中击败人类，这是非常了不起的成就。

机器人

索菲亚并非我们所期望的机器人。图片：ELLE

强化学习模型最关键的应用是设计机器人。我们目前仍在等待能安全部署在家中实用的商用机器人。尽管机器人在持续改进，但他们作为实用工具（而非娱乐工具）尚不尽人意。机器人应用包括了机器人手术臂、太空探索机器人和工业机器人。设计各种各样实际工作的机器人，并确保它在任意环境中的性能，是项挑战。在监督环境中训练机器人的能力有明显瓶颈，因此，研究者们期待基于奖励的深度强化学习能成为一个解决方案。

下一个十年会怎样？

图片：engineering.com

在见证了深度学习革命性的十年，我们确信接下来的十年应该令我们所有人兴奋。在这十年中，AI将接手大部分的工作吗（通常的小报标题）？我们能够优化深度学习模型，从而在日常工作中持续使用吗？接下来的内容将会回答这些担心。

量子计算

图片：Cisco

在过去十年里，物理学本身在探究量子力学方面取得了长足的进步，但我们即将见证一场技术上的巨大革命。量子计算的目标是利用量子迭加和纠缠原理，提供领先于我们现有系统数光年的计算能力。如果我们能够控制量子位，我们在21世纪20年代能完美见证这些量子计算机的威力。尽管对于它可能解密我们现在所有的安全算法存在担心，但每项革新，其优点都将远远超过它的缺点。

无监督学习

图片：Analytics India Magazine

今天大多数深度学习模型都严重依赖于海量训练数据的可获取性。这个问题可能的解决方案是元学习和小样本学习。元学习算法的目的是通过有限任务的学习，学会如何执行大量的新任务。按照相似的思路，小样本学习算法是通过有限数量数据的学习来执行任务。两者都聚焦于有效表征的泛化。

浅层学习网络

图片：Andrew Ng

更深入会是前进的方向吗？不一定，因为越来越多的研究者正在寻找深度学习模型的替代方案。深度模型需要更多的计算和更多的数据。虽然深度学习毋庸置疑是这十年的明星，但这十年也是一个好时机，可以使深度学习能很快被浓缩为提供相似或更好性能的更紧凑、可扩展的模型。

算力 vs 深度学习进展

摩尔定律观察发现，集成电路上元器件数量大约每隔2年翻一番。自1975年摩尔定律提出以来一直颠扑不破，但近10年来我们的发展慢了下来。因此，很多人相信技术进步即将到来，很可能就是我们前文讨论的量子计算。这将有助于推动深度学习的重大进步。