Yann LeCun AI思考的最新小结：从机器学习到自主智能

文：城主

这是AI巨头Yann LeCun9.29在德国的一个演讲。题目“从机器学习到自主智能”。这个主题的演讲Yann巨头之前也曾讲过，这一次在德国所做的talk更加概括提炼。

LeCun之前PK参议院（Yann LeCun舌战参议院：捍卫Llama开源大模型）很是加分，这个演讲代表了他AI思考的最新小结，讲得还通俗易懂，推荐~

视频完整版传送门【AI巨头Yann LeCun最新德国演讲：从机器学习到自主智能-哔哩哔哩】 https://b23.tv/b3eMUSW

=以下是本城根据讲话整理成文=

我非常高兴和荣幸地欢迎Yann LeCun教授。

感谢您接受我们的邀请并赴慕尼黑参与今日的讲座。LeCun教授现任Meta的首席人工智能科学家，并担任纽约大学计算机科学银教授。他在巴黎取得计算机科学博士学位后移居到美国，进入知名的AT&T贝尔实验室并成为图像处理研究部的负责人。之后，他于2003年加入纽约大学，2012年又被任命为纽约大学数据科学中心的创始主任。

LeCun教授在卷积神经网络的发展上有着杰出的贡献。这种技术基本上解决了图像科学和计算机视觉领域的许多难题。特别值得一提的是，一个特殊的卷积神经网络结构名为LeNet，这一名字在某种程度上也代表了我们今天所看到的深度学习和AI的显著发展。他的这些突出贡献使他荣获众多奖项。其中，他是美国国家科学院和国家工程院的成员，并获得了诸如来自EPFL的荣誉学位、IEEE神经网络先锋奖和2019年的图灵奖等众多荣誉，这个奖项通常被誉为计算机界的诺贝尔奖。仅仅几周前，《时代》杂志将他评选为全球AI领域100名最具影响力的人物之一。

他还发表了许多引发公众争议的观点，并为公开的AI讨论做出了重要贡献，特别是关于现在盛行的大型语言模型。他深入探讨了机器如何能够像人类和动物那样有效地学习，以及机器如何进行推理和计划。在此次演讲中，Yann LeCun教授将探讨基于新的模块化认知架构的自主智能代理的发展路径。

欢迎Yann教授上台发言。

非常感谢您的热情介绍和邀请，同时感谢所有来到这里的人。但我需要纠正一个误会，我并没有为LeNet命名。这个名称是我在贝尔实验室时的实验室主任所起的，但我认为这确实是一个很好的名字。

接下来，我要讨论的是目标驱动人工智能。我曾用“自主机器智能”作为此次演讲的标题，但这似乎让人们感到担忧，他们担心机器将会自主，超出我们的控制范围。因此，我将其更名为“目标驱动AI”，这更加精确地描述了这一领域。这些系统不仅仅是我们已经实现的，而是我们期望能够实现的：具有学习、记忆、推理、计划和常识的系统，具备我们在动物和人类中观察到的相同学习能力和智慧。

让我先分享一些前沿技术。目前，关于AI的争论很多，许多人担心AI的影响。每当有技术革命，人们总是对未知感到恐惧。AI有望引发一场大革命，这使得人们的恐惧有所增加。但在讨论其潜在风险之前，我们应该首先看到它的好处。现在，AI已经在医学、诊断、医疗助理和治疗计划方面带来了巨大的好处，如今，在欧盟销售的每辆汽车都必须配备自动紧急制动系统。这种系统能够自动停车，从而避免正面碰撞，它已经减少了40%的碰撞，这确实是一种可以拯救生命的技术。在所有我知道的系统中，大多数都使用了卷积网络技术。德国，尤其是巴伐利亚，是这方面的领导者，这种早期的系统是由Benz开发的。

辅助驾驶、自动驾驶、能源存储与管理、环境监测与保护等都是当前的热门领域。但其中，内容信息与管理可能是人工智能最广泛的应用，尤其在工业、制造、信息系统以及质量控制等方面。教育领域也开始预测个性化教育的趋势。随着翻译、远程展示、增强现实、虚拟现实的发展，这些技术也广泛应用于科学、生物学、基因组学、神经科学以及特别是无序系统、复杂系统以及超大规模模拟的物理学领域，以及化学和材料科学等。我们经常讨论关于创新和艺术的话题，人工智能的核心就是提高创造力，使那些可能不具备技术基础的人也能创造艺术。人工智能已经深入到了各个领域。例如，几年前Meta公司的计算机视觉系统就能展示物体检测、人体跟踪、语义分割等功能。但是，计算机视觉的研究还远未完成，这也是为什么下周巴黎会有ICCV会议。目前，该领域仍有很多工作要做，尽管人工智能已经取得了很多进展。

在医学方面，医学成像技术正在受到广泛关注。我在纽约大学的同事们使用3D图像识别技术来检测例如乳腺X光中的肿瘤或MRI图像中的特定区域。其中一个与Meta公司的FAIR实验室合作的项目成功将MRI数据采集速度提高了四倍，而不降低图像质量。这意味着原本需要40分钟的MRI检查现在只需要10分钟就能完成，这得益于深度学习技术。

在科学研究上，现在神经科学家用来描述大脑工作原理的模型是基于人工神经网络。使用功能性MRI数据，我们观察到的情况其实与卷积网络模型非常相似。而卷积网络的设计原则其实是受到了视觉皮层结构的启发。此外，还有研究试图利用大型语言模型来解释人脑在处理语言时的活动，但目前这种模型在语言处理方面的效果并不如卷积网络模型在视觉处理方面的效果。这也意味着我们在理解语言处理的过程中还遗漏了一些关键要素。

在物理学，尤其是高能物理学中，现在有很多模型是基于AI来描述粒子碰撞等现象。图像处理技术也被用来探索外太空中的行星。据统计，现在大约12%的物理学论文都提到了人工智能技术，这在短时间内的进展确实令人惊讶。而在大规模宇宙模拟中，人工智能也被用来验证关于暗物质等的理论。FAIR实验室的一个项目“开放催化剂项目”也是一个很有意思的研究，大家都可以参与其中。

该网站名为open-catalyst.org。这个项目的核心理念是：若我们掌握了一种优越、高效且可扩展的能源储存方法，那么我们就有机会应对气候变化问题。理想情况下，如果我们有了合适的能源储存方式，仅覆盖小片的沙漠区域使用太阳能电池板，便可生产足够的能源供应欧洲乃至全球。关键是我们需要一种有效的能源储存方式。尽管德国政府已对可再生能源进行了大力支持，但由于我们无法预测风力和阳光的存在，使得可再生能源仍未完全发挥其潜能。在无风或无阳光的时刻，我们需要另一种能源来源，或是能够储存并传输到需要的地方的能源。

理想的能源储存方法是以氢气或甲烷的形式。最直接的方式是从水中分离出氢气和氧气。这个过程包括将水放入并设置两个电极，接着将氢气和氧气进行分离。但难点在于，如果使用诸如铂这样的催化剂进行该过程，尽管它可以实现大规模应用，但其效率并不高。因此，主要的挑战是是否能设计新的化合物或催化剂，来高效地促进这一反应，且不需要使用像铂这样的高价材料，使其具有更好的可扩展性。我们的策略是进行大量的化学模拟，主要基于两种不同化合物上的水的DFT模拟。结合模拟和实验获取数据后，我们希望利用这些数据训练一个机器学习系统，从中找出规律，进而设计出新的、效果相当但成本更低的材料。这个项目的前景十分吸引人，虽然不确定是否一定会成功，但仍然值得尝试。

重要的是，我们近年来在人工智能和机器学习领域所取得的进展，大部分都归功于一种我们称为“自我监督学习”的技术。许多人可能已经在使用或至少听说过这种技术。从本质上看，自监督学习是一套技术，可以在不需要标注数据或人工干预的情况下，训练系统来理解数据和世界。这种技术在自然语言处理领域尤为成功。现今，大部分NLP系统的训练方式，无论是基于LLM或其他模型，都采用了这种方法。其核心思想是：取一段文字，删除其中的某些单词，然后训练一个大型神经网络，如Transformer架构，来预测这些被删除的单词。为了使这些系统正常工作，还需要将单词进一步细分为子词单元或标记，因为大多数语言的单词都含有前缀、词根和后缀。这种训练方式的代表性模型就是BERT，它完全基于自我监督学习，除了原始文本外，不需要任何其他数据。经过预训练后，您可以使用系统生成的内部表示为其他任务，如翻译、仇恨言论检测或摘要等，提供输入。

这里还有一个令人印象深刻的例子，是我在巴黎博览会的同事所开发的系统，名为Dino V2。这可以被视为一个基础的视觉模型，经过训练后，能够从图像中提取特征，进而这些特征可以被应用于各种任务，如分类、细粒度分类、深度估计、语义分割和实例检索等。我在这里展示了一些视频中的应用案例。这种方法需要非常少的监督，但由于其在大量数据上的预训练，因此仅需训练一个浅层网络，就可以在深度估计、分类等领域击败现有技术。这一技术已经在线上开放互动使用，您可以通过提供的URL来体验。

这些展示的是特征提取的可视化例子。它们采用不同的颜色表示不同的特征向量，每种颜色代表一个主成分，如果你对此有所了解。这些都是典型的图像示例。现已有很多应用，如生物图像分析、天文学和环境保护。我要介绍的下一个例子与此相关。他们利用了Dino V2的功能，并在其上训练了一个相对较小的模型，从卫星图像中预测树木的高度。我们手头有大量的全球卫星图像，其分辨率为半米。这些图像可以从卫星成像公司获取。在某些地区，激光雷达数据能够提供树木的高度信息。你可以使用这些数据来训练模型，然后将其应用到全球范围。通过知道树的高度，我们可以估算树木锁定了多少碳。这是非常重要的信息，因为它涉及到我们是否应该保护森林，以及我们是否应该种植更多的树木和在何处种植。

关于这个主题，有许多详尽的出版物。在我展示的自然语言处理中，自我监督学习的另一个成功案例是在生物学中。在那里，一些词被删除，尤其是在蛋白质组学中。蛋白质是由氨基酸组成的序列，我们知道存在数亿种氨基酸。你可以取得氨基酸序列，删除一些氨基酸，然后训练一个大型神经网络预测缺失的氨基酸。这个系统学习了代表氨基酸序列的表示形式，然后使用这种表示作为输入来预测蛋白质的构象，其折叠方式，以及它是否可以与另一种蛋白质的特定部位结合。我们的DeepMind同事做了一个称为AlphaFold的著名项目，但这种利用预先训练的蛋白质Transformer的概念最早是我在FAIR的同事提出的。他们已经离开FAIR，并围绕这个概念创建了一个创业公司。这一方法取得了巨大成功，全球有数千研究团队正在使用这些数据。目前已有一个包含6亿个蛋白质的预测结构的蛋白质图谱，名为ESM宏基因组图谱，可在ESMatlas.com上查找。这对生物学家来说是一个宝贵的工具，它可能会彻底改变我们的药物设计和生命机制理解方式。

另一个印象深刻的项目是“No Language Left Behind”，由FAIR的全球团队完成。这是一个能够翻译200种语言的系统，无论翻译方向如何。当你了解这些语言时，你会发现其中有很多我们从未听说过的语言。但对于这些说这些语言的人们来说，保存他们的文化并能以自己的语言表达自己是非常重要的。有趣的是，尽管有40,000种可能的翻译方向，但只有2,400对方向有数据覆盖。但是，由于我们训练了一个巨大的Transformer来表示各种语言，系统可以利用语言家族之间的相似性来获得与语言无关的表示，从而允许系统在任何方向上进行翻译，即使是那些从未被训练过的方向。按照当前标准，这是一个相当大的模型，拥有540亿个参数。同一团队近期也发布了一个名为Seamless的项目，该项目可以进行语音到语音、语音到文本、文本到语音和文本到文本的翻译，以及语音识别和语音合成。这种语音到语音的转换尤其有趣，因为它可以翻译那些并不直接用于语音书写的语言。该系统可以处理上千种语言，这真的是令人震惊的。深度学习的一些应用可能不那么明显，但它连接了人与知识，也连接了人与人。目前，深度学习在社交网络和搜索引擎等在线服务中的部署可能是最大的。如果从Google、Meta或Microsoft中移除深度学习，这些公司可能会遭受重创，因为它们的业务在很大程度上是基于这种技术的。

深度学习能够助力我们处理信息洪流，如搜索、检索、排名和问答等任务。为了理解这些内容，机器必须深入理解其背后的含义。这种技术对许多人来说尤为有益，例如那些不识字、盲人或有视力障碍的人群。如今，有近30亿的人群无法充分利用现代技术，因为他们或多或少地存在阅读障碍。人工智能的一个主要应用是筛选并移除非法和危险的内容，但这绝非易事。尽管追求完美可能是一个遥不可及的目标，但值得注意的是，人工智能已经取得了巨大的进步。例如，五年前，Facebook使用当时相对简单的机器学习技术方法，仅能自动删除约20%至25%的仇恨言论。但自从自我监督的预训练Transformer技术出现后，这一比例在去年已经增加到95%。

很多人对人工智能持有各种观点，其中一些人对其知之甚少。他们可能会告诉你关于人工智能的各种潜在危险，如如何破坏民主，或者因为假信息造成的影响。然而，他们可能没有意识到的是，人工智能实际上是这些问题的解决办法。实际上，社交网络的内容审核已经大量地依赖了人工智能的进步，而那些试图破坏这些系统的人在人工智能技术方面却远远落后。

人们都很兴奋地讨论生成式人工智能，如自回归的大型语言模型等。许多人都尝试过利用先进技术生成图像，例如Meta的Make-a-Scene、OpenAI的Dall-E和Google的ImageGen。事实上，最新的进展来自Meta，它最近发布了一篇论文，并随后推出了名为EMU的产品，这是一个可以根据文本提示生成图像的系统。这个产品在昨天已经与新闻一同发布，并且它现在可以在Facebook Messenger上使用。通过与Meta.AI对话并输入相应的命令，用户可以在几秒钟内生成图像，这在过去需要数分钟来完成。目前，该团队正在研究视频合成技术，这是他们一年前的研究方向。

关于大型语言模型，它们都是基于自回归技术。简单来说，这意味着从一段文本中删除某些单词，然后训练模型来预测这些单词。这种方法被称为自回归预测，其效果令人震惊。市场上有许多这样的模型，例如Meta的Llama、Llama2等，其中一些模型如CodeLlama是专门用于代码生成的。除了这些，还有ChatGPT、Alpaca、Lambda和Chinchilla等。最近，一个名为Mistral的产品由巴黎的一家初创公司发布，该公司的团队成员曾在FAIR工作，这也是一个值得关注的事实。

这些系统确实展现出了卓越的性能，让我们都感到震惊。然而，它们也犯下了一些严重的错误。这些系统并不真正理解这个世界，只是被训练成根据给定提示生成最有可能的单词序列。尽管它们经过微调，能够有效地解决特定的问题，但依然存在事实错误和逻辑错误。它们的输出不总是一致的，并且它们没有真正的推理能力。由于这些系统只是从文本中学习，所以它们对真实世界的理解是有限的。它们没有常识，无法像我们预期的那样策划答案。这意味着用户可以与像Llama这样的机器人进行互动。

我提到的聊天机器人MetaAI实际上是Llama2的产品版本。它具有不同的化身，可以被视为扮演不同的角色。总共有三种模型，每种模型有自己的生产模式。最好的是，它是开源的，所以如果你有强大的GPU，你可以自己运行它。现在，有很多人正在努力使这些模型能够在移动设备和笔记本电脑上运行，以生成文本。

有趣的是，当Llama刚开始时，我的同事们有所质疑。他们向我展示了Llama的输出，询问是否可以发布在报纸上。当然可以，但我更想知道它是否可以以爵士乐的方式输出，因为我更喜欢爵士乐。然而，由于缺乏爵士乐的训练数据，该请求并未得到满足，这让我感到失望。

Meta最近发布了28种专门针对不同应用的聊天机器人。例如，你可以选择让说唱歌手Snoop Dogg扮演地下城主的角色，而其他机器人可能是旅行顾问或厨师。每个机器人都有自己独特的性格。但问题在于，这些系统并不如我们预期的那样出色。虽然它们能够流畅地使用语言，给人一种它们很聪明的错觉，但实际上，它们并没有真正的人类智能。

在社交网络上，如X和Twitter，人们经常讨论这些系统。当他们谈论某个公司的最新LLM时，这确实很令人兴奋。但事实上，我们距离实现人类水平的智能（我称之为AGI）还有很长的路要走。

这些系统之所以看起来那么聪明，是因为它们接受了大量的数据训练，使它们积累了大量的背景知识。但大多数人类知识与语言无关，而与我们的日常经验有关。很多人认为，这些机器不能制定计划，并且它们的预测是基于自回归的，这在本质上是有缺陷的。

我预测，几年内，没有人会使用自回归LLM，因为它有明显的缺陷。尽管有些人担心未来的人工智能系统可能比人类更聪明，但基于当前的LLM，这是一个误解。未来的人工智能系统不会使用现有的架构。他们不会是自回归的LLM。

自回归LLM的问题在于，它们没有真正的推理和计划能力。尽管每个生成的Token的计算是恒定的，但这种机器不会学习到世界是如何运作的，因此它们永远无法达到人类的智慧水平。

当某家公司的首席执行官声称他们拥有世界上最先进的LLM，并预测AGI即将到来时，我们应持谨慎态度。我们目前仍未达到关于这方面的一些关键突破。然而，机器最终会在所有领域超越人类的智能，这是毫无疑问的。预计这将在大多数人的有生之年发生，虽然我可能看不到那一天。这个过程可能需要数十年。

这些都与人工智能面临的挑战有关，特别是在学习对世界的表征和预测模型方面。自我监督学习正在努力解决这个问题。目前，对于文本的处理我们已经取得了不错的进展，但视频方面仍需努力。同时，AI需要学会推理。比如丹尼尔·卡尼曼的系统一和系统二的概念：系统一是我们不假思索的潜意识行为，而系统二是需要我们集中注意力的有意识行为。当前的LLM可以处理系统一的任务，但对于系统二，我们仍需要构建能够推理的人工智能系统。

丹尼尔·卡尼曼，这位诺贝尔经济学奖得主实际上是一位心理学家。我曾提出一个解决方案，称之为目标驱动人工智能，并公开评审了相关论文。这篇论文不仅是一个工作文件，而且被广泛评述。我还进行了一系列技术讲座，深入讨论了基于模块化认知架构的理念。

这个认知架构包括多个模块，第一个是感知模块，它负责感知世界并构建对当前世界状态的估计。这个估计可能会结合存储的内存内容，这是未被直接感知到的信息。接下来是世界模型，它的任务是预测一系列行动的结果。演员模块则想象这些动作，并将其输入世界模型。这个模型会预测一系列行动的潜在结果。

系统的主要目标是找到一个行动序列，这些行动预计会满足成本模块定义的约束条件。成本模块基本上是系统的驱动力，表示系统当前的目标和整体目的。系统从世界模型获取预测，然后计算其成本，基本上衡量系统的不舒适度。系统的任务就是找到一个最小化其成本的行动序列。

此外，您可以想象一些安全措施，如家用机器人在切洋葱时不会突然挥动其手臂，这样可以确保系统的安全性。这些措施在系统推理时已经考虑进去，并确保系统只产生安全的行为。

您知道，系统在某些情境下可能因为预期之外的提示而产生不安全的行为。但在这里，根据其世界模型，系统是设计成无法执行违反设定护栏的操作的。所以，从这个角度看，只要满足两个基本条件，这些系统在本质上是安全的。首先，需要确保护栏的目标本身确实保障了安全性，这是一个颇为复杂的问题。其次，我们需要假设世界模型是准确的，这也同样具有挑战性。可以设想，随着时间的流逝，这种安全性的实现逐渐展现出来。例如，考虑到一系列操作，如在此场景中的两个操作。这种思考模式与控制理论中的模型预测控制非常相似，但不同之处在于我们在这里是在学习世界模型，并可能同时学习相关的成本。

您可以将其视为一种分层规划的系统。实际上，人类和动物时刻都在进行这种分层规划，这是我们日常活动的基本特征。然而，我们目前尚未完全掌握这一技能。尽管有一些初步的思路和尝试，但真正的解决方案仍然遥远。对于有抱负的年轻科学家或研究者，这是一个巨大的机会。如果您能破解分层规划的秘密，那么收益将是巨大的。

以我自己为例，假设我现在位于纽约大学的办公室，我计划前往巴黎。在宏观层面上，我首先需要前往机场然后乘坐飞机。但在这之间，还有许多决策要做，比如根据交通情况选择机场，考虑哪家航空公司的班次。接下来，我需要考虑如何到达机场，可能是打车。为了实现这个目标，我需要走出办公室，叫车。这就涉及到从座位上站起、打开门、走向电梯等一系列更微观的行动。我们不可能为从办公室到巴黎的每一步都制定详细到毫秒的计划，这就需要分层规划。工程师在进行控制操作时确实可以实现这种规划，但其中的层次结构往往是手动设定的。真正的挑战在于，我们如何使机器能自动学习并确定行动计划的合适层次。

这确实是一个待解决的重大问题。如果您计划进一步深造或攻读多个学位，这将是一个值得研究的领域。我们希望通过技术如LLM来实现这种功能。在这样的系统中，Token的生成不再是逐一进行，而是通过推断一系列满足多个目标和条件的Token来完成。这会使得LLM更加可控，尽管现在的技术仍然存在局限性。

最终，我们希望机器能够学习和理解世界，这正是建立世界模型的目的。当我们考虑在时间t的世界状态和可能的行动时，我们希望预测时间t+1或之后的世界状态会是怎样的。人类和动物在此方面都表现得很出色。婴儿在最初的几个月里就能迅速学习世界的运作方式，从基本的三维空间概念到物体的持续性和重力等基本物理原理。这些大都是通过观察和实验学到的。而我们至今尚不清楚如何使机器实现这种学习。这也是为什么尽管我们已经拥有了高度智能的系统，如可以轻松通过律师考试的系统，但我们还没有可以自动完成家务的机器人。

任何10岁的孩子都能在短短几分钟内轻松掌握某些事物。目前，我们尚未真正拥有完全自主的5级自动驾驶汽车，尽管任何17岁的青少年都可以在20小时内掌握，并且可以在高速公路上以300公里的速度行驶。很显然，我们在某些关键领域仍然缺乏进展。人类和动物所展现的学习效率，我们仍然不知道如何在机器上复制。

因此，我们需要培养机器的能力，使其能够从视频中学习世界模型，这实际上来源于自然信号。这引导我们转向自我监督学习的概念，但是现在它是应用于视频而不是文本。处理文本相对容易，因为文本是离散的，每种语言中的可能标记数量大约为30,000个。这使得预测接下来的标记的概率分布变得相对简单。但对于视频，我们尚未找到一种有效的表示所有可能性的方法。

以高速公路为例，如果你尝试用一个神经网络来预测视频中的下一个场景，你可能只会得到一个非常模糊的预测，因为它仅仅是所有可能情境的平均值。这就导致我提出了所谓的联合嵌入预测架构，简称JEPA。它是一个非生成式的框架。

大家都在讨论生成式人工智能，但我要告诉你的是，生成模型并不是王道。事实上，这些流行的方法，如LLM和其他机器学习方法，都存在局限性。在生成模型中，你需要从观察到的数据x预测输出y，这在文本中是可以的，但在视频中，这几乎是不可能的。而JEPA采用的联合嵌入方式通过编码器处理x和y，预测是在表示空间中进行的。

这个JEPA有多个版本，我这里无法详细介绍，但有兴趣的可以查阅相关长篇论文。核心思想是，存在多种方法来训练这些JEPA。其中一个特别有趣的技术是Image JPA或iJPA，它采用了一种“遮蔽”技巧。简而言之，你会遮蔽图像的某部分，并用编码器对其进行处理，再用另一个神经网络预测器尝试预测完整图像的表示。这种方法效果很好，并在多个任务上都表现出色。

我们还有类似的项目VJEPA，它旨在从视频中进行自我监督学习。基本上，这种学习模型是为了模拟婴儿观察世界并学习的方式。此项目的相关论文已提交，有些人可能知道这个项目，因为提交的截止日期是今天。实际上，知道这个日期的人现在可能都在忙于撰写论文。

截止日期已经过去两个小时。这意味着您可以使用这些JPEG作为世界模型，因为您明白，当您有一个输入时，您可以为其提供一系列可能的代理操作，然后它将预测下一个时间步的世界状态的抽象表示。这也可能作为我先前提到的大型架构的一部分用于世界模型。

我们确实需要利用人工智能来回答许多问题。这是我倒数第二张幻灯片。人类水平的人工智能距离我们还有多远？几年或是几十年？似乎还需几十年的时间。这个挑战可能比我们预期的要大，绝对比某些过于自信的人所想象的要困难。在达到人类级别的人工智能之前，我们可能先实现猫级别的人工智能。

有些人担心，有一天有人会突然发现人类级人工智能的秘密，并启动一台强大的计算机，这台计算机可能会接管整个世界并消灭所有人。但这种想法简直荒谬，完全不可能发生。我们会从小规模、低智能的模型开始，例如像老鼠或猫那样的模型，然后我们将逐渐提高它的智能，并确保其在各种受控环境中被安全地测试。所以，将机器人突然获得高级智能并失去控制的概念局限于好莱坞电影是不切实际的。

实际上，并没有所谓的通用人工智能，因为智能本身就是多维的。人类只在某些方面表现出色，但在其他许多方面表现平庸。计算机在很多任务上都比我们做得更好，例如国际象棋、围棋、扑克和许多电子游戏。还有，仅凭听歌声就能识别鸟类，或者通过尾巴的形状来识别海洋哺乳动物。这是人工智能系统可以做到的，但只有少数人能做到。因此，所谓的通用人工智能（AGI）实际上是一个误导性的概念。

不可否认，机器将最终超过人类的智能。因此，人们对此感到害怕是可以理解的。但一个有趣的问题是，想象20年或更长时间后，我们每次与数字世界互动都是通过人工智能系统进行的。事实上，如果今天的初创公司和大公司的计划得以实现，这种情况可能会很快发生。因此，这些人工智能系统将成为所有人类知识的中心存储库。

开源在此背景下显得尤为重要，因为整个互联网基础设施都是开源的，并在开源软件上运行。这是因为它太重要了，不能被单个公司所控制。对于人工智能系统也是如此。它们必须是开源的，因为如果所有公民的信息都要通过这些系统进行处理，那么这些系统对于单个公司或少数公司来说太重要了。这些系统的培训方式应该是众包的，像维基百科那样，收集全球的文化、信息和知识，而不仅仅是从某个特定的文化或地点。这也是我为什么强烈支持基于开源的人工智能模型。我和我的同事在Meta公司都支持开源这些基础模型，因为这会使它们更安全、更强大，发展得更快，并从更多的人那里获得多样化的文化视角。这为初创公司和研究项目创建了一个完整的生态系统，他们可以在此基础上进行构建。这目前是一个非常重要的政策问题，因为许多公司正在向全球各地的政府施压，希望将人工智能封闭起来，认为它过于危险，需要更多的控制和许可。但我认为真正的危险在于，如果它仅仅掌握在少数人手中。

这些人已经成功地说服英国政府和首相，人工智能的应用需要受到严格的监管。显著地，欧盟委员会似乎也同意这种观点。然而，我个人相信，如果我们正确地发展和应用人工智能，它有潜力使每个人都更为聪明。这种情境与我们目前拥有的智能助手相似，仿佛有一群聪明的人在为你工作。实际上，成功的领导者往往只与比自己更聪明的人合作。我自己也是如此，我只雇佣比我更有才智的人，因为这是成功的秘诀。因此，未来我们可能会有比自己还要聪明的人工智能助手。我们无需对它们感到威胁，因为这些助手会被设计得完全服从我们。这种变化可能会给社会带来巨大的影响，这种影响与500年前印刷机的出现所带来的影响相似，或许会引发一个新的复兴，因为智力是我们目前最急需的资源。这将让人类变得更聪明。

观众问答

非常感谢你，Yann，这是一次精彩的演讲。我们还有大约10分钟的提问时间，我相信会有很多问题。

感谢您的精彩演讲。您提及了保持代码的开放性，这是一个很好的观点。但正如您所说，最近很多技术进步不仅依赖于软件，还涉及到硬件。大部分的硬件技术都是由大公司进行开发的，他们拥有大量的GPU资源。这在德国，乃至其他国家，都造成了某种限制。您如何看待这一问题？同时，在学术界和Meta公司之间，您是如何进行权衡的？您在大学进行某些研究，而在Meta进行另一些研究吗？关于未来，您有何看法？

回应这个问题，我认为应该使用自动语音识别器，但是由于存在回声问题，这有时会变得困难。确实，硬件是一个巨大的瓶颈。目前，只有那些能够进行大规模计算的实体，例如Google、Meta和Microsoft，或是那些可以通过云服务访问这些资源的公司，如OpenAI和Anthropic，才能训练大型语言模型。为了训练一个顶尖的语言模型，所需的资金可能高达数千万欧元，这还取决于所用的方法和规模。如果你想购买一个足够强大的基础设施，基本上你需要从NVIDIA那里购买，而这可能会花费上亿。这真是太令人震惊了。因此，我们需要开源这些基础模型，因为它们是一种共同的基础设施，每个人都应该能够访问。

感谢您的精彩演讲。我注意到您的演示文稿中涉及到人工智能和机器学习的挑战，其中包括道德、公平和负责任的人工智能。我想知道这些是否是您当前所面临的挑战？如果是，您又是如何应对的？

对此，我认为这些挑战确实是我们需要面对的，但它们被包含在我之前提到的其他点中。关于如何确保这些人工智能系统的安全性，这仍然是一个问题，因为我们还没有开始构建这种类型的系统。但这是一个可以解决的工程问题。我们过去已经为智能实体，如人类或公司，设计了行为目标，这就是法律的目的。这些法律旨在确保人类和公司的行为符合社会的共同利益。当然，腐败等问题可能存在，但这是一个基本的理念，所以我们对此概念并不陌生。

谢谢你的精彩演讲。我想进一步询问我们之前提到的关于GPU资源的问题。我观察到在机器学习和人工智能领域，过去的几年中很多重大突破都依赖于大量的GPU资源，而学术机构往往没有这样的资源配置。在这样的背景下，您认为学术研究在人工智能领域的前景如何？

实际上，我本身就是学者，并且我身兼多重角色。事实上，很多杰出的创意都起源于学术界。例如，从文本生成图像的技术实际上最早是在德国的一所大学中提出的。而使用注意力机制的想法，也是Transformer的核心，起源于蒙特利尔大学。这是由迪米特里·巴达诺、乔京勇和约书亚·本吉奥提出的。他们构想了一个翻译系统，这个系统能够决定在翻译英语到德语时应该关注哪些单词，因为德语中动词的位置经常导致翻译错误。他们因此引入了学习注意力机制的概念。随后，斯坦福大学的Chris Manning采纳了这种设计并成功地进行了扩展，赢得了WNT比赛。之后，这个思路被广泛采纳，例如谷歌的研究人员基于此构建了完整的神经网络，其中的一篇研究论文被命名为“注意力就是你所需要的”，也就是现在的Transformer。

学术界往往是许多出色创意的发源地。我提到的问题，如分层规划、从视频中学习世界模型等，并不需要大量的计算资源来验证其有效性。如果一个理论被证明是可行的并且有说服力，那么即使它在某些基准测试中可能不是最佳的，也仍然有其他研究者或机构愿意接受并进一步发展它。这就是学术研究产生影响的方式。

如果你考虑一下你的职业生涯，是什么驱使你，你会说更多的是对可能发生事情的梦想，或者是对这个主题的唯一兴趣？随着时间的推移，你贡献的所有工作还可能如何改变？

这确实是一个引人入胜的问题。从根本上说，这是一个科学问题：什么是智力？大脑是如何工作的？这一大问题，随着时间的推移，仍然是中心焦点。实际上，存在三个主要的科学问题：宇宙是由什么构成的？生命是什么？以及大脑如何工作？这三个问题都是至关重要的。

尽管我也是一名工程师，但对于像大脑这样的复杂系统，真正理解其工作原理的方式是构建一个类似的系统，然后验证您在该系统中的所有假设与实际情况是否相符。这就是多层学习、神经网络，以及背后的卷积网络的思想来源。它们从大脑中获得灵感，但我们不能简单地复制大脑。我们需要理解其背后的基本原理，这确实是驱使我前进的力量。当然，如果有其他引人入胜的应用，不管是有用的还是仅仅有趣的，都是值得欢迎的。虽然我不总是亲自这样做，但我对那些这样做的人感到非常高兴。

您问到我对实体人工智能和机器人学习的看法。我发现这非常有趣，因为它使用人工智能技术来影响现实世界。实际上，世界模型的概念在语言背景下容易实现，这也是为什么我们有如此出色的语言模型。但现实世界的数据，如视频和机器人的本体感知数据，与此大不相同。与机器人合作的实体AI的优点是您不能够作弊或采取捷径。因此，我认为，这类问题会迫使人们更加真实和坦诚。

我觉得过去几年在人工智能领域的最有趣的进展不仅仅是大型语言模型。而是那些专注于机器人技术的研究团队，他们努力使机器人能够高效学习而无需长时间的模拟训练。例如，纽约大学的Leroy Pinto，卡内基梅隆大学的Abhinav Gupta和他的团队，以及伯克利分校的Peter Abbeel、Sergey Levine和Chelsea Finn（后者曾是他们在斯坦福大学的学生）。这些方法都与规划理念和目标驱动的规划紧密相关，这些都必须在机器人背景下实现。这确实是一个非常有趣的领域。因此，FAIR设有一个名为Embody.ai的专门部门。

非常感谢您，Yann，为我们带来这次精彩的分享。我们都非常感谢您分享了您对未来人工智能的见解和观点。