机器学习中的具身人工智能——它真的具身吗？

来源：CreateAMind

Embodied AI in Machine Learning -- is it Really Embodied?

https://arxiv.org/pdf/2505.10705

引言

具身人工智能（Embodied AI）正在机器学习领域迅速发展，其目标是利用当前人工智能的进展（如深度学习、Transformer模型、大型语言模型和视觉-语言模型）来增强机器人的能力。在本章中，我们将这项工作置于“老式人工智能”（GOFAI，Haugeland，1989）以及基于行为或具身化的替代路径（R. A. Brooks，1991；Pfeifer 和 Scheier，2001）的背景之下。我们认为，由人工智能驱动的机器人仅具有“弱具身性”，并继承了GOFAI的一些问题。此外，我们回顾并批判性地讨论了“跨具身学习”（cross-embodiment learning，Padalkar 等，2024）的可能性，指出了根本性的障碍，并提出了可能的前进方向。

由GOFAI驱动的机器人从未真正奏效

20世纪50至60年代的人工智能（AI），后来被Haugeland（1989）称为“老式人工智能”（GOFAI），其核心观点是：智能的关键在于对代表世界的符号进行计算。其关键词是“算法性”、“符号计算”和“表征”。GOFAI在形式化领域（如国际象棋）取得了巨大成功，在这些领域中，世界状态是离散的、可直接访问的，标准AI技术（如搜索）可以有效应用。然而，当进入现实世界时，必须在外部动态、连续且部分可感知的现实与内部世界表征之间建立联系。也就是说，现实必须通过感知被获取，并映射到内部世界模型中，然后在该模型中进行“思考”。最后，所选择的任何动作都必须在现实世界中执行。因此，这种方法被称为“感知-思考-行动”（sense-think-act）架构。那些与现实世界的“接口”——此前被忽视且低估——成为了根本性的实际挑战。“框架问题”（保持内部世界表征与外部现实一致）和“符号接地问题”（关注符号表征与外部世界的关系）是最严重的根本问题。最初期望将定理证明等技术（如Fikes 和 Nilsson，1971）应用于现实世界的机器人任务，但这一设想从未真正实现，AI与机器人学在很大程度上独立发展，只有在需要复杂高层计划和推理时才有所交汇（Russell 和 Norvig，2021；Beetz 等，2016）。

机器人学在学习时代之前

本章不旨在全面概述机器人学及其历史。在近年来的“机器人学习时代”到来之前，机器人研究主要集中在基础领域：运动学、动力学、运动规划与控制、感知与传感、定位与建图，以及工业机器人，而近期则更多关注人机交互（参见Siciliano 和 Khatib，2016中的相关部分）。机器人学与控制理论的交集远多于与人工智能的交集。波士顿动力公司（Boston Dynamics）的机器人（如Atlas）所展示出的惊人敏捷性，是通过精心的工程设计和模型预测控制实现的，而非通过学习。

具身性、基于行为的机器人学与软体机器人学

在GOFAI时代，计算机不仅是工具，也是“认知主义”（cognitivism，Fodor，1975）范式下对心智的隐喻。对此的回应是认知科学中的“具身认知”理论，该理论认为认知过程本质上是由智能体通过身体与世界的互动所塑造的，强调行动的作用，而非世界建模与表征（如Engel 等，2013）。为了证明许多被视为智能或认知的行为并不需要来自内部世界模型及其上的计算，研究者们制造了控制器极为简单的机器，并观察其与环境的互动。格雷·沃尔特（Grey Walter）是这一方法的先驱，他制造了具有极简“大脑”的电子机器，表现出类似趋光性的行为（Walter，1953）。瓦伦蒂诺·布赖滕贝格（Valentino Braitenberg，1986）继承了这一思路，制造了一系列复杂度递增的两轮小车。即使是最原始的模型——传感器直接连接到电机（激发或抑制）——也表现出复杂的行为。尽管驱动机制简单且完全确定，但与真实世界的互动却产生了复杂的行为模式。

出于实际考虑——即制造能够实时与世界互动的机器人——罗德尼·布鲁克斯（Rodney Brooks）在其开创性文章《没有表征的智能》（Intelligence without representation，1991）中公开批评了GOFAI的观点。通过构建与现实世界互动的机器人（如昆虫机器人），他意识到：“当我们考察非常基础层次的智能时，发现显式的表征和世界模型反而成了障碍。事实证明，直接用世界作为它自己的模型更为有效。”受生物进化的启发，布鲁克斯创建了一种去中心化的控制架构，由多个层级组成；每一层都是传感器与电机的简单耦合。这些层级并行运行，但以层级方式构建（因此称为“包容架构”，subsumption architecture；R. Brooks，1986）。

具身性意味着的远不止“智能需要身体”这一句话。任何系统的行为不仅取决于其内部控制结构（如中枢神经系统），还受到其所处生态位、其形态学（身体和肢体的形状，以及传感器和执行器的类型与布局）以及构成其形态的材料特性的影响（Pfeifer 和 Bongard，2006）。对于快速发展的软体机器人学领域（例如 Yasa 等，2023）而言，认真对待“具身性”是必不可少的，因为这类机器人身体的复杂性和非线性使得传统控制方法难以适用，必须充分利用材料基底的动力学特性。

当前的弱具身人工智能（WEAI）

大规模的所谓“基础模型”在自然语言处理（NLP）和计算机视觉领域取得了显著成果，它们通过提供通用的预训练模型，使人工智能系统具备强大能力，往往能超越那些在更小但任务特定数据集上训练的专用模型。将这一策略应用于机器人控制极具吸引力。源自计算机视觉、机器学习和自然语言处理领域的研究群体，如今正将其模型连接到机器人上，并将这一方向称为“具身人工智能”（Embodied AI）（例如 Deitke 等，2022；Liu 等，2024；Vanhoucke，2024）。其核心思想是利用这些模型的推理能力（“常识”）以及对视觉场景（图像）的理解能力，生成机器人可执行的行动计划。

在本章中，我们认为这些工作中的“具身性”是薄弱或浅层的，并讨论了这种弱具身性对整个领域的影响——即存在哪些根本性的障碍，以及未来哪些研究方向更具前景。

具身性对制造更好机器人的意义

具身性对任何智能体（无论是生物还是人工）的影响在图1中以图示方式进行了说明（Pfeifer, Lungarella, 和 Iida，2007）。

下面我们列出一些具身性的核心前提，作为评估当前弱具身人工智能（WEAI）究竟在多大程度上实现真正具身性的检查清单。其中，“身体”或“身体形态”指的是身体和肢体的形状，以及传感器和执行器的类型与布置位置。该清单借鉴了（Pfeifer 和 Scheier，2001）以及（Pfeifer 和 Bongard，2006，第4章）中关于智能系统的设计原则。

以下是我们列出的一些具身性核心前提，用作评估当前弱具身人工智能（WEAI）在多大程度上真正实现具身性的检查清单。其中，“身体”或“身体形态”指的是身体和肢体的形状，以及传感器和执行器的类型与布置位置。该清单借鉴了（Pfeifer 和 Scheier，2001）以及（Pfeifer 和 Bongard，2006，第4章）中关于智能系统的设计原则。

行为并非存在于大脑或控制器中，而是存在于控制器、身体与环境构成的闭环互动之中。

身体形态有助于控制。 身体与环境的互动可以通过简化神经系统所需的控制，来促进行为的产生。在极端情况下，仅靠物理规律——即无需感知、控制甚至无需主动驱动——就足以产生行为，例如行走（McGeer，1990）。机械反馈回路（见图1中的“运动”和“机械反馈”箭头）甚至可以起到稳定系统的作用（参见Pfeifer、Lungarella 和 Iida，2007 中的“自稳定”机制，或Hoffmann 和 Pfeifer，2012 中关于具身性的物理意义）。复杂且非线性的身体结构为利用其内在动力学来产生期望行为提供了更大潜力，这一点在软体机器人学中已有深入研究（Hauser、Nanayakkara 和 Forni，2023）。
传感器形态有助于感知。 传感器的位置、形状和机械特性在很大程度上决定了感知的内容。这对触觉传感器尤为明显，对视觉传感器也是如此（Franceschini 等，1992）。在生物学中，不同动物的眼睛已进化为有利于特定感知功能。以昆虫复眼为例，运动检测（可用于避障）在感光细胞非均匀分布时往往可被简化。家蝇复眼的小眼面在身体前方更密集，这补偿了“运动视差”现象——即在匀速飞行时，侧面物体在视野中移动的速度比前方物体更快。在一定理想化条件下，这意味着在直线飞行时，整个复眼可以使用相同的运动检测电路（即基本运动检测器）进行运动感知，这一原理已被应用于导航机器人的设计中（Hoshino、Mura 和 Shimoyama，2000）。
感觉-运动协调与主动感知。 与环境的闭环互动以及特定动作的选择，可以显著改变感知内容，使诸如辨别等感知任务比被动感知或随机运动容易得多。Lungarella 和 Sporns（2006）曾使用信息论方法量化了简单机器人中这种“信息自组织”现象。与此相关的研究包括“主动感知”（特别是主动视觉）（Bajcsy、Aloimonos 和 Tsotsos，2018）以及“感觉-运动协调”原则（Pfeifer 和 Bongard，2006）。
并行且松散耦合的进程。 智能——至少从生物学角度来看——是大量并行进程通过与环境的具身互动协调后涌现的结果（Pfeifer 和 Bongard，2006，第4章）。布鲁克斯的“包容架构”（subsumption architecture，R. Brooks，1986）也提出了类似观点，但为这些并行进程增加了层级结构。
生态平衡原则。

　　a. 针对特定任务环境，智能体的感知、运动和神经系统在复杂性上必须相互匹配。
　　b. 在形态、材料、控制和环境之间存在一定的平衡或任务分配。

具身性与“形态计算”（morphological computation）的概念有一定重叠，但我们更强调身体在促进行为、从而简化控制与感知方面的作用。我们并不将这些过程视为“计算”（与Müller 和 Hoffmann，2017 的观点一致）。

弱具身人工智能（WEAI）的代表性工作

“通才智能体”（GATO，Reed 等，2022）可被视为机器学习和自然语言处理模型的自然延伸。它保留了基于图像和语言的基础模型的能力，如图像描述生成和聊天，同时结合了玩Atari游戏，并将真实的机器人任务纳入同一模型——RGB积木堆叠基准测试（RGB Stacking benchmark），即机器人手臂通过RGB相机输入来堆叠彩色积木。

近年来，“具身人工智能”（此处指WEAI）领域涌现出大量研究，即在机器人中使用大规模模型。为了使讨论更具象，我们简要描述这一新兴领域的发展历程（讨论2022至2024年的工作），并借鉴（Vanhoucke，2024）的视角。大型语言模型（LLMs）在机器人中的应用自然始于“规划”任务，即从传统的几何空间规划提升至“语义空间”规划（见图2A）。一个典型例子是“Say-Can”模型（Ahn 等，2022）。过去由GOFAI时代自动推理系统处理的推理与规划能力，如今正借助LLMs的“常识”能力来实现。

接下来被“AI赋能”的模块分别是感知（Perception）和执行（Actuation）模块，分别通过视觉语言模型（VLMs）和“代码语言模型”（Code LMs）来实现，如图2B所示。此时，世界状态以语言形式表示，必须从现实世界中提取（即通过感知或状态估计模块）。因此，下一步自然便是部署视觉语言模型（VLMs），将其作为感知模块，将图像转化为语言表示，例如Socrates（Zeng 等，2022）。为了保持这种语言表示与真实世界的一致性（解决“框架问题”），需要进行周期性的状态重新估计和重新规划，例如“内心独白”（Inner Monologue，Huang 等，2022）所展示的那样。

最后被“语言模型化”（用Vanhoucke 2024的话说，是传统机器人学的“最后一块堡垒”）的是“动作”模块。这一目标通过让语言模型生成可由机器人执行的代码（即“代码作为策略”，Code as Policies）来实现，例如“Code as Policies”（Liang 等，2023）、Text2Motion（Lin 等，2023）、ProgPrompt（Singh 等，2023）以及“ChatGPT for Robotics”（Vemprala 等，2024）。

模块之间的接口——即以大语言模型（LLM）作为规划器、视觉语言模型（VLM）作为状态估计器、代码语言模型（Code LM）作为动作生成器——已成为这些架构的瓶颈。因此，下一步是将这些模块“融合”在一起，如图2C所示。PALM-E（Driess 等，2023）融合了LLM和VLM；RT-1（Brohan, Brown, Carbajal, Chebotar, Dabis 等，2023）融合了感知与执行模块（VLM和Code LM）。接下来的逻辑发展是联合推理整个问题，在保留利用“互联网数据”能力的同时，打破所有模块之间的界限。此类方法的代表包括RT-2（Brohan, Brown, Carbajal, Chebotar, Chen 等，2023）和VC-1（Yokoyama 等，2023）。

弱具身人工智能（WEAI）究竟有多“具身”？

对比图1与图2，显然WEAI的具身性非常薄弱。图1中体现的具身性核心在于身体动力学（蓝色）和任务-环境（绿色）两个模块。而在WEAI架构（图2）中，关键在于控制器或“大脑”，智能体身体与世界的互动被简化为连接传感器与执行器之间的一个简单箭头，仅构成一个闭环。

让我们通过“具身性检查清单”来审视WEAI的现状：

行为并非存在于大脑/控制器中，而是存在于控制器、身体与环境的闭环互动中。○ 在WEAI中，行为存在于控制器——即大型模型之中。长周期任务可在模型内部完成规划，模型中的状态必须与现实世界保持同步。环境中的具身互动并未被真正利用。
身体形态有助于控制。　○ 在WEAI中，智能体的身体几乎没有被利用来完成任务的空间。所使用的机器人平台——如移动机器人或带有二指夹爪的机械臂——缺乏可被利用的丰富身体动力学。此外，机器人传感器与执行器的细节被高度抽象化。例如，若动作空间仅为末端执行器的位置、姿态以及夹爪开合指令，则模型几乎没有机会利用机器人形态的特殊性。
传感器形态有助于感知。　　○ WEAI依赖深度神经网络从静态图像中发现模式（如物体识别），并利用视觉语言模型（VLMs）将图像内容转化为文本。输入通常必须是标准的RGB图像。卷积神经网络（CNNs）和视觉Transformer在识别等任务上的强大能力，难以迁移到特定传感器形态（如感光细胞非均匀分布）的设计中。因此，为特定任务环境设计的传感器形态与WEAI方法并不兼容。

感觉-运动协调与主动感知。　　○ 典型的WEAI架构旨在最大限度利用LLM的“常识”能力，以零样本（zero-shot）方式完成任务，无需额外训练。在这种情况下，无法利用与环境的闭环具身互动。当进行额外训练（微调）时，通常使用人类遥操作机器人完成任务时采集的离线数据集。操作员可能利用了感觉-运动协调来完成任务，这种能力可被转移到机器人控制器中。但前提是情境匹配（situatedness），即人类与机器人必须通过相似的“眼睛”观察世界。如果操作员使用第三人称视角操控机器人，而机器人配备的是第一人称视角摄像头，则这种迁移将无法实现。
并行且松散耦合的进程。　○ WEAI架构可能包含多个模块（VLM → LLM → Code LM），内部存在并行处理，但通常只有一个连接传感器与电机的闭环。因此，系统仅存在单一进程和单一时间尺度。
生态平衡原则。

　　○ WEAI极易出现生态失衡，因为其架构拥有一个“巨大大脑”。感知输入可以是文本和视觉，部分研究正在加入其他模态。机器人通常具有相对简单的形态，因此动作能力有限。然而，最主要的生态失衡来源是动作表示方式——通常是低维的离散动作空间。

主动具身互动 vs. 离线学习

自然语言处理（NLP）和计算机视觉的显著进展得益于两个主要因素：（1）存在大量文本和图像数据集；（2）对于预测序列下一个词或标注图像中物体等任务，被动监督学习是合适的。WEAI社区的许多人认为，只要获得足够数据，“机器人问题”也能被解决。这些数据集通常通过遥操作收集，然后使用模仿学习或离线强化学习方法训练控制器（例如Walke 等，2023）。然而，现实世界中的成功行为本质上依赖于感觉-运动协调和主动感知（另见Pezzulo 等，2024年关于被动AI局限性的最新文章）。如果机器人无法自主采样动作及其后果，学习效率必然低下。

我们用图3的卡通示意图来说明这一点。左图（A）展示了Held 和 Hein（1963）的经典实验设置。小猫从出生起在黑暗中饲养，直到进入实验装置。第一组小猫（图3A右侧）被允许在场地中主动移动，而第二组小猫则被动地坐在由第一只小猫驱动的小车上移动。在“训练阶段”结束后，两组小猫均接受行为测试（视觉引导的爪子放置、避开视觉悬崖、对逼近物体眨眼）。重要的是，只有主动移动组的小猫在视觉引导行为测试中取得成功。

右图（B）是机器人数据集生成方式的卡通化表示。一个人类（右侧）远程操控一个机器人（此处为配备传感器的汽车），并记录数据。机器人有一个重要优势：被动移动的小猫无法获取主动小猫的运动指令，而机器人数据集可以同时包含感官和运动信号（如果操作员使用相同的执行接口）。然而，机器人仍然无法像标准的在线强化学习那样，主动采样动作并观察其效果及相应奖励。

WEAI的自然延伸

WEAI（弱具身人工智能）的研究者们意识到，“高层语言知识”与“底层机器人知识”之间仍存在差距，并已有工作致力于弥合这一鸿沟。例如，RT系列模型已有多个扩展版本：引入以动作为中心的表示方法（RT-Trajectory，Gu 等，2023）；采用视觉迭代优化的提示方法（PIVOT——Iterative Visual Prompting，Nasiriany 等，2024）；或引入层级结构以提升语言指令的细粒度（例如，对于“把可乐放到桌上”这一指令，会进一步分解为“向前移动手臂”等更详细的子步骤）（RT-Hierarchy，Belkhale 等，2024）。Szot 等（2024）开发了一种多模态大语言模型，并设计了适用于连续动作空间的动作空间适配器。触觉是一种对操作任务尤为重要的感知模态，研究人员正尝试将其加入模型中（例如 Sferrazza 等，2023；F. Yang 等，2024）。

跨具身具身人工智能——一个矛盾修辞？

训练模型所需的大量数据催生了多项“跨具身”（cross-embodiment）研究计划，即通过从不同实验室、不同机器人执行各种任务中“众包”数据，训练出能够掌握多种任务、环境和身体形态的通用模型（参见 Jaquier 等，2024 对机器人领域迁移学习的综述）。

“Open X-Embodiment”是一项涵盖多个机构的大型合作计划，主要致力于构建一个大规模机器人数据集（Padalkar 等，2024）。目前，已有60个数据集被统一格式化，涵盖22种不同的机器人形态（主要是机械臂）。在RT-1和RT-2模型基础上，新模型RT-X将来自机器人肩部上方摄像头的近期RGB图像序列和语言指令（例如“拿起橙色水果”）作为输入，输出（预测）一个7维动作向量，用于控制末端执行器的x、y、z位置、滚转（roll）、俯仰（pitch）、偏航（yaw）以及夹爪开合程度，或这些量的变化速率。动作被均匀划分为256个离散“token”，沿每一维度分布。实验结果显示出一定的正向迁移效果：在多个机器人采集的数据上联合训练，能提升模型在训练任务上的表现。然而，该模型在新机器人上的泛化能力尚未得到研究。

J. Yang 等（2024）整合了一个包含多种类型机器人的异构数据集，这些数据来自18个操作、导航和驾驶数据集，涵盖汽车、四足机器人、轮式机器人和机械臂。在该模型中，不包含语言指令。网络的输入是一段RGB图像序列，以及一个以第一人称视角图像表达的目标（例如机械臂抓取物体；移动机器人到达某个路点）。输出与RT-X模型类似：一个7维的离散动作空间。研究人员训练了一个单一的、以目标为导向的策略，能够控制机械臂、四旋翼无人机、四足机器人和移动底盘。他们发现，通过与导航数据联合训练，可以提升在腕部摄像头条件下、以目标为导向的操作任务的鲁棒性和性能。该研究还评估了模型对新具身形态的零样本泛化能力。

“All Robots in One”（Wang 等，2024）是另一项跨具身的研究计划，专注于构建数据集，并将传统的感知输入（文本和视觉）扩展至音频和触觉。

乍看之下，跨不同具身形态的“具身人工智能”似乎自相矛盾。具身认知的一个核心观点是：我们的身体从根本上塑造了我们的思维方式（Pfeifer 和 Bongard，2006），因此不同的身体需要不同的“大脑”。那么，一个单一的大型模型（或“大脑”）如何能够指挥像汽车、足式机器人和机械臂这样形态迥异的身体呢？

上述研究之所以取得一定成功，原因在于其“具身性”是浅层的。这些工作本质上创建了一个抽象层，将每种机器人简化为末端执行器的笛卡尔坐标（对于移动机器人则是其中心坐标）。模型被训练以学习从相机图像到低维动作空间的映射，该映射以语言表达的目标（如“从……拿起苹果并放到……”，Padalkar 等，2024）或目标图像（J. Yang 等，2024）为条件。机器人有关节这一机器人手臂的关键特征被完全抽象掉了。控制的空间分辨率（离散的低维动作空间）和时间分辨率（3-10 Hz）都很粗糙。交互力未被考虑。因此，人们很容易得出结论：这并非“真正的机器人学”或“真正的具身性”。

根本性障碍——基础模型是否成了绊脚石？

WEAI 与 GOFAI 的不同之处

GOFAI（老式人工智能）和认知主义建立在对代表世界的符号进行操作的基础之上，而WEAI（弱具身人工智能）则可归类为“涌现主义”或“联结主义”，依靠神经网络的力量。WEAI的表征是从数据中学习得到的，相比GOFAI中主要依赖人工设计的基于规则的系统，具有更大的灵活性。大型模型还可以通过视觉语言模型（VLMs）实现感知、通过代码语言模型（Code LMs）实现动作，从而更灵活地与现实世界连接（这在一定程度上缓解了“框架问题”）。此外，学习可以贯穿整个流程，在合适的情况下实现端到端训练。

WEAI 继承了 GOFAI 的问题

符号接地问题（Symbol grounding problem）　大语言模型（LLM）因其具备“常识”而受到赞誉，这种“常识”不仅可用于聊天，还可用于为现实世界生成行动计划。这种常识来源于模型所消化的大量文本语料库，相比GOFAI已有更好的“接地”效果。事实上，Harnad（1990）曾提出联结主义可能是解决符号接地问题的一种途径。然而，仅从文本语料库中获得的“接地”存在固有局限。一个LLM可以流畅地谈论骑自行车、滑雪或钓鱼，但当它被具身于机器人中，要在真实世界执行这些任务时，其“接地”程度仍然严重不足。如果语言是“通用货币”，而LLM模块被用于推理，那么接地问题就不可避免。人类的认知是通过内部多模态的感觉-运动模拟实现“接地”的（Barsalou，2008）。因此，必须使用多模态大语言模型（MLLM），并将其与不同具身形态及其对应的动作空间进行实际“接地”（Szot 等，2024）。
具身性与情境性（Embodiment and situatedness）在WEAI中，智能存在于LLM（或MLLM）之中。从文本、图像和视频中提取的知识构成了一个世界模型，但这个模型本质上是非具身的，或只是在人类形态下进行了间接的、浅层的具身（因为互联网上的文本和图像都是以人类为中心的）。由于机器人身体形态的细节并未被表征，因此“推理引擎”无法有意义地利用这些细节来简化控制或增强感知。此外，大型模型本身也在阻碍对感觉-运动协调或直接感知（Gibson，1979）的利用——即通过与环境的闭环互动来实现的高效“捷径”。
“软实时”交互问题自从汉斯·莫拉维克（Hans Moravec）的斯坦福小车时代以来，已经过去很久，当时每一次移动之间都有漫长的“思考”时间（Moravec，1983）。如今我们拥有更强的计算能力，但模型的规模也大幅增长。以3-10 Hz的频率闭合控制环路（Padalkar 等，2024）对于机器人中的真实任务而言仍然太慢。

WEAI 带来的全新挑战

这些大型模型确实非常庞大，带来了巨大的计算和能源消耗。即使是推理（即仅“运行”模型），也需要大量的计算资源。例如，仅用文本数据训练GPT-3（如今已是一个“小而旧”的模型）就动用了29,000个GPU，耗电1,287兆瓦时（MWh），而一个普通家庭年均用电量仅为10-12 MWh（De Vries，2023）。处理多模态数据（尤其是视觉数据）的具身AI代理将需要更多的存储和计算资源，并消耗更多能量。此外，每次推理请求的能耗据计算高达3-4瓦时（Wh），相当于一盏LED灯运行一小时的耗电量（De Vries，2023）。每一次规划序列都需要多次请求，而物理机器人必须携带足够的计算能力，才能实现实时部署。

让我们重新审视布鲁克斯（Brooks，1991）对GOFAI的批评：“当我们考察非常基础层次的智能时，发现显式的表征和世界模型反而成了障碍。事实证明，直接用世界作为它自己的模型更为有效。” 这一观点是否也适用于WEAI？很大程度上是适用的。WEAI的表征并非显式，但WEAI的力量恰恰在于利用“世界模型”。理论上，如果在特定机器人具身形态中进行学习，有可能利用与世界的直接互动，但这实际上必须绕过LLM才能实现。

展望——WEAI在机器人领域的未来

让我们勾勒一下围绕弱具身人工智能（WEAI）未来发展的可能方向。

WEAI用于灵活的视觉感知与规划

一种保守的设想是：利用大型语言模型（LLM）和视觉语言模型（VLM）从互联网上已有的数据中学习到的能力，将被应用于机器人领域的灵活规划和（被动）视觉感知，正如上文所述的“WEAI的自然延伸”方向。与机器人的接口仍将依赖于“机器人控制API”，由其负责实时交互，就像当前模型那样，仅对末端执行器位置或机器人质心进行“推理”。

让WEAI更具具身性

WEAI内部的一些发展自然地扩展了其能力，同时也带来了更深层的含义。其中一个发展是采用以自我为中心的视角（ego-centric views）作为视觉输入，如J. Yang 等（2024）所做。与使用第三人称视角或“过肩”摄像头（既看到世界也看到机器人本身）的模型不同，第一人称视角可能为直接感知或主动感知以及感觉-运动协调打开大门。我们还认为，当通过遥操作机器人收集数据时，操作员所看到的视角以及用于后续训练记录的视角，都应采用第一人称视角。

另一个重要概念是“物体可供性”（object affordances）——即一个物体可以用来做什么（例如，椅子具有“可坐”的可供性）（Gibson，1979）。在WEAI的研究中也讨论过可供性（Ahn 等，2022；Singh 等，2023），但通常将其视为物体本身的属性。然而，可供性实际上取决于智能体的感知和运动能力（例如，机械臂无法“坐”在椅子上），并且对可供性的感知能力是智能体通过长期的感觉-运动学习过程获得的（Jamone 等，2018）。这种视角应被引入模型中，发展出“机器人感知的可供性”（robot-aware affordances）（Schiavi 等，2023）。

为机器人开发新的基础模型？

也许，机器人领域需要创建全新的基础模型。然而，这既面临实际困难，也存在根本性障碍。

明显的实际困难在于，这类数据难以获取。尽管已有多个研究项目正在进行（例如 Walke 等，2023），暂且不考虑跨具身问题，但从真实机器人收集的数据量与互联网上可用的文本和图像数据相比，仍然微不足道。数据增强技术或高度逼真的机器人仿真器可能成为部分解决方案。

然而，为机器人开发基础模型也存在一些根本性问题。在自然语言处理中，庞大的文本语料库本身就提供了所需的全部训练数据——模型可以被训练来预测下一个词、下一句话，或通过Transformer中的注意力机制（Vaswani，2017）捕捉更长距离的关联。像ImageNet（Deng 等，2009）这样的图像数据库通常还需要额外的标签（图像中有什么）。而通过在环境中驱动带传感器的机器人并由人类遥操作执行任务所收集的机器人数据集，则包含多模态数据的时间序列，可用于训练模型。仅在不同光照条件下驾驶真实机器人并用摄像头采集数据，其图像的多样性就已远超典型图像数据集。若涉及不同类型的机器人，多模态数据集的差异将急剧增加，从而显著降低不同平台之间的可迁移性。

因此，这里存在一个根本性的权衡：机器人具身形态越多样，模型所涵盖的不同感知与动作空间越多，各个机器人从共享的“巨大大脑”中获得的实际收益就越少。这是机器人领域基础模型的根本局限，目前只有部分应对方法：（1）通过抽象层隐藏机器人的具身特性，例如采用低维离散动作空间（Padalkar 等，2024；J. Yang 等，2024）；（2）标准化机器人——如Walke 等（2023）的研究中仅使用一种机器人类型。

另一个根本性限制是数据采集的被动模式（参见“主动具身互动 vs. 离线学习”）。模仿学习允许模型复制人类操作机器人完成任务的方式，但这种情况类似于图3所示的场景。要真正利用具身性，必须通过与环境的闭环具身互动进行主动学习。

最后，如果机器人基础模型继续像图3C那样仅聚焦于“机器人大脑”，那么它们仍将构成一种现代的、亚符号化的“感知-思考-行动”架构，仅通过机器人与环境形成单一闭环，本质上也意味着交互只有一种时间尺度（参见Iida 和 Giardina，2023）。为了充分实现具身性的所有含义，应考虑在不同时间尺度上建立多个交互回路，并在模型中加入更多关于机械和感知系统的细节，以便模型能够利用这些特性（见图1）。或者，这些回路可能无需被重新表征（建模——“有时世界本身就是它最好的模型”，R. A. Brooks，1991），但必须通过主动学习才能加以利用。

单一具身形态下的主动学习（强化学习而非大语言模型）

机器人学习（Peters 等，2016）也依赖深度神经网络（如深度强化学习），但并未依赖基础模型。这类学习通常是主动的，并在单一机器人形态下进行，且很大一部分在仿真环境中完成（例如FastGrasp’D，Turpin 等，2023）。这种方法本质上更具具身性，不会遭遇上述根本性障碍。

触觉不同于视觉

最近，一些多模态大语言模型（MLLM）开始引入触觉输入。在视觉上取得巨大成功的思路可以延伸到触觉，但前提是存在统一的触觉表征。Yang 等（2024）开发了UniTouch：一种面向基于视觉的触觉传感器的统一触觉模型。然而，仍存在若干障碍：（1）互联网上“没有触觉数据”；（2）触觉数据高度依赖于所使用的机器人手或夹爪类型以及传感器种类（参见Pliska 等，2024）；（3）触觉（包括触觉和本体感觉）数据的采集本质上是主动的——探索性动作对于识别至关重要。

跨具身性的前景

尽管乍看之下自相矛盾，但跨具身性的理念仍将持续受到关注。具身形态差异越大，正向迁移效果就越弱。然而，在运动控制领域，进展似乎是可能的。例如，Bohlinger 等（2024）已开发出可控制多种不同机器人形态的单一控制器。在生物学中，不同物种的运动控制器似乎也存在共通的设计原理（Ijspeert 和 Daley，2023）。大脑发出低维下行指令，与脊髓的低级控制、前馈与反馈机制协同工作的思路，对机器人基础模型具有吸引力——基础模型可学习生成这些下行指令（如运动速度和方向），其余部分则由机器人的低级控制器完成。

真正具身的人工智能

与GOFAI类似，在WEAI中，机器人的具身形态被视为无关紧要的外围部分，应当被抽象化或标准化。这种形式的“笛卡尔二元论”最终将阻碍技术进步。为了实现最优性能，必须对“大脑”与“身体”进行协同设计或协同演化。这当然是一项巨大挑战，但已有研究从建模与控制的角度（Pekarek，2010；Zardini 等，2021）或通过“深度进化学习”（Deep Evolutionary Learning，Gupta 等，2021）来探索这一问题。Gupta 等人让智能体同时但异步地经历个体学习与进化过程，更贴近生物物种的实际演化方式。他们成功复现了“鲍德温效应”（Baldwin effect），即进化选择不仅偏好适应度最高的形态，也偏好那些能够最快学习和适应的形态。

真正的具身必然需要利用物理规律。机器人身体与环境的物理交互可以通过“可微分物理”（differentiable physics，de Avila Belbute-Peres 等，2018）的方式融入现有模型。使用Transformer来建模物理系统也可能是可行的（Geneva 和 Zabaras，2022）。或者，更根本的方式是让控制器有机会直接学习如何利用与环境的交互——无需依赖内部模型。

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。 目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。