机器人界「Sora」来了！清华、星动纪元开源首个AIGC机器人大模型，入选ICML2025 Spotlight

机器之心发布

机器之心编辑部

从 2023 年的 Sora 到如今的可灵、Vidu、通义万相，AIGC 生成式技术的魔法席卷全球，打开了 AI 应用落地的大门。

无独有偶，AIGC 生成式技术同样在具身智能机器人大模型上带来了惊人的表现。

“给我盛一碗热腾腾的鸡汤”，以前这句话能带给你一个温暖感人、栩栩如生的视频。现在，如果你旁边有一个机器人，这句话就能让他真的给你盛一碗汤！

这背后的技术来自于清华大学叉院的 ISRLab 和星动纪元 ——ICML Spotlight 高分作品 AIGC 生成式机器人大模型 VPP（Video Prediction Policy）！利用预训练视频生成大模型，让 AIGC 的魔力从数字世界走进具身智能的物理世界，就好比“机器人界的 Sora”！

VPP 利用了大量互联网视频数据进行训练，直接学习人类动作，极大减轻了对于高质量机器人真机数据的依赖，且可在不同人形机器人本体之间自如切换，这有望大大加速人形机器人的商业化落地。

据悉，今年的 ICML2025，Spotlight 论文中稿难度极高，在超过 12000 篇投稿中，仅有不到 2.6% 的论文能获此殊荣，VPP 就是其中之一。

VPP 将视频扩散模型的泛化能力转移到了通用机器人操作策略中，巧妙解决了 diffusion 推理速度的问题，开创性地让机器人实时进行未来预测和动作执行，大大提升机器人策略泛化性，并且现已全部开源！

论文标题：Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations, ICML 2025 Spotlight
论文地址：https://arxiv.org/pdf/2412.14803
项目地址：https://video-prediction-policy.github.io
开源代码：https://github.com/roboterax/video-prediction-policy

VPP 是机器人界的 “Sora”

目前 AI 大模型领域有两种主流方法，基于自回归的理解模型和基于扩散的生成模型，各自代表作分别为自回归的 GPT 和生成式的 Sora：

GPT 的思路演化到具身智能领域，就是以 PI（ Physical Intelligence ）为代表的 VLA 技术，他是从视觉语言理解模型（VLM）微调而来，擅长抽象推理和语义理解。
生成式的技术与机器人的碰撞，就诞生了 VPP 这样的生成式机器人大模型。

然而，人工智能领域存在着著名的莫拉维克悖论（Moravec's paradox）：高级推理功能反而容易（例如围棋、数学题），下层的感知和执行反而困难（例如各种家务）。VLM 更擅长高层级的推理，而 AIGC 生成式模型更擅长细节处理。VPP 基于 AIGC 视频扩散模型而来，在底层的感知和控制有独特的优势。

如图所示，VPP 分成两阶段的学习框架，最终实现基于文本指令的视频动作生成。第一阶段利用视频扩散模型学习预测性视觉表征；第二阶段通过 Video Former 和 DiT 扩散策略进行动作学习。

1. 提前预知未来：让机器人行动前做到 “心里有数”

以往机器人策略（例如：VLA 模型）往往只能根据当前观测进行动作学习，机器人策略需要先理解指令和场景，再执行。VPP 能够提前预知未来的场景，让机器人 “看着答案” 行动，大大增强泛化能力。

VPP 视频预测结果与机器人实际物理执行结果几乎一致。能被视频生成的，就能被机器人执行！

2. 高频预测和执行：让机器人执行速度 “更快一步”

AIGC 视频扩散模型虽能生成逼真的视频，但往往花费大量推理时间。星动纪元研究团队发现，不需要精确地预测未来的每个像素，通过有效提取视频模型中间层的表征，单步去噪的预测就可以蕴含大量未来信息。这让模型预测时间小于 150ms，模型的预测频率约 6-10hz，通过 action chunk size = 10，模型的控制频率能超过 50Hz。

如图所示，单步视频扩散模型预测已经蕴含大量未来信息，足够实现高频预测（规划）和执行。

3. 跨本体学习：让机器人先验知识流通 “畅通无阻”

如何利用不同本体的机器人数据是一个巨大的难题。VLA 模型只能学习不同维度的低维度 action 信息，而 VPP 可以直接学习各种形态机器人的视频数据，不存在维度不同的问题。如果将人类本体也当作一种机器本体，VPP 也可以直接学习人类操作数据，显著降低数据获取成本。同时视频数据也包含比低维度动作更加丰富的信息，大大提高模型泛化能力。

VPP 能学习跨本体的丰富视频数据，相比之下，VLA 只能学习维度不一致的低维动作信号。

4. 基准测试领先：让机器人性能 “一骑绝尘”

在 Calvin ABC-D 基准测试中，实现了 4.33 的任务完成平均长度，已经接近任务的满分 5.0。相较于先前技术，VPP 实现了 41.5% 的显著提升。

左图为 Calvin ABC-D 任务的平均长度对比，右图为 Real-World Dexterous Hand 任务的成功率对比。可以看出，VPP 方法在这两项指标中均取得了最佳表现，在仿真环境任务完成平均长度达到 4.33，真机测试成功率为 67%，显著优于其他方法。

5. 真实世界灵巧操作：让机器人灵巧操作 “举一反三”

在真实世界的测试中，VPP 模型展现出了惊人的多任务学习能力和泛化能力。在星动纪元单臂 + 仿人五指灵巧手灵巧手 XHAND 平台，VPP 能使用一个网络完成 100+ 种复杂灵巧操作任务，例如抓取、放置、堆叠、倒水、工具使用等，在双臂人形机器人平台能完成 50+ 种复杂灵巧操作任务。

6. 可解释性与调试优化：让机器人 “透明可控”

VPP 的预测视觉表示在一定程度上是可解释的，开发者在不通过 real-world 测试情况下，通过预测的视频来提前发现失败的场景和任务，进行针对性的调试和优化。

而 VLA 模型是完全端到端的模型，开发者在调试优化中需要大量真实世界的测试来找到模型漏洞，需要花费大量的时间。

写在最后

然而，就像在大模型领域 LLM 和生成式模型并存且互相借鉴融合的现状一样，VPP 作为首个 AIGC 生成式机器人大模型与 PI 等 VLA 大模型也会相互促进和借鉴。

相信在行业不断开源优质模型与技术的有力推动下，机器人技术将会迈向一个崭新的阶段，而具身 AGI 也将沿着这条创新之路大步走来，与我们的距离越来越近，一个充满无限可能的智能未来正在朝我们招手。

以下是 VPP 项目开源部署 Tips，供各位开发者参考：

所有实验均使用一个节点（8 卡 A800/H100）完成；
详细操作说明可在开源 GitHub 中找到；
实验仿真平台是标准 Calvin abc-d Benchmark；
实验真机平台为星动纪元仿人五指灵巧手星动 XHAND1 以及全尺寸人形机器人星动 STAR1。