社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

分享

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

印度

一周十大热门主题

【ChatGPT移动应用吸金达20亿美元，为其竞争对手的30倍】-20250818182205

#机器学习# 【康奈尔团队首创微波神经网络，完全集成于硅微芯片且-20250820174022

费曼学习法：以教为学的深度学习方法

突发！知名剪贴板工具 Ditto 遭开发者"删库"，GitHub 代码全清空｜但同时...今天又发布...

超58000星！精选AI Agent、MCP开源大合集，Github每日第一

URDFly：专为机械臂设计的 Python 工具包，聚焦 UR-20250819182205

ICCV 2025 | 小红书AIGC团队提出图像和视频可控人脸生成新算法DynamicFace

机器学习学术速递[8.19]

【#小红书AIGC团队发布可控人脸生成方法#】据小红书消息，小红-20250819081139

科技爱好者周刊#362：GitHub 工程师谈系统设计

关注

Py学习 » aigc

机器人界颠覆者！星动纪元开源首个生成式AIGC机器人大模型VPP

AI数字世界 • 2 月前 • 102 次点击

来源：融合创新

目前AI大模型领域有两种主流方法，基于自回归的理解模型和基于扩散的生成模型，各自代表作分别为自回归的GPT和生成式的Sora：

GPT的思路演化到具身智能领域，就是以PI（Physical Intelligence）为代表的VLA技术，他是从视觉语言理解模型（VLM）微调而来，擅长抽象推理和语义理解。

生成式的技术与机器人的碰撞，就诞生了VPP这样的生成式机器人大模型。

然而，人工智能领域存在着著名的莫拉维克悖论（Moravec's paradox）：高级推理功能反而容易（例如围棋、数学题），下层的感知和执行反而困难（例如各种家务）。VLM更擅长高层级的推理，而AIGC生成式模型更擅长细节处理。VPP基于AIGC视频扩散模型而来，在底层的感知和控制有独特的优势。

如图所示，VPP分成两阶段的学习框架，最终实现基于文本指令的视频动作生成。第一阶段利用视频扩散模型学习预测性视觉表征；第二阶段通过Video Former和DiT扩散策略进行动作学习。

01.

提前预知未来

以往机器人策略（例如：VLA模型）往往只能根据当前观测进行动作学习，机器人策略需要先理解指令和场景，再执行。VPP能够提前预知未来的场景，让机器人 “看着答案” 行动，大大增强泛化能力。

VPP视频预测结果与机器人实际物理执行结果几乎一致。能被视频生成的，就能被机器人执行！

02.

高频预测和执行

AIGC视频扩散模型虽能生成逼真的视频，但往往花费大量推理时间。星动纪元研究团队发现，不需要精确地预测未来的每个像素，通过有效提取视频模型中间层的表征，单步去噪的预测就可以蕴含大量未来信息。这让模型预测时间小于150ms，模型的预测频率约6-10hz，通过action chunk size=10，模型的控制频率能超过50Hz。

如图所示，单步视频扩散模型预测已经蕴含大量未来信息，足够实现高频预测（规划）和执行。

03.

跨本体学习

如何利用不同本体的机器人数据是一个巨大的难题。VLA模型只能学习不同维度的低维度action信息，而VPP可以直接学习各种形态机器人的视频数据，不存在维度不同的问题。

如果将人类本体也当作一种机器本体，VPP也可以直接学习人类操作数据，显著降低数据获取成本。同时视频数据也包含比低维度动作更加丰富的信息，大大提高模型泛化能力。

VPP能学习跨本体的丰富视频数据，相比下，VLA只能学习维度不一致的低维动作信号。

04.

基准测试领先

在Calvin ABC-D基准测试中，实现了4.33的任务完成平均长度，已经接近任务的满分5.0。相较于先前技术，VPP实现了41.5%的显著提升。

左图为Calvin ABC-D任务的平均长度对比，右图为Real-World Dexterous Hand任务的成功率对比。可以看出，VPP方法在这两项指标中均取得了最佳表现，在仿真环境任务完成平均长度达到4.33，真机测试成功率为67%，显著优于其他方法。

05.

真实世界灵巧操作

在真实世界的测试中，VPP模型展现出了惊人的多任务学习能力和泛化能力。在星动纪元单臂+仿人五指灵巧手灵巧手XHAND平台，VPP能使用一个网络完成100+种复杂灵巧操作任务，例如抓取、放置、堆叠、倒水、工具使用等，在双臂人形机器人平台能完成50+种复杂灵巧操作任务。

06.

可解释性与调试优化

VPP的预测视觉表示在一定程度上是可解释的，开发者在不通过real-world测试情况下，通过预测的视频来提前发现失败的场景和任务，进行针对性的调试和优化。

而VLA模型是完全端到端的模型，开发者在调试优化中需要大量真实世界的测试来找到模型漏洞，需要花费大量的时间。

07.

写在最后

然而，就像在大模型领域LLM和生成式模型并存且互相借鉴融合的现状一样，VPP作为首个AIGC生成式机器人大模型与PI等VLA大模型也会相互促进和借鉴。

相信在行业不断开源优质模型与技术的有力推动下，机器人技术将会迈向一个崭新的阶段，而具身AGI也将沿着这条创新之路大步走来，与我们的距离越来越近，一个充满无限可能的智能未来正在朝我们招手。

以下是VPP项目开源部署Tips，供各位开发者参考：

1. 所有实验均使用一个节点（8卡A800/H100）完成；

2. 详细操作说明可在开源GitHub中找到；

3. 实验仿真平台是标准Calvin abc-d Benchmark；

4. 实验真机平台为星动纪元仿人五指灵巧手星动XHAND1以及全尺寸人形机器人星动STAR1。

END

声明

本文仅作分享交流之用，版权归原作者，仅代表作者观点，不代表本公众号立场。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与我们联系，我们将及时更正，联系方式：claudia.cao@everlaw.com.cn

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/183042

102 次点击

登录后回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)

沪ICP备11025650号