在第八届虹桥国际经济论坛“人形机器人创新发展合作”分论坛上,宇树科技创始人王兴兴发表了主题演讲,分享了他对当前机器人产业与具身智能未来的思考。
他透露道,我国的机器人产业增速十分迅猛,我国的出口工业机器人的数据增长达到了54.9%,并预计智能机器人领域的增速应该达到了100%。
此外,王兴兴还给出了自己对于具身智能“ChatGPT时刻”的定义:
真正的具身智能在“ChatGPT时刻”是在陌生的生活场景中,如果给机器人发送语音或文字,机器人大概能实现80%左右的任务。
不过,在谈及技术进展方面,王兴兴坦承:目前机器人大模型的整体进展不及预期,“比想象中慢了点”,但强化学习的运控能力明显提升。机器人大模型还处于ChatGPT发布前的1-3年。
下面是更详细的整理,各位enjoy:
行业现状:智能机器人增速或达 100%
王兴兴透露,我国机器人产业正以惊人的速度增长——仅出口工业机器人的数据,就同比增长 54.9%。
他判断:“如果工业机器人都能有这样的增速,那智能机器人领域的平均增长,至少能达到 100%。”
在他看来,今年是整个智能机器人产业“非常非常火热”的一年,这背后离不开政策的持续加码与产业链的加速完善。
技术进展:全身运控明显提升,但大模型“略慢”
谈到技术层面的突破,王兴兴直言,机器人大模型的整体进展“比想象中慢了点”,但强化学习的全身运动控制能力却在今年迎来飞跃。
“像我们做深度强化学习的全身运控,今年相对去年进步非常明显,全球有目共睹。
但具身大模型、端到端能干活的那部分,比我预期稍微慢了一点,但总体还是非常快。”
他形容,当前机器人大模型的状态,大约相当于 “ChatGPT 发布前的 1-3 年”——方向已经明确,但距离临界点还差一点火候。
模型与数据:不能偏科,必须并进
针对外界普遍关注的“模型和数据哪个更关键”这一问题,王兴兴认为,二者缺一不可。
“简单的模型结构已经尝试了很多,但泛化能力还不够;数据质量和规模也需要进一步提升。
这两部分是相辅相成的,不能只一股脑采数据,也不能只把模型做大。
真正难的是:怎么创新模型结构、怎么采高质量数据、怎么评估数据好坏——这些都是当前行业的难点。”
具身智能的“ChatGPT 时刻”:能完成 80% 现实任务
对于何时迎来具身智能的“ChatGPT 时刻”,王兴兴给出了一个非常清晰的定义:
“真正的具身智能,是在陌生生活场景中,如果你发一个语音或文字指令,机器人能完成大约 80% 的任务。
这个场景里,机器人是没被专门训练过的。
能达到这个程度,就基本可以称为‘ChatGPT 时刻’,这是非常重要的目标。”
他补充说,希望未来一到两年内能看到这一突破,但也坦言:“说实话,现在做 AI 仍然有概率成分和运气成分。谁先实现这个目标,谁就会成为全球最领先的具身智能团队。”
技术取向:更看好“基于视频生成的世界模型”
在具身智能领域,当前主流的两条技术路径是 VLA(视觉-语言-动作)模型 与 世界模型
。
对此,王兴兴有自己的判断:
“VLA+RL 模型架构清晰,可以用仿真或真实环境训练,是目前的主流,但泛化能力还不够。
我个人更喜欢 基于视频生成的世界模型——虽然算力需求极大,中小公司跑不太动,但大公司有资源支撑,成功的概率更高。”
ChatGPT前夜,拼的是算法和速度
可以从王兴兴的发言看出,目前具身智能虽然仍处在“ChatGPT 前夜”,但方向已经清晰:
强化学习在运动层面的突破,为机器人“行动自由”打下基础;
而大模型、数据和世界模型的结合,将决定机器人能否真正“理解世界”。
正如王兴兴所说,这场赛跑既拼算法,也拼时间,更拼哪家能率先跑到那个“80%”。