宇树王兴兴最新演讲：机器人要如何迎来“ChatGPT时刻”？

图说标注.png 图为宇树科技创始人兼CEO、CTO王兴兴

近日，宇树科技创始人兼CEO、CTO王兴兴在2025世界机器人大会上，分享了他对全球机器人行业发展现状的最新观点。王兴兴认为，人形机器人行业已经走到“ChatGPT时刻”的前夜，最快1-2年就能迎来这一时刻。

以下为演讲内容实录（有删改）：

我分享一下我个人对全球人形机器人行情的看法。今年上半年，最大的特点就是由于机器人行业非常火爆，以及政策的相关支持，整机厂商、零部件厂商，平均实现了50%到100%的增长。增长幅度还是非常惊人的，这对整个行业而言都是十分罕见的，需求端拉动了整个的行业的发展。

海外市场方面，特斯拉作为行业代表，计划今年量产数千台人形机器人，并将发布第三代Optimus人形机器人，值得重点关注。此外，全球企业对机器人行业的热情高涨，包括英伟达、苹果、Meta、OpenAI等企业都持续在推动这一领域的发展。

我分享几个个人的观点，未必准确。

第一点，对于机器人本体来说，很多人可能会有这样一个误区：机器人目前没有大规模应用、功能不够完善的原因，是硬件不够好，或者成本比较高。

其实目前的硬件，无论是整机还是灵巧手，从某种意义上来说完全是够用的。当然不够好，还需要优化，更大的问题是量产，工程上的问题肯定是很多的。

但是在技术层面上，或者从AI的角度来说，目前的硬件是完全是够用的。目前最大的挑战还是具身智能，或者说AI技术的发展，完全不够用。这也是限制当前机器人，尤其是人形机器人大规模的应用的最大问题。

目前，机器人行业所处的位置，就像是ChatGPT诞生前的1-3年左右，目前业界已经发现了类似的方向以及技术路线，但是没人把它做出来。

ChatGPT出来的前几年，做语音AI的已经做了十几年，近二十年了，但是大家一直觉得他很傻瓜，很弱智，根本完全没法用。ChatGPT出来后，它实现了比一般人还要强的能力。机器人还没有到达这一临界点。

对于机器人的AI技术，我认为临界点可能是这样的：当一个人形机器人能够进入一个完全陌生的环境（比如从未见过的会场），我跟他说“把这瓶水带给某位观众”，或是“整理一下这个房间”，而它能够顺畅自主地完成任务，这就是人形机器人的ChatGPT时刻。

如果进展快的话，可能未来的1～2年或者2～3年，我们就能实现这一目标，最慢的话3～5年也有很大概率能实现。

目前，具身智能不够用的问题，究竟是模型还是数据导致的？我反而感觉目前全球范围内，大家对机器人数据这个问题的关注度有点太高了。现在最大的问题是反而是模型的问题，并不是数据问题。

对于具身智能和机器人来说，模型架构都还不够好，也不够统一。大家对模型问题的关注度高，反而对数据的问题关注很多。因为在大语言模型领域，大家觉得我有足够多的数据，尤其有足够多的好的数据的时候，我就能把模型训练得越来好。

但是在具身智能，在机器人领域，大家可以发现，很多情况下有了数据，会发现这个数据用不起来。

相对比较火的就是VLA模型。VLA是一个相对比较傻瓜式的架构，我个人对VLA模型还是保持一个比较怀疑的态度。VLA模型在与真实世界交互时，它的数据质量、能采集的数据是不太够用的。

有个简单的想法，就是在VLA模型上面加一个RL的训练，这是一个非常自然的想法。但是我个人感觉，包括我们公司目前尝试下来VLA模型加RL训练，我觉得还是不够的，模型架构还是得再升级和优化。

这里也简单分享一下我们过去做的一些事情。大家也可以关注到，谷歌发布了他们全新一代的视频生成模型，或者某种意义上是一个视频驱动的一个世界模型。还有，去年的时候，当OpenAI发布了视频生成模型以后，大家会有一个很自然的想法：我可以控制一个视频生成模型，跟他说“帮我生成一个机器人，去整理一下房间”。

如果模型生成的视频中，机器人可以完成任务，那我是不是能让这个视频生成模型直接去驱动一个机器人完成任务。这个想法非常简单直接，我们去年的时候就去做了这个事情。

大家可以看到，右上角的视频其实是生成出来的，不是用摄像头采集的。我们用一个预训练的视频生成模型，重新训练了一下，让他先去生成一个机器人动作的视频，然后再控制一个机器人去做，这个技术是能实现的。包括谷歌的视频生成世界模型，他们也想实现这个效果。

我认为这个路线的方向可能会比VLA模型发展得要快，收敛概率还更大。但我不敢打包票，可能还是有很多问题。其中有个很大的问题就是，视频生成模型太关注视频生成的质量了，导致对GPU的消耗有点大。

对机器人干活来说，某种意义上你并不需要很高精度的视频生成质量，你只要驱动机器人去干活就行了。大家可以关注谷歌的视频生成模型，还是非常有意思的。整个模型的架构还是非常简单粗暴的，就是把机器人的一些动作序列控制，直接对齐到模型的架构上。

另外一点，大家也知道，目前机器人跳跳舞、打格斗效果其实不错了，但实际上面临一个很大的问题，如果要进一步机器人能力提升，也就是机器人RL的Scaling Law，还是做得非常不好。

举个最简单的例子，我训练一个机器人做新的动作、跳新的舞蹈，都要重新训练，还是从头开始训练，这是非常不好的一个事情。我们是希望机器人每次做一个新的训练的时候，可以在过去训练基础上进行。

理论上我做RL训练的时候，每次训练的速度应该越来越快，学习新技能的效果越来越好。但是全行业内，目前整个机器人在RL的Scaling Law，没有人做出来，做好。我觉得这是非常值得做的一个方向。

因为RL Scaling Law在语言模型上已经是充分验证过的事情。但在机器人的运动控制上面，大家才刚刚开始。

我个人感觉，在未来2到5年，智能机器人技术的重心是端到端的具身智能AI模型。我觉得模型本身是最重要的。

然后就是更低成本的，更高寿命的硬件，这个是毋庸置疑的。大家也知道，哪怕对于汽车行业来说，已经一百多年了，哪怕到今天，一家企业要做很好的一辆汽车出来，工程量还是非常大的。

对机器人行业来说，未来如果每年要生产制造几百万、几千万甚至几亿的人体机器人，它的工程量挑战还是非常惊人的。

同时，低成本的大规模的算力也很重要。在人形机器人上，或者在移动机器人本体上，其实没办法直接部署大规模的算力。它的尺寸只有这么大，它的电池只有这么大，它部署算力的功耗是有限制的。

我个人感觉，在人形机器人上，最多只能部署峰值功耗为100瓦的算力，平时工作的时候算力只有小几十瓦，简单说就只有大概几个手机的算力水平。

但是，未来机器人还是需要大规模算力的，而且我认为可能是分布式的算力。机器人干活的时候，我们希望其通信延迟比较低的，如果在北京干活的机器，数据中心在上海或者在内蒙，延迟实在是太大了。

我认为，未来在工业领域大规模运用人形机器人时，工厂里面可以有个分布式的服务器，所有的机器人直接连接工厂里的局部服务器就好了。服务器的安全性、通信延迟是可以接受的。

或者换一个话题，如果一个小区每家每户有一个机器人的时候，在这个小区可能是有分布式的集群算力中心的，可以保证延迟与安全性。并且，如果有新客户想买一个人形机器人的时候，他不需要给这部分算力的建设花钱，成本也会更低很多。

我认为分布式算力将会是机器人行业未来非常重要的一个领域，可能比目前算力的分布还要更广一些。

此外，AI与机器人领域的发展始终是在一个全球共创的过程。无论是中国的科技企业、美国的行业巨头，还是英伟达等跨国公司，都在这一进程中做出了很多贡献。

在AI领域，没有一家大公司能保证，只要有足够的人才、足够的资源，就能永远领先。OpenAI和DeepSeek已经证明了，AI的创新永远伴随着一些随机性，伴随着更多聪明年轻人的智慧和创造力。所以，很多情况下的重大突破往往源自众多企业、高校做出的贡献，最终仍需通过全球协作共同实现。

来源｜亚布力企业家论坛CEF

编辑｜李其奇

责编｜郭冉

终审｜赵建伟

清华五道口科学企业家项目是由清华大学五道口金融学院与麻省理工大学斯隆管理学院携手倾力打造，项目依托百年清华的科技技术优势和麻省理工大学的最强科研力量为基础，整合诺贝尔奖获得者、图灵奖获得者、中国工程院院士、中国科学院院士等众多国内外顶级科学家和科研机构的资源，科学驱动，面向未来，希望通过项目的发展和延伸，建设成为连接产业、科研、资本融合发展的平台。