社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

规模不足,质量待解,具身智能数据何时迎来“ChatGPT时刻”?

财经 • 2 天前 • 22 次点击  

据《财经》新媒体不完全统计,今年以来,已有弈人科技、鹿明机器人、光轮智能、无问智科、核数聚等多家企业完成融资,融资规模从数千万元至数亿元不等。

。。


来源 | 《财经》新媒体

文 | 《财经》新媒体撰稿人 刘芬

编辑 | 蒋诗舟


2026年人形机器人产业进入量产元年,产业竞争焦点从本体硬件能力转向具身大脑与数据储备,“数据铲子”的故事拉开序幕。


在具身数据赛道,一级市场融资开始密集涌现。6月1日,简智机器人宣布完成连续多轮共数亿元融资,成为“无本体数据”领域累计融资金额最高的公司。据《财经》新媒体不完全统计,今年以来,已有弈人科技、鹿明机器人、光轮智能、无问智科、核数聚等多家企业完成融资,融资规模从数千万元至数亿元不等。


除此之外,以京东、百度为代表的互联网巨头入局,打响具身智能数据基建争夺战。多家头部具身厂商,也发力数据采集业务。2026年2月,智元拆分出觅蜂科技,定位具身智能数据供应商。


星海图是具身智能产业链上一个典型的 “全栈”玩家——既造本体,也做模型,还下场采数据。6月16日,在星海图首届具身智能开发者大会上,其CEO高继扬首次完整披露公司具身智能技术路线,首秀双足人形机器人Kengo,发布新一代VLA基础模型G0.5并宣布开源同时,星海图宣布与北京亦庄共建数据公司“亦数智能”,启动“100万小时超高质量真实数据计划”,规划今年完成百万小时、未来三年迈向千万小时。


这背后,数据稀缺已成为制约具身智能泛化能力突破的主要瓶颈。与传统大语言模型可利用互联网海量文本不同,具身智能模型训练极度依赖包含视觉、力觉、动作轨迹、物理交互结果的多模态物理数据。


大会现场,清科灵境创始人、中科大教授杨子江用石油从开采到炼化的过程类比具身智能数据的处理。在他看来,数据采集只是第一步,中间需要经过加工、提炼才能变成可用的燃料”产品,这是一套庞大复杂的技术体系。具身智能领域要形成真正的数据产品“小作坊捡柴”走向“工业化炼油”,在规模和技术上持续迭代,才能把具身和智能通过数据融合在一起。


图片

数据总量与质量双重不足,采集成本高企制约模型泛化


业界普遍认为,一个强大的机器人大脑,需要对环境的信息做全方位、全维度的感知,且能够理解人的指令。其中,数据是决定具身模型能力边界的竞争壁垒。


具身智能预训练阶段需要各类数据。高继扬直言,星海图首先是一家具身智能大脑企业,做的最重要的事是具身智能基础模型的预训练。这赋予了公司一种截然不同的规模效应——“学的越多越聪明”。历史上,大部分成熟企业的规模效应都来自于“造的越多越便宜”。在他看来,这两者的分野,正是区分人工智能企业与非人工智能企业的关键。


他提供了一个观察:现在具身基础模型的成长速度,快于婴幼儿学习技能成长速度,但数据量的上升并不直接提升模型执行速度,执行速度与后训练关系很大。所采集的这些数据主要服务于预训练,解决泛化性问题,即新场景、新任务能否不用新增数据也能完成。后训练则通过特定数据“上岗培训”,提升执行速度。


高继扬举例,一个人从0到18岁、清醒时间里与物理世界交互的总时长约为10万小时。而行业要达到具身智能的“ChatGPT时刻”,需要百万到千万小时间的训练时数。如此多数据量训练出的基础模型,会带来突破性改变。


2026年6月3日,国家数据局正式印发《关于推进行业高质量数据集建设行动的实施方案》,对数据赋能人工智能发展作出系统性部署,并将具身智能纳入创新领域重点支持方向。


海天瑞声CEO李科分析,具身智能行业尚未突破数据走向智能,原因有两点。其一,数据流通性不够,在各个训练场里有孤岛效应。其二,整个数据总量不够。在训练场里,目前国内能用于具身模型训练的数据大概在百万小时左右,且具身智能数据的多样性不及互联网数据。


数据总量不及千万小时之外,质量也是重要一点。在鲸跃动力CEO李广宇看来,整个具身行业已高速发展三年,但真正重视数据才一年多,什么样的数据对模型最有效,大家还在摸索阶段。“希望今年行业能积累千万小时的数据,其中有价值的数据量能达到百万小时,从量变看到质变。”


Modalink创始人、清华大学交叉信息研究院助理教授张焕晨表示,具身智能的训练数据主要分为几类,包括人类视频数据、合成仿真数据,以及真机数据。其中,人类视频数据非常丰富,但在训练机器人模型时,这类数据只能让模型学个大概。


就像看了再多梅西踢球的视频,动作模仿得再像,真正触球那一瞬间,扭矩的细微偏差都会让结果谬以千里。张焕晨称,这种与物理世界接触的关键数据,必须靠真机采集手段来填补,然而这些数据还非常稀缺,包括真正采集的总量、互相流动性、跨机训练等。


值得一提的是,真实场景下的数据采集成本高。今年两会期间,已有政协委员提醒,一条高质量数据虽长度仅几十秒,但有时需耗费数小时采集,并经过清洗、标注、管理等工序,应当规避数采工厂的重复建设问题。


图片

多元数据采集路线并行,产业链协同与生态建设仍处早期


星海图CFO罗天奇表示,真实数据为主的路线中,真机数据质量最优,但无本体采集数据虽质量稍逊,却更易规模化并深入场景。他将具身基础模型的训练,比作填充由操作对象、动作、场景构成的三维空间。在他看来,真机数据是单点质量高的“点源”;无本体数据包括年初跟英伟达合作异构的数据,贡献的是多样性;二种方案混合训练,方能兼顾质量和多样性,让三维空间填充地更好。


据悉,无本体数据采集是具身智能领域一种不依赖特定机器人硬件的数据采集方式,通过让人穿戴设备或手持工具在真实场景中操作,把人类动作转化为机器人可学习的训练数据‌。


张焕晨指出,无本体数据采集在具身数据版图中质量已属上乘,仅次于真机。但实现机器人完全泛化,所需数据量庞大、场景繁多,单靠人工采集难以覆盖长尾需求,因此必须结合仿真,走Sim-to-Real(仿真到真机迁移)路线以补足短板。

‌‌

真机数据虽质量公认最高,但成本高、规模小。杨子江透露,为降本增效,其团队也在做具身智能基础平台,用新操作系统提升数据传输效率,直接降低采集成本。同时,针对真机采集中的失败案例,将Corner case数据泛化为高价值、低成本数据。整体来看,真机采集本身有很大可提升空间,数据采集技术正持续迭代,未来将趋向成本更低、质量更好。


当前,数据产业链仍属新兴产业,就人工智能训练数据而言,涵盖采集、标注、运营等环节。而数据公司的核心差异,在于数据有效性的确认。李科观察到,不同公司对“高质量数据集”的界定、何种数据更适用于预训练或微调等存在差异。其中数据质量的确认,离不开与模型团队的紧密配合,需在训练中不断验证。


他强调,从实践来看,数据公司应具备一定的算法能力,至少能微调模型,最好能涉足预训练;更重要的是,与客户及模型团队高效协同。项目推进宜从小规模试点起步,验证可行性后再逐步扩展,这是合理的技术路径。


罗天奇也表示,产业链初期应坚持垂直整合,数据团队与模型团队需背靠背联合迭代,尤其在早期预训练阶段尤为关键。为此,他们将数据采集设在北京,以就近配合本地模型团队,形成高效协同。


模型、数据、评测团队紧密协同是理想状态,但真正挑战在于数据量突破千万小时量级后,有效筛选能力才是壁垒。李广宇强调,端侧需要有一定智能。长期来看,谁的数据效率迭代地最好,或与端侧模型实时分析能力正相关。


杨子江则指出,数据生态尚处极早期,场景覆盖像胡椒面一样浅尝辄止,真正落地的垂直领域严重缺少数据。同时,如何判断数据技术量,如何为数据定价等,仍像处于 “农业社会”,技术路线也未收敛,各家在质量与数量上差异显著。基于此,设立数据联盟,通过行业共识把整个生态建立起来非常有意义。


图片

千万小时数据目标渐近,智能跃迁时间与成本结构待验证


整体上,业界有个共识:训练智能的总成本里,算力是最大开销,与之相比数据成本相对较小。


对此,张焕晨认为,数据成本会随规模扩大持续增长。以智驾行业为例,EB级数据的管理、检索、预处理及搬运至GPU的全链路成本,并把GPU卡成本算在内,已占部分头部车厂的25%以上,且此成本仍随着数据量增长在上升。


李广宇表示,成本优化要善用消费电子供应链。未来可穿戴设备、智能眼镜等终端天然是具身数据的重要入口,比如几百元的手机已具备高质量摄像头和端侧算力,可以产生高价值数据。同时,随着今年具身应用元年到来,更多机器人将落地实际生产生活,其运行时产生的数据也同样具备价值潜力。两方面叠加,有望实现数据量的实质突破。


高继扬分析,不应孤立看待数据成本,而应关注智能总成本,后者由数据成本、算力成本及研发团队工程师成本三部分构成。其中,数据成本和算力成本,星海图的实践至少是1:10,1块钱的数据至少10块钱去做训练才能把它训明白。


他透露,单看数据成本,Human centric data方面,星海图实践下来是50元-100元/小时,根据地区差异有波动和下浮空间。robot centric data遥操作数据,算上人工和各种机器折旧,约250元/小时。现在市面上,比如robot centric data遥操作数据,300元-350元/小时都有,有10%-20%的毛利。综合看,成本在100元-150元/小时,意味着100万小时的成本在1亿元-2亿元左右。“今天做大语言模型训练,每年算力支出是几亿美金量级。相比于这几亿美金,这一两亿必须得花,而且太划算了。”


据悉,星海图是行业内较早押注真实数据的公司,其去年开源的GOD数据集下载量接近60万次。但高继扬认为这只是开始,中国不但有硬件供应链优势,也有数据供应链优势,从设备、采集运营,到场景多样性、数据成本,都在全球遥遥领先。


眼下,机器人的智能水平相当于一个小婴儿,谈到还需多久可达到七八岁儿童水平,李科的判断是仍需3年-5年,待有效数据量达到约千万小时,现在很多数据具同质化。杨子江也认为3年左右,不仅考虑技术的进步,还需考虑法规、安全、伦理等问题。


张焕晨表示不做具体时间预测,大家保持乐观、往正确方向走即可。他认为,关键要看两个方向:一是千万小时高质量数据能否真正采集到位,并像大模型那样迎来 “ChatGPT时刻”。二是模型侧可能出现颠覆性创新,跳脱Scaling Law(规模定律),以更低数据消耗实现更强泛化。只要其中一条走通,目标智能水平就有望达成。


今日话题

你怎么看具身智能的后续发展?

欢迎在评论区分享你的观点。

往期文章

一大批中年人正在涌入这个职业
租售比超2%跑赢存款利率,300万元老破小被“疯抢”?
算力狂飙,铜箔不够用了
“挂上去几秒钟就没了”,二手大额存单爆火


责编|代鑫媛  监制 | 王小贝

你点的每个“在看”,我都当成喜欢

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/197839