最近,李飞飞创立的 World Labs 推出了最新空间智能模型 Marble 的限量 Beta 测试版,主打“可从一张图片或一段文本提示,生成持久存在且可自由导航的 3D 世界”。
相比以往同类产品,Marble 在几何一致性、风格多样性、世界规模以及跨设备支持(包括 web、移动端、VR 头显)上都有明显提升。
它宣称,不仅让“3D 世界”不再只是静态画面,也不再被时限所约束,更让用户有可能真正“走入”人工智能所构建的空间世界;对比Google 的 Genie 3 相比,Marble 的“世界永久存在”“可自由漫游”“无视图变形”的体验成为核心卖点。
锦秋基金认为,Marble 并不是一款孤立的产品,而是李飞飞过去一年不断提出的 “世界模型—空间智能—三维表征” 思路的集中落地。
过去的诸多场合,她反复提及:大语言模型的边界非常清晰,真正的通用智能必须回到三维世界的对齐。背后,她在描绘一条清晰的路线图:从语言理解 → 世界理解 → 空间智能 → AGI。
因此,锦秋基金决定去系统梳理过去一段时间李飞飞所有访谈。单看 Marble,看到的是新闻;把所有访谈串联起来,更有可能看到李飞飞所代表的 新叙事、新范式和新机会。
我们希望,通过整理,可以看到一个产品背后更长期的思考与方法论;可以对比学术与产业的交叉点,理解她如何从 ImageNet 时代的“数据范式”,一路走向今天强调“空间范式”的转变;可以试着去判断,世界模型的兴起,是一次热闹的实验,还是未来十年 AI 的真正方向。
以下为我们对李飞飞近期访谈、对外公开资料梳理后的一些观察:
Marble 的发布不是单点产品,而是李飞飞过去一年“世界模型叙事”的集中落地。
大语言模型的边界已经清晰:它能写作和推理,但无法原生理解三维世界。
李飞飞押注世界模型,本质是在重建一条从 ImageNet 到 AGI 的新路径。
世界模型的核心在于三维表征与时空一致性,而非简单的多模态拼接。
“重建与生成的合流”是世界模型的关键拐点,它让AI既能理解真实世界,也能构造可能世界。
内容生产是世界模型的第一个落地场景,机器人和 AR/VR 将是下一个阶段。
世界模型的商业化窗口在于降低 3D 内容生产的门槛,其中一个应用场景是把原本 AAA 游戏级的投入拉低到创作者可及的成本。
空间智能是 AGI 的必要条件:如果不能在世界中行动,智能就不算“通用”。
数据、算力与算法仍然是底层三要素,但在三维时代,物理与一致性约束将成为新的决定性变量。
学术界在三维智能上依然有机会,因为很多突破并不依赖超大算力,而是新的表征与方法。
01
LLM 的成功与清晰边界:为什么语言不够?
李飞飞并没有否认大语言模型(LLM)的巨大成就。相反,她多次强调,数据驱动范式的崛起,加上算力和算法的共振,让 LLM 展现出了远超预期的能力。
从早期的监督学习到自监督、再到生成式建模,模型已经能在没有昂贵人工标注的情况下,学到强大的模式,并在写作、检索推理、编程等任务中快速落地。她坦言:“我至今仍会为 LLM 的涌现能力感到惊讶。”
但是,李飞飞同时提醒我们:LLM 的能力边界同样清晰。问题不在规模,而在信号与表征。
第一层:信号的本质。
语言并不是自然界中客观存在的实体,而是人类对世界的间接编码。李飞飞用一句话概括:“语言是一种有损的捕捉方式。”
所谓有损,意味着它在抽象与概括上非常高效,但在涉及三维几何、物理约束、对象交互和时序因果时,却难以完整传递关键信息。换句话说,语言能描述“苹果落下”,但它本身并不包含重力、速度和轨迹。
第二层:表征的结构。
无论是 LLM 还是多模态 LLM,本质上都基于一维序列。哪怕把图像或视频切成 token 拼接进序列里,也并不等于模型真正拥有三维理解。序列结构擅长捕捉符号依赖,却与三维世界的空间拓扑、尺度、姿态、接触关系和力学特性并不同构。结果是,这类模型可以“说”出逼真的描述,却很难“做”出稳定的行动。
因此,李飞飞明确反对“多模态 LLM = 空间智能”的简单类比。
她提醒大家:二维像素和短视频输入,并不会自动生长出三维结构。关键在于模型的内部表征是否原生地以三维为母语——能否直接表达表面、体素、辐射场等信息,并满足可微渲染、视角一致性和物理一致性的要求。
她给出的判断非常清晰:监督学习和自监督学习之间的分界线,并不是智能的真正瓶颈;真正的分水岭,是“能不能对齐三维世界”。
这也是为什么李飞飞并不否定 LLM 的价值,而是把它们放在语言交流、符号推理、知识处理、代码与工具使用这些最擅长的场景。
但一旦涉及三维结构和物理约束的任务——比如 AR 空间对齐、机器人抓取与装配、交互式场景生成——她坚持认为,必须交给以三维为核心的世界模型。
她甚至用一句话把这种差异点穿:“我不需要 LLM 来说服我世界模型的重要性。”
换句话说,LLM 的成功并不能掩盖它的局限,而三维空间智能才是真正的下一个必答题。
02
世界模型与 AGI:没有空间智能,就不存在完整的 AGI
在李飞飞的框架里,空间智能不是“可选项”,而是 AGI 的必需品。她给出了三点理由:
理由一:世界天然是三维的,二维观测只是三维世界的不完备投影。图像和视频将真实三维世界压缩到二维空间,从数学上讲,这是不完全确定的。仅依赖二维投影或一维序列,难以稳定地恢复深度、尺度、姿态、遮挡、接触等信息。如果内部表征仍停留在二维或一维层面,那么在涉及抓取、放置、路径规划、视角变化、多对象交互等任务时,就会缺乏必要的状态与约束条件,无法形成稳定的行动闭环。只有以三维表示为基础,才能有效地连接“看到什么”和“如何去做”。
理由二:语言的训练信号是纯生成的,不等同于真实世界的结构。李飞飞明确指出:“语言是一种纯生成的信号”,而现实的三维世界客观存在,受到物理规律和材料约束。虽然语言模式可以传递知识与描述过程,但不能替代对三维空间结构和物理约束的直接建模。
理由三:从演化史的角度看,空间智能更为古老、更为复杂,也更具关键作用。她指出语言在进化史上出现的时间较短,而视觉为核心的空间智能经过了长期的选择和积累。空间智能在认知系统中的权重更大、结构更复杂、挑战更高。
关于实现路径,她对“无限放大自监督”这种方式保持谨慎态度。她认为建立世界模型可能需要更具结构化的先验知识或适度监督,例如几何一致性、渲染一致性、动力学一致性和物理约束,以弥补单纯靠大规模序列学习在三维闭环任务上的不足。这并非回归旧式的强监督方法,而是在数据与目标之间适度引入必要的结构约束,使模型更敏感于三维世界的规律。
在AGI的定义与形式上,她不遵循流行的二分法。对于“单一大模型还是多Agent系统”的问题,她表示不拘泥于术语定义,而更倾向于将AGI视为解决“AI整体问题”的方法。她举例大脑虽然整体存在,但有功能分区,说明“单体与否”并非关键;真正重要的是能否用统一的三维表示和时空一致性,将感知、推理和行动稳定连接,并实现跨任务与场景的迁移。
因此,她明确认为空间智能是AGI的必要条件。若缺乏三维表示和物理约束下的交互闭环,系统将缺失“在世界中行动”的核心智能部分,而这正是“通用”智能的本质所在。
03
从 ImageNet 到世界模型
数据、算力与算法的共振,再次上演
李飞飞的思路里,AI 的每一次跃迁,都不是偶然,而是 数据 × 算力 × 算法 三要素的共振。她把这看成是自己一贯的“下注逻辑”。
回看 2012 年的 ImageNet 突破,本质上并不是全新的算法,而是“两块 GPU + 海量标注数据”,让几十年前的卷积神经网络真正跑起来。李飞飞把它称为:“旧思想 + 新资源 = 新时代”。当时她敢孤注一掷做 ImageNet,原因正是她看清了:数据的规模与多样性,才是泛化能力的决定性因素。
十多年过去,她在世界模型上其实延续着同一条脉络:
数据:这一次的难点,不是规模,而是 三维数据的匮乏。互联网天然产生的是二维图像和文本,而三维世界的数据量稀少、获取成本高。李飞飞的判断是,必须走“混合路径”——真实采集 + 重建生成 + 仿真合成,多渠道结合,才能支撑世界模型的训练。
算力:LLM 把超级算力推向了工业界,学术界很难跟。但三维方向却出现了“新机会”:NeRF 等方法用小规模算力也能做出原创突破,学术界重新找回了活跃度。这意味着,三维是少数还能维持学术–产业双轨共振的领域。
算法:她特别看重“重建与生成合流”的新范式。这不仅是技术细节,而是一种系统工程的升级:同一套三维表示,既能从观测中重建真实场景,也能从先验中生成可能世界。
换句话说,李飞飞不是把 Marble 看作一家公司单点产品,而是把它放在 范式演化的第三阶段:
阶段一:监督学习(ImageNet 时代,数据驱动感知)
阶段二:生成式建模(扩散/GAN,自监督与合成)
阶段三:三维世界模型(重建 × 生成,空间智能)
在她看来,这条路线的本质没变:找到那个时代“最被低估的数据形态”,用算力和算法把它推到极限。ImageNet 是二维标注,世界模型是三维表示。
这也是为什么,她反复强调“我不是在做新故事,而是在重复一条老逻辑”。
李飞飞认为,要实现从“语言理解”到“世界理解”的跨越,要让数据、算力与算法相互牵引、迭代,并沿着“监督→生成→三维”的范式演进,以三维表示为核心,真正打通“重建”与“生成”的系统工程。
(一)三要素共振:以数据为牵引,借助算力复兴经典算法,实现新一轮性能跃迁
她把自己的押注概括为“让数据驱动模型”。在她看来,数据是决定泛化能力的关键变量:当年之所以孤注一掷做ImageNet,就是意识到“数据是长期被忽视但数学上至关重要的因素”;一旦数据的规模与多样性达到互联网级别,模型的可迁移性和性能上限都将被重新定义。
同时,她也认可算力的作用:2012年的突破并非出现了全新的算法,而是“两块GPU加上海量数据”让早在上世纪就提出的卷积网络真正运行起来。她直言,早期卷积网络与AlexNet的几乎唯一差别,就是算力与数据量的差异。换句话说,在她的框架中,数据提出更高层次的问题,算力推动旧有的思想抵达新极限,算法则在数据与算力的共同推动下实现范式重塑——这便是她反复强调的“三要素共振”。
(二)范式演化的三个阶段:监督→生成→三维(世界模型)
她对近十余年学习范式的演进有清晰划分。第一阶段是监督学习时代:以人工标注的数据(ImageNet、COCO等)推动感知能力的启蒙。
第二阶段进入生成/自监督时代:从强标签转向海量弱标签或无标签数据,借助扩散模型和GAN等技术,从单纯的“识别”拓展到“合成”,模型开始具备在数据分布上的自我提升能力。
第三阶段则进入三维学习时代:以NeRF为代表,从二维观测数据中反推出三维结构,使得理解世界的对象从像素片段上升到时空几何。她特别强调第三阶段的核心特征是“重建与生成的合流”:同一套三维表示,既能实现从多视角重建真实场景,也能条件生成具有物理解释的虚拟世界,从而为世界模型提供统一的技术基础。
(三)学术与产业的资源分工:算力将超大模型推向工业界,三维算法则在有限算力中取得理论突破
她清醒地认识到资源版图的变化:语言大模型的训练将超算级资源集中到了工业界,学术界难以跟进单一路线追求更大规模的模型;但三维领域却出现了新的机会结构——NeRF等方法即便使用单机或小规模算力,也能做出原创性的突破,使学术界得以保持高活跃度与高产出。这并不是“谁取代谁”的问题,而是“谁更适合在哪个阶段解决哪一类问题”。
因此,她在公司与学术界之间采取了分阶段、分战场的策略:工业界侧重系统工程、数据工程与产品化;学术界则把表示、可辨识性、可解释的训练信号设计以及跨模态原理推向前沿。
(四)数据战略的“混合路径”:规模×质量×约束,三维世界必须纳入物理与任务一致性
针对世界模型最棘手的数据问题,她提出直接而务实的观点:互联网并不能天然地产出大规模、高质量的三维数据,因此必须走“混合路径”——即真实数据采集、衍生重建、程序化/仿真生成以及合成数据共同组成训练语料。
同时,要对数据进行高标准治理,将结构一致性、物理一致性与任务一致性写入数据约束。她直言:“垃圾进,垃圾出”,仅追求规模会放大误差与偏差,只有在数据质量与一致性上立好规矩,模型的三维推理与下游可行动性才能真正可靠。这与她最初“以数据驱动泛化”的信念一脉相承,但在三维时代,她正式将“一致性约束”升级为数据最重要的指标。
(五)开源与闭源的务实选择:尊重多路径竞争,同时保护开源生态的公共品价值
她不将开源与闭源看作意识形态之争:不同的商业模式与生态目标决定了不同的路径。她强调两点:
第一,具有社会价值和生态价值的开源项目应当被保护并获得激励;第二,企业应在合规、安全与责任边界内,选择适合自身的分层开源或双轨策略(例如开源推理栈、闭源权重或数据治理)。这种务实态度与她的“系统工程”视角高度一致:正确的工程边界比抽象的口号更能创造长期价值。
(六)面向未来的度量与节奏
延续她一贯的“落地即评测”的原则,空间智能的进步并非以榜单分数为唯一目标,而以真实的可用性为硬性指标:是否能用统一的三维表示稳定地支撑内容生产(创作、设计、虚拟摄影、教育),并逐步扩展到机器人、AR/MR领域的实时交互理解;能否让更多行业直接使用这些模型解决空间问题。这既是技术里程碑,也是她为团队设定的北极星。
04
产业路径与落地节奏:先内容生产、再机器人、后AR/VR
先从内容生产起步:将图像/视频生成升级为“世界生成”
在她看来,早期最具性价比且最容易体现价值的落地方式,是让模型直接产出可以操控的三维世界,而不仅限于生成一张图片或一段视频剪辑。她明确提出,要将用户体验从二维图像或视频提升到三维空间,理想的产物是“一个生动且能交互的三维世界”,用于游戏、虚拟摄影、影视制作、建筑与工业设计、教育等领域。
她把这种升级称为“一种新的媒体”:当生成三维世界的成本与门槛从传统“AAA级大作”的高成本、长周期降低到个性化、按需生成的轻量模式时,原本只有头部公司才能承担的沉浸式世界创作,将普惠给大量长尾创作者和中小型团队。
在技术推进上,她主张阶段式发展:首先扎实做好静态三维场景以及几何、材质和光照的一致性,再逐步引入动态要素(运动学与动力学)、可交互性(可编辑、可操作)和场景语义(对象关系、功能属性)。
她多次强调,将“内容生产”作为首个切入点,是因为在此过程中,从静态到动态、从观察到交互,每一步进展都能迅速展现出明显的价值,并且能够反过来增强底层的三维表示以及生成—重建一体化能力。
再到机器人与各类具身系统:用空间智能连接“数字脑”与“物理界面”
在她的框架中,机器人是世界模型的天然用户。她指出,机器人的“脑”位于数字领域,而与真实世界交互的接口位于三维空间,两者之间必须通过空间智能来连接。如果缺乏稳定的三维理解与可行动的世界模型,机器人在抓取、装配、导航、人机协作等任务中很难做到安全、可靠与泛化。
她特别提醒:二维视频对人类足够,但对机器来说远远不够,因为二维投影会丢失深度、尺度等关键信息;要让机器做出正确的空间决策,三维结构必须成为模型的底层表示。因此,她将机器人场景的应用顺序放在内容生产之后,既考虑到技术成熟度(即先把三维表示与交互能力打磨扎实),也符合安全与责任要求(先跑通可控的生成与编辑链路,再承接高风险的实体世界操作)。
(完)
锦秋基金“Soil种子专项计划”,专为早期AI创业者而设,致力于为拥有潜力的团队提供资金支持,帮助创业者将创新想法转化为实际应用,在AI领域破土而出,茁壮成长。
我们相信,一颗种子,只要给予合适的土壤和养分,就能长成参天大树。如果您正在寻找资金支持,欢迎将您的团队和项目介绍发送至 soil@jinqiucapital.com,让我们一起播种希望,收获未来!
点击下方图片链接,了解Soil种子专项计划更多详情。