理想汽车郎咸朋：如果做到1000公里接管一次，VLA会迎来ChatGPT时刻｜远光灯

腾讯汽车《远光灯》

文｜傲然

编辑｜杨布丁

7月29日，理想i8正式上市，售价为32.18万元-36.98万元，8月20日开启交付。与新车一起交付的，还有理想汽车下重注的“VLA（Vision Language Action Model，视觉语言行动模型）司机”，这是理想i8核心卖点之一。发布会前，李想这样评价VLA司机大模型： 表现超预期，训练成本也超预期。

VLA是近一年智驾领域最热的词，但行业对其技术路径和认知尚未形成共识。

除了理想汽车，智能驾驶解决方案商元戎启行、车企阵营中的小鹏汽车都已宣布在今年内落地该模型，并认为VLA是突破现有技术瓶颈的关键方向。Momenta CEO 曹旭东则持不同观点，他认为VLA只能锦上添花，VLA概念跟更好的模型不是同一件事，实现规模化L4需要海量数据和强化学习技术。

理想i8上市前夕，理想汽车组织了一场“VLA司机”沟通会，理想汽车自动驾驶研发高级副总裁郎咸朋、理想汽车自动驾驶高级算法专家詹锟、湛逸飞出席，聊了聊“VLA司机大模型”研发背后的细节和思考逻辑。

李想曾表示，端到端模型像猴子开车，它能够学习人类行为，但并不理解物理世界。郎咸朋称，此前的“端到端+VLM”方案存在三大问题，即违反常理的行为、开车不够聪明、安全感不足，其本质原因是模仿学习本身不具备深度的逻辑思维能力，因此理想推出VLA司机大模型。

“现在来看，只有我们才有机会第一个去做出VLA。”郎咸朋认为，理想汽车能够比友商早、第一个落地VLA，是源于理想在数据、算法、算力、工程四方面的优势，“很多人还在嘴上说，还在用端到端的方式去做VLA”。

按照理想汽车的解释，VLA架构让模型能 “思考、沟通、记忆、自主学习”，天然支持人类语言指令（如 “开快点”、“左转”），且通过 Diffusion 技术生成平滑轨迹，告别急刹、猛转，大幅提升舒适度。

郎咸朋介绍称，截至2025年7月，理想已经累计12亿公里的有效数据，结合世界模型生成的合成数据（如极端天气、危险场景）弥补真实数据缺口，VLA后训练过程中，使用了10%的合成数据，90%的采集数据；算法层面，理想升级了模型评测方式，使用世界模型做模型的仿真测试，2025 年上半年完成 4000 万公里仿真测试，实车测试2万公里，成本降至 0.53 元 / 公里。

算力方面，郎咸朋认为，在VLA时代，推理算力更重要，如果没有推理卡，就不能生成仿真训练环境。目前，理想汽车总算力为13EFLOPS，其中3EFLOPS用于推理，10EFLOPS用于训练。

从去年 10 月 23 日全量推送端到端 + VLM 方案，到今年 8 月 20 日即将全量推送的VLA 司机大模型，理想汽车或将用短短 10 个月的时间彻底告别 “智驾追赶者” 身份。理想汽车认为，如果明年做到1000MPI（Mileage Per Intervention接管里程，1000 公里接管一次），VLA会来到ChatGPT时刻。

理想i8是承载着李想多重战略期待的 “坐标式产品”——理想能否在纯电领域站稳脚跟，能否从“智驾追赶者”转身成为“智驾引领者”，均在此一役。从更长远看，理想能否成为一家人工智能公司，外界也能从这款车的关键技术落地中看到一些答案。

以下是沟通实录（经删减）：

“很多团队并不是认为VLA不好，

而是部署有困难”

问：VLA司机具备推理能力，表现更像人了，但它需要几秒钟的推理时间，请问在突发场景下，VLA司机是怎么进行快思考的？

郎咸朋：您认为思考过程很慢实际上是显示（注：理想车机上显示的推理过程）的原因，本身推理速度是很快的，只是为了让大家能够看的更清楚，我们摘取了一些重要的思考过程显示出来。实际上现在VLA的推理帧率在10Hz左右，相比之前的VLM提升了三倍多，之前端到端的VLM部分是3Hz左右。

问：现在用MindGPT作为基座模型进行训练，这比之前的模型好用吗？

詹锟：我们自研的基座模型对部署VLA有很大作用，我们VLA是4B模型，比以前更大了，但推理速度更快了。核心原因是我们自研的基座架构，并不是业界任何一个开源模型都能达到这个效率。之前在AI Talk上提到过我们是MoE的0.4×8的架构，目前没有任何一个架构是这样的，这是我们与基座团队共同研发，专门对嵌入式芯片做了定制的MoE混合专家架构，在这个架构上我们才能达到这样的效果。

VLA的推理帧率在10Hz左右，每一帧都会经过语言模型，这其中会有比较快的思考，也会有比较长的思考，我们做了很多的优化，把思考过程尽可能地能够在车端推理出来。

问：用更通俗的方式介绍一下VLA模型的难度在哪里？对企业的要求是什么？如果一个企业想要落地VLA模型会面临哪些挑战？

郎咸朋：曾经也有很多人问过，如果车企想做VLA模型是不是可以跳过前面的规则算法，跳过端到端阶段，我认为是不行的。

虽然VLA的数据、算法等可能跟之前不太一样，但是这些仍然是要建立在之前的基础上的，如果没有完整的通过实车采集的数据闭环，是没有数据能够去训练世界模型的。

理想汽车之所以能够落地VLA模型，是因为我们有12亿数据，只有在充分了解这些数据的基础上，才能够更好的生成数据。如果没有这些数据基础，首先不能训练世界模型，其次也不清楚要生成什么样的数据。同时，基础训练算力和推理算力的支撑需要大量资金和技术能力，如果没有之前的积累是不能完成的。

问：从规则到端到端+VLM是比较大的技术路线革新，但VLA其实没有颠覆端到端+VLM，所以是否可以理解成VLA是偏向于工程能力的创新？

詹锟：VLA不只是工程方面的创新，大家如果关注具身智能，会发现这波浪潮伴随着大模型对物理世界的应用，这本质就是提出了一个VLA算法，我们的VLA模型就是想把具身智能的思想和路径引用在自动驾驶领域。我们是最早提出，也是最早开始实践的。

VLA也是一种端到端，因为端到端的本质是场景输入，轨迹输出，VLA也是如此，但算法的创新是多了思考。端到端可以理解为VA，没有Language，Language对应的是思考和理解，我们在VLA中加入了这一部分，把机器人的范式统一，让自动驾驶也能成为机器人的一类，这是算法创新，不只是工程创新。

但对于自动驾驶而言，很大的挑战是必须要有工程创新。因为VLA是一个大模型，大模型部署在边缘端算力上是非常具有挑战的。很多团队并不是认为VLA不好，而是因为VLA部署有困难，把它真正落地是非常具有挑战性的事情，尤其是在边缘端芯片算力不够的情况下是不可能完成的，所以我们是在大算力芯片上才能部署。所以这不仅仅是工程创新，但的确需要工程部署大范围优化才能实现。

问：智能驾驶存在一个“不可能三角”，也就是效率、舒适和安全三个目标之间是互相制约的，目前阶段可能难以同时实现。请问理想汽车的VLA在当前阶段最先优化的指标是哪一个？刚刚提到MPI，是否可以理解为目前理想汽车最终的指标是提升安全性以有效减少接管？

郎咸朋：MPI是我们衡量的指标之一，还有一个指标是MPA，也就是指发生事故的里程，现在是300万公里左右。理想车主的人驾数据是60万公里左右出一次事故，而在使用辅助驾驶功能的情况下是350到400万公里发生一次事故。这个里程数据我们还会持续提升，我们的目标是将MPA能提升到人类驾驶的10倍，也就是比人驾安全10倍，我们希望在辅助驾驶功能下能够做到600万公里才出一次事故，但这必须等到VLA模型提升之后才能做到。

针对MPI，我们也做过分析，可能一些安全风险问题会导致接管，但有时候舒适度不好也会导致接管，比如急刹、重刹等，因为并不一定每次都会遇到安全风险，但是如果驾驶舒适度不好，用户依然不想用辅助驾驶功能。因为MPA可以衡量安全性，在MPI方面，除了安全性之外，我们重点提升了行车舒适度，如果体验了理想i8的辅助驾驶功能，会体验到舒适度比之前的版本有很大提升。

效率是排在安全和舒适之后的，比如走错路，虽然效率有所损失，但我们不会通过一些危险的动作立刻纠正，还是要在安全和舒适的基础上去追求效率。

“去年用Orin芯片做大模型部署，

英伟达都觉得不可能”

问：为什么理想汽车能够最大限度压榨芯片的能力？基于这个能力，理想汽车是否还会自研智驾芯片？

詹锟：我们从去年开始用Orin芯片做大模型部署，当时英伟达觉得这是不可能的，但我们认为这是必须要做的，和英伟达做了非常详细的剖析和拆解，我们的工程团队、部署团队做了非常多的工作，包括我们魔改CUDA的底层，重写PTX底层指令，才能实现现在的效果。

理想汽车自动驾驶团队的工程部署能力是一以贯之的，从早期在地平线J3部署高速NOA，到在Orin芯片上部署大模型，再到现在在Thor芯片上部署VLA高频快速的大模型，这些都是有工程积累和工程实践的，很多技巧和分析方法，以及基础设施的工具链都继承下来了。

这其中很关键的一点是我们打磨细节的能力，芯片能否被压榨最主要的是做底层分析，解决瓶颈热点。 大家会发现，VLA从最初推理一帧需要500-600毫秒到最后实现10Hz，提升了近10倍的效率，这其中有非常多的细节都是我们在遇到问题后拆解当前芯片适配的算法，调整算子，让算子和芯片目前的能力更匹配。大家常用的推理模型会用FP16，我们把它降到FP8，性能做了非常大的提升，同时FP4也是英伟达在最新的Blackwell架构中非常推崇的，我们会进一步把芯片算力压榨出来。

郎咸朋：自研芯片的核心原因是作为一个专用芯片能够针对自己的算法进行特定地优化处理，性价比和效率都会很高。现在我们依然使用Thor芯片是因为英伟达对一些新的算子支持是比较好的，算力也比较充足，在整体VLA迭代过程中依然有变化的可能性，所以我们依然在用Thor芯片。如果未来算法锁定，为了更好的效率和成本，大家都会考虑自研芯片的。

问：今年实车测试是2万公里，请问大幅减少实车测试的依据是什么？

郎咸朋：我们认为实车测试有很多问题，成本是其中一方面，最主要的是我们在测试验证一些场景时不可能完全复现发生问题时的场景。同时，实车测试的效率太低了，在实车测试过程中要开过去之后再复测回来，我们现在的仿真效果完全可以媲美实车测试，现在的超级版本和理想i8的VLA版本中90%以上的测试都是仿真测试。

从去年端到端版本我们就已经开始进行仿真测试的验证，目前我们认为它的可靠性和有效性都很高，所以我们以此替代了实车测试。但仍有一些测试是无法替代的，比如硬件耐久测试，但和性能相关的测试我们基本上会使用仿真测试替代，效果也非常好。

问：通常的做法是保持实车测试规模，大幅增加仿真测试数量，从理想汽车的实际反馈看，仿真测试的效果是比实车测试好很多对吗？

郎咸朋：是的。仿真测试效果好，成本低，为什么不用仿真测试呢？我们保留实车测试是为了一些必要内容，任何技术的提升一定伴随着研发流程的变革，工业时代来临后，刀耕火种的流程被机械化替代；信息时代后，网络替代了大量工作。

在自动驾驶时代也是一样，端到端时代来临后，我们进入了使用AI技术做自动驾驶的方式，从雇佣大量工程师、算法测试人员，到数据驱动，通过数据流程、数据平台和算法迭代提升自动驾驶能力。

而进入了VLA大模型时代，测试效率是提升能力的核心因素，如果要快速迭代，一定要把在流程中影响快速迭代的因素迭代掉，如果这其中仍有大量的实车和人工介入，速度是会降低的。并不是我们一定要替代实车测试，而是这项技术，这个方案本身就要求要使用仿真测试，如果不这样做，并不是在做强化学习，并不是在做VLA模型。

问：在VLA的训练中，在语言模型上是怎么避免大模型由于跟人类理解不同从而产生的反常识或者反人类习惯的生成指令，我们是如何解决的？我们是以什么样的标准决定这个case是训练OK的？

詹锟：首先以现在的技术而言大模型已经有了一些初步的共识方法和思路。

第一，我们需要对不好的数据做精细的清洗，清洗的越多，质量就越好。

第二，合成数据。之前会有很多大语言模型会有幻觉，本质上因为“大模型”对这个东西是不理解的或者没见过的，在它这个领域之外回答问题。所以我们需要构建很多数据，甚至合成数据，去让它把这个领域理解到位，能把所有的知识能够知道，甚至知道它什么不知道，这是它很重要的一个能力。

通过这两个思路，其实能大幅降低语言模型的幻觉能力，甚至反常识的东西。

第三，超级对齐，让它做法更符合人类价值观，比如刚刚那个例子，不能跨对向车道，就是类似的思路，这是第一个问题。

湛逸飞：首先只有完整的走过这种闭环仿真的整个流程玩家才能真正的去做强化训练。

因为我们是在闭环仿真这个系统搭建起来的过程中,积累了一套非常完整对车辆行为判断的一套系统，这套系统甚至还用了刚才提到的这些云端的32B模型，不仅是蒸馏完以后给车端用，在云端用这些大的模型去做推理、判断这个车在仿真环境里的行为是否正确，同时我们从很多的维度，包括“安全、舒适、合规、效率”等，对车辆的行为做一个评价，总体来给出一个打分，我们也叫reward，目的是告诉他这个车在仿真环境里。

“很多人还在嘴上说，

还在用端到端的方式去做VLA”

问：从行业角度来看，目前智驾体验是比较趋同的，未来理想汽车是否会将自己的智驾能力向行业输出或开源或向其他车企售卖？

郎咸朋：我认为是可以的，我们希望为行业做贡献。但前提是，第一，我们是不是能够很好地验证这套系统，因为整个VLA的发展还是在技术周期的初期阶段，需要继续提升；第二，是否其他人有能力和我们一起去做这件事，因为他也需要有自己的评测方式、仿真环境，以及强化学习训练能力。

从公司或我个人的态度上，是希望能够促进行业发展，但从目前VLA技术发展阶段来看，依然是比较初级的，它的发展速度可能会比较快，像端到端一样，用一年的时间将效果提升10倍。行业发展速度会非常快，我相信明年沟通的时候可能会讨论一下开源的问题。

问：郎博提到VLA语言交互是很重要的一部分，我们在公开道路试乘中发现，当前的语言交互在理解复杂指令上还有提升空间。针对这类理解能力的提升，接下来会有哪些关键改进？我们何时能实现更自然的“怎么说就怎么做”的交互体验？VLA 还处于起步阶段，未来可预见的关键发展阶段有哪些？您提到 VLA 要成为“更好的家庭司机”，那在驾驶风格或“司机性格”的个性化定制方面，未来是否会有更多可能性？

詹锟：我先回答语音问题，因为整个语音交互是对整个车全系统的交互，这个地方我们目前是刚给大家看到VLA初步版本，有些它对语言的理解是一个全系统任务，就是你对它说一个话，它到底是用来执行车控还是用来执行智驾需要有一些判断，我们现在肯定是为了保持准确，防止出现一些误判，比如你本来不想操控车的行为，突然去操控了，这肯定是存在一些还需要迭代和优化的地方。

我觉得未来有一个很重要的趋势是整个车会有一个统一的大脑，当这个车对统一大脑做的迭代更好的时候，不光是理解智驾、理解车机、理解整车，它还可以做出更精准的判断，到底我是在操纵车的行为，还是在操纵空调，还是在打开窗户，还是在播放音乐，这方面会有更好的理解。我们会对大脑做更长远的统一，这是我们后续长期会去做的方向。

另一个是我们现在对语言的交互、泛化理解，随着数据量增加，会越来越多，而且会有很快的迭代，也可以想象其实大语言模型早期也会有一些很傻的行为，当我们收集到更多反馈，收集更多迭代以后，进步会非常快，这其实是我们逐渐使用过程中会快速迭代的一个能力。

郎咸朋：我们也在考虑给不同的车、不同的使用者跟你相类似的驾驶风格的体验，不会所有车都是一套驾驶风格，因为强化学习是有这个能力来支撑它这个车越开越像你的风格或体验，之前端到端可能还不具备这样的能力。不是设定的你自己的路线、你自己驾驶的风格会越开越像你的，我们也在考虑端上的强化训练。

问：在仿真加进来并且它发挥的作用越来越大之后，理想是怎么定义所谓的优质数据或者什么是不好的数据？是不是说对模型迭代有促进作用的数据就叫优质数据？理想有没有一些可以量化的衡量标准。

湛逸飞：我们需要的数据用一个词总结叫“老司机数据”。在训练过程中，对数据的筛选，从去年端到端开始一直到现在，我们在云端有很多程序，甚至是云端的大模型，对这些数据进行检查，来检查它们是否符合我们所定义的“老司机”的标准。比如他在正常行驶的时候，不可以不居中。

举一个例子，望京地区有一些右转车道上有违停车道，我们到底需不需要这个车辆可以压着实线绕行过去，如果不压着实线绕行过去，你在望京地区可能就没法完成右转。所以我们对这些数据的理解，是花费了很大的功夫，在这个基础上做了很多清洗，总量还是1000万，但实际上这里面是在进行不断替换的。

郎咸朋：我们有实验模型之后，像corner case场景以及一些困难场景的数据，我们会通过合成数据来提供。

刚才你说是不是能提升性能数据就是好数据，你刚才问了这样一个观点。从某种意义上说是，但是在端到端的时候就是这样的。但是在端到端的时候，我们的数据更多是用来训练端上的模型，但是到了强化学习之后，数据其实更大的作用是来训练世界模型，让世界模型变的更加符合真实世界。

我们更多的训练数据是来自于合成数据的。因为我觉得从量上来说，或者类别来说，已经足够了。但是在细分的类别上，还是需要更多的用合成数据来补充我们的训练。

各家做的也都不太一样，5年前确实理想作为一个追随者进入了自研的自动驾驶赛道，但我们对自动驾驶的思考并不是从2020年开始的，我们刚进理想的时候，当时李想面试的时候跟我聊，说你觉得最重要的是什么，比如想在自动驾驶做成功或者做到第一？

我说现在来看就是数据，虽然说别的都很重要，但数据必须要提前开始准备，我们是从理想ONE开始做数据闭环的一些工作，当然那时候数据还比较少。给大家公布一个数字，其实2021年大家也觉得我们做的挺快的，虽然有一些地平线芯片的加持，有一些可能当时做的ADAS也不是特别难，但工作量很大，那时候我们训模型的数据并不是买了个数据什么的，而是在2020年我们通过第一个完整的交付年，累计了1500万左右的有效回传数据，我们确实做了很多数据标注，样本是从这积累出来的。

从那开始慢慢往后做，这5年做下来，从去年端到端开始，业界或我们的竞争对手真正把理想自动驾驶当回事了，但他们为时已晚，因为这些能力建设不是一天两天就能完全建立起来或者达到我们效果的，今年开始做VLA，我们是第一个提出并马上第一个交付的，很多人还在嘴上说，还在用端到端的方式去做VLA。

刚才我画了一个图想表达一个观点，如果还是沿着端到端思路去做所谓VLA的话，你的速度一定会变慢，不管是1000万，还是2000万，哪怕是1个亿的Clips，首先你要训1亿个Clips需要多大的训练算力，模型得搞到多少先不说。另外，你的迭代速度会变慢。

问：我们今天体验的版本MEGA移动空间和i8的行车是基于同样的模型吗？

郎咸朋：是同样的模型。

“到1000MPI，

VLA有机会做到ChatGPT时刻”

问：理想是国内VLA模型最早落地的车企，肯定也是摸着石头过河，在研发VLA过程中哪方面挑战是最大的，或者花费时间最长？从端到端切换到VLA的时候，可能不仅仅是技术路线的切换，可能整个组织架构也需要调整，理想在研发VLA过程中组织架构进行了怎样的调整？

郎咸朋：我们马上就要交付VLA了，肯定也是国内最早落地VLA的企业。

首先，我觉得挑战最大的是要把整个研发流程进行迭代，每一个技术革新也伴随着研发流程或研发方式的迭代，去年端到端需要一个数据驱动流程，我们之前做得很好，到今年一定要做强化学习的流程，就必须要快速验证我们世界模型的可靠性、有效性，也需要快速搭建我们高效仿真环境。我们今年很多推理卡也需要大量的去购买、去部署等等，我觉得研发挑战最大的除了技术本身之外，是伴随技术迭代的研发流程改革。

组织层面，我们组织并不是大家想象的是一个职能性的组织，还是IPD组织，可以理解成是一个大的项目形式，虽然大家都在现有部门里可能有一些部门的分工、分配，但不管去年做端到端，还是前年做无图，还是今年做VLA，都是成立了内部项目组来做，对我们来说，组织挑战倒还好，因为大家这么多年也比较习惯于这种项目制的研发了，而且这反而成为我们一种优势。端到端去年是180个人，今年VLA稍微多一点，200多个人，其实并不是弄几千人去做，我觉得不需要，我觉得做得最好的是特斯拉，永远都是那一两百人，做得还都挺好的。

问：后续还有很多国内友商也在跟进VLA，理想在整个研发过程中，踩过最大的坑能给大家介绍一下吗？

郎咸朋：像我们去年做端到端也好，今年做VLA也好，产品自己本身就会说话，今天体验到的这些产品就是我们研发的结果，如果遇到问题，遇到坑的话，不会进展这么快。

非要说坑可能没有，但我觉得这里面有个最大的体验，还是你对整个行业的判断或整个自动驾驶认知决定了你是否会踩坑。

去年也有人问过我类似的问题，我觉得我们是不断持续迭代对自动驾驶甚至人工智能认知的，很早我们就理解自动驾驶问题是一个人工智能问题，我在之前很多会上或对外的演讲上也都提到过，你想做好人工智能必须做好你的算法、数据和算力。

我们第一个要突破的是数据问题，如果没有数据，其实你的算力、算法再好也训不出来，企业不可能空转，你必须有很好的数据。我们从2021年开始做AD的时候就开始搭建自己的数据闭环，所以我们在去年做端到端的时候能拿出这么多数据去做。

但在去年做端到端的时候一直也在反思，是不是端到端就够了，如果不够的话我们还需要再做什么，去年我们一直在做VLA的一些预研，其实VLA的预研代表的是我们对人工智能的理解并不是一个模仿学习，一定是像人类一样有思维的，是有自己推理能力的，换句话说它一定要有能力去解决它没有见过的事情或未知的场景，因为这个在端到端里可能有一定的泛化能力，但并不是足以说有思维。

就像猴子一样，它可能也会做出一些你觉得超越你想象的事情，但它不会总做出来，但人不是，人是可以成长的、可以迭代的，所以我们一定要按照人类的智能发展方式去做我们的人工智能，我们就很快从端到端切换到了VLA方案去做。

我们一直认知还是比较好的，小坑肯定有，比如算力储备的多少，交付快点慢点等，小的工程细节、优化，肯定各家都会遇到，我觉得遇到小坑其实没有问题，但不要遇到大的判断失误，我觉得我们运气还是可以的。

詹锟：我补充一下，可能也不叫坑，是个经验，还是要相信AI的力量，就是要相信Scaling Law。可以看到开始郎博KN里面有一个，我们之前是相信data Scaling Law，我们看到了很好的效果，其实下一步就是现在的test times Scaling Law。当我们能给更多的数据、更大的训练时长，它总能出更好的效果，我觉得这就是一个需要坚信的或者AI界现在叫“the bitter lesson，苦涩的教训”，我们要坚信这个地方。

问：有人说VLA和好的模型，其实是两个概念，大猩猩和老鼠都有一个VLA的Model，表明它可以干这些事情的。但是好的模型，更多是取决于数据和强化学习。你们怎么看这个观点？

詹锟：这个观点还挺有意思的，VLA它是一种模型架构，它并不一定代表好的模型，这个观点我是赞同的。首先，别说VLA了，每个人都说他有端到端，但不是每个端到端都开得很好。任何一个模型，它是什么样的设计思路，只代表了它的想法，但不代表它能落地。所以VLA我们也是说它是全新的架构，但是要训练出好的模型，还要下很大的功夫，我们需要更好的数据、算力、工程部署，才能做出来好的VLA。所以这肯定是一个充分不必要条件，我们希望是有好的模型来迭代它。

刚刚VLA架构我们也说了很多它的优势，相对VA模型，或者端到端模型，VLA模型是有思考能力的，这是它不可否认的一个优势。如果不是用这种大语言模型的预训练、后训练的思路，是很难把这样的知识融进去。所以我们也得承认，这样的架构才能带来这样的能力。

刚刚反复强调在VLA里面，L是非常重要的。我们也认为，自动驾驶想要往L4或者往更高的能力前进，L是一个必经之路。现在无论是大语言模型，还是其他的模型，也都开始做端到端的L。我们在去年年底的时候，意识到这个过程，所以我们在大力地去发展L，而且目前也在VLA里面有很多应用。

问：今年下半年开始，各家车企，包括友商都会推进VLA，理想对于VLA这个技术的优势或技术壁垒是什么样的？理想对VLA司机的定义是一个更好的家庭司机，一个安心的移动空间，未来VLA技术会不会拓展到别的产品线或一些服务过程中，撇开商品车之外的那些服务？

詹锟：第一个是我们的技术栈是有延续性的，并不是从之前的规则时代突然跳到VLA，那它肯定会有各种各样的问题，比如有没有把数据积累上来，有没有那么好的训练，有没有那么好的仿真评测系统等等。我们现在做VLA其实是一个延续性的技术架构，甚至把原来的优势都利用起来，站在巨人的肩膀上继续做。

第二，我们在RD预研方面其实投入非常多，VLA在自动驾驶领域是相对新的一个方向和领域，从去年年底到现在做了相当多预研，包括在各个顶级会议上的论文，一个是我们在研发上面也专门立了TBP的项目，来推进VLA的技术探索，这块其实是我们一直在坚持的“预研一代、研发一代、交付一代”的思路。所以从时间上来说，我们VLA起步相比其他友商或者竞争对手更有优势。

第三，我们相信VLA在未来会形成一个更大的、统一的架构。我们也觉得VLA对物理世界AI落地来说，是非常好、非常一致性的前瞻技术，并不仅仅是自动驾驶，可能是物理AI目前看到最合理的一个方向。

郎咸朋：补充两个点，第一技术壁垒肯定是有，理想最核心的技术壁垒还是世界模型仿真的壁垒，这个壁垒是非常高的，别人很难短时间去复制出来。因为它的迭代速度得确保，且还得用实车去测试，所以是很难超越我们的。

第二，这肯定是可以拓展的，我们也成立了各种其他的机器人部门。VLA是一个很好的具身智能的技术框架，可能可以延续到其他方向。

问：Orin X版本推VLA的时候，它的能力上限在你们内部是怎么考虑的？后续多长时间它会和Thor U拉开差距，还是一直去保持同步的更新？

郎咸朋：我们是同步推送的，这次如果i8上线的时候，老用户AD Max的车主，包括2022年买车的，只要你是Orin X的芯片或者Thor芯片，都会同步的推送。目前测试来看在能力上是没有任何差异的，帧率上也没有差异，我们做的工程优化都非常好，都是10帧的。唯一的差异就是i8的底盘跟L9的底盘是有些差异，舒适度的体验上可能是有一些不同。

后续的推送节奏也是同步的，就是Orin平台和Thor平台都是同步来推送。至于什么时候能拉开差异，我们现在肯定不会做这种差异化。但是随着下一步的迭代，如果我们在INT4的量化上有一些突破，那个时候可能会有一定差异，但是现在谈这个还为时尚早。

问：大家都说多模态模型还没有进入所谓的GPT时刻，在此背景下，理想做一个量产方案去推送到市场上，你觉得这个方案是一个足够好的解法了吗？以及，它抵达所谓的GPT时刻还需要花多长时间？

詹锟：首先回答一下，我们之前说多模态没有达到GPT时刻，可能指的是VLA这种物理AI，而不是VLM，其实现在VLM已经完全满足一个非常创新的GPT时刻，如果针对物理AI，现在的VLA，特别是在机器人领域、具身领域可能并没有达到GPT时刻，因为它没有那么好的泛化能力，但在自动驾驶领域，其实VLA解决的是一个相对统一的驾驶范式，是有机会用这个方式做到一个GPT时刻的，我们也非常承认现在的VLA是第一版本，也是业界第一个往量产上要推的VLA版本，肯定会存在一些缺陷。

这个重大尝试是想说我们想用VLA来探索一个新的路径，它里面有很多尝试的地方，有很多需要去落地的探索的点，不是说不能做到GPT时刻就一定不能去做量产落地，它有很多细节，包括我们的评测、仿真，去验证它能不能做到量产落地，能不能给用户“更好、更舒适、更安全”的体验，做到以上三点就可以给用户更好的交付。

GPT时刻更多指的是具有很强的通用性和泛化性，这个过程可能随着我们自动驾驶往空间机器人或往其它具身领域去拓展的时候，会产生出更强的泛化能力或者更综合的统筹能力，我们也会在落地以后随着“用户数据迭代、场景丰富、思维逻辑性越来越多、语音交互越来越多”逐渐往ChatGPT时刻迁移，不是一定要达到GPT时刻才能做一个自动驾驶模型，比如我们落地了VLA以后不能往ChatGPT去迁移，但是我们VLA落地第一个版本后逐渐会往“更丰富、更通用、更多样化”能力去做VLA模型。

像郎博说的，到明年我们如果到了1000MPI，可能会给用户感觉这种真的到了一个VLA的ChatGPT的时刻。

名词释义：

• VLA（Vision Language Action Model）：视觉语言行动模型

• VLM（Vision Language Model）：视觉语言大模型

• Scaling Law：规模定律，指的是随着模型规模、训练数据和计算资源的增加，模型性能会得到提升。

• MPI（Mileage Per Intervention）：接管里程

• Clips：视频片段，用于模型训练

• CoT（Chain of Thought）：思维链

• MoE（Mixture of Experts）：混合专家模型

• 2B/4B模型：B指参数量，2B、4B对应20亿和40亿

• INT4、INT8、FP8、FP16：深度学习领域的量化技术，旨在大幅降低存储需求和计算复杂度实现高效推理

• RLHF（Reinforcement Learning from Human Feedback）：基于人类反馈的强化学习