特斯拉前深度学习负责人谈自动驾驶纯视觉与融合感知路线之争。文丨赵-20251202214436

2025-12-02 21:44
本条链接

特斯拉前深度学习负责人谈自动驾驶纯视觉与融合感知路线之争。

文丨赵宇
编辑丨龚方毅

在自动驾驶领域，纯视觉与融合感知方案的路线之争由来已久。前者把摄像头作为核心传感器，就像人类主要用眼睛感知道路情况；后者主张综合采用激光雷达、摄像头、毫米波雷达等多种传感器，构建比人类感官更强大的感知系统。

为理解争论背后的技术原理，我们访谈了智能驾驶研发商 Nullmax 纽劢科技创始人兼 CEO 徐雷。创办 Nullmax 前，徐雷先后任职于高通、特斯拉，曾作为 Autopilot 研发团队的核心成员，从零开始领导搭建 Tesla Vision 深度学习网络，并取代特斯拉第一代自动驾驶产品中使用的 Mobileye 视觉系统。这些经历让他对于这场技术争论有着自己的独到见解。

徐雷说，摄像头获取道路场景信息的频率和丰富程度都明显高于激光雷达，因此视觉方案有着更高的能力上限。而在现阶段的一些融合感知方案中，当不同传感器提供的信息发生冲突时，智驾系统倾向于更相信激光雷达——这从侧面印证了厂商视觉处理能力的不足。

“激光雷达能让智驾系统快速实现量产上车，但最终要达到一定高度，还是要把视觉 AI 能力做好。” 徐雷告诉我们，他并非完全排斥激光雷达，而是对不同传感器的使用都持开放态度。但无论采用哪种方案，都必须将视觉感知作为最核心、最优先发展的能力。在他看来，过度依赖激光雷达虽然是能让产品快速上车的 “捷径”，但最终会限制智驾系统的长远发展和性能天花板。

以下是我们与徐雷对话的主要内容，经编辑：

晚点：今年 7 月，懂车帝的一场智驾系统测试显示：特斯拉虽未搭载激光雷达，实际表现却超过许多配备激光雷达的国产品牌。你预料到这个结果吗？如何看待激光雷达的必要性？

徐雷：视觉传感器和激光雷达各有优势。摄像头属于被动感知，能提供分辨率更高的图像、颜色和纹理特征等丰富信息，帧率可达每秒 30 帧。激光雷达虽能主动发射激光、通过 ToF（Time of Flight，一种基于信号飞行时间的测距技术）测距，但点云密度和分辨率比摄像头低，信息没有视觉传感器丰富，帧率通常只有每秒 10 帧。

在理想状态下，如果车辆能同时搭载两种类型的传感器，且控制器算力足够强、算法足够好，那性能天花板肯定最高。不过汽车作为消费品，需要考虑成本和价位差异。单独使用激光雷达会因帧率低、点云稀疏而限制智驾系统性能上限。纯视觉方案在算法和算力足够的情况下也能开得挺不错，但仍会受到算力水平等因素制约。

因此，智驾系统的传感器选择需要综合考虑性能、成本等多方面因素，并不是单纯的理论问题。

晚点：现在车端算力还在提升，这是否为搭载激光雷达提供了便利条件？

徐雷：激光雷达对算力的消耗实际上比视觉传感器更小，因为激光雷达的点云信息量相比 800 万像素摄像头的视频流要稀疏很多，帧率也更低。摄像头捕捉到的信息量更大，关键在于如何充分利用这些海量信息。

如果重度使用激光雷达，而视觉处理能力不足，智驾方案会受限于激光雷达的性能天花板。然而，对于需要快速博弈和迅速反应的场景，仅靠激光雷达难以有效处理，视觉能力必须跟上。

晚点：充分利用摄像头的技术难点是在于算法吗？

徐雷：主要是两个方面。一是算法本身的技术先进性；二是如何让算法在车端计算资源有限的嵌入式平台上高效运行，智驾方案最终还是要跑在车端。

晚点：从行业平均角度看，一颗 800 万像素摄像头大概占用多少算力？

徐雷：很难给出绝对数值，因为这取决于具体功能需求——是单车道的高速 NOA、带换道的高速 NOA，还是城市 NOA？要处理的场景数量不同，决定同样传感器配置下系统对算力的消耗不一样。而且 TOPS（Tera Operations Per Second，每秒计算一万亿次）只是衡量指标之一，还要考虑内存带宽、NPU（Neural Processing Unit，神经处理单元）对算子的支持力度等因素。

晚点：业内有说法认为，激光雷达是现阶段的一根 “拐棍”，你认可吗？

徐雷：激光雷达方案可能是个捷径，能快速让系统跑起来，但上限相对较低。

晚点：为什么纯视觉方案的上限更高？

徐雷：从信息输入看，激光雷达每 100 毫秒才获得一次点云，而摄像头每 33 毫秒就能提供 800 万像素的图像——视觉传感器的信息更丰富，获取频率更高。开车需要在电光石火间作出决策，如果输入帧率和信息量跟不上，虽然车也能行驶，但在需要快速反应的场景下，智驾方案的能力确实会差一些。

激光雷达虽然通过直接测距降低了处理难度，但它的信息量少、观测间隔长，构建周围环境可能不够及时、精确。对一些需要准确及时理解的场景，表现相对较弱。

晚点：纯视觉方案以摄像头为主传感器，那融合感知方案呢？

徐雷：以特斯拉为例，它没有在量产车上搭载激光雷达，系统必须靠纯视觉理解三维世界。而我了解的一些以激光雷达为主的方案，对激光雷达的依赖度非常高。

一些以激光雷达为主传感器的车，它的视觉处理能力可能跟不上。摄像头虽然每秒输入 30 张图像，但系统可能只处理 10 次结果。这种对激光雷达的强依赖可能导致系统在极限测试场景下表现不佳。

晚点：纯视觉方案上限可能更高，但你刚才也说，在理想状态下，两种传感器都用才最好。

徐雷：如果不考虑成本，我当然希望有冗余配置，比如在车里放两台发动机，一台坏了就换另一台。但冗余不仅涉及传感器，算法融合本身的技术挑战也很高。所以像特斯拉，选择在发展过程中先做好视觉，同时它考虑到要卖车，加那么多激光雷达对成本也是挑战。

晚点：所以你从内心角度是支持纯视觉方案？

徐雷：不是，我比较开放。我的想法是：第一，肯定要以视觉为主，一定要把视觉能力做好。如果车上有视觉和激光雷达，却只把激光雷达做好，视觉只处理到 10 帧，那我不能接受。第二，对于车上的传感器，无论是激光雷达、4D 毫米波雷达还是将来的新东西，我都持开放态度，我不认为车上只能有摄像头。

晚点：你反对的是，有些厂商用了激光雷达，但没有把视觉能力做好。

徐雷：对。你会看到，那些车的摄像头也不少。理论上，装了这么多摄像头，还有激光雷达，智驾系统的能力不应该比特斯拉差才对。

晚点：有些厂商说，用激光雷达是为了在夜间、雨雾等场景下更快识别前方不规则障碍物，这样更安全。你怎么看？

徐雷：我个人认为，在漆黑的恶劣天气下，建议不要行驶。这不适合自动驾驶甚至人工驾驶。摄像头有局限性，不过传感器也在进步，车上还可能有 4D 毫米波雷达等其它传感器。激光雷达能看到的东西，其他传感器也能看到，但能否准确识别是个问题，因为会有误报的挑战。激光雷达在雨雪天气也会受影响。

有这些传感器当然更好，但这涉及产品定义：我们的产品边界在哪？到底要识别多大的障碍物？根据国家智能驾驶标准，视觉加 4D 毫米波的方案能够解决这些问题，并不一定要上激光雷达。

晚点：可以把 4D 毫米波雷达理解为小一号的激光雷达吗？

徐雷：它们的原理还不太一样，像是苹果和橘子。

晚点：4D 毫米波雷达能提供一些摄像头感知不到的环境要素。

徐雷：恶劣环境对它的影响非常小，甚至没有影响。

晚点：特斯拉现在连 4D 毫米波雷达都不用，这是出于什么考量？

徐雷：马斯克的想法很朴素：人开车时，恶劣天气下看到东西也会刹车，也不可能把每种场景都处理好。如果有这些传感器当然更好，但从马斯克的角度，摄像头就能达到要求：晚上有灯光，现在的 CMOS 传感器进光量大，也能看到很多东西。

晚点：相比国内厂商，特斯拉的视觉能力大概高出多少？

徐雷：现在国内头部厂商基本在 10FPS（Frames Per Second，每秒帧数）左右，特斯拉至少达到 20 多 FPS。

晚点：还有人觉得，有些厂商不用激光雷达是由于成本因素，但现在激光雷达的价格也不是很高。

徐雷：不一定是纯价格原因。包括海外一些车企，他们可能觉得激光雷达难以布置，会影响车辆造型。

晚点：马斯克还说过，当摄像头和激光雷达的识别结果不一致时，听谁的也是个问题。

徐雷：这就是融合时的难点。两个不同源的信息，到底信谁，或者怎么综合？

晚点：国内用激光雷达的厂商解决这个问题了吗？

徐雷：大部分厂商还是更相信激光雷达，这可能是因为他们还没有把视觉处理到比较好的状态。有激光雷达至少能让车先开起来，只是遇到挑战性场景时处理不好。在国内，大家更关心如何让智驾方案快点儿上车。

晚点：激光雷达厂商还在提高线数，比如从 128 线到 800 线，这对激光雷达的性能提升有多大帮助？

徐雷：增加线数是为了让点云更密。在以前，地上的较小物体激光雷达可能探测不到；现在能被多个点覆盖，识别效果肯定会更好，但相应地，成本也会上升。

晚点：现在很多厂商都在做 “端到端”、VLA，这些新技术对数据的使用更重。他们使用的数据，主要就是摄像头采集来的吧？

徐雷：这要看每一家厂商怎么定义。从数据角度，无论是传统 CNN 还是 Transformer、BEV，最开始肯定是用实际采集来的数据。但越往后，如何通过 AIGC 生成数据更重要，因为对于一些极限场景，实际采集来的数据毕竟有限。

晚点：Nullmax 是怎么使用数据的？

徐雷：我们研发了一套数据驱动的成长系统。举个例子，2021 年做海外项目时，不同国家交通标识的差别很大，不可能开车采集很长里程。我们就想用 AI 生成方案，比如自动把速度标识贴到真实场景的正确位置，后来扩展到生成不同颜色、距离的车辆，甚至生成视频。在闭环仿真中调整规控策略，摄像头视角的视频也会相应变化。

我们希望靠技术而非狂采数据，因为后者成本很高。通过算法，用真实数据生成千变万化的场景，同时覆盖危险场景。产生有效数据的能力本质上是算法能力。算力也不是蛮干，用什么网络架构能大幅降低算力需求，这是有技术含量的，并不是完全拼谁有钱买卡。

晚点：你在特斯拉自动驾驶部门工作过。至今人们仍认为，特斯拉的智驾能力处于行业前列。特斯拉主要做对了哪些事情？

徐雷：第一性原理比较重要，就是即使有挑战，也坚持走正确的路。我们认为，用激光雷达像拐棍或捷径，能让智驾系统快速实现量产上车，但最终要达到一定高度，还是要把视觉 AI 能力做好，这没那么急功近利。无论是视觉加激光雷达，还是视觉加毫米波雷达，首先要把视觉能力提到足够高，这会决定系统上限。

题图来源：视觉中国