社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

特斯拉前深度学习负责人谈自动驾驶纯视觉与融合感知路线之争。文丨赵-20251202214436

晚点LatePost • 3 月前 • 97 次点击  

2025-12-02 21:44

特斯拉前深度学习负责人谈自动驾驶纯视觉与融合感知路线之争。

文丨赵宇
编辑丨龚方毅

在自动驾驶领域,纯视觉与融合感知方案的路线之争由来已久。前者把摄像头作为核心传感器,就像人类主要用眼睛感知道路情况;后者主张综合采用激光雷达、摄像头、毫米波雷达等多种传感器,构建比人类感官更强大的感知系统。

为理解争论背后的技术原理,我们访谈了智能驾驶研发商 Nullmax 纽劢科技创始人兼 CEO 徐雷。创办 Nullmax 前,徐雷先后任职于高通、特斯拉,曾作为 Autopilot 研发团队的核心成员,从零开始领导搭建 Tesla Vision 深度学习网络,并取代特斯拉第一代自动驾驶产品中使用的 Mobileye 视觉系统。这些经历让他对于这场技术争论有着自己的独到见解。

徐雷说,摄像头获取道路场景信息的频率和丰富程度都明显高于激光雷达,因此视觉方案有着更高的能力上限。而在现阶段的一些融合感知方案中,当不同传感器提供的信息发生冲突时,智驾系统倾向于更相信激光雷达——这从侧面印证了厂商视觉处理能力的不足。

“激光雷达能让智驾系统快速实现量产上车,但最终要达到一定高度,还是要把视觉 AI 能力做好。” 徐雷告诉我们,他并非完全排斥激光雷达,而是对不同传感器的使用都持开放态度。但无论采用哪种方案,都必须将视觉感知作为最核心、最优先发展的能力。在他看来,过度依赖激光雷达虽然是能让产品快速上车的 “捷径”,但最终会限制智驾系统的长远发展和性能天花板。

以下是我们与徐雷对话的主要内容,经编辑:

晚点:今年 7 月,懂车帝的一场智驾系统测试显示:特斯拉虽未搭载激光雷达,实际表现却超过许多配备激光雷达的国产品牌。你预料到这个结果吗?如何看待激光雷达的必要性?

徐雷:视觉传感器和激光雷达各有优势。摄像头属于被动感知,能提供分辨率更高的图像、颜色和纹理特征等丰富信息,帧率可达每秒 30 帧。激光雷达虽能主动发射激光、通过 ToF(Time of Flight,一种基于信号飞行时间的测距技术)测距,但点云密度和分辨率比摄像头低,信息没有视觉传感器丰富,帧率通常只有每秒 10 帧。

在理想状态下,如果车辆能同时搭载两种类型的传感器,且控制器算力足够强、算法足够好,那性能天花板肯定最高。不过汽车作为消费品,需要考虑成本和价位差异。单独使用激光雷达会因帧率低、点云稀疏而限制智驾系统性能上限。纯视觉方案在算法和算力足够的情况下也能开得挺不错,但仍会受到算力水平等因素制约。

因此,智驾系统的传感器选择需要综合考虑性能、成本等多方面因素,并不是单纯的理论问题。

晚点:现在车端算力还在提升,这是否为搭载激光雷达提供了便利条件?

徐雷:激光雷达对算力的消耗实际上比视觉传感器更小,因为激光雷达的点云信息量相比 800 万像素摄像头的视频流要稀疏很多,帧率也更低。摄像头捕捉到的信息量更大,关键在于如何充分利用这些海量信息。

如果重度使用激光雷达,而视觉处理能力不足,智驾方案会受限于激光雷达的性能天花板。然而,对于需要快速博弈和迅速反应的场景,仅靠激光雷达难以有效处理,视觉能力必须跟上。

晚点:充分利用摄像头的技术难点是在于算法吗?

徐雷:主要是两个方面。一是算法本身的技术先进性;二是如何让算法在车端计算资源有限的嵌入式平台上高效运行,智驾方案最终还是要跑在车端。

晚点:从行业平均角度看,一颗 800 万像素摄像头大概占用多少算力?

徐雷:很难给出绝对数值,因为这取决于具体功能需求——是单车道的高速 NOA、带换道的高速 NOA,还是城市 NOA?要处理的场景数量不同,决定同样传感器配置下系统对算力的消耗不一样。而且 TOPS(Tera Operations Per Second,每秒计算一万亿次) 只是衡量指标之一,还要考虑内存带宽、NPU(Neural Processing Unit,神经处理单元)对算子的支持力度等因素。

晚点:业内有说法认为,激光雷达是现阶段的一根 “拐棍”,你认可吗?

徐雷:激光雷达方案可能是个捷径,能快速让系统跑起来,但上限相对较低。

晚点:为什么纯视觉方案的上限更高?

徐雷:从信息输入看,激光雷达每 100 毫秒才获得一次点云,而摄像头每 33 毫秒就能提供 800 万像素的图像——视觉传感器的信息更丰富,获取频率更高。开车需要在电光石火间作出决策,如果输入帧率和信息量跟不上,虽然车也能行驶,但在需要快速反应的场景下,智驾方案的能力确实会差一些。

激光雷达虽然通过直接测距降低了处理难度,但它的信息量少、观测间隔长,构建周围环境可能不够及时、精确。对一些需要准确及时理解的场景,表现相对较弱。

晚点:纯视觉方案以摄像头为主传感器,那融合感知方案呢?

徐雷:以特斯拉为例,它没有在量产车上搭载激光雷达,系统必须靠纯视觉理解三维世界。而我了解的一些以激光雷达为主的方案,对激光雷达的依赖度非常高。

一些以激光雷达为主传感器的车,它的视觉处理能力可能跟不上。摄像头虽然每秒输入 30 张图像,但系统可能只处理 10 次结果。这种对激光雷达的强依赖可能导致系统在极限测试场景下表现不佳。

晚点:纯视觉方案上限可能更高,但你刚才也说,在理想状态下,两种传感器都用才最好。

徐雷:如果不考虑成本,我当然希望有冗余配置,比如在车里放两台发动机,一台坏了就换另一台。但冗余不仅涉及传感器,算法融合本身的技术挑战也很高。所以像特斯拉,选择在发展过程中先做好视觉,同时它考虑到要卖车,加那么多激光雷达对成本也是挑战。

晚点:所以你从内心角度是支持纯视觉方案?

徐雷:不是,我比较开放。我的想法是:第一,肯定要以视觉为主,一定要把视觉能力做好。如果车上有视觉和激光雷达,却只把激光雷达做好,视觉只处理到 10 帧,那我不能接受。第二,对于车上的传感器,无论是激光雷达、4D 毫米波雷达还是将来的新东西,我都持开放态度,我不认为车上只能有摄像头。

晚点:你反对的是,有些厂商用了激光雷达,但没有把视觉能力做好。

徐雷:对。你会看到,那些车的摄像头也不少。理论上,装了这么多摄像头,还有激光雷达,智驾系统的能力不应该比特斯拉差才对。

晚点:有些厂商说,用激光雷达是为了在夜间、雨雾等场景下更快识别前方不规则障碍物,这样更安全。你怎么看?

徐雷:我个人认为,在漆黑的恶劣天气下,建议不要行驶。这不适合自动驾驶甚至人工驾驶。摄像头有局限性,不过传感器也在进步,车上还可能有 4D 毫米波雷达等其它传感器。激光雷达能看到的东西,其他传感器也能看到,但能否准确识别是个问题,因为会有误报的挑战。激光雷达在雨雪天气也会受影响。

有这些传感器当然更好,但这涉及产品定义:我们的产品边界在哪?到底要识别多大的障碍物?根据国家智能驾驶标准,视觉加 4D 毫米波的方案能够解决这些问题,并不一定要上激光雷达。

晚点:可以把 4D 毫米波雷达理解为小一号的激光雷达吗?

徐雷:它们的原理还不太一样,像是苹果和橘子。

晚点:4D 毫米波雷达能提供一些摄像头感知不到的环境要素。

徐雷:恶劣环境对它的影响非常小,甚至没有影响。

晚点:特斯拉现在连 4D 毫米波雷达都不用,这是出于什么考量?

徐雷:马斯克的想法很朴素:人开车时,恶劣天气下看到东西也会刹车,也不可能把每种场景都处理好。如果有这些传感器当然更好,但从马斯克的角度,摄像头就能达到要求:晚上有灯光,现在的 CMOS 传感器进光量大,也能看到很多东西。

晚点:相比国内厂商,特斯拉的视觉能力大概高出多少?

徐雷:现在国内头部厂商基本在 10FPS(Frames Per Second,每秒帧数) 左右,特斯拉至少达到 20 多 FPS。

晚点:还有人觉得,有些厂商不用激光雷达是由于成本因素,但现在激光雷达的价格也不是很高。

徐雷:不一定是纯价格原因。包括海外一些车企,他们可能觉得激光雷达难以布置,会影响车辆造型。

晚点:马斯克还说过,当摄像头和激光雷达的识别结果不一致时,听谁的也是个问题。

徐雷:这就是融合时的难点。两个不同源的信息,到底信谁,或者怎么综合?

晚点:国内用激光雷达的厂商解决这个问题了吗?

徐雷:大部分厂商还是更相信激光雷达,这可能是因为他们还没有把视觉处理到比较好的状态。有激光雷达至少能让车先开起来,只是遇到挑战性场景时处理不好。在国内,大家更关心如何让智驾方案快点儿上车。

晚点:激光雷达厂商还在提高线数,比如从 128 线到 800 线,这对激光雷达的性能提升有多大帮助?

徐雷:增加线数是为了让点云更密。在以前,地上的较小物体激光雷达可能探测不到;现在能被多个点覆盖,识别效果肯定会更好,但相应地,成本也会上升。

晚点:现在很多厂商都在做 “端到端”、VLA,这些新技术对数据的使用更重。他们使用的数据,主要就是摄像头采集来的吧?

徐雷:这要看每一家厂商怎么定义。从数据角度,无论是传统 CNN 还是 Transformer、BEV,最开始肯定是用实际采集来的数据。但越往后,如何通过 AIGC 生成数据更重要,因为对于一些极限场景,实际采集来的数据毕竟有限。

晚点:Nullmax 是怎么使用数据的?

徐雷:我们研发了一套数据驱动的成长系统。举个例子,2021 年做海外项目时,不同国家交通标识的差别很大,不可能开车采集很长里程。我们就想用 AI 生成方案,比如自动把速度标识贴到真实场景的正确位置,后来扩展到生成不同颜色、距离的车辆,甚至生成视频。在闭环仿真中调整规控策略,摄像头视角的视频也会相应变化。

我们希望靠技术而非狂采数据,因为后者成本很高。通过算法,用真实数据生成千变万化的场景,同时覆盖危险场景。产生有效数据的能力本质上是算法能力。算力也不是蛮干,用什么网络架构能大幅降低算力需求,这是有技术含量的,并不是完全拼谁有钱买卡。

晚点:你在特斯拉自动驾驶部门工作过。至今人们仍认为,特斯拉的智驾能力处于行业前列。特斯拉主要做对了哪些事情?

徐雷:第一性原理比较重要,就是即使有挑战,也坚持走正确的路。我们认为,用激光雷达像拐棍或捷径,能让智驾系统快速实现量产上车,但最终要达到一定高度,还是要把视觉 AI 能力做好,这没那么急功近利。无论是视觉加激光雷达,还是视觉加毫米波雷达,首先要把视觉能力提到足够高,这会决定系统上限。

题图来源:视觉中国

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/189976