社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

商汤绝影王晓刚:端到端是智能驾驶的「ChatGPT 时刻」|36氪专访

36氪 • 12 月前 • 243 次点击  

商汤绝影端到端大模型,剑指2025年。


采访田哲 李勤 

田哲 

编辑李勤

来源|36氪汽车(ID:EV36kr)

封面来源企业授权

“我常对同事们说,团队生命永远只有半年,活过半年才能续命。”说话者,是商汤绝影智能汽车事业群总裁王晓刚。

近几年,汽车行业仿佛坐上一辆高速行驶的过山车,各类新技术层出不穷。不到三年,智能驾驶量产落地就从高速道路,转向全国城乡道路,稍不留神,玩家们就会被市场远远抛下,失去下一轮游戏的资格。王晓刚希望这句警句,能激励团队紧跟行业进程。
2021年,商汤发布智能汽车品牌“绝影”,以Tier 1的身份切入智能汽车市场,由王晓刚掌舵。王晓刚是商汤科技的联合创始人兼首席科学家,在此之前,他作为商汤研究院院长带队研究大模型。
商汤绝影的主要收入来源一度是智能座舱业务,其与上汽、奇瑞等知名主机厂合作了上百款量产车型。然而,汽车行业更广阔、同时变革更剧烈的赛道是智能驾驶。而端到端大模型,无疑是当下影响智能驾驶走向的最大变量。
在王晓刚看来,端到端大模型至关重要,是团队实现智能驾驶弯道超车的机会。
2023年,智能驾驶进入开城竞赛,各车企和Tier 1试图研发低成本、通用性强的智能驾驶系统。当年5月,特斯拉CEO马斯克宣布,特斯拉将发布采用端到端大模型的自动驾驶系统,逐渐扭转了行业智能驾驶的研发方向。
端到端大模型旨在将智能驾驶的所有流程,整合至一个统一的模型,只需输入原始数据就能直接输出最终结果,从而大幅提升智能驾驶系统通用性。
这一轮AI与智能驾驶深度融合的浪潮,让商汤绝影看见了发挥大模型优势的机会。
今年4月北京车展期间,商汤绝影实车演示了感知决策一体化自动驾驶通用大模型UniAD,据悉,仅通过纯视觉和导航地图,车辆就能在城市、乡村道路智能驾驶。
王晓刚告诉36氪汽车,商汤研究端到端智能驾驶的契机是与本田的合作。2017年,本田汽车向商汤提出一个课题,要求商汤只用摄像头,没有高精地图的情况下实现智能驾驶功能。“当时我们在本田测试场实现了端到端的智能驾驶,自那之后,团队就持续研究端到端。”
这一次的合作,成为商汤绝影投入大模型研发的开端。2018年,商汤在上海建设超算中心,迄今已有超4.5万块GPU,总算力规模达到1.2万PFLOPS,可实现连续30天稳定训练大模型。充足的算力资源,意味着商汤绝影的模型迭代几乎不受限制。
模型训练离不开道路数据。王晓刚告诉36氪汽车,合作的量产车型在开发测试阶段,团队会定义一套数据操作标准,采集全套数据用于端到端大模型训练。待合作车型上市后,商汤将能获得更丰富的道路数据。
为了获得非公开的高质量数据,商汤绝影还开发了用AIGC视频生成了世界模型,可根据需要生成指定的场景用于模型训练。
决战时刻将至,商汤绝影一改往日的学术风格,为团队扩充了大量有着车企、Tier 1背景的新成员,补齐交付能力。
与大多数智能驾驶解决方案商不同,商汤绝影不介意白盒交付。在王晓刚看来,只有车企真正理解技术,明白现有方案的不足,才能积极配合团队共同开发,加速产品迭代。
商汤绝影把端到端大模型上车时间定在2025年,在王晓刚看来,这是商汤绝影的必赢之战,“没有Plan B”。
以下是36氪汽车与商汤绝影智能汽车事业群总裁王晓刚的对话,经编辑:
谈端到端大模型研发:现在依然是删代码、加代码的过程
36氪汽车:自动驾驶的算法从规则向着AI转变,转变的驱动力是什么?
王晓刚: 首先,基于规则的自动驾驶每天可能遇到几千个道路场景,每个场景对应着不同的规则,如果不断编写规则,时间长久后,可能会忘记初期编写规则的作用,同时消耗的资源也十分巨大。如果用AI大模型数据驱动,自动驾驶研发效率能提升数十倍。
其次,GPT-4o的多模态数据流推理实时交互,人机交互体验有着明显提升。以前基于规则的体验非常固定,反馈单调且不够智能。现在能调动车内外的摄像头,随时随地和汽车大模型自然交互,创造很多内容,加上端到端多模态融合,非常契合汽车的使用场景。
36氪汽车:分段式端到端,是真正的端到端大模型吗?
王晓刚:不是的。一块一块组合的模型能力很弱,不能真正理解场景中的复杂情况,而是解决被简化的任务,这种大模型不需要大网络去喂数据,也不具备像人那样的大脑。
打个比方,蜜蜂基于生物习性,对某个特定的简单任务会完成得很好,但是它的头脑特别简单,不能像人一样具备通用能力,在新场景遇到问题,会发明新工具解决新问题。蜜蜂和人,分别像分段式端到端大模型和一体式端到端大模型,分段式端到端大模型的神经网络模型很小,只会解决特定任务。
36氪汽车:端到端大模型智驾的上限很高,下限难以预测,如何把控下限?
王晓刚:初始阶段还是要用规则兜底,端到端大模型越深入发展,规则将越少,就像感知模块的训练少,要用许多后处理融合,但是随着感知能力增强,规则就慢慢撤掉。
今天绝影的车道保持感知已经做得很好了,就删去很多规则,如果将来场景变复杂了,就继续增加规则,这是一个重复删除代码、增加代码的过程,不过加强后的大模型所需的规则会越来越少。
实际上,ChatGPT在衍生出各种应用时,也有很多规则兜底。端到端大模型的核心在于通用能力,通用能力越强,就能完成更多的事情。
36氪汽车:有行业观点认为,车企大规模量产无图智驾方案后,才更利于端到端智驾方案落地,而商汤是直接跨越到端到端,两者之间有什么区别?
王晓刚:行业大多数端到端大模型智驾方案采用轻图方案,配有简单的标注。如果切换技术路线,成本非常高,相当于重新搭建研发体系。
所有基于规则的智驾方案,由上千名算法工程师不断写规则、打补丁以维护智驾系统。这样的方案量产上市后,还需要持续维护。如果切换技术路线,就相当于从头开始研发。
现在基于规则的智驾方案,因为在车端上写了复杂的规则,导致车端网络算法比较复杂。端到端大模型智驾方案的特点是,车端上网络算法比较简单,后台的任务比较复杂,因为不仅需要数据闭环,还要训练、清洗数据、训练大模型、把大模型分为小模型等等,以维持模型训练的稳定性。

谈端到端大模型落地:未来汽车行业只剩车企、芯片和AI公司

36氪汽车:训练模型需要大量数据,商汤绝影的数据来源是什么?
王晓刚:端到端大模型是一个长期发展过程,需要分步骤进行。商汤会采集数据,也会与车企合作。
商汤绝影合作的量产车型在开发测试阶段,我们会定义一套数据操作标准,不同的量产项目车型是基于规则的智驾系统,我们采集的全套数据可以用于端到端大模型训练。
合作车型上市后会有数据回流,我们会和车企深入合作,选择、清洗更丰富的道路数据。
数据采集越深入,就越难采集到想要的特定数据,采集成本也将提高,绝影用AIGC视频生成的世界模型,进行数据采集。
至于世界模型采集数据的成本,商汤是一家平台型公司,开发的技术与不同行业合作进而分摊成本,还能和很多不同行业的合作伙伴联合开发分摊成本。因此,商汤绝影未来也会和车企深入合作数据采集。
36氪汽车:商汤绝影在推动数据共享时,车企的态度是什么?
王晓刚:车企目前很愿意与我们共享数据,因为绝影的任务明确,车企知道哪方面存在问题,就愿意开放相关数据以解决问题。不过,目前车企没看到端到端大模型更通用的能力。如果看到的话,我想车企会更有动力和我们一起挖掘数据。
36氪汽车:端到端大模型的人才画像是怎样的?
王晓刚:端到端大模型的平台体系非常重要,需要团队具备非常强且全面的工程化能力。如果是模型训练,相关团队应该具备创新性,需要想办法快速迭代。而在最终方案交付时,需要经验丰富的团队兜底。
36氪汽车:行业角度来看,端到端大模型团队规模多大才合适?
王晓刚:现在许多端到端大模型团队,大部分人负责数据采集、测试、分析等工作,真正参与大模型本身工作,团队规模几十人就算多了。
36氪汽车:现在行业有全栈能力的公司,还有芯片、算法等公司,您认为汽车行业未来格局如何?
王晓刚:车企、芯片公司还有AI公司,他们之间的合作是核心部分,其他部分比如硬件、Tier 1等集成类公司可能会被吸收。

谈商汤绝影商业理解:汽车是大模型落地的重要场景

36氪汽车:商汤绝影的商业形态是什么?
王晓刚:商汤绝影有三大业务,分别是智能驾驶、智能座舱和AI云,本质上绝影为车企输出能力。
我认为终局是给车企赋能基础能力,通过数据合作打造各种体验差异化的应用,而不是交付标准化产品。
36氪汽车:其他Tier 1似乎不需要车企具有智驾能力,商汤绝影恰恰相反?
王晓刚:车企需要理解技术,绝影可以白盒交付车企,只有车企理解后,才能根据其需要产生非常有价值的数据,将有限的资源针对性投入,从而进一步增强大模型,推动整个体系不断演进。如果车企遇到问题就找Tier 1解决,车企永远无法实现跨越式的技术发展。
端到端给智驾大模型带来了通用能力,基于这种能力可以生成很多新应用,这些应用会有很多想象空间和拓展空间,而不是只限于单一任务的理解。
36氪汽车:意味着目前绝影的商业模式不特别注重交付吗?
王晓刚:实现远大理想有一个过程,要一步一个脚印,保证交付质量,与车企建立信任关系。现在商汤绝影的内部要求是客户、质量放在第一位,必须第一时间响应客户需求。
36氪汽车:商汤绝影如何提升交付能力?

王晓刚:我们之前AI方面的人才比较多,现在我们引入了大量经验丰富、来自Tier 1、车企的人才。在组织机制上,后端有研发人员,前端有综合的交付团队,已经具备足够力量调动交付资源,同时我们的质量体系也在积极建设。

36氪汽车:您在商汤如何分配精力?

王晓刚:我的精力绝大部分在绝影上,和集团研发也有很多交流。

今天来看,汽车是能推动大模型落地的重要场景,因为大模型的核心就是人机交互体验,现在人机交互界面只有手机、汽车、机器人三个。

手机现在只是文字性交互,其本身的金融属性决定了没办法通过多模态语音、视频进行交互。机器人的交互和汽车关联,甚至能复用,但是机器人没有达到大规模量产应用阶段,数据量很少,无法提供有价值的反馈,从而形成闭环。
而汽车车内外都能交互,是最好的多模态交互场景,并且产量庞大,消费者对多模态大模型的接受度会越来越高。在车内,用户能和多模态大模型交流;车外,大模型能拓展延伸用户的视觉,告诉用户车外的交通情况、建筑物、文字等信息。
36氪汽车:对于商汤绝影来说,明年端到端大模型的交付落地,是必赢之战吗?
王晓刚:对,没有Plan B。我常常和团队说,我们只有半年的生命,半年之后可能再续命。我们有未来五年、十年的理想目标,但是生命永远只有半年。

36氪旗下电动汽车公众号

👇🏻 真诚推荐你关注 👇🏻

来个“分享、点赞、在看”👇

商汤绝影端到端大模

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/172002
 
243 次点击