Py学习  »  aigc

自动驾驶论文速递 | DriveQA、闭环仿真、AIGC、世界模型等~

自动驾驶之心 • 1 月前 • 131 次点击  

分享下最近自动驾驶领域的相关工作!

DriveQA

基于多模态大语言模型的交通规则理解与评测

波士顿大学与圣路易斯华盛顿大学团队ICCV25中稿的论文,本文提出了DriveQA数据集,通过整合美国各州驾驶手册文本与CARLA仿真环境中的视觉场景,构建了包含474K样本的驾驶规则问答基准,在表1中与现有多模态数据集(如NuScenes-QA、DriveLM等)对比突显其全面覆盖交通规则的优势,并在表2-9中验证了其对模型泛化与推理能力的提升效果。

  • 论文标题:DriveQA: Passing the Driving Knowledge Test
  • 论文链接:https://arxiv.org/abs/2508.21824
  • 项目主页:https://driveqaiccv.github.io/

主要贡献:

  1. 提出 DriveQA 多模态驾驶知识基准:构建了涵盖文本(DriveQA-T)与视觉 - 文本(DriveQA-V)的大规模评估基准,其中 DriveQA-T 含 26K QA 对(源自美国 51 个地区驾驶手册,覆盖 19 个问题类别,含答案解释),DriveQA-V 含 68K 图像与 448K QA 对(基于 CARLA 模拟器扩展 220 种美国交通标志 3D 资产生成合成数据,结合 Mapillary 真实标注数据),支持交通规则、标志识别、路权推理等任务评估,并标注视角、光照、天气等环境变量。
  2. 系统评估 SOTA 模型性能与弱点:对主流 LLM(如 GPT-4o、Llama-3.1)与 MLLM(如 LLaVA-1.5、Mini-InternVL)进行测试,发现模型在基础交通规则上表现良好,但在数值推理(如限速、酒精阈值)、复杂路权场景(多车同时到达无控制交叉口)、交通标志变体(如临时管制标志)及空间布局理解(第一视角交叉口)存在显著缺陷,且预训练获取的交通知识有限。
  3. 验证 DriveQA 的模型优化价值:通过 LoRA 微调 DriveQA,模型在管制标志识别、交叉口决策等类别准确率显著提升;基于 DriveQA 的预训练可增强下游驾驶任务性能,在 nuScenes 轨迹预测(降低 L2 误差)、BDD-OIA 行为推理(提升 F1 分数)及 Mapillary 真实标志识别(准确率提升 10%-26%)中实现有效泛化,验证文本与合成知识的内化能力。
  4. 分析模型环境敏感性与泛化局限:利用 DriveQA-V 的受控变量(光照、距离、天气)揭示模型对环境因素的敏感性;通过负采样构建难例集(如数值干扰选项、同类别标志干扰),暴露模型对复杂规则的理解不足;验证合成数据到真实场景的迁移能力,为自动驾驶 AI 的规则推理优化提供方向。

算法框架:

实验结果:

相关工作已汇总至『自动驾驶之心知识星球』,星球内部目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的自驾社区,已经超过4000人了。我们期望未来2年内做到近万人的规模。给大家打造一个交流+技术分享的聚集地,是许多初学者和进阶的同学经常逛的地方。

我们为大家准备了开学季大额优惠,仅限前15名...

生成式人工智能在自动驾驶系统测试中的应用综述

本综述系统性地总结、分析和评述了生成式人工智能(Generative AI)在自动驾驶系统(ADS)测试领域的现有研究成果,并未提出新的模型或数据集,而是对已有研究进行了归纳、对比和总结。

  • 论文标题:Generative AI for Testing of Autonomous Driving Systems: A Survey
  • 论文链接:https://arxiv.org/abs/2508.19882

主要贡献:

  1. 系统性文献梳理与分类:系统检索并分析 91 篇生成式 AI 用于 ADS 测试的相关研究,采用主题分析法将生成式 AI 的应用归纳为6 类核心任务(场景生成、关键场景生成、场景转换、场景增强、场景重建、场景理解),且明确这些任务均围绕 ADS 的基于场景的测试(scenario-based testing) 展开,填补了此前综述中 “生成式 AI 专门用于 ADS 测试” 的研究空白(此前综述或聚焦 ADS 测试未涉生成式 AI,或聚焦生成式 AI 在自动驾驶但非测试场景)。
  2. 生成式 AI 模型应用机制解析:全面梳理当前用于 ADS 测试的生成式 AI 模型谱系,包括大语言模型(LLMs,如 GPT 系列)、视觉语言模型(VLMs,如 GPT-4V)、扩散模型(如 DDPM、Stable Diffusion)、生成对抗网络(GANs,如 Wasserstein GAN、CycleGAN)、变分自编码器(VAEs,如 CVAE、Dual-VAE)及混合模型(如 LLM + 扩散模型、AE+GAN),并详细阐述各类模型在不同测试任务中的核心机制(如 LLM 的提示工程、扩散模型的目标 / 上下文条件生成、混合模型的多阶段协同)。
  3. 评估资源与基准整合:汇总 ADS 测试中常用的数据集(如 Waymo Open Dataset、nuScenes)、仿真器(如 Carla、LGSVL)、ADS 系统(如百度 Apollo、InterFuser)、评估指标(如真实性指标 minADE/minFDE、有效性指标碰撞率、可控性指标信息提取准确率)及基准方法(如 AdvSim、L2C、TrafficGen),为该领域研究提供统一的评估资源参考框架。
  4. 局限性与未来方向明确 :识别生成式 AI 用于 ADS 测试的 27 项核心局限性(如 LLM 的幻觉问题、扩散模型的计算开销、各类模型对少样本数据的泛化能力不足),并结合现有研究提出针对性改进方向(如领域适配的模型微调、物理约束融入生成过程、轻量化模型设计)。

SKGE-SWIN

基于skip-stage Swin Transformer 的端到端自动驾驶路径点预测与导航

印尼教育大学、加查马达大学的研究团队提出了一种基于跳跃阶段 Swin Transformer 的端到端自动驾驶模型SKGE-Swin,在CARLA仿真中驾驶分数达到37.10,显著优于基线模型。

  • 论文标题:SKGE-SWIN: End-To-End Autonomous Vehicle Waypoint Prediction and Navigation Using Skip Stage Swin Transformer
  • 论文链接:https://arxiv.org/abs/2508.20762

主要贡献:

  1. 提出 SKGE-Swin 架构:整合 Swin Transformer 的分层处理与自注意力(SW-MSA)机制,引入受 ResNet 启发的跨阶段跳跃连接(Skip Stage Connection),解决 Swin Transformer 在自注意力和补丁合并过程中高分辨率空间细节丢失的问题,实现从浅层到深层特征的关键信息保留,增强端到端自动驾驶模型对全局像素关联与复杂环境模式的理解能力。
  2. 优化 BEV 表示的特征学习:将自注意力机制应用于语义深度云(SDC)转换的鸟瞰图(BEV)表示,有效捕捉像素间长程依赖关系,突破传统 CNN 局部感受野的局限,显著提升路径点(Waypoint)预测精度与车辆导航的鲁棒性。
  3. 对抗场景评估与消融分析:在 CARLA 平台构建模拟真实世界的对抗场景(如交叉口转向、对向车辆切入)评估模型,同时通过消融研究量化 Swin Transformer 模块、跨阶段跳跃连接对模型性能的贡献,明确各组件的作用机制。
  4. 效率优化验证:验证混合精度(float16)优化在 SKGE-Swin 模型上的有效性,在不损失精度的前提下提升推理速度(如 SKGE-Swin-tiny float16 达 27.49 FPS),为边缘设备(如 NVIDIA Jetson)部署提供可行性。

算法框架:

实验结果:

可视化:

DrivingGaussian++

面向环视动态驾驶场景的高真实感重建与可编辑仿真

北京大学、Google DeepMind 等单位的研究团队提出了 DrivingGaussian++ 框架,通过结合 LiDAR 先验、增量式静态重建与动态高斯图建模,实现了对大规模动态驾驶场景的高质量重建与无需训练的多任务编辑,在 nuScenes 数据集上 PSNR 达到 28.74,SSIM 达到 0.865,LPIPS 降至 0.237,显著优于现有方法。

  • 论文标题:DrivingGaussian++: Towards Realistic Reconstruction and Editable Simulation for Surrounding Dynamic Driving Scenes
  • 论文链接:https://arxiv.org/abs/2508.20965
  • 项目主页:https://xiong-creator.github.io/DrivingGaussian_plus.github.io/

主要贡献:

  1. 提出 Composite Gaussian Splatting 场景建模范式:将动态驾驶场景解耦为静态背景与动态目标,分别通过Incremental Static 3D Gaussians(增量静态 3D 高斯) 和Composite Dynamic Gaussian Graph(复合动态高斯图) 建模;前者利用车辆运动的视角变化与帧间时序关系,增量融合多相机视野构建大规模静态背景,避免尺度混淆与模糊;后者通过目标 ID、时间戳及 Grounded SAM 像素级提取动态目标,构建含变换矩阵、位置、姿态的高斯图,实现多动态目标的长期一致建模。
  2. 引入 LiDAR 几何先验优化重建精度:突破传统 3DGS 依赖 SfM 初始化的局限,将 LiDAR 点云与多相机图像融合,通过多相机配准误差最小化提供精确几何先验;同时设计LiDAR 损失监督高斯位置,提升场景几何结构完整性与多视图一致性,解决稀疏视角下静态背景与动态目标的重建失真问题。
  3. 构建无训练(training-free)可控编辑框架:支持纹理修改、天气模拟、物体操作三大核心任务,通过 “重建 - 编辑解耦” 策略避免重复训练;纹理修改中结合扩散模型与深度均衡化优化表面平整度,天气模拟通过物理属性化高斯粒子(如雨滴、雪花)与轨迹建模实现动态效果,物体操作依托 3D 前景资产库实现目标增删,并通过 LLM 预测动态目标轨迹提升合理性。
  4. 提升动态场景编辑的真实性与多样性:结合 LLM(如 GPT-4o)的场景理解能力预测插入目标的运动轨迹,结合 ARShadowGAN 启发的阴影合成与扩散模型局部修复,解决目标插入 “悬浮效应” 与删除后孔洞问题;构建含车辆、行人等的 3D 高斯前景资产库,进一步扩展自动驾驶仿真场景的多样性。

算法框架:

实验结果:

可视化:

清华大学团队提出 G²Editor

用于驾驶视频生成的逼真可控3D高斯引导物体编辑

清华大学、WUWEN AI团队提出了一种基于扩散模型与3D高斯渲染的驾驶视频编辑框架 G²Editor,实现了对物体姿态的精确控制(如旋转5°误差显著降低)和视觉保真度提升(插入任务中 LPIPS-Ref 达0.612,优于基线0.639)。

  • 论文标题:Realistic and Controllable 3D Gaussian-Guided Object Editing for Driving Video Generation
  • 论文链接:https://arxiv.org/abs/2508.20471

主要贡献:

  1. 提出统一编辑框架 G²Editor:构建基于扩散模型的驾驶视频物体编辑框架,首次在单一框架内支持物体重定位、插入与删除三大任务,通过融合扩散模型的照片级外观合成能力与 3D 高斯 splatting(3DGS)的显式几何控制能力,解决了现有方法 “视觉保真度低” 与 “姿态控制不精确” 的核心矛盾。
  2. 设计混合姿态控制策略:创新性结合场景级 3D 边界框与 3D 高斯模型作为姿态条件:一方面通过深度感知 3D 框(投影角点深度并编码多尺度特征)与边缘掩码维护非目标物体布局,恢复遮挡区域;另一方面将编辑物体的 3D 高斯模型投影为 2D 渲染视频,为扩散去噪提供密集、准确的空间位置线索,确保 3D 空间一致性。
  3. 优化物体外观与时间一致性:提出分层外观维护方案,通过 ReferenceNet(复用 Stable Diffusion 架构)与 CLIP 特征联合注入,补充细粒度外观细节;引入参考图像随机水平翻转,避免模型过度拟合参考姿态,保障姿态控制灵活性。设计两阶段训练(第一阶段单帧编辑、第二阶段训练时间注意力层),增强跨帧内容一致性。
  4. 验证性能与下游价值:在 Waymo Open Dataset 上验证,G²Editor 在姿态控制精度(LET-mAP 等指标)与视觉保真度(FID、LPIPS)上全面超越 OmniRe(3DGS 基方法)、DriveEditor/GenMM(扩散基方法);生成的编辑数据可有效扩展 3D 目标检测任务的视角分布,提升检测器性能(如 PGD 模型 LET-mAP 提升)。

算法框架:

实验结果:

可视化:

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/186297