接下来,将按照以下统一结构,对于本次学术交流会分享讨论的5种基于场景生成的测试方法进行介绍。
2.1 基于引导条件扩散模型的自动驾驶关键场景生成方法 决策规划系统的安全可靠部署,其核心挑战在于充分的测试验证。然而,那些能够暴露系统性能不足与缺陷的关键场景,不仅在自然驾驶数据中十分稀缺;其复杂的多维交互与动态演化特性也使得通过预设规则或简单建模进行有效的人工构造具有挑战性。为了有效评估并提升自动驾驶决策规划系统的鲁棒性与安全性,需要一种能够高效生成多样化、高风险且具备现实合理性的关键测试场景的方法。这样的方法不仅能为算法的性能分析提供关键数据支撑,也能指导其针对性的优化迭代。受到什么研究(文章)启发?
本研究主要汲取了近年来在生成模型领域取得突破性进展的扩散模型以及(视觉语言)大模型进行复杂场景理解与生成这两大前沿方向的启示。
基于扩散模型生成场景:扩散模型能够有效学习真实交通场景的数据分布,并且为可控场景生成提供了高效途径。通过引导扩散技术,在无需额外训练的情况下,能灵活生成满足特定行为约束的轨迹[1-3]。
基于大模型生成场景:大模型凭借其强大的语义理解与推理能力,为自动化生成更符合人类意图和现实逻辑的场景注入了新的活力。除此之外,大模型可以的输出不同层级、形式多样的结果(如直接输出轨迹或者Carla仿真器脚本),使其能够灵活地嵌入到不同的方法流程和应用框架中[4-5]。
现有引导扩散模型的研究中,主要是一段式的离线引导范式。即在仿真开始时基于初始状态进行一次完整的引导优化,生成整个场景序列中所有受控智能体的行为。这种范式在处理包含不受控被测主车的闭环仿真场景时存在显著局限性,因为背景智能体的行为无法根据仿真过程中被测主车的实际动作进行实时调整,导致难以生成需要精确响应与动态交互的关键测试场景。本研究的核心创新在于提出了一种三层式在线自适应引导扩散框架。实现了一种融合视觉语言大模型高级语义理解能力与扩散模型细粒度生成能力的自动化关键测试场景生成方法,最终实现面向被测算法的高效关键场景生成,提升测试的效率与泛化性。所提出的方法能够高效地直接生成关键场景,显著提升了自动驾驶系统测试的挑战性。在生成场景中,被测算法的平均算法失效碰撞率达到了45.85%,相较于原始场景平均增长了约4.2倍。算法路径完成度普遍下降超过30%。这些指标有效地暴露了不同自动驾驶算法的性能局限,验证了生
成场景的关键性。跨地图场景生成多样性:研究提出方法能够根据不同的初始场景和VLM的分析结果,生成多样化的关键场景。这意味着系统不仅仅是重复生成相似的危险情况,而是能够创造出不同类型的、具有挑战性的测试用例。
同场景行为引导多样性:即使是针对同一个具有潜在风险的初始场景,该方法也能够通过控制不同的背景车辆,或者改变这些背景车辆的行为模式,来对主车施加不同类型的关键交互。这样一来,从一个原始场景数据点出发,可以衍生出多个模式各异但都具有挑战性的关键测试场景。
被测算法对抗适应性:在仿真过程中,该方法能够动态适应被测自动驾驶算法的行为。通过这种自适应性,能够对被测系统施加持续且有效的测试压力。在相同初始场景下,以UrbanDriver(基于模仿学习)和PDM-Hybrid(混合学习与优化)作为被测算法,生成关键场景。在测试中,由扩散模型控制的1号车动态调整速度以实施变道切入。UrbanDriver因响应能力不足,未能避让,导致碰撞;而PDM-Hybrid成功规避,实现安全避让。图8 相同初始场景下引导生成针对UrbanDriver算法的
图9 相同初始场景下引导生成针对PDM-Hybrid的2.2 面向自动驾驶决策系统的安全关键场景生成与泛化针对自动驾驶决策系统在现实世界的长尾分布下,关键测试用例十分稀疏,在这种情况下自动驾驶决策系统的安全性无法得到保证。为了对自动驾驶系统的性能分析提供指导和优化迭代提供数据支撑,我们希望以较高的多样性和效率生成场景生成安全关键场景,并且希望所采用的场景生成方法对待测系统具有很好的适应性。从该角度出发考虑,现有安全关键场景的生成方法则容易遭遇面对不同风格待测系统时的性能下降,以及多样性与效率不足的问题,这是我们进行此项研究的动机。本研究的开展,受基于深度强化学习以及基于优化的安全关键场景生成方法启发。
基于深度强化学习的安全关键场景生成:近年来,基于深度强化学习的安全关键场景生成方法,在场景生成的效率和关键程度的角度取得一定的进展和成果,证实来深度强化学习方法在交通参与者建模、场景风险性优化方面的优势[6-7]。
基于优化的安全关键场景生成:在基于优化的场景生成方法中,Advsim通过在线的黑盒优化周车动作序列来生成安全关键场景;KING则通过动力学梯度在线优化场景中交通参与者轨迹,上述工作给予了我们灵感,即在线的优化相比于离线策略的执行有更高的适应性[8-9]。
然而,现有研究还有很多尚未解决的问题,例如对待测系统适应性的分析与验证、场景生成的效率瓶颈和多样性局限等等。
本研究通过动态场景轨迹优化与动静态安全关键场景结合生成,实现安全关键场景对抗生成方法的创新突破。动态场景轨迹优化:提出先验风险引导的对抗性策略优化方法,将动态场景轨迹优化的过程建模为周车策略的在线优化过程,并将交通先验约束以预定义规则的形式融入到优化过程中,在此基础上,通过基于势场论的在线风险量化模型对场景生成模型给予实时引导,实现兼具效率与合理性的场景参数优化过程。
动静态安全关键场景结合生成:在动态轨迹优化产生的数据基础上实施数据驱动的后验风险评估,进而实现后验风险引导的静态参数优化,实现静态参数的自适应对抗生成。基于此构建动静态参数结合优化方法,实现安全关键场景的加速生成。本研究从有效性、多样性、效率以及全地图结构适应性的维度进行效果展示。有效性:如图12所示,实验结果表明基于深度强化学习的对抗性策略优化方法具备有效性;如图13所示,在相同的场景初始状态下,所提出的方法可以针对不同待测系统生成不同类型的场景,证明了其对待测系统的良好适应性多样性:如图14所示,方法能够生成大量不同类别的场景和事故类型。效率:如图15所示,所提出方法相比于基于深度强化学习的基线模型的速度提升至2.81倍,平均场景生成时间最高可达到18s/个。全地图结构的适应性:如图16所示,展示了其对于不同道路结构的适应能力,更验证了方法的应用驾驶。2.3 基于图注意力网络迁移学习的自动驾驶关键场景识别方法研究 基于关键场景的自动驾驶系统测试与算法迭代是提升其能力的核心手段。然而,当前面临的现实问题是:如何在标注数据有限的情况下,高效识别那些对系统构成挑战或影响用户体验的关键场景?
以“主观风险场景”为例,这类场景的关键性往往源于复杂的多车博弈、其他交通参与者的潜在不确定行为、或特定环境带来的压迫感,而非简单的物理碰撞风险。这种主观感受难以用传统的碰撞时间(TTC)等客观指标完全量化,其发生机理也未被充分探明。这就导致自动化标注困难,高质量数据匮乏。这严重制约了依赖大量训练数据的深度学习场景识别模型的效能。
因此,本研究的核心目标在于,探索能够深入理解场景内复杂时空交互的模型,并实现在标注数据稀缺条件下的有效学习,以期准确识别包括主观风险场景在内的各类关键场景,为自动驾驶系统的优化与验证提供支撑。
本研究的开展,借鉴了自动驾驶场景建模与迁移学习领域的既有成果。
基于图的场景建模与表征:在场景表征与特征提取方面,研究采用了基于图神经网络(GNN)进行复杂场景建模的思路。例如,Jia X等人[10]与Yu S等人[11]分别利用图结构显式捕捉多智能体交互和时空动态,为轨迹预测或场景风险评估等任务提供了有效的基础。
图17 HDGT场景建模[6]
图18 RS2G场景建模[7]
基于轨迹预测的模型预训练: 为应对标注数据稀缺的挑战,本研究受到了将轨迹预测这一无需标注数据作为预训练任务的相关工作的启发。TrajPT[12]与GSAN[13]等研究已成功验证,基于轨迹预测任务预训练的模型能够有效迁移至下游任务(如意图识别)。
本研究的核心创新在于提出了一套针对场景识别的预训练-迁移学习框架,并设计了边特征增强的图注意力机制 (EGAL)。
边增强的图注意力层:与现有将图神经网络和注意力机制结合的工作相比,EGAL的创新在于将边特征更显式地融入注意力计算和节点更新,使模型能更精细捕捉实体间的动态交互,这对于理解复杂的驾驶场景至关重要。
预训练迁移学习框架:本研究构建的预训练-迁移学习框架,与直接微调的方法相比,包含了针对性的领域对齐步骤和分层微调两阶段策略。本研究模型在应对跨领域数据分布差异和标注数据稀缺问题时,展现出更强的数据效率和鲁棒性。本研究通过学习通用的场景时空特征表示,提升模型对复杂交互的理解能力,并利用迁移学习框架克服数据稀疏限制,最终实现对关键场景的高效理解与识别,为自动驾驶系统的开发、验证与优化提供关键支撑。复杂场景的理解能力:本研究提出的预训练模型,如图19所示,在Argoverse v2轨迹预测任务上实现良好的轨迹预测能力,其多模态预测(K=6)的minFDE指标为1.86米,minADE为0.98米,展现了对复杂场景的理解。
图19 预测任务中模型表现
小样本学习能力:在迁移学习方面,应用于highD数据集的变道意图分类任务时,本方法性能超越基线TrajPT和GSAN,在全量数据上各类别准确率均超99.4%。更重要的是,如下图所示,仅使用3%标注数据进行训练即可超越基线方法在全量数据上训练的表现。
图20 变道意图分类任务中模型与基线表现对比
关键场景识别能力:针对关键场景识别,在基于DNDA指标标注的数据上,模型对关键与非关键场景的分类准确率分别为81%与93%;在主观风险标注稀缺的任务中,F1分数达0.804,关键场景识别准确率为76.6%。进一步通过模型在未标注数据上的高置信度推理,可挖掘出与训练集中关键场景分布相近的新样本,如图21所示,推理得到的关键样本(深红三角)主要分布在原关键样本(浅红圆点)周围。
图21 关键场景识别任务表现
开环评测:通常在离线数据上进行,仅衡量模型在单步预测任务中的准确性,如轨迹偏差或控制误差,评估效率高但无法体现模型对环境的长期影响。
闭环评测:通过将模型嵌入仿真或实车系统中,实时与动态环境交互,从而全面考察其行为稳定性、策略鲁棒性与安全性。闭环评测显然更贴近实际部署需求。尽管完全基于模拟器的闭环仿真在端到端系统评测中具有高效、可控的优势,但它在实际部署前仍面临两个关键问题。有限的智能体行为建模(Limited Agent Behavior Modeling):多数模拟器中,其他交通参与者的行为往往依赖规则或简单策略,缺乏真实交通中复杂、多变的互动逻辑,导致系统评测脱离真实挑战。
仿真到真实的迁移鸿沟(Sim2Real Gap):无论是感知数据的视觉偏差、还是物理建模的细节差异,都可能在部署过程中引发性能骤降。因此,仅依赖现有的闭环仿真框架,难以支撑对端到端自动驾驶系统的有效评估与部署。要实现真正面向部署的模型评测,亟需构建端到端闭环评测体系,并发展高保真、交互性强的场景建模方法。前者关注评测流程的全面性与决策反馈的闭环机制,后者则聚焦于模拟器能力的升级与场景生成的真实性表达,从而在仿真中引入更具挑战性和转移能力的评测用例,为端到端模型的可靠性验证提供坚实基础。感器级别的仿真,有利于端到端下游训练/post-training可以借助真实数据集,打通其他交通参与者交互行为不足的缺点本研究创新突破关键词可总结为:重建更真实、全体交通参与者更可控、场景更丰富。重建更真实:不同于Diffusion-based的路线,渲染技术栈采用3DGS,帧间一致性更好,更能匹配基于真实数据集的重建需求。图22 3D GS渲染具备帧间一致性
交通参与者更可控:主车及交通参与者的行为模式具有高度可控性,不仅仅基于log replay,可以接入 agent-based 和 rule-based,拓展场景丰富度。图23 本研究技术路线图
场景更丰富:提出的新的闭环simulator具备多种可能。可接入任意E2E model,完成闭环验证打分;可探索现有场景clip下的更多解法,增补训练数据;可基于现有场景clip客制化更多交通参与者,完成场景拓展。
效果是怎么样的?
以下对于研究所提出方法的效果进行展示:
重建更真实:采用StreetGaussian作为baseline的基于3DGS的渲染方法,相较于 diffusion-based 方法通常依赖隐式的噪声引导生成过程,虽然在图像生成质量上具备一定优势,但难以对几何结构进行精确还原,尤其在传感器精度要求高的场景下易出现模糊、结构偏差、帧间一致性差等问题。因此,3DGS方法更适合用于需要几何精度和空间一致性的支持端到端训练的传感器级重建任务。图24 GT图像
图25 3D GS重建图像
交通参与者更可控:主车 Ego agent 及 其他交通参与者 Other agents 的motion建模,可以接入自定义rule-based model 也可以接入 agent-based model。图26-27展示了规则模型接入的效果。其中图26中黑线为自车log原轨迹,黄线为自车log未来轨迹,绿线为rule-based model生成的新轨迹;图27为基于其中一条生成的新轨迹对应重建的闭环场景。
图26 基于规则的模型接入
图27 驾驶场景重建示例
图28-29展示了智能体接入的效果。其中作为交通参与者的周车,具备接入Agent-based model的能力。图29的示例中接入一个RL-based算法[16],操控周车对主车进行对抗操作。在视频中,主车在经过一个路口后,左前方车辆激烈刹停并试图切入,形成对抗。图28 Agent-based模型框架
图29 驾驶场景重建示例
2.5 基于多智能体强化学习的高交互协作对抗场景生成预定义场景:在测试开始之前被预先定义好,场景中的背景车(BV)遵循定义的规则进行行驶,在测试过程中不和被测系统(SUT)进行交互,这种方法缺乏交互性。
演绎场景:通过在场景中放置由驾驶员模型操控的、具备独立决策规划能力的背景车,通过背景车与SUT的持续交互实现测试,因此拥有更高的测试效率。现有的基于演绎场景的测试方法大多通过强化学习实现,智能体的训练目标多为与SUT发生碰撞从而得到安全关键场景,但是这些方法训练出的智能体往往会产生不合理、不真实的行为(如强行与SUT发生碰撞)。本研究致力于解决现有基于演绎场景的测试方法的问题,高效生成高交互、高真实的测试场景。文献[17]中使用深度强化学习(DRL)训练得到了高真实性的驾驶员模型,并基于该驾驶员模型生成了演绎测试场景。由于在驾驶员模型训练过程中没有对抗属性的设置,因此,使用文献[17]中的驾驶员模型进行安全关键场景生成的效率较低。本研究的创新突破主要聚焦于训练方法与奖励函数设置上。
训练方法:设计了两阶段的训练框架。阶段一参照研究[1],基于 Level‑k 原理和个体奖励函数,训练驾驶员模型以获得真实可靠的基础驾驶能力;阶段二 在 SUT-in-the-loop 环境下,运用 CTDE 多智能体强化学习,并引入协作奖励,进一步促使驾驶员模型与 SUT 开展对抗训练。
奖励函数设置:本研究在保留文献[1]个体奖励的基础上,新增协作奖励。通过量化并评估背景车动作前后对 SUT 前向行驶空间及两侧潜在换道空间的存量与变化,奖励引导背景车与 SUT 进行合理约束与对抗。图30 两阶段训练框架示意图
本研究得到了双模态的驾驶员模型,可以控制环境中的背景车通过单车对抗或协作对抗的方式挑战SUT,从而高效的生成安全关键的测试场景。以下从对抗驾驶能力、驾驶行为真实性以及场景生成效率三方面进行展示。对抗驾驶能力:图31-32分别展示了两车协作对抗/三车协作对抗的情况,从三个场景中可以看出,本研究所构建的双模态驾驶员模型通过压缩SUT前向行驶空间和两侧潜在换道空间的方式,实现了与SUT的对抗,并最终导致了SUT与背景车发生了碰撞。同时,与单车对抗相比,多背景车协作对抗能得到背景车行为模式更加多样的安全关键场景。
图中蓝色方块为由SUT控制的主车(SV),三角代表场景中的背景车,灰色的代表没有参与对抗的背景车。每个标记之间相隔0.5s。带有紫色边框的三角代表该背景车在该位置进入/退出对抗驾驶模态。图31 两车协作对抗
图32 三车协作对抗
驾驶行为真实性验证:本研究统计了所有生成的场景中,背景车的两个关键物理参数(速度和TTC)的分布,并将这两个分布与自然驾驶数据集highD中的对应参数分布进行比较,结果如图33所示。从图中可以看出,本研究提出的双模态驾驶员模型的行为真实性也可以保证。
图33 背景车速度与变道时TTC参数的分布统计
场景生成效率:对比本研究中提出的双模态驾驶员模型与文献[1]中的驾驶员模型在生成安全关键场景上面的效率,如表1所示,在相同的500轮仿真中,本研究提出的双模态驾驶员模型生成了429个安全关键场景,远高于文献[17]中的模型