这篇综述面向视频异常检测(Video Anomaly Detection, VAD)领域给出了一套更“可落地”的系统化整理:以任务设定为主线,覆盖半监督、弱监督、全监督、无监督与开放集监督五类核心范式;以统一方法框架为骨架,从输入形式、方法论、网络结构、精炼策略到输出粒度等维度对代表性工作进行归纳对齐,并配套梳理常用数据集、评测指标与开源资源入口,帮助读者对 VAD 领域能够有更加全面的了解。更重要的是,论文将开放世界趋势、预训练视觉语言模型与可解释性等近年关键方向纳入统一视角讨论,给出了清晰的问题拆解与未来研究线索。
该综述的核心价值在于:打破了 VAD 研究长期存在的“设定不统一、口径难对齐、方法难归类”的碎片化现状,通过“任务范式,技术路线,数据与指标,挑战与方向”的全链路梳理,让不同分支工作的技术逻辑能够放在同一坐标系下理解与比较,为研究者进行系统阅读、为工程团队进行方案选型与复现实验提供了直接可用的参考框架,并加入了开放集和可解释性等新领域的工作讨论。
在本章中,我们给出一个统一的整理框架,用于对半监督 VAD 方法进行系统归类与对齐,按输入,方法论,网络结构,精炼策略,输出五个维度展开。具体而言,输入侧涵盖 RGB、光流、骨架、音频及多模态组合,并区分帧级、片段级、patch/目标级等粒度;方法论侧归纳重建/预测类自监督、单类学习与密度建模、可解释学习等路线;结构侧总结 AE、GAN、Diffusion下【如CNN/RNN、Transformer】等常见架构;精炼策略侧覆盖伪样本生成、记忆库等后处理手段;输出侧从视频级/帧级异常分数扩展到时间定位、空间热力图及更具解释性的输出形式。
在本章中,我们同样采用统一的整理框架,对弱监督 VAD 方法进行系统归类与对齐,按输入,方法论,网络结构,精炼策略,输出五个维度展开。具体而言,输入侧涵盖 RGB,光流,文本,音频及多模态组合,方法论侧重点归纳单阶段多实例学习、两阶段自学习、以及基于VLM的可解释学习等弱监督学习策略,精炼策略则包含时序建模、对比学习等,输出侧以视频级到帧级或片段级异常分数为主,并扩展到探索空间定位与更具解释性的输出形式。
与传统“封闭集”异常检测不同,开放集 VAD 不再假设异常类别是已知且固定的,而是要求模型在仅掌握有限异常样本甚至未知异常类别的情况下,依然具备可靠的检测能力。这一设定更贴近实际应用场景,但也带来了显著的建模难度。针对这一问题,本文系统梳理并总结了现有开放集监督 VAD 的研究脉络,并提出了清晰的分类体系。据我们所知,这是首篇对开放集监督 VAD 进行系统综述的工作。
从研究思路上看,现有方法主要可分为两类:开放集 VAD 与 少样本VAD。前者侧重于在训练阶段无法覆盖异常类别的情况下,通过特征间隔学习、伪异常合成、分布建模等方式,实现对未知异常的泛化检测;部分最新研究进一步引入视觉—语言模型,将异常检测拓展至开放词汇场景,不仅“发现异常”,还能“理解异常”。后者则假设在测试阶段可获得极少量新场景或新异常的样本,通过元学习、度量学习或无适配的跨域建模,实现对新场景的快速泛化。
06 未来展望
尽管视频异常检测在近十年取得了显著进展,但要真正落地于复杂真实场景,仍面临诸多挑战。本文从数据、任务范式、模型能力与系统可信性等多个层面,系统总结了 VAD 领域值得关注的未来发展方向。
首先,更全面、更真实的基准数据集是推动 VAD 发展的基础。 现有数据集在规模、模态和视角上均存在明显局限,小规模数据往往高估模型性能。未来亟需构建大规模、多模态、多视角乃至三维(3D)的 VAD 基准,例如融合视频、音频、红外、深度或点云数据,引入第一视角(Egocentric)与多摄像头场景,以更真实地反映复杂环境下的异常行为。但与此同时,数据存储、标注成本、隐私合规与硬件部署等问题也成为必须正视的现实挑战。
其次,从“封闭世界”迈向“开放世界”是 VAD 的必然趋势。 真实场景中的异常类型不断变化,闭集假设难以长期适用。未来的 VAD 系统需要具备开放世界能力,通过自监督学习、开放词汇建模、增量学习等方式,应对未知异常与概念漂移,实现持续学习与自适应更新。
第三,预训练大模型将重塑 VAD 的技术范式。
大规模视觉模型和视觉—语言模型在表征能力、语义理解和零样本泛化方面展现出巨大潜力,可用于异常特征提取、语义辅助检测以及开放集异常识别。但其高算力消耗和实时部署难题,也对模型压缩、高效推理和快速适配提出了新要求。
最后,可解释性将成为 VAD 走向高风险场景应用的关键。 未来的异常检测系统不仅要“检测准”,还要“解释清”。通过在输入层引入目标、轨迹与关系建模,在算法层融合知识图谱、意图预测与大语言模型推理,并在输出层生成时空层面的可理解解释,有望显著提升系统的透明性与用户信任度。
此外,本文还进一步展望了隐私保护、视觉语言模型幻觉问题、时空推理与长视频理解等前沿议题,为 VAD 未来研究提供了更广阔的视角。