TNNLS 2025 | 西工大 & 新加坡管理大学联合发布：基于深度学习的视频异常检测综述：从任务设定、方法谱系到大模型新趋势

↑ 点击蓝字关注极市平台

作者丨Peng Wu；Chengyu Pan；Yuting Yan；Guansong Pang*；Qingsen Yan；Peng Wang；Yanning Zhang

来源丨西北工业大学，新加坡管理大学

编辑丨极市平台

极市导读

TNNLS综述“DeepVAD”以五大范式、五维框架系统梳理视频异常检测，对齐方法、数据与指标，并指出开放世界、大模型、可解释三大方向，为科研与工程提供一站式路线图。>>加入极市CV技术交流群，走在计算机视觉的最前沿

导读

这篇综述面向视频异常检测（Video Anomaly Detection, VAD）领域给出了一套更“可落地”的系统化整理：以任务设定为主线，覆盖半监督、弱监督、全监督、无监督与开放集监督五类核心范式；以统一方法框架为骨架，从输入形式、方法论、网络结构、精炼策略到输出粒度等维度对代表性工作进行归纳对齐，并配套梳理常用数据集、评测指标与开源资源入口，帮助读者对 VAD 领域能够有更加全面的了解。更重要的是，论文将开放世界趋势、预训练视觉语言模型与可解释性等近年关键方向纳入统一视角讨论，给出了清晰的问题拆解与未来研究线索。

该综述的核心价值在于：打破了 VAD 研究长期存在的“设定不统一、口径难对齐、方法难归类”的碎片化现状，通过“任务范式，技术路线，数据与指标，挑战与方向”的全链路梳理，让不同分支工作的技术逻辑能够放在同一坐标系下理解与比较，为研究者进行系统阅读、为工程团队进行方案选型与复现实验提供了直接可用的参考框架，并加入了开放集和可解释性等新领域的工作讨论。

本文旨在为视频异常检测建立一份结构化路线图。

首先在第2章给出背景与基本定义，明确 VAD 的关键要素与评测口径；

随后从第3章到第7章依次覆盖五类任务范式：第3章聚焦半监督 VAD，系统总结“仅用正常数据学习规律并发现偏离”的主流路线；

第4章讨论弱监督 VAD，围绕仅有视频级标签时如何实现时序定位展开；

第5章介绍全监督 VAD，归纳具备精细标注条件下的建模方式与代表性应用；

第6章总结无监督 VAD，讨论在无标签训练数据下构建稳健异常度量的关键思路；

第7章专门讨论开放集监督 VAD，强调面向未知异常与真实部署的挑战与方法特点。

最后，第8章集中给出未来方向，从更完善的基准体系、开放世界设定、预训练大模型赋能以及可解释 VAD 等角度提出值得关注的研究主题，并在结尾部分进行整体归纳与展望。

原论文信息

论文题目：Deep Learning for Video Anomaly Detection: A Review
论文作者：Peng Wu；Chengyu Pan；Yuting Yan；Guansong Pang*；Qingsen Yan；Peng Wang；Yanning Zhang
作者单位：西北工业大学，新加坡管理大学
发表平台：IEEE Transactions on Neural Networks and Learning Systems（TNNLS）
项目主页：https://github.com/Roc-Ng/DeepVAD
论文链接：https://arxiv.org/abs/2409.05383

01 半监督视频异常检测（Semi-supervised VAD）

第三章我们聚焦半监督视频异常检测。在这一设定下，训练阶段通常只使用正常视频（或默认训练数据以正常为主），测试阶段通过度量样本与正常模式的差异来识别异常。

在本章中，我们给出一个统一的整理框架，用于对半监督 VAD 方法进行系统归类与对齐，按输入，方法论，网络结构，精炼策略，输出五个维度展开。具体而言，输入侧涵盖 RGB、光流、骨架、音频及多模态组合，并区分帧级、片段级、patch/目标级等粒度；方法论侧归纳重建/预测类自监督、单类学习与密度建模、可解释学习等路线；结构侧总结 AE、GAN、Diffusion下【如CNN/RNN、Transformer】等常见架构；精炼策略侧覆盖伪样本生成、记忆库等后处理手段；输出侧从视频级/帧级异常分数扩展到时间定位、空间热力图及更具解释性的输出形式。

02 弱监督视频异常检测（Weakly-supervised VAD）

第四章我们聚焦弱监督视频异常检测（Weakly supervised VAD）。在这一设定下，训练阶段同时包含正常与异常视频，但仅提供视频级标签，不提供帧级或片段级的异常标注，模型需要在粗粒度监督下学习得到细粒度的异常时序定位与检测结果。

在本章中，我们同样采用统一的整理框架，对弱监督 VAD 方法进行系统归类与对齐，按输入，方法论，网络结构，精炼策略，输出五个维度展开。具体而言，输入侧涵盖 RGB，光流，文本，音频及多模态组合，方法论侧重点归纳单阶段多实例学习、两阶段自学习、以及基于VLM的可解释学习等弱监督学习策略，精炼策略则包含时序建模、对比学习等，输出侧以视频级到帧级或片段级异常分数为主，并扩展到探索空间定位与更具解释性的输出形式。

03 全监督视频异常检测（Fully-supervised VAD）

全监督设定意味着数据具备更细的标注（帧级、片段级甚至空间标注），因此模型可以在训练时直接对异常发生位置进行监督学习。论文在这一章以“视频暴力检测”等具备相对明确标注与任务定义的方向作为代表，讨论全监督条件下的建模特点与输入多样性，例如除 RGB 之外引入骨架以突出人体姿态，引入音频以捕捉暴力事件伴随的声学变化等。由于监督更强，这类方法通常更强调判别能力与细粒度定位能力，上限更高，但现实中的标注成本也更高，数据规模与泛化仍是关键约束。

04 无监督视频异常检测（Unsupervised VAD）

无监督设定下训练视频没有标签，甚至“正常”的定义也可能随场景变化而变化。论文将这一章的主要路线归纳为几类，一类是变化检测或时空一致性破坏的思路，通过检测时序连续性，外观一致性或运动模式的突变来发现异常；另一类是伪标签与自训练路线，利用异常稀缺这一先验，先用启发式规则或模型不确定性产生伪标签，再迭代优化检测器；还有一些方法结合自监督任务（例如遮挡恢复，掩码重建等）学习可迁移的表征，再用分布偏离或重建误差做异常评分。总体上，无监督更接近真实数据获取方式，但稳定性，跨场景泛化与评价口径更容易成为瓶颈。

05 开放集监督视频异常检测（Open-set Supervised VAD）

在真实世界中，视频监控系统几乎不可能在训练阶段覆盖所有异常类型，因此如何识别“训练中从未见过的异常事件”成为视频异常检测领域的重要挑战。为此，近年来逐渐发展出开放集监督视频异常检测这一新方向。

与传统“封闭集”异常检测不同，开放集 VAD 不再假设异常类别是已知且固定的，而是要求模型在仅掌握有限异常样本甚至未知异常类别的情况下，依然具备可靠的检测能力。这一设定更贴近实际应用场景，但也带来了显著的建模难度。针对这一问题，本文系统梳理并总结了现有开放集监督 VAD 的研究脉络，并提出了清晰的分类体系。据我们所知，这是首篇对开放集监督 VAD 进行系统综述的工作。

从研究思路上看，现有方法主要可分为两类：开放集 VAD 与 少样本VAD。前者侧重于在训练阶段无法覆盖异常类别的情况下，通过特征间隔学习、伪异常合成、分布建模等方式，实现对未知异常的泛化检测；部分最新研究进一步引入视觉—语言模型，将异常检测拓展至开放词汇场景，不仅“发现异常”，还能“理解异常”。后者则假设在测试阶段可获得极少量新场景或新异常的样本，通过元学习、度量学习或无适配的跨域建模，实现对新场景的快速泛化。

06 未来展望

尽管视频异常检测在近十年取得了显著进展，但要真正落地于复杂真实场景，仍面临诸多挑战。本文从数据、任务范式、模型能力与系统可信性等多个层面，系统总结了 VAD 领域值得关注的未来发展方向。

首先，更全面、更真实的基准数据集是推动 VAD 发展的基础。 现有数据集在规模、模态和视角上均存在明显局限，小规模数据往往高估模型性能。未来亟需构建大规模、多模态、多视角乃至三维（3D）的 VAD 基准，例如融合视频、音频、红外、深度或点云数据，引入第一视角（Egocentric）与多摄像头场景，以更真实地反映复杂环境下的异常行为。但与此同时，数据存储、标注成本、隐私合规与硬件部署等问题也成为必须正视的现实挑战。

其次，从“封闭世界”迈向“开放世界”是 VAD 的必然趋势。 真实场景中的异常类型不断变化，闭集假设难以长期适用。未来的 VAD 系统需要具备开放世界能力，通过自监督学习、开放词汇建模、增量学习等方式，应对未知异常与概念漂移，实现持续学习与自适应更新。

第三，预训练大模型将重塑 VAD 的技术范式。 大规模视觉模型和视觉—语言模型在表征能力、语义理解和零样本泛化方面展现出巨大潜力，可用于异常特征提取、语义辅助检测以及开放集异常识别。但其高算力消耗和实时部署难题，也对模型压缩、高效推理和快速适配提出了新要求。

最后，可解释性将成为 VAD 走向高风险场景应用的关键。 未来的异常检测系统不仅要“检测准”，还要“解释清”。通过在输入层引入目标、轨迹与关系建模，在算法层融合知识图谱、意图预测与大语言模型推理，并在输出层生成时空层面的可理解解释，有望显著提升系统的透明性与用户信任度。

此外，本文还进一步展望了隐私保护、视觉语言模型幻觉问题、时空推理与长视频理解等前沿议题，为 VAD 未来研究提供了更广阔的视角。