大家好！如今，从自动驾驶到安防监控，AI摄像头无处不在。一个随之而来的问题是：海量的视频数据，如果都原封不动地传到云端分析，带宽和成本谁顶得住？于是，一个新领域应运而生——面向机器的视频压缩（Video Coding for Machines, VCM）。

它的核心思想很简单：压缩视频，不再是为了给人眼看，而是为了给AI模型“看”。只要AI能看懂，任务能完成，画质差点没关系。但问题来了，A家的压缩算法说自己好，B家的也说自己牛，到底谁更胜一筹？由于大家用的AI模型、数据集、评测标准五花八门，整个领域就像一个“武林大会”，各派打法不一，没法公平比武。

为了解决这个乱局，来自InterDigital、国立韩巴大学（Hanbat National University）和佳能（Canon）的研究者们联手打造并开源了一个通用跑分平台——CompressAI-Vision。

论文标题: CompressAI-Vision: Open-source software to evaluate compression methods for computer vision tasks
作者: Hyomin Choi, Heeji Han, Chris Rosewarne, Fabien Racapé
机构: InterDigital,国立韩巴大学, 佳能
论文地址: https://arxiv.org/abs/2509.20777
项目地址: https://github.com/InterDigitalInc/CompressAI-Vision

CompressAI-Vision：一个标准的“跑分平台”

简单来说，CompressAI-Vision不是一个新的压缩算法，而是一个统一的、开源的评估框架。它提供了一个公平、可复现的“擂台”，让所有面向机器的压缩算法都能在同一个标准下比试高下。它的价值在于建立秩序和标准，而这对于一个新兴领域至关重要。

更厉害的是，这个平台已经被国际标准组织MPEG采纳，作为其制定新一代“面向机器的特征编码（Feature Coding for Machines, FCM）”标准的官方评估平台。这相当于官方盖章认证，其重要性不言而喻。

平台支持的关键场景

CompressAI-Vision的设计考虑得非常周全，它主要支持两种最主流的“机器视觉”应用场景。

远程推理 (Remote Inference) ：这是最常见的场景。终端设备（比如摄像头）将拍摄到的原始图像或视频进行压缩，然后通过网络传输到云端的服务器，由服务器上强大的AI模型进行分析（比如目标检测）。这种方式压缩的是像素数据。
分割推理 (Split Inference) ：这是一种更前沿、更高效的场景。终端设备不再是“傻瓜式”地压缩图像，而是会先运行AI模型的前几层，提取出关键的“中间特征（intermediate features）”。然后，它只压缩和传输这些特征（数据量通常比原始图像小得多），云端服务器接收到特征后，再运行模型的剩余部分，完成任务。这种方式压缩的是特征数据，也是FCM标准的核心。

CompressAI-Vision的架构设计得非常灵活和模块化，用户可以通过简单的YAML配置文件，像搭积木一样组合自己的评测流水线。

数据集：支持多种公开数据集，如COCO, OpenImages, FLIR等。
视觉模型：集成了多种主流的视觉模型，如Faster R-CNN, Mask R-CNN, YOLOX, RTMO等，覆盖目标检测、实例分割、姿态估计等多种任务。
编解码器：不仅支持传统的视频编码标准（如AVC, HEVC, VVC），还支持正在开发中的VCM和FCM的参考软件。

对分割推理的良好支持：平台预先定义了多种模型（如下表所示）的“分割点”，方便研究者测试在网络的不同深度上提取和压缩特征的效果。对于3D的特征张量，平台还提供了默认的“平铺（tiling）”方法，将其转换成2D图像序列，以便送入标准的视频编码器。

这篇论文的核心不是提出一个新算法并刷榜，而是展示CompressAI-Vision这个平台如何工作，以及它的价值。其中最重要的产出，就是“码率-精度”曲线（Rate-Accuracy Curve）。

上图就是典型的“码率-精度”曲线。横轴是码率（kbps），代表压缩程度；纵轴是任务精度（比如目标跟踪的MOTA或目标检测的mAP）。曲线越靠左上方，说明该压缩方法性能越好，因为它能用更低的码率（更小的文件）达到更高的任务精度。

通过这些曲线，研究者可以一目了然地比较不同算法的优劣。例如，上图就清晰地展示了在特定任务上，FCM和VCM的参考软件相比于传统的远程推理（只压缩像素）有明显的性能优势。

此外，平台还能用于对比不同编码标准（如下表所示），或同一标准下不同内部编码器（如VTM vs. HM）的性能差异，为技术选型和标准制定提供了坚实的数据支持。

CV君认为，CompressAI-Vision的发布，是面向机器的视觉压缩领域一件里程碑式的大事。它就像是为这个新兴领域提供了一套标准的“度量衡”和“工具箱”。它的价值不在于一两个SOTA结果，而在于它为整个社区建立了一个公平竞争和合作创新的基础平台。

随着越来越多的AI应用走向端侧和边缘侧，如何高效地“压缩特征”而非“压缩像素”将变得越来越重要。CompressAI-Vision的出现，无疑将大大加速这一进程。

项目已经完全开源，并且被MPEG采纳，对视频编码和计算机视觉交叉领域感兴趣的同学，这绝对是一个宝藏项目！欢迎大家去GitHub上探索！