Py学习  »  Git

InterDigital开源CompressAI-Vision:为“AI看”的视频压缩,打造一个“通用跑分平台”

我爱计算机视觉 • 9 月前 • 191 次点击  

大家好!如今,从自动驾驶到安防监控,AI摄像头无处不在。一个随之而来的问题是:海量的视频数据,如果都原封不动地传到云端分析,带宽和成本谁顶得住?于是,一个新领域应运而生——面向机器的视频压缩(Video Coding for Machines, VCM)

它的核心思想很简单:压缩视频,不再是为了给人眼看,而是为了给AI模型“看”。只要AI能看懂,任务能完成,画质差点没关系。但问题来了,A家的压缩算法说自己好,B家的也说自己牛,到底谁更胜一筹?由于大家用的AI模型、数据集、评测标准五花八门,整个领域就像一个“武林大会”,各派打法不一,没法公平比武。

为了解决这个乱局,来自InterDigital、国立韩巴大学(Hanbat National University)和佳能(Canon)的研究者们联手打造并开源了一个通用跑分平台——CompressAI-Vision

  • 论文标题: CompressAI-Vision: Open-source software to evaluate compression methods for computer vision tasks
  • 作者: Hyomin Choi, Heeji Han, Chris Rosewarne, Fabien Racapé
  • 机构: InterDigital,国立韩巴大学, 佳能
  • 论文地址: https://arxiv.org/abs/2509.20777
  • 项目地址: https://github.com/InterDigitalInc/CompressAI-Vision

CompressAI-Vision:一个标准的“跑分平台”

简单来说,CompressAI-Vision不是一个新的压缩算法,而是一个统一的、开源的评估框架。它提供了一个公平、可复现的“擂台”,让所有面向机器的压缩算法都能在同一个标准下比试高下。它的价值在于建立秩序和标准,而这对于一个新兴领域至关重要。

更厉害的是,这个平台已经被国际标准组织MPEG采纳,作为其制定新一代“面向机器的特征编码(Feature Coding for Machines, FCM)”标准的官方评估平台。这相当于官方盖章认证,其重要性不言而喻。


平台支持的关键场景

CompressAI-Vision的设计考虑得非常周全,它主要支持两种最主流的“机器视觉”应用场景。

  1. 远程推理 (Remote Inference) :这是最常见的场景。终端设备(比如摄像头)将拍摄到的原始图像或视频进行压缩,然后通过网络传输到云端的服务器,由服务器上强大的AI模型进行分析(比如目标检测)。这种方式压缩的是像素数据
  2. 分割推理 (Split Inference) :这是一种更前沿、更高效的场景。终端设备不再是“傻瓜式”地压缩图像,而是会先运行AI模型的前几层,提取出关键的“中间特征(intermediate features)”。然后,它只压缩和传输这些特征(数据量通常比原始图像小得多),云端服务器接收到特征后,再运行模型的剩余部分,完成任务。这种方式压缩的是特征数据,也是FCM标准的核心。

灵活且强大的平台架构

CompressAI-Vision的架构设计得非常灵活和模块化,用户可以通过简单的YAML配置文件,像搭积木一样组合自己的评测流水线。

  • 可插拔的组件:用户可以自由选择和替换评测的各个环节,包括:

    • 数据集:支持多种公开数据集,如COCO, OpenImages, FLIR等。
    • 视觉模型:集成了多种主流的视觉模型,如Faster R-CNN, Mask R-CNN, YOLOX, RTMO等,覆盖目标检测、实例分割、姿态估计等多种任务。
    • 编解码器:不仅支持传统的视频编码标准(如AVC, HEVC, VVC),还支持正在开发中的VCM和FCM的参考软件。
  • 对分割推理的良好支持:平台预先定义了多种模型(如下表所示)的“分割点”,方便研究者测试在网络的不同深度上提取和压缩特征的效果。对于3D的特征张量,平台还提供了默认的“平铺(tiling)”方法,将其转换成2D图像序列,以便送入标准的视频编码器。


平台应用展示:用数据说话

这篇论文的核心不是提出一个新算法并刷榜,而是展示CompressAI-Vision这个平台如何工作,以及它的价值。其中最重要的产出,就是“码率-精度”曲线(Rate-Accuracy Curve)

上图就是典型的“码率-精度”曲线。横轴是码率(kbps),代表压缩程度;纵轴是任务精度(比如目标跟踪的MOTA或目标检测的mAP)。曲线越靠左上方,说明该压缩方法性能越好,因为它能用更低的码率(更小的文件)达到更高的任务精度。

通过这些曲线,研究者可以一目了然地比较不同算法的优劣。例如,上图就清晰地展示了在特定任务上,FCM和VCM的参考软件相比于传统的远程推理(只压缩像素)有明显的性能优势。

此外,平台还能用于对比不同编码标准(如下表所示),或同一标准下不同内部编码器(如VTM vs. HM)的性能差异,为技术选型和标准制定提供了坚实的数据支持。


总结与展望

CV君认为,CompressAI-Vision的发布,是面向机器的视觉压缩领域一件里程碑式的大事。它就像是为这个新兴领域提供了一套标准的“度量衡”和“工具箱”。它的价值不在于一两个SOTA结果,而在于它为整个社区建立了一个公平竞争和合作创新的基础平台。

随着越来越多的AI应用走向端侧和边缘侧,如何高效地“压缩特征”而非“压缩像素”将变得越来越重要。CompressAI-Vision的出现,无疑将大大加速这一进程。

项目已经完全开源,并且被MPEG采纳,对视频编码和计算机视觉交叉领域感兴趣的同学,这绝对是一个宝藏项目!欢迎大家去GitHub上探索!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/187314