考虑我们对 N 个视频帧 进行压缩。我们假设 的顺序为解码依赖顺序而非时间顺序。这意味着,第 i 帧 会参考前面的 帧。非常明显地,若我们将 帧每一帧的率失真(
)拉格朗日乘子设置为相同的值,其结果为次优的。直觉地,为了达到平均最优的率失真性能,多次被参考的区域,编码简单的区域应当被分配更多的码率。较少被参考的区域,编码复杂的区域应当被分配更少的码率。因此,码率分配 (bit allocation) 算法对视频编码来说是必要的。具体而言,我们希望在总体拉格朗日乘子给定的前提下,通过控制每一帧/区域的拉格朗日乘子,达到总体的率失真损失最小的效果。该问题可被描述为如下的优化问题:上述优化问题中,核心的变量为拉格朗日乘子 。因此,我们将其称为域码率分配。根据拉格朗日乘子法的一次最优条件与率失真函数的最优条件 (Li et al., 2016) (Tishby et al. 2000),我们得到如下的最优条件:在如HEVC,VVC等传统编码器中,编解码器本身不可导,使得直接优化公式7,8的复杂度为指数级别。为了近似解决公式(6)的优化问题,(Li et al., 2016)引入了如下的码率依赖模型和失真依赖模型:更具体的,(Li et al., 2016)假设不同帧之间的码率没有相互依赖关系。且第 i 帧对其后所有帧的失真影响为线性关系。其中线性斜率为编码中更新的参数。将近似模型公式9带入公式7的最优码率分配条件,我们得到如下中间结果:进一步地,将公式10的中间结果带入公式8的率失真最优条件,我们可以解得每一帧的拉格朗日乘子:公式11即为经典的λ 域码率分配 (Li et al., 2016),该方法为HEVC官方参考软件的码率分配方法,也广泛的用于其他传统编码标准中。然而,注意到该方法正确性很大程度上取决于公式9中的近似码率依赖模型和失真依赖模型的正确性。如真实情况偏离模型较大,该方法可能会导致次优的结果。
二 、y域码率控制:针对深度学习视频压缩的码率控制新范式
对于深度学习视频压缩方法而言,域码率分配同样适用。(Li et al., 2022b) 将HEVC上的 λ域码率分配迁移到了深度学习方法中并取得了不错的效果。然而,相比传统视频压缩而言,深度学习视频压缩具有端到端可导性。我们有没有办法利用这种可导性,更加直接地解决公式6的码率分配呢?答案是肯定的。我们考虑将视频帧 编码为隐变量 。隐变量由编码器 初始化。初始化后,我们直接对隐变量的值进行梯度下降,目标与公式6相同,即最小化总体GoP(Group of Picture) R-D损失:公式12的方法即为半均摊变分推断(Semi-Amortized Variational Inference, SAVI)(Kim et al., 2018; Marino et al., 2018),最早被用于减少变分自编码器中的均摊差距 (Cremer et al., 2018),被广泛用于提升图像编码的R-D性能 (Yang et al., 2020b)。自然而然地,公式12可用于提升深度视频编码器的R-D性能。然而,并不明显的是,公式12可被认为是一种码率分配。为了理解为什么公式12是一种码率分配,我们考虑构建一个码率分配结果 ,使得该 的单帧R-D损失梯度等同于GoP R-D损失梯度:那么,我们称为公式12方法的等效域码率分配。即,公式12的方法等效于结果为的 域码率分配。对于,我们有如下两个主要结论:
我们在HEVC Class BCDE, UVG五个数据集上进行测试。我们选用DVC (Lu et al., 2019) ,DCVC (Li et al., 2021) ,HSTEM (Li et al., 2022a) 等多个深度学习视频压缩基线方法进行测试。在全部基线和数据集上,我们的y域码率控制算法均有非常好的效果:具体地,在DVC,DCVC之上,使用我们的方法可以取得接近30%的性能收益。在自带部分码率分配的HSTEM上,使用我们的方法也可以取得接近15%的性能收益。更进一步地,经过y 域码率分配后,DVC可以达到接近DCVC的性能,DCVC可以达到HSTEM的性能,实现接近一代的性能提升。同时,我们在较小的MNIST数据集和两层VAE上测试了我们基于梯度下降的梯度下降方法的性能。密度估计任务上的实验结果表明了我们方法的有效性。
本文提出了y域码率控制,是一种针对深度学习视频压缩的码率控制新范式。我们证明该方法等价于使用精确码率依赖与失真依赖的λ 域码率控制,进而证明了该方法的最优性。实验结果表明,在多个基线算法上,我们的方法有效提高深度视频压缩15-30%的性能。参考文献[1] Li, L., Li, B., Li, H., and Chen, C. W. λ-domain optimal bit allocation algorithm for high efficiency video coding. IEEE Trans. Circuits Syst. Video Technol., 28(1):130–142, 2016. [2] Kim, Y., Wiseman, S., Miller, A., Sontag, D., and Rush, A. Semi-amortized variational autoencoders. In Int. Conf. on Machine Learning, pp. 2678–2687. PMLR, 2018.[3] Marino, J., Yue, Y., and Mandt, S. Iterative amortized inference. In Int. Conf. on Machine Learning, pp. 3403– 3412. PMLR, 2018.[4] Domke, J. Generic methods for optimization-based modeling. In Artificial Intelligence and Statistics, pp. 318–326. PMLR, 2012.[5] Samuel, K. G. and Tappen, M. F. Learning optimized map estimates in continuously-valued mrf models. In 2009 IEEE Conference on Computer Vision and Pattern Recognition, pp. 477–484. IEEE, 2009.[6] Sun, Z., Tan, Z., Sun, X., Zhang, F., Li, D., Qian, Y., and Li, H. Spatiotemporal entropy model is all you need for learned video compression. arXiv preprint arXiv:2104.06083, 2021.[7] Lu, G., Cai, C., Zhang, X., Chen, L., Ouyang, W., Xu, D., and Gao, Z. Content adaptive and error propagation aware deep video compression. In European Conference on Computer Vision, pp. 456–472. Springer, 2020a.
作者:许通达
Illustration by IconScout Store from IconScout-The End-