多倍插帧,我们发现把目标时间 T 输入进网络是可以实现控制任意时刻插帧的,而且训练之后还可以放入梯度式的时间编码实现场景融合或果冻效应模拟
将光流和融合权重先一起预测,可以用来做其它模态的插帧
性能上我们也改成强调整体设计带来的多倍插帧场景的效果提升等等
这样自己都不用强调,审稿人每个人都会说这篇论文提出的方法性能很好我们希望读者觉得论文更有读的价值,现在看引用也真的来自很多不同的方向,比如有 20+ 篇做果冻效应的引用为什么说 “阴差阳错” 呢,因为很多 idea 其实是多次 rebuttal 以后想的。比如说有两次审稿人批评不能做任意时刻插帧,我就回复说这个简单,把目标时间 T 输入就行了嘛。审稿人说,没做实验你说个锤子,一做才发现效果比预期还好水平所限,当年其实还是没有把这篇论文写的很好,写这篇总结是希望下次能做的更优美
不用刷 SoTA 的 Film 插帧
带着这样的视角,看看为什么有的论文在很卷的赛道也能中得顺利,发在 ECCV22 的插帧论文 Film: Frame interpolation for large motion(https://github.com/google-research/frame-interpolation),Fitsum Reda 大佬作品看宣称的论文贡献: