社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

谷歌研究为NeRF渲染提出视图合成深度学习模型

映维网Nweon • 2 年前 • 327 次点击  

查看引用/信息源请点击:映维网Nweon

视图合成深度学习模型

映维网Nweon 2022年10月05日)视图合成是计算机视觉和计算机图形学的一个长期问题,其目标是从场景的多张图片中创建新的场景视图。自从引入神经辐射场(NeRF)以来,这一点受到了越来越多的关注。这个问题非常有挑战性,因为若要准确地合成场景的新视图,模型需要从一小组参考图像中捕获多种类型的信息,包括详细的3D结构、材质和照明。

在日前一篇博文中,谷歌介绍了最近发布的视图合成深度学习模型。在CVPR 2022大会介绍的LFNR光场神经网络渲染中,谷歌通过使用学习组合参考像素颜色的transformer来解决精确再现视图相关效果的挑战。然后,在ECCV 2022大会介绍的GPNR中,谷歌通过使用一系列具有规范化位置编码的transformer来解决泛化到未知场景的挑战。

其中,transformer可以在一组场景进行训练,并合成新场景的视图。所述模型执行基于图像的渲染,结合参考图像的颜色和特征来渲染新视图。它们完全基于transformer,在图像patch集上操作,并利用4D光场表示进行位置编码,这有助于建模视图相关的效果。

1. 概述

模型的输入包括一组参考图像及其camera参数(焦距、位置和空间方向),以及要确定其颜色的目标光线的坐标。为了生成新图像,研究人员从输入图像的camera参数开始,获取目标光线的坐标(每个光线对应一个像素),并查询每个光线的模型。

团队只关注可能影响目标像素的区域,而不是完全处理每个参考图像。相关区域是通过极线几何确定,它将每个目标像素映射到每个参考帧的一条线。为了增强鲁棒性,研究人员在外极线上的部分点周围选取了小片区域,从而生成了一组实际上将由模型处理的patch。然后,transformer作用于这组patch以获得目标像素的颜色。

transformer在这种设置中特别有用,因为它们的self-attention机制自然将集合作为输入,并且attention权重本身可以用于组合参考视图颜色和特征,从而预测输出像素颜色。transformer遵循ViT中介绍的架构。

2. LFNR(Light Field Neural Rendering)

在LFNR中,谷歌使用一个由两个transformer组成的序列将patch集映射到目标像素颜色。第一个transformer沿着每条外极线聚合信息,第二个沿着每条参考图像聚合信息。可以将第一个transformer解释为在每个参考帧查找目标像素的潜在对应,而第二个transformer则解释为关于遮挡和视图相关效果的推理,这是基于图像的渲染的常见挑战。

LFNR使用两个transformer序列将沿极线提取的一组patch映射到目标像素颜色。LFNR峰值信噪比(PSNR)为5dB。这相当于将像素误差减少了1.8倍。他们在下面的Shiny数据集中展示了具有挑战性场景的定性结果:

3. 泛化到新场景

LFNR的一个局限性是,第一个transformer沿着每个外极线独立地折叠每个参考图像的信息。这意味着它仅根据每个参考图像的输出光线坐标和patch来决定要保留哪些信息,这在对单个场景进行训练时非常有效(与大多数神经渲染方法一样),但它不会在场景之间进行泛化。泛化方法非常重要,因为它们可以应用于新场景,无需重新培训。

团队在Generalizable Patch-Based Neural Rendering(GPNR)中克服了LFNR的这一局限性。他们添加了一个在其他两个之前运行的transformer,并在所有参考图像相同深度的点之间交换信息。例如,第一个transformer查看上图公园长凳的一列patch,并可以使用诸如花朵这样的线索。这项研究的另一个关键思想是规范化基于目标光线的位置编码,因为要在场景中进行泛化,必须以相对而非绝对参考帧表示数量。

为了评估泛化性能,他们在一组场景训练GPNR,并在新场景测试。GPNR在几个基准测试中平均提高了0.5–1.0 dB。在IBRNet基准测试中,GPNR的表现优于基线,并且只使用了11%的训练场景。

4. 局限

大多数神经渲染方法(包括谷歌)的一个局限性是,它们需要为每个输入图像设置camera姿势。camera姿势不容易获得,并且通常来自离线优化方法,速度较慢,限制了可能的应用。联合学习视图合成和输入姿势是一个富有前景的研究方向。谷歌模型的另一个限制是,训练它们的计算成本非常高。

相关论文:Generalizable Patch-Based Neural Rendering

https://paper.nweon.com/13167


相关论文:Light Field Neural Rendering

https://paper.nweon.com/13165

5. 潜在误用

在研究中,团队的目标是使用场景中的图像精确地再现现有场景,因此几乎没有空间生成虚假或不存在的场景。模型假设场景为静态,所以合成移动的对象行不通。

---
原文链接:https://news.nweon.com/101281


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/147931
 
327 次点击