清华大学徐群策博士后、穆太江助理研究员和英国Bath大学杨永亮高级讲师,在Computer Visual
Media期刊上发表综述论文[1],系统性地介绍了近年来基于深度学习的三维形状生成相关工作,涵盖了多种三维形状的不同表示形式,并从网络架构上归纳了不同类型的方法特点,以供后来研究人员参考。这篇综述旨在回顾使用深度学习技术生成三维几何形状的应用(参见表1)。传统的三维采集和建模技术侧重于通过手工特征和算法重建出高质量的形状,而基于深度学习的三维形状生成能够学习到三维形状在潜空间的分布,可以更创造性地生成和探索新颖的形状,并在潜在空间中轻松操纵形状,如形状插值等操作。表1 三维形状生成的底层表示形式和生成器类别分类表
背景与具有规则网格结构的二维图像不同,三维形状具有各种表示方法,如体素、点云、网格和隐式函数。在三维形状的深度学习中,必须考虑到形状表示,因为没有一种统一的表示方法可以很好地覆盖所有任务。几何表示和形状拓扑往往对生成的三维形状的质量有很大影响。对于三维形状生成,深度学习模型的最重要组成部分通常是一个生成器或解码器,用于从潜在空间生成三维形状。它可以与一个编码器结合使用,将三维形状映射到潜在空间中。与形状分类和分割等判别性任务不同,作为一项生成任务的三维形状生成更加复杂,因为它需要学习潜在空间中的适当分布,而不是为特定目标提取特征或做鉴别。此外,在生成和操作潜在空间中的样本时,人们期望生成具有良好质量和多样性的三维形状。在这篇综述中,作者综合评述了基于深度学习的三维形状生成的相关工作,根据底层形状表示和形状生成器的架构进行分类和讨论,并对每个类别的优缺点进行了进一步的分析。三维几何生成发展进程本篇综述按照底层形状表示形式,包括体素、点云、网格、隐式表达和结构化表示,对当前的研究进行了分类。同时,根据形状生成器的架构,将不同的工作总结为编码器-解码器和生成模型(基于GAN、基于VAE、基于Flow等)这两个基础类别。通过下图可以初步了解三维形状生成领域相关工作的发展时间轴。如果您对某个具体工作及其相关研究感兴趣,请查阅综述原文中相应章节作进一步的了解。
图1 三维形状生成相关工作的发展时间轴
除此之外,该综述还以表格的形式整理了目前流行的用于三维形状深度学习的相关数据集。表2总结了各个数据集的特点和特色,以便科学研究者能够根据自己的研究项目选择合适的数据集,帮助他们更好地进行三维形状深度学习的研究。
挑战和未来发展方向
本综述还提出了在这一领域未来的挑战和发展方向,供相关研究人员参考。
表示方法的局限性:不同的形状表示方法都有其自身的局限性,可能会影响到几何细节或形状结构,或限制整体生成网络的设计。因此,如何有效结合不同的形状表示方法,发挥它们各自的优势,是一个值得探索的方向。
细节控制的挑战:目前网络还无法充分控制生成形状的细节。鉴于这一观察,我们认为有必要进一步研究如何更好地控制生成形状的质量,使生成器在捕捉整体形状特征的同时,学习更精确的细节。
大型三维场景生成:目前如何生成大型三维场景仍然是一个待解决的问题。虽然大多数生成器专注于生成单个对象,但有些三维生成网络尝试生成包含多个对象的大型场景。然而,生成三维场景所需的数据量通常巨大,这使得将如此庞大的数据作为生成网络的输出变得不可行。
骨干网络的优化:在生成三维形状方面,一个优秀的骨干网络应具备同时将三维形状编码为潜空间,并从中恢复出更好形状的能力。因此,研究新的高效骨干网络对于进一步推动三维形状生成具有重要作用。
- Xu, Qun-Ce,
Tai-Jiang Mu, and Yong-Liang Yang, A survey of deep learning-based 3D
shape generation, Computational Visual Media, 2023, Vol. 9, No.3, 407-442.
作者简介
徐群策,清华大学计算机科学与技术系博士后。他的研究兴趣包括几何学习、几何处理和形状生成。穆太江,清华大学计算机科学与技术系助理研究员。他的研究兴趣包括计算机图形学、视觉媒体学习、三维重建和三维理解。杨永亮,英国巴斯大学计算机科学系高级讲师。他的研究领域主要是视觉计算、形状建模、计算设计和交互技术。1. Scopus发布2022年度影响因子, CVMJ从5.9升至11.1, 排名8/102
2. Computational Visual Media第9卷第3期导读
3. 第三届“计图”人工智能算法挑战赛启动
4. 计图助力AIGC|非十科技发布首款可编辑的3D内容生成APP -Fitten3D
5. 计图团队与头歌平台合作发布“计图深度学习框架实践课程”
您可通过下方二维码,关注清华大学计算机系图形学实验室,了解计算机图形学、Jittor框架、CVMJ期刊及会议的相关资讯。