来源:《中国图象图形学报》
编辑:陈萍萍的公主@一点人工一点智能
原文:https://www.cjig.cn/zh/article/doi/10.11834/jig.240124/
摘要:点云因其丰富的信息表达能力已成为三维视觉的主要表现形式,然而实际采集到的点云数据往往因各种因素导致稀疏或残缺,严重影响点云后续处理。点云补全算法旨在从残缺点云数据中重建完整点云模型,是3D重建、目标检测和形状分类等领域的重要研究基础。目前,基于深度学习的点云补全算法逐渐成为三维点云领域的研究热点,但补全任务中模型结构、精度和效率等挑战正阻碍点云补全算法的发展。
本文对深度学习背景下的点云补全算法进行系统综述,首先根据网络输入模态将点云补全算法分为两大类,即基于单模态的方法以及基于多模态的方法。接着根据三维数据表征方式将基于单模态的方法分为三大类,即基于体素的方法、基于视图的方法以及基于点的方法,并对经典方法和最新方法进行系统的分析和总结,同时结合热点模型,如生成对抗网络(generative adversarial network, GAN)、Transformer模型等进一步分类对比,评述各类模型下点云补全算法的方法特点与网络性能。再对基于多模态的方法进行实际应用分析,结合扩散模型等方法进行算法性能对比。
然后总结点云补全任务中常用的数据集及评价标准,分别以多种评价标准对比分析现有基于深度学习的点云补全算法在真实数据集与多种合成数据集上的性能表现。最后根据各分类的优缺点提出点云补全算法在深度学习领域的未来发展和研究趋势,为三维视觉领域的补全算法研究者提供重要参考价值。
引言
三维数据在计算机视觉和图形学领域中备受关注,它具有多种表征方式,如体素、视图、点云等,如图1所示。体素(voxel)是一种能够表示物体内部信息的离散的具有特定大小的几何形状立体网格,包含更多的场景几何信息。然而,面向大型三维场景或物体时,体素表征方式需要大量的存储空间,当分辨率较低时无法准确地表示场景或物体的细节。
多视图(multi-view)能够结合多个视角的信息表示三维数据,这种表征方式能够提高三维结构描述的准确度,减少因单一视角造成的深度估计误差。但后期数据处理相对复杂,硬件需求和算力要求较高。点云(point cloud)作为目前三维数据最常用的表征方式,其结构清晰且读写方便,能精确表示物体形态,便捷物体的测量和分析,但难以准确描述物体的内部结构和纹理信息。
图
1 三维数据的表征方式
随着3D扫描设备、深度相机等采集仪器的普及,三维数据广泛地应用于许多领域,如自动驾驶中的三维地图重建、地下矿物勘探与开采以及古建筑文化遗产数字化保存等。然而,在数据采集过程中,被测对象的特性、测量仪器的性能、环境及人为因素等都会影响三维数据的采集质量,造成数据的稀疏或者残缺,甚至导致关键几何信息的丢失。
这些稀疏、残缺三维数据直接影响了点云整体空间结构重建、全局特征信息与局部细节信息提取等,也成为阻碍下游任务研究的必然因素。因此,对残缺点云进行高质量的补全是至关重要的。
点云补全算法旨在对局部残缺点云数据使用算法模型来预测三维物体或场景的完整形状,进行高质量重建。点云补全算法发展前期主要通过几何规则法、模板匹配法等方式进行补全。几何规则法如GlobFi(Li等,2011)、Screened(Kazhdan和Hoppe,2013)等,这些方法对三维数据的连续性和几何结构有一定要求,对于复杂的形状和局部变化较大的数据,可能无法得到准确的补全结果。而模板匹配法(Nan等,2012;Kim等,2013;Li等,2015)对于模板的选择和匹配准确性要求较高,计算复杂形状或大规模三维数据难度较大。
随着深度学习方法的快速发展,其高效的特征提取能力、优异的数据处理能力使其在三维点云算法中得到了广泛应用。与传统的点云补全算法相比,基于深度学习的点云补全算法能够在更复杂的情况下学习更多的特征与语义信息,大大提高残缺点云的补全精度与效率。
虽然大量研究者(许翔等,2021;蔡钦镒等,
2022)基于深度学习对点云补全算法持续优化,这使得点云补全网络的质量与效率不断提升,但点云补全算法仍然存在许多挑战,例如关键性结构缺失、难以实现细粒度重建以及模型效率低下等问题。因此,对深度学习背景下点云补全算法进行总结仍然具有十分重要的意义。本文与现有的综述相比,具有以下优点:
1)将2016—2024年深度学习背景下的点云补全算法分为基于单模态与多模态的方法,根据输入数据类型将基于单模态的方法再分为基于体素的方法、基于视图的方法以及基于点的方法,针对各算法的网络结构、优化方向等进行系统分析与对比。同时针对基于多模态的方法结合实际应用进行对比分析并给出未来研究展望。
2)在6种公共数据集(真实数据集与合成数据集)上,使用多种评价标准对每类具有代表性的基于深度学习的点云补全算法进行性能对比与评估。
3)虽然存在一些综述(Fei等,2022;陈建文 等,2023;Zhuang等,2024)也对深度学习背景下的点云补全算法进行总结,但本文结合各类最新模型,如生成对抗网络(generative adversarial network,GAN)、Transformer模型、扩散模型(diffusion model, DM)、Mamba模型等,根据不同模态进行分类,使用多数据集、多评价指标对代表性点云补全算法性能进行评估、对比与分析。
综上所述,本文首先简要阐述深度学习背景下点云补全的重要研究意义,接着对基于深度学习的点云补全算法存在的挑战进行系统的归纳和总结,随后本文对深度学习背景下单模态与多模态的点云补全算法进行分类并就其模型结构、模型精度以及模型效率等方面分析各类方法优缺点。
同时归纳总结三维点云补全任务中数据集、评价标准,以多种评价标准在多种公共数据集上对代表性方法进行对比与分析,最后给出面向深度学习的点云补全算法未来发展趋势及研究方向的展望。本文对具有不同模态的代表性点云补全算法展开综述,算法发展时间轴如图
2所示。本节还整理了具有代表性的点云补全算法特点,分别针对不同模态的点云补全算法进行总结,如表1和表2所示。
图2 基于深度学习的点云补全算法发展历程
表1 基于单模态的代表性点云补全算法总结
表2 基于多模态的代表性点云补全算法总结
深度学习下点云补全算法挑战
传统点云补全算法难以处理复杂点云形状,随着深度学习与各种模型的迅速发展,基于深度学习的点云补全算法在各方面均取得较好的效果,但仍存在一些不足与挑战。深度学习背景下点云补全算法根据不同模态设计适应点云数据的网络结构。
基于单模态的方法根据输入数据的类型设计,如GRNet(gridding residual network)(Xie等,2020)、MVCN(
multi-view completion net)(Hu等,2019)、AdaPoinTr(Yu等,2023)等;基于多模态的方法根据输入条件的灵活性进行模型设计,如ViPC (view- guided point cloud completion) (Zhang等,2021b)、Diffcomplete(diffusion-based generative 3D shape completion)(Chu等,2023)等。
多数算法模型都会存在关键结构信息缺失、难以实现细粒度重建以及模型效率低下等问题。本文将基于这三大问题挑战分别从点云补全算法的模型结构、模型精度以及模型效率进行分析与总结。
1.1 关键结构信息缺失
残缺点云常常伴随着关键结构信息的缺失,严重影响文化遗产数字化保存、地形测绘以及矿井勘探。因此,在特征提取时需要建立点与点之间的拓扑关系以增强表征能力,基于单模态的点云补全算法通常利用局部和全局信息进行特征提取和表示学习。同时通过使用动态图卷积(Wang等,2019c)、图注意卷积(Wang等,2019b
)等方法来提升结构化特征的捕获能力,以此解决残缺点云中的结构信息缺失问题。
然而点云数据的无序性致使算法无法有效且全面地捕捉到残缺点云的复杂结构信息特征,往往需要使用能够在潜在空间中有效融合特征级别的算法来兼顾局部几何结构与全局几何结构的特征信息,从而对点云缺失区域进行关键结构补全。
1.2 难以实现细粒度重建
工业检测以及虚拟现实等应用需要生成高度真实的三维环境,而残缺的点云数据存在噪声干扰、点云形状复杂以及分辨率较低等问题,这些问题严重影响着原始点云的细粒度重建。深度学习背景下基于单模态的点云补全算法通过利用改进多尺度网络(Wang等,2021)、跨分辨率聚合策略(Rong等,2024)等方法提高算法模型的精度,以此解决点云补全任务中细粒度问题。
为实现补全结果较高的细粒度,除了需要设计针对细粒度特征捕捉和重建问题的方法以确保算法可以有效地还原物体的细腻结构,还应考虑在面向大规模残缺区域时使用多模态信息,例如多视角信息、语义信息等,进而帮助提取更丰富的特征信息来实现三维残缺点云数据与完整点云数据之间的精确映射。
1.3 模型效率低下
机器人技术、自动驾驶等对算法模型的效率以及算法的实时性要求较高。然而模型复杂度、多模态特征融合以及大规模数据处理等方面均会影响点云补全算法模型效率。
Transformer模型、扩散模型等是目前多数基于深度学习的点云补全算法采用的热点模型,这些模型虽然能够生成精细的几何细节,但由于其参数量大、算力要求高致使模型效率低下。例如,ShapeFormer(Yan等,2022)需要20 s才能生成完整形状的速度致使该算法的实时性极大降低,因此未来点云补全算法的研究需要使用硬件感知算法、对齐关键点与骨架方法(Tang等,2022a)等来提升模型效率。
面向深度学习的点云补全任务中各类算法均存在模型结构、模型精度、模型效率等亟待解决的难点与挑战。因此,对深度学习背景下点云补全算法进行归纳总结仍然具有重要意义。
深度学习下单模态点云补全算法
随着深度学习的迅速发展,点云补全算法性能迎来极速提升,基于单模态和多模态的点云补全方法得到广泛研究和应用。基于单模态的方法只利用输入的点云数据本身来进行物体形状或场景补全。
常见的方法包括基于体素的方法、基于视图的方法以及基于点的方法。其中基于体素的方法将三维点云数据划分为固定大小的体素表示,通过体素间的结构关系来预测缺失区域的三维数据;基于视图的方法通过多视角生成的多个视图信息来推测完整点云模型;基于点的方法直接对采集的点云数据进行处理,预测完整点云。
2.1 基于体素的方法
在深度学习中,卷积神经网络(convolutional neural network,CNN)具有高效的特征提取能力,所以许多点云补全算法研究者利用三维卷积来学习三维数据的体素特征。Wu等人(2015)是最早提出将三维卷积用于补全任务的人之一,在自建数据库上训练的3D ShapeNets中使用体积表示。随后许多方法(Qi等,2016;Hua等,2018;Li等,2018;Xu等,2018)的提出促进了三维体素卷积发展,使得传统卷积核满足基于体素方法的卷积要求。
Qi等人(2016)通过引入新的网络结构、增强数据以及特征池化等方式优化体素卷积。Hua等人(
2018)以相同的权重对同一网格中的点进行赋值,在规则的离散三维网格上定义了卷积核。PointCNN(Li等,2018)在基于点的表示和基于体素的表示之间进行映射,对体素进行体积卷积来提取点的特征。
SpiderCNN(Xu等,2018)采用了一种基于八叉树的点云结构,通过参数化卷积滤波器将二维图像卷积扩展到三维数据中。这些卷积方法能够融合多类CNN进行卷积核或卷积方法优化,提升体素的特征提取能力,但难以避免体素冗余问题,并且对计算与内存的要求较高。
还有一些方法(Li等,2017;Liu等,2019;Shi等,2020;Tang等,2022b)基于体素卷积方法融合其他形式以获取更佳的网络性能。Liu等人(2019)提出点体素卷积神经网络(point-voxel convolutional neural network,PVCNN),以点为输入,使用体素方法进行卷积来减少内存消耗及随机内存访问。
Shi等人(2020)提出PV-RCNN将点云特征和体素特征融合以提高网络的精度。Tang等人(2022b)为解决大量0体素值占用内存的问题,提出了一种全新的点体素聚合网络,通过体素聚合算子将体素流中的结构细节融合到点流中。
多数方法(Sharma等,2016;Dai等,2017;Wang等,2021;Yi等,2021)先将点云数据映射到体素网格上,然后使用3D卷积提取特征。Sharma等人(2016)采用全卷积的体素化自编码器(convolutional denoising auto encoder for volumetric representations, VConv-DAE),通过估计体素占用的网格从噪声数据中学习体积表示,端到端地学习体素到体素的映射关系,这种方法虽然能够用于形状补全,但其根本是一种能够作用在随机噪声模式下的去噪方法。
Dai等人(
2017)通过3D-EPN(3D-encoder-predictor network)推断出粗略形状后,基于最近邻的体积块合成方法实现进一步细化。Wang等人(2021)年提出的VE-PCN(voxel-based network for cloud completion by leveraging edge generation)将无序点集转换为网格表示以支持边缘生成和点云重建,这种多尺度网络能生成细粒度较高的细节信息。
针对稀疏点云补全任务,Yi等人(2021)提出SVCN(sparse voxel completion network)网络,由表面补全和语义标注两个阶段组成,两个类似U-Net的子网分别用于结构生成和细化。GRNet(gridding residual network)(Xie等,2020)进一步提出网格逆转模块来映射体素用于点云密集化自动补全。
图3为GRNet网络模型图。不同于体素化的单向转换,它可以让点云在原始数据和三维网格之间互相转换而不会丢失结构信息。Kim等人(2023
)基于网格化模块和网格化逆转模块生成多个不同姿态的不完整点云,随后再将它们整合成一个完整的点云,能够应用于实际场景的残缺点云补全任务中。
图3 GRNet模型结构 (Xie等,2020)
基于体素的点云补全算法能够方便网络快速直接提取语义和几何特征,直观且清晰。虽然这些提取到的特征能够满足分类、分割等任务,但对补全任务来说,残缺的点云信息需要粒度较高的语义与几何特征来补全,且基于体素的网络易存在大量0体素值占用内存的问题,造成体素空间冗余,存在较大的内存消耗和计算负担。
2.2 基于视图的方法
传统的深度学习框架得益于二维卷积网络(龚靖渝等,2023),而二维卷积神经网络的成功使得许多研究者在处理点云数据的时候考虑采用投影的方法获取点云数据的多视图,随后融合各图像特征以提升点云补全算法的网络性能。
MVCNN(multi-view convolutional neural network)(Su等,2015)开创性地提出将多视图特性汇集组合到单个紧凑的形状描述子中,但因最大池只能保留特定视图中的最大元素而导致了其他信息的丢失。
MVCNN首次提出了多视图的特征融合,能够充分提取各视角的结构信息,为残缺点云的补全提供了关键结构信息的提取方法。图4为MVCNN的网络架构。
图4 多视图CNN的网络架构(Su等,2015)
因此,一些研究者基于MVCNN提出多种方法(Qi等,2016;Feng等,2018;Yu等,2018a),促进多视图CNN的发展。Qi等人(2016)使用3D多分辨率三维滤波来提升多尺度信息的表征能力。Feng等人(2018)基于
MVCNN提出的群视图卷积神经网络架构(group-view convolutional neural network, GVCNN),将不同视角下CNN提取得到的视觉描述子进行分组与归纳,但多视角下分别用CNN提取特征的计算量较大,故提取特征冗余度也很高。
为解决基于多视图的方法下汇集不同的视图特征的问题,Yu等人(2018)提出多视图协调双线性网络,通过协调双线性池集成局部卷积特征来生成紧凑的全局描述符以获得高效的三维对象表示。
基于视图的点云补全算法(Hu等,2019;Tang等,2019;Hu等,2020;Gong等,2021;Li等,2023c)能够结合视角的不同信息,更好地处理点云数据中的缺失部分,提高点云补全网络的准确性和鲁棒性。
新型多视图补全网络(multi-view completion net,MVCN)(Hu
等,2019)可以利用来自不同深度视图的更多信息来实现单深度视图补全的高精度,并提高不同视图下点云补全深度图像之间的一致性。
Tang等人(2019)从单一RGB图像中利用骨架的拓扑保持特性进行三维表面重建。随后为解决已补全视图间无法强制执行几何一致性的问题,Hu等人(2020)又提出一种三维形状补全的多视图一致性推理技术。
大多数算法均是从输入数据中学习的全局特征来预测缺失的形状,容易导致拓扑性不一致、细粒度较低,然而Gong等人(2021)提出的ME-PCN(point completion network conditioned on mask emptiness)是利用三维形状空间中“空性”的点来补全网络。该网络对被占用的三维数据和邻近的“空点”进行编码,在保持局部拓扑一致的情况下恢复表面细节的细粒度。
还有一些方法(Li等,2017;Li,2023c)使用体素形式优化补全网络性能。Li
等人(2017)基于单一的深度图像使用体素CNN来提取特征以恢复三维形状。Li等人(2023c)基于Transformer提出语义场景补全框架Voxformer (sparse voxel Transformer),能够从二维图像中输出完整三维体积语义,效果显著且减少训练内存占用。
基于视图的方法可以从多角度图像中获得不同的信息,其性能取决于角度和视图数量,并且点云内部的几何信息在投影阶段易被折叠,影响点云补全网络的准确性。
2.3 基于点的方法
基于体素的方法虽然能够有效地处理大规模点云数据,但是对复杂形状的处理能力较差,并且三维数据直接转化为体素会导致许多细节的丢失。因此,Qi等人(2017a)开创性地提出了能够直接处理无序点云的PointNet,解决了点云数据输入的不规则性和无序性问题。
图5是PointNet算法网络结构。由PointNet首创的基于MLP (multilayer perceptron)的方法简单且有较强的表示能力,一些网络使用MLP对每个点独立建模,根据点云的置换不变性使用对称函数聚集全局特征后对点云进行处理和补全。
图5 PointNet具体网络结构 (Qi等,2017)
为将传统的二维图像卷积扩展到点云卷积上,Wu等人(2019)提出的PointConv卷积算子,能够在非均匀采样的三维点云上执行卷积。Thomas等人(2019)提出一种可形变卷积模块(kernel point convo-lution,KPconv),利用可学习的核点集合来处理三维点云。为更好地均衡PointNet系列模型准确率和网络训练速度,Zhang等人(2019)提出了一种新型的轻量级卷积算子结构ShellConv,并基于此设计ShellNet(efficient point cloud convolutional neural networks using concentric shells statistics)。
Wang等人(
2019c)开创性提出动态图卷积神经网络(dynamic graph convolutional neural network,DGCNN),其边缘卷积(edge convolution, EdgeConv)特征提取模块通过邻域内聚合点的特征并根据这些聚合后的特征来计算每个点的新特征。图6为EdgeConv的结构示意图。Zhang等人(2021a)设计了一个图神经网络模块,通过特征算子学习局部和全局点特征。
图6 EdgeConv结构(Wang等,2019c)
DGCNN延续PointNet的思想对点云进行预处理,这使得网络的尺寸变大、参数量变多。因此,许多方法(Hassani和Haley,2019;Wang等,
2019a;Pan,2020;Wu和Miao,2020)在DGCNN的基础上改进网络以提高网络性能、减小模型尺寸。Hassani和Haley(2019)通过训练多尺度图编码器学习点云上的点和形状特征。
Wang等人(2019a)基于DGCNN提出一种深度级联网络DCG(deep cascade generation),将额外的局部连接编码为特征向量,由粗糙点云逐步演化为精细点云。GAC(graph attention convolution)(Wang等,2019b)提出了一种能够捕获点云的结构化特征的图注意卷积,卷积核的形状由注意力权重的学习分布决定,可以动态地雕刻成特定的形状以适应对象的结构。
Pan(
2020)基于图卷积首次提出边缘感知点云补全网络ECG (edge-aware point cloud completion with graph convolution),设计了深度分层编码器来提取多尺度边缘特征以细化局部几何细节。类似地,Wu和Miao(2020)使用图卷积结构收集跨区域特征并生成完整点云的骨架,基于折叠的解码器生成高分辨率点云,恢复目标物体的完整形状。
虽然基于图卷积的点云补全算法能够对残缺点云的关键结构信息进行有效特征提取,捕捉点云数据局部特征和上下文关系,但对噪声等异常值十分敏感,容易导致补全结果错误且网络的尺寸较大、参数量较多。
FoldingNet(Yang等,2018)能够从二维网格重建任意点云,但是该网络无法补全物体尖锐表面。随后许多方法(Groueix等,2018;Yuan等,2018;Tchapmi等,2019;Liu等,2020;Wen等,2020;Yu等,2021
)基于FoldingNet开始进行优化改进。AtlasNet(Groueix等,2018)基于图像或者点云数据,通过估计参数化表面元素集合来恢复物体的完整点云结构,提高模型的泛化能力。Yuan等人(2018)首次提出了以形状补全任务为重点的基于深度学习的网络PCN(point completion network),融合FoldingNet和PointNet网络思想,将点云几何信息总结为特征向量,通过解码器由粗到细预测出完整点云。
TopNet (Tchapmi等,2019)同样采用类似的方法,它利用树状结构来补全三维点云,能够随树的层次增加来提高网络参数性能。MSN(morphing and sampling network)(Liu等,2020)通过先预测粗粒度点云与参数表面元素的集合再合并输入点云以获得高保真的密集点云结果。为弥补仅考虑全局特征而忽略局部特征造成的结构损失,Wen等人(2020)提出SA-Net(
skip-attention network),该网络基于折叠网络使用跳过注意力机制来优化点云补全算法的网络性能。PoinTR(Yu等,2021)基于Transformer利用折叠解码器来预测残缺点云结构。
还有一些方法(Wang等,2020b;Zhang等,2020;缪永伟等,2021;Huang等,2022)通过有效特征融合来增强点云补全算法的性能。SoftPoolNet (Wang等,2020b)提出了一种能够在不同分辨率层进行多次最大池化的特征融合方法,该方法可整合到许多点云补全架构中用于提高网络性能。
NSFA (Zhang等,2020)通过全局和局部特征聚合(global & local feature aggregation,GLFA
)方法与残差特征聚合(residual feature aggregation,RFA)方法来分别表示已知部分与缺失部分,用于重构坐标。
缪永伟等人(2021)引入PointSIFT来增强各邻域点的局部特征提取能力,能够有效修复室内点云场景。ARFNet(adaptive recurrent forward network)(Huang等,2022)使用自适应高效递归前向网络来减少参数并且缩小模型的尺寸,通过低成本以及高收敛速度来完成稠密点云的补全任务。
与卷积神经网络架构不同,GAN通过训练生成器和鉴别器来生成新的真实数据,但是基于GAN的点分布非常复杂且难以训练,因此研究人员为在传统GAN的基础上完成点云补全任务进行了很大的改进。
2018年Achlioptas等人(2018)提出了第1个基于GAN模型的点云补全网络L-GAN (latent-space GAN),但该网络并不是通过原始点云获得特征,而是使用预训练编码器传递数据后,再利用解码器将生成器学习到的数据转换为点云。这种方式导致点云的结构信息丢失严重,因此点云补全的效果并不理想。
RL-GAN-Net(reinforcement learning agent controlled GAN network)(Sarmad等,2019)提出了一种基于强化学习控制的GAN网络,用于提升点云补全网络效率,但忽略点的预测精度。PointALCR (adversarial latent GAN and contrastive regularization for point cloud completion)(Liu等,2022)将基于GAN、基于自编码器的框架与对比正则化相结合,提升GAN训练过程的生成和判别能力,相较于以往方法而言点云补全的效果更好。
许多方法(Huang等,2020;Wang等,2020a;2022a)针对点云补全算法模型精度进行优化。Huang等人(2020)提出多尺度分层GAN网络PF-Net (point fractal network
),使用基于特征点的多级生成来预测分层网络中的缺失部分,且引入了一个判别器来评估点云质量。
为提升点云补全网络的细粒度,Wang等人(2020a)提出一个级联的细化网络,结合由粗到细的方法来表现物体的具体形状。基于此思想,SCRN(cascaded refinement network for point cloud completion with self-supervision)(Wang等,2022a)引入了能够共享特征提取器的两分支网络用于生成精细点云。还有一些方法(Li等,2019;Cheng等,2021)致力于生成均匀的完整点云数据。
基于GAN架构的点云补全方法不需要额外的先验知识或特定的几何约束。它可以从数据中自动学习并生成逼真的几何形状和细节以及符合真实分布的点云,但训练过程相对复杂且在处理大规模点云数据时,对算力要求较高。虽然可以在给定部分输入的情况下生成不同的全局形状,但可能由于网络具有较高的生成自由度,从而忽略补全精度。
随着Transformer(Vaswani等,2017)架构被用于自然语言处理中的句子编码,许多研究者(Guo等,2021;Zhao等,2021)试图通过使用模型捕捉点云中全局的特征关联用于处理不同密度和大小的点云。同时,还有许多方法(Lin
等,2021;Yu等,2021;刘心溥等,2022)将Transformer(Vaswani等,2017)结合其他网络以改进点云补全算法性能。
Lin等人(2021)基于AtlasNet结构融合Transformer(Vaswani等,2017)模型提出算法PCTMA-Net (point cloud transformer with morphing atlas-based point generation network),利用Transformer(Vaswani等,2017)的注意机制来提取点云数据内部的局部上下文信息。Yu等人(2021)提出了一种用于点云补全的
Transformer(Vaswani等,2017)结构PoinTR,将点云补全重新表述为一个集合到集合的转换问题并且利用FoldingNet来解码生成预测的残缺点云。
图7是PoinTr框架图。刘心溥等人(2022)提出嵌入Transformer(Vaswani等,2017)模块的多尺度点云补全算法MSTCN(multi-scale Transformer based point cloud completion network),借鉴GAN的思想,在解码器端利用注意力鉴别器来提升点云补全网络的性能。
图7 PoinTr总体框架 (Yu等,2021)
点云的离散性和局部区域点的非结构化预测等问题导致难以生成局部形状的精细结构。因此,许多方法(Wen等,2023;Yan等,2022;Xiang等,2023;Li等,2023b;Rong等,2024)致力于实现残缺点云的高精度补全。点云的无序性影响点云形状的高质量生成,Wen等人(2023)基于PMP-Net(point cloud completion by learning multi-step point moving paths)(Wen等,2021)引入Transformer(Vaswani等,2017)框架,改进特征提取模块,通过多步移动残缺形状的每个点来补全残缺点云。
ShapeFormer (
Transformer-based shape completion)(Yan等,2022)提出一种紧凑的3D表示(vector quantized deep implicit function,VQDIF),通过短序列离散变量表示三维形状的近似值,实现复杂形状的高质量重建。Xiang等人(2023)提出的Snowflake-Net将完整点云的生成建模为三维空间中点的雪花状生长,在解码过程中应用基于Transformer(Vaswani等,2017)的结构,侧重于恢复完整点云的精细几何细节。
Li等人(2023b)针对点云缺失部分的几何结构和细节设计了算法ProxyFormer(proxy alignment assisted point cloud completion with missing part sensitive Transformer),还提出一种能够同时聚合点云坐标和邻近点的特征位置编码方法。CRA-PCN(cross-resolution aggregation point completion network) (Rong等,2024
)基于局部注意机制设计跨分辨率转换器,能够有效地进行跨分辨率聚合以捕获精细的几何特征。
还有一些方法(Wang等,2022b;Fei等,2023;Zhou等,2022;Yu等,2023;Chen等,2023b;Wang等,2024)通过改进Transformer(Vaswani等,2017)架构实现更优性能。Wang等人(2022b)基于Transformer(Vaswani等,2017)模型提出新颖的上采样和下采样操作以实现点云补全任务中的多功能性。DcTr
(Fei等,2023)使用双通道Transformer(Vaswani等,2017)和交叉注意来提升点云局部特征提取能力。
Zhou等人(2022)基于PoinTR提出SeedFormer(patch seeds based point cloud completion with upsample Transformer),设计一种新的三维形状表示Patch Seeds,实现从粗到精的完整点云细节复原。为应对更复杂多样化的问题,Yu等人(2023)基于PoinTr进一步提出AdaPoinTr,在点云补全过程中引入自适应查询生成机制的同时还加入去噪任务。
AnchorFormer(Chen等,2023b)通过学习一组判别节点(锚点)来解决物体形状补全问题。PointAttN (Wang
等,2024)通过充分利用交叉注意力和自注意力机制,直接建立无序点的局部和全局结构来感知三维点云的几何细节和全局上下文关系。
基于Transformer(Vaswani等,2017)的方法能够提取点云网络的全局结构特征,且能够扩展到不同规模的点云数据,适用于不同密度和尺寸的点云。但在现有方法中,Transformer(Vaswani等,2017)固有的注意力机制导致额外的复杂计算量,使其难以有效地处理长序列。因此,基于Transformer(Vaswani等,2017)的方法容易出现参数过多或计算量过大等问题,并且在补全过程中,Transformer(Vaswani等,2017)的位置编码不能很好地表示点云的位置信息。
除了上述方法外,还有一些点云补全算法(Wu等,2020;Wen等,2021;Xia等,2021;Tang
等,2022a;Pan等,2023;Xu等,2023;Li等,2024)取得不错效果。SK-Net(Wu等,2020)通过预处理本地数据得到具有局部细节特征与空间结构特征的空间关键点,但忽略了原始残缺点云的形状结构和拓扑信息。
Wen等人(2021)提出了基于对抗网络逆映射的无监督点云补全网络PMP-Net,它对输入的残缺点云进行逐点移动,基于点来学习精准且唯一的对应关系,提高了点云补全的形状质量。ASFM-Net(asymmetrical Siamese feature matching network)(Xia等,2021)先通过Siamese自编码器生成粗糙点云形状,再使用迭代细化单元恢复细粒度高的完整点云。
LAKe-Net (Tang
等,2022a)利用对齐关键点与相应的表面骨架提出关键点—骨架—形状预测方式,获得了较好的网络性能。VRCNet(variational relational point completion network)(Pan等,2023)通过先建立双路径架构模型,再深度挖掘相关点特征来细化局部点云形状细节。CP3(Xu等,2023)将点云生成和细化分别表示为提示和预测,使用预训练—提示—预测(pretrain-prompt-predict)范式统一了点云补全的语义感知信息。
多数算法使用池化操作来捕获全局特征信息,从而导致局部特征丢失,为解决这一问题,Mamba模型使用硬件感知算法提高计算效率。3dMambaComplete (3D Mamba complete)(Li等,2024)使用Mamba的选择机制对点云特征进行编码以增强点云全局和局部上下文信息之间的连通性,从而提高重建点云的质量。
由于基于体素、视图以及点的方法都是单模态输入,所以很难推断出具有大规模残缺区域的三维点云数据与完整点云数据之间的精确映射。因此,这些方法只能针对特定类别的物体或具有小型残缺区域的形状进行补全。
深度学习下多模态点云补全算法
在输入点云数据存在很大程度的残缺且单模态输入可获得的信息量有限的情况下,对缺失点的推断存在很大的不确定性,同时点云数据固有的无序性与稀疏性难以确定缺失区域是否因为其特性造成。因此,仅仅使用单模态点云数据来补全残缺点云十分具有挑战性。
基于多模态的点云补全算法能够利用多种传感器数据或多种模态信息来完善点云数据,通常结合了视觉、激光雷达和深度相机等不同类型的传感器数据,依据不同模态数据的信息,利用它们之间的相关性来指导点云补全过程以提高点云补全结果的完整度和准确性。
一些方法(Han等,2017;You等,2018,2019)通过优化特征提取或者融合多级特征来帮助补全算法更加全面地理解不同模态间的点云数据,从而更准确地进行补全。为探索三维点云和二维图像间的特征关系融合问题,PVNet(pixel-wise voting network)(You等,2018)首次提出将点云和多视图数据融合的三维形状联合识别框架—点视图网络,随后基于点视图网络又提出PVRNet(point-view relation network)(You等,2019),通过关系评分模块来挖掘三维点云与其多个视图之间的关系,实现点单视图融合和点多视图融合。
针对具有较大残缺区域的三维数据,Han等人(2017)结合体素信息与多视图深度信息来推理全局结构并且指导局部几何细化网络生成高分辨率的完整曲面,以端到端的方式共同训练全局结构推理和局部几何细化网络,捕获上下文信息以实现全局一致性。
许多方法(Zhang等,2021b;Aiello等,2022;Zhu等,2024)利用图像的互补信息和输入的部分几何形状进行高质量的点云补全。Zhang等人(2021b)提出一种视导架构的传感器融合网络ViPC(view-guided point cloud completion),通过使用单视图引导部分点云来完成补全任务,这种跨模态和跨级别融合框架为点云补全任务提出一套视图引导的全新解决方案。
与ViPC不同的是,XMFnet (cross-modal fusion network)(Aiello等,2022)能够在潜在空间中使用交叉注意力机制实现特征级别的有效融合,但是缺乏对真实场景的研究。CSDN (cross-modal shape-transfer dual-refinement network)将多模态融合问题解释为形状风格迁移问题,同时为解决ViPC补全结果缺乏精细几何细节的问题,CSDN用“形状融合
”和“双细化”模块实现高质量补全。
受非平衡态热力学扩散过程的启发,DPM (diffusion probabilistic model)(Luo和Hu,2021)将点云生成过程看做将噪声分布转换为所需形状分布的反向扩散过程。这是扩散模型首次在点云生成任务中使用,但DPM只能接收一个全局特征,忽略残缺点云中的细粒度局部结构。
随后,许多方法(Zhou等,2021;Zeng等,2022;Mittal等,2022;Li等,2023a;Chen等,2024;Wu等,2024
)基于扩散模型完成多模态点云补全和生成任务。PVD(point-voxel diffusion)(Zhou等,2021)融合去噪扩散模型与点体素的混合表示来合成高保真度的点云形状,同时能够基于点云从真实物体的单视深度扫描图中生成多个补全结果。
Zeng等人(2022)提出了用于三维形状生成的分层潜点扩散模型LION(latent point diffusion),该模型能够实现多模态形状去噪和体素条件合成,并且可以适用于文本和图像驱动的3D生成。AutoSDF(Mittal等,2022)提出一种3D形状的自回归先验方法以解决多模态3D任务,如形状补全、重建和生成。
Diffusion-SDF(Li等,2023a)使用SDF(signed distance field)自动编码器和体素化扩散模型来学习和生成3D
形状,但不能直接处理残缺点云。PointLDM(Chen等,2024)通过利用条件扩散来进行形状补全,对精确的形状潜分布进行建模。
IPoD(implicit field learning with point diffusion)(Wu等,2024)基于算法PVCNN和Transformer(Vaswani等,2017)模型两种骨干网络提出通过点去噪来进行自适应查询的隐式场学习,帮助模型更好地捕捉全局粗糙形状和局部精细细节。
随着虚拟建模技术的发展,一些尝试用条件信息控制点云补全技术的方法(Chen等,2023a;Cheng等,2023;Kasten等,2023;Chu等,2023)逐渐成为研究热点。Chen
等人(2023a)提出Fantasia3D以生成精细的表面和丰富的纹理。Cheng等人(2023)为实现交互式生成提出SDFusion,该模型能够基于编码—解码器融合扩散模型实现多模态输入,但需要使用点云表面作为输入。
基于此,SDS-Complete(complete with SDS representation)(Kasten等,2023)将预训练的文本使用在图像扩散模型中,利用给定对象的不完整点云文本语义信息来获得完整的点云表面表示。
为提升点云补全的精度与质量,Diffcomplete(diffusion-based generative 3D shape completion)(Chu等,2023)以实现多模态且真实的点云形状为目标,通过控制分层特征聚合机制和占用感知融合策略来整合几何形状的输入优化。由于存在多步骤推理过程,这些融合扩散模型的多模态点云补全算法与大多数扩散模型算法一样,需要额外的计算,对网络的处理速度也有更多限制。
基于多模态的点云补全算法能够充分利用不同数据源的信息,提高点云重建的准确性和鲁棒性,以此确保补全点云符合实际场景并具有良好的精度,因此在三维场景重建、大型物体残缺补全等领域具有广阔的应用前景。
性能评估
4.1 常用数据集
表
3为常用数据集总结,根据其发布年份、类别与数据集特点等进行对比。对于三维点云补全任务,常用的数据集主要分为真实扫描的点云数据集和人工生成的点云数据集。真实扫描的点云数据集是通过激光雷达等采集设备从真实环境中直接扫描得到不完整的三维点云数据,如KITTI(Geiger等,2013)(https://www.cvlibs.net/datasets/kitti/raw_data.php)等。
人工生成的数据集是通过在某个固定视角下均匀采集三维模型的表面点云得到具有残缺几何形状的三维点云数据,例如ShapeNet(Chang等,2015)(https://shapenet.org/)、ModelNet(Wu等,2015)(http://modelnet.cs.princeton.edu)、PCN(Yuan等,2018)(https://github.com/wentaoyuan/pcn)、Completion3D(Tchapmi等,2019
)(http://completion3d.stanford.edu)、MVP(Pan等,2021)(https://mvp-dataset.github.io/)、ShapeNet-ViPC(Zhang等,2021b)(https://github.com/Hydrogenion/ViPC)等。
表3 常用点云补全数据集总结
4.2 评价标准
不同数据集对应的评价指标有所差别,本节总结了真实数据集与多种合成数据集常用的评价指标,对比其评估方法与优缺点。表4总结了点云补全算法基于不同数据集的评价指标。
表4 基于数据集的评价指标分类总结
对于3D点云补全任务,倒角距离(
chamfer distance,CD)和陆地移动距离(earth mover’s distance,EMD)(Fan等,2017)是最常用的性能评价标准。除了这两种常用评价标准外,本节还总结了其他评价标准,如密度感知倒角距离(density-aware chamfer distance,DCD)(Wu等,2021)、F-Score(Tatarchenko等,2019)、一致性(consistency)、保真度误差(fidelity error,FD)和最小匹配距离(minimal matching distance,MMD)(Yuan等,2018)。
1)倒角距离(CD
)表示预测点集S1中的点与原始点集S2中最近点的平均距离之和,以及S2中的点到S1中的点的平均最近距离之和,其定义为
式中,S1表示预测点云集,S2表示原始点云集。x表示预测点云集S1中的一点,y表示原始点云集S2中的一点。
2)陆地移动距离(EMD)用于评估点云的重建质量,与倒角距离CD不同的是,计算陆地移动距离EMD需要预测点云集S
1和原始点云集S2的尺寸相同,其定义为
式中,ϕ:S1→S2表示预测点云集S1到原始点云集S2的所有点的最小平均距离的映射。
3)密度感知倒角距离(DCD)由倒角距离(CD)衍生而来,可以检测密度分布的差异,更注重点云的整体结构与局部几何细节,其定义为
式中,
,
,α表示温度系数。
4)F-Score用于评价物体表面间的距离标准,在点云补全算法中常用来评估正确重建的点或表面积的百分比,其定义为
式中,F1(d)表示F-Score在其计算结果最优值为1、最差值为0的表示,P(d)和R(d)表示距离阈值d的精度和召回率。
5)PCN(Yuan等,2018)提出了保真度误差(FD)、一致性(consistency)和最小匹配距离(MMD)的评估指标。保真度误差指的是通过计算输入点与输出中相应最近邻点之间的平均距离来测量输入数据保留的程度。一致性指的是估计模型输出与输入变化的一致性。最小匹配距离指的算法模型对经典汽车重建程度。
4.3 算法性能评估
本节对基于深度学习的点云补全算法性能进行全方面对比,各类算法性能对比结果如表5—表
8所示,分别在真实数据集KITTI、人工合成数据集MVP、ShapeNet-ViPC、PCN、Completion3D以及Shape-Net上对代表性补全算法进行性能总结与分析。
表5 点云补全经典算法在KITTI数据集上结果对比
表6 点云补全经典算法在MVP数据集上多分辨率结果对比
表7 点云补全经典算法在ShapeNet-ViPC数据集上结果对比
表
8 点云补全经典算法在合成数据集上结果对比
表5为点云补全经典算法在真实数据集KITTI上的结果对比,分别使用一致性(consistency)、保真度误差(FD)和最小匹配距离(MMD)作为评估指标。该数据集由真实的3D汽车形状组成。根据真实数据集KITTI中结果对比,基于点的各类方法中,由于Transformer(Vaswani等,2017)结构在点云数据中能够捕获到全局的特征关联性,能够处理不同密度或者不同尺寸的残缺点云,所以基于Transformer(Vaswani等,2017)的方法补全结果与真实数据的匹配程度最好,更接近真实数据。
表6为各类代表性算法在合成数据集MVP中的多分辨率评估结果对比。在现有使用多分辨率补全的方法中,就MVP数据集上的不同采样点而言,各种单模态方法中模型CP3在具有相似几何特征的类别中(桌椅、沙发等)有明显的性能提升。
各种多模态方法中,模型
PointLDM突出了算法模型学习潜在形状的有效性,有助于从部分观察中重建形状。因此随着采样点的增加,PointLDM模型的重建准确性增高。综合而言,CP3在合成数据集MVP上性能最佳,这也得益于其提出的IOI(incompletion-of-incompletion)预训练—提示(生成)—预测(细化)新方法,能够以统一的方式更好地进行表征学习。
表7为点云补全经典算法在ShapeNet-ViPC数据集中的结果对比。ShapeNet-ViPC数据集与其他合成数据集不同,该数据集每个类别集合是由部分点云与单视图组成,这种使用多模态作为输入的测试方法能够准确评判模型构建缺失区域关键结构的能力。在这种测试数据集下,一些符合现实场景补全需求的方法更容易取得较好的补全结果,如基于多模态的方法,这种方法补全的完整点云与残缺点云之间的结构差别小,重建的准确率较高。
表8为各类代表性点云补全算法在合成数据集PCN、Completion3D、ShapeNet中的评估结果对比。由表8对比分析可知,面向深度学习的单模态方法中,基于体素的方法整体补全效果较好,结构差别小且重建准确性高。
在基于点的方法中,一些通过MLP构建的方法在处理结构简单且分辨率低的三维数据时,补全效果较差。基于Transfomer的方法在合成数据集中补全效果较好,而结合Mamba
模型的点云补全方法得益于其选择机制的使用,使得点云全局和局部上下文信息间连通性增强,所以点云重建的准确性较高。
为了衡量算法模型的优劣,除了点云补全任务中所需的特定性能指标,还需考虑模型的效率问题,表9为深度学习背景下的点云补全算法复杂性结果对比。基于现有方法使用参数量(Params)和理论计算成本(FLOPs)来衡量模型效率。参数量指模型的参数个数,能够描述模型所需内存。运算量通常用理论计算成本来衡量,描述模型使用所需要的计算力。
根据表9可知,基于体素的方法参数量大且算力要求高,模型运算效率较低。基于Transformer(Vaswani等,2017)的点云补全算法运算量小但模型参数较多,运算效率一般。相较而言,ASFM-Net得益于其预先在数据集的完整点云中学习先验形状这一操作使得其运算效率较高、补全效果较好。
表9 基于深度学习的点云补全算法复杂性结果对比
综上所述,在深度学习背景下单模态的方法中基于体素的方法虽然整体补全效果较好,但容易存在0体素的内存冗余,其计算成本较高且结构复杂,运算效率较低。基于视图的方法能够获得更丰富、更全面的视角信息,同时减少噪声等干扰因素的影响,但极其依赖于投影角度与视图数量。
相较其他两种方法,基于点的方法没有体素化的量化误差,也不会引起显性信息丢失。其中一些基于MLP构建的方法虽然网络结构简单,但缺乏局部与全局特征融合致使模型的精度一般。基于图卷积的方法和基于GAN的方法在三维点云重建方面效果都一般,基于图卷积的方法虽然能够提高点云的拓扑结构和几何特征的提取能力,但网络尺寸较大、参数较多,影响网络运行速率,基于GAN架构的方法能够生成逼真细节,这两种方法的结合更容易提升模型性能。
基于Transformer(Vaswani
等,2017)的模型因其处理不规则数据的强大能力使得算法模型性能更佳,尤其以AdaPoinTr为最SOTA(state-of-the-art)的方法,但不能很好地表示点云的位置信息且模型参数量较大,网络效率较低。基于多模态的方法近两年发展迅速,且能够结合当下人工智能(artificial intelligence,AI)算法热点,使用文本、图像等多模态输入生成高质量的点云3D模型,而且对点云的形状尺寸、应用场景等没有限制,是未来点云补全算法的研究热点。
基于多模态的方法中多针对大型场景或物体的点云缺失问题进行补全处理,其模型鲁棒性更强,但其中大多方法均基于扩散模型研究,网络中需要使用多步骤推理过程,这使得模型计算复杂度较高,对算力要求很高。深度学习背景下点云补全算法分类方法优缺点如表10所示。
表10 基于深度学习的点云补全算法分类总结
结语
本文对基于深度学习的点云补全算法进行综述,并根据不同模态将其分成基于单模态的方法和基于多模态的方法。同时对常用的数据集及性能评估指标进行总结,并对列举的两类分类方法中主流算法在通用测试基准上进行性能对比分析,以此便于对基于深度学习的点云补全领域进行算法模型的评估。
基于单模态的方法自2018年点云补全算法概念提出后多使用点的方法进行补全,同时结合热点模型进行算法优化,如GAN模型、Transformer模型、Mamba模型等;基于多模态的方法自2021
年提出后快速发展,尤其当扩散模型应用在点云补全算法后,真正实现了多模态输入与输出,许多研究者通过探索特征级别的多模态信息融合从而提升补全算法的模型精度,也为机器人技术、自动驾驶中多车协同智能感知技术提供了更新的算法理论基础,基于多模态的方法对残缺点云物体或场景补全也是未来点云补全算法的热门研究趋势。
5.1 未来研究方向
针对深度学习背景下对不同模态的点云补全算法研究,多数方法随着各种模型的兴起而快速发展,补全算法的模型结构、模型精度和网络性能都得到极大的提升。随着最近扩散模型、Mamba模型的提出,它们将逐渐取代GAN模型、Transformer模型成为三维点云补全和生成任务的研究热点。
1)相较于GAN模型而言,扩散模型具有更高质量的生成能力。深度学习背景下点云补全算法可以通过多模态信息融合以获得更多残缺点云局部结构与细节信息,基于扩散模型的方法对点云数据的形状和应用场景包容性很强,但模型计算复杂度较高,对参数较敏感。后续研究中还应考虑优化扩散模型的计算方法,在获得高质量三维生成结果时减少模型多步推理过程,以其为基础架构实现多模态、高精度补全。
2)相较Transformer模型的特征提取能力,Mamba模型在3D任务上不仅有最佳表现,还能显著降低模型的参数量和计算复杂度。这将成为点云补全算法未来研究热点。在后续研究中,还需要更深入地探索有效的预训练策略和模型优化方法,充分利用Mamba模型在线性复杂度下的性能优势。
通过对基于深度学习的点云补全算法进行全面的调研与综述,发现当前的研究成果已经在一定程度上提升了点云数据特征提取的能力与模型生成能力,但仍然存在如下的研究难点:
1)特征与细粒度。目前大多数算法致力于充分利用结构信息来预测生成细粒度更完整的点云形状,基于点云数据结构将其几何结构和属性信息进行多重融合以丰富点云数据高质量生成依旧具有重要研究意义,同时结合Mamba模型以获取更高效的特征提取能力,提升模型效率。
2)多模态数据融合。点云数据通常与其他传感器数据融合使用以获取更全面的信息,如RGB图像、深度图像等。如何改进多模态特征提取与融合的方法,探索多模态数据巧妙融合以改善点云补全算法的精度和鲁棒性将是未来的研究难点。未来点云补全算法的发展将会实现从文本、图像到点云的发展,所有模态被彻底打通,实现真正意义上的任意输入、任意输出。
3)数据增强与多样性。点云大模型将是未来研究的热点,如何通过数据增强或模型扩散提高点云补全算法在各种场景下的泛化能力以及数据多样性也将是点云补全领域未来研究的难点。
4)实时性与交互性。实时性需求限制点云补全算法在自动驾驶、机器人领域等应用的发展。算法复杂度高、多模态特征信息难以融合、大规模数据处理困难等问题使得算法模型效率低下,导致实时性较差。未来研究难点集中在如何通过数据预处理和降采样来减少数据规模以及如何合理地选择符合需求的轻量级结构提升模型效率,如Mamba模型等,并且能够根据用户的交互信息对点云补全结果进行快速调整与优化的也将是未来发展的难点。
5.2 总结
面向深度学习的三维点云补全算法是计算机视觉中多种任务的研究基础,能够实现数字化文化遗产保存、自动驾驶环境感知以及医学影像三维重建等应用。本文对深度学习背景下的点云补全算法进行系统综述,对现阶段算法挑战进行分析与总结,同时针对多种数据集使用多类评价标准进行算法性能评估,最后对未来研究方向的热点与难点进一步归纳总结,以求为三维视觉领域点云补全算法研究者提供重要的参考价值与未来发展的研究方向。