三维点云的深度学习研究综述

作者丨aaa

来源丨https://zhuanlan.zhihu.com/p/455210291

编辑丨3D视觉工坊

摘要

点云学习由于在计算机视觉、自动驾驶、机器人等领域的广泛应用，近年来受到越来越多的关注。作为人工智能的主导技术，深度学习已经成功地用于解决各种二维视觉问题。然而，由于深度神经网络处理点云所面临的独特挑战，基于点云的深度学习仍处于起步阶段。最近，点云上的深度学习变得更加繁荣，提出了许多方法来解决这一领域的不同问题。为了促进未来的研究，本文对点云深度学习方法的最新进展进行了全面的综述。该算法主要包括三维形状分类、三维目标检测与跟踪和三维点云分割三个主要任务。它还提出了几个公开可用的数据集的比较结果，以及深刻的观察和启发未来的研究方向。

关键词：深度学习、点云、三维数据、形状分类、形状检索、目标检测、目标跟踪、场景流、实例分割、语义分割、部分分割。

1、介绍

随着3D采集技术的快速发展，3D传感器越来越普及，价格也越来越便宜，包括各种类型的3D扫描仪、激光雷达和RGB-D相机(如Kinect、RealSense和苹果深度相机)[1]。这些传感器采集的三维数据可以提供丰富的几何、形状和尺度信息[2]，[3]。与2D图像相辅相成，3D数据为机器更好地了解周围环境提供了机会。3D数据在不同的领域有许多应用，包括自动驾驶、机器人、遥感和医疗[4]。3D数据通常可以用不同的格式表示，包括深度图像、点云、网格和体积网格。点云表示作为一种常用的格式，在不进行任何离散化的情况下保留了三维空间中原始的几何信息。因此，它是许多场景理解相关应用的首选表示，如自动驾驶和机器人。近年来，深度学习技术已成为计算机视觉、语音识别和自然语言处理等领域的研究热点。然而，三维点云的深度学习仍然面临着[5]一些重大的挑战，如数据集的小尺度、三维点云的高维性和非结构化。在此基础上，本文重点分析了深度学习处理三维点云的方法。

基于点云的深度学习在过去的五年中受到了越来越多的关注。一些公开可用的数据集也被发布，如：ModelNet [6]， ScanObjectNN [7]， ShapeNet [8]， PartNet [9]， S3DIS [10]， ScanNet [11]， Semantic3D [12]， ApolloCar3D[13]，和KITTI视觉基准套件[14]，[15]。这些数据集进一步推动了3D点云深度学习的研究，越来越多的方法被提出来解决与点云处理相关的各种问题，包括3D形状分类、3D目标检测与跟踪、3D点云分割、3D点云配准、6自由度姿态估计，三维重建[16]，[17]，[18]。3D数据上的深度学习研究也很少，如[19]，[20]，[21]，[22]。然而，我们的论文是第一个专门关注深度学习方法的点云理解。

现有的三维点云深度学习方法分类如图1所示

图1

与现有文献相比，本工作的主要贡献如下:
1) 据我们所知，这是第一篇全面介绍深度学习方法对几个重要的点云理解任务的综述论文，包括三维形状分类、三维目标检测与跟踪、三维点云分割。

2) 相对于现有的评测[19]，[20]，我们专注于3D点云的深度学习方法，而不是所有类型的3D数据。

3) 本文介绍了点云深度学习的最新进展。因此，它为读者提供了最先进的方法。

4) 本文对几个公开数据集上的现有方法进行了全面比较(如表2、3、4、5)，并给出了简短的总结和深刻的讨论。

本文的结构如下:第2节介绍了各自任务的数据集和评估指标。第3节回顾了三维形状分类的方法。第4节介绍了现有的三维目标检测和跟踪方法。第五节介绍了点云分割的方法，包括语义分割、实例分割和部分分割。最后，第六部分对本文进行了总结。

2、背景

我们收集了大量的数据集来评估深度学习算法在不同三维点云应用中的性能。表1列出了一些用于三维形状分类、三维目标检测与跟踪、三维点云分割的典型数据集。特别地，还总结了这些数据集的属性。

对于三维形状分类，有两种类型的数据集:合成数据集[6]，[8]和真实数据集[7]，[11]。合成数据集中的对象是完整的，没有任何遮挡和背景。相比之下，真实世界数据集中的对象被不同程度的遮挡，一些对象被背景噪声污染。

对于三维目标的检测与跟踪，有两类数据集:室内场景[11]、[25]和室外城市场景[14]、[28]、[30]、[31]。室内数据集中的点云要么是由密集深度图转换而来，要么是由三维网格采样而来。户外城市数据集是为自动驾驶设计的，其中对象在空间上很好地分离，这些点云是稀疏的。

对于三维点云分割，这些数据集由不同类型的传感器获取，包括移动激光扫描仪(MLS)[15]、[34]、[36]、航空激光扫描仪(ALS)[33]、[38]、静态地面激光扫描仪(TLS)[12]、RGBD相机[11]和其他三维扫描仪[10]。这些数据集可以用来开发各种挑战的算法，包括类似的干扰、形状不完整和类别不平衡。

2.2评价指标

对于不同的点云理解任务，已经提出了不同的评价指标来测试这些方法。对于三维形状分类，总体精度(OA)和平均分类精度(mAcc)是最常用的性能标准。“OA”表示所有测试实例的平均精度，“mAcc”表示所有形状类的平均精度。在三维目标检测中，平均精度(Average Precision, AP)是最常用的标准。它的计算方法是精确召回率曲线下的面积。Precision和Success常被用于评价三维单目标跟踪器的整体性能。平均多目标T货架精度(AMOTA)和平均多目标T货架精度(amtp)是评价三维多目标跟踪最常用的标准。在三维点云分割中，最常用的性能评价标准是OA、mIoU (mean Intersection over Union)和mAcc (mean class Accuracy)[10]、[12]、[15]、[36]、[37]。特别地，在三维点云实例分割中也使用了mean Average Precision (mAP)[39]。

3、三维形状分类

该任务的方法通常是先学习每个点的嵌入，然后使用聚合方法从整个点云中提取全局形状嵌入。最后通过将全局嵌入到几个完全连通的层中来实现分类。根据神经网络输入的数据类型，现有的三维形状分类方法可以分为基于多视图、基于体积和基于点的方法。几个里程碑式的方法如图2所示。

基于多视图的方法将非结构化的点云投影成二维图像，而基于体积的方法将点云转换成三维的体积表示。然后，利用成熟的2D或3D卷积网络实现形状分类。相反，基于点的方法直接处理原始点云，而不需要任何体素化或投影。基于点的方法则没有引入显性信息丢失并日益流行。请注意，本文主要关注基于点的方法，但也包括少数基于多视图和基于体积的完整性方法。

表1:三维形状分类、三维目标检测与跟踪、三维点云分割的现有数据集总结。

3.1 基于多视图的方法

这些方法首先将三维形状投影到多个视图中，提取视图特征，然后融合这些特征以实现准确的形状分类。如何将多个视图特征聚合成具有区别的全局表示是这些方法面临的关键挑战。

MVCNN[40]是一个开创性的工作，它简单地将多视图特性maxpools到一个全局描述符中。而max-pooling只保留特定视图的最大元素，导致信息丢失。MHBN[41]通过协调双线性池集成局部卷积特征，生成一个紧凑的全局描述符。Yang等人[42]首先利用关系网络，利用一组视图之间的相互关系(如区域-区域关系和视图-视图关系)，然后将这些视图聚合起来，获得具有区别性的3D对象表示。此外，还提出了[43]、[44]、[45]、[46]等方法来提高识别精度。与以前的方法不同，Wei等人的[47]在View-GCN中使用了有向图，将多个视图视为grpah节点。核心层由局部图卷积、非局部消息传递和选择性视图采样组成。最后，将各层次的最大池化节点特征串联起来，形成全局形状描述符。

3.2 基于体积的方法

这些方法通常先将点云体素化成三维网格，然后将三维卷积神经网络(CNN)应用于空间表示进行形状分类。

Maturana等人[48]引入了一个名为VoxNet的容积占用网络，以实现鲁棒的3D物体识别。Wu等人[6]提出了一种基于卷积深度信念的3D ShapeNets，用于从各种3D形状(由二值变量在体素网格上的概率分布表示)中学习点的分布。尽管已经取得了令人鼓舞的性能，但这些方法无法很好地扩展到密集的3D数据，因为计算和内存占用随着分辨率的增大而增大。

为此，引入了一种层次结构和紧凑的结构(如八叉树)来降低这些方法的计算和内存成本。OctNet[49]首先使用一种混合的网格-八叉树结构对点云进行分层划分，该结构用几个浅八叉树沿着一个规则的网格表示场景。采用位串表示对八叉树结构进行有效编码，并采用简单算法对每个体素的特征向量进行索引。Wang et al.[50]提出了一种基于八叉树的CNN用于三维形状分类。将在最细的叶片八分位上采样的三维模型的平均法向量输入网络，并通过三维形状曲面对所占用的八分位应用3D- cnn。与基于密集输入网格的基线网络相比，OctNet对于高分辨率点云需要更少的内存和运行时间。Le et al.[51]提出了一种名为PointGrid的混合网络，它集成了点和网格表示，以实现高效的点云处理。在每个嵌入的体积网格单元中采样固定数量的点，这允许网络通过使用3D卷积提取几何细节。Ben-Shabat等人[52]将输入点云转换成三维网格，再用三维修正Fisher Vector (3DmFV)方法表示，然后通过传统的CNN架构学习全局表示。

3.3 基于点的方法

根据用于每个点特征学习的网络体系结构，这类方法可分为逐点的MLP方法、基于卷积的方法、基于图的方法、基于分层数据结构的方法等典型方法。

3.3.1 点态MLP方法

这些方法使用多个共享的多层感知器(MLPs)独立建模每个点，然后使用对称聚合函数聚合一个全局特征，如图3所示

图3:PointNet的轻量级架构。n为输入点的个数，M为每个点学习到的特征的维数

典型的二维图像深度学习方法由于三维点云固有的数据不规则性，无法直接应用于三维点云。作为一项开创性的工作，PointNet[5]直接以点云作为输入实现对称函数的置换不变性。具体来说，PointNet使用几个MLP层独立地学习点态特征，并使用最大池化层提取全局特征。深层集[53]通过对所有表示相加并应用非线性变换实现排列不变性。由于在PointNet[5]中每个点都是独立学习特性的，因此无法捕获点之间的局部结构信息。因此，Qi等[54]提出了一个分层网络PointNet++，从每个点的邻域捕获精细的几何结构。集合抽象层是PointNet+层次结构的核心，由采样层、分组层和基于PointNet的学习层三层组成。通过叠加多个集合抽象层，PointNet++从局部几何结构中学习特征，并逐层抽象局部特征。

由于PointNet[5]的简单性和较强的表示能力，很多网络都是基于它开发的。Mo-Net[55]的架构类似于PointNet[5]，但它以有限的矩集作为输入。点注意变压器(pat)[56]表示每个点的绝对位置和相对于相邻点的相对位置，并通过mlp学习高维特征。然后，利用组洗牌注意(Group Shuffle Attention, GSA)来捕获点之间的关系，并建立一个排列不变、可微分和可训练的端到端Gumbel子集采样(Gumbel Subset Sampling, GSS)层来学习层次特征。基于PointNet++ [54]， PointWeb[57]利用局部邻域上下文，利用自适应特征调整(AFA)改进点特征。Duan等人[58]提出了一种结构关系网络(Structural Relational Network, SRN)，利用MLP学习不同局部结构之间的结构关系特征。Lin等人通过为PointNet学习的输入空间和函数空间构造一个查找表，加快了推理过程。在中型机器上，ModelNet和ShapeNet数据集上的推理时间比PointNet快1.5 ms，比PointNet快32倍。SRINet[60]首先投影点云获得旋转不变量表示，然后利用基于pointnet的主干提取全局特征，利用基于图的聚合提取局部特征。在PointASNL中，Yan等人[61]利用自适应采样(AS)模块自适应调整由最远点采样(FPS)算法采样的点的坐标和特征，并提出local-nonlocal (L-NL)模块来捕获这些采样点的本地和长距离依赖关系。

3.3.2 基于卷积的方法

与二维网格结构(如图像)上定义的核相比，三维点云的卷积核由于点云的不规则性而难以设计。根据卷积核的类型，目前的三维卷积方法可以分为连续卷积和离散卷积，如图4所示。

图4:一个点的局部邻居的连续与离散卷积的图示。(a)表示以p点为中心的局部邻域qi;(b)和(c)分别表示三维连续卷积和离散卷积

三维连续卷积方法。这些方法定义了一个连续空间上的卷积核，其中相邻点的权值与相对于中心点的空间分布有关。3D卷积可以解释为给定子集的加权和。作为RS-CNN的核心层 [62], RSConv需要当地的一个子集的点在某一个点作为输入,和卷积实现使用一个延时通过学习从低级的映射关系(如欧氏距离和相对位置)高级点在当地子集之间的关系。在[63]中，核元素是在单位球中随机选取的。然后使用一个基于mlp的连续函数来建立核元素位置与点云之间的关系。在DensePoint[64]中，卷积被定义为具有非线性激活器的单层感知器(SLP)。特征是通过连接之前所有层的特征来学习的，以充分利用上下文信息。Thomas等人[65]利用一组可学习的核点，提出了三维点云的刚性和可变形核点卷积(KPConv)算子。ConvPoint[66]将卷积核分为空间部分和特征部分。从单位球面上随机选取空间零件的位置，通过简单的MLP学习权重函数。一些方法也使用现有的算法来执行卷积。在PointConv[67]中，卷积被定义为对于一个重要采样的连续三维卷积的蒙特卡罗估计。卷积核由一个加权函数(通过MLP层学习)和一个密度函数(通过核化密度估计和MLP层学习)组成。为了提高内存和计算效率，3D卷积进一步简化为两种操作:矩阵乘法和2D卷积。在相同的参数设置下，其内存消耗可减少约64倍。在MCCNN[68]中，卷积被认为是依赖于样本密度函数(用MLP实现)的蒙特卡罗估计过程。然后使用泊松磁盘采样构造点云层次结构。该卷积算子可以用于两种或多种采样方法之间的卷积，可以处理不同的采样密度。在SpiderCNN[69]中，SpiderConv将卷积定义为一个阶跃函数与定义在k个最近邻上的泰勒展开式的乘积。阶跃函数通过编码局部测地距离来捕获粗几何，泰勒展开式通过在立方体顶点上插值任意值来捕获内在的局部几何变化。此外，还提出了一种基于径向基函数的三维点云卷积网络PCNN[70]。

为了解决三维卷积网络所面临的旋转等变问题，提出了几种方法。Esteves等[71]提出了三维球面CNN，以多值球面函数为输入，学习三维形状的旋转等变表示。利用球面谐域内的锚点参数化频谱，得到局部卷积滤波器。张量场网络[72]将点卷积运算定义为一个可学习的径向函数和球谐函数的乘积，这些函数在三维旋转、平移和排列中局部等变。[73]中的卷积是在球面互相关的基础上定义的，并使用一种广义的快速傅里叶变换(FFT)算法来实现。SPHNet[74]基于PCNN，在体积函数卷积过程中加入球面调和核，实现旋转不变性。为了加快计算速度，Flex-Convolution[75]将卷积核的权值定义为k个最近邻的标准标量积，可以使用CUDA进行加速。实验结果表明，该算法在参数较少、内存消耗较少的小数据集上具有良好的性能。

三维离散卷积方法。这些方法定义了规则网格上的卷积核，其中邻近点的权值与相对于中心点的偏移量相关。Hua等[76]将非均匀三维点云转化为均匀网格，并在每个网格上定义卷积核。提出的3D核函数将相同的权值分配给所有落在同一网格中的点。对于给定的点，位于同一网格上的所有相邻点的平均特征由上一层计算。然后，对所有网格的平均特征进行加权求和，得到当前层的输出。Lei等人[77]通过将一个三维球面邻近区域划分为多个体积箱，并将每个箱与一个可学习的权矩阵相关联，定义了一个球面卷积核。一个点的球面卷积核的输出是由其邻近点加权激活值的平均值的非线性激活决定的。在GeoConv[78]中，一个点与其邻近点之间的几何关系是基于六种基底显式建模的。沿基的每个方向的边缘特征由一个方向相关的可学习矩阵独立加权。然后根据给定点及其邻点形成的角度对这些方向相关的特征进行聚合。

对于给定点，其当前层的特征被定义为给定点与其相邻边缘上一层的特征之和。PointCNN[79]通过χ-conv变换(通过MLP实现)将输入点转换为潜在的和潜在的正则阶，然后对转换后的特征进行典型的卷积算子。Mao等[80]通过将点特征插值到相邻的离散卷积核权坐标上，提出了插值卷积算子InterpConv来度量输入点云与核权坐标之间的几何关系。Zhang等[81]提出了一种实现旋转不变性的RIConv算子，该算子以低级旋转不变性几何特征为输入，通过简单的分箱方法将卷积转化为一维。a - cnn[82]通过在查询点的每个环上围绕核大小对相邻数组进行循环来定义环形卷积，并学习局部子集内相邻点之间的关系。为了降低3D cnn的计算和存储成本，Kumawat等人[83]提出了一种基于3D短期傅里叶变换(STFT)在3D局部邻域中提取相位的校正局部相位体积(ReLPV)块，大大减少了参数的数量。在SFCNN[84]中，点云用对齐的球坐标投影到规则的二十面体晶格上。然后利用卷积-maxpooling-卷积结构对球面格顶点及其邻点的特征进行卷积。SFCNN可以抵抗旋转和扰动。

3.3.3 基于图的方法

基于图的网络将点云中的每个点视为图的一个顶点，并根据每个点的邻居为图生成有向边。然后在空间或光谱域中进行特征学习[85]。一个典型的基于图的网络如图5所示。

空间域的基于图的方法。这些方法定义了空间域的运算(如卷积和池化)。具体来说，通常通过空间邻域的MLP实现卷积，通过汇聚每个点邻域的信息生成新的粗化图。每个顶点的特征通常用坐标、激光强度或颜色来赋值，而每个边缘的特征通常用两个连通点之间的几何属性来赋值。Simonovsky等人[85]开创性地将每个点视为图的一个顶点，并通过一条有向边将每个顶点与它的所有邻居连接起来。然后，利用滤波器生成网络(如MLP)提出了edgconditionedconvolution (ECC)。采用Max pooling聚合邻域信息，基于V oxelGrid实现图的粗化[86]。在DGCNN[87]中，在特征空间中构造一个图，并在网络的每一层之后动态更新。作为EdgeConv的核心层，MLP作为每条边的特征学习函数，并对每个点的邻居所关联的边缘特征进行通道对称聚合。此外，lgcnn[88]去除变换网络，将DGCNN[87]中不同层的分层特征链接起来，以提高其性能，减小模型尺寸。我们还提出了一种端到端无监督深度AutoEncoder网络(即FoldingNet[89])，它使用向量化局部协方差矩阵和点坐标的拼接作为输入。受《盗梦空间》[90]和DGCNN[87]的启发，Hassani和Haley[91]提出了一种学习点和形状特征的无监督多任务自动编码器。该编码器基于多尺度图构造。利用聚类、自监督分类和重构三种无监督任务构造解码器，并结合多任务损耗进行训练。Liu等[92]提出了一种基于图卷积的动态点聚集模块(Dynamic Points Module, DPAM)，将点聚集(采样、分组、池化)过程简化为一个简单的步骤，通过将聚集矩阵与点特征矩阵相乘来实现。在PointNet体系结构的基础上，通过对多个DPAMs进行叠加，构建了层次学习体系结构。与PointNet++[54]的层次策略相比，DPAM动态地利用了语义空间中的点之间的关系，并将点聚集在一起。

为了利用局部几何结构，KCNet[93]基于核相关性学习特征。具体地说，一组表征局部结构几何类型的可学习点被定义为核。然后，计算核与给定点的邻域之间的亲和力。在G3D[94]中，将卷积定义为邻接矩阵多项式的一种变体，将池化定义为将拉普拉斯矩阵与顶点矩阵相乘得到一个粗化矩阵。ClusterNet[95]利用一种严格的旋转不变模块，从每个点的k个最近邻中提取旋转不变特征，并基于带逆向链接标准的无监督凝聚分层聚类方法构造点云的层次结构[96]。每个子集群中的特性首先通过EdgeConv块学习，然后通过max pooling聚合。为了解决当前数据构建方法(如FPS、邻居点查询等)耗时的问题，Xu等[97]提出融合基于体积和基于点的方法的优点，提高计算效率。在ModelNet分类任务上的实验表明，所提出的Grid-GCN网络的计算效率平均比其他模型快5倍。

基于图的谱域方法。这些方法将卷积定义为频谱滤波，其实现方式是将图上的信号与图拉普拉斯矩阵的特征向量相乘[98]，[99]。RGCNN[100]通过将每个点与点云中的所有其他点连接起来并进行更新图的每一层的拉普拉斯矩阵。为了使相邻顶点的特征更加相似，损失函数中加入了图信号平滑先验。为了解决数据图拓扑结构多样化带来的挑战，AGCN[101]中的SGC-LL层利用可学习的距离度量来参数化图上两个顶点之间的相似性。利用高斯核和学习到的距离对图的邻接矩阵进行归一化。HGNN[102]通过在超图上应用频谱卷积构建超边缘卷积层。

上述方法对全图进行操作。为了利用局部结构信息，Wang等人[103]提出了一种端到端的频谱卷积网络LocalSpecGCN，用于处理局部图(由k个最近邻构造而成)。该方法不需要对图拉普拉斯矩阵和图粗化层次结构进行离线计算。在PointGCN[104]中，图是基于点云中的k个最近邻构造的，每条边使用高斯核加权。卷积滤波器定义为图谱域的切比雪夫多项式。采用全局池化和多分辨率池化方法来捕获点云的全局和局部特征。Pan等人[105]通过对谱域的k个最近邻图进行卷积，提出了3DTI-Net。通过学习相对欧氏距离和方向距离来实现几何变换的不变性。

3.3.4 基于分层数据结构的方法

这些网络是基于不同的层次数据结构(如八叉树和kd-tree)构建的。在这些方法中，点特征是沿着树从叶子节点到根节点层次学习的。Lei等[77]提出了一种使用球面卷积核的八叉树引导CNN(如章节3.3.2所述)。网络的每一层对应八叉树的一层，每一层应用一个球面卷积核。当前层神经元的值确定为上一层所有相关子节点的均值。与基于八叉树的OctNet[49]不同，Kd-Net[106]使用在每次迭代中具有不同分裂方向的多个K-d树来构建。按照自底向上的方法，使用MLP从其子节点的表示中计算非叶节点的表示。根节点(描述整个点云)的特征最终被输入到全连接的层中，以预测分类分数。需要注意的是，Kd-Net根据节点的分裂类型共享各个级别的参数。3DContextNet[107]使用标准的平衡K-d树来实现特征学习和聚合。在每一层，点特征首先通过基于局部线索(模拟局部区域内点之间的相互依赖关系)和全局上下文线索(模拟一个位置相对于所有其他位置的关系)的MLP来学习。然后，使用MLP从子节点计算非叶节点的特征，并通过最大池聚合。对于分类，重复上述过程，直到达到根节点。

SO-Net网络的层次结构是通过执行点到节点的k个最近邻搜索来构建的[108]。具体地说，采用一种改进的置换不变自组织映射(SOM)来模拟点云的空间分布。通过一系列完全连通的层，从标准化的点到节点坐标中学习单个点的特征。SOM中每个节点的特征通过使用通道最大池从与该节点相关的点特征中提取。然后使用类似于PointNet[5]的方法从节点特性中学习最后一个特性。与PointNet++[54]相比，SOM的层次结构更加高效，并充分探讨了点云的空间分布。

3.3.5 其他方法

此外，还提出了许多其他方案。RBFNet[113]通过聚合稀疏分布的径向基函数(RBF)核的特征(RBF核的位置和大小可学习)，明确地模拟点的空间分布。3DPointCapsNet[112]使用逐点的MLP和卷积层学习点无关的特征，并使用多个max-pooling层提取全局潜在表示。基于无监督动态路由，学习了具有强大代表性的潜在胶囊。Qin等人[116]提出了一种用于三维点云表示的端到端无监督域自适应网络PointDAN。为了获取点云的语义属性，我们提出了一种自监督的方法来重构点云，这些点云的部分被随机地重新排列[117]。Li等[118]提出了一个自动增广框架PointAugment，用于自动优化和增广点云样本，用于网络训练。具体来说，每个输入样本的形状变换和点位移是自动学习的，网络通过交替优化和更新其增强器和分类器的可学习参数来训练。受形状上下文[119]的启发，Xie等人[109]提出了ShapeContextNet架构，将亲和点选择和紧凑特征聚合结合为使用点乘积自注意的软对齐操作[120]。为了处理3D点云中的噪声和遮挡，Bobkov等人[121]将手工制作的基于4D旋转不变描述符的点对函数输入到4D卷积神经网络中。Prokudin等人[122]首先从一个单位球随机采样一个均匀分布的基点集，然后将点云编码为到基点集的最小距离。因此，点云被转换为一个相对较小的固定长度的向量。编码后的表示可以用现有的机器学习方法进行处理。

RCNet[115]利用标准RNN和2D CNN构建了一个置换不变网络，用于三维点云处理。首先将点云划分为平行光束并沿着特定的尺寸进行排序，然后将每个光束送入共享的RNN。学习到的特征被进一步送入一个高效的2D CNN进行分层特征聚合。为了提高RCNet-E的描述能力，提出将多个rcnet沿不同的划分和排序方向进行集成。Point2Sequences[114]是另一种基于rnn的模型，它捕捉点云局部区域中不同区域之间的相关性。它将从局部区域学习到的多尺度特征视为序列，并将来自所有局部区域的这些序列输入到基于rnn的编码器-解码器结构中，以聚合局部区域特征。

一些方法也可以从3D点云和2D图像中学习。在PVNet[110]中，多视图图像提取的高级全局特征通过嵌入网络投影到点云的子空间中，并通过软注意掩模与点云特征融合。最后，融合特征与多视图特征采用残差连接进行形状识别。后来，进一步提出PVRNet[111]通过关系评分模块利用三维点云与其多视图之间的关系。基于关联得分，对原始二维全局视图特征进行点单视图融合和点多视图融合。

3.4 总结

ModelNet10/40[6]数据集是三维形状分类中最常用的数据集。表2显示了不同的基于点的网络的结果。可以得出以下几点观察结果:

表2:ModelNet10/40基准的3D形状分类结果比较。在这里，我们只关注基于点的网络。' #params '表示模型的参数数量，' OA '表示所有测试实例的平均精度，' mAcc '表示表中所有形状类的平均精度。符号“-”表示结果不可用。

• 点态MLP网络通常作为其他类型网络学习点态特征的基本构件。

• 作为一种标准的深度学习架构，基于卷积的网络可以在不规则的3D点云上实现卓越的性能。对于不规则数据，离散卷积网络和连续卷积网络都应给予更多的关注。

• 基于图的网络由于其固有的强大的处理不规则数据的能力，近年来受到越来越多的关注。然而，将基于谱域的图网络扩展到各种图结构仍然是一个挑战。

4、三维目标检测与跟踪

在本节中，我们将回顾现有的三维目标检测、三维目标跟踪和三维场景流估计方法。

4.1 三维目标检测

典型的三维物体检测器以场景的点云为输入，在每个被检测物体周围生成一个有方向的三维包围框，如图6所示。与图像中的目标检测方法相似[123]，三维目标检测方法可以分为两类:基于区域提议的方法和单镜头方法。图7给出了几个里程碑式的方法。

图6:三维物体检测示意图。(a)和(b)最初分别显示在[124]和[125]中

4.1.1 地区基于提案的方法

这些方法首先提出几个可能包含对象的区域(也称为建议)，然后提取区域特征以确定每个建议的类别标签。根据对象建议的生成方法，这些方法可以进一步分为三类:基于多视图的方法、基于分割的方法和基于fruid的方法。

基于多视图的方法。这些方法融合了来自不同视图地图(如LiDAR前视图、Bird 's Eye view (BEV)和图像)的建议方向特征，获得了三维旋转的方框，如图8(a)所示。这些方法的计算成本通常很高。Chen等人[4]从BEV图中生成一组高精度的3D候选框，并将其投影到多视图的特征图上(如LiDAR前视图图像、RGB图像)。然后他们结合这些来自不同视图的区域特征来预测有方向的3D包围框，如图8(a)所示。虽然这种方法在只有300个提案的情况下，在一个超过0.25个欠条的交叉口，召回率达到了99.1%，但它的速度对于实际应用来说太慢了。随后，从两个方面对多视图三维目标检测方法进行了改进。

首先，提出了几种有效融合不同模态信息的方法。为了生成对小对象具有高召回率的3D提案，Ku等[126]提出了一种基于多模态融合的区域提案网络。他们首先使用裁剪和调整大小的操作，从BEV和图像视图中提取等大小的特征，然后使用元素平均池法融合这些特征。Liang等人[127]利用连续卷积实现了不同分辨率下图像和3D LiDAR特征图的有效融合。具体来说，他们提取BEV空间中每个点最接近的对应图像特征，然后利用双线性插值，将图像特征投影到BEV平面，得到一个密集的BEV特征映射。实验结果表明，密集BEV特征映射比离散图像特征映射和稀疏LiDAR特征映射更适合于三维目标检测。Liang等人[128]提出了一种端到端训练的多任务多传感器三维目标检测网络。具体来说，多任务(例如，二维目标检测，地面估计和深度完成)被用来帮助网络学习更好的特征表示。进一步利用学习的跨模态表示产生高度精确的目标检测结果。实验结果表明，该方法在2D、3D和BEV检测任务上取得了显著的改进，在TOR4D基准上优于以往的最先进的方法[129]、[130]。

其次，研究了不同的方法来提取输入数据的鲁棒表示。Lu等人通过引入空间通道注意力(Spatial Channel Attention, SCA)模块探索了多尺度上下文信息，该模块捕获场景的全局和多尺度上下文，并突出有用的特征。他们还提出了扩展空间非样本(Extension Spatial Unsample, ESU)模块，通过结合多尺度的低层次特征，获取具有丰富空间信息的高级特征，从而生成可靠的三维目标建议。虽然可以实现更好的检测性能，但上述的多视图方法需要很长的运行时间，因为它们对每个提议执行特征池。随后，Zeng等[131]利用roi前的池卷积来提高[4]的效率。具体来说，他们将大部分卷积操作移到了RoI池化模块前面。因此，对所有对象建议执行一次RoI卷积。实验结果表明，该方法的运行速度为11.1 fps，比MV3D[4]快5倍。

有效方法。这些方法首先利用现有的语义分割技术去除大部分背景点，然后在前景点上生成大量高质量的提案以节省计算，如图8(b)所示。与多视图方法[4]、[126]、[131]相比，这些方法具有更高的对象召回率，更适用于物体高度遮挡和拥挤的复杂场景。

Yang等[132]利用二维分割网络预测前景像素，并将其投影到点云中，去除大部分背景点。然后，他们在预测的前景点上生成提案，并设计了一个名为PointsIoU的新标准，以减少提案的冗余和模糊性。在[132]之后，Shi等[133]提出了一个PointRCNN框架。

Yang等[132]利用二维分割网络预测前景像素，并将其投影到点云中，去除大部分背景点。然后，他们在预测的前景点上生成提案，并设计了一个名为PointsIoU的新标准，以减少提案的冗余和模糊性。在[132]之后，Shi等[133]提出了一个PointRCNN框架。具体来说，他们直接分割三维点云得到前景点，然后融合语义特征和局部空间特征来制作高质量的3D盒子。在区域提议网络(Region Proposal Network, RPN)阶段[133]之后，Jesus等人[134]提出了利用图卷积网络(Graph Convolution Network, GCN)进行三维目标检测的开创性工作。具体来说，引入了两个模块来使用图卷积细化对象建议。第一个模块R-GCN利用提案中包含的所有点来实现每个提案的特性聚合。第二个模块C-GCN融合来自所有提议的perframe信息，利用上下文回归精确的对象框。Sourabh等人[135]将一个点云投影到基于图像的分割网络的输出中，并将语义预测分数附加到这些点上。绘制的点被馈送到现有的探测器[133]、[136]、[137]，以实现显著的性能改进。Yang等人[138]将每个点与一个球形锚相关联。然后利用每个点的语义得分去除多余的锚点。因此，与以往的方法[132]、[133]相比，该方法的查全率更高，计算成本更低。此外，提出了PointsPool层来学习提议内部点的紧凑特征，并引入了并行IoU分支来提高定位精度和检测性能。

Frustum-based方法。这些方法首先利用现有的2D目标检测器生成目标的2D候选区域，然后为每个2D候选区域提取一个3D截锥建议，如图8(c)所示。虽然这些方法可以有效地提出三维物体的可能位置，但分步的流水线使得它们的性能受到2D图像检测器的限制。F-PointNets[139]是这一方向的开创性工作。它为每个2D区域生成一个截锥方案，并应用PointNet[5](或PointNet++[54])学习每个3D截锥的点云特征，进行模态3D盒估计。在后续的工作中，Zhao等人[140]提出了一个Point-SENet模块来预测一组缩放因子，进一步使用该模块自适应地突出有用的特征，抑制无信息的特征。他们还将PointSIFT[141]模块集成到网络中，捕捉点云的方向信息，对形状缩放具有很强的鲁棒性。与F-PointNets相比，该方法在室内和室外数据集[14]，[25]上都取得了显著的改进[139]。

其他方法。受轴向IoU在图像目标检测中的成功启发，Zhou等人[146]将两个三维旋转包围盒的IoU集成到几个最先进的检测器中[133]、[137]、[158]，以实现一致的性能改进。Chen等人[147]提出了一种两阶段网络架构，使用点云和体素表示。首先，点云被体素化，并被送入三维骨干网产生初始检测结果。其次，进一步利用初始预测的内部点特征进行箱形细化。虽然这个设计在概念上很简单，但它的性能达到[133]，同时保持16.7 fps的速度。Shi等[148]提出了PointV oxel-RCNN (PV-RCNN)，利用3D卷积网络和基于pointnet的集合抽象来学习点云特征。具体来说，首先将输入点云体素化，然后将其输入到3D稀疏卷积网络中，以生成高质量的建议。然后通过体素集抽象模块将学习到的体素特征编码成一个小的关键点集合。此外，他们还提出了一个关键点到网格的ROI抽象模块，以捕获丰富的上下文信息，以便对框进行细化。实验结果表明，该方法的性能明显优于以往的方法，在KITTI三维检测基准Car类中排名第一。

表3:在KITTI测试三维检测基准上的三维物体检测结果对比。3D包围盒IoU阈值汽车为0.7，行人和骑自行车者为0.5。模态分别为激光雷达(L)和图像(I)。“E”、“M”和“H”分别代表容易、中等和难分类的物体。为简单起见，我们省略了值后面的' % '。符号“-”表示结果不可用。

Qi等[124]受Hough基于投票的二维物体探测器的启发，提出了VoteNet，从点云中直接投票物体的虚拟中心点，并通过聚集投票特征生成一组高质量的三维物体提案。VoteNet显著优于以前只使用几何信息的方法，和实现在两个大型室内基准(即ScanNet[11]和SUN RGB-D[25])上的最先进的性能。但是，对于部分遮挡的物体，虚拟中心点的预测是不稳定的。此外，Feng等[149]增加了方向向量的辅助分支，提高了虚拟中心点和三维候选框的预测精度。此外，还建立了提案之间的三维对象-对象关系图，以强调用于准确对象检测的有用特征。Qi等人[150]提出了一种ImVoteNet检测器，将2D对象检测线索(如几何和语义/纹理线索)融合到3D投票管道中。Shi等[151]观察到三维物体的地面真值盒提供了物体内部零件的准确位置，受到启发，提出了Part-A2网络，该网络由部分感知阶段和部分聚合阶段组成。局部感知阶段采用类似unet[165]的稀疏卷积和稀疏反卷积网络，学习逐点特征，用于预测和粗生成对象内的局部位置。零件聚合阶段采用roi感知的池化方法对预测的零件位置进行聚合，实现框的细化。

图8:三类基于区域提议的三维目标检测方法的典型网络。从上到下:(a)基于多视图的，(b)基于分割的，(c)基于fruid的方法。

4.1.2 单发射击的方法

这些方法直接预测类概率，并使用单级网络回归对象的三维包围盒。它们不需要区域提案生成和后期处理。因此，它们可以以很高的速度奔跑。根据输入数据的类型，单镜头方法可以分为三类:基于bev的方法、基于离散化的方法和基于点的方法。

BEV-based方法。这些方法主要以BEV表示作为输入。Yang等[129]用等间距的单元对场景的点云进行离散，并以类似的方式对反射系数进行编码，从而得到一个规则的表示。然后利用全卷积网络(FCN)估计目标的位置和航向角。该方法在以28.6帧每秒的速度运行时，优于大多数单镜头方法(包括VeloFCN[154]、3D-FCN[155]和V ote3Deep[156])。后来，Yang等[152]利用高清地图提供的几何和语义先验信息来提高[129]的鲁棒性和检测性能。具体来说，他们从HD地图中获取地面点的坐标，然后利用相对于地面的距离进行BEV表示，以弥补道路坡度引起的平移方差。此外，他们将一个二进制道路掩模与BEV表示沿通道维度连接起来，以聚焦于移动物体。由于高清地图并不是无处不在，他们还提出了一个在线地图预测模块，从单个激光雷达点云估计地图先验。这种mapaware方法在TOR4D[129]，[130]和KITTI[14]数据集上显著优于其基线。但对不同密度点云的泛化性能较差。为了解决这个问题，Beltrán等[153]提出了一种考虑不同LiDAR传感器差异的归一化图。归一化映射是一个与BEV映射具有相同分辨率的2D网格，它对每个单元格中包含的最大点数进行编码。结果表明，这种归一化映射显著提高了基于bev的检测器的泛化能力。Discretization-based方法。这些方法将点云转换为规则的离散表示，然后应用CNN 预测对象的类别和3D盒子。Li等人[154]提出了第一种使用FCN进行三维目标检测的方法。他们将点云转换为2D点图，并使用2D FCN来预测物体的边界框和置信度。后来，他们[155]将点云离散为长、宽、高、通道维度的四维张量，并将基于fcn的二维检测技术扩展到三维领域，用于三维目标检测。与[154]相比，基于3D fcn的方法[155]在精度上获得了20%以上的增益，但由于3D卷积和数据的稀疏性，不可避免地会消耗更多的计算资源。为了解决体素的稀疏性问题，Engelcke等人[156]利用以特征为中心的投票方案，为每个非空体素生成一组选票，并通过累积选票获得卷积结果。它的计算复杂度与所占用体素的数量成正比。Li等[157]通过叠加多个稀疏的三维cnn构建三维骨干网。该方法充分利用了体素的稀疏性，节省了内存，加快了计算速度。该三维骨干网在不增加计算量的前提下，提取出丰富的三维特征用于目标检测。

Zhou等人[136]提出了一种基于体素的端到端可训练框架V oxelNet。他们将一个点云分割成等距的体素，并将每个体素内的特征编码成一个4D张量。然后连接区域提议网络以产生检测结果。虽然该方法性能较强，但由于体素的稀疏性和3D卷积，速度很慢。后来Yan等[158]利用稀疏卷积网络[166]提高了[136]的推理效率。他们还提出了一种正弦误差的角度损失来解决0和π方向的模糊。Sindagi等[159]在早期阶段通过融合图像和点云特征扩展了V oxelNet。具体来说，他们将[136]生成的非空体素投影到图像中，并使用一个预先训练的网络提取每个投影体素的图像特征。然后，这些图像特征与体素特征连接起来，产生精确的3D盒子。与[136]、[158]相比，该方法可以有效利用多模态信息，减少误报和误报。Lang等人[137]提出了一种名为PointPillars的3D物体检测器。此方法利用PointNet[5]来学习以垂直列(pillar)组织的点云的特征和编码学习到的特征作为一个伪图像。然后应用二维目标检测管道预测三维包围盒。在平均精度(AP)方面，PointPillars优于大多数融合方法(包括MV3D[4]、RoarNet[143]和A VOD[126])。此外，PointPillars可以在3D和BEV KITTI[14]基准上以62帧/秒的速度运行，使其非常适合实际应用。

He等人[160]观察到现有的单次发射探测器在逐步缩小的特征图中不可避免地会丢失点云的部分空间信息，受到启发，提出了SA-SSD探测器，利用细粒度的结构信息来提高定位精度。具体来说，他们首先将点云转换为张量，并将其输入骨干网以提取多级特征。此外，利用一个具有点级监督的辅助网络来引导特征来学习点云的结构。实验结果表明，SA-SSD在KITTI BEV检测基准Car类中排名前2位。

基于点的方法。这些方法直接将原始点云作为输入。3DSSD[161]是这个方向的先锋。在[133]中引入了距离- fps (D-FPS)和特征- fps (F-FPS)的融合采样策略，以去除耗时的特征传播(FP)层和细化模块。然后，利用候选生成(Candidate Generation, CG)层充分挖掘代表点，并将代表点送入带有3D中心标记的无锚回归头部，以预测3D对象盒。实验结果表明，3DSSD在保持25fps速度的情况下，性能优于两阶段基于点的PointRCNN方法[133]。

其他方法。Meyer等人[162]提出了一种名为LaserNet的高效三维物体检测器。该方法预测每个点的边界盒上的概率分布，然后结合这些逐点分布生成最终的3D物体盒。此外，采用点云的密集距离视图(Range View, RV)表示作为输入，并提出了一种快速均值漂移算法来降低逐点预测产生的噪声。LaserNet在0 - 50米范围内实现了最先进的性能，其运行时间明显低于现有的方法。Meyer等人[163]随后扩展了LaserNet[162]，利用RGB图像(如50 - 70米)提供的密集纹理。具体来说，他们通过将3D点云投影到2D图像上，将激光雷达点与图像像素关联起来，并利用这种关联将RGB信息融合到3D点中。他们还认为3D语义分割是学习更好的表示方法的辅助任务。该方法在保持LaserNet高效的同时，在50 ~ 70米的远距离目标检测和语义分割方面都取得了显著的进步。Chen等人[164]受到孤立物体上的点可以提供物体位置和方向的丰富信息的观察的启发，提出了一种新的Hotspot表示方法和第一个基于热点的无锚检测器。具体来说，原始点云首先被体素化，然后被送入骨干网生成3D特征地图。这些特征图被用来对热点进行分类，并同时预测三维边界盒。注意，热点分配在骨干网的最后一个卷积层。实验结果表明，该方法具有相当的性能，对稀疏点云具有较好的鲁棒性。施el。[125]提出了一种图神经网络point - gnn从激光雷达点云中检测三维物体。他们首先将一个输入点云编码为一个具有固定半径的邻近点的图形，然后将该图形输入到point - gnn中，以预测物体的类别和盒子。

4.2 三维目标跟踪

给定目标在第一帧中的位置，目标跟踪的任务是估计其在随后帧中的状态[167]，[168]。由于三维目标跟踪可以利用点云中丰富的几何信息，因此有望克服基于图像的跟踪所面临的遮挡、光照和尺度变化等缺陷。Giancola等人[170]受Siamese网络[169]在基于图像的目标跟踪方面的成功启发，提出了一种具有形状补全正则化的三维Siamese网络。具体来说，他们首先使用卡尔曼滤波器生成候选，然后使用形状正则化将模型和候选编码成一个紧凑的表示。然后利用余弦相似度在下一帧中搜索被跟踪对象的位置。该方法可以作为目标跟踪的替代方法，其性能明显优于大多数2D目标跟踪方法，包括STAPLECA[171]和SiamFC[169]。为了有效地搜索目标对象，Zarzar等人[172]利用二维Siamese网络在BEV表示上生成大量粗目标候选对象。然后，他们利用三维暹罗网络中的余弦相似度来细化候选对象。该方法在精度(即18%)和成功率(即12%)方面都显著优于[170]。Simon等人[173]提出了一种针对语义点云的三维目标检测和跟踪体系结构。他们首先融合二维视觉语义信息生成体素化语义点云，然后利用时间信息提高多目标跟踪的准确性和鲁棒性。此外，他们还引入了一种强大而简化的评估指标(即尺度旋转翻译分数(SRFs))来加速训练和推理。complexyolo实现了很有前途的跟踪性能，并且仍然可以实时运行。进一步，Qi等[174]提出了一种点对盒(Point-to-Box, P2B)网络。他们将模板和搜索区域植入主干以获得种子。在搜索区域种子中加入目标特定的特征，然后通过Hough投票回归潜在的目标中心。实验结果表明，在以40帧/秒的速度运行时，P2B的性能优于[170]10%以上。

4.3 3D场景流估计

给定两个点云X和Y, 3D场景流D = {di}N描述了X中每个点xi到Y中相应位置x0i的移动，使x0i = xi + di。图9显示了两个KITTI点云之间的3D场景流。类似于二维视觉中的光流估计，已经有几种方法开始从点云序列中学习有用的信息(如三维场景流、空间-临时信息)。

表4:KITTI测试BEV检测基准上三维物体检测结果对比。3D包围盒IoU阈值汽车为0.7，行人和骑自行车者为0.5。模态分别为激光雷达(L)和图像(I)。“E”、“M”和“H”分别代表容易、中等和难分类的物体。为简单起见，我们省略了值后面的' % '。符号“-”表示结果不可用。

图9:两个KITTI点云之间的3D场景流，最初显示在[175]。X、Y点云和X的平移点云分别用红色、绿色和蓝色高亮显示

Liu等人[175]提出了FlowNet3D，直接从一对连续的点云中学习场景流。FlowNet3D通过流嵌入层学习点级特征和运动特征。然而，FlowNet3D有两个问题。首先，一些预测的运动矢量在其方向上与地面的实际情况有很大的不同。其次，FlowNet难以应用于非静态场景，特别是以可变形物体为主的场景。为了解决这个问题，Wang等人[176]引入了余弦距离损失，以最小化预测与地面真相之间的角度。此外，他们还提出了点对面距离损失，以提高刚性和动态场景的精度。实验结果表明，这两项损失将FlowNet3D的准确率从57.85%提高到63.43%，训练过程加快、稳定。Gu等人[177]提出了一种分层Permutohedral Lattice FlowNet (HPLFlowNet)，可以直接从大规模点云中估计场景流。提出了几个双边卷积层来恢复原始点云的结构信息，同时降低了计算成本。

为了有效地处理顺序点云，Fan和Yang[178]提出了PointRNN、PointGRU和PointLSTM网络和一种跟踪运动点的序列-序列模型。PointRNN、PointGRU和PointLSTM能够捕获空间临时信息和模型动态点云。类似地，Liu等人[179]提出了MeteorNet，直接从动态点云中学习表示。该方法学习从时空相邻点中收集信息。进一步引入直接分组和链流分组来确定时间邻域。然而，上述方法的性能受到数据集规模的限制。Mittal等人[180]提出了两种自我监督损失，在大型未标记数据集上训练他们的网络。他们的主要思想是，一个鲁棒的场景流估计方法应该在正向和反向预测都是有效的。由于场景流标注的不可用性，预测变换点的最近邻被认为是伪地面真值。然而，真实的地面真相可能与最近的点不一样。为了避免这个问题，他们计算了反向的场景流，并提出了一个循环一致性损失来平移点到原始位置。实验结果表明，该自监督方法的性能超过了目前基于监督学习的方法。

4.4 总结

KITTI[14]基准是自动驾驶领域最具影响力的数据集之一，在学术界和工业界都得到了广泛的应用。表3和表4给出了不同探测器在KITTI测试3D基准上的结果。可以提出以下几点意见:

• 在这两类方法中，基于区域提议的方法是最常被研究的方法，并且在KITTI测试3D和BEV基准上都大大优于单镜头方法。

• 现有的3D物体检测器有两个限制。首先，现有方法的远程探测能力相对较差。其次，如何充分利用图像中的纹理信息仍然是一个有待解决的问题。

• 多任务学习是未来三维目标检测的发展方向。例如，MMF[128]学习跨模态表示，通过合并多个任务来实现最先进的检测性能。

• 3D目标跟踪和场景流估计是新兴的研究课题，自2019年以来逐渐受到越来越多的关注。

5、三维点云分割

三维点云分割既需要了解全局的几何结构，又需要了解每个点的细粒度细节。根据分割粒度，三维点云分割方法可分为三大类:语义分割(场景级)、实例分割(对象级)和部分分割(部分级)。

5.1 3D语义分割

对于给定的点云，语义分割的目标是根据点的语义意义将其分割成多个子集。与3D形状分类的分类法类似(第3节)，语义分割有四种范式:基于投影的、基于离散的、基于点的和混合的方法。投影和discretizationbased方法的第一步是将点云一个中间正则表示,如多视点[181],[182],球形[183],[184],[185],[166],[186],[187],permutohedral晶格[188],[189],[190]和混合表示,[191],见图11。然后将中间分割结果投影回原始点云。相反，基于点的方法直接处理不规则点云。几种具有代表性的方法如图10所示。

图10:最相关的基于深度学习的3D语义分割方法的时间综述。

5.1.1 基于投影的方法

这些方法通常将三维点云投影成二维图像，包括多视图图像和球形图像。

多视点表示。Lawin等人[181]首先从多个虚拟摄像机视图将3D点云投影到2D平面上。然后，使用一个多流FCN来预测合成图像的像素级评分。通过对不同视图的重新投影分数进行融合，得到每个点的最终语义标签。类似地，Boulch等人[182]首先使用多个摄像机位置生成了点云的几个RGB和深度快照。然后，他们使用2D分割网络对这些快照进行像素标记。利用残差校正进一步融合RGB和深度图像预测的分数[192]。基于从局部欧几里德曲面上采样点云的假设，Tatarchenko等人[193]引入了用于稠密点云分割的切线卷积。该方法首先将每个点周围的局部曲面几何投影到一个虚拟切平面上。然后切线卷积直接在表面几何上操作。该方法具有良好的可扩展性，能够处理具有数百万个点的大规模点云。总的来说，多视图分割方法的性能对视点选择和遮挡非常敏感。此外，由于投影步骤不可避免地会带来信息损失，这些方法并没有充分利用其内在的几何和结构信息。

球形表示。为了实现对三维点云的快速准确分割，Wu等[183]提出了一种基于SqueezeNet[194]和条件随机场(Conditional Random Field, CRF)的端到端网络。为了进一步提高分割精度，本文引入了SqueezeSegV2[184]，利用无监督域自适应管道来处理域漂移。Milioto等[185]提出了对LiDAR点云进行实时语义分割的RangeNet++算法。该算法首先将二维范围图像的语义标签转移到三维点云中，然后采用基于knn的后处理步骤，有效地解决了离散化误差和推理输出模糊的问题。与单视点投影相比，球面投影保留了更多的信息，适用于激光雷达点云的标记。然而，这个中间表示不可避免地会带来一些问题，如离散误差和遮挡。

5.1.2 基于离散的方法

这些方法通常将点云转换为稠密/稀疏的离散表示，如体积和稀疏置换面格。

密集的离散化表示 。早期的方法通常将点云体素化为密集的网格，然后利用标准的3D卷积。Huang等人[195]首先将点云分割成一组占用体素，然后将这些中间数据输入全3d CNN进行体素分割。最后，体素中的所有点都被赋予与体素相同的语义标签。该方法的性能受到体素粒度和点云分割引起的边界伪影的严重限制。进一步，Tchapmi等[196]提出了SEGCloud来实现细粒度和全局一致的语义分割。该方法引入了一种确定的三线性插值，将3D-FCNN[197]生成的粗体素预测映射回点云，然后使用全连接CRF (FCCRF)强制这些推断的点标签的空间一致性。孟等[186]引入了一种基于核的插值变分自动编码器体系结构，对每个体素内的局部几何结构进行编码。rbf用于每个体素，而不是二进制占用表示，以获得连续表示并捕获每个体素中点的分布。V AE进一步用于将每个体素内的点分布映射到紧潜空间。然后，利用对称群和等价CNN实现鲁棒特征学习。由于3D CNN具有良好的可扩展性，基于体积的网络可以在不同空间大小的点云上自由训练和测试。在全卷积点网络(full - convolutional Point Network, FCPN)[187]中，首先从点云中分层抽象出不同层次的几何关系，然后利用3D卷积和加权平均池化来提取特征并纳入长期依赖关系。该方法可以处理大规模点云，在推理过程中具有良好的可扩展性。Dai等[198]提出了ScanComplete来实现3D扫描完成和逐体素语义标注。该方法利用了全卷积神经网络的可扩展性，在训练和测试过程中可以适应不同的输入数据大小。采用由粗到细的策略分层提高预测结果的分辨率。

总体而言，体表示自然地保留了三维点云的邻域结构。它的常规数据格式也允许直接应用标准的3D卷积。这些因素导致了该领域的稳定性能改进。然而，体素化步骤固有地引入了离散伪影和信息丢失。通常，高分辨率会导致较高的内存和计算成本，而低分辨率会导致细节的丢失。在实践中，选择合适的网格分辨率是非常有意义的。

稀疏的离散化表示。体积表示自然是稀疏的，因为非零值的数量只占很小的百分比。因此，将密集卷积神经网络应用于空间稀疏的数据是低效的。为此，Graham等[166]提出了基于索引结构的子流形稀疏卷积网络。这种方法通过限制卷积的输出只与已占用体素相关，大大降低了内存和计算成本。与此同时,它的稀疏卷积也可以控制提取特征的稀疏性。该子流形稀疏卷积适用于高维空间稀疏数据的高效处理。此外，Choy等人[199]提出了一种4D时空卷积神经网络，称为MinkowskiNet，用于3D视频感知。为了有效地处理高维数据，提出了一种广义稀疏卷积算法。进一步应用一个三边平稳条件随机场来增强一致性。另一方面，Su等[188]提出了基于双边卷积层(Bilateral Convolution layer, BCLs)的稀疏格网(Sparse Lattice Networks, SPLATNet)。该方法首先将一个原始点云插值到一个置换稀疏晶格中，然后应用BCL对稀疏晶格中已占据的部分进行卷积。然后过滤后的输出被插值回原始点云。此外，该方法可以对多视角图像和点云进行灵活的联合处理。进一步，Rosu等[189]提出了LatticeNet来实现对大点云的高效处理。还引入了一个名为DeformsSlice的数据依赖插值模块，将网格特性反向投影到点云上。

5.1.3 混合的方法

为了进一步利用所有可用的信息，已经提出了几种方法来从3D扫描中学习多模态特征。Dai和nies ßner[190]提出了一种结合RGB特征和几何特征的联合3D-multiview网络。利用一个3D CNN流和多个2D流提取特征，并提出一个可微的背投影层，将学习到的2D嵌入与3D几何特征联合融合。此外，Chiang等人[200]提出了一个统一的基于点的框架，从点云中学习二维纹理外观、三维结构和全局上下文特征。该方法直接应用基于点的网络，在不进行体素化的情况下，从稀疏采样的点集中提取局部几何特征和全局上下文。Jaritz等[191]提出了多视图点网(Multi-view PointNet, MVPNet)来聚合二维多视图图像的外观特征和正则点云空间中的空间几何特征。

5.1.4 基于点的方法

基于点的网络直接作用于不规则的点云。但是，点云是无序的、非结构化的，直接应用标准的cnn是不可行的。为此，提出了PointNet[5]的开创性工作，使用共享的mlp学习点特征，使用对称池函数学习全局特征。在PointNet的基础上，最近出现了一系列基于点的网络。总的来说，这些方法可以大致分为逐点的MLP方法、点卷积方法、基于rnn的方法和基于图的方法。

点态MLP方法。这些方法由于效率高，通常采用共享的MLP作为网络的基本单元。然而，共享MLP提取的逐点特征不能捕捉点云中的局部几何特征以及点与点之间的相互作用。为了为每个点捕获更广泛的上下文并学习更丰富的局部结构，引入了几种专用网络，包括基于邻近特征池的方法、基于注意的聚合方法和局部-全局特征连接方法。

相邻特征池:为了捕获局部几何模式，这些方法通过聚合局部相邻点的信息来学习每个点的一个特征。特别地，PointNet++[54]将点分层分组，并从更大的局部区域逐步学习，如图12(a)所示。为克服点云不均匀性和密度变化带来的问题，提出了多尺度分组和多分辨率分组方法。后来，Jiang等[141]提出了pointtsift模块来实现方向编码和尺度感知。这个模块通过一个三级有序卷积堆栈和编码来自八个空间方向的信息。将多尺度特征串联起来，实现对不同尺度的自适应。与PointNet++(即球查询)中使用的分组技术不同，Engelmann等[204]利用K-means聚类和KNN分别定义世界空间和特征空间中的两个邻域。在假设来自同一类的点在特征空间上更接近的基础上，引入了一对距离损失和质心损失来进一步正则化特征学习。为了对不同点之间的相互作用进行建模，Zhao等人[57]提出了PointWeb，通过密集构建一个局部全链接网络，来探索局部区域内所有点对之间的关系。提出了一种自适应特征调整(AFA)模块来实现信息交换和特征细化。这种聚合操作有助于网络学习有区别的特征表示。Zhang等人[205]基于同心球壳的统计，提出了一种称为Shellconv的置换不变卷积。该方法首先查询一组多尺度同心球，然后在不同的壳层中使用最大池运算对统计数据进行汇总，利用MLPs和1D卷积得到最终的卷积输出。Hu等人[206]提出了一种高效、轻量级的网络RandLA-Net，用于大规模点云分割。该网络利用随机点采样，在内存和计算方面实现了非常高的效率。进一步提出了局部特征聚合模块来捕获和保存几何特征。

基于注意的聚合:为了进一步提高分割精度，在点云分割中引入了注意机制[120]。Yang等人[56]提出了一种组洗牌注意力来建模点之间的关系，并提出了一种置换不变、任务不确定和可微分的Gumbel子集抽样(GSS)来替代广泛使用的FPS方法。该模块对异常值不太敏感，可以选择一个具有代表性的点子集。为了更好地捕捉点云的空间分布，Chen等[207]提出了一种局部空间感知(Local spatial Aware, LSA)层，该层基于点云的空间布局和局部结构来学习空间感知权值。与CRF类似，Zhao等人[208]提出了一种基于Attention-based Score refine (ASR)模块，对网络产生的分割结果进行后处理。通过将相邻点的分数与学习到的注意力权重进行池化，对初始分割结果进行细化。该模块可以很容易地集成到现有的深度网络中，以提高分割性能。

局部-全局连接:Zhao等人[112]提出了一种置换不变的PS2-Net，将点云的局部结构和全局上下文结合起来。Edgeconv[87]和NetVLAD[209]被反复叠加，以捕捉局部信息和场景级全局特征。
点卷积方法。这些方法倾向于提出有效的点云卷积算子。Hua等人[76]提出了逐点卷积算子，将相邻的点分入核单元，然后与核权值进行卷积。如图12(b)所示，Wang等[201]提出了一种基于参数连续卷积层的网络PCCN。该层的核函数由线性多谱线(MLPs)参数化，并跨越连续向量空间。Thomas等人[65]提出了一种基于核点卷积(Kernel Point Convolution, KPConv)的核点全卷积网络(Kernel Point full Convolutional Network, KP-FCNN)。具体来说，KPConv的卷积权值由到核点的欧氏距离决定，核点的个数不固定。将核点的位置表述为球面空间最佳覆盖的优化问题。注意，使用半径邻域保持一致的接受域，而在每一层使用网格子采样，以实现在点云密度变化下的高鲁棒性。在[211]中，Engelmann等人提供了丰富的消融实验和可视化结果来显示接受场对基于聚集的方法性能的影响。他们还提出了一种扩张点卷积(Dilated Point Convolution, DPC)操作来聚合扩张的近邻特征，而不是K个近邻。该操作被证明在增加接收域方面非常有效，并且可以很容易地集成到现有的基于聚合的网络中。

RNN-based方法。为了从点云中捕获固有的上下文特征，循环神经网络(RNN)也被用于点云的语义分割。Engelmann等[213]基于PointNet[5]，首先将点块转换成多尺度块和网格块，获得输入级上下文。然后，将PointNet提取的分块特征依次输入到合并单元(Consolidation Units, CU)或循环合并单元(Recurrent Consolidation Units, RCU)中，获得输出级上下文。实验结果表明，结合空间背景对提高分割性能具有重要意义。Huang等[212]提出了一种轻量级的局部依赖建模模块，利用片池层将无序的点特征集转换为有序的特征向量序列。如图12(c)所示，Ye等[202]首先提出了点态金字塔池(point - twise Pyramid Pooling, 3P)模块来捕获由粗到细的局部结构，然后利用双向层次RNNs进一步获得长程空间依赖关系。然后应用RNN实现端到端学习。然而，这些方法在用全局结构特征聚合局部邻域特征时，失去了点云丰富的几何特征和密度分布[220]。为了缓解刚性和静态的池化操作带来的问题，Zhao等[220]提出了一种既考虑全局场景复杂性又考虑局部几何特征的动态汇聚网络(Dynamic Aggregation Network, DARNet)。使用自适应的接收字段和节点权值动态聚合中间媒介特性。Liu等[221]提出了3DCNN-DQN-RNN用于大规模点云的高效语义解析。该网络首先使用3D CNN网络学习空间分布和颜色特征，然后使用DQN对属于特定类的对象进行定位。将拼接后的最终特征向量输入残差RNN，得到最终的分割结果。

图论方法。为了捕捉三维点云的基本形状和几何结构，有几种方法借助于图形网络。如图12(d)所示，Landrieu等人[203]将点云表示为一组相互连接的简单形状和上点集合，并使用具有属性的有向图(即上点图)来捕获结构和上下文信息。然后，将大规模点云分割问题分解为几何同构分割、上点嵌入和上下文分割三个子问题。为了进一步改进划分步骤，Landrieu和Boussaha[214]提出了一种监督框架，将点云超分割为纯超点。这个问题被表述为一个由邻接图构成的深度度量学习问题。此外，我们还提出了一种图形结构的对比损耗来帮助识别物体之间的边界。

为了更好地捕捉高维空间中的局部几何关系，Kang等[222]提出了一种基于图嵌入模块(GEM)和金字塔注意网络(PAN)的金字塔网。GEM模块将点云定义为有向无环图，并利用协方差矩阵代替欧氏距离来构造相邻相似矩阵。在PAN模块中使用四种不同大小的卷积核提取不同语义强度的特征。在[215]中，图注意力卷积(Graph Attention Convolution, GAC)被提出，可以有选择地从局部邻集学习相关特征。该操作是根据不同的邻点和特征通道的空间位置和特征差异，动态地分配注意权值来实现的。GAC可以学习捕捉判别特征进行分割，与常用的CRF模型具有相似的特点。Ma等人[223]提出了一种点全局上下文推理(Point Global Context Reasoning, PointGCR)模块，以沿着通道维捕获全局上下文信息使用无向图表示。PointGCR是一个即插即用和端到端可培训的模块。它可以很容易地集成到现有的分割网络，以实现性能改进。此外，最近的一些工作试图在弱监督下实现点云的语义分割。Wei等人[224]提出了一种两阶段方法来训练具有云下级标签的分割网络。Xu等人[225]研究了几种不精确的点云语义分割监督方案。他们还提出了一种可以只使用部分标记点(如10%)进行训练的网络。

5.2 实例分割

与语义分割相比，实例分割对点的推理要求更精确、粒度更细，具有更大的挑战性。特别是，它不仅需要区分语义不同的点，还需要区分语义相同的实例。总的来说，现有的方法可以分为两类:基于提案的方法和无提案的方法。几个里程碑式的方法如图13所示。

表5:S3DIS(包括Area5和6倍交叉验证)[10]、Semantic3D(包括semantic-8和reduced-8子集)[12]、ScanNet[11]和SemanticKITTI[15]数据集上的语义分割结果比较。总体精度(OA)、平均相交于联合(mIoU)是主要的评价指标。为简单起见，我们省略了值后面的' % '。符号“-”表示结果不可用。

5.2.1 基于提案的方法

这些方法将实例分割问题转化为两个子任务:三维目标检测和实例掩码预测。Hou等人[226]提出了一种3D全卷积语义实例分割(3D- sis)网络来实现RGB-D扫描上的语义实例分割。这个网络学习颜色和几何特征。与3D目标检测类似，3D区域提议网络(3DRPN)和3D感兴趣区域(3D- roi)层用于预测边界盒位置，对象类标签和实例的面具。根据综合分析策略，Yi等人[227]提出了生成形状提案网络(GSPN)来生成高对象度的3D提案。基于区域的点网(R-PointNet)进一步完善了这些提议。最终的标签是通过预测每个类标签的逐点二进制掩码获得的。与从点云直接回归三维边界盒不同，该方法通过加强几何理解，消除了大量无意义的建议。

Narita等[228]将二维全景分割扩展到三维映射，提出了一种在线立体映射系统，联合实现大规模三维重建、语义标注和实例分割。他们首先利用二维语义和实例分割网络来获取像素级全景图标签，然后将这些标签集成到体积地图中。进一步使用全连接的CRF实现精确分割。该语义映射系统可以实现高质量的语义映射和判别对象识别。Yang等[229]提出了一种单级、无锚、端到端可训练的网络3D-BoNet来实现点云上的实例分割。该方法直接对所有潜在实例进行粗略的三维边界框回归，然后利用点级二进制分类器获取实例标签。特别地，将包围盒生成任务表述为一个最优分配问题。此外，还提出了一个多准则损失函数来正则化生成的包围盒。该方法不需要任何后期处理，计算效率高。Zhang等[230]提出了一种用于大规模户外激光雷达点云实例分割的网络。该方法使用自注意块学习点云鸟瞰图上的特征表示。最终的实例标号是根据预测的水平中心和高度限制得到的。Shi等人[231]提出了一种分层感知的变分降噪递归自动编码器(VDRAE)来预测室内3D空间的布局。对象建议是通过递归上下文聚合和传播迭代地生成和改进的。

总体而言，基于提案的方法[226]、[227]、[229]、[232]直观直观，实例分割结果通常具有较好的对象性。然而，这些方法需要多阶段的训练和删除多余的建议。因此，它们通常是耗时和计算成本高的。

5.2.2 无提案的方法

无提案方法[233]、[234]、[235]、[236]、[237]、[238]、[239]、[240]没有对象检测模块。相反，他们通常认为实例分割是语义分割之后的后续聚类步骤。特别是，大多数现有的方法都基于属于同一实例的点应该具有非常相似的特征的假设。因此，这些方法主要侧重于识别特征学习和点分组。

在一项开创性的工作中，Wang等人[233]首先引入了相似群提议网络(SGPN)。该方法首先学习每个点的特征和语义映射，然后引入相似度矩阵来表示每对特征之间的相似度。为了学习更有鉴别性的特征，他们使用双铰链损失来相互调整相似度矩阵和语义分割结果。最后，采用启发式非极大抑制方法将相似点合并到实例中。由于构造相似矩阵需要大量的内存消耗，这种方法的可扩展性受到限制。类似地，Liu等人[237]首先利用子流形稀疏卷积[166]预测每个体素的语义得分和相邻体素之间的亲和度。然后，他们引入了一种聚类算法，根据预测的亲和和网格拓扑将点分组到实例中。Mo等[241]在PartNet中引入了一个通过分割检测的网络来实现实例分割。使用PointNet++作为主干来预测每个点的语义标签和不相连的实例掩码。此外，Liang等人[238]提出了一种区分嵌入学习的结构感知损失。这种损失考虑了特征的相似性和点之间的几何关系。在此基础上，提出了一种基于注意的图形CNN，通过聚合邻居的不同信息，自适应地细化学习到的特征。

由于点的语义类别和实例标签通常相互依赖，因此提出了几种方法将这两个任务耦合成一个任务。Wang等人[234]通过引入端到端可学习的实例和语义关联分割(ASIS)模块，整合了这两个任务。实验表明，该模块可以实现语义特征和实例特征的相互支持，从而提高系统的性能。同样，Zhao等人[242]提出了JSNet来实现语义和实例分割。此外，Pham等人[235]首先引入了一种多任务点智能网络(MT-PNet)，为每个点分配一个标签，并通过引入区别性损失将嵌入特征空间中正则化[243]。然后将预测的语义标签和嵌入信息融合到多值条件随机场模型中进行联合优化。最后，利用平均场变分推理生成语义标签和实例标签。Hu等[244]首先提出了一种动态区域增长(Dynamic Region Growing, DRG)方法，将一个点云动态地分割成一组不相关联的patch，然后使用无监督的Kmeans++算法对这些patch进行分组。然后在patch之间上下文信息的指导下进行多尺度patch分割。最后，将这些标记的补丁合并到对象级，得到最终的语义和实例标签。

为了在全三维场景上实现实例分割，Elich等人[236]提出了一种混合的2D-3D网络，该网络可以从点云的BEV表示和局部几何特征中共同学习全局一致的实例特征。然后将学习到的特征结合起来实现语义和实例分割。注意，与启发式groupmerge算法[233]不同，使用了一种更灵活的Meanshift[245]算法来将这些点分组到实例中。另外，多任务学习也被引入例如分割。Lahoud等[246]学习了每个实例的独特特征嵌入和方向信息来估计目标的中心。提出了特征嵌入损耗和方向性损耗，在潜在特征空间中调整学习后的特征嵌入。均值漂移聚类和非最大抑制用于将体素分组到实例中。该方法在ScanNet[11]基准测试上实现了最先进的性能。此外，预测的方向信息对于确定实例的边界特别有用。Zhang等[247]将概率嵌入引入到点云实例分割中。该方法还引入了不确定性估计，并为聚类步骤提出了一个新的损失函数。Jiang等[240]提出了一个PointGroup网络，该网络由语义分割分支和偏移量预测分支组成。进一步利用双集聚类算法和ScoreNet实现更好的分组结果。

综上所述，无提案方法不需要昂贵的区域提案组件。然而，由这些方法分组的实例段的对象性通常很低，因为这些方法不明确地检测对象边界。

5.3 部分分割

三维形状零件分割的困难有两个方面。首先，具有相同语义标签的形状零件具有较大的几何变异和歧义。第二，具有相同语义的物体中零件的数量可能不同。

VoxSegNet[248]是为了在有限的解决方案下对三维体素化数据实现细粒度的局部分割而提出的。提出了一种空间密集提取模块(SDE)，该模块由多层的非均匀残块组成，用于从稀疏体数据中提取多尺度判别特征。通过逐步应用注意力特征聚合(AFA)模块，进一步对学习到的特征进行加权和融合。Kalogerakis等[249]将fcs与基于表面的crf相结合，实现端到端三维零件分割。他们首先从多个视图生成图像，以实现最佳的表面覆盖，并将这些图像输入一个2D网络，以生成置信度图。然后，这些置信度映射被基于表面的CRF聚合，该CRF负责对整个场景进行一致的标记。Yi等[250]引入了同步光谱CNN (SyncSpecCNN)对不规则和非同构形状图进行卷积。为了解决零件多尺度分析和形状信息共享问题，提出了一种扩展卷积核的光谱参数化和光谱变压器网络。

Wang等[251]首次在三维网格上进行形状分割，引入了形状全卷积网络(shape full Convolutional Networks, SFCN)，并以三种低级的几何特征作为输入。然后，他们利用基于投票的多标签图切割来进一步细化分割结果。Zhu等人[252]提出了一种用于3D形状共分割的弱监督CoSegNet。该网络以一组未分割的三维点云形状作为输入，通过迭代最小化组一致性损失来生成形状部件标签。与CRF相似，我们也提出了一种预训练的零件细化网络来进一步细化和降噪零件建议。Chen等人[253]提出了一种分支自动编码器网络(branch - ched AutoEncoder network, bee - net)，可用于无监督、单发和弱监督的三维形状共分割。该方法将形状共分割任务定义为一个表示学习问题，目标是通过最小化形状重建损失来寻找最简单的零件表示。基于编码器-解码器体系结构，该网络的每个分支可以学习特定零件形状的紧凑表示。然后将从每个分支和点坐标学习到的特征输入到解码器，以产生一个二进制值(表示该点是否属于该部分)。该方法具有良好的泛化能力，能够处理大型三维形状集合(最多5000个形状)。但该方法对初始参数敏感，且没有将形状语义引入到网络中，因此在每次迭代中难以获得鲁棒稳定的估计。Yu等[254]提出了一种自顶向下递归零件分解网络(PartNet)用于分层形状分割。与现有的将形状分割为固定标记集的方法不同，该网络将部分分割问题定义为级联二值标记问题，并根据几何结构将输入点云分解为任意数量的部分。Luo等[255]提出了一种基于学习的分组框架，用于零镜头3D零件分割任务。为了提高跨类别泛化能力，该方法倾向于学习一个分组策略，该策略限制网络在局部上下文中学习部件级特征。

5.4 总结

表5显示了现有方法在公共基准测试上的结果，包括S3DIS[10]、Semantic3D[12]、ScanNet[39]和SemanticKITTI[15]。以下问题需要进一步研究:

•基于常规的数据表示，基于投影的方法和基于离散的方法都可以利用2D图像的成熟网络架构。然而，基于投影的方法的主要局限性在于3D-2D投影造成的信息丢失，而基于离散化的方法的主要瓶颈在于分辨率提高导致的计算和存储成本的立方级增加。为此，建立在索引结构基础上的稀疏卷积是一种可行的解决方案，值得进一步探索。

•基于点的网络是最常用的调查方法。然而，点表示自然没有明确的邻居信息，现有的基于点的方法大多采用昂贵的邻居搜索机制(如KNN[79]或球查询[54])。这在本质上限制了这些方法的效率，最近提出的点体素联合表示[256]将是一个值得进一步研究的有趣方向。

•从不平衡数据中学习仍然是点云分割中一个具有挑战性的问题。虽然有几种方法[65]、[203]、[205]在总体上取得了显著的成绩，但在少数类上的表现仍然有限。例如，RandLA-Net[206]在Semantic3D的reduced-8子集上获得了76.0%的总体借据，但在hardscape类上获得了41.1%的非常低的借据。

•现有的大多数方法[5]，[54]，[79]，[205]，[207]都是针对小点云的(例如，1m×1m有4096个点)。在实际应用中，深度传感器获取的点云通常是巨大而大规模的。因此，有必要进一步研究大规模点云的高效分割问题。

•少数研究[178]、[179]、[199]已经开始从动态点云中学习时空信息。这些时空信息有望有助于提高后续任务的性能，如三维物体识别、分割和补全。