【深度学习】激光雷达分割与测距SOTA算法！已开源！

1.摘要

自动驾驶中，激光雷达的分割和测距是非常重要的任务。然而，这些任务面临着点云中不同语义类别的不平衡和动态物体的干扰，这就需要用到具有代表性或显著性的地标点来进行鲁棒的特征学习。为了应对这些挑战并提升实时自动驾驶车辆的性能，我们提出了一种基于注意力机制的分割和测距方法。与图像领域不同，由于缺乏标注数据，点云显著性信息的研究很少。

为了解决这个问题，我们首先提出了一种通用的框架，利用图像到点云的显著性分布知识迁移，基于该框架构建了一个点云伪显著性数据集（即FordSaliency）。然后，我们采用点云为输入的backbone来学习从伪显著性标签中获取的显著性分布知识。其次，我们提出了SalLiDAR模块，这是一个结合了显著性信息来提高分割效果的基于显著性的三维语义分割方法。

最后，我们提出了SalLONet，这是一个自监督的结合了显著性和语义信息来改善测距效果的激光雷达测距网络。我们在标准数据集上进行的大量实验表明，所提出的SalLiDAR和SalLONet模型相比现有方法达到了最先进的性能，证明了图像到激光雷达显著性知识迁移的有效性。

2.创新点

我们提出了一种自监督的激光雷达测距估计模型，该模型利用点云的显著性和语义信息来提高测距精度。我们的测距模型由三个模块组成：显著性模块、语义模块和测距模块。
为了消除动态点对激光雷达测距模型的干扰，我们根据SemanticKITTI数据集中的语义标签，将语义图分为动态点和静态点两类。我们将点云以及分割后的语义图和显著性图输入到测距模块进行特征提取。
为了优化点云匹配的过程，我们提出了一个基于显著性的测距损失函数，该损失函数利用显著性图和分割后的语义图来约束测距模块。这有助于模块更关注显著的静态点，从而提高点云匹配的准确性。我们在标准数据集上进行的大量实验表明，我们的双流激光雷达测距模型结合了显著性和语义知识，从而改善了测距估计的性能，并且超过了现有方法的效果。

3.实现细节

图1:用于注意力引导的3D点云理解的图像到LiDAR显著性知识转移框架示意图。

3.1 问题表述

给输入点云，其中表示激光雷达帧的点数，每个点可以包含维特征，如点坐标、颜色、反射率和法线特征。点云显著性检测模型的目标是预测显著度分数图，其中表示点的显著度分数。在归一化显著性预测后，越接近1，点就越显著。在3D语义分割任务中，其目标是预测语义类别图，其中表示点的语义类别。

本文工作的目标是建立一个自监督的激光雷达测距估计模型，该模型受到显著性和语义约束的指导，并且可以在没有姿态真值的情况下进行训练。为实现这一目标，给定时间和的两个连续激光雷达点云和，每个点可以包含维点间特征，如点坐标、范围特征、语义特征、和显著性特征。测距模型估计一个的旋转向量和一个的平移向量，其中和组成点云和之间的刚体变换。可以通过变换，转换到的坐标系统中，得到：

其中表示点间矩阵乘法。之后，可以计算和之间的点间匹配损失来训练测距模型，迫使模型预测最优变换。此外，的法向量也可以通过变换转换到的坐标系统中，得到：

因此，测距模型可以通过计算点间匹配损失以自监督的方式进行训练，它不需要测距真值。

3.2 框架概述

我们展示了图像到激光雷达显著性知识转移用于3D点云理解的框架概述。主要有三个子任务:1)图像到激光雷达显著性知识转移以生成点云的伪显著性数据集，2)激光雷达到激光雷达伪显著性学习，使用基于激光雷达的深度模型，3)结合显著性信息的基于显著性的3D点云理解。

首先，我们提出了一个大规模的点云伪显著性数据集(FordSaliency)，通过将RGB图像的显著性值分配给注册在图像上的对应点云来实现。然后，我们在所提出的伪显著性数据集上训练基于激光雷达的模型来学习点云显著性特征。接下来，我们为大规模点云分割提出了一个双流网络(SalLiDAR)。显著性预测不仅用作语义模块的输入特征，而且采用显著性引导损失来促进语义模块1)学习更丰富的显著点特征，2)通过显著性约束减少不同语义类别点不平衡的影响。

最后，通过应用点云显著性和语义信息提出了一个显著性引导的激光雷达测距网络(SalLONet)来提高测距模型的性能。激光雷达测距估计的目标是通过匹配两个点云输出姿态信息，换句话说，它可以看作是两个激光雷达扫描之间的配准问题。因此，我们的显著性引导激光雷达测距模型基于两个假设:1)动态点应尽可能地被抑制，因为它们可能会降低测距估计的性能;2)静态点应该具有更高的优先级，以使模型更专注于显著的静态点进行特征匹配。为此，我们利用SalLiDAR模型预测用于测距估计的点云的语义和显著性图。语义和显著性预测不仅作为输入特征馈送到测距模块，还集成到显著性引导测距损失中以规范测距模块。

3.3 具体框架

图2:所提出的两流语义分割模型的框架。显著性预测网络在我们的FordSaliency数据集上进行了预训练。

a. 学习点云显著性

为了学习点云显著性表示，我们采用现有的基于LiDAR的语义分割模型作为特征提取器的骨干网络。如图1(b)所示，给定具有坐标及其对应的逐点特征的3D LiDAR点云，我们首先将其馈送到特征提取器以获得每个点的表示。接下来，这些学习到的特征经过一个显著性预测层输出输入点云的显著性分数图。我们考虑了两种类型的模型来学习点云上的显著性分布:i)基于分类的显著性预测和ii)常用的显著性回归。

b. 两流分割模型

如图2所示，我们在点云上开发了一个由显著性模块和语义模块特征组合的两流语义分割模型。我们将输入点云馈送到显著性分支中以预测整个场景的显著性分布。同时，点云还被馈送到语义分支中以提取点特征和输出语义类别的预测。为了验证学习到的点云显著性分布知识的有效性，我们使用在FordSaliency数据集上预训练的权重初始化并冻结显著性分支的参数。

图3:显著性引导的LiDAR里程计网络(SalLONet)的架构。

c. LiDAR里程计估计模块

如图3所示，首先通过SalLiDAR的显著性和语义模块预测语义图和显著性图。对于里程计估计，我们转换并连接两个连续的LiDAR点云及其各自预测的显著性和语义图，将其作为里程计模块的输入范围图像。里程计模块的输出是两个LiDAR点云之间的平移t和旋转q的特征向量。然后，我们可以根据预测的平移和旋转构建刚体变换。源LiDAR扫描可以通过变换转换为，以与目标LiDAR扫描匹配。因此，里程计模块可以通过计算变换扫描和目标扫描之间的逐点匹配错误来进行自我监督训练，不需要里程计真值。

为了引导里程计模块聚焦于静态显著点进行匹配，我们将预测的显著性和二值化语义图应用于里程计损失。实验结果表明，所提出的两流里程计模型结合了显著性和语义知识，可以改进里程计估计的性能，并且与现有方法相比取得了更好的效果。

4.结果和性能分析

4.1 在FordSaliency数据集上的激光雷达显著性结果。

表1: 在FordSaliency数据集上具有不同Backbone的SalLiDAR模型的结果。

图4:在FordSaliency数据集上,具有不同backbone的SalLiDAR模型的点云显著性预测结果。

我们在自己的FordSaliency数据集上比较了具有不同特征提取器的基于激光雷达的显著性模型的性能。我们展示了不同backbones的SalLiDAR模型在FordSaliency验证集上的可视化结果。我们报告了这些模型在FordSaliency验证集上的定量性能。从结果可以观察到，尽管显著性注释是伪标签，但所有这些基于激光雷达的模型都能够学习可区分的点云显著性表示以进行显著度分布预测。

另一方面，具有Cylinder3D backbone的模型可以预测比其他backbone模型更好的显著度分布。具有RandLA-Net backbone和PointNet backbone的模型可以从点云显著性注释中学习相关性和相似性特征，这可以从CC、SIM和KLD值中看出。但是，具有Cylinder3D backbone的模型可以达到更高的CC、SIM性能和更低的KLD性能。这表明具有基于体素的分区(如3D Cylinder)的模型可以学习比基于点的模型更强大的显著性表示。

4.2 SemanticKITTI数据集上的语义分割结果

表2: 在SemanticKITTI测试集上,所提出模型与现有LiDAR分割方法的性能比较。

图5:在SemanticKITTI上的基线和所提出的LiDAR分割模型的可视化比较结果。

我们在SemanticKITTI测试集上报告了激光雷达语义分割性能。所有测试性能结果都是从文献和SemanticKITTI基准排行榜中获得的。通过比较表1和表2，我们可以发现测试序列上的mIoU结果显示了在更大的评估样本集上的泛化能力提升。与基线相比，所有带有SalLiDAR的模型都获得了更好的mIoU结果。由于我们预测的显著度分布使模型对这些类别(如汽车、卡车和停车场)更敏感，所提出的方法还提高了对特定类别的分割性能。

此外，带有SalLiDAR的Cylinder3D模型比带有SalLiDAR的RandLA-Net取得了更好的分割效果。这表明具有更好显著性预测的语义分割模型可以为提高模型性能提供更多的注意力信息或特征。特别是，这些实验结果表明，通过所提出的显著性分布集成和基于点的注意力引导损失，可以提高基于激光雷达的语义分割模型的性能。这些比较结果验证了预训练点云显著性模型的有效性，尽管它们是在带有伪标签的FordSaliency数据集上训练的。

4.3 KITTI数据集上的测距结果

表3:在KITTI里程计数据集验证集上的平移([%])和旋转([deg/100m])误差的比较。

我们展示了所提出的SalLONet模型在KITTI测距数据集序列09-10上的实验轨迹结果。我们可以观察到，与基线模型相比，带有显著性和语义信息的SalLONet模型预测了更好的轨迹结果。我们在表3中呈现了所提出方法和六种现有测距方法的定量结果。DeepLO和Velas等是有监督的激光雷达测距模型。换句话说，训练集的真值姿态用于训练这些有监督的测距模型。DeLORA是一个无监督的激光雷达测距模型。这意味着无监督的DeLORA不需要标签来训练模型。按照DeLORA的研究，表3中还有三种无监督的视觉测距估计方法进行比较。

如表3所示，三种提出的SalLONet模型提高了基线模型的性能，这可以从序列09-10上的转换和旋转误差更低中看出。在无监督的方法中，SalLONet-III在两个验证序列上都取得了最佳结果，转换误差最低。特别是，它在序列10上的转换误差(trel=4.940)甚至优于有监督的DeepLO方法(trel=5.020)。总之，这些实验结果表明，显著性和语义信息对于改进测距估计任务是有效的，这隐式地表明了图像到激光雷达显著性知识转移的有效性。

4.4 消融实验

表4:在KITTI里程计数据集验证集上的平移([%])和旋转([deg/100m])误差的比较。

我们研究了显著性和语义信息对于激光雷达测距估计的有效性。从表3可以观察到，SalLONet-III模型通过利用语义和显著性线索实现了更好的结果。因此，我们基于SalLONet-III进行了消融实验，以验证显著性图和语义图对于激光雷达测距估计的影响。在所提出的SalLONet-III方法中，我们同时利用显著性和语义预测进行激光雷达测距估计。我们首先仅与显著性信息集成验证模型。我们还仅与语义信息集成训练模型。消融实验的性能结果如表4所示。

实验评估显示，与显著性和语义信息相结合的SalLONet模型在KITTI测距数据集上实现了优越的性能。此外，仅与显著性信息集成的SalLONet模型相对于基线模型实现了更好的结果，这表明显著性信息对于改进激光雷达测距估计是有效的。仅与语义信息集成的SalLONet模型与基线模型获得了竞争性的结果。但是，SalLONet模型从显著性和语义信息中都受益，因此在KITTI测距数据集序列09-10上获得了最低的转换和旋转误差。

5.结论

本文提出了一种利用图像到激光雷达转移学习的激光雷达显著性检测模型，并将其应用于提升三维点云理解任务的性能。我们提出了一种显著性引导的激光雷达测距网络（SalLONet），该网络结合了点云的显著性和语义信息。首先，我们将我们的语义分割模型生成的显著性图和语义图作为输入连续点云的特征表示，输入到测距模块中。其次，我们将显著性和语义预测融合到显著性引导测距损失函数中。

为了消除动态点对姿态回归的干扰，我们根据语义类别，将预测的语义图分为动态点和静态点两类。我们利用分割后的语义图通过点乘操作来对损失函数进行加权，从而抑制动态点的影响。

此外，我们利用预测的显著性图来增加静态显著点的损失权重，使得模型更关注这些点进行匹配。我们在KITTI测距数据集上进行的大量实验表明，我们的融合了显著性和语义知识的测距网络改善了测距估计的性能，并且优于现有最佳方法的效果。





    
往期精彩


    
回顾




适合初学者入门人工智能的路线及资料下载
(图文+视频)机器学习入门系列下载


    
机器学习及深度学习笔记等资料打印
《统计学习方法》的代码复现专辑

```
交流群
```

欢迎加入机器学习爱好者微信群一起和同行交流，目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群，请扫描下面的二维码加群，备注：”昵称-学校/公司-研究方向“，例如：”张小明-浙大-CV“。请勿在群内发送广告，否则会请出群，谢谢理解~（也可以加入机器学习交流qq群772479961）