Py学习  »  机器学习算法

深度学习增强的RANSAC!提升杂乱环境下的平面实例分割效果

计算机视觉工坊 • 1 年前 • 270 次点击  

点击下方卡片,关注「计算机视觉工坊」公众号
选择星标,干货第一时间送达

点击加入「计算机视觉工坊」技术交流群

作者:小橙子|来源:计算机视觉工坊
添加小助理:dddvision,备注:3D目标检测,拉你入群。文末附行业细分群

扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

标题Multi-Object RANSAC: Efficient Plane Clustering Method in a Clutter
链接https://arxiv.org/pdf/2403.12449.pdf

1、导读

本文提出了一种新的平面聚类方法,专门用于在杂乱环境中使用RGB-D相机进行对象识别,并通过机器人抓取实验验证了其有效性。与现有的方法不同,该方法关注包含不同尺度对象的杂乱环境,通过在深度平面聚类(DPC)模块中生成子平面来增强平面分割,然后通过后处理将这些子平面合并为最终平面。DPC通过投票层重新排列点云,以使在自监督方式下使用RANSAC生成的伪标签进行子平面聚类。与最近的RANSAC应用相比,Multi-Object RANSAC在平面实例分割方面表现更为优越。在机器人吸盘抓取实验中,该方法在真实世界场景中展示了卓越的性能,超过了基线方法,凸显了其在高级场景理解和操作中的潜力。

图1:多对象RANSAC的平面聚类结果

2、创新点

多目标RANSAC方法的主要创新点可以总结如下:

  • 专注于复杂场景:该方法将重点放在了包含不同尺度对象的杂乱环境中,与现有方法主要针对大尺度室内结构不同。
  • 深度平面聚类模块:通过深度平面聚类模块,该方法可以生成子平面,从而提高平面分割的效果。该模块利用了RANSAC生成的伪标签进行自监督训练。
  • 后处理合并:通过后处理步骤,该方法能够将多个代表同一平面的子平面簇进行有效合并。
  • 自监督训练:通过自监督训练,该方法学习了平面几何属性,提高了复杂环境下的平面实例分割性能。

3、多目标RANSAC方法

图2:多目标象RANSAC的总体框架

这部分详细阐述了多目标RANSAC方法的框架和具体实现。主要内容包括:

概述:该方法主要分为深度平面聚类(DPC)模块和后处理模块。

深度平面聚类模块:

  • 通过采样关键点进行投票,形成子平面簇。
  • 使用RANSAC算法生成伪标签,区分平面内外点。
  • 利用对比损失函数进行自监督训练,使平面内外点分别靠近或远离关键点。
  • 通过神经网络提取特征,并利用投票层重新组织点云,实现子平面簇的生成。

后处理模块:

  • 对DPC生成的子平面簇进行合并,得到最终的平面分割结果。
  • 基于图算法,比较相邻簇之间的距离和匹配程度,以决定是否合并。

训练和推理:

  • 在训练阶段,随机选择簇数进行自监督训练。
  • 在推理阶段,首先使用K-means聚类划分点云,然后分别进行DPC处理,最后合并所有簇。

总的来说,这部分我们详细阐述了该方法的关键组成部分和实现流程,突出了深度学习和自监督训练在复杂环境下平面分割中的重要作用。

4、算法

本文所涉及的算法如下:

算法1多目标RANSAC

算法2后处理中的合并过程

5、实验结果

实验设置:

  • 使用OCID和OSD数据集进行训练和测试,其中OCID数据集用于训练DPC模块,OSD数据集用于测试。
  • 在NVIDIA TITAN RTX上训练模型10个epoch,采用学习率10^-5,权重衰减10^-5,下采样点云到32768点。
  • 与其他RANSAC方法进行比较,包括GC-RANSAC、MAGSAC、MAGSAC++和OPS。

评估结果:

  • 定性结果:多目标RANSAC方法在杂乱环境下的平面分割效果明显优于其他方法。
  • 定量结果:在OCID和OSD数据集上,多目标RANSAC在大部分指标上均优于其他方法。
  • 敏感性分析:随着体素大小的减小,多目标RANSAC方法对细节平面分割的增强作用更加显著。
  • 机器人抓取实验:在杂乱环境中,多目标RANSAC方法的抓取成功率明显优于其他方法。
与平面聚类基线的分割结果对比
MO-RANSAC的消融实验

表1:在OCID和OSD数据集上的分割性能比较

MO-RANSAC的性能变化基于体素大小(m)来进行评估

表2:吸力抓取精度与其他平面聚类方法的比较

表3:基于视觉的吸力抓取方法与吸力抓取精度的比较

该方法在复杂环境下的平面实例分割和机器人抓取任务上表现出色,展示了其在实际应用中的巨大潜力。

6、结论

本文介绍了MO-RANSAC,这是一种利用RGB-D相机的数据,专门为涉及多个目标的混乱环境设计的新型平面聚类技术。MO-RANSAC通过投票层有效地重新排列点进行平面聚类。MO-RANSAC在复杂的平面聚类场景中表现出色,并显示出现实世界机器人应用的前景,包括吸力抓取。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程:3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪。

▲长按扫码学习3D视觉精品课程

3D视觉学习圈子

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球

3D视觉交流群

目前我们已经建立了3D视觉方向多个社群,包括SLAM工业3D视觉自动驾驶三维重建无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

▲长按扫码添加助理

欢迎点个在看,你最好看!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/168205