Py学习  »  机器学习算法

港科大最新360DVO+数据集: 首个基于深度学习的单目全向视觉里程计

计算机视觉life • 5 天前 • 15 次点击  

点击“计算机视觉life”,选择“星标”

机器人AI干货第一时间送达

来源:智驾机器人技术前线,作者:Xiaopeng Guo等

360DVO 提出了一个基于深度学习的单目全向视觉里程计框架,该框架结合了畸变感知球面特征提取器和全向可微分束调整,以处理360度图像特性。该方法在各种基准测试中持续提高了精度和鲁棒性,在 360VO 数据集上实现了 10% 的 ATE 降低,在真实世界挑战序列上实现了比 OpenVSLAM 高 43.4% 的 ATE。

01

论文信息

  • 论文标题:360DVO: Deep Visual Odometry for Monocular 360-Degree Camera
  • 作者:Xiaopeng Guo, Yinzhe Xu, Huajian Huang, Sai-Kit Yeung
  • 项目地址:https://chris1004336379.github.io/360DVO-homepage/
  • 论文链接:https://arxiv.org/pdf/2601.02309

02

摘要

单目全向视觉里程计 (OVO) 系统利用 360 度相机克服了透视视觉里程计系统的视场限制。然而,现有方法依赖手工特征或光度目标,在剧烈运动和光照变化等挑战性场景中往往缺乏鲁棒性。为解决此问题,我们提出了 360DVO,这是首个基于深度学习的 OVO 框架。我们的方法引入了一种畸变感知球面特征提取器 (DAS-Feat),能够自适应地从 360 度图像中学习抗畸变特征。随后,这些稀疏特征块在一个新颖的全向可微分光束法平差 (ODBA) 模块中用于建立约束,以实现有效的位姿估计。为促进在真实世界场景中的评估,我们还提出了一个新的真实世界 OVO 基准数据集。在此基准数据集和公共合成数据集 (TartanAir V2 和 360VO) 上的大量实验表明,360DVO 超越了最先进的基线方法 (包括 360VO 和 OpenVSLAM),将鲁棒性提高了 50%,精度提高了 37.5%。

03

现状 & 本文的解决之道

现有方法存在的问题

  1. 现有的视觉里程计 (VO) 系统主要为透视相机设计,存在视野有限的问题,导致在剧烈运动或稀疏环境中容易出现跟踪失败。
  2. 先前的全向 VO (OVO) 方法在真实世界的鲁棒性方面表现不佳,原因包括剧烈运动、光照变化、运动模糊和低帧率。
  3. 标准深度学习特征提取器针对线性采样进行了优化,当直接应用于360度等距柱状图像时,由于严重的非线性投影畸变,效率低下且不可靠。
本文提出的方法

  1. 引入了 360DVO,一个基于深度学习的单目全向视觉里程计框架,旨在从本质上考虑 360 度图像特性。
  2. 采用了一种畸变感知球面特征提取器 (DAS-Feat) 和 SphereResNet,以在存在投影畸变的情况下,从全向图像中鲁棒地学习和提取特征。
  3. 实现了一个全向可微分束调整 (ODBA) 模块,该模块利用深度球面特征约束,针对球面几何特性,对相机姿态和 3D 点深度进行联合优化。

04

概述

视觉里程计 (VO) 系统传统上依赖于透视相机,但其受限于有限的视野,可能导致在剧烈运动或特征稀疏环境中出现跟踪失败。尽管 360 度全向相机以其全球面图像覆盖提供了有前景的解决方案,但现有的全向视觉里程计 (OVO) 方法大多是透视相机技术的外延,并且在现实世界的鲁棒性方面面临挑战。

本文介绍了 360DVO,这是首个专门为单目全向视觉里程计设计的全面深度学习框架。其核心创新在于解决了标准深度特征提取器(在具有线性采样假设的透视图像上训练)与 360 度图像等距柱状投影固有的强烈非线性畸变之间的根本不匹配问题。

05

核心技术贡献

畸变感知球面特征提取器 (DAS-Feat)

DAS-Feat 模块代表了全向图像特征提取方面的根本性进步。传统的卷积神经网络在 360 度图像上表现不佳,因为它们假设线性像素采样,而等距柱状投影则表现出严重的畸变,尤其是在两极附近。

解决方案的核心是 SphereResNet,这是一种结合了球面卷积和残差连接的新颖架构。SphereNet 通过在球体的切平面上采样像素,并将这些样本投影回等距柱状图像来执行卷积,有效地根据不同纬度调整卷积核形状以适应球面畸变。残差块的集成解决了梯度消失问题,同时实现了鲁棒的、抗畸变特征的学习。

块化与稀疏特征图

系统不处理密集特征,而是直接从匹配特征图中提取稀疏、未扭曲的方形块。块中心被识别为梯度幅度图上具有最大值的像素,确保从显著的、高熵区域进行提取。每个块   都由其中心像素 、估计深度  和块化匹配特征  来表征。一个时间稀疏块图将块与定义半径内的相邻帧连接起来,构成了建立对应关系的基础。

全向可微分束调整 (ODBA)

ODBA 通过在专为球面几何定制的可微分框架中最小化重投影误差,对相机姿态和 3D 点深度进行联合优化。该过程涉及三个关键组件:

  • 球面重投影约束:对于在帧  中观测到的深度为   的块 ,其 3D 点通过逆投影  进行重建,由相对相机姿态  变换,然后使用投影  重投影到帧  中:
  • 光流修正:块化匹配特征与上下文特征之间的相关体积驱动一个循环网络来估计 2D 光流,预测目标帧中的新块中心 

  • 非线性优化:系统最小化预测补丁中心与重投影补丁中心之间的平方差:

优化使用高斯-牛顿法,雅可比矩阵通过链式法则和伴随算子推导,并采用 Schur 补来高效更新姿态和深度。

06

实验验证与数据集贡献

360DVO 基准数据集

一个重要的贡献是引入了一个全面的真实世界 OVO 基准数据集,包含20个序列(平均每个约1000帧,分辨率为3840×1920,10 FPS)。该数据集包含多种环境——野外、室内、城市和空中——并刻意设置了具有挑战性的条件,例如复杂轨迹、剧烈相机运动、运动模糊和动态光照变化。伪真值轨迹使用 Agisoft Metashape 生成,并经过验证准确性。

性能分析

与最先进方法进行广泛评估,结果表明 360DVO 具有卓越性能:

  • 合成数据集:在 360VO 数据集上,360DVO 将 ATE 降低了 10%,优于 360VO。在具有挑战性的 TartanAirV2 序列上,它达到了 100% 的成功率,鲁棒性提高了 50%,精度比基线提高了 37.5%。
  • 真实世界性能:在新的 360DVO 数据集上,该方法在 ATE RMSE 方面优于 OpenVSLAM,其中简易序列提升 27.6%,困难序列提升 43.4%。在传统方法出现明显漂移的快速 6 自由度运动、大幅旋转和动态光照变化期间,系统仍能保持准确跟踪。

  • 效率考量:默认配置(3840×1920,192个补丁)实现最佳精度,但运行速度为 8 FPS。一个快速变体(1920×960,96个补丁)运行速度为 27 FPS,同时保持有竞争力的性能,展示了实时能力。

消融研究证实了畸变感知特征的至关重要性。在保持 ODBA 的同时,用 SphereResNet 替换标准 ResNet 特征显著提高了性能,突出了针对 360 度图像定制特征提取的必要性。可视化分析表明,与传统方法相比,SphereResNet 具有更卓越的补丁跟踪精度。

运行时剖析显示,高分辨率下的特征图操作是主要的计算瓶颈。SphereResNet 组件约占总处理时间的 50%,而相关体积计算和束调整则额外增加了开销。

本文仅做学术分享,如有侵权,请联系删文。


推荐阅读

小六的机器人AI圈
为机器人AI行业从业者提供从入门、学习、交流、求职、线下链接、合作、创业、行业内幕、咨询、答疑等一系列的服务。快人一步,步步领先!已沉淀6年,星球内部资料包括秘制视频课程、独家大咖采访及经验、项目对接、星主独家思考、同城线下交流会、求职招聘&笔面试题、学习打卡挑战、小组学习、最新前沿论文分享等等.
图片



    

详细介绍!超远距EDU-SCAN三维激光雷达扫描仪,为开放生态而生!

重磅发布!解锁百米高空无人机测绘!

重磅发布!2分钟重建百米高楼!

重磅发布!助力机器狗SLAM、重建三维世界!

SLAM挑战!EDU-SCAN清晰还原室内超大电子屏

SLAM挑战 ! 9分钟重建万

平地下停车场

这款科研神器丝滑复现最强SLAM:Fast-LIVO2!

三维激光扫描仪全国线下产品试用!

车载扫街,效果实测!

激光雷达+视觉的3D高斯泼溅,相比纯视觉的方案有什么优势?

三维空间扫描仪化身机器人感知定位利器!
用于机器人自主定位导航、实景三维重建!
扫描仪+机器人,实时定位建图超简单!
隧道低纹理大摆锤,暴力SLAM!

暴力升级!暗黑隧道极限测试SLAM!
效果哇塞!3D高斯泼溅来实景重建公园!
全面启动!全国线下试用报名!
MetaCam EDU 产品功能及细节详细介绍
MetaCam EDU 实机展示和操作

基于MetaCam EDU的二次开发流程及说明

SLAM挑战:上下天桥绕一圈、定位建图准确完美回环无漂移

SLAM挑战:多楼层、720°旋转楼梯、狭窄玻璃白墙过道

三维空间扫描仪,轻松重建小树林

空间定位建图挑战:长走廊、白墙、玻璃、反光等,会成功吗

三维空间扫描仪,轻松重建小树林

如何高效率重建古建筑?




    

SLAM挑战:有光无光切换,自由穿梭小黑屋!

SLAM暴力测试:弱光暗光、长走廊、动态场景、天旋地转

如何快速让机器人具备SLAM能力?

扫描仪+转换底座应用介绍

3天爆改机器狗!

图片

图片

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/192333