【泡泡一分钟】基于深度学习的高分辨率双目立体深度重建

每天一分钟，带你读遍机器人顶级会议文章

标题：Deep-Learning Assisted High-Resolution Binocular Stereo Depth Reconstruction

作者：Yaoyu Hu, Weikun Zhen, and Sebastian Scherer

来源：2020 IEEE International Conference on Robotics and Automation (ICRA)

编译：林只只

审核：柴毅，王靖淇

这是泡泡一分钟推送的第 622 篇文章，和欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

这项工作提出了使用高分辨率图像进行设施检查的密集双目立体重建。目前最先进的双目立体重建方法，无论是学习型还是非学习型，都会在高分辨率数据上消耗过多的计算资源。最近的基于学习的方法在大多数基准测试中均排名最高。但是，由于缺少针对特定任务的训练数据，该方法往往受到泛化问题的困扰。我们提出使用一种以学习方法为指导的，资源需求较少的非学习方法，来获取高分辨率的图像以及精确的双目立体重建。深度学习模型可以根据下采样立体图像对的每个像素产生具有不确定性的初始视差预测。不确定性是其泛化能力和围绕初始预测视差的每像素搜索范围的自测。后续过程使用上采样的每个像素搜索范围执行半全局块匹配方法的修改版本。提出的深度学习辅助方法在Middlebury数据集和由我们定制的双目立体相机收集的高分辨率立体图像上进行了评估。学习方法和非学习方法的结合在Middlebury数据集的15个案例中有12个实现了更好的性能。在我们的设施检查实验中，平均3D重建误差小于0.004m。

图1 从4K分辨率立体图像重建点云。（a）来自扫描仪的点云，用作比较的真实数据。（b）通过深度学习辅助方法进行密集重构的点云。（c）（b）与（a）相比的重建误差。（d）（b）的放大图。

图2 本文提出方法的处理管道。PSMNU：我们的深度学习模型。SGBMP：深度学习辅助的非学习模型。PSMNU可以预测下采样后的立体图像的视差和不确定性。视差被上采样到原始大小。遮挡由视差获得。视差和遮挡估计会通过专用过滤器。SGBMP使用过滤后的数据和上采样的不确定性来预测与原始立体图像的精确视差。

图3 Middlebury数据集的Adirondack案例的PSMNU输出。（a）左图。（b）真实视差。（c）σ映射，缩放到0-255以进行可视化。（d）估计的视差。（c）中的红色圆圈表示噪声水平较高的区域。

图4 Middlebury数据集上的比较

图5 定制的立体摄像机。（a）手持平台。（b）无人机，载有隔离振动的阻尼器。L，R是4K相机（3008×4112）。当无人机静止时，将捕获图像。

图6 设施检查任务中的实验数据比较。行：（a）石廊。（b）混凝土支柱。（c）桥梁支撑。（d）T形梁。（e）建筑墙体。执行时间以秒为单位（SGBM / SGBMP）：（a）16.42 / 23.16，（b）18.38 / 24.55，（c）17.56 / 24.57，（d）18.03 / 24.75，（e）24.07 / 35.64。PSMNU的执行时间约为7秒，图像尺寸为752×1028。来自PSMNU的具有不确定性（σ图）的视差预测（y）被上采样到原始输入立体图像的大小。行内的视差预测已标准化。SGBM对于（a）（d）（e）产生的有效预测要少得多。（a）中的纹理通常是均匀的，并且亮度和颜色会受到镜头的影响。（d）中的T形光束的左侧表面在左右图像之间的颜色不一致。（e）中的图像有不同程度的过度曝光。我们的SGBMP在这些情况下均表现更好。

图7 在实验数据上的比较。SGBM的困难案例。相机是固定的。这些双目立体图像最初具有照明和镜头问题。在光照不足的情况下，图像的亮度较低。渐晕效果使图像的边界更暗。两台相机之间的颜色不一致，尤其是对于（c）。这三种情况下使用的所有参数都与图6相同。SGBM仅在（a）和（b）中的对象边界处产生有效的视差。我们的SGBMP仍保证其性能。

图8 扫描仪点云比较。（a）和（d）：来自测量扫描仪的点云。（b）和（e）来自SGBMP的点云，着色表示重建误差。（c）和（f）：误差直方图。等于或大于0.05m的重建误差在（b）和（e）中显示为红色。（c）和（f）中的垂直红色长条表示相应的平均误差。显示与前景对象的像素对应的SGBMP点，并将其与测量扫描仪中的点云进行比较。

表1 Middlebury数据集上的比较

Abstract

This work presents dense stereo reconstruction using high-resolution images for infrastructure inspections. The state-of-the-art stereo reconstruction methods, both learning and non-learning ones, consume too much computational resource on high-resolution data. Recent learning-based methods achieve top ranks on most benchmarks. However, they suffer from the generalization issue due to lack of task-specific training data. We propose to use a less resource demanding non-learning method, guided by a learning-based model, to handle high-resolution images and achieve accurate stereo reconstruction. The deep-learning model produces an initial disparity prediction with uncertainty for each pixel of the down-sampled stereo image pair. The uncertainty serves as a self-measurement of its generalization ability and the perpixel searching range around the initially predicted disparity. The downstream process performs a modified version of the Semi-Global Block Matching method with the up-sampled perpixel searching range. The proposed deep-learning assisted method is evaluated on the Middlebury dataset and highresolution stereo images collected by our customized binocular stereo camera. The combination of learning and non-learning methods achieves better performance on 12 out of 15 cases of the Middlebury dataset. In our infrastructure inspection experiments, the average 3D reconstruction error is less than 0.004m.

如果你对本文感兴趣，请点击点击阅读原文下载完整文章，如想查看更多文章请关注【泡泡机器人SLAM】公众号（paopaorobot_slam）。

百度网盘提取码：p8z2

欢迎来到泡泡论坛，这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题，或者想刷帖回答问题，泡泡论坛欢迎你！

泡泡网站：www.paopaorobot.org

泡泡论坛：http://paopaorobot.org/bbs/

泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成，希望大家珍惜我们的劳动成果，转载请务必注明出自【泡泡机器人SLAM】微信公众号，否则侵权必究！同时，我们也欢迎各位转载到自己的朋友圈，让更多的人能进入到SLAM这个领域中，让我们共同为推进中国的SLAM事业而努力！

商业合作及转载请联系liufuqiang_robot@hotmail.com