社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

收藏 | 基于深度学习的深度图补全

小白学视觉 • 2 年前 • 456 次点击  

点击上方小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

深度图补全在自动驾驶、三维重建、增强现实和机器人导航等各种应用有着关键的作用。深圳市人工智能与机器人研究院等最新《基于深度学习的深度图补全》综述论文,调研了5年的深度图补全的论文,值得关注!



深度图补全的目的是从深度传感器捕获的稀疏图预测密集像素级深度。它在自动驾驶、三维重建、增强现实和机器人导航等各种应用中发挥着至关重要的作用。最近在这项任务上的成功已经被证明和主导基于深度学习的解决方案。在这篇论文中,我们第一次提供了一个全面的文献综述,帮助读者更好地把握研究趋势,清楚地了解当前的进展。我们从网络架构、损失函数、基准数据集和学习策略的设计方面对相关研究进行了调研,并提出了一种新的分类法来分类现有的方法。此外,我们还对两种广泛使用的基准数据集(包括室内数据集和室外数据集)上的模型性能进行了定量比较。最后,我们讨论了前人工作所面临的挑战,并对未来的研究方向提出了一些见解。


引言

获取正确的像素级场景深度对于场景理解[50]、自动驾驶[90]、机器人导航[69]、[95]、同时定位和地图绘制[33]、智能农业[22]和增强现实[18]等任务具有重要作用。因此,在过去的几十年里,这一直是一个长期的研究目标。一种经济有效的获取场景深度的方法是使用单目深度估计算法[26],[30],[40],[57]从单幅图像中直接估计场景深度。然而,视觉方法通常产生低的推断精度和较差的通用性,因此在现实世界中使用非常脆弱。

另一方面,深度传感器提供了精确和鲁棒的距离测量与真实的场景尺度。因此,它们更适用于需要安全保障和高性能[25][70]、[90]的应用,如自动驾驶汽车。事实上,在工业应用中,使用激光雷达测量深度可能仍然是获得可靠深度的最可部署的方法。然而,无论是激光雷达还是常用的RGBD相机,如微软Kinect,都不能提供密集的像素级深度图。如图1所示,Kinect捕捉到的深度图有小孔,而LiDAR捕捉到的深度图明显更稀疏。因此,有必要在实践中填充空白像素。

由于Kinect和LiDAR获取的深度图存在明显的差异,根据[45][101],我们在技术上将Kinect数据和LiDAR数据的完成和估计任务区分如下:

 1) 深度增强: 又称深度填孔,是指在致密的原始深度图上填充不规则的、罕见的小洞。一个典型的应用就是Kinect的增强。

2) 深度补全: 从高度稀疏的输入深度图中恢复高密度深度图,通常使用LiDAR数据。直观地说,由于输入极为稀疏,深度补全比深度增强更具挑战性。

近年来,基于深度学习的方法在任务中表现出了令人瞩目的性能,并引领了发展趋势。以前的研究表明,具有几个卷积层[98]或一个简单的自编码器[102]的网络可以弥补缺失的深度。此外,深度补全可以通过利用RGB信息进一步改进。这种类型的典型方法[50][88]是使用双编码器分别从稀疏深度图及其对应的RGB图像中提取特征,然后用解码器将其融合。为了突破深度完成的界限,最近的方法倾向于使用复杂的网络结构和复杂的学习策略。除了多分支用于从图像、稀疏深度等多模态数据中提取特征外,研究人员已经开始将表面法线[79]、亲和矩阵[11]、残差深度图[32]等集成到他们的框架中。此外,为了解决缺乏监督像素的问题,一些研究引入了利用多视图几何约束[70]和对抗性正则化[54]。这些努力极大地促进了深度图补全任务的进展。


尽管基于学习的方法取得了巨大的进步,但就我们所知,还缺乏全面的综述。本文旨在通过对已有方法的层次分析和分类,描述基于学习的深度图补全技术的发展,让读者对深度图补全有一个直观的了解,并提供一些有价值的指导。通常,我们希望回答以下问题:

1) 以往实现高精度深度图补全的方法有哪些共同特点?

2) 与非引导方法相比,RGB引导方法的优点和缺点是什么?

3) 以往的研究大多同时使用了视觉数据和LiDAR数据,那么多模态数据融合最有效的策略是什么?

4) 目前面临的挑战是什么?


基于以上问题,我们对2017年1月至2022年5月(撰写本文时)的相关工作进行调研。图2显示了基于所提分类方法选择方法的时间轴,底部和顶部分别为无引导方法和五种RGB引导方法。可以看到,尽管早期研究以无指导的方式处理深度完成,但我们观察到,2020年后发表的研究已逐渐被RGB指导方法所主导。本文从网络结构、损失函数、学习策略和基准数据集等方面对前人的研究进行了综述。我们特别强调提出新的算法或显著提高性能的方法,并适当地提供其技术贡献的可视化描述,以促进澄清。此外,我们在最流行的基准数据集上提供了具有基本特征的现有方法的定量比较。通过对前人研究的深入分析,希望读者对深度图补全有一个清晰的认识。



总而言之,我们的主要贡献如下:


  • 据我们所知,这是第一次深度图补全综述。我们给出了一个深入和全面的综述,包括无指导和RGB指导的方法。


  • 我们提出了一个新的分类方法来分类以前的方法,并可视化它们的主要特征,包括网络结构、损失函数和学习策略。


  • 这篇文章涵盖了基于深度学习的最新进展,并在基准数据集上进行了性能比较。它为读者提供了最先进的方法。


  • 我们提供了几个开放的问题和有前途的未来研究方向。



本文其余部分的组织如下:第2节给出了基于深度学习的深度图补全的公式,并提供了分类法。第3节回顾了非引导方法,第4节阐述了RGB引导方法。第5节介绍了前面方法中使用的损失函数。第6节列出了基准数据集,并介绍了深度完井任务的评估指标。第7节从综合不同的角度对以往的方法进行了比较。第8节总结了开放的挑战,并为未来的研究提供了有价值的方向。第9节是结论。

好消息!

小白学视觉知识星球

开始面向外开放啦👇👇👇




下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲
小白学视觉公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲
小白学视觉公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群


欢迎加入公众号读者群一起和同行交流,目前有 SLAM、三维视觉、传感器自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/153104
 
456 次点击