Py学习  »  机器学习算法

博士论文:计算机视觉深度学习 精品

LaTeX工作室 • 2 年前 • 270 次点击  

本论文可以免费获取,关注公众号并回复:博士论文1020 获取全部源代码下载。


今天分享的是作者在2017年11月提交的最终博士论文。它于2018年2月由Joan Lasenby博士和Andrew Zisserman教授审查,刚刚批准发表。

本论文介绍了作者在剑桥大学在 Roberto Cipolla 教授的指导下进行的研究的主要内容。它包含 206 页、62 个图表、24 个表格和 318 个引文。您可以关注公众号获取全文。

我的论文提出了对计算机视觉领域的贡献,计算机视觉是一门使机器能够看到的科学。这篇博文介绍了这项工作并讲述了这项研究背后的故事。

本论文针对一系列计算机视觉问题提出了深度学习模型:语义分割、实例分割、深度预测、定位、立体视觉和视频场景理解。

摘要

深度学习和卷积神经网络已成为计算机视觉的主要工具。这些技术擅长使用监督学习从数据中学习复杂的表示。特别是,图像识别模型现在在受限设置下优于人类基线。然而,计算机视觉科学旨在构建可以看到的机器。这需要模型能够从图像和视频中提取比识别更丰富的信息。一般来说,将这些深度学习模型从识别应用到计算机视觉中的其他问题明显更具挑战性。

本论文针对多个核心计算机视觉问题提出了端到端的深度学习架构;场景理解、相机姿态估计、立体视觉和视频语义分割。我们的模型优于传统方法,并在许多具有挑战性的计算机视觉基准测试中取得了最新进展。然而,这些端到端模型通常是不可解释的,需要大量的训练数据。

为了解决这个问题,我们有两个观察:(i)我们不需要从头开始学习所有东西,我们对物理世界了解很多,以及(ii)我们不能从数据中了解一切,我们的模型应该知道它们是什么不知道。本论文使用几何和不确定性的概念来探索这些想法。具体来说,我们展示了如何通过利用问题的基础几何来改进端到端深度学习模型。我们明确地对对极几何等概念进行建模,以通过无监督学习进行学习,从而提高性能。其次,我们引入了概率建模和贝叶斯深度学习的思想来理解计算机视觉模型中的不确定性。我们展示了如何量化不同类型的不确定性,从而提高现实世界应用的安全性。

我们站点终身会员即将调整到 1199 元,成为我们 VIP 会员,更多知识资源不见不散!会员可开发票。终身会员将不断向上调整。

到 https://www.latexstudio.net/index/recharge/choice.html 开通 VIP 即可。

精致科研生活从 LaTeX 开始!


故事

我于 2014 年 10 月开始攻读博士学位,加入剑桥大学工程系的控制研究组。回顾我最初的研究计划,我说我想研究“在不确定和具有挑战性的环境中控制自动驾驶汽车的工程问题……”。我花了三个月左右的时间阅读文献,很快就形成了机器人领域最受感知限制的观点。如果您可以获得可靠的世界状态,控制通常很简单。然而,在这个时候,计算机视觉在野外非常脆弱。在游说 Roberto Cipolla 教授数周后(谢谢!),我于 2015 年 1 月加入了他的研究小组并开始攻读计算机视觉博士学位。


当我开始阅读计算机视觉文献时,深度学习在 ImageNet 数据集上取得了鼓舞人心的突破后,才刚刚在图像分类中流行起来。但它尚未在该领域普及,并用于更丰富的计算机视觉任务,如场景理解。让我对深度学习感到兴奋的是,它可以从过于复杂而无法手动设计的数据中学习表征。


我最初专注于为计算机视觉任务构建端到端的深度学习模型,我认为这对机器人最有趣,例如场景理解 (SegNet)和定位 (PoseNet)。然而,我很快意识到,虽然这只是一个开始,但应用端到端的深度学习还不够。在我的论文中,我认为我们可以比简单的端到端卷积网络做得更好。特别是在数据和计算有限的情况下,我们可以利用我们对世界的知识来形成更强大的计算机视觉模型。具体来说,我专注于围绕几何和不确定性的两个想法。

  • 几何就是利用世界的结构。这对于通过自我监督改进架构和学习非常有用。

  • 不确定性理解我们的模型不知道的东西。这对于稳健学习、安全关键系统和主动学习非常有用。

在过去的三年里,我有幸与一些非常有才华的研究人员一起工作,研究从定位到分割再到立体视觉的许多核心计算机视觉问题。

用于建模语义分割中的不确定性的贝叶斯深度学习。

 

本论文由六章组成。每个主要章节都介绍了端到端的深度学习模型,并讨论了如何应用几何和不确定性的思想。

第 1 章 - 介绍。在更广泛的计算机视觉领域内推动这项工作。

第 2 章 - 场景理解。介绍 SegNet,对任意和认知不确定性建模,以及一种学习几何和语义多任务场景理解模型的方法。

第 3 章 - 本地化。描述 PoseNet 以实现高效定位,并使用几何重投影误差和估计重定位不确定性进行改进。

第 4 章 - 立体视觉。使用几何设计立体视觉的端到端模型,并展示如何利用不确定性和自监督学习来提高性能。

第 5 章 - 视频场景理解。说明用于学习语义、运动和几何的视频场景理解模型。

第 6 章 - 结论。描述了这项研究的局限性和未来的挑战。

上图是本论文中考虑的模型的概述。


至于接下来是什么?

本论文解释了如何从视频中提取强大的世界状态——语义、运动和几何。我现在很高兴将这些想法应用于机器人技术并学习从感知到行动的推理。我正在与一个出色的自动驾驶团队合作,将机器人技术和机器学习领域结合在一起。我们正在使用来自计算机视觉和强化学习的想法来构建数据效率最高的自动驾驶汽车。

选自:

https://alexgkendall.com/computer_vision/phd_thesis/?&continueFlag=3e5ec84094adc63d1ff53d2cc8d72b5d

点击
阅读原文

获取下载文件



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/121680
 
270 次点击