本论文可以免费获取，关注公众号并回复：博士论文1020 获取全部源代码下载。

今天分享的是作者在2017年11月提交的最终博士论文。它于2018年2月由Joan Lasenby博士和Andrew Zisserman教授审查，刚刚批准发表。

本论文介绍了作者在剑桥大学在 Roberto Cipolla 教授的指导下进行的研究的主要内容。它包含 206 页、62 个图表、24 个表格和 318 个引文。您可以关注公众号获取全文。

我的论文提出了对计算机视觉领域的贡献，计算机视觉是一门使机器能够看到的科学。这篇博文介绍了这项工作并讲述了这项研究背后的故事。

本论文针对一系列计算机视觉问题提出了深度学习模型：语义分割、实例分割、深度预测、定位、立体视觉和视频场景理解。

摘要

深度学习和卷积神经网络已成为计算机视觉的主要工具。这些技术擅长使用监督学习从数据中学习复杂的表示。特别是，图像识别模型现在在受限设置下优于人类基线。然而，计算机视觉科学旨在构建可以看到的机器。这需要模型能够从图像和视频中提取比识别更丰富的信息。一般来说，将这些深度学习模型从识别应用到计算机视觉中的其他问题明显更具挑战性。

本论文针对多个核心计算机视觉问题提出了端到端的深度学习架构；场景理解、相机姿态估计、立体视觉和视频语义分割。我们的模型优于传统方法，并在许多具有挑战性的计算机视觉基准测试中取得了最新进展。然而，这些端到端模型通常是不可解释的，需要大量的训练数据。

为了解决这个问题，我们有两个观察：（i）我们不需要从头开始学习所有东西，我们对物理世界了解很多，以及（ii）我们不能从数据中了解一切，我们的模型应该知道它们是什么不知道。本论文使用几何和不确定性的概念来探索这些想法。具体来说，我们展示了如何通过利用问题的基础几何来改进端到端深度学习模型。我们明确地对对极几何等概念进行建模，以通过无监督学习进行学习，从而提高性能。其次，我们引入了概率建模和贝叶斯深度学习的思想来理解计算机视觉模型中的不确定性。我们展示了如何量化不同类型的不确定性，从而提高现实世界应用的安全性。

我们站点终身会员即将调整到 1199 元，成为我们 VIP 会员，更多知识资源不见不散！会员可开发票。终身会员将不断向上调整。

到 https://www.latexstudio.net/index/recharge/choice.html 开通 VIP 即可。

精致科研生活从 LaTeX 开始！

故事

我于 2014 年 10 月开始攻读博士学位，加入剑桥大学工程系的控制研究组。回顾我最初的研究计划，我说我想研究“在不确定和具有挑战性的环境中控制自动驾驶汽车的工程问题……”。我花了三个月左右的时间阅读文献，很快就形成了机器人领域最受感知限制的观点。如果您可以获得可靠的世界状态，控制通常很简单。然而，在这个时候，计算机视觉在野外非常脆弱。在游说 Roberto Cipolla 教授数周后（谢谢！），我于 2015 年 1 月加入了他的研究小组并开始攻读计算机视觉博士学位。

当我开始阅读计算机视觉文献时，深度学习在 ImageNet 数据集上取得了鼓舞人心的突破后，才刚刚在图像分类中流行起来。但它尚未在该领域普及，并用于更丰富的计算机视觉任务，如场景理解。让我对深度学习感到兴奋的是，它可以从过于复杂而无法手动设计的数据中学习表征。

我最初专注于为计算机视觉任务构建端到端的深度学习模型，我认为这对机器人最有趣，例如场景理解 (SegNet)和定位 (PoseNet)。然而，我很快意识到，虽然这只是一个开始，但应用端到端的深度学习还不够。在我的论文中，我认为我们可以比简单的端到端卷积网络做得更好。特别是在数据和计算有限的情况下，我们可以利用我们对世界的知识来形成更强大的计算机视觉模型。具体来说，我专注于围绕几何和不确定性的两个想法。