当成像模型遇上深度学习，这名北大青年学者想突破“拍摄的极限”

作者 | 黄善清

编辑 | 青暮

“除了专业人士，现在会背单反出外拍照的人已经越来越少了，其中最主要的原因是手机上的相机越来越好用了，这与计算摄像学的发展有一定关系。”

无可否认，无论是苹果还是华为手机，如今相机性能早已成为产品的核心卖点之一，那些长得越来越像“浴霸”的镜头造型，也因为其可媲美传统相机的摄相功能而被用户所包容着。

“我们所探索的，是要将过去人类 invisible 的东西变成 visible。”

84 年的施柏鑫如此介绍他对“计算摄像学”工作的理解，他是北京大学数字媒体研究所的一名新体制研究员，“相机智能”实验室的负责人。

施柏鑫，现任北京大学计算机系数字媒体研究所研究员（“博雅青年学者”）、博士生导师，“相机智能”课题组负责人；北京大学人工智能研究院院长助理。担任国际计算机视觉期刊（IJCV）编委，国际计算机视觉与模式识别会议（CVPR）领域主席。

所谓计算摄像学，是一门综合信号处理、计算光学、视觉、图形学等多学科知识的新兴交叉学科，与传统获得数据后再进行处理相比，计算摄像学希望更早介入成像的过程，扩展图像和视频的采集维度和增强其采集性能。

相较而言，经典摄像方法在成像的各个维度——空间分辨率、时间分辨率、视角及深度、颜色（光谱）等维度上均遇到了不同的瓶颈，而计算摄像技术能够突破经典成像模型和相机硬件的局限，更加全面、精确地捕捉真实世界的视觉信息。

“许多顶尖高校的计算机系或电子工程系都设有类似的研究方向，我 2017 年刚回国那会，北大做计算机视觉的老师当中还没有专门做偏底层相机成像模型研究的，与其相关的研究就是计算摄像学，如何让摄像拥有更高性能、更多维度、更少失真，整体来说在 CV 领域里算是比较小众的一个方向。”

刚刚入职北大满 3 年的施柏鑫，科研资历虽然不算深，但在计算摄像学领域已有拿得出手的成果 —— 2016 年由他作为第一作者发布的 DiLiGenT 光度立体数据集，是目前业界唯一一套光度立体实拍 benchmark 数据集，之后几乎所有从事光度立体方向的研究人员都使用过这份数据集[1]。

而他接下来的目标，是想要进一步在计算摄像学领域开发一些更看得见、摸得着的东西，比如相机原型系统或者成像芯片，他希望通过落地新型的成像设备，给手机或相机用户全新的摄像体验、给视觉计算系统更丰富的输入信息。

1

科研界的“世界公民”

施柏鑫跟计算摄像学的结缘，源于日本东京大学的读博经历。

2010 年10月，对日剧、二次元文化有着浓厚兴趣的施柏鑫，自北大硕士毕业后，申请到了东京大学的全额奖学金博士项目，最终顺利入学师从 Katsushi Ikeuchi（池内克史）教授。

Ikeuchi教授是全球基于物理计算机视觉方向的泰斗，施柏鑫有幸成为当时已 60 多岁的池内教授的倒数第二届学生，当时一起联合指导施柏鑫的尚有来自微软亚洲研究院的 Yasuyuki Matsushita (松下康之，现为日本大阪大学教授) 与新加坡国立大学的谭平（现任加拿大西蒙弗雷泽大学副教授），他们也都是奔赴在计算机视觉与计算摄像学科研前线的专家。

读博期间，施柏鑫的博士论文主要是关于面向真实反射率和光照的光度立体视觉，在物理成像方面的研究积累为他后来从事计算摄像学研究打下来坚实的基础。

与其他计算机视觉研究方向不同，计算摄像学研究需要通过大量真实数据的拍摄来验证算法，在这之前对摄影没有特别喜好、连单反都不会使用的施柏鑫，秉着“干一行爱一行”的精神，从 0 开始学习掌握实验室里各类相机的使用。

让三位指导老师们每周都腾出一小时时间与他一对一谈话，施柏鑫坦言那段时间压力极大，但也因此让他在专业上有了较深厚的积累，并对计算摄像学真正产生了浓厚的兴趣。

东京大学读博期间与 Katsushi Ikeuchi 教授合影

临博士毕业前，MIT 媒体实验室一段关于飞秒相机的视频深深吸引住了他。

所谓飞秒相机，能在万亿分之一秒的数量级曝光，从而区分每个光通过不同路径到达每个像素的时间和距离。

“当时觉得原来光的传播还可以这么做，简直太神奇了“。

其原理是通过与相机同步的飞秒激光器，实现对光传播路径的分解，然后选择那些不是通过直接反射、且通过墙壁等遮挡物间接多次反射到达相机的光强，进而实现对隐蔽景物的成像。

鉴于此工作给自己留下的深刻印象，施柏鑫在博士毕业后毫不犹豫申请了 MIT 媒体实验室的博士后。

对科技界有所了解的人基本上都知道 MIT 媒体实验室，它是世界上最重要的跨学科研究学术阵地之一，电子墨水屏技术、XO Laptop百元电脑、乐高Mindstorms、Scratch编程语言、全息数字3D打印、仿生义肢等众多高科技都诞生于此。

MIT 博士后期间，施柏鑫主要投入研究非传统传感器的成像问题，这期间有几项成果获得了国内外媒体的广泛报道。

其中一项是让 3D 扫描成像效果提升 1000 倍技术。在这项研究里，为了解决偏振光三位重建表面的歧义性问题，实验室的研究人员通过现有方法提供的粗略深度估计（例如，微软 Kinect），融合偏振成像中蕴含的高频几何特征，实现了千万像素、数十微米级别的高精度三维摄像 [2]。

而另一项则是拍摄不会“过曝”的相机（也被称作“余数相机”）。据施柏鑫介绍，“余数相机”主要通过一个“取余”的过程，来保证传感器不发生饱和：一旦累计的光强达到一定的数值即被瞬间重置，依此往复。拍摄完成后，相机会得到一张“余数图像”，而专门为该相机设计的算法会通过该信息自动恢复出理论上动态范围无上限的图像 [3]。

这段经历对施柏鑫最重要的影响是视野因此变得开阔起来。

“在那里，无论是导师、博士后还是博士生，都属于思想较活跃的一批人，经常会有一些较新奇的想法，并且有能力去实现。”

“MIT 媒体实验室可以说是全世界最有吸引力的实验室之一，以至于当时在那里会觉得那是一个不太安静的地方，因为每天都会有人来参观采访。坐在‘玻璃房子’里面，就像动物园的动物被围观。”施柏鑫苦笑道。

施柏鑫在MIT 媒体实验室的座位

2

IMU治学法则

正式入职北大数字媒体研究所以前，施柏鑫还分别到新加坡科技设计大学、新加坡南洋理工大学从事过博士后研究，加上在美国以及日本的经历，施柏鑫俨然是一名科研界的“世界公民”。

他表示这是一个不断历练的过程，与来自不同国家的科学家打交道，让他开阔眼界之余，也积累了丰富的人脉。

“比如我今年有一篇论文跟 UCLA 合作，但合作的 UCLA 老师实际上便是我在 MIT 当博士后期间共同指导的博士生，这些合作实际上延续到了今天。今年ECCV我们有一篇基于偏振的三维重建论文，也是深度学习第一次在这个问题上成功求解的实例，就是北大和UCLA合作的成果[8]。”

MIT那段经历最重要的影响还体现在治学态度上，施柏鑫将之称为“IMU”法则，这是 MIT 期间的导师所教会他的。

“首先 I 是 impact，你的工作有没有实际影响力；M 是指的 magical，你的东西做出来人家看完后会不会眼睛一亮；U 则是 unique，你做的东西有没有区分度，不仅是 topic 本身，另外包括 publication ，肯定要投最好的期刊和最好的会议。”

此外，施柏鑫还强调治学应该“一个方向坚持，多个方向扩展”。

“这两个因素听起来似乎有点矛盾，所谓一个方向坚持，就是从我第一篇CVPR论文开始至今一直都在做光度立体的相关研究；而围绕光度立体研究，我需要从不同角度、不同假设和不同条件去分析还存在哪些可改进的问题，这便是多个方向扩展。“

施柏鑫举了个例子，当时深度学习刚出来时，学界很少有人利用它来解决基于物理的视觉问题，而他的团队已经发表了很多第一次用深度学习解决相关问题的论文。

他认为这是因为长期在同一个方向做得深入，因此能有较深的认识。

而他多国高校辗转的经历，也让他无形中扩展了自己的研究方向，比如图像恢复的研究是在在新加坡高校期间开始尝试的。

“尝试方向变多以后，论文的边界会比较宽阔，但里面还是有一个核心思想在里头，那就是我的工作由始至终是围绕着成像工作来开展的。我要回答的问题永远是，图像到底是怎么来的？怎样才能拍得更好？相机里到底经过了什么样的过程？”

施柏鑫团队的最新工作是融合传统相机的高性能成像。

今年的 CVPR 他们有两篇论文产出了相关工作，其中一篇是与混合成象有关，具体做法是在高动态范围内结合传统相机图像和神经形态相机视觉信号一起去拍，希望借此突破传统的相机动态范围极限[4]；而另一篇则利用传统图像对神经形态相机视觉信号实现了联合滤波，得到噪声更小、分辨率更高的信号[5]。

“在图像恢复方面，我们也做过一些工作。主要关注分布相对复杂的伪影去除。包括17 年跟新加坡南洋理工大学大学合作时推出的第一个去反射的基准数据集[6]。后来19年发布基于深度学习的摩尔纹去除工作应该是在计算机视觉三大顶会上最早基于深度学习做这个题目的方法[7]。”

3

坚持初心

施柏鑫做博士后之前曾经收到过硅谷一家大型传统相机公司的 offer，邀请他到企业研究院做研究，却被他拒绝了。

“我个人对于怎样很漂亮地去解决一个工程问题不是特别感兴趣，我会更想会去看看这个领域还存在哪些新问题，然后继续往前去探索。”

这份笃定源于他读博期间对同学的观察，有些同学不止代码写得漂亮，当他遇到一个自己感兴趣的新问题时，就会兴致勃勃地写个小程序去实现它，他发现自己不是这样的人。

当然学术上的坚持是有代价的，因为工业界的薪酬条件要比学界好，这点他要感谢家人对自己选择的支持。

“16年那会，如果大家知道北京当时房价以一个多么疯狂的程度在上涨时，就会明白要拿学术这条路的工资去面对很多现实问题的话，压力是很大的，所以能够走到今天真的离不开家人的支持。”

往下，施柏鑫表示将继续深耕计算摄像学，希望结合北大学科齐全的优势，结合自己在“相机智能”方面的探索，在成像的基本问题上取得进一步的突破。

参考文献：

[1] Boxin Shi, Zhipeng Mo, Zhe Wu, Dinglong Duan, Sai-Kit Yeung, and Ping Tan,“A benchmark dataset and evaluation for non-Lambertian and uncalibrated photometric stereo”, In IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), Volume 41, Issue 2, Pages 271-284, 2019. [Earlier version in CVPR 2016]

[2] Achuta Kadambi, Vage Taamazyan, Boxin Shi, and Ramesh Raskar, “Depth sensing using geometrically constrained polarization normals”, In International Journal of Computer Vision (IJCV), Volume 125, Issue 1-3, Pages 34-51, 2017. (invited by Special Issue of Best Papers from ICCV 2015, 9 out of 1700).

[3] Hang Zhao, Boxin Shi, Christy Fernandez-Cull, Sai-Kit Yeung, and Ramesh Raskar, “Unbounded high dynamic range photography using a modulo camera”, In Proc. International Conference on Computational Photography (ICCP), Houston, TX, USA, Apr. 2015. (Oral, Best paper runner-up)

[4] Jin Han, Chu Zhou, Peiqi Duan, Yehui Tang, Chang Xu, Chao Xu, Tiejun Huang, and Boxin Shi, “Neuromorphic camera guided high dynamic range imaging”, In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, Jun. 2020.

[5] Zihao W. Wang, Peiqi Duan, Oliver Cossairt, Aggelos Katsaggelos, Tiejun Huang, and Boxin Shi, “Joint filtering of intensity images and neuromorphic events for high-resolution noise-robust imaging”, In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, Jun. 2020.

[6] Renjie Wan, Boxin Shi, Ling-Yu Duan, Tan Ah Hwee, and Alex C. Kot, “Benchmarking single-image reflection removal algorithms”, In Proc. International Conference on Computer Vision (ICCV), Venice, Italy, Oct. 2017.

[7] Bin He, Ce Wang, Boxin Shi, and Ling-Yu Duan, “Mop moire patterns using MopNet”, In Proc. International Conference on Computer Vision (ICCV), Seoul, Korea, Oct. 2019.

[8] Yunhao Ba, Alex Ross Gilbert, Franklin Wang, Jinfa Yang, Rui Chen, Yiqin Wang, Lei Yan, Boxin Shi, and Achuta Kadamb, “Deep shape from polarization”, In Proc. European Conference on Computer Vision (ECCV), Glasgow, UK, Aug. 2020.

点击阅读原文，直达EMNLP小组！