经典机器学习 (ML) 大多专注于利用尽可能多的数据进行更准确的预测。近来,研究人员也在思考其他的重要目标,例如如何设计小型、高效且稳定的算法。围绕这些目标,如何在神经网络上设计一个能高效存储已编码信息的系统自然而然成为了研究目标。换言之,我们想设计出一套可展示深度网络如何处理与计算输入的信息的概述(“原型, sketch”)机制。原型构造 (Sketching) 研究领域的广泛可追溯到 Alon、Matias 和 Szegedy 的基础性工作,这种方法可以让神经网络更高效地汇总输入数据的相关信息。
注:Alon、Matias 和 Szegedy 的基础性工作
http://www.math.tau.ac.il/~nogaa/PDFS/amsz4.pdf
例如:想象一下你走进了一个房间,大概扫一眼屋里有哪些物体。现代机器学习非常善于回答即时提问 (immediate questions),即在训练阶段已知的场景问题,如:“屋子里有猫吗?这只猫有多大?”
现在,假设我们在过去一年中每一天都会检查这个房间。人们可以回忆起他们检查房间时的情形,并回答:“我们一般多久能看到一次猫?我们通常是在上午还是晚上看到它?(未被预先设定的问题,基于记忆内容的提问)”。所以,是否能设计一个能高效回答此类 基于记忆提问 的系统呢?
在近期于 ICML 2019 上推出的“模块化深度学习的递归原型 “Recursive Sketches for Modular Deep Learning”中,我们探讨了如何概述” 机器学习模型是如何理解输入的数据”。我们实现这一目的的方法是:使用现有已训练的机器学习模型通过计算“原型”来增强该模型,并应用于有效地回答基于记忆的提问(例如图片之间的相似性以及汇总一些特征),相较于存储整个原始计算过程,存储原型仅需占用较少的内存。
注:ICML 2019
https://icml.cc/Conferences/2019
模块化深度学习的递归原型
https://arxiv.org/abs/1905.12730