知其然,知其所以然。机器学习领域近年的发展非常迅速,然而我们对机器学习理论的理解还很有限,有些模型的实验效果甚至超出了我们对基础理论的理解。目前,领域内越来越多的研究者开始重视和反思这个问题。近日,一位名为 Aidan Cooper 的数据科学家撰写了一篇博客,梳理了模型的实验结果和基础理论之间的关系。原文链接:https://www.aidancooper.co.uk/utility-vs-understanding/?continueFlag=b96fa8ed72dfc82b777e51b7e954c7dc
并非上图所有领域都完全包含在机器学习 (ML) 中,但它们都可以应用于 ML 的语境中或与之密切相关。许多被评估的领域是重叠的,并且无法清晰地描述:强化学习、联邦学习和图 ML 的高级方法通常基于深度学习。因此,我考虑了它们理论与实际效用的非深度学习方面。
右上象限:高理解、高效用
线性回归是一种简单、易于理解且高效的方法。虽然经常被低估和忽视,但它的使用广度和透彻的理论基础让其处于图中右上角的位置。传统的机器学习已经发展为一个高度理论理解和实用的领域。复杂的 ML 算法,例如梯度提升决策树(GBDT),已被证明在一些复杂的预测任务中通常优于线性回归。大数据问题无疑就是这种情况。可以说,对过参数化模型的理论理解仍然存在漏洞,但实现机器学习是一个精细的方法论过程,只要做得好,模型在行业内也能可靠地运行。然而,额外的复杂性和灵活性确实会导致出现一些错误,这就是为什么我将机器学习放在线性回归的左侧。一般来说,有监督的 机器学习比它的无监督对应物更精细,更有影响力,但两种方法都有效地解决了不同的问题空间。贝叶斯方法拥有一群狂热的从业者,他们宣扬它优于更流行的经典统计方法。在某些情况下,贝叶斯模型特别有用:仅点估计是不够的,不确定性的估计很重要;当数据有限或高度缺失时;并且当您了解要在模型中明确包含的数据生成过程时。贝叶斯模型的实用性受到以下事实的限制:对于许多问题,点估计已经足够好,人们只是默认使用非贝叶斯方法。更重要的是,有一些方法可以量化传统 ML 的不确定性(它们只是很少使用)。通常,将 ML 算法简单地应用于数据会更容易,而不必考虑数据生成机制和先验。贝叶斯模型在计算上也很昂贵,并且如果理论进步产生更好的采样和近似方法,那么它会具有更高的实用性。
右下象限:低理解,高效用
与大多数领域的进展相反,深度学习取得了一些惊人的成功,尽管理论方面被证明从根本上难以取得进展。深度学习体现了一种鲜为人知的方法的许多特征:模型不稳定、难以可靠地构建、基于弱启发式进行配置以及产生不可预测的结果。诸如随机种子 “调整” 之类的可疑做法非常普遍,而且工作模型的机制也很难解释。然而,深度学习继续推进并在计算机视觉和自然语言处理等领域达到超人的性能水平,开辟了一个充满其他难以理解的任务的世界,如自动驾驶。假设,通用 AI 将占据右下角,因为根据定义,超级智能超出了人类的理解范围,可以用于解决任何问题。目前,它仅作为思想实验包含在内。每个象限的定性描述。字段可以通过其对应区域中的部分或全部描述来描述