今天为大家介绍的是来自Paulina Sierak团队的一篇论文。学术文献提出新的机器学习方法时,通常主要通过在特定问题上表现出的预测性能来评估。在这篇立场论文中,作者认为仅凭预测性能并不能很好地反映文献的价值。将预测性能作为唯一标准甚至会引发一些问题,比如整个机器学习研究社区的低效率,以及为研究人员设定了错误的激励。因此,作者呼吁发布“负面”结果,这可以帮助缓解这些问题,并提高机器学习研究社区的科学产出。为了证明这一立场,作者介绍了发布负面结果的优势,并提供了具体措施,推动社区朝着常态化发布负面结果的方向发展。
机器学习在很大程度上是一门经验科学:如果某种方法有效并表现良好,通常被认为是好的结果,值得发表。另一方面,如果一种新方法或算法无法在典型的基准数据集上超越最新技术,研究人员可能会迅速放弃他们的工作,因为这不太可能被发表。
经验机器学习的通常无效假设是,所提出的方法在相关问题子集上的预测性能并不显著优于现有方法。在这种术语中,没有“好”或“坏”的结果。然而,作为一门经验科学,机器学习对预测性能产生了强烈的依赖,似乎只有那些显示提出的方法优于最新技术的特定正面结果才被视为“好”结果。在本文的背景下,负面结果指的是以下特定情况:当不能拒绝通常的无效假设(null hypothesis)时,经验机器学习研究中就会出现负面结果。
作者希望区分两种重要的负面结果子类型:新方法负面结果(Novel method negative results,NMNR)和现有方法负面结果(Existing method negative results,EMNR)。NMNR主要指提出的新方法在选定测试问题上未能在合适的性能指标上超越现有的最新方法的投稿。EMNR则是在现有方法被认为是最新技术的情况下,证明其性能低于预期的情况。这可能是复现研究或揭示现有方法特定失效模式的论文。一个著名的例子是Bengio等人的工作,作者在训练循环神经网络时发现了梯度消失问题,并进一步探索和分析了这些负面结果。EMNR出版物在社区中通常具有更好的地位,因此比NMNR出版物更常发表,但作者仍会在后续讨论EMNR,因为它们也构成了负面结果。
忽视负面结果并几乎只发表正面结果会导致许多问题,如发表偏差(publication bias)、社区低效率、机器学习研究与应用脱节以及为研究人员设定有问题的激励机制。本文认为,机器学习研究正处于应鼓励甚至欢迎负面结果发表的阶段。需要明确的是,作者并不主张大多数出版物都围绕负面结果展开,但相信如果鼓励部分负面结果的发表,研究社区的科学产出会更健康、更优秀。
预测性能指标在许多机器学习出版物中至关重要,其中准确性可能是最著名的。接下来,作者将提出三个关键假设,以强调由于在出版物和评审中过度强调预测性能而导致的机器学习研究社区中的几个问题。
纯粹的预测性能是衡量科学进步的错误指标。机器学习研究界选择了一个有问题的指标来衡量科学进步和出版物的价值,更何况这个指标还有噪音。公平地说,评判出版物(尤其是NMNR出版物)及其贡献并非易事。正如Wagstaff所言:“该领域的目标函数是什么?”目前尚不清楚机器学习应该追求什么。是性能提升还是对社会的影响?将机器学习研究领域与医学进行比较:新程序和药物的评估比机器学习算法的评估更为明确。如果一种药物能比现有药物更快地帮助更多人恢复健康,就可以认为它是成功的,并且对社会产生了积极影响。相反,如果一种新的计算机视觉方法能提高在ImageNet或CIFAR等流行基准集上的分类准确性,不能确定这种方法是否能帮助实际应用中的从业者解决他们每天面临的问题,或对社会产生影响。这种研究与实际应用之间的脱节在社区中长期被诟病。以Roberts等(2021)为例,他们检查了在出版物中提出的机器学习模型在检测和/或预测新冠肺炎方面的潜在临床用途。他们确定了2212项相关研究,并在经过严格的质量筛选后详细审查了最有前途的62项研究,结果发现没有一个提出的模型具有任何临床用途。更何况,预测性能对数据集的选择、超参数调优、评估协议中的技巧甚至随机种子等因素都很敏感。因此,研究界越来越难以评估新提出的方法,并且对这些微小的改进产生了不信任。实际上,过去的几篇论文指出了发表结果的可重复性问题,并称当前的机器学习研究处于可重复性危机中。
过度关注预测性能给研究人员设立了不良激励。如果在评审过程中,展示通过新方法提高预测性能的投稿被过度奖励,这会为研究人员设定某些激励。例如,机器学习研究本可以从研究人员重新实现现有方法、对其进行基准测试并发表结果中受益匪浅。但我们很少看到这样的出版物,因为没有写这类文章的激励:研究人员提出一种新方法,发表的机会要高得多。此外,计算资源已经成为改进多个机器学习子领域(如生成式人工智能)前沿技术的关键。事实上,大多数重要的机器学习模型都是由工业界而非学术界生产的。过度奖励性能改进和超越现有技术水平,实际上使资源不平等成为发表论文的门槛,只允许少数人影响研究领域的重要部分。虽然并非所有机器学习论文都是经验性的,而且有很多方式可以在不依赖大量计算资源的情况下发表,但计算资源的可用性是一个重要因素。由于类似的原因,计算资源在实验结果的背景下通常被视为混杂变量;在快节奏的研究环境中,许多研究人员必须定期发表文章,因此人们倾向于追求那些产生负面结果可能性较低的项目。由于不展示优于其他方法的性能提升的独特想法获得的奖励较少,创新和投机性想法的激励也就较少。
机器学习研究变得越来越低效。过去几十年里,机器学习研究领域以惊人的速度发展。2010年至2021年间,人工智能相关的出版物数量增加了一倍多,到2021年底,总数接近50万篇。大量新人才不断涌入,大量资金投入机器学习研究。这使得我们的社区成为一个快节奏的研究环境,这在很多方面是有利的。仅在过去几年中,作者就见证了大量的创新,尤其是大型语言模型和生成式人工智能的快速发展。然而,参与机器学习研究的人数众多,使得研究社区变得低效。即使在专业的子领域,人们也会研究相同的问题,发现新方法,并得出相似的结论。如果成功(即发表一篇新方法的论文),这只是一个小问题。对研究社区来说,最糟糕的情况是同时发表两篇略有不同的方法的类似论文。然而,许多研究方法会产生负面结果,这是研究的本质。如果不发表这些负面结果,其他研究人员可能会在类似的实验中尝试验证类似的方法。研究社区注定会像一个没有负面反馈的强化学习算法一样行动。低效还体现在资金和计算资源的分配上。许多模型的训练成本很高,许多计算资源浪费在已经尝试过的方法上。其他科学领域已经通过例如在研究或实验进行之前预注册(pre-registering)来解决这些低效问题,至少对于较大的项目是如此。但预注册在机器学习研究中并未流行起来。作者认为,这在某种程度上是由于其快节奏的性质以及研究人员需要展示的灵活性。
当审稿人面对一篇提出新方法的论文时,应该如何决定这项工作是否值得发表?根据许多会议的指南,应该根据其重要性、相关性和新颖性,以及整体的严谨性、质量或展示等方面进行评判。最终,应该根据其对研究领域的潜在影响和进步以及对社会的影响来进行评判。这是否是读者在阅读时会受益的内容?问题不在于审稿人不遵循这些指南,而在于所提出方法的性能已成为衡量论文价值的一个容易测量的替代指标。随着越来越多的正面结果被发表,研究人员更倾向于提交类似的工作进行审查。顺着这种趋势,已经达到每月有成千上万的论文发表,它们都在引入新方法,并且看似都超越了现有技术。如果能发表那些尽管没有明显正面结果但可能对研究领域有积极和充分影响的论文,就可以打破这个循环,重新校准我们对新方法的评价方式。在这方面解放研究领域,可以让人们不再仅仅为了发表而追求小幅性能提升的工作,而是越来越多地追求他们认为对社区重要的研究(并且仍然能够发表)。
发表有趣且新颖的想法,即使它们没有带来性能改进,也能将这些想法引入到众多从事机器学习研究的聪明头脑中。他们自己可能会有扩展或调整最初提出方法的想法,从而最终找到成功的办法。理解为什么特定方法没有产生预期结果可以带来新的见解和方法论或理论上的改进。此外,如果一些有趣但最终结果为负的想法被发表并成为科学文献的一部分,其他人就不会因为不知道这些想法行不通而浪费时间。如果他们仍然怀疑这些想法的潜力并希望在这个方向上进一步研究,他们会有一个更好的起点。很多负面结果可以帮助机器学习研究社区取得进展。特别是EMNR出版物在过去已经证明了这一点。例如,Bengio在RNN中发小了消失的梯度最终促使Hochreiter和Schmidhuber引入了长短期记忆架构(LSTM),这种方法专门针对并减轻了循环神经网络中的这一弱点。另一个突出的例子是对抗样本,首次由Szegedy等人观察并命名。通过小的扰动,一个网络可能会错误分类本来能正确分类的图像。对抗样本在Goodfellow等人中进一步研究,并且从那时起形成了一个活跃的研究社区,这有助于使神经网络更健壮和可靠。
鼓励发表负面结果还可以增加EMNR论文的数量,这些论文会详细测试或重现先前工作的结果。这将是缓解Pineau等人提到的可重复性危机的重要一步。另一个与可重复性相关的方面是:细致的科学等同于记录所有重要的结果。记录无效的方法和记录有效的方法一样重要。每个研究人员都会潜意识或有意识地为自己这样做,所以,如果机器学习社区能以合理的方式采纳这一点,整体上将从中受益。
最后,发表负面结果将促进对我们自己研究领域更全面和细致的理解。减少对性能提升的关注可以为理论赶上经验结果腾出空间。关注更广泛的影响而不仅仅是预测性能,会鼓励更多样化的研究,因为有趣的方法无论其性能如何都可能得到认可,这最终可能导致更好的理论基础。
1)发表负面结果会降低该领域的整体研究质量。如果没有正面、显著的发现,论文可能缺乏通常在已发表研究中期望的严谨性或创新性。作者同意,相较于没有性能提升的平均论文,有性能提升的平均论文可能更具影响力。然而,过度依赖预测性能来评判新提出的方法,就像一个机器学习模型只根据一个与目标有一定相关性的嘈杂特征做出决策,而不是利用所有可用特征来实现更高的性能。审稿人应该根据所有可用的“特征”来评判投稿,这样只有高质量的作品才能发表。毕竟,如果实验设计合理,分析到位并且具有足够的区分能力以产生可信的结果,负面结果同样有价值。最后,作者并不主张大多数出版物都以负面结果为中心,已发表的作品中较好的部分理应不以负面结果为中心。
2)了解一种方法在特定环境下不起作用的价值有限,而了解它在特定环境下起作用的价值本质上更高。谁能说负面结果只是因为超参数没有正确调整,或是在错误类型的问题上验证了所提方法,甚至是因为实施错误?然而,很多这样的论点也适用于相反的情况。也许ε级别的改进只是因为特定的超参数设置或挑选了特定的数据集。作者实际上认为,这不是负面结果与正面结果的问题,而是方法的正确评估和细致的实验协议的问题。这些问题在呈现负面和正面结果的论文中都会出现。这也扩展到经验结果中的更抽象的混杂变量概念。一些变量,比如超参数调整或计算资源,更常与正面结果相关,而其他一些变量,如实现错误,通常与负面结果相关。如果作者没有通过例如明确评论、可理解和细致的实验或消融研究清楚地表明到底是什么导致了他们的结果,审稿人就需要指出这些不足,提出必要的问题,并在需要时拒绝这样的投稿——无论是正面结果还是负面结果。
3)新的科学价值评估标准将会出现,并引入新的偏见,影响发表内容。研究人员会优化他们的投稿,这可能会产生新的评估标准来替代性能,并且这些新标准会被过度重视。一个例子是迎合当前热门话题的趋势。作者认为这些评估标准今天已经存在了,因为某些话题被过度发表只是因为它们“热门”并不是新鲜事。作者认为,性能只是其中最突出的一个。作者对评审过程充满信心,认为它已经在应对这些挑战,并将在未来继续解决这些问题。
4)某些类型的负面结果比其他类型更有可能被发表。存在一种风险,即只发表某些类型的负面结果,可能是那些与流行叙事或当前趋势一致的,而不是所有负面结果的真正代表性样本。这对正面结果也是如此,是当前机器学习研究的一个问题。作者认为,发表负面结果不会改变或加剧这个问题。
Karl, F., Kemeter, L. M., Dax, G., & Sierak, P. (2024). Position: Embracing Negative Results in Machine Learning. arXiv preprint arXiv:2406.03980.