Paper2Code：机器学习中科学论文的自动代码生成

介绍

可重复性是科学进步的基石，但在机器学习研究中，存在着一个显著的缺陷：许多已发表的论文缺乏相应的代码实现。这阻碍了结果的验证，并减缓了科学的进步。为了应对这一挑战，韩国科学技术研究院 (KAIST) 和 DeepAuto.ai 的研究人员开发了 PaperCoder，这是一个自动化框架，可以直接从机器学习研究论文生成可执行代码库。

图 1：PaperCoder 框架的三阶段方法，展示它如何通过规划、分析和编码阶段将研究论文转换为代码库。

与以往依赖现有代码片段或 API 的方法不同，PaperCoder 旨在利用多智能体系统中的大型语言模型 (LLM) 创建完整、可执行的代码库。该系统模拟了人类软件开发过程，将其分解为三个结构化阶段：规划、分析和生成。

机器学习中的可重复性危机

机器学习社区面临着巨大的可重复性挑战。对近期顶级机器学习会议的分析表明，只有一小部分被接受的论文提供了代码：

图 2：主要机器学习会议（ICLR、NeurIPS 和 ICML 2024）中公开代码的论文百分比。

如图 2 所示，在 ICLR 2024 上，仅有 21.2% 的论文提供了公开代码，在 NeurIPS 2024 上，仅有 10.9% 的论文提供了公开代码，在 ICML 2024 上，仅有 31.6% 的论文提供了公开代码。缺乏实现细节导致研究人员难以验证结果并在现有工作的基础上进行扩展，从而阻碍了该领域的科学进展。

PaperCoder 框架

PaperCoder 通过将研究存储库生成形式化为软件开发问题来解决可重复性挑战。该框架可以表示为 M(R) = C，其中：

R 是包含方法论和算法的研究论文
C是生成的代码库
M 是基于 LLM 的模型，执行转换

该系统采用三阶段方法，模拟人类软件开发过程：

规划阶段：创建高级路线图，包括架构设计（类图和序列图）、文件依赖关系识别和配置文件生成。
分析阶段：对每个文件和功能进行细粒度的解释，分析输入、输出、交互和算法约束。
生成阶段：根据规划期间确定的执行顺序合成整个代码库。

每个阶段都使用专门的 LLM 代理来实现，这些代理协作完成任务，从而使 PaperCoder 成为一个复杂的多代理系统。

技术实现

PaperCoder 的详细实现揭示了它如何克服从论文生成代码的简单方法的局限性：

图 3：PaperCoder 实现的详细视图，展示了与简单方法的对比，并通过具体示例说明了三个阶段的过程。

如图 3 所示，一种简单的方法（左侧）直接将论文输入 LLM，通常会生成包含严重错误的代码，例如缺少位置编码或优化器实现。相比之下，PaperCoder 的结构化方法包括：

规划：

总体规划制定
使用 UML 图进行架构设计
文件依赖关系的逻辑设计

配置文件创建

分析：

对每个文件的细粒度解释
详细检查功能及其相互依赖性
识别位置编码机制等关键部件

编码：

基于分析的系统代码生成
实施前几个阶段确定的所有必要组件

这种结构化方法可确保论文中的关键细节（例如位置编码实现或具有特定参数的 Adam 优化器）正确地合并到生成的代码中。

评估方法

PaperCoder 的有效性评估采用定量指标和人工评估相结合的方式。评估内容包括：

基于参考的评估：将生成的代码与现有的参考实现进行比较（如果可用）。
无参考评估：无需参考实现即可评估生成的代码的质量。
人工评估：让原论文作者或领域专家评估生成的代码的正确性和完整性。

基于参考和无参考评估之间的相关性如图4所示：

评估方法之间的相关性 图 4：基于参考和无参考的评估分数之间存在强相关性（r = 0.79），表明即使没有现有代码也可以可靠地评估模型。

这种强相关性（r = 0.79）确保即使在没有参考实现的情况下也可以可靠地评估 PaperCoder，而对于没有发布代码的论文来说，情况通常如此。

结果与表现

PaperCoder 相较于基准方法展现出显著的改进，能够生成更有效、更可靠的代码库。主要性能亮点包括：

优于现有基线：PaperCoder 优于 ChatDev 和 MetaGPT 等软件开发工作基线，表明其专门设计的有效性。
组件贡献：框架的每个组件（规划、分析和生成）都对整体性能的提升做出了贡献，正如消融研究所证明的那样。
高可执行性：生成的代码库是可执行的，在发生执行错误的情况下通常只需要进行微小的修改（平均占总代码行的 0.48％）。
强大的复制能力：PaperCoder 在 PaperBench Code-Dev 基准测试中获得了较高的复制分数，证明了其在捕捉研究论文基本要素方面的有效性。

该框架根据两个基准进行评估：

Paper2Code 基准（由作者创建）
现有的 PaperBench 基准

在这两种情况下，PaperCoder 都表现出比基线方法更优异的性能。

人工评估

人工评估对于评估生成代码库的实用性至关重要。作者与包括原论文作者在内的专家进行了评估，以评估生成代码的质量。结果显示：

PaperCoder 生成的存储库中有 77% 被人类评估者评为最佳
85% 的人类评委表示生成的存储库很有帮助

图 5 展示了人工评估表的示例：

图 5：用于评估生成的代码库质量的示例人工评估表。

评估涵盖了生成的代码对原始论文各个组成部分的实现情况的详细评估，包括数据处理、方法和评估程序。这项以人为本的评估为 PaperCoder 在实际研究场景中的实用性提供了强有力的证据。

局限性和未来工作

尽管性能强大，PaperCoder 仍存在一些局限性，这些局限性指明了未来研究的方向：

范围限制：目前的实施主要针对机器学习论文。将该框架扩展到其他科学领域将扩大其影响力。
评估局限性：主要评估依赖于基于模型的指标。结合更多基于自动化执行的评估，包括故障定位和调试，将提升其实用性。
复杂算法的实现：一些高度复杂的算法或新颖的数学公式仍然可能对系统构成挑战。
依赖关系处理：管理外部依赖关系并确保跨不同软件环境的兼容性仍然具有挑战性。

未来的工作可以通过以下方式解决这些限制：

扩展框架以涵盖更广泛的科学学科
开发更复杂的基于执行的评估指标
结合自动调试和纠错功能
增强依赖管理和环境兼容性

结论

Paper2Code 代表了从科学论文自动生成代码的重大进步，解决了机器学习研究可重复性的关键挑战。PaperCoder 通过在模拟人类软件开发过程的结构化多智能体框架中利用 LLM，可以生成可执行代码库，忠实地实现研究论文中描述的方法。

该框架的三阶段方法——规划、分析和生成——确保关键组件得到正确识别和实现，从而克服了简单代码生成方法的局限性。定量评估和人工评估均证明了 PaperCoder 的有效性和实用性。

通过自动生成研究论文的代码，PaperCoder 有望通过提高可重复性来加速科学进步，使研究人员能够更轻松地验证和构建现有工作。这有助于在机器学习领域乃至其他科学领域构建更加透明、高效的研究生态系统。