人工智能正在深刻改变精准有机合成领域。数据驱动方法,特别是机器学习和深度学习,在反应性能预测与合成规划方面展现出巨大潜力。然而,数值回归驱动的反应性能预测与基于序列生成的合成规划之间存在方法学差异,使得构建统一的深度学习架构极具挑战性。
研究人员提出了RXNGraphormer框架,通过预训练方式同时解决这两类任务。该框架结合图神经网络对分子内模式的识别,以及Transformer模型对分子间相互作用的建模,并基于1300万条反应数据进行训练。RXNGraphormer在八个基准数据集(反应性、选择性预测、正向合成与逆合成规划)及三个外部实际数据集上均取得最优表现。值得注意的是,该模型能够自动生成具有化学意义的反应嵌入,并在没有显式监督的情况下按类型聚类。这项研究弥合了性能预测与合成规划之间的关键鸿沟,为反应预测与合成设计提供了通用工具。
相关研究于2025年8月19日发表在Nature Machine Intelligence上。
反应反应性预测、选择性预测、逆合成分析及反应产物预测,是实现精准化学合成的四大支柱。稳健的结构–性能关系是准确预测反应性的关键。逆合成任务识别目标分子的可行前体,而反应结果预测则推断可能生成的产物。传统方法往往依赖模板匹配,难以应对新颖反应。
近年来,机器学习和深度学习的广泛应用,引发了有机反应预测领域的革命。研究人员通过大规模实验数据中的相关性,能够有效预测反应性与选择性。然而,性能预测与合成规划两类任务计算需求不同:前者依赖数值回归,后者基于序列生成。虽然有研究尝试使用文本表示实现跨任务预测,但基于分子图的策略依然分散。研究人员认为,一个同时整合图编码器与相互作用编码器,并具备回归层和序列解码器的统一框架,可以在单一体系中完成反应性能预测与合成规划。
研究人员构建了包含超过1300万条反应的大规模数据集,设计了一种基于对比学习的预训练策略。该模型通过“片段交换”算法生成虚拟反应,用以增强对真实反应与虚拟反应的判别能力。随后,研究人员引入delta-mol图,捕捉反应中键断裂与形成的中间状态,从而在不依赖量子化学计算的情况下获得反应机制信息。
研究人员验证了预训练后的模型是否能区分不同类型的反应。结果表明,即便没有显式训练,模型生成的反应嵌入也能在潜在空间中自动聚类,清晰区分反应类型。这表明模型已学习到与化学键转化和电子效应相关的模式。
在多个反应性能数据集上(包括Buchwald–Hartwig反应、Suzuki–Miyaura反应、自由基C–H官能化、手性硫醇加成),RXNGraphormer在反应性、区域选择性和对映选择性预测中均表现出色,超过现有方法。模型在外推测试中也能保持高准确性,显示了良好的泛化能力。进一步在三个文献数据集上的测试表明,即使在高噪声或真实实验条件下,该模型仍能提供可靠预测。
在单步合成预测方面,RXNGraphormer在USPTO系列数据集上与多种先进方法进行比较。在USPTO-50k数据集上,其Top-3、Top-5、Top-10准确率均优于其他方法。在更大规模的USPTO-full数据集中,RXNGraphormer刷新了多个准确率指标。在USPTO-480k的正向合成预测任务中,模型Top-1准确率略低于最佳模型,但在更高阶指标上表现更优。在包含立体化学的USPTO-STEREO数据集上,RXNGraphormer在所有指标上均实现最优表现。
研究人员提出的RXNGraphormer是一个统一的深度学习框架,能够同时完成反应性能预测与合成规划。该模型通过对1300万条真实与虚拟反应的预训练,获得了丰富的分子与反应表征能力。结合delta-mol方法,该模型在反应性与选择性预测上展现高准确性,同时在逆合成与正向合成规划中超越主流方法。
更重要的是,预训练策略使得模型不仅在预测上表现优异,还具备了一定的可解释性。反应类型能够在潜在空间中自然聚类,使得模型不再是单纯的“黑箱”,而是逐渐走向“灰箱”解释。通过弥合性能预测与合成规划的分歧,RXNGraphormer为化学人工智能提供了一个统一且高效的解决方案,有望推动数据驱动的合成设计与新化学空间探索。
参考资料
Xu, LC., Tang, MJ., An, J. et al. A unified pre-trained deep learning framework for cross-task reaction performance prediction and synthesis planning. Nat Mach Intell (2025).
https://doi.org/10.1038/s42256-025-01098-4
感兴趣的读者,可以添加小邦微信加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位或姓名-学校-职务/研究方向。