社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

Nat. Mach. Intell. | 面向反应预测与合成规划的统一预训练深度学习框架

DrugAI • 1 周前 • 36 次点击  

DRUGONE

人工智能正在深刻改变精准有机合成领域。数据驱动方法,特别是机器学习和深度学习,在反应性能预测与合成规划方面展现出巨大潜力。然而,数值回归驱动的反应性能预测与基于序列生成的合成规划之间存在方法学差异,使得构建统一的深度学习架构极具挑战性。研究人员提出了 RXNGraphormer 框架,通过预训练方式同时解决这两类任务。该框架结合图神经网络对分子内模式的识别,以及Transformer模型对分子间相互作用的建模,并基于 1300 万条反应数据进行训练。RXNGraphormer 在八个基准数据集(反应性、选择性预测、正向合成与逆合成规划)及三个外部实际数据集上均取得最优表现。值得注意的是,该模型能够自动生成具有化学意义的反应嵌入,并在没有显式监督的情况下按类型聚类。这项研究弥合了性能预测与合成规划之间的关键鸿沟,为反应预测与合成设计提供了通用工具。

反应反应性预测、选择性预测、逆合成分析及反应产物预测,是实现精准化学合成的四大支柱。稳健的结构–性能关系是准确预测反应性的关键。逆合成任务识别目标分子的可行前体,而反应结果预测则推断可能生成的产物。传统方法往往依赖模板匹配,难以应对新颖反应。


近年来,机器学习和深度学习的广泛应用,引发了有机反应预测领域的革命。研究人员通过大规模实验数据中的相关性,能够有效预测反应性与选择性。然而,性能预测与合成规划两类任务计算需求不同:前者依赖数值回归,后者基于序列生成。虽然有研究尝试使用文本表示实现跨任务预测,但基于分子图的策略依然分散。研究人员认为,一个同时整合图编码器与相互作用编码器,并具备回归层和序列解码器的统一框架,可以在单一体系中完成反应性能预测与合成规划。


结果


RXNGraphormer 的设计

研究人员构建了包含超过 1300 万条反应的大规模数据集,设计了一种基于对比学习的预训练策略。该模型通过“片段交换”算法生成虚拟反应,用以增强对真实反应与虚拟反应的判别能力。随后,研究人员引入 delta-mol 图,捕捉反应中键断裂与形成的中间状态,从而在不依赖量子化学计算的情况下获得反应机制信息。


预训练嵌入的反应类型判别

研究人员验证了预训练后的模型是否能区分不同类型的反应。结果表明,即便没有显式训练,模型生成的反应嵌入也能在潜在空间中自动聚类,清晰区分反应类型。这表明模型已学习到与化学键转化和电子效应相关的模式。


回归性能

在多个反应性能数据集上(包括 Buchwald–Hartwig 反应、Suzuki–Miyaura 反应、自由基 C–H 官能化、手性硫醇加成),RXNGraphormer 在反应性、区域选择性和对映选择性预测中均表现出色,超过现有方法。模型在外推测试中也能保持高准确性,显示了良好的泛化能力。进一步在三个文献数据集上的测试表明,即使在高噪声或真实实验条件下,该模型仍能提供可靠预测。


合成规划性能

在单步合成预测方面,RXNGraphormer 在 USPTO 系列数据集上与多种先进方法进行比较。在 USPTO-50k 数据集上,其 Top-3、Top-5、Top-10 准确率均优于其他方法。在更大规模的 USPTO-full 数据集中,RXNGraphormer 刷新了多个准确率指标。在 USPTO-480k 的正向合成预测任务中,模型 Top-1 准确率略低于最佳模型,但在更高阶指标上表现更优。在包含立体化学的 USPTO-STEREO 数据集上,RXNGraphormer 在所有指标上均实现最优表现。

讨论

研究人员提出的 RXNGraphormer 是一个统一的深度学习框架,能够同时完成反应性能预测与合成规划。该模型通过对 1300 万条真实与虚拟反应的预训练,获得了丰富的分子与反应表征能力。结合 delta-mol 方法,该模型在反应性与选择性预测上展现高准确性,同时在逆合成与正向合成规划中超越主流方法。


更重要的是,预训练策略使得模型不仅在预测上表现优异,还具备了一定的可解释性。反应类型能够在潜在空间中自然聚类,使得模型不再是单纯的“黑箱”,而是逐渐走向“灰箱”解释。通过弥合性能预测与合成规划的分歧,RXNGraphormer 为化学人工智能提供了一个统一且高效的解决方案,有望推动数据驱动的合成设计与新化学空间探索。

整理 | DrugOne团队


参考资料


Xu, LC., Tang, MJ., An, J. et al. A unified pre-trained deep learning framework for cross-task reaction performance prediction and synthesis planning. Nat Mach Intell (2025). 

https://doi.org/10.1038/s42256-025-01098-4

内容为【DrugOne】公众号原创转载请注明来源

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/185863
 
36 次点击