英文原题:Accelerating Transition State Search and Ligand Screening for Organometallic Catalysis with Reactive Machine Learning Potential
通讯作者:刘奇磊(大连理工大学)
作者:Kun Tang, Yujing Zhao, Lei Zhang, Jian Du, Qingwei Meng, and Qilei Liu*
在当代化学工业中,均相有机金属催化剂因其具有温和的反应条件和优异的选择性,已被广泛应用于有机合成与药物开发领域,对促进绿色化学的发展起到了重要作用。传统计算方法在均相有机金属催化剂配体筛选中,始终面临精度与效率无法两全的核心困境。例如密度泛函理论(DFT)结合过渡态搜索算法,虽能精准计算反应势垒,却因极高的时间成本,完全无法适配大规模筛选需求;半经验量子化学方法(如GFN2-xTB)显著提升运算速度,精度却存在明显短板。因此,研发“既快又好”的计算方法,已成为该领域亟待突破的关键需求。
大连理工大学刘奇磊团队近日在Journal of Chemical Theory and Computation 发表研究,为催化剂配体筛选“精度与效率兼顾”的难题提供了切实解决方案。该团队创新性地提出一种反应机器学习势函数(Reactive Machine Learning Potential, RMLP)建模框架,成功将有机金属催化反应过渡态优化速度提升超3个数量级,并保持与DFT方法(ωb97xd/def2svp)相当的计算精度,为有机金属催化剂配体的高通量筛选开辟了新路径。
机器学习势函数方法已在药物化学、材料科学、非均相催化等多个领域展现出了巨大的应用前景。然而,由于有机金属催化反应势能面的复杂性,以及缺乏包含过渡金属和多样配体的高质量反应数据库,均相有机金属催化领域的RMLP应用潜力仍未得到有效发掘。为此,本研究提出了一种RMLP加速有机金属催化剂配体筛选的工作流(如图1所示),主要包括三个步骤:数据库自动化构建、RMLP模型训练、过渡态搜索与反应势垒预测。
图1. 基于RMLP的有机金属催化剂配体筛选框架。
反应数据生成策略
以铑催化乙烯氢化反应为案例,本研究提出了一种高效的数据库生成混合策略,通过图2所示工作流,为1069种磷配体的乙烯氢化反应生成了496,690个反应构象,并通过DFT计算分子能量及原子力,作为RMLP模型训练标签。此策略使构象采样较DFT方法提速超4个数量级,加速大规模反应路径数据生成。为降低训练数据依赖,研究通过委员会查询(QbC)主动学习策略筛选关键构象,将RMLP训练数据量降至62,545,使得DFT数据标注成本节省约88%(310小时→39小时),且性能与主动学习筛选前模型相近。
图2. 数据库生成混合策略。
RMLP模型性能及测试结果
研究采用MACE机器学习势架构训练RMLP模型。如表1所示,反应路径(IRC)+简正模采样(NMS)生成的构象训练的MACE模型(MACE w/ NMS)在测试集上表现最优(能量MAE = 1.496 kJ•mol-1,原子力MAE = 0.733 kJ•mol-1•Å-1),在此基础上再采用QbC主动学习筛选数据训练的MACE模型(AL MACE w/ NMS)仅有轻微性能损失(能量MAE = 1.658 kJ•mol-1,原子力MAE = 0.938 kJ•mol-1•Å-1),同时,二者性能均远超无NMS数据增强的MACE模型以及同样训练数据下得到的PaiNN架构的消融模型。
表1. 不同模型架构与数据采样策略下的RMLP模型性能对比。
研究进一步在100个随机外部测试反应中,对比不同模型的过渡态优化几何结构误差与反应势垒预测精度。如图3所示,AL MACE w/NMS模型性能优异,过渡态结构优化与IRC计算成功率为93%(相较于DFT基准),几何结构误差RMSE = 0.307 Å,反应势垒预测误差MAE = 0.871 kJ•mol
-1,且几乎所有结果均满足化学精度范围(±4.185 kJ•mol-1 = ±1 kcal•mol-1),同时过渡态优化效率较DFT提升超3个数量级。此外,利用AL MACE w/NMS模型在kraken膦配体库中,筛选出10种商业可获取的低势垒配体,并找到反应势垒低于经典的三苯基膦(威尔金森催化剂配体)的膦配体,为新型高效催化剂提供候选,展现了所提出的RMLP建模框架用于均相有机金属催化剂配体筛选的可行性和有效性。最后,本研究通过Heck反应迁移插入步骤案例验证了所提出的RMLP建模框架在其他复杂有机金属催化反应中的可行性,并证明了RMLP模型的预测性能与反应路径(IRC)周边分子构象空间分布的密切相关性。
图3. RMLP模型在过渡态结构优化与反应势垒预测任务中的表现。
总结与展望
本研究开发了一种数据库生成混合策略,结合MACE机器学习势架构,解决了“高质量数据稀缺”难题,同时实现了“高精度预测”,并最终达成有机金属催化剂配体筛选的“高通量应用”,为均相有机金属催化计算提供了全新研究范式。研究通过QbC主动学习策略,仅用6万余个数据点构建出兼具DFT级精度与千倍提速的机器学习势函数,打破“精度与效率不可兼得”的传统困局。有望加速医药、化工领域催化剂研发,为绿色化学与可持续制造提供技术支撑。展望未来,预训练-微调技术能够对模型的泛化能力提升及新反应体系的训练成本降低起着关键作用,此外,温度、溶剂等外部条件的纳入,能够使预测进一步贴近工业要求。
原文(扫描或长按二维码,识别后直达原文页面):

Accelerating Transition State Search and Ligand Screening for Organometallic Catalysis with Reactive Machine Learning Potential
Kun Tang, Yujing Zhao, Lei Zhang, Jian Du, Qingwei Meng, and Qilei Liu*
J. Chem. Theory Comput. 2025, 21, 18, 8933–8949
https://doi.org/10.1021/acs.jctc.5c01047
Published September 10, 2025
© 2025 American Chemical Society
作者简介
通讯作者:刘奇磊,大连理工大学化工学院制药工程系副教授,博士生导师、硕士生导师。围绕AI4S开展精细化学品智能设计与合成相关研究工作。获大连市青年科技之星(2023)、大连市高层次人才-青年才俊(2024)等荣誉奖项。主持国家自然科学基金青年项目、中国博士后科学基金面上项目等纵向项目8项。发表高水平论文50余篇,包括Adv. Funct. Mater.、AIChE J.、Chem. Eng. Sci.、Ind. Eng. Chem. Res.、J. Chem. Theory Comput.、J. Chem. Inf. Model.、Green Chem.、Sep. Purif. Technol.、Fuel等,总计被引900余次,H-index为14(Google学术)。多次受邀重要学术会议报告。参编国内外教材/专著7本。授权中国发明专利2件,获批软件著作权9件。
第一作者:唐坤,大连理工大学化工学院化学工程系博士生。主要从事机器学习势函数建模、有机金属催化剂分子智能设计等理论研究。已发表SCI/EI学术论文6篇,获批软件著作权1项,曾获国家奖学金、大连理工大学优秀研究生、大连理工大学优秀毕业生等荣誉称号。
(本稿件来自ACS Publications)