Py学习  »  机器学习算法

【计算】反应性ML/MM+MetaD:机器学习势函数首次实现Diels–Alderase催化机制与立体选择性的纳秒级定量预测

X-MOL资讯 • 昨天 • 24 次点击  


酶催化反应的原子级机制解析长期依赖量子力学/分子力学(QM/MM)框架,但传统QM区域高昂的计算成本始终限制着时间尺度、体系规模与自由能采样效率。尤其对于涉及成键/断键过程、过渡态重排以及立体选择性的复杂酶反应,传统QM/MM通常只能在皮秒尺度上进行有限采样,难以真正捕获动态自由能面与构象涨落。近年来迅速发展的机器学习原子间势(Machine Learning Interatomic Potentials, MLIPs)为这一问题提供了新的解决思路。ANI、AIMNet2、MACE等反应性神经网络势函数已逐渐具备接近DFT精度的势能描述能力,同时计算效率接近经典力场,使“ML/MM”逐渐成为下一代多尺度反应模拟的重要方向。然而,如何稳定处理酶体系中的共价边界、长程静电以及增强采样问题,仍是限制ML/MM真正应用于复杂酶催化体系的关键瓶颈。


近期,来自加州大学圣地亚哥分校(UC San Diego)李婉璐、匹兹堡大学Junmei Wang以及美国国立卫生研究院(NIH)的研究团队在Nature Communications上发表研究论文,提出了一套集成于AMBER平台的反应性机器学习/分子力学(ML/MM)框架。该工作通过链接原子(link atom)边界方案将通用反应性MLIP与经典蛋白环境耦合,并进一步结合PLUMED元动力学(metadynamics, MetaD)增强采样,实现了对Diels–Alderase催化反应自由能面、过渡态结构及endo/exo立体选择性的纳秒级定量预测。该框架不仅能够重现实验观察到的催化活性与对映选择性,还揭示了π–π堆积、π–阳离子作用以及局部电场预组织对过渡态稳定化的关键贡献。相关成果发表在Nature Communications上。Xujian Wang (王栩剑)为论文第一作者,Junmei WangWan-Lu Li(李婉璐)为通讯作者。


从QM/MM到反应性ML/MM


传统分子动力学(MD)依赖固定经典力场,无法描述成键与断键等电子结构变化;而量子化学方法虽然能够准确描述反应性,却难以支撑大体系长时间尺度模拟。1976年Warshel与Levitt提出的QM/MM框架首次实现了“反应中心QM+环境MM”的多尺度耦合,并最终获得2013年诺贝尔化学奖。然而,QM/MM的核心问题始终在于QM区域计算代价过高。随着体系规模扩大或需要进行增强采样时,DFT计算往往成为决定性瓶颈。近年来,机器学习势函数的发展使这一问题开始出现突破。ANI、AIMNet2、MACE等模型通过在大规模DFT数据集上训练神经网络,能够以接近经典力场的速度重建高维势能面。相比传统QM/MM,ML/MM的核心思想是:直接用训练好的ML势替代QM哈密顿量,从而在保留化学反应性的同时,将计算效率提高数百至上千倍。

图1. 计算酶学从传统QM/MM向新一代反应性ML/MM框架的发展。图片来源:Nat. Commun.


反应性ML/MM的关键挑战:如何处理共价边界?


虽然MLIPs已经能够很好描述小分子反应,但真正将其用于酶体系并不容易。酶活性位点往往跨越多个氨基酸残基,而ML区域与MM区域之间通常存在共价断键。如果直接切割边界,会在ML区域产生“悬挂键(dangling bond)”,导致电子结构严重失真。为解决这一问题,作者借鉴经典QM/MM中的link atom思想,在ML/MM边界处动态引入氢帽原子,从而保证ML势函数始终获得完整局域化学环境。不同于传统静态封帽方案,该link atom会在MD过程中实时更新位置,并通过链式求导将力重新分配至边界原子,确保体系能量守恒与动力学稳定性。值得注意的是,该框架并不依赖特定MLIP架构。无论是ANI、MACE、AIMNet2还是SpookyNet等主流反应性势函数,都可以通过统一接口接入AMBER平台。


此外,作者还系统建立了ML/MM能量分解方案:ML区域内部键、角与二面角全部由MLIP描述;跨边界键合作用仍保留MM项;长程范德华与静电耦合由经典势处理;ML区域内部静电项则避免重复计算。这一设计使得反应性ML/MM能够稳定运行于复杂蛋白环境中,并与PLUMED增强采样模块兼容。

图2. 反应性ML/MM框架中的link atom边界处理与能量分解方案。图片来源:Nat. Commun.


Diels–Alderase:检验ML/MM的理想模型体系


为了验证该框架的可靠性,作者选择了近年来备受关注的intermolecular Diels–Alderase(MaDA)酶家族作为模型体系。Diels–Alder反应是经典[4+2]环加成反应,能够高效构建复杂六元环骨架,在天然产物合成与药物化学中具有重要意义。近年来发现的一系列Diels–Alderase酶则进一步表明,自然界能够通过蛋白环境精准调控该反应的区域选择性与立体选择性。MaDA体系尤其有趣:MaDA-1 preferentially生成endo产物;MaDA-3则偏向exo路径;水相体系则天然更倾向endo反应。因此,该体系为研究酶如何调控endo/exo选择性提供了理想平台。


作者采用反应性ANI-1xnr势函数描述反应核心,并通过两个成键距离构建二维collective variables(CVs),结合well-tempered metadynamics实现自由能面采样。性能测试结果显示,在84–822原子的ML区域范围内,ML/MM相对于传统ωB97X/6-31G* QM/MM可实现约690–955倍加速,并且计算效率几乎不随ML区域扩大而显著下降。进一步分析发现,仅包含12个关键残基与底物的222原子ML区域即可实现反应势垒收敛。

图3. MaDA Diels–Alderase体系中的反应路径、MetaD采样与ML区域构建。图片来源:Nat. Commun.


ML/MM首次实现纳秒级过渡态采样


相比传统静态theozyme模型,本工作的真正突破在于:能够直接获得纳秒尺度上的过渡态构象集合。传统QM/MM由于DFT成本限制,通常只能获得少量“静态”过渡态结构;而在该ML/MM框架下,作者成功实现了多个纳秒尺度的MetaD模拟,并在轨迹中观察到大量反应事件。通过自由能面重建与最低自由能路径(LFEP)分析,作者不仅成功获得了反应势垒,还进一步通过committor analysis与频率分析验证了过渡态真实性。结果表明:MaDA-1正确预测为endo-selective;MaDA-3正确预测为exo-selective;水相体系则偏向endo路径。


尤其值得注意的是,虽然绝对活化自由能仍存在数kcal/mol偏差,但相对自由能差ΔΔG得到了高度准确的描述。例如:水相体系ΔΔG预测值为−2.63 kcal/mol;DFT参考值为−2.8 kcal/mol;MaDA-3 exo与MaDA-1 endo之间的能差仅偏离约0.17 kcal/mol。这些结果说明,ML/MM已经能够在酶催化体系中实现真正具有预测意义的立体选择性模拟。


π–π堆积与π–阳离子作用决定立体选择性


进一步的过渡态构象分析揭示了MaDA体系立体选择性的微观来源。作者发现,决定endo/exo路径偏好的关键并不是简单的成键距离,而是芳香环之间的空间堆积方式与局部静电环境。在favored transition state中:两个芳香环形成稳定π–π stacking;底物构型更加紧凑;活性位点能够提供更优局部静电稳定化。而在disfavored pathway中:π–π堆积被破坏;底物需要通过构象扭曲形成替代氢键;但这些补偿作用不足以抵消自由能损失。更重要的是,该ML/MM框架能够自然捕获传统经典力场难以描述的高阶弱相互作用,包括:π–π stacking、π–cation interaction、multipole electrostatics。其中,关键残基R294提供的π–阳离子作用被证明是稳定exo过渡态的重要来源。


从机制解析到突变体预测


为了进一步验证该方法对酶工程问题的适用性,作者随后研究了多个MaDA突变体。结果显示:高势垒突变体(如F375A、E414A、R443A)均被正确预测为失活;模拟得到的活化自由能与实验相对活性之间呈现良好线性关系;对多个MaDA-3衍生突变体,ΔΔG平均无符号误差仅为0.61 kcal/mol。尤其是R294位点:R294A会显著削弱exo preference;实验中产物比例由完全exo转变为近1:1;ML/MM模拟则进一步揭示,该效应来源于π–阳离子稳定作用的消失。这表明,反应性ML/MM已经不仅能够“解释”实验结果,还开始具备真正意义上的“预测”能力。

图4. ML/MM对MaDA突变体活性与立体选择性的预测结果。图片来源:Nat. Commun.


从单一酶体系迈向下一代计算酶学


除了天然底物,作者还对多个底物类似物进行了虚拟筛选。结果表明:ΔG够较好反映实验产率趋势;ΔΔG能够有效预测对映体过量(e.e.);多数底物体系均正确预测主导对映体。在讨论部分,作者进一步指出,当前框架仍主要采用mechanical embedding,对强极化与电荷转移体系的描述仍有限。未来若进一步结合:electrostatic embedding、长程极化模型、AIMNet2-rxn、MACE-OMOL、UMA等下一代反应性MLIP。ML/MM有望进一步扩展至:自由基反应、金属酶催化、光酶体系、激发态反应、大规模酶定向进化筛选等更复杂场景。


总体而言,这项工作标志着计算酶学正在从“静态、小尺度、高成本”的QM/MM时代,迈向“动态、大规模、数据驱动”的反应性ML/MM新范式。通过将机器学习势函数、多尺度嵌入与增强采样统一到可操作的平台中,ML/MM不仅显著提高了酶催化模拟的时间尺度与体系规模,也开始真正具备机制解析与理性酶设计所需的预测能力。


原文(扫描或长按二维码,识别后直达原文页面):

Multiscale machine learning molecular mechanics for mechanism and stereoselectivity of Diels-Alderase catalysis

Xujian Wang, Haocheng Tang, Xiongwu Wu, Bernard R. Brooks, Junmei Wang, Wan-Lu Li

Nat. Commun., 2026, DOI: 10.1038/s41467-026-72904-9


参考文献

1. Wang X., Wang J., Li W.-L. Machine learning/molecular mechanics enzymology for the next generation of computational enzymatic catalysis. Chem. Catal., 20266, 101658.

2. Gao L. et al. Enzymatic control of endo- and exo-stereoselective Diels–Alder reactions with broad substrate scope. Nat. Catal., 20214, 1059–1069.

3. Zhang S. et al. Exploring the frontiers of condensed-phase chemistry with a general reactive machine learning potential. Nat. Chem., 202416, 727–734.



点击“阅读原文”,查看 化学 • 材料 领域所有收录期刊

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/196783