重磅！今日Nature：机器学习再下一城！

重磅福利！经费预存享高至30%增值，更有8500+返利直接送，一次预存，随时可用！

在有机合成中应用生物催化有望提供更加简化的合成路径、可调控的催化选择性，以及更具可持续性的工艺流程。

尽管具备这些优势，生物催化在实际应用中往往风险较高，因为要找到一种能够作用于特定中间体的酶常常成为瓶颈，需要依赖大量的酶筛选与蛋白质工程来突破。

预测哪种酶与小分子底物相匹配的策略，也长期受限于缺乏完善的生物催化反应数据集。

化学空间与蛋白质序列空间之间联系的研究不足，进一步限制了这两个领域之间的有效衔接。

在此，来自美国卡耐基梅隆大学的Gabe Gomes、密歇根大学的Alison R. H. Narayan等研究者提出了一个两阶段方案：首先利用高通量实验填充产物性底物–酶配对之间的联系；随后开发出名为 CATNIP 的预测工具，可用于为特定底物筛选兼容的α-酮戊二酸（α-KG）/Fe(II) 依赖型酶，或反之为特定α-KG/Fe(II) 依赖型酶序列评估潜在底物。相关论文以题为“Connecting chemical and protein sequence space to predict biocatalytic reactions”于2025年10月01日发表在Nature上。

在小分子合成中使用酶，数十年来已深刻改变了大宗化学品的生产，并推动了复杂分子的构建。近年来，多个成功实现药物工业化生产的生物催化路线进一步凸显了在合成策略中引入关键生物催化步骤的潜力。

新型酶催化工艺路线在药物合成中平均减少了 33% 的步骤数，且总体收率较最佳化学合成路线提升一倍以上。

值得注意的是，生物催化不仅在工艺化学领域展现出优势，在学术界的化学–酶联合合成以及药物发现阶段的酶催化后期修饰研究中也展现出巨大潜力。

然而，生物催化的一个普遍局限在于单个酶的底物范围往往难以预测，这使得方法开发充满不确定性。

即便是甲基、乙基或丙基等简单取代基系列，在小分子催化体系中通常不会表现出明显的反应性差异，但在酶催化反应中却可能导致巨大差别。因此，如果某一底物的酶催化反应尚未被验证，将其纳入合成路线会带来较高风险。

这也是为何生物催化的应用通常局限于源自初级或次级代谢中已知的反应。

一旦找到可行的酶–底物起点对，便可通过化学空间或蛋白质序列空间的局部探索来获得所需反应。例如，在 GSK2330672 的合成中，研究者利用环氧氯丙烷在环氧水解酶催化下的已知反应作为起点，扩展至新的环氧化物（图1a）。

作为另一种途径，可通过蛋白质工程探索局部序列空间。已有多个重要案例表明蛋白质工程在药物合成中发挥了关键作用，例如在沙库比曲（sacubitril，一种中性内肽酶抑制剂）的合成中，通过替换 26 个氨基酸残基，使转氨酶的催化活性提升了 50 万倍（图1a）。

因此，现有的生物催化应用策略高度依赖于已知反应，并以此为出发点在化学空间和蛋白质序列空间中进行局部拓展（图1b）。

然而，目前已通过实验表征其化学功能的酶比例极低：已测序的酶中，仅有不足 0.3% 被赋予了计算注释的功能。这意味着绝大多数酶尚未建立与底物化学空间的明确联系，极大限制了其潜在催化能力的发挥。

机器学习方法能够加速生物催化反应的发现过程。例如，已有对比学习模型被开发用于预测未表征酶的酶学委员会编号，从而推测该酶可能执行的反应类型。

然而，这类方法既不能指引研究者找到酶的天然底物，也无法揭示其底物适用范围。另一些计算工具则可基于蛋白质序列预测其他性质，如 EnzymeMiner 可预测异源表达（在大肠杆菌中）的可行性。

这些工具在实验初筛阶段提供了一定指导，但已有大量研究表明，酶的注释与预测的底物兼容性往往与实验验证结果不符，限制了其在电脑模拟数据集构建中的应用。

在提升生物催化可预测性方面，已有研究提出通过在化学空间或序列空间内局部探索来解决。

例如，硝腈酶文库对一小组高度相似的底物进行分析，或利用荧光探针研究水解酶的底物范围，揭示了酶的“多功能性”规律。还有研究整理了特定母体酶的变体与底物范围的数据集，如 P450 BM3 变体对小分子底物的活性谱。

这类数据集有助于借助机器学习在序列空间中筛选催化活性更优、立体选择性更高、底物范围更广及热稳定性更好的酶变体。这些探索往往局限于局部化学空间或序列空间。

尽管已有不少预测尝试，现有方法仍存在适用性和易用性受限等问题：难以外推至训练集之外，缺乏用户友好工具；跨酶家族方法效果不佳，原因在于不同蛋白家族间底物选择性差异巨大。

此外，依赖已有文献（多为生物合成和代谢相关）的数据集训练模型也存在局限，因为这些酶与底物尚未系统地两两实验验证，导致假阴性、错误注释，甚至虚假的生物催化反应预测。

为系统表征整个酶家族的反应能力，并降低在合成路线中引入生物催化步骤的风险，研究者提出了一种“双路径”策略：结合高通量实验与机器学习。

其核心思路是：在化学空间内采样底物，在序列空间内代表性采样酶类，并进行大规模反应表征（图1c）。一旦积累了足够的数据集，即可构建机器学习模型，在化学空间与序列空间间建立联系，从而以底物为导向或以酶为导向推动新型生物催化反应的发现。

在本研究中，研究者首次实现了这一思路，并将其应用于α-酮戊二酸（α-KG）非血红素铁(II)依赖酶（NHI）催化的 C–H 官能化反应。最终，研究者发现了 200 余种新型生物催化反应，并建立了一个基于网络的工具包，可为氧化型生物催化转化推荐兼容的底物与酶。

图1 生物催化反应发现的现状。

图2 不同α-KG NHI酶库aKGLib1的基本原理和培养。

图3 高通量反应发现工作流程和生物催化反应的多样性发现。

图4 机器学习方法，模型构建和输出。

图5 CATNIP使用机器学习模型。

综上所述，该工具包的开发显著提升了研究者在化学空间与蛋白质序列空间之间的探索能力。

具体而言，研究者构建了一个多样化的NHI 酶库 aKGLib1，其中包含超过 300 个序列同源性较低的野生型蛋白，并将其与 100 余种小分子底物进行活性分析，共发现 215 种新反应。

随后，将该数据集与文献报道的反应整合，形成BioCatSet1，并据此训练了两个梯度提升模型（GBM），生成底物→酶和酶→底物的排序列表。

在此基础上，研究者开发了CATNIP —— 一个开放获取的网络平台，用于简化生物催化反应的发现过程。

该工具的强大功能在对数据集之外的底物与酶进行快速反应发现中得到了验证，揭示了化学空间与蛋白质序列空间之间的新联系，并为通过底物设计和蛋白质工程进一步探索两大空间提供了可能。

研究者预期，这一方法可广泛推广至更多酶家族与反应类型，为在化学与序列空间间的高效导航提供新途径。

同时，这一创新有效降低了在有机合成中应用生物催化剂的风险。

参考文献

Paton, A.E., Boiko, D.A., Perkins, J.C.et al. Connecting chemical and protein sequence space to predict biocatalytic reactions. Nature (2025). https://doi.org/10.1038/s41586-025-09519-5

原文链接：https://www.nature.com/articles/s41586-025-09519-5

高端测试，找华算 ！同步辐射XAS直降1000元，限时低至2500元/元素，限量秒杀，立即预约抢占先机，2025顶刊快人一步！

🏅 500+博士团队护航，助力50000+研究在Nature&Science正刊及子刊、Angew、AFM、JACS等顶级期刊发表！

👉 点击阅读原文，立即下单！💖