Nat. Catal. | 机器学习助力的分子逆向生物合成

作者：陈慧捷

逆向生物合成为合成功能分子提供了一种有效且可持续的方法，随着科学技术的发展，机器学习（ML）已然成为辅助逆向生物合成的有力工具。

2023年2月16日，美国伊利诺伊大学研究团队在《Nature catalysis》上发表论文Machine learning-enabled retrobiosynthesis of molecules，旨在阐述ML如何加速逆向生物合成过程以实现分子合成，并在文末提供了相关的标准化数据库以供参考。

背景介绍

为合成复杂的功能分子，研究人员对化学催化和生物催化进行探索，发现酶作为一种常见的生物催化剂具有较好的催化作用和环境适应力，但是酶数据库中标注困难、收集的底物范围有限等一系列问题对逆向生物合成造成了阻碍。通过ML可以辅助酶的设计与加工，加速逆向生物合成。

基于ML的逆转录生物合成工作流程

目标分子的合成主要分为3个步骤。首先，根据逆向生物合成规划工具得出的路径判断路径上的所有酶是否都可用。其次，根据路径中酶的情况，通过ML对部分酶可用的路径进行酶鉴定和选择。此外，在野生酶不满足需求的情况下，加入ML辅助酶加工。最后，将满足需求的通路进行体内或体外分子合成，通过ML对合成过程进行加速优化。本篇综述即围绕逆向合成规划、酶鉴定和选择、酶加工这3个步骤进行阐述。

图1 基于ML的逆转录生物合成工作流程图

逆转录合成规划

基于逆向生物合成的路径设计主要分为以下3个模块：

反应数据库

将收集到的反应数据转化为机器可读描述符表示，如SMILES表达式、分子指纹、分子图、特征向量等，组成酶促反应语料库。

前体推断方法

前体推断就是通过基于模板或无模板的方法推导目标分子的合成路径。

基于模板的方法：
通过匹配反应模板，找到断开位点，反向推测获取前体。
缺点是容易忽略远程取代基对反应中心的影响，并且反应规则的过于复杂或笼统都会直接影响合成路径的预测结果，需要专家介入调优。
基于无模板的方法：
没有预定义的反应模板，通过反应数据库训练ML模型来预测前体，类似于自然语言处理中的机器翻译。

路径搜索

根据合成的复杂性和反应的可行性对前体进行排序，迭代寻找满足终止条件的前体，得到最佳的合成路径。

图2 逆转录生物合成工具工作原理图

文中详细介绍了由Probst等人开发的一种无模板逆转录生物合成工具。该工具用到ECREACT（由62000个酶促反应组成）和USPTO（由100万个有机化学反应组成）两个数据集。在训练过程中，将数据集中的各种反应划分成反应物和产物，其中，酶促反应的反应物与反应酶委员会（EC）编号有关。该工具可以进行正向预测和反向预测。正向预测时，将反应物作为输入，产物作为输出；在反向预测中，则通过给定的产物预测其反应物。预测过程中，根据给定权重划分数据集，使用transformer模型对划分后的数据进行分批次训练，以弥补ECREACT数据量较小的问题。预测结果显示，正向预测的top-1准确率达到49.6%，反向预测的top-1单步往返准确率达到39.6%。

图3 基于无模板的逆转录生物合成工具的工作流程图

酶鉴定和选择

在得到逆向生物合成路径后，需要通过鉴定和选择酶的相关参数、性质等来完善合成步骤间缺失的环节。

酶的分类编号预测

EC编号是基于酶催化反应的等级分类系统，由四个级别组成，是准确鉴定酶活性的关键。基于序列相似性对比得到EC编号的方法在检测远程同系物时，得到的预测结果不够稳健，而基于ML模型预测EC编号不仅可以得到可靠的结果，还可以推断出除相似性之外的其他特征，但部分功能不及序列对比。此外，EC编号的不均匀分布会影响ML模型的训练。因此，将两种方法结合是目前较为可行的。

图4 EC编号预测的两种方法对比图

酶的其他性质预测

酶具有特异性，但也存在酶与底物反应表现出多态性的可能。目前，通过ML模型对所有酶进行特异性预测仍是一项具有挑战性的任务，但是，已有研究实现较小规模的特异性预测。除特异性外，溶解度、转化率、最佳温度等也是影响酶的重要因素。通过ML模型对这些性质进行预测，避免了其中复杂的机理研究，减少了筛选与优化的实验成本，具有较大的优势。

酶工程

在完成合成路径的选择与完善后，便可以进行分子的合成。然而，为了提高所需分子的滴度、速率和产率，需要通过探索序列对酶进行设计与加工。主要有2种方法：

通过ML引导酶定向进化（MLDE）：定向进化能够加速蛋白质的进化过程，提高酶的催化活性和效率。通过ML辅助搜索可能的突变体进行定向进化有利于解决常规搜索易陷入局部最优的问题。MLDE工作流程如图5所示，首先通过实验测定获得变体库的适应度，然后对ML模型进行训练，预测未筛选序列的适应度，并在此基础上推荐一个新的变体库，根据预测结果选择适应度更高的变体，经过不断迭代寻找出适应度高、稳定性较强的变体。在MLDE过程中，需要经过变体库的反复构建与筛选，面对巨大的序列库，即使有ML的辅助也很难快速地寻找出所有的变体，因此需要尽可能地减少迭代次数以提高效率。

图5 MLDE工作流程图

使用ML进行新型酶设计

ML的发展使得设计具有与天然对应物相似性质的高阶突变体成为可能。一般来说，ML模型分为深度生成模型和引导设计模型两类。VAE和自回归作为深度生成模型中较为流行的深度学习框架，主要通过学习蛋白质序列分布来设计突变体，以产生新折叠酶或具有新功能的酶。而引导设计模型则通过对蛋白质结构预测模型来创建新的蛋白质，设计新型酶。

图6 使用ML设计新型酶概述图

路径工程

在确定目标生物合成路径上的所有组成酶之后，需要在体外或体内构建该通路。通常，路径与反应环境一同构建，便于通路的优化。

对于体内通路优化，反应环境为体内细胞代谢。体内的通路优化通常使用机理模型，特别是像基因尺度模型（GEM）或动力学模型这样的基于约束的模型（CBM）。高维组学数据常作为GEM的附加约束条件，但目前并未广泛用于体内通路设计与优化。近年来，已有研究将CBM和深度学习模型集成在一起，通过GEM为深度学习模型提供输入，但是深度学习对反应机制作用的可解释性仍是需要攻破的一大难题。

对于体外通路优化，反应环境为反应条件。与体内合成相比，体外合成受益于更可控的环境和更少的限制，例如细胞存活和能量维持，可以得到更高的转化率。通常情况下，体外合成可以在一锅反应中进行可以减少分离步骤的数量，但一锅反应面临着抑制相互作用、不相容的反应条件和酶混乱的挑战。参考有机合成反应条件预测，ML模型可以用于解决上述问题，但生物催化反应条件的相关数据有限，对于ML的预测是一项挑战。

通常，体内优化和体内优化是分开进行的。2020年，Kaim等人开发了一个名为iProbe的系统，利用无细胞系统的灵活性来测试组合通路，通过ANN在最初筛选的120条通路组合中进行预测，有43条通路比通过专家设计得到的通路性能更为优异，并将体外优化的通路转换到体内优化，最终得到的皮尔逊相关系数为0.79。实验表明，在适当的条件下，体内优化和体外优化是可以互通的。

此外，预测化合物-蛋白质相互作用（CPIs）和蛋白质-蛋白质相互作用（PPIs）也是体内外通路优化中值得关注的重点问题。其中，药物-蛋白质相互作用（DPI）的预测是CPI研究中最受关注的，因为DPI模型可以用于识别抑制配体结合。

图7 体内优化和体外优化概述图

总结与展望

逆向生物合成是一个复杂的过程，需要经过逆转录合成路径规划、酶鉴定和选择、酶加工、体内外通路优化等多个工序，通过ML模型的辅助可以加速逆转录生物合成过程，但仍然存在进一步发展的空间。就目前来说，主要存在以下几个问题：

缺乏高质量的标准化数据库；
在合成路径设计时很少同时考虑化学催化和生物催化；
蛋白质结构序列信息不够明确，缺乏ML模型对酶-底物相互作用的预测解释；
体内外通路优化相互映射已有雏形，急切需要进一步探索；

总之，ML模型将成为逆转录生物合成中必不可少的工具，面对这些挑战，仍需要不断地深入探索。

参考资料

Yu, T., Boob, A.G., Volk, M.J. et al. Machine learning-enabled retrobiosynthesis of molecules. Nat Catal 6, 137–151 (2023).

https://doi.org/10.1038/s41929-022-00909-w