构建高质量GEM的另一个瓶颈是其代谢网络中许多代谢物的合成或降解途径尚未被完全解析。这些代谢物难以与现有的代谢网络连接,限制了GEM在代谢物和反应规模上的扩展。这一问题主要源于两个方面:首先,酶底物的混杂性问题,即一类酶能够催化多种在化学结构上与其标准底物相似的反应物;其次,存在尚未被揭示的酶反应机制。
酶的混杂性长期以来未引起充分重视。研究显示,大肠杆菌中约37%的酶对与其主要底物结构相似的底物表现出混杂活性。为扩展反应空间,基于模板的逆合成方法被广泛应用于代谢途径预测。这类方法依赖从生化反应数据库中构建的反应模板库,通过匹配目标产物与适当模板,推测可能的反应物并生成相关反应路径[图3(b)]。已发表的基于模板的逆合成方法包括PathPred、RetroPath 2.0、novoPathFinder、RetroPath RL、AiZynthFinder、ASKCOS和chemoenzymatic-ASKCOS,在代谢途径挖掘中展现出重要的应用价值。然而,这些方法常面临组合爆炸的问题。为应对此问题,在部分方法中引入了机器学习方法,优化反应模板的选择,有效限制组合爆炸范围,并显著提升路径预测的效率与准确性。例如ASKCOS使用了前馈神经网络(feedforward neural network,FNN)预测与目标分子最相关的反应模板,减少假阳性反应数目和计算成本,确保预测途径的可行性,以最大化实验成功的可能性,但是ASKCOS只包含化学合成的模板。chemoenzymatic-ASKCOS额外整合了酶反应的模板实现混合合成路径设计。RetroBioCat使用基于深度神经网络(deep neural networks,DNN)训练的SCScore方法,通过对每个分子的复杂度进行评分,指导逆合成搜索选择更简单的起始分子。RetroPath RL使用基于蒙特卡洛树搜索的强化学习方法来选择最佳途径,探索深度比RetroPath 2.0提升1倍以上。
为了突破对已知反应模板的依赖,探索未知的反应机制,一些研究开发了无模板的反应预测方法,这些方法直接预测反应物或生成物[图3(b)]。一个典型的例子是Kreutter等将USPTO数据集作为一般化学知识的来源,并将其迁移至从文献中收集的数千条酶催化反应数据,训练了一个基于反应文本表示的序列到序列预测模型,该模型通过将输入的反应物SMILES转换为生成物SMILES,实现对反应产物的预测,但是这个方法只考虑了正向预测的情况。Probst等在SMILES作为输入的基础上,整合了反应EC编号的输入来提升模型性能,还实现了逆合成的拓展。Zheng等基于Transformer架构开发的BioNavi-NP模型在有机反应数据和酶反应数据上训练,成功预测了多种天然产物的合成路径。Zeng等基于BioNavi-NP提出了改进版的BioNavi,通过在深度学习模型中引入多任务学习和反应模板,以更为直观和可解释的方式设计混合合成路径。无模板的方法为探索未知反应机制提供了新的路径,有效推动代谢网络和酶催化反应的扩展。这些方法都为挖掘未知反应提供了有效工具,可以进一步拓展反应空间,提升模型的覆盖范围与准确性,为构建完善的GEM奠定基础。
途径解析过程中,新预测的生化反应尚未分配EC编号,无法通过现有EC编号预测模型进行酶注释,这使得将这些反应与特定基因对应成为挑战,进而影响了GEM中GPR关系的准确性。这一任务不仅对于天然代谢途径的酶挖掘至关重要,对于开发新型非天然代谢途径同样具有重要意义。目前,新反应的酶注释通常基于序列同源性及反应相似性等特征。例如,Selenzyme、EC-BLAST、RxnSim以及SelenzymeRF都是通过计算目标反应与已知酶注释的反应之间的相似性识别可能的酶催化反应,其中,Selenzyme通过基于参与反应的所有化合物的完整结构来计算反应相似性,而EC-BLAST、RxnSim则通过反应的分子指纹来计算。SelenzymeRF作为Selenzyme的更新版本,通过引入sim_RF算法,并结合RXNMapper实现反应中的原子映射标注进一步优化了推荐酶的能力。然而,需要指出的是,序列相似性与酶的功能相似性并不总是严格对应,因而仅依赖序列相似性有时不足以准确预测酶的催化能力。
在这一背景下,涌现了许多酶-底物结合预测和酶-反应催化预测的深度学习模型来辅助酶挖掘[图3(b)]。传统的酶-底物结合预测方法依赖分子动力学模拟,尽管其精确性较高,但计算量庞大且耗时。然而,随着合成生物学和计算生物学的快速进展,酶反应的实验数据逐渐积累,机器学习方法逐步成为一种高效的替代方案。ESP模型采用ESM-1b和图神经网络(graph neural network,GNN)分别表征蛋白质序列和小分子,再结合这两种特征表示,在约18 000对经过实验验证的酶-底物数据集上训练梯度提升决策树模型,用于酶-底物结合预测。另一个例子是EnzRanK,其依赖卷积神经网络(convolutional neural network,CNN)获取酶序列和底物的特征,并生成结合概率评分。基于此评分,模型能够排序候选酶,识别出在新型底物上可能具有活性的酶。在酶-底物结合预测任务中,正样本可以从反应数据库中轻易获取,但是负样本的获取具有不确定性。一方面,直接将酶与非已知底物组合会导致正负样本数据失衡;另一方面,随机抽取的酶-底物对可能由于底物混杂性而实际属于正样本。这会导致模型的预测出现偏差。因此,PU-EPP模型中提出了一种结合正样本和无标签学习的策略,以最大限度减少不准确负样本的影响。PU-EPP成功鉴定了15种对赭曲霉毒素A和玉米赤霉烯酮具有特异性的降解酶。最近,Qian等使用ESM-1b表征蛋白质序列、GNN表征小分子,结合DNN训练了MEI模型,在从文献中手动收集的两个测试集上表现优于ESP。并且在MEI的基础上,利用专业数据集分别针对CYD抑制剂与底物预测任务与塑料降解酶预测任务进行了微调,均能达到特定领域预测模型的先进水平。这些方法的结合有效提高了酶-底物结合预测的准确性和筛选效率,可以帮助确定酶在代谢途径中的功能,为GEM构建提供更准确的GPR关系。与此同时,Hu团队开发了深度学习模型SPEPP,可以预测酶-底物-产物三元组发生反应的可能性。其优势在于克服了传统方法中反应相似性计算的局限,更加侧重于底物与产物之间的关系,拓宽了潜在酶催化反应的发现范围。此外,Shi等开发了一个综合平台REME来辅助酶挖掘和评估。该平台通过整合原子映射、原子类型变化以及基于分子指纹的反应相似性计算,实现与非天然反应相似的已知反应的快速排序并获取候选酶。REME还参考了酶-底物结合模型和动力学参数预测模型的预测结果,有助于在筛选和评估过程中迅速识别出候选酶。