深度学习辅助——探索生物合成途径的信息高速公路

点击图片查看详细日程

如果天然产物是一座取之不尽的宝库，那么合成生物学的出现就像从我们已知世界建立出一条条通向这座宝库的高速公路，而深度学习等计算机技术的辅助就像为这一条条高速公路加上了万物互联的智能系统，让我们可以更加清晰合理地规划实验路线，提高研究效率，规避不必要的弯路。我们今天以中山大学巫瑞波老师研究论文为切入点，并对该课题组开发出生物合成途径预测的在线工具——BioNavi-NP进行介绍，为读者朋友们提供一个研究新思路。

01
研究背景

迄今为止，已经有30万个天然产物已经被发现并且分类，而这数量庞大的天然产物却是由数量有限、结构简单的生物砌块经过生物合成途径构建而成，且生物合成途径大体可以分为有限的几类，呈现出比较明显的规律。然而不幸的是，我们对于整个天然产物的合成与生物合成反应的认识依旧过于浅薄，相较于庞大的天然产物数目，仅有大约3.3万个酶反应途径已经被证实，而这些反应对应的仅仅是不足3万个天然产物（如图1）

换言之，对于数十万个已知的天然产物研究者暂没能建立完整的生物合成途径，因此提升探索生物合成途径的效率，寻找更加高效的探索方法是一个各方比较关注的热点。此外，众所周知天然产物在药物发现过程中的重要性，但由于提升产量等现实问题，工业界逐步开始抛弃传统全合成提取的方法，在近十年渐渐转向成本更低、理论产量更高的生物合成技术，寄希望于更加高校低成本的生物合成途径探索方法，因此计算机辅助目标天然产物的生物合成途径逆向分析也逐步走入人们的视野。

02
深度学习理论的应用

随着近些年深度学习与合成生物学学科交叉的创新，理论的发展使得天然产物生物合成途径的预测成为可能，参与反应的分子可以像是字符串一样简单输入进预测模型进行分析。这些数据可以通过递归神经网络和迁移神经网络算法进行对其预测能力进行训练，当你输入的分子作为有机反应或酶反应的底物时，你可以得到目标反应的产物；于此同时你也可以选择逆向合成的任务进行预测。基于“单步”逆向预测，逆向生物合成途径可以通过搜索技术进行规划，如Chen等报道了一种名为“Retro”的深度学习引导“与或树搜索算法(AND-OR tree-based searching algorithm)”，并展示了改进的规划效率和解决质量，该算法可以对单步生物合成逆向途径进行预测，研究开发提供了新的思路。

通过数据增强和集成学习，单步模型在生物合成测试集上获得了60.6%的top-10预测精度，比已存在的基于规则的分析模型精度提高了1.7倍 。此外基于次模型，巫瑞波课题组通过深度学习引导的AND-OR树搜索算法，开发了一个自动反向生物合成路径规划系统(BioNavi-NP)，该系统可以解决合成路径分支所导致的选项组合数量的问题。并且BioNavi-NP在后续测试中成功识别368个测试化合物中的90.2%的生物合成途径，并回收72.8%报告的构建块，表明其在生物合成途径逆向预测方面的潜力。

图2 在线工具BioNavi-NP的解决思路是从简单的生物砌块出发，靶定到天然产物生物合成途径。即通过整合生物合成和有机反应，以目标分子来训练其迁移神经网络系统，并得到对应备选反应物。

03
单步模型评估

当我们谈到生物合成反应途径的逆向预测的时候，我们更希望模型预测能够更加全面，可以同时预测出多个根据可靠性排序的途径。即多步生物合成反应规划，其本质是基于通过迭代单步逆向合成预测进行的逆向搜索，因此实现单步可靠的预测是至关重要的，故巫瑞波课题组通过横向比较，来确定最佳模型。

课题组首先从BioChem公共数据库中整理了一组生物合成数据，其中包含了33710对独立前体和代谢物，并从中随机选择了1000对作为横向比较的基础测试集；此外受迁移学习的启发，课题组进一步用62370个来自于USPTO数据库类似于生化反应的有机反应来扩展训练集，因为大量相关数据可以提升模型的鲁棒性。与此同时为了横向比较，课题组人为定义出top-n accuracies这个参数，即前n个预测前体中正确的百分比，来对模型表现进行量化，如图3

结果可知，训练模型仅仅依赖于天然产物类的有机反应(USPTO_NPL)不能对预测起到任何作用，即使生物合成的天然产物与化学合成化合物有一定共性，但依旧代表两个不同的结构空间和不同的反应类型。此外，相比于RetropathRL，BioChem+ USPTO_NPL (ensemble)在top-1和10分别提升了1.1%和18.5%的精确度，而此模型的优越性正说明了依靠于深度学习的理念对于生物合成途径预测的重要性，即课题组选择该反感作为后续测试的模型，如图4.

04
实现多步规划的内部测试

课题组对以上选择出的单步模型进行整合，对多步生物合成途径逆向规划进行导向，并将其命名为BioNavi-NP后，进行后续表现的评价。

首先从BioChem数据库中选择了368个有着完整生物合成途径的不同天然产物，对于天然产物而言，在天然产物与原始生物砌块中间一定存在多条生物合成途径，并且即使备选路径不是最合适的，这个备选方案的出现不论对于生物合成途径的认识或者途径的重新构建本就充满了意义。

为了对所有深度学习模型进行公平的比较，所有的模型限制100次的迭代运算和10次扩展 (the number of expansion represents the top-N metabolites that the model will predict in every single step)，结果如图5.

我们可以看到在368个目标NPs中，BioNavi-NP输出了332个潜在的生物合成途径(90.2%成功率)，相对于最先进的逆转录生物合成途径预测工具RetroPathRL20(52.7%)有了很大的改进。与此同时，BioNavi-NP对寻找生物砌块和生物合成途径的命中率分别达到56.0%和24.7%，显著优于RetroPathRL(4.8%和3.8%)。

此外，当我们选择输出选择为top-5时，BioNavi-NP平均预测4.9条通路，BioNavi-NP预测的路径长度最长(6条)，而RetroPathRL和BioNavi-NP (MCTS)预测的路径长度为3条，进一步证实了其探索能力，并且暗示了该的模型能够产生更多更复杂的假想路径。

结语

相比于传统模型，BioNavi-NP是一个完全数据驱动的模型，它是基于生物合成和有机反应数据构建的，拥有众多横向比较上的优点。该课题组在数据中已经验证了这种网络服务器在预测原生生物合成途径以及为复杂NPs重新设计途径方面的潜力，尽管由于数据可用性有限和搜索算法固有的局限性，途径评分功能并不完美，于此同时还存在众多用户交互上的问题，但这已经是将深度学习技术应用与生物合成途径逆向预测模型上的一个进步，也有助于缩短前期实验设计历程与成本，对我们今后的实验设计进行参考指导。

Code availability

BioNavi-NP网址为http://biopathnavi.qmclab.com/.

源代码上传至Github [ https://github.com/prokia/BioNavi-NP].

参考文献

[1] Zheng, S., Zeng, T., Li, C. et al. Deep learning driven biosynthetic pathways navigation for natural products with BioNavi-NP. Nat Commun 13, 3342 (2022).

[2] Dictionary of natural products (dnp), version 29.2. http://dnp.chemnetbase.com (Accessed 2021, April 8).

[3] Paddon, C. J. et al. High-level semi-synthetic production of the potent antimalarial artemisinin. Nature 496, 528–532 (2013).

[4] Chen, B. Li, C., Dai, H. & Song, L. Retro*: Learning retrosynthetic planning with neural guided A* search. In: International Conference on Machine Learning. PMLR (2020).

[5] Lowe D. M. Extraction of chemical structures and reactions from the literature (doctoral thesis) (2012).