基于序列推断系统发育关系在生物学上具有广泛的应用,它对于分子演化、群体遗传、肿瘤演化等多个领域具有重要意义。传统上,经典方法通常基于贝叶斯推断或者极大似然推断来对候选结果进行打分,并结合启发式搜索来探究可能的解空间。当序列数量较多或者长度较长时,这些方法的效果和性能都会有较为明显的下降。同时,由于传统方法需要基于特定的演化模型实现系统发育关系的推断,而经典的演化模型对于插入或删除(indel)的估计往往较为困难,因此常用算法通常会将indel视为未知的碱基处理,而造成信息上的损失。 基于神经网络算法来实现统计推断在多个领域中已被证实有效,并应用广泛。而系统发育关系重构本身也是一个统计推断问题,因此合理地利用神经网络算法构造推断框架有潜力来更好地处理更为复杂的问题,特别是演化历史中含有较多indel的情况。已有的研究【1, 2】已经可以利用神经网络算法来解决四条序列、固定长度的系统发育关系推断,但更多序列数量、非固定序列长度的推断仍然缺乏有效的处理框架。 近日,北京脑科学与类脑研究所张力团队和西安交通大学祖建团队在Nucleic Acids Research杂志上发表封面文章:Fusang: a framework for phylogenetic tree inference via deep learning。该文章提出了一个全新的系统发育关系推断框架。与已有工具相比,扶桑不仅能够无损处理更多和更长的序列,而且能够依靠整合插入和删除信息来更准确地推断系统发育关系。更为重要的是,扶桑可以针对目标场景进行定制化模型训练,实现更为准确的系统发育关系推断。 为了验证扶桑的有效性,研究团队测试了多样的数据场景,包括源自12种不同场景设定的模拟数据、根据Pfam数据库得到的多序列比对数据、UCSC数据库提供的基因组数据、实验得到的序列变异数据等等。在这些数据上,扶桑都取得了优秀的表现,并证明了扶桑可以运用于大规模系统发育重构问题的潜力。同时,在实验数据上,研究者证明了通过对目标场景进行定制化的模型训练,扶桑可以实现更为准确的系统发育关系推断。因此在未来可以被用来探索特定领域的系统发育重构问题,特别是难以估计演化模型的场景,例如肿瘤细胞演化。总体而言,扶桑是基于深度学习进行系统发育推断的框架,具备处理更多和更长序列的潜力,并具有针对特定场景训练新模型从而能够更适合特定场景应用的能力。 图1 扶桑的主要组成部分 文章的第一作者为北京脑科学与类脑研究所王志成和西安交通大学孙晋楠。张力研究员和祖建教授为论文的共同通讯作者。文章得到了中国科学院古脊椎动物与古人类研究所张驰研究员和北京大学张蔚研究员的指导和支持。 本项目计划迁移到MindSpore生态中进一步优化迭代,目标成为主流系统发育关系推断工具。欢迎感兴趣的老师和同学加入共同开发。联系方式:zhangli@cibr.ac.cn 原文链接:https://doi.org/10.1093/nar/gkad805
制版人:十一
参考文献
1. Suvorov A, Hochuli J, Schrider DR. Accurate inference of tree topologies from multiple sequence alignments using deep learning. Syst Biol, 2020, 69: 221-2332. Zou Z, Zhang H, Guan Y, et al. Deep residual neural networks resolve quartet molecular phylogenies. Mol Biol Evol, 2020, 37: 1495-1507