Genome Biol丨伯晓晨/何松、张仲楠团队全面评估面向肿瘤研究的基于深度学习的多组学数据融合方法

高通量技术的进步促进了生物医学领域多组学的发展。每个组学的数据都能帮助研究人员从不同角度理解复杂的生物系统，如基因组学、转录组学、蛋白质组学和代谢组学等。然而，多组学数据是复杂的、高维的和异质的，从中提取有价值的知识是一个挑战。为了应对这个问题，研究者们使用了各种方法，如多核学习、贝叶斯共识聚类、机器学习降维方法和深度学习方法等。作为机器学习领域一个快速发展的分支，深度学习利用高效的算法来处理多组学数据。与传统的机器学习算法相比，深度学习可以更好地捕捉多组学数据的非线性和复杂关系。然而，很少有研究全面地比较各种深度学习方法的性能。

近日，军事医学研究院伯晓晨/何松课题组和厦门大学张仲楠课题组在Genome Biology杂志发表了题为A benchmark study of deep learning-based multi-omics data fusion methods for cancer的论文。在这项研究中，将16种具有代表性的深度学习方法在模拟多组学数据集、单细胞多组学数据集和癌症病人多组学数据集上进行了全面评估，为生物医学研究人员选择合适的基于深度学习的多组学数据融合方法提供了参考，也为未来开发更有效的多组学数据融合方法提出了指导性建议。

基于深度学习的多组学数据融合方法旨在从多组学数据的融合特征中学习低维嵌入，用于各种下游任务。经文献调研，一些基于深度学习的数据融合方法可以实现这一目标，这些方法包括全连接神经网络、卷积神经网络、自动编码器、图神经网络、胶囊网络和生成式对抗网络等，研究人员从中选择了具有代表性的多组学数据融合方法在统一的数据集和任务上评估数据融合。为了全面评估模型的性能，本研究中使用了三种类型的多组学数据集：模拟数据、单细胞数据和癌症病人数据；两种类型的评价模型：有监督和无监督模型。因此，对于每一个数据集，都设计了两个任务：有监督模型的分类任务和无监督模型的聚类任务。分类任务的性能通过三个指标进行评估：Accuracy、F1 macro和F1 weighted。聚类任务的性能通过四个指标进行评估：Jaccard index（JI）、C-index、silhouette score和Davies Bouldin score。此外，对于癌症多组学数据集，研究人员还进一步评估了这些方法在捕捉多组学降维结果与生存和临床注释的关系，这些关系可以反映融合后的低维嵌入的代表能力和可解释性（图1，表1）。最后，结果表明moGAT在分类任务中表现最好，efmmdVAE、efVAE和lfmmdVAE在聚类任务中表现较佳。

图1、表1：16种基于深度学习的多组学融合方法测评工作流程示意图

在模拟多组学数据集上，大多数监督方法在分类任务中表现良好，特别是efNN、moGCN和moGAT。两种基于CNN的方法（efCNN和lfCNN）在此数据集上的分类效果较差，表明在输入向量上使用具有一维卷积层的CNN可能不适合于多组学数据融合。对于聚类任务，efAE、lfmmdVAE和efVAE显示出较好的性能。与模拟数据集的结果类似，moGCN和moGAT在单细胞数据集的分类任务上表现很好。而单细胞数据集的聚类性能评估中，efmmdVAE和lfAE两个方法表现较好。最后，在癌症数据集上，moGAT在分类任务中的表现仍然优于其它有监督方法。在聚类任务中，efmmdVAE、efVAE和lfmmdVAE在大多数情况下性能指标较好。在评估嵌入与生存或临床注释的相关性时（图2），lfVAE和lfSVAE的表现最好。

图2：在癌症多组学数据集上评估嵌入与生存或临床注释的相关性示意图

基于上述结果，为了使我们的评价更加客观，我们定义了一个统一的分数并根据统一的分数对这些深度学习方法进行排名。对于分类任务，moGAT在三个不同的多组学数据集上排名第一。在聚类任务中，efVAE、lfmmdVAE和lfAE是模拟数据集上的前三名方法。lfAE、lfDAE和efmmdVAE是单细胞数据集上的前三名方法，efmmdVAE、lfmmdVAE和efVAE是癌症数据集的前三名方法（图3）。

图3：在三种多组学数据集上的评估结果

综上所述，在进行分类任务时，研究人员应该优先考虑基于GNN的方法，因为基于GNN的方法可以将多组学数据构造成相似性网络，捕获到样本之间的关联性，使得组学特征和数据的几何结构可以被有效利用，进而提高了分类性能。在进行聚类任务时，则应当优先考虑efmmdVAE、efVAE和lfmmdVAE方法，因为它们学习到了多组学数据的概率分布，使得所学的嵌入有更好的概括性和灵活性，在测评的不同数据集上表现均较好。也就是说，这些基于深度学习的多组学数据融合方法可以被较为有效地应用在生物医学领域，成为研究人员的宝贵工具。

作者简介：

军事医学研究院博士研究生冷东瑾、文昱琦，厦门大学硕士研究生郑林义为本文共同第一作者，军事医学研究院伯晓晨研究员、何松副研究员，厦门大学张仲楠教授为共同通讯作者。

伯晓晨研究员/何松副研究员课题组一直致力于利用生物医学大数据与人工智能的多种计算模型研究癌症等复杂疾病的致病机理和药物治疗方案，在Nature、Nature Microbiology、Molecular Cell、Nucleic Acids Research、Genome Biology、Briefings in Bioinformatics等杂志发表多篇论文。

张仲楠教授课题组一直致力于研究面向生物信息学领域的人工智能方法，主要研究领域包括图神经网络、无监督学习、自监督学习、持续学习等，已在Genome Biology、Briefings in Bioinformatics、Bioinformatics、BMC Genomics、IEEE/ACM Transactions on Computational Biology and Bioinformatics等生物信息学学术期刊和SIGIR、BIBM等计算机科学学术会议发表多篇学术论文。

两课题组长期招收硕士、博士研究生及博士后，欢迎感兴趣的同学加入或来函咨询。

简历投递（有意向者，请将个人简历等材料发至）：

https://jinshuju.net/f/ZqXwZt或扫 描二维码投递简历

原文链接：

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-022-02739-2

制版人：十一

转载须知

【非原创文章】本文著作权归文章作者所有，欢迎个人转发分享，未经作者的允许禁止转载，作者拥有所有法定权利，违者必究。