社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
科研人必学 | Python数据可视化教程,轻松get酷炫配图!(附案例代码)
AI赛事 | AIGC 识别对抗挑战赛报名火热进行中
2025必看AI干货!《大模型/AIGC/GPT-4/Transformer/DL/KG/NLP/C...
51个Python中的常用代码片段
Python 编程 10 个经典操作
商建刚:AIGC获得独创性的途径:汇编权 ——评“幻之翼透明艺术椅”著作权侵权案
DeepWiki : github 源码阅读工具
2025Python学习路线最全整理!(新手必备)
scalene,一个超酷的 Python 库!
从Athey到Xiu: 盘点做机器学习与经济学交叉的10位顶级大牛.
关注
Py学习
»
机器学习算法
Genome Biol丨伯晓晨/何松、张仲楠团队全面评估面向肿瘤研究的基于深度学习的多组学数据融合方法
BioArtMED
• 2 年前 • 1923 次点击
高通量技术的进步促进了生物医学领域多组学的发展。每个组学的数据都能帮助研究人员从不同角度理解复杂的生物系统,如基因组学、转录组学、蛋白质组学和代谢组学等。然而,多组学数据是复杂的、高维的和异质的,从中提取有价值的知识是一个挑战。为了应对这个问题,研究者们使用了各种方法,如多核学习、贝叶斯共识聚类、机器学习降维方法和深度学习方法等。作为机器学习领域一个快速发展的分支,深度学习利用高效的算法来处理多组学数据。与传统的机器学习算法相比,深度学习可以更好地捕捉多组学数据的非线性和复杂关系。然而,很少有研究全面地比较各种深度学习方法的性能。
近日,军事医学研究院
伯晓晨/何松
课题组和厦门大学
张仲楠
课题组在
Genome Biology
杂志发表了题为
A benchmark study of deep learning-based multi-omics data fusion methods for cancer
的论文。
在这项研究中,将16种具有代表性的深度学习方法在模拟多组学数据集、单细胞多组学数据集和癌症病人多组学数据集上进行了全面评估,为生物医学研究人员选择合适的基于深度学习的多组学数据融合方法提供了参考,也为未来开发更有效的多组学数据融合方法提出了指导性建议。
基于深度学习的多组学数据融合方法旨在从多组学数据的融合特征中学习低维嵌入,用于各种下游任务。经文献调研,一些基于深度学习的数据融合方法可以实现这一目标,这些方法包括全连接神经网络、卷积神经网络、自动编码器、图神经网络、胶囊网络和生成式对抗网络等,研究人员从中选择了具有代表性的多组学数据融合方法在统一的数据集和任务上评估数据融合。为了全面评估模型的性能,本研究中使用了三种类型的多组学数据集:模拟数据、单细胞数据和癌症病人数据;两种类型的评价模型:有监督和无监督模型。因此,对于每一个数据集,都设计了两个任务:有监督模型的分类任务和无监督模型的聚类任务。分类任务的性能通过三个指标进行评估:Accuracy、F1 macro和F1 weighted。聚类任务的性能通过四个指标进行评估:Jaccard index
(JI)
、C-index、silhouette score和Davies Bouldin score。此外,对于癌症多组学数据集,研究人员还进一步评估了这些方法在捕捉多组学降维结果与生存和临床注释的关系,这些关系可以反映融合后的低维嵌入的代表能力和可解释性
(图1,表1)
。最后,结果表明moGAT在分类任务中表现最好,efmmdVAE、efVAE和lfmmdVAE在聚类任务中表现较佳。
图1、表1:16种基于深度学习的多组学融合方法测评工作流程示意图
在模拟多组学数据集上,大多数监督方法在分类任务中表现良好,特别是efNN、moGCN和moGAT。两种基于CNN的方法
(efCNN和lfCNN)
在此数据集上的分类效果较差,表明在输入向量上使用具有一维卷积层的CNN可能不适合于多组学数据融合。对于聚类任务,efAE、lfmmdVAE和efVAE显示出较好的性能。与模拟数据集的结果类似,moGCN和moGAT在单细胞数据集的分类任务上表现很好。而单细胞数据集的聚类性能评估中,efmmdVAE和lfAE两个方法表现较好。最后,在癌症数据集上,moGAT在分类任务中的表现仍然优于其它有监督方法。在聚类任务中,efmmdVAE、efVAE和lfmmdVAE在大多数情况下性能指标较好。在评估嵌入与生存或临床注释的相关性时
(图2)
,lfVAE和lfSVAE的表现最好。
图2:在癌症多组学数据集上评估嵌入与生存或临床注释的相关性示意图
基于上述结果,为了使我们的评价更加客观,我们定义了一个统一的分数并根据统一的分数对这些深度学习方法进行排名。对于分类任务,moGAT在三个不同的多组学数据集上排名第一。在聚类任务中,efVAE、lfmmdVAE和lfAE是模拟数据集上的前三名方法。lfAE、lfDAE和efmmdVAE是单细胞数据集上的前三名方法,efmmdVAE、lfmmdVAE和efVAE是癌症数据集的前三名方法
(图3)
。
图3:在三种多组学数据集上的评估结果
综上所述,在进行分类任务时,研究人员应该优先考虑基于GNN的方法,因为基于GNN的方法可以将多组学数据构造成相似性网络,捕获到样本之间的关联性,使得组学特征和数据的几何结构可以被有效利用,进而提高了分类性能。在进行聚类任务时,则应当优先考虑efmmdVAE、efVAE和lfmmdVAE方法,因为它们学习到了多组学数据的概率分布,使得所学的嵌入有更好的概括性和灵活性,在测评的不同数据集上表现均较好。也就是说,这些基于深度学习的多组学数据融合方法可以被较为有效地应用在生物医学领域,成为研究人员的宝贵工具。
作者简介:
军事医学研究院博士研究生冷东瑾、文昱琦,厦门大学硕士研究生郑林义为本文共同第一作者,军事医学研究院伯晓晨研究员、何松副研究员,厦门大学张仲楠教授为共同通讯作者。
伯晓晨研究员/何松副研究员课题组一直致力于利用生物医学大数据与人工智能的多种计算模型研究癌症等复杂疾病的致病机理和药物治疗方案, 在
Nature、Nature Microbiology、Molecular Cell、Nucleic Acids Research、Genome Biology、Briefings in Bioinformatics
等杂志发表多篇论文。
张仲楠教授课题组一直致力于研究面向生物信息学领域的人工智能方法,主要研究领域包括图神经网络、无监督学习、自监督学习、持续学习等,已在
Genome Biology、Briefings in Bioinformatics、Bioinformatics、BMC Genomics、IEEE/ACM Transactions on Computational Biology and Bioinformatics
等生物信息学学术期刊和SIGIR、BIBM等计算机科学学术会议发表多篇学术论文。
两课题组长期招收硕士、博士研究生及博士后,欢迎感兴趣的同学加入或来函咨询。
简历投递
(
有意向者,请将个人简历等材料发至
):
https://jinshuju.net/f/ZqXwZt
或
扫
描二维码
投递简历
原文链接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-022-02739-2
制版人:十一
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/138807
1923 次点击
登录后回复