Py学习  »  机器学习算法

中科院计算所赵屹团队发表多组学数据融合深度学习框架——DeepOmix

测序中国 • 2 年前 • 394 次点击  

随着高通量低成本的生物组学技术的不断进步与发展,疾病相关的多模态多维度的组学大数据呈指数级增长,公共数据库中各种生物分子网络也逐步积累与完善。这为多角度多尺度刻画人类复杂疾病提供了丰富的数据来源与先验生物知识。通过对疾病的基因组、转录组、蛋白组、表观组等多层次组学数据的系统整合,才能更好地发现疾病相关的标记物,全面地挖掘其潜在机制并基于此展开精准诊疗。癌症是一种异质性极高的复杂疾病,同种癌症病人间也存在着巨大的差异,如何整合病人相关的多组学多模态数据,对其临床表型特征进行预测(如生存时间、分子分型、药物响应等),挖掘影响临床表型的内在生物机制是临床研究中极大的挑战,同样也是未来的一个研究热点方向。
近日,中科院计算研究所赵屹老师团队Computational and Structural Biotechnology Journal发表文章“DeepOmix: A scalable and interpretable multi-omics deep learning framework and application in cancer survival analysis ”(2021 IF:7.2)DeepOmix是一个可扩展可解释用于多组学数据整合的深度学习模型,如图1所示,输入为单一或多个组学的特征矩阵。由于细胞中的基因并不是彼此独立行使功能,而是以信号通路或功能模块为单位进行工作,因此在该算法模型中引入了基因功能模块层,融合基因模块的生物先验信息(文章中使用的是信号通路基因集)用于整合来自样本的多组学特征信息,并将之应用于各类型癌症生存状态的预测。该研究通过训练模型可对病人的生存期进行预测,并得到样本数据在功能模块层的低维表示,通过统计分析可挖掘影响预后的基因功能模块。此外,DeepOmix不仅可用于生存预测分析,也可用于预测药物反应等多种临床指标。

图1. DeepOmix的综合框架图

该研究所用数据是收集TCGA中多个癌种的多组学数据,以生存状态为训练目标进行交叉实验验证。DeepOmix对生存周期的预测性能显著优于其他5种常用的基于组学数据预测生存周期的算法(图2),包括基于传统机器学习的BlockForest、glmBoost、IPFLasso和基于深度学习的DeepSurv和DeepHit。
图2. DeepOmix与多个机器学习方法的10倍交叉实验验证的生存预测性能比较(基于八类癌种的多组学数据)
为了挖掘与预后相关的基因模块,该研究又以低级脑胶质瘤(LGG)多组学数据为例,将DeepOmix用于预测其生存状态,并基于输出层将样本进行分组,并在不同组别中根据基因功能模块层的低维表示分布差异的显著性对节点进行排序,排名前十位的信号通路(图3)中几个信号通路均已有文献报导与脑胶质瘤或其他肿瘤密切相关。

图3.DeepOmix在脑胶质瘤中发现的相关信号通路

综上,DeepOmix为一个多组学整合的深度学习模型框架。随着生物技术的不断进步与样本实验数据的积累,DeepOmix的可扩展性会随着不同研究目标和空间转录组等新型组学数据的深入而陆续更新。安装使用可访问https://github.com/CancerProfiling/DeepOmix。该研究受到国家重点研发计划、浙江省肿瘤智能诊断与分子技术研究中心、国家自然科学基金和浙江省自然科学基金的项目基金支持。

团队介绍

团队带头人赵屹研究员,拥有医学及计算科学交叉背景,在中国科学院计算技术研究所从事医疗大数据研究十余年,一直致力运用组学数据分析、人工智能技术来研究中医药辨证论治的科学内涵。以第一作者及通信作者发表论文50余篇,其中影响因子15以上论文24篇;超过200次SCI引用的6篇,有11篇论文被Web of Science评为高被引用论文。入选2020年Elsevier中国1%高被引学者(计算科学),入选2021年全球生物信息前2%顶尖科学家榜单(Stanford大学发布),入选2021科睿唯安的全球1%高引用科学家榜,团队承担多项国家级课题。本工作第一作者为赵连鹤博士和董琼叶博士。赵连鹤博士毕业于中科院计算技术研究所,主要研究方向是基于肿瘤多模态大数据的整合与临床转化应用,为临床肿瘤智能决策和抗癌药物组合使用与精准治疗提供辅助;董琼叶博士毕业于清华大学自动化系,现工作于北京大学深圳医院精准医疗研究院多组学平台,主要研究方向为基于人工智能算法的多组学数据整合和癌症联合用药药物响应预测等计算医学方向。
赵屹老师团队常年开放博士后及客座研究生位置:聚焦Omics-Based及Image-Based新技术,运用多模态数据智能融合、临床数据智能挖掘等人工智能等算法模型,围绕肿瘤常见临床问题,系统性地开展肿瘤早筛标志物、肿瘤分子病理、肿瘤免疫、系统药理的研究。欢迎对交叉学科研究有兴趣的同学发送C.V.到:zhaoyi@ict.ac.cn

· END · 

热文推荐


Cancer Cell | 基于脑脊液cfDNA低覆盖WGS技术开展MRD(微小残留病灶)检测的系统评估

Nature Comms: 全球首个肺癌靶向辅助精准用药模型,世和基因助力ADJUVANT/CTONG1104研究

Science发表人类疾病-蛋白质-基因组图谱,基于“基因-蛋白-表型三联体”解析疾病致病基因的内在机制

深度解读 | BBS测序技术:基于DNBSEQ平台的科研攻关项目Ⅰ期成果

喜欢就点个“在看”吧!
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/123222
 
394 次点击