Py学习  »  机器学习算法

Genome Biology | 刘琦团队开发高效分析单细胞多组学共测序数据的多模态深度学习算法

BioArt • 2 年前 • 489 次点击  

单细胞多组学共测序技术能够从多个组学角度同时刻画一个细胞多个维度的状态,比如可以对同一个细胞同时进行RNA测序和ATAC测序,为进一步探索细胞功能、发育状态和调控机制等奠定了基础。近年来,全球多家实验室不断在单细胞多组学共测序领域取得新的进展和突破,不断在该类技术的质量、通量和稳定性上实现更高的技术水准【1-4】。同时,10X Genomics公司推出了商业化技术服务产品10X Multiome,加速推动了该类技术在生命科学领域和临床医学领域的应用。


2022年1月12日,同济大学生命科学与技术学院生物信息系刘琦教授课题组在Genome Biology杂志上发表了题为A deep generative model for multi-view profiling of single-cell RNA-seq and ATAC-seq data 的论文【5】发布了多模态深度学习分析框架scMVP(single cell Multi-View Profiler)(图1),该框架整合了多模态生成模型,弱关联学习的Transformer模型,以及循环学习模型,利用共隐层嵌入 (Joint embedding layer) 和生成层 (imputed layer)实现单细胞RNA及ATAC共测序多模态数据的整合、去批次、降维、聚类、差异、轨迹分析等各种下游分析,并同时保证了算法的高准确率及高运算效率。



图1. scMVP算法框架


相对于过去分别测取不同组学的单细胞组学,单细胞多组学共测序技术可以同时获取一个细胞的多个组学状态,避免了多次实验中细胞难以整合配对,存在批次效应等问题,实现了真正的“单”细胞“多”组学。但是,相对于普通单细胞组学数据,单细胞多组学共测序技术普遍存在着通量低,数据高度稀疏的问题,其平均测序通量仅达到普通单细胞测序的1/10到1/5。并且同一个细胞的不同组学测序的质量经常存在较大的差异和波动,不同组学所体现的细胞信息也存在着较大的异质性。这些问题阻碍了该类技术在临床转化中的广泛应用。


在单维度单细胞组学分析中,深度生成模型能够帮助单细胞数据进行降维、聚类等分析,同时,相对于Seurat等常规分析方法能够在生成过程中对单细胞数据进行信号增强,对缓解单细胞数据处理中的数据集稀疏性问题有着一定的帮助【6,7】。近年来,在单细胞多组学整合领域内发表了一系列应用于单细胞多个组学数据的通用(Universal)整合算法【8-11】,以及专门应用于单细胞多组学共测序技术(Paired only)的整合算法【12】。作者团队通过对已有单细胞多组学通用和专用算法进行系统的基准研究,发现当单细胞多组学共测序数据集中两个组学数据一致性较高,且数据质量都很好的情况下,通用整合算法中仅多模态深度学习算法Cobolt表现接近单细胞共测序专用整合算法;但是当数据集组学质量不平衡时,所有通用整合算法均会受到质量较差组学的影响,导致其整合结果无法反应真实生物学细胞类型和状态 (图2)

图2. 单组学、多组学通用整合算法和专用算法在多组学共测序真实数据集的性能比较


为了解决上述问题,作者团队提出了全新的多模态深度学习算法scMVP。该算法包含了组学特异性生成学习模块、多模态学习模块和循环学习模块(图1)。其中,针对scRNA和scATAC设计的组学特异性生成学习模块能够针对不同组学数据特点实现各组学数据信号的同步增强,大幅提升模型在稀疏数据集的性能;多模态学习模块和循环学习模块能够实现多模态数据信号同步增强的数据整合,有效解决了常规多模态深度学习中数据质量不平衡对生成模型的不良影响。


该工作中,作者首先将该算法及其他同类算法在sci-CAR, Paired-seq和SNARE-seq三个平台的多组学单细胞测序的细胞系数据上进行基准研究。基准分析结果表明,scMVP能够有效发现了仅在单个组学中存在的低质量细胞亚群(图3),并对相近细胞类型实现了准确区分和多组学表达量生成,相对于其他单组学算法及多组学算法均有着更高且更稳定的性能。进而,在SHARE-seq, 10X Multiome和SNARE-seq三个平台的非细胞系真实数据集上,该算法相对于现有多组学整合算法及单组学算法表现出更高的准确性及更稳定的性能,对任意维度的组学数据稀疏均实现了稳定的性能(图2)


综上所述,scMVP提供了一个专门面向单细胞共测序数据分析的有效算法框架,其性能超越了Seurat 的WNN等主流算法和同类深度学习算法,可以有效解决该类数据通量低,数据高度稀疏,不同组学测序质量差异大等痛点,并可以应用于单细胞共测序多组学数据的下游分析和整合分析,帮助研究者通过单细胞多组学共测序发现新的生物学知识。


图3. scMVP算法发现了在仅在单个组学(cisTopic, scATAC)中存在的第三类细胞亚群


刘琦教授课题组长期从事基于人工智能和组学数据分析的肿瘤精准治疗、药物发现以及基因编辑方面的研究工作。近年来逐步形成了“AI-Omics”交叉融合的研究范式。目前关注的研究方向之一是基于人工智能面向单细胞测序数据开发组学分析平台,及其在肿瘤免疫和细胞治疗领域的应用。2019年,课题组基于人工智能主题学习(Topic model) 模型,在Nature Communications发表了针对于单细胞CRISPR筛选数据分析的计算平台MUSIC (Model-based Understanding of single cell CRISPR screening)【13】。2020年,基于度量学习(Metric learning)思想,课题组在Science Advances发表了单细胞细胞类型鉴定的计算平台scLearn (Learning for single cell assignment)(详见BioArt报道:Sci Adv | 刘琦团队开发基于人工智能度量学习的单细胞类型鉴定新方法【14】。2021年,课题组在Nucleic Acids Research发表了面向多参照数据集整合的单细胞类型鉴定计算平台mtSC (Multi-task single cell assignment)(详见BioArt报道:刘琦团队开发基于人工智能多任务深度度量学习进行多数据源整合的单细胞类型鉴定新方法【15】


本次工作是刘琦教授课题组继以上系列工作之后在单细胞测序数据的多模态整合领域的又一有益探索。该论文第一作者是同济大学生命科学学院刘琦教授课题组和同济大学医学院王平教授课题组联合培养的李高阳博士和刘琦教授课题组博士生傅沙镠,通讯作者是刘琦教授和王平教授。


原文链接:

https://doi.org/10.1186/s13059-021-02595-6


制版人:十一

参考文献


1. Cao J, Cusanovich DA, Ramani V, Aghamirzaie D, Pliner HA, Hill AJ, Daza RM, McFaline-Figueroa JL, Packer JS, Christiansen L, et al: Joint profiling of chromatin accessibility and gene expression in thousands of single cells. Science 2018, 361:1380-1385.

2. Chen S, Lake BB, Zhang K: High-throughput sequencing of the transcriptome and chromatin accessibility in the same cell. Nat Biotechnol 2019, 37:1452-1457.

3. Ma S, Zhang B, LaFave LM, Earl AS, Chiang Z, Hu Y, Ding J, Brack A, Kartha VK, Tay T, et al: Chromatin Potential Identified by Shared Single-Cell Profiling of RNA and Chromatin. Cell 2020, 183:1103-1116 e1120.

4. Zhu C, Yu M, Huang H, Juric I, Abnousi A, Hu R, Lucero J, Behrens MM, Hu M, Ren B: An ultra high-throughput method for single-cell joint analysis of open chromatin and transcriptome. Nat Struct Mol Biol 2019, 26:1063-1070.

5. Li G, Fu S, Wang S, Liu Q: A deep generative model for multi-view profiling of single-cell RNA-seq and ATAC-seq data. Genome Biol 2022.

6. Lopez R, Regier J, Cole MB, Jordan MI, Yosef N: Deep generative modeling for single-cell transcriptomics. Nat Methods 2018, 15:1053-1058.

7. Xiong L, Xu K, Tian K, Shao Y, Tang L, Gao G, Zhang M, Jiang T, Zhang QC: SCALE method for single-cell ATAC-seq analysis via latent feature extraction. Nat Commun 2019, 10:4576.

8. Argelaguet R, Arnol D, Bredikhin D, Deloro Y, Velten B, Marioni JC, Stegle O: MOFA+: a statistical framework for comprehensive integration of multi-modal single-cell data. Genome Biol 2020, 21:111.

9. Jin S, Zhang L, Nie Q: scAI: an unsupervised approach for the integrative analysis of parallel single-cell transcriptomic and epigenomic profiles. Genome Biol 2020, 21:25.

10. Gong B, Zhou Y, Purdom E: Cobolt: integrative analysis of multimodal single-cell sequencing data. Genome Biol 2021, 22:351.

11. Ashuach T, Gabitto MI, Jordan MI, Yosef N: MultiVI: deep generative model for the integration of multi-modal data. bioRxiv 2021:2021.2008.2020.457057.

12. Hao Y, Hao S, Andersen-Nissen E, Mauck WM, 3rd, Zheng S, Butler A, Lee MJ, Wilk AJ, Darby C, Zager M, et al: Integrated analysis of multimodal single-cell data. Cell 2021, 184:3573-3587 e3529.

13. Duan B, Zhou C, Zhu C, Yu Y, Li G, Zhang S, Zhang C, Ye X, Ma H, Qu S, et al: Model-based understanding of single-cell CRISPR screening. Nat Commun 2019, 10:2233.

14. Duan B, Zhu C, Chuai G, Tang C, Chen X, Chen S, Fu S, Li G, Liu Q: Learning for single-cell assignment. Sci Adv 2020, 6.

15. Duan B, Chen S, Chen X, Zhu C, Tang C, Wang S, Gao Y, Fu S, Liu Q: Integrating multiple references for single-cell assignment. Nucleic Acids Res 2021, 49:e80.

(可上下滑动阅览)

转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经允许禁止转载,作者拥有所有法定权利,违者必究。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/125868
 
489 次点击