近年来深度测序技术快速发展,使得在单个细胞尺度检测基因表达和染色质开放性成为可能,形成了单细胞多组学数据整合分析的研究热点。单细胞数据往往呈现超高维度、极度稀疏等特点,这对下游生物信息分析提出了极大挑战。而已有分析方法大都缺乏对高维数据分析的理论依据,较难克服上述单细胞数据分析的难点。
2021年5月10日,清华大学自动化系的江瑞团队和斯坦福大学统计系的Wing Hung Wong团队合作在Nature Machine Intelligence发表了题为Simultaneous deep generative modelling and clustering of single-cell genomic data 的文章,提出了全新的单细胞数据分析方法scDEC。
文章发表在Nature Machine Intelligence
scDEC方法的理论基础是该团队前期针对高维数据提出的神经网络概率密度估计理论Roundtrip(Liu et al, Proc Natl Acad Sci USA, 118(15):e2101344118, 2021)。在这一理论的指导下,scDEC巧妙地使用一组生成对抗网络将高维单细胞数据映射到低维隐空间,在低维空间进行聚类分析,再使用另一组生成对抗网络将低维数据映射回高维空间。通过这样两组生成对抗网络的往复循环和共同优化,scDEC集细胞类型的辨识与单细胞数据的降维、生成、批次效应去除于一体,不仅实现了融合单细胞基因表达与染色体开放性数据的细胞类型辨识,还成功应用于下游的细胞发育轨迹推断、细胞内基因调控机制解析等细胞功能建模研究。
研究团队通过大量实验验证了这一方法优异的性能。在分析单细胞染色质开放性数据时, scDEC能有效区分不同细胞类型,显著提高细胞聚类的性能。在对最新的10x Genomics Multiome单细胞基因表达和染色质开放性数据的整合分析中,scDEC的聚类效果亦优于已有单细胞多组学分析方法。
综上所述,scDEC是一个基于循环生成对抗网络的单细胞整合分析方法。以高维数据概率密度估计的理论为基础,该方法突破单细胞数据分析中降维、聚类等关键步骤分开割裂进行的局限,在模型中集数据降维、生成与细胞聚类于一体,是单细胞数据分析的一个突破性进展。
https://www.nature.com/articles/s42256-021-00333-y· END ·
热文推荐