Py学习  »  机器学习算法

Nature子刊 | 江瑞/王永雄团队发表单细胞数据分析的深度学习方法

测序中国 • 2 年前 • 371 次点击  
近年来深度测序技术快速发展,使得在单个细胞尺度检测基因表达和染色质开放性成为可能,形成了单细胞多组学数据整合分析的研究热点。单细胞数据往往呈现超高维度、极度稀疏等特点,这对下游生物信息分析提出了极大挑战。而已有分析方法大都缺乏对高维数据分析的理论依据,较难克服上述单细胞数据分析的难点。

2021年5月10日,清华大学自动化系的江瑞团队和斯坦福大学统计系的Wing Hung Wong团队合作在Nature Machine Intelligence发表了题为Simultaneous deep generative modelling and clustering of single-cell genomic data 的文章,提出了全新的单细胞数据分析方法scDEC。 

文章发表在Nature Machine Intelligence

scDEC方法的理论基础是该团队前期针对高维数据提出的神经网络概率密度估计理论Roundtrip(Liu et al, Proc Natl Acad Sci USA, 118(15):e2101344118, 2021)。在这一理论的指导下,scDEC巧妙地使用一组生成对抗网络将高维单细胞数据映射到低维隐空间,在低维空间进行聚类分析,再使用另一组生成对抗网络将低维数据映射回高维空间。通过这样两组生成对抗网络的往复循环和共同优化,scDEC集细胞类型的辨识与单细胞数据的降维、生成、批次效应去除于一体,不仅实现了融合单细胞基因表达与染色体开放性数据的细胞类型辨识,还成功应用于下游的细胞发育轨迹推断、细胞内基因调控机制解析等细胞功能建模研究。

研究团队通过大量实验验证了这一方法优异的性能。在分析单细胞染色质开放性数据时, scDEC能有效区分不同细胞类型,显著提高细胞聚类的性能。在对最新的10x Genomics Multiome单细胞基因表达和染色质开放性数据的整合分析中,scDEC的聚类效果亦优于已有单细胞多组学分析方法

综上所述,scDEC是一个基于循环生成对抗网络的单细胞整合分析方法。以高维数据概率密度估计的理论为基础,该方法突破单细胞数据分析中降维、聚类等关键步骤分开割裂进行的局限,在模型中集数据降维、生成与细胞聚类于一体,是单细胞数据分析的一个突破性进展。

论文链接:
https://www.nature.com/articles/s42256-021-00333-y

· END ·

 热文推荐

2030年的精准医疗|未来十年,改变医疗保健的七大机遇

GRAIL公司Nature子刊发文|阐释血液游离RNA作为癌症检测分子标志物的潜力

Nature子刊 | 周彩存团队联手新格元生物再添肺癌单细胞测序力作,解析晚期NSCLC的肿瘤微环境特征

华大智造与Illumina测序平台比较:全基因组测序性能具有高度一致性

喜欢别忘了点“在看”呦!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/114214
 
371 次点击