Py学习  »  机器学习算法

Nat Commun | 李向涛课题组开发基于图深度学习框架的单细胞ATAC-seq数据分析工具-scAGDE

BioArtMED • 4 月前 • 108 次点击  

基因表达受暴露在基因组可及染色质区域的数百万个活性DNA调控元件的调控。单细胞转座酶可接近染色质测序(scATAC-seq)技术通过超活性Tn5转座酶探索染色质可及性景观。因此,scATAC-seq通过对染色质可及性的分析,提供了超越转录组测量的细胞异质性显著见解,揭示了单细胞水平的表观遗传调控机制。然而,在全基因组分析过程中,开放染色质位点的捕获率相对较低,导致scATAC-seq数据的高维性和稀疏性,这对分析带来了巨大挑战。这种稀疏性掩盖了重要的基因组信息,且使得下游分析(如峰值调用和基序发现)变得复杂。此外,DNA拷贝数的固有限制加剧了数据的二进制特性,使得信号与噪声难以区分。

近日,吉林大学人工智能学院李向涛教授课题组在Nature Communications 杂志在线发表了题为Topological identification and interpretation for single-cell epigenetic regulation elucidation in multi-tasks using scAGDE的研究工作。该研究为应对上述问题,提出了scAGDE,这是一种基于图深度学习的单细胞染色质可及性数据分析模型,该方法通过显式建模数据生成过程,能够同时学习表示和聚类。评估结果表明,scAGDE在细胞分离、可视化等方面优于现有方法,同时缓解了dropout的问题,揭示了潜在的染色质可及区域。scAGDE特别能够识别候选增强子区域,阐明复杂的调控景观,发现可能调控免疫细胞中CTLA4的持续性表达和CD8A转录动态的增强子。应用于人脑组织时,scAGDE成功注释了由顺式调控元件确定的细胞类型,并揭示了谷氨能神经元的功能多样性和调控机制。


1. scAGDE概述

scAGDE是一种针对高维稀疏单细胞ATAC-seq数据的深度学习方法,结合了染色质可及性自编码器和图嵌入学习。它通过图卷积网络(GCN)编码细胞的染色质信息,并通过双解码器模块重建细胞图和染色质开放概率。scAGDE还利用自监督学习优化聚类任务,通过软标签进行聚类优化,最终生成低维度的拓扑嵌入表示。该方法在降维、可视化、dropout修正和增强子发现上表现出色,并有效揭示了与细胞身份相关的关键调控元素和单细胞的功能多样性。

图1  scAGDE整体框架

2. scAGDE在多种模拟和真实单细胞ATAC-seq数据集上的卓越性能与鲁棒性

在模拟和真实单细胞ATAC-seq数据集上的广泛测试中,scAGDE表现出色,特别是在处理不同测序深度、噪音水平和dropout率的情况下。模拟实验表明,scAGDE在低测序深度和高噪音条件下仍能准确聚类,并且对高达60%dropout率的数据保持了高鲁棒性。相比其他方法,scAGDE能够有效提取信息并区分细胞群体,尤其在稀疏数据和复杂数据集(如Splenocyte)中,准确识别难度较大的细胞亚群体。在真实数据集的对比中,scAGDE在大多数数据集上超越了其他11种方法,特别是在细胞数量较多的数据集(如Lung、Liver)中,展现了其优越的适应性和聚类精度。此外,scAGDE在运行时间和内存使用上表现合理,优化了计算效率与精度的平衡,使其适用于大规模单细胞ATAC-seq数据的分析。

3. scAGDE在增强细胞类型特异性增强子区域发现与调控机制推断中的应用

scAGDE通过其独特的峰值重要性评分来有效筛选和评估单细胞ATAC-seq数据中的峰值,从而在下游分析中减轻了维度灾难。该评分反映了每个峰值对低维表示学习的贡献,是从编码器网络的权重中提取的,编码器学习了染色质可及性谱系。通过这种方法,scAGDE能够优先选择细胞类型特异性的可及性峰值。

在对10×Blood数据集进行实验时,scAGDE与EpiScanpy的结果进行了比较。结果显示,scAGDE识别出的峰值具有更大的可及性变化范围,更低的Shannon熵,以及更低的可及性百分比,表明它倾向于选择细胞类型特异性的可及性峰值。进一步的差异可及性区域分析发现,scAGDE识别出了6162个细胞类型特异性的可及性峰值,显著多于EpiScanpy识别出的462个。

对于峰值的注释分析,scAGDE的峰值主要位于内含子区域和远端基因间区域,而EpiScanpy的峰值主要集中在靠近转录起始点 (TSS) 的启动子区域。这些结果表明,scAGDE倾向于选择位于内含子和远端基因间区域的增强子相关峰值,这些区域具有细胞类型特异性的染色质可及性,并且对调控机制有重要作用。

通过与已知的增强子数据库VISTA和EnDB的对比,scAGDE识别出的峰值与已知增强子的匹配度较高,尤其是在CTLA4和CD8A基因的周围区域。scAGDE发现的这些增强子可能在特定细胞类型(如T细胞和NK细胞)的基因调控中发挥重要作用。此外,scAGDE识别出的候选增强子区域在多个免疫细胞类型中具有独特的染色质可及性模式,这为理解关键基因的调控机制提供了重要线索。

总体而言,scAGDE能够识别细胞类型特异性的增强子区域,为深入揭示细胞特异性基因调控提供了新的视角和工具。

图2 对scAGDE和EpiScanpy所选择peak的进一步探索。

4. scAGDE对染色质开放区域恢复与细胞类型特异性顺式调控元件推断

针对单细胞ATAC-seq数据中的“dropout”问题,scAGDE通过引入基于伯努利分布的解码器,有效恢复缺失的染色质开放区域信号,并减少噪声,从而提升下游分析效果。与现有的SCALE、PeakVI和SAILER方法相比,scAGDE在峰值恢复和一致性方面表现出色,平均相关系数达到0.88,明显优于其他方法。

在小鼠前脑数据集的分析中,scAGDE显著改善了细胞类型的聚类表现,尤其是在UMAP可视化中,成功区分了不同细胞群体。通过比对原始数据与修复后的数据,scAGDE揭示了更多细胞类型特异性的差异可及性区域(DARs),其中5263个DARs显著增加,特别是在低覆盖的细胞类型中。进一步的富集分析显示,恢复后的峰值与细胞身份相关,支持了细胞特异性基因的标记作用。此外,scAGDE还进行了转录因子结合位点的富集分析,发现多个关键转录因子(如NFIX、MEF2C、Dlx2等)在不同细胞类型中的特异性富集。通过对chromVAR偏差评分的评估,scAGDE增强了转录因子活性的细胞类型特异性,提升了不同细胞群体之间的区分度。

总的来说,scAGDE通过恢复潜在的染色质开放区域,显著改善了细胞类型特异性顺式调控元件的识别和功能推断,为解析基因调控提供了重要工具。

图3 scAGDE对开放染色质位点的有效恢复增强了小鼠前脑数据的下游分析。

5. scAGDE揭示人脑神经元的功能多样性与调控机制

作者应用scAGDE算法分析了成人大脑皮层的单细胞染色质可及性数据,旨在探索大脑神经元的功能差异和调控机制。通过对14,906个细胞核的单细胞染色质数据进行预处理和聚类,识别出了8个主要细胞群体,涵盖了多种神经元和胶质细胞类型。研究通过基因表达模式和GO分析确认了每个细胞群体的类型和生物学功能。不同类型的神经元,如GABA能神经元和兴奋性神经元,展示了各自独特的基因表达特征,并且与已知的细胞标记基因吻合。

进一步分析了各群体的染色质可及性区域,揭示了48,578个差异性可及性峰值,尤其是在兴奋性神经元中,显示出显著的细胞特异性。这些差异与转录因子结合位点分析相结合,揭示了每个细胞群体中独特的调控机制。例如,SOX家族在寡突胶质细胞中的富集,IRF1和STAT2在微胶质细胞中的富集等,都与其功能密切相关。特别是在兴奋性神经元群体(vGlut+ 1 和 vGlut+ 2)中,发现了细微的功能差异。通过进一步细化聚类,研究者将兴奋性神经元群体划分为三个亚群,发现它们分别参与突触组装、突触可塑性以及感官知觉等生物学过程。对基因-峰值共可及性分析的结果表明,特定基因如RGS4和PCDH8的调控区域在不同群体中的可及性差异,进一步揭示了这些群体在神经信号传递和神经网络维护中的重要作用。
总的来说,scAGDE算法为我们提供了关于大脑神经元功能差异和调控机制的新见解,揭示了不同细胞类型在大脑复杂生物学过程中的独特作用。

图4 用scAGDE分析人脑组织单细胞染色质可及性数据。

总结

综上所述,scAGDE模型通过深度学习和图嵌入技术,创新性地解决了单细胞ATAC-seq数据分析中的多个挑战,特别是在数据降维、细胞聚类和转录调控机制解析方面。它能够高效处理数据的稀疏性,精准识别细胞类型特异性的染色质调控元素,并揭示细胞功能的微妙差异。scAGDE通过自编码器和图神经网络结合,捕捉细胞间的拓扑关系,自动化聚类并减少对先验知识的依赖。在实际应用中,scAGDE展示了其在神经和免疫细胞调控机制中的强大分析能力,尤其在区分功能上具有细微差异的细胞群体时表现突出。

原文链接:https://www.nature.com/articles/s41467-025-57027-x#Abs1

制版人:十一


BioArt

Med

Plants

人才招聘

会议资讯



BioART战略合作伙伴

(*排名不分先后)


BioART友情合作伙伴
(*排名不分先后)




转载须知


【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/179394
 
108 次点击