最近有小伙伴反映收不到推送,因为公众号改了推送算法,现在需要加星标,多点赞、点在看,才能准时收到推送哦。
导语:
一个细胞到底是谁,不能只看它表达了哪些 RNA。
在真实的生命系统中,细胞身份由多层信息共同决定:
RNA 告诉我们细胞正在表达什么基因;
蛋白告诉我们细胞表面呈现出什么功能标志;
染色质开放性告诉我们哪些调控区域正在被激活。
问题是,这三类数据各有噪音、稀疏性和分布差异。如何把它们放到同一个分析框架里,并且还能保留细胞之间真实的相似性关系,是单细胞多组学分析中的核心难题。
近日,发表在 Nature Communications 的一项研究提出了一个新的单细胞多组学整合框架——scMAGCA。它结合图卷积网络、对抗学习和零膨胀负二项分布建模,能够同时整合 RNA、ADT 蛋白和 ATAC 染色质开放性数据,在细胞聚类、批次校正、三模态整合和疾病相关细胞亚群发现中表现突出。
更重要的是,scMAGCA 不只是一个“聚类工具”。它还能进一步解释哪些基因、蛋白或染色质峰推动了细胞状态划分,并在阿尔茨海默病和肾癌数据中发现疾病相关细胞亚群和潜在生物标志物。
北京墨因生物已经与国内50+知名医院的老师或名牌大学实验室合作(协和、哈工大、同济、哈医大等)。欢迎有生信分析需求的老师垂询,公共数据库数据挖掘或自测数据分析均可。

为什么单细胞多组学需要新的整合方法?
单细胞测序技术已经让我们能够在单细胞尺度解析细胞异质性。早期研究主要依赖单一组学,例如 scRNA-seq 用来分析基因表达,scATAC-seq 用来分析染色质开放性。
但是,细胞状态并不是由单一分子层面决定的。
一个免疫细胞可能在 RNA 层面表现相似,但表面蛋白不同;
一个肿瘤细胞可能表达相同 marker,但染色质调控状态不同;
一个神经元亚群可能在转录组上差异很弱,却在调控元件开放性上已经出现疾病相关变化。
因此,RNA、蛋白和染色质三类信息需要被联合分析。
现有方法虽然已经能处理部分双模态数据,例如 RNA+ADT 或 RNA+ATAC,但仍存在几个问题:
第一,很多方法只适用于特定模态组合,泛化能力有限;
第二,单细胞数据高度稀疏,尤其是 scATAC-seq,传统模型容易丢失信号;
第三,深度学习方法虽然表达能力强,但常常缺乏可解释性;
第四,多批次、多模态数据之间存在明显分布差异,容易导致批次效应或模态偏移。
scMAGCA 正是针对这些问题提出的。它希望在同一个框架里完成三件事:保留细胞之间的拓扑关系,校正不同模态之间的分布差异,并且用可解释方式识别关键生物学特征。
这篇文章使用了多种单细胞多组学数据来系统评估 scMAGCA 的性能和应用价值。
第一类是 RNA+ADT 数据,也就是 CITE-seq 或类似平台产生的转录组和表面蛋白联合数据。作者使用了 14 个 RNA+ADT 数据集,样本来源包括 PBMC、淋巴组织、脾脏、淋巴结等,细胞数量从数百到三万多个不等。
第二类是 RNA+ATAC 数据,也就是同时测量基因表达和染色质开放性的单细胞多组学数据。作者同样使用了 14 个有细胞类型标注的 RNA+ATAC 数据集,并进一步使用 3 个无标签 RNA+ATAC 数据集评估无监督聚类性能。
第三类是多批次多组学数据。作者使用了 5 个多批次数据集,包括 RNA+ADT 和 RNA+ATAC 数据,用于评估 scMAGCA 在批次校正和生物学信号保留之间的平衡能力。
第四类是三模态 TEA-seq 数据,即同时包含 RNA、ADT 和 ATAC 三层信息的人 PBMC 数据集。该数据集包含 7,084 个细胞,用于测试 scMAGCA 是否能真正整合转录组、蛋白组和表观组信息。
第五类是疾病相关数据。作者将 scMAGCA 应用于阿尔茨海默病小鼠脑 RNA+ATAC 数据和肾癌相关小鼠肾脏数据,用于解析疾病相关细胞亚群、调控机制和潜在标志物。
scMAGCA 建立了一个可解释的单细胞多组学整合框架
文章首先展示了 scMAGCA 的整体架构。该方法从原始多组学数据出发,经过特征筛选、归一化、KNN 细胞图构建、图卷积编码、对抗对齐、ZINB 解码和 KL 聚类优化,最终输出统一的细胞嵌入和聚类结果。
主图中,作者重点强调了 scMAGCA 的三大核心模块:图卷积网络用于保留细胞之间的拓扑结构;对抗学习用于减少不同模态之间的分布偏移;ZINB 解码器用于处理单细胞数据中的零膨胀和稀疏性(图1)。
此外,图1还展示了 scMAGCA 的应用场景:它不仅可以完成多模态整合、聚类和批次校正,还可以通过权重回溯识别关键基因、蛋白或 ATAC peak,从而增强模型解释性(图1)。
这一结果说明,scMAGCA 不是简单地把多个组学矩阵拼接起来,而是通过图结构、概率建模和对抗学习共同构建一个更稳定、更可解释的细胞表示空间(图1)。
scMAGCA 在多种 RNA+ADT 和 RNA+ATAC 数据集中实现更准确的细胞聚类为了验证 scMAGCA 的基础性能,作者首先在 31 个单细胞多组学数据集上进行了系统 benchmark,包括 14 个 RNA+ADT 数据集、14 个 RNA+ATAC 数据集和 3 个无标签 RNA+ATAC 数据集。
在 RNA+ADT 数据中,scMAGCA 在 AMI、NMI、ARI 和 ACC 等聚类指标上整体排名靠前,优于多数已有多组学整合方法(图2a)。在 RNA+ATAC 数据中,scMAGCA 同样表现稳定,在 ARI 和 ACC 上取得最佳平均排名,在 AMI 和 NMI 上也具有很强竞争力(图2b)。作者还以 GSE128639 CITE-seq 数据为例展示 UMAP 结果。相比单独使用 RNA 或 ADT,scMAGCA 能更清楚地区分 CD8 Naive、CD4 Memory、Memory B 和 Naive B 等相近细胞群,说明它能够整合 RNA 和蛋白信号来解析更细微的细胞异质性(图2c)。在无标签 RNA+ATAC 数据中,scMAGCA 使用 ASW、DB 和 CH 等无监督指标进行评估,也表现出更好的聚类结构(图2d)。此外,作者在 pbmc_10X_public 数据集中进一步结合 SCENIC+ 计算 eRegulon specificity score,发现不同细胞群具有不同的特异性转录因子,例如 Naive B 细胞中的 EBF1、SPIB 和 POU2AF1,CD8 Naive T 细胞中的 KLF6 和 FOXO1,NK 细胞中的 EOMES 和 TBX21(图2e)。主图中,图2集中展示了 scMAGCA 在多个真实单细胞多组学数据集中的聚类能力、可视化效果和调控因子解释结果(图2)。
这一结果说明,scMAGCA 不仅能提高聚类准确性,还能从整合后的空间中进一步提取细胞类型特异性调控信息(图2)。
scMAGCA 能够校正批次效应,同时保留生物学解释性单细胞多组学数据常常来自不同实验批次,不同批次之间的技术差异可能掩盖真实的生物学差异。因此,一个好的整合方法不能只是“混合批次”,还必须保留真实细胞类型结构。
作者在 5 个多批次多组学数据集上评估 scMAGCA,并与 totalVI、scArches、scVAEIT、MOFA+、MIDAS、DeepMAPS、Seurat 和 scMDC 等方法进行比较。在 GSE164378 数据集中,scMAGCA 在 batch correction、biological conservation 和 aggregate score 等指标上表现突出,说明它可以在校正批次效应的同时保留细胞类型差异(图3a)。UMAP 可视化结果显示,部分方法会出现批次驱动的细胞分离,而 scMAGCA 能够将不同批次的同类细胞整合到一致的结构中,同时维持主要细胞群的边界(图3b)。作者进一步分析 scMAGCA 的 latent factor 解释性。结果显示,scMAGCA 的某些因子能够对应特定免疫细胞亚群或共享功能程序。例如 Factor 7 主要富集于 CD4 CTL、CD8 TEM 和 CD4 TCM 等细胞,提示其可能代表细胞毒性和记忆 T 细胞相关程序(图3c)。主图中,图3展示了 scMAGCA 在多批次数据中的整合能力,并进一步说明其 latent factors 能够对应具有生物意义的细胞功能模块(图3)。
这一结果说明,scMAGCA 不只是把批次“抹平”,而是在校正技术差异的同时保留了可以解释的细胞状态信息(图3)。
scMAGCA 实现 RNA、ADT 和 ATAC 三模态联合整合,揭示免疫细胞更细层次异质性双模态分析已经很常见,但真正把 RNA、蛋白和染色质开放性三层信息同时整合起来,仍然具有挑战。
作者将 scMAGCA 应用于人 PBMC TEA-seq 数据集,该数据集包含 7,084 个细胞,并同时测量 RNA、ADT 和 ATAC 三类信息。首先,作者比较了 RNA only、ADT only、ATAC only、RNA+ADT、RNA+ATAC 和 RNA+ADT+ATAC 六种输入配置。结果显示,随着模态信息增加,聚类性能逐步提升,而 scMAGCA 的三模态整合表现优于 Seurat 等方法(图4a)。作者识别出多种免疫细胞类型,包括 B 细胞、naive CD4 T 细胞、Tfh 细胞、CD8 T 细胞、NK 细胞、CD8+ MAIT 细胞和中性粒细胞谱系细胞(图4a)。进一步分析 RNA 与 ADT 的对应关系发现,一些经典 marker 的 RNA 和蛋白信号在相应细胞类型中呈现一致性,例如 CD8A-CD8a、NCAM1-CD56 和 ICOS-CD278,但这种相关性具有细胞类型特异性(图4b)。更重要的是,加入 ATAC 信息后,作者在中性粒细胞谱系和 B 细胞中发现了更细的染色质可及性差异,并区分出高染色质开放性 HCA 和低染色质开放性 LCA 亚群(图4c-d)。在 B 细胞中,scMAGCA 的 latent factors 进一步揭示了 HCA B 细胞和 LCA B 细胞的不同功能程序。HCA B 细胞相关因子富集于 MHC class II 蛋白复合体、抗原加工和呈递等功能,提示其可能代表更活跃的抗原呈递 B 细胞状态(图4e-f)。主图中,图4展示了 scMAGCA 对三模态 TEA-seq 数据的整合能力,说明 RNA、蛋白和染色质三层信息能够共同提升免疫细胞亚群解析和功能解释(图4)。
这一结果强调,三模态整合不是简单增加数据维度,而是能够揭示双模态或单模态分析难以发现的调控异质性(图4)。
这篇文章的核心价值,不只是提出了一个新的单细胞多组学整合算法,而是提供了一套从“多模态数据整合”走向“生物学解释”的完整框架。
传统单细胞分析往往关注一个层面:
只看 RNA,可能忽略蛋白水平和调控层面的变化;
只看 ATAC,可能难以直接解释功能输出;
只看 ADT,可能无法理解背后的转录和表观调控机制。
scMAGCA 的优势在于,它把 RNA、ADT 和 ATAC 放在一个统一的图结构深度学习框架中,用图卷积保留细胞之间的邻域关系,用对抗学习解决模态分布偏移,用 ZINB 模型处理单细胞数据的稀疏性和 dropout。更重要的是,scMAGCA 强调可解释性。它不仅告诉我们细胞分成了几群,还进一步回答:哪些基因、哪些蛋白、哪些染色质开放峰推动了这些细胞状态的形成?
在方法学层面,scMAGCA 在多种 RNA+ADT、RNA+ATAC 和三模态 TEA-seq 数据中表现出良好的聚类、整合和批次校正能力。
在生物学层面,它能够解析免疫细胞通讯、阿尔茨海默病神经元亚型和肾癌相关细胞亚群。在转化层面,它还可以帮助发现潜在 biomarker,并通过 qPCR 等实验进一步验证。
当然,这类深度学习方法也有需要注意的地方。模型性能依赖于数据质量、模态匹配程度、参数设置和生物学验证。尤其是在疾病研究中,算法发现的细胞亚群和 marker 仍然需要更多独立队列和功能实验支持。但总体来看,scMAGCA 代表了单细胞多组学分析的一个重要方向:未来的单细胞研究不再只是“看表达”,而是要同时理解表达、蛋白、染色质和调控网络如何共同塑造细胞命运。对于肿瘤、免疫和神经退行性疾病研究来说,这类方法有望帮助我们更精细地识别疾病相关细胞状态,发现新的调控机制和潜在治疗靶点。
可以通过转发作图丫公众号的任意一篇推文(不屏蔽任何人),并附文“想找一个靠谱的的生信分析团队,请联系作图丫团队,关注作图丫即可获取联系方式”,每发一次朋友圈,凭截图可享2%的折扣,可以叠加,累计最多5次,共计最终费用的10%的折上折优惠。码字不易,欢迎读者分享或转发到朋友圈,任何公众号或其他媒体未经许可不得私自转载或抄袭。由于微信平台算法改版,公众号内容将不再以时间排序展示,建议设置“作图丫”公众号为星标,防止丢失。星标具体步骤为:(2)点击右上角的小点点,在弹出界面选择“设为星标”即可。