1. Cellformer:从批量到细胞类型特异性 OCR
在大量组织转录组和表观基因组分析中,细胞类型特异性变化的丰富多样性可能因异质细胞群的混入而被掩盖。因此,作者团队借鉴分离混合源信号的方法开发了深度学习算法以帮助解决细胞类型特异性表达问题。然而,深度学习的一个主要缺陷是需要大量且带注释的数据集来训练深度学习模型使其不会过度拟合,但已知具有相应细胞类型特异性表达组成的批量 ATAC-seq 数据集非常稀缺。为了绕过这一限制,作者团队利用从NC个体大脑中收集的单核 (sn)ATAC-seq 和内嵌的数据集生成策略,创建了具有已确定细胞类型特异性表达的合成大样本(图2a)。所以,Cellformer 是使用合成的特定对象的合成批量样本进行训练的。这些样本通过对每种细胞类型的单核细胞数据随机抽取和合并生成,以创建细胞类型特异性的基本事实。 为了处理 ATAC-seq 的高维数据,Cellformer 结合了注意力机制和一种名为双路径有效的方法。注意力机制在远距离的相关性元素之间建立联系,随着自然语言、语音或DNA序列处理中Transformer模型的发展,展示了长序列建模的高性能。双路径策略将输入序列分割成小块,以提取局部和全局依赖关系,同时降低基于注意力架构的计算复杂度。Cellformer 将ATAC-seq 数据应用于处理全基因组序列,提取局部(染色体内)和全局(染色体间)相互作用,以准确预测整个基因组中细胞类型特异性的可及性(图2b)。ATAC-seq 数据的另一个众所周知的问题是信号强度低,这可能会影响可重复性并使计算分析变得更加困难。为了加强模型预测准确度并对 ATAC-seq OCR 进行去噪,Cellformer 自动过滤每种细胞类型中可预测较低的 OCR,并保留用于下游分析的高置信度 OCR。图2: Cellformer模型的训练、设计和评估2. Cellformer 成功将合成的批量 ATAC-seq 数据解卷积为来自不同组织的细胞类型数据
模型验证采用“留一”策略,即在每次迭代时,使用来自 12 名受试者的合成批量 ATAC-seq 大脑样本数据进行模型训练,而测试则使用第 13 名受试者的样本。使用 Spearman 相关系数评估模型准确预测每种细胞类型 OCR 值的能力。并且使用 AUROC 和 AUPRC 指标评估预测 OCR 可访问性的准确性。结果发现,Cellformer通过交叉验证迭代成功的对批量表达数据进行了解卷积,在预测的细胞类型特异性表达与合成的基本事实之间实现了平均 Spearman 系数 0.82、AUROC 0.97 和 AUPRC 0.97 的出色性能(图2c)。按细胞类型分层,Cellformer能准确地对批量 ATAC-seq OCR 进行解卷积显著优于其他机器的学习方法,包括多输出线性回归(multi-output linear regression)和广泛使用的非负矩阵分解(NMF)和一种非参数方法K-nearest neighbors(KNN)。其交叉验证迭代的方差也低于现有方法(图2c)。
作者团队进一步测试了Cellformer对来自不同组织的批量 ATAC-seq 进行解卷积的能力。为了确保其对批次效应等技术变化的稳定性,作者团队将其应用于根据为不同研究收集的18个外周血单核细胞 (PBMCs) 的 scATAC-seq 创建的数据集中。结果发现Cellformer 准确预测了5种主要 PBMC 细胞类型的表达,平均 Spearman 相关性为 0.85,跨样本差异极小(图2d)。
在现实中,大块组织的细胞类型组成仍然未知。例如,一种罕见的细胞类型可能会丢失,或者大量组织中可能会出现一种新的(未识别的)细胞类型。在这两种情况下,Cellformer 受一种细胞类型存在或不存在的影响很小,因为不同细胞类型的模型性能没有明显差异。此外,作者团队还评估了 Cellformer 在由不同百分比的细胞类型特异性细胞制成的混合批量样品上的性能并观察到当样本量占总样本的 10% 以下时Cellformer 的性能略有下降。
3.Cellformer 解析三个不同脑区的批量 ATAC-seq 数据
经过训练后,Cellformer 被应用于从NC、RAD、ADD 的三个大脑区域即尾状核 (caudate ,CAUD)、颞上回和中回 (superior and middle temporal gyri ,SMTG) 和海马 (hippocampus,HIPP) 收集的的批量 ATAC-seq数据。通过计算斯皮尔曼相关系数(Spearman correlation coefficient)对不同表型的批量样本进行一致性分析。结果发现,与随机选择的来自相同大脑区域和相同疾病组的样本相比,真实技术重复的去卷积表达之间相关性明显更高(Spearman>0.8)(图 2e )。使用来自 NC 单细胞ATAC-seq 进行训练的外部细胞分类评估解卷积 RAD 和 ADD 样本上真实细胞类型特征的保留情况,Cellformer的输出在细胞分类预测和真实标签近乎完美的一致(图 2f)。
通过比较 Cellformer细胞类型特异性表达和来自 snATAC的细胞类型特异性表达来验证 RAD 和 ADD 细胞类型特异性表达,结果表明两者之间存在显著的高相关性(相关系数 >0.75)(图 2g)。神经元和神经胶质细胞之间存在很大相关性并与脑细胞图谱层次结构一致。这些细胞类型相关性也在snATAC-seq和去卷积ATAC-seq输出分布中观察到。这些结果表明,由 Cellformer 得出的一组可预测 OCR 在不同研究中具有高度可重复性,并为区分大脑中主要细胞类型提供了有效的参考特征。
4. NC、RAD 和 ADD 的细胞类型特异性染色质可及性数据特征证实了以前的观察结果
当应用于来自 NC、RAD 和 ADD 的大量样本时,Cellformer 产生了前所未有的细胞类型特异性表观遗传数据集,为在细胞类型分辨率下识别独特的 RAD 表观遗传特征提供了机会。它为每种细胞类型生成了至少 10,145个准确预测的 OCR,并在三个脑区(HIPP、CAUD 和 SMTG)中生成了41,954个共享的细胞类型特异性 OCR(图 3a)。与文献一致,细胞类型特异性样本主要按细胞类型、然后是大脑区域、最后是疾病组进行聚类(图 3b、c)。此外,大多数细胞类型特异性 OCR 存在于内含子(~50%)、远端(~25%)或启动子(~15%)区域(图 3d)。这些发现共同表明,Cellformer 生成的细胞类型特异性数据显示了人脑中预期的表观遗传模式,并且与单细胞数据的观察结果非常一致。
图3 Cellformer 将批量表达数据解卷积为细胞类型特异性表达,从而实现前所未有的 RAD 和 ADD 染色质分析图谱5. RAD 特异性开放染色质可及性数据揭示了新的表观遗传调节中介
作者团队对RAD、NC、ADD 的细胞类型特异性表达进行了单变量处理,并对每种细胞类型进行独立分析。使用多重测试校正的两侧 Wilcoxon 检验发现RAD 与其他组的大部分差异均在于 HIPP (93%),而在 CAUD 区域中观察到的差异很少(7%)并且在SMTG 中未发现差异。RAD 特异性 OCR 在神经元细胞 (55%) 和小胶质细胞 (28%) 之间共享(图4a)。 RAD 失调的 OCR 主要是细胞类型特异性的,其中 30% 发生在兴奋性神经元中,22.5% 发生在小胶质细胞中(图 4b)。有趣的是,RAD 特异性 OCR 在 HIPP 中的上调程度高于下调程度(图 4c)。通过将基因本体论(GO)应用于所有与RAD中显著不同的OCR相关的基因,发现神经元RAD特异性OCR主要涉及细胞连接、突触传递和神经元发育信号,以及小胶质细胞RAD特异性OCR相关的炎症反应信号(图4d)。 为了分析RAD 基因调控元件,作者团队将来自不同大脑区域的可预测 OCR 和 HiChip数据集采用接触活动 (ABC) 算法预测区域基因增强子相互作用。通过将预测的增强子集与 RAD特异性OCR 相交,作者发现 小于50% 的RAD特异性OCR与顺式调节元件相关,而其余的则在非编码区域中(图 4e)。对预测定位于基因和基因间 RAD 特异性增强子的 OCR 进行 GO 和通路分析表明,兴奋性神经元、抑制性神经元和小胶质细胞中与化学突触传递相关的基因明显富集,特别是淀粉样β前体蛋白结合家族A成员 2 (APBA2) ,它能调节 AD 淀粉样前体蛋白和 BDNF 信号通路。这些发现证实了以前使用微阵列蛋白质分析和动物模型进行分析的结果。