社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

Nature子刊:全基因组深度学习揭示阿尔茨海默病抵抗型的表观遗传特征

brainnews • 1 年前 • 645 次点击  

导读

      转座酶可及染色质测序(ATAC-seq)能够准确描述疾病中染色质的调控状态并指导研究基因表达改变的机制。然而,批量测序会混淆来自不同细胞类型的信息从而掩盖细胞的异质性。近期,来自美国加利福尼亚斯坦福大学的研究团队在《nature communications》发表了题为Whole genome deconvolution unveils Alzheimer’s resilient epigenetic signature”的研究论文,通过一种名为Cellformer的反卷积深度学习模型可以将批量ATAC-seq全基因组数据分解为不同细胞类型的特异性表达,并在大型队列中实现经济高效的特定细胞类型的开放染色质分析。作者团队应用来自3个大脑区域的191个批量样本,使用Cellformer模型确定了与阿尔茨海默病抵抗型相关的特定细胞类型的基因调控机制并通过这些细胞类型特异的通路揭示了疾病抵抗型潜在的表观遗传特征,可能有助于未来阐明治疗机制以限制疾病对认知的影响。






背 景

       转录调节和染色质可及性已被证明在各种神经紊乱中起着关键作用。在各种表观遗传学技术中,转座酶可及染色质测序分析(ATAC-seq)提供了一种准确的方法来描绘大脑的染色质状况以及在神经退行性疾病中的变化。ATAC-seq对于确定与疾病密切相关的候选基因,尤其是干扰基因转录的非编码区具有显著意义。虽然批量ATAC-seq可以直接有效的确定开放染色质区域(OCR)和基因调控变化,但它将来自不同细胞类型的数据纠缠在一起因此掩盖了细胞类型特定的信息。虽然单核(sn)ATAC-seq可以克服这一障碍,但其劳动密集价格昂贵,且容易出现技术遗漏从而影响数据分析和解释。

       对批量测序数据解卷积已得到广泛研究,特别是RNA测序。由于OCR比基因表达更能捕获细胞类型特异性,因此也适用于批量 ATAC-seq。目前这些计算方法主要依赖于精心设计的特征矩阵,使用有限且最具区别性的细胞类型特异性特征来估计组织样本的细胞组成。虽然这种矩阵方法有助于解决从批量RNA-seq中解析空间单细胞的基因表达,但细胞类型特异性标记物的选择仍然具有挑战性。最近,有研究提出了一种深度学习方法来绕过这一限制,直接从大量 RNA 和芯片表达中高精度预测细胞丰度。细胞丰度变化是批量分析的一个里程碑,有助于深入了解生物学机制。然而,它对不同细胞群染色质可及性异质性和疾病中细胞特异性OCR变异的全面了解仍然不足。

        信号源分离是一种被广泛研究的信号处理方法,它能从混合信号中检索出单独的信号源的集合(例如从一个演奏音频信号中检索不同种类的乐器单独发出的声音)。在本项研究中作者团队使用了类似的方法,开发并测试了一种基于深度学习的算法 Cellformer,该算法可以从大量样本中分离出 6 种主要脑细胞类型的表达:4 种神经胶质细胞类型,包括星形胶质细胞 (astrocytes ,AST)、小胶质细胞 (microglia ,MIC) 、少突胶质细胞 (oligodendrocytes ,OLD) 和少突胶质祖细胞 (oligodendrocyte progenitor cells ,OPC) 以及 2个主要类型的神经元,包括兴奋性 (excitatory ,EXC) 和抑制性 (inhibitory, INH)神经元。与前人的研究不同,Cellformer 不仅可以估算细胞组成,还可以沿全基因组对细胞类型特异性 ATAC-seq OCR 进行解构。

       随着年龄超过65岁,很多老年人都处于阿尔茨海默病 (Alzheimer’s disease ,AD) 连续发病状态,这意味着大约五分之四的老年人患有潜在、前驱或完全表现的 AD 痴呆 (Alzheimer’s disease dementia ,ADD) 。AD 连续发病的这些阶段通常会出现功能衰退的过程,并伴随着组织病理学、神经影像学和生物标志物相关的疾病负担的增加。与 AD 连续发病不同的是,一小部分老年人疾病负担高到足以导致痴呆,但他们的正常认知功能却不受影响。这些被称为 AD 抵抗型 (resilient to AD,RAD),他们的存在表明即使是晚期AD负担也不一定会导致痴呆。因此,揭示这些遗传因素、生活选择以及发生或避免的经历是如何结合在一起,最终形成这种“自然保护”就显得特别具有研究价值。最近,利用全基因组关联研究 (GWAS) 发现了几个与RAD相关的推定遗传位点,但RAD中介导基因表达的潜在基因调控机制仍有待阐明。

       在本研究中,作者团队纳入了191个经过精心整理的组织样本,这些样本来自性别和年龄范围匹配的正常对照NCn = 5)、RAD(n = 12)和 ADD(n = 19)个体,没有神经系统合并症,并使用Cellformer预测来自三个大脑区域的细胞类型特异性ATAC-seq数据,为RAD细胞表达特征和分子机制提供了独特见解(图1)。

图1:实验概述:Cellformer 的数据来自具有正常对照 (NC)、阿尔茨海默病抵抗型(RAD) 和阿尔茨海默病痴呆型 (ADD) 临床病理特征的个体的无合并症批量样本


结 果




1. Cellformer:从批量到细胞类型特异性 OCR



       在大量组织转录组和表观基因组分析中,细胞类型特异性变化的丰富多样性可能因异质细胞群的混入而被掩盖。因此,作者团队借鉴分离混合源信号的方法开发了深度学习算法以帮助解决细胞类型特异性表达问题。然而,深度学习的一个主要缺陷是需要大量且带注释的数据集来训练深度学习模型使其不会过度拟合,但已知具有相应细胞类型特异性表达组成的批量 ATAC-seq 数据集非常稀缺。为了绕过这一限制,作者团队利用从NC个体大脑中收集的单核 (sn)ATAC-seq 和内嵌的数据集生成策略,创建了具有已确定细胞类型特异性表达的合成大样本(图2a)。所以,Cellformer 是使用合成的特定对象的合成批量样本进行训练的。这些样本通过对每种细胞类型的单核细胞数据随机抽取和合并生成,以创建细胞类型特异性的基本事实。
      为了处理 ATAC-seq 的高维数据,Cellformer 结合了注意力机制和一种名为双路径有效的方法。注意力机制在远距离的相关性元素之间建立联系,随着自然语言、语音或DNA序列处理中Transformer模型的发展,展示了长序列建模的高性能。双路径策略将输入序列分割成小块,以提取局部和全局依赖关系,同时降低基于注意力架构的计算复杂度。Cellformer 将ATAC-seq 数据应用于处理全基因组序列,提取局部(染色体内)和全局(染色体间)相互作用,以准确预测整个基因组中细胞类型特异性的可及性(图2b)。ATAC-seq 数据的另一个众所周知的问题是信号强度低,这可能会影响可重复性并使计算分析变得更加困难。为了加强模型预测准确度并对 ATAC-seq OCR 进行去噪,Cellformer 自动过滤每种细胞类型中可预测较低的 OCR,并保留用于下游分析的高置信度 OCR。
图2: Cellformer模型的训练、设计和评估




2. Cellformer 成功将合成的批量 ATAC-seq 数据解卷积为来自不同组织的细胞类型数据




       模型验证采用“留一”策略,即在每次迭代时,使用来自 12 名受试者的合成批量 ATAC-seq 大脑样本数据进行模型训练,而测试则使用第 13 名受试者的样本。使用 Spearman 相关系数评估模型准确预测每种细胞类型 OCR 值的能力。并且使用 AUROC 和 AUPRC 指标评估预测 OCR 可访问性的准确性。结果发现,Cellformer通过交叉验证迭代成功的对批量表达数据进行了解卷积,在预测的细胞类型特异性表达与合成的基本事实之间实现了平均 Spearman 系数 0.82、AUROC 0.97 和 AUPRC 0.97 的出色性能(图2c)。按细胞类型分层,Cellformer能准确地对批量 ATAC-seq OCR 进行解卷积显著优于其他机器的学习方法,包括多输出线性回归(multi-output linear regression)和广泛使用的非负矩阵分解(NMF)和一种非参数方法K-nearest neighbors(KNN)。其交叉验证迭代的方差也低于现有方法(图2c)。

      作者团队进一步测试了Cellformer对来自不同组织的批量 ATAC-seq 进行解卷积的能力。为了确保其对批次效应等技术变化的稳定性,作者团队将其应用于根据为不同研究收集的18个外周血单核细胞 (PBMCs) 的 scATAC-seq 创建的数据集中。结果发现Cellformer 准确预测了5种主要 PBMC 细胞类型的表达,平均 Spearman 相关性为 0.85,跨样本差异极小(图2d)。

       在现实中,大块组织的细胞类型组成仍然未知。例如,一种罕见的细胞类型可能会丢失,或者大量组织中可能会出现一种新的(未识别的)细胞类型。在这两种情况下,Cellformer 受一种细胞类型存在或不存在的影响很小,因为不同细胞类型的模型性能没有明显差异。此外,作者团队还评估了 Cellformer 在由不同百分比的细胞类型特异性细胞制成的混合批量样品上的性能并观察到当样本量占总样本的 10% 以下时Cellformer 的性能略有下降。





3.Cellformer 解析三个不同脑区的批量 ATAC-seq 数据




        经过训练后,Cellformer 被应用于从NC、RAD、ADD 的三个大脑区域即尾状核 (caudate ,CAUD)、颞上回和中回 (superior and middle temporal gyri ,SMTG) 和海马 (hippocampus,HIPP) 收集的的批量 ATAC-seq数据。通过计算斯皮尔曼相关系数(Spearman correlation coefficient)对不同表型的批量样本进行一致性分析。结果发现,与随机选择的来自相同大脑区域和相同疾病组的样本相比,真实技术重复的去卷积表达之间相关性明显更高(Spearman>0.8)(图 2e )。使用来自 NC 单细胞ATAC-seq 进行训练的外部细胞分类评估解卷积 RAD 和 ADD 样本上真实细胞类型特征的保留情况,Cellformer的输出在细胞分类预测和真实标签近乎完美的一致(图 2f)。

      通过比较 Cellformer细胞类型特异性表达和来自 snATAC的细胞类型特异性表达来验证 RAD 和 ADD 细胞类型特异性表达,结果表明两者之间存在显著的高相关性(相关系数 >0.75)(图 2g)。神经元和神经胶质细胞之间存在很大相关性并与脑细胞图谱层次结构一致。这些细胞类型相关性也在snATAC-seq和去卷积ATAC-seq输出分布中观察到。这些结果表明,由 Cellformer 得出的一组可预测 OCR 在不同研究中具有高度可重复性,并为区分大脑中主要细胞类型提供了有效的参考特征。





4.  NC、RAD 和 ADD 的细胞类型特异性染色质可及性数据特征证实了以前的观察结果




       当应用于来自 NC、RAD 和 ADD 的大量样本时,Cellformer 产生了前所未有的细胞类型特异性表观遗传数据集,为在细胞类型分辨率下识别独特的 RAD 表观遗传特征提供了机会。它为每种细胞类型生成了至少 10,145个准确预测的 OCR,并在三个脑区(HIPP、CAUD 和 SMTG)中生成了41,954个共享的细胞类型特异性 OCR(图 3a)。与文献一致,细胞类型特异性样本主要按细胞类型、然后是大脑区域、最后是疾病组进行聚类(图 3b、c)。此外,大多数细胞类型特异性 OCR 存在于内含子(~50%)、远端(~25%)或启动子(~15%)区域(图 3d)。这些发现共同表明,Cellformer 生成的细胞类型特异性数据显示了人脑中预期的表观遗传模式,并且与单细胞数据的观察结果非常一致。

图3 Cellformer 将批量表达数据解卷积为细胞类型特异性表达,从而实现前所未有的 RAD 和 ADD 染色质分析图谱




5. RAD 特异性开放染色质可及性数据揭示了新的表观遗传调节中介




       作者团队对RAD、NC、ADD 的细胞类型特异性表达进行了单变量处理,并对每种细胞类型进行独立分析。使用多重测试校正的两侧 Wilcoxon 检验发现RAD 与其他组的大部分差异均在于 HIPP (93%),而在 CAUD 区域中观察到的差异很少(7%)并且在SMTG 中未发现差异。RAD 特异性 OCR 在神经元细胞 (55%) 和小胶质细胞 (28%) 之间共享(图4a)。
      RAD 失调的 OCR 主要是细胞类型特异性的,其中 30% 发生在兴奋性神经元中,22.5% 发生在小胶质细胞中(图 4b)。有趣的是,RAD 特异性 OCR 在 HIPP 中的上调程度高于下调程度(图 4c)。通过将基因本体论(GO)应用于所有与RAD中显著不同的OCR相关的基因,发现神经元RAD特异性OCR主要涉及细胞连接、突触传递和神经元发育信号,以及小胶质细胞RAD特异性OCR相关的炎症反应信号(图4d)。
       为了分析RAD 基因调控元件,作者团队将来自不同大脑区域的可预测 OCR 和 HiChip数据集采用接触活动 (ABC) 算法预测区域基因增强子相互作用。通过将预测的增强子集与 RAD特异性OCR 相交,作者发现 小于50% 的RAD特异性OCR与顺式调节元件相关,而其余的则在非编码区域中(图 4e)。对预测定位于基因和基因间 RAD 特异性增强子的 OCR 进行 GO 和通路分析表明,兴奋性神经元、抑制性神经元和小胶质细胞中与化学突触传递相关的基因明显富集,特别是淀粉样β前体蛋白结合家族A成员 2 (APBA2) ,它能调节 AD 淀粉样前体蛋白和 BDNF 信号通路。这些发现证实了以前使用微阵列蛋白质分析和动物模型进行分析的结果。
图4 RAD 的表观遗传特征

小 结

      RAD人群是一组不同寻常的个体,他们不会“屈服”于高负荷的AD病理,可能掌握着治疗AD的重要线索。作者团队开发了Cellformer深度学习模型应用于来自人类多个大脑区域的大型队列批量ATAC-seq数据为RAD解析提供了新的见解。Cellformer预测RAD与AD连续发病组之间的区别在于支持海马神经元过程和突触的表观遗传上调。这种调节变化可能使 RAD 能够保留通过组织病理学研究观察到的神经元投射和突触数量。Cellformer 提供了新的视角,以经济有效的方式深入了解批量测序并识别疾病进展中的细胞特异性基因调控变化。作为细胞丰度预测的补充,Cellformer 提供了额外的信息来推进批量 ATAC-seq 分析,可能有助于揭示细胞特异性转录调控,并增进人们对其它生物环境中疾病表观遗传机制的理解。

         

编译:陈瑞

校审:沈洪涛

Berson E, Sreenivas A, Phongpreecha T, Perna A, Grandi FC, Xue L, Ravindra NG, Payrovnaziri N, Mataraso S, Kim Y, Espinosa C, Chang AL, Becker M, Montine KS, Fox EJ, Chang HY, Corces MR, Aghaeepour N, Montine TJ. Whole genome deconvolution unveils Alzheimer's resilient epigenetic signature. Nat Commun. 2023 Aug 16;14(1):4947.





如需投稿可添加主编微信:brainnews_01

或联系邮箱:brainnews@vip.163.com

本文版权归属作者团队,仅做分享


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/165047
 
645 次点击