社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

Nat. Methods | Tangram利用深度学习和空间比对解析单细胞转录组

DrugAI • 3 年前 • 333 次点击  

编译 | 姜晶

审稿 | 任宣百

本文介绍由美国哈佛-麻省理工Broad研究所的Aviv Regev教授团队发表在 Nature Methods 的研究成果:本文作者提出了Tangram,一种将sc/snRNA-seq数据与从同一区域收集的各种形式的空间数据对齐的方法。Tangram可以处理来自多个形式的空间数据,包括MERFISH、STARmap、smFISH、空间转录组学(Visium)和组织学图像。Tangram可以映射任何类型的sc/snRNA-seq数据,包括多模态数据,例如来自SHARE-seq的数据。作者通过在视觉和躯体运动区的单细胞分辨率上重构全基因组解剖整合空间图,在健康小鼠脑组织上展示了Tangram。

1

简介

单细胞和空间基因组学的进步为高分辨率空间图谱开辟了道路,但目前每种技术在单细胞水平上都只解决了在空间中分析整个转录组的部分挑战,如sc/snRNA-seq分析了单细胞转录组范围内的概况,但不可避免地丢失空间信息;相反,空间技术在空间中解析转录组,但在基因通量或空间分辨率方面受到限制。一些计算方法通过结合单细胞和空间测量来填补这一缺口,它们通过在转录组空间中的局部对齐或基因表达连续性等假设来重建关键的标志基因。然而,本质上稀疏或粒度分布的基因很难预测。对于粗空间分辨率的测量,计算方法旨在通过学习程序字典或数据的概率分布来对这些数据进行反卷积,以推断空间体元内的细胞类型组成;然而,反卷积受到空间“缺失”的阻碍,其中由稀疏或暗淡标志物定义的细胞类型无法被正确检测到。


在这里,作者提出了Tangram,一种深度学习框架,可以解决两个挑战:在单细胞分辨率上学习转录组的空间基因表达图,并将这些图与来自同一标本的组织学和解剖学信息联系起来。Tangram从任意类型的参考空间数据中学习sc/snRNA-seq数据的空间对齐,正如作者在不同的分辨率和基因覆盖水平上,用五个空间支持方法(ISH、smFISH、Visium、STARmap和MERFISH)中的每一个对来自成年健康小鼠大脑的同皮质的snRNA-seq数据进行空间映射来证明。Tangram生成一致的细胞类型空间图,并克服了吞吐量或分辨率的限制。它纠正低质量基因,甚至在高分辨率方法中,为低分辨率方法提供单细胞分辨率,并为靶向方法提供全基因组覆盖。通过在空间支持上映射多模态单数据(兼高通量ATAC和RNA表达测序(SHARE-seq)),Tangram可以在单细胞分辨率上可视化染色质可及性和转录因子基序得分的空间模式。最后,Tangram包括一个专用的新计算机视觉模块,该模块利用组织学数据,并将其映射到大脑中现有通用坐标框架中的解剖位置。如果组织学图像可用,即使没有任何进一步的注释,该模块将所有规模关联到一个集成图集。

2

结果

Tangram:通过对齐学习空间解析单细胞转录组

作者开发了Tangram,一种使用sc/snRNA-seq数据作为“拼图”,在空间中对齐,以匹配空间数据的“形状”的算法(图1a)。Tangram的输入是sc/snRNA-seq数据以及来自相同区域或组织类型的空间剖面数据,来自任何当前可用的空间方法(例如MERFISH、smFISH、STARmap、ISH或Visium),只需要两个模态至少共享一些共同基因的子集。直观地说,Tangram首先将sc/snRNA-seq表达谱随机放置在空间中,然后计算一个目标函数,该函数模拟sc/snRNA-seq数据和空间数据中每个基因之间的空间相关性。Tangram然后在空间中重新排列sc/snRNA-seq表达谱,以最大化数据集共享基因的总空间相关性。当Tangram完成时,映射的sc/snRNA-seq表达谱构成了新的空间数据:它们现在包含在单细胞分辨率上所有基因和空间位置。从学习的映射函数中,Tangram可以(1)从测量的基因子集扩展到全基因组图谱(图1b);(2)纠正低质量的空间测量(图1c);(3)映射不同类型的细胞的位置(图1d);(4)将低分辨率测量反卷积到单个细胞(图1e);(5)通过对齐多模态数据,在单细胞分辨率上解析染色质可及性的空间模式(图1f)。

图1 Tangram从sc/snRNA-seq数据和对应的空间数据中在单细胞分辨率上学习空间转录组模式


Tangram使用MERFISH测量映射细胞以生成基因组规模的高分辨率表达图

为了应用Tangram,作者使收集了来自健康成年小鼠大脑的初级运动区(MOp)160,000个snRNA-seq表达谱。每个表达谱包含大约27,000个基因的表达,并根据新皮质区域的细胞类型分类法将其注释为22个子集(以下称为“细胞类型”)。作者首先将这些snRNA-seq数据与254个基因的MERFISH数据集映射到4,234个细胞上(图2)。作者使用253个MERFISH基因训练Tangram(有一个基因在作者的snRNA-seq数据中检测到)。50%的对齐表达谱是神经元的,谷氨酸能和GABA能细胞之间的比例为6:1。


为了揭示细胞类型的空间分布,作者将学习到的概率映射与snRNA-seq数据中的细胞类型注释相结合,并获得了每种细胞类型的空间概率分布(图2a)。谷氨酸能细胞显示出神经元子集不同的皮质层模式,而大多数(但不是全部)非神经元细胞和GABA能神经元如预期的那样呈颗粒状分布。例外情况包括非神经元VLMC细胞(集中位于第一层)和GABAergicVip和Lamp5细胞,它们似乎更集中于上层。为了验证这些分布不是作者概率方法的人工产物,作者还可视化了定性映射中的细胞类型分配(即,只有最可能的细胞被分配到每个空间位置)并观察到类似的模式(图2b)。


正如留一法分析所证明的那样,学习到的Tangram模型可以很好地预测空间表达模式。作为评估分数,作者计算了每个基因的真实测量值与学习模型预测的基因空间模式之间的空间相关性。总体而言,253个MERFISH基因中有75%的预测相关性>40%(图2d)。为了解释这些空间相关性,作者选择了具有不同分数的九个基因,并将预测的空间模式与MERFISH测量进行了视觉比较(图2c)。重要的是,空间模式对于广泛的空间相关值具有良好的定性一致性。


在MERFISH上映射snRNA-seq数据将基因通量增加到27,000个基因,作者用Allen ISH数据集中的ISH数据对11个选定基因进行了验证(图2e)。一些基因(Kcnh5、Nos1ap、Erbb4、Atp2b4、Celf2、Crispld1)表现出强烈的、局部的模式与Allen图像中的惊人相似。对于其他基因(Esrrg、Cdh4、Adamts3、Htr4、Prkg1),与作者的预测相比,Allen ISH图像中的信号非常暗淡,但仔细检查也显示出一致性。这表明Tangram可以揭示低表达基因的空间模式,作者将在下面进一步证明(使用Visium数据)。值得注意的是,当预测由MERFISH测量但质量相对较低的withheld基因时,作者获得了类似的结果,这可能是因为用于这些基因的最优寡核苷酸探针较少:模型预测与ISH数据一致,表明该模型可以“纠正”'较低质量的信号(图2f)。

图2 Tangram使用高分辨率MERFISH测量映射细胞并将它们扩展到基因组规模


使用STARmap测量的转录本的精准校正

为了进一步研究Tangram对低质量原位转录本的校正,作者分析了一个STARmap数据集,来自小鼠脑切片的视觉区域(VISp),包括972个细胞和1,020个基因。作者使用STARmap和snRNA-seq数据中都存在的995个训练基因绘制了来自VISp区域的11,759个SMART-Seq2 snRNA-seq表达谱。


从概率(图3a)或定性映射(图3b)检查细胞类型分布,作者证实细胞类型模式与MERFISH从运动区域获得的一致(图2a和b)。尽管VISp和Mop snRNA-seq数据集之间的细胞类型注释差异很小,但作者的模型提供了稳健映射。例如,虽然只有VISp snRNA-seq数据集有一个注释的谷氨酸能L4(第四层)细胞子集,但该模型通过预测其标记基因(例如, 图2e和3e 中的Kcnh5)成功地揭示了MOp数据中的L4(图3a)。最后,STARmap数据集还包含皮层下组织(定义为L6b层以下的细胞),这使作者能够通过观察皮层下少突胶质细胞浓度来进一步验证预测(图3a)。


值得注意的是,与Allen Brain Atlas ISH的性能相比,Tangram不仅预测了 STARmap未测量的基因的表达,而且有效地校正了低质量基因的空间表达(图3c-e)。

图3 通过将snRNA-seq映射到STARmap数据上来校正低质量基因


单细胞反卷积和组织学数据与空间转录组学的结合

接下来,作者在低分辨率空间转录组学(Visium)数据的背景下专注于反卷积挑战,测量3个小鼠冠状脑切片中50微米直径圆形斑点内的31,053个基因(图4)。随后是切片的H&E染色(section 1),跨越感兴趣区域(ROI)上的约160个圆形点。冠状切片(section 2)与section 1相邻,以及在大致相同的后部位置收集的冠状切片(section 3)。在染色图像中可以看到单个细胞,因此作者对细胞进行了分割以直接估计每个点内的细胞数,总共有939个细胞。


空间转录组学中Tangram缺失值补全

接下来,作者对与所有三个Visium切片的解剖区域相对应的Mop snRNA-seq表达谱进行概率映射。Tangram的映射产生了更高分辨率、精细定位的细胞类型(图4b)。值得注意的是,当作者在训练中保留这些基因,然后将它们与Visium测量值进行比较时,Tangram正确预测了映射细胞的空间表达模式(图4c-f)。具体来说,作者将基因划分为1,237个训练基因和29,816个在模型学习中看不见的测试基因,并像以前一样使用空间相关性(图4c)。训练基因空间相关系数的90分位数>62%,50%的测试基因超过了这个阈值(图4c,d)。随着训练基因的数量从1,237减少到123,相对预测准确性也随之减少(图4d),尽管它仍然很可观。对选定测试基因的空间模式的检查表明,虽然作者的预测总是在上层产生局部模式,但与Visium测量的一致性变差,因为在原始Visium实验中检测到的基因更加稀疏(图4e,其中稀疏性为定义为未检测到基因的体素分数)。


作者假设这种较差的一致性可能是由于技术“dropouts”(大约15,000个测试基因在作者的Visium数据集中完全未检测到)。支持这一假设,预测分数和数据稀疏性之间存在很强的相关性(图4f):模型正确预测了98%的非稀疏基因(空间相关性>62%阈值;图4f,区域i);只有大约70个非稀疏基因没有得到很好的预测(图4f,区域ii)。未被很好预测的非稀疏测试基因的预测模式比Visium测量更稀疏,这表明不一致可能是由于snRNA-seq数据中的丢失(图4g)。最后,在Visium中测量的转录组中约有80%是高度稀疏的(图4f,区域iii);同样的基因也太低而无法被Allen ISH图谱检测到。作者将作者的预测与MERFISH和稀疏基因中可用的两个基因的测量值进行了比较。在这两种情况下,作者预测的空间模式与MERFISH测量结果一致(图4h)。

图4 将snRNA-seq数据映射到空间转录组学数据(Visium)展示了反卷积和缺失值补全


使用SHARE-seq对染色质可及性模式进行空间定位

作者接下来使用Tangram成功的进行了空间映射,通过把RNA作为支架,在没有可用的空间数据下绘制额外的分子图谱。特别是,作者联合单细胞RNA表达和ATAC-seq数据,通过SHARE-seq在来自整个小鼠大脑> 3,000个细胞中同时进行了分析,并标注为9个谷氨酸能细胞子集(EN,兴奋性神经元)、5个GABA能细胞子集(IN,抑制性神经元)和5个非神经元子集(A1.E1、MX、NSC、OG1、P1)。作者使用每个表达谱的snRNA-seq组件将SHARE-seq数据与MERFISH数据对齐,然后将相同细胞的单核ATAC-seq(snATAC-seq)表达谱转移到空间,以可视化推断的染色质可及性空间模式和单细胞分辨率下的转录因子模体评分(图5)。


作者从概率(图5a)和定性(图5b)两方面对SHARE-seq数据进行映射,并获得了细胞类型分布。作者的映射显示EN01s位于L2/3层,EN04s位于第4层,EN07s位于第5/6层,EN05s位于第5和6层,EN02s位于第6层。有趣的是,IN02s在第6层似乎更为突出。此外,非神经元细胞类型MX(标记为“未确认”)似乎集中在ROI的左下部分,这与已知的皮质细胞类型模式不同。虽然映射总体上是一致的,但它在生物学上不如以前的研究精确,这可能是由于缺乏免疫细胞(Tangram的“拼图”缺失)以及细胞不是从皮层专门分析的事实。


作者使用基于snRNA的映射来推断染色质可及性和转录因子活性的空间模式(图5c,d),并将它们与空间表达模式进行比较。在某些情况下,特定皮质层的基因表达较高,但在投影的snATAC-seq中未观察到定位(如C1ql3、Il1rapl2和Kcng1的情况)。在其他情况下,投影的snATAC-seq形成空间模式,即使相应的预测基因没有显示出空间模式(Scgn、Il4ra和Mrgprx2)。仅在少数情况下,作者观察到snRNA-seq和snATAC-seq模式之间的相关性。作者类似地可视化了转录因子模体活性评分的推断空间模式(图5d)。

图5 Tangram映射多组学SHARE-seq表达谱产生染色质可及性和转录因子活性的空间模式


Tangram有助于检测跨物种保守的细胞类型模式

作者接下来测试了当输入的scRNA-seq和空间数据来自不同物种时Tangram的表现,作者在大脑中进行了测试(人类Mop snRNA-seq和小鼠Mop MERFISH)和肾脏(人类scRNA-seq和小鼠Visium)。对于大脑,作者发现除了人类snRNA-seq中不存在的两种细胞类型外,所有细胞类型在同物种映射高度一致,并且在单个基因水平上具有良好但较低的相似性。对于肾脏,投影的细胞类型图正确捕获了几种结构和共定位模式,而一些免疫细胞类型也没有映射,这可能反映了免疫细胞中标记物的较低保守性。


在单核分辨率下学习到的躯体运动小鼠皮层的组织学、解剖学和分子图谱

为了证明分子和解剖特征的整合,作者在Tangram中开发了一个额外的模块来跨规模连接,通过在解剖学注释的通用坐标框架(CCF)上注册组织学/空间数据,例如用成年小鼠大脑的Allen CCF。作为需要监督或完整组织的方法的替代方法,作者将Siamese神经网络模型与语义分割算法相结合,以生成解剖图像的完整分割掩码。Siamese网络模型学习一致编码的潜在空间,而不管图像中的技术伪影。语义分割模型产生一个与Allen本体兼容的分割掩码。因为作者产生了一个匹配的掩码,作者可以自动注册作者的和地图集图像,而无需提供相应的地标。


作者将Tangram的解剖映射模块应用于包含穿孔部分的组织学图像,作者从中收集了大约160,000个snRNA-seq表达谱(图6a)。使用上面的注册管道,作者精确定位了Allen CCF上的解剖区域(图6b),然后查询Allen Mouse Atlas以估计200-μm分辨率的空间基因表达和Blue Brain Cell Atlas来计算预期的细胞每个空间体素中的密度(图6c)。作者对三个ROI重复此过程,最后将snRNA-seq表达谱映射到它们相应的ROI。请注意,作者使用相同的管道来选择ROI以将snRNA-seq表达谱映射到由空间转录组学测量的组织切片上(图4a),该切片在靠近包含Post ROI的组织切片的后部收集。三个ROI中细胞类型的映射预测是一致的,尽管不如使用更高分辨率空间技术的映射准确(图6d)。

图6 Tangram将snRNA-seq表达谱映射到组织学和解剖学小鼠脑图谱


3

总结与讨论

器官中的基因在不同尺度上以空间组织模式表达,理解这些模式对于揭示生物学功能至关重要。空间解析转录组数据为揭示这种模式提供了机会,但目前受到空间分辨率或测量基因数量的限制,将它们与其他水平或组织连接起来可能需要大量的实验工作和专家审查。在这里,作者开发了一个计算框架Tangram,协调sc/snRNA-seq数据与原位、组织学和解剖学数据,以形成一个高分辨率的整合图谱。


未来展望:

  1. Tangram假设细胞在预处理中被分割,本文使用专用的外部工具进行了预处理。未来的扩展可以联合学习细胞分割和映射,正如最近提出的贝叶斯方法所做的那样。

  2. 未来的应用程序可以使用Tangram来区分生物条件,利用Tangram损失函数将收敛于更小的值来匹配scRNA-seq和空间数据集的事实。

  3. 虽然作者的工作集中在小鼠大脑上,但Tangram也适用于其他器官以及疾病组织。然而,大家正在努力为不同器官构建类似的参考图,以构建小鼠和人类所有器官的细胞图谱。

参考资料

Biancalani, T., Scalia, G., Buffoni, L. et al. Deep learning and alignment of spatially resolved single-cell transcriptomes with Tangram. Nat Methods 18, 1352–1362 (2021). 

https://doi.org/10.1038/s41592-021-01264-7

数据

http://github.com/spacetx-spacejam/data

https://doi.brainimagelibrary.org/doi/10.35077/g.21

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE140203

https://console.cloud.google.com/storage/browser/tommaso-brain-data

代码

https://github.com/broadinstitute/Tangram


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/126169
 
333 次点击