GASTON：通过可解释的深度学习绘制空间基因表达图谱 || Nature Methods

2025 年 1 月 23 日，Raphael Lab（团队详情在文末）在《Nature Methods》期刊上发表了一篇题为“Mapping the topography of spatial gene expression with interpretable deep learning”的研究论文，其中指出空间解析转录组学技术能够在组织切片中进行高通量的基因表达测量，但这些数据的稀疏性使得对空间基因表达模式的分析变得复杂。作者通过推导组织切片的地形图来解决这一问题——类似于景观中的海拔高度图——使用一种称为“等深线”的量。恒定等深线的轮廓包围了具有不同细胞类型组成的区域，而等深线的梯度则指示基因表达最大变化的空间方向。作者开发了一种名为GASTON（基于神经网络的空间转录组学组织梯度分析）的无监督且可解释的深度学习算法，该算法能够同时学习等深线、空间梯度以及分段线性表达函数，从而建模基因表达中的连续梯度和不连续变化。研究表明，GASTON能够准确识别多个组织中的空间域和标记基因，揭示大脑中神经元分化和分布的梯度，以及肿瘤微环境中代谢和免疫活动的梯度（文章较长（可到总结-概述-分析方法最后部分）文章数据分析复现代码实例在文末）。文末有来自NYC Satija实验室一年一度的线上免费的单细胞组学的Practical Workshop相关信息，大家可以抽时间参与。

注：本文涉及的公式及函数可以直接复制公式到LaTeX编辑器查看具体公式，我这边推荐：(https://arachnoid.com/latex/或 https://www.quicklatex.com/)🤓🤓

有兴趣的读者可以参阅：

MESA：通过多组学与生态空间分析实现组织状态的定量解析 || Nature Genetics

scENVI：通过协方差环境定义细胞生态位及利用ENVI整合单细胞与空间组学数据 || Nature Biotechnology

NicheCompass：用数字解码空间多组学数据的细胞生态位 || Nature Genetics

TensionMap：空间机械（机械力，如细胞压力或张力）转录组学（基因表达）的计算框架 || Nature Methods

Nature Methods || 利用MISO进行多模态空间组学建模，解析组织复杂性

CHOIR：一种通过显著性分析识别细胞类型和状态的聚类分析工具（单细胞及空间多组学） || Nature Genetics

通过计算阵列重建实现可扩展的空间转录组学（不需直接成像） || Nature Biotechnology

综述：适应系统生物学以应对单细胞时代人类疾病的复杂性 || Nature Reviews Genetics

scMultiSim：基于基因调控网络和细胞间相互作用的单细胞多组学与空间数据模拟 || Nature Methods

scPRINT：基于五千万细胞上预训练实现稳健的基因网络预测 || Nature Communications

C2S-Scale：面向下一代单细胞分析的大规模语言模型扩展 || 教机器理解生物学语言

简介

基因表达在组织中存在显著的差异，这是由于细胞类型在组织中的空间分布以及通过发育、分化和细胞间通讯等过程导致的细胞状态局部变化所引起的。许多基因在组织的某些区域表现出急剧且不连续的表达变化，通常出现在包含不同细胞类型组合的特定空间域边界附近；例如，大脑的不同皮层和新皮层层次可以通过某些标记基因的表达与否来区分。基因表达也可能在组织中呈现连续变化，形成“梯度”，这些梯度区分了不同的细胞类型或状态，并驱动包括发育和细胞通讯在内的基本生物学过程。例如，基因表达梯度是海马体神经元功能异质性和肝脏肝细胞功能异质性的基础，而在肿瘤中，基因表达可能因氧梯度或细胞相互作用而随着与周围基质距离的变化而连续改变。

空间解析转录组学（SRT）技术能够对空间基因表达进行高通量测量，在组织切片的数千个位置上量化RNA转录本的数量。这些技术使得推断组织中的空间域成为可能，并识别在空间域内外具有连续梯度和不连续变化的基因和细胞类型。然而，SRT技术通常只能提供转录组的稀疏测量：当前基于全转录组测序的技术覆盖范围有限（每个位置大约检测到500-5,000个独特的分子标识符（UMIs）），而基于成像的技术则只能测量数量更少的目标转录本（通常为100-1,000个转录本）。这种稀疏性极大地增加了空间基因表达分析的复杂性。

目前已经开发了许多计算方法，用于从SRT数据中识别空间域或具有空间表达变化的基因。这些方法通常利用相邻空间位置之间表达测量值的相关性，以克服单个位置测量稀疏的问题。许多方法专注于通过将组织划分为具有显著不连续基因表达变化的亚区域来识别不同的空间域，但并未模拟这些区域内基因表达的连续梯度。另外一些方法则通过拟合空间位置上观察到的转录本计数来测试单个基因的表达是否具有空间变化。然而，这些方法无法区分空间域内的连续梯度与域间不连续的表达变化。更广泛地说，这些方法都没有使用描述空间域边界及域内空间位置相对位置的坐标系统来建模组织切片的几何结构，因此大大限制了它们识别域内基因表达连续梯度的能力。

作者引入了基因表达地形学，这是一种模拟基因表达空间变化的不同方法。通过使用等深线，即一种在组织切片上的一维坐标，它既描述了空间域的排列也描述了每个空间位置在其相应空间域内的相对位置，来推导出组织切片的地形图。正如景观的地形图通过海拔高度来区分山脉和山谷一样，作者的基因表达地形图通过等深线来界定空间域。此外，与景观的海拔相似，等深线在一个组织切片上连续变化，提供了建模单个基因表达连续变化的坐标。特别是，作者的地形图描述了基因表达梯度，类似于海拔地形图显示某个方向是陡峭上升还是平坦高原。

作者开发了基于神经网络的空间转录组学组织梯度分析（GASTON），这是一种无监督且可解释的深度神经网络算法，能够直接从SRT数据中学习组织切片的等深线、基因表达空间梯度的向量场以及单个基因的空间表达函数。特别是，GASTON将基因表达建模为等深线的分段线性函数，该函数描述了基因表达中的连续梯度和急剧不连续性。作者证明，GASTON所学习到的等深线和空间梯度揭示了多种组织切片的几何结构和连续基因表达梯度，涵盖了包括10X Genomics Visium和Xenium、Slide-SeqV2、MERFISH和Stereo-Seq在内的多样SRT技术。在来自小鼠和人类大脑的SRT数据上，相较于现有方法，GASTON更准确地识别了空间域和标记基因，绘制了细胞类型组织的空间变化图谱，并揭示了神经元放电和分化中的空间梯度。对来自结直肠癌（CRC）和乳腺肿瘤样本的SRT数据分析表明，GASTON识别了肿瘤微环境（TME）中的代谢、免疫活性及上皮-间质转化（EMT）相关基因表达的空间梯度。

结果概况

GASTON学习组织切片的基因表达地形学

作者引入了等深线d，这是一种标量量，用于模拟组织切片的地形，类似于地表地形图中的海拔高度。部分等深线d的轮廓将组织切片划分为不同的空间域，而具有中间值的等深线则定义了某一位置在域内的相对位置。此外，每个位置上等深线d的梯度∇d描述了每个空间域内基因表达的最大变化方向或空间梯度。这些空间梯度的集合定义了一个贯穿组织切片T的空间转录组学向量场v（图1a）。因此，等深线不仅描述了组织切片的几何结构，即不同空间域的排列方式，还描述了每个空间域内连续变化的方向。

图1 | GASTON，一种可解释的深度神经网络，学习组织的地形。 a, GASTON接收来自组织切片的空间转录组（SRT）数据，并输出等深线，这是一种描述组织切片地形的地图坐标，其中恒定等深线的轮廓以灰色显示，空间梯度则以流线形式展示。 b, GASTON训练一个深度神经网络，根据空间坐标预测基因表达，其中等深线是训练好的神经网络中一个可解释隐藏层的值。GASTON学习到的等深线使得多种下游任务成为可能，包括识别空间域或由不同细胞类型组成和基因表达模式表征的组织区域（c）。 c, 识别具有连续梯度和/或随等深线变化的表达不连续性的基因。 d, 根据等深线建模细胞类型组成的变化。e. 细胞类型组成的模型通过对等深线的学习，GASTON 还能够模拟细胞类型组成的变化。这意味着可以分析组织内不同位置的细胞类型分布情况，进一步理解细胞间的相互作用和组织的功能分区。f. 肿瘤微环境中的连续基因表达梯度分析 GASTON 还可以用于分析肿瘤微环境（TME）中的连续基因表达梯度。

为了从SRT数据中学习等深线d，作者开发了GASTON，它将每个基因g在空间位置(x, y)上的表达fg(x, y)建模为等深线d(x, y)的分段线性函数：

fg(x, y) = ∑(αp,g + βp,gd(x, y)) × 1{(x,y)∈Rp}, （1）

其中，分段R1, …, RQ表示空间域，αp,g和βp,g分别是第p个空间域Rp中的截距和斜率。作者选择分段线性函数作为模型，因为它们是一类简单但功能强大的模型，既能捕捉每个域内基因表达的连续变化（即表达梯度），又能允许域边界处的表达不连续性。每个空间域Rp的边界由等深线d(x, y)的等值轮廓定义。需要强调的是，作者的模型并未限制空间域Rp必须是连续区域；因此，与许多仅建模局部空间相关性的现有方法不同，GASTON能够捕捉基因表达的长程空间相关性。

GASTON通过一种可解释的深度学习模型，以完全无监督的方式同时学习等深线d和分段线性基因表达函数fg。具体来说，GASTON训练一个神经网络，从空间坐标到基因表达特征学习复合函数(h∘d)(x, y)，其中等深线d(x, y)对应于网络的一个可解释隐藏层（图1b）。然后，GASTON使用分段回归来学习空间域Rp以及每个基因g的分段线性表达函数fg的参数α和β。作者将在下文中展示，GASTON的可解释方法揭示了有意义的空间域（图1c）、基因表达的连续梯度和不连续性（图1d）以及细胞类型组成的分布（图1e），并适用于包括大脑和肿瘤微环境（TME）在内的广泛SRT技术和生物系统（图1f）。

GASTON重现小鼠小脑的空间组织结构

作者使用GASTON从小鼠小脑的组织切片中学习等深线d和空间梯度∇d，该数据通过Slide-SeqV2平台测量了9,985个空间位置上的23,096个转录本的表达。学习到的等深线d提供了一幅小脑分层几何结构的地形图，包括小脑不同层次的边界，并将等深线缩放为近似微米单位（图2a和方法）。空间表达梯度∇d垂直于小脑层（即恒定等深线的轮廓），并指示基因表达最大变化的空间方向。

图2 | GASTON学习到的空间梯度重现了小鼠小脑的空间组织。 a, 在来自小鼠小脑的Slide-SeqV2数据上，GASTON学习到的等深线d(x, y)和空间表达梯度∇d，以流线形式展示。等深线按微米尺度缩放，灰色曲线表示等深线的轮廓。 b-f, 使用GASTON（b）、SpiceMix（c）、SpaGCN（d）、NSF（e）和GraphST（f）识别的空间域（层）R1, …, R4。空间域根据域中最常见的RCTD细胞类型进行颜色编码。

GASTON将组织切片划分为四个连续的空间域，这些域在视觉上与先前研究中确定的小脑四个不同层次——少突胶质细胞层、颗粒层、浦肯野-伯格曼层和分子层——高度一致（图2b）。作者将GASTON学习到的空间域与四种近期方法识别的结果进行了比较（图2c–f），这些方法代表了当前用于建模空间转录组学数据局部空间相关性的主要方法：非负空间因子分解（NSF），其使用高斯过程模型；SpaGCN和GraphST，它们使用图神经网络；以及SpiceMix，其使用隐马尔可夫随机场（HMRF）。

图2 | GASTON学习到的空间梯度重现了小鼠小脑的空间组织。g, 每种方法识别的空间域的空间一致性得分。 h, 由RCTD识别的层特异性细胞类型。 i, GASTON、NSF、GraphST、SpaGCN、SpiceMix识别的空间域与RCTD识别的层特异性细胞类型之间的F-measure。 j, 层特异性细胞类型的占比随等深线d的变化。虚线表示GASTON空间域的边界。 k, 颗粒细胞（绿色）、浦肯野细胞（红色）和伯格曼细胞（紫色）在接近小脑浦肯野-伯格曼（PB）层的等深线上的布局。图k使用BioRender.com创建。

作者观察到，与其他方法相比，GASTON的空间域具有更高的空间一致性（图2g），表明GASTON识别的域与小脑的结构几何更吻合。作者进一步将每种方法识别的空间域与原始数据发表时通过稳健细胞类型分解（RCTD）获得的细胞类型进行了比较（图2h），RCTD使用参考单细胞RNA测序（scRNA-seq）数据集且不包含空间信息。GASTON、SpaGCN、NSF和GraphST的空间域与RCTD推断的细胞类型以及其他方法之间的一致性相似，而SpiceMix的空间域与RCTD细胞类型及其他方法的一致性较低，这一结果通过F值（图2i）或归一化互信息（补充图1）量化。此外，GASTON、NSF和SpaGCN各域中的点比例与对应的RCTD细胞类型比例相似（补充图2）。作者的结果表明，GASTON使用的全局空间变异模型比现有方法能够识别出更空间一致的域，同时保留了细胞类型信息。

GASTON的关键特性：学习等深线以解析细胞类型的连续变化

GASTON的一个关键区别特征是它能够学习等深线d，这为分析小脑各层内外细胞类型的连续变化提供了一个坐标。这种连续变化无法通过上述任何方法或其他将组织切片划分为空间域的方法（例如，参考文献17,19）进行建模。作者发现，RCTD推断的细胞类型比例随着GASTON等深线d的变化而显著改变（图2j）。例如，少突胶质细胞和颗粒细胞在各自层对应的等深线范围内比例较大且几乎恒定。然而，在GASTON标记为两层边界的等深线值处，比例发生了急剧变化，这表明学习到的等深线d和空间域能够准确区分少突胶质细胞层和颗粒细胞层。

相比之下，浦肯野细胞和伯格曼胶质细胞的比例在浦肯野-伯格曼层内表现出空间变化。浦肯野细胞集中在该层的起始位置（较小的等深线值），而伯格曼胶质细胞的比例在层内达到峰值，并分布于更宽的等深线范围内（图2k）。这些结果与先前基于成像和显微镜的研究一致，这些研究表明浦肯野细胞在小脑中形成单层结构，即仅由单个细胞厚度组成的层，而伯格曼胶质细胞并不形成单层，而是更分散地分布在浦肯野-伯格曼层中。早期研究还发现，伯格曼胶质细胞在小脑发育过程中会形成单层，因此这里观察到的伯格曼胶质细胞分布可能表明其空间排列在发育后发生了变化。作者还观察到，伯格曼胶质细胞比浦肯野细胞更靠近小脑的分子层，这也与先前关于小脑组织的研究一致。作为进一步验证，即使使用从GraphST获得的细胞类型标签，细胞类型比例的模式仍然存在（补充图3和补充部分1）。

作者还将GASTON与两种寻找组织连续坐标的方法进行了比较，分别是Belayer（补充部分2和扩展图1）和SpaceFlow（补充部分3）。Belayer需要简单的组织几何结构（无监督模式）或可能难以获取的复杂组织手动注释（监督模式），而SpaceFlow并未学习空间连续测量值（补充图4）。GASTON以无监督方式从头学习等深线d，其性能优于SpaceFlow和无监督模式的Belayer，与监督模式的Belayer表现相当。这些结果表明，GASTON学习到的等深线d为建模复杂组织中细胞及其类型的的空间组织提供了一种强大的计算方法。

扩展图1

GASTON揭示连续与不连续的基因表达变化

接下来，作者研究了GASTON是否能够在稀疏的SRT数据中识别出具有生物学意义的基因表达空间模式，特别是在低覆盖度的Slide-SeqV2数据中（每个空间位置中位数约为500个UMI），这些模式可能并不明显。对于每个基因g，GASTON学习等深线d的分段线性函数hg(d)，该函数能够模拟空间域内或跨空间域的表达连续变化，以及相邻空间域之间基因表达的急剧不连续变化。例如，Sbk1被报道为浦肯野细胞的标记基因，在Slide-SeqV2小脑组织中的表达非常稀疏，仅有15%的空间位置具有非零UMI计数，而在GASTON估计的浦肯野-伯格曼层中，仅有2%的空间位置UMI计数大于1（图3a）。通过沿恒定等深线轮廓聚合表达值（图2a），GASTON学习到的分段线性Sbk1表达函数在浦肯野-伯格曼层达到峰值，并在颗粒层中表现出随等深线变化的连续变化（图3b）。与稀疏的原始表达值相比（图3a），GASTON对应的二维表达函数更清晰地勾勒出了浦肯野-伯格曼层（图3c）。

图3 | GASTON揭示小鼠小脑中基因表达的连续和不连续空间变化。 a, Sbk1的表达，以logCPM显示。 b, Sbk1的等深线与表达的关系。线条表示GASTON学习到的分段线性函数hg(d)。 c, GASTON学习到的Sbk1表达函数f(x, y)。曲线表示恒定等深线d的轮廓。 d, GASTON与几种现有方法在标记基因识别上的比较，使用AUPRC和已知的小脑标记基因列表进行量化。trendsceek*使用Seurat实现，C-SIDE-iso是将GASTON学习到的等深线d作为协变量的C-SIDE方法。 e, Frmpd4的等深线与表达关系，该基因在d中被GASTON高度评为标记基因。 f, 左：Calb1的等深线与表达关系；右：由于限制在颗粒细胞中的表达函数具有较大的斜率，Calb1显示出由颗粒细胞引起的域内变异。 g, 左：Secisbp2l的等深线与表达关系；右：由于限制在少突胶质细胞中的表达函数具有较大的斜率，Secisbp2l显示出由少突胶质细胞引起的域内变异。 h, Secisbp2l的表达以logCPM显示。 i, GASTON在推断的少突胶质细胞层中学习到的Secisbp2l表达函数f(x, y)。 j-k, Camk2b（j）和Camk1d（k）的等深线与表达关系。左：它们分别在浦肯野-伯格曼层和分子层中表现出域内变异；右：这些变异无法归因于细胞类型，因为在相应层中最丰富的细胞类型的表达函数斜率为零。

GASTON学习到的基因表达函数在预测已知小脑标记基因方面显著优于现有用于识别空间可变基因（SVGs）或差异表达基因（DEGs）的方法。具体而言，GASTON在识别已知的小脑标记基因时表现尤为突出（精确率-召回率曲线下面积AUPRC≈0.31；图3d），相比之下，六种广泛使用的SVG和/或DEG识别方法的表现则逊色许多。这些方法根据GASTON表达函数在空间域上的方差对基因进行排序。GASTON性能提升的主要原因在于，许多现有方法仅测试每个基因的表达是否在二维空间中发生变化，而无法区分不同类型的连续和不连续空间变化。作者特别强调了两个由GASTON高度排名但其他方法未能识别的基因：之前提到的Sbk1，以及Frmpd4。Frmpd4并非已知标记基因，但在分子层中高表达（图3e），据报道其参与调控分子层中的神经元。

GASTON学习到的分段线性表达函数揭示了基因表达的不同空间模式，包括表达的不连续性（即相邻空间域之间的显著表达差异）和域内的连续变化（即空间域内分段线性函数的斜率β较大）。GASTON识别了513个具有不连续性或域内连续变化的SVGs（补充图5a），其中包括许多先前注释的标记基因和参与神经元过程的基因（补充部分4和补充图6）。约一半的GASTON SVGs表现出表达不连续性，这表明某些基因在特定空间域内的细胞中选择性表达或不表达（例如Cplx2；补充图5b），而超过60%的GASTON SVGs表现出域内连续变化（补充图5a），这表明连续变化在小脑中相当常见。

基因表达的域内连续变化可能是由于某种细胞类型内部的细胞状态连续性、组织中细胞类型比例的连续变化或其他生物学原因引起的。作者评估了GASTON识别的域内变化是否可归因于细胞类型，或归因于每个域中注释的细胞类型，以区分细胞类型内部状态连续性的空间成分与其他生物学原因（如细胞类型比例的空间变化）。在GASTON报告的338个具有域内变化的基因中，有217个基因的变化可归因于细胞类型（补充图5a）。GASTON识别的细胞类型相关的域内变化揭示了重要的细胞类型特异性过程，包括神经元放电和分化。例如，Calb1是一种参与钙结合的基因，表现出颗粒细胞相关的域内变化（图3f），为颗粒细胞放电阈值的空间梯度提供了潜在的分子解释。另一个例子是Secisbp2l，它表现出显著的少突胶质细胞相关域内变化（图3g–i）。最近的研究表明，Secisbp2l在分化中的少突胶质细胞中特异性表达，这表明少突胶质细胞的分化可能沿着等深线轴发生（图2a）。

GASTON识别到的约35%的域内变异无法归因于细胞类型（补充图5a），可能是由其他生物学因素引起的，例如细胞类型比例的变化或细胞类型之间的相互作用。例如，Camk2b在颗粒细胞中高表达，并在浦肯野-伯格曼层中表现出显著的域内变异（图3j，左图）。这种变异无法归因于浦肯野细胞或伯格曼细胞类型，因为针对这两种细胞类型的Camk2b特异性表达函数斜率为零（图3j，右图）。Camk2b的域内变异可能归因于浦肯野-伯格曼层中颗粒细胞比例随等深线显著减少的现象（图2i）。另一个例子是Camk1d，它在分子层中表现出域内变异（图3k，左图），但这种变异无法归因于MLI1或MLI2神经元（图3k，右图），可能是由其他生物学因素引起的，例如细胞间相互作用或神经元放电活动。

扩展图2

为进一步展示大脑中的表达梯度，作者使用GASTON分析了MERFISH小鼠初级皮层数据。该数据集此前被用于开发ENVI方法，后者通过学习一维（1D）“伪深度”坐标来识别连续的表达梯度。然而，与GASTON的等深线在整个组织切片中连续变化不同，作者发现ENVI的伪深度坐标并未在整个组织中连续变化。因此，GASTON识别出了一些基于ENVI伪深度坐标无法发现的空间梯度（补充部分5和扩展图2）。总体而言，GASTON对连续和不连续空间变异的综合模型揭示了现有方法未能发现的具有生物学意义的标记基因和连续梯度。

GASTON揭示肿瘤微环境中的空间梯度

作者接下来使用GASTON研究了肿瘤微环境（TME）中的空间基因表达模式。TME与肿瘤的发展和预后密切相关，但在缺乏空间信息的情况下难以准确量化。现有的肿瘤SRT数据分析通常仅关注肿瘤与周围基质区域之间的差异表达基因（DEGs）或信号通路。作者推测，GASTON量化连续空间变化的能力可能会揭示与肿瘤边界相关的更细微的基因表达变化。

图4 | GASTON识别肿瘤微环境（TME）中的空间基因表达模式。 a, 10X Genomics Visium CRC肿瘤样本的H&E染色图。 b, GASTON学习到的空间域。基于图a中的组织学图像，域1和域2分别被标记为肿瘤和肿瘤邻近基质。 c, GASTON学习到的等深线d（按微米尺度缩放）及其在肿瘤和肿瘤邻近基质域内的空间梯度。 d, GASTON识别了1,572个空间可变基因，并将其分类为三种空间表达模式：具有基质内部表达变化的基因、在肿瘤-基质边界处表达不连续的基因以及在肿瘤内部表达变化的基因。 e, 对d中七种空间表达模式中的六种进行基因集富集分析后报告的标志性癌症基因集的富集情况。P值使用Enrichr实现的一侧Fisher精确检验并进行多重比较校正计算得出。根据表达模式和富集的癌症通路将空间表达模式分为三类。 f-i, I型基因COX7B（f）和SCD（g），以及II型基因ACTA2（h）和TAGLN（i）的等深线d与表达的关系。 j, COL1A2表达以logCPM显示。 k, II型基因COL1A2的表达随等深线的变化。 l, GASTON COL1A2表达函数展示了在肿瘤-基质边界处的表达梯度。

作者将GASTON应用于人类结直肠癌（CRC）肿瘤组织切片的SRT数据（图4a），该数据通过10X Genomics Visium平台测量了3,900个点位上的36,601个转录本的表达。GASTON识别出五个空间域（图4b），这些域在苏木精-伊红（H&E）染色图像中具有明显的视觉区分（图4a），包括肿瘤区域（域1）、邻近肿瘤的基质区域（域2）以及不直接毗邻肿瘤的其他基质区域（域3-5）。由于该切片没有真实的空间域注释，作者通过将其与三种SRT聚类工具识别的域及原始论文中的注释进行比较，评估了GASTON发现的空间域（补充部分6.1和扩展图3）。

扩展图3

作者通过分析每个基因的表达随等深线d的变化来研究TME中的空间变化，等深线d从肿瘤边界到内部平滑变化（图4c和补充表）。GASTON在肿瘤及其邻近基质域中识别了1,572个空间可变基因，这些基因表现出七种不同的空间表达模式：肿瘤内部变化、肿瘤-基质边界的不连续性、基质内部变化或这些模式的任意组合（图4d）。对于七种空间基因表达模式中的六种，表现出特定空间模式的基因显著富集（P<0.01，基因集富集分析）于癌症标志性基因集中（图4e）。作者将GASTON发现的六种富集空间基因表达模式中的基因分为三种类型：(1) I型基因，在肿瘤内部有变化但无表达不连续性；(2) II型基因，在基质内部有变化并在肿瘤-基质边界处存在不连续性；(3) III型基因，在基质内部有变化或在肿瘤-基质边界处存在不连续性，但无肿瘤内部变化。

GASTON识别的这三类空间可变基因反映了TME中发生的不同生物学过程。742个I型基因（肿瘤内部变化）显著富集于氧化磷酸化和胆固醇稳态相关基因集；此外，涉及氧化磷酸化或胆固醇稳态的42个I型基因中有39个在肿瘤域内具有正斜率，表明其表达从肿瘤边缘向内部逐渐增加。因此，I型基因可能指示了从肿瘤边界到内部代谢活动逐渐增强的梯度。例如，COX7B（图4f）和SCD（图4g）是已知在低氧条件下表达较低的I型基因。I型基因在肿瘤内部的高表达表明，该CRC肿瘤切片的内部比边缘更为富氧，这与之前的临床研究一致。

106个II型基因（基质内部变化和不连续性）主要描述了肿瘤边界外侧上皮-间质转化（EMT）基因的上调。多项研究表明，肿瘤相关基质细胞中EMT基因的上调与侵袭性结直肠癌亚型密切相关。在EMT通路中的15个II型基因中，有14个在邻近肿瘤的基质域内随等深线呈现正斜率，即其表达在靠近肿瘤边界时增加，这表明该IV期结直肠癌肿瘤可能属于侵袭性亚型。例如，ACTA2和TAGLN被报道为一种结直肠癌相关成纤维细胞亚型的标记基因，这些细胞中EMT相关基因显著上调，并且它们在肿瘤边界处表现出正斜率和显著的不连续性（图4h、i和扩展图4a）。作者强调，肿瘤边界附近EMT基因的上调无法从稀疏的UMI计数中直接观察到，而是通过GASTON沿等深线轮廓聚合稀疏表达测量值揭示出来的（图4j–l）。III型基因则主要描述免疫反应和细胞增殖。关于II型和III型基因的进一步分析见补充部分6.2和补充图7。

总体而言，GASTON识别的空间基因表达模式表明，该结直肠癌肿瘤样本的内部生长较为缓慢（即细胞数量的变化率较低），因为通过氧化磷酸化进行的有氧代谢通常指示缓慢的细胞生长和增殖。而肿瘤边界则正在经历EMT并向干细胞样状态转变。作者通过展示细胞生长率随等深线的变化逐渐降低验证了这一生长模式（扩展图4b）。肿瘤内部和边界的这些特征表明，这是一个晚期血管化的原发肿瘤，其边界已完全具备转移能力，这一特征与肿瘤的临床信息一致。

图5 | 10X Genomics Xenium乳腺癌数据集中基因表达和细胞类型的空间梯度。 a, 带有非典型导管增生（ADH）区域标记的乳腺癌H&E图像，如参考文献13所示。 b, GASTON学习到的等深线（按微米尺度缩放）及其空间梯度。 c, 根据域中最主要的细胞类型标注的由GASTON学习到的空间域。 d, 细胞类型比例随等深线d的变化。虚线表示由GASTON识别的空间域边界。 e, 等深线与TCL1A（顶部）和SELL（底部）表达的关系。TCL1A在免疫域中表现出T细胞和B细胞相关的变异，而SELL表现出T细胞相关的变异。

作者还使用GASTON分析了一个人类乳腺癌肿瘤中非典型导管增生区域（图5a）的肿瘤微环境（TME），该数据通过10X Genomics Xenium平台测量。GASTON学习到一个从增生外部向内部连续变化的等深线（图5b），并识别出四个空间域：外部浸润性肿瘤、外部基质、中间的免疫域以及导管原位癌域（图5c）。GASTON学习到的等深线量化了肿瘤浸润淋巴细胞在TME中的空间位置（图5d），并揭示了由肿瘤浸润淋巴细胞引起的免疫细胞分化和相互作用的表达梯度（图5e）。作者的分析展示了GASTON学习到的基因表达地形如何帮助刻画肿瘤微环境的空间和分子组织结构。

稀疏Stereo-seq数据的基因表达地形图

小鼠嗅球。作者使用GASTON分析了来自小鼠嗅球的Stereo-seq数据，该数据包含27,106个转录本在9,825个细胞中的表达。Stereo-seq数据高度稀疏，每个位置的中位UMI数小于350。同时，嗅球具有由多个同心层组成的径向几何结构（图6a），这种空间约束可能有助于克服数据稀疏性带来的挑战。

GASTON几乎完美地学习到了嗅球的径向几何结构，其等深线d提供了一幅反映嗅球几何特征的地形图（图6b）。利用学习到的等深线，GASTON将组织划分为七个连续的空间域（图6c），这些域在视觉上与嗅球的七个不同层次相对应（图6a）。相比之下，SpaGCN和NSF识别出的空间域缺乏空间一致性，并且无法解析最内层的组织结构（扩展图5和补充部分3）。

图6 | GASTON揭示小鼠嗅球中细胞类型和基因表达的变化。 a, 小鼠嗅球的4,6-二脒基-2-苯基吲哚染色注释图。 b, GASTON学习到的等深线d及（负）空间梯度−∇d（以流线形式展示）。等深线按微米尺度缩放，曲线表示恒定等深线d的轮廓。 c, GASTON学习到的空间域，并基于a中的注释进行标记。MCL：僧帽细胞层；IPL：内丛状层；OEC：嗅鞘细胞；OPC：少突胶质细胞前体细胞。 d, 细胞类型比例随等深线d的变化。虚线表示由GASTON识别的空间域边界。每个空间域中最丰富的细胞类型被突出显示。 e, 左：Cck的等深线与表达关系；右：Cck在肾小球层（GL）和外丛状层（EPL）中表现出由僧帽细胞和/或毛细胞引起的域内变异。 f, 左：Gad2的等深线与表达关系；右：Gad2在颗粒细胞层（GCL）中表现出由颗粒细胞引起的域内变异。

嗅球是大脑中成年神经发生发生的两个区域之一，未成熟的神经元从吻侧迁移流（RMS，较大等深线）向外迁移到最外层的嗅神经层（ONL，较小等深线）。因此，在这一组织中，GASTON的等深线d为嗅球的潜能提供了一种量化指标，而负梯度−∇d则显示了神经成熟和迁移的空间轨迹（图6b）。GASTON学习到的等深线揭示了每个组织层内细胞类型的精确空间排列（图6d），这一点在文献中尚未得到充分描述。例如，尽管先前的研究发现间充质细胞和嗅鞘细胞都位于最外层的ONL中，但GASTON进一步识别出这两种细胞在ONL中的空间分布不同：间充质细胞集中在该层的外边缘（等深线d<50），而嗅鞘细胞在较大的等深线值（d≈85）处达到峰值，并更广泛地分布于整个ONL中。这一发现与先前的发育研究一致（补充部分8）。

等深线d能够区分具有相似基因表达谱的不同细胞类型或细胞状态。例如，虽然在单细胞参考数据集中由于其相似的基因表达谱将僧帽细胞和毛细胞归为一类，但GASTON揭示了僧帽和/或毛细胞的比例在两个不同层中的两个不同的等深线值处达到峰值：在肾小球层和/或外丛状层（EPL）中d≈350，在僧帽细胞层中d≈600（图6d）。基于先前的生物学研究，作者推测等深线d≈350处的僧帽和/或毛细胞是毛细胞，而等深线d≈600处的是僧帽细胞（补充部分8）。GASTON还识别了几种颗粒细胞亚群，这些可能对应于先前研究中形态上不同的颗粒细胞状态（补充部分8）。值得注意的是，这些发现使用基于scRNA-seq的一维坐标无法明显看出（补充部分3和扩展图5）。

GASTON识别出704个具有不连续性或大域内变化的基因（补充图8和补充表）。这些基因区分了嗅球中的不同细胞类型和状态，并揭示了生物现象的潜在分子机制。例如，Cck作为一种特定毛细胞亚型的标记基因，在肾小球层/EPL中表现出与僧帽和/或毛细胞相关的变异（图6e）；Gad2作为GABA能系统神经元的标记基因，在颗粒细胞层中表现出颗粒细胞相关的变异；Dcx作为RMS中未成熟神经元的标记基因，在RMS中显示出非细胞类型可归因的域内变异（扩展图6）。

小鼠胚胎。最后，作者使用GASTON分析了来自E9.5天小鼠胚胎的一个Stereo-seq数据集。GASTON识别出了十个空间域，这些空间域在视觉上和量化上与其他三种深度学习方法——STAGATE、SpaGCN和GraphST，以及使用Spateo获得的原始出版物中的细胞类型相似。然后，作者利用GASTON识别胚胎心脏中的空间表达梯度，这是一个由所有五种方法识别的空间域。GASTON在胚胎心脏中识别出128个具有连续变化的基因，这些基因富集于形态发生素信号传导、钙梯度及其他相关的心脏和发育过程（扩展图7和补充部分9）。

讨论

准确建模组织内基因表达的空间变化对于确定细胞类型的空间分布以及定义调控细胞状态的分化和细胞间通讯过程至关重要。基因表达的空间变化既包括组织不同空间域之间的不连续变化，也包括由于细胞状态或其他原因导致的域内及跨域的连续变化。尽管已有许多计算方法被开发用于识别空间域，但很少有方法能够同时识别空间域并建模域内的连续变化。与此同时，虽然许多方法试图推断转录组空间中的连续变化（如轨迹推断或伪时间分析），现有方法在建模物理空间中的连续变化时仍面临挑战（例如，扩展图5）。

在本研究中，作者引入了等深线这一坐标，它不仅能够建模组织内空间域的排列方式，还能量化每个空间域内位置的相对位置，从而实现对连续和不连续空间变化的量化。等深线为组织切片提供了一幅地形图，类似于地球表面地图中的海拔高度，并为空间基因表达提供了一个全局模型。正如人们可以登上两座不同山脉的相同海拔高度一样，等深线在同一空间域的两个分离位置也可能具有相同的值，例如小鼠小脑中的浦肯野-伯格曼层（图2b）。相比之下，大多数现有的空间转录组学（SRT）方法仅能建模空间相邻位置之间的局部空间相关性。

作者的工作还引入了一种新的肿瘤分类维度，通过空间梯度上不同肿瘤进程的变化来进一步表征肿瘤。例如，一些肿瘤可能在向内部区域表现出逐渐增强的有氧代谢梯度（例如，图4），而另一些肿瘤则可能表现出逐渐减弱的梯度。此外，GASTON学习到的空间梯度还可以揭示转移迁移的空间轨迹（例如边缘化现象），这类似于GASTON在嗅球中展示神经元迁移的空间轨迹（图6b）。

作者注意到，GASTON目前对等深线的推导依赖于两个简化的假设，这些假设在特定应用中可能需要调整。首先，作者假设所有（空间可变的）基因共享相同的空间梯度矢量场，因此GASTON无法自动识别多个空间变化方向。在这种情况下，使用一组限制性基因集或组织切片的较小区域来学习等深线可能是合适的；例如，可以将GASTON应用于从标准SRT或单细胞聚类算法获得的基因集或空间域。其次，作者假设空间梯度矢量场是保守的，这意味着它不会在空间中“旋转”。对于违反这一假设的组织切片，GASTON可能不适用，但作者尚未发现类似的生物学实例。

作者认为，等深线数学框架和GASTON算法的简洁性和通用性可以轻松扩展到多个方向，包括用更复杂的分段函数替代分段线性函数，或将该方法扩展到其他分子模式，例如染色质可及性或蛋白质丰度。此外，GASTON识别了许多空间基因表达梯度的例子，对其调控成因及下游效应的进一步研究是必要的。GASTON计算出的地形图和基因表达函数为从空间测序数据中分析连续和不连续空间变化提供了一个通用框架。

总结-概述-分析方法：

本文介绍了一种名为GASTON（基于神经网络的空间转录组组织梯度分析）的全新无监督且可解释的深度学习算法，旨在绘制组织切片中空间基因表达的地形图。作者通过引入一个称为“等深线”的量来应对稀疏空间转录组学（SRT）数据分析的挑战，这一量类似于地形中的海拔高度，用于推导组织的空间地形图。

实验设计与数据：

作者将GASTON应用于多个公开可用的空间转录组学数据集，这些数据集由不同技术生成：
小鼠小脑（Slide-SeqV2）：用于展示GASTON重现已知组织结构的能力，识别对应小脑层的空间域，并揭示连续和不连续的基因表达模式。作者将GASTON的性能与其他空间域识别方法（如NSF、SpaGCN、GraphST和SpiceMix）进行了比较，并评估了其在标记基因识别方面的表现，与现有的SVG和DEG识别方法进行对比。
人类结直肠癌（CRC）肿瘤（10X Genomics Visium）：用于研究肿瘤微环境（TME）中的空间基因表达模式，识别与肿瘤边界相关的代谢、免疫活性和上皮-间质转化（EMT）相关基因表达的梯度。
人类乳腺癌肿瘤（10X Genomics Xenium）：用于分析非典型导管增生区域的TME，量化肿瘤浸润淋巴细胞的空间分布，并揭示免疫细胞分化梯度。
小鼠嗅球（Stereo-seq）：用于分析具有已知径向几何结构的高度稀疏数据，展示GASTON学习这种几何结构的能力，解析不同层并识别与神经发生相关的细胞类型特异性空间排列和基因表达变化。
小鼠胚胎（E9.5）（Stereo-seq）：用于识别空间域，特别是胚胎心脏内的空间表达梯度，并将这些梯度与发育过程联系起来。
小鼠初级皮层（MERFISH）：用于比较GASTON学习到的等深线与另一种方法（ENVI）学习到的伪深度坐标在识别连续表达梯度中的表现。
人类背外侧前额叶皮层（DLPFC）（10X Genomics Visium）：用于比较GASTON的空间域识别能力与Belayer、SpaGCN和STAGATE的表现。

方法学与分析方法：

GASTON采用一种无监督的深度学习方法，同时学习以下内容：
等深线（d(x, y)）：每个空间位置(x, y)的标量值，用于建模组织切片的地形图，恒定等深线的轮廓勾勒出空间域。等深线在整个组织中连续变化。
空间梯度（∇d）：每个位置基因表达最大变化的方向，由等深线推导得出。
分段线性表达函数（fg(x, y)）：这些函数将每个基因g的表达建模为等深线d的函数，允许域内存在连续梯度以及域间出现显著的不连续表达变化。表达函数的一般形式为： f_g(x, y) = \alpha_{p,g} + \beta_{p,g} \cdot d(x, y), \quad \text{当 } (x, y) \in R_p 其中，R_p是由等深线区间定义的空间域，\alpha_{p,g}和\beta_{p,g}分别是基因g在域p中的截距和斜率。

关键结果与发现：

空间域的精准识别： GASTON在多种组织中准确识别了空间域，包括小鼠小脑的分层、结直肠癌（CRC）和乳腺肿瘤的不同区域，以及小鼠嗅球的同心层。在小脑中，GASTON识别的空间域相较于其他方法表现出更高的空间一致性。
连续与不连续基因表达变化的建模： GASTON能够有效建模空间域内的连续基因表达梯度，以及域边界处随等深线变化的不连续表达模式。这使得识别具有不同空间表达模式的基因成为可能。
生物学意义显著的梯度发现： GASTON揭示了与大脑神经元分化和放电、肿瘤微环境中的代谢和免疫活性、以及嗅球中神经元迁移相关的空间梯度。例如，在CRC中，GASTON发现了向肿瘤内部逐渐增强的代谢活性梯度，以及在肿瘤边界上皮-间质转化（EMT）相关基因的上调。
细胞类型组织与变异的分析： GASTON学习到的等深线提供了一种坐标，用于分析组织层内及跨层细胞类型比例的连续变化。此外，GASTON还能够研究由细胞类型引起的域内基因表达变异，揭示了如颗粒细胞的神经元放电阈值和少突胶质细胞分化等细胞类型特异性过程。
标记基因识别的优越性能：在识别已知的小脑标记基因方面，GASTON的表现优于多种广泛使用的SVG和DEG识别方法。同时，将等深线作为协变量也提升了另一种方法（C-SIDE-iso）的性能。
应对数据稀疏性： GASTON通过沿等深线轮廓聚合表达并将其建模为一维坐标的函数，有效克服了多种SRT技术中固有的数据稀疏性问题。
复杂组织几何结构的建模：与一些先前的方法不同，GASTON不对空间域施加严格的拓扑约束，从而能够建模更复杂的组织排列。

与现有方法的比较：

本文广泛比较了GASTON与多种现有的空间转录组学分析计算方法，包括：

空间域识别： NSF、SpaGCN、GraphST、SpiceMix、STAGATE、BayesSpace。在识别空间一致性和生物学相关性高的空间域方面，GASTON通常表现相当或更优。
空间可变基因（SVG）和差异表达基因（DEG）识别： SpatialDE、SPARK-X、HotSpot、trendsceek、C-SIDE。GASTON在标记基因识别方面表现出更好的性能。
连续坐标推断： Belayer、SpaceFlow、ENVI。GASTON以无监督方式从头学习等深线，优于无监督的Belayer和SpaceFlow，并识别出ENVI伪深度未能捕捉到的连续梯度。

GASTON引入了基因表达地形学的概念，并将等深线作为一种强大的框架，用于分析空间基因表达数据。它提供了一个全局的空间变异模型，能够同时识别空间域并建模连续和不连续的基因表达变化。GASTON的可解释性，特别是等深线作为一个有意义的隐藏层，使我们能够更好地理解组织的空间组织及其背后的生物学过程。作者建议未来可以扩展GASTON以纳入更复杂的表达函数和其他分子模态。通过沿空间梯度刻画肿瘤中不同过程的变化，GASTON为癌症研究开辟了新途径。 GASTON是空间转录组学分析领域的一项重要进展，提供了一种稳健且可解释的方法来绘制基因表达的地形图，揭示了驱动不同组织生物学功能的离散空间域和连续梯度。

GASTON（基于神经网络的空间转录组组织梯度分析）的全新无监督且可解释的深度学习算法。 GASTON是本研究开发的一种新颖的生物计算方法，旨在从空间转录组学（SRT）数据中绘制组织切片中空间基因表达的地形图。

以下是本研究中使用的分析和计算方法的详细概述，重点聚焦于GASTON：

1. 等深线的概念：GASTON引入了“等深线”（d）的概念，这是一种类似于地形图中海拔高度的标量值。恒定等深线的轮廓包围了具有不同细胞类型组成的域，而等深线的梯度则指示了表达最大变化的空间方向。等深线作为组织切片上的一维坐标，描述了空间域的排列以及每个域内的相对位置。等深线的梯度∇d在每个位置描述了该空间域内基因表达的最大变化方向或空间梯度。

2. 用分段线性函数建模基因表达： GASTON将每个基因g在空间位置(x, y)处的表达fg(x, y)建模为等深线d(x, y)的分段线性函数： f_g(x, y) = \sum_{p=1}^{Q} (\alpha_{p,g} + \beta_{p,g}d(x, y)) \times 1_{(x,y)\in R_p} 其中，Q是空间域的数量，R_p表示第p个空间域，1{(x,y)∈R_p}是一个指示函数，当空间位置(x, y)属于域R_p时取值为1，否则为0。 α_{p,g}是基因g在域R_p中的线性函数的截距。β_{p,g}是基因g在域R_p中的线性函数斜率，表示该域内的连续表达梯度。每个空间域R_p的边界由等深线d(x, y)的等值轮廓定义。该模型允许域内存在连续梯度（非零β_{p,g}）以及域边界处的不连续变化（不同α_{p,g}）。关键的是，该模型不限制空间域必须是连续的，从而使GASTON能够捕捉长程空间相关性。

3. 使用神经网络学习等深线：GASTON通过一种可解释的深度学习模型以无监督方式联合学习等深线d和分段线性基因表达函数fg。它训练一个神经网络，从空间坐标学习到基因表达特征的复合函数(h∘d)(x, y)。等深线d(x, y)对应于训练好的神经网络中一个可解释隐藏层中单个隐藏神经元的值（见图1b）。神经网络根据空间坐标预测基因表达（或前几个GLM主成分）。研究中使用的神经网络架构通常包含两层隐藏层，每层大小为20。网络使用Adam优化器训练10,000个epoch。由于优化问题的非凸性，使用了30次随机初始化，并选择似然值最大的解。

4. 使用分段回归估计分段线性表达函数：在学习到等深线d̂后，GASTON使用分段回归来学习空间域R_p（由等深线的断点定义）以及每个基因g的分段线性表达函数fg的参数α_{p,g}和β_{p,g}。等深线的断点b̂_1, …, b̂_{Q-1}通过求解一个优化问题（方程11）使用分段回归动态规划的变体进行估计。对于每个基因g和空间域R_p，参数α̂_{p,g}和β̂_{p,g}通过求解泊松回归问题（方程13）使用sklearn包进行估计。UMI计数a_{i,g}被建模为泊松分布：a_{i,g} ∼ Pois(U_i ⋅ exp(f_g(x_i, y_i)))，其中U_i是位置i的总UMI计数。

5. 使用广义线性模型主成分（GLM-PCs）：为了提高计算效率，GASTON并未直接使用观察到的基因表达值来学习等深线，而是计算前2Q个广义线性模型主成分（GLM-PCs）。等深线d和断点通过使用这些前GLM-PCs在高斯误差模型下求解修改后的最大似然问题（方程12）进行学习。这由先前研究表明，具有分段线性表达的计数数据的前GLM-PCs也近似为具有高斯噪声的分段线性函数。在CRC肿瘤分析中，使用前(2Q - 3)个GLM-PCs，并结合H&E染色图像的平均红、绿、蓝值，总计2Q个特征。

6. 对斜率参数进行假设检验：为防止过拟合，GASTON对每个斜率参数β_{g,p}进行假设检验，以确定其是否显著不同于零。零假设H_0: β_{g,p} = 0（无域内变异），备择假设H_1: β_{g,p} ≠ 0（有域内变异）。在泊松表达模型下计算对数似然比（LLR），并使用χ²分布（Wilks定理）估计p值。如果p值小于0.1，则将斜率β_{g,p}设为零。

7. 量化基因表达的空间变异：GASTON通过分析学习到的分段线性表达函数来量化空间变异。域间表达的不连续性通过δ_{g,p} = (α_{g,p+1} + β_{g,p+1}b_p) − (α_{g,p} + β_{g,p}b_p)量化。如果估计的幅度|δ̂_{g,p}|大于所有估计不连续性幅度的第十百分位数，则认为该基因具有不连续性。域内变异由斜率β_{g,p}的幅度决定。如果|β̂_{g,p}|大于所有估计斜率幅度的第十百分位数，则认为基因在域R_p中具有域内变异。

8. 将域内变异归因于细胞类型：对于具有细胞类型注释的单细胞分辨率SRT数据，GASTON可以通过学习细胞类型特异的分段线性表达函数h_{c,g}(w)（方程17），使用类似的泊松回归方法将域内变异归因于特定细胞类型。通过比较细胞类型特异性斜率β̂_{c,g,p}与无细胞类型区分的斜率β̂_{g,p}，判断变异是否归因于细胞类型c。

9. 其他分析与比较方法：本研究还使用了多种其他计算方法进行比较和下游分析，包括：非负空间因子分解（NSF）、 SpaGCN、GraphST、SpiceMix、鲁棒细胞类型分解（RCTD）、Belayer、 SpaceFlow、 ENVI 用于识别空间可变基因（SVGs）和差异表达基因（DEGs）的方法，如HotSpot、trendsceek、SpatialDE、SPARK-X和C-SIDE。使用Enrichr进行基因集富集分析（GSEA）以识别富集的生物学通路。基于连接计数统计量的空间一致性评分，用于量化识别域的空间组织。

10. 将等深线缩放到物理距离：为了提高可解释性，学习到的等深线在每个空间域中根据所使用的技术（例如，10X Genomics Visium为100 μm，并针对Slide-SeqV2进行调整）缩放为近似的物理距离。

11. 可视化一维表达函数：为了可视化学习到的分段线性表达函数，将具有相似等深线值的位置的UMI计数汇总为池化表达值（log CPM）。这一套综合方法以GASTON算法为核心，使研究人员能够有效建模和分析来自SRT数据的基因表达的连续和不连续空间变异。

作者目前也是完成了GASTON的扩展开发（有兴趣的读者可以先阅读）：

GASTON-Mix: a unified model of spatial gradients and domains using spatial mixture-of-experts. Uthsav Chitra, Shu Dan, Fenna Krienen, Benjamin J. Raphael.bioRxiv2025.01.31.635955;doi:https://doi.org/10.1101/2025.01.31.635955

论文数据分析复现（用户指南）：

# 安装和使用 # 测试系统Centos Linux 7 & Python 3.11.5# 代码链接：https://github.com/raphael-group/GASTON# 使用说明：https://gaston.readthedocs.io/en/latest/index.html
# 安装包 （我们下载的时间是20250419，我们修改了yml文件）
conda env create -f environment.yml 


    
conda activate gaston_env
# 安装包（本地安装）cd GASTONpip install -e .
# 我们测试了这个例子：数据路径是这个：/docs/notebooks/tutorials/
https://gaston.readthedocs.io/en/latest/notebooks/tutorials/cerebellum_tutorial.html
# 关于测试和分析，我们只提供了第一个分析例子的数据及代码（具体分析见说明）
# 如果有兴趣的读者，可以自行使用自己的数据（欢迎提问题）# 欢迎提问题(私信（最好的方式）或者留言都可以，最近都很忙...,反馈问题延迟，希望理解）LOL.....😊😊

文献原文及附件和新分析方法的复现（包含分析数据和梳理好的代码）可以后台获取下载链接，关键词：250423（后台发送信息输入关键词250423，自动回复下载链接）；针对研究论文中的分析，任何问题都可以留言或私信询问。

团队信息 ：

Chen Jinmiao Lab

[https://engineering.princeton.edu/faculty/ben-raphael]

https://raphael-group.github.io/people/

Single Cell Genomics Day: A (Virtual) Practical Workshop

https://satijalab.org/scgd25/

When: Friday April 25, 2025 10:00 AM to 5:00 PM EDT

Livestream: All talks will be openly livestreamed on this website and Youtube. Registration is not required.

空间组学的实用分析方法 || ISB-线上培训（点击扫码观看）

通过计算阵列重建的可扩展空间转录组学 || The Chen Lab（点击扫码观看）

Mats Nilsson || Sequencing single cells in situ（点击扫码观看）

空间转录组学的模型和方法 || Ben Raphael || CGSI（点击扫码观看）

Sarah Teichmann || 英国剑桥大学 || 单细胞生物学（点击扫码观看）

更多资源欢迎关注B站（关注MCBRLab ）

Elizabeth Dorans || 哈佛医学院 || 单细胞多组学技术和分析方法（点击扫码观看）

其他参考基础模型：

Nature Methods || 大规模单细胞转录组学基础模型 || scFoundation

scGPT-spatial：面向空间转录组学的单细胞基础模型（scGPT || Nature Methods）的持续预训练

Nature || 2024 HCA || SCimilarity：一种用于大规模搜索相似人类细胞的细胞图谱基础模型-单细胞注释

Nature || 2024 HCA || 人类神经类器官的综合转录组细胞图谱-单细胞注释

Nature Genetics || 2024 || 人类乳腺细胞图谱 || 单细胞图谱能够映射成人人体乳腺的稳态细胞变化

综述：利用最优传输技术分析单细胞和空间组学数据 || Nature Reviews Methods Primers

Nature Genetics || 利用高级统计方法（潜在嵌入多元回归）解析多条件下的单细胞组学数据

Nature Methods || 综述：单细胞多组学中的小样本方法：单个数据点的重要性

Nature Reviews Genetics || 综述：单细胞多组学时代的基因调控网络推断

参考文献：

Chitra, U., Arnold, B.J., Sarkar, H. et al. Mapping the topography of spatial gene expression with interpretable deep learning. Nat Methods 22, 298–309 (2025). https://doi.org/10.1038/s41592-024-02503-3