2025 年 3 月 31 日,Theis Lab等团队 (团队详情在文末)在《Nature Genetics || Perspective》上见刊了一篇题为“Causal machine learning for single-cell genomics”的综述论文,其中指出单细胞“组学”技术的进步使得对单个细胞转录谱的深入洞察成为可能,而当这些技术与大规模扰动筛选相结合时,能够测量靶向扰动对整个转录组的影响。这些进展为我们更好地理解基因在复杂生物过程中的因果作用提供了机会。在本篇综述中,作者阐述了因果机器学习在单细胞基因组学中的应用及其相关挑战。首先,作者介绍了最常应用于单细胞生物学的因果模型,然后识别并讨论了三个开放性问题的潜在解决方法:模型在新实验条件下的泛化能力不足、学习模型的解释复杂性以及学习细胞动态的困难。
内容概况
细胞是生命的基本单位,其功能和特性由复杂的物理和生化过程塑造。理解细胞过程中的因果关系,对于揭示驱动细胞行为(如增殖、分化和凋亡)的复杂生物学机制至关重要,同时也有助于识别相关的信号分子、基因突变或环境刺激,并为癌症、神经退行性疾病和代谢综合征等疾病的靶向治疗提供支持。
单细胞分辨率的分子谱分析技术的进步,为细胞过程的研究提供了前所未有的视角。机器学习已经开始应用于单细胞基因组学,并做出了重要贡献,例如降维(主要用于可视化目的)、数据整合(用于构建细胞图谱)、轨迹推断(用于推断细胞命运)以及跨模态的模型预测迁移。然而,这些方法仅对潜在的生物学过程提供了有限的见解,且未能显著改善实验结果的预测能力。
图1 | 细胞的因果建模。a, 生物扰动或环境变化影响细胞机制,导致基因表达和其他可测量结果的变化。这些细胞机制的改变可以通过因果模型中的干预来模拟,以预测不同条件下的基因表达和结果。KO,敲除;UMAP,均匀流形投影与近似。b, 利用来自受不同生物扰动影响的各种细胞类型的数据集,统计学习方法(如顶部所示)可以预测训练数据中存在的细胞类型和扰动的结果。然而,它们往往难以准确预测新的扰动或新型细胞类型的结果,这一挑战可以通过因果学习方法(如底部所示)来解决。
目前应用于单细胞基因组学的大多数机器学习方法都基于非因果统计学习,这种方法依赖于特定数据分布中的模式。然而,当实验条件发生变化时,数据分布也会随之改变,因此先前识别的模式可能不再适用,而非因果统计学习在这种情况下可能无法推广。因果机器学习(如图1a所示)旨在通过发现与生物化学相互作用链相对应的生物学机制,从而在新条件下实现良好的预测。这种机制描述了一个生物量如何影响另一个生物量,而不是像统计学习那样捕捉虚假的相关性(这些相关性并不反映潜在的生物化学相互作用),后者通常在条件变化时导致较差的泛化能力(见专栏1)。大多数生物学机制即使在实验条件变化的情况下(如小分子或CRISPR扰动,如图1b所示),预计仍然保持不变(类似于物理学规则的不变性),这也是本文综述的重点。然而,在某些情况下,例如温度和压力的变化,大多数机制可能会直接受到影响,此时因果机制对这些因素的依赖性需要被学习。更广泛地说,如果实验条件的任何方面(无论是技术因素还是生物学因素)发生剧烈变化,机制也可能随之改变。
为了让因果机器学习在细胞生物学中产生影响,必须根据所建模的生物系统的特性和所使用的数据模式进行调整。此外,当某些核心独立性假设(例如稳定单位处理值假设和无隐性混杂假设)被违反,或者模型设定错误时(例如,假设系统完全可观测或假设调控机制是线性的,而实际机制是非线性的),因果推断方法可能会失效。假设的违反可能导致在未见条件下做出错误预测,并提供不准确的见解。不确定性估计可以帮助避免高度自信但错误的预测,但如果核心假设被违反且未得到缓解,仍可能导致不准确的预测。
在基因组学领域,长期以来人们一直对发现基因之间的相互作用感兴趣,以提供对生物过程的机械论解释。这些相互作用通常通过模块网络来总结,模块网络将功能相关且表达紧密关联的基因分组为模块,或者通过包含从调控基因到被调控基因的有向连接的基因调控网络(GRNs)来描述(专栏1)。此外,系统生物学中的机械论和动力学方法传统上应用于小规模数据(如蛋白质印迹和定量PCR的结果),现在正被扩展到大规模基因组数据。推断方法包括使用条件独立性检验来检测直接相互作用的基因对,以及用于时间序列分析的格兰杰因果关系(专栏1),还包括尝试通过黑箱方法直接从实验数据预测图结构的方法。大量研究致力于通过利用多模态数据的启发式方法改进GRN推断(例如,基于单细胞ATAC-seq测量的转录因子结合位点可及性和已知转录因子结合位点等先验知识,限制GRN中可能的边集)。验证推断出的GRN一直是一个主要挑战,尤其是在人类细胞中,因为真实的GRN大多未知且高度依赖于具体环境。其他生物体(如大肠杆菌)的研究较为深入,已有GRN数据库,但这些数据库仍然存在噪声且不完整。
扰动数据的日益丰富可能增强因果方法在转录组学中的适用性。本文旨在识别和分析该领域的开放问题,并将其与正在进行的研究方向联系起来。在介绍了遗传学和转录组学中因果推断技术的一些背景后,作者提出了大多数当前单细胞生物学因果方法所基于的默认因果模型。接着,作者讨论了三个开放问题,即缺乏对全新实验条件的泛化能力、学习模型的复杂性解释以及学习细胞动力学的困难。
专栏1 定义和关键概念
因果性
因果模型
因果模型能够生成一系列分布;每个分布对应不同的环境(例如实验条件)。它通常由一对(g, h)组成:
环境
环境由实验所进行的细胞群体的所有特性以及实验协议的特性定义,包括暴露于生物扰动的情况。
干预
干预是指干预模型对基于图的模型执行的任何操作。
SCM
一种基于图的模型类型,其中每个变量的值都是通过所谓的结构赋值生成的,该赋值将其父节点的值作为输入: Xi ∶= fi(PAi, Ui), (i = 1, … , n), 这里fi是一个确定性函数,PAi是在图中节点Xi的因果父节点集合,Ui是表示细胞群体内变异性的一个噪声变量。噪声变量集U1, … , Un的成员共同独立。最重要的是,图(具有节点X1,..., Xn及从父节点PAi到Xi的所有i的边)必须是非循环的。
因果动力学模型
一种基于图的模型,其中结构赋值通过常微分方程(ODE)或随机微分方程(用于解释生物学的内在随机性)来控制因果变量的时间演化。
泛化能力
模型在新环境(以前未见过的环境)中做出准确预测的能力。
隐变量
无法直接观测但可以通过其他观测变量推断出的变量。它可以捕捉生物量(如通路激活)或实验采集协议的某些方面。
如果一个隐变量在因果模型中扮演的角色与观测到的因果变量类似,则被认为是因果性的:即它们依赖于并影响其他因果变量(无论是隐变量还是观测变量),并且它们之间的机制在不同环境中保持不变。
条件独立性检验
如果P(A|B, C) = P(A|C),则变量A和B在给定C的情况下被认为是条件独立的。
格兰杰因果性
一种统计假设检验,旨在确定一个时间序列是否对预测另一个时间序列有用。
基因调控网络(GRN)
基因调控网络是一个表示基因(有时包括其他分子调控因子)之间相互作用的图,这些相互作用控制mRNA和蛋白质的表达水平,从而决定细胞的功能。网络中的链接反映了参与基因调控机制的生化相互作用级联(例如转录调控、转录后修饰)。这一机制定义比某些现有GRN所依赖的相关性方法更为严格。
常微分方程(ODE)
常微分方程描述一个变量相对于其他变量随时间的变化,常用于生物学中基于因果关系描述基因表达或蛋白质浓度的时间动态:
dX = f(PAX, t)dt 或 dX/dt = f(PAX, t),
其中PAX表示变量X的因果父节点。
随机微分方程
随机微分方程通过添加噪声项扩展了常微分方程,捕捉生物系统固有的随机波动,使其非常适合建模单细胞系统中的随机行为:
dX = f(PAX, t)dt + σ(X, t)dε,
其中PAX表示变量X的因果父节点,σ(X, t)dε是随机项。
转录组学中的因果性
单细胞分辨率提供了生物过程在细胞水平上如何展开的前所未有的视角。它提供了细胞异质性的精细细节,允许发现不同细胞类型中运作的不同机制。这种分辨率水平使得识别和分析稀有细胞群体以及对扰动的具体响应成为可能,而这些在整体分析中可能会被忽略。然而,这种分辨率是以观察噪音增加和技术dropout等偏差为代价的。一个典型的单细胞实验涉及属于特定环境的一群细胞。这里的“环境”概念不仅代表细胞群体的特性(例如细胞类型信息),还包括实验协议的信息,如暴露于生物扰动或用于执行实验的设备。这一环境定义对应于因果关系领域所使用的术语,并且比细胞生物学中使用的细胞外环境的概念更为宽泛。因果模型通常可以分解为两个组成部分(专栏1)。第一个组成部分模拟生物机制(通常是通过因果图),而第二个组成部分则模拟这些机制如何受到生物扰动的影响,典型的是一种边移除操作(即假设扰动移除了某些特定的相互作用,这些相互作用不再由因果图中的边表示),或者机制如何在不同环境中变化。
细胞的因果图
在一个细胞内,生物机制可以通过一个因果图来表现,其中节点表示基因表达水平,边表示基因之间的因果关系。边从“父”节点指向“子”节点,意味着子节点的基因表达水平依赖于父节点的表达水平。这种表示方式被称为结构因果模型(SCM),它将节点定义为因果变量,并将控制基因相对于其父节点表达的函数定义为因果机制。在细胞生物学背景下,因果机制对应于生物机制,通常是指转录调控。大多数针对单细胞基因组学的因果方法都是基于此模型及其所隐含的假设。需要注意的是,因果模型并不总是依赖于显式的图。在某些情况下,虽然没有明确构建图,但可以通过模型的内部依赖关系恢复该图。
默认的SCM模型有几个局限性。首先,为了能够生成合成细胞观测数据,因果图必须是无环的:首先采样根节点(即没有入边的节点)的基因表达水平,然后根据父母节点的值条件性地采样它们直接子节点的表达水平,依此类推,直到所有节点都被采样。这与真实的基因调控网络(GRNs)形成对比,在后者中,循环交互作为调控模体的一部分是常见的,如自调节或反馈回路。此外,默认的SCM缺乏时间维度,限制了其捕捉转录调控动态方面的能力。最后,该模型仅考虑了基因表达水平,但实际上,诸如转录因子水平和给定基因的不同剪接变体比例等众多其他变量也在转录调控中发挥作用。
生物扰动作为因果干预
生物扰动指的是对生物系统正常功能的干扰或改变,通常通过实验诱导以研究系统的响应并理解其潜在机制。在结构因果模型(SCM)中,扰动的影响可以通过所谓的干预在因果图中重现,具体方法是操控实验中针对的特定变量或因果机制。常见的完美干预假设(如图2b所示)移除了被干预因果变量对其因果父节点的依赖性,并将其设置为零,以表示目标转录本的功能完全丧失,且独立于其调控因子的值。
图2 | 默认SCM模型概述及学习细胞通用因果模型的策略。a, 通过一种称为默认SCM(cellSCM)的模型对细胞进行建模。边表示基因之间的因果关系,对应于转录调控。在没有任何细胞干预的情况下,该模型生成与对照细胞相关的表达谱。这里,基因G1和G3是G2的因果父节点,意味着G2的值基于G1和G3的值确定。图中不允许循环交互,例如防止G2成为G1或G3的因果父节点。b, 在SCM中的扰动被简单地视为完美干预,这完全消除了目标变量对其调控者的依赖性。因此,基因G4的表达水平直接由干预决定,因为它不再依赖于G2和G5的表达。c, 更精确地模拟生物扰动的方法是允许有多个目标来解释干预目标中的不确定性,以及调节依赖性的不完全消除。d, 使用小分子效应预测为例,概述模型在实验空间不同区域的能力。主要使用MEK抑制剂训练的模型可能能够外推预测到作用于类似通路的化合物,如EGFR抑制剂。然而,对于通过不同路径起作用的分子(如KRAS抑制剂或钙通道阻滞剂),其响应与先前观察到的大不相同,模型可能难以准确预测这些分子的效果。
然而,在实际应用中,完美干预假设的适用性有限。有证据表明,CRISPR敲除存在脱靶效应,并可能未能成功编辑基因组。
已有方法被提出用于识别数据集中未受敲除影响的细胞。类似地,药物扰动通常无法用完美干预来近似。这是因为药物的作用机制并不总是明确的,而且在许多情况下,药物并不会直接影响转录调控机制。
生物扰动的确切性质在很大程度上仍然未知,因此可以依赖不同的建模选择(称之为干预模型)来成功表征扰动对因果图的影响。在某些情况下(例如小分子扰动),假设细胞状态的变化对应于静态图中的一个新状态(除了直接改变的机制外)可能更为合适。而在其他情况下(例如新细胞类型),假设图中的许多机制甚至图本身的结构都发生了变化可能更为合理。可以考虑不同的方法:从一次移除或修改多条边参数的干预模型(这有助于模拟脱靶效应,如图2c所示)到考虑不确定性或在图中创建新边的干预模型。这意味着每种类型的干预都需要一个尽可能接近真实生物扰动的建模框架。以下,作者将识别并讨论与单细胞基因组学中使用因果模型相关的三个开放性问题。
预测新实验条件的结果
计算生物学的重大挑战之一是开发能够预测新实验条件下结果的模型,例如预测疾病对未见细胞状态的影响或未见药物的效果。下面,作者将讨论从多样化的环境中获取高质量数据以训练因果模型的重要性,该模型能有效将知识转化为新环境,并探讨如何利用这些模型前瞻性地获取信息丰富的扰动。
观察到的扰动多样性的重要性
如图2c所示的先进干预模型具有应在多个环境的数据基础上学习的参数,并且只能应用于有足够的条件数据可用的情景中。最终,正确的干预模型选择应该是能够在未见扰动上产生最准确预测的模型,这可以通过为测试集保留几个条件来进行评估。这强调了需要一套多样化的观察扰动来准确训练因果模型的干预组件。
最近实验方法上的突破,如Perturb-seq,促进了大规模单细胞CRISPR筛选数据集的生成,涵盖了数十到数千个基因的扰动。然而,在大多数情况下,绝大多数可用的扰动仅与少量细胞相关联,限制了扰动效应估计的可靠性。此外,单细胞数据通常包含与生物信号纠缠在一起的技术噪音和测量误差,导致所谓的批次效应。因此,对于经常在来自多个批次的不同条件下训练的因果模型来说,将这些技术变化与生物信号区分开来至关重要。关于如何考虑技术协变量和整合不同数据集有大量文献可供借鉴,当需要时可以用来构建因果模型的训练集。然而,这些方法有可能去除重要的生物信号。预期变异性纯属技术性的实验重复对于校准和验证这些方法至关重要。通过标准化实验室间的实验协议可以减少某些类型的技术噪音,但其他类型的噪音,如在不同实验室生长的细胞系中的不受控遗传突变或细胞分化的随机性,则更难以管理。
总结来说,当尝试以现实且生理相关的方式对生物扰动作建模时,需要多样化、高质量的扰动数据。当前,每个扰动使用的细胞数量、可用扰动的数量以及技术噪音都是限制因素,阻碍了可泛化因果模型的有效开发和训练。同样重要的是要注意,大多数实验方法捕获的是生物过程的代理测量而非直接观察。例如,RNA测序测量RNA丰度作为转录活性的代理,但并不能完全捕捉转录速率或RNA处理。类似地,ATAC-seq指示染色质可及性,而非活跃的基因转录。这些局限性凸显了在实验观察与用于因果建模的生物学真实情况之间架桥的挑战。
机器学习驱动的实验设计
因果方法的一个关键应用是提出可供实验验证的可测试假设。细胞生物学的巨大复杂性(专栏2)导致潜在实验数量过多。因此,选择最有前景且信息量最大的实验进行至关重要。因果模型可以通过预测尚未测试条件的结果,为未来实验的设计提供建议。实验结果随后可以整合到现有数据中,以改进模型的预测能力,并在此基础上再次生成新的建议,这一过程以迭代方式进行。这种方法被称为机器学习驱动的实验设计。
图2
通常情况下,我们只能获取到有限的先前条件数据。基于这些数据训练的模型可能难以推广到差异较大的实验条件中(图2d)。因此,理解何时可以信任模型的预测尤为重要。为此,一种常见的方法是设计能够针对给定输入提供预测分布而非单一预测值的模型。如果预测分布覆盖了较宽的数值范围,则认为不确定性较高。目前已有多种方法用于估计不确定性,这些方法依赖于推断与数据一致的模型参数分布,或者直接预测模型的误差。在因果建模中,这种方法进一步扩展为对图结构的概率进行估计。
下一步是利用模型预测和不确定性来指导未来实验的设计。目标是以最少的实验次数降低不确定性,这一过程称为主动学习;或者最大化某些特性(例如某种表型或特定细胞类型的比例),这被称为序贯模型优化或贝叶斯优化。未来实验的建议基于其预测结果和通过不确定性估计得出的信息量。这些序贯方法已被调整并应用于因果模型的背景下,用于推荐信息丰富的干预措施。
序贯方法在多个科学领域展现了巨大潜力,包括分子性质预测、材料设计等。然而,在基于细胞的实验中,由于批次效应相对较大,其应用仍然具有挑战性。据所知,建议药物组合是唯一一个序贯模型优化被前瞻性应用并在人类细胞中得到定量验证的情境。将这些方法调整并扩展到其他领域,例如用于基因调控网络推断的CRISPR敲除推荐,仍然是一个开放的挑战。
学习可解释模型
计算生物学的另一大挑战是从模型中得出生物学见解。当一个模型或其部分执行的操作可以与已知过程(例如转录调控)关联,并且其计算的值可以与已知且可测量的生物量(例如特定分子的浓度)关联时,作者认为该模型是可解释的。这种可解释的观点可以帮助生物学家从模型中提取有意义的见解,提出新的实验并推进我们对细胞系统的理解。
实际上,基因组规模的模型包含大量相互作用的变量,这使得人类难以整体把握,因此可能更容易分别分析模型的子部分。然而,要使这种分析具有意义,因果交互必须稀疏并且导致相对独立的簇(对应于通路或基因模块),这些簇可以单独解释。有趣的是,可解释性通常与模型的忠实度一致(即因果机制准确反映生化相互作用)。确实,细胞内的大多数实体仅直接与其他有限数量的实体互动,如在已知蛋白质-蛋白质相互作用网络的极端稀疏性中所见,这使得忠实模型通常易于解释。然而,当广泛的干扰发生时(例如环境压力如压力或温度的增加),交互可能会更加广泛,从而限制了可解释性。
相反,现有知识可以被整合到可解释模型中,以限制模型操作为已知的分子相互作用。然而,纳入先验知识可能会限制发现潜力。这与提供一些先验知识表示作为输入的不可解释模型形成鲜明对比。此外,虽然隐变量(专栏1)对于捕捉未观察到的生物因素很有用,但如果它们缺乏直接的生物学对应关系,则可能会引入可解释性的挑战。下面,作者将讨论将先验知识纳入可解释模型的机会和挑战,以及引入隐变量如何影响因果模型的可解释性。
先验知识的整合
细胞生物学中的广泛研究提供了大量的先验知识,包括结合基序和相互作用数据库,这些都可以被整合到模型中。例如,已知共同发挥作用的基因组(如基因程序或生物通路)在数据库中有目录。通过将这些已知关系整合到因果学习框架中,我们可以引导模型走向生物学上合理的解决方案。例如,如果我们知道一种特定蛋白质在一个信号传导级联中位于另一种蛋白质的上游,我们可以将这一约束引入模型,使其更能代表已知的生物学现象,从而有可能在新情况下提高其性能。
这是将先验知识直接整合到因果模型中的一种方式:因果图边上的约束或先验。先验知识的整合可以通过提供良好的初步估计或将任务转变为部分图发现问题来简化完整因果图发现的任务。
评估可用先验知识的质量并确定其能在多大程度上改善模型性能是一个持续的挑战。高质量的先验知识可以增强因果模型,但整合有缺陷的信息会偏置模型并阻碍其有效性。需要有方法来解决现有数据库中的潜在偏差。例如,有些蛋白质研究得较为透彻,而其他则不然。能够考虑未充分研究蛋白质之间缺失链接的方法可以帮助缓解这种偏差。这些预测的链接又可以反过来被验证,并基于实证证据用于细化现有的数据库。
此外,还需要更系统地思考如何整合各种类型的先验知识。例如,蛋白质-蛋白质相互作用网络应不同于基因调控网络的方式进行整合,因为它们代表不同的生物现象。另一个挑战是从发布数据集的科学出版物中提取和编码相关的元数据和实验协议信息。结合使用数据驱动的学习和先前的生物学知识,对于构建更为稳健和可解释的细胞过程因果模型具有巨大的潜力。
专栏2
迈向理解细胞生物学中因果建模的复杂性
评估单细胞基因组学中因果建模的全部复杂性是一项艰巨的任务。然而,我们可以通过蛋白质组和转录组相互作用的复杂性来进行估算,以说明这一任务的挑战性。
蛋白质组相互作用
人类基因组大约包含N ≈ 20,000个编码蛋白质的基因。作为初步近似,我们可以认为人类蛋白质组中也有同样数量的N种独特蛋白质。在这一简化假设下,并仅考虑成对相互作用,可能的相互作用总数约为10^8:
可能的蛋白质组相互作用 = N² ≈ 10^8。
蛋白异构体特异性相互作用
上述数值是一个过于简化的估计,未考虑到增加人类蛋白质组复杂性的多种因素,例如可变剪接、翻译后修饰、翻译错误以及编码单核苷酸多态性(SNP)。
最近的研究表明,由编码蛋白质基因生成的独特mRNA转录本总数(包括可变剪接和编码SNP)约为150,000个。其中,约90,000个是编码蛋白质的,而非编码异构体则具有调控功能。这为蛋白质组多样性提供了一个更为现实的基础,甚至还未考虑翻译后修饰。
尽管蛋白异构体的总数仍然是一个开放性问题,但研究推测,特定细胞中的蛋白异构体总数可以进行估算。例如,假设每个细胞类型仅表达人类基因组的一半,则特定细胞中的蛋白异构体总数估计约为N ≈ 1,000,000。因此,可能的蛋白质-蛋白质相互作用总数增加到10^11:
可能的蛋白异构体特异性相互作用 = N² ≈ 10^11。
为了更好地理解这一结果,当前最先进的大规模语言模型所使用的参数数量也处于类似的复杂性级别。因此,每对蛋白异构体相互作用具有固定参数的全细胞模型已在当前计算能力的范围内。
超越成对相互作用
蛋白质不仅以成对方式相互作用,还会形成多蛋白复合物。使用上述相同的蛋白异构体数量估计值(N ≈ 1,000,000),我们推测三重蛋白异构体相互作用的数量约为10^17。值得注意的是,蛋白复合物通常由三个以上的不同蛋白质组成,这会显著增加这一数值。
多种类型的相互作用
上述计算仅对应于单个细胞内估计的蛋白质-蛋白质相互作用数量。它并未涵盖非编码mRNA转录本或RNA-DNA相互作用组的复杂性,后者的研究已鉴定出超过4000万个接触点。此外,细胞间的相互作用也应被纳入考虑范围。作为参考,已有研究估计存在超过100,000种配体-受体相互作用。
生物扰动
假设CRISPR是验证因果相互作用的主要实验工具,则大约有10^4种独特的单基因敲除。考虑到生物机制通常是冗余的(即类似功能由多个基因编码),多基因扰动很可能对于有效学习因果模型是必要的。双基因敲除的数量约为10^8,三基因敲除的数量约为10^12。
如果进一步考虑基因调控序列的不同部分可以通过不同的CRISPR向导靶向(正如自然界中发生的情况,并反映在我们的基因组变异性中),复杂性可能会进一步增加,从而引发更复杂的影响。
总结
生物细胞中因果建模的复杂性极高,而我们甚至还未考虑时间与空间动态或细胞间相互作用。在这样一个存在冗余机制的复杂系统中,学习和验证因果关系既是一个技术挑战,也是一个实验挑战。
潜在因果变量及其对可解释性的挑战
潜在变量可以代表生成过程中的任何方面,因此是一个广泛的概念。如果它们在因果模型中扮演类似于观测因果变量的角色,则被认为是因果变量:即它们依赖于并影响其他因果变量(无论是潜在的还是观测到的),并且其机制在不同环境中保持不变。它们预期能够捕捉参与细胞机制的生物量,但这些量并未被直接观测到。非因果潜在变量的一个例子是那些设计用来捕捉真实基因表达水平的变量:这些变量通过负二项分布与观测到的基因计数相关联,从而解释技术性脱落伪影。这类伪影反映的是数据采集协议的特性,而非底层生物系统。这种非因果潜在变量有助于区分技术特异性特征和真实的生物学属性。
图3 | 潜在因果变量有助于建模复杂过程。a, 那些难以直接建模的复杂细胞过程(例如空间环境的影响)可以通过潜在变量来捕捉,并作为额外的因果变量纳入因果图中(如右图所示)。然而,这些学习到的潜在变量可能较难解释。b, 在因果模型中引入潜在变量可以解决诸如因果图中存在循环过程等算法限制。在此示例中,基因1和基因2参与一个双稳态机制,并相互抑制。这使得系统存在两种稳定状态:一种状态下仅基因G1表达而G2不表达,另一种状态下仅基因G2表达而G1不表达。与其直接建模这种循环结构,不如在模型中引入一个潜在变量,用以表示双稳态机制的当前状态。
单细胞模型通常包含潜在变量,以表示重要但未观测到的生物量(专栏2)。原则上,它们可以对应于已知机制的某些属性,例如基因程序或通路的激活、细胞间的相互作用以及其局部微环境的特征。图3a展示了一个特定案例,通过添加编码细胞外环境特征的潜在变量,将空间信息整合到因果模型中,这些变量直接影响某些基因的表达水平。
这些潜在变量通常从一组低层次观测值(即生物量的直接测量值,通常是基因表达水平)推断而来,这使得它们较少受到技术噪音的影响,因为其值并非基于单一实验测量,而是通常由多个测量值推导得出(多个基因的表达可用于预测基因程序的激活)。潜在变量还可以提供细胞状态的低维表示,帮助避免扩展性问题。此外,潜在变量可以解决其他算法限制,例如因果图中存在环路的情况。例如,在双稳开关机制中,模型可以推断出一个作为两个相关基因父节点的潜在变量,用以表示开关的状态。这种方法消除了对涉及基因之间直接交互建模的需求,从而去除了它们之间的循环调控(如图3b所示)。
学习单细胞数据的表示方法已在单细胞基因组学中得到广泛探索,主要通过矩阵分解或解耦技术实现。这些表示方法捕捉了数据中的主要变异轴,有助于揭示关键的生物学模式。然而,这些表示方法不一定是因果性的,潜在变量之间的相互作用可能未被建模或在不同环境中有所变化。因果表示学习旨在从低层次观测值中发现潜在因果变量。当前的训练方法依赖干预数据来学习跨条件稀疏变化的因果潜在变量。
潜在变量可能会阻碍模型的可解释性,因为它们所代表的生物实体或量通常不明确,导致基因程序和已知结构难以映射到这些推断变量上。如果没有约束,潜在变量缺乏与已知过程或实体的明确联系,使其难以解释。可以通过稀疏化潜在变量与已知生物变量(如基因)之间依赖关系的策略来增强可解释性,从而使每个潜在变量仅依赖于一小部分基因。例如,可以根据潜在变量最依赖的基因集将其与已知生物通路关联起来。这些策略可以依赖基于先验知识的硬约束,或基于训练期间正则化的软约束。例如,一种方法是限制扰动仅针对一组减少的潜在变量。由于CRISPR敲除或小分子靶向特定的生物过程,通过这种方式学习的潜在变量更可能对应于某个具体的生物过程,而不是多个过程的混合(后者会涉及更多基因),因此更有可能具有可解释性。这为分析特定通路在特定细胞亚型中的激活提供了可能性。
学习因果动力学模型
作者关注的最后一个挑战是建模随时间发生的生物过程的时间特性。在许多情况下,例如细胞分化、发育或疾病进展,时间特性不能被忽略。在迄今为止讨论的因果模型中,时间并未被考虑在内,因果变量之间的关系基于静态值绘制。相比之下,Peters等人提出的因果动力学模型(如图4a所示)结合了时间信息,并考虑了系统的动态特性(专栏1)。更具体地说,这些模型假设因果变量的变化率由常微分方程(ODE)或随机微分方程控制,并依赖于少量父变量的表达。例如,此类模型可以解释分化过程中出现的分支现象(如图4b所示)。有趣的是,诸如自调节等环状结构不会对这种因果模型造成任何困难,因为细胞被视为一个动态系统(如图4c所示)。
图4 | 通过因果动力学模型对细胞进行建模。a, 细胞因果动力学模型概述。这里,变量代表表达水平,但现在它们明确依赖于时间。这些变量随时间的发展是其因果父节点的函数。干预可以以与较简单的因果模型相同的方式应用,并学习潜在变量。然而,现在的图中包含了循环调控基序和自调节。b, 细胞发育是一个动态过程,可以通过常微分方程或随机微分方程来建模。这类模型可以解释分支现象,即由相似机制驱动的细胞演变成具有不同表达谱的不同细胞类型。iPSC,诱导多能干细胞。c, 因果动力学模型能够解释循环调控基序。在左侧的调控机制中,G1和G2相互抑制,形成反馈环,从而构成一个循环。这种循环结构为需要无环图来定义清晰因果关系的SCM带来了算法上的挑战。右侧展示了作为时间依赖性动态模型的系统表示,其中t时刻G1和G2的表达水平影响t + dt时刻的状态。这种方法允许追踪基因表达的时间演变,绕过了静态因果模型中由循环带来的限制。d, 训练因果动力学模型的数据准备策略。这里,可以使用多个采集时间点或者赋予细胞特定的伪时间来获得一系列表达谱,然后用于构建时间动态的训练数据。这些时间序列使得模型能够近似基因表达之间的时间因果关系,可能揭示细胞过程背后的动力学机制。
将因果动力学模型应用于单细胞基因组学的主要难点在于,单细胞数据仅反映快照,因为细胞在测量前被破坏,因此只能在单一时间点观察到。克服这一限制的一种策略是使用伪时间推断方法(如图4d所示),该方法为每个细胞分配不同的伪时间,概括其分化阶段。通过依赖伪时间,动力学模型已被应用于单细胞数据:利用每个细胞相关的伪时间信息构建多个细胞序列,用于训练动力学模型。然而,伪时间分析方法的性能取决于数据中的轨迹类型,而后者通常未知。虽然伪时间分析具有价值,但在解释结果时应考虑到其在具有未知轨迹的复杂数据集中的局限性。
细胞群体水平的趋势可以在实验之间进行分析,但由于单细胞测序是一个破坏性过程,无法在不同时间点之间明确匹配细胞。最优传输方法正在被探索,用于在时间点之间匹配个体细胞,从而帮助追踪细胞状态随时间的变化。确定可靠推断因果动力学所需的时间点数量较为复杂,应在简单背景下通过经验确定,前提是驱动动态的真实机制已知。然而,结果可能依赖于数据背景,特别是数据中观察到的动态复杂性。开发单细胞模拟器可以帮助探索这一问题,因为它们可以生成模拟生物过程的理想化数据集,帮助研究人员理解和优化其模型。
因果动力学模型有望生成不同干预下的轨迹,从而为研究细胞从祖细胞状态到完全分化和功能性细胞的不同发育路径打开了大门。为了在这一方向取得进一步进展,我们认为获取大规模时间序列干预数据集至关重要。
结论
因果问题处于生物研究的核心地位;然而,因果机器学习在单细胞生物学中的应用仍处于起步阶段。本文讨论了经典应用于单细胞基因组学的因果机器学习框架,并概述了在全新条件下进行准确预测、因果模型的可解释性以及转录动力学推断所面临的三大挑战。
为了改进模型训练并实验验证模型预测,需要大规模的数据生成工作。特别是,作者强调需要增加可靠干预数据的可用性(包括大量干预条件及每个条件下的细胞数量)、干预下的时间序列观测,以及跨批次和研究的实验协议标准化。此外,实验重复对于解决批次效应至关重要,使模型能够识别和学习生物学信号。这些改进将有助于构建大规模且可靠的单细胞干预数据集,作为评估因果方法在全新条件下泛化能力的基准数据集。值得注意的是,领域内已经有一些正在进行的努力,试图在从扰动预测到细胞生物学实验设计等多个主题上建立这样的基准,旨在为模型性能评估提供标准,并推动领域的连贯性和严谨性。最终,关键未知因素和未测量变量的存在使得忠实捕捉生物学机制变得复杂。幸运的是,单细胞测序实验技术的持续进步预计将提高数据的可用性和质量,例如同时测量多种模态的技术。
尽管数据质量和可用性是推动单细胞基因组学因果机器学习的关键因素,但它们并非唯一的障碍。一个主要问题是缺乏能够应对生物交互复杂性的有效计算方法。许多现有方法仅能处理有限数量的变量,并且无法提供必要的收敛保证。此外,结合因果推断与跨模态数据整合的方法仍然匮乏。由于生物过程发生在不同的时空尺度上,解决这些尺度的变化也至关重要。
单细胞基因组学的因果机器学习有望为细胞决策机制提供一种机械论视角。当因果变量具有可解释性时(例如基因及其信使RNA(mRNA)转录本的数量),模型可以产生生物学见解,并通过靶向实验加以验证,从而带来新的科学知识。然而,在复杂的生物系统中(如单细胞基因组学研究的对象),由于众多因素的相互作用(专栏2),验证因果关系可能特别具有挑战性。此外,验证实验可以用于更新和改进因果模型,使其融入实验设计流程中,从而指导最具信息量的实验设计。这种策略减少了广泛实验的需求及其相关成本。
随着单细胞图谱的出现和干预数据的不断增加,作者预计因果模型将成为指导实验设计和解析细胞决策机制的重要工具。因果模型有潜力帮助科学家揭示新颖的见解,加速发现更加精准和高效的治疗干预手段,从而应对生物系统的巨大复杂性。
文献原文及其他参考文献可以后台获取下载链接,关键词:250401(后台输入关键词250401,自动回复下载链接);针对研究论文中的内容,任何问题都可以留言或私信询问。
团队信息 :
Theis-lab
[https://www.helmholtz-munich.de/en/icb/research-groups/theis-lab]
Yoshua Bengio
https://yoshuabengio.org/profile/
Transformer与基因组语言模型 || Micaela E. Consens (点击扫码观看)
用于病理学的多模态和生成式 AI || Faisal Mahmood(点击扫码观看)从Transformer到大型语言模型(LLMs)的基础知识 || EMBL-EBI 点击扫码观看)更多资源欢迎关注B站(关注MCBRLab )
scGPT : 迈向生物学的基础模型 || Prof.Bo Wang(点击扫码观看)

其他参考基础模型:
Nature Methods || 大规模单细胞转录组学基础模型 || scFoundation
scGPT-spatial:面向空间转录组学的单细胞基础模型(scGPT || Nature Methods)的持续预训练
Nature || 2024 HCA || SCimilarity:一种用于大规模搜索相似人类细胞的细胞图谱基础模型-单细胞注释
Nature || 2024 HCA || 人类神经类器官的综合转录组细胞图谱-单细胞注释
Nature Genetics || 2024 || 人类乳腺细胞图谱 || 单细胞图谱能够映射成人人体乳腺的稳态细胞变化
综述:利用最优传输技术分析单细胞和空间组学数据 || Nature Reviews Methods Primers
Nature Genetics || 利用高级统计方法(潜在嵌入多元回归)解析多条件下的单细胞组学数据
Nature Methods || 综述:单细胞多组学中的小样本方法:单个数据点的重要性
Nature Reviews Genetics || 综述:单细胞多组学时代的基因调控网络推断
参考文献:
Tejada-Lapuerta, A., Bertin, P., Bauer, S. et al. Causal machine learning for single-cell genomics. Nat Genet (2025). https://doi.org/10.1038/s41588-025-02124-2