Nat. Biomed. Eng. | 通过可解释的机器学习模型集合揭示协同药物反应的表达

编译 | 曾全晨
审稿 | 王建民

今天为大家介绍的是来自Kamila Naxerova和Su-In Lee团队的一篇关于药物协同预测的论文。机器学习可能通过解释药物协同作用的分子基础来辅助选择最佳的抗癌药物组合。通过准确的可解释的模型，机器学习有望加速基于数据的癌症药理学研究。然而，由于转录组数据具有高度相关性和高维度的特点，简单地将当前可解释的机器学习策略应用于大型转录组数据集会导致次优的结果。在这里，作者利用特征归因方法展示了通过利用可解释的机器学习模型集合可以提高解释质量的可能性。

发现最佳的抗癌药物组合是一个困难的问题，因为所有可能的药物和患者组合的空间是庞大的。即使是系统的实验方法，如高通量筛选，也可能不足以应对这个问题，因为当前正在开发的所有抗癌药物可能有数十万种可能的组合，每一种组合在不同的患者身上可能有不同的反应。因此，需要预测性的方法来管理庞大的抗癌药物组合空间。

然而，目前最先进的预测方法存在不足，即未能提供关于药物反应的分子机制的生物学洞见，这对于促进新型有效的抗癌疗法的发现至关重要。最近的研究表明，使用复杂的非线性机器学习（ML）模型可以提高预测性能。例如，在AstraZeneca-Sanger Drug Combination Prediction DREAM Challenge中，所有获胜团队都在其方法的某个部分中使用了复杂模型，包括随机森林分类器和梯度提升机（GBM）的集成。此外，已经证明，深度神经网络在预测39个细胞系中抗癌药物组合的协同作用方面优于较简单的模型，如线性模型，实现了最先进的性能。这些复杂的ML模型的一个主要弱点是它们的“黑匣子”性质；尽管它们具有很高的预测准确性，但这些模型的内部运作是不透明的，这使得很难获得关于药物协同作用的分子基础的机械性洞见。在模型可解释性很重要的情况下，研究人员会采用较简单、准确性较低的模型，如线性回归。

图 1

作者提出了EXPRESS（可解释的基因表达数据预测）框架，以理解生物模型中准确性和可解释性之间的关系，并构建既准确又具有生物解释性的模型。最近一种理解生物模型所学模式的方法涉及使用“特征归因方法”（例如Shapley值）来“解释”复杂的预测模型，为每个输入特征（在这里是基因）提供重要性分数。此外，虽然复杂的ML模型已被证明在预测性能方面优于简单模型，但最近的研究引发了一个问题，即在相同任务上，具有更高预测性能的模型不一定具有更高质量的归因结果。作者的研究调查了预测性能和特征归因质量之间的关系，并展示了一种基于模型集成的简单方法如何改善生命科学中复杂ML模型的特征归因质量。

作者使用240个合成数据集对传统和新颖方法进行基准测试，并展示了数据中的非线性和相关性如何阻碍对与生物相关的特征的发现。然后，作者证明在典型生物应用条件下，所有现有方法都表现不佳，并展示了解释模型集合如何提高特征归因的质量（图1a）。最后介绍了EXPRESS框架，它使用Shapley值来解释一组复杂模型的集合，这些模型被训练用于预测133种由46种抗癌药物组成的组合在285例AML患者的外体肿瘤样本中的协同作用（图1b）。除了构建高度准确的预测模型，作者的集合可解释性方法还确定了与药物协同作用模式相关的相关生物信号，尤其是与造血分化相关的基因表达特征。

目前的最先进的可解释人工智能在相关特征方面存在不足

可解释人工智能（XAI）是机器学习领域的一项最新发展，旨在为复杂的“黑盒子”模型（如神经网络）的预测提供可解释性的基础。一种流行的特征归因方法是应用Shapley值来解释这些复杂模型，通过衡量当将一个特征添加到所有其他可能的特征组合时，模型的输出平均变化多少来进行测量。尽管在生命科学领域将XAI技术应用于复杂模型已成为一种常见做法，但在基因表达数据的背景下应用这些方法尤其困难。每个患者都会有数以万计的特征的转录组学数据，这些特征之间存在高度的相互依赖性（例如，参见图2右上方AML转录组学数据的特征协方差矩阵）。这使得Shapley值算法对于准确的特征归因任务更加困难，理想情况下，它应该在统计上独立的特征上操作。在存在相关特征的情况下，许多具有不同机制的模型可能同样适合数据。因此，即使我们能够完美解释单个模型，该模型可能并不能解释特征与结果之间的真实生物关系。

由于这些条件在生物学数据集中普遍存在，因此了解在高维度、高度相关特征的情况下，Shapley值基于的特征归因和更传统的方法的有效性受到的影响是至关重要的。然而，衡量这种有效性是困难的，因为现有的特征归因方法的基准设计要么衡量特征对解释的“特定模型”的影响，要么衡量所选特征集的“预测性能”。因此，作者设计了一个简单的基准测试用于这个应用（图2）。为了评估数据相关性和非线性对特征归因的影响，作者使用了240个独特的数据集。作为输入数据，作者考虑了具有独立特征和具有多元正态协方差结构的合成数据集，以及来自AML患者的真实基因表达测量数据集。合成数据的标签是通过随机抽取输入特征并使用从简单的线性单变量关系到包含特征之间相互作用的复杂非线性阶跃函数的函数将其与结果相关联来创建的。对于评估特征发现性能的指标，作者测量每种特征归因方法排序列表中的每个点累积发现的“真实特征”数量。利用这个基准测试，作者评估了五种不同的方法来对生物重要特征进行排名，包括两种复杂的机器学习方法使用Shapley值进行解释，以及三种传统的线性方法：通过其与结果的Pearson相关性对特征进行排名，通过其弹性网系数对特征进行排名以及使用支持向量机进行递归特征消除。

图 2

当结果与输入特征有简单线性关系时，所有方法都能很好地恢复真实特征（参见图2a中左上方实验中所有方法的完美表现）。然而，当数据存在非线性关系时（参见图2g-l），使用Shapley值解释的复杂机器学习模型明显优于线性方法。例如，当真实结果是乘法且特征是独立时，用Shapley值解释的神经网络在特征发现曲线下面积（AUFDC）上优于弹性网系数。同样，当真实结果是成对的AND函数且特征是独立的或处于相关组中时，用Shapley值解释的XGBoost模型在AUFDC上也优于弹性网系数。然而，值得注意的是，当输入特征之间的相关性增加到实际AML转录组数据中观察到的水平时（图2c、f、i、l），所有方法往往表现不佳，并且每个模型类的性能存在较大的变异性。

集成方法克服了个体模型中的变异性

图 3

观察到不同模型在基准性能方面存在变异性后，一个自然的问题是如何选择在特征发现方面性能最佳的预测模型。一种直观的解决方案是简单地选择预测性能最好的模型。然而，当我们观察预测性能和特征发现之间的关系时，发现这并不一定是可靠的策略。对于三种常见的模型类别（线性模型、前馈神经网络和GBM），在同一数据集的自重采样版本上训练了20个独立模型，并测量了测试集预测误差和特征发现性能。尽管测试误差和特征发现之间存在显著的整体相关性，但在每个模型类别内，测试误差与特征发现性能之间‘没有’显著相关性，参见图3ab。因此，尽管预测性能可能有助于选择‘模型类别’，但不一定有助于选择该类别中最具生物学相关性的模型。

此外，在同一模型类别内检查各个模型的特征归因时，可以观察到它们在模型之间存在显著差异。这表明归因的稳定性不足：对训练集进行微小扰动（例如自助重采样）可能导致模型识别的最重要特征发生显著变化，并且先前在人类基因组学和表观基因组学中的机器学习研究已经指出在分析解释时考虑多个模型的必要性。同样，针对医疗保健中黑盒预测模型的特征选择的最新研究也指出需要选择稳健的特征。虽然通过集成机器学习模型通常可以增加模型的准确性，提高预测器的稳定性，但是否集成可以改善生物学假设生成尚未得到证实。因此，作者为原始基准任务中的所有数据集创建了模型集合，并发现集成不仅减少了特征发现性能的方差，还显著提高了集成模型的平均特征发现性能（图3c）。

复杂的GBM在AML样本中准确预测药物协同作用

作者将框架应用于Beat AML合作项目提供的公开数据。这些数据包括来自285名AML患者的原发肿瘤细胞的基因表达谱，以及对这些细胞进行的131对46种不同药物的外体敏感性测定，涵盖了各种癌症亚型和抗癌药物类别。每个样本的输入特征包括描述相应患者肿瘤分子特征的“基因表达特征”和描述该组合中两种药物的基因靶标的“药物特征”（图1b）。EXPRESS首先比较了多个模型类别：elastic net、深度神经网络、随机森林和XGBoost，在使用5折交叉验证测试计算的测试误差方面进行比较。为了严格评估模型的预测性能，作者使用了四种不同的分层方案将样本分为训练集和测试集。每种不同的分层方案评估了不同可能应用场景下的泛化性能（详见图4）。在这四个设置中，XGBoost在60个比较中有53个比较表现更好（=4×3×5）。Elastic net、随机森林和深度神经网络分别在4个、27个和30个比较中表现更好。因此，我们的框架选择XGBoost作为进一步下游解释性分析的最佳模型类别。

图 4

合并模型的特征归因揭示了抗AML药物协同作用的重要基因

在确定GBM是数据集中表现最好的模型类别后，对个别模型进行合并，直到合并模型的归因稳定为止，最终形成了100个XGBoost模型的集成模型。然后分析了得到的集成模型的归因结果，寻找在药物组合协同作用中具有“全局”重要性的基因，即在数据集中与许多不同的药物对的协同作用相关联的基因。影响全局协同作用的基因可能属于对癌症生物学具有重要影响的通路，这些通路被数据集中的许多药物所靶向，或者可能与影响许多通路的大规模转录变化相关。作者通过绘制依赖图来可视化与数据集中所有样本中协同作用具有单调关系的基因，该关系由表达和归因值之间的Spearman相关系数的强度来衡量。例如，MEIS1的表达水平与其归因值之间的强正相关（在测试的15,377个基因中排名第二），表明MEIS1表达水平较高的患者预计对在该数据集中测试的药物组合表现出更强的协同作用（图5a）。目前研究已经发现MEIS1在混合型白血病（MLL重排AML）中上调，并且独立于MLL重排驱动白血病发生。最近，高水平的MEIS1表达已在具有“单核细胞”特征的Venetoclax耐药AML亚克隆中观察到。由于不同患者的AML可能表现为不同的发育阶段，MEIS1的重要性表明模型可能正在学习一个与分化相关的表达特征，从而解释某些药物协同克服对其他药物的抵抗能力。

图 5

EXPRESS可以识别显示此类趋势的其他基因，并将表达-归因依赖关系图的边际分布组装成一个总结图，一次性可视化许多这些特征归因关系。图5c、d显示了两个总结图：一个用于高表达与更高预测协同作用呈正相关的基因，另一个用于呈负相关关系的基因。其中一个最高的负相关基因是DLL3（图5b），它是Notch信号通路的成员，已经显示在AML患者中具有预后重要性：高DLL3表达的患者的总体生存率较低。可以发现，无论是正相关方向还是负相关方向，许多影响协同作用的顶级基因都与血液发育的不同阶段相关。例如，CITED2（最高正相关基因）被认为对成人造血干细胞的维持至关重要。此外，已经显示CITED2介导的造血干细胞的维持对于AML的维持也至关重要。该列表中的其他基因，如OSMR，还被证明对正常造血的维持至关重要。而其他顶级基因，如SLC7A11和SLC17A7，则与AML的预后相关。

结论

通过集成复杂模型，EXPRESS框架实现了准确的预测性能和稳健且具有生物学意义的解释。尽管先前的工作已经能够通过复杂模型实现高准确性，但作者的方法可以提供解释，以确保患者、临床医生和科学家对预测结果具有生物学的合理性，即使模型具有高维度的输入特征且特征之间存在高度相关性。在生物医学人工智能领域，越来越多地认识到可解释性的重要性。模型解释可以帮助识别那些表面上准确的“黑盒”模型实际上可能依赖于不可靠的混杂因素（也称为“捷径”）。解释还可以使医生向患者传达算法决策的逻辑，这可以增加患者对治疗过程的信任。最后，通过显示模型决策的逻辑，可解释的人工智能可以实现医生和AI模型之间更好的协作。

参考资料

Janizek, J.D., Dincer, A.B., Celik, S. et al. Uncovering expression signatures of synergistic drug responses via ensembles of explainable machine-learning models. Nat. Biomed. Eng 7, 811–829 (2023).

https://doi.org/10.1038/s41551-023-01034-0