《Nature communications》：机器学习预测癌细胞药物敏感性

癌症治疗仍然是一项重大挑战，许多患者缺乏有效的治疗方法，并且面临耐药问题。癌细胞系（CCL）药物敏感性的高通量筛选为解决这一问题提供了潜在途径。

前天，比萨高等师范学校Francesco Raimondi通讯在《Nature communications》发表论文“Learning and actioning general principles of cancer cell drug sensitivity”，利用相关数据集，通过细胞系转录组学预测药物反应，并着重于模型的可解释性以及在患者数据中的应用。

作者利用最新的 GDSC 和PRISM 数据集开发了一种可解释的机器学习框架，并探索了不同的建模策略。例如，在 GDSC 数据集上，经过预处理后，他们获得了 686 个细胞系对 286 种独特药物的反应数据。作者首先构建了一个综合考虑药物和细胞系特征的模型，发现 XGBoost 算法结合全基因表达向量和分子的独热编码时性能最佳。为了更好地理解药物反应的转录程序，作者构建了仅使用基因表达作为输入特征的药物特异性模型。这些模型表现出可靠的性能，其预测的 IC50 值与实验值具有高度相关性。

对模型的解读揭示了重要的发现。对于许多药物特异性模型而言，重要基因与已知的药物靶点相吻合。以 BCL2 抑制剂维奈托克（Venetoclax）为例，模型始终将靶基因 BCL2 识别为重要基因之一。此外，模型还学习到了与药物作用机制（MOA）相关的生物学过程和信号通路。作者借助开源大语言模型（LLM）Mixtral Instruct 8x7b 整理药物-MOA 关联，并对药物特异性模型中的重要基因进行通路富集分析，发现许多药物具有显著富集的 MOA 通路。这些通路通常包括 “细胞凋亡”“细胞应激反应” 等过程，与药物的MOA 相符。

作者还将研究扩展到 PRISM 数据集，针对该数据集中的 6337 种药物和 887 个细胞系训练了药物特异性全基因模型。结果显示，靶向激酶的药物拥有最多表现良好的模型。与 GDSC 数据集类似，PRISM 模型中的重要基因能够识别相应靶点，并且成功整理并富集了相关的 MOA 通路。

利用整理得到的 MOA 通路信息，作者开发了 MOA 引导的模型。这些模型在 GDSC 和 PRISM 数据集上均优于全基因模型，提高了药物敏感性的预测准确性。

作者利用 CellHit 模型，根据转录组特征预测适合 TCGA 肿瘤患者的有效药物治疗方案。该模型能够筛选出癌症类型特异性的单一疗法和联合疗法。例如，许多排名靠前的预测药物和联合用药方案与相应癌症类型的批准治疗方案相匹配，这表明该模型的预测结果具有较高的转化潜力。

针对胰腺导管腺癌（PDAC）和多形性胶质母细胞瘤（GBM），作者进一步验证了 CellHit 模型。在 PDAC 方面，该模型能够推断出对不同亚型具有差异敏感性的药物。对 PDAC 细胞系的实验验证表明，预测的药物，如伊立替康（Irinotecan）和依托泊苷（Etoposide），对与不同 PDAC 亚型相似的细胞系具有不同的作用效果。在 GBM 研究中，作者利用该模型推断患者样本的药物敏感性特征，并通过对 GBM 患者原代细胞培养物的实验验证了模型的预测结果，证明了其在实际临床应用中的潜力。

总之，研究开发了一个强大的机器学习框架，能够预测和解释癌细胞系的药物敏感性，并有望准确推断患者样本的药物反应，为个性化癌症治疗提供了新策略。

https://doi.org/10.1038/s41467-025-56827-5