随着人工智能技术的发展及大规模数据集的积累,深度学习已成为抗癌药物协同作用预测的核心方法。针对该领域,安徽大学郑春厚与苏延森团队于2025年12月16日在《npj Drug Discovery》期刊上发表题为“A review of deep learning approaches for drug synergy prediction in cancer”的综述文章。文章从单任务学习和多任务学习的视角,对经典与新兴的深度学习模型进行系统梳理,讨论了当前面临的数据与技术挑战,并展望了推动计算药物协同预测发展的未来研究方向。
近年来,药物治疗受到越来越多的关注,已成为攻克癌症的重要手段之一。然而,传统的癌症单药治疗存在诸多局限性,例如耐药性增强、患者不良反应增加、治疗效果有限以及治疗失败风险上升。从药理学角度看,药物联合使用可能产生协同、相加或拮抗效应,具体取决于其联合效应是否分别高于、等于或低于各单药的独立效应。其中,协同效应在药物治疗中尤为理想,因为其能够降低耐药发生率、增强治疗效果、减少患者副作用并提高治疗成功率。如图1所示,药物协同治疗能够有效弥补单药治疗的不足。
目前,已经开发了多种知名的体外计算方法用于检测药物组合的协同效应。代表性方法包括 Loewe、Bliss、HSA以及ZIP。此类方法通常基于药物剂量数据和表型效应,采用统计学方法计算药物组合的协同评分。然而,这些方法无法提供药物在分子层面相互作用的详细信息,从而限制了对药物协同机制的深入理解。此外,由于依赖实验筛选,这些方法通常只能在有限范围内识别协同药物效应,因而被认为耗时且效率较低。
为弥补体外方法的不足,研究者提出了基于传统机器学习的药物协同预测模型。代表性方法包括ComboFM、ComboLTR等。与体外计算方法相比,基于传统机器学习的预测模型具有高时效性和高成本效益的优势。然而,这类模型仍然面临可解释性不足和预测精度有限的问题。
基于深度学习的预测模型在推断协同药物组合方面展现出良好前景。一方面,随着深度学习可解释性技术的发展,深度学习预测模型的决策过程变得更加透明。另一方面,深度学习预测模型通过整合多种生物医学数据,显著提升了预测精度。深度学习模型能够基于已有的异构数据推断潜在的相互作用,从而减少对多来源信息的大规模采集需求。
这种表示学习能力使研究人员能够高效筛选并优先验证最具潜力的药物组合,在保证较高预测准确性的同时节省时间和资源。
在该综述中,作者系统介绍了经典及最新的基于深度学习的药物协同预测模型,重点关注多任务学习模型,并讨论了该领域面临的局限性与挑战。图2清晰展示了利用深度学习模型进行药物协同预测的整体流程。
深度学习预测模型依赖于多种资源捕获药物之间复杂的关系与模式。近年来,许多专注于药物协同研究的科研机构相继开发了协同效应评价指标、数据库、交互式软件工具以及网络平台,用于促进协同药物组合的发现与分析。
协同效应评价指标从不同角度刻画了药物-药物之间的关系。具体来说,Loewe和Bliss侧重于理论参考模型,HSA强调基于经验的比较,而ZIP则融合了概念模型与实验数据两方面的视角。在药物协同预测研究中,审慎选择并一致性地应用这些评价指标,对于构建具有可重复性和可比性的基准体系至关重要。
多种常用的药物协同数据集涵盖了在多种癌症细胞系中测试的数千种药物组合,并经过专门整理,用于训练基于深度学习的预测模型。关于这些数据集的详细信息见表1。这些全面且高度整合的药物协同数据集为构建高可靠性的深度学习预测模型提供了宝贵资源,并加速了用于癌症治疗的新型协同药物组合的发现。
目前已开发出多种交互式软件工具和网络平台,用于促进药物协同数据的可视化、分析与解读,其汇总见表2。总体而言,这些交互式分析平台为药物组合研究提供了强有力的计算支持。通过实现数据可视化、协同效应定量评估以及预测建模,它们显著提升了药物协同研究的可访问性与可重复性,并有助于推动更有效联合治疗方案的开发。
基于深度学习的药物协同预测模型的输入通常由
癌症细胞系特征和药物特征共同构成。这些特征的质量对于预测模型的性能至关重要。如图3所示,研究者从不同角度发展多种特征表示方法,用以刻画药物和细胞系的性质。
对于药物而言,其化学结构是其理化性质的基础。具有相似化学结构的药物往往表现出相似的生物活性和药代动力学特性。药物的化学信息通常可表示为字符串形式,最常见的是采用SMILES表示法。SMILES可被视为一种将分子结构编码为字符串的方式,以紧凑的文本形式描述原子及其连接关系。在计算研究中,SMILES字符串常被转换为分子图,其中原子作为节点,化学键作为边。分子图能够有效捕获分子内部的拓扑关系。基于分子图,可以计算拓扑指纹,用于刻画原子对或原子路径之间的连接模式。此外,分子图主要描述单一化合物内部的拓扑结构,而异构图则将这一概念扩展至分子间及跨实体的关系,将药物与蛋白质、细胞系和通路等生物实体连接起来。通过异构图建模整合药物–生物实体相互作用信息,已成为构建全面药物表示的重要策略。
对于细胞系而言,基于深度学习的模型通常采用基因组学和功能组学数据作为输入特征,包括基因表达谱、突变状态、拷贝数变异、DNA甲基化、基因效应评分以及依赖概率等。这些特征能够全面刻画每个细胞系的分子状态和调控程序,为理解其潜在的药物响应提供关键信息。除内在的基因组特征外,细胞系与药物、蛋白质及组织等生物实体之间的相互作用反映了疾病表型背后的多层次调控机制。通过在图结构框架下整合细胞系的分子特征及其基于相互作用的关系,模型不仅能够捕获分子层面的属性,还能学习系统层面的依赖关系,从而提升深度学习模型在药物协同预测中的可解释性和预测性能。
表3总结了代表性深度学习模型所使用的数据集,以及对应的药物和细胞系特征信息。
表3 深度学习预测模型所使用的数据集与特征信息汇总。
现有的深度学习预测模型可大致分为单任务学习框架和多任务学习框架。单任务学习模型仅关注药物协同预测任务,其模型结构可采用分支结构(图4a)或图结构(图4b)。具体来说,分支结构使模型能够并行处理多种特征或信息来源,从而有效捕获与药物和疾病相关的多种输入之间的关系;相比之下,图结构通常用于处理异构网络中的复杂关系,以揭示药物与疾病之间的相互作用。而
多任务学习模型则在预测药物协同作用的同时,引入药物敏感性预测(图4c)或药物–药物相互作用预测(图4d)等辅助任务。
此外,药物协同预测既可建模为分类任务,也可建模为回归任务。在分类设定下,模型根据实验协同评价指标的预定义阈值,将药物组合划分为协同或非协同两类,并使用二分类标签进行区分;在回归设定下,模型学习预测连续的协同评分,以表征不同细胞系中药物相互作用的强度。表4对代表性的深度学习模型进行了汇总,包括模型属于单任务或多任务、模型结构设计以及任务建模方式等信息。与大多数单任务学习模型相比,多任务学习模型的整体架构相对简洁,模块数量也更少。通过引入辅助任务,多任务学习模型的预测性能得到了显著提升。
单任务学习方法以药物组合协同效应预测为唯一建模目标,是该领域最早、也是研究最为广泛的一类方法。现有单任务模型主要可分为基于网络结构的模型和基于图结构的模型两大类。
(1)基于分支结构的单任务学习模型
该类方法通常为两种药物及细胞系的多模态特征(如分子指纹、基因表达谱等)设计独立的分支网络进行编码,每条分支能够专门提取对应实体的特征表示。随后,各分支的输出在高层融合,通过多层感知机、注意力机制或特征交互模块建模药物-药物-细胞系三者之间的非线性关系。通过端到端训练,该类模型在药物协同预测任务中取得了良好性能,显示了深度神经网络的应用潜力。
(2)基于图结构的单任务学习模型
图神经网络被广泛应用于构建包含药物、细胞系、蛋白质及疾病等多维信息的异质图模型,通过整合转录组学、蛋白质组学及药理学等多源异质数据,构建起跨尺度的生物关联网络。通过在图结构上执行多轮消息传递与聚合,该类模型能有效捕获不同生物实体间潜在的高阶复杂交互,挖掘深层生物路径关联,从而为预测药物协同效应提供关键的结构特征与语义表征。
图4. 用于药物协同预测的单任务学习模型与多任务学习模型结构概况。
为缓解单任务学习在监督信号不足方面的局限,近年来多任务学习逐渐成为药物协同预测领域的重要研究方向。该类方法通过在共享表示空间中联合建模多个相关任务,引入额外的生物学约束与辅助监督信息,从而提升模型的鲁棒性和泛化能力。根据辅助任务的类型,多任务模型主要可分为以下两类。
(1)基于药物敏感性预测的多任务模型
该类方法将单药敏感性预测作为辅助任务,与药物组合协同效应预测进行联合学习。通过共享药物和细胞系的底层表示,该类模型能够同时捕获单药作用机制与联合用药效应之间的内在联系,从而在一定程度上缓解协同数据稀缺带来的训练不稳定问题。
(2)基于药物-药物相互作用预测的多任务模型
另一类多任务方法引入药物-药物相互作用预测任务,显式刻画药物之间的相互作用关系。该类模型通常通过共享药物表示或引入任务特异的交互模块,使模型在关注协同效应的同时,对药物对之间潜在的相互作用保持敏感,有助于从更全面的角度理解药物组合的生物学效应。
为比较不同类型模型的预测性能,作者选取了若干具有代表性的模型以DrugComb数据集作为数据来源开展对比实验。为直观展示模型比较过程,图5给出了所有模型所遵循的完整流程,包括数据准备、样本划分和模型构建。
预测模型性能比较结果如表5所示。总的来说,SynergyX和MDNNSyn的优异表现源于其构建高质量特征的能力,而对于多任务学习模型而言,特征质量,尤其是共享特征的质量,同样至关重要。因此,未来的多任务学习模型应进一步提升构建信息更丰富的共享药物或细胞系特征的能力。
表5 预测模型在DrugComb数据集上的性能比较。
基于深度学习的预测模型在预测药物组合协同效应方面显示出巨大潜力,但在数据、技术和优化方面仍有改进空间,如图6所示。
数据方面:药物浓度测量。在实际应用中,药物浓度是影响治疗效果的重要因素。在实验验证阶段,研究人员需要通过生物实验测量并调整药物浓度,以确保药物组合在适宜浓度下发挥最佳效果。该过程不仅耗时,而且需要大量实验资源和专业技术。为了提升模型的实用性和准确性,未来的发展方向可包括将药物浓度纳入关键参数,使模型不仅预测哪些药物组合具有协同效应,还能评估不同浓度下的药物作用效果,并指导浓度调整以实现最佳治疗效果。这需要构建包含药物浓度信息的药物协同数据集,使预测模型能够处理并学习药物浓度与疗效之间的关系。
技术方面:优化药物和细胞系特征。大多数深度学习方法通常独立分析药物和细胞系特征。然而,不同药物之间的相互作用在不同细胞系中可能产生不同效果,从而影响整体治疗结果。未来研究方向可包括开发新算法,更好地理解和建模药物组合与细胞系之间的复杂相互作用,从而为构建更合理的药物和细胞系特征提供指导。在多任务学习框架下,共享特征可以帮助模型同时执行药物协同预测任务与辅助任务。不同任务可以共享表示学习过程中获得的通用特征,同时学习任务特异性特征,这种互补性有助于增强模型对药物协同效应的理解。因此,设计新技术以提升多任务学习预测模型中共享特征的质量,也是一个值得探索的发展方向。
优化方面:提升多任务预测能力。在构建多任务预测模型时,寻找每个损失函数的最优权重参数,以及确定如何组合多个损失函数以实现最佳整体性能,是值得研究的问题。此外,在某些多任务学习模型中,单药敏感性预测任务的性能尚未与以往研究进行直接比较。这主要是由于不同研究中所用的数据集、敏感性评分指标和评价方法存在差异。因此,未来研究有望解决这些差异问题,从而实现辅助任务的更有意义比较。此外,设计新的辅助任务也是必要的。
通过引入新型辅助任务,如疾病–靶点关联预测、药物–靶点亲和力预测等,模型可以从多个角度和层次理解药物组合的协同效应,从而学习更丰富、更具多样性的特征。
Li, L., Zhang, H., Zheng, C. et al. A review of deep learning approaches for drug synergy prediction in cancer. npj Drug Discov. 2, 30 (2025).
https://doi.org/10.1038/s44386-025-00034-1