Py学习  »  机器学习算法

Chem. Soc. Rev. | 深度学习时代如何建模蛋白-配体相互作用助力药物发现

DrugAI • 昨天 • 13 次点击  
药物发现是一个复杂、资源密集且成功率极低的过程。典型的小分子药物开发通常耗时超过十年,成本高达20–30亿美元。为避免在庞大的化学空间中进行穷举式搜索,理性药物设计(rational drug design)旨在通过对蛋白–配体相互作用的建模,识别能够与特定靶点结合的类药化合物。然而,由于分子间相互作用的复杂性以及传统计算方法的局限性,其实际应用常受制于高计算成本、可扩展性不足及在真实体系中预测精度有限等问题。近年来,深度学习技术的迅猛发展深刻重塑了药物发现的研究范式,AI设计的候选分子在临床I期试验中已展现出显著高于传统方法的成功率。凭借先进的神经网络架构,深度学习能够从大规模数据中自动提取潜在规律与高维表征,从而实现更精确、更高效的蛋白–配体相互作用建模。这一趋势不仅展示了AI在药物发现中的巨大潜力,也凸显出对当前研究进展与未来挑战进行系统性评估的必要性。
近期,北京大学化学与分子工程学院、定量生物学中心、北大-清华生命科学联合中心及北京大学成都前沿生物技术研究院来鲁华教授课题组受邀在Chemical Society Reviews上发表题为Modeling protein–ligand interactions for drug discovery in the era of deep learning的综述论文。来鲁华课题组长期致力于发展基于物理模型与人工智能相结合的小分子、多肽及蛋白质药物设计方法,在多个重大疾病相关靶标上通过计算设计与实验验证获得了可成药性分子并进行了成果转化。本综述系统总结了现代深度学习技术如何与基于物理原理的传统计算方法相辅相成、深度融合并共同推动药物发现进展,回顾了现有方法的代表性应用,深入分析了该领域面临的主要挑战与研究空白,并对未来可能的发展方向进行了展望。
图1 深度学习在蛋白–配体相互作用建模中的典型应用
本综述按照从基于物理规律数据驱动的研究范式,系统总结了深度学习在蛋白–配体相互作用建模中的五个相互关联、密切相关的应用方向:(1)深度学习增强的分子动力学模拟,包括更精确且具可扩展性的机器学习力场、基于深度学习的分子动力学采样加速与轨迹建模,以及从动力学轨迹中提取蛋白–配体相互作用规律;(2)基于深度学习的分子对接、打分与虚拟筛选;(3)端到端的生物体系结构建模,包括靶标蛋白结构预测及其在药物设计中的应用、蛋白–配体复合物结构建模以及生物分子构象系综建模;(4)深度生成模型驱动的基于结构的药物设计;(5)基于序列信息的药物设计。本综述重点讨论了深度学习在药物设计中的多层次应用,强调基于物理规律与数据驱动两种范式的紧密融合与互补作用,并着重探讨了当前AI药物设计领域所面临的关键挑战、现有方法的局限性及潜在的改进方向。值得一提的是,我们在GitHub上维护了一个相关资源列表(https://github.com/YuzheWangPKU/awesome-protein-ligand-interactions),系统收集和整理了与蛋白-配体相互作用建模相关的论文、基准、数据集与工具,旨在进一步促进AI药物设计领域的发展,并欢迎广大研究者共同参与后续更新与完善。

——分子动力学模拟——

图2 结合深度学习与分子动力学模拟的方法
动力学模拟在研究配体结合/解离路径、识别靶标蛋白隐藏口袋、计算结合自由能等方面具有重要的应用,但传统的MD模拟计算成本高、对大体系的可扩展性有限、力场精度仍有待提升。深度学习的兴起为传统MD注入了新的活力,本综述重点关注深度学习与MD模拟结合在蛋白-配体建模中的三方面应用:适用于蛋白-小分子体系的深度学习力场、深度学习加速的轨迹采样与生成,以及基于MD轨迹训练深度学习模型提取蛋白-配体相互作用规律。
适用于小分子的机器学习力场自上世纪90年代起持续发展,进入深度学习时代以来,SchNet、DimeNet、PaiNN、NequiP等一系列深度学习力场进一步提升了精度与计算效率。小分子深度学习力场的发展催生了一系列将混合神经网络势/分子力学(neural network potential/molecular mechanics, NNP/MM)方法应用于蛋白-配体相互作用的MD模拟策略,类似于QM/MM,这些方法使用具有从头算精度的神经网络势建模小分子及关键的相互作用片段、使用传统力场建模蛋白,从而在效率、精度与可扩展性之间取得平衡。近期,GEMS、AI2BMD等深度学习力场将从头算级别的精度扩展至蛋白等生物大分子体系,而AP-Net、espaloma等构建了蛋白-小分子体系的通用深度学习力场,并成功应用于高效准确的结合自由能计算。
传统的MD模拟需要长时间模拟以观察到隐藏口袋打开、配体结合-解离、别构等稀有事件,而深度学习在加速MD采样领域也有着广泛应用。在增强采样(enhanced sampling)、自适应采样(adaptive sampling)领域,基于不确定度的强化动力学(uncertainty-driven reinforced dynamics, RiD)、基于分布外检测(out-of-distribution detection)的过渡态采样等方法有效提高了稀有事件的采样效率。值得关注的是通过代理模型(surrogate models)直接对MD轨迹进行生成式建模的方法,例如早期的Boltzmann Generators和近期MDGen、BioMD等基于扩散模型的方法,本综述在”端到端的生物体系结构建模“一节还将进一步讨论直接生成构象系综的相关进展。尽管多数工作尚未在蛋白–配体场景下进行系统验证,但其潜力值得期待。
基于MD轨迹训练得到的深度学习模型同样有助于更好地理解靶标蛋白的动态信息及蛋白-配体的相互作用规律。例如,ProtMD、Dynaformer等模型通过在蛋白-配体体系MD模拟轨迹上进行预训练,提升了在结合活性预测等下游任务上的表现。本综述认为,MD模拟积累的大量轨迹数据是深度学习模型学习动态信息的关键模态,具有不可替代的价值。MISATO、DD-13M等近期工作对轨迹数据的系统收集与整理为后续工作打下了数据基础,而如何设计适用于MD模拟轨迹的模型架构仍是值得研究的重要问题。

——对接、打分与虚拟筛选——

图3 基于深度学习的对接、打分与虚拟筛选方法
传统的分子对接基于物理或经验势函数引导小分子对接构象的采样和打分,但面临着计算效率低、打分函数精度较差、难以建模靶标蛋白构象灵活性等问题。基于深度学习的对接方法通过从晶体结构数据中学习相互作用信息,直接建模小分子的结合构象,代表工作包括DeepDock、EquiBind、DiffDock、TankBind、KarmaDock等。后续的FlexPose、DiffBindFR、DynamicBind等方法进一步显式考虑结合口袋的构象灵活性,从而更高效准确地建模了结合过程中靶标构象的改变。需要强调的是,现有的对接方法常面临生成构象物理合理性不足、测试集数据泄漏、可泛化性与稳健性不足等问题。相应地,PoseBusters等质量控制工具、Leak Proof PDBBind等严格的数据集划分、SAIR等高质量合成数据集对推动深度学习对接方法的发展具有重要价值。
在打分方面,传统的打分函数可泛化性差,难以兼顾对接能力、排序能力和筛选能力。基于混合密度网络(mixture density network, MDN)的RTMScore、GenScore等实现了更高效、准确的深度学习打分。PIGNet、DeepRLI、EquiScore等方法将物理先验及相互作用指纹等信息显式引入网络中,提升了打分精度和稳健性。此外,PBCNet、PBCNet2.0等一系列基于结构的结合活性预测模型在特定体系下实现了接近FEP+等金标准的精度,并显著降低了计算成本。近期,BioScore针对蛋白质、多肽、核酸、小分子等不同模态训练了统一的打分模型,证明了发展通用分子相互作用模型的可行性与重要价值。
在苗头化合物虚拟筛选方面,Enamine等基于可合成砌块的化合物库使得超大库虚拟筛选(ultra-large virtual screening, ULVS)成为药物发现的重要策略,而基于深度学习的超大库虚拟筛选也成为快速发展的研究方向。Deep Docking、OpenVS等方法通过主动学习,以分子描述符或高效打分引导基于对接的超大库虚拟筛选,在不同靶标上成功获得了苗头化合物。在高效打分方面,值得关注的是以DrugCLIP为代表的无需对接结构的对比学习方法,该类方法分别编码口袋和小分子,通过对比学习训练将两个模态对齐到同一个特征空间,筛选时通过特征向量矩阵乘法高效计算口袋-配体相互作用打分,从而显著提升了超大库筛选的效率。

——端到端的生物体系结构建模——

图4 端到端的生物体系结构建模方法
AlphaFold2在蛋白结构预测任务上取得的突破性成果是AI for Science领域的标志性事件,其预测得到的靶标蛋白结构为后续的药物设计提供了重要参考。长期以来,关于AF2预测结构能否有效应用于基于对接的虚拟筛选一直存在争议,而近期的多项研究在GPCR、激酶等不同靶标上验证了该技术路线的可行性,在GPCR靶点上利用AF2预测结构进行虚拟筛选的命中率与基于实验解析结构的结果持平。在AF2的基础上,NeuralPLexer、Umol、RoseTTAFold All-Atom等工作尝试通过不同模型架构将小分子模态整合进结构预测网络中,而AlphaFold3标志着统一生物分子结构建模的重大突破,随后Boltz-1、Protenix、Chai-1等对AF3的开源复现工作进一步推动了该领域的发展,近期发布的Boltz-2将AF3模型框架拓展至结合活性预测任务上,在特定体系中实现了与FEP+相当的精度,同时显著降低了计算成本。值得注意的是,近期研究也指出类AF3模型在某些体系下记忆了训练集中的蛋白-配体相互作用模式,其在未知靶点与全新小分子结构上泛化能力仍然有限,因此结合基于物理的质量控制及后处理步骤仍具有必要性。
靶标蛋白的动态构象对解析蛋白–配体相互作用至关重要。基于前述端到端结构预测模型,近期研究进一步探索了生成蛋白多重构象及直接生成构象系综的方法,该类方法对基于结构的药物设计具有潜在价值。以AF-Cluster为代表的系列工作通过对模型MSA输入进行采样实现不同构象的生成, 而AlphaFlow、DiG、BioEmu等方法基于MD轨迹等动态数据训练模型直接生成符合物理规律的构象系综。针对天然无序蛋白(intrinsically disordered protein, IDP)的 idpGAN、IDPFold 等模型则为靶向 IDP 的药物设计提供了重要工具。在蛋白–配体复合物系综预测方面,基于扩散模型的 PLACER 能够通过多次采样生成物理合理的多种结合构象,并已成功应用于多种酶的从头设计任务。然而,对蛋白–配体结合构象的动态建模仍需进一步深入研究。

——基于结构的药物设计——

图5 深度生成模型驱动的基于结构的药物设计方法
基于结构的药物设计(structure-based drug design, SBDD)基于靶标蛋白的三维结构生成具有特定结合能力的小分子,但传统方法往往受限于化学空间覆盖有限、设计流程强烈依赖专家经验等问题。随着深度学习的兴起,深度生成模型的快速发展为基于靶标结构的高效全新分子生成提供了新的可能。这类方法通常将分子生成建模为图生成任务、三维空间生成任务或隐空间生成任务,代表性工作包括自回归模型DeepLigBuilder、GraphBP、Pocket2Mol、ResGen、PocketFlow,以及非自回归模型DiffSBDD、TargetDiff、PMDM、MolCRAFT等。本综述重点讨论了模型设计的两项重要考量:基本生成砌块与先验信息引导。
在基本生成砌块方面,逐原子生成的模型常常面临生成分子的可合成性低、构象及拓扑结构合理性差等挑战。受基于片段的药物设计(fragment-based drug design, FBDD)思想启发,DeepLigBuilder+、FLAG、DrugGPS、DecompDiff等模型引入有限种类的基序(motif)或合成子(synthon)作为基本生成砌块,从而提升生成分子的结构合理性、可合成性与类药性。近期, RxnFlow、3DSynthFlow 等工作通过分子与合成路线的联合设计进一步拓展了分子生成的范式,通过基于反应模板的约束有效提升了生成分子的可合成性,对先导化合物的实际研发具有重要意义。
在先验信息引导方面,为进一步增强生成分子与靶标口袋的相互作用,一系列工作将药效团信息、口袋形状信息、电子密度信息等显式引入生成过程。例如,TransPharmer、PhoreGen等方法将药效团信息显式引入生成过程,在不同靶标上成功生成结合分子。ED2Mol利用电子密度信息作为条件输入,提升了生成分子的成功率与物理合理性。此外,KGDiff等模型通过基于物理的打分函数引导生成过程,而FlexSBDD、DynamicFlow等工作显式建模了靶标结构的动态变化,这些物理先验在提升模型的可解释性与生成质量方面具有显著作用。
值得说明的是,在SBDD模型评估方面,不同于分子对接或结合活性预测等单一任务,药物分子设计涉及结合活性、可合成性、类药性等多维指标的综合优化,因此亟需系统化的基准评估框架以进行客观比较。近期的 CBGBench 等研究表明,在标准化数据集与评测流程下,早期基于卷积神经网络(CNN)的模型(如 LiGAN)依然展现出较强的竞争力。此类系统化基准的建立对于未来 SBDD 方法的发展与优化具有重要的指导意义。

——基于序列的药物设计——

图6 基于序列信息的药物设计方法
基于结构的药物设计模型在训练过程中受限于高质量蛋白–配体复合物结构数据的稀缺,而其在实际应用中的性能又高度依赖于靶标结构的质量,尤其难以适用于缺乏稳定三维结构的IDP等靶标。相较之下,丰富的高通量活性测定数据为训练无需结构信息、仅基于序列信息的药物设计模型提供了新的可能性。此类基于序列的模型得益于蛋白语言模型(如ESM系列)以及小分子预训练模型(如 MolCLR、Uni-Mol、MoLFormer 等)的快速发展,这些模型为蛋白–配体相互作用建模提供了信息丰富且表现力强的表征。
以 DrugBAN、TransformerCPI2.0、ConPLex 等为代表的无需结构的药物–靶标相互作用预测方法能够直接从序列信息高效预测分子结合,在超大库虚拟筛选等领域展现出重要应用潜力。此类相互作用预测模型可以扩展为分子从头设计框架,例如CogMol 采用变分自编码器(VAE)将分子映射至隐空间,并将该隐向量与靶标蛋白序列的表征共同输入下游的活性预测模型,通过预测结果引导隐空间采样,再解码生成潜在结合分子。除基于相互作用预测的策略外,DeepTarget、DeepBlock 等方法直接以蛋白序列为条件生成可能结合的候选分子,而 AI-Bind、DRAGONFLY 等方法则基于深度学习构建药物–靶标相互作用网络,从网络结构中挖掘潜在的新型相互作用关系。
基于序列信息的药物设计方法仍面临泛化能力有限、可解释性不足等挑战。可解释人工智能(Explainable AI, XAI)的发展为提升模型可靠性提供了关键工具,尤其是不确定度估计能够为预测结果提供置信度度量。例如,KDBNet 通过模型集成实现激酶–药物相互作用预测的不确定度评估,为实际决策提供了重要参考。此外,该类模型的训练仍受制于数据规模与质量,不同数据来源间的批次效应(batch effect)可能显著影响模型性能。因此,Target 2035等全球性倡议的推进对促进高质量数据积累与标准化、进而推动相关模型的发展具有重要意义。

——总结与展望——

蛋白-配体相互作用的准确建模在理性药物设计中具有核心地位,深度学习技术的快速发展为药物设计领域提供了全新的驱动力,但该领域仍面临诸多挑战。在总结与展望中,本综述将其主要挑战及未来可能的发展方向归纳为以下四个方面:
(1)数据层面:亟需研究者共同推动新型实验手段的开发,建立并推广标准化的数据采集与清洗流程,发展高效的数据增强方法,系统收集涵盖MD轨迹、量化计算、实验解析结构及高通量活性筛选等多模态、高质量且规范化的蛋白–配体相互作用数据。对于低质量、多样性差或缺乏结构信息的数据集,可考虑引入合成数据、使用自蒸馏等策略以提升数据有效性。在低数据场景下,结合预训练模型的迁移学习、主动学习与元学习等方法有望提高模型的泛化性能与应用价值。
(2)模型层面:针对不同数据规模的任务选择合适的模型归纳偏置(inductive bias)是后续研究的重点方向,随着相互作用数据量的持续增长,越来越多的研究致力于构建高可扩展性的通用模型,以替代依赖专家经验的传统归纳偏置,隐式地从数据分布中直接学习蛋白–配体相互作用的物理规律。一个快速发展的趋势是基于语言模型直接建模蛋白–配体复合物,而如何对多模态结构信息进行高效且有信息量的标记化(tokenization)仍是重要的研究课题。此外,受蛋白设计领域从AlphaFold2中提取相互作用信息以设计结合蛋白的成功经验(计算筛选、基于梯度反传的设计等)启发,如何从类AlphaFold3模型中提取蛋白–配体相互作用信息应用于小分子药物设计仍是有待后续研究的课题。
(3)基准层面:严格与公正的评测体系对领域发展至关重要。测试集数据泄漏及不合理评估指标常导致模型性能被高估、潜在问题被忽视,PoseBusters等工具及更严谨的数据集划分方法有助于推动研究更加关注模型在真实场景下的稳健性与可迁移性。此外,DREAM、CACHE等开放性药物设计竞赛通过回顾性或前瞻性的真实任务系统评估模型性能,为领域发展提供了客观参考与积极推动。
(4)应用层面:本综述所述的蛋白–配体相互作用建模方法在多种治疗策略中具有重要潜在应用,包括天然产物筛选与改造、含非天然氨基酸多肽设计、蛋白降解靶向嵌合体(proteolysis targeting chimera, PROTAC)设计、分子胶(molecular glue)设计以及抗体偶联药物(antibody–drug conjugate, ADC)设计等。此外,相关计算方法的发展与实验技术的进步密切相关并相互促进,如时间分辨冷冻电镜(time-resolved cryo-EM)等结构生物学技术与DNA编码化合物库(DNA-Encoded Compound Library, DEL)等高通量筛选技术的应用均为该领域注入了新的活力。
综上所述,作为最具活力与应用潜力的科学研究方向之一,药物发现正因深度学习的兴起及其与传统物理建模方法的融合而获得深刻变革。本综述期望通过探讨该领域的最新进展、关键挑战与未来方向,进一步促进AI驱动药物设计的发展。正如2022年诺贝尔文学奖获得者安妮·埃尔诺(Annie Ernaux)对于文学的期许,我们也希望这些科学进步能够为人类“带来更多的知识与更多的自由”。

文章信息

Yuzhe Wang, Yibo Li, Jiaxiao Chen, and Luhua Lai*. Modeling protein–ligand interactions for drug discovery in the era of deep learning. Chemical Society Reviews 2025, doi: 10.1039/D5CS00415B.


作者:王宇哲
审稿:来鲁华
编辑:王宇哲

GoDesign
ID:Molecular_Design_Lab
( 扫描下方二维码可以订阅哦!)
图片

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/188684