Nat Biotechnol｜基于深度学习的抗菌化合物虚拟筛选

2025年10月24日，Nature biotechnology上发表论文：“Deep-learning-based virtual screening of antibacterial compounds“。

多重耐药细菌的增多凸显了对更多抗生素的迫切需求。在此，本文将小分子高通量筛选与基于深度学习的虚拟筛选方法相结合，以发现新的抗菌化合物。本文针对致敏大肠杆菌菌株筛选了约200万个小分子，获得了数千个匹配结果。本文利用这些数据训练深度学习模型GNEprop来预测抗菌活性，并回顾性地验证了该模型在分布外泛化和活性断崖预测方面的稳健性。对超过14亿个可合成的化合物进行虚拟筛选，鉴定出潜在的候选化合物，其中82个化合物对同一菌株表现出抗菌活性，这意味着与用于训练的高通量筛选实验相比，匹配率提高了90倍。许多新鉴定的化合物与已知抗生素表现出高度的差异性，其效力超越了训练菌株，并且具有选择性。生物学表征确定了特定的、经过验证的靶点，为进一步探索抗生素的发现指明了有希望的途径。

1 背景

在医学进步的辉煌史诗中，抗生素的发现无疑是最壮丽的篇章之一。然而，曾几何时，这一领域陷入了长达数十年的"发现空白期"。世界卫生组织的数据令人警醒：每年有至少127万人直接死于抗生素耐药性感染。尤其对于革兰氏阴性菌，临床实践中已有超过半个世纪未见全新抗生素类别问世。

传统抗生素发现主要依赖几种经典策略：小分子库的高通量筛选、天然产物挖掘、生物制剂（如抗菌肽）的定向进化，以及后续的医学化学优化活动。然而，这些传统方法都面临着难以逾越的障碍。

即使是规模最大的实验筛选，也只能覆盖约10^6-10^7个分子，而这仅仅是估计包含10^60个类药化合物的化学空间中的沧海一粟。结果往往是，投入巨大的筛选活动仅能获得寥寥数个有前景的候选分子，投入产出比极低。

更深层的问题在于，许多化合物库化学多样性有限，往往偏向于化学空间的某些特定区域，如已知抗生素、天然产物或过去的药物发现活动。这种偏向性使得识别具有新作用机制的结构独特化合物变得异常困难。

近年来，已有研究展示了人工智能在抗生素发现中的潜力。Stokes等人使用图神经网络预测大肠杆菌的抗菌活性，发现了halicin——一种最初针对糖尿病的化合物。Liu等人采用类似策略，发现了针对鲍曼不动杆菌的窄谱抗菌化合物。Swanson等人提出了生成方法来确定抑制鲍曼不动杆菌生长的分子。Wong最近证明了具有可解释性管道的图神经网络模型在抗甲氧西林敏感金黄色葡萄球菌中的有效性。

然而，这些研究仍存在明显局限。首先，现有研究报道的抗菌化合物数量有限，部分原因是虚拟筛选通常产生较低的命中率。其次，或许最重要的是，挑战在于发现与已知抗菌分子显著不同的命中化合物。

正是在这一背景下，Genentech和合作团队在Nature biotechnology上发表了突破性研究。他们成功将小分子表型高通量筛选与基于深度学习的虚拟筛选方法相结合，开辟了抗生素发现的新路径。

这项研究的创新之处在于其规模和策略的全面性。研究人员筛选了近200万个小分子，针对的是敏感化的大肠杆菌菌株，获得了数千个活性化合物。这些数据被用于训练深度学习模型GNEprop，该模型不仅能够预测抗菌活性，还表现出出色的分布外泛化能力和活性悬崖预测能力。

这一突破性研究不仅展示了AI在抗生素发现中的巨大潜力，更为我们应对日益严峻的抗生素耐药性危机提供了新的希望。随着深度学习技术的不断进步和化学空间的进一步探索，我们或许正站在抗生素发现新黄金时代的门槛上。

2 模型框架

GNEprop是一个专门设计用于预测抗菌活性的图神经网络（GNN）模型。模型以分子结构图为输入，采用图同构网络（GIN）提取特征，结合自监督预训练（基于 1.22 亿个未标记化合物）提升泛化能力，可有效处理 “分布外”化学结构（与训练集差异大的分子）并预测活性悬崖。

研究团队还探索了GNEprop在新作用机制（MoA）识别方面的潜力。通过在有监督表示空间中对已知抗生素进行聚类，他们开发了基于马氏距离的OOD检测管道，用于识别可能具有新颖作用机制的化合物。

这一创新方法虽然仍处于探索阶段，但为大规模虚拟筛选不同机制奠定了基础，预示着AI在抗生素发现中更深入的应用前景。

GNEprop模型框架的成功，不仅在于其技术创新的深度和广度，更在于它将理论与实践完美结合，为抗生素发现领域树立了新的标杆。这个多组件、多策略的智能系统，真正实现了从海量化学空间到高效命中发现的精准映射。

3 结果

3.1 超大规模虚拟筛选：90倍命中率提升与化学多样性突破

研究团队首先进行了规模空前的表型高通量筛选（HTS），使用了包含1,981,993个小分子化合物的文库。这个HTS的规模远超此前文献中报道的用于训练机器学习模型的数据集。

筛选使用5μM单点浓度对大肠杆菌ΔtolC进行表型检测，该菌株缺乏多个外排系统共有的外膜通道。选择这种敏感化菌株是为了增加模型可用的抗菌化合物数量。最终鉴定出5,161个抗菌（或活性）化合物，命中率为0.26%。

3.1.1 虚拟筛选的惊人成效

利用完整的HTS数据集训练GNEprop后，研究团队对Enamine REAL数据库中的14亿个合成可及化合物进行了虚拟筛选。这项工作在64个A100 GPU上扩展GNEprop，在不到48小时内完成了所有重复的筛选。

结果令人震惊：预测得分大于0.6的化合物被标记为"虚拟命中点"，共获得44,437个候选化合物。这些候选物与HTS活性化合物和已知抗生素的最大结构相似性分布覆盖了广泛的范围，与HTS活性化合物的相似性低至0.21，与已知抗生素的相似性低至0.11。

3.1.2 命中率的质的飞跃

虚拟命中点经过进一步处理，通过聚类和过滤最终选择345个分子进行合成和实验验证。对这些化合物进行抑制大肠杆菌ΔtolC活性的检测时，发现345个化合物中有82个具有活性（即达到至少80%的生长抑制），对应23.8%的命中率。

与初始HTS的0.26%命中率相比，深度学习方法的命中率提高了约90倍。虽然承认两个活动之间的实验设计存在差异，这一结果代表了成功识别初始命中点的实用性和可行性的显著进步。

3.2 生物学特性验证：活性化合物的全面表征

研究团队对鉴定出的化合物进行了全面的生物学特性验证，包括剂量反应分析、最小抑制浓度（MIC）测定以及选择性评估。

3.2.1 剂量反应分析的深入洞察

选择了165个化合物进行初始剂量反应分析以确定IC₅₀值。这个集合包含的化合物数量超过了我们最初定义为活性（>80%抑制）的化合物，包括所有对大肠杆菌ΔtolC抑制>50%的化合物（138个化合物），以及活性较低的额外化合物，以确保捕获所有可能感兴趣的活性化合物。

结果显示，对大肠杆菌ΔtolC的IC₅₀值范围从<1μM到>40μM，95%（157个）的化合物报告的对大肠杆菌ΔtolC的IC₅₀值低于20μM。同时还测量了对野生型MG1655大肠杆菌和金黄色葡萄球菌USA300的IC₅₀值。

特别值得注意的是，尽管这些化合物的选择完全基于在大肠杆菌ΔtolC活性上训练的模型，但部分鉴定出的化合物对野生型菌株表现出活性。研究人员鉴定出39个化合物（对应测试化合物的23.6%），其野生型大肠杆菌IC₅₀低于40μM。

3.2.2 MIC测定的严格验证

为了进行更严格和通用的抗生素活性测试，研究人员进行了MIC测定。从剂量反应数据中选择了26个化合物，选择标准包括：大肠杆菌ΔtolC IC₅₀<5μM且对金黄色葡萄球菌的选择性超过三倍（表明可能对革兰氏阴性菌有特异性）；对大肠杆菌ΔtolC的最高活性（IC₅₀<0.35μM）；以及对野生型大肠杆菌的抑制活性（IC₅₀<10μM）。

在对大肠杆菌ΔtolC测试的22个化合物中，MIC范围从0.3到40μM。这表明使用GNEprop预测能够快速鉴定出具有全细胞MIC的额外化合物。

3.2.3 选择性和安全性评估

研究人员还评估了这些化合物的选择性和安全性。同样的26个活性化合物也测试了对金黄色葡萄球菌（一种革兰氏阳性菌）的MIC，发现58%（15个化合物）的特征化命中点对大肠杆菌ΔtolC突变体和金黄色葡萄球菌均表现出MIC。

这种广谱活性并非由于化合物的一般溶解特性，因为它们在红细胞溶血试验中未显示活性，并且在50μM浓度（高于MIC值）下未发现渗透A549细胞。这表明GNEprop能够识别既具有革兰氏阴性特异性又具有潜在广谱抗菌活性的靶标。

3.3 最近邻探索：发现野生型MIC活性化合物

第二组锚点的一个共同特征是存在硝基噻吩 motif。在29个来自集合2的化合物中，所有化合物均具有可测量的大肠杆菌ΔtolC IC₅₀值，93%保持或改善了与锚点相比的效力，并且大量化合物实现了对大肠杆菌ΔtolC和金黄色葡萄球菌≥2倍改进的IC₅₀（分别为31%和24%）。

特别值得注意的是，即使没有任何锚点化合物对野生型大肠杆菌具有MIC（所有>40μM），集合2中的三个最近邻化合物表现出野生型MIC，其中两个报告值为10μM和20μM，且未检测到RBC溶解。

通过最近邻分析，研究人员发现了一些化合物在保持或改善抗菌效力的同时，还表现出更好的选择性特征。例如，某些化合物在对大肠杆菌ΔtolC的活性和对金黄色葡萄球菌的活性之间显示出良好的平衡，这表明它们可能具有更窄的谱系特异性，这对于减少对正常菌群的影响非常重要。

3.4 细胞膜屏障与作用机制表征的创新突破

研究团队还探索了管道扩展，以直接模拟克服包膜渗透性并帮助早期识别命中点的不同作用机制。

3.4.1 细胞膜渗透性建模

为了研究分别建模渗透性的能力，研究人员对3,074个先前鉴定的大肠杆菌ΔtolC抗菌化合物（基于化合物可用性）进行了重新筛选，针对野生型大肠杆菌菌株，发现了306个双重活性（标记为"细胞穿透"）和2,768个仅ΔtolC活性（标记为"抑制"）化合物。

虽然缺乏主要筛选的活性和多样性，他们利用这个数据集评估了GNEprop区分克服渗透屏障的抗菌化合物的能力。使用三个标签（无活性、抑制和细胞穿透）重新训练GNEprop保持了预测能力。然而，在细胞穿透化合物中，只有约50%的预测活性被正确分类为细胞穿透化合物，可能是由于稀疏正例和化学空间重叠。

3.4.2 作用机制的新颖性评估

研究团队还调查了GNEprop帮助早期识别潜在不同作用机制的能力。基于深度学习的新颖分布外检测方法的最新进展，他们探索了一个可扩展的管道，用于预测一个分子是否可能表现出与一组已知抗生素不同的作用机制。

他们利用这样一个观察结果：自监督分子表示将已知抗生素划分为不同的靶标区域。因此，他们假设嵌入远离任何已知靶标（"异常值"）的抗菌分子更可能表现出不同的作用机制。

为此，他们在已知靶标上拟合了类条件高斯分布，以基于马氏距离估计分布外得分。回顾性地，尽管数据集极其有限（<200个分子），这种方法经常在测试分子中优先区分不同的机制，使用自监督表示的性能优于或匹配相同大小的指纹，对不同的靶标产生显著不同的得分，并突出了利用靶标分布的优势。

3.4.3 靶标鉴定的成功案例

研究人员对两个化合物N9777和N9786进行了深入分析，这两个化合物对革兰氏阴性菌表现出选择性谱系，对大肠杆菌ΔtolC的MIC分别为0.313μM和10μM，对革兰氏阳性金黄色葡萄球菌的MIC>40μM，且不溶解红细胞或在膜破坏试验中未发现活性。

通过选择对N9777和N9786的自发耐药突变体，并进行全基因组测序，研究人员成功鉴定了这些化合物的分子靶标。对于N9777，在两个独立克隆中发现了lpxH基因中的两个不同突变，该基因编码脂多糖（LPS）生物合成途径中的一种必需酶。对于N9786，在fabZ和acpP中发现了六个不同的突变，这两个基因编码在脂肪酸生物合成中具有作用的酶。

这些发现证实了通过虚拟筛选发现的抗菌分子能够识别革兰氏阴性菌中特定的、经过验证的靶标。

4 总结

本研究通过整合大规模高通量筛选与深度学习虚拟筛选，成功开辟了抗生素发现的新范式。GNEprop模型在14亿合成可及化合物中筛选出44,000个潜在候选分子，实验验证82个具有抗菌活性，实现23.8%的命中率——较传统筛选提升90倍。更重要的是，这些化合物中三分之一与训练集相似度低于0.4，绝大多数与已知抗生素结构迥异，真正实现了化学多样性的突破。

生物学表征证实了这些化合物的抗菌活性和选择性：剂量反应分析显示IC₅₀值低至<1μM，MIC测定验证了对大肠杆菌ΔtolC和金黄色葡萄球菌的抑制能力，且无红细胞溶血或细胞膜破坏效应。靶标鉴定发现LpxH、FabZ等革兰氏阴性菌特异性靶点，为后续优化提供明确方向。

研究的创新性体现在多个维度：首先，自监督预训练与对抗性增强使模型具备卓越的分布外泛化能力；其次，可解释性管道揭示关键药效团，支持理性药物设计；最后，最近邻探索发现野生型MIC活性化合物，证明模型引导的化学空间拓展能力。

然而，研究仍存在局限：使用敏感化菌株E.coliΔtolC可能高估野生型活性，未来需直接针对野生型菌株优化模型。此外，作用机制表征尚处探索阶段，需要更多高吞吐量功能数据支持。

展望未来，这项研究为抗生素发现树立了新标杆。深度学习与实验科学的深度融合将加速新药发现进程，而跨学科合作有望解决耐药性危机。随着技术迭代和数据积累，AI驱动发现有望扩展到多靶点、多模态领域，最终实现个性化抗菌治疗时代的到来。

原文：

https://www.nature.com/articles/s41587-025-02814-6

本文转自【Al in Graph】公众号

--------- End ---------

感兴趣的读者，可以添加小邦微信加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位或姓名-学校-职务/研究方向。