Nat Comput Sci｜利用机器学习指导的对接筛选快速遍历巨大化学空间

按需定制化学库的快速增长为通过虚拟筛选发现药物研发的起点提供了前所未有的机会。然而，即使是基于结构的最快对接方法，面对这种数十亿规模的化合物库，筛选仍具有挑战性。

2025年3月13日，Nature Computational Science上发表文章Rapid traversal of vast chemical space using machine learning-guided docking screens，探索了一种结合机器学习与分子对接的策略，用于快速虚拟筛选包含数十亿化合物的数据库。

在作者的流程中，通过将100万个化合物与靶蛋白进行分子对接，训练分类算法以识别高评分化合物。随后，预测框架被用来从数十亿规模的化合物库中筛选，减少需通过对接评分的化合物数量。CatBoost分类器在速度与准确性之间展现了最佳平衡，并被用于优化超大规模化合物库的筛选流程。应用该流程对35亿化合物库的测试表明，该方案可将基于结构的虚拟筛选计算成本降低超过1,000倍。实验验证发现了G蛋白偶联受体的配体，并证明该方法能发现针对治疗效果定制的多靶点活性化合物。

据估计，潜在类药分子的数量超过10⁶⁰，远超早期药物研发中化学库的规模。目前，化学供应商仅能提供约1300万化合物，这显然揭示了化学空间覆盖的局限性。合成有机化学的进步推动了化合物库的快速扩张，当前按需定制库已包含超过700亿易获取分子。这些库中多样的分子骨架为药物发现提供了重要机遇，但在如此巨大的化学空间中识别特定靶点的相关化合物仍是重大挑战。

近期，基于结构的超大规模库虚拟筛选已成功识别重要治疗靶点的配体，表明扩大化学空间覆盖可加速早期药物研发。最新发表的对接筛选已覆盖数十亿化合物，但评估这些庞大库需要大量计算资源。按需定制数据库的规模还将持续增长，未来可能达到万亿级，即使使用最快的对接算法也难以完成筛选。因此，亟需更高效的虚拟筛选方法以应对这些巨型化学库。

人工智能的突破重新激发了定量构效关系（QSAR）模型在药物发现中的应用兴趣。QSAR已被制药业广泛用于预测靶向/非靶向活性及理化与药代动力学性质。通过分子描述符表征化合物，机器学习方法可快速评估大型化合物库。传统QSAR模型依赖实验数据训练，但目前更多研究关注如何预测按需定制库中可能通过高成本虚拟筛选获得高评分的化合物。机器学习与分子对接的结合，有望以较低计算成本实现数十亿级化合物库的虚拟筛选。

本研究开发了一种基于保形预测（CP）的超高效流程，用于筛选巨型化学库。CP框架适用于任何机器学习分类器，允许用户控制预测错误率。Mondrian预测器提供类别特异性置信度，确保对多数类和少数类的有效性，因此特别适合处理虚拟筛选中的不平衡数据集（例如从库中识别极少数高评分化合物）。该框架已用于预测药代动力学性质和生物活性。虽然基于CP提升筛选效率的策略已有探索，但其效率仍不足以应对数十亿级库。梯度提升、深度神经网络和Transformer等新技术在早期药物研发中的成功应用，推动我们将CP框架与前沿分类算法结合，开发加速基于结构的虚拟筛选流程。

本研究提出的高效方案可从超大规模库中识别高评分化合物，并将需显式对接的分子数量减少三个数量级。研究表明，机器学习指导的数十亿级化合物库对接筛选能高效发现靶向G蛋白偶联受体（最重要药物靶标家族之一）的配体。尤其值得关注的是，该流程可针对多个靶点筛选数十亿化合物，以发现对同一疾病相关多靶点具有活性的配体。

结果

作者开发了一种结合保形预测（CP）与分子对接的方法，用于超大规模化合物库的虚拟筛选。该方法开发过程中，首先针对八个蛋白质靶标进行了基准对接筛选，所得数据集用于算法和分子描述符的优选。第二步对方法进行优化，使其适用于数十亿规模化合物库的虚拟筛选，并应用于预测A_2A腺苷受体（A_2AR）和D₂多巴胺受体（D₂R）的配体。

图1 机器学习加速虚拟筛查工作流程

预测器的基准测试

针对八个治疗相关蛋白质的分子对接筛选用于评估CP工作流程性能。作者从Enamine REAL化合物库中选取1,100万个随机抽样的符合"四规则"（分子量<400 Da且cLogP<4）的分子进行对接筛选，共预测超过493万亿个蛋白质-配体复合物，最终获得8,800万个独特复合物及其对接评分作为基准数据集。每个靶标的化合物结构及对接评分被划分为训练集（10⁶个化合物）和测试集（10⁷个化合物），活性类（少数类）的能量阈值基于各筛选前1%的高分化合物确定。

不同机器学习算法的性能评估

本研究评估了CatBoost、深度神经网络和RoBERTa三种算法在分子表征中的应用。采用Morgan指纹、连续数据驱动描述符（CDDD）和基于RoBERTa的transformer描述符三种特征类型进行训练。使用100万分子训练五个分类器（80%训练，20%校准），在1,000万化合物测试集上通过中位聚合获得标准化P值，基于Mondrian预测框架将化合物分类为活性/非活性/双标签/未分类四类。性能评估显示预测错误率与显著性水平强相关，训练集达100万时各指标（灵敏度、精密度等）趋于稳定。最终选定基于Morgan指纹的CatBoost分类器构建预测器，其在精密度、显著性水平和计算效率上表现最优。该研究为虚拟筛选提供了高效可靠的机器学习解决方案，在分子活性预测领域具有重要应用价值。

针对超大型化学库的优化工作流程

本研究提出一种基于共形预测的高效超大规模虚拟筛选策略，用于优化ZINC15化学库（2.35亿化合物）的分子对接流程。针对A_2AR和D₂R靶点，采用Morgan2分子表征训练CatBoost分类器，通过调整显著性水平ε控制虚拟活性集规模。当ε设为最优值（A_2AR:0.12；D₂R:0.08）时，库规模缩减至原始10%（2500万/1900万），保持87-88%灵敏度并确保错误率≤12%/8%。进一步降低ε至0.01可使库规模减至300万/260万，同时显著富集高对接分数分子（如D₂R从-23.8提升至-50.9 kcal/mol），仍能捕获80%/64%的顶级候选分子。

引入信息质量排序策略后，仅筛选3-5%的剩余化合物即可识别>90%高评分分子。UMAP分析显示优先分子与训练集活性化合物结构相似性较高，但共形预测筛选的D₂R前1%分子Bemis-Murcko骨架多样性低于直接对接（13% VS 23%）。模型验证显示对ChEMBL已知配体分类准确率达92%（A_2AR）和86%（D₂R）。该方法通过动态调节预测置信度，实现超大规模库高效筛选，为数十亿级数据库处理提供可行解决方案。

图2 超大对接筛选数据的机器学习性能

数十亿规模化合物库的潜在虚拟筛选

该工作流程通过机器学习将350亿化合物库缩减至可评估规模，针对A_2AR和D ₂R靶点筛选高潜力分子。核心步骤包括：1）训练集分子对接生成数据；2）构建共形预测模型；3）靶点预测筛选。模型在2500核心小时内完成单靶点35亿化合物预测，显著性水平0.005下分别筛选出2500万（A_2AR）和2400万（D₂R）虚拟活性化合物。依据信息质量，每个靶点优先选择500万化合物（缩减700倍）进行对接计算，耗时10344核心小时，整体成本较全库显式对接降低568倍。

优先化合物的对接得分显著优于常规筛选：D₂R最密集区间由-25.1 kcal/mol移至-51.6 kcal/mol，49%化合物超越活性阈值-49.7 kcal/mol（富集49倍）。仅筛选100万化合物仍保持类似能量分布，验证用户可通过该流程灵活缩减库规模达3500倍。

实验验证中，从D₂R前31名候选分子中发现化合物1和2具有显著配体置换活性（K_i=3.0μM和3.8μM），并在功能实验中证实为D₂R完全激动剂，EC₅₀分别为10μM和14μM（E_max≈100%）。该方案成功从极少量对接样本（3500万分子中筛选0.002%）锁定药物开发起点，证明机器学习预筛与靶向对接的协同效能，为超大规模虚拟筛选提供了高效解决方案。

机器学习引导的多药理学设计

本研究建立了整合数十亿化合物库与机器学习优先排序的多靶点药物虚拟筛选平台。针对帕金森病治疗需求，重点筛选同时作用于腺苷A_2A受体（A_2AR拮抗）和多巴胺D₂受体（D₂R激动）的双靶点配体。基于D₂R活性态结构（PDB:7CMV）与A_2AR拮抗态晶体结构（PDB:8GNE）优化对接模型后，首轮随机对接100万分子实验显示，仅0.02%化合物同时进入双靶点前1%候选，凸显传统筛选局限性。

通过共形预测器构建机器学习优先策略，基于活性概率差值（P_A2AR,1–P_A2AR,0 + P_D2R,1–P_D2R,0）对30亿化合物智能筛选，获得500万优先分子进行二次对接。该方法显著提升对接效能：A_2AR和D₂R有利能量分布分别优化17倍和34倍，双靶点候选富集度达191倍。3.8%分子同步突破双靶点阈值，远超基线水平。结构验证发现，排名前位分子能与A_2AR的关键残基Asn253^6.55和D₂R的Asp114^3.32形成特异性氢键。

从45种合成候选化合物中，化合物5表现出双靶点结合活性（K_i,A2A≈20μM，K_i,D2R=14μM），其结合模式与计算预测一致。该研究证明，通过大规模化学空间探索与机器学习协同筛选，可有效突破多靶点药物开发的技术壁垒，为复杂疾病治疗提供高效研发范式。

图3 通过筛选数十亿规模的文库鉴定双靶配体

讨论

本研究基于保形预测（CP）框架开发了一种高效虚拟筛选方法，可处理数十亿级化学库的探索。相较于传统分子对接和分层策略（如V-SYNTHES的合成子预筛选，该方法通过误差可控的置信度评估实现低成本预筛选。利用类别特异性置信度优化分子选择，在保持召回率的同时，将传统指纹的数据需求降低至与新型描述符相当水平。开发的轻量级工作流程对八种靶标构建开放基准集，揭示机器学习筛选效能具有靶标特异性。

该方法未来可整合多任务预测器，实现选择性、药代性质等多目标设计。开发者开源了兼容主流对接平台的流程工具，为领域发展提供基础设施。研究表明，CP引导的智能筛选举措可突破传统对接规模瓶颈，加速从万亿化学空间中发掘创新药物。

参考资料：

Luttens, A., Cabeza de Vaca, I., Sparring, L. et al. Rapid traversal of vast chemical space using machine learning-guided docking screens. Nat Comput Sci (2025).

https://doi.org/10.1038/s43588-025-00777-x

--------- End ---------

感兴趣的读者，可以添加小邦微信加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位或姓名-学校-职务/研究方向。