IF=12.0，Nature新子刊严选！机器学习+分子对接，1000倍优化成本？！虚拟筛选要崛起了！

欢迎来看雪球讲套路、讲文献！还在用传统方法做分子筛选，与发文的影响因子门槛苦苦搏斗吗？——随着机器学习技术的发展，高效进行分子筛选有了更具象的体现。比如今天这篇由瑞典乌普萨拉大学、美国麻省理工学院等多机构合作的Nature子刊（IF=12.0），把分类算法应用于35亿化合物的超大库筛选中，降低了至少1000倍的计算成本。

😱我记得百种机器学习算法的模型组合也是一种上分套路，但以亿计数做筛选，也太夸张了......！真的可以做吗？

这可是一篇药物研究文章，通过机器学习加速虚拟筛查研发管线（pipeline）。随着合成有机化学的进步，可供药物发现的化合物库规模也越来越大，单纯使用基于结构的对接算法，难以面对数十亿、甚至未来数万亿级别的挖掘。那么，如何兼顾有效的虚拟筛选+计算资源的成本控制呢？让这篇文献帮你找找思路吧。

想get同款思路，加速发文？多手准备？

可添加雪球回复“ 个性化”咨询

Rapid traversal of vast chemical space using machine learning-guided docking screens

利用机器学习引导的对接筛选技术快速遍历广阔的化学空间

期刊：Nature Computational Science

IF：12.0

发布时间：2025/03/13

研究背景

定量构效关系（QSAR）模型：

QSAR 已被制药行业广泛用于预测靶上和脱靶活性，以及物理化学和药代动力学特性。传统的QSAR 模型根据实验数据进行训练，通过机器学习+分子对接筛选的结合，可能以适度的计算成本实现数十亿规模化合物库的虚拟筛选。

基于共性预测（CP）的工作流程：

CP 框架可以应用于任何机器学习分类器，并允许用户控制预测的错误率。这种方法非常适合处理固有不平衡的数据集，例如虚拟筛选应用，但现有的工作流程并未达到评估数十亿规模文库所需级别。研究团队将CP框架与几种最先进的分类算法相结合，开发加速基于结构的虚拟筛选工作流程。

工作效率提升：

最有效的方案确定了超大型化合物库中得分最高的化合物，并将要显式对接的分子数量减少了三个数量级。

技术路线

基准测试和算法选择：

通过对比CatBoost、深度神经网络和RoBERTa三种算法在不同描述符（Morgan2指纹、CDDD和基于RoBERTa的描述符）上的表现，发现CatBoost在Morgan2指纹上表现最佳，具有最高的平均精度和可比的显著性和敏感性值，同时计算资源需求最低。

共形预测框架的优化：

确定最佳的训练集大小，以最小化需要明确对接的化合物数量，同时最大化预测能力。

随着训练集大小的增加，模型的敏感性、精确度和显著性值均有所提高。在100万分子的训练集大小时，模型性能稳定，因此被确定为新模型训练的标准大小。

超大化学库的筛选优化：

进一步优化工作流程，使其能够处理超大数据库，如ZINC15库中的2.35亿化合物。

通过调整显著性水平，可以显著减少需要对接的化合物数量，同时保持高敏感性值。例如，在A2AR和D2R的筛选中，将超大库从2.34亿减少到2500万和1900万化合物，同时保证了高敏感性值（分别为0.87和0.88）。

多目标活性化合物的发现：

探索机器学习方法在发现针对同一疾病相关多个靶点的活性化合物中的潜力，以实现协同治疗效果。

通过机器学习预测和分子对接，成功识别了针对A2AR和D2R的双重靶点配体。在35亿化合物的库中筛选出的化合物中，有31个化合物被选中进行实验验证，其中两个化合物（化合物1和2）显示出对D2R的显著亲和力，并且作为D2R的完全激动剂，具有10μM和14μM的效力值。

实验验证：

通过实验验证机器学习预测的准确性，确认发现的配体与靶点的结合活性。

实验测试了预测的配体与G蛋白偶联受体的结合活性，确认了该方法能够发现具有多靶点活性的化合物，这些化合物可以根据治疗效果进行定制。例如，在D2R的放射性配体结合实验中，化合物1和2显示出对D2R的显著亲和力，其Ki值分别为3.0μM和3.8μM。

研究结果

Supplementary Fig 1 共形预测工作流概述

Fig 2 共形预测因子的基准测试

遵循 CP 框架，训练集和测试集之间的可交换性导致预测误差率和选定的显著性水平之间具有很强的一致性（Fig 2c）。

Fig 3 超大型对接筛选数据的机器学习性能

Fig 3a显示，CP将A2AR 和 D2R 的超大型文库分别从 2.34 亿个减少到 2500 万个和 1900 万个化合物，具有高灵敏度值（分别为0.87和0.88），意味着只需对接~10%的超大型文库即可鉴定出近90%的虚拟活性物质，CP框架保证错误分类化合物百分比不超过12% 和 8%。可以调整显著性水平，以实现实质性的数据库缩减，并为后续的对接步骤保留大多数得分最高的候选者。

评估了 2.34 亿个剩余化合物中仅 3%（A2AR）和 5%（D2R）的分子后，工作流程识别出了 90% 以上的得分最高分子（Fig 3c）。值得注意的是，独立生成的共形预测因子获得了可重复的召回值，这表明随机选择训练集将导致类似的分子选择。Morgan2 指纹的数据降维（统一表层逼近和投影，UMAP）表明，这些优先选择的分子与训练集中的活性物质具有结构相似性（Fig 3d）。对 Tanimoto 相似性的分析也支持这一观点。预测因子置信度较高的分子通常与训练集中的活性物质具有更高的结构相似性（Fig 3e）。

与大规模对接筛选相比，共形预测因子的使用是否会导致优先分子结构多样性的减少？研究团队分析了两种方法中排名前1%的D2R分子，结果表明，使用共形预测器可以鉴定出得分最高的化合物。为了评估其发现实验证实的活性物质的能力，评估了 ChEMBL 数据库中已知的 A2AR 和 D2R 配体。仅根据对接数据训练的模型分别正确地将 92% 和 86% 的配体归类为虚拟活性物质。这凸显了在进行前瞻性虚拟筛选之前，以已知活性物质为基准来验证工作流程的重要性（Fig 3f）。

Fig 4 针对 D2R 的数十亿规模文库的前瞻性虚拟筛选

结果表明用户可以控制数据库减少的程度，甚至可以实现高达 3,500 倍的文库大小减小；研究方案能够通过仅对接数十亿规模库中的一小部分化合物来确定药物发现的起点。

Fig 5 通过筛选数十亿个规模的文库鉴定双靶标配体

筛选数十亿规模的化合物数据库的潜在优势之一是，提高化学空间的覆盖率可以发现具有复杂特性的配体，这在仅包含几百万个分子的较小文库中可能很难找到。一种潜在的应用是设计对与同一疾病相关的多个靶点具有活性的化合物，这可能会导致协同治疗效果。例如，许多中枢神经系统疾病的治疗需要调节多个靶点（多药理学，polypharmacology）。

这种方法的优势可以再具体说说吗？

相比传统阈值法，该方法在控制误差率的同时优化了分子选择，减少无效对接；避免资源浪费，节约计算成本的同时也通过高精度预筛降低了后续湿实验验证化合物数量，实现了效率的极大提升。多靶点药物发现策略，在复杂疾病（如癌症、神经退行性疾病）中尤为重要，可能缩短多靶点药物开发周期，也具有定制化治疗的开发潜力。

工作流程设计不局限于特定靶点或疾病，扩展性极强。

药物研究作为可用于硕博毕业的套路之一，还有多种多样的挖掘空间。可添加雪球老师，回复“1”，等候本周三晚八点直播讲解；或添加后回复“硕博”，获得陪跑至毕业的边学边练边实操，顺利拿成果、拿学位的体验。

方法创新+新药发现，双保险冲击一区10+，这波机器学习红利，你有没有心动呢？关于大模型虚拟筛选助力疾病新靶点发现，今年2月复旦大学郁金泰团队实力发Science，更是为这一套路的权威性、认可度和应用前景打了强心针。想要拼一拼国家级标书/创新型专利/10+权威期刊发表吗？添加雪球，回复“个性化”咨询定制详情吧！

✅立足科研守正创新

✅上下限跨度广

✅适合优化分析/进阶分数段/丰富前期背景等需求

✅涵盖众多实用创新套路

✅量身定制，绝无量产，绝不敷衍

雪球的生信套路每周周中讲解

注意没有星标⭐的话

容易错过更新哦