Nat. Comput. Sci. | 单步训练2个分子，主动深度学习远超传统筛选

DRUGAI

今天为大家介绍的是来自埃因霍芬理工大学的Francesca Grisoni团队的一篇论文。深度学习正在加速药物发现。然而，当前的方法通常受到可用数据的限制，主要表现在数据量或分子多样性方面。主动深度学习在低数据药物发现中具有巨大潜力，因为它允许在筛选过程中进行迭代的模型改进。然而，存在一些“已知的未知问题”限制了主动深度学习在药物发现中的广泛应用：(1) 最佳的化学空间探索计算策略是什么；(2) 主动学习与传统的、非迭代的方法相比如何；(3) 在药物发现中典型的低数据情境下应如何使用主动学习。为了解决这些问题，本研究模拟了低数据药物发现场景，并系统性地分析了结合两种深度学习架构的六种主动学习策略，应用于三个大规模分子库中。作者确定了在低数据环境中取得成功的最重要因素，并表明与传统筛选方法相比，主动学习在命中发现方面可以实现多达六倍的提升。

深度学习基于多层神经网络，在药物发现中展现出巨大潜力。其关键应用之一是虚拟筛选，通过对大规模分子库中的候选分子进行筛选。深度学习的主要瓶颈在于需要足够的训练数据，但现有的配体-靶标相互作用数据常常在数量和多样性上有限，影响模型的实用性。此外，商业筛选库的化学结构通常与训练数据不同，导致预测不可靠。

主动学习可以缓解训练数据量和多样性的问题。其核心思想是通过模型自主选择学习数据，以更少的数据获得更高的准确度。在药物发现中，主动学习通过迭代筛选，逐步选择分子进行实验测试，并用新的实验数据更新模型，从而在多次循环中提高模型表现。相比传统的一次性虚拟筛选，主动学习有望使用更少的资源找到更多的活性分子。尽管主动学习在分子领域并非新概念，但许多技术和实际问题仍需解决。深度学习相比传统机器学习具有优势，如迁移学习和分子表示的灵活性。然而，主动深度学习在数据匮乏环境中的表现仍未被充分研究，尤其是在低数据场景下。

本研究系统分析了主动深度学习在低数据药物发现中的表现，着重分析不同深度学习架构、分子获取策略和靶标的影响。研究不仅验证了主动学习的潜力，还提出了在低数据药物发现中的应用建议，助力其推广。

主动学习设置

在本研究中，作者模拟了一个低数据药物发现的场景，用于命中识别。所有实验都遵循相同的设置（图1），即使用主动学习模型迭代查询包含100,000个分子的筛选库，筛选预算最多为1,000个分子。

图 1

每轮主动学习实验从筛选库中随机选择一小组64个分子（步骤0），这些分子至少包含一个生物活性分子。值得注意的是，这一过程使得80%的初始集合包含不到三个命中分子，这反映了一个真实的药物发现场景，例如在寻找具有多样性骨架或改进性质的新型生物活性分子时的情况。主动学习筛选程序包括以下四个迭代步骤：

1. 训练：机器学习模型使用每轮中的所有标记数据进行训练。训练后的模型用于对筛选库中未标记的分子进行生物活性预测。

2. 获取：根据这些预测，选择64个分子进行后续实验，使用预定的六种获取函数之一。

3. 测试：获取的分子被标记为对应的实验生物活性（实验前已知，但不用于模型训练），以模拟湿实验的测试过程。

4. 更新：所有测试过的分子被添加到训练集，进行下一轮迭代（回到步骤1）。

这一四步循环重复进行，直到筛选1,000个分子。获取数量（步骤2）通过初步实验确定，在每轮中作者比较了16、32或64个分子的获取，发现性能上没有显著差异。使用这种设置，作者分析了以下因素对主动学习效果的影响：

初始集合的结构多样性（比较三种多样性水平）；
选定的深度学习方法（两种方法）；
决定选择哪些分子的获取函数（六种获取函数）。

这些系统性分析在三个大规模靶标上进行，每个实验重复十次，并使用不同的随机初始集合，以确保结论的稳健性和普遍性。

大分子靶标的选择

为了模拟依赖于大型筛选库的真实药物筛选实验，作者使用了来自LIT-PCBA的三个高通量筛选数据集，每个数据集对应一个不同的生物靶标。LIT-PCBA数据集不仅旨在模拟典型实验药物筛选中的命中/效力分布，许多数据集的规模也足够大，可以作为“筛选库”来模拟未来的主动学习活动。在此，作者选择了包含最多经过实验验证分子的三个LIT-PCBA数据集，这些数据集涉及临床和治疗上具有重要意义的靶标：

丙酮酸激酶M2（PKM2, 激动剂作用）；
醛脱氢酶1（ALDH1, 抑制剂作用）；
维生素D受体（VDR, 拮抗剂作用）。

对于每个数据集，作者随机提取了100,000个分子，同时保持活性和非活性分子之间的比例。这些分子构建了一个筛选库，后续的训练集和分子选择都从中抽取（表1）。分析活性和非活性分子的结构相似性表明，活性化学类型在数据中没有被过度代表，进一步证明这些数据集适合作为未来的命中发现活动的模拟。额外的20,000个分子被随机选择作为外部测试集，用于性能监控。

结构多样性的层次

为了研究初始分子集合中结构异质性的影响，作者通过聚类方法人为创建了具有不同结构多样性程度的分子子集，每个子集作为初始集合。多样性通过计算扩展连接指纹（ECFPs）上的Tanimoto系数来定义，该系数捕捉分子对之间的共享子结构。通过层次聚类，作者在每个数据集中选择了十个具有中等结构多样性的聚类。在这些聚类中，模型识别出具有较低多样性的子聚类。这提供了三种层次的结构多样性（图1a）：

“固有”多样性（代表整个筛选库的内在多样性）；
中等多样性；
低多样性。

在构建初始集合时，分子可以从每个层次的区域中相应抽取。由于作者的方法是分层的，这使得作者在每个实验的十次重复中，可以在同一分子群体内变化初始集合的结构多样性。

深度学习模型

作者使用了两种深度学习策略来进行生物活性预测。模型分别通过传统的分子描述符或可学习的分子表示进行训练。

1. 神经网络（多层感知机）：该模型从ECFPs形式的分子指纹中学习，这些分子指纹编码了以原子为中心的径向子结构。该方法在分子性质预测上与其他机器学习方法表现相当。

2. 图神经网络：该模型直接从分子图中学习，分子图是分子拓扑结构的直接数值表示，节点和边分别代表原子和化学键。

这两种方法共用同一个多层感知机，分别从分子指纹或多个图卷积层的输出中学习。这使得ECFPs和分子图之间可以直接进行比较。此外，这些方法通过近似贝叶斯建模实现了鲁棒的不确定性估计。两种方法都通过锚定集成实现，这种方法产生的预测后验分布能够接近精确的贝叶斯方法。最后，使用ECFPs训练的随机森林集成模型作为实验的基线对照。

获取函数

获取函数是命中发现的重要组成部分。它决定了哪些分子被选中进行筛选，以及如何扩展训练集，进而影响命中率和未来的迭代过程。本研究调查了六种获取函数，作为下一轮分子选择的策略，并分析了它们对主动学习表现的影响：

1. 分子相似性：选择筛选库中与之前发现的命中分子结构最相似的分子（根据ECFPs的Tanimoto系数）。

2. 开发性获取：选择模型预测最优的分子。

3. 探索性获取：选择预测不确定性最高的分子，目的是填补模型的知识空白。

4. 互信息：基于贝叶斯主动学习中的分歧（BALD），选择互信息最低的分子。互信息低意味着在给定相同模型的情况下，有许多可能的方式以高确定性预测数据。

5. 不重新训练的开发性获取：选择仅基于初始数据集训练的模型所预测的最佳分子。这种方法类似于传统的一次性虚拟筛选，其中一个模型优先筛选整个实验的分子。

6. 随机获取：从筛选库中随机选择分子，该方法作为对照。

主动深度学习的评估

本研究评估了多种因素对主动学习循环中命中富集效果的影响。作者使用富集因子进行量化，富集因子衡量从所有获取的分子中找到的命中数量与随机从筛选库中选择相同数量分子所预期的命中数量之比。富集因子大于1表示该方法比随机选择更能富集命中（值越高越好），而富集因子小于1则表示该方法在命中检索方面的表现不如随机选择。

结构多样性与“先天 vs. 后天”

主动学习过程的初始数据来自目标靶点的可用数据（及其结构多样性），通常对用于训练的分子控制较少或无法控制。在这里，作者测试了初始集合的结构多样性对后续主动学习循环的影响。作者比较了不同程度的结构多样性初始集合：低、多样性适中和筛选库的固有多样性。

图 2

作者发现，初始分子的多样性（即“先天”）对后续获取的分子多样性或命中检索的影响不大（图2），这主要是由于主动学习的选择（即“后天”）。对于大多数方法，最初的结构偏差在前1到5个循环内迅速得到补偿，并逐渐趋向于筛选库的固有多样性水平。无论选择哪种深度学习方法和数据集，这种行为都表现一致。这些结果表明，在多次循环筛选中，初始集合的结构多样性对命中识别影响不大，这进一步展示了迭代训练–测试–更新循环在有效探索化学空间中的作用。

选择获取函数

在主动学习中，选择获取函数是关键，因为它决定了命中分子的分配和反馈信息。如图3所示，多数获取函数在主动深度学习中显著增加了命中数量，获取函数（而非机器学习方法）是命中富集的主要驱动因素。

图 3

开发性获取和基于互信息的获取在神经网络中表现最佳，探索性获取表现最差。随机森林在某些数据集中富集效果甚至超过了深度学习。基于指纹的神经网络在命中富集上优于图神经网络，但后者在某些数据集中预测更准确。主动学习相比一次性筛选可增加2到4倍命中效果，特别是在多次迭代时，基于相似性的获取方法也表现出较高的效果。

化学空间探索

在虚拟筛选中，发现结构新颖的命中分子有助于先导化合物优化并探索未开发的化学空间。作者分析了ALDH1数据集，发现主动深度学习能探索更广泛的化学空间，而传统筛选方法则局限于较窄的区域（图4a-c）。

图 4

不同获取函数影响筛选中命中分子的物理化学特性。尽管基于开发性和互信息的获取函数在命中富集上表现相似，但它们获得的分子特性（如极性表面积和分子量）逐渐分化（图4d, e），表明不同获取函数发现不同化学特性。

作者整理了50个子结构，发现随机和探索性获取在新结构的早期富集上表现最佳，基于相似性的获取最慢。基于互信息的获取发现了最多的新子结构，且主动学习表现出适应性，优先选择相关结构，而非主动学习的方法可能会错误优先选择无关子结构（图4f-k）。

突破低数据主动学习的边界

为了极限测试主动学习在低数据情境下的表现，作者减少了初始训练分子的数量，使用2到64个分子作为随机初始集合，结合基于互信息的最佳获取函数和ECFP或图神经网络。图3显示，基于ECFP的神经网络在命中富集上优于图神经网络，尤其在极低数据情况下。尽管较大的初始集合效果更好，但不同规模之间差异并不显著，这表明即使数据很少，主动学习仍能显著提升命中率。在早期循环中，基于相似性的搜索表现与主动学习相当，但随着后续循环，主动学习逐渐优于相似性搜索，尤其在多次迭代项目中更为有效。

为了进一步测试主动深度学习的极限，作者应用于六个低产量数据集，结果与之前一致，表明主动学习在不同数据集中的广泛适用性。尽管在极低产量的情况下效果有限，但当数据集中有更多可学习内容时，主动学习的表现优于传统筛选方法。

讨论

本研究证实了主动学习在药物发现中的有效性，尤其在低数据情境下，能克服数据集大小、结构偏差和类别不平衡等问题。分子获取方法是性能的主要驱动因素，因此改进获取函数仍有很大空间，特别是那些结合化学特征和模型预测的方法，能够提高命中分子的结构新颖性。本研究采用了贝叶斯近似方法进行不确定性预测，不同的量化不确定性的方法在分子获取中也可能发挥重要作用。尽管本研究是回顾性分析，但其提供的指南有助于推动主动深度学习在未来药物筛选中的应用，并加速向自动化筛选的转变。

编译 | 于洲

审稿 | 王梓旭

参考资料

van Tilborg D, Grisoni F. Traversing chemical space with active deep learning for low-data drug discovery[J]. Nature Computational Science, 2024: 1-11.