Nat. Commun. | 基于条件递归神经网络的生成式深度学习发现RIPK1抑制剂

编译｜聂豪
审稿｜张翔

本文介绍由Yueshan Li, Liting Zhang, Yifei Wang, Jun Zou共同在nature communications上发表题为“Generative deep learning enables the discovery of a potent and selective RIPK1 inhibitor”的文章。本文提出了一种基于分布式学习条件递归神经网络 (cRNN)的生成式深度学习 (GDL) 模型，用于为给定的生物靶标生成量身定制的虚拟化合物库，然后将GDL模型应用于RIPK1。

背景

识别在化学结构上与已经上市或正在开发的化合物有显著差异的新起始活性化合物是药物开发早期阶段的关键步骤。该任务主要通过高通量筛选来完成。然而，由于现有化合物库的结构多样性有限，加之各公司和研究所的反复筛选，利用新型骨架检索活性化合物和建立知识产权越来越困难。最近，生成式深度学习 (GDL) 已成为一种很有前途的从头分子设计方法，其中深度神经网络被用作生成模型。

作者提出了一个基于分布学习cRNN的GDL模型，它避免了目标函数的规范，并且可以生成遵循与训练集分子相同的化学分布的新分子。

方法

GDL模型的建立

GDL 模型基于使用长短期记忆 (LSTM) 算法的分布学习 cRNN 架构。分子由 SMILES字符串表示，这些字符串由输入和输出的“one-hot”表示编码。结合特征提取器给出的状态向量作为条件输入，训练 cRNN 模型以无监督学习方式生成遵循给定训练数据的相同化学分布的分子。在训练过程中，训练cRNN以正则化状态向量作为条件输入重构输入SMILES；在生成过程中，推理cRNN用于生成由起始令牌触发的分子，以采样状态向量作为条件输入（图1）。应用了三种策略来增强针对特定目标 (RIPK1) 生成分子的能力：迁移学习、正则化增强和采样增强。

图1 GDL模型架构

为RIPK1和虚拟筛选生成量身定制的虚拟化合物库

去除了包含与已知 RIPK1 抑制剂（目标数据）相同的通用 Murcko 骨架或相同子结构的分子。
根据与类药分子相关的几个重要特性进行类药分子筛选。
进行了基于药效团的虚拟筛选。
使用分子对接对过滤后的分子进行优先排序。

根据基于 RECAP44 的结构相似性和分子特性或对接分数生成了树图 TMAP（图2），从排名靠前的 50 个分子中，8 个分子（RI-056、RI-413、RI-470、RI-539、RI-753、RI-962、RI-985、RI1155）选择合成容易程度相对较高的化合物进行化学合成和生物活性评价

图2 在过滤分子的TMAP中进行进一步的实验验证的分子位置

实验

实验设置

数据集

筛选ZINC12数据库中的化合物用于构建迁移学习的源数据。从ChEMBL57和专利（<10 μM）中检索已知的 RIPK1 抑制剂（生物活性化合物）以形成目标数据。所有这些分子都被编码为 SMILES 字符串，然后删除立体化学信息、盐和重复项来规范化和标准化。最终获得了一组约 1600 万个分子作为源数据和 1030 个生物活性分子作为目标数据。

评估指标

使用源数据中的100,000个分子和目标数据中的1000个分子作为子集，用重建率评估了使用六种训练方法训练的模型的性能：

(1) 对源数据进行训练；

(2) 对目标数据进行训练；

(3) 对源数据和目标数据进行迁移学习训练；

(4) 对源数据进行正则化增强训练；

(5) 对目标数据进行正则化增强训练；

(6) 对源数据和目标数据进行迁移学习和正则化增强训练。

使用来自源数据或目标数据的 100 个分子，用生成率评估了使用四种具有合格重建能力训练方法训练的模型的性能：

(1) 对源数据进行训练；

(2) 对源数据和目标数据进行迁移学习训练；

(3) 对源数据进行正则化增强训练；

(4) 对源数据和目标数据进行迁移学习和正则化增强训练。

实验结果

通过源数据和目标数据的平衡重建（图 3c）和生成性能（图 3d）评估的泛化能力得到显着提高。仅在目标数据上训练的模型在重建任务上表现较差（图 3c），说明了迁移学习的重要性。结果表明 GDL 模型受益于正则化增强：增强模型在生成能力方面优于其他基线方法，同时保持相似的重建性能（图3c，d）。

图3 不同模型的重建性能(c)和生成性能(d)

应用GDL模型为RIPK1构建了一个量身定制的虚拟化合物库。如图4a所示，从生成的数据（蓝色）中采样的分子在迁移学习后从源数据（红色）转移到目标数据（紫色），表明迁移学习对于从源数据到目标数据在化学空间中导航的有效性。此外，生成的分子在物理化学性质方面与活性化合物（目标数据）基本相似（图 4b）。基于相对骨架多样性的分析，生成的数据 (26.4%) 优于源数据 (1.2%) 和目标数据 (14.1%)，尽管数量源数据 (193,982) 中的 Murcko 骨架比生成数据 (20,924) 中的大得多（图4c）。值得注意的是，生成数据中 99.8% 和 99.7% 的骨架分别不同于源数据和目标数据中的骨架，证明了我们的模型生成额外骨架的强大能力（图4c）。此外，就骨架多样性而言，生成的数据明显优于目标数据并接近源数据（图4d）。

图4 使用GDL生成针对RIPK1的虚拟化合物库

结论

GDL模型已成功应用于建立针对 RIPK1 的虚拟化合物库。与已知的 RIPK1 抑制剂相比，生成的文库富含更多新的骨架分子。一方面，这个应用实例验证了作者的GDL模型的有效性。尽管 RIPK1 是一种激酶，但作者的 GDL 模型可以应用于不同种类的生物靶标。另一方面，该应用示例导致鉴定出具有先前未报道的骨架的强效 RIPK1 抑制剂 (RI-962)。值得注意的是，RI-962 对其他 407 激酶表现出高选择性。它还在体外和体内显示出强大的活性。即便如此，该化合物仍有一些不利的特性需要在未来进一步优化，例如口服生物利用度低。这种情况是可以理解的，因为GDL模型不是万能的，我们不应该抱有奢望直接通过该模型生成候选药物。总的来说，作者通过使用他们提出的GDL模型发现了一种具有先前未报道的骨架的先导化合物来对抗 RIPK1，见证了深度神经网络在早期药物发现中的成功应用。

参考资料

Li, Y., Zhang, L., Wang, Y. et al. Generative deep learning enables the discovery of a potent and selective RIPK1 inhibitor. Nat Commun 13, 6891 (2022).

https://doi.org/10.1038/s41467-022-34692-w