Nat. Chem. | 利用高通量实验和几何深度学习实现药物后期多样化

今天为大家介绍的是来自David B. Konrad , Uwe Grether , Rainer E. Martin & Gisbert Schneider团队的一篇论文。物候选物的后期功能化是一种经济有效的优化方法，但药物分子的化学复杂性常常使得这一阶段的多样化变得具有挑战性。为了解决这个问题，研究团队开发了一个平台。平台以硼化作为药物后期功能化的关键步骤，运用计算模型预测了在多种反应条件下的产率，平均绝对误差在4-5%之间。

在药物化学中，建立结构-活性关系对于指导从初步发现（hit）到候选药物（lead）的优化过程至关重要，这个过程旨在改善药物候选物的药理活性和理化性质。在这个过程中，快速合成是重中之重，因为合成是设计-制造-测试-分析循环的瓶颈。一些合成方法，如C–H键的选择性激活和改造，使得有机框架的后期功能化成为可能，这包括从分子构建块到高级药物分子。后期功能化方法在药物化学中的应用包括氟化、胺化、芳基化、甲基化、三氟甲基化、硼化、酰化和氧化等。其中，C–H硼化被认为是快速化合物多样化最为多用途的方法。有机硼类可以转化为一系列功能团，并作为随后C–C键偶联的稳定把手，从而支持广泛的结构-活性关系研究（图1a）。

图 1

然而，到目前为止，药物发现中应用后期功能化的例子很少。这些罕见的例子大多数专注于单一的后期功能化反应类型。多种功能团和不同类型的C–H键的复杂情况为直接后期功能化带来挑战，因此，对反应性和选择性的一般指导原则应谨慎应用。进行成功的后期功能化活动通常需要耗时和资源密集型的实验，这与许多药物化学项目的紧迫时间需求和有限资源不相符。

高通量实验（HTE）是一种半自动化、小规模、低体积的筛选方法，能够快速、可重复地同时进行多个转换。结合FAIR（可发现性、可访问性、互操作性、可重用性）文档化，产生成功和失败反应的高质量数据集，高通量实验为利用高级数据分析和机器学习来解锁药物发现中的后期功能化提供了基础。图神经网络（GNN）在分子特征提取和性质预测方面有广泛应用。在化学反应规划的机器学习方法中，GNN已成功用于逆合成规划、区位选择性预测和反应产物预测。

此项工作中，作者介绍了一种应用于自动化后期功能化硼化筛选的几何深度学习方法，用于识别后期阶段的潜在药物和候选药物的多样化可能（图1b）。深度学习被用于预测复杂药物分子的期功能化反应结果、产率等。研究团队的第一步是对已发表的文献进行全面分析，为选择适合高通量实验筛选的反应条件和反映药物发现中后期候选药物性质的相关底物提供理由。基于38篇选定的出版物（文献数据集），从手工策划的文献数据中选择反应条件。基于对1174种批准药物的聚类分析，选择了后期功能化底物，得到23种结构多样的药物分子。研究的第二步，使用半自动化高通量实验进行数据生成（实验数据集）。为选定的药物分子和反应条件提供的反应数据，为后续的机器学习反应结果提供了高质量的数据。最后，不同的图网络在二维、三维等分子图上进行了训练，以预测二元（是/否）反应结果等。

高通量实验

图 2

使用高通量实验设备（HTE）和液相色谱-质谱分析（LCMS），研究人员筛选了23种药物化合物和12种药物样片段（图2）。这些被选中的化合物和片段统称为后期功能化库。除了此库，还筛选了一小部分经常出现在文献中的五种底物，应用了硼化条件。总共获得了包含956个反应的条件和结果的数据集。通过LCMS测量和数据分析，研究人员能够确定（1）二元（是/否）反应结果，即条件与单个底物结合是否产生了期望的单硼化或双硼化产品，以及（2）反应产率，提供有关期望反应产物量的信息。最终分析生成了一个包含二元反应结果、反应产率和区位选择性信息的高质量实验数据集，作为几何深度学习平台的基础。

深度学习平台

表格 1

作者的几何深度学习平台包括一系列不同的图神经网络（GNN），这些网络被定制用来学习三个目标：二元反应结果、反应产率和区位选择性。研究调查了三种不同的模型架构，并为每种架构评估了四种不同的分子图表示方法。对于反应任务（二元反应结果和反应产率），研究了两种网络架构：使用总和（global sum）池化的GNN和使用基于图多transformer池化的图变换神经网络（GTNN）。对于区位选择性，采用了一种原子级GNN（aGNN），它直接从原子特征中学习。为了量化立体（3D）和电子（量子力学（QM））效应的影响，输入的分子图被赋予了3D和QM增强信息，从而为每个神经网络生成了四种不同的分子图：2D、3D、2DQM和3DQM。这些不同的组合共产生了针对每个反应任务（二元反应结果和反应产率）的八种不同GNN，以及针对区位选择性的四种（表1）。对于反应任务，使用了ECFP指纹作为基线神经网络进行研究。

实验结果

图 3

作者总共采用了八种不同的图神经网络（GNN）以及一个基线方法（ECFP4NN），它们被优化用来预测反应产率和二元反应结果。研究了这些网络预测反应产率的性能，并在随机分割的数据集上进行了学习，用于结合新条件对已知底物的反应产率进行预测。图3a展示了性能最好的神经网络GTNN3DQM的预测散点图。图3d（左）展示了此任务的九种不同神经网络的比较。四个GTNN的准确率显著高于ECFP4NN基线和四个GNN。对于反应产率预测，原子电荷以及3D信息并没有影响GTNN或GNN的性能。

如果反应条件与选定的底物反应产生了可以通过LCMS确认的单硼化或双硼化产品，并且转化率≥1%，则二元反应结果被视为“成功”；如果所需的转化在LCMS中无迹可寻，则被视为“不成功”。对于在二元反应结果上训练的机器学习模型，作者研究了两种不同的数据集分割：（1）随机分割，用于研究对已知底物的新条件的性能；以及（2）基于底物的分割，用于研究对未知底物的不同条件的性能。首先，对随机数据分割评估了二元反应结果预测。图3d（中左）展示了为此任务开发的九种不同神经网络的比较。与反应产率预测一样，可以看出相似的趋势；即，GTNN略微优于ECFP4NN模型和GNN模型。图3b展示了≥1%二元阈值预测的混淆矩阵。此外，还对基于底物的数据分割评估了二元反应结果预测对于23种未见过的药物中的20种，GTNN3DQM的准确性超过了50%；对于16种，则准确性超过了80%。图3d（中右）展示了为此任务的九种不同神经网络的比较，表明在3D图上训练的GNN性能优于ECFP4NN以及在2D图上训练的GNN和GTNN。图3e展示了三种药物和三个片段，GTNN3DQM预测这些未知底物将产生成功的反应结果。

图 4

随后作者对预测区位选择性的四种不同的原子级图神经网络（aGNN）模型进行评测。这些神经网络经过训练，可以对给定分子中所有非季碳原子进行计算，以确定反应是否会在这些碳原子上发生。由于硼化反应通常发生在分子中的一个原子上，在罕见情况下可能在两个原子上，因此在分子中标记为“反应性”的和“非反应性”的原子是不平衡的（大约比例为1:6）。因此，使用F分数（即阳性预测值（PPV）和真阳性率（TPR）的平均值）作为神经网络准确性的衡量指标。图3d（右侧）显示了在文献数据集上训练的四种aGNN的性能。在3D图结构上训练的aGNN在性能上超过了在2D图结构上训练的aGNN。aGNN3DQM模型总体上表现最佳，F分数为60 ± 4%。图4c展示了使用aGNN3DQM对测试集中的六个选定预测；左侧展示了前20%的三个反应，右侧展示了测试集底部20%的三个分子。图3c展示了aGNN3DQM对测试集预测的混淆矩阵。对于测试集中的1,259个非季碳原子，aGNN3DQM达到了90 ± 1%的准确率。在这之后，作者继续分析aGNN3D。测试集预测揭示了许多准确的例子（图4a；54、55），但也指出了计算模型的某些限制（图4a；56、57）。aGNN3D还被应用于包含文献数据集之外的底物的分布外反应，这些底物来自罗氏医药化学遗留项目（图4b）。该模型预测了吗啉45的三个潜在反应位点，其中两个得到了实验验证。对于氨基甲酸酯64，模型预测了正确的硼化位点和一个假阳性位点。然后，aGNN3D模型使用六个选定的硼化反应进行了前瞻性验证，这些药物包括洛拉替定（1）、华法林（25）和奈韦拉平（29），以及三个片段（37、38、39；图4c）。预测模型在这个实验中达到了大约70%的准确率。

编译 | 曾全晨

审稿 | 王建民

参考资料

Nippa, D.F., Atz, K., Hohler, R. et al. Enabling late-stage drug diversification by high-throughput experimentation with geometric deep learning. Nat. Chem. (2023).

https://doi.org/10.1038/s41557-023-01360-5