机器学习+高通量实验，Nature Chemistry！

▲第一作者：David F. Nippa，Kenneth Atz

通讯作者：David B. Konrad, Uwe Grether, Rainer E. Martin & Gisbert Schneider

通讯单位：德国慕尼黑大学，瑞士罗氏制药公司，苏黎世联邦理工学院

DOI：10.1038/s41557-023-01360-5

研究背景

结构的新颖性和复杂性使得在药物化学中建立结构-活性关系时，合成化学目标结构具有挑战性。结构-活性关系模型指导着“从候选物到先导化合物”（hit-to-lead）和“先导化合物优化”（lead optimization）路径，旨在提高候选药物的药理活性和理化性质。对于结构-活性关系探索而言，高效的合成非常重要，因为合成是设计-制造-测试-分析循环中的一个瓶颈。虽然，后期功能化可以优化候选药物特性，但是，由于药物分子的化学复杂性，后期多样化往往具有挑战性。

研究问题

为了解决这个问题，本研究开发了一个基于几何深度学习和高通量反应筛选的后期功能化平台。考虑到硼酰化是后期功能化的关键步骤，计算模型预测了不同反应条件下的反应产率，平均绝对误差范围为 4-5%，而对已知和未知底物的新型反应进行分类的平衡准确率分别为 92% 和 67%。主要产物的区域选择性被准确捕捉，分类的 F 分数为 67%。当应用于 23 种不同的商业药物分子时，该平台成功地发现了许多结构多样化的机会。该平台还量化了几何和电子信息对模型性能的影响，并介绍了一种全面、简单、用户友好的反应格式(reaction format)，该格式被证明是将深度学习和高通量实验无缝集成到后期官能化的关键推动因素。

图1|硼酸化多样化机遇和研究综述

要点：

1.众多催化系统提供了定向和非定向方法，以及化学和位点选择性获取修饰类似物的方法。传统药物化学中的 LSF 方法包括氟化、胺化、芳基化、甲基化、三氟甲基化、硼酸化、酰化和氧化。在这些方法中，C-H 硼酰化被认为是用途最广、化合物多样化最快的方法。有机硼物种可转化为一系列官能团，并可作为后续 C-C 键偶联的稳健处理剂（图 1a），从而实现广泛的结构-活性关系研究。

2.本研究介绍一种几何深度学习方法，该方法应用于自动后期功能化（LSF）硼酰化筛选，以确定late-stage hits和先导多样化（lead diversification）机会（图 1b）。计算深度学习被用于预测复杂药物分子 LSF 的反应结果、产率和区域选择性。本研究的第一步是对已发表的文献进行全面分析，为高通量实验（HTE）筛选选择合适的反应条件和相关底物提供理论依据，这些底物反映了药物开发中late-stage lead compounds的性质。

图2| 筛板概述和 GNN 结构

要点：

1.使用 HTE 装置和液相色谱-质谱联用仪（LCMS）以及反应数据分析管道，本研究利用图 2a 所示的平板布局筛选了 23 种药物化合物（1、14、16-36）和 12 种药物样片段（37-48）。在此，所选的 23 种药物化合物和 12 种类似药物片段被称为 LSF 信息文库。24 孔硼化筛选板是在综合文献评估的基础上设计的，该评估提供了 1,301 个反应进行元分析。

2.本研究中引入的几何深度学习平台由一组不同的 GNN 组成，专门用于学习三个目标：二元反应结果、反应产率和区域选择性。研究了三种不同的模型架构，并对每种架构的四种不同分子图表示进行了评估（图 2c）。

图3| 二元反应结果、反应产率和区域选择性预测结果

要点：

1.在随机拆分的数据集上研究了反应产率预测的性能，以学习已知底物与实验数据集新条件相结合的反应产率。图 3a 显示了性能最好的神经网络 GTNN3DQM 预测结果的散点图，其平均绝对误差 (m.a.e.) 为 4.23 ± 0.08%，皮尔逊相关性 (r) 为 0.890 ± 0.01。图 3d（左）显示了九种不同神经网络在这项任务中的比较。四个 GTNN（4.23-4.53% m.a.e.）的准确率大大高于 ECFP4NN 基线（4.55% m.a.e.）和四个 GNN（4.88-5.61% m.a.e.）。对于反应产率预测，原子电荷和三维信息对 GTNN 或 GNN 的性能都没有影响。在文献数据集上训练的 GTNN 模型的误差要大得多，m.a.e. 值为 16.15-16.73%，相关性在 r = 0.59 和 r = 0.62 之间。与文献数据相比，HTE 数据的反应产率预测误差较小，这与最近的研究结果一致。

2.如果与所选底物的反应条件产生了一元或二元胆碱酯化产物，且可通过 LCMS 确认相应的转化率≥1%，则二元反应结果被视为 “成功”；如果无法通过 LCMS 追踪所需的转化，则二元反应结果被视为“不成功”。对于根据二元反应结果训练的机器学习模型，本研究关注了两种不同的数据集拆分方法：(1) 随机拆分，以研究已知底物在新条件下的性能；(2) 对 23 种药物分子进行基于底物的拆分，以研究未知底物在不同条件下的性能。

3.本研究还对基于底物的数据拆分（即预测新型底物的反应结果）的二元反应结果预测进行了评估。对于 23 种未见药物中的 20 种，GTNN3DQM 的准确率超过了 50%；对于 23 种未见药物中的 16 种，准确率超过了 80%。总体而言，GTNN3DQM 模型的 AUC 值为 67 ± 2%（表 1）。图 3d显示了九种不同神经网络在这项任务中的比较，表明与 ECFP4NN（52% AUC）以及在二维图形上训练的 GNN 和 GTNN（51-59% AUC）相比，在三维图形上训练的 GNN（58-67% AUC）表现更好。

4.此外，使用原子部分电荷进行增强并未显示 GNN 或 GTNN 有任何改进。图 3e 显示了 GTNN3DQM 预测的三种药物（1、25、29）和三种片段（37、38、45）对未见底物的成功反应结果。分离出了这六种底物的主要反应产物，反应产率从 5% 到 90% 不等。

图4| 硼酸化区域选择性预测的部分实例

要点：

1.区域选择性预测方法 aGNN3D 经过训练后在文献数据集上进行了验证。本研究利用测试集成功验证了许多例子（图 4a；54、55），但也指出了计算模型的某些局限性（图 4a；56、57）。为了进行更多测试，本研究将 aGNN3D 应用于含有Roche Medicinal Chemistry legacy projects文献数据集以外底物的反应（图 4b）。该模型预测了吗啉 45 的三个潜在反应位点，其中两个得到了实验证实。对于氨基甲酸酯 64，预测出了正确的硼酸化反应位点和一个假阳性反应位点。然后，使用药物氯雷他定 (1)、华法林 (25) 和奈韦拉平 (29) 的六个选定的硼酸化反应以及三个片段（37、38 和 39；图 4c）对 aGNN3D 模型进行了前瞻性验证。

2.最后，本研究关注了具有不同空间位阻和电子效应的取代对区域选择性预测的影响。本研究将 aGNN3D 模型应用于文献测试集中的六个未见实例，这些实例引入了空间位阻或定向官能团。图 4d 展示了四种吲哚衍生物的区域选择性预测结果。在位置 1 加入一个定向酰胺官能团后，在位置 7 的预测结果为 99 ± 0%（图 4d）。

总结与展望

总之，本研究证实了几何深度学习平台在生物有机和药物化学中的实际应用性及其对实验室自动化的潜在益处。在F. Hoffmann-La Roche Ltd.的药物开发项目中，该方法被成功地常规应用于评估二元反应结果、反应产率和硼酸化的区域选择性。标准化 HTE 不断生成更多的数据点，以进一步提高计算模型的预测能力。未来的改进措施包括：(1) 探索铱催化硼酸化的其他反应条件。这种扩展的筛选板可能包括改变催化剂或硼源，以及使用更广泛的配体和溶剂。（2） LSF 信息库可以被扩充，以容纳药物分子中更常见的片段，从而扩大相关化学空间，并有可能提高机器学习的性能。(3) 可以研究不太常用的过渡金属催化甚至无金属合成方法，以扩大反应条件的覆盖范围，解决最初被排除在分析之外的反应问题。

原文链接：

https://www.nature.com/articles/s41557-023-01360-5

相

关

推

荐

1. 仪器表征基础知识汇总

2. SCI论文写作专题汇总

3. Origin/3D绘图等科学可视化汇总

更多科研作图、软件使用、表征分析、SCI 写作、名师介绍等干货知识请进入后台自主查询。