Digital Discovery 利用深度生成模型和计算数据设计催化剂，Suzuki偶联反应的案例研究

编译 | 曾全晨
审稿 | 王建民

今天为大家介绍的是来自Oliver Schilter团队的一篇催化剂设计的论文。如今，对于更高效的催化过程的需求不断增长，与此同时，在实验中搜索化学空间以寻找新的有前景的催化剂的成本也在不断增加。尽管密度泛函理论（DFT）和其他原子级模型在基于模拟性能对分子进行虚拟筛选方面得到了广泛应用，但数据驱动的方法正在成为设计和改进催化过程的不可或缺的工具。在这里，作者提出了一种深度学习模型，能够通过从其语言表示和计算的结合能中自学习有意义的结构特征，生成新的催化剂-配体候选物。作者训练了一个基于循环神经网络的变分自编码器（VAE），将催化剂的分子表示压缩到一个较低维度的潜在空间中，在这个空间中，一个前馈神经网络预测相应的结合能，作为优化函数。优化结果在潜在空间中进行重构，还原为原始的分子表示。这些经过训练的模型在催化剂结合能预测和催化剂设计方面实现了最先进的预测性能。

寻找更好、更可持续的催化剂是化学工业面临的重要问题之一。交叉偶联反应是用于构建C-C键的典型化学反应。它们在工业应用中被广泛采用，因此更可持续、更便宜、更选择性的均相催化剂将具有重大的社会经济影响。Suzuki-Miyaura交叉偶联反应因其温和的反应条件、对各种官能团的高容忍度以及试剂的商业可获得性和稳定性而受到青睐。在这个反应方案中，催化剂起着关键作用，开发新的或改进的催化剂始终是一个极具吸引力的课题。

一些方法，如高通量筛选（HTS），是实验驱动的催化剂搜索策略。在HTS中，通过自动化方式（通常在高度机器化的合成平台上进行）对大量催化剂、反应物和溶剂进行筛选，以找到更合适的催化剂或最佳反应条件。由于测试一组反应物、溶剂和催化剂的所有可能组合会导致实验复杂性和实验数量呈指数增长，因此这些实验通常只限于几十个催化剂候选物。其他方法，如机器学习，正在成为大量基于计算的任务的不可或缺的工具，例如分子设计、虚拟筛选、反应预测、逆合成、实验方案推断、数据集整理或原子映射。在当今世界，任何旨在设计新分子或催化剂的策略都不可避免地涉及某种形式的机器学习。

作者借鉴了G´omez-Bombarelli等人的工作，引入了一个基于变分自编码器（VAE）的生成模型，用于开发潜在的新型催化剂，并应用于Suzuki交叉偶联反应。与普通的VAE相比，作者的模型的区别是加了一个独立的神经网络作为结合能的预测器。这个神经网络使用潜在特征表示作为输入，预测催化剂的氧化加成能。预测器网络的使用使模型能够改进推断结合能的平均绝对误差（2.42 kcal mol−1），相比之前的方法（2.61 kcal mol−1）。作者还证明了预测器网络的使用有助于更好地组织VAE的潜在空间，提高其在设计新型催化剂方面的效果。

模型方法

图1

Meyer等人的研究表明，在Suzuki交叉偶联反应中，底物与过渡金属配合物之间的氧化加成反应能是描述催化循环热力学的可行指标。这个反应能描述了底物与过渡金属配合物之间氧化加成的能量变化。通过分析这个能量变化，我们可以了解反应的热力学特性，包括底物与配体的结合强度和催化循环中的能量储备情况。这对于理解反应机制、优化催化剂性能以及设计新型催化剂都具有重要意义。因此，反应能可以作为评估Suzuki交叉偶联反应催化循环热力学的有效描述符。根据Sabatier原理，这个氧化加成能有一个最佳区域，在这个区域中，底物既不与过渡金属配合物结合得太强也不结合得太弱。这个单一的能量值可以用作使用分子火山图来估计均相催化剂活性的指标（见图1）。与计算完整的动力学曲线不同，简单地预测与目标区间-32.1到-23.0 kcal mol（*1e-1）对应的反应能能够作为目标属性来调整生成模型。

图2

作者提出的模型由三个神经网络组成：编码器、解码器和属性预测模型（见图2）。编码器由循环神经网络单元组成，接收经过分词处理的输入表示（例如SMILES或SELFIES），将其压缩成更小的嵌入空间，通常称为潜在空间。解码器通过对压缩特征进行操作，重构原始的输入序列。属性预测器以潜在空间的特征作为输入，并使用前馈神经网络预测目标属性，即反应能量。这三个模型同时进行训练。通过将输入数据强制通过这个潜在空间，数据被压缩。此外，目标反应能量的同时嵌入导致了潜在空间的重构。将离散的输入分子表示转换为连续的潜在空间中的特征，可以使用基于梯度的优化过程在潜在空间中搜索生成新的催化剂候选物。

实验结果和讨论

表1

模型在原始的7054个催化剂数据集上进行了训练（随机划分90%和10%的数据集）。为了评估方法，作者在每个数据集（0、8和16个增强的SELFIES或SMILES）上预测氧化能的能力。如表1所示，就预测能力而言，效果最好的模型是在未增强的SELFIES上训练的VAE。其平均绝对误差（MAE）为2.42 kcal mol-1，超过了表现最好的两个模型，这两个模型基于分子的BoB和SLATM表示（MAE分别为2.61 kcal mol−1和2.73 kcal mol−1）。此外，还训练了一个基于Morgan指纹表示的基准随机森林模型，其性能为MAE = 2.87 kcal mol−1。这表明基于字符串的表示足以比原始的3D表示更好地学习能量预测。

图3

图4

特征空间的连续性以及预测器神经网络的可微性使模型能够使用基于梯度的优化方法高效地搜索特征空间，以找到理想的新催化剂。作者生成了100个分子，以选择合适的优化步数。平均而言，优化器在10个步骤内已经达到了1.21 ± 0.95 kcal mol−1的损失，这足以确保所有生成的分子位于火山图的平台区域，如图3所示。预测器模型与VAE的联合训练以及特征空间的结构化对优化是有益的。与预测器单独训练于VAE的模型相比，可以看到同时训练的模型需要更少的优化步骤，并且具有较低的标准差。随后作者使用所有的SMILES和SELFIES模型生成了10,000个分子，对生成的催化剂进行了有效性和新颖性分析，以及它们在训练数据中的存在情况。所有的SELFIES模型在有效性方面相对较高，这符合SELFIES语言的设计要求。为了成为一个有效的分子，生成的序列需要包含两个配体和一个金属中心。在极少数情况下，SELFIES VAE会生成仅包含填充token、重复金属中心或仅含一个配体的序列。这解释了生成的SELFIES中有效性低于100%的情况。作者还分析了生成的具有最高新颖性的SELFIES和SMILES模型的催化剂，并检查了它们的化学结构，以确定是否存在特定的功能基团，这些基团是根据训练数据中的普遍性选择的。分析结果显示，对于SELFIES模型（图4）和SMILES模型，最适合的功能基团是膦，其次是吡啶。在过渡金属方面，优化器更偏好钯金属，这反映了训练数据中的分布情况。

结论

通过使用基于循环神经网络的变分自动编码器（VAE）和前馈神经网络，作者证明了基于字符串的催化剂表示在生成适用于Suzuki交叉偶联反应的新催化剂配体时优于三维描述符。通过降维、相关性和熵计算，作者发现潜在特征空间的有意义的合理的构成。随后，作者利用基于SELFIES的模型构建的潜在空间，使用基于梯度的技术探索了该空间，生成了超过8574个新颖且有效的催化剂（生成10,000个分子的基础下）。

参考资料

Schilter, O., Vaucher, A., Schwaller, P., & Laino, T. (2023). Designing catalysts with deep generative models and computational data. A case study for Suzuki cross coupling reactions. Digital Discovery.