ICML2022 | EQUIBIND：用于药物结合结构预测的几何深度学习方法

编译 | 刘名权
审稿 | 夏忻焱

本文介绍一篇来自于麻省理工学院的Hannes Stärk、Octavian Ganea等人发表在ICML上的分子结构预测工作——《EquiBind: Geometric Deep Learning for Drug Binding Structure Prediction》。预测类药物分子如何和特定靶蛋白结合是药物发现中的一个核心问题。已有方法依赖于评分、排序和微调等步骤对大量候选分子进行采样，计算非常昂贵。针对该问题，作者提出一种SE(3)等变的几何深度学习模型——EQUIBIND。该模型能直接快速地预测出受体结合位置以及配体的结合姿势和朝向。此外，作者将该模型同已有的微调技巧结合取得额外突破。最后，作者提出一种新型且快速的微调模型，它对于给定的输入原子点云基于冯·米塞斯角距离全局最小值的近似形式来调整配体可旋转键的扭转角，避免以前昂贵的差分进化能源最小化策略。

介绍

药物发现是一个非常昂贵的过程，通常需要花费大约10亿美元和10年时间来发展和测试一种药品，才有可能被FDA通过。药物发现中一项核心任务是理解类药物分子（配体）如何与靶蛋白（受体）相互作用形成复合物，这是虚拟筛选中的一个先决条件。该任务在如下几个方面和限制中面临着挑战：分子动力学、构象性改变（分子内部灵活性）、化学和几何原子相互作用类型只是描述配体-蛋白质结构中领域知识的部分相互作用类型。

当前用于3D结构药物结合的计算机方法能得到很高的质量，但是计算开销也很高。在作者的实验中，GININA方式预测单个配体-受体对平均开销为146秒，而商业软件GLIDE比这慢9倍，这是由于它采用了之前所有的结合方式所造成的：首先，从可能的结合位置和姿势中采样生成一大批候选复合物；接下来进入评分和排序阶段，用于对最有前景的样例进行检索；最后，使用一种基于能量的微调方式使配体在各自的口袋位置最佳拟合。因此作者提出了一个新型几何&图深度学习模型用于结构药物（图1）。由于该模型不需要大量的采样作为前置工作，因此能极大的提升推理速度。此外，由于3D结构数据比较稀缺，将正确的理化生诱导偏置加入深度学习模型非常关键，基于该目标，EQINBOND：1）保证了结合结果独立于两个分子的3D初始位置和朝向；2）通过仅改变可旋转键的扭转角度，同时保持局部结构（键角度和长度）固定，结合了一种生物上合理的配体灵活性的有效机制；3）利用非交叉损失来防止空间碰撞或不现实的范德华相互作用。

EQUIBIND Model

EQINBOND在图1中高亮显示，具体描述如图2所示。它将带有随机关联的未结合3D构象（例如，使用RDKit/ETKDG生成）的配体分子图以及受体结合结构作为输入。如前所述，作者在这项工作中只对配体的灵活性进行建模，并假设蛋白质构象是刚性的。

K-NN图表示 作者将两个输入分子表示为空间K近邻（K-NN）图。配体图将带有未结合构象的3D坐标的原子作为节点，表示为，以及初始特征（例如，原子类型）。配体图的边包含了所有距离小于4埃的原子对。受体图将残基作为节点，节点的3D坐标由-碳原子的位置决定。图中每一个节点和它相距少于30埃的最近的10个节点想连。受体特征由作者自定义。

独立E(3)-等变转换 为确保结合复合物独立于初始分子的位置和朝向，作者借鉴前人思想，使用一种独立E(3)-等变图匹配网络（Independent E(3)-Equivariant Graph Matching Network，IEGMN），它结合了图匹配网络和E(3)等变图神经网络。公式化如下：，其中是转换后的坐标，是特征编码。IEGMN中的每一层如下所示：

其中，是由H推导出的SE(3)不变注意力系数，是节点i的邻居节点，W是参数矩阵，是浅层神经网络，除了输出标量，其它都是输出d维向量。是作者添加在转换坐标上的几何限制，在之后进行介绍。

Z的作用 E(3)等变输出和有着不同的作用：识别刚体转换和识别结合位点，此外还通过训练对配体灵活性进行建模。

2.1 通过结合关键点进行刚性变换

为了确定将配体在正确的位置和方向进行对接所需要的刚体SE(3)变化，作者同样借鉴IEGMN原论文，使用SE(3)等变多头注意力机制计算出配体和受体的K个关键点。公式化如下：，其中，与之类似。同时，作者借鉴了一种最优传输损失对这些关键点进行训练使之与真实的结合口袋点进行匹配。如果能完美的预测出关键点集，那么使得和尽量重叠的SE(3)变换和实现配体对接的SE(3)变换将精确相关。

2.2 建立化学上合理的配体灵活性模型

之前的假设是类药物分子最大的灵活的部分是可旋转键，而局部原子结构（local atomic structures，LAS）或者环大部分是刚性的。作者遵循该假设，提出以下两点改进。

距离几何限制作者的第一个目标是在IEGMN层加入LAS距离限制，通过一个自定义的可微函数，称之为“LAS距离集合（DG）投影”。对于一个固定构象X，如果转换后的坐标Z使得以下公式取得全局最小值，那么称Z满足LAS DG限制。

其中距离函数采用的是欧氏距离。因此，的定义就是进行固定次数T次梯度下降算法来最小化S。公式如下：

其中T和η是超参数。

快速点云配体拟合尽管之前的基于梯度的投影有利于模型训练，但它不能保证严格的LAS 限制，因此可能产生不合理的构象。为解决该问题，在尽可能保证LAS固定的同时作者仅通过改变初始（RDKit）未结合构象的键角来匹配Z，从而严格保证输出结合构象的化学合理性。即输出是一个新的构象，并保证。作者使用了和现存方法近似的方法（不需要优化）：计算C可旋转键的二面角作为Z二面角冯·米塞斯分布的最大似然估计，公式化如下。

括号中前者是Z的二面角，后者是想要优化的C的二面角。但是需要满足以下限制：

此处，和仅依赖于节点i和j的局部结构，不会随着键(i,j)键角的改变而改变。为最小化公式1，作者单独考虑每一个可旋转键，并使用如下符号，此外对于任意角α，。因此公式2重写为：

公式1重写为

对于任意给定的，上式变为

其中，。它有近似解，最终可以得到所有二面角的近似解。

实验

3.1 数据

作者提供一种基于时间的数据集分割和预处理管道用于深度学习药物结合方式。数据集来源于PDBBind数据库，PDBBind数据库最新版本包含了19443个蛋白质-配体复合物，其中包含15193个不同的配体和3809个不同的受体。最后经过数据预处理得到19119个复合物。对于2019年后发现的1512个复合物，作者随机挑选了125种不同的蛋白质，并选择包含这写蛋白质的363个复合物作为最终的测试集。而对于2019年前发现的复合物，作者移除了那些包含有在测试集出现的配体的复合物，最终剩下17347中复合物用于训练集和验证集，其中968个用于验证集，16379个用于训练集，同样，验证集中没有和训练集中相同的配体。这样分的目的主要是由于以往一般都是在PDBBind核心数据集上进行评估，因此过于简单。

3.2 评估建立

基线 Quick Vina-W是传统的对接方式，用于盲对接。SMINA在AutoDock Vina基础上设计了一个改进的经验评估方式。GNINA使用CNNs和基于网格的特征模式进一步开发了深度学习评分函数。还有流行的商业对接软件GLIDE。

EquiBind模型 EQUIBIND-U模型生成的是不正确的配体点云Z，即Z不要求含有合理的键角和长度。标准EQUIBIND利用该输出和之前所提到的快速点云配体拟合获得真实的配体结构。EQUIBIND-R将配体作为刚体，在训练时不加入灵活性损失项。微调模型EQUIBIND + Q在该输出的基础上使用Quick Vina 2对构象进行增强。EQUIBIND + Q2与EQUIBIND + Q一样但采用两倍多的采样配体位置。同样EQUIBIND + S 和EQUIBIND-R + S转而使用SMINA进行增强。

评估指标作者使用配体均方根误差（L-RMSD），中心距以及Kabsch均方根误差。所有指标都在移除氢原子之后进行测量。中心距通过计算预测的平均坐标和真实结合配体平均坐标之间的距离来评估模型发现正确口袋的能力（对于给定配体）。Kabsch均方根误差是配体经过旋转平移操作后得到的最小可能的均方根误差。L-RMSD是预测原子和结合配体之间的均方根误差。

3.3 结果

盲自对接(Blind self-docking) 结果如表1所示，除了在25th RMSD percentile和RMSD优于2埃的比例这两个指标外，简易版的EQUIBIND在识别结合口袋大致位置上表现得很好并且优于其它基线。扩展了微调模型的EQUIBIND + Q在所有指标上超过或者和基线相匹配，同时EQUIBIND + Q和EQUIBIND + Q2保留了显著的推理速度，这使得作者的方法适用于极高通量的应用例如对数十亿分子库进行筛选——ZINC。因此，实践者可以根据感兴趣的下游任务，在运行时将该方法与之前的微调基线结合起来。一个主要的现象是EQUIBIND比基线快得多，很少有严重偏离真实构象的预测，并且能对非常低RMSD的最终预测进行微调。

盲重对接(Blind re-docking) 在该实验中，结合配体从结合口袋中抽离出来，被放置在一个随机的位置，模型所要做的是将它重对接为一个正确的构象。因此，模型能获取到配体的真实结构，所有的预测都会拥有正确的长度和角度。EQUIBIND-R将配体视为完全刚性的物体，只预测平移和旋转。结果如表2所示，EQUIBIND-R有着极快的推理速度，因此，该方法适用于对接策略。同时，EQUIBIND-R性能基本上都优于基线，除了在25th RMSD percentile和RMSD优于2埃的比例这两个指标。

对初始构象的敏感度 EQUIBIND的预测取决于初始构象体的扭转角﹑键的角度和键的长度（基线只取决于初始键的角度和长度）。在图4中，作者研究了"不幸"的初始构象导致高L-RMSD的风险。对于363个复合物，产生了30个不同的初始RDKit构象体。EQUIBIND使用每个构象预测一个结合结构﹐得到30个L-RMSD值﹐并计算其标准偏差。发现模型对初始构象体的敏感性很低，大多数预测的标准偏差都小于0.5。

可视化图5展示了两种情况，GNINA表现的更差但EQUIBIND能发现结合位点。另两种情况是，GNINA表现的更好，这表明基线能找到更准确的结构，但是EQUIBIND仍然能找到正确的大致位置。

快速点云拟合在图6中，作者将之前所描述的新型快速点云配体拟合可视化。由于未校正的EQUIBIND-U产生的点云是不真实的分子。校正使用一个具有有效键长和角度的构象体﹐并改变其扭转角以最接近点云。

总结

深层神经网络预测蛋白质结构的良好能力引发了计算药物发现领域的大量研究。在这里，作者提出了EQUIBIND，一种深度神经网络模型，它依赖于SE(3)等变图神经网络来预测结合蛋白-配体构象。该模型相对于对最先进的基线显示出了强大的经验性能，作者通过将其与现有微调方法相结合，展示了其在混合工作流中的潜力。作者预计EQUIBIND和类似模型将推动深度学习的在药物发现中的应用。

参考资料

论文

https://arxiv.org/abs/2202.05146

源码

https://github.com/HannesStark/EquiBind