社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

EquiBind:利用几何深度学习实现快速小分子-蛋白结合方式预测

DrugAI • 3 年前 • 310 次点击  


—1.背景——


基于结构的虚拟筛选是药物发现的重要手段,但是目前许多对接程序都较为耗时,为大规模虚拟筛选造成了一定的挑战。近期,来自MIT以及慕尼黑工业大学的Stärk等人在arxiv上发表了题为《EquiBind: Geometric Deep Learning for Drug Binding Structure Prediction》的文章,提出了基于几何深度学习的方法EquiBind,用于快速确定小分子与蛋白的结合模式,为小分子对接提供了一种全新的解决方案。

1EquiBind的模型架构


1展示了EquiBind的模型架构。简单来说,该方法利用E(3)协变网络生成配体和受体上的结合关键点,而后在三维空间中对这些点进行匹配来确定结合模式。同时,该网络还能够对配体的三维结构进行变换实现小分子柔性对接。

下面我们简要介绍该模型的架构,并讨论EquiBind在对接上的表现。

 

——2.方法——


2.1 输入表示

EquiBind程序的输入包括两部分:

· 蛋白质的三维结构(作为刚性输入);

· RDKit随机生成的小分子构象(柔性,可优化)。

EquiBind使用K-NN图(k-nearest neighbor graph)来表征这些三维结构,其节点(node)代表原子。对于配体,其节点的特征包括3D坐标及原子类型等。对于蛋白,其节点只包含α-C原子,节点属性为3D坐标以及氨基酸种类。我们在距离接近的节点之间构建边(edge),对于配体和受体,该距离阈值分别为以及30Å


2.2 E(3)协变网络

在给定输入后,EquiBind需要对输入信息进行分析,并输出蛋白-小分子的结合构象。该任务主要通过一个E(3)协变网络实现,称为IEGMNIndependent E(3)-Equivariant Graph Matching Network),该构架结合了E(3)协变图卷积网络以及图匹配网络,能够在特征提取的同时对3D坐标进行变换。在每一层,模型采取如下信号传递操作:

其中hi(l)节点i在第l层的SE(3)不变表征,xi(l)节点il层的空间位置。从公式中可以看出,分子图中的节点在每一层中会不断变化。模型在最后一层能够输出其预测的配体结合构象。为了保证配体原子位置的变化符合3D化学规则,EquiBind在每一层会对变换后的坐标进行优化,即公式中的Ψ函数。其具体形式如下:

简单的来说,模型利用打分S对配体的三维坐标进行了T步的梯度下降优化。在EquiBind中, S为基于距离的限制函数,其目的是保证分子的局部结构合理。


2.3 结合关键点生成

经过IEGMN处理后,我们得到了经过变换的小分子坐标作为结合构象。同时,EquiBind还会利用IEGMN的输出在蛋白和配体结构中计算结合关键点:

其中zizj分别为小分子和蛋白经过IEGMN变换后的原子坐标,yk以及yk分别代表经过attention之后的小分子与蛋白内的第k个关键点的位置(关键点的总数是一个固定的超参数,记为K)。在训练过程中,模型通过拟合蛋白-小分子结合界面点的位置来学习yk以及 yk。上述结合界面点通过计算蛋白-小分子近距离原子(<4Å)的中点得到。由于关键点和界面点的数量一般不一样,EquiBind使用了最优传输损失(Optimal transport loss)对两组点进行匹配从而计算其差异。

利用上述得到的关键点,EquiBind将模型输出的小分子构象叠合至蛋白口袋中,从而完成结合方式的预测。


2.4 小分子结合构象生成

如上文所述,通过IEGMN的三维坐标变换,模型能够预测配体的结合构象。但是IEGMN不能保证输出的3D结构完全正确,在很多情况下其局部结构(如键长和键角)不处于合理范围。为了解决这一问题,EquiBindRDKit生成的初始构象拟合至IEGMN生成的构象。由于该过程只涉及可旋转单键的变动,因此可以确保局部结构的合理性。其算法主要匹配可旋转单键周围原子位置,不同的可旋转单键可以独立操作,因此该过程可以快速运行。


——3.结果评价——


EquiBind使用PDBBind v2020数据集,其中训练集和验证集包含17,347个复合物结构。EquiBind在测试时使用了PDBBind中发表于2019年后的结构,包含125个蛋白以及363个复合物结构。

作者在评价时主要关注了口袋未知情况下的小分子对接任务。这意味着模型需要找到合适的口袋,然后确定小分子与蛋白的结合方式。评价时用到的baseline包括QVina-WGNINASMINA以及GLIDE。除了标准的运行模式外,作者还比较了EquiBind的其他运行模式,包括:

· EquiBind-U:直接使用IEGMN输出的三维结构计算评价指标(不包含2.4节中提到的构象优化);

· EquiBind-R:将小分子作为刚体进行对接;

· EquiBind-Q:使用QVina 2EquiBind产生的构象进行优化;

· EquiBind-S:使用SMINAEquiBind产生的构象进行优化。

作者对以下指标进行了评价:(1L-RMSD:配体结合poseRMSD值;(2Centroid Distance:在真实复合物中配体的中心位置与对接配体中心位置间的距离,可以用于评价模型是否正确确定了口袋的位置;(3Kabsch RMSD:用于评价小分子内部构象的合理性。

1EquiBind方法评价结果


从结果上看,EquiBind在各项指标上均显著优于其他模型。该优势主要体现在Centroid Distance:即EquiBind能够正确找到小分子的结合口袋。同时,EquiBind的运行时间也显著优于其他方法。


——4.总结——


EquiBind是一种全新的基于深度学习的小分子对接方法,能够利用E(3)协变网络快速确定蛋白-小分子的结合方式。该方法为小分子对接提供了一种全新的解决方案,有较好的发展空间。

尽管如此,该方法目前在评价上存在局限性。上述评价过程只涉及结合口袋未知的情况,但是大部分虚拟筛选项目所关注的口袋是确定的。另外,本文所比较的baseline方法主要关注的是口袋已知的对接,在口袋未知的情况下一般表现较差,直接比较可能不公平。后续工作可以评价EquiBind在口袋已知情况下的表现,并与相关baseline进行比较,从而进一步明确其适用范围。


 

参考文献:

[MAIN] Stärk, Hannes, et al."EquiBind: Geometric Deep Learning for Drug Binding Structure Prediction." arXiv preprintarXiv:2202.05146 (2022).



点击左下角的"阅读原文"即可查看原文章。


者:李亦博

审稿:王世伟

编辑:由瀚天


GoDesign

ID:Molecular_Design_Lab

( 扫描下方二维码可以订阅哦!)

本文为GoDesign原创编译,如需转载,请在公众号后台留言。


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/132549
 
310 次点击