一种与蛋白质-配体结合亲和力相关的无监督深度学习方法用于提取配体诱导的蛋白质动力学差异

作者 | 王紫嫣

审核 | 熊展坤

今天给大家介绍2022年发表在Communications Biology上的一篇论文——Differences in ligand-induced protein dynamics extracted from an unsupervised deep learning approach correlate with protein–ligand binding affinities. 该论文使用无监督的深度学习方法提取与蛋白质-配体结合亲和力有关的配体诱导的蛋白质动力学差异。

1 引文

本文主要是使用一种无监督的方法对蛋白质-配体之间的亲和力进行预测。通常蛋白质-配体之间的亲和性可以使用结合自由能gap来表示。而自由能通常是根据自由能扰动等方法计算的，这些方法虽然有较高的精度，但是高昂的计算成本妨碍了其实际应用。受到数据驱动的深度学习方法的启发，本文希望可以直接通过蛋白质的动力学差异预测蛋白质-配体之间的亲和力。并且本文不希望依赖标签进行训练，所以提出了一种无监督的方法预测蛋白质-配体亲和力。

蛋白质结合配体之前和之后的动力学数据可以使用全原子分子动力学模拟（MD）工具来得到。MD模拟可以得到short-term MD trajectories（动力学模拟轨迹），也就是蛋白质的原子运动轨迹。该文主要目的是构建MD trajectory与结合亲和性之间的关系，而不是像之前已有的方法构建结合口袋处的构象变化、配体诱导的局部二级结构变化等与配体结合亲和力的关系。

2 输入

本文的输入是局部动力学集合（local dynamics ensemble，LDE），即short-term trajectories，即结合位点上的残基，该动力学数据通过MD模拟得到。图1表示了具体是什么。

本文提取了不同蛋白质系统的作为模型的输入。apoprotein表示配体结合前的蛋白质系统，holopproteins表示配体结合后的蛋白质系统。如图2所示。配体和蛋白质的结合区域如图3所示。本文使用10个不同的配体作用于一个蛋白质进行实验。

3 模型

模型的输入是上述提到的一对蛋白质系统的和，这一对和是不同蛋白质系统的排列组合，不一定非是结合前的蛋白质系统和结合后的蛋白质系统，也可以是不同配体结合后的蛋白质系统的组合。

模型分为两个分支。

第一个分支：模型将输入送入DNN得到不同的表示，然后使用Wasserstein distance计算不同之间的差异，如下式所示。然后将Wasserstein距离矩阵使用主成分分析方法嵌入到低维空间的点中。将第一主成分（PC1）与配体结合能（亲和力）进行比较。

第二个分支：计算蛋白质系统i与蛋白质系统j的平均动力学之间的差异：

然后本文为了找出差异明显的蛋白质系统，将所有的进行了分类.大于某阈值的为characteristic系统，小于另一个阈值的为similar系统。

为了探究是中的哪些残基导致了蛋白质系统产生的明显差异，本模型还计算了每一个残基的RMSD（short-term root-mean-square displacement）：

因为分子动力学的轨迹是研究一段时间的分子运动，所以这个式子里面还有时间。

4 总结

通过距离矩阵（图4）可以看出来，配体结合前的蛋白质与配体结合后的蛋白质动力学差异较大，而配体结合后的蛋白质之间动力学差异较小。

通过对距离矩阵的降维，可得到图5的可视化结果。可见配体结合前的蛋白质特征与配体结合后的蛋白质特征是分离的。

此外，与具有高亲和力系统相比，具有低亲和力系统倾向于定位在apoprotein附近。通过将第一主成分（PC1）与先前研究中计算的结合能进行比较，定量评估了第一主成分（PC1）与结合亲和力之间的联系，如图6.

该模型还可以研究holoprotein和apoprotein中的动力学差异，以发现配体对哪些氨基酸的影响最大。

5 参考文献

文章地址
https://wwwnature.53yu.com/articles/s42003-022-03416-7