华中师范大学赵蕴杰教授&河南科技大学王慧雯博士：基于深度学习的蛋白-配体结合亲和力预测模型

▲第一作者：王慧雯博士

通讯作者：王慧雯博士；赵蕴杰教授

通讯单位：河南科技大学物理工程学院；华中师范大学物理与科学技术学院

论文DOI：10.1039/d1cp05558e

全文速览

近几年，基于深度学习的蛋白-配体结合亲和力预测在计算机辅助药物研发中发挥着重要作用，被广泛应用于虚拟筛选。但现有的大多数深度学习模型只是基于蛋白-配体全局序列信息或药物口袋-配体的局部三级结构信息，预测精度仍有待提高。我们结合蛋白-配体的全局序列和局部结构信息，开发了一种新的深度学习模型DLSSAffinity，预测蛋白-配体结合亲和力。

背景介绍

● 蛋白-配体结合亲和力的测定

在药物研发的初始阶段，最关键的目标之一是筛选一些与靶蛋白有强结合亲和力的候选配体。配体与蛋白的结合亲和力越强，配体靶向蛋白的概率就越高。蛋白-配体结合亲和力大小通常以半抑制浓度 (IC50)、解离常数 (Kd) 或抑制常数 (Ki) 等参数来量度。IC50、Kd 和 Ki 值越低，蛋白-配体结合亲和力越高。一些实验方法，如表面等离子共振（Surface Plasmon Resonance，简称SPR）和等温滴定量热法（Isothermal Titration Calorimetry，简称ITC），可有效测定蛋白-配体的结合亲和力。然而，这些实验方法需要其他辅助实验，导致测量大量蛋白-配体结合亲和力的过程复杂、昂贵且耗时。一种新药从研发到成功上市，通常需要 10 年时间和 2-30 亿美元的投入。因此，迫切需要开发预测蛋白-配体结合亲和力的有效计算方法来加速药物筛选，降低药物研发成本。

● 目前蛋白-配体结合亲和力预测方法的局限性

传统的蛋白-配体结合亲和力预测方法是开发基于经验的评分函数，例如X-Score、ITScore 和量子力学/分子力学 (QM/MM) 评分函数。这些评分函数促进了计算机辅助的药物筛选，但它们在很大程度上依赖于手工提取的特征和复杂的操作，很难准确预测大量不同蛋白-配体复合物的结合亲和力。深度学习在结构生物学和计算化学领域已得到广泛应用，并表现出强大的优势。尤其是，2020年AlphaFold2在第十四届国际蛋白质结构预测竞赛（CASP14）中取得桂冠，AlphaFold2预测的结构与实验结构的RMSD达到了1.6 Å，其准确性已可以与冷冻电子显微镜、核磁共振等实验技术相媲美。近几年，基于深度学习的蛋白-配体结合亲和力预测也成为了结构生物学和计算化学领域的研究热点。它旨在将药物筛选的“大海捞针”变成“按图索骥”，减少药物研发的周期，降低药物研发的成本。与传统方法相比，基于深度学习的方法，操作简单，可预测大量不同蛋白-配体复合物的结合亲和力。但现有的大多数深度学习方法只是基于蛋白-配体全局序列信息或药物口袋-配体的局部三级结构信息，预测精度仍有待提高。

研究出发点

近几年的研究表明，基于深度学习预测蛋白-配体结合亲和力可有效缩短药物筛选的时间，降低药物研发的成本。现有的蛋白-配体结合亲和力预测的深度学习模型只是基于全局的蛋白和配体序列信息或者基于口袋-配体的局部三级结构，基于蛋白-配体全局序列信息的模型可以学习到蛋白-配体间的长程间接相互作用，但对短程直接相互作用预测有限。基于口袋-配体的局部三级结构信息的模型，可以很好的预测蛋白-配体间的短程直接相互作用，但无法准确预测长程间接相互作用。因此现有预测蛋白-配体结合亲和力的深度学习模型预测精度仍有待提高。本文结合蛋白-配体的全局序列信息和口袋-配体的局部三级结构信息，提出了一种新的深度学习模型DLSSAffinity，来预测蛋白-配体结合亲和力。测试结果表明DLSSAffinity的预测精度优于现有的深度学习模型，并进一步证明了DLSSAffinity模型预测精度提高的分子机制。

图文解析

A. DLSSAffinity模型构建

▲图1. DLSSAffinity模型的构架图

DLSSAffinity模型由三个卷机神经网络和一个全连接网络构成。三个卷机神经网络分别以配体SMILES、蛋白全局序列和口袋-配体局部三级结构作为输入特征，并在训练中学习配体SMILES、蛋白序列、口袋-配体三级结构的表达。其中，配体SMILES中的64种字符被编码为1-64，蛋白序列中的25种字符被编码为1-25。为保证每个卷机神经网络的所有样本的输入特征长度相等，我们根据配体 SMILES 的长度和蛋白序列分布设定配体SMILES和蛋白序列的长度截断分别为100和1000。长于相应长度截断的序列被删除，而短于相应长度截断的则用0填充。口袋-配体三级结构大小是一个20埃的立方体，配体位于几何中心处。口袋-配体中的每个重原子都用一个4D张量表示。前三个维度是重原子的笛卡尔坐标，最后一个维度是一个19位特征向量。其中，原子类型（B、C、N、O、P、S、Se、卤素和金属）和 SMARTS 属性（疏水性、芳香族、受体、供体和环）分别编码为 9位和 5 位 one-hot 特征。原子杂化、与其他重原子的键数以及与其他杂原子的键数分别用一位整数表示。部分电荷用一个浮点数表示。此外，使用一位整数特征区分口袋和配体的原子。全连接网络是将三个卷机神经网络的输出作为输入特征，在训练中学习蛋白-配体相互作用的分子机制。

B. DLSSAffinity模型性能

我们利用PDBbind 2016数据集训练和测试了DLSSAffinity模型。结果显示DLSSAffinity模型在训练集、验证集和测试集的Pearson 相关系数R分别为0.83、0.76和0.79；均方根误差RMSE分别为1.10、1.38和1.40；标准差SD分别为1.04、1.38和1.40。

C. DLSSAffinity模型与其他模型的比较

为证明结合全局序列和局部结构信息作为深度学习模型的输入特征可以提高蛋白-配体结合亲和力预测的准确性。我们对DLSSAffinity与现有最优深度学习模型的性能进行了比较。最优深度学习模型包含Pafnucy、DeepDTA和TopologyNet。Pafnucy和DeepDTA分别基于局部结构信息、全局序列信息预测蛋白-配体结合亲和力。TopologyNet 通过一维拓扑指纹表示三维蛋白-配体复杂结构，然后使用一维拓扑指纹作为深度学习模型的输入特征来预测蛋白-配体结合亲和力。

● 在2016测试集上的性能比较

● 在CASF-2013测试集上的性能比较

从两个测试集的结果可以得出结论：DLSSAffinity模型的预测精度优于pafnucy和DeepDTA模型。这表明结合全局序列和局部结构信息作为深度学习模型的输入特征可以提高蛋白-配体结合亲和力预测的准确性。DLSSAffinity 模型的预测精度更接近于 pafnucy 模型。这表明局部结构信息比蛋白-小分子结合亲和力的全局序列信息更重要。这是因为蛋白-配体结合亲和力主要依赖于短程直接相互作用。DLSSAffinity 模型的预测精度优于仅包含局部结构信息的 pafnucy 模型的预测精度，表明需要添加全局序列信息来预测蛋白-配体结合亲和力。

D. 序列和结构特征的重要性分析

现有研究表明，人类激酶的激活环（A-loop）可以通过长程间接相互作用影响靶向ATP 口袋的配体与靶蛋白的结合亲和力。为了进一步验证 DLSSAffinity 模型可以从全局序列信息中捕获长程间接相互作用，我们以CASF-2013测试集中的两种激酶（PDB ID：2ZJW 和 3PE2）为例，将激酶A 环上的残基突变为最简单的残基（甘氨酸），结果表明，DLSSAffinity 模型的预测精度分别下降了 0.03 和 0.04。DLSSAffinity 模型可以从全局序列信息中捕获长程间接相互作用，从而提高模型预测的准确性。

为了进一步验证局部结构信息的重要性，我们使用实验/预测结构比较了 DLSSAffinity 模型对两种激酶-配体结合亲和力的预测准确性。结果表明，由于预测结构的不准确性，DLSSAffinity 模型对两种激酶-配体结合亲和力（2ZJW 和 3PE2）的预测准确度分别下降了 0.53 和 0.69。DLSSAffinity 模型可以从口袋-配体的局部三级结构中捕获到短程直接相互作用。DLSSAffinity 模型可以从全局序列信息中捕获长程间接相互作用，并从口袋-配体局部三级结构中捕获短程直接相互作用。全局序列和局部结构特征确实相得益彰。

总结与展望

本文基于全局序列信息和局部结构信息开发了一种预测蛋白-配体结合亲和力的深度学习模型 DLSSAffinity。结果表明，DLSSAffinity 优于 pafnucy 和 DeepDTA。前者基于局部结构信息，而后者基于全局序列信息来预测蛋白-配体结合亲和力。此外，DLSSAffinity远优于TopologyNet。TopologyNet 通过一维拓扑指纹表示三维蛋白-配体复杂结构，然后使用一维拓扑指纹作为深度学习模型的输入特征来预测蛋白-配体结合亲和力。这些结果表明，结合全局序列和局部结构信息作为深度学习模型的输入特征可以提高蛋白-配体结合亲和力预测的准确性。DLSSAffinity 模型优于现有的最优深度学习模型，并将有助于促进 AI 辅助的药物研发。

课题组介绍

通讯作者介绍：

王慧雯，博士，河南科技大学物理工程学院讲师。主要研究方向为凝聚态软物质物理和生物物理，具体为软物质生物分子建模与动力学、结构与功能关系、特异性药物靶点分析、复杂动态网络与深度学习在生物系统中的应用。目前在Physical Chemistry Chemical Physics、 Computational and Structural Biotechnology Journal、 Bioinformatics等刊物上发表SCI论文14篇，有1项授权国家发明专利。

赵蕴杰，华中师范大学物理科学与技术学院教授，博士生导师，湖北省海外高层次人才项目获得者。主要研究方向为凝聚态软物质物理和生物物理，发展了软物质生物分子相互作用预测、结构预测和靶向药物设计等物理模型，在Nature Immunology和Nucleic Acids Research等刊物上发表SCI（《科学引文索引》）论文近50余篇，有3项授权国家发明专利，著有“十三五”国家重点出版物《生物分子大数据分析》。受邀担任Frontiers in Genetics客座编辑和Scientific Reports客座编委成员，Physical Review Letters等10余个国际学术杂志审稿人。主持多项国家自然科学基金和省部级自然科学基金，2017年和2020年分别入选2项省部级人才支持计划。

原文链接：

https://pubs.rsc.org/en/content/articlelanding/2022/cp/d1cp05558e

相

关

推

荐

1. 仪器表征基础知识汇总

2. SCI论文写作专题汇总

3. Origin/3D绘图等科学可视化汇总

4. 理论化学基础知识汇总

5. 催化板块汇总

6. 电化学-电池相关内容汇总贴

7. 研之成理名师志汇总

更多科研作图、软件使用、表征分析、SCI 写作、名师介绍等干货知识请进入后台自主查询。