社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

Nat. Commun.|DeepRank:蛋白质-蛋白质界面的深度学习框架

DrugAI • 3 年前 • 439 次点击  

编译 | 陈梓豪

审稿 | 余梁

今天给大家介绍Utrecht University的Alexandre M. J. J. Bonvin和Li C. Xue团队发表在Nature Communications上的文章《DeepRank: a deep learning framework for data mining 3D protein-protein interfaces》。文章介绍了DeepRank,一个基于3DCNN的通用深度学习框架,用于蛋白-蛋白界面(PPIs)数据集的数据挖掘。DeepRank主要有两个功能:生物和人工晶体PPIs的分类和对接模型的评估。DeepRank可以和最先进的方法竞争。

1

DeepRank介绍

DeepRank是一个Python3包,允许对3D蛋白质-蛋白质复合物的数据集进行端到端训练。该框架由两个主要部分组成,一个关注数据的预处理和特征化,另一个关注神经网络的训练、评估和测试。DeepRank进行了一系列优化处理,适合在非常大的数据集上进行高效计算。

图1 DeepRank


DeepRank具有一下特点

可自定义的特征计算。DeepRank使用SQL和通用的PDB文件解析器,来识别两条链之间的界面残基(图1A),自动提取表1所示的特征,并可以加入额外的自定义特征。

三维网格特征映射。如图1C所示,DeepRank使用高斯映射将复杂体界面的原子和残差特征映射到三维网格上。网格的大小和分辨率可以由用户进行调整,以适应他们的需要。


灵活的目标值定义和计算。用户可以很容易地为蛋白质结构定义特定问题的目标值。对于计算对接的场景,DeepRank可以计算诸如RMSD,iRMSD(界面RMSD),FNAT(原生接触分数)、CAPRI质量标注、DockQ分数等目标值。


HDF5数据存储。如图1B所示,DeepRank以HDF5格式存储特性网格,特别适合存储和流化非常大的异构数据集。

表1 DeepRank特征

DeepRank可以应用在以下两类任务上

生物和人工晶体PPIs分类。X射线晶体学是确定蛋白质复合物三维结构的最重要的实验方法之一(它占所有沉积的PDB条目的>80%)。当涉及到复合物的结构时,所得到的晶体通常包含多个界面,其中一些与生物学相关,另一些仅仅是结晶过程的人工产物,即所谓的“晶体界面”。在没有额外信息的情况下,将晶体界面与生物界面区分开来仍然具有挑战性。


对接模型排名。对接是生成可能的蛋白质复合物三维模型的一个有价值的工具,并为实验确定结构提供了一个替代方法。对接旨在通过生成数万个候选构象(模型)来建模它们的相互作用模式。可靠地将原生模型/近原生模型与大量错误对接模型(错误模型)区分开来仍然是对接的一个主要挑战。


2

结果

生物和人工晶体PPIs分类。使用多个数据集的组合进行训练后,DeepRank在DC训练集上进行测试评估,其中包含了80个生物界面和81个晶体界面。在这个测试集上,DeepRank正确地分类了80个生物界面中的66个和81个晶体界面中的72个。因此,DeepRank的Accuracy为86%(图2C),优于最先进的方法PRODIGY-crystal 和PISA,分别为74和79%(图2D)。虽然89个测试用例在许多数据集中至少存在一个同源物,但从测试数据集中删除这些用例仍然可以达到准确率为82%的性能。

图2 生物界面和晶体界面评估


对接模型排名。作者使用HADDOCK为对接基准v5(BM5)集生成了一组各种质量的对接模型,包括刚体对接、柔性对接和最终的改进对接模型。DeepRank在超过30万个有标注的对接模型上进行了训练,以将模型分类为接近原生的或错误的,同时进行10折交叉验证评估。图3展示了两种方法在刚体模型上的对比。图3A展示了对接的大部分模型(93%)的iRMSD值大于4A,只有小于1%的模型的iRMSD值小于1A。图3B展示了DeepRank的得分在近原生模型和错误的模型之间有很好的区分,而HADDOCK得分有显著的重叠。在图3C的排名性能方面,DeepRank也显著地强于HADDOCK得分。

图3 DeepRank和HADDOCK在刚体模型上对比


为了进一步测试DeepRank的性能,作者使用所有142个BM5二聚体复合物的对接模型训练了一个最终的3DCNN模型,并将其应用于CAPRI score_set数据集中的13个示例。CAPRI score_set数据集由各种对接软件生成,代表一个独立的测试集。


本文定义的对接评估指标如下。

命中率(Hit Rate, HR)定义为某个特定复合物的所有近原生模型(near-native model)M与得分排序前 K个模型中近原生模型数目N_hits(K)的比例。

成功率(Success Rate, SR)定义为前N个选定模型中至少发现一个近原生模型的复合物的百分比。


图4 DeepRank和其他方法在CAPRI score_set上的命中曲线


图4和表2展示了DeepRank在CAPRI score_set数据集上与HADDOCK、iScore和DOVE的比较,在某些情况下优于其他方法,尤其是在N>200的情况下。如图4所示,当数据集中只有有限数量的近原生模型时,DeepRank表现得非常好,比如T30和T35(T30的1343个模型中有2个,T35的499个模型中的3个)。表2最后一行报告的成功率表明,不同的方法总体上表现相似。只有微小的差异出现:iScore在前10名中表现最好,成功率为54%,但DeepRank排名前200名,成功率为92%。


表2 DeepRank和其他方法在CAPRI score_set上命中数和成功率

3

总结

作者描述了一个用于挖掘非常大的蛋白质-蛋白质界面数据集的开源的、通用的和可扩展的深度学习框架。实验证明了DeepRank应用于结构生物学的两个不同挑战的有效性。作者希望DeepRank能够通过促进数据预处理的繁琐步骤和减少可能与大规模数据分析相关的令人生畏的计算成本,从而加快与蛋白质界面相关的科学研究。它的模块化和可扩展的框架在刺激计算结构生物学社区在其他蛋白质结构相关主题上的协作发展方面具有巨大的潜力,并将有助于结构生物学研究中深度学习技术的采用和发展。

参考资料

Renaud, Nicolas, et al. DeepRank: A deep learning framework for data mining 3D protein-protein interfaces. Nature Communications 12.1 (2021): 1-8.

https://doi.org/10.1038/s41467-021-27396-0


代码

https://github.com/DeepRank/deeprank

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/124522
 
439 次点击