蛋白质是生命活动的主要承担者,其特定的三维结构决定了其特殊的生物学功能。生物体中蛋白质很少以单域的形式工作,更多的是与其他域或基团相互作用共同执行完整的生物学功能。在自然界中,大约有超过80%的真核蛋白和67%的原核蛋白质含有多个结构域,但实验测定蛋白质结构数据库中大约只有35%为多结构域蛋白质。由于缺少有效的共进化信息和全长同源模板,AlphaFold2预测的多域蛋白质结构模型精度明显低于单域蛋白精度。结构域组装方作为一类有效的多域蛋白质建模方法,采用“分而治之”的思想,将多域蛋白质分割成若干单域进行独立预测,再将它们组装成整体。组装方法中最为重要的是通过域间信息来确定域间残基距离,进而提高组装精度。目前域间信息包括模板信息、残基对距离信息。然而随着序列的增长和结构域数量的增多,很难找到有效的模板提供精确的域间信息。同时目前大多数残基对距离预测方法是基于单域蛋白质发开的,提供的域间信息有限。如何针对多域蛋白质的特点,预测域间残基对的距离分布,进而提高组装方法的建模精度,是一个值得关注的问题。浙江工业大学张贵军教授课题组2023年3月15日在生物信息领域期刊《Briefings in Bioinformatics》上发表了题为《Inter-domain
distance prediction based on deep learning for domain assembly 》的研究论文(图1)。提出了一种基于深度学习的域间距离预测方法(简称DeepIDDP)。在356个多域测试蛋白质上,DeepIDDP与主流的残基对距离预测方法进行了比较。DeepIDDP在域间距离预测指标top-L上分别比trRosetta和trRosettaX高21.6%和11.3%。进一步,DeepIDDP集成到了课题组之前开发的结构域组装方法SADA 中(链接:Bioinformatics | 浙江工业大学张贵军课题组:结构类似物导向的蛋白质结构域深度学习组装方法)
(简称SADA-DeepIDDP),在356个多域蛋白测试集上,SADA-DeepIDDP模型的平均TM-score比SADA高2.5%。在AlphaFold
Protein Structure Database (AlphaFold DB) 中按照一定规则选取的68个人类蛋白上,SADA-DeepIDDP重组模型精度(平均TM-score)比AlphaFold2高出11.8%。此外,文中还给出一个受体蛋白分析的案例,说明了DeepIDDP方法可以进一步扩展至复合物链间距离预测的能力和潜力。该论文通信作者为浙江工业大学信息工程学院张贵军教授,浙江工业大学信息工程学院葛锋其硕士生、彭春祥博士生为共同第一作者。图1. 《Briefings in Bioinformatics》发表论文
一. 研究方案
DeepIDDP工作流程如图2所示。在DeepIDDP中,作者首先设计了一个基于注意力机制的神经网络,针对性设计了两个域间特征来表征域间交互作用,然后,采用数据增强策略DPMSA应对某些目标蛋白质缺乏共进化信息的情况;最后,将DeeplDDP集成到课题组之前开发的域组装方法SADA,即SADA-DeeplDDP,进一步提高组装模型的精度。图2. DeepIDDP流程图
二. 实验结果
1. 域间残基对距离预测性能
DeepIDDP与残基对距离预测代表性方法trRosetta和trRosettaX在基准的多域测试集上进行了比较。该基准测试集由166个2域蛋白、69个3域蛋白、40个超过4域的蛋白和81个不连续蛋白组成。结果显示,在距离预测指标平均绝对误差 (MAE)上,DeepIDDP分别比trRosetta和trRosettaX低20.1%和18.7%。在接触预测指标top-L上,DeepIDDP分别比trRosetta和trRosettaX高21.6%和11.3%,图3显示了DeepIDDP与SADA、trRosettaX和trRosett在top-L指标上的散点图比较。此外,在Precision和F1指标上,DeepIDDP也比次优方法trRosettaX高26.0%和14.9%。综上所述,给定测试集上,DeepIDDP能够有效提高域间距离预测的精度。图3. DeepIDDP与比较方法在top-L指标上的比较结果
2. 组装方法性能
为了进一步验证DeepIDDP方法的有效性,作者将DeepIDDP集成到了课题组之前开发的结构域组装方法SADA中(称为SADA-DeepIDDP)。并重组了基准多域测试集中的356个蛋白质,同时与原始SADA方法进行了比较,结果如图4所示。总体而言,SADA-DeepIDDP模型的平均TM-score为0.82,比SADA
(0.80)高2.5%。特别是在3域和≥4域的蛋白上,SADA-DeepIDDP的表现更好,分别比SADA高6.9%和10.0%。这在一定程度上说明当结构域数量增加时,原先算法很难找到有效的结构类似物模板来确定域间方向。DeepIDDP能够比普通的距离预测方法(如SADA中使用的GemoNet)提供更多的域间信息来确定域间方向,进而提高组装精度。在域间方向指标iRMSD上,SADA-DeepIDDP也比SADA改进了14.5%。综上所述,在给定测试集上,DeepIDDP能够有效提升结构域组装方法的建模精度。图4. 不同多域蛋白类型上SADA-DeepIDDP和SADA组装模型的比较结果
3. SADA-DeepIDDP与AlphaFold2在人类多域蛋白的上的建模比较
AlphaFold2 几乎解决了单域结构预测的问题,但多域蛋白质结构建模仍有提升的空间。作者按以下条件从AlphaFold DB中系统地选择了68个人类多域蛋白并使用SADA-DeepIDDP进行了重组。(1)根据Mutildomain Protein Structure Database(MPDB)的定义,从AlphaFold
DB中筛选出多域蛋白质;(2) 筛除与DeepIDDP训练集序列冗余度≥40%的多域蛋白质;(3) 进一步筛除彼此序列相似度≥30%的多域蛋白质;(4) 最终选择TM-score≤0.80且覆盖率≥0.90的多域蛋白质作为最终的测试集。该测试集包含36个2域蛋白,21个3域蛋白,9个≥4域的蛋白和2个不连续蛋白。这68个人类多域蛋白质经SADA-DeepIDDP重组后,模型的平均TM-score分别比AlphaFold2和EMSFold分别提高了11.8%和11.6%。图5
(A)和(B)分别显示了SADA-DeepIDDP与AlphaFold2和EMSFold的TM-score散点图比较。图5
(C)是一个代表性的3域蛋白案例(PDB ID:1dt9A),其中由AlphaFold2分解得到的域1、域2和域3模型的TM-score分别为0.94、0.95和0.94,然而不正确的域间方向导致其全链模型的TM-score仅为0.80,同样的问题也出现在EMSFold方法中。而SADA-DeepIDDP正确地预测了域间方向并获得高精度的全链模型(TM-score=0.95)。图5 (D)是另一个具有代表性的案例(PDBID:1q8kA)。图5. SADA-DeepIDDP和AlphaFold2与ESMFold的全链建模比较
4. 受体蛋白复合物案例分析
药物通常需要与靶标蛋白相结合才能发挥全部作用,高精度的受体蛋白质复合物结构有助于提高靶点定位的精度。在文中作者通过一个受体蛋白例子来分析说明SADA-DeepIDDP方法的有效性。该蛋白质复合物在UintProt中ID号为P14867,是大脑中抑制性神经递质GABA异构体的组成部分,主要用于控制氯离子通道,并在功能抑制、GABA突触的形成中发挥重要作。作者使用DeepIDDP预测了P14867复合物的A链与B链之间的残基对距离分布,基于预测的链间距离图,采用SADA方法进行了复合物的组装,其中每条链都被视为一个虚拟的域,但是忽略了虚拟“域”之间的连接性要求。此外,作者还将A链与B链的序列合并组成一条全长序列,并通过AlphaFold2对其进行了预测。同时使用AlphaFold2的复合物版本 (AlphaFold-Multimer)预测复合物结构。结果如图6所示。图6. P14867复合物A链与B链建模结果
虽然AlphaFold2正确的预测了A
(黄色)链和B (绿色)链的独立结构,但是它对蛋白质-蛋白质相互作用的预测精度较低,导致了在整体结构中,右侧B链结构位置与天然结构 (灰色)有较大的差异。AlphaFold-Multimer是针对复合物开发的,它的模型精度有了明显提升,但是B链的位置仍有一定的偏差。而使用了DeepIDDP预测的链间残基对距离图的SADA组装方法,获得了较高的精度(TM-score=0.87)。三. 结论
DeepIDDP是一种基于深度学习的多域蛋白域间距离预测方法,基于MPDB数据库构建非冗余多域训练集,同时设计了一种具有注意机制的深度残差网络,并利用两个新的域间特征增强了域间残差对的距离预测能力。在此基础上,针对同源序列较差的多结构域蛋白,提出了DPMSA数据增强策略来增加域间共进化信息。DeepIDDP在域间距离预测性能上,优于目前主流的方法。此外,在给定的多域蛋白质测试集上的组装实验表明,结合SADA算法,DeepIDDP能够有效提升结构域组装的建模精度。该工作也进一步验证了复合物链间相互作用与域间的相互作用有相似之处的设想。该研究得到了国家重点研发项目计划、国家自然科学基金、浙江省自然科学基金重点项目的资助。原文链接:
https://doi.org/10.1093/bib/bbad100
DeepIDDP服务器链接:
http://zhanglab-bioinf.com/DeepIDDP/
SADA服务器链接:
http://zhanglab-bioinf.com/SADA/
MPDB数据库链接:
http://zhanglab-bioinf.com/SADA/