蛋白质是生命活动的基本执行者,其三维结构决定了信号传导、代谢调控、基因表达等众多生命过程的正常运作。蛋白质结构预测的准确性直接关系到新药开发、酶设计等前沿生物技术领域的突破。近年来,以AlphaFold2为代表的深度学习方法在蛋白质结构预测领域取得了里程碑式的进展,极大地提高了预测精度。然而,这些纯粹基于深度学习的方法在处理复杂的多结构域蛋白质以及同源模板稀缺的蛋白质时,仍面临显著挑战。此外,它们在解释蛋白质折叠机制、探索多种构象状态方面的能力也相对有限。
为应对这一挑战,新加坡国立大学张阳团队开发了一种名为D-I-TASSER(Deep-learning-based Iterative Threading Assembly Refinement)的混合深度学习方法。该方法将深度学习的特征提取能力与迭代穿线组装模拟的物理精确性相结合,能够高精度地预测单结构域和多结构域蛋白质的原子级别三维结构。D-I-TASSER的不仅拥有卓越的预测性能,还具有探索蛋白质多种构象状态的能力。
该研究成果于2025年5月23日,以“Deep-learning-based single-domain and multidomain protein structure prediction with D-I-TASSER”为题发表在国际知名期刊Nature Biotechnology期刊上。
D-I-TASSER的框架如图1所示,是一个融合了深度学习与物理模拟迭代的混合架构,其特点在于将深度学习的模式识别能力转化为精确的原子级别空间约束,进而将这些约束作为驱动力,引导基于物理原理的迭代结构组装与细化模拟过程。这赋予了模型在预测复杂的多结构域蛋白质结构的卓越性能。
D-I-TASSER的运行始于对目标蛋白质序列的知识萃取与准备。它首先通过自主研发的DeepMSA2模块,在海量基因组和宏基因组数据库中进行迭代搜索,并利用简化的AlphaFold2模型对生成的多序列比对(MSA)进行智能排序,从而确保MSA的深度和质量,为后续提供丰富的进化信息。与此同时,模型使用LOMETS3元穿线服务器来识别与目标序列具有潜在结构相似性的已知蛋白质模板,从而为模拟提供重要的初始构象和全局折叠参考。
精炼完毕的MSA信息被进一步输入到D-I-TASSER的空间约束预测模块中。该模块整合了AlphaFold2、DeepPotential等多个深度学习模型,来预测蛋白质残基间的各种原子级别空间约束,包括距离分布、接触图以及氢键网络。这些预测结果将被进一步编码为各类驱动蛋白质折叠的能量势能,为后续的物理模拟提供指导。
为了克服多结构域蛋白质预测的挑战,D-I-TASSER引入了结构域划分与多结构域结构组装模块。如图2所示,该模块能够识别蛋白质序列中的结构域边界,并对每个独立结构域进行单独的MSA生成和约束预测。其创新点在于它通过独特的“棋盘式”全链MSA生成和域级别模板组装策略,将域内部和域之间的相互作用信息融合,生成包含域内和域间相互作用的全链空间约束。对于有合适模板的结构域,它们的模板会被组装为初步的“全链”模板作为迭代模拟的初始结构之一。随后模型通过基于迭代复制交换蒙特卡洛(REMC)结构组装模块与D-I-TASSER力场,将前面生成的深度学习预测约束、模板信息以及传统的生物物理学原理,融合到一个包含24个能量项的D-I-TASSER力场中。这个力场既包含了数据驱动的“知识势能”,也遵守基本的物理化学规律。模型随后通过REMC模拟算法,从LOMETS3识别的穿线模板、以及由AlphaFold2和DeepFold生成的初始构象出发,并结合多种构象移动方式,在混合力场的驱动下,探索蛋白质的构象空间,通过迭代优化过程,输出一个包含大量构象的集合。
最后,模型进入原子级别结构细化与质量评估阶段。REMC模拟生成的大量粗糙构象将通过聚类选出代表性结构,并进行主链和侧链原子的精确重建与优化。最终,通过短时间的片段引导分子动力学模拟,对选定的预测结构进行原子级别的局部优化和细化,消除立体冲突并改善几何学,最终输出目标蛋白质的三维原子坐标结构。模型内部还利用eTM分数对预测结构的质量进行可靠评估,综合考量模拟收敛性和约束满足度,以确保输出模型的准确性和可靠性。
D-I-TASSER并非端到端的深度学习模型,而是采用了分阶段、深度学习与物理模拟相结合的混合式预测流程。首先,模型整合了业内先进且预训练完成的多种深度学习算法,精准预测蛋白质结构所需的空间约束信息。随后,在结构折叠阶段,D-I-TASSER将这些几何和空间约束与经典物理力场结合,构建混合知识能量函数,并利用REMC模拟算法,通过不断生成并评价大量蛋白质结构候选,对构象空间进行系统搜索。每一次构象调整后,系统会依据能量函数及约束情况判断该结构是否被接受,最终在多次迭代与不同参数温度的交换下,获得能量最低且最符合已知约束的最优蛋白质模型。
为保障各独立模块的协同与整体流程的最优性能,研究团队构建了一个包含 243 个非冗余蛋白的校准数据集。该数据集用于流程中各关键参数的系统调优,包括 LOMETS3 模板筛选的z-score阈值、不同接触预测方法的置信度截断点及约束权重因子的优化等,从而确保整个 D-I-TASSER 流程的整体性能达到最优。
在评估和验证D-I-TASSER的性能时,研究团队构建并采用了几个高标准、多样化的测试集。首先是Benchmark-I,这是一个包含500个非冗余“难预测”单结构域蛋白质的集合,这些蛋白质缺乏显著的同源模板,专门用于检验模型在从头预测或远缘同源建模方面的能力。其次,Benchmark-II包含了230个非冗余的多结构域蛋白质(覆盖2至7个结构域),旨在评估D-I-TASSER在处理复杂的多结构域组装问题上的性能。此外D-I-TASSER还在CASP15中与其他顶尖方法在进行了全面的比较。
D-I-TASSER在单结构域蛋白质、多结构域蛋白质以及CASP盲测中与其他同类模型进行了比较。图3展示了D-I-TASSER在单结构域蛋白质预测中的消融实验结果以及与AlphaFold系列方法的比较。结果显示D-I-TASSER不仅相较于前代模型有着巨大的性能提升,在高达98%的靶标中都取得了更好的表现;还超越了包括AlphaFold3在内的所有方法。消融实验的结果也表明,D-I-TASSER中引入的各个约束模块以及DeepMSA2对于预测精度的重要贡献。此外,D-I-TASSER在实际预测中也有非常好的表现,在面临LOMETS3检索到的模板质量不佳的情况下,D-I-TASSER依旧能够依靠其深度学习模块和多轮REMC模拟来准确地预测结构。
图3:D-I-TASSER在高难度单结构域蛋白质预测中的性能表现(a) (b) D-I-TASSER与前代模型的性能比较;(c) D-I-TASSER与AlphaFold2的性能比较;(d) D-I-TASSER关键组件的贡献分析;(e)LOMETS3提供的模板与实际结构的叠合情况;(f) D-I-TASSER预测结构与实际结构的叠合情况;(g)D-I-TASSER的预测距离图与实际距离图对比;(h)REMC模拟循环次数对预测精度的影响。
对于结构更为复杂、域间相互作用预测更具挑战性的多结构域蛋白质,D-I-TASSER同样表现出色。图3展示了D-I-TASSER与AlphaFold2在多结构域蛋白质预测的性能对比,能够在全链水平上,D-I-TASSER的平均TM-score为0.720,较AlphaFold2的0.638高出12.9%,并在88%的全链蛋白质上获得更高TM-score。在单个结构域的折叠精度上,D-I-TASSER也以0.858的平均TM-score略高于AlphaFold2的0.835。并且D-I-TASSER在不同复杂度多结构域蛋白上的稳健性均一致且显著地优于AlphaFold2,这一结果表明D-I-TASSER在多结构域建模策略具有普适性和高效性。
图4:D-I-TASSER在多结构域蛋白质预测中的性能表现(a) D-I-TASSER与AlphaFold2在全链的性能比较;(b) D-I-TASSER与AlphaFold2在单个结构域的性能比较;(c) 不同结构域数量下D-I-TASSER与AlphaFold2的性能比较。
D-I-TASSER(以UM-TBM团队名参赛)在CASP15的盲测结果如图4所示。D-I-TASSER在应单结构域预测中的Z-score总和高达67.20,远超包括AlphaFold2 (Z-score=32.05) 在内的所有对手;在更具挑战性的多结构域预测中,D-I-TASSER更是以35.53的Z-score总和遥遥领先,证明了D-I-TASSER作为自动化方法中具有突出的性能。此外D-I-TASSER还和具有代表性的人类组方法Wallner进行了比较,图4-d的结果表明D-I-TASSER展现出明显优势,在单结构域预测的从头建模赛道中,D-I-TASSER的平均TM-score比Wallner高出14.7%;在多结构域靶标上高出24.1%。D-I-TASSER最后在CASP15的部分测试集中与各版本的AlphaFold进行了比较,均展现出了显著的优势。
图5:D-I-TASSER在CASP15中的性能表现(a) CASP15单结构域预测赛道中D-I-TASSER与其他方法的性能比较;(b) CASP15多结构域预测赛道中D-I-TASSER与其他方法的性能比较;(c) (d) D-I-TASSER与AlphaFold2、人类组方法Wallner针对112个单结构域靶标和22个多结构域靶标的性能比较;其中红色代表从头建模的单结构域预测,蓝色代表基于模板的单结构域预测,绿色代表多结构域预测;(e) D-I-TASSER与各版本AlphaFold的性能比较。
D-I-TASSER代表了蛋白质结构预测领域的重大突破,其核心创新在于巧妙地将深度学习的模式识别能力与物理模拟的精细构象搜索深度融合。这一混合范式使其在“难预测”单结构域和复杂多结构域蛋白质的预测上展现出卓越性能,尤其在CASP15等基准测试中超越了包括AlphaFold2/3在内的顶尖方法。其针对多结构域的“结构域拆分与组装”策略及DeepMSA2提供的优质比对是关键技术亮点。然而,D-I-TASSER的性能仍依赖于MSA的深度,且相较纯深度学习模型计算成本更高(平均计算时长增加近6倍),此外模型目前主要聚焦于单体蛋白,扩展应用范围至蛋白质复合物的预测仍是未来优化的方向。
参考文献
Zheng W, Wuyun Q, Li Y, et al. Deep-learning-based single-domain and multidomain protein structure prediction with DI-TASSER. Nature Biotechnology, 2025: 1-13. doi:10.1038/s41587-025-02654-4
本文转自【ComputArt计算有乐趣
】公众号
感兴趣的读者,可以添加小邦微信加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位或姓名-学校-职务/研究方向。