今天为大家介绍的是来自Jinbo Xu研究团队的一篇关于蛋白质结构预测的论文。蛋白质侧链装配(Protein side-chain packing,PSCP)是指在只给定主链原子位置的情况下确定氨基酸侧链构象的任务,对蛋白质结构预测、精化和设计具有重要应用。了解决这个问题,作者提出了AttnPacker,一种用于直接预测蛋白质侧链坐标的深度学习(DL)方法。与现有方法不同,AttnPacker直接利用主链的三维几何信息,同时计算所有侧链的坐标,而无需借助离散的构象库或进行昂贵的构象搜索和采样步骤。这大大提高了计算效率,相比基于DL的方法DLPacker和基于物理的RosettaPacker,推理时间减少了超过100倍。
蛋白质侧链装配涉及根据主链构象和主链序列,预测蛋白质侧链原子的三维坐标。这个问题在蛋白质结构预测、设计和蛋白质相互作用等方面有重要的应用。传统的PSCP方法依赖于在固定库中的一组构象中最小化能量函数。这些方法在选择构象库、能量函数和能量最小化过程方面存在差异。尽管其中许多方法已经取得了成功,但使用搜索启发式方法和离散采样过程可能会限制其准确性。在一系列互补的研究中,已经开发出了许多用于固定骨架蛋白质设计(通常称为蛋白质逆向折叠)的机器学习方法。类似于PSCP,固定设计方法旨在寻找一种能够折叠成给定骨架结构的蛋白质序列。尽管这两个任务的输出不同,但两个问题都需要对序列和结构的兼容性进行推理,作者假设单一的架构可以有效地建模这两个任务。
在这里,作者介绍了一种用于PSCP的深度架构,称为AttnPacker。作者的方法受到了最近在建模三维数据和蛋白质结构预测架构方面取得的进展的启发,尤其是AlphaFold2、Tensor Field Networks(TFN)和SE(3)-Transformer。通过修改和组合这些架构的组件,作者的方法能够在速度、内存效率、侧链原子冲突以及整体准确性方面明显优于其他PSCP方法,而仅使用直接从主要序列和主链坐标中得出的特征。
AttnPacker的框架如图1所示。所有输入特征都是从主要序列和主链重原子坐标派生而来。给定一个蛋白质的主链,具有L个氨基酸残基主链由其氨基酸序列和原子坐标表示。集合{N, Cα, C, O}为氨基酸的原子类型。残基特征包括氨基酸类型的编码、主链二面角、相对序列位置以及对应残基周围微环境中原子的数量。
模型由两个模块组成。第一个模块是局部感知图变换器(Locality Aware Graph Transformer),它有选择地更新节点和成对特征。第二个模块是基于TFN的SE(3)-等变transformer。第二个模块与第一个模块的不同之处在于TFN不会更新成对特征。此外,第二个模块基于输入主链坐标定义的固定基础进行操作。由于在推理过程中主链坐标也是固定的,这种架构自然适用于侧链预测。选择这些组件能够在不依赖构象库或昂贵的构象采样的情况下,预测给定蛋白质的所有侧链原子的三维坐标。
在PSCP的基础上,作者设计了AttnPacker的一个变种,可以同时从部分序列信息中预测侧链构象和残基类型。PSCP和逆折叠任务都涉及到序列和结构的兼容性推理,作者假设可以使用相同的架构来处理这两个任务。为了实现这一点,在训练过程中随机对输入序列的子集进行掩盖和损坏,并要求模型预测这些缺失残基的氨基酸类型和侧链构象。
除了侧链构象外,AttnPacker还输出每个残基的序列预测和构象质量的估计值。这在蛋白质设计领域非常有用,因为实践者可能对确定序列-结构兼容性的程度感兴趣。为了估计构象质量,作者为每个氨基酸侧链中的预定义原子预测了每个残基的局部距离差异测试(plDDT)分数。在图2中,作者展示了该指标与真实侧链plDDT以及侧链rmsd和二面角误差之间的强相关性。
作者首先比较CASP13和CASP14测试集上的平均rmsd和二面角准确性。对于天然已知结构,如表1所示,作者的方法(AttnPacker和AttnPacker+Design)在两个数据集上在每个中心性类别上都保持最低的rmsd值。这种表现也体现在二面角预测准确性上,无论残基的中心性如何,我们的方法在两个数据集上都达到了最佳表现。值得注意的是,基于物理原理的RosettaPacker在核心残基上表现良好,但其在表面残基上的准确性最终影响了其整体性能。与DL方法DLPacker相比,作者的方法在所有中心性类别上的rmsd分数明显较低,尤其是在表面残基上改进最大,还在每个测试集上将整体二面角准确性提高了超过3%。
将蛋白质侧链装配方法直接与蛋白质结构预测方法进行比较是困难的,因为预测的三级结构可能与真实结构相差很大。当预测的骨架结构偏离真实情况且原子之间的接触没有保持时,侧链 MAE 和 rmsd 统计数据也失去了可解释性。为了公平地将结构预测方法与侧链装配方法进行比较,作者限制在主文中仅考虑与原始结构的rmsd 最大为2.5 Å 的预测骨架。如表2所示,从 AlphaFold2 中丢弃 MSA 信息可以看出从结果可以看出,丢弃 AlphaFold2 的 MSA 信息会导致性能大幅下降。在 RMSD 方面,带有 MSA 的 RosettaFold 稍微优于不带 MSA 的 AlphaFold2,具有稍高的平均 RMSD 但更好的二面角准确性。这些方法相对较差的性能可能归因于背骨预测的不准确性,其中 RosettaFold 和 AF2+Temp 的平均 RMSD 分别为 13 Å 和 15 Å。很可能 MSA 信息也对 AlphaFold2 在 CASP14 目标上的成功发挥了作用,其中 OmegaFold 使用了几乎相同的架构,但在二面角准确性方面不及 AlphaFold2。部分降低可以归因于 OmegaFold 对 CASP13 目标预测的更准确的背骨构象,其平均 RMSD 为 4 Å,而对于 CASP14 目标,平均 RMSD 增加到 6 Å。对于 PSCP 方法而言,AttnPacker表现出色,整体rmsd明显更低,而 MAE的改进幅度较小,略优于OmegaFold。对于一些目标,AttnPacker的packings的rmsd几乎比AlphaFold2低了30%。
作者开发了AttnPacker,这是一个SE(3)-等变模型,用于直接预测序列和侧链坐标。AttnPacker利用从蛋白质主链坐标中获取的空间信息,有效地建模了残基和成对邻域。结合SE(3)-等变的架构,可以在不进行构象采样或离散的旋转体选择的情况下同时预测所有侧链旋转体。作者的深度学习模型的组成部分受到AlphaFold2和SE(3)-Transformer的启发。通过概括和仔细评估这些架构的思想,模型能够实现相当或更好的准确性,同时大大提高效率。
McPartlon, M., & Xu, J. (2023). An end-to-end deep learning method for protein side-chain packing and inverse folding. Proceedings of the National Academy of Sciences, 120(23), e2216438120.