Science | ProteinMPNN : 基于深度学习的蛋白序列设计

本文介绍华盛顿大学的蛋白质设计科学家D. Baker在2022年9月15发表在Science研究工作Robust deep learning–based protein sequence design using ProteinMPNN。研究团队开发了一种基于深度学习的蛋白质序列设计方法 ProteinMPNN，它在计算机和实验测试中均具有出色的性能。天然蛋白质骨架上，ProteinMPNN 的序列恢复率为 52.4%，而 Rosetta 为 32.9%。不同位置的氨基酸序列可以在单链或多链之间偶联，从而能够应用于当前广泛的蛋白质设计任务。研究团队使用 X-ray晶体学、cryoEM 和功能研究通过挽救以前失败的蛋白质单体设计(使用 Rosetta 或 AlphaFold设计的蛋白质单体、环状同源寡聚体、四面体纳米颗粒和靶结合蛋白)证明了 ProteinMPNN 的广泛实用性和高精度，

蛋白质序列设计问题是在给定感兴趣的蛋白质骨架结构的情况下，找到一个可以折叠成该结构的氨基酸序列。Rosetta基于物理的方法将序列设计视为能量优化问题，寻找对于给定输入结构具有最低能量的氨基酸同一性和构象的组合。深度学习方法已显示出在给定单体蛋白质骨架的情况下快速生成候选氨基酸序列的前景，而无需对侧链旋转异构状态进行大量计算。然而，迄今为止所描述的方法并不适用于当前蛋白质设计挑战的全部范围，并且尚未经过广泛的实验验证。

研究团队试图开发一种基于深度学习的蛋白质序列设计方法，该方法广泛适用于单体、环状低聚物、蛋白质纳米颗粒等。从具有 3 个编码器和 3 个解码器层以及 128 个隐藏维度的消息传递神经网络 (MPNN) 开始，使用蛋白质骨架特征-Cα-Cα 原子之间的距离，相对Cα-Cα-Cα 帧方向和旋转，以及主干二面角作为输入。首先寻求改善模型在恢复天然单链蛋白的氨基酸序列方面的性能，因为它们具有骨架结构。基于CATH蛋白质分类，来自PDB 的一组 19,700 个高分辨率单链结构被分成训练集、验证集和测试集 (80/10/10 )。研究人员发现，包括 N、Cα、C、O 和基于其他主链原子放置的虚拟 Cβ 之间的距离作为附加输入特征导致序列恢复从 41.2%（基线模型）增加到 49.0%。

为了能够应用于广泛的单链和多链设计问题，将固定的 N 到 C 端解码顺序替换为与顺序无关的自回归模型，其中解码顺序是从所有可能排列的集合中随机采样的，这也导致序列恢复的适度改进。顺序不可知解码可以在某些情况下进行设计。对于多链设计问题，为了使模型与蛋白质链的顺序等价，将每条链的相对位置编码保持在 ±32 个残基并添加了一个二进制特征，指示相互作用对残基是否来自相同或不同的链。研究人员使用灵活的解码顺序来固定对应位置集合中的残基身份。对于伪对称序列设计，链内或链之间的残基可以类似地受到约束；例如对于重复蛋白质设计，每个重复单元中的序列可以保持固定。通过预测每个状态的非归一化概率然后取平均值，可以实现编码两个或多个所需状态的单个序列的多状态设计；更一般地，预测的非归一化概率与一些正系数和负系数的线性组合可用于提升或降低特定骨架状态的权重，以实现明确的正序列或负序列设计。这种多链和对称感知模型的架构，我们称之为ProteinMPNN。. 研究人员针对 PDB 中的蛋白质组装(截至 2021 年 8 月 2 日)训练 ProteinMPNN，通过 X -ray晶体学或cryoEM确定其分辨率优于3.5Å，残基少于 10,000 个。

用骨架噪音训练提高了蛋白设计的模型性能

虽然蛋白序列设计方法通常侧重于从高分辨率晶体结构中最大限度地恢复蛋白质骨架的序列，但这对于实际的蛋白质设计应用来说并不一定是最佳的。研究团队发现，在添加了高斯噪声的骨架上的训练模型提高了 UniRef50 的 AlphaFold（平均 pLDDT>80.0）生成的蛋白质结构模型的序列恢复，而在未受干扰的 PDB 结构上的序列恢复显着降低。

ProteinMPNN 加强了设计骨架的序列到结构映射：在一组从头设计的包含使用 Rosetta 生成的骨架的配体结合口袋中，预测只有 2.7% 的原始设计序列折叠到设计目标结构，但在 ProteinMPNN 重新设计之后54.1% 被预测折叠到接近目标结构，将大大增加这些支架在设计小分子结合和酶功能方面的效用。

噪声ProteinMPNN 模型生成的序列通过 AlphaFold 更稳健地解码为 3D 坐标，这可能是因为噪声模型更关注整体拓扑特征，例如由整体极性-非极性序列模式编码，而不是局部结构细节。

ProteinMPNN的实验评估

虽然计算机中的天然蛋白质序列恢复是一个有用的基准，但蛋白质设计方法的最终测试是其生成折叠成所需结构并在实验测试时具有所需功能序列的能力。研究团队针对一组具有代表性的设计挑战评估了 ProteinMPNN，这些挑战包括蛋白质单体设计、蛋白质纳米笼设计和蛋白质功能设计。在每种情况下，都尝试使用 Rosetta 或 AlphaFold 生成的序列来挽救先前失败的设计。获得了编码设计的合成基因，蛋白质在大肠杆菌中表达，并在生化和结构上进行了表征。

结论

ProteinMPNN 解决序列设计问题的时间比 Rosetta 等基于物理的方法所需的时间少，该方法可进行大规模侧链计算，在天然骨架上实现更高的蛋白质序列恢复，并挽救了以前失败的使用 Rosetta 或 AlphaFold 设计的蛋白质单体、组件和蛋白质-蛋白质界面。与 Rosetta 和其他基于物理的方法不同，ProteinMPNN 不需要针对特定设计挑战进行专家定制，因此它应该使蛋白质设计更广泛地可访问。这种稳健性反映了如何构建序列设计问题的根本差异。在传统的基于物理的方法中，序列设计映射到识别其最低能量状态是所需结构的氨基酸序列的问题。然而，这在计算上是棘手的，因为它需要计算所有可能结构的能量，包括不需要的低聚和聚合状态。

ProteinMPNN 的高实验设计成功率，以及计算效率、适用于几乎所有蛋白质序列设计问题以及无需定制的要求，使其在蛋白质设计中具有非常广泛的用途。ProteinMPNN 生成的序列也具有更高的结晶倾向，极大地促进了设计蛋白质的结构确。预测ProteinMPNN 生成的序列比原始天然序列更可靠和更准确地折叠成天然蛋白质骨架的观察结果表明 ProteinMPNN 也可能广泛用于改善重组表达的天然蛋白质的表达和稳定性。

参考资料

Robust deep learning based protein sequence design using ProteinMPNN. Justas Dauparas, Ivan Anishchenko, Nathaniel Bennett, Hua Bai, Robert J. Ragotte, Lukas F. Milles, Basile I. M. Wicky, Alexis Courbet, Robbert J. de Haas, Neville Bethel, Philip J. Y. Leung, Timothy F. Huddy, Sam Pellock, Doug Tischer, Frederick Chan, Brian Koepnick, Hannah Nguyen, Alex Kang, Banumathi Sankaran, Asim Bera, Neil P. King, David Baker.

DOI: 10.1126/science.add2187