Nat. Commun. | 通过深度学习对大量天然抗体进行快速、准确的抗体结构预测

编译 | 曾全晨
审稿 | 王建民

今天为大家介绍的是来自约翰霍普金斯大学的一篇抗体结构预测的论文。抗体能够结合多种多样的抗原，已成为关键的治疗诊断分子。抗体的结合通过一组经过基因重组和突变的六个高度可变环来促进。尽管取得了最近的进展，但这些环的精确结构预测仍然具有挑战性。本文介绍了IgFold，一种用于抗体结构预测的快速深度学习方法。IgFold由一个在5.58亿个天然抗体序列上进行预训练的语言模型组成，然后通过图网络直接预测骨架原子坐标。与其他方法（包括AlphaFold）相比，IgFold在显著更短的时间内（不到25秒）预测出类似或更高质量的结构。这种时间尺度上的准确结构预测使得以前无法实现的研究成为可能。

抗体在抵抗外来病原体的免疫应答中起着关键作用。通过基因重组和超突变，适应性免疫系统能够产生大量潜在抗体。免疫库测序让我们了解个体的抗体种群。然而，仅通过序列数据无法完全了解免疫库。抗原结合依赖于互补决定区（CDR）六个循环的结构。精确建模CDR循环有助于理解这些结合机制并设计特异性抗体。但是，重链第三CDR循环（CDR H3）由于其序列和长度的多样性，在建模方面面临挑战。深度学习方法引领了蛋白质结构预测的革命。AlphaFold的发展使得蛋白质结构预测变得普遍可及。与此同时，如DeepAb和ABlooper等针对抗体的深度学习方法显著提高了CDR循环建模的准确性。但它们的局限性仍然存在。在这项工作中，作者提出了IgFold：一种快速、准确的端到端抗体结构预测模型。IgFold利用了AntiBERTy的嵌入，这是一个在5.58亿自然抗体序列上预训练的语言模型，直接预测定义抗体结构的原子坐标。IgFold的预测准确度能与AlphaFold模型相匹配，但速度更快（不到25秒）。IgFold还提供了超越其他抗体特异性模型的灵活性，包括稳定地融入模板结构和支持纳米抗体建模。

图1 抗体结构的端到端预测方法图

来自预训练模型的嵌入对结构特征进行编码

如图1所示，IgFold利用从预训练的AntiBERTy语言模型中学习到的表征，直接预测三维原子坐标。为了研究AntiBERTy的序列嵌入是否包含的结构特征，作者为3467个配对的抗体序列与PDB中实验确定的结构生成了特征嵌入，并进行了二维可视化。结果表明，AntiBERTy仅通过序列预训练就学会了CDR环路的一些区分性结构特征。为了从序列嵌入中预测抗体的3D原子坐标，作者采用了图形表示法，每个残基作为一个节点，并在所有残基对之间传递信息。节点和边缘的初始化分别使用了AntiBERTy模型的隐藏层嵌入和残基间注意力矩阵。结构预测模型使用了图变换器层和边缘更新，以及不变点注意力（IPA）层来整合结构模板信息。与AlphaFold不同，这里的IPA被设计为一种结构感知自注意力形式，直接从3D坐标中将局部结构环境整合到序列表示中。为了训练模型，研究者通过破坏真实标签结构来生成类似模板的结构，并使用两个IPA层整合这些模板信息。这种方法使模型能够在预测过程中仅从具有有意义坐标的残基中整合结构信息。作者使用一组IPA层来预测最终的3D抗体结构，在此采用了类似于AlphaFold的策略，通过训练一系列IPA层将每个残基从原点移动到最终预测位置。与AlphaFold略有不同，为每个IPA层学习单独的权重，并允许梯度传播。通过最小化预测坐标与实验结构之间的误差，来训练结构预测模型。第一个IPA层学习残基的全局排列，而后两个层生成正确比例的结构。

用AlphaFold对结构数据集进行扩增

作者从结构抗体数据库（SAbDab）获取了大量抗体结构来训练模型。为了产生多样化的训练数据，作者将观察抗体空间按序列相似性聚类。这产生了大量配对和未配对的序列。使用原始的AlphaFold模型进行预测，并对输入数据进行调整以实现复合物建模。

预测的结构在重构前是高质量的

IgFold模型直接预测结构坐标作为输出，但并非所有预测都符合真实的分子几何。通过Rosetta优化可修正这些不规范结构。总体上，优化前后结构变化很小，但直接预测较长的CDR回路（特别是CDR H3）时，可能会出现不真实的键长和主链扭曲角。这表明直接预测长CDR回路的原子准确结构仍具有挑战性。

深度学习方法在CDR H3的准确性上趋于一致

表 1

如表1所示，在评估的四种深度学习方法中，对高度可变、构象多样的CDR H3环的平均预测精度相对一致（表1），尽管IgFold的平均表现最好。鉴于这种性能的趋同，作者再次考虑了每种方法预测的CDR H3环结构之间的相似性。IgFold、DeepAb和ABlooper产生了最相似的CDR H3环，三种方法预测的结构之间的平均RMSD为2.01-2.34 Å。这可能反映了这些方法所使用的相似的训练数据集，这些数据集仅限于抗体结构。相比之下，AlphaFold-Multimer预测了最明显的CDR H3环，与其他深度学习方法的平均RMSD为3.10-3.57 Å。

图2

鉴于广泛使用AlphaFold预测的结构来训练IgFold，IgFold和AlphaFoldMultimer之间预测的差异性令人惊讶。作者比较IgFold和AlphaFold-Multimer的每个目标的准确性时，我们发现很多情况下，一种方法准确地预测了CDR H3环，而另一种方法则失败了（图2b）。事实上，两种方法预测的CDR H3环路中，有20%的环路相差>4 Å RMSD，这意味着两种方法经常预测不同的构象。为了说明这些预测差异的结构含义，文中强调了IgFold和AlphaFold-Multimer在基准中的两个目标。在其中一个例子中（目标7N3G39，图2c），AlphaFold-Multimer有效地预测了CDR H3环状结构（RMSD H3 = 0.98 Å），而IgFold预测了一个不同的，而且不正确的构象（RMSD H3 = 4.69 Å）。然而，对于另一个例子（目标7RNJ40，图2d），IgFold更准确地预测了CDR H3环路结构（RMSD H3 = 1.18 Å），而AlphaFold-Multimer预测了另一种构象（RMSD H3 = 3.46 Å）。

快速的纳米抗体结构预测仍然是一个挑战

对于纳米抗体结构预测，IgFold和其他方法表现出高准确性，尤其在框架残基上。AlphaFold在CDR3回路预测方面表现最好，IgFold次之。IgFold在预测纳米抗体特异性回路构象方面具有优势，但在某些情况下，AlphaFold由于其广泛的训练数据集在预测特定结构方面更强大。总的来说，IgFold在纳米抗体结构预测方面表现良好且速度较快。

模板数据被成功纳入预测范围

图3

IgFold能够成功地将部分结构信息（如模板数据）整合到预测中，从而提高抗体结构模型的质量。如图3，对于大多数目标，提供非H3模板信息对CDR H3回路结构的准确性影响较小，而对于纳米抗体，提供模板数据能显著改善CDR3回路预测。此外，将整个晶体结构提供给IgFold作为模板信息，模型在非CDR3模板区域的整合也得到了改善。这种方法对于预测结构的实际应用价值有限，但可能对于将结构信息引入预训练嵌入中（用于其他抗体学习任务）非常有用。

最小化重构产生更快的预测结果

IgFold在抗体结构预测的速度上明显优于其他方法。对于成对抗体，IgFold平均需要23秒，而其他方法所需时间更长。对于纳米抗体，IgFold同样优越，平均仅需15秒。所有方法的运行时间通常随序列长度的增加而增加。尽管深度学习方法在预测准确性方面相近，但在预测速度方面却存在显著差异。IgFold在速度和准确性上的优势使其成为抗体结构预测的有力工具。

成对抗体结构的大规模预测

IgFold的主要优势是在预测抗体结构方面的速度，使其能够在适度的计算资源上进行大规模抗体结构预测。作者使用IgFold预测了两个非冗余成对抗体集的结构，具有较高的准确性。文中的预测数据集相较于实验确定的结构数量大约扩展了500倍，为未来研究提供了宝贵的资源。

基准数据集

为了评估IgFold和其他抗体结构预测方法的性能，作者从SAbDab收集了一组高质量的成对和单链抗体结构。为了确保没有一个深度学习模型是用基准结构训练的，只使用了2021年7月1日到2022年9月1日之间存放的结构（在DeepAb、ABlooper、AlphaFold和IgFold被训练之后）。结构被限定为99%的序列同一性。最后，删除了CDR H3环长于20个残基的结构（根据Chothia编号）。这些步骤产生了197个成对的和71个单链的抗体结构作为基准方法。

结论

IgFold是一种快速、准确的抗体结构预测模型，与AlphaFold具有相似的准确性，但速度更快。它能够在数秒内预测结构，并为每个预测提供误差估计。IgFold的速度和准确性使其适用于大规模抗体结构分析。此外，IgFold有望改进抗体-抗原对接方法、抗体设计和深度学习方法应用。

参考资料

Ruffolo, J.A., Chu, LS., Mahajan, S.P. et al. Fast, accurate antibody structure prediction from deep learning on massive set of natural antibodies. Nat Commun 14, 2389 (2023).

https://doi.org/10.1038/s41467-023-38063-x