Nat. Commun. | 利用深度学习改进蛋白质结合物设计

编译 | 曾全晨
审稿 | 王建民

今天为大家介绍的是来自David Baker的一篇关于蛋白质结合物设计的论文。目前的算法仅凭目标结构信息就可以从头设计具有高亲和力的蛋白质结合物。然而，最后的设计成功率仍然较低，因此算法仍有很大的改进空间。在此项研究中，作者探索了利用深度学习增强基于能量的蛋白质结合物设计。作者发现，使用AlphaFold2或RoseTTAFold评估设计的序列采用设计的单体结构的概率，以及这种结构与目标的设计结合概率，可以将设计成功率提高近10倍。此外，作者还发现，使用ProteinMPNN而不是Rosetta进行序列设计可以大大提高计算效率。

设计与目标蛋白质特异性高亲和力的蛋白质结合物的方法在生物医学中具有重要意义，可用于生成候选治疗药物、诊断试剂和成像试剂。目前，最常用的方法包括使用目标蛋白质免疫动物以诱导抗体产生，或者筛选高复杂性的随机抗体库或其他骨架的结合活性。尽管这些方法功能强大，但需要大量实验工作，并且对于最终结合分子的性质控制有限。计算设计结合物的方法可以提供更快速的途径，以获得具有所需生物物理特性并能针对特定表面区域的亲和试剂。最近，研究人员开发了一种基于Rosetta的通用方法，仅利用目标的结构即可设计结合蛋白质，并成功设计了与13个不同目标位点结合的蛋白质结合物。该方法针对目标的指定区域，设计序列，预测其折叠成具有与该区域形状和化学互补性的蛋白质结构。虽然提供了一种通用的计算路径，可以针对任意蛋白质目标设计结合物，但因为通常只有一小部分结合物达到要求，该方法需要筛选大量计算设计的结合物，以确定有足够高亲和力以进行实验检测的命中率。

与基于物理模型的蛋白质结合物设计方法相比，深度学习方法在蛋白质结构预测方面取得了前所未有的准确性。深度学习结构预测方法AlphaFold2（AF2）和RoseTTAFold（RF）拥有数亿个参数，通过在大规模的蛋白质序列和结构数据集上进行训练获得，并不对成对分解性或功能形式做出假设。深度学习方法不采用基于能量引导的随机构象采样方法，而是学习序列和可能结构表示的迭代转换，这些转换很快收敛到通常相当准确的模型。对于自然存在的蛋白质结构的准确预测，无论是AF2还是RF通常都需要多个序列比对，但对于从头设计的序列来说，这些序列通常比自然存在的蛋白质更稳定和更规则，可以从单个序列中获得准确的预测。在蛋白质结构模型的准确性预测方面也取得了进展，例如DeepAccuracyNet（DAN）使用由局部原子环境的三维卷积组成的表示，实现了CASP14准确性预测中的最高性能。

图 1

作者推测，这些新开发的深度学习方法可以提高基于Rosetta的蛋白质结合物设计的成功率。正如上文所述，虽然该方法为任意蛋白质目标的结合物设计提供了通用的计算路径，但整体成功率相当低。该方法存在两个主要的失败模式（图1a）：首先，设计的序列可能无法折叠成预期的单体结构，其次，设计的单体结构可能实际上无法与目标结合（图1b）。基于物理的Rosetta方法将折叠和结合问题都以能量的形式进行建模；要使该方法成功，设计的序列在孤立状态下的最低能量状态必须是设计的单体结构，而设计的单体结构与目标之间的复合物的能量必须足够低，以促使设计-目标蛋白质复合物的形成。准确设计单体结构和蛋白质-蛋白质界面的主要挑战在于能量函数的不准确性，为了计算可行性，能量函数通常表示为成对可分解项的总和。此外，需要对大规模的空间进行采样；如果能量函数不准确，或者构象采样不完整，设计的序列可能无法折叠成预期的单体结构和/或单体可能无法如预期般与目标结合。在此项研究中，作者开发了一种利用深度学习增强的全新蛋白质结合物设计方法。这种改进的方法的成功率几乎是原始基于能量的方法的10倍。

对类型 I 失败的回顾性分析

作者首先研究了深度学习方法区分结合物和非结合物的能力。对于每个靶标，实验测试了15,000到100,000个设计，实际的结合物数量从1个到584个不等。

作者首先专注于识别类型 I 失败（图1），即设计的序列不能折叠成预期的单体结构。作为基准，作者使用了单体的Rosetta能量，通过链长进行归一化。由于这个度量已经被用作生成Rosetta界面设计计算的输入骨架集的严格过滤器，它提供的区分能力很小（图1d）。相反，基于深度学习的准确性预测方法DAN能够部分区分结合物和非结合物（图1d）。

虽然DAN非常快速，每个单体结构约需要0.5个GPU秒，但AF2结构预测相对较慢（约5个GPU秒）。作为对AF2在单体结构建模方面效用的初步测试，作者评估了AF2预测五个小型结合物结构的能力，这些结构已经在实验中解析出来（用于与TrkA、FGFR2、IL-7Rɑ和SARS-CoV-2 Spike蛋白结合的设计）。仅给定设计结合物的单个序列，AF2预测的单体结构与结合物精度在0.2 Å至0.8 Å之间，对于除LCB1外的所有结合物都具有1.5 Å的准确度。更新版本的RoseTTAFold也被发现能够预测所有单体结构，其结合物Cɑ精度在0.2 Å至0.8 Å之间，只有TrkA的预测精度为1.8 Å。

针对每个靶标的每个设计序列，作者使用AF2或RF2以单个序列作为输入，预测结合物单体的结构。结果发现，预测的结合物结构与Rosetta设计的结构在Cɑ RMSD方面越接近，结合物成功的可能性越大。除此之外还发现，预测的置信度指标pLDDT与成功有关（图1d）；这两个指标之间存在很强的相关性。这些结果表明，类型 I 失败导致结合物设计的成功率较低，并且这种失败部分可以通过模型与AF2或RF2结构预测之间的差异来识别。

对类型II失败的回顾性分析

为了估计设计的结合物结构与目标的界面形成可能性，Cao等人（Design of protein-binding proteins from the target structure alone: https://www.nature.com/articles/s41586-022-04654-9）主要使用了Rosetta计算的结合复合物和未结合单体之间的能量差异（允许侧链重排），尽管在原始计算过程中广泛使用了该度量，Rosetta ddG仍然是一个有效的过滤器（图1e）。作者调查了DAN在辅助评估设计复合物结构准确性方面的效力。结果发现，DAN的复合物准确性度量与Rosetta ddG几乎具有相同的结合物成功预测能力（图1e）。

为了使AF2在目标建模错误的情况下用于结合预测，作者尝试将目标结构作为模板提供给模型。可以发现这使得AF2能够预测正确的COVID Spike结构，但导致除FGFR2外的所有界面都被错误预测。接下来，作者尝试使用Rosetta结合物结构的编码初始化AF2成对表示，作者将此方法称为"AF2 initial guess"。使用目标模板和初始猜测的AF2，能够重现所有5个小型结合物界面的实验确定结构，结合物Cɑ精度在1.0 Å至2.0 Å RMSD之间。值得注意的是，除了LCB1和LCB3之外的所有结构，AF2预测的结构与实验确定的结构比原始设计模型更接近。

随后作者使用AF2 initial guess方法和没有起始模型的RF2为每个靶标的每个设计序列生成复合物模型，并将预测的复合物结构与设计的复合物结构进行比较。预测的复合物与Rosetta设计的复合物模型的Cɑ RMSD在两种情况下都能预测设计的成功（图1e）。作者使用两种方法生成的pAE预测置信度指标获得了最佳的结合物与非结合物的区分效果（图1e）。对于Cao等人提供的IL7Ra、TrkA、FGFR2、InsulinR和PDGFR数据集，链间残基对的平均pAE（pAE_interaction）在识别实验证实的结合物方面非常有效（图1e），并且对于pAE_interaction < 10的设计，成功率显著增加。AF2的表现略优于RF2（图1e），作者在接下来的新设计任务中使用了AF2。AF2和RF2在结合物区分任务中的出色显示出类型 II 错误是主要导致Cao等人的低成功率的原因。

图 2

前瞻性分析

图1中的回顾性分析表明，将AF2或RF2纳入设计流程作为最终评估过滤器可能会显著提高设计成功率。为了直接测试这一假设，作者对具有重要生物学意义的四个靶标进行了结合物设计任务：ALK、LTK、IL受体-ɑ（IL-10Rɑ）和IL2受体-ɑ（IL-2Rɑ）。从Cao等人数据的回顾性分析中可以清楚地看出（图1d、e），结合物成功率和度量预测能力在不同的靶标之间有所变化：为新的靶标生成设计（在这种情况下没有先验知识可以预测哪些过滤器有效）是比较不同设计方案的最客观方法。对于IL-2Rɑ，作者针对两个不同的位点进行了独立的设计任务。使用Cao等人基于Rosetta的设计方案，作者为每个靶标生成了约2百万个设计的计算库，并将其过滤到每个靶标的约2万个设计进行实验测试：使用Cao等人的物理基础过滤器选择了约15,000个设计，使用AF2 pAE_interaction <10选择了约5,000个设计。获取了约80,000个设计的合成基因，转化到酵母中，并通过酵母细胞表达进行了蛋白质展示的库筛选，随后在1μM浓度下与目标进行结合筛选，然后在递减的目标浓度下进行筛选。通过深度测序确定了每个设计在每次筛选中的频率，并根据Cao等人的描述估计了SC50值（收集了一半酵母细胞表达的浓度）。SC50值优于4 μM的设计被认为是成功的；四个靶标的成功数量范围从1到17不等。对于每个靶标，找到结合的几个设计在大肠杆菌中进行了表达，并通过单浓度生物层推断（BLI）确认了结合。通过酵母表达显示结合的所有设计也通过BLI显示结合。对于所有四个靶标，AF2过滤的设计集中成功率（成功数/测试设计数）要比Rosetta过滤的设计集高得多（图2）。基于物理基础的过滤器成功地为两个靶标（LTK和IL-2Rɑ的Site 1）生成了结合物；对于这些靶标，经过AF2过滤的库的成功率分别提高了8倍和30倍。AF2过滤的库还成功地生成了ALK和IL-10Rɑ的结合物；而基于物理基础的过滤器在这两个靶标上没有生成成功的结合物（两种过滤方法都无法生成IL-2Rɑ的Site 2上的成功结合物）。因此，AF2过滤在前瞻性测试中表现如预期，提高了成功率（对于物理基础过滤成功的靶标），并扩大了可以生成成功小型结合物的靶标集。

基于物理基础的过滤器成功地为两个靶标（LTK和IL-2Rɑ的Site 1）生成了结合物；对于这些靶标，经过AF2过滤的库的成功率分别提高了8倍和30倍。AF2过滤的库还成功地生成了ALK和IL-10Rɑ的结合物；而基于物理基础的过滤器在这两个靶标上没有生成成功的结合物（两种过滤方法都无法生成IL-2Rɑ的Site 2上的成功结合物）。因此，AF2过滤在前瞻性测试中表现如预期，提高了成功率（对于物理基础过滤成功的靶标），并扩大了可以生成成功小型结合物的靶标集。虽然AF2过滤器是一个有效的结合物成功预测器，但其计算成本较高（每个设计约30个GPU秒），而且只有约2.3%的设计能够通过该过滤器，因此需要运行大量的预测计算。为了能够测试大规模（约5,000个）设计池，降低设计流水线的计算需求是可取的，特别是要最大限度地提高单位计算时间内通过AF2过滤器的设计数量。作者调查了最近开发的基于深度学习图模型的序列设计方法ProteinMPNN的效率是否能够提高设计流程的效率。ProteinMPNN非常快速，相比于Rosetta设计的约350个CPU秒，它可以在约2个CPU秒内为一个小型结合物骨架生成一个序列。作者首先通过为由AF2生成的Rosetta设计的小型结合物骨架生成序列，对新的四个靶标进行了ProteinMPNN设计和Rosetta设计的实验成功率进行了比较，这些靶标的复合物CɑRMSD与AF2预测值较低（总共约104个设计）。编码具有AF2 pAE_interaction <10（每种方法约103个）的设计的基因进行了合成，并通过FACS和深度测序进行了结合评估，如上所述。对于每个靶标，从ProteinMPNN中选择了几个设计进行了在大肠杆菌中的表达，并通过BLI验证了其结合性能，可以再次发现所有通过酵母表达显示结合的设计也通过BLI显示结合。因此可以发现ProteinMPNN和Rosetta设计的设计成功率相似，在速度上的显著提高并没有降低性能。

受到ProteinMPNN设计的速度和性能的鼓舞，作者接下来评估其在生成通过AF2阈值的序列方面的效率。单独使用ProteinMPNN设计的效率为每个CPU秒等效的成功设计数量为1.6×10^-6。与Rosetta设计相比，ProteinMPNN的平均倍增效率改进在所有靶标上提高了约5倍（图2c）。由于与Rosetta不同，ProteinMPNN保持蛋白质骨架固定，因此对输入的骨架结构质量敏感。受到Rosetta柔性骨架设计中序列优化和结构优化之间非常高效的交替启发，作者评估了ProteinMPNN和Rosetta结构优化（FastRelax）之间的类似循环设计，希望能够收敛到一个高质量的骨架，从而使ProteinMPNN能够生成高质量的序列。这种混合的ProteinMPNN/Rosetta序列设计方法（以下简称ProteinMPNN-FR）以每120个CPU秒生成1个设计的吞吐量的速率产生了AF2 pAE_interaction <10的结构，效率为2.2×10^-6。与Rosetta设计相比，ProteinMPNN-FR在每个靶标上的平均效率改进约为8倍（图2c）。

结论

这些实验表明，通过将基于物理的方法与基于深度学习的方法相结合，在大量蛋白质结构上进行训练，可以显著改善单侧蛋白质界面设计挑战。回顾性和前瞻性研究表明，设计成功率可以显著提高。与Rosetta能量计算和DAN结构准确性度量相比，这些计算是针对单个蛋白质结构行的，而结构预测计算则隐含地评估了序列与期望的目标结构相比其他所有结构的适应性。正如之前观察到的那样，对整体折叠构象空间的考虑使得对设计折叠和结合的可能性的准确评估比仅评估设计能量井的深度更加精确。虽然文章的方法比先前的技术水平提高了一个数量级，但显然关于界面能量学的很多方面仍然不为人所了解；各个靶标的成功率仍然很低（<1%），并且没有发现与IL2受体-ɑ的Site 2结合的结合物。

参考资料

Bennett, N.R., Coventry, B., Goreshnik, I. et al. Improving de novo protein binder design with deep learning. Nat Commun 14, 2625 (2023).

https://doi.org/10.1038/s41467-023-38328-5