Nat. Mach. Intell. | 用深度学习表征T细胞受体与抗原表位的相互作用构象

编译 | 张嘉仪

今天我们介绍来自清华大学的研究团队发表在Nature Machine Intelligence的工作。文章介绍了两种基于深度学习的模型，名为TEIM-Res和TEIM-Seq，可以预测T细胞受体（TCR）和表位之间的相互作用。这两个模型使用TCR和表位的序列或残基级别的数据作为输入，并预测相互作用中涉及的成对残基距离和接触位点。模型在高通量序列级二进制结合数据上进行了预训练，以使其具备有关TCR-表位相互作用的相关知识。实验表明，本文的模型性能优于其他现有方法，并可应用于突变分析、表位特异性TCR分析和结合模式发现，有望帮助开发新的癌症和其他疾病的免疫治疗方法。文章的最后还介绍了这些模型的应用场景和性能分析。

背景介绍

TCR是一种膜上受体，可以识别抗原表位并激活T细胞，从而引发免疫反应，因此，TCR-表位相互作用是免疫系统中的关键过程。近年来，TCR-表位相互作用已成为癌症和其他疾病的免疫治疗的重要目标。然而，由于TCR-表位相互作用的复杂性和多样性，预测TCR-表位相互作用仍然是一个具有挑战性的问题。因此，开发准确预测TCR-表位相互作用的方法对于免疫治疗的发展至关重要。本文提出了一种新的提出了两种基于深度学习的模型TEIM-Res和TEIM-Seq，可以预测T细胞受体（TCR）和表位之间的相互作用，它以TCR和表位的序列作为输入，并预测相互作用中涉及的成对残基距离和接触位点。该模型可以作为有效的工具，用于全面表征TCR-表位相互作用和理解结合机制的分子基础。

本文创新和贡献：

提出了一种基于深度学习的模型TEIM-Res，用于预测T细胞受体（TCR）和表位之间的相互作用。该模型可以预测残基之间的距离和接触位点，并且在预测TCR-表位相互作用方面表现出色。
提出了TEIM-Seq模型，这是TEIM-Res的一个副产品，可以用于序列级别的TCR-表位相互作用预测。该模型可以用于突变分析、表位特异性TCR分析和结合模式发现等方面，有望为癌症和其他疾病的免疫治疗开发提供帮助。
利用TEIM-Res和TEIM-Seq发现了一些表位的结合模式，并生成了相应的结合模式序列标志。这些结合模式可以用于预测TCR-表位相互作用，为免疫治疗的开发提供了新的思路和方法。

方法介绍

使用预训练的TEIM-Seq模型来微调TEIM-Res模型；

在预训练阶段，使用 TEIM-Seq 模型进行序列级别的预测，以预测 TCR-表位对之间的绑定概率。通过预测绑定概率，可以隐式地学习 TCR-表位相互作用的残基级别信息。最终，预训练的 TEIM-Seq 模型可以用于微调 TEIM-Res 模型，以提高其残基级别交互预测的准确性。

在TEIM-Res模型中使用残差网络和交互提取器来提高预测性能；

在TEIM-Res模型中，残差网络被用于构建TEIM-Res模型的残差块，以提高模型的预测性能，交互提取器被用于从序列级别的绑定数据中提取残基级别的交互信息，并将其用于残基级别的预测。通过使用残差网络和交互提取器，TEIM-Res模型可以更好地捕获TCR-表位相互作用的残基级别信息，从而提高预测性能。

使用多种指标和图像来评估和比较模型的性能；

对于预测TCR与表位之间的残基接触，在比较TEIM-Res与其他预测方法的性能时，本文使用了相关系数、均方误差和平均相对误差等指标来评估模型的性能，并发现TEIM-Res在预测性能方面表现出色。对于预测CDR3-表位配对的结合情况，在比较TEIM-Seq与其他预测方法的性能时，本文使用了AUPR和MCC等指标来评估模型的性能，并发现TEIM-Seq在预测性能方面表现出色。

图a：TEIM-Res和平均基线的不同距离阈值内的残基对的均方和相对误差

实验介绍

数据集： 本文使用了三个数据库中的T细胞受体（TCR）与表位的结合数据集：VDJdb、McPAS-TCR和ImmuneCODE。这些数据集仅包含人类MHC I类的TCR-表位结合数据，并限制了CDR3β序列长度在10到20之间，表位序列长度在8到12之间。此外，本文还从Immune Epitope Database（IEDB）中下载了大量未标记的表位序列数据集，并使用自编码器从中提取有用的特征。最后，本文使用了STCRDab数据集进行了性能评估。

实验过程：

准备数据集，其中包括TCR-表位相互作用数据集、TCR序列数据集和表位序列数据集等，并对其进行清洗和处理。
对TEIM-Res和TEIM-Seq模型进行训练和预测。
对模型的性能进行了详细的评估和比较，包括AUC、准确率、召回率等指标。
此外，还对模型的应用场景进行了探讨。
进行大量的应用案例分析，包括TCR模体发现、表位特异性TCR分析和结合模式发现等。
比如TEIM-Res生成的基序位点的接触得分比非基序区域高得多，这验证了基序与接触位点高度相关。

图b：TEIM-Res生成的基序位点和“非基序”区域的接触得分

实验结果：在模型性能评估实验中，TEIM-Res和TEIM-Seq模型在不同的数据集划分和评估指标下均取得了较好的性能表现。在发现TCR的结合模式和优化表位序列两个案例中，TEIM-Seq模型均表现出了较好的性能。相比于其他测序方法，TEIM-Res和TEIM-Seq模型在大多数情况下均取得了更好的性能表现，且速度更快，这表明TEIM-Res和TEIM-Seq模型在TCR-表位结合预测方面具有较高的准确性和实用性。

总结

本文介绍了两个基于深度学习的模型TEIM-Res和TEIM-Seq，用于预测T细胞受体（TCR）与表位之间的残基级别的结合和CDR3-表位序列对之间的结合。这两个模型都是基于大量的TCR-表位结合数据进行训练，可以用于发现TCR的结合模体和优化表位序列。本文还介绍了这两个模型的性能评估和应用案例，并与其他预测方法进行了比较。实验结果表明， TEIM-Res和TEIM-Seq模型在TCR-表位结合预测方面具有较高的准确性和实用性，可以用于开发新的免疫治疗方法。

参考资料

Peng, X., Lei, Y., Feng, P. et al. Characterizing the interaction conformation between T-cell receptors and epitopes with deep learning. Nat Mach Intell (2023).

https://doi.org/10.1038/s42256-023-00634-4

代码

https://github.com/pengxingang/TEIM