Py学习  »  机器学习算法

NBT背靠背 | 陈滨滨等使用深度学习预测人类白细胞抗原呈递

BioArt • 4 年前 • 609 次点击  
责编 | 兮


抗原(Antigen)指可诱发免疫反应的物质。人体免疫系统通过识别抗原来监控外来感染和肿瘤细胞。大多数抗原是蛋白质降解后形成的短肽(Peptide)。人体内除红细胞外所有细胞都能在细胞表面呈递抗原(Antigen Presentation)来帮助免疫系统识别致病抗原的存在(比如乙肝病毒的蛋白质)。然而只有小部分的蛋白质或短肽可以被细胞呈递。一个无法被呈递的抗原很难诱发强烈的免疫反应。平时常见的乙肝疫苗和方兴未艾的癌症疫苗都需要保证注入人体的疫苗蛋白质中含有可呈递的抗原。


因为抗原呈递的重要性和潜在抗原的极度多样性,使用计算机算法来预测哪些抗原可以被呈递一直是免疫学研究的重要课题。常见的人类抗原呈递分为I和II两大类,且都依赖于人类白细胞抗原复合体(Human Leukocyte Antigen, 下称HLA,有时文献称之为MHC)。I类抗原呈递(HLA-I)发生在除红细胞外所有细胞。现有算法能较好的预测(准确度AUC>0.95, AUC 1 为满分)【1】


II类抗原呈递(HLA-II)主要由专业抗原呈递细胞来完成(如B 细胞和巨噬细胞)且在几乎所有感染、癌症和自身免疫性疾病中起着重要作用。在最近的两个黑色素癌疫苗临床试验中,大部分的癌症抗原依靠II类抗原呈递来向人体免疫系统预警【2,3】。然而HLA-II的抗原极度多样(短肽可由8到26 氨基酸组成)。计算机预测II类抗原呈递一直是个难题。在本文的发表前,较好的计算机算法准确度AUC在0.7以下【4】


2019年10月14日,斯坦福大学的Ash AlizadehRuss Altman实验室合作(第一作者为陈滨滨博士)Nature Biotechnology杂志上发表了题为Predicting HLA class II antigen presentation through integrated deep learning的文章,研发了一款叫做玛丽亚(下称MARIA的软件以更好地预测II类抗原呈递。



作者首先利用质谱(Mass Spectrometry)技术发现了大量的可呈递的II类抗原。通过18个套细胞淋巴瘤样本的分析,作者得到了超过两万三千个II类抗原。作者还融合了与抗原呈递有关的体外抗原亲和力数据、抗原基因表达水平和蛋白酶切割特征来训练MARIA(图1)。MARIA本身是一个多模态递归神经网络,可以同时考虑多种不同输入数据和不同长度的抗原序列来预测一个抗原的呈递能力。作为用户,只需输入抗原基因名,抗原序列和病人HLA等位基因名就可预测抗原呈递能力。

图1 MARIA 训练图


随后,作者使用多种MARIA没有训练过的验证数据进行测试。在淋巴癌的的测试中,MARIA实现了0.92AUC 的准确性(图2),远远高于仅使用体外数据训练的算法(Predicted Binding, 0.64 AUC)。在髓系白血病和黑色素癌细胞中,MARIA也保持了AUC 0.89左右的准确性。MARIA还能够预测和麦胶性肠病(Celiac Disease)有关的谷蛋白(Gluten)抗原呈现(原文Fig.4)

图2 MARIA和不同算法在淋巴癌数据上的准确度


作者还探索了人工神经网络结构和训练数据对预测结果准确性的影响。作者用一组相同的抗原呈递数据来训练两种不同的人工神经网络:一种是单层神经网络(Shallow NN),在输入的抗原序列中寻找长度固定为9的呈递基序(Motif);第二种是和MARIA类似的多层循环神经网络 (Deep RNN),呈递基序可以为任意长度。实验结果显示,灵活的多层循环神经网络能显著提高预测准确度(图3)


图3 神经网络结构对准确度的影响


在发现MARIA可以成功预测抗原呈递后,作者进一步探索可否使用MARIA提高现有癌症疫苗挑选抗原的成功率。作者重新分析了两个先前在自然上发表的黑色素癌疫苗临床研究的结果【2,3】。MARIA对每个疫苗短肽重新评分,将每个短肽分为高、中、低上个呈递等级。虽然两个临床研究样本都较小,但MARIA对疫苗短肽的分级在两个不同研究数据中都和疫苗短肽离体免疫效力(Ex vivo Immunogenicity)显著正相关(p<0.05, 图4)MARIA有希望成为未来帮助科学家和医生遴选癌症抗体的新工具。


图4 MARIA 预测病人免疫细胞对黑色素细胞癌疫苗的反应


在同一期,来自洛桑大学的Michal Bassani-Sternberg 实验室和David Gfeller实验室合作发表了名为Robust prediction of HLA class II epitopes by deep motif deconvolution of immunopeptidomes的相关文章。这一组作者同样利用质谱鉴定得到了大量II类抗原呈递数据并且开发了一款名叫MixMHC2pred的软件。作者得到了平均0.8左右的准确度AUC(原文Supplementary Fig. 7)。作者使用人工神经网络去寻找长度为9的抗原呈递基序(Motif)。作者的方法可以很好的提取人眼可以看懂的基序但有可能限制了模型的灵活性,导致AUC略低于MARIA。两个软件都对学术界开源免费。其他实验室在未来会继续比较二者在各种免疫学课题中的应用效果。


总之,MARIA通过结合高通量抗原呈递数据和优化的深度学习算法大幅度提高了现有II类抗原呈递的预测准确性。作者展现了MARIA在淋巴癌,麦胶性肠病和黑色素癌中的应用。准确预测II类抗原呈递在未来可以帮助免疫学家发现更多可靠的致病抗原。


另外,本文的预测软件名MARIA是为了纪念作者逝去的一位好友Maria Birukova。Maria原为斯坦福临床医学和免疫学博士生。Maria在2016年的一次户外攀岩事故中遇难。


原文链接:
https://www.nature.com/articles/s41587-019-0280-2
https://www.nature.com/articles/s41587-019-0289-6


制版人:珂


参考文献



1. V. Jurtz et al., NetMHCpan-4.0: Improved Peptide-MHC Class I Interaction Predictions Integrating Eluted Ligand and Peptide Binding Affinity Data. J Immunol 199, 3360-3368 (2017).
2. P. A. Ott et al., An immunogenic personal neoantigen vaccine for patients with melanoma. Nature 547, 217-221 (2017).
3. U. Sahin et al., Personalized RNA mutanome vaccines mobilize poly-specific therapeutic immunity against cancer. Nature 547, 222-226 (2017).
4. R. Marty Pyke et al., Evolutionary Pressure against MHC Class II Binding Cancer Mutations. Cell 175, 1991 (2018).
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/48083
 
609 次点击