Py学习  »  机器学习算法

《Science》:机器学习TCR和BCR序列诊断疾病

immunity速读 • 5 月前 • 198 次点击  

在免疫学领域,准确的疾病诊断对于有效的患者管理至关重要。传统的临床诊断方法,如体格检查、采集患者病史、实验室检测和影像学检查等存在局限性,尤其在诊断诸如自身免疫性疾病等复杂病症时。这些方法往往忽视了 B 细胞受体(BCRs)和 T 细胞受体(TCRs)中编码的宝贵信息,而这些信息能够反映个体对过去和当前抗原暴露的免疫反应。

昨天,斯坦福大学Scott D. BoydAnshul Kundaje共同通讯在《Science》发表论文“Disease diagnostics using machine learning of B cell and T cell receptor sequences”,为了填补这一空白,开发了一种名为免疫诊断机器学习(MAchine Learning for Immunological DiagnosisMal-ID)的新方法。这一创新框架将传统免疫学分析技术(如检测患有相同病症个体之间的共享序列)与基于先进人工智能的蛋白质语言模型相结合。这种整合旨在识别与感染性和免疫性疾病相关的 BCR 重链和 TCRβ 链的特征,以及由治疗性或预防性干预措施(如疫苗接种)诱导产生的特征。

作者生成了涵盖 593 名个体的BCR 重链和 TCRβ 链序列的广泛数据集,这些个体分属六种不同的疾病或免疫反应状态,包括新冠肺炎、艾滋病、狼疮、型糖尿病、近期流感疫苗接种以及健康对照。这些数据集用于训练和评估 Mal-ID 模型。

Mal-ID 在准确识别 542 名个体的免疫状态方面表现卓越。在未用于训练的数据上,它的多类别受试者工作特征曲线下面积(AUROC)达到了 0.986。结合BCR  TCR 数据可实现最佳的分类性能。然而,即使仅依赖BCR 序列,该模型仍表现出较高的分类准确率,在新增的 51 名仅有 BCR 数据的个体组成的扩展队列中,AUROC 达到了 0.959

值得注意的是,Mal-ID 可以定制用于检测特定病症。当用于区分狼疮患者与其他患者和健康对照时,该分类器的灵敏度达到 93%,特异性达到 90%。这一性能优于当前的诊断测试,表明 BCR  TCR 序列分析在检测临床相关信号方面具有巨大潜力。

该模型还为实现准确疾病分类的生物学特征提供了有价值的见解。通过分析哪些序列类别对预测贡献最大,作者证实从数据中识别出的模式与已有的免疫学知识相符。例如,该模型正确地对特定的 BCR V 基因进行了优先排序,如将 IGHV1-24  IGHV2-70 基因用于新冠肺炎预测,这与先前关于抗原特异性 B 细胞和 T 细胞分离及受体测序的研究结果一致。

此外,该模型能够区分经过实验验证的疾病特异性序列和健康供体序列。与健康供体的序列相比,它为来自外部严重急性呼吸综合征冠状病毒 2SARS-CoV-2)结合BCRs 数据库的序列赋予了更高的新冠肺炎关联分数。这表明,尽管免疫受体序列具有高度多样性,但 Mal-ID 仍能有效地学习抗原特异性序列模式。

作者进一步研究了批次效应和人口统计学因素对模型性能的潜在影响。他们发现批次效应对分类的影响有限。Mal-ID 在来自其他实验室的外部数据集上表现良好,表明其具有泛化能力。此外,年龄、性别和祖先等人口统计学因素对疾病分类的影响较小,即使在考虑这些因素后,该模型的性能依然稳健。

总之,这项研究表明,通过 Mal-ID 框架分析免疫受体测序数据,能够在无需预先了解抗原特异性受体模式的情况下,有效地识别多种疾病状态并提取生物学见解。尽管这只是一项初步研究,但经过进一步的验证和扩展,Mal-ID 有潜力通过利用免疫受体群体中的丰富信息,彻底改变医学诊断方式。Mal-ID可能会推动开发更准确、高效的临床诊断工具,最终改善患者护理和治疗效果。

https://www.science.org/doi/10.1126/science.adp2407


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/179325
 
198 次点击