社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

Nat. Med. | 基于深度学习的蛋白质-蛋白质相互作用分析预测SARS-CoV-2的传染性与变异进化

DrugAI • 1 年前 • 205 次点击  
报道人 | 于洲

今天我们介绍由北京邮电大学网络与交换技术国家重点实验室的王光宇等学者发表在Nature Medicine上的工作。该工作介绍了一个基于人工智能框架UniBind,该框架利用深度学习和蛋白质结构分析来预测SARS-CoV-2的刺突蛋白突变的影响。该工作强调了在病毒宿主相互作用和新的SARS-CoV-2变体出现中理解蛋白质相互作用的重要性。UniBind整合了蛋白质三维结构和结合亲和力数据,预测了刺突蛋白突变如何影响其与人类ACE2受体和中和抗体的结合亲和力。该框架在基准数据集上进行了测试,并通过实验证实了其有效性。UniBind还能够有效预测刺突蛋白变体对结合亲和力的影响,并可以应用于预测宿主对SARS-CoV-2变体的易感性和未来病毒变体的进化趋势。该工作强调了UniBind作为问题变体的预警系统的潜力,以及其促进蛋白质相互作用研究的能力。总体而言,UniBind使用异质数据集提供了全面且高容量的蛋白质相互作用分析,有助于人类理解SARS-CoV-2的感染性和变体进化。


背景介绍

蛋白质间的相互作用(PPIs)通过其结合亲和力特征,构成了许多基础生物医学过程的核心。在微生物学和传染病研究中,这些相互作用决定了病原体与宿主之间的关系,以及例如毒力和免疫逃逸等过程。特别是SARS-CoV-2的刺突蛋白(S蛋白)与目标细胞上的血管紧张素转换酶2(ACE2)或中和抗体的相互作用,决定了其毒力和免疫逃逸。因此,S蛋白中的突变可能影响毒力和免疫逃逸。例如,在全球大流行期间,这些突变推动了COVID-19感染的不同波次,并促使了新的SARS-CoV-2变种的出现。Omicron变体的超级突变S蛋白具有许多氨基酸的替换,一些替换可能改变与ACE2的结合亲和力,或导致抗体逃逸。


了解这些替换对ACE2结合亲和力和免疫逃逸的影响非常重要。实验生物学的快速进展已生成了大量的序列数据和相应的结合亲和力信息。Mutant Protein Interactions的结构动力学和能量数据库(SKEMPI)v.2.0数据库包括了超过7,000个结构解决的蛋白复合物的氨基酸替换引起的亲和力变化。尽管有许多计算方法用于计算突变后的结合亲和力变化,但先前的方法在吞吐量和/或对新变体的性能方面都受到限制。


最近,深度突变扫描(DMS)的迅猛增长产生了大规模的数据集,揭示了内在蛋白质属性,与SKEMPI v.2.0等大型蛋白质和生化数据库一起,为建模SARS-CoV-2突变和评估其功能影响提供了独特而令人兴奋的机会。虽然已经付出了许多努力来开发基于机器学习的蛋白质间相互作用(PPI)预测方法,但这些方法仅限于处理特定的刺突片段。目前方法的有限性能突出了构建一个人工智能(AI)系统的紧迫需求,用于使用异构数据集执行全面、高容量的亲和力分析。


全球分享所有流感数据(GISAID)倡议为提供超过1000万条SARS-CoV-2遗传序列信息提供了宝贵的共享平台。这些信息被用来预测SARS-CoV-2的演化,并改编为新变体的预警系统。在这项研究中,本文使用异构数据集开发了一个名为UniBind的AI模型,用于预测S蛋白变体与ACE2受体以及中和单克隆抗体之间的结合亲和力。本文随后展示了如何使用此分析来预测免疫逃逸和病毒演化。


本文贡献与创新点:

  • 提出了一种基于人工智能的框架UniBind,利用深度学习和蛋白质结构分析来预测SARS-CoV-2刺突蛋白中突变的影响。

  • 该框架整合了蛋白质三维结构和结合亲和力数据,预测了刺突蛋白突变对其与人类ACE2受体和中和抗体的结合亲和力的影响。

  • UniBind在预测刺突蛋白变体对结合亲和力的影响方面非常有效,可以用于预测宿主对SARS-CoV-2变体和未来病毒变种演化趋势的易感性。


结果介绍

数据集特点和系统概述

UniBind是一种用于蛋白质间相互作用(PPI)任务的人工智能模型。氨基酸替换引起的结合自由能变化可能影响蛋白质主链的构象和原子层面的侧链相互作用。UniBind包括了多个层次的蛋白质结构图表,基于几何(序列和结构)和能量信息,还包括了一种双路径神经网络(BindFormer)与几何和能量注意力机制(GEA)。此外,为解决数据异构性问题,本文使用多任务学习和模型集成训练UniBind,从多源和异构的生物数据集中提取相关信息,以提高学习网络的质量并完成与蛋白质间结合亲和力预测相关的任务。


本文从公共数据库、文献和实验中整理了包括78,846个亲和力数据点的数据集,用于开发和测试UniBind。首个数据集用于训练和内部验证,包括了SKEMPI v.2.0数据库,关于PPI的配对突变和相应的自由结合能量变化,以及来自三个独立的S蛋白结合到ACE2或抗体的蛋白质间结合亲和力数据集(PADBs)的SARS-CoV-2相关数据。


为评估UniBind的性能和可靠性,本文使用了包括MaveDB和其他实验信息的数据集进行外部验证,包括表面等离子体共振实验、RBD竞争实验、酵母展示实验和抗体中和实验。PADBs的特性在表1中总结。


表1:PADBs的特性


UniBind概述

本文提出了UniBind,以结合和整合多源和异构的生物数据,专为蛋白质相互作用(PPI)预测任务量身定制。UniBind由三个主要部分组成:作为图数据结构的蛋白质表示,具有几何不变性和能量导向注意力(GEA)的BindFormer模块,以及用于异构生物数据整合的多任务学习(见图1a)。

图1a:提议的UniBind框架的工作流程。从公共数据库和文献中收集和整理了一个异构亲和数据集。UniBind使用异构多任务学习方法进行PPI预测任务的训练。对SARS-CoV-2进行了多重亲和分析,实现了谱系分析、基于人工智能的DMS和模型引导进化,并进行了实验验证。


如图1b所示,上述数据集与相应的结构和氨基酸替代信息一起被表示为多尺度(原子和氨基酸水平)的图数据结构,作为BindFormer模块的输入。BindFormer模块是一个双通道网络,由GEA的注意机制组成,以实现残留物和原子层面的多尺度表示中的信息交换。此外,GEA通过聚合几何和能量项成为一个几何不变的多头注意力层。本文采用了多任务学习和模型集成来增加对生物实验测量中异质性的容忍。不同的评估指标被用作多任务学习的标签。

图1b:深层神经网络的架构。对于蛋白质的表示,提取蛋白质的残差级和原子级特征,并使用统一的蛋白质图表示进行聚合。对于BindFormer模块,本文采用了基于GEA机制的双路径图神经网络。最后,采用多任务学习方法整合实验结果,实现鲁棒性和可扩展性的亲和性预测任务。


本文在系统基准和实验数据上验证了UniBind,并进一步执行了其他基于亲和力的分析,例如识别和定量ACE2或S蛋白变体的改变的亲和力和抗体结合亲和力或逃逸。结果证明了该AI框架在应用于异构多源数据集时准确、稳健和可扩展。


PPIs的预测亲和力

为了全面评估UniBind的可靠性,本文使用了SKEMPI和SKEMPI v.2.0数据集,也就是常见的基准数据集,其中包括S1131、S4169、S8338的单点突变子集和M1707的多点突变子集,以进行突变水平和复合物水平的验证。本文绘制了AI预测与实验测量的亲和力变化(以ΔG,kcal mol−1表示),并确定了实验和计算ΔG之间的皮尔逊相关系数(PCC)、均方根误差(RMSE)和平均绝对误差(MAE)。


如图2所示,本文在突变水平上使用SKEMPI v.2.0数据集训练并验证了UniBind,以估计氨基酸替换对PPIs的影响。

图2:UniBind在蛋白质复合体亲和力预测上的表现。a:SKEMPI v.2.0中所有突变的结合亲和力(kcal mol−1)变化的计算值与实验值之间的回归相关性。b, c:单个突变(b)和多个突变(c)的分层分析。


总体来说,AI的预测准确,PCC为0.85,RMSE为1.22 kcal mol−1(图2a)。本文进一步分析了包含单氨基酸替换(图2b)或多氨基酸替换(图2c)的蛋白质复合物,分别获得了0.78和0.91的PCC。本文注意到,多点突变的预测性能优于单点突变。

SARS-CoV-2与ACE2之间的预测亲和力

本文使用UniBind预测SARS-CoV-2 S蛋白变体和人ACE2在S蛋白变体与人ACE2的蛋白结合亲和力数据库(PADB-SA)数据集中的单个和多个氨基酸替换的S蛋白–ACE2结合亲和力。从以前的研究中获得了单个氨基酸替换的表观解离常数(Kd,app)值。


本文首先分析了S蛋白氨基酸替换对ACE2的−∆log10Kd,app的影响(图3a)。然后,将结合亲和力预测细分为SARS-CoV-2 VOC亚组,包括Alpha(N501Y)、Beta(K417N + E484K + N501Y)、Delta(L452R + T478K)和Eta(E484K),以野生型(WT)SARS-CoV-2为参考。结果表明,AI对评估S蛋白突变对ACE2结合的影响是准确的,所有四个变体的PCC在0.78到0.86之间。本文使用文献中的报道数据独立验证了本文的方法,PCC为0.86(图3b)。

图3:UniBind预测SARS-CoV-2 RBD突变对ACE2和RBD抗体亲和力的影响。a:ACE2和RBD变体之间亲和度变化预测的回归,用−∆log10Kd,app测量。b:UniBind预测ACE2和RBD变体亲和度变化的外部验证。


SARS-CoV-2与中和抗体之间的预测亲和力

识别S蛋白/RBD与中和抗体之间的结合亲和力对于预测SARS-CoV-2变体的免疫逃逸至关重要。本文生成逃逸评分来预测抗体对S蛋白变体的亲和力。首先,本文使用PADB-SAb数据集评估了UniBind对S蛋白的单点突变的预测性能,达到了0.85的PCC(图3c)。图3d强调了S蛋白RBD上每个位点的平均逃逸评分,评分越高表示逃逸程度越高。数据表明,UniBind预测的免疫逃逸与实验数据一致。

图3c:预测S蛋白-抗体亲和力的回归(逃逸评分),评估S蛋白的不同突变。d:突变对RBD各位点逃逸得分的平均影响。蓝线为实验数据;橙线表示预测结果;每种颜色的阴影表示每条线的标准误差。


接下来,为了预测不同S蛋白变体的抗体逃逸能力,本文使用UniBind生成了常见变体到已知抗体的逃逸评分矩阵(图3e)。结果表明,Omicron变体及其衍生物显示出最强的免疫逃逸能力。

图3e:逃逸评分矩阵评价S蛋白变异对不同抗体亲和力的外部验证。带有标签的图块(圆形和圆点)表示文献中报道的相关抗体和变体之间的亲和力。圆圈和圆点分别表示这些变异被相关抗体中和或从相关抗体中逃脱。其中,RBD*为RBD的突变。


ACE2与S蛋白之间的预测亲和力及诱饵受体的工程设计

本文扩展了关于S蛋白与ACE2结合亲和力与ACE2突变之间的预测,并在PADB-AS数据集上验证了该模型(图4a)。对于单点突变到S蛋白对ACE2结合的影响,蛋白复合物的预测log2富集比与实际实验测量的PCC为0.74。通过使用文献29中的报道数据与ACE2结合数据的实验多点突变进行比较,本文对本文的方法进行了外部验证,得到了0.70的PCC(图4b)。

图4:UniBind预测S蛋白与ACE2变异之间结合亲和力的性能。a, b:在内部(a)和外部(b)验证中,WT SARS-CoV-2 S蛋白与ACE2变异之间预测亲和力变化的回归。


可溶性ACE2可以作为一个诱饵来中和SARS-CoV-2感染。这提出了使用UniBind设计高亲和力的ACE2受体诱饵分子作为针对当前和未来变体的通用策略的可能性。UniBind确定了111个单氨基酸替代可以增加与S蛋白的结合亲和力。本文采用了一种计算机模拟演化方法,生成了13,913个ACE2变体,包括1至4个氨基酸的改变,从而增加了亲和力。通过将预测与先前文献中的最佳候选物(sACE2.v2.4)和WT进行了比较,发现预测的log2富集比分别比sACE2.v2.4和WT高约10倍和1,000倍(图4c)。

图4c:ACE2诱饵log2富集分数分布图。橙色线表示参考ACE2变体(sACE2.v2.4),绿色线表示选择用于实验验证的ACE2变体。


本文选择了其中五个ACE2变体进行实验验证(ACE-1、−2、−7、−8和−9),并与ACE2 WT和sACE2.v2.4进行了比较。S蛋白与ACE2结合的浓度-反应关系显示在图4d中。方差分析与事后Dunnett's比较揭示了这五个ACE2变体被预测与S蛋白具有更高的亲和力,并且所有的log EC50均显著低于ACE2 WT。实验结果突出了UniBind在治疗蛋白工程中的潜在应用。例如,Q42位于一个高度带负电区域,可能阻止与RBD的相互作用。因此,Q42L突变可能增加ACE2的疏水区域并改善与RBD上的Q498和Y449的结合。此外,N330Y替换可能提供与RBD的额外范德华接触和氢键。

图4d:酶联免疫吸附法测定选定的ACE2诱捕物与RBD结合的浓度-反应关系。每个数据点代表三个生物重复。


S蛋白与ACE2在不同物种间的预测亲和力

野生动物是冠状病毒的已知宿主。这引发了人类和动物之间可能发生动物源性传染病和逆向动物源性传染病的可能性,为SARS-CoV-2的进化乃至SARS-CoV-1产生新变体提供了机会。因此,预测S蛋白与不同物种中的ACE2同源体的结合将对监测和预警易感野生动物中可能致病的冠状病毒毒株具有重要意义。本文使用UniBind预测了RBD和ACE2的跨物种结合亲和力,使用描绘了不同冠状病毒和ACE2同源体之间结合亲和力的高通量分析实验数据。热图和关联分析显示,UniBind生成的预测与实验数据高度相关,PCC为0.87(图4e-g)。

图4e-g:S蛋白-ACE2结合亲和力和病毒-宿主相互作用的跨物种分析。e:S蛋白-ACE2结合亲和力热图。左:AI-predicted;右:实验数据。f:sarbecovirus的S蛋白与人类ACE2同源物的预测与实验亲和力变化的回归分析。g:来自24种动物的SARS-CoV-2变异体与ACE2蛋白结合的S蛋白- ACE2预测亲和力值热图。


接着,本文试图研究SARS-CoV-2 VOCs中的突变对来自24个动物物种的ACE2结合亲和力的影响。预测结果显示,大多数物种,如包括蝙蝠在内的野生动物、包括猫在内的家养动物以及包括水貂在内的农场动物,都易感于SARS-CoV-2感染。此外,UniBind预测显示,与人类生活在相近位置的常见家养农场动物猪,对SARS-CoV-2感染的敏感性较低,与先前的研究一致。值得注意的是,Omicron支系显示出对所有物种的亲和力增加(图4g),突出了SARS-CoV-2在这些物种之间(包括人类)传播的潜在风险。


病毒演化和抗体逃逸的预测

本文的数据展示了UniBind能够准确预测S蛋白与ACE2的结合亲和力和抗体逃逸。本文使用相同的方法,运用UniBind预测当前已知的SARS-CoV-2变体的ACE2和抗体结合亲和力,并根据它们在COVID-19大流行期间出现的时间线进行绘制(图5a)。值得注意的是,本文记录了与SARS-CoV-2感染的主要波次相对应的23个VOCs的出现。该预测揭示了新出现的变体对免疫逃逸的整体增加趋势,而ACE2结合亲和力没有额外增加。例如,一些研究显示Omicron变体与ACE2的亲和力高于WT,但低于Alpha变体,这与UniBind模型的预测一致。对于抗体逃逸评分预测,图5a的数据显示了抗体逃逸能力的排名为Omicron > Beta > Gamma >其他VOCs,完全符合早期VOCs的排名顺序。除了标注的VOCs,本文还为当前超过1,500个变体生成了ACE2亲和力和抗体逃逸评分的预测,这些可以用来为变体的演化提供预测、指导和假设形成。

图5a:在COVID-19大流行过程中预测的ACE2结合亲和力(圆圈大小和颜色)和抗体逃逸(y轴)。图像显示的是23个注释的VOCs,以及其他变体。彩色圆圈表示S蛋白-ACE2的亲和值。


本文假设SARS-CoV-2的演化主要由其亲和力或免疫应答逃逸驱动,生成了基于亲和力的演化评分系统(evo-score),以同时量化S蛋白ACE2和抗体结合亲和力,并使用GISAID数据集验证了提出的预测(图5b)。图5b显示,SARS-CoV-2的演化开始于S蛋白–ACE2结合亲和力的增强。

图5b:已知SARS-CoV-2变异的进化路径。具有相似属性的变体簇被圈出。紫色箭头表示进化方向(左移,ACE2亲和力增加;向上移动,增加抗体逃逸)。


本文分析了超过20,000个与抗体逃逸有关的突变和超过3,800个与亲和力有关的突变。这些按照抗体逃逸和亲和力的预测变化进行了排名。例如,在免疫功能不全的患者中发现的突变E484K和E484Q在抗体逃逸预测中排名很高(分别位于前0.1%和0.8%)。另外,也在免疫功能不全的患者中发现的N501Y,在预测中排名第二(前0.1%)。


UniBind可以预测和排列所有可能的点突变的效果,数据显示,患有慢性COVID-19的患者中产生的累积突变在模型中排名较高,表明UniBind模型可以为病毒免疫逃避和增强向宿主蛋白的亲和力提供有用的预测。结果还显示了与整体SARS-CoV-2大流行类似的演化趋势,即突变的出现使ACE2亲和力发生适度变化但增强了抗体逃逸。


未来病毒演化和抗体逃逸的预测

对未来VOCs的亲和力和免疫逃逸参数的预测有助于提前开发疫苗和有针对性的治疗方法。本文使用UniBind对长氨基酸序列进行计算机模拟的DMS预测,生成了一个序列–功能概况。对于未来的病毒演化,本文使用了七个现有的Omicron亚系列(BA.2.75.2、BA.5、BA.5.9、BF.7、BQ.1.1、XBB、XBB.1.5)作为起点,通过在刺突蛋白RBD区域进行1-4个非同义突变来预测额外的14,442个变种(图5c)。这些突变是从具有高evo-score的UniBind DMS预测的40个替代物中选择的。预测结果显示,朝着增强抗体逃逸方向演化的变体导致了更高的evo-score。

图5c:预测未来SARS-CoV-2变异的进化路径。预测的变异(蓝色圆圈)是基于七个欧米克隆子谱系(绿色圆圈)。橙色圆圈代表具有最高进化得分的预测变体。


关键突变将决定变体的特性并赋予增长优势,从而推动未来新变体的出现。UniBind模型可以通过全面虚拟DMS预测这些重要特性,并可以预测演化趋势。目前,BQ.1亚系列在感染人群中占了很大比例,XBB亚系列日益主导,有望成为主导(图5d)。因此,本文对XBB.1进行了DMS,并列出了基于逃逸评分排名最高的前50个突变(图5e)。该模型正确预测了E484T和F486P突变,这些在推动XBB.1.3和XBB.1.5成为主导菌株方面起了关键作用。本文的模型进一步预测,像A475N和S494K这样的排名最高的突变可能具有高免疫逃逸特性,并可能推动未来病毒的演化。总的来说,这些预测的高免疫逃逸评分突变值得密切关注和监控。

图5d:XBB.1亚谱系的变异及其突变负荷示意图。e:根据XBB.1亚谱系的免疫逃脱评分排名前50位的预测突变。图中显示了XBB.1.3和XBB.1.5变异的关键突变E484T(橙色)和F486P(绿色)。


讨论

人类SARS-CoV-2感染的出现标志着COVID-19大流行的开始,导致了前所未有的大规模病原体测序工作。GISAID计划在共享超过1000万个SARS-CoV-2基因序列方面起着核心作用。这些数据与SKEMPI v.2.0等大型蛋白质结构和生化数据库一起,为模拟SARS-CoV-2突变的变化并评估其功能影响提供了独特的机会。这有助于预测SARS-CoV-2的未来演变,并识别可以增加致病性、促进免疫逃逸或增加变体适应性的单个或多个氨基酸替换。


此外,DMS和SKEMPI v.2.0等大型蛋白质和生化数据库的快速增长提供了模拟由单点或多点突变引起的PPI结合自由能变化的独特机会。Taft等人和Wang等人使用了机器学习或深度学习模型来基于DMS序列预测ACE2结合亲和力和抗体逃逸。然而,大多数现有的PPI预测方法在结合异构数据源方面都受到限制。


在这项研究中,本文提出了一个模块化的UniBind框架,整合了多源数据集,并在主要的公开可用数据集上验证了它,证明了其准确性和可扩展性。本文还展示了常见的实验方法对全长S蛋白的亲和力有技术挑战、局限性和不准确性,而UniBind可以有效地预测PPI,因为结构变化和能量效应对结合亲和力预测至关重要。


新的SARS-CoV-2变体将继续出现,提高其适应性,推动大流行病例的新浪潮。AI基础的DMS可以生成大规模的突变数据,揭示所有可能的单氨基酸替换的功能后果。与此同时,本文的UniBind DMS引入了亲和力为基础的evo-score系统来同时评估S蛋白-ACE2结合亲和力和S蛋白-抗体结合亲和力。


在免疫逃逸评分预测方面,UniBind准确预测了Omicron变体对ACE2的亲和力的适度增加,这与有关Omicron亚谱系的体外和临床数据一致。此外,本文还预测目前的中和抗体的治疗效能可能会受到新出现的Omicron变体的进一步损害。


然而,本文的方法也存在一些局限性,例如S蛋白-ACE2结合亲和力的降低可能会被更有效的病毒复制效率所补偿。此外,本文仅考虑了S蛋白上的点突变,未来的研究可以探索更全面的功能数据和SARS-CoV-2的其他组成部分。


总之,UniBind为预测蛋白质-蛋白质复合物的亲和力提供了一般框架,并为快速预测、未来爆发监测和未来疫苗和治疗的加速开发奠定了基础。系统的最大公开可用性还将使其成为研究和公共卫生管理的广泛有用资源。

参考资料

Wang, G., Liu, X., Wang, K. et al. Deep-learning-enabled protein–protein interaction analysis for prediction of SARS-CoV-2 infectivity and variant evolution. Nat Med (2023). 

https://doi.org/10.1038/s41591-023-02483-5

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/160879
 
205 次点击