社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

Nat Mach Intell | 田永鸿/陈杰团队提出进化启发的深度学习通用预测框架,实现跨病毒类型的统一预测

BioArt • 5 月前 • 499 次点击  
在自然界,物种多样性与生物体内承载功能的蛋白质相互约束,这是因为蛋白质作为功能的载体决定了生物的性状,而这些性状经过选择压力筛选后形成了当下的物种多样性分布。从达尔文进化论角度来看,所有的进化都是基因适应环境的效应。


2025年1月17日,北京大学信息工程学院田永鸿教授、陈杰副教授指导博士生聂志伟、硕士生刘旭东Nature Machine Intelligence上发表了文章A unified evolution-driven deep learning framework for virus variation driver prediction基于进化论视角重新审视病毒进化预测难题,提出了解决病毒进化两大本质问题的跨病毒类型、跨毒株类型的通用进化预测模型,为疫苗、药物的快速主动更新以及提高人类对于新发病毒感染的响应速度提供了强大工具,支撑和加速对于物种复杂进化机制的探索。


研究亮点:

(1)探讨了如何定制化蛋白质语言模型以适配进化预测任务,提出了定制化预训练策略和数据集,为蛋白质语言模型预训练与下游任务之间的权衡提供了研究新视角;

(2)从进化论角度凝练了病毒进化的两大本质问题,从而通过“微弱突变放大”和“稀少有益突变挖掘”两个创新设计实现了跨病毒类型和跨毒株类型的通用预测,实现了Science和AI架构的高度融合;

(3)突变所处相互作用网络的全面重建模块(包含动态粒度注意力机制以挖掘motif模式)以及提出的多任务焦点损失函数适用于蛋白质通用体系,可进一步拓展用于各类蛋白质性质预测及蛋白质定向进化;

(4)实现了不同尺度的病毒进化预测,未来可与疫苗和蛋白类药物设计流程相结合,有望显著提升设计效率和设计可控度。


突变是病毒进化的基石,不同病毒的具体进化历程各有其独特性,但是其共性在于最终的进化结果中几乎都是有害突变占据大多数。从整个进展尺度来看,即使有害突变与有益突变的比例会随物种和环境不同而有所区别,但是有害突变被认为总是远多于有益突变,即有益突变是病毒蛋白进化适应度空间中的极小子集。很自然地,有害突变的高发性使得同一个变异株内难以共存较多的突变,即一个变异株所具有的突变数量与原始型相比往往较少,仅有少数位点会发生突变。因此,研究团队将上述病毒进化轨迹凝练为病毒进化的两大本质特点:“少数位点突变”(Few-site mutations)和“稀少有益突变”(Rare beneficial mutations)。这两大进化特点导致了明显的建模难题,“少数位点突变”引起的分子内相互作用网络的变化相对比较微弱,这使得神经网络直接捕获是极其困难的,而“稀少有益突变”在数据层面造成了极其严重的正负样本不平衡问题,这对于精准预测对于病毒生存至关重要的稀少有益突变造成了巨大挑战。


图1:E2VD模型架构。(来源:论文)


为此,研究团队提出了进化驱动的病毒变异驱动力预测框架E2VD(图1),通过“微弱突变放大”和“稀少有益突变挖掘”两个创新设计实现了跨病毒类型和跨毒株类型的统一预测。核心组件包括面向病毒进化的定制化蛋白质大语言模型(国产AI超算“鹏城云脑II”256张NPU支撑训练)、突变所处相互作用网络的全面重建模块(包含动态粒度注意力机制以挖掘motif模式)以及提出的多任务焦点损失函数。

团队定制化的蛋白质语言模型以最少的340M模型参数量实现了最佳的预测表现,甚至超越了参数量为其44倍的ESM2-15B的效果,这进一步证明了定制化的预训练数据集和训练策略的有效性。随后,团队在各类关键病毒进化驱动力预测任务下比较了E2VD与主流方法,结果表明E2VD显著且全面超越其他方法,性能提升在7%-21%不等。E2VD被大量消融实验证明了对于病毒进化模式的精准捕获,包括对于不同类型突变的精准区分以及对稀少有益突变的精准挖掘。在与真实世界变异毒株对应的稀少有益突变预测实验设置下,E2VD将稀少有益突变的预测精度从13%提升至80%,实现了跨越式精度提升。


E2VD在跨越病毒类型和毒株类型时展现出强大的泛化能力。研究团队提出鲁棒且避免实验批次效应影响的突变所致病毒适应度变化评估指标,并以此评估了模型在同病毒类型的不同毒株之间以及不同病毒类型之间的泛化表现,在新冠病毒、寨卡病毒、流感病毒以及艾滋病病毒上展现出理想的泛化能力,始终超越其他方法,未来可进一步拓展至更多传染性病毒。


E2VD可用于灵活定制化组合以实现不同尺度的进化趋势预测。首先,E2VD可用于解释大流行内部进化轨迹,揭示毒株流行度背后隐藏的分子机制;其次,搭配虚拟深度突变扫描流程,E2VD可实现潜在高风险突变的精准预测,达到80%的命中率。除此之外,E2VD实现了对于大流行尺度的宏观进化轨迹预测,重现了病毒在真实世界中的进化路线,对病毒进化机制的解读提供理论性支撑。


该研究以进化论的视角重新审视病毒进化预测问题,发展了跨病毒类型和跨毒株的通用进化预测框架,有助于破解物种复杂的进化机制,提高人类对于新发病毒感染的响应速度。凭借优越的预测表现和强大的泛化性,研究团队下一步计划将E2VD与疫苗和蛋白类药物设计流程相结合,以期提升设计效率和设计可控度。


原文链接:

https://www.nature.com/articles/s42256-024-00966-9


BioART战略合作伙伴

(*排名不分先后)


BioART友情合作伙伴
(*排名不分先后)

转载须知


【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。





BioArt

Med

Plants

人才招聘

会议资讯



近期直播推荐




Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/178369
 
499 次点击