Py学习  »  机器学习算法

机器学习再登Science,AI构想新型蛋白质并生产药物/疫苗!

微算云平台 • 1 年前 • 176 次点击  

【做计算 找华算】理论计算助攻顶刊,10000+成功案例,全职海归技术团队、正版商业软件版权!

共同一作:Jue Wang, Sidney Lisanza, David Juergens, Doug Tischer, Joseph L. Watson;
通讯作者:David Baker, Sergey Ovchinnikov
通讯单位:美国华盛顿大学,哈佛大学

研究背景



去年,谷歌的姊妹公司DeepMind开发了一个名为AlphaFold的AI软件,它可以预测出数十万种人类蛋白质的结构。AlphaFold(AF)和一个名为RoseTTAFold(RF)的类似AI软件包还提供了数千种可能的各种蛋白质结构,这种蛋白质结构预测软件还成功入选Science发布的2021年度突破。然而,预测天然蛋白质如何折叠是一回事,从头开始设计原始蛋白质是另一回事。目前蛋白质设计已成功找到折叠成所需构型的序列,但设计功能性蛋白质仍然具有挑战性。

工作简介



为此,美国华盛顿大学David Baker、哈佛大学Sergey Ovchinnikov(共同通讯)等人联合描述了在无需预先指定支架的折叠或二级结构的情况下搭建此类功能位点的深度学习方法。首先,作者基于“受约束的幻觉”优化序列,使其预测结构包含所需的功能位点。第二种方法是“修复”,从功能位点开始填充额外的序列和结构,通过经过专门训练的RF网络在单次前向传递中创建可行的蛋白质支架。作者使用这两种方法来设计候选免疫原、受体陷阱、金属蛋白、酶和蛋白质结合蛋白,并结合使用计算机和实验测试来验证设计。这项研究以“Scaffolding protein functional sites using deep learning”为题发表在国际顶级期刊Science上。

图文要点



要点1:约束幻觉

作者使用复合损失函数优化氨基酸序列以折叠成包含所需功能位点的结构,该复合损失函数结合了先前使用的幻觉损失和功能基序重建损失。它为软件提供了蛋白质的目标,然后生成一个由随机氨基酸序列组成的虚拟蛋白质并一遍又一遍地改变序列。最后评估每次变化对蛋白质可能形状和功能的影响,AI会保留它认为有效的部分并对其余部分进行变异。随着RF模型的发展,它在通过功能位点约束的幻觉指导蛋白质设计方面表现优于传统的trRosetta,这可能反映了蛋白质序列-结构关系的更好整体建模。
图1. 蛋白质功能设计方法
要点2:修复支架
除了预测结构外,作者还训练RF网络来恢复缺失的序列信息。这种恢复序列和结构信息的能力为功能位点支架问题提供了第二种解决方案:给定功能位点描述,通过网络的正向传递可用于完成或“修复”蛋白质序列和结构蛋白质的掩蔽区域。就像输入法的自动完成功能会在输入几个字符后尝试完成一个单词一样,AI会利用它对蛋白质如何折叠的理解来填充围绕蛋白质中心特征的其余部分。
图2. 表位支架和受体陷阱的设计
除了序列设计和结构预测任务外,作者还训练了一个模型,在给定周围蛋白质背景的情况下,对缺失序列和结构的片段进行修复。由此产生的模型能够以高保真度修复缺失区域且在序列设计(训练期间32% 的天然序列恢复)和结构预测方面表现良好,该网络被称为RFjoint并基于该网络完成后续修复过程。
要点3:方法评估
进一步,作者使用了AlphaFold(AF)网络评估上述深度学习方法生成的设计质量。RF和AF具有不同的架构且独立训练,因此AF预测可被视为对RF设计的序列是否折叠成预期结构的部分正交计算机测试。作者使用AF来比较幻觉和修复重建缺失蛋白质区域的能力。总体而言,修复产生的解决方案具有更准确预测的固定区域和结构。几乎所有的RF设计都被AF紧密再现,总体和基序(功能位点)均方根偏差分别为<2 和<1 Å,具有高模型置信度(pLDDT>80)。
要点4:实验验证
在上述两种情况下,作者在实验室中制备并测试了最终预测的蛋白质。这种新型蛋白质能够与癌细胞上的受体结合、在溶液中抓取金属,并结合二氧化碳从而可能将其从大气中捕获。最后,为了识别潜在的RSV疫苗,研究小组的AI产生了37种蛋白质幻觉,旨在将病毒的关键部分F蛋白位点V呈现给免疫系统。37种中有3种与已知的RSV中和抗体结合,表明它们可能有效。
图3. 设计金属配位蛋白
与将主干生成和序列设计视为两个独立问题的经典蛋白质设计流程不同,该深度学习方法同时生成序列和结构,利用RF模型推理和联合优化这两种数据类型的能力,这导致在生成具有能够承载所需位点的蛋白质支架和编码支架的序列方面具有出色的性能。
图4. 酶活性位点的计算机设计
因此,所提出的幻觉和修复支架比PDB或AF预测数据库中任何天然存在的蛋白质更准确地容纳所有测试的功能位点,并且设计的原始结构比大多数天然蛋白质更易从其序列中预测出来。幻觉和修复方法是互补的:幻觉可为极简功能位点生成不同的支架,但计算量很大,而修复通常需要更大的输入图案,但计算强度要低得多,且在提供更多起始信息时优于幻觉方法。
图5. 设计蛋白质结合蛋白

总结展望



总之,本文介绍的搭建功能位点的方法除了所需功能位点的结构和序列之外不需要任何输入,且不需要指定支架的二级/拓扑结构便可同时生成序列和结构。作者利用RF模型在整个PDB数据集上训练来生成几乎无限多样性的新结构,并支持任何所需的功能残基群。幻觉方法扩展了该领域的相关工作,利用其关键优势设计任何长度的序列而无需重新训练。此外,由于其速度和通用性,修复方法从给定的功能位点扩展以生成连贯的序列结构对的能力应在蛋白质设计中得到广泛应用。随着更准确的蛋白质结构、界面和小分子结合预测网络的开发,这两种方法及两者的结合应用会更加广泛。

文献信息



Scaffolding protein functional sites using deep learning, Science 2022. DOI: 10.1126/science.abn2100

https://www.science.org/doi/10.1126/science.abn2100
【做计算 找华算】华算科技专业靠谱、正版商业软件版权、全职海归计算团队,10000+成功案例!
用户研究成果已发表在Nature子刊、Science子刊、AM系列、ACS系列、RSC系列、EES等国际顶级期刊。
电话同微信:13622320172

 点击阅读原文,提交计算需求!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/146516
 
176 次点击