Py学习  »  机器学习算法

同期两篇Science | 从头设计蛋白!上帝之手David Baker团队基于深度学习方法开发高精度的蛋白设计方法

iNature • 1 年前 • 337 次点击  
来自美国华盛顿大学蛋白质设计研究所的David Baker教授是人工设计蛋白领域的领军人物,由Baker团队开发的Rosetta软件包,可以创建出自然界中从未见过的蛋白质,并对蛋白结构进行计算预测和设计。这意味着我们可以创造出具有各种功能的全新的生命活动执行者。
2022年9月15日,Science 杂志在线发表的文章中,有两篇出自David Baker教授团队。这两篇研究均基于深度学习的方法,进行蛋白质序列和对称蛋白质同源寡聚体设计,这些研究成果为设计用于纳米机器和生物材料的日益复杂的组件铺平了道路。
一篇研究论文题为“Robust deep learning–based protein sequence design using ProteinMPNN”,该研究描述了一种基于深度学习的蛋白质序列设计方法 ProteinMPNN
在天然蛋白质骨架上,ProteinMPNN 的序列恢复率为 52.4%,高于Rosetta方法(32.9%)。此外,研究人员还通过X 射线晶体学、cryoEM 和功能研究证明了ProteinMPNN的广泛实用性和高精度,这种方法将对蛋白质设计提供极大帮助。
研究蛋白质结构,有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,这无论是对于生物学还是对于医学和药学都是非常重要的。虽然深度学习已经彻底改变了蛋白质结构预测,但几乎所有以实验为特征的从头蛋白质设计都是使用基于物理的方法(如 Rosetta)生成的。
该研究开发一种基于深度学习的蛋白质序列设计方法ProteinMPNN,并将该方法广泛用于单体、环状寡聚体、蛋白质纳米颗粒和蛋白质蛋白质界面的设计。与 Rosetta 和其他基于物理的方法不同,ProteinMPNN 不需要专家进行针对特定设计,因此它应该使蛋白质设计更广泛地可访问。这种稳健性反映了如何构建序列设计问题的根本差异
由于设计目标与明确优化的内容之间缺乏一致性,因此可能需要大量定制来生成可折叠的序列,例如在 Rosetta 设计计算中,疏水性氨基酸通常被限制在蛋白质表面,因为它们可以稳定不需要的多聚体状态,并且在蛋白质表面和核心之间的边界区域,对于应用这种限制的程度可能存在相当大的不确定性。虽然深度学习方法缺乏 Rosetta 等方法的物理透明性,但它们被直接训练以在给定 PDB 中的所有示例的情况下为蛋白质骨架找到最可能的氨基酸,因此不会出现这种模糊性,从而使序列设计更加稳健并较少依赖专家的判断。
ProteinMPNN 架构(图源自Science 
总的来说,这项研究开发的ProteinMPNN 方法在解决序列设计问题的时间比 Rosetta 等基于物理的方法所需的时间少,该方法可进行大规模侧链包装计算,在天然骨架上实现更高的蛋白质序列恢复(52.4% 对 32.9%),并挽救了以前失败的使用 Rosetta 或 AlphaFold 设计的蛋白质单体、组件和蛋白质-蛋白质界面。
另一篇研究论文题为“Hallucinating symmetric protein assemblies”,该研究使用深度网络幻觉来生成广泛的对称蛋白质同源寡聚体。这项结果突出了使用深度学习产生新蛋白质结构的丰富多样性,并为设计用于纳米机器和生物材料的日益复杂的组件铺平了道路。
这项研究基于深度学习的方法设计环状同源寡聚体,无需分层对接方法即可共同生成原聚体及其寡聚体组件。研究人员报告了在纳米尺度上丰富的从头蛋白质同源寡聚体,具有广泛的拓扑多样性,同时保持对称和寡聚状态等设计约束。这些设计的寡聚体在序列和结构上都与天然寡聚体有很大不同,因为计算管道插入和扩展了原生折叠空间,而不是简单地概括记忆的蛋白质结构,这展示了深度学习探索设计领域以前未知区域的能力
不仅如此,研究结果还突出了 ProteinMPNN 方法在蛋白质序列设计中的强大功能。在通过 SECMALS、nsEM、cryoEM 或 X 射线晶体学实验评估的 192 种设计中的 30 种蛋白中,其中27 种具有预期的低聚状态,在19 种尝试结晶的 蛋白总有7 种形成了衍射晶体(这是相当高的结晶成功率高于典型的 Rosetta de novo 设计),并表明 ProteinMPNN 可能产生更可能形成晶体接触的蛋白质表面。
幻化对称的蛋白质组装体(图源自Science )
总的来说,这项研究表明可以通过基于深度学习的生成模型访问 PDB 中存在的丰富多样的蛋白质结构和组件。并且7 种设计的晶体结构与计算模型非常接近(均方根偏差 [RMSD] 中值:0.6 Å),3 个具有多达 1550 个残基和 C33 对称性的巨型 10 纳米环的低温电子显微镜结构也是如此,这些都与以前解决的结构有很大不同。这一成果证明,深度学习生成方法为广泛探索天然蛋白质序列和结构之外的蛋白质结构空间提供了机会。

原文链接:
https://www.science.org/doi/10.1126/science.add2187
https://www.science.org/doi/10.1126/science.add1964

END

内容为【iNature】公众号原创,

转载请写明来源于【iNature】

微信加群


iNature汇集了4万名生命科学的研究人员及医生。我们组建了80个综合群(16个PI群及64个博士群),同时更具专业专门组建了相关专业群(植物,免疫,细胞,微生物,基因编辑,神经,化学,物理,心血管,肿瘤等群)。温馨提示:进群请备注一下(格式如学校+专业+姓名,如果是PI/教授,请注明是PI/教授,否则就直接默认为在读博士,谢谢)。可以先加小编微信号(iNature5),或者是长按二维码,添加小编,之后再进相关的群,非诚勿扰。


投稿、合作、转载授权事宜
请联系微信ID:13701829856 或邮箱:iNature2020@163.com

觉得本文好看,请点这里!
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/147241
 
337 次点击