Py学习  »  机器学习算法

深度学习|更快速更准设计蛋白质

癌图腾 • 1 年前 • 134 次点击  
由于对所有生物结构和功能至关重要,蛋白质通常被称为生命的基石,它们几乎参与了细胞内的每一个过程,包括生长、分裂和修复。蛋白质由长的氨基酸链构成,氨基酸的序列决定其三维形状,这些形状又与蛋白质的功能密切相关。因此,了解蛋白质的结构可以更好地理解其作用和工作原理,这也是解决许多生命科学问题的关键,例如为疾病设计新的疗法或疫苗,或解决粮食安全问题和环境污染问题。
在过去的两年里,机器学习已经彻底改变了蛋白质结构预测,但几乎所有实验表征的从头蛋白质设计都是使用基于物理的方法生成的,如RoseTTA,这是一款用于模拟大分子结构的软件。2022年7月28日,DeepMind宣布其开发的AlphaFold已能预测出100万个物种超过2亿个蛋白质的结构,几乎涵盖了地球上所有已知蛋白质。然而,这些所描述的方法并不足以应对当前蛋白质设计的所有挑战,
最近,《Science》上发表的三篇论文再度掀起了蛋白质设计领域的革命。
2022年9月15日,发表在《Science》上的一项新研究中,来自华盛顿大学医学院著名的生物化学家David Baker教授实验室的研究团队表明,机器学习可以比以前更快速和更精确地创造蛋白质分子。这一进步有望带来更多新的治疗方法、碳捕获工具和可持续的生物材料。
Baker表示,蛋白质是整个生物学的基础,但迄今为止,在每一种动物、植物和微生物中发现的全部蛋白质所占比例可能远远不到所有蛋白质的1%。
为了超越自然界中发现的蛋白质,Baker的团队将应对蛋白质设计的挑战分为“三部曲”,并为每一部开发新的软件解决方案。
第一部,需要生成一个新的蛋白质形状。
2022年7月21日,发表在《Science》上的一篇研究中,该团队展示了人工智能可以通过两种方法生成新的蛋白质形状
第一种方法名为“受限幻觉”(constrained hallucination),它可以优化序列,使其预测的结构包含所需的功能位点。第二种方法名为“修复”(inpainting),它从功能位点开始,填充额外的序列和结构,通过专门训练的RoseTTAFold网络,在单次前向传递中创建可行的蛋白质支架。这有点儿类似于搜索引擎中的自动完成功能。
在最新的研究中,作为“三部曲”的第二部分,该团队设计了一种基于深度学习的蛋白质序列设计方法ProteinMPNN,它在计算机和实验测试中均具有出色的性能。
具体而言,ProteinMPNN解决序列设计问题的时间比Rosetta等基于物理的方法所需的时间要少得多(运行时间约为1秒),在天然骨架上实现更高的蛋白质序列恢复,并挽救了之前使用RoseTTA或AlphaFold对蛋白质单体、组装体和蛋白质-蛋白质接口进行的失败设计。
总之,ProteinMPNN实验设计成功率高,计算效率高,适用于几乎所有的蛋白质序列设计问题,而且不需要专家定制即可运行。因此,在蛋白质设计中具有广泛的应用价值。
在第三部分,该团队在《Science》同期一篇背靠背研究中使用AlphaFold来独立评估他们提出的氨基酸序列是否有可能折叠成预期的形状,并证实新机器学习工具的组合可以可靠地生成在实验室中发挥作用的新蛋白质。
预测蛋白质结构的软件是解决方案的一部分,但它无法提出任何新的东西。Baker表示,ProteinMPNN之于蛋白质设计,就像AlphaFold之于蛋白质结构预测。
他们发现,使用ProteinMPNN制造的蛋白质更有可能按预期折叠,并且可以使用这些方法创造非常复杂的蛋白质组装体。
在制造出的新蛋白质中,有一种是纳米级的环,研究人员认为这种环可以成为定制纳米机器的部件。
总之,这些方法机器学习在蛋白质设计中的真正开端。Baker表示,在接下来的几个月里,他的实验室将努力改进这些工具,以创造出更有活力和功能的蛋白质。有了这些新的软件工具,科学家们就可以为长期以来在医学、能源和技术方面的挑战找到解决方案。
论文链接:
https://www.science.org/doi/10.1126/science.add2187
https://www.science.org/doi/10.1126/science.add1964
https://www.science.org/doi/10.1126/science.abn2100

来源: 中国生物技术网 2022-09-22

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/149705
 
134 次点击