Py学习  »  机器学习算法

Science | 生成式深度学习模型模拟蛋白平衡态的构象系综

王初课题组 • 1 周前 • 11 次点击  

大家好,今天给大家推荐一篇发布在Science上的文章,文章标题“Scalable emulation of protein equilibrium ensembles with generative deep learning“,文章的通讯作者是来自微软研究院AI4Science的Frank Noé。

在不同构象状态之间转变是蛋白质功能的一个关键决定因素,然而定量检测这种构象转变是一个艰巨的任务。目前已有的实验方法,如用于测量分子内距离的单分子实验、用于解析复合物结构多种构象状态及其概率的冷冻电镜实验等等,既耗时又费财。分子动力学模拟(MD)原则上能够以全原子分辨率研究蛋白质的结构分布,然而其计算成本依然过高。本文作者基于生成式深度学习模型开发了BioEmu,以实现在蛋白质平衡态构象分布的近似采样。

开发此类模型的一个主要挑战是缺乏用于描述蛋白质平衡态分布的高质量数据集。为此,作者整合不同来源的数据库用于训练。具体而言,首先通过序列聚类和结构聚类将AFDB缩减为具有多样化结构的50 K簇用于预训练;随后提供数千种中小型蛋白的MD全原子模拟数据(超过200毫秒的模拟);最后在MEGAscale数据集进行微调。值得一提的是,MEGAscale数据集是一个包含约500 K个蛋白的、体外测量蛋白质稳定性的实验数据集。通过微调技术,有望将实验测量值纳入扩散模型训练中。

随后,作者测试了BioEmu能否预测已知的构象变化,以及能否模拟长时间尺度的MD分布。对于前者,作者在包含约100个蛋白的数据集上测试得到BioEmu能够较高的准确率预测蛋白质结构域的运动、发现蛋白质中隐藏的口袋。对于后者,作者使用Anton超级计算机生成了12种蛋白的MD轨迹;使用“留一交叉验证法”对BioEmu进行微调和评估。结果表明,模型以4到5个数量级的加速预测得到了相似于MD模拟的自由能景观。

总的来说,本文作者开发了一个基于深度学习的方法BioEmu以模拟蛋白平衡态的构象系综。该方法可能为后续识别药物结合口袋、解析蛋白质功能的结构机制提供帮助。


本文作者:ZF

责任编辑:MB

DOI:10.1126/science.adv9817

原文链接:https://doi.org/10.1126/science.adv9817

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/186134
 
11 次点击