社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

Nat. Comput. Sci. | MISATO:蛋白质-配体复合物的机器学习数据集用于基于结构的药物发现

DrugAI • 12 月前 • 294 次点击  

DRUGAI

今天为大家介绍的是来自Grzegorz M. Popowicz团队的一篇论文。LLM极大地增强了人们理解生物学和化学的能力,但基于结构的药物发现、量子化学和结构生物学的健全方法仍然稀缺。对于大型语言模型来说,精确的生物分子-配体相互作用数据集是迫切需要的。为了解决这个问题,作者提出了MISATO,一个结合了小分子的量子力学性质和大约20,000个实验蛋白质-配体复合物的分子动力学模拟的数据集,并对实验数据进行了广泛验证。从现有的实验结构出发,使用半经验量子力学系统地优化这些结构。数据集中包含了大量蛋白质-配体复合物在显式水中的分子动力学轨迹,累计超过170微秒。作者提供了机器学习基线模型的示例,证明了使用作者的数据可以提高准确性。数据集可通过https://github.com/t7morgen/misato-dataset获得。

近年来,人工智能(AI)预测在许多科学领域引发了革命。在结构生物学中,AlphaFold2仅通过氨基酸序列就能预测出准确的蛋白质结构,其准确性接近最先进的实验数据。AlphaFold2的成功得益于一个包含近20万个蛋白质结构的丰富数据库,这些结构存储在蛋白质数据库(PDB)中,并可供使用。这些结构是通过X射线晶体学、核磁共振(NMR)或冷冻电子显微镜在过去几十年中确定的。尽管投入巨大,每年批准的新药数量仍然很少,研发成本达到数十亿美元。一个持续的重大挑战是基于结构的药物发现(Drug Discovery,DD)。与蛋白质结构预测相比,这项任务要困难得多。引入AI到这一过程仍处于早期阶段。AI方法原则上能够学习描述实验数据的基本状态变量。因此,它们可能会从电子和基于力场的蛋白质-配体复合物描述中抽象出来。然而,到目前为止,提出的多为简单解决方案,并未充分利用现有的蛋白质-配体数据,如评分蛋白质-配体吉布斯自由能(Gibbs free energies)、ADME(吸收、分布、代谢和排泄)属性估计或合成路径预测。这些方法大多数是使用一维的SMILES(简化分子线性输入系统)构建的,只有少数方法恰当地解决三维生物分子-配体数据。


作者在本篇中提出了一个实验验证过的蛋白质-配体结构的数据库MISATO(molecular interactions are structurally optimized,分子相互作用结构优化)。作者展示了该数据库有助于更好地训练与药物发现及其他领域相关的模型,包括量子化学、通用结构生物学和生物信息学。作者提供基于量子化学的结构整理和优化,包括配体几何结构的正则化。作者为数据库补充了缺失的动态和化学信息,包括在时间尺度上允许检测某些系统的瞬态和隐蔽状态的分子动力学模拟。这些对于成功的药物设计非常重要。因此,作者用尽可能多的物理参数补充实验数据,减轻AI模型隐式学习所有这些信息的负担,从而集中于主要的学习任务。MISATO数据库提供用户友好的格式,可以直接导入机器学习代码。作者还提供了各种预处理脚本来筛选和可视化数据集,提供了AI基线模型示例,这些示例包含计算量子化学性质(化学硬度和电子亲和力)、结合亲和力计算、蛋白质柔性或诱导契合特征预测。这些量子力学(QM)、分子动力学(MD)和AI基线模型在实验数据上进行了广泛验证。作者希望将MISATO转变为一个雄心勃勃的社区项目,对整个药物发现领域产生深远影响。


数据集描述


图 1


MISATO(图1)的基础是从PDBbind中提取的19,443个蛋白质-配体结构。这些结构是在过去几十年中通过实验确定的,代表了一个多样化的蛋白质-配体复合物集合,并且都有实验亲和力数据。在AI用于药物发现的背景下,将模型训练在一个尽可能正确和一致的数据集上至关重要,原因有几个。首先,可用结构的总数量远低于其他AI目标的典型训练规模。其次,在分子识别过程中,配体结合具有相当复杂的能量景观。蛋白质-配体结构或原子参数的微小偏差可以显著影响结合。在PDB中,错误的原子分配和不一致的几何形状并不少见。更严重的是,氢原子对其化学和分子环境高度敏感,并且很少能通过实验获得。作者在工作中系统地解决了所有这些问题,并将其编入数据库中。


基于量子力学的配体整理评估


图 2


按照补充部分第6节定义的方案,作者修改了总计3,930个结构,大约占原数据库20%的结构需要进行大量优化(图2)。其中,有3,905个案例涉及质子化状态的变化,而97个配体涉及杂原子的变化。这些变化主要是添加模型功能基团以模拟与蛋白质的共价结合(20个)或添加缺失的羟基到硼酸中。


一些配体被分割成多个分子,因为原始结构不是二元的蛋白质-配体复合物(一个配体):1A0T、1G42、1G9D、2L65、3D4F和4MNV。1E55被认为是两个实体的混合物。然而,它们之间的最近接触不足以将它们单独考虑,但也太大,无法形成共价相互作用。类似的考虑适用于1F4Y,尽管这里涉及的是近距离分子内接触。在4AW8中,作者观察到发布的配体PG6有显著变形。作者发现参考亲和力与系统中的金属离子Zn(ii)有关,而不是与PG6有关,因此该结构被排除在外。


如图2所示,最常见的调整是从初始PDBbind几何结构中去除氢原子,这占了几乎75%的修改。有人指出,诸如PDBbind这样的库在结合构型方面存在偏重的数据集。


分子动力学模拟

图 3


实验结构数据是静态快照,假定其代表在晶体中捕获的热力学最稳定状态,但忽略了构象动态的存在。从纳秒到毫秒时间尺度,生物大分子动态的实验描述是具有挑战性的,需要结合不同的光谱技术。NMR光谱和基于荧光的方法可以提供相关信息,但耗时较长,而且到目前为止,公共数据库中未能很好地捕捉到动态信息。可以从实验结构出发进行MD模拟,让它们随时间演变,使用描述分子势能面的力场。通常情况下,可以针对单个系统实现纳秒到微秒的时间段,具体取决于系统大小。MD轨迹允许分析蛋白质-配体复合物的小范围结构波动,但在某些情况下,也可以观察到大规模的罕见事件(图3)。在现有的药物发现软件中,这些事件大多被忽略了。

图 4


作者这里对16,972个显式水中的蛋白质-配体复合物进行了10纳秒的MD模拟。遇到非标准配体原子或蛋白质起始结构不一致的情况时,结构会被忽略。MD模拟生成了各种元数据(图4)。这里计算了配体在蛋白质对齐后的均方根偏差(RMSDLigand)和整个复合物相对于天然结构的均方根偏差。此外,作者使用MMGBSA评分估算了结合亲和力(未显式考虑熵贡献),还获得了复合物的埋藏溶剂可及表面积。计算的性质在模拟过程中稳定,证明它们很好地达到了平衡状态。对于某些系统,捕捉到了结合位点的较大重新排列,在极端情况下导致整个结合口袋的打开(图3)。这些罕见事件表明可能存在隐匿口袋或瞬态结合模式。在少数情况下,检测到了解离。


AI模型

图 5


为了展示数据集的可能应用,作者训练并评估了基线AI模型。这些模型作为模板包含在库中,以供未来社区开发使用。对于量子力学(QM)数据集,预测了配体分子的电子亲和力和化学硬度(图5)。电子亲和力的Pearson相关系数为0.75,化学强度为0.77。平均绝对误差显示预测值接近目标值:电子亲和力平均为0.12 eV,化学强度平均为0.13 eV。这两个QM特征的高准确性表明可以快速推导出QM性质,这对计算时间较长的大分子尤为重要。


对于分子动力学(MD)轨迹,作者预测了蛋白质的诱导契合能力(适应性)。模型能够识别出可能适应配体结合的生物分子结构元素,实现了0.66的平均Pearson相关系数。平均而言,前100个原子中有42个被正确预测(图5)。如图5d所示,模型可以预测MD运行期间蛋白质口袋中最具柔性的原子(大球)和更刚性的蛋白质区域(小球)。这使得在不需要冗长的MD设置和模拟的情况下快速检查蛋白质口袋成为可能。适应性模型提供了一个创新的例子,说明如何利用基于MD的MISATO数据增强实验结构。

结合亲和力AI模型结合了MISATO的MD和QM数据。已知实验结合亲和力在不同实验技术、实验条件和计算亲和力类型之间难以比较。为了减少这些影响,作者的亲和力模型预测了相对于定义基准复合物的目标结构的相对亲和力。这些配对具有相同的蛋白质和亲和力类型。在MISATO结合亲和力基准测试中,取得了高相关性,与不使用MISATO特征相比,使用MISATO特征的结果有所改善(图6)。

编译|黄海涛

审稿|王建民

参考资料

Siebenmorgen, T., Menezes, F., Benassou, S., Merdivan, E., Didi, K., Mourão, A. S. D., ... & Popowicz, G. M. (2024). MISATO: machine learning dataset of protein–ligand complexes for structure-based drug discovery. Nature Computational Science, 1-12.

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/170908
 
294 次点击