将 ScienceAI 设为星标
第一时间掌握
新鲜的 AI for Science 资讯

编辑 | 萝卜皮
冷冻电镜拍图虽然很高清,但是 AI 解结构却像新手拼乐高——步骤繁琐易跑偏,算力烧钱还挑数据。
为了应对这些挑战,西湖大学与新加坡国立大学的研究人员提出了 end-to-end and efficient CryoFold(E3-CryoFold),这是一种支持端到端训练和一次性推理的深度学习方法。
E3-CryoFold 使用三维和序列 Transformer 从密度图和序列中提取特征,并使用交叉注意力模块整合这两种模态。它使用 SE(3) 图神经网络基于提取的特征构建原子结构。
E3-CryoFold 模型在源自蛋白质数据库结构的模拟密度图上进行了预训练。与 Cryo2Struct 相比,E3-CryoFold 将生成结构的平均模板建模得分提高了 400%,并且明显优于 ModelAngelo,而这一巨大进步仅使用了这些方法所需推理时间的千分之一。
该研究以「End-to-end cryo-EM complex structure determination with high accuracy and ultra-fast speed」为题,于 2025 年 6 月 24 日发布在《Nature Machine Intelligence》。
自显微镜发明以来,科学家们一直致力于更清晰地观察蛋白质复合物,以阐明其结构和功能以及它们如何影响生物过程。
在结构生物学领域数百年的技术进步中,低温电子显微镜(cryo-EM)已成为一项关键技术,并于 2017 年荣获诺贝尔奖。
冷冻电镜能够生成接近原子分辨率的密度图,揭示大分子的形状和相互作用,而无需结晶,也不会损坏样品。对于研究大分子行为的研究人员来说,将这些三维(3D)密度图解读为原子结构模型是关键的一步,然而,这一过程本身就极具挑战性。
它需要高水平的专业知识来指导解释,并且由于密度图的高维性,计算机图形程序会产生大量的计算成本。此外,缺乏准确的模板会严重影响结构测定的准确性和效率。
人工智能带来了新的可能性,但是现有方法通常需要多阶段训练和推理,导致效率低下和结果不一致;在将预测的原子坐标与序列比对时经常出现偏差,且计算成本巨大;深度学习等 AI 方法往往需要大量训练数据,而可用数据集有限。
迄今为止,电子显微镜数据库中分辨率优于 4 Å 的低温电镜结构仅不到 13,000 个,并且其中许多是冗余的。因此,现有低温电镜密度图的规模有限,限制了深度学习方法有效推广到更广泛的真实样本的能力。
E3-CryoFold
为了有效应对这些挑战,西湖大学的研究团队提出了 E3-CryoFold,它是一个端到端训练和一次性推理模型。
图示:E3-CryoFold 的架构和管线。(来源:论文)
具体来说,研究人员对密度图和序列进行预处理,以对齐数据并加快训练过程。然后,密度图和序列分别输入到 3D 和序列 Transformer 中,同时使用交叉注意力模块整合来自两种模态的空间和序列信息。随后,他们构建一个等变图神经网络 (GNN),基于组合的空间序列特征生成 3D 原子结构。这种方法通过将空间特征直接注入序列表征中,避免了结构与序列之间的对齐损失。
与以往的方法不同,E3-CryoFold 促进了端到端训练,允许用户输入完整的低温电子显微镜密度图和序列(或使用不包含序列信息的模型),通过单个模型直接获取原子结构。这便消除了冗余的多阶段流程,从而显著提升了效率和准确率。
值得注意的是,该团队建立了一个包含 163,284 个蛋白质数据库 (PDB) 结构模拟的低温电子显微镜密度图的训练数据集,该数据集通过预训练增强了模型的泛化能力。
研究人员在两个包含不同分辨率和长度的测试数据集上验证了 E3-CryoFold 的泛化能力,并将其性能与其他稳健的基准方法进行了比较。结果表明,其准确率和效率显著提升,与 ModelAngelo、Cryo2Struct 和 Phenix 等已有方法相比,E3-CryoFold 推理时间仅为这些方法的千分之一。
局限性与未来
尽管如此,E3-CryoFold 仍面临一些挑战。
首先,密度图的形状不规则,需要将其调整为统一的形状,这可能会引入偏差并导致空间信息丢失,尤其是在较大的图谱中。
其次,由于 E3-CryoFold 生成的原子坐标不受约束,预测结构与目标结构之间的均方根标准差可能相对不稳定。研究人员表示,将 E3-CryoFold 预测与基于密度图的原子坐标相结合,可以有效缓解这些问题。
最后,E3-CryoFold 目前仅支持残基骨架的建模,而同样关键的侧链尚未被考虑。侧链建模代表了 E3-CryoFold 的重大扩展,也是未来发展的重要领域。
论文链接:https://www.nature.com/articles/s42256-025-01056-0
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。