社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

精度高,速度快!西湖大学团队开发端到端电子显微镜图像分析深度学习模型

ScienceAI • 5 天前 • 10 次点击  

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯


编辑 | 萝卜皮

冷冻电镜拍图虽然很高清,但是 AI 解结构却像新手拼乐高——步骤繁琐易跑偏,算力烧钱还挑数据。

为了应对这些挑战,西湖大学与新加坡国立大学的研究人员提出了 end-to-end and efficient CryoFold(E3-CryoFold),这是一种支持端到端训练和一次性推理的深度学习方法。

E3-CryoFold 使用三维和序列 Transformer 从密度图和序列中提取特征,并使用交叉注意力模块整合这两种模态。它使用 SE(3) 图神经网络基于提取的特征构建原子结构。

E3-CryoFold 模型在源自蛋白质数据库结构的模拟密度图上进行了预训练。与 Cryo2Struct 相比,E3-CryoFold 将生成结构的平均模板建模得分提高了 400%,并且明显优于 ModelAngelo,而这一巨大进步仅使用了这些方法所需推理时间的千分之一。

该研究以「End-to-end cryo-EM complex structure determination with high accuracy and ultra-fast speed」为题,于 2025 年 6 月 24 日发布在《Nature Machine Intelligence》。

自显微镜发明以来,科学家们一直致力于更清晰地观察蛋白质复合物,以阐明其结构和功能以及它们如何影响生物过程。

在结构生物学领域数百年的技术进步中,低温电子显微镜(cryo-EM)已成为一项关键技术,并于 2017 年荣获诺贝尔奖。

冷冻电镜能够生成接近原子分辨率的密度图,揭示大分子的形状和相互作用,而无需结晶,也不会损坏样品。对于研究大分子行为的研究人员来说,将这些三维(3D)密度图解读为原子结构模型是关键的一步,然而,这一过程本身就极具挑战性。

它需要高水平的专业知识来指导解释,并且由于密度图的高维性,计算机图形程序会产生大量的计算成本。此外,缺乏准确的模板会严重影响结构测定的准确性和效率。

人工智能带来了新的可能性,但是现有方法通常需要多阶段训练和推理,导致效率低下和结果不一致;在将预测的原子坐标与序列比对时经常出现偏差,且计算成本巨大;深度学习等 AI 方法往往需要大量训练数据,而可用数据集有限。

迄今为止,电子显微镜数据库中分辨率优于 4 Å 的低温电镜结构仅不到 13,000 个,并且其中许多是冗余的。因此,现有低温电镜密度图的规模有限,限制了深度学习方法有效推广到更广泛的真实样本的能力。

E3-CryoFold

为了有效应对这些挑战,西湖大学的研究团队提出了 E3-CryoFold,它是一个端到端训练和一次性推理模型。

图示:E3-CryoFold 的架构和管线。(来源:论文)

具体来说,研究人员对密度图和序列进行预处理,以对齐数据并加快训练过程。然后,密度图和序列分别输入到 3D 和序列 Transformer 中,同时使用交叉注意力模块整合来自两种模态的空间和序列信息。随后,他们构建一个等变图神经网络 (GNN),基于组合的空间序列特征生成 3D 原子结构。这种方法通过将空间特征直接注入序列表征中,避免了结构与序列之间的对齐损失。

与以往的方法不同,E3-CryoFold 促进了端到端训练,允许用户输入完整的低温电子显微镜密度图和序列(或使用不包含序列信息的模型),通过单个模型直接获取原子结构。这便消除了冗余的多阶段流程,从而显著提升了效率和准确率。

值得注意的是,该团队建立了一个包含 163,284 个蛋白质数据库 (PDB) 结构模拟的低温电子显微镜密度图的训练数据集,该数据集通过预训练增强了模型的泛化能力。

研究人员在两个包含不同分辨率和长度的测试数据集上验证了 E3-CryoFold 的泛化能力,并将其性能与其他稳健的基准方法进行了比较。结果表明,其准确率和效率显著提升,与 ModelAngelo、Cryo2Struct 和 Phenix 等已有方法相比,E3-CryoFold 推理时间仅为这些方法的千分之一。

局限性与未来

尽管如此,E3-CryoFold 仍面临一些挑战。

首先,密度图的形状不规则,需要将其调整为统一的形状,这可能会引入偏差并导致空间信息丢失,尤其是在较大的图谱中。

其次,由于 E3-CryoFold 生成的原子坐标不受约束,预测结构与目标结构之间的均方根标准差可能相对不稳定。研究人员表示,将 E3-CryoFold 预测与基于密度图的原子坐标相结合,可以有效缓解这些问题。

最后,E3-CryoFold 目前仅支持残基骨架的建模,而同样关键的侧链尚未被考虑。侧链建模代表了 E3-CryoFold 的重大扩展,也是未来发展的重要领域。

论文链接:https://www.nature.com/articles/s42256-025-01056-0

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/184077
 
10 次点击