社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

Nat. Comput. Sci. | 深度学习驱动的核磁共振化学位移预测:迈向统一的基准与框架

DrugAI • 2 月前 • 49 次点击  

DRUGAI

结构-谱图关系的研究是光谱解析的关键,影响分子结构解析与材料设计。然而,由于其复杂性,从分子结构预测光谱仍具挑战性。研究人员在此提出 NMRNet 框架,基于 SE(3) Transformer 建模原子环境,并采用预训练-微调范式。为评估核磁共振化学位移预测模型,研究人员构建了一个涵盖多种化学体系的综合性基准数据集。NMRNet 在液态与固态核磁数据集上均展现出优异表现,验证了其在实际场景中的稳健性与实用性。本研究推动了深度学习在分析与结构化学领域的应用发展。

光谱技术是解析分子结构与动态的重要手段,其中核磁共振(NMR)在化学、生物与材料科学中尤为关键。准确预测化学位移有助于谱图解析、结构修正和构型判定。然而,传统方法在应对复杂分子结构时常难以兼顾精度与效率。


近年来,深度学习为NMR预测带来新机遇。液态NMR领域的公开数据集促进了图卷积网络等模型的发展,虽有所突破,但对溶剂效应等分子间相互作用的考虑仍有限。固态NMR方面,考虑周期性边界条件的模型也逐步展现出高效性与精度。


然而,现有方法多专用于液态或固态体系,缺乏通用性。为此,研究人员提出统一框架 NMRNet,采用预训练-微调策略,并基于共享的SE(3) Transformer 架构建模原子环境。研究人员还构建了标准化基准集 nmrshiftdb2-2024,以提升化学位移预测的准确性与可比性。NMRNet 在天然产物、大型有机分子与固体材料中均表现出色,展现出良好的泛化能力。尽管对复杂溶剂效应与手性体系的建模仍有挑战,该方法为结构解析与材料设计提供了有力工具。

结果

NMRNet 框架概览

研究人员提出的 NMRNet 包含四个模块:数据准备、预训练、微调与推理。该框架基于 Uni-Mol 的 SE(3) Transformer 架构,适用于液态、固态和气态体系。数据准备阶段提取三维结构以建模原子环境,其中液态NMR使用分子结构,固态NMR则结合周期性边界条件与截断半径。


在预训练阶段,研究人员利用超过 480 万个结构数据,构建鲁棒的原子环境表示,提升模型的通用性。微调阶段支持多元素或特定元素的化学位移预测,验证结果显示模型在多个基准数据集上具有优异表现。推理阶段,NMRNet 不仅提供数值预测,还支持共振峰指派与构象识别,并开发了线上工具以增强可用性。

液态NMR的微调结果

研究人员重建并清洗了 nmrshiftdb2 数据,形成更高质量的 nmrshiftdb2-2024 数据集。尽管该数据集更复杂,NMRNet 依然在 ^1H 与 ^13C 化学位移预测中保持较低误差(MAE 分别为 0.181 ppm 与 1.098 ppm),接近实验误差水平。


通过对比是否使用预训练的模型结果,研究人员发现预训练显著降低了预测误差,且在小样本场景下效果尤为明显。NMRNet 在多个公开数据集上均超越现有最佳方法,在 QM9-NMR 中将 ^1H 和 ^13C 的 MAE 分别降低至 0.020 ppm 和 0.262 ppm,展现其对多种溶剂环境的建模能力。


固态NMR的微调结果

研究人员在 ShiftML1 数据集上测试了四种策略,最终采用结合全局距离矩阵与半径截断的策略(S4),在 ^1H、^13C、^15N 与 ^17O 上实现高精度预测。该策略在 ShiftML2 数据集上也表现稳定。由于采用远点采样训练、随机采样测试的策略,测试集包含大量训练集中未覆盖的复杂化学环境,更具挑战性。


此外,在对 P2 型钠离子电池材料的 ^23Na 化学位移预测中,NMRNet 将预测误差从 125 ppm 降至 48 ppm,显著优于已有方法,证明其在材料体系中的应用潜力。


NMRNet 的应用场景

泛化能力验证

研究人员首先使用微调后的 NMRNet(基于 nmrshiftdb2-2024)预测五种神经毒剂的化学位移,结果显示其预测精度可与 DFT 方法媲美,且无需先验知识或复杂计算。


随后,研究人员进一步测试了模型在更大分子上的表现。结果表明,即使面对超过 100 个原子的复杂结构,NMRNet 仍保持较高的预测准确性(^1H 的 R² 为 0.954,^13C 为 0.997),说明模型具备良好的泛化与外推能力。


共振峰指派

针对峰位指派任务,研究人员构建模块将预测结果与实验位移进行匹配。在 ^13C NMR 上,NMRNet 实现了 94% 的指派准确率;在更具挑战的 ^1H NMR 上,准确率为 72%,仍有优化空间。


构型识别

在构型判定任务中,NMRNet 能基于三维结构预测结果判断异构体构型,无需专家知识。研究人员通过 RMSD 比较,成功区分出多个异构体与手性分子,特别是在 ^13C 或 ^1H+^13C 联合使用时准确率更高。例如,在八种 hyacinthacines 的异构体中,模型正确识别了五种,验证了 NMR 数据融合的重要性。


化学位移与局域环境关联

研究人员进一步可视化了模型在固态 NMR 下对局域环境的建模能力。在 Na₂/₃(Mg₁/₃Mn₂/₃)O₂ 中,模型通过 t-SNE 展示出预训练和微调对原子环境表征的提升。同时,Transformer 的注意力机制揭示了 Na⁺ 与周围 Mn⁴⁺、Mg²⁺ 和 O²⁻ 原子间的相互作用,成功捕捉材料中关键的电子环境特征,为理解复杂材料结构-谱图关系提供新视角。

讨论

尽管 NMRNet 在结构判定与手性识别中展现出良好表现,但在面对极其复杂或数据稀缺体系时仍存在一定局限。此外,当前模型未考虑溶剂、温度等实验因素,这可能影响其预测精度。


未来研究可聚焦于引入更多实验条件,提升模型对现实环境的适应性。同时,结合更多实测数据与大规模验证将有助于评估其广泛适用性。总体而言,NMRNet 为 AI 驱动的光谱分析提供了有力工具,并为结构化学与材料设计领域的进一步探索奠定了基础。

整理 | WJM

参考资料

Xu, F., Guo, W., Wang, F. et al. Toward a unified benchmark and framework for deep learning-based prediction of nuclear magnetic resonance chemical shifts. Nat Comput Sci (2025). 

https://doi.org/10.1038/s43588-025-00783-z

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/180593
 
49 次点击