结构-谱图关系的研究是光谱解析的关键,影响分子结构解析与材料设计。然而,由于其复杂性,从分子结构预测光谱仍具挑战性。研究人员在此提出 NMRNet 框架,基于 SE(3) Transformer 建模原子环境,并采用预训练-微调范式。为评估核磁共振化学位移预测模型,研究人员构建了一个涵盖多种化学体系的综合性基准数据集。NMRNet 在液态与固态核磁数据集上均展现出优异表现,验证了其在实际场景中的稳健性与实用性。本研究推动了深度学习在分析与结构化学领域的应用发展。
光谱技术是解析分子结构与动态的重要手段,其中核磁共振(NMR)在化学、生物与材料科学中尤为关键。准确预测化学位移有助于谱图解析、结构修正和构型判定。然而,传统方法在应对复杂分子结构时常难以兼顾精度与效率。
近年来,深度学习为NMR预测带来新机遇。液态NMR领域的公开数据集促进了图卷积网络等模型的发展,虽有所突破,但对溶剂效应等分子间相互作用的考虑仍有限。固态NMR方面,考虑周期性边界条件的模型也逐步展现出高效性与精度。
然而,现有方法多专用于液态或固态体系,缺乏通用性。为此,研究人员提出统一框架 NMRNet,采用预训练-微调策略,并基于共享的SE(3) Transformer 架构建模原子环境。研究人员还构建了标准化基准集 nmrshiftdb2-2024,以提升化学位移预测的准确性与可比性。NMRNet 在天然产物、大型有机分子与固体材料中均表现出色,展现出良好的泛化能力。尽管对复杂溶剂效应与手性体系的建模仍有挑战,该方法为结构解析与材料设计提供了有力工具。
研究人员提出的 NMRNet 包含四个模块:数据准备、预训练、微调与推理。该框架基于 Uni-Mol 的 SE(3) Transformer 架构,适用于液态、固态和气态体系。数据准备阶段提取三维结构以建模原子环境,其中液态NMR使用分子结构,固态NMR则结合周期性边界条件与截断半径。
在预训练阶段,研究人员利用超过 480 万个结构数据,构建鲁棒的原子环境表示,提升模型的通用性。微调阶段支持多元素或特定元素的化学位移预测,验证结果显示模型在多个基准数据集上具有优异表现。推理阶段,NMRNet 不仅提供数值预测,还支持共振峰指派与构象识别,并开发了线上工具以增强可用性。
研究人员重建并清洗了 nmrshiftdb2 数据,形成更高质量的 nmrshiftdb2-2024 数据集。尽管该数据集更复杂,NMRNet 依然在 ^1H 与 ^13C 化学位移预测中保持较低误差(MAE 分别为 0.181 ppm 与 1.098 ppm),接近实验误差水平。
通过对比是否使用预训练的模型结果,研究人员发现预训练显著降低了预测误差,且在小样本场景下效果尤为明显。NMRNet 在多个公开数据集上均超越现有最佳方法,在 QM9-NMR 中将 ^1H 和 ^13C 的 MAE 分别降低至 0.020 ppm 和 0.262 ppm,展现其对多种溶剂环境的建模能力。
研究人员在 ShiftML1 数据集上测试了四种策略,最终采用结合全局距离矩阵与半径截断的策略(S4),在 ^1H、^13C、^15N 与 ^17O 上实现高精度预测。该策略在 ShiftML2 数据集上也表现稳定。由于采用远点采样训练、随机采样测试的策略,测试集包含大量训练集中未覆盖的复杂化学环境,更具挑战性。
此外,在对 P2 型钠离子电池材料的 ^23Na 化学位移预测中,NMRNet 将预测误差从 125 ppm 降至 48 ppm,显著优于已有方法,证明其在材料体系中的应用潜力。
研究人员首先使用微调后的 NMRNet(基于 nmrshiftdb2-2024)预测五种神经毒剂的化学位移,结果显示其预测精度可与 DFT 方法媲美,且无需先验知识或复杂计算。
随后,研究人员进一步测试了模型在更大分子上的表现。结果表明,即使面对超过 100 个原子的复杂结构,NMRNet 仍保持较高的预测准确性(^1H 的 R² 为 0.954,^13C 为 0.997),说明模型具备良好的泛化与外推能力。
针对峰位指派任务,研究人员构建模块将预测结果与实验位移进行匹配。在 ^13C NMR 上,NMRNet 实现了 94% 的指派准确率;在更具挑战的 ^1H NMR 上,准确率为 72%,仍有优化空间。
在构型判定任务中,NMRNet 能基于三维结构预测结果判断异构体构型,无需专家知识。研究人员通过 RMSD 比较,成功区分出多个异构体与手性分子,特别是在 ^13C 或 ^1H+^13C 联合使用时准确率更高。例如,在八种 hyacinthacines 的异构体中,模型正确识别了五种,验证了 NMR 数据融合的重要性。
研究人员进一步可视化了模型在固态 NMR 下对局域环境的建模能力。在 Na₂/₃(Mg₁/₃Mn₂/₃)O₂ 中,模型通过 t-SNE 展示出预训练和微调对原子环境表征的提升。同时,Transformer 的注意力机制揭示了 Na⁺ 与周围 Mn⁴⁺、Mg²⁺ 和 O²⁻ 原子间的相互作用,成功捕捉材料中关键的电子环境特征,为理解复杂材料结构-谱图关系提供新视角。
尽管 NMRNet 在结构判定与手性识别中展现出良好表现,但在面对极其复杂或数据稀缺体系时仍存在一定局限。此外,当前模型未考虑溶剂、温度等实验因素,这可能影响其预测精度。
未来研究可聚焦于引入更多实验条件,提升模型对现实环境的适应性。同时,结合更多实测数据与大规模验证将有助于评估其广泛适用性。总体而言,NMRNet 为 AI 驱动的光谱分析提供了有力工具,并为结构化学与材料设计领域的进一步探索奠定了基础。
Xu, F., Guo, W., Wang, F. et al. Toward a unified benchmark and framework for deep learning-based prediction of nuclear magnetic resonance chemical shifts. Nat Comput Sci (2025).
https://doi.org/10.1038/s43588-025-00783-z