Nature子刊：评估机器学习晶体稳定性预测的框架

机器学习在各个科学领域的快速应用催生了一种新的需求：制定最佳实践和社区商定的基准任务和指标。美国劳伦斯伯克利国家实验室Kristin A. Persson等人开发了一种名为Matbench Discovery作为机器学习能量模型的示例评估框架，旨在标准化和提升机器学习（ML）模型在预测无机晶体热力学稳定性方面的性能评估，从而加速新材料发现。Matbench Discovery 的核心创新在于构建了一个贴近真实材料发现流程、以稳定性分类为核心、强调前瞻性测试和信息性指标的评估框架。通过该框架，论文不仅解决了领域内关键的评估脱节问题，还明确揭示了通用原子间势 (UIPs) 在加速晶体稳定性预测和材料发现方面的显著优势和潜力，并提供了配套的开源工具和标准化数据集，为未来ML驱动的材料发现研究设立了新的基准和方向。研究成果以“A framework to evaluate machine learning crystal stability predictions”为题发表于Nature Machine Intelligence。

目标： 解决材料科学中ML模型评估的脱节问题，特别是：

(1) 热力学稳定性 vs. 形成能： 传统模型预测形成能（回归目标），但实际发现需要判断材料是否稳定（分类目标，基于凸包距离 Ehull）。
(2) 回顾性 vs. 前瞻性基准测试： 现有基准（如Matbench）多基于已知材料（回顾性），而真实发现需评估模型在未知、假设材料上的表现（前瞻性）
关键设计原则：

核心指标： F₁ 分数 (平衡精确率Precision和召回率Recall)、发现加速因子 (Discovery Acceleration Factor, DAF) (模型发现稳定结构的效率相对于随机选择的倍数，DAF = Precision / Prevalence)。
其他指标：精确率 (Prec)、准确率 (Acc)、真阳性率 (TPR)、真阴性率 (TNR)。
揭示关键问题：回归性能好（低MAE/RMSE）的模型在稳定性分类任务（尤其靠近Ehull=0决策边界）上可能产生高假阳性率，导致资源浪费。

前瞻性测试集： 使用 WBM 数据集 (Wang-Botti-Marques) 作为测试集。该数据集通过元素替换已知结构（来自Materials Project, MP）生成全新的假设晶体，并通过DFT计算其稳定性和Ehull。这模拟了真实发现流程中的“协变量偏移”。
相关目标： 预测目标是松弛后结构的凸包距离 (Ehull)，而非单纯的形成能。Ehull ≤ 0 eV/atom 定义为“稳定”。
信息性指标： 强调分类指标而非单纯回归指标：
可扩展性： 测试集 (WBM, ~215k 结构) > 训练集 (MP, ~154k 结构)，模拟大规模部署场景。测试集包含化学空间更远的材料（高元化合物），评估模型外推能力。

关键发现：

通过Matbench Discovery评估，利用能量 (E)、力 (F)、应力 (S) 数据进行训练的通用原子间势 (UIPs) 模型（如 EquiformerV2+DeNS, MACE, CHGNet）在稳定性预测任务上显著优于仅使用能量 (E) 的模型（如CGCNN, ALIGNN, 基于描述符的模型）。

图1：数据在Matbench Discovery中的使用方式概述。

图2：精度和召回率作为验证模型预测数量的函数。

论文作者提供了matbench-discovery 工具包，方便未来模型提交、评估和结果复现。

论文地址：

https://www.nature.com/articles/s42256-025-01055-1

工具包地址：

https://github.com/janosh/matbench-discovery

投稿邮箱

tougao@cailiaoren.com

投稿以及内容合作可加微信

cailiaorenVIP