机器学习在各个科学领域的快速应用催生了一种新的需求:制定最佳实践和社区商定的基准任务和指标。美国劳伦斯伯克利国家实验室Kristin A. Persson等人开发了一种名为Matbench Discovery作为机器学习能量模型的示例评估框架,旨在标准化和提升机器学习(ML)模型在预测无机晶体热力学稳定性方面的性能评估,从而加速新材料发现。Matbench Discovery 的核心创新在于构建了一个贴近真实材料发现流程、以稳定性分类为核心、强调前瞻性测试和信息性指标的评估框架。通过该框架,论文不仅解决了领域内关键的评估脱节问题,还明确揭示了通用原子间势 (UIPs) 在加速晶体稳定性预测和材料发现方面的显著优势和潜力,并提供了配套的开源工具和标准化数据集,为未来ML驱动的材料发现研究设立了新的基准和方向。研究成果以“A framework to evaluate machine learning crystal stability predictions”为题发表于Nature Machine Intelligence。
目标: 解决材料科学中ML模型评估的脱节问题,特别是:
核心指标: F₁
分数 (平衡精确率Precision和召回率Recall)、发现加速因子 (Discovery Acceleration Factor, DAF) (模型发现稳定结构的效率相对于随机选择的倍数,DAF = Precision / Prevalence
)。
其他指标:精确率 (Prec)、准确率 (Acc)、真阳性率 (TPR)、真阴性率 (TNR)。
揭示关键问题:回归性能好(低MAE/RMSE)的模型在稳定性分类任务(尤其靠近Ehull=0
决策边界)上可能产生高假阳性率,导致资源浪费。
前瞻性测试集: 使用 WBM 数据集 (Wang-Botti-Marques) 作为测试集。该数据集通过元素替换已知结构(来自Materials Project, MP)生成全新的假设晶体,并通过DFT计算其稳定性和Ehull
。这模拟了真实发现流程中的“协变量偏移”。
相关目标: 预测目标是松弛后结构的凸包距离 (Ehull
),而非单纯的形成能。Ehull ≤ 0 eV/atom
定义为“稳定”。
信息性指标: 强调分类指标而非单纯回归指标:
可扩展性: 测试集 (WBM, ~215k 结构) > 训练集 (MP, ~154k 结构),模拟大规模部署场景。测试集包含化学空间更远的材料(高元化合物),评估模型外推能力。
关键发现:
通过Matbench Discovery评估,利用能量 (E)、力 (F)、应力 (S) 数据进行训练的通用原子间势 (UIPs) 模型(如 EquiformerV2+DeNS, MACE, CHGNet)在稳定性预测任务上显著优于仅使用能量 (E) 的模型(如CGCNN, ALIGNN, 基于描述符的模型)。
图1:数据在Matbench Discovery中的使用方式概述。
图2:精度和召回率作为验证模型预测数量的函数。
论文作者
提供了matbench-discovery 工具包,方便未来模型提交、评估和结果复现。
论文地址:
https://www.nature.com/articles/s42256-025-01055-1
工具包地址:
https://github.com/janosh/matbench-discovery