在催化剂筛选中同时兼顾活性与选择性一直是催化领域的核心挑战之一,尤其是面对多路径反应网络时,传统机器学习方法常常受限于高计算成本、数据不平衡和模型可靠性不足等问题。基于此,来自布鲁克海文国家实验室与石溪大学的Ping Liu团队近日在Cell Press旗下期刊Chem Catalysis 上发表论文,提出了一种多层二元分类(MLBC)框架,结合动力学蒙特卡罗(kMC)模拟与机器学习方法,以Cu基催化剂上CO₂加氢制甲醇为案例,实现了对催化活性和甲醇选择性的高可靠性筛选,为多路径催化过程的催化剂发现提供了全新范式。
数据科学方法已被广泛应用于催化剂的高通量评估与发现,其中基于量子化学数据集训练的机器学习模型可以利用描述符快速筛选大规模催化剂空间,实现相比传统计算数量级的加速。然而,现有方法面临多重瓶颈:第一,量子化学计算生成大规模数据集成本高昂;第二,简化模型往往忽略了真实催化剂的复杂性和反应环境的动态影响;第三,多路径反应网络中通常仅考虑单一路径,难以描述活性与选择性之间的相互制约关系;第四,数据集中活性/高选择性催化剂属于"稀有事件",导致数据严重不平衡,传统的单层分类(SLBC)或回归模型极易偏向多数类,对最具实际价值的高性能催化剂产生误判。
针对上述问题,本文提出了MLBC框架,通过层级化分类策略将不平衡任务分解为一系列平衡的子任务,并以kMC合成数据集替代昂贵的DFT全量计算,同时采用无预设关系的特征选择策略,拓展了探索"超越标度关系"催化剂的设计空间。
数据集构建与分析
研究以Cu(111)为参考体系,通过在±0.5 eV范围内随机偏移其15个中间体生成能和17个过渡态能,模拟合金化、碱金属修饰等调控效应,共生成569个合成体系。kMC模拟在典型甲醇合成条件下(575 K, 5 bar, pH₂:pCO₂ = 9:1)计算了每个体系的转化频率(TOF)和甲醇选择性(S_CH₃OH)。结果显示,仅68个体系具有高活性(TOF ≥ 0.55 site⁻¹•s⁻¹),50个具有高选择性(S_CH₃OH ≥ 50%),数据分布高度偏斜。
MLBC框架的层级设计
框架设计了两条筛选工作流:CO₂转化活性工作流(Classifier A → B1 → B2)和甲醇选择性工作流(Classifier A → C1 → C2)。每一层分类器根据合理阈值(如Cu(111)的TOF = 0.068 site⁻¹•s⁻¹)将数据集逐级细分,确保每层训练子集趋于平衡。这种层级"门控"机制允许前层以召回率换取精度,避免遗漏稀有高性能体系,后层再逐步消除假阳性。
模型性能与验证
每个分类器经Mann-Whitney U检验进行特征初筛,再通过递归特征消除交叉验证(RFECV)精选关键特征,最终在7种ML模型中择优。在合成验证集上,MLBC框架对高活性体系的正预测可靠性达75%,对高选择性体系达80%,而传统SLBC模型分别仅为25%和0%。更关键的是,框架在三个真实催化体系——Zn₆(OH)₇/Cu(111)、K/CuₓO/Cu(111)和Au/Cu(111)——上展现出出色的泛化能力,正确预测了Zn₆(OH)₇/Cu(111)的高活性与高选择性、K/CuₓO/Cu(111)的高甲醇选择性,以及Au/Cu(111)相对较低的活性和选择性。
特征分析与机理洞察
SHAP分析揭示,不同层级分类器的关键特征各不相同,反映了从"能否转化CO₂"到"能否高选择性产甲醇"的决策逻辑演变。特别值得关注的是,不同路径之间的过渡步骤(如Formate路径与RWGS路径的交汇步骤)被识别为调控活性和选择性的关键描述符,这一发现为超越传统标度关系的催化剂设计提供了重要方向。
总结
本文提出的多层二元分类(MLBC)框架为催化剂筛选提供了一种低成本、高可靠性的新方法。该框架通过kMC合成数据集大幅降低计算成本,通过层级分类有效解决数据不平衡难题,通过无偏特征选择增强了模型的可解释性和泛化能力。以Cu基催化剂上CO₂加氢制甲醇为案例,MLBC框架不仅在合成数据集和真实催化体系上均展现出远超传统模型的筛选性能,还通过特征分析揭示了路径间过渡步骤对活性与选择性的关键调控作用。该框架的代码和数据已在GitHub上公开,具有广泛的可移植性,有望推动多路径催化过程中高效催化剂的智能发现。
原文(扫描或长按二维码,识别后直达原文页面):

Multilayer machine-learning framework for screening catalytic activity and selectivity
Wenjie Liao, An Nguyen, Ping Liu
Chem Catal., 2026, DOI: 10.1016/j.checat.2025.101611
研究团队简介
Ping Liu,布鲁克海文国家实验室杰出化学家(Distinguished Chemist),石溪大学兼职教授,吉林大学博士。研究聚焦能源催化的理论与计算,结合DFT、动力学建模与机器学习方法,致力于CO₂转化、燃料电池等领域的催化剂理性设计。
(本稿件来自CellPress)
点击“阅读原文”,查看 化学 • 材料 领域所有收录期刊