广西大学潘明章 & 西安交大苏亚琼Advanced Science: 高通量筛选与可解释机器学习驱动甲烷活化双金属催化剂理性设计

甲烷（CH₄）不仅是天然气的主要成分和极具潜力的清洁能源，同时也是一种强效温室气体，其100年全球变暖潜能值（GWP）是二氧化碳的28倍。随着天然气汽车保有量预计在2030年突破3500万辆，尾气中未完全燃烧的甲烷成为减排的关键挑战。如何高效去除这些“隐形碳排放”，已成为实现碳中和目标的重要课题。传统催化剂研发长期依赖试错法，周期长、成本高，而且难以深刻揭示复杂的微观反应机理与决速步转移规律。尽管密度泛函理论（DFT）能从原子层面解析反应机理，但在面对双金属合金庞大的组分空间时，计算量依然难以承受。近年来，机器学习虽加速了材料发现进程，但多数模型如同“黑箱”，缺乏对内在机制的洞察力。这使得科学家难以理解为何某种材料性能更优，从而限制了理性设计的推进。

为突破这一瓶颈，广西大学机械工程学院潘明章团队联合西安交通大学苏亚琼团队在Advanced Science发表合作成果，在交叉学科视野下提出了一种将高通量密度泛函理论（DFT）与可解释机器学习（Interpretable Machine Learning）深度融合的创新研究范式。该框架将高通量DFT计算与可解释机器学习深度融合，不仅预测性能，更能揭示物理本质。本工作系统构建并筛选了104种面心立方（FCC）结构的双金属合金催化剂表面，深刻揭示了甲烷氧化过程中决速步骤（Rate-Determining Step, RDS）转移的原子级机制，并成功锁定了一种性能远超传统PdPd基准催化剂的最优合金——IrPt。更重要的是，本研究通过引入粒子群优化（PSO）的XGBoost机器学习算法及SHAP（SHapley Additive interpretability）可解释性博弈论框架，打破了传统人工智能在催化领域的“黑盒”局限，明确了掺杂原子的d带填充程度及Bader电荷是决定双金属催化剂活性的关键电子结构描述符。该成果为多组分合金催化剂的理性设计提供了数据驱动与物理可解释性并重的前沿方法论。

为了理性设计能够高效启动甲烷C-H键活化过程的双金属合金催化剂，本研究团队首先在严格的物理约束下构建了一个庞大且高保真的计算材料数据库。该库以面心立方（Face-Centered-Cubic, FCC）结构的过渡金属体系为核心，选取了8种催化领域最为常见的FCC基底元素（Ni, Cu, Rh, Pd, Ag, Ir, Pt, Au）作为主要活性基底（M₁位点），并分别系统性地掺杂了13种常用过渡金属元素（Ni, Cu, Rh, Pd, Ag, Ir, Pt, Au, Ti, Mn, Fe, Co, Zn）作为掺杂剂（M₂位点）。通过这种正交组合方式，研究人员在FCC(111)晶面上成功合成了包含104种具有1:1化学计量比（即交替排列的均匀合金）的催化剂模型库，其中包含96种真正的双金属合金结构和8种纯金属结构（M₁=M₂）。在这个高通量工作流的驱动下，研究团队提取了每一种催化剂在甲烷前两步C-H键断裂过程中的全部关键数据：包括中间体能量、过渡态势垒、反应热力学能以及催化剂表面的各类基础物理化学性质、几何应变特征与电子结构特征。为了彻底消除由于晶格严重失配导致的不收敛或表面重构带来的数值伪影，研究团队在最终进入机器学习建模前，实施了严苛的数据清洗协议，剔除了12个存在相分离或剧烈畸变的失效样本，保留了92个最高质量的理论数据点，构筑了高质量的高密度催化基准数据集。

基于BEP 标度关系理论，反应能通常可以作为活化能垒的近似代理指标。这一原理在异相催化中被广泛认可，它允许研究者通过相对简单的吸附能与反应能计算，跳过极度复杂的过渡态搜索，从而实现催化剂的快速筛选。据此，本研究首先将第一步C-H键断裂能（E_C-H1）和第二步C-H键断裂能（E_C-H2）确立为衡量甲烷活化能力的核心热力学描述符。

图1. M₁M₂催化剂上前两个C-H键的断裂能（E_C-H1和E_C-H2）。a) 每个M₁位点元素的平均E_C-H1值及误差棒（每条误差棒对应n=13个样本）。数据以均值±标准差（SD）形式呈现，误差棒代表同一数据组的标准差，该数据组由不同掺杂剂的分布得出（每种M₁基底金属含13种掺杂剂）。b) 每个M₂位点元素的平均E_C-H1值及误差棒（每条误差棒对应n=8个样本）。c) 每个M₁位点元素的平均E_C-H2值及误差棒（n=13）。d) 每个M₂位点元素的平均E_C-H2值及误差棒（n=8）。

对图1(a)的数据进行深度挖掘可以发现，E_C-H1在104种体系中呈现出极大的跨度（从-0.15 eV至0.98 eV）。在8种基底候选者中，贵金属Pt、Rh和Ir展现出了明显的热力学优势，其掺杂体系的E_C-H1平均值分别处于极低的-0.15 eV、-0.13 eV和 -0.10 eV水平。这一微观层面的计算结果，完美印证了这三种元素在当今商用甲烷氧化催化剂中的统治地位。为了建立科学的对比基准，本研究特意选取了工业界最常用的纯相Pd金属（PdPd）作为参照系。相比之下，Ni、Cu、Ag、Au等元素的E_C-H1平均值均位于正值区间（0.14至0.98 eV），暴露出其对高度稳定的CH₄分子初始活化能力较弱。同时，我们探究了M₂对CH₄首次C-H键断裂的反应能力（图1b）。令人惊讶的是，Co展现出显著增强的甲烷活化能力，其平均E_C-H1值达-1.50 eV。这表明钴的引入有效调节了主要活性金属的电子结构和表面性质，显著优化了合金表面对CH₃分子和H原子的吸附能力。相比之下，当Cu、Zn、Ag和Au作为掺杂元素M₂时，平均E_C-H1值均超过0.50 eV，导致初始活化在热力学上不利。值得注意的是，通过分析图1a和1b可发现，当部分金属元素Co或Fe掺入时，Cu、Au和Ag的E_C-H1值显著降低，这凸显了研究合金催化剂活性的内在复杂性和重要性。

随着反应步入第二阶段，即吸附态甲基（CH₃*）的进一步脱氢分解（生成CH₂*与H*），值得注意的是，E_C-H2的分布模式与E_C-H1呈现显著差异。与首次C-H活化步骤不同，铱表面具有最低的平均E_C-H2值（-0.80 eV，见图1c）。结合图1a结果可知，这表明Ir表面在最大程度稳定CH₃中间体的同时削弱了剩余C-H键，使第二步脱氢反应在热力学上最为有利。相反，其他基底元素的平均E_C-H2值集中在-0.42至0.03 eV的窄范围内，较E_C-H1显著降低。此外，图1d的观测结果表明，掺杂位点M₂处的Fe和Mn最有利于第二步脱氢反应，其平均E_C-H2值分别为-1.51和-1.32 eV。同时，与首次C-H键断裂过程类似，当使用Cu、Zn、Ag和Au作为掺杂剂M₂时，平均E_C-H2值仍保持正值。这表明当这些元素作为掺杂剂使用时，会使合金表面对甲基和亚甲基物种的吸附能力相对较弱。因此，它们不适合作为促进甲烷深层氧化的活性组分，尤其在需要多步脱氢反应的体系中。

更为关键的是，综合观察图1可发现，某些金属元素呈现显著的标准差。例如当Ag占据M₁位点时，E_C-H2键的标准偏差高达1.29 eV（图1c）。这一现象表明特定元素对C-H键断裂能的影响并非呈现单一趋势，而是高度依赖于基底与掺杂剂的组合效应。我们发现，元素对反应中间体的吸附能力存在显著差异，这取决于其作为基底或掺杂剂的不同角色。因此，即使是同一元素在不同合金配置中也表现出显著的性能波动。电子与几何结构的异质性会导致甲烷氧化反应的关键基元反应间存在RDS迁移现象。

为了更准确寻找影响催化反应的关键描述符，当研究团队将严格计算得出的反应能（E_C-H1，E_C-H2）与其对应的真实动力学活化能（E_a1，E_a2）进行映射时发现：虽然第一步C-H键活化在宏观上大体遵循BEP线性原则，但在第二步脱氢过程中却出现了明显偏差，特定的合金组合甚至呈现出完全不规则的散射分布。这一现象严正宣告了：仅仅依赖基于BEP关系推导出的E_C-H1和E_C-H2这两个简单热力学描述符，不足以全面描述双金属表面连续C-H断裂的复杂动力学全貌。

为了彻底揭开RDS转移的神秘面纱，研究团队回归了催化领域最为本质的Sabatier原理（Sabatier principle）。该原理指出，理想的催化剂对反应中间体的吸附强度必须“恰到好处”——过强则导致产物毒化，过弱则无法有效活化底物。在甲烷的连续断键网络中，位于两步反应承上启下关键位置的中间体正是甲基自由基（CH₃*）。因此，研究团队敏锐地提取了体系的甲基吸附能（E_{f_CH3}）作为第三个潜在的关键变量。

图2. 甲基吸附能与RDS转移的关系。a) M₁M₂分子中第一次和第二次C-H键断裂的活化能（E_a1和E_a2）之和与差值，分别与甲基分子的吸附能之间的关系。b) 图2(a)中黑色矩形的局部放大视图。

图2a展示了E_{f_CH3}与E_a1-E_a2及E_a1+E_a2的关联关系。位于基准线（E_a1-E_a2 = 0）上方的圆点对应催化剂中首次C-H键断裂能垒较高，确立首次C-H键断裂为反应决定步骤（RDS）。反之，位于基准线下方的圆点则表明第二次C-H键断裂能垒较高，使其成为RDS。这种系统性分布表明RDS在首次与第二次C-H键断裂之间发生转移。Sabatier原理是理解甲基吸附能在这两步反应中作用的基础。该吸附能既不能过强也不能过弱，其数值大小被预测会影响RDS的确定。图2a揭示：仅当合金催化剂具有中等CH₃吸附能（约0.13-0.43 eV）时，才能同时显著降低首次与二次C-H 键断裂的活化能垒。为评估基于描述符关系的统计可靠性，图2(a)同时给出了95%置信区间与95%预测区间。置信区间量化了拟合趋势的不确定性，而预测区间反映了单个数据点围绕拟合值的预期分散程度。在识别区域周围出现窄而一致的区间，证实了最佳E_{f_CH3}窗口（0.13–0.43 eV）在同时最小化两个活化能垒方面的稳健性。该观测结果与Sabatier原理高度契合——该原理指出最佳催化活性出现在中等吸附强度区间。由此确立E_{f_CH3}作为预测双金属甲烷氧化催化剂活性的关键第三描述符。

图3. 基于特定描述符的甲烷氧化合金催化剂活性预测。

基于上述见解，选取E_C-H1、E_C-H2和E_{f_CH3}作为表征因子。以PdPd作为基准——这种纯金属催化剂在商业应用中广泛使用。如图3所示，三维散点图基于三大关键描述符展示了104种M₁/M₂催化剂候选物的分布：首次C-H键断裂能（E_C_−H1，x轴）、第二次C-H键断裂能（E_C_−H2，y轴）及甲基吸附能（E_{f_CH3}，z轴）。粉色球体代表合金库；红色三角标记传统PdPd基准；红色星号标注已确定的最优IrPt合金。后平面与底平面上的蓝、红、金三色点为三维数据的二维投影，突显了各描述符对之间的关联性。沿E_{f_CH3}轴分布的浅蓝与粉色阴影带，以及基面上的黄色椭圆区域共同界定了“黄金区域”（即E_{f_CH3}值介于0.13-0.43 eV之间，同时E_C_−H1与E_C_−H2能量最小化）。相较于基准PdPd体系，该区域材料构成具有广阔前景的高性能候选物。其中，IrPt 展现出最低的E_C-H1和E_C-H2值（分别为 -0.12 eV 和 -0.77 eV），显著低于传统钯基参考材料（E_C-H1 = -0.04 eV，E_C-H2= -0.02 eV）。对 IrPt 的初步分析表明，第二个C-H键的断裂是整个反应的RDS。

图4. 基于密度泛函理论计算的活化能验证合金催化剂的甲烷氧化活性。右上角的红色示意图是左下角红色矩形区域的放大图。

图4 展示了通过密度泛函理论计算的活化能验证结果，其中催化活性通过两个基本步骤（E_a1和E_a2）的能垒直接量化。以PdPd作为参照点，可见仅左下区域内的组合满足筛选标准。右上角的放大插图揭示红色阴影区域包含最优催化剂；值得注意的是，IrPt再次成为领先候选者。IrPt上连续C-H键断裂的活化能（E_a1 = 0.50 eV，E_a2 = 0.82 eV）显著低于PdPd（E_a1 = 0.80 eV，E_a2 = 1.43 eV）。这些发现共同验证了组合描述符E_C-H1、E_C-H2和E_{f_CH3}作为高效甲烷氧化催化剂初步筛选的可靠指标。

图5. IrPt催化剂上甲烷氧化关键基本步骤的反应路径。反应循环中的中间体和过渡态结构如图所示，其中浅绿色、灰色、棕色和白色原子分别代表Ir、Pt、C和H。

图5展示了甲烷在IrPt合金表面氧化反应中关键基本步骤的反应路径。甲烷的首次C-H键活化发生在铱活性位点（IM1 →IM2，E_a1 = 0.50 eV）。生成的CH₃*仍吸附于同一铱原子上，而释放的H*则先结合于表面空位再迁移。随后CH₃*经历进一步脱氢反应（IM2 → IM3, Ea₂ = 0.82 eV），生成CH₂*。该基团从铱位点迁移至由原始铱原子、邻近铱原子及最近铂掺杂原子构成的三原子空位。

传统催化剂开发高度依赖试错法和专家直觉，导致实验周期冗长、测试成本高昂且搜索空间固有限制。将高通量第一性原理计算与机器学习相结合的协同框架，能够高效挖掘理论数据中的深层特征，构建具备自主经验的回归模型，从而加速高性能催化剂的发现与优化。该范式是突破高成本与高度人力依赖两大顽疾的关键突破口。建立高保真材料数据库并驾驭广阔的多维超参数空间，是实现可靠回归的必要前提；然而机器学习回归器中庞大的可调超参数数量，使得人工穷举调优既耗时费力，又难以获得真正最优配置。

为同时应对催化剂筛选与超参数优化的双重挑战，本研究提出一种融合粒子群优化（PSO）的回归框架。通过对四种机器学习算法的系统构建与对比评估，发现嵌入PSO的方法优于传统人工调优，实现了甲烷氧化合金催化剂的理性设计。通过采用博弈论可解释性框架SHAP，成功解析了预测性“黑箱”模型。这些策略的整合构建出可解释的机器学习框架，最终揭示了输入特征与催化性能之间隐含的关联规律。

斯皮尔曼相关分析因其核心优势而被优先采用——该方法能评估变量间的单调关系，而非仅限于线性关联。与基于原始观测值的皮尔逊相关系数不同，斯皮尔曼相关系数采用秩值计算，因此对异常值不敏感，且能有效识别非线性但具单调性的内在相关性。在本研究涵盖的104种双金属合金表面体系中，关键电子描述符（如d带中心和Bader电荷转移）对C-H键裂解能（ E_C-H）呈现一致（单调）但未必线性的调控关系。该特性使基于秩评估的斯皮尔曼系数能精准捕捉此类非线性趋势，从而避免皮尔逊相关系数因线性假设导致的高预测性描述符被低估或误判。此外，下游预测模型XGBoost作为梯度提升决策树算法，其分裂阈值同样基于特征值排序确定。该机制与斯皮尔曼系数的等级本质高度契合。因此，采用斯皮尔曼相关系数进行特征选择，可确保描述符筛选标准与核心算法运行机制的方法论一致性。这保证了所选描述符能为XGBoost决策树提供有效的分裂节点，从而提升建模效率与预测稳健性。

图6. 所有结构特征与反应性质的斯皮尔曼相关矩阵。红色和蓝色分别表示变量间的正相关与负相关（矩形大小与数值大小成正比）。

为揭示催化的内在物理驱动机制，我们构建了一个综合特征空间，涵盖几何应变（如金属键长Bond_L和原子半径R₁/R₂）与电子效应（如Bader电荷和d带特征）。斯皮尔曼相关性分析（图6）表明，纯几何描述符对甲烷中第一和第二C-H键的能量仅产生微弱的直接影响。相反，表面d带特征与巴德电荷（代表电荷转移）具有显著更强的影响。该发现与Nørskov的d带理论相符，表明几何应变主要通过改变金属d带重叠（电子结构）间接影响吸附能。因此电子描述符成为更直接有效的预测因子。先前研究证实，当催化剂满足E_{f_CH3}在限定区间内时，C-H键能与活化能存在显著正相关：C-H键能越低对应活化能越低，从而催化活性越高。据此选取E_C-H1和E_C-H2作为模型输出，并采用与各C-H键能相关性最强的八个描述符作为输入。

图7. 四种机器学习模型分别预测首个C-H键断裂的键能并分析评估指标。a)、b)、c)和d)分别对应四种机器学习模型（PSO-XGBOOST、PSO-MLP、PSO-RF和PSO-SVR）的训练与预测结果。e) 四种机器学习模型在五项评估指标上的对比。PSO-XGBoost模型以R²=0.89的系数获得最佳性能。f) 最优预测模型的SHAP可解释性分析，展示各输入变量对输出结果的具体影响机制。

图8. 四种机器学习模型分别预测第二个C-H键断裂的键能并分析评估指标。a)、b)、c)和d)分别对应四种机器学习模型（PSO-XGBOOST、PSO-MLP、PSO-RF和PSO-SVR）的训练与预测结果。e) 四种机器学习模型在五项评估指标上的对比。PSO-XGBoost模型以R²=0.89的系数获得最佳性能。f) 最优预测模型的SHAP可解释性分析，展示各输入变量对输出结果的具体影响机制。

本研究系统性地比较了四种机器学习算法——XGBoost、随机森林（RF）、支持向量回归（SVR）和多层感知器（MLP），并采用粒子群优化（PSO）算法探索每种学习器的高维超参数空间。模型性能通过均方误差（MSE）、均方根误差（RMSE）、平均绝对误差（MAE）、平均绝对百分比误差（MAPE）及决定系数（R²）在测试集上进行严格评估。这些综合指标可定量评估机器学习预测的可靠性与泛化能力，确保所开发模型在数据有限条件下仍具稳健性。如图7和图8所示，PSO-XGBoost相较于其他算法更能揭示数据中的潜在模式，从而实现更优的预测精度。在E_C-H1任务（图7e）中，PSO-XGBoost（均方误差MSE=0.0968，均方根误差RMSE=0.311，均方误差MAE=0.243，均方百分比误差MAPE=1.04%，决定系数R²=0.89）在所有指标上均超越其他模型。在E_C-H2任务（图8e）中，PSO-XGBoost（均方误差MSE=0.0847，均方根误差RMSE=0.291，MAE = 0.231，MAPE = 1.96%，R² = 0.90) 的MAPE值略高于PSO-MLP和PSO-SVR ，但其余四项指标的综合评估仍证实其整体拟合优越性。表1列出了PSO配置及优化后的XGBoost超参数。为实现全局探索与局部开发间的优化平衡，本文采用的PSO算法在迭代过程中融入动态惯性权重策略：惯性权重随迭代次数线性递减，使算法在前期优先进行广泛的全局搜索，后期则聚焦局部最优解的精炼。

将机器学习应用于原子级催化时面临的关键挑战在于，当处理有限的高保真密度泛函理论数据时，存在遭遇“维度诅咒”及随之而来的过拟合风险。尽管当代深度学习框架通常需要海量数据阵列才能隐式收敛，但数据驱动催化领域近期的认识论进展证实：基于树的集成方法可在小样本数据集上实现卓越的稳健性与泛化能力——前提是输入特征能编码深刻的物理直觉。本研究中，28个工程化描述符的非凡信息密度极大弥补了92个样本数据集的明显局限。通过将特征空间从传统d带中心扩展至完整的高阶d带矩（宽度、偏度和峰度）及原子Bader电荷，这些描述符构成了稳健的物理归纳偏置。此外，XGBoost算法通过其严格的内部L₁和L₂叶节点权重正则化机制，从根本上抵御了过拟合风险。结合PSO算法自主调节超参数深度与学习率，有效防止模型记忆局部数值噪声。

基于SHAP分析（图7f和图8f），定量揭示了每个输入特征对PSO-XGBOOST模型预测的C-H键能的个体贡献。结果表明，掺杂元素的d带填充度（f_d2）是E_C-H1和E_C-H2预测中最具影响力的共同描述符。从物理机制看，f_d2值决定了掺杂原子中d轨道的占据情况，这从根本上调控了活性位点的态密度分布。该电子特征直接决定了金属表面d电子与C-H键反键轨道之间的相互作用强度，从而决定了活化能垒。此外，SHAP总结强调了其他关键描述符的重要性——例如表面掺杂物的Bader电荷（chg₂）和残余d带特征。具体而言，Bader电荷（chg₂）作为配位效应的替代指标，反映了基底金属与掺杂物间的电荷重分布。这种协同作用共同调节活性位点的局部化学环境与静电势，从而决定关键中间体（如CH₃）的吸附稳定性及最终形成的C-H键能。

意义与展望：

采用高通量密度泛函理论计算，对1:1掺杂的面心立方合金催化剂进行了系统研究，重新审视了双金属表面甲烷氧化的速率决定紊乱机制。通过将前两个C-H键活化反应能作为主要描述符，并辅以甲基吸附能作为补充描述符，从104种候选催化剂中筛选出IrPt作为甲烷活化高效催化剂。研究表明，在1:1合金表面，甲烷转化关键基本步骤无法通过传统线性关系进行解释。通过将基于SHAP的可解释机器学习技术与PSO优化算法相结合，在有限数据集条件下实现了催化描述符的精准预测，揭示出合金原子的“电子结构特征”——特别是掺杂原子的d带填充度和Bader电荷——对整体活性具有决定性影响。此外，合金原子的电子结构是决定RDS转变时机的关键因素。本研究通过系统性密度泛函理论筛选与可解释机器学习的结合，为天然气发动机后处理领域的高效双原子合金催化剂提供了理性设计原则，为该领域未来发展奠定了基础。

近日，该研究成果以《高通量筛选与可解释机器学习在甲烷活化双金属催化剂理性设计中的应用》（High-Throughput Screening and Interpretable Machine Learning for Rational Design of Bimetallic Catalysts for Methane Activation）为题发表在《先进科学》（Advanced Science）上。广西大学机械工程学院教授潘明章为该论文的第一作者与通讯作者，广西大学机械工程学院官维副教授、天津大学机械工程学院教授卫海桥和西安交通大学化学学院苏亚琼研究员为通讯作者。

文章链接：http://doi.org/10.1002/advs.202524394

苏亚琼主页：https://gr.xjtu.edu.cn/web/yqsu1989

本文仅用于学术分享，如有侵权，请联系后台小编删除

测试表征+计算+绘图

本

期

互

动

【菲常新品】μGAS1001微量气体反应评价系统不仅结构紧凑，更搭载了智能触屏，带来前所未有的便捷操作体验。它丰富的反应器类型能灵活适配光催化、电催化、光电催化等多种复杂反应！

咨询热线：17812516997

点击询价