机器学习在催化化学中的应用、机遇与挑战

催化是一个复杂、多维度和多尺度的研究领域。机器学习有助于建立更好的模型，了解催化研究，并产生新的催化知识。

什么是机器学习？

机器学习目前正在经历一场复兴，它正在影响包括催化在内的许多科学和工程领域。一般来说，机器学习是从数据构建模型的实践。在我们可能称之为经典模型建立的过程中，我们主要依靠物理洞察力和原理；例如，守恒定律，或热力学或量子化学的见解，来推导具有参数的数学公式，这些参数可以（通过线性或非线性回归）来重现（通常是实验性的）数据。机器学习采用不同的模型开发方法，依赖于灵活的非线性模型，这些模型由参考数据训练来输出所需的信息。这种方法已经存在几十年了，并在早期应用于实验催化数据。如今，它越来越多地应用于催化的计算研究，并被集成到混合计算/实验研究程序中。

过去，对于非专家来说，在软件中运行机器学习程序是很困难的，而且训练过程可能需要大量的计算。开源软件的最新进展，如 Scikit Learn、TensorFlow、PyTorch、Chainer 等，使科学研究人员获得高质量机器学习工具的途径基本实现了自动化。计算硬件（尤其是图形处理单元（GPU）的大规模可用性）和云计算（使此类软件易于使用）的最新进展，也大大降低了这些工具的计算成本和在科学研究中使用机器学习的门槛。这导致了当今科学机器学习的复兴。

在这篇文章中，我们将讨论在催化中使用机器学习的当前方法，以及对机遇和挑战的展望。

机器学习的原子势

密度泛函理论（DFT）已经成为催化反应中第一个基于原理的模拟的工作平台。DFT 的一个关键限制是计算成本。在许多情况下，需要进行数千或数十万次计算，例如筛选、自由能计算、蒙特卡罗或分子动力学模拟。

然而，DFT 在这方面根本不实用。经典的，基于物理学的原子势已经被使用了几十年。它们的计算效率很高，但可能缺乏所需的准确性，而且很难系统地加以改进。一个日益重要的领域是利用机器学习来开发从 DFT 计算中学习到的原子势。产生这些势函数有三个开源代码：（1）AMP4，（2）AEnet5 和（3）Prophet6。有其他相关的机器学习方法在化学和材料中更为常见，通常基于高斯过程或核岭回归方法。

催化表面的反应动力学

机器学习势函数可以用于催化剂表面的反应动力学，这使得人们可以在实际温度下探测反应轨迹。Shakouri 及其同事利用神经网络势对 Ru（0001）上的氮离解进行了建模，其中包括表面声子模式与吸附振动模式的表面耦合。

机器学习的神经网络算法使他们能够使用分子动力学和 DFT 精度来模拟 Ru（0001）上氮气的全动态解离。这一点很重要，因为反应概率很低，需要很长的模拟时间和大量的轨迹。通过加速计算，他们能够运行所需的模拟长度，并获得与实验结果很好的一致性。这种方法的一个扩展是利用神经网络势函数用分子动力学模拟红外光谱。

由于模拟的规模和生成实际配置所需的统计取样的需要，溶剂和纳米颗粒在催化作用中的尺寸效应仍然非常难以建模。对于 DFT，这通常是不可行的。Artrith 和 Kolpack 使用神经网络势函数来解决这一问题。利用神经网络势能函数，他们能够模拟 147 到 1415 个原子大小的纳米颗粒，确定其组成和表面能量，1.0 和 1.5 纳米颗粒的温度依赖性偏析曲线，并确定表面水的结构。这两个结果显示了机器学习势函数在反应条件下识别相关表面结构和成分的价值。这显然只是迈向建模的第一步。

预测催化剂的催化性能

机器学习的第二个重要作用是开发预测催化剂性能的模型。在这种情况下使用机器学习的一个典型例子是金属的 d 带中心（许多金属和合金上催化活性的已知描述符）的预测。作为一种对比方法，发布了一个基于物理的模型。模型的输入只是一个活跃地点的原子几何结构，带有适合每个物种的 d 轨道大小的参数。

相比之下，在机器学习方法中，最多使用 9 个描述符（如原子大小、电负性和密度）作为模型的输入。他们发现，适度精确的预测可以用六个描述符来完成。值得注意的是，这些模型虽然精确地预测了 d 带中心，但并不能提供新的洞察为什么参数是重要的。

前一个例子说明了机器学习中的一个关键思想，即需要识别最终与属性相关的特性，这需要特定的领域知识来确保特性是相关的。Xin 等人的研究在催化剂筛选的背景下强调了这一点。他们使用许多物理相关的描述符作为特征来构建跨合金组成空间的共化学键合模型。这使得它们能够快速筛选出各种核壳合金表面上的共吸附能。他们确定了 d 带形状和 sp 带填充的重要贡献，特别是对于通常不包括在简单 d 带模型中的铸币金属。因此，除了加速筛选过程外，本例中的机器学习方法还帮助识别发生的重要物理现象。

预测纳米颗粒的活性

机器学习也可用于多尺度、粗粒度的方法来预测纳米颗粒的活性。对于合金纳米粒子，通常有一个分布的活性位点，并不总是像那些在单晶表面。然而，这些位置可能类似于单晶表面上的位置，例如台阶边缘或行位置，等等。

利用局部相似性测度，我们可以基于模型表面上用 DFT 计算的相似点来近似纳米颗粒上位点的反应性。或者，基于表面方面、结构和能量特性的特征可与决策树和神经网络一起用于建立纳米颗粒的催化效率和活性的模型。

通过这种方法，我们可以有效地从 DFT 计算中建立一个模型，该模型可以预测太大而无法用 DFT 计算的纳米粒子的反应性，并深入了解哪些特性对反应性很重要。

即使是一个简单的反应网络，如合成气在 Rh（111）上的反应，也会很快导致超过 2000 个潜在路径。直接用 DFT 接近是不切实际的，可能也没有必要；许多路径可能由于高屏障而不相关。

ulissi 和同事们用一种新颖的方式利用机器学习来处理这个问题。他们开发了一种方法，即使用 DFT 计算迭代地增加网络的知识，该计算被引导以减少反应网络最相关部分的不确定性。他们能够确定对特定产品最可能的反应网络。将不确定性纳入其分析中，可以进一步了解特定反应途径的重要性，以及指导在何处进行额外的 DFT 计算。

预测过渡金属配合物的电子结构

过渡金属配合物在均相催化中有着广泛的应用，其电子结构复杂，基态的自旋有序化趋势也很微妙。众所周知，DFT 的预测对交换相关函数的选择是敏感的。Janet 和 Kulik 在多个环境中利用机器学习来解决这个问题，并提供过渡金属复合物性能的预测。

这项工作最显著的特点是，他们训练了一个神经网络来预测自旋状态分裂对交换函数的敏感性，使他们能够通过预测他们对所用函数的敏感性来评估预测属性的有效性。他们还能够预测平衡几何特性，这可以与筛选应用的结构生成工具相结合。

同步辐射光谱（X 射线吸收近边缘结构）是研究催化材料结构的常用方法。这些光谱的解释具有挑战性，通常需要提出结构模型，计算该模型的 xanes 光谱，然后比较结果，直到预测和测量光谱之间有合理的一致性。

一种新的方法同步辐射光谱（X 射线吸收近边缘结构）是研究催化材料结构的常用方法。这些光谱的解释具有挑战性，通常需要提出结构模型，计算该模型的 xanes 光谱，然后比较结果，直到预测和测量光谱之间有合理的一致性。

一种新的方法使用机器学习来解决给定测量光谱时出现的反问题：什么是结构？这种方法之所以有效，是因为现在可以生成数千个候选结构和预测的光谱，然后训练机器学习算法，将光谱的特征映射到结构模型中。这个想法是非常普遍的，可以应用于许多其他类型的光谱，在那里可以从一个模型预测一些结构模型的光谱。

预测单原子催化的最佳条件

量子化学模拟(下面板)描述了金属原子和底层支撑物(橙色)之间的电荷转移(蓝色/绿色)。这仅仅是对催化剂物理行为的一种描述，研究人员为众多催化剂中的每一种计算了 330，000 种这样的描述，从而创建了一个庞大的数据库。机器学习(上面板)用于搜索数据库中隐藏的模式，设计者可以利用这些模式来制造更便宜、更高效的催化剂。

赖斯大学和宾夕法尼亚州立大学的化学工程师已经证明，将机器学习和量子化学结合起来可以节省设计新催化剂的时间和费用。

“大量数据是在计算催化过程中产生的，该领域开始意识到，数据科学工具在筛选大量数据以寻找我们可能忽略的基本相关性方面非常有价值，”赖斯的托马斯·森夫特 (Thomas Senftle) 说，他是本周在线发表在《自然催化》(Natural Catalysis) 上的一项新研究的合著者。“这就是这篇论文的真正意义所在。我们将成熟的数据生成和分析工具结合在一起，使我们能够寻找我们在其他情况下不会注意到的相关性。”

催化剂是一种在不被化学反应消耗的情况下加速化学反应的物质。例如，汽车中的催化转换器含有铂和钯等金属，有助于分解空气污染物的反应。催化剂是化学工业和制药业的支柱，全球催化剂市场估计每年 200 亿美元。

催化转化器中使用的金属通常是金属丝网的一部分。当热废气通过网状结构时，表面的金属原子会催化反应，将一些有害分子分解成无害的副产品。

这是一个气相反应，发动机里有一定浓度的气相物种。我们希望有一种催化剂能将污染物转化为无害的产品，但不同的汽车有不同的引擎，可以输出这些产品的不同成分，因此，在一种情况下性能良好的催化剂，在另一种情况下可能不那么有效。

流过催化剂的反应物在工业上也很常见。在许多情况下，催化金属附着在固体表面上，反应物以液体或气体的形式流过表面。对于每年生产成吨产品的工业过程来说，提高金属催化剂的效率仅需几个百分点，就能为公司带来数百万美元的收入。

如果你对金属催化剂和金属附着的基板材料的特性有一个清晰的了解，那你就可以在一开始就基本缩小搜索范围，你可以用电脑来探索哪些材料在某些条件下可能做得很好，从而缩小你的设计空间。

2015 年，赖斯大学化学和生物分子工程学助理教授森夫特与主要作者诺兰·奥康纳和 A.S.M. 乔纳亚特以及合著者迈克尔·贾尼克一起，在宾夕法尼亚州立大学读研究生时开始了这项新发表的研究。他们首先用密度泛函理论计算了许多不同金属的单个原子与一系列金属氧化物基板的结合强度。

金属与基板之间的结合能特别重要，因为键越强，金属原子被取代的可能性就越小，如果我们能控制这种结合能，我们就能调整这些金属粒子的大小分布，而这反过来又会影响它们所能催化的整体反应。

我们对单个金属原子和氧化物表面的特性感到好奇，这些金属原子和氧化物表面形成了强烈的相互作用对，这是一种我们可以用来设计强健催化剂的特性。

除了结合能列表，研究小组还列出了每种金属，基底组合的约 330，000 种额外性质，包括氧化物形成能、配位数、合金形成能和电离能等因素。

机器学习算法寻找这些描述符的组合，这些描述符与观察到的绑定能量数据相关。在所有这些描述符中，我们如何找到那些与我们感兴趣的观察到的行为相关的描述符？

确定这种相关性可以简化催化剂的设计，使我们能够预测材料的行为将如何之前，实验室测试既昂贵又费时。机器学习还能识别出值得进一步研究的有趣效果。

在这项研究中不断出现的一个相关性是催化金属与载体中金属原子之间直接相互作用的重要性这是意料之外的，因为通常每种金属都有很强的与氧结合的亲和力，而不是相互结合。

研究人员最初的想法是，氧气是重要的。我们有兴趣确定这两种不同的金属在多大程度上共享氧气。但是，金属之间的这种直接相互作用在我们的计算中不断出现，它在决定系统的整体行为方面所起的作用比我们预期的要大得多。森夫特说，他希望在今后的研究中以模拟的复杂性为基础。

在这里，作者研究了金属和载体之间在没有水分子或任何杂质的原始环境中的相互作用。实际上，催化剂是在非常复杂的反应环境中使用的，研究人员想研究一下在这些环境中这些趋势是如何变化的。例如，如果这是一个水环境，水或离解的水很可能会吸附在表面。这些都会影响到相互作用，因为现在你有了另一个玩家，那就是分享电子密度和表面氧元素。

机器学习在催化化学中的展望、机遇和挑战

机器学习技术很可能继续为催化研究增加价值。它们已经使研究人员能够对现有数据做更多的工作，并为获得新的相关数据提供更复杂的方法。尽管本评论中强调的大部分研究是以计算/模拟为重点的，但有很多机会将机器学习应用于数据丰富的实验，以构建模型并将输入参数连接到测量属性。

催化中还没有发现的一种方法与催化相关数据的文本挖掘有关。这种方法最近出现在材料科学中，其中使用自然语言处理和机器学习收集了 64 万篇有关金属氧化物合成的科学文章，以收集 30 种不同氧化物系统的合成参数，并在金属有机框架中合成，以获取矿区表面积和孔隙体积。来自大约 200 篇科学论文。催化有着丰富而深入的科学出版物，这些出版物也可以用来挖掘特定催化类型的合成参数，例如分子筛、支撑纳米颗粒或反应条件。

近年来，图像分析中的机器学习取得了惊人的进展。最有趣的例子之一是使用视网膜图像诊断糖尿病。最近的一个例子显示了机器学习是如何被用来从望远镜图像中识别新行星的。很明显，机器学习能够从人类难以识别的图像中提取信息。这表明催化研究中有机会利用各种形式的显微镜图像。

一个非常令人兴奋的方向是利用机器学习的模型在化学设计中生成新的分子。这是因为它们能够以连续的表示形式对分子进行编码，在该空间中执行优化，然后将优化的表示解码回分子。这是一个非常强大的想法，可以有效地解决一个反问题。这种方法在均相催化中可能非常有用，但据我们所知，固态材料或纳米粒子或工艺条件中没有类似的方法。

利用机器学习来开发更快的方法来求解 DFT 中的 Kohn-Sham 方程，可能会对降低这些计算的成本和提高其准确性产生巨大影响。这是非常具有挑战性的，而且这方面的研究才刚刚开始。然而，如果成功的话，它可能会对我们建模大型催化系统的能力产生很大影响，或者将这些计算纳入与反应条件下反应系统建模更相关的统计模拟中。

也许最重要的挑战是如何报告科学文献中所做的工作，以便其他人能够复制和建立这项工作。机器学习模型具有数百个参数并不罕见。除了经过训练的参数外，通常还有许多超参数，即确定模型质量的固定参数。同样重要的是，模型通常不是以方程的形式出现，而是以程序的形式出现。从叙述性描述，甚至是图形化展示中确定真正的程序结构并不总是容易的。这些模型参数化的数据集可以很大，例如，数百到数万个数据点。

此外，通常还有一个数据处理管道，用于规范化和扩展数据。典型方法章节中使用的叙述性文本不足以描述所有这些细节，而目前使用的出版物和支持信息格式在共享重现作品所需的参数和代码方面并不十分有效。必须在社区中开发和采用新的数据和代码共享方法，以确保这方面的工作仍然有用，并促进催化领域的发展。

总结与反思

总的来说，机器学习在催化研究中的应用在未来肯定会增加。我们相信，在实验设计、数据分析和利用机器学习生成新知识方面，有许多机会提高门槛。与任何工具一样，都有可能被误用，但如果使用得当，它可以提供不容易获得的显著结果。我们很清楚，在科学研究中使用机器学习的方法是非常必要的，目的是提高我们有效利用机器学习来增加催化知识的能力。

欢迎加入「研之成理 - 理论化学研习社」或者向我们投稿（有稿费，具体请联系陈博士；18969084992）；具体详情请参加以下链接：

欢迎加入研之成理理论计算专栏（征稿 + 招聘）