华南理工大学：用于预测钙钛矿特性的高度通用且准确的机器学习方法

研究背景

带隙是钙钛矿材料在光伏应用领域中最重要的基本性质之一，为了获得未知材料的带隙，可以通过紫外-可见漫反射光谱(UV-Vis)或光致发光（PL）X射线光电子能谱（XPS）等实验来估计。这些实验需要巨大且昂贵的设备。选择用DFT计算是一种成本更低且更快的方法，尽管如此，使用局域密度近似（LDA）或广义梯度近似(GGA)的方法会导致计算的带隙偏低。GW算法可以精确计算材料的带隙，相应的也更为昂贵且耗时。总之精确的带隙不能通过一个简单的方法来完成，因此带隙估计仍然是如今所面临的重大挑战。

华南理工大学发光材料与器件国家重点实验室薛启帆团队提出了一种机器学习方法，可以在误差允许的范围内快速预测钙钛矿材料的带隙，将大大加快对光吸收材料的研究。一个包含3720个ABX3型钙钛矿以及2660个A2B（Ⅰ）B（Ⅱ）X6型双钙钛矿的数据库被用于训练模型，包含它们的带隙以及形成能信息。所有的数据均取自Materials Project数据集。用Matminer python包生成近300个描述符。再经过缺失值处理、稳定性筛选以及标准化处理后带入到XGBoost等六个机器学习模型中进行10折交叉验证，最有效的模型 XGBoost 表现出显着的 R2 系数 0.873 和 0.5868 eV 的均方根误差（RMSE）。最后进行了SHAP（SHapley Additive exPlanation）分析，以确定最有影响力的描述符。研究结果表明，较高的形成能、相当比例的过渡金属和大量的d轨道价电子有助于窄带隙钙钛矿的形成。相反，元素之间的大量f轨道电子和电负性差异往往会导致宽带隙钙钛矿。这种综合分析不仅提供了对影响钙钛矿材料带隙的基本因素的见解，还强调了机器学习在加速材料研究方面的潜力。

图文导读

图1：该工作的完整流程。包括数据收集；数据清洗（稳定性筛选，缺失值处理以及数据预处理等）；模型训练（线性回归、支持向量回归、决策树、随机森林、多层感知机和极限梯度提升）；特征工程优化以及SHAP可解性分析五个过程。

图2：数据收集和预处理过程。所有样本均来自可公开访问的数据库Material Project。所提供的信息包括材料的各个方面，包括其带隙、形成能和结构信息。使用pymatge从材料项目（MP）中共获得了3720个ABX3型钙钛矿结构和2660个双钙钛矿结构。再使用Matminer生成特征；填补缺失值；计算钙钛矿容忍因子和八面体因子；最后进行稳定性筛选得到最终数据

图3：钙钛矿的分布数据，（a）单钙钛矿（b）双钙钛矿公差因子与八面体因子的分布关系，颜色为函数（μ+t）^η;（c）（d ）（e）（f）为筛选后单钙钛矿和双钙钛矿的公差因子、八面体因子、（μ+t）^η和带隙的分布

图3.（a）（b）显示了所有数据的分布，红框代表经过稳定性筛选后的钙钛矿。

图4：模型训练结果（a） ABX3型钙钛矿和A2B（I.）B（II.）X6型钙钛矿数据集，用于地层能量训练结果;（b） ABX3型钙钛矿和A2B（I.）B（II.）X6型钙钛矿数据集，用于带隙训练结果;（c）合并数据集与可形成性的训练结果;（d）合并数据集与带隙的训练结果;

采用不同的模型训练结果均有差距，但无论是数据是但钙钛矿还是双钙钛矿，无论预测的是形成能还是带隙，XGBoost均表现除了最优的预测效果。

图5：特征工程（a）RFR、XGBoost和MLPR三种模型经过特征工程处理模型的影响;（b） XGBoost 模型训练 R2 随特征数量而变化;（c） MLPR 模型训练 R2 随特征数量的变化而变化（d） RFR 模型训练的 R2 随特征数量的变化;（e） XGB&RFR&MLPR 拟合趋势图;（f） XGB 拟合趋势图;（g） RFR拟合趋势图;（h） MLPR拟合趋势图;

特征工程通过不断删除对模型贡献较低的特征来减小过拟合的风险。优化后三个模型的表现效果能进一步提高。

图6. 无地层带隙模型与添加地层能的带隙模型比较

添加地层能后的带隙模型训练结果

在特征中引入形成能可以进一步提高模型预测带隙的准确度，即使使用预测的形成能仍能略微提高模型表现效果。

图7.（a）使用SHAP和基于最佳带隙模型计算的特征重要性;（b）XGBoost回归汇总图，横坐标表示SHAP值，每个点为一个样本，红色表示特征值，蓝色越大，特征值越小;（c）单个样品的shap值，图中样品为CsSnI3。

SHAP表明形成能与带隙高度相关，且较高的形成能带隙更有可能篇窄。

图8.ML模型预测的带隙与实际带隙的关系，以及DFT计算的带隙与实际带隙的关系

机器学习预测结果虽不如DFT计算的结果准确，但考虑到其预测几乎在一瞬间完成，在进行大量材料带隙的高通量计算时，机器学习是具有巨大潜力的。

总结与展望

本工作合并了从材料项目中获得的ABX3型钙钛矿和A2B（I.）B（II.）X6型双钙钛矿数据，并在缺失值处理和稳定性筛选后将它们引入机器学习模型。XGBoost模型在预测生成能方面表现最出色，R2值为0.948，RMSE值为0.2052 eV/原子。同样，预测的带隙显示R2值为0.8407，RMSE值为0.6571 eV。当将地层能的预测结果作为特征纳入带隙模型时，我们观察到R2值增加到0.8496，RMSE值下降到0.6386。随后，当将预测的地层能代入实际地层能时，模型的R2值进一步提高到0.873，RMSE下降到0.5868eV。Shap的可解释性分析表明，较大的生成能、更高比例的过渡金属、d轨道中更多的价电子以及更大的B位点电负性往往会导致更窄的带隙。相反，较高的 f 电子数和元件之间的大电负性差异会导致更宽的带隙。因此，当我们探索新的钙钛矿材料时，我们可以更多地使用聚焦组成元素的这些特性，降低随机实验和DFT高通量计算的成本，这与材料基因组计划加速材料选择和发现的目的一致。

参考文献：

Chen, Z., Wang, J., Li, C., Liu, B., Luo, D., Min, Y., Fu, N. and Xue, Q. (2024), Highly versatile and accurate machine learning methods for predicting perovskite properties. J. Mater. Chem. C. 2024, DOI: 10.1039/D4TC02268H

文章链接：

https://doi.org/10.1039/D4TC02268H

相

关

推

荐

1. 仪器表征基础知识汇总

2. SCI论文写作专题汇总

3. Origin/3D绘图等科学可视化汇总

4. 理论化学基础知识汇总

5. 催化板块汇总

6. 电化学-电池相关内容汇总贴