Nature子刊文章：带映射和带结构之间的机器学习路线

编辑 | 绿萝

电子能带结构和晶体结构是固态材料的两个相辅相成的标志。虽然方便的仪器和重建算法已经使大型经验晶体结构数据库成为可能，但从光电发射带映射（band mapping）数据中提取准粒子色散（与带结构密切相关）目前受到现有计算方法的限制。

为了应对不断增长的光发射数据的大小和规模，来自德国马克斯·普朗克计算机科学研究所（Max Planck Institute for Intelligent Systems）的研究团队开发了一个管道，包括概率机器学习和相关的数据处理、带结构重建的优化和评估方法，利用理论计算。该管道重构了半导体的所有 14 个价带，并在基准和其他材料数据集上显示出出色的性能。

重建揭示了以前在全球和局部尺度上无法获得的动量空间结构信息，同时实现了与材料科学数据库集成的路径。所提方法说明了结合机器学习和领域知识在多维数据中进行可扩展特征提取的潜力。

该研究以「A machine learning route between band mapping and band structure」为题，于 2022 年 12 月 30 日发布在《Nature Computational Science》上。

论文链接：https://www.nature.com/articles/s43588-022-00382-2

材料电子能带结构（BS）的建模和表征在材料设计和器件仿真中起着至关重要的作用。BS 存在于动量空间 Ω（kx，ky，kz，E）中，并印记了周期性受限电子的能量（E）和动量（kx，ky，kz）之间的多维和多值函数关系。

使用动量和能量分辨光电子能谱（PES），包括角度分辨 PES （ARPES）和多维 PES 的光电子能带映射将 BS 测量为直接在 Ω 中的强度值多元概率分布。

近期硬件升级带来的能带映射数据集的激增及其公开可用性带来了理论和实验综合基准测试的可能性，这对于具有复杂能带色散的多带材料尤其具有挑战性。

解释光电子能谱的可用方法分为两类：基于物理的方法，需要对一维线形进行最小二乘拟合，命名为能量或动量分布曲线（EDC 或 MDC），以及分析模型。尽管基于物理的数据模型保证了高精度和可解释性，但由于有限的数值稳定性和效率，将逐点拟合（或估计）升级到动量空间中的大型密集采样区域（例如，包括 10^4 个或更多动量位置）会带来挑战。因此，它们的使用仅限于根据材料的物理知识和实验设置启发式确定的选定动量位置。基于图像处理的方法应用数据转换来提高分散特征的可见性。它们的计算效率更高，可以对整个数据集进行操作，但仅提供潜在带色散的视觉增强。它们不允许重建，因此不足以进行真正的定量基准测试或归档。

图 1：从带映射到 BS。（来源：论文）

平衡这两种方法的方法将以足够高的精度提取带色散，并可扩展到多维数据集，因此为从复杂的带映射数据中提取结构信息以及构建用于注释和理解光谱的有效工具提供了基础。

在这方面，研究人员提出了一个计算框架，用于将光发射（或准粒子）BS 全局重建为一组能量（或电子）带，由沿动量坐标连接的能量值（即带位点）形成。这种局部连通性假设比使用光发射强度的局部最大值更有效，因为局部最大值并不总是带位点的良好指标。基于概率机器学习模型，在该框架中利用理论与实验之间的联系来近似来自带映射实验的强度数据。该模型的要点植根于贝叶斯规则：

为了证明该方法的有效性，研究人员首先重建了半导体二硒化钨（WSe2）在投影的第一布里渊区（in （kx, ky, E）坐标）内所有 14 个价带的整个 3D 色散面 E（kx, ky），沿每个动量方向跨越 ~ 7ev 的能量和~3 Å^−1。还将信息学工具应用于 BS 数据，以在全球范围内对重建的 BS 和理论的 BS 进行采样和比较。使用合成数据和提取的局部结构参数以及逐点拟合验证了重建的准确性。可用数据和 BS 信息学能够以 <0.02Å^−1 的分辨率详细比较带色散。对其他材料和模拟数据的数据集进行了各种测试和基准测试，其中可以使用基准真相（ground truth）来评估准确性和计算效率。

此处描述的重建方法提供了从光电发射带映射获得的经验带色散（）与通过各种动量相关「扰动」（）阶数的理论对应物（）之间的定量联系。这种联系可以表示为：

在上式中，b 是能带指数，Σ 表示电子自能，零阶项（）表示刚性位移，高阶项具有增加的动量依赖非线性。在这里的结果表明，该公式导致实际的能带重建，它为每个实验可分辨的能带恢复以上等式中的累积扰动（ΔEb）。当前重建精度和稳定性的结果应该有助于解释深层带，参数化多带哈密顿模型。从 3D 带映射数据到几何特征向量（方法）的数据大小减少了 5,000 多倍，促进了数据库集成。

除了好处之外，该重建方法存在三个局限性。首先，重建方法不能从头算，需要知道能带的数量。其次，当电子自能调制很大时，需要将所谓的裸带色散（即单粒子色散）与准粒子色散分开，以了解材料物理属性。第三，如果需要更高层次的理论（例如具有混合泛函和 GW 的 DFT），或者由于材料系统的复杂性，包括未确定的微观相互作用、样品缺陷或结构紊乱，以及 kz 色散造成的强强度模糊等，由于计算成本，适当的初始化可能是昂贵的或不可能获得。这些场景对于带重建仍然具有挑战性。

越来越多的来自材料科学界的可公开访问和可重复使用的数据集激发了未来对模型的扩展，使用其他类型的信息先验，在保持计算效率的同时考虑物理信号的全部复杂性。

总的来说，多学科方法提供了构建下一代高通量材料表征工具包的示例，将学习算法与物理知识相结合，以达到迄今为止无法实现的对材料特性的全面理解。

人工智能 × [ 生物神经科学数学物理材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。