2024年5月25日,多伦多大学的Alán Aspuru-Guzik课题组在《Advanced Materials》期刊上发表题为In Silico Chemical Experiments in the Age of AI: From Quantum Chemistry to Machine Learning and Back的文章,综述了在人工智能时代,从量子化学到机器学习,以及两者如何相互结合,以推进化学科学中的计算机实验的发展。

随着计算化学成为理解分子和预测化学性质的重要工具,传统的计算方法因难以求解薛定谔方程和计算成本随分子系统规模增加而面临重大挑战。因此,利用人工智能和机器学习(ML)技术进行计算机实验的兴趣激增。将AI和ML整合到计算化学中,可以提高探索化学空间的可扩展性和速度。然而,ML模型在可复制性和可转移性方面仍存在挑战。本文重点介绍了ML在从传统计算化学中学习、补充或替代能量和性质预测方面的演变,从完全基于数值数据训练的模型开始,逐步向理想的模型发展,这些模型融入或学习量子力学的物理法则。
图1:展示了量子化学相关机器学习模型中物理信息层次的示意图。使用氖原子的双电子密度图作为从头算解决方案的插图,展示了如何从基于数据驱动的方法(左侧)逐步过渡到包含更多物理信息的方法(右侧)。图2:总结了数据驱动机器学习方法在计算机实验中的应用目标。展示了如何使用材料项目、OQMD和NOMAD等计算数据库来训练机器学习模型,以预测化学和物理性质。图3:a) 展示了MLPs(机器学习势能)旨在以低成本实现从头算精度,类似于力场(右下角),最终高效模拟大型复杂系统。b) 讨论了在MLP中表示原子环境的不同策略。图4:概述了ML如何增强传统计算方法。展示了ML可以优化或预测不同方法的不同参数,或简化和加速任务。图5:概述了ML在从头算方法中的一些关键进展。展示了ML如何用于改进波函数表示,以及如何通过神经网络基的变分量子蒙特卡洛(VQMC)方法来解决量子多体问题。文章最后讨论了ML在量子化学中的应用前景,强调了将物理方程的美感与其不仅能够插值而且能够产生高质量外推的能力结合起来的重要性。通过增加物理信息的包含,提高了模型的泛化能力,从而提高了模型的可转移性,减少了数据需求。与非物理信息的ML工具相比,如MLPs,后者需要为每个新类别的系统扩展训练数据集。文章认为,理论化学家及其不可替代的直觉在未来该领域的发展中仍然是核心,他们可以推动计算机实验的进步,与量子力学和ML携手合作,共同探索新的、同时基于物理和数据驱动的解决方案。
参考资料:
https://doi.org/10.1002/adma.202402369
感兴趣的读者,可以添加小邦微信加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位或姓名-学校-职务/研究方向。