Py学习  »  机器学习算法

湖南科技大学刘万强课题组:机器学习预测电解液溶剂分子的供体数和受体数

研之成理 • 10 月前 • 179 次点击  

01

引言

电解液溶剂对电池的能量密度和安全等性能具有至关重要的影响。供体数(DN)和受体数(AN)是筛选和设计优质电解液溶剂的两个重要参数。然而,通过实验测量DN和AN复杂且耗时。机器学习(ML)算法可以学习数据之间的复杂关系并建立预测模型。因此,通过机器学习预测电解液溶剂分子的DN和AN是一种快速和低成本的有效方法,有助于筛选和设计合适的电解液溶剂。


02

成果展示

近期,湖南科技大学化学化工学院刘万强课题组与汪靖伦课题组合作,通过计算和筛选分子结构描述符,利用ML算法建立了电解液溶剂分子DN和AN的预测模型,并使用SHAP揭示了分子结构描述符对DN和AN的影响。结果表明,基于决策树的CatBoost算法表现出良好的预测能力,在测试集中DN的R2值为0.860,AN的R2值为0.966。该方法可以准确地预测电解液溶剂的DN和AN,为电池电解液溶剂的筛选和设计的标准提供了参数。


该研究工作以“The prediction of donor number and acceptor number of electrolyte solvent molecules based on machine learning”为题发表在期刊Journal of Energy Chemistry上。


03

图文导读

课题组使用机器学习算法建立模型的主要步骤如图1所示。

图1.机器学习方法的流程图


首先,课题组从文献中收集了211个DN和60个AN数据,它们的数据分布图如图2所示。这些收集的数据包括许多不同的有机物种类,如碳氢化合物、含氧化合物、卤化物、含硫化合物和含氮化合物等。

图2. 数据分布的直方图。(a) 供体数, (b)受体数。


其次,利用Dragon软件计算其分子结构描述符,DN分子得到了1633个特征,AN分子得到了2191个特征。对得到的特征值进行初步筛选,除去参考性较低的特征值,比如删除0值,空值,低方差的值和重复值多的特征值,最终DN分子得到了111个特征值,AN分子得到了157个特征值。课题组选择递归特征消除方法(RFE)进一步筛选特征值,最终选择8个特征用于建立DN模型,5个特征用于建立AN模型。


第三,根据以上方法筛选的特征用于构建以下4种ML模型的训练和测试:分类梯度提升(CatBoost)、梯度提升回归树(GBRT)、随机森林(RF)、岭回归(RR)。模型的训练和预测结果如图3和4所示。其中,CatBoost模型体现了较低的RMSE和较高的R2值,这表明CatBoost模型在预测DN和AN方面具有较高的准确性和可靠性。

图3. DN预测值与实验值的对比。(a) CatBoost, (b) GBRT, (c) RF, (d) RR。

图4. AN预测值与实验值的对比。(a) CatBoost, (b) GBRT, (c) RF, (d) RR。


最终,为了探究特征对DN和AN的影响,课题组选择CatBoost模型进行了SHAP分析。图5(a)和图6(a)根据每个特征的SHAP绝对值对特征的重要性进行排序,SHAP绝对值越大表明特征越重要。图5(b)和图6(b)显示了每个样本的每个特征对目标变量的影响,蓝色代表负相关,红色代表正相关。结果表明TDB02m是影响DN的最重要特征,对预测值呈负相关;Mor13u作为AN最重要的特征,对预测值也呈负相关。

图5.基于SHAP的DN的CatBoost模型解释。(a)特征重要性排序和(b)SHAP值分布。

图6.基于SHAP的AN的CatBoost模型解释。(a)特征重要性排序和(b)SHAP值分布。


与之前的其他工作比较,本工作显示了较低的预测误差。如表1所示,CatBoost模型的平均绝对误差(MAE)较小,表明DN预测值与实验值非常接近,较Jean-François Gal 和Pierre-Charles Maria采用DFT计算方法的预测误差更小。


表1. 与不同DFT方法(LC-WPBE、B97D3和GD3BJ)的比较。


04

小结

这项工作提供了一种使用ML算法预测电解液溶剂分子DN和AN的方法,并利用SHAP分析了用于构建模型的分子结构描述符对DN和AN的影响。根据本文提出的方法可以快速便捷地预测电解液溶剂分子的DN和AN,该预测有助于筛选和设计优良的电解液。


文章信息

The prediction of donor number and acceptor number of electrolyte solvent molecules based on machine learning

Huaping Hu+, Yuqing Shan+, Qiming Zhao, Jinglun Wang*, Lingjun Wu*, Wanqiang Liu*

Journal of Energy Chemistry

DOI: 10.1016/j.jechem.2024.06.050


作者信息

刘万强

博士,湖南科技大学化学化工学院教授,研究生导师。主要从事有机分子结构与性质/性能的理论模拟、大数据挖掘和机器学习研究。主持国家自然科学基金项目1项、湖南省科研项目3项、湖南省“十四五”教育科学规划课题1项等,出版教学专著一部。


近年来的主要研究领域和成果有:(1)采用密度泛函理论(DFT)和从头算分子动力学研究了PM6:Y6有机太阳能电池活性层分子基态和激发态电子结构(发表论文:Surf. Interfaces, 2021, 26, 101385)、电荷转移路径和机理(发表论文:J. Mater. Chem. A. 2022, 10: 25611)。(2)采用非平衡态分子动力学方法模拟了有机物分子的微观热传导过程(发表论文:J. Chem. Inf. Model., 2020, 60, 3022;J. Mol. Struct., 2020,1237, 130383;Mol. Simulat., 2021, 47, 1050);(3)采用机器学习算法,建立基于Y6受体的有机太阳能电池给体材料性能的预测和分子设计 (发表论文:J. Energy. Chem. 2023, 82: 139; Sol. Energy. 2023, 265: 112115) (4)采用人工神经网络、支持向量机、逐步回归、最佳子集回归、岭回归等机器学习算法,结合量子化学计算提取分子结构描述符,建立了聚丙烯酸酯、聚甲基丙烯酸酯、聚苯乙烯等高分子材料的玻璃化温度、内聚能、摩尔体积等的人工智能预测模型 (物理化学学报, 2005, 21, 596;计算机与应用化学, 2005, 22, 57; QSAR Comb. Sci., 2006,25,936;高分子材料科学与工程, 2006, 22, 170; Colloid. Polym. Sci., 2009, 287,811;Polym. Eng. Sci., 2010, 50, 1547)等。


主要承担本科生《物理化学》《论文写作》和研究生《量子化学基础》《中学化学教育前沿》等课程教学工作。主持建设《物理化学B》湖南省课程思政示范课程、《物理化学(下)》校级在线一流课程;荣获湖南省高校教师教学技能竞赛三等奖一次,并先后指导学生在省级及以上学科竞赛中获奖10余次。


联系方式:

Email:wanqiangliu@hnust.edu.cn

课题组主页:

https://www.x-mol.com/groups/Wangqiang_Liu/people



  


研理云服务器

业务介绍

研理云,研之成理旗下专门针对科学计算领域的高性能计算解决方案提供者。我们提供服务器硬件销售与集群系统搭建与维护服务。

   ● 配置多样(单台塔式、两台塔式、多台机架式),按需定制,质量可靠,性价比高。

 ● 目前已经为全国 100 多个课题组提供过服务器软硬件服务(可提供相同高校或临近高校往期案例咨询)。
 ● 公司服务器应用工程师具有量子化学第一性原理分子动力学等相关学科研究背景。
 ● 公司与多位化学、材料领域理论计算方向专家长期合作,一起探索最优服务器软硬件配置和部署。
 ● 可参与招投标。
产品特色
  ● 定制化硬件配置:提供售前实例测试,为您提供最合适的硬件配置方案。
  ● 一体化软件服务:根据需求发货前,完成系统、环境、队列、计算软件等所有内容的安装与配置,让您实现开机即用
  ● 完善的售后服务:为每位客户建立专属服务群,遇到问题及时解决。大大降低使用学生使用门槛和缓解老师压力。三年硬件质保 + 三年免费软件技术支持。
  ● 已购买客户咨询:我们已有超过100位已购买客户,可以给您提供相同城市或者临近城市已购买客户的联系方式,以提供真实案例咨询  
 ● 赠送课程学习机会:可选课程包括量子化学(Gaussian),第一性原理,(Vasp),分子动力学模拟(Lammps、Grommacs),钙钛矿计算模拟(Vasp)等。具体赠送方案以沟通结果为准。



扫码添加客服微信


1. 仪器表征基础知识汇总
2. SCI论文写作专题汇总
3. Origin/3D绘图等科学可视化汇总
4. 理论化学基础知识汇总
5. 催化板块汇总
6. 电化学-电池相关内容汇总贴
7. 研之成理名师志汇总
更多科研作图、软件使用、表征分析、SCI 写作、名师介绍等干货知识请进入后台自主查询。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/172983
 
179 次点击