社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

湖南科技大学刘万强课题组:机器学习预测基于Y6受体的OSCs能量转换效率

研之成理 • 2 年前 • 533 次点击  

01

引言

Y6受体因其强吸收、窄带隙(1.33 eV)和优异的电子迁移率,已成为里程碑式的高性能有机太阳能电池(OSCs)受体材料之一。设计和合成与Y6匹配的供体分子来制备高性能OSCs器件是一种很有前景的策略。然而,基于传统实验-试错方法的供体分子的设计和合成往往是复杂的,且实验消耗十分昂贵。快速和低成本的机器学习(ML)更适合解决这些问题,因为它可以有效地从数据集中学习,梳理潜在的联系,开发科学的模型,并以合理的精度评估材料的性能。因此,与耗时的实验-试错方法相比,基于合适算法的模型可以在短时间内预测材料的性能。机器学习在光伏材料设计中的应用有望大大加快高性能材料的发现。


02

成果展示

近期湖南科技大学化学化工学院刘万强课题组通过计算和筛选基于Y6受体的OSCs供体分子结构描述符,利用六种ML算法建立了基于Y6受体的OSCs的能量转换效率(PCE)预测模型,并使用SHAP揭示了分子结构描述符对PCE的影响。基于小分子供体和聚合物供体的梯度增强回归树(GBRT)模型的测试集决定系数(R2)分别为0.84和0.69,Pearson相关系数(r)分别为0.92和0.84。结果表明,基于决策树的算法表现出良好的预测能力,特别是GBRT模型具有较为优异的预测能力和鲁棒性。该工作为供体分子的快速预测和筛选提供了一种新策略,有望设计和筛选出高性能的供体材料分子。


该研究工作以"Predicting power conversion efficiency of binary organic solar cells based on Y6 acceptor by machine learning"为题发表在期刊Journal of Energy Chemistry上。


03

图文导读

材料的性质是由它们的化学结构决定的。分子结构描述符可以表征分子的结构信息,因此选择分子结构描述符作为构建ML预测模型的特征。课题组从文献中收集了近年来基于Y6受体的PCE数据,其中包含74个小分子供体与120个聚合物供体,PCE数据分布如图1所示。采用DFT在B3LYP/6-31G*水平上进行分子结构优化。利用Dragon 6.0计算其分子结构描述符(共4885个)。

图1. 基于Y6受体的二元OSCs分布直方图。(a) 小分子供体,(b) 聚合物供体。


如图2所示,课题组基于以下策略对4885个分子结构描述符进行特征筛选:所有经过预处理的特征,包括去除空值、异常值、重复项和低方差特征,用于构建GBRT模型,75%用于训练,25%用于测试。当训练集和测试集R2 > 0.3时,记录并累加该模型中每个特征的重要性,直到400次循环。最终根据特征重要性排序,小分子供体模型保留了前5个特征,聚合物供体模型保留了前6个特征。

图2. 根据特征重要性筛选特征的工作流程。


根据以上策略筛选的特征用于构建以下6种ML模型:GBRT、随机森林(RF)、极限梯度增强(XGBoost)、自适应增强(AdaBoost)、支持向量回归(SVR)和多元性性回归(MLR)。模型的训练和预测结果如图3和4所示。其中,GBRT模型体现了较低的RMSE和较高的r值,表明GBRT模型在预测器件性能方面具有较高的准确性和可靠性。

图3. 基于小分子供体的机器学习预测值与实验值进行比较。(a) GBRT, (b) RF, (c) XGBoost, (d) AdaBoost, (e) SVR和 (f) MLR。对角线表示完全正相关(r = 1)。

图4 基于聚合物供体的机器学习预测结果值与实验值进行比较。(a) GBRT, (b) RF, (c) XGBoost, (d) AdaBoost, (e) SVR和 (f) MLR。对角线表示完全正相关(r = 1)。


为了解释特征对预测PCE的影响,课题组对GBRT模型进行了SHAP分析,如图5所示。其中横轴和纵轴分别表示特征和SHAP值或绝对平均SHAP值,点代表样本,颜色表示预测结果即预测PCE(红色高,蓝色低)。左侧组图中的SHAP值可以反映每个特征对预测PCE的积极或消极影响。右侧组图表示了每个特征对预测PCE的影响程度。从中可以看出:对于小分子供体,IDE、Mor09p、G2u值越大,预测PCE越大,且IDE是最重要的特征,使预测PCE平均改变了0.73;对于聚合物供体,HATSs、SPI、CA TS2D_03_LL值越大,预测PCE越大,且HATSs是最重要的特征,使预测PCE平均改变了0.99。

图5. GBRT模型的SHAP分析。(a) (b) 基于小分子供体;(c) (d) 基于聚合物供体。


为了验证模型的预测能力,在模型构建后又收集了4个小分子供体和6个聚合物供体的新数据,并在性能良好的基于决策树的模型中运行,如表1所示。结果表明,这些模型的预测PCE与实验PCE具有较好的一致性,特别是GBRT模型的MAE值最小,且表现非常一致。这证明了这些模型具有良好的预测能力和鲁棒性。


表1. 基于决策树模型的预测PCE与实验PCE的比较。

04

小结

这项工作提供了一个使用ML预测OSCs能量转换效率的策略,即使用ML算法挖掘了基于Y6的OSCs的PCE和供体分子结构描述符之间的复杂关系。根据本文提出的基于特征重要性的选择策略,仅使用易于计算的分子结构描述符,就可以在没有使用HOMO或LUMO能级作为特征的情况下构建预测基于Y6受体的OSCs能量转换效率的良好模型。这些模型可以为发现基于Y6受体的OSCs供体材料提供合理的预测。


文章信息

Predicting power conversion efficiency of binary organic solar cells based on Y6 acceptor by machine learning


Qiming Zhao, Yuqing Shan, Chongchen Xiang, Jinglun Wang, Yingping Zou, Guangjun Zhang, Wanqiang Liu *


Journal of Energy Chemistry

DOI: 10.1016/j.jechem.2023.03.030


作者信息

刘万强

男,博士,教授,湖南科技大学教育专业硕士培养指导委员会委员。主要从事计算化学、化学信息学、分子结构与性能关系的机器学习与人工智能预测和课程与教学论方向的研究工作。近5年,在《Journal of Energy Chemistry》、《Journal of Materials Chemistry A》、《Journal of Chemical Information and Modeling》、《化学学报》、《化学教育(中英文)》等国内外期刊发表学术论文20余篇,出版学术专著1部。受邀在第二届柔性印刷光电材料与器件国际会议、中国化学会第31届年会教育分会做学术报告等。

联系方式:wanqiangliu@hnust.edu.cn


1. 仪器表征基础知识汇总
2. SCI论文写作专题汇总
3. Origin/3D绘图等科学可视化汇总
4. 理论化学基础知识汇总
5. 催化板块汇总
6. 电化学-电池相关内容汇总贴
7. 研之成理名师志汇总
更多科研作图、软件使用、表征分析、SCI 写作、名师介绍等干货知识请进入后台自主查询。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/154329
 
533 次点击