重庆大学孙宽等《Science》子刊：机器学习辅助分子设计及高性能有机光伏材料的效率预测

本文亮点：

1. 本文探索了有机光伏材料分子结构的多种机器语言表达形式，如图片、ASCII码字符串、分子描述符及分子指纹等，并将其作为不同机器学习算法的输入。

2. 本文将机器学习算法预测同实验相结合，利用设计的10种全新的给体材料分子，通过实验验证了机器算法的可靠性。

3. 本文提出了一种新的材料开发流程，即利用机器学习对大量潜在的材料分子进行预评估和筛选，并对通过筛选的材料进行进一步的实验测试。该方法可极大地提高新材料开发的效率。

背景

有机太阳能电池是一种将太阳能转化为电能的直接且经济的方式。近年来，有机太阳能电池研究经历了快速发展，光电转换效率（PCE）已超过17％。直到现在，有机光伏研究主要致力于建立新的材料分子结构与其光伏特性之间的关系。该过程通常涉及光伏材料的设计与合成，材料光电性质的表征，以及光伏电池的组装和优化。这种传统方法包括对化学合成和器件制备进行精细控制及优化，需要显著的资源投入和较长的研究周期。因此有机光伏材料的开发效率一直较低，自1973年有机太阳能电池被首次报道以来，仅在光伏器件中合成并测试了不到2000种有机太阳能电池给体材料分子。不过，这些经由数十年探索所产生的实验数据却是宝贵的。而且到目前为止，在寻找高性能有机光伏材料时它们的潜在价值尚未得到充分利用。为了从这些数据中提取有用信息，需要一种能够扫描大量数据集并提取特征之间关系的程序。机器学习正是满足要求的一种算法。其提供了一套计算工具，能够根据误差（或损失函数）最小化或概率规则（例如最大化似然性）学习和识别模式或关系，并预测结果或做出决策。这种数据驱动的方法使机器学习能够预测广泛的材料特性，而无需对这些特性背后的化学或物理学原理有基本的了解。

近日，重庆大学能源与动力工程学院孙宽研究员带领的柔性可再生能源材料与器件(La FREMD)团队联合自动化学院、计算机学院、经管学院、华北理工大学以及中国科学院重庆绿色智能技术研究院的多个团队，在开发高性能有机太阳能电池给体材料的过程中，利用机器学习在合成新材料之前建立化学结构和光伏特性之间的关系，并对新材料进行效率预测。作者首先建立了一个包含已被文献报道过的1700多种有机太阳能电池给体材料的数据库。通过监督学习，作者的机器学习模型可以建立结构 – 性质关系，从而实现有机光伏材料的快速筛选。作者探索了数种分子结构的表达形式，如图像、ASCII码字符串、分子描述符及分子指纹等作为多种机器学习算法的输入，发现长度超过1000位的分子指纹可获得高预测准确率，是进行机器学习的最佳表达形式。此外，作者利用机器学习模型预测了10种新设计的给体材料，模型的预测结果和实验结果之间的具有良好的一致性，可进一步验证机器学习方法的可靠性。结果表明机器学习是预评估和筛选有机光伏新材料的有力工具，该方法可加速有机太阳能电池领域的发展。该成果11月9日在Science Advances (IF=12.8) 上在线发表，重庆大学的孙宽研究员和中国科学院重庆绿色智能技术研究院的陆仕荣研究员、肖泽云研究员为共同通讯作者，硕士生孙文博、郑玉杰博士和博士生杨可为共同第一作者。

【核心内容】

图1 有机太阳能电池给体材料数据库。（A）数据库中1719个材料分子对应的光电转换效率（PCE）分布情况。（B）分子结构表达形式的示意图，包括图片、SMILES及分子指纹。

作者使用的数据库包含从文献中收集的1719个经实验合成的有机太阳能电池给体材料。为了获得更通用的机器学习模型，数据库中将聚合物和小分子给体材料混合在一起，且电池器件中使用的受体是富勒烯还是非富勒烯也被忽略了。如果某种给体材料已被多次报道，则选择最高的PCE。所有这些标准确保模型可以学习某种材料的最大潜力。在建立的数据库中，PCE的中位数为2.82%，平均值为3.48%。为了获得一个无偏斜的机器学习二分类模型，需要平衡两个类别中每一个类别的数据数量，即使两个类别中的分子数量大致相等。因此将数据分为两类，并选择3%作为初始阈值。PCE在0~2.99%范围内的分子被视为“低性能”，而高于3.00%的分子被视为“高性能”的有机光伏材料。为了讨论分类阈值如何影响预测准确性，文章同样选择了10.00%作为二分类的标准并进行了相关实验。在进行机器学习建模时，数据需要被随机划分为训练集及测试集，其比例为9：1。

包括图片，ASCII码字符串，两种分子描述符和七种分子指纹在内的分子结构的多种表达形式被用作机器学习模型的输入以预测PCE。这项工作中考虑的所有分子表达形式都很容易获得。其中，图片是材料的一种直观表达；SMILES (simplified molecular-input line-entry system) 使用短ASCII字符串描述化学物质的结构；分子描述符表达分子的结构特征及其他性质；分子指纹是由‘0’和‘1’组成的字符串，可反映分子中特定子结构/模式的存在与否。

图2 （A）使用图像作为输入的深度学习模型的测试结果。使用（B）SMILES，（C）PaDEL和（D）RDKIt描述符作为输入的不同机器学习模型的测试结果。

机器语言表达是机器学习方法中的一个重要方面，因为它将原始数据转换为计算机可读的表示形式。同一分子的各种表达包含非常不同的化学信息，或者该信息以不同的抽象水平呈现。理想的表达形式应涵盖分子的几乎所有特征，但不包含冗余信息。本文中，通过对比一组机器学习模型对PCE的预测准确率来探索分子不同表达形式的优劣。

由于与PCE相关的特征并没有很清晰地反映在图片中，而是以隐藏特征的形式存在。因此使用可以从图像中提取特征的深度学习来完成分类。图2A所示的混淆矩阵表示深度学习模型的测试结果，其预测准确率为69.41%。SMILES是另一种原始的分子表达形式。当使用SMILES作为输入时，四种机器学习模型中随机森林（RF）可以获得最高的平均预测准确率，仅为67.84%。两种分子描述符的测试结果如图2C、D所示，最高的平均预测准确率均由随机森林模型获得，且分别为76.27%及75.29%。总体而言，由于深度学习模型通常需要大量数据来训练模型，而本实验的样本量仅有不到2000个；另外SMILES字符串仍接近于未经任何处理和特征提取的原始数据，因此使用图片和SMILES作为输入的机器学习模型的测试准确率并不理想。而在机器学习方法中使用分子描述符作为输入来预测分子性质时，需要注意合适的输入数据维度，并寻找与选择和目标性质相关的描述符。

图3 使用不同类型的分子指纹作为输入的（A）BPNN，（B）DNN，（C）RF和（D）SVM的测试结果。

文章使用了七种不同的分子指纹作为输入，并分别训练了反向传播神经网络（BPNN）,深度神经网络（DNN），随机森林（RF）及支持向量机（SVM）四种不同的机器学习模型。其测试结果如图3所示。当分子指纹长度从166位增加到1024位时，所有机器学习模型的性能都会提高，因为更长的分子指纹中包含有更多的化学信息。总体结果表明，长度超过1000位的分子指纹是构建机器学习模型预测PCE的最合适和有效的输入，因为它们易于获取并且包含丰富的化学信息。此外，考虑到分类的更高阈值在设计高效材料时更有意义，作者将分类标准从3％提高到10％。当使用Daylight分子指纹作为输入训练RF模型时，模型的平均预测准确率为86.67％。

图4 实验验证机器学习模型。（A）四种不同机器学习模型测试结果的比较。（B）有机太阳能电池器件结构示意图。（C）使用机器学习预测的给体材料作为活性层的太阳能电池的J-V曲线。（D）RF模型预测结果与实验数据的对比。

为了进一步验证机器学习算法的可靠性，作者设计了10种全新的小分子给体材料（D1-D10），如图5所示。源于经过充分研究的A-π-D-π-A结构和由作者开发的高效BTR分子，这10种给体材料可分为三组。给体D1，D2，D6和D9具有相同的π-D-π结构但具有不同的A (末端基团)；给体D3，D4和D5在D部分上具有氯化或烷基链修饰；给体D7，D8和D10中，π链接被修改。如图4B所示，有机太阳能电池器件基于典型的正置电池结构。其中D3、D7分别使用IDIC、Y3作为受体; 而其他八种材料使用PC71BM作为受体。器件制备之后，在空气环境中以AM1.5G照射这些器件以测试它们的光伏性能。器件的J-V曲线如图4C所示。在实验之前，作者使用3％作为分类阈值的RF模型来评估这10种材料。RF模型的预测结果与实验PCE值之间的比较如图4D所示。10个分子中的8个被分类为正确的类别，而表现出低性能（PCE小于3％）的2个材料（D8和D10）被分类为PCE高于3％的类别。值得注意的是，机器学习模型的预测结果表示应用于有机太阳能电池的给体材料的潜力。因此，通过优化实验条件这两种材料的实验PCE可能得到进一步提升。此外，这10种新材料也已通过采用10％作为阈值的模型进行评估。同样的，以10％作为分类阈值的模型可以将8个分子分类为正确的类别。总体而言，模型预测的PCE类别与实验结果具有很好的一致性。实验结果表明，给体材料化学结构的微小变化可以带来器件PCE值的巨大差异。令人鼓舞的是，这些微小的修改可以通过优化的机器学习模型来识别，从而输出正确的预测结果。

图5 10种全新的给体材料分子结构

总之，作者探索了分子结构的多种机器语言表达形式，可为机器学习在材料领域的进一步应用提供指导。并且机器学习方法的可靠性经过了实验验证。更为重要的是，作者提出一种新的材料开发流程，即利用机器学习对大量潜在的材料分子进行预评估和筛选，并对通过筛选的材料进行进一步的实验测试。该方案将机器学习同实验相结合，从而加速新给体材料的设计流程，并促进高性能有机太阳能电池领域的发展。

全文链接：

https://advances.sciencemag.org/content/5/11/eaay4275

---纳米纤维素找北方世纪---

---测试找易科学---

来源：高分子科学前沿

声明：凡本平台注明“来源：XXX”的文/图等稿件，本平台转载出于传递更多信息及方便产业探讨之目的，并不意味着本平台赞同其观点或证实其内容的真实性，文章内容仅供参考。如有侵权，请联系我们删除。

我们的微博：高分子科学前沿，欢迎和我们互动。

添加主编为好友（微信号：polymer-xiang，请备注：名字-单位-职称-研究方向），邀请您加入学术圈、企业界、硕博联盟、北美、欧洲、塑料、橡塑弹性体、纤维、涂层黏合剂、油墨、凝胶、生物医用高分子、高分子合成、膜材料、石墨烯、纳米材料、表征技术、车用高分子、发泡、聚酰亚胺等一系列技术交流群。同时可以在菜单中回复“交流群”，获取群目录。

添加小编微信（务必备注：名字-单位-职称-研究方向）

邀请您入讨论群

（微信二维码扫码添加）

我们的QQ交流群：451749996（务必备注：名字-单位-研究方向）

投稿 荐稿合作：editor@polysci.cn