Py学习  »  机器学习算法

广州大学乔智威教授团队:分子指纹辅助机器学习设计和预测用于去除空气中NMHCs的高性能MOFs

研之成理 • 2 年前 • 554 次点击  
▲论文题目:Molecular-fingerprint machine-learning-assisted design and prediction for high-performance MOFs for the capture of NMHCs from air


01

研究背景


非甲烷总烃是和氮氧化合物在紫外线条件下经过复杂反应机理生成臭氧的重要前体物质,轻非甲烷总烃(non-methane hydrocarbons, NMHCs)主要包括一些直链烷烃(C3-C6, 即丙烷,正丁烷,正戊烷,正己烷),它们来源于生物或人为因素。一旦一种或几种直链烷烃未经处理直接排放到空气中,会促进臭氧在生态环境中的形成。因此,针对特定环境下例如加油站或炼油厂等,空气中微量的NMHCs的净化处理十分重要。自发现以来,由于其性能可通过金属团簇和有机链接的定向组合来为特定的应用量身定做,金属有机框架(metal–organic frameworks, MOFs)受到了广泛关注。MOFs具有的超高的孔隙率,可调的孔结构和简单的改性设计引发了旨在针对特定MOFs的实验制备和其在气体吸附,分离,存贮等方向的研究热潮。近些年来,用来解释实验或指导实验的理论研究无疑在新MOFs的开发和应用中发挥了巨大作用。作为一种高效的计算工具,基于分子模拟和机器学习的高通量计算筛选迅速崛起,为目标MOFs的准确预测和快速锁定做出了突出贡献。尽管几乎有无限可调性的金属团簇和有机链接可以作为优异MOFs的结构代表,但大型构件的实验合成和完全还原仍然困难重重,更重要的是材料之间看似相似的结构却可能会造成千差万别的吸附性能,这些情况阻止了学者们试图理解并重现优异MOFs的努力。在一定程度上对结构进行抽象化或简化能在计算上方便分子之间进行相似度比较。为大数据筛选而诞生的分子指纹涉及到将分子转化为一系列比特的规则,用包含“1”或“0”的数组来描述子结构的存在或缺失,造就了结构抽象化的无限可能性。而高通量筛选、机器学习算法和分子指纹技术的结合将尝试数据化每一个MOF的结构,并自动关联其性能,最终有机会推动这一领域的研究进步。

02

创新点


本文在137,953个MOFs中筛选出了31,399个疏水MOFs(hydrophobic MOFs, hMOFs)用于高通量计算,并结合机器学习算法对MOFs的性能数值进行了预测和归类,分子指纹算法保留了MOFs的优异结构并建立了新的结构数据库。具体的创新点如下:
1) 吸附“第二峰”的发现
框架分子与吸附质分子之间的相互作用会随着最大孔径(largest cavity diameter, LCD)的增大而增强,并在LCD = 5-8 Å之间达到了一个峰值,称它为“第一峰”,这一峰值对应的LCD接近但略大于NMHC的动力学直径。由于碳链长度的差异,相对于C3分子,C6分子之间以及C6分子与孔壁之间有更好的相互作用,促使含有较大截面积的C6在孔隙系统的区域更易被锁定,呈现出“第二峰”的强度随着碳链的增长逐渐递增的规律,如图1所示。吸附剂的孔隙效应促进了烷烃“第一峰”和“第二峰”的产生,C3-C6的分子动力学直径和碳链长度的差异使得对“第二峰”的强度产生了不同的影响。“第二峰”的发现揭示了优异吸附剂最近孔道直径范围并非仅仅局限在接近其动力学直径的“第一峰”区域,LCD介于“第二峰”范围的材料中也可能会对NMHC具有较好的吸附效果,为设计优异MOFs贡献了一种新的策略。
1. (a) C3, (b) C4, (c) C5, (d) C6  LCD, N S 之间的关系。

2) 机器学习的分类和回归算法
每种NMHC按其性能的好坏被划分成了P1-P4四个区间,四种机器学习(machine learning, ML)的分类算法(k-Nearest Neighbor (kNN), Naive Bayesian (NB), Support Vector Machine (SVM), and Random Forests (RF) )被用于探索MOF与其NMHC吸附性能之间深层次的关系。RF和SVM算法在分类模型中表现得更好,特别是对于性能最好的P1区间。并证明了RF在分类模型中对于高性能材料有极佳的预测性能,意味着RF算法几乎不会“遗漏”每一个优异的材料。由于其优异的分类效果,RF被分别用于四种吸附质(C3-C6) 根据两个性能指标吸,吸附量(adsorption capacity, N)和选择性(selectivity, S)在四个性能区间(P1-P4)的回归预测。结果表明RF算法对于性能中等型MOFs(P2和P3)的预测精度最高,相比之下P1由于数据量过少,而P4由于数值差异较大,对模型都会产生更大干扰,因此预测效果弱于P2和P3。机器学习的分类和回归效果如图2所示。
2. 使用两种ML算法(a)SVM , (b)RFC3N值进行分类的混淆矩阵。将RF算法在训练集和测试集上预测的(c)P2(d)P3C3N值与GCMC的模拟结果进行比较。绿色和红色点分别对应于用于模型训练集和测试集的点。

3) 分子指纹应用于结构的设计
采用位号的存在与否,分子指纹数字化了性能优异MOFs的结构特征,并给出了优异材料在公共指纹方面的微观见解。为进一步验证此方法的可靠性和理解这些指纹对吸附剂性能的作用机制,我们分别对吸附C3-C6性能排名最优的20 MOFs结构中的指纹碎片进行了识别,如图3所示,并进一步提出了新MOF数据库的设计策略。
3. ID(a) 5051036, (b) 5041940, (c) 5070946, (d) 5049903MOF的指纹分解图。

这一工作遍历了NMHCs根据性能划分的每个区间,以递进的策略统计了位号为“1”的大多数指纹,所获得的EBs为特定NMHCs的高效吸附剂的设计带来了希望。但研究所用的初始MOF数据库中所发现的优异MOF,没有一个MOF能够包含所有的EBs。因此,若将所有的EBs全部或尽量多的用于MOFs结构的设计以求最大限度地保留珍贵的指纹信息,其设计出的MOF将有极大的机会拥有超越现在数据库中MOF的性能。基于每种NMHC的EBs隐藏的信息,我们为NMHCs分别设计了包含其全部EBs的3个全新的子结构(2种edges和1种node),它们都是构建MOFs的重要部分。如图4所示,其中为每种NMHC设计的子结构中都包含:(a)芳香环;(b)双键;(c)过渡金属;(d)卤素; (e)含氧杂环。这些子结构中的一种或几种可能会对高效吸附NMHCs的MOFs的设计产生启发,展示分子指纹和机器学习的结合对高效吸附NMHCs的MOFs的设计的迷人之处。
4.包含C3–C6的优异指纹的高效吸附剂的结构设计策略

03

启示


1) “第二峰”的发现为吸附NMHCs的优异MOFs提供了更多的孔径选择,除了LCD接近于其动力学直径的MOFs能够达到优异的吸附NMHCs的效果外,LCD接近于其动力学直径的两倍的MOFs也可以达到较好的吸附效果。
2) 对于NMHCs体系来说,RF的分类算法适用于性能优异的MOFs,RF的回归算法适用于性能中等的MOFs。
3) 我们为每种NMHC设计出了包含其全部EBs的新型子结构以期建立新的MOF数据库超越现有MOFs的性能,它们都包含:(a)芳香环;(b)双键;(c)过渡金属;(d)卤素; (e)含氧杂环。
这项工作通过高通量计算,机器学习和分子指纹相结合的方法,层层递进和协同促进地为针对NMHCs的高效MOFs的设计提供一种新的见解。

04

通讯作者介绍


乔智威简介:乔智威,男,1986年生,工学博士,广州大学教授,硕士生导师,博士后合作导师,广东省青年拔尖人才,广聚英才计划获得者,广州市高层次人才。2013年从华南理工大学获得博士学位,随后赴新加坡国立大学工程学院化工系从事博士后研究,并于2018年晋升为广州大学教授。他目前的研究兴趣主要集中在MOF和COF基材料的高通量计算筛选、机器学习预测和材料指纹设计以及它们在气体储存、分离和催化中的应用领域。
邮箱:
zqiao@gzhu.edu.cn
网站:
http://hhu.gzhu.edu.cn/info/1122/1817.htm

05

文章信息


Xueying Yuan, Lifeng Li, Zenan Shi, Hong Liang, Shuhua Li, and Zhiwei Qiao. Molecular-fingerprint machine-learning-assisted design and prediction for high-performance MOFs for the capture of NMHCs from air. Advanced Powder Materials, 
DOI: 10.1016/j.apmate.2021.12.002.


06

期刊信息



1. 仪器表征基础知识汇总
2. SCI论文写作专题汇总
3. Origin/3D绘图等科学可视化汇总
4. 理论化学基础知识汇总
5. 催化板块汇总
6. 电化学-电池相关内容汇总贴
7. 研之成理名师志汇总
更多科研作图、软件使用、表征分析、SCI 写作、名师介绍等干货知识请进入后台自主查询。 

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/125233
 
554 次点击