本节将对电化学储能材料中结构化和非结构化数据驱动的机器学习建模和应用分别进行系统地介绍,重点分析其存在的困难和挑战。
2.1 结构化电化学储能材料数据驱动的机器学习
目前机器学习在电化学储能材料领域的应用大多数是基于结构化数据驱动的,这需要针对特定的目标属性选取合适的描述符,并对其进行结构化表示,构建学习样本,进行机器学习建模和应用。具体工作流程如图3所示。首先,可以使用实验测量、计算模拟或者直接从现有的材料数据库中收集材料原始数据,并从中提取合适的描述符,这些描述符一般包括材料结构、化学成分和材料性能等;其次,经过特征选择或者特征转换将描述符数据集转换为学习样本;然后,通过选择合适的机器学习算法并调整最优超参数,模拟条件属性与目标属性之间的映射关系;最后,研究人员可以利用这些模型来预测材料的性质或指导新材料的发现,如液态/固态电解质和电极材料的性能预测与成分优化以及电池健康状态评估。
图3 结构化数据驱动的机器学习在电化学储能材料应用的工作流程
2.1.1 数据收集
电化学储能材料内部的微观结构与材料性能之间的关系纷繁复杂,任何一种性能都与多种因素耦合相关。从实验或者计算中收集到与目标属性相关的材料原始数据之后,还需要从中选取合适的描述符构建数据集。一般来说,相似的材料对应的描述符也要相似且数量和获取成本尽可能低。然而,目前还没有普遍认可的描述符选择方法,其很大程度上依赖于研究者的领域知识。
针对特定的性能选取合适的描述符有助于建立更精确的模型,从而实现对电化学储能材料性能的精准预测。Sendek等根据原子的位置、质量、电负性和半径计算了与离子导电性相关的20个表征晶体局域原子排列和化学环境的描述符,进而利用逻辑回归算法对锂离子电池固体电解质离子电导率的高低进行分类;赵倩等基于离子传导相关因素的分析,通过整合全局及局域离子传导环境对离子传导快慢的影响,构建了一套分层编码晶体结构基描述符框架,包含组成、结构、传导通道、离子分布和特殊离子5个部分共32个描述符,并采用偏最小二乘分析(PLS)方法成功地预测了立方相Li-Argyrodites的激活能;王爱平等提取了有机溶剂小分子性质、最高占据分子轨道、最低未占据分子轨道和偶极矩以及官能团的原子性质共13个描述符,使用梯度提升决策树(GBDT)预测了溶剂与LiOH分子的结合能,发现磷酸酯溶剂能够显著加快Li-O电池的反应动力学。这些工作都是以目标属性为导向,依靠材料专家对材料体系的认知来选取的描述符。
材料专家针对不同材料性质所选取的描述符往往不能完全通用,这导致描述符的可扩展性差。为了将无机材料原始数据转换为机器学习算法所需的学习样本,Ward等根据材料的物理和化学性质提出了一套通用的描述符计算框架,包括化学计量属性、元素属性统计、电子结构属性和离子化合物属性共145个描述符。这些描述符在电化学储能材料性能预测研究中已经得到了成功的应用。例如,Rajendra等通过上述框架得到273个描述符,开发了预测电极电压的机器学习模型,为钠/钾离子电池筛选了近5000种候选电极材料;Jo等和Choi等利用上述框架和Voronoi镶嵌方法分别提取了145个化学描述符和126个结构描述符并构建机器学习模型来预测钠离子固态电解质的力学性能;Verduzco等通过选取元素属性、元素分数、化学计量属性、价轨道和实验温度共105个描述符设计了基于随机森林的主动学习方法,用于预测石榴石型固态电解质离子电导率。上述工作证明了该描述符计算框架在无机材料性能预测的适用性。
为了提高描述符的计算效率,一些研究人员开发了计算工具包对现有的描述符计算方法进行集成。如Ward等结合前期的工作基础开发了基于Python的特征生成方法库Matminer,其中包含了47个不同的特征提取模块,能够生成数千个物理相关的描述符,大大降低了描述符计算的难度。Himanen等创建了一个对原子结构进行编码的描述符库DScribe,包含库仑矩阵、Ewald和矩阵、正弦矩阵、多体张量表示(MBTR)、原子中心对称函数(ACSF)和原子位置平滑重叠(SOAP)等结构描述符,并通过周期性晶体的形成能和有机分子的离子电荷预测来说明其适用性。
总的来说,上述工作的推出加速了结构化描述符的构建,为后续的机器学习模型提供了可靠的数据集。但是,目前材料样本量少且描述符的选取存在稀疏性、不相关性和冗余性导致小样本高维度问题,从而影响模型的性能。此外,尽管目前已经开发了一些集成式的描述符计算工具,但是储能材料性能影响因素的复杂性导致能够适用于任意目标属性的通用描述符提取方案还未实现。
由于描述符的选择往往取决于材料专家知识,这些描述符通常存在稀疏性、不相关性和冗余性,导致模型性能较差。因此,特征工程是机器学习模型构建中的一个重要步骤,包括特征转换和特征选择。特征转换是把高维特征空间映射到低维特征空间的方法,在降低特征维度的同时特征数值也会改变。特征选择是从全部特征中选择一个特征子集,以降低样本维度,进而提高机器学习模型的预测精度和泛化性能。目前,已有学者从数据的角度利用现有的统计或机器学习方法进行纯数据驱动的特征转换或选择,试图从电化学储能材料众多描述符中挑选出材料可解释、预测精度高的描述符。
特征转换方法主要有主成分分析和线性判别分析。主成分分析通过线性投影并使得所投影的维度上数据的方差最大,以降低数据集的维数、提高可解释性的同时最大限度地减少信息丢失。线性判别分析是将一个高维空间中的数据投影到一个较低维的空间中,且投影后要保证各个类别的类内方差小而类间均值差别大]。这两种方法一般用于储能电池的系统诊断。如Banguero等将主成分分析模型应用于与电池储能系统的容量、内阻和开路电压相关的参数集处理;Wang等利用主成分分析对电动汽车动力电池一致性多参数评价;Chen等基于线性判别分析的分类模型识别锂离子电池故障。
特征选择方法可以分为过滤式、包裹式和嵌入式三大类。过滤式特征选择方法使用基于统计理论和信息论的评分标准(例如距离函数、统计相关系数和互信息等)评估相关特征的重要性并进行排序,然后在机器学习模型中使用得分高的特征子集,如图4(a)所示。该方法具有简单和高效的优点,然而,其特征选择过程与机器学习模型分离,忽略了所选特征子集对模型性能的影响,这通常会导致模型的预测精度较低。包裹式特征选择方法首先根据预先定义的搜索策略(如穷举法,遗传算法等)生成若干初始候选特征子集,其次训练一个特定的机器学习模型来评估每个候选特征子集,保留一些候选特征子集并用于生成下一组特征子集,该过程反复进行,直到选定的特征子集满足迭代停止条件(模型预测精度或循环次数),如图4(b)所示。该方法能够选择出具备高精度预测性能的最优特征子集,但往往以计算时间和复杂度为代价。与包裹式方法类似,嵌入式方法同样与特定的机器学习模型绑定。但不同的是,该方法通过在目标函数和建模过程中引入正则化系数或随机因素实现模型构建和特征选择的协同(例如偏最小二乘分析、LASSO和随机森林),简化了特征选择的过程,但受限于特定的机器学习模型,普适性有待提高。
图4 特征选择方法工作流程:(a) 过滤式;(b) 包裹式
在电化学储能材料性能预测研究中,包裹式方法由于考虑了特征对模型性能的影响已被广泛地应用。例如,Sendek等采用穷举策略从20个结构化描述符中选择了5个描述符,利用逻辑回归对锂离子电导率的高低进行分类;Gharagheizi等采用顺序搜索策略成功筛选出10个关键描述符,并建立最小二乘支持向量机(LSSVM)模型预测离子液体电导率;Wu等利用顺序搜索方法从111个描述符中选择了23个关键描述符,采用高斯核岭回归模型预测FCC溶质扩散势垒。嵌入式方法在选择特征的同时可以根据特征的重要性进行排序,使得专家可以更有针对性地进行材料设计,对于电化学储能材料的研究有着重要意义。例如,Shandiz等为339条硅酸盐阴极材料样本构建了9个描述符,利用极大随机化树(ERT)预测其晶系结构,发现晶胞体积是最重要的特征。赵倩等通过分层编码晶体结构描述符为50条立方相Li-Argyrodites样本构建了32个描述符,并借助偏最小二乘分析(PLS)方法推断各描述符与激活能之间的因果关系。
另外,过滤式和包裹式方法组合也是一种有效的特征选择方法,这种方法可以从数据的不同角度对特征进行处理。例如Hsu等先通过计算效率高的过滤器从原始数据集中选择候选描述符,然后通过更准确的包裹器进一步优化得到训练样本。在电化学储能材料研究领域,刘悦等首次提出了一种融合加权评分领域专家知识的多层级特征选择方法,其方法框架如图5所示。该方法将过滤式和包裹式方法相结合自动去除稀疏、不相关和冗余特征,在特征选择过程中引入领域专家知识,消除了关键特征被删除的风险,并在四个电池材料数据集上进行了实验,显示出比其他方法更好的预测性能。
图5 融合加权评分领域专家知识的多层级特征选择方法框架
总之,许多结构化数据不仅维数高且样本量小,导致机器学习模型的过拟合,降低了模型的泛化能力。这也是电化学储能材料科学中需要特征工程的重要原因。然而,由于特征选择方法复杂多样,且涉及的超参数和策略也需要手动设置和调整。例如过滤式方法需要设置所选特征的数量和过滤阈值;包裹式方法需要指定子集搜索策略以生成候选特征子集;嵌入式方法需要优化机器学习算法的超参数以获得更好的性能。这将导致没有相关经验的材料专家不易使用这些方法。另外,特征工程仅仅通过特征空间的分布来选择描述符,这可能使得一些关键描述符重要度被弱化,导致学习结果与领域知识不一致。
目前,机器学习在储能电池领域得到了广泛的应用,其优越性在时间效率和预测精度上都得到了证明。其中,各种算法具有不同的特点和适应范围,选择合适的机器学习算法是构建机器学习模型的关键步骤,这极大地影响了其预测的准确性和泛化能力。当前常用于储能电池研发的机器学习方法如表2所示。下面介绍这些方法在储能电池应用中的最新进展。
表2 常用于储能电池研发的机器学习模型对比
2.1.3.1 液态电解质研究中的应用
液态电解质是电池的重要组成部分,它在正负极之间传输离子的同时也起着阻碍电子传导的作用,对电池的性能至关重要。机器学习已经被成功用于液态电解质化学稳定性、离子与溶剂的配位能预测以及溶剂成分优化。化学成分之间的稳定性和兼容性是在配置电解液时需要考虑的基本参数,Lee等将机器学习方法与传统反应指数相结合开发了神经网络回归模型并准确预测了93种电解质溶剂和氧化还原介质之间化学稳定性。离子与溶剂的配位能是影响离子输运的重要因素之一,Ishikawa等计算了70种溶剂分别与5种碱族元素的配位能,选择了13个离子和溶剂相关描述符并采用高斯过程回归预测元素配位能。电解质添加剂及其成分的优化组合是实现高压电池长循环性能的有效方法,Duong等选择电解质添加剂比例、负极和正极的容量比及循环次数作为输入参数,使用人工神经网络模型预测电池容量并成功地找到性能优异的电解质成分。2.1.3.2 固态电解质研究中的应用
近年来,固态电解质因比液态电解质具有更好的安全性、更高的能量密度和更长的寿命备受关注。利用机器学习对其离子电导率、化学组成和带隙进行预测是一个研究热点。离子电导率是衡量一种材料是否可以用作固体电解质的重要指标之一,Xu等收集127种实验合成的NASICON和LISICON材料并利用包裹式特征选择方法选取7个简单描述符,然后通过逻辑回归模型预测离子电导率。提高材料离子电导率的常见策略是掺杂添加剂或混合异质材料,Homma等通过实验制备了15个多相三元Li3PO4-Li3BO3-Li2SO4混合物样本,使用高斯过程回归的贝叶斯优化成功找到离子电导率性能优异的三元相化学组成比例。此外,带隙也是影响固体电解质性能的关键因素,Wang等从Materials Project数据库中收集了286个具有计算带隙的石榴石结构并选取28个描述符来训练XGBoost模型,最后筛选出12个潜在的石榴石型固态电解质材料。
电极材料的平均电压、体积变化、界面反应能、初始放电容量、库仑效率和电极制造参数对电池综合性能有着重要的影响,通过实验和计算来获得这些性质总是困难和昂贵的,因此有必要通过机器学习对其进行预测。电极材料的平均电压和充放电时的体积变化分别影响着电池的能量密度和安全性能,Moses等从Materials Project数据库收集了4860个材料,通过电极的化学计量以及Matminer工具包生成了306个描述符,使用神经网络模型预测电极材料充放电时的平均电压和体积变化。为了探寻锂金属负极的枝晶生长和高反应性导致电池循环效率低和安全性差的原因,刘波等计算了100种LLZOM化合物的界面反应能,将掺杂元素的15个相关特性视为描述符,通过支持向量集和核岭回归模型对界面稳定性和反应能进行准确预测。富锂层状氧化物正极材料在充放电过程中由于不可逆相变导致其结构稳定性降低、容量衰减和电压下降,Kireeva等收集了99种富锂层状氧化物正极材料,选择化学成分、原子性质、合成方法和实验条件作为描述符,使用支持向量机模型成功预测了富锂层状氧化物的初始放电容量和库仑效率。此外,由于电极的制造过程、电极浆料特性和涂层参数强烈影响电池的性能和寿命,Duquesnoy等制备了144个涂层电极,通过主成分分析、K均值聚类和高斯朴素贝叶斯分类器方法相结合,从而预测了与特定制造参数相关的电极异质性。
电池健康状态的评估对于电池系统的平稳可靠运行至关重要。而电池老化是一个复杂的过程,涉及阳极、阴极和电解质/电极界面的许多电化学反应。另外,温度和负载等操作条件也会影响电池老化过程。目前机器学习技术已被成功应用于预测电池的容量和健康状态,以确保设备可靠运行和及时维护。Nagulapati等使用18650个电池充放电数据,利用高斯过程回归和支持向量机模型将放电循环过程中的电压、电流和温度数据相关联预测电池容量,并通过组合多电池数据集的方法提高了模型的预测精度。与常用的电流-电压数据相比,电化学阻抗谱通过测量电流对电压扰动的响应来获得宽频率范围内的阻抗,包含有关材料特性、界面现象和电化学反应的丰富信息。Zhang等收集了2万多个商业锂离子电池的电化学阻抗谱,使用高斯过程回归模型将整个阻抗谱作为输入,准确预测了不同温度下电池健康状态和剩余使用寿命。大幅度延长电池使用寿命的关键挑战是减少所需实验的数量和持续时间,Attia等通过弹性网络早期模型结合贝叶斯优化算法,从前100个循环的电化学测量数据预测了最终循环寿命并有效地探测充电协议的参数空间。
综上所述,通过提取材料的结构特征、元素属性和实验环境等结构化描述符建立机器学习模型,能够指导研究人员设计和优化液态/固态电解质和电极材料以及评估电池的健康状态。然而,由于其内部复杂的电化学行为,电化学储能材料的微观结构和材料性能之间常常存在复杂的非线性关系,导致线性模型性能较差,而神经网络等非线性模型的复杂性高可解释性差,且一般需要大量数据进行训练。因此,还需要研究人员对结构化数据驱动的电化学储能材料研发进行进一步的探索。
2.2 非结构化电化学储能材料数据驱动的机器学习
随着对电化学储能材料的深入研究,能够通过材料结构、表征技术和科学文献中得到大量的图形、图像和文本等非结构数据。这些数据含有非常丰富的材料信息,但传统的机器学习方法难以对其处理。作为机器学习的重要组成部分,深度学习能够从非常原始的非结构化图形和图像数据中提取信息,实现自动模型参数估计(即“端到端”学习),从而避免繁琐但重要的描述符设计。此外,通过文本挖掘和自然语言处理技术能够从非结构化的文本中提取材料的数据和知识,为进一步数据挖掘和分析提供数据集。
近年来,图深度学习(graph deep learning)因能够对任意大小和形状的图形进行“端到端”学习,无需研究人员构建繁琐而重要的描述符受到了材料领域越来越多的关注。
起初,图深度学习被应用在分子体系的性能预测中,随后被用于周期性晶体体系。工作流程如图6所示,首先需要获取材料结构数据集,一般来源于ICSD数据库或CSD数据库;然后对材料结构进行图形表示,这个过程需要选择合适的材料信息进行编码,如原子轨道相互作用、原子属性、键属性、全局状态和阴离子配位多面体基序等;最后通过图深度学习模型预测材料性能。这里总结了不同材料信息嵌入下图深度学习在材料性能预测中的应用。
图6 图深度学习在分子/晶体结构应用的工作流程
2.2.1.1 原子信息嵌入
最近大多数材料图深度学习研究是基于原子级别的图形数据作为深度学习模型的输入。在谢天等提出的晶体图卷积神经网络(CGCNN)中,每个晶体由一个晶体图形表示,并且满足原子索引置换不变性和晶胞选择不变性,该模型准确地预测了晶体结构的形成能、带隙、费米能和弹性特性等性能,最后通过钙钛矿材料说明了模型的可解释性。Ahmad等应用CGCNN模型筛选能够抑制锂金属阳极枝晶形成的无机固体电解质。Zhou等基于CGCNN模型从Materials Project和AFLOW材料数据库中筛选了13万多种无机材料,成功预测了80种可用于锌离子电池的高压正极材料。作为CGCNN的改进模型,Park等提出了iCGCNN模型,该模型的晶体图包括Voronoi镶嵌晶体结构的信息、相邻组成原子的显式三体关联以及化学键的表示,在预测热力学稳定性方面,iCGCNN的精度相较于CGCNN提高了20%。
由于之前绝大多数模型是单独基于分子或晶体数据集开发的,且缺乏对温度和压力等全局状态的描述,致使模型缺少必要信息影响其预测性能。因此,Chen等提出了一个基于图形的深度学习框架(MEGNet)并将其应用于分子和晶体结构。该模型通过将原子属性、键属性和全局状态属性嵌入图神经网络模块中,然后通过信息传递过程反复更新,最终利用多层感知器预测材料性能。MEGNet在预测晶体的形成能、带隙和弹性模量方面显著优于现有的机器学习模型。在此基础上,该团队还开发了一个能够处理多保真度数据和无序材料的图神经网络模型。该模型将数据保真度级别编码为整数并传递给可训练的保真度嵌入矩阵,并通过元素嵌入的线性组合表示无序位点。实验结果表明该模型对于实验带隙预测的平均绝对误差降低了22%~45%,但潜在限制是它依赖于大型低保真数据集来学习有效的结构表示,导致只能对少数目标属性进行高精度预测。
与弹性模量等力学性能相比,预测晶体材料的电子结构性质需要更详细的材料信息,因此仅嵌入原子信息的图深度学习模型可能性能不佳。Banjade等提出了一种Atom-Motif双图网络模型(AMDNet)以增强对电子结构相关材料性能的预测。该模型利用阴离子配位多面体构建结构基序图,及基于原子的图形一起输入神经网络模型。与已有的模型相比,AMDNet预测金属氧化物带隙等性能更加准确。此外,原子轨道也是一种与电子结构高度相关的材料特征。Karamad等提出了一种轨道图卷积神经网络(OGCNN),以考虑晶体材料的原子轨道信息。该模型将原子轨道之间的键合信息编码为轨道场矩阵(OFM)表示,然后将改进的节点和边特征传递给CGCNN框架以进行性能预测,最后在形成能和带隙预测方面都具有比CGCNN更好的性能。
综上所述,本文对图深度学习的图形表示方法和模型框架进行了介绍,这些框架能够对材料的性能进行高效准确地预测,加快材料的研发速度。然而其中还存在一个基本问题:通过简单地设置截断距离可能导致原子间距离的微小变化使邻居原子数量的突然变化,晶体结构中原子的连接性难以判断。因此,图形表示更适合于具有共价键的分子材料,而具有离子键和金属键的晶体材料需要特别注意识别节点的连接性。
材料内部的显微组织结构决定着材料的性能,通过现代材料分析技术对其进行表征,可得到图像类型的非结构化数据。这些数据通常需要依赖材料专家对其进行分析,从中提取出显微化学成分、晶体结构和微观形貌等材料信息。但是仅仅依赖材料专家自身经验分析容易遗漏其中的隐藏信息,且耗时费力。计算机视觉领域的深度学习方法可以自动提取图像中的特征,与材料图像数据分析的强烈需求相吻合,有助于提高材料表征的速度和准确性。这里主要针对不同的材料表征技术,介绍深度学习在电化学储能材料图像数据分析的研究进展。
X射线断层扫描是一种强有力的表征方法,可以对材料的微观结构和化学成分进行动态无损成像,提供电池运行和退化的定量或定性分析。量化锂电极中微结构的形态转变需要严格和一致的分割程序,Dixit等实现了一个基于ResNet-34的深度卷积神经网络对锂金属X射线断层扫描低对比度图像中的锂金属和孔隙进行分割,以定量跟踪锂金属电极和固态电解质固固界面的形态变化。与传统的二值化过程相比,机器学习识别锂金属孔隙特征的保真度和准确性明显提高。复合电极的微观结构决定了电极颗粒在充放电过程中的行为,颗粒与碳/黏合剂分离的程度与容量损失相关。为了对严重破碎的颗粒进行识别,Jiang等使用高分辨率硬X射线纳米断层扫描对复合正极材料可视化,开发了一个掩模区域卷积神经网络模型并自动识别和分割了650多个正极颗粒,消除了使用传统图像技术报告中表征结果存在的偏差。
拉曼高光谱成像具有同时对多种化学特征进行成像的能力。同步识别锂离子电池电极中多个光谱特征有助于将分析技术用于在线质量控制和产品开发。Baliyan等提出了一个神经网络分析框架来自动从锂离子电池电极拉曼高光谱数据集中识别光谱特征并分配类别标签,从而计算容量保留系数来定量评估锂离子电池的容量退化。该方法有效地避免了宇宙噪声带来的错误定量分析,且实现了对高光谱分析整个生命周期的自动化处理。
电子背散射衍射通过分析晶粒两侧像素之间的取向来检测多晶样品中的晶界,可以在晶粒尺度上改善正极材料的评估和量化,这对理解锂离子电池的锂传输、速率限制和降解机制至关重要。Furat等使用电子背散射衍射技术对正极材料颗粒进行成像,通过卷积神经网络对标记的图像进行训练并应用于整个图像数据,从而产生具有增强晶界的新图像。该方法避免了常规图像处理方法繁琐的处理步骤和参数校正过程,实现了晶粒结构的有效形态表征。
总之,深度学习技术能够从复杂的电化学储能材料图像数据中识别特定的特征,从而有效应用于X射线断层扫描图像分割、拉曼高光谱成像特征提取和电子背散射衍射图像晶界增强。然而,深度学习模型强烈依赖于大量标记的图像数据,以及非专业研究者对深度学习模型使用的复杂性等问题还阻碍着其在材料图像领域的应用。此外,上述例子仅仅是对电化学储能材料图像本身进行了建模应用,通过深度学习技术还可以进一步地探索化学成分-介观尺度显微组织结构-材料性能之间的构效关系,加速材料性能预测。
文本挖掘是指从文本语料库中提取有价值信息和知识的方法。近年来,材料科学的文本挖掘主要依靠自然语言处理技术和机器学习方法,从数量庞大且不断增长的科学出版物中快速获取非结构化科学知识,进而指导材料相关领域的研究。文本挖掘的工作流程可以概括为文本收集与解析、文本预处理、文本分析、信息提取、数据挖掘,如图7所示。随着文本挖掘技术的逐渐成熟,已有学者将其应用到电化学储能材料领域,从而追踪材料研究动态、指导材料合成和建立材料数据库等。
图7 文本挖掘的工作流程
2.2.3.1 追踪研究动态
文本挖掘可帮助读者找到某个领域的突破性论文并跟踪最新技术的进展。Torayev等使用基于机器学习的文本挖掘技术从1800多篇文献中识别Li-O2电池研究领域的全球趋势。结果显示,该领域的电解质研究已从碳酸盐转向了甘醇二甲醚和二甲基亚砜,且大部分文献都关注电池的循环稳定性、容量和倍率性能。El-Bousiydy等使用基于关键字搜索文本挖掘算法,分析了1.3万份锂和钠离子电池科学文献中研究人员的习惯,发现大多文献缺乏对某些关键特征的系统报告,例如厚度、孔隙率、电解质体积、表面积和质量载荷。通过文本挖掘技术构建材料知识图谱,能够从海量材料科学文献中进行信息抽取,建立实体之间的对应关系,从而自动化地提供材料科学领域信息。Nie等收集了超过290万篇材料领域的文章及其作者信息,结合机器学习和依赖匹配算法对材料知识图谱中的主体进行高精度消歧,并使用剪枝策略实现高效信息匹配和搜索,从而构建了材料知识图谱(MatKG)框架。利用该框架对LiFePO4进行自动化分析,关联相关学者及其研究信息,建立了用于锂离子电池的LiFePO4材料发展里程碑图。
优化电解质低温处理协议能够最大程度地减少电池界面的不兼容性。Mahbub等使用基于规则和机器学习方法自动提取硫化物和氧化物的锂固态电解质文本中实验合成部分,然后通过神经网络模型对每个段落中的单词进行标记和分类,以预测句子中每个单词的重要合成关键词(例如材料名称、操作名称、数量、条件等),将这些分类的标记组合成一个数据库对象并对其进一步数据挖掘以提取合成趋势。该团队从中识别出高电位氧化物基锂石榴石电解质的低温合成方法,降低了固态电解质组装到电池过程中的界面复杂性。
化学感知自然语言处理工具包ChemDataExtractor是化学信息提取和文本处理的常用工具,在文本处理、标记化和词性标注方面灵活而准确,能够用于识别化学物质实体、相关属性及其相互依赖关系。大型电池材料数据库对于数据驱动的新材料发现至关重要,Huang等使用ChemDataExtractor,通过文章检索、数据提取、数据清理、数据后处理和评估过程,从22万余篇电池研究论文中自动提取数据,然后创建了一个大型电池材料同源属性数据库,包括1.7万种化合物和对应的21万多条电池材料属性(容量、电压、电导率、库仑效率和能量)。
综上所述,目前只有少数基于文本挖掘的工作专注于电化学储能材料领域,其限制主要有以下三点:一是材料文本标注数据稀缺性,大多数现有的标注数据集都是以特定的材料领域而创建的,难以直接应用于其他材料体系;二是材料命名方法差异性,材料文本中存在各种专业术语,缺乏标准的命名方法容易导致歧义的产生;三是材料文本的复杂性,材料科学文本的专业性强可读性差,使得文本处理异常困难。即使如此,随着大型材料文本数据库的建立和自然语言处理技术的发展,相信文本挖掘技术会对电化学储能材料的发展起到重要的作用。