Py学习  »  机器学习算法

告别无用的实验 —— 机器学习又提供了哪些经典思想?

材料人 • 4 年前 • 392 次点击  


随着计算机技术的发展,数字建模和机器学习为材料科学研究开辟了新的道路。在过去,传统研究材料性质的方法通常通过表征仪器对材料的结构组成或者反应过程进行分析,再通过数学运算建立模型。随着大数据和机器学习方法的引入,科学家们不仅可以通过大量已有的实验数据自动生成数学模型,发现很多被忽略的或者潜在的联系,还可以对未知反应和材料表现加以预测,从而大大减小了实验成本。不仅如此,科学家们还能够通过计算机技术对材料进行定向修饰以满足特殊的运用环境,制造出新型特种材料。在这篇推文中,我会介绍一些机器学习和大数据对一些材料及其性质的研究成果,为广大有兴趣做交叉学科研究的同学提供新思路。

01

利用大数据建模预测离子溶液黏度

近年来,随着机器学习技术的发展和越来越多的数据库的建立,科学家们在利用计算机模拟和设计新材料方面取得了很多可喜的成果。在材料科学领域,液体材料被广泛的运用。其中离子溶液作为新兴溶剂更为重要。例如,在氧化还原液流电池中,溶剂的粘稠度通过影响总能量密度对电池的效率直接相关。但是有趣的是能量密度和黏度又呈负相关。因此,利用机器学习对黏度进行精确预测和计算有很高的运用价值。与晶体材料相比,因为液体材料的性质很容易受到其热力学状态的影响,现阶段对于液体材料数字模型的建立还不成熟。

来自美国华盛顿大学的Jim Pfaendtner教授和他的团队使用ILThermo数据库和PyChem,SciKit-Learn与RDKit工具包对离子溶液进行了建模和模拟,并发表了题为“Statistical models are able to predict ionic liquid viscosity across a wide range of chemical functionalities and experimental conditions”的研究成果。该研究中,他们使用了来自美国国家标准与技术研究院的约700个数据点并利用RDKit提取了近1200个生化特征训练类人类神经网络(ANN),通过在一系列不同的温度(273.15-373.15K)和压强(60-160 kPa)状况下对黏度进行测试以得到通用性的模型。从近1200个特征空间开始,小组成员们使用参数化最小绝对收缩选择算子(LASSO)和Bootstrap建立了置信区间,并最终输出了包含11个特征的神经网络模型(具体11个特征可参考图1,具体细节可参考原文,本文不详述)。实验成果表示包含该11个特征的神经网络模型在较宽范围的温度,压强和粘稠度条件下可以准确的运行。这一成果大大提高了离子液体的检索效率。在未来,使用者可以使用训练完成的神经模型来搜索具有所需要属性的离子液体。

值得一提的是,即使预先对离子液体数据加以分类再训练输出神经网络模型,该模型依然具有较高的准确性。除此之外,由于模型特征不包含离子间相互作用参数,因此实验模型不需要重新训练和对新的阴阳离子对进行评估。而重新训练和重新评估新的阴阳离子对是其他黏度模型中典型的设计缺陷。

图1 通过LASSO模型训练并选择出来的11个最重要的影响因素及它们的置信区间 [1]

02

利用机器学习预测多肽自组装,设计定制水凝胶

多肽是一种通过肽键将氨基酸连接在一起的化合物。通过利用氢键,π-π键堆积等非共价键作用,又可以自组装形成结构特异性的多肽分子聚集体。多肽分子具有良好的生物兼容性和降解性,因此自组装多肽在生物工程和药物释放方面有巨大的运用潜力。多肽分子的一个重要作用在于合成多肽分子水凝胶。其可用于药物释放,伤口愈合和细胞培养领域。自组装的多肽水凝胶不仅能够构建三维多孔纳米支架结构,模仿天然细胞外基质结构,为细胞生长提供支持,而且自组装多肽水凝胶由于通过氨基酸序列组成,特定序列排布使得分子具有更多的特异性和功能性。然而,摆在科学家面前的一个重要挑战是如何理解水凝胶的结构与其性能表现从而合理设计不同功能的水凝胶。机器学习和人工智能为科学家们提供了一个很有效的解决方案。

机器学习或深度学习通常被运用在能源和无机材料领域。即使是在医学领域,其更多的运用场景是病理学。瑞典卡罗林斯卡医学院的李林鲜教授和他的团队利用机器学习整合了有机生物材料的化学性质和自组装行为,预测了水凝胶的形成可行性及其二维化学结构,并发表了题为“Design of self-assembly dipeptide hydrogels and machine learning via their chemical features”的研究成果[2]. 该小组搭建了化学特征数据库并利用机器学习探究其对水凝胶形成的影响。在这项研究中,小组使用了2304种多肽结构以及总计约7,100,000影响参数训练模型。在实验中,他们分别使用了线性逻辑算法(如逻辑回归)和非线性逻辑算法(如神经网络)建立模型。实验结果表示,random forest, gradient boosting 和 logistic regression有最好的预测结果。利用三种机器学习方法,他们选择出了20个影响效果最大的描述符。而其中,Fmoc-amino acid,SpMax1_Bhi和SpMin1_Bhi对水凝胶的合成影响最大。

除了水凝胶的设计与合成,其由多种官能团表现出的机械性能也至关重要。水凝胶的机械性能直接影响其受控药物释放行为。李教授小组利用机器学习方法,研究了水凝胶材料的流变性质。研究过程中发现,不同的化学结构表现出不同的流变性质。通过比较不同水凝胶材料的振荡剪切模量的储值和损失,他们证实了具有多种官能团的肽分子会导致流变行为的差异。研究成果还表明,利用组合的方式,我们可以获得具有不同流变行为的水凝胶材料,这在干细胞研究中具有潜在的运用。除此之外,由于水凝胶对培养中的细胞增殖的支持作用,其证明了水凝胶的生物兼容性。李教授小组开发出来的利用机器学习将化学结构与其自组装行为联系起来的研究策略,大大加速了生物医学用途的多肽结构设计与合成。

图2 机器学习数据建模设计 [2]


03

利用机器学习选择实用型高压储氢合金材料

随着材料科学和统计科学的迅猛发展,大数据挖掘工作已经表明科学家们可以利用计算和实验数据集合训练机器学习模型并利用模型创造符合预期要求的特殊材料,即实现所谓的“逆向设计”。例如,有研究小组成果通过对建立的大型数据集进行有限元分析模拟从而设计出具有良好微观结构和弹性模量的合金材料 [3]。再例如,Ward及其团队展示了他们的名为Magpie的机器学习平台。它可以将材料各成分实验或理论数据集映射到多维空间,对材料性能进行预测 [4]。虽然这些模型的预测结果有效地为科学家们节省了实验验证材料性能的时间成本和经济成本,但是它依然存在一些问题。例如,通过机器学习我们可以推出预算结果,但是无法验证材料是否是(亚)稳定的晶体结构。除此之外,材料在实际运用方面还需要考虑其生产成本,现有技术的兼容性以及安全问题。这些因素都是决定材料工程研究的关键。

Claudio教授和他的团队运用了一种分层学习法,通过在材料性能预测之前和之后添加一系列技术和经济约束标准,检索和选择符合要求的材料类型。值得一提的是添加经济和技术约束条件这一举措有望在科研成果和工程运用之间搭建桥梁。过去的预测手段大多对材料的性能加以预测,而该小组的方法则增加了实用价值。他们研究的材料是高压储氢合金材料。氢气作为未来取代化石能源的潜在备选方案,一个重要的挑战是如何安全有效将气体运往加气站。现阶段提出的技术方案都需要将氢气压缩到超过500 Bar的压强从而实现有效的运输,这对压缩技术提出了要求和挑战。考虑到经济效益和成本,目前市面上所有的机械压缩机都无法满足上述要求。因此,拥有更低成本和更高的可靠性的储氢合金成为了重点研究对象。Claudio团队使用回归模型准确的预测了一组来自美国能源部燃料电池技术办公室的开源材料数据集的焓值并使用机器学习模型选取了一批有潜力运用于储氢技术的合金材料。该小组采用了Ward等人开发的Magpie代码搭建机器学习模型。该模型将化合物数据库转换成含145个独立属性的数据库(包括电子结构,化学计量数等)。接下来,小组将数据用于训练常见的机器学习模型,如random tree和类人类神经网络(ANN),对材料性能进行预测。预测完成后,一共提出了6110种不同的合金。为了进一步缩小合金选择范围,小组采用了一系列基于生产技术,经济因素和预测准确性等限制条件的后期过滤筛选手段,将备选材料数量减少到533种。其实验筛选结果显示几乎所有符合条件的预测化合物都是使用Fe-Mn作为基础合金的三元或四元合金。研究的最后一步则是验证材料可以形成稳定的单相合金,固液体或Laves相,并具有吸收氢的能力。据分析,小组选择Ti-Mn-Fe作为基础合金,选择含有Mg,Si和Al的四元合金作为潜在添加剂。随后,通过对选出的10种材料使用遗传算法进行结构和相位预测后,Claudio验证了Ti-Mn-Fe合金系统的稳定性。

通过开创性地引入材料稳定性参数和经济限制条件,该团队成功将6000多种候选材料选择范围缩小到小于400个。最后,他们使用启发式新型机器学习方法选择出Fe-Mn-Ti-X型合金材料作为未来储氢合金材料的实验研究方向。

图3 分层机器学习法示意图 [5]


04

利用仿人工神经网络算法(ANN)预测金属材料氢脆和机械性能衰减现象

由于金属材料中氢的存在,材料失去了延展性导致机械性能衰退。这一现象我们称为氢脆。氢可以在制备和生产过程中或使用条件下进入金属材料,并降低材料的机械性能。氢对金属材料的机械性能影响还取决于金属材料中的元素组成。在众多金属材料中,铝合金因为其较低的密度和卓越的性能,被广泛适用于航天航空,汽车工业和军事工业中。在一些运用环境下,例如宇宙环境,材料的表现不易于观察和实验。尽管很多实验已经证明铝合金是氢气免疫型材料,但是很多研究也证明铝合金暴露在气体环境下很容易造成开裂等故障。由于氢扩散导致材料脆化已经成为工业运用的一个主要问题,因此,理解氢脆失能机理并对其进行准确预测避免故障发生尤为重要。目前的研究思路是利用机器学习探究金属材料及其元素组成和降解的机械性能之间的联系。

尽管使用人工神经网络模型对金属材料性能进行研究和预测已经不是一个很新的课题,但鲜有对加氢领域的研究。Jothi教授和他的团队使用机器学习模型探究了氢气的存在对金属材料机械性能的影响,研究了氢气充填后不同化学成分的铝合金拉伸性能的变化。他们从各种相关研究文献中收集来铝合金在加氢前后对不同温度,应变速率和电流密度的拉伸性能数据,利用单层和多层前馈反向传播算法预测含氢金属的机械性能,利用多层前馈反向传播模型用于预测材料的拉伸强度。在这项研究中,输入参数包含12个节点,其中不同合金元素的化学成分占8个节点,材料处理加工参数(温度,时间,应变速率和电流密度)占4个节点。对输入参数(铝合金化学成分及加工参数)和目标参数(拉伸强度和应变)建立神经网络(ANN)模型,从而预测带氢铝合金的机械强度。

Jothi教授团队实验结果表明其团队成功构建了ANN模型并在输入和目标参数之间建立牢固的关系。该模型可以准确预测含氢铝合金的机械性能和衰减情况。其R值证明该模型已做好用于实际运用(如铝合金的充氢运用)的准备。

图4 对输入参数(合金化学成分和加工参数)和目标参数(伸长比例)建模过程图解 [6]

随着计算机技术的发展和计算机人才涌现,传统的研究材料科学的方法和技能已经不足以支撑和适应越来越高的要求和越来越精准的标准。交叉学科的产生和发展将成为材料科学研究发展的必然趋势。但是相较于其他的科学学科和工程领域,材料科学规模并不是很大。这也就意味着材料科学领域很难吸引很多计算机人才愿意投入努力和时间在材料科学研究领域。但是作为国家安全和国家长期经济战略的基础学科领域,材料科学依旧会保持着常青和活力,利用机器学习研究材料性质也充满了无限的潜能。可以预见的是在不久的将来,材料科学研究会迎来越来越多的计算机人才和越来越丰富的数据资源以供开发和学习。

参考文献

[1] Beckner, W.; Mao, C.; Pfaendtner, J. Statistical Models Are Able To Predict Ionic Liquid Viscosity Across A Wide Range Of Chemical Functionalities And Experimental Conditions. Molecular Systems Design & Engineering 2018, 3, 253-263.

[2] Li, F.; Han, J.; Cao, T.; Lam, W.; Fan, B.; Tang, W.; Chen, S.; Fok, K.; Li, L. Design Of Self-Assembly Dipeptide Hydrogels And Machine Learning Via Their Chemical Features. Proceedings of the National Academy of Sciences 2019, 116, 11259-11264.

[3] . C. Yan, D. J. Pochan, Rheological properties of peptide-based hydrogels for biomedical and other applications. Chem. Soc. Rev. 39, 3528–3540 (2010).

[4] P. W. Frederix et al., Exploring the sequence space for (tri-)peptide self-assembly to design and discover new hydrogels. Nat. Chem. 7, 30–37 (2015).

[5] Hattrick-Simpers, J.; Choudhary, K.; Corgnale, C. A Simple Constrained Machine Learning Model For Predicting High-Pressure-Hydrogen-Compressor Materials. Molecular Systems Design & Engineering 2018, 3, 509-517.

[6] Thankachan, T.; Prakash, K.; David Pleass, C.; Rammasamy, D.; Prabakaran, B.; Jothi, S. Artificial Neural Network To Predict The Degraded Mechanical Properties Of Metallic Materials Due To The Presence Of Hydrogen. International Journal of Hydrogen Energy 2017, 42, 28612-28621.

本文由元同学供稿。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/36431
 
392 次点击