英文原题:Predicting and Evaluating Different Pretreatment Methods on Methane Production from Sludge Anaerobic Digestion via Automated Machine Learning with Ensembled Semisupervised Learning
第一作者:程晓世 (博士),河海大学
通讯作者:罗景阳、程松,河海大学
作者:Xiaoshi Cheng, Runze Xu, Yang Wu, Baiyang Tang, Yuting Luo, Wenxuan Huang, Feng Wang, Shiyu Fang, Qian Feng, Yu Cheng, Song Cheng*, Jingyang Luo*
如何准确预测不同预处理方式提升污泥厌氧消化效能对污泥高效处理和资源回收至关重要。由于存在参数优化复杂和数据稀缺等挑战,传统机器学习(ML)的预测精度存在一定局限性。自动机器学习(AutoML)实现了自动化构建和调整网络结构、优化超参数和评估模型。此外,数据的有限可用性通常限制了在厌氧生物过程研究中的应用。由于设计和监测的不完备导致甲烷产量标签缺失较为常见。半监督学习(SSL)能够有效标记这些未标记的数据以扩大原始数据集。因此,本文提出一种集成半监督学习的AutoML方法评估和预测不同预处理方法对WAS消化过程中甲烷产生的影响。通过首先采用半监督学习(SSL)来扩充数据集,随后应用AutoML来评估使用原始数据集和SSL扩展数据集的预测准确性。此外,还使用可解释方法评估了变量的重要性以及消化底物与甲烷产量之间的潜在关系。最后,通过主成分和相关分析来探究底物浓度、微生物群落和代谢功能之间的相互关系。
图1 .(A)半监督学习的图示,和(B)SSL–H2O AutoML的流程图(比较了传统ML和H2O AutoML的预测精度。通过SSL扩增数据集并组成为混合数据集,分析H2O AutoML在不同运行时间下的预测精度。根据MSE、R2和预测值选择最优模型。最后,对最优模型进行可解释性分析,揭示了输入变量与甲烷产率的关系,最后分析输入变量与微生物群落和代谢功能的相关性)
预处理可有效破坏EPS促使可利用的消化底物释放到溶液中。消化底物的浓度持续被消耗,转化生成VFAs,然后通过产甲烷菌转化为沼气。不同预处理反应器的日产甲烷量逐渐增加,最终达到稳定水平。值得注意的是,底物浓度本身并不是甲烷产生的唯一决定因素。在PS/Fe2+的情况下,虽然总底物浓度显着增加,但总甲烷产量受到抑制。这可能归因于不利离子对微生物的毒性作用。
采用探索性数据分析(EDA)来可视化原始数据集的基本特征,预处理类型与底物浓度(COD、碳水化合物和蛋白质)呈正相关,表明预处理类型与可溶性有机物增加的直接相关。甲烷产量与操作时间呈显着正相关,这是因为高效的厌氧消化需要微生物(包括水解酸性细菌和产甲烷古菌)协同,而古菌的生长和富集缓慢。甲烷产量的增加必然会导致厌氧消化过程中底物的减少,因此底物浓度与操作时间呈负相关。通过大数据和非线性方法进一步探索这些变量之间的潜在关系。
图2. 数据集中变量的探索性分析。(A)变量的分布情况;(B)变量之间的相关性分析。(PT:预处理类型;Time:运行时间;Car:碳水化合物;Pro:蛋白质;VFA:挥发性脂肪酸)
本研究使用不同机器学习模型,包括常规模型,如基本模型(KNN和SVR),集成模型(XGB和RF)和人工神经网络(ANN),以及H2O AutoML来预测甲烷产量。在常规机器学习模型中,集成模型在甲烷产量预测方面具有更高的预测精度(图3A)。这些模型的MSE从30.6下降到7.45,R2从0.41增加到0.85。值得注意的是,AutoML实现了更高的R2值(0.85),与传统的ML模型(SVR:0.41和XGB:0.66)相比。AutoML的MSE(7.45)比传统的ML模型(KNN:18.14和ANN:22.19)更低。此外,进一步评估了H2O AutoML在不同运行时间(30-900s)的预测性能,结果表明预测精度并未随着运行时间的延长而显著提高(图3C)。在300s时达到最高精度,当运行时间从300s增加到900s,预测精度呈下降趋势。随着运行时间的增加,H2O AutoML将生成和评估更多类型的模型。模型类型的增加将改变模型的分布并增加其复杂性,从而导致预测精度的下降。
图3.
不同ML算法对原始数据集的预测性能变化(A)MSE和(B)R2值,(C)H2O AutoML在不同运行时间下ML模型的分布和预测精度,以及(D)H2O AutoML 甲烷产率预测值与实际值
原始数据集(OD)和先前数据集(PD)形成三个聚类。聚类I和III均衡分布,而聚类II仅由OD点组成。在聚类I和III中,OD和PD的分布相似,满足半监督学习的前提条件。因此,伪标记仅使用来自聚类I和III的接近数据点。与原始数据集相比,混合数据集的大小扩大了167%。SSL的应用通过扩大数据集进一步提高了预测精度,MSE从7.45(不使用SSL)进一步降低至5.81(图4B)。进一步评估H2O AutoML在不同运行时间(30-900s)的预测性能,在600 s时实现了最大精度。与原始数据集相比,虽然需要更长的运行时间才能达到最优预测性能,但预测准确性得到了有效提高(MSE从7.64下降到5.81)。然而,随着运行时间进一步增加到600 s以上,预测精度下降,但是预测精度仍高于原始数据集。因此,SSL的应用通过有效利用未标记数据与少量标记数据相结合,提高了预测精度。
图4 .(A)原始数据集和混合数据集的分布;不同ML算法对混合数据集的预测性能变化(B)MSE和(C)R2值,(D)H2O AutoML在不同运行时间下ML模型的分布和预测精度,以及(E)H2O AutoML 甲烷产率预测值与实际值
在获得最优模型后,通过多种可解释的方法解释模型结果,揭示了以下重要性顺序:运行时间 > COD > 蛋白 > 预处理类型 >碳水化合物> VFA(图5A)。然而,对于混合数据集,每个变量对甲烷产生的重要性显着增加,其顺序也发生了变化:运行时间 > COD > 碳水化合物 > 预处理类型 > 蛋白质 > VFA(图5C)。
图5.. 不同数据集的变量重要性(A)和(C)及SHAP值分析(B)和(D)
消化底物的增加为甲烷的产生提供了物质基础,不仅有助于功能微生物的富集,而且通过影响相关代谢基因的表达水平来增强新陈代谢。进一步使用主成分分析和相关性分析探究底物浓度,微生物群落(门和属水平)和代谢功能(KEGG L2和L3)之间的相互关系。具有高维数据的微生物群落结构和代谢功能被降维形成9个主成分(PC)。COD、碳水化合物和蛋白质与PC3呈正相关。属水平,Clostridium和Romboutsia也显示出与碳水化合物和蛋白质的正相关关系。底物浓度变化可以影响相关功能性微生物群落的丰度。
此外,碳水化合物和蛋白质与PC1表现出高度相关性,PC1与氨基酸代谢和碳水化合物代谢变现出显著正相关(图7)。同时,KEGG L3的代谢途径(即丙酮酸代谢和丙氨酸、天冬氨酸和谷氨酸代谢)与底物表现出相似的关系。因此,底物浓度的改变可以影响与胞内底物代谢相关的遗传表达。
图6 .(A)微生物门水平的前九个主成分的压缩信息,(B)输入变量与PC之间的相关性,以及(C)PC与细菌门水平之间的相关矩阵
图7.(A)KEGG L2 水平的前九个主成分的压缩信息,(B)输入变量与PC之间的相关性,以及(C)PC与KEGG L2之间的相关矩阵
综上所述,SSL-AutoML成功预测了甲烷产量并取得了比传统ML模型更高的预测性能。运行时间、底物变化等主导了甲烷产量的预测。内部解释表明,底物浓度的变化会刺激微生物群落(如变形杆菌和放线菌)的富集和代谢功能的提升(如底物代谢和膜转运)。然而,本研究只是构建了甲烷产量与底物变化、微生物群落和代谢功能之间的单向联系,但未能同时创建上述三个因素之间的相互作用关系,在未来的研究中从试验中收集更多相关数据,特别是微生物群落结构和相应的代谢功能特征,将有助于构建各变量之间的全面相互关系。
相关论文发表在ACS ES&T Engineering上,河海大学博士研究生程晓世为文章的第一作者,河海大学罗景阳教授和程松博士后为通讯作者,其余主要参与本工作的作者包括河海大学冯骞教授和河海大学硕士研究生唐柏杨等。
河海大学环境学院22级市政工程博士生,主要研究方向为有机废弃物资源化利用,以第一作者(或导师一作本人二作)在ACS ES&T Engineering和Science of the Total Environment等期刊发表SCI论文4篇。
河海大学博士后,南京大学博士毕业,现于河海大学污水资源化与低碳发展课题组从事以多功能电极材料为核心的水污染物控制与资源化技术的研发与应用,在Advanced Functional Materials,Applied Catalysis B:Environmental等期刊发表论文10余篇,授权国家发明专利6项,主持国家自然科学基金青年项目、江苏省自然科学基金青年项目、中国博士后科学基金项目,获江苏省卓越博士后人才计划资助。
河海大学教授、博士生导师,环境学院市政工程系主任。江苏省青蓝工程优秀青年骨干教师、江苏省环境科学学会“优秀青年科技者”、河海大学“大禹学者”和青年岗位能手、IWA青年委员、中国沼气学会青年专家委员等。主要从事有机废物的资源化利用及有毒有害污染物控制理论与技术等。主持负责国家自然科学基金(面上+青年)、江苏省自然科学基金、江苏省碳达峰碳中和科技创新专项(子课题)、中国博士后科学基金(面上+特助)、江苏省太湖办课题等10余项。以第一或通讯作者在ES&T、WR等环境类期刊发表高水平论文100余篇(累计ESI 高被引6篇,热点论文3篇),申请授权国家发明专利10余项。担任Frontier in Microbiology的副主编,Chinese Chemical Letter、Journal of Hazardous Materials Advances、 Results in Engineering、中国给水排水等多个期刊青年编委。
ACS EST Engg. 2023, ASAP
Publication Date: October 19, 2023
https://doi.org/10.1021/acsestengg.3c00368
Copyright © 2023 American Chemical Society