同济大学Water Research丨机器学习辅助设计纳滤和反渗透膜去除有机微污染物

摘要

纳滤（NF）和反渗透（RO）膜在有机微污染物（OMPs）去除中发挥着越来越重要的作用，这对基于截留机制定制适合OMPs去除的膜提出了更高的要求。在此，通过使用机器学习(ML)来捕获OMP去除效率与膜和OMP特性之间的相关性，构建了以OMP为目标的膜优化途径。通过专业知识的帮助和严格的建模方法，建立了准确且稳健的极限梯度提升（XGBoost）模型，该模型可以很好地识别OMP的主要排斥机制（即尺寸排阻效应和静电相互作用）。对几个高风险OMP的另一个数据集的示例性应用展示了如何使用优化模型来估计OMP风险控制的整体效率，更重要的是，为特定去除目标的膜特性提供定量指导。令人满意的预测结果证明了ML模型的良好泛化性，因此它能够敏感地定义理想的膜特性，以有针对性地去除这些（以及任何其他相关的）OMP。这项研究提供了一个可行且通用的基于机器学习的框架，以实现用于OMP风险控制的NF/RO膜的定制选择和设计。

科学问题

水生环境中的有机微污染物（OMP）对生态和健康构成风险，是全球关注的问题。由于OMPs难以替代，有效去除它们以确保水质安全是一个挑战。膜分离技术，尤其是纳滤（NF）和反渗透（RO），因其效率和环保性而被广泛应用于水处理。为了经济地去除OMP，研究者们致力于优化纳滤或反渗透膜，并开发新型膜。尽管在膜技术去除OMP方面取得了一些进展，但OMPs种类繁多，性质各异，评估和改进膜性能需要大量实验室工作。

机器学习（ML）在水处理研究中越来越受到重视，通过学习大型数据集来掌握系统变量之间的复杂关系。尽管ML有助于理解溶质排斥机制和比较膜去除效率，但其在识别针对特定OMP的适当膜特性方面仍有限制。因此，需要解决这些问题，以推进ML模型在OMP膜排斥方面的应用，并为OMP靶向膜的选择和开发提供明确指导。

机器学习框架

本工作提供了一种有效的基于机器学习的方法，根据OMP的类型和去除要求来识别所需的膜特性，从而指导膜的选择和设计。通过构建了从50个文献收集的NF/RO膜对OMP排斥的数据库，用于实施机器学习，以捕获多因素和OMP排斥之间的相关性，目的是定制膜以去除特定的OMP。实现该功能的工作流程包括数据集准备、模型构建和模型应用三部分（图1）。首先，从文献中收集ML数据库，然后在专业知识的帮助下进行优化（即根据已知的OMP拒绝机制）。然后，构建ML模型并进行模型解释，因为掌握OMPs排斥的主要影响因素和机制是ML模型后续应用的基础。以一组外部高风险OMP为例，进一步验证了所构建模型的泛化能力，并最终证明了其指导膜性能优化的能力。

图1. 机器学习工作流程，包括数据集准备、模型构建和模型应用

数据收集处理

本研究汇总了890项关于NF/RO聚酰胺膜处理OMP的最新研究数据。数据通过关键词从Scopus和WebofScience中检索得到，以OMP对膜的排斥作为模型输出目标，并考虑了特定输入特征的影响。研究排除了操作条件的影响，并筛选出达到吸附平衡的稳态截留率数据，以反映真实排斥性能。数据集包括膜的孔径、zeta电位、水接触角等特征，以及OMP的范德华半径、中性电荷和中性logD值。异常数据经过管理，仅包含报告了关键膜特性数据的OMP排斥数据，最终形成包含793个数据点的ML数据集。特征工程通过相关性分析和专业知识优化模型性能，减少特征数量以提高泛化能力。数据集被随机分割为80%的训练集和20%的测试集，进行10次随机分割以评估模型性能。

使用SHAP方法来解释模型中输入变量对输出的贡献。SHAP通过Shapley值将信用分配与局部解释联系起来，展示特征对预测值的贡献。ICE图和PDP图分别展示目标响应与特定特征的依赖性，以及特征对所有样本的平均影响。单向PDP和2D-PDP图揭示特征间的交互作用。基于中国地表水OMPs的风险分析，选取了19种高风险指数的OMPs作为研究对象。风险指数结合了多种因素来评估OMP的潜在危害和暴露风险。这些OMPs被用作评估模型泛化能力的外部测试数据集。通过输入OMP的分子特征和膜特性参数，模型预测了它们的截留率，进而计算综合截留率作为风险控制效率的指标。通过模型预测的排斥率，可以为特定OMP的膜特性提供定量建议。

数据集准备与分析

为了提高模型的预测性能，提出了两个新的组合特征来描述膜去除OMP所涉及的尺寸排阻效应和静电相互作用机制。它包括OMP的范德华半径与膜的平均孔径半径之比（即尺寸比），以及膜Zeta电位与OMP中性电荷的乘积（即电荷乘积）。根据Pearson相关矩阵（图2），孔隙半径与尺寸比具有较强的相关性（-0.8），与Zeta电位等多个特征具有中等相关性，因此去除了孔隙半径特征。同样，中性电荷特征也被删除，因为它的作用可以通过电荷乘积的特征来高度体现。因此，最终使用六个特征作为机器学习的输入变量。所有Pearson相关系数都在-0.3到0.3之间，表明特征之间的相关性可以忽略不计，这保证了后续模型解释和应用的可信度。

图2. 特征工程前后输入特征的Pearson相关矩阵

在所有数据中确定了总共135个数据的典型集，其中包含16个典型OMP（另外3个典型OMP尚未进行膜排斥测试）。其余658个没有典型OMP的数据被分配给训练集。训练样本大小与特征大小之比（SFR）是决定数据集是否足以满足定义的研究问题的重要衡量标准，SFR>100被认为对于环境研究中的ML回归任务准确。本研究的SFR为110，这意味着该模型具有较高的置信度和良好的学习潜力。检查了训练集和典型集的数据分布，特征的小提琴图（图3）显示大部分特征典型的集合数据分布没有偏离训练集。这表明模型训练的数据集相对全面，涵盖了膜/OMPs属性的常见范围，保证了构建模型的泛化能力。

图3. 训练集和典型集的特征分布，小提琴中的虚线显示数据的四分位数

模型构建与解释验证

进行了10次随机分割来评估模型，并标准化特征以避免尺度问题。使用5折交叉验证来训练和测试模型，避免数据浪费。采用L1/L2正则化优化MLR，SVM使用线性和RBF核，XGBoost用Optuna优化。结果显示MLR和SVM在测试集上R²_aj较低，而XGBoost表现较好，具有较高的R²_aj和相似的RMSE、MAE值。评估显示XGBoost在性能上优于MLR和SVM，故选为最终模型，并用TPE优化其超参数。研究中，模型常基于随机分割构建，但这样做可能影响模型的准确性和泛化。应使用完整训练集以确保模型泛化能力。避免仅用训练集评估模型，而应采用多个随机分割的平均值来评估。

SHAP评估特征对预测拒绝的贡献，其中范德华半径和尺寸比为主要影响因素（图4）。尺寸比的SHAP值分布显示，大尺寸样本倾向于有更高的SHAP值，符合尺寸排阻效应理论。电荷积的SHAP值分布揭示了静电相互作用在排斥OMP中的作用。中性logD结果表明，OMP的疏水性越强，越难被膜排斥。但接触角特征的SHAP值分布显示噪声，暗示疏水相互作用对排斥OMP影响不大。

图4. 每个特征的平均绝对值和SHAP值分布

PDP分析揭示了特征如何影响模型决策。图5a显示尺寸比和电荷乘积与部分依赖性呈正相关，表明尺寸排阻和静电相互作用对OMP排斥有显著影响。logD与部分依赖性呈负相关，而接触角无明显模式，这与OMP排斥对疏水作用依赖性较弱相符。部分依赖性值是相对的，且图中值不可直接比较。2D PDP（图5b）提供了更多关于特征相互作用及其对OMP影响的信息。尺寸比大于1且电荷积大于0时，部分依赖性值最高，说明尺寸排阻和静电相互作用共同影响OMP的排斥。选择膜时，孔径和zeta电位需互补，以平衡去除OMP和其他溶质的需求。过小孔径会降低膜水渗透性，因此需适当选择孔径以获得渗透率和选择性之间的平衡。SHAP和PDP模型的分析强调了尺寸排阻和静电相互作用的重要性，并指出关注孔径和Zeta电位有助于膜的定制选择和设计。

图5. (a)每个功能的ICE（灰色实线）和单向PDP（红色虚线），(b)特征组合的2D PDP

膜性能设计模型应用

模型展示了机器学习在指导膜设计中的应用，预测了包含19种高风险OMP的典型组的剔除率。在典型集的预测中，R2aj值达到0.74，测试集的R2aj值为0.74±0.04，RMSE为11.85，MAE为8.33。尽管训练集中没有出现任何OMP，模型仍显示出高泛化能力。模型还用于检查膜的三个特性，包括MWCO和zeta电位，以及接触角。模型输出的综合拒绝是基于每个OMP的风险指数的加权平均值。结果显示，膜特性变化对OMP的综合抑制率有显著影响。特别是，具有不同zeta电位的膜对OMP的综合排斥表现出不同的效果，其中负电荷较少的膜对OMP的综合排斥更有利。此外，膜MWCO对OMP去除普遍有不利影响，建议使用截留分子量为200-300Da的膜以实现高综合风控效率。

为了进一步了解OMPs综合排斥率随膜特性（特别是zeta电位）的变化，根据中性pH下分子电荷的不同，将这组典型的OMPs分为三个子集，即带负电、不带电和带正电的OMPs（图6b-d)。如图所示，当处理带负电的OMP时，带负电越多的膜由于静电排斥而表现出更高的综合排斥力。相反，对于带正电的OMP，带负电或带正电较少的膜显然更有利。

图6. 具有不同特性的膜对选定的高风险OMP的综合排斥：(a)所有典型的OMP。(b)带负电。(c)未充电。(b)带正电。每条线的半透明误差带代表固定截留分子量和膜Zeta电位的不同接触角预测的积分截留范围，实线表示其平均值。

对于具有不同性质的膜，进一步阐明了每种OMP的截留率变化所导致的综合截留率的差异。图7显示了具有假设特性的膜对每种典型OMP的模型预测截留率，即MWCO为200、300或400Da，zeta电位为-50、0或10mV，接触角为50至55°。对于所有19种典型的OMP，截留分子量为200Da的膜可以实现超过90%的截留率（咖啡因除外），而截留分子量为300Da的膜截留率仅为80%。在相同的截留分子量下，带负电的膜(-50mV)对带负电的OMP具有更高的截留率，而带正电的膜(10mV)对带正电的OMP表现更好。基于这些结果，可以根据要去除的OMP和所需的去除率来选择或有目的地设计具有适当孔径和Zeta电位的膜。

通过机器学习搜索膜特性的工作流程，适用于不同污染物和去除要求的OMP风险管理。模型能准确响应不同OMP组和去除要求，提供精确的膜特性建议。传统方法仅能提供定性结果，而机器学习框架能准确预测OMP截留率，为膜性质提供定量指导，提高膜选择效率，缩短开发周期。

图7. 具有特定性能的膜对典型OMP的抑制

总结

这项研究基于OMPs去除效率与膜特性和ML捕获的OMPs之间的相关性，提出了一个以OMPs为目标的NF/RO膜优化框架。引入领域专业知识来优化模型特征，并进行数据泄漏管理和随机性评估来增强模型可靠性。这种严格的建模方法有助于构建准确且稳健的XGBoost模型。SHAP和PDP对局部和全局模型的解释表明，ML模型可以很好地识别OMP的关键排斥机制，即尺寸排阻效应和静电相互作用，确保了模型后续应用的可信度。模型对高风险OMP外部数据集的预测能力表明其具有良好的泛化性和处理OMP多样性的敏感性。通过阐明OMP的综合和单独排斥对膜不同特性的依赖性，可以确定与目标OMP和所需去除程度相匹配的理想膜特性。这项工作探讨了机器学习在指导特定去除目标的膜特性选择方面的可行性。所建立的基于机器学习的框架有望成为提高水处理过程中OMP去除膜开发效率的有效工具。建议未来的研究重点通过解决数据模型应用程序工作流程的更多方面来增强和优化这个基于机器学习的框架。这项工作包括建立标准化数据库以确保数据的可靠性和完整性。膜测试实验应更加重视各种水质参数（例如pH），并结合OMP与原水中其他成分（例如无机盐和大分子有机物）之间的相互作用，以更好地模拟真实条件。在建模方面，在清楚理解拒绝机制和不断增加的数据集规模的基础上，拓宽特征选择（包括OMP分子特征和水矩阵）和优化特征工程，将进一步增强ML模型的性能和实用价值。

能源环境研究

邮箱：eergzh@yeah.net

关注环境、能源领域顶级科研进展。