为了提高模型的预测性能,提出了两个新的组合特征来描述膜去除OMP所涉及的尺寸排阻效应和静电相互作用机制。它包括OMP的范德华半径与膜的平均孔径半径之比(即尺寸比),以及膜Zeta电位与OMP中性电荷的乘积(即电荷乘积)。根据Pearson相关矩阵(图2),孔隙半径与尺寸比具有较强的相关性(-0.8),与Zeta电位等多个特征具有中等相关性,因此去除了孔隙半径特征。同样,中性电荷特征也被删除,因为它的作用可以通过电荷乘积的特征来高度体现。因此,最终使用六个特征作为机器学习的输入变量。所有Pearson相关系数都在-0.3到0.3之间,表明特征之间的相关性可以忽略不计,这保证了后续模型解释和应用的可信度。

图2. 特征工程前后输入特征的Pearson相关矩阵
在所有数据中确定了总共135个数据的典型集,其中包含16个典型OMP(另外3个典型OMP尚未进行膜排斥测试)。其余658个没有典型OMP的数据被分配给训练集。训练样本大小与特征大小之比(SFR)是决定数据集是否足以满足定义的研究问题的重要衡量标准,SFR>100被认为对于环境研究中的ML回归任务准确。本研究的SFR为110,这意味着该模型具有较高的置信度和良好的学习潜力。检查了训练集和典型集的数据分布,特征的小提琴图(图3)显示大部分特征典型的集合数据分布没有偏离训练集。这表明模型训练的数据集相对全面,涵盖了膜/OMPs属性的常见范围,保证了构建模型的泛化能力。

图3. 训练集和典型集的特征分布,小提琴中的虚线显示数据的四分位数
进行了10次随机分割来评估模型,并标准化特征以避免尺度问题。使用5折交叉验证来训练和测试模型,避免数据浪费。采用L1/L2正则化优化MLR,SVM使用线性和RBF核,XGBoost用Optuna优化。结果显示MLR和SVM在测试集上R2aj较低,而XGBoost表现较好,具有较高的R2aj和相似的RMSE、MAE值。评估显示XGBoost在性能上优于MLR和SVM,故选为最终模型,并用TPE优化其超参数。研究中,模型常基于随机分割构建,但这样做可能影响模型的准确性和泛化。应使用完整训练集以确保模型泛化能力。避免仅用训练集评估模型,而应采用多个随机分割的平均值来评估。
SHAP评估特征对预测拒绝的贡献,其中范德华半径和尺寸比为主要影响因素(图4)。尺寸比的SHAP值分布显示,大尺寸样本倾向于有更高的SHAP值,符合尺寸排阻效应理论。电荷积的SHAP值分布揭示了静电相互作用在排斥OMP中的作用。中性logD结果表明,OMP的疏水性越强,越难被膜排斥。但接触角特征的SHAP值分布显示噪声,暗示疏水相互作用对排斥OMP影响不大。

图4. 每个特征的平均绝对值和SHAP值分布
PDP分析揭示了特征如何影响模型决策。图5a显示尺寸比和电荷乘积与部分依赖性呈正相关,表明尺寸排阻和静电相互作用对OMP排斥有显著影响。logD与部分依赖性呈负相关,而接触角无明显模式,这与OMP排斥对疏水作用依赖性较弱相符。部分依赖性值是相对的,且图中值不可直接比较。2D PDP(图5b)提供了更多关于特征相互作用及其对OMP影响的信息。尺寸比大于1且电荷积大于0时,部分依赖性值最高,说明尺寸排阻和静电相互作用共同影响OMP的排斥。选择膜时,孔径和zeta电位需互补,以平衡去除OMP和其他溶质的需求。过小孔径会降低膜水渗透性,因此需适当选择孔径以获得渗透率和选择性之间的平衡。SHAP和PDP模型的分析强调了尺寸排阻和静电相互作用的重要性,并指出关注孔径和Zeta电位有助于膜的定制选择和设计。

图5. (a)每个功能的ICE(灰色实线)和单向PDP(红色虚线),(b)特征组合的2D PDP
模型展示了机器学习在指导膜设计中的应用,预测了包含19种高风险OMP的典型组的剔除率。在典型集的预测中,R2aj值达到0.74,测试集的R2aj值为0.74±0.04,RMSE为11.85,MAE为8.33。尽管训练集中没有出现任何OMP,模型仍显示出高泛化能力。模型还用于检查膜的三个特性,包括MWCO和zeta电位,以及接触角。模型输出的综合拒绝是基于每个OMP的风险指数的加权平均值。结果显示,膜特性变化对OMP的综合抑制率有显著影响。特别是,具有不同zeta电位的膜对OMP的综合排斥表现出不同的效果,其中负电荷较少的膜对OMP的综合排斥更有利。此外,膜MWCO对OMP去除普遍有不利影响,建议使用截留分子量为200-300Da的膜以实现高综合风控效率。
为了进一步了解OMPs综合排斥率随膜特性(特别是zeta电位)的变化,根据中性pH下分子电荷的不同,将这组典型的OMPs分为三个子集,即带负电、不带电和带正电的OMPs(图6b-d)。如图所示,当处理带负电的OMP时,带负电越多的膜由于静电排斥而表现出更高的综合排斥力。相反,对于带正电的OMP,带负电或带正电较少的膜显然更有利。

图6. 具有不同特性的膜对选定的高风险OMP的综合排斥:(a)所有典型的OMP。(b)带负电。(c)未充电。(b)带正电。每条线的半透明误差带代表固定截留分子量和膜Zeta电位的不同接触角预测的积分截留范围,实线表示其平均值。
对于具有不同性质的膜,进一步阐明了每种OMP的截留率变化所导致的综合截留率的差异。图7显示了具有假设特性的膜对每种典型OMP的模型预测截留率,即MWCO为200、300或400Da,zeta电位为-50、0或10mV,接触角为50至55°。对于所有19种典型的OMP,截留分子量为200Da的膜可以实现超过90%的截留率(咖啡因除外),而截留分子量为300Da的膜截留率仅为80%。在相同的截留分子量下,带负电的膜(-50mV)对带负电的OMP具有更高的截留率,而带正电的膜(10mV)对带正电的OMP表现更好。基于这些结果,可以根据要去除的OMP和所需的去除率来选择或有目的地设计具有适当孔径和Zeta电位的膜。
通过机器学习搜索膜特性的工作流程,适用于不同污染物和去除要求的OMP风险管理。模型能准确响应不同OMP组和去除要求,提供精确的膜特性建议。传统方法仅能提供定性结果,而机器学习框架能准确预测OMP截留率,为膜性质提供定量指导,提高膜选择效率,缩短开发周期。

图7. 具有特定性能的膜对典型OMP的抑制
这项研究基于OMPs去除效率与膜特性和ML捕获的OMPs之间的相关性,提出了一个以OMPs为目标的NF/RO膜优化框架。引入领域专业知识来优化模型特征,并进行数据泄漏管理和随机性评估来增强模型可靠性。这种严格的建模方法有助于构建准确且稳健的XGBoost模型。SHAP和PDP对局部和全局模型的解释表明,ML模型可以很好地识别OMP的关键排斥机制,即尺寸排阻效应和静电相互作用,确保了模型后续应用的可信度。模型对高风险OMP外部数据集的预测能力表明其具有良好的泛化性和处理OMP多样性的敏感性。通过阐明OMP的综合和单独排斥对膜不同特性的依赖性,可以确定与目标OMP和所需去除程度相匹配的理想膜特性。这项工作探讨了机器学习在指导特定去除目标的膜特性选择方面的可行性。所建立的基于机器学习的框架有望成为提高水处理过程中OMP去除膜开发效率的有效工具。建议未来的研究重点通过解决数据模型应用程序工作流程的更多方面来增强和优化这个基于机器学习的框架。这项工作包括建立标准化数据库以确保数据的可靠性和完整性。膜测试实验应更加重视各种水质参数(例如pH),并结合OMP与原水中其他成分(例如无机盐和大分子有机物)之间的相互作用,以更好地模拟真实条件。在建模方面,在清楚理解拒绝机制和不断增加的数据集规模的基础上,拓宽特征选择(包括OMP分子特征和水矩阵)和优化特征工程,将进一步增强ML模型的性能和实用价值。