
第一作者:张超
通讯作者:吴丰昌,黄明智,陈振国
通讯单位:华南师范大学,中国环境科学研究院
文章链接:https://doi.org/10.1021/acs.est.4c14425
近日,中国环境科学研究院吴丰昌院士与华南师范大学黄明智团队合作,在环境科学领域期刊Environmental Science & Technology杂志上发表了一篇题为“卫星遥感通过(可解释)机器学习对河流到海洋连续体中新污染物指纹的非靶向筛查:溶解有机物的关键中介作用”的研究论文。该研究将多光谱遥感技术与机器学习模型结合,利用卫星遥感数据以溶解有机物DOM作为中介变量,构建了河流到海洋连续体中新污染物非靶向筛查的预测模型,并通过可解释机器学习SHAP与双重因果推断模型探究了卫星遥感波段对新污染物非靶向预测的具体贡献。
近年来,个人护理品、农药和抗生素等新污染物(Emerging Contaminants, ECs)正通过河流汇入海洋,威胁生态系统和人类健康。即便是痕量ECs
也可能导致激素干扰、生殖障碍和慢性毒性风险。然而,由于其浓度低、成分复杂,现有技术在大尺度水体中的识别与追踪仍面临巨大挑战。非靶向高分辨质谱虽可全面检测未知污染物,但采样与实验过程耗时耗力,难以广泛部署。本研究提出一种创新思路:以可通过遥感监测的溶解性有机物(DOM)为中介,构建遥感影像—DOM—ECs的桥梁,实现对新污染物的“遥感非靶向筛查”。DOM作为水环境中最丰富的有机碳组分,其光学特性可在卫星图像中显著反映。非靶向筛查中的新污染物是自然水体中DOM的重要组成部分,使DOM成为新污染物输运的“化学指纹”。我们基于珠江-南海这一典型河海连续体,构建了DOM光谱与遥感数据之间的映射关系,进而利用机器学习实现自然水体中新污染物的非靶向筛查。本研究整合了Landsat-8与Sentinel-2卫星影像、污染物的质谱数据、8种机器学习算法,并引入SHAP可解释机制与双重因果学习(DML)方法,揭示遥感波段与污染过程之间的因果联系。此外,我们开发了一个在线智能遥感系统,实现污染物筛查、可视化与政策建议一体化。该研究为大尺度、非接触、智能化水环境监测提供了新范式。
应用UPLC-HRMS非靶向筛查数据显示,在珠江—南海河流到海洋的连续水体中,共检测到14,199个化学特征,结合内部与在线数据库(MassBank和Norman)确认794种新污染物(ECs)。这些ECs主要包括药物、杀虫剂、工业材料、个人护理品及食品添加剂等,污染物种类和丰度在三大支流汇合处的珠三角河网区达到最高值(3661种),随后沿下游至海洋逐步递减。在置信度最高的92种EC中,农药类占比最大,平均浓度达到304 ng/L,其中新烟碱类杀虫剂如噻虫嗪、噻虫胺和吡虫啉占比显著,反映出其在农业活动中的广泛使用与环境残留风险。药物类污染物中,尼古丁浓度高达65 ng/L,来源与烟草消费密切相关,而抗生素类如磺胺甲噁唑、磺胺喹啉等的检出提示可能的生态抗药性风险。此外,咖啡因浓度亦高(56 ng/L),凸显生活消费品在水体污染中的重要贡献。总体来看,城市生活污水、农业面源排放及工业输入共同驱动了区域内ECs的高负荷积累,并通过水文过程向下游扩散,揭示出人为活动与水体污染之间密切的空间关联。

图1. 非靶向筛选水平定量结果
本研究提出通过引入DOM作为中介变量,弥合卫星遥感光谱与水体中ECs丰度之间的预测差距,从而提升ECs非靶向筛查的精度。由于ECs在天然水体中的浓度极低(ng/L级),直接利用卫星影像进行预测存在显著难度。相比之下,DOM在河流至海洋的连续体中广泛分布,且其光谱特征中包含部分ECs的光学指纹信息。基于此,研究采用Landsat-8与Sentinel-2卫星影像,结合实测DOM光谱及UPLC-HRMS的非靶向筛查数据,构建了以DOM为桥梁的机器学习预测框架。采用3种机器学习方法(SVM、XGBoost、GPR)与5种深度学习算法(Informer、TCN、Transformer、CNN、LSTM)进行比较,结果显示以DOM为中介变量的预测模型显著优于直接预测模型,其中Informer算法表现最佳,R²值达到0.957。与不使用DOM相比,深度学习预测精度提升2.59至7.08倍,机器学习方法提升1.15至5.71倍。该方法有效整合遥感数据、DOM信息与化学丰度特征,为实现高效、低成本的新污染物监测提供了新思路,并展示了DOM在污染物遥感预测中不可忽视的关键作用。

图2.模型预测结果与预测框架图
进一步运用可解释机器学习方法(因果推断与SHAP)分析18个卫星遥感波段对ECs非靶向预测的具体贡献。结果表明,短波红外(SWIR)波段,尤其是S2-B11,在农药、药品、兽药和食品添加剂等EC类别的预测中具有显著增强作用。S2-B11具备良好的穿透雾霾和云层能力,同时对DOM和EC中芳香结构具有较强响应,适合水体成分探测。而S2-B12则普遍表现为负向影响,推测原因包括其信噪比低、穿透能力差、对水体成分反映不明显及其与S2-B11之间存在多重共线性。相较之下,蓝带(Lat-B2)与绿带(Lat-B3)也表现出较强的正向作用,有助于检测悬浮颗粒与富含疏水结构的DOM/EC吸附分布。此外,SHAP分析揭示,不同波段反射率对EC预测效果存在类别差异:反射率增强有利于农药和食品添加剂的检测,而对药品、兽药和个人护理产品预测精度构成干扰。其机制可能与不同EC分子中极性/非极性官能团比例有关——极性官能团(如羧基、羟基等)易吸收SWIR波段光,反射率低且易受噪声影响;非极性基团则倾向反射,提升模型信噪比与判别能力。上述分析明确了波段选择对EC预测的关键性,为未来遥感光谱变量的筛选与建模提供了理论依据。

图3. 基于双机器学习因果推理和 SHAP 算法的可解释机器学习分析对卫星遥感波段对非靶向 EC 筛选效果贡献的影响
借助 Landsat 8 与 Sentinel-2 提供的高光谱数据及高精度模型(R² > 95%),本研究实现了对研究区内5类主要新污染物(ECs)在30 m 分辨率下的空间与季节异质性测绘。结果显示,河网区农药为最主要的 ECs,夏季浓度最高可达 1778 ng/L,尤其集中于位于河流中游的农业区。尽管冬季浓度有所下降(最低199 ng/L),但在年均两至三季种植的亚热带背景下,农药残留水平仍显著超出水生生物的急慢性毒性阈值(分别为 200 和 35 ng/L)。此外,由于农药亦在城市地区广泛用于绿化与宠物驱虫,其空间分布差异较小。污染主力为新烟碱类农药(如吡虫啉、啶虫脒、噻虫胺),具高度水溶性与生物活性,不仅对水生态系统构成长期威胁,还因水处理难度大而潜在危及人类健康,包括肝致癌、神经毒性和生殖系统损伤等。遥感监测结果与区域土地利用及污染源分布高度一致,验证了遥感+机器学习在非靶向污染物识别与区域风险预警中的应用潜力。

图4.河流网络区域中5 个主要 EC 类别的丰度的空间和时间异质性
最后,为了提高本研究开发的模型的可访问性,基于Python Flask框架、HTML和 MySQL数据库(http://argic.vip.cpolar.cn)创建了 ECs 非靶向筛查智能遥感在线实时监测系统。该系统具有2个主要功能:(1)该系统包含一个交互式遥感地图,可显示和管理各种 ECs 监测点的污染状态;(2)它集成了GPT等大型语言模型的能力,提供 AI 驱动的ECs污染解释和政策建议的交互,允许用户通过自然语言与系统就非靶向ECs筛查问题进行互动,从而提高信息检索的便利性和交互性。当用户点击特定的监测点时,系统会检索并呈现存储在MySQL数据库中的EC的最新处理的遥感反演数据,从而促进有效的环境监测。
这项研究强调了卫星遥感和机器学习在高精度非靶向筛选新污染物(ECs)方面的潜力,通过使用溶解有机物DOM作为中介变量,将卫星光谱与河海连续体中的ECs连接起来,从而使这种方法成为可能。未来的研究可以进一步优化这种方法并将其扩展到其他流域和生态系统,并通过系统整合流域特定的DOM光学特性和水文连通性指标,特别是研究气候驱动的径流制度如何改变异质土地利用镶嵌中机器学习识别的污染物-DOM协同作用,优先考虑不同流域类型(例如,冰川补给与城市河口)之间的比较验证。此外,本研究强调了加强ECs管理和控制的必要性,强调了实时监测和分析的重要性,以更好地了解ECs的来源和途径,并最终为更有效的环境保护政策和措施提供信息。