Py学习  »  机器学习算法

Water Resources Research:基于机器学习模型可解释性的水文干旱模型性能时空分析

生态遥感前沿 • 2 月前 • 90 次点击  

点击上方蓝色字关注我们~


图片

近年来,机器学习(ML)和深度学习(DL)模型在水文预测中显示出巨大潜力,尤其是LSTM模型在洪水、干旱和流量预测中表现优异。然而,这些模型在干旱条件或低流量时期的性能仍不稳定,且缺乏针对流干旱预测的专门评估。本研究聚焦于USGS开发的区域LSTM流干旱预测模型,旨在回答两个核心问题:(1)模型性能模式是否揭示了LSTM模型中嵌入或缺失的水文机制和流域过程?(2)哪些关键流域属性影响模型性能,能否用于估计未测流域的性能?研究通过结合监督和无监督机器学习方法,增强模型的可解释性,并为改进操作化模型提供依据。

数据与方法

研究使用科罗拉多河流域及周边384个USGS长期流测站的数据,时间跨度为1980-2020年。数据包括静态流域属性(如高程、流量调节度、基流指数等)和动态干旱签名(基于20%分位数的可变阈值流干旱时间序列)。模型性能通过Kling-Gupta效率(KGE)和Cohen's kappa两个指标评估,分别衡量流量百分位预测和干旱事件分类的准确性。方法框架包括三个主要部分:

聚类分析:使用自组织映射(SOM)对静态流域属性进行聚类,以及使用SOMTimeS(针对时间序列的SOM)对干旱签名进行聚类,以识别流域分组与模型性能的关联。

模型性能预测:训练随机森林分类器(称为“空间随机森林”),基于流域属性预测模型性能类别(“高于中位数KGE和kappa”或“低于中位数KGE或kappa”),并使用SHAP值解释关键预测因子。

性能投影:将训练好的随机森林模型应用于3539个未测流域,投影模型性能的可信度。

方法流程图如图3所示,展示了从数据输入到结果解释的完整流程。

研究区域如图1所示,涵盖科罗拉多河流域及周边地区,显示了384个流测站的空间分布和流量调节度。

结 果

3.1 模型性能度量

KGE和Cohen's kappa值在384个测站上计算,中位数分别为0.46和0.24。基于中位数,测站被分为两类:159个测站性能“高于中位数”,225个“低于中位数”。性能分布显示空间异质性,干旱区域和人类活动频繁区域性能较差。

3.2 静态流域属性聚类与模型性能关联

SOM聚类将流域分为7个类型(如表1所示),包括小型森林流域、高海拔雪域、湿润高基流流域、干旱城市流域等。聚类结果显示出明显的地理模式(图4a),且与模型性能密切相关。

性能分析表明(图5):

高性能集群(如集群1、2、5)通常位于高海拔、低流量调节度、自然流主导区域。

低性能集群(如集群3、4、6)与高流量调节度、干旱气候或农业活动相关,其中集群4(干旱城市流域)性能最差。

3.3 干旱签名聚类与模型性能关联

SOMTimeS聚类将干旱签名分为8个集群(图6),反映了不同的季节性模式(如1-6月峰值集群性能较好,而复杂模式集群性能较差)。集群空间分布如图7a所示。

性能比较(图8)显示,集群B、C、F(峰值在1-6月)性能较好,而集群D(高调节度)性能较差。这强调了流量调节和季节性对模型性能的影响。

3.4 空间随机森林模型结果

随机森林分类器的F1分数为0.72,能有效预测性能类别(图9a)。SHAP分析(图9b)显示,流量调节度、水库存储强度、高程和森林覆盖率是关键预测因子,低调节度与高性能正相关。

3.5 未测流域性能投影

模型性能投影到3539个未测流域(图10),显示高性能区域主要分布在上游高海拔多雨区,低性能区域在下游干旱区,不确定区域位于东南部。这为模型应用提供了可靠性指导。

讨 论

结果揭示了多个影响LSTM模型性能的因素:

人类活动:高流量调节度(如水库和农业灌溉)显著降低性能,因为模型输入缺乏动态人类活动数据。

基流和气候:极端基流regime(高或低)和干旱气候区域性能较差,表明模型对地表-地下水相互作用捕捉不足。

数据代表性 :训练数据中某些流域类型(如干旱区)样本不足,导致性能偏差;空间平均化的流域属性可能无法反映异质性。

方法局限性:数据驱动模型的性能可能受训练数据偏差影响,而非纯粹的水文过程,需谨慎解读。

研究还指出,聚类分析从模型输入(静态属性)和目标(干旱签名)两个角度提供了互补见解,增强了可解释性。与现有研究一致,该工作强调了在数据驱动模型中融入物理过程信息的重要性。

结 论

本研究通过时空聚类和机器学习方法,系统评估了USGS LSTM流干旱预测模型的性能。主要贡献包括:

识别了流量调节度、高程、基流贡献和气候等关键影响因素。

证明了模型性能可在未测流域部分估计,为水资源管理提供实用工具。

提出了改进方向,如增加动态人类活动数据、提高数据多样性和空间分辨率。

未来工作可扩展至其他区域或模型,并探索如何将物理机制更直接地整合到数据驱动模型中。该框架为增强水文模型的可解释性和可靠性提供了范例。


原文链接:https://doi.org/10.1029/2024WR039077

水文学者QQ交流2群:831442712,欢迎学者加入!
本平台转载仅仅是出于学术交流和传播信息的需要,并不意味着代表本平台观点或证实其内容的真实性;转载文章版权归原作者所有,作者如果不希望被转载或有侵权行为,请联系本平台删除。
--理解有限,更多详情请点击阅读原文,进入文章页。
--欢迎投稿,接受与本平台相关的文献投稿,请将文献发送至bingxing01@qq.com。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/188806