Py学习  »  机器学习算法

北京师范大学WRR: 基于多尺度深度学习建模与人为相似性的调控流域径流预测

生态遥感前沿 • 5 月前 • 170 次点击  

点击上方蓝色字关注我们~


图片

径流预测对人类生存、生态系统平衡及水资源管理至关重要,但人类活动(如修建水坝、水库)显著改变了全球三分之二河流的自然水文过程。传统水文模型在人类调节流域表现不佳,而深度学习(DL)方法(如长短期记忆网络LSTM)在自然流域已展现优势。然而,DL模型在人类活动主导的大型流域(如黄河流域)的应用仍存在挑战:

  • 数据局限性:传统流域属性无法充分表征人类干扰(如水库调节、取用水);

  • 模型适应性:混合模型(如可微分参数学习DPL)在强人类干扰下的性能未经验证;

  • 动态影响:人类活动随时间演变(如黄河流域2000年后干预加剧),需评估模型对训练数据时段和人类活动动态的敏感性。

本研究创新性地提出一种静态属性集合——将河段属性与流域属性相结合的多尺度属性体系。该属性集被整合至两种深度学习(DL)方法中:长短期记忆网络(命名为多尺度LSTM)和可微参数学习(DPL)模型,并在美国95个人类调控流域及中国黄河流域24个流域进行性能评估。在美国,多尺度LSTM与DPL模型表现相当,其中位数Kling-Gupta效率系数(KGE)分别为0.78和0.71;而在黄河流域,二者KGE值分别为0.58和0.24。这些结果表明,相较于传统流域属性,深度学习模型能通过利用多尺度属性显著提升预测性能。

数据与方法

1. 研究区域与数据

区域

黄河流域(24个子流域,面积2,450–747,000 km²,含3,000+水库);

美国CAMELS数据集(95个受调节流域,河流连通性指数CSI < 95%)。

图1:研究区域与站点分布

数据

气象数据:ERA5-Land降水和温度(11 km分辨率);

径流数据:黄河流域(1980–2014年)、CAMELS(1980–2014年);

多尺度属性

流域属性:地形、气候、土壤、植被(如降水季节性、森林覆盖率);

河流属性:连通性指数(CSI)、调节程度(DOR)、河宽(SWORD数据库)、水坝数量(GeoDAR数据集)。

2. 模型与方法

图2:LSTM与DPL模型架构

LSTM模型

输入:365天动态气象序列 + 多尺度静态属性;

结构:2层LSTM(隐藏层128单元),损失函数为NSE。

DPL模型

基于物理的混合模型(HBV水文模型 + 神经网络参数化);

损失函数为RMSE。

实验设计

多尺度属性影响:对比4种输入场景(无属性、仅流域属性、仅河流属性、多尺度属性);

人类活动动态影响

分时段训练(黄河流域:低干扰期1980–2000年 vs. 高干扰期2001–2014年);

评估训练数据长度(1–10年)和时段对模型性能的影响。

评估指标:Kling-Gupta效率系数(KGE)。

结果

1. 多尺度属性显著提升模型性能

LSTM优势突出

黄河流域:多尺度LSTM中位KGE=0.58,显著高于DPL(0.24);

美国CAMELS:多尺度LSTM中位KGE=0.78,DPL为0.71。

河流属性关键作用

河流属性(CSI、DOR、河宽)对模型性能贡献最大(黄河流域LSTM的KGE与CSI正相关,与DOR/水坝数量负相关);

卫星属性(河宽、水面高程)有效表征人类活动影响。

图3:多尺度属性对模型性能影响(箱线图)

图4:LSTM与DPL性能空间差异

图5:黄河流域各站点模型性能

图6:典型站点径流模拟对比

2. 训练数据时段主导模型表现

时段敏感性

使用包含低干扰与高干扰时段的训练数据(如黄河流域1986–2009年),模型性能最佳;

仅用单一时段训练时,KGE下降最高达40%。

数据长度影响

LSTM:训练数据≥4年时KGE > 0.4,且随数据量增加稳步提升;

DPL:在高干扰期性能随数据量增加无改善(KGE < 0.4)。

图7:黄河流域径流趋势演变

图8:训练数据长度的影响

图9:人类活动强度对模型差异的影响

3. 人类活动强度削弱DPL适应性

DPL局限性

水库数量> 40时,DPL性能显著下降(KGE < 0.3),因物理机制难以捕捉强人类干扰;

在黄河流域中下游(水坝密集区),DPL严重低估洪峰和基流(图6)。

LSTM鲁棒性

即使水坝数量> 120(黄河流域),多尺度LSTM仍保持KGE > 0.58。

图12:水坝数量与模型性能关系

讨论

1. 多尺度属性的创新价值

解决表征瓶颈传统流域属性忽略河流形态与人类基础设施,而多尺度属性(如SWORD河宽、CSI)弥补此缺陷,提升模型对复杂水文过程的捕捉能力。

混合模型的潜力DPL在美国CAMELS流域表现接近LSTM,表明物理约束在轻度干扰区有效,但在强人类干扰下仍需数据驱动主导。

2. 模型选择与训练策略

LSTM普适性:通过记忆门控机制学习长时序依赖,适应水库调节导致的径流不规则性;

关键训练原则

需覆盖人类活动演变全过程(低/高干扰期);

训练数据不足时,优先扩展时间覆盖而非空间范围。

3. 不确定性与未来方向

不确定性来源(图13):

输入数据质量(如黄河流域1998–2002年缺失);

人类活动动态(如水库调度规则未量化);

气候变率影响。

未来改进

融合动态遥感数据(如SWOT卫星实时河宽、水位);

探索自然与人类调节流域的联合训练框架;

发展可解释AI技术解析模型决策机制。

图13:人类调节流域的不确定性框架

结论

1 多尺度属性(流域+河流属性)是提升人类调节流域径流预测的关键,其中河流属性(如连通性CSI、调节程度DOR、卫星河宽)贡献最显著。

2 LSTM模型在强人类干扰下(如黄河流域)显著优于DPL,因后者难以适应水库密集区的复杂水文动态。

3 训练数据时段选择是主导模型性能的核心因素:需涵盖人类活动演变全阶段(低/高干扰期),且数据长度≥4年可保障LSTM稳定性。

4 实际应用建议:在高度人工化流域优先采用多尺度LSTM,并整合动态遥感数据;DPL适用于轻度干扰区,但需谨慎评估其物理机制局限性。


原文链接:https://doi.org/10.1029/2023WR036853


水文学者QQ交流群:462466939,欢迎学者加入!
本平台转载仅仅是出于学术交流和传播信息的需要,并不意味着代表本平台观点或证实其内容的真实性;转载文章版权归原作者所有,作者如果不希望被转载或有侵权行为,请联系本平台删除。
--理解有限,更多详情请点击阅读原文,进入文章主页。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/183402