使用监督机器学习方法直接和间接模拟和预测水文干旱

题目：Direct and Indirect Simulating and Projecting Hydrological Drought Using A Supervised Machine Learning Method

期刊：Science of the Total Environment

01 研究背景

水文研究领域中使用人工智能方法作为模拟工具已成主流趋势，如河流流量模拟、干旱预测和作物产量模拟。近期研究表明，人工神经网络（ANN）、支持向量机（SVM）、随机森林（RF）和分类回归树（CART）等监督方法在干旱模拟中得到了广泛运用，并在不同研究中均得到了可靠结果。而在基于人工智能的建模方法中，选择预测器（作为输入）起着至关重要的作用。气象干旱指标在使用基于人工智能的模型时对水文干旱模拟有重要影响。一种是根据输入直接计算以模拟干旱指标，另一种间接模拟方法，则基于人工智能模型模拟的径流来计算。然而，直接方法和间接方法的结果优劣性则是悬而未决的问题。

对此，Eini等人（2023）利用人工神经网络（ANN），选择最高和最低温度、降水和气象干旱指标（标准化降水指数，SPI）作为预报因子，通过直接方法和间接方法对标准化径流指数（SRI）进行模拟和预测，以评估两种方法预测结果的优劣。本研究主要考虑了三个科学问题：（1）人工神经网络在径流和干旱模拟中是否具有更高的精度？（2）气象干旱指标（即SPI）是否可以作为径流和水文干旱的预报因子？（3）在相同的预报因子下，直接方法和间接方法在估计水文干旱指标时差异大不大？

02 研究数据与方法

2.1 研究区域和数据

奥德拉河流域（ORB）位于波罗的海地区（分别位于波兰（89%）、德国（4.9%）和捷克共和国（6.1%），年平均河流流量154mm（567m³/s），常年平均降水量约650mm。ORB流域大部分横跨中欧平原，只有最南部是山区（图1）。其上游是一条狭窄的多山河流，在其下游（瓦尔塔河出口）流域较为平坦，坡度在0.05m/km和0.001m/km之间变化。研究地区和中欧在2015年夏季经历了严重干旱。

使用的气象数据为区域网格天气数据集（波兰领土与维斯图拉和奥德拉盆地联合的网格每日2公里气候数据集，G2DC-PL+：https://opendap.4tu.nl/thredds/catalog/data2/uuid/e939aec0-bdd1-440f-bd1e-c49ff10d0a07/catalog.html）2000-2019年的日降水量以及日最高和最低温度，使用的河流流量数据来自气象和水管理研究所（IMGW-PIB：https://danepubliczne.imgw.pl/）。依据年河道流量选择了四个河流排放站，这些河流排放站可以被认为是主要的河流排放站。河流年平均排水量在61m³/s（米多尼亚-拉西布尔兹排放站）和472m³/s（戈兹多伊斯排放站）之间变化。

图1 中欧奥德拉河流域的位置、选定的排放站和流域及其河网。

2.2 标准化干旱指标SPI和SRI

SPI作为短期和长期气象干旱的指标，可以增加模拟河流流量和水文干旱的数据驱动模型的可靠性。本研究选择SPI-1到SPI-12作为影响数据驱动模型模拟水文干旱的输入参数，并同时考虑降水和温度的影响，以评估SRI-3（短期干旱）、SRI-6（中期干旱）、SRI-9（中期干旱）和SRI-12（长期干旱）。对于未来水文干旱指标，首先利用历史时间序列拟合伽马分布（SPI和SRI的参考期分别为1990-2019年和2000-2019年），然后采用拟合分布进行预测。其次，采用Run理论评估水文干旱特性，包括干旱严重程度、持续时间和频率。

2.3 人工神经网络设计（ANN）

人工神经网络设计（ANN）作为有监督的机器学习模型，被广泛应用于地球过程模拟和预测，其中前馈传播神经网络（FFBPNN）为一种用于输入和输出之间分类、回归和模式编码的稳健算法。在本研究中，我们使用月最低和最高气温、月降水量、SPI-1到SPI-12作为径流（间接方法）和SRI（直接方法）的预测因子。在直接方法中，SRI是由上述预测因子直接模拟和预测的；在间接方法中，利用ANN输出的河流流量计算得到SRI。

2.4 气候变化情景

基于LARS-WG6.0软件中建立的GCM模型，本研究选取4个GCM模型（基于CMIP5），提取高排放情景（RCP8.5）下2021-2060年（2021-2040年为近期，NF；2041-2060年为远期，FF）的降水和温度变化，同时以1990-2019年为基准期，对数据进行了降尺度处理。在选择GCM和确定未来气候情景的过程中，本研究对每个GCM的温度和降水的年平均变化进行了评估，最后根据最大温度增量和最大降水减少量，选择了暖干情景下的GCM。

2.5 绩效指标、工具和工作流

本研究使用KGE（Kling-Gupta效率）、RMSE（均方根误差）、PBIAS（偏差百分比）和R²（决定系数）评估模拟数据集的精度。这些绩效指标的选择没有指导原则，可以根据用户的体验和模拟数据的类型来选择。该研究的工作流程如图2所示。

图2 实现方法的图形示意图（从上往下四个蓝色虚线框分别代表：所用数据和干旱指标类型和尺度、直接模拟过程、间接模拟过程以及不同气候模式下不同情景下的直接和间接模拟过程）。

03 主要发现

3.1 水文干旱的间接模拟

（1）河流流量模拟

利用人工神经网络（ANN）对四个排放站的河流流量进行模拟，可以发现在低地集水区（排放站C）的流量模拟效果很好，特别是在低流量情况下（图3）。对整个盆地（排放站A）的模拟效果也较好，而在山区（排放站D）和半山区（排放站B）流域的模拟效果较差，且这两个流域的低流量被严重低估，以至于模型模拟了几个月的零流量。

图3 根据人工神经网络方法和观测数据模拟的2000-2019年四个排放站（A、B、C、D）流量时间序列变化趋势。

（2）水文干旱间接计算的精度

基于人工神经网络模拟的河流流量计算的SRI值在大多数情况下表现良好，和基于观测数据计算的SRI值一样精度很高。同时，比较基于观测数据、间接方法和直接方法三种方法计算的SRI值分布趋势可以发现，间接方法和直接方法都能很好地捕捉SRI值的分布（图4）。

图4 所有排放站计算和模拟（间接方法和直接方法）得到的SRI3、SRI6、SRI9和SRI12值、平均值及平均值的标准差小提琴曲线分布图。

3.2 水文干旱指标的直接模拟

直接模拟是指从预报器直接模拟不同尺度下的SRI值。研究表明，ANN从预测器直接模拟的SRI值一般。虽然直接模拟和根据观测数据计算SRI的相关性（R²）较好（表1），但就KGE而言，ANN模拟的精度不高。

表1 根据KGE、RMSE和R2评估直接模拟的2000-2019年不同尺度SRI与根据观测数据计算的SRI精度。

3.3 水文干旱特征

采用三种方法（直接模拟、间接模拟和根据观测数据计算）并基于Run理论对四个排放站2000-2019年的严重水文干旱（SRI≤−1）特征进行估计（见原文表8），可以发现基于间接方法计算得到的结果较好，这一结果可能是由于最低流量被低估导致的。总体而言，流域面积越大，发生干旱事件的次数越少、强度越低。

3.4 河流流量和水文干旱的预测

（1）河流流量的间接预测

通过对不同时期情景下训练的人工神经网络在间接方法中使用气候参数预估来预测河流流量（图5），结果表明，ORB的出口（排放站A）在今年第一季度（1-3月，JFM）的河流流量可能会大幅减少，5、6月份的河流流量也可能会减少。而在所有排放站中，大部分月份的近期中度情景预测的河流流量最低，远期中度情景预测的河流流量最高。出水口年平均径流量在484 m³/s（中度FF）和440 m³/s（中度NF）之间变化。

图5 根据历史数据预测的不同情景下排放站A、B、C和D的月流量趋势（FF：远期，NF：近期；暖湿情景、暖干情景及中度情景（介于暖湿和暖干之间））。

（2）水文干旱的间接预测

研究表明，通过间接方法预测水文干旱指标中的最严重事件比根据历史观测数据计算的更显著（图6）。与历史时期相比，未来极端干旱事件次数（单位：月）没有明显变化（不包括排放站D）。在上述3.4的所有情况下，预计干旱严重程度（SRI≤-1的总和）会增加。因此，所有预测结果都表明水文干旱强度会增强。

图6 基于Run理论使用间接方法预测的不同时期排放站A、B、C和D的SRI3、SRI6、SRI9和SRI12评估值（FF：远期，NF：近期），绿色、黄色和红色色阶在预测中依次显示最小值到最高值。

（3）水文干旱的直接预测

基于Run理论，依据直接方法预测的短期干旱指标数值明显较高。与历史时期和间接方法预测结果相比，中度情景下直接方法预测得到的SRI3和SRI6值更大、干旱持续时间更长且干旱强度更大（图7）。因此，更干燥和更温暖的气候变化情景不一定能表明未来会出现更严重的干旱。

图7 基于Run理论使用直接方法预测的不同时期排放站A、B、C和D的SRI3、SRI6、SRI9和SRI12评估值（FF：远期，NF：近期），绿色、黄色和红色色标在预测中依次显示最小值到最高值。

04 主要结论

（1）人工神经网络在河流流量和水文干旱模拟中表现良好，尤其是在低地径流和水文干旱模拟中的性能明显高于山区集水区。相较于直接方法，间接方法在水文干旱的河流流量模拟中表现更好；

（2）两种方法在对水文干旱的预测上区别很大。与历史时期相比，通过间接方法预测水文干旱指标得到的极端水文干旱事件更强烈，干旱严重程度和干旱强度更大，而中度情景下直接方法预测得到的短期干旱指标值更大、干旱持续时间更长且干旱强度更大；

（3）人工神经网络与基于过程的模型不同，其结果在较低的降水或较高的温度方面不是线性的，反而会导致更严重和长时间的干旱。

05 引发思考

本研究利用人工神经网络（ANN），选择最高和最低温度、降水和气象干旱指标（标准化降水指数（SPI））作为预报因子，对标准化径流指数（SRI）进行模拟和预测。评估了直接方法（直接模拟和预测SRI）和间接方法（模拟和预测河流流量，然后计算SRI）的模拟结果，对比发现2000-2019年间在奥德拉河流域四个排污站的SRI模拟中，间接方法比直接方法表现得更好。然而，人工神经网络在其他气候区域的方法适用性还需要进一步调查和分析。

其次，本研究只使用最高和最低温度以及降水作为气候预测因子，在未来的研究中还可以使用气候参数（如太阳辐射、湿度和风速）、遥感干旱因子和潜在蒸散发（PET）作为预测因子，以获得更可靠的模型。

编者注

以上总结仅代表个人对论文的理解，仅供研究参考所用，不用于商业用途。若上述理解内容有误，请以论文原文为主。

原文出处

Eini M R, Najminejad F, Piniewski M. Direct and indirect simulating and projecting hydrological drought using a supervised machine learning method[J]. Science of The Total Environment, 2023: 165523. Doi: https://doi.org/10.1016/j.scitotenv.2023.165523.

文字来源：罗楚玉

图片来源：https://www.sciencedirect.com

编辑：罗楚玉

审核：柳睿涵蒋再明