Py学习  »  机器学习算法

RSE最新成果|中科院曾江源团队构建机器学习 - 插值协同模型:全球卫星土壤湿度缺口填充的新范式

GEE遥感训练营 • 7 月前 • 198 次点击  

论文摘要



卫星反演的土壤湿度(SM)产品经常存在大量数据缺口,这严重限制了它们的实际应用价值,因此需要开发强大的缺口填充技术,以生成具有更高精度和连续时空覆盖范围的SM数据集。现有研究通常依靠单机学习或插值方法来填补区域尺度上的SM缺口。机器学习方法在填补大区域缺失值方面表现出色,但往往会平滑掉重要的局部SM特征,而插值方法在缺失数据较少的区域表现良好,但在存在大量连续缺失数据的区域则表现出显著的不确定性。这两种方法显示出潜在的互补性,可能共同促成一种更强大的缺口填充方法,但目前很少有人对此进行研究。为了填补这一研究空白,我们通过在全球尺度上使用Stacking方法,将机器学习在大规模缺口填充方面的优势与插值方法在局部区域的出色缺口填充性能相结合,建立了一种新颖的SM缺口填充方法。所提出的方法集成了四个基础模型,包括三种机器学习技术,即随机森林(RF)、梯度提升决策树(GBDT)和前馈神经网络(FNN),以及一种插值方法,即自然邻域插值(NNI),并采用最小绝对收缩和选择算子(LASSO)作为元模型。我们比较了Stacking方法和单个方法在填补欧洲航天局气候变化倡议(ESA CCI)缺失SM数据方面的效果,并使用来自全球1086个站点的大量地面SM数据对填补后的SM进行了验证。结果表明:(1)在六种选定的机器学习方法中,RF表现最佳,其在全球尺度上的总体精度高于插值方法。通过SHapley加法解释(SHAP)进行的特征重要性分析表明,ERA5 SM、归一化植被指数(NDVI)和全球干旱指数在RF缺口填充模型中具有较高的重要性;(2)NNI是四种选定插值方法中表现最佳的方法,在原始SM数据相对丰富的局部区域,它的表现优于机器学习方法;(3)Stacking是一种在全球尺度上进行SM缺口填充的有效方法,相对于原始的ESA CCI SM,其平均无偏均方根误差(ubRMSE)为0.017立方米/立方米,均方根误差(RMSE)为0.022立方米/立方米,偏差为0.006立方米/立方米,相关系数(R)为0.87,相对于表现最佳的单个RF方法,它将RMSE降低了0.009立方米/立方米,ubRMSE降低了0.006立方米/立方米,并将R提高了0.15;(4)相对于全球分布的地面SM,填补后的SM显示出比原始ESA CCI SM更高的技能,Stacking的ubRMSE最低,为0.057立方米/立方米,R最高,为0.63。所提出的Stacking方法为填补各种卫星SM数据集的缺口开辟了新途径。


关键图表



图 1.2019 年卫星土壤水分(SM)时间覆盖范围全球分布。(a)欧洲空间局气候变化倡议土壤水分数据集(ESA CCI SM,主动 - 被动遥感联合反演);(b)土壤水分主动被动探测卫星土壤水分数据集(SMAP SM)。

图 2.本研究使用的全球地面土壤水分(SM)站点分布及 6 个测试区域。土地覆盖数据来源于中分辨率成像光谱仪国际地圈 - 生物圈计划分类产品(MODIS IGBP),研究中对水体、城镇建成区、冰雪及永久性湿地类型进行了掩膜处理
图 3.本研究技术流程图。包含三部分:数据准备、传统方法(机器学习与插值方法)、土壤水分(SM)缺口填充堆叠集成法(Stacking)
图 4.堆叠集成法(Stacking)策略示意图。包含 5 折交叉验证(5-fold cross validation)、基础模型与元模型构成及模型测试流程。“T” 代表模型测试阶段中,基础模型在测试集上生成的初步预测结果

图 5.原始欧洲空间局气候变化倡议土壤水分数据集(ESA CCI SM)及随机森林(RF)、最近邻插值(NNI)、堆叠集成法(Stacking)填充后的数据全球分布。单位:立方米 / 立方米(m³/m³)。左列为 2019 年 1 月 1 日数据,右列为 2019 年 6 月 1 日数据。第 1-4 行分别为原始 ESA CCI SM、RF 填充后 ESA CCI SM、NNI 填充后 ESA CCI SM、Stacking 填充后 ESA CCI SM

图 6.2019 年随机森林(RF)与堆叠集成法(Stacking)填充欧洲空间局气候变化倡议土壤水分数据集(ESA CCI SM)的误差指标差异全球分布。(a)无偏均方根误差(ubRMSE,RF - Stacking,单位:m³/m³);(b)均方根误差(RMSE,RF - Stacking,单位:m³/m³);(c)偏差(Bias,|RF| - |Stacking|,单位:m³/m³);(d)决定系数(R,Stacking - RF)。图中箱线图分别代表 RF 与 Stacking 方法的各误差指标分布

图 7.6 个选定区域内原始及不同方法填充后的欧洲空间局气候变化倡议土壤水分数据集(ESA CCI SM)分布。单位:立方米 / 立方米(m³/m³),选定日期为 2019 年 6 月 1 日。土地覆盖图例参考图 2,其中水体、城镇建成区、冰雪及永久性湿地已进行掩膜处理

图 8.6 个选定区域内不同方法填充欧洲空间局气候变化倡议土壤水分数据集(ESA CCI SM)的散点图

图 9.测试区域 1 中最近邻插值(NNI)填充结果及不同缺失条件下缺失数据网格的散点图

图 10.9 个选定土壤水分(SM)观测网络中,地面实测土壤水分、原始欧洲空间局气候变化倡议土壤水分数据集(ESA CCI SM)及堆叠集成法(Stacking)填充后 ESA CCI SM 的时间变化

图 11.堆叠集成法(Stacking)缺口填充模型中元模型套索回归(LASSO)的 SHAP 分析

图 12  堆叠集成法(Stacking)缺口填充模型中基础模型随机森林(RF)的 SHAP 分析
图 13 2019 年随机森林(RF)与堆叠集成法(Stacking)填充土壤水分主动被动探测卫星土壤水分数据集(SMAP SM)的误差指标差异全球分布。(a)无偏均方根误差(ubRMSE,RF - Stacking,单位:m³/m³);(b)均方根误差(RMSE,RF - Stacking,单位:m³/m³);(c)偏差(Bias,|RF| - |Stacking|,单位:m³/m³);(d)决定系数(R,Stacking - RF)。图中箱线图分别代表 RF 与 Stacking 方法的各误差指标分布

版权声明

声明:本推文仅用于学习交流,不做其他任何目的。若有侵权,请联系微信号:GeeStudy_2020删除或修改!论文doi链接:https://doi.org/10.1016/j.rse.2025.115040,点赞、收藏、关注!后台回复:GEE遥感训练营251002,免费获取原文。

更多阅读



RSE最新成果|南京大学杨琳团队突破场景和传感器变异性的限制,无监督域自适应新框架实现农田精准分割

2025-10-01

RSE最新成果|香港大学黄波团队将哨兵-1和哨兵-2数据与扩散模型融合,去云效能大提升

2025-09-30

RSE最新成果|北京大学郭庆华团队基于近景激光雷达数据绘制中国首张树冠基部高度地图

2025-09-29

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/187499