Saputra M R U, Bhaswara I D, Nasution B I, et al. Multi-modal deep learning approaches to semantic segmentation of mining footprints with multispectral satellite imagery[J]. Remote Sensing of Environment, 2025, 318: 114584.

当前,遥感在矿区监测中的应用往往具有较为有限的范围,通常仅针对单一矿区进行多种矿区地表覆盖类型的制图,或在区域尺度上仅提取多个矿区的总体开采范围或单一特征(如尾矿坝)。许多相关研究主要聚焦于特定矿区地表覆盖类型,而未能全面涵盖矿区及其周边的非矿区土地利用特征。本研究首次在全球范围内利用深度学习进行矿区及非矿区地表覆盖的语义分割,涵盖了全球37个矿区,涉及从金矿到煤矿等多种矿产资源,并利用多光谱卫星影像实现矿区自动化制图。由于缺乏专门的训练数据集,我们整合并优化了现有数据集,在边界、形状及类别标签等方面进行了改进,构建了定制化的多光谱数据集,以用于深度学习模型的训练和测试。在模型选择方面,我们训练并测试了多种多模态语义分割模型,主要包括 U-Net、DeepLabV3+、特征金字塔网络(FPN)、SegFormer 以及 IBM-NASA 基础地理空间模型(Prithvi),重点评估不同模型架构、输入波段组合及迁移学习的有效性。在多模态输入方面,我们利用了红(Red)、绿(Green)、蓝(Blue)、近红外(NIR)波段及归一化植被指数(NDVI),以探讨最佳输入组合对语义分割精度的影响。实验结果表明,在不同的模型配置中,FPN 结合 DenseNet-121 主干网络(预训练于 ImageNet),并采用 RGB + NIR 组合进行训练,表现最佳。 此外,我们进一步从 气候分类类别及不同矿产类型 角度对模型性能进行了综合评估。研究结果不仅验证了深度学习在全球矿区语义分割中的潜力,也为后续探索矿产开发、社区发展与生态环境之间的复杂关系奠定了坚实基础。
图 1. 理想化的地表覆盖分类方案及本研究中标注为红色的遥感地表覆盖类别。

图 2. 本研究数据集中矿区分布的全球分布情况。

图3. 多光谱遥感数据示例及其相应的手动修正和重新矢量化的语义分割真值标签,均源自原始数据集。从左到右依次为:RGB 影像、近红外(NIR)影像、原始影像以及我们修订后的标签。

图 4.
深度学习模型训练的完整流程,包括影像获取与预处理、数据增强、训练及测试。RGB 影像上叠加的红色框表示训练和测试阶段生成的影像样本。

图 5. U-Net、FPN、DeepLabV3+、SegFormer 和 Prithvi 的简化模型架构示意图。

图 6. 由 FPN、U-Net 和 DeepLabV3+ 生成的语义分割结果。

图 7. FPN 语义分割结果的混淆矩阵,分别对应 (a) 最高 mIoU(0.961)和 (b) 最低 mIoU(0.274)的矿区。

图 8. 在去除非矿区类别后,FPN 语义分割结果的混淆矩阵,分别对应 (a) 最高 mIoU(0.4427)和 (b) 最低 mIoU(0.0761)的矿区。