Yao J, Zhang B, Li C, et al. Extended vision transformer (ExViT) for land use and land cover classification: A multimodal deep learning framework[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1-15.
近年来,以Vision Transformer(ViT)为代表的注意力机制驱动的深度模型取得了显著成功,激发了一系列前沿研究,探索其在更广泛领域中的适应性。然而,当前遥感(RS)领域中的Transformer相关方法主要聚焦于单模态数据,这在利用日益丰富的多模态地球观测数据时可能存在扩展性不足的问题。为此,本文提出了一种新颖的多模态深度学习框架,在仅对传统ViT进行最小修改的基础上,将其扩展应用于土地利用/土地覆盖(LULC)分类任务。 与常见的线性Patch投影或深度区域嵌入器方法不同,我们的方法通过位置共享的ViT并行分支结构对多模态遥感图像Patch进行处理,并结合可分离卷积模块,从而以较低的计算开销同时提取空间信息和模态特有的通道信息。为了进一步促进异构模态之间的信息交互,我们设计了一个跨模态注意力(CMA)模块,通过挖掘遥感场景中像素级的空间相关性,对各模态的Token嵌入进行融合。这些设计显著增强了各模态中分类Token的判别能力,最终通过基于Token的决策级融合模块实现更优的分类性能。 我们在两个多模态遥感基准数据集上进行了大量实验:Houston2013(包含高光谱HS和激光雷达LiDAR数据)与Berlin(包含HS与合成孔径雷达SAR数据)。实验结果表明,我们提出的扩展型视觉Transformer(ExViT)在性能上超越了现有的基于Transformer或卷积神经网络(CNN)骨干的竞争方法,以及若干具有代表性的传统机器学习模型。本文的源代码及相关数据集将公开发布于:https://github.com/jingyao16/ExViT。图 1. 展示本方法利用多模态遥感影像输入实现土地利用与土地覆盖(LULC)类别精细化制图的优越分类性能示例。(a)与(b)分别为含云高光谱影像与激光雷达(LiDAR)数字表面模型(DSM)的假彩色显示。(c)–(g)为现有代表性多模态分类方法(即CoSpace [15]、CCR-Net [16]及遥感Transformer方法[17]、[18])的分类制图结果。然而,由于这些方法在云层或阴影干扰下对多模态互补关联的挖掘不足,其地物完整性难以有效保持。通过对比(h)中本文提出的ExViT结果,可观察到该问题的显著改善。
图 2. 展示基于ViT的代表性模型与本文所提ExViT的网络连接差异,表明ExViT具有优异的模态无关扩展性且对训练数据量的需求更低。
图3. 本文提出的ExViT方法示意性工作流程,主要由三个核心模块构成:可分离卷积模块、跨模态注意力(CMA)模块及分类令牌融合模块。
图 4. 本文提出的跨模态注意力(CMA)模块,采用早、中、晚三阶段注意力融合策略。
图 5. 实验所用的三种公开多模态遥感数据集。(a)Houston2013数据集;(b)Berlin数据集;(c)Augsburg数据集。图 6. 基于Houston2013高光谱-LiDAR多模态数据的对比方法LULC分类制图结果。
图 7. 基于Berlin高光谱-SAR多模态数据的对比方法LULC分类制图结果。
图 8. 基于Augsburg高光谱-SAR-LiDAR多模态数据的对比方法LULC分类制图结果。
图 9. 消融实验结果:不同影像块尺寸下总体精度(OA)与单轮训练时长的对比。
图 10. 消融实验结果:不同训练集规模下总体精度(OA)的对比。