TGRS顶刊高引|空天院洪丹枫团队发布ExViT：一种用于土地利用与覆被变化的多模态深度学习框架

论文标题

Yao J, Zhang B, Li C, et al. Extended vision transformer (ExViT) for land use and land cover classification: A multimodal deep learning framework[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1-15.

论文摘要

近年来，以Vision Transformer（ViT）为代表的注意力机制驱动的深度模型取得了显著成功，激发了一系列前沿研究，探索其在更广泛领域中的适应性。然而，当前遥感（RS）领域中的Transformer相关方法主要聚焦于单模态数据，这在利用日益丰富的多模态地球观测数据时可能存在扩展性不足的问题。为此，本文提出了一种新颖的多模态深度学习框架，在仅对传统ViT进行最小修改的基础上，将其扩展应用于土地利用/土地覆盖（LULC）分类任务。与常见的线性Patch投影或深度区域嵌入器方法不同，我们的方法通过位置共享的ViT并行分支结构对多模态遥感图像Patch进行处理，并结合可分离卷积模块，从而以较低的计算开销同时提取空间信息和模态特有的通道信息。为了进一步促进异构模态之间的信息交互，我们设计了一个跨模态注意力（CMA）模块，通过挖掘遥感场景中像素级的空间相关性，对各模态的Token嵌入进行融合。这些设计显著增强了各模态中分类Token的判别能力，最终通过基于Token的决策级融合模块实现更优的分类性能。我们在两个多模态遥感基准数据集上进行了大量实验：Houston2013（包含高光谱HS和激光雷达LiDAR数据）与Berlin（包含HS与合成孔径雷达SAR数据）。实验结果表明，我们提出的扩展型视觉Transformer（ExViT）在性能上超越了现有的基于Transformer或卷积神经网络（CNN）骨干的竞争方法，以及若干具有代表性的传统机器学习模型。本文的源代码及相关数据集将公开发布于：https://github.com/jingyao16/ExViT。

关键图表

图 1. 展示本方法利用多模态遥感影像输入实现土地利用与土地覆盖（LULC）类别精细化制图的优越分类性能示例。（a）与（b）分别为含云高光谱影像与激光雷达（LiDAR）数字表面模型（DSM）的假彩色显示。（c）–（g）为现有代表性多模态分类方法（即CoSpace [15]、CCR-Net [16]及遥感Transformer方法[17]、[18]）的分类制图结果。然而，由于这些方法在云层或阴影干扰下对多模态互补关联的挖掘不足，其地物完整性难以有效保持。通过对比（h）中本文提出的ExViT结果，可观察到该问题的显著改善。