社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

TGRS顶刊高引|空天院洪丹枫团队发布ExViT:一种用于土地利用与覆被变化的多模态深度学习框架

GEE遥感训练营 • 2 月前 • 110 次点击  

01

论文标题

Yao J, Zhang B, Li C, et al. Extended vision transformer (ExViT) for land use and land cover classification: A multimodal deep learning framework[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1-15.

02

论文摘要


近年来,以Vision Transformer(ViT)为代表的注意力机制驱动的深度模型取得了显著成功,激发了一系列前沿研究,探索其在更广泛领域中的适应性。然而,当前遥感(RS)领域中的Transformer相关方法主要聚焦于单模态数据,这在利用日益丰富的多模态地球观测数据时可能存在扩展性不足的问题。为此,本文提出了一种新颖的多模态深度学习框架,在仅对传统ViT进行最小修改的基础上,将其扩展应用于土地利用/土地覆盖(LULC)分类任务。 与常见的线性Patch投影或深度区域嵌入器方法不同,我们的方法通过位置共享的ViT并行分支结构对多模态遥感图像Patch进行处理,并结合可分离卷积模块,从而以较低的计算开销同时提取空间信息和模态特有的通道信息。为了进一步促进异构模态之间的信息交互,我们设计了一个跨模态注意力(CMA)模块,通过挖掘遥感场景中像素级的空间相关性,对各模态的Token嵌入进行融合。这些设计显著增强了各模态中分类Token的判别能力,最终通过基于Token的决策级融合模块实现更优的分类性能。 我们在两个多模态遥感基准数据集上进行了大量实验:Houston2013(包含高光谱HS和激光雷达LiDAR数据)与Berlin(包含HS与合成孔径雷达SAR数据)。实验结果表明,我们提出的扩展型视觉Transformer(ExViT)在性能上超越了现有的基于Transformer或卷积神经网络(CNN)骨干的竞争方法,以及若干具有代表性的传统机器学习模型。本文的源代码及相关数据集将公开发布于:https://github.com/jingyao16/ExViT。

03

关键图表


图 1. 展示本方法利用多模态遥感影像输入实现土地利用与土地覆盖(LULC)类别精细化制图的优越分类性能示例。(a)与(b)分别为含云高光谱影像与激光雷达(LiDAR)数字表面模型(DSM)的假彩色显示。(c)–(g)为现有代表性多模态分类方法(即CoSpace [15]、CCR-Net [16]及遥感Transformer方法[17]、[18])的分类制图结果。然而,由于这些方法在云层或阴影干扰下对多模态互补关联的挖掘不足,其地物完整性难以有效保持。通过对比(h)中本文提出的ExViT结果,可观察到该问题的显著改善。

图 2. 展示基于ViT的代表性模型与本文所提ExViT的网络连接差异,表明ExViT具有优异的模态无关扩展性且对训练数据量的需求更低。

图3. 本文提出的ExViT方法示意性工作流程,主要由三个核心模块构成:可分离卷积模块、跨模态注意力(CMA)模块及分类令牌融合模块。

图 4. 本文提出的跨模态注意力(CMA)模块,采用早、中、晚三阶段注意力融合策略。

图 5. 实验所用的三种公开多模态遥感数据集。a)Houston2013数据集;(b)Berlin数据集;(c)Augsburg数据集。
图 6. 基于Houston2013高光谱-LiDAR多模态数据的对比方法LULC分类制图结果。
图 7. 基于Berlin高光谱-SAR多模态数据的对比方法LULC分类制图结果。
图 8. 基于Augsburg高光谱-SAR-LiDAR多模态数据的对比方法LULC分类制图结果。
图 9. 消融实验结果:不同影像块尺寸下总体精度(OA)与单轮训练时长的对比。
图 10. 消融实验结果:不同训练集规模下总体精度(OA)的对比。

04

更多阅读


李德仁、李德毅、李德群院士三兄弟,拒绝高薪,毅然归国

2025-03-24

 

ESSD顶刊2025|河海大学陈跃红副教授发表中国第七次人口普查100米网格化人口数据集(免费下载)

2025-03-23

 

RSE顶刊2025 | 西澳大利亚大学创新突破:OmniCloudMask深度学习模型实现通用卫星影像云与云阴影精确识别

2025-03-23

 


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/180385
 
110 次点击