最新综述 | 北航新作: 首篇遥感时空视觉语言模型综述, 附Github资源合集

RS DL

论文介绍

题目：Remote Sensing Spatio-Temporal Vision-Language Models: A Comprehensive Survey

论文：https://arxiv.org/abs/2412.02573

Github仓库：https://github.com/Chen-Yang-Liu/Awesome-RS-SpatioTemporal-VLMs

年份：2025

单位：北京航空航天大学，内蒙古大学
注: 本篇由论文原作者审阅

介绍

文章首先介绍遥感多时相图像解译的重要性，指出传统的二值或语义变化检测难以提供人类可读的语义信息。文章指出遥感时空视觉语言模型（RS-STVLMs）通过融合图像与语言，实现对变化的语义解释与互动问答，为遥感时空理解开辟了新路径。

文章章节

1. Introduction
引言

2. Evolution of Spatio-Temporal Vision-Language Models
时空视觉语言模型的发展

3. Key Technologies in Spatio-Temporal Vision-Language Models
时空视觉语言模型的关键技术

4. Large Language Models Meet Temporal Images
大语言模型与时序图像的融合

5. Evaluation Metrics and Datasets
评估指标与数据集

6. Future Prospects and Discussion
未来展望与讨论

7. Conclusion
结论

时空视觉语言模型的发展

1 从视觉变化检测到时空视觉语言理解（From Visual Change Detection to Spatio-Temporal Vision-Language Understanding）

(1) 遥感变化检测（Remote Sensing Change Detection）

最早的变化检测方法为二值变化检测，只能判断像素是否发生变化，但无法提供“变化了什么”。
后来出现语义变化检测，可以识别变化区域的具体类别（如“树林变为建筑”），实现初步的语义理解。
技术演进方面：

传统方法：如变化向量分析（CVA）、主成分分析（PCA）和多元变化检测（MAD）；
CNN方法：通过Siamese结构提取双时相图像特征，加入注意力和多尺度机制增强识别；
Transformer方法：利用自注意力机制建模长距离依赖，提升全局变化建模能力；
Mamba方法：采用线性状态空间建模，具备全局感受野且计算效率高，是最新趋势。

(2) 遥感时空视觉语言任务（Remote Sensing Spatio-Temporal Vision-Language Tasks）

本节正式引入遥感视觉语言融合任务，并对多个子任务进行定义与区分。
主要任务包括：

变化描述（Change Captioning）：输入多时相图像，输出一句自然语言描述变化；
联合学习（Change Detection + Captioning）：模型同时输出变化掩膜与文本说明，实现低层检测+高层语义的结合；
变化问答（Change Question Answering） ：用户提出问题（如“建筑是否变化？”），模型给出自然语言回答；
文本驱动图像检索（Text-driven Temporal Image Retrieval）：根据描述文字从大规模遥感图像库中检索匹配的变化图像对；
变化定位（Change Grounding）：根据用户指令在图像中定位出特定变化区域（输出框或掩膜）；
其他任务：包括文本驱动的遥感图像生成、时序表达识别等新兴前沿任务。

2 遥感时空视觉语言模型方法（Remote Sensing Spatio-Temporal Vision-Language Models）

(1）变化描述（Change Captioning）

该任务是最早受到关注的RS-STVLM任务，核心目标是用自然语言解释时空图像中发生的变化。
主流架构包括三个阶段：

视觉编码：用Siamese结构或Vision Transformer对图像进行特征提取；
时空融合：使用注意力、多尺度融合等技术集成时序特征，压制伪变化；
语言生成：使用RNN、Transformer、GPT、Mamba等生成描述文字。

近年来一些新趋势：

使用LLM生成器（如PromptCC）；
解耦是否变化与变化内容；
引入扩散模型、Mamba结构以提升效率与质量。

(2) 变化检测与描述的多任务学习（Multi-task Learning of Change Detection and Change Captioning）

将变化掩膜预测与语言描述统一在同一模型中，提高效率并相互促进。
代表性方法如Change-Agent，采用共享编码器+双分支结构。
关键挑战在于：如何平衡两个任务的训练，常用策略包括动态损失加权、梯度自适应等。
也有部分研究提出“反向优化”，即利用检测结果辅助描述精度，提升对小目标或暗光条件下的表现。

（3）变化问答（Change Question Answering）

模型输入为图像序列与文本问题，输出为自然语言回答。
通常包括四个阶段：

图像编码；
问题编码；
多模态交互（常用注意力机制）；
答案生成（分类或逐词生成）。

主流方法分为两类：

候选选择型：从预设答案中选择，效率高但灵活性差；
生成型：逐词输出答案，更灵活但对模型能力要求更高。

新趋势是融合大语言模型（如CDChat、ChangeChat）提升交互和生成能力。

(4）文本驱动的时序图像检索（Text-driven Temporal Image Retrieval）

输入为一段描述某类变化的文字，输出为最相关的图像对（如“房屋被淹没”对应洪水前后图像）。
实现方式通常为：图文特征投影到同一多模态空间，使用对比学习进行相似度优化。
面临挑战如“假负样本干扰”，一些研究提出False Negative Elimination等机制加以解决。

(5) 变化定位（Change Grounding）

给定语言指令，模型输出空间位置（如掩膜或框）定位出所指变化区域。
方法通常结合LLM与视觉特征，对时序图像进行联合编码，并生成空间输出。
掩膜输出更精细，框输出更直观，典型模型包括VisTA、RSUniVLM等。

（6）其他任务：文本驱动图像生成与时序表达定位（Others: Generation & Temporal Referring）

文本驱动图像生成：用户输入“森林逐渐变为城市”，模型生成一系列遥感图像；
时序表达定位：判断描述中“某个变化”发生在哪一时相的图像中；
这些新任务尚处于探索阶段，但展示出RS-STVLM的巨大潜力。

时空视觉语言模型的关键技术

本章系统总结了构建遥感时空视觉语言模型（RS-STVLMs）中涉及的关键技术模块，横跨图像编码、时空融合、语言建模、模态交互与语言生成，是支撑多任务实现的核心技术框架。

1 模型基础构建块（Fundamental Building Blocks）

构建STVLMs常用的三种模型架构

LSTM（长短期记忆网络）

适合捕捉局部时序关系，计算简单，但对长时序建模能力弱；

Transformer

具有全局注意力机制，擅长建模长距离依赖，是当前主流选择；

Mamba

一种线性状态空间模型（SSM），结合了效率与建模能力，在大规模图文任务中展现良好性能。

2 关键模块拆解（Key Modules of RS-STVLMs）

(1) 图像时序编码（Temporal Image Encoding）

目标是提取图像对或图像序列的表征。

方法包括：

CNN提取器：如ResNet、UNet、Siamese结构；
Transformer结构：如Vision Transformer、Swin Transformer；
时序编码器：引入3D CNN、时空Transformer、ConvLSTM等建模序列动态；
预训练视觉编码器：如CLIP、DINO、SAM可迁移至遥感场景。

一些方法还通过多尺度设计、残差连接增强特征感知能力。

(2) 时空特征融合（Spatio-Temporal Feature Fusion）

关键在于如何将不同时间点的图像特征有效对齐与组合，建模变化。

主要策略包括：

简单连接/相减操作：如Concat或Diff特征；
差异增强机制：如Difference-Aware Attention、Motion-Aware Module；
多尺度融合：如跨时间层级的特征拼接；
显著性建模：挖掘突变区域以增强语义表示；
跨模态对比学习：加强对有意义变化的判别能力。

(3) 语言编码（Language Encoding）

目标是将文本输入编码为可用于交互的语言特征。

常用语言模型包括：

BERT类模型：如BERT、RoBERTa，结构双向；
生成式模型：如T5（编码器-解码器）、GPT（解码器）；
跨模态模型：如CLIP文本分支；

当前趋势是借助开源LLM（如LLaMA、ChatGLM）直接处理多样化文本指令。

(4) 图文交互机制（Vision-Language Interaction）

该模块是模型“融合语言与视觉”的关键。

技术路径大致分为：

早期融合（Early Fusion）：视觉和语言在输入前或初期融合，简单直接；
晚期融合（Late Fusion）：各自提取后独立处理，再进行浅层融合；
中间融合（Deep Fusion）：常用多模态注意力机制，如Cross-Attention、多层Transformer等；

更复杂的方法如VL-Transformer、多头互注意力等，已成为主流架构；

新兴趋势也引入了 Prompt融合（如PromptCC）和 Adapter注入机制，提升参数效率与任务迁移能力。

(5) 语言生成模块（Language Generation）

用于生成描述、回答等自然语言输出，是最终呈现模型“理解能力”的关键。

主要方法包括：

RNN系列：如LSTM、GRU，结构简单但生成质量一般；
Transformer解码器：如T5、GPT，可实现高质量文本生成；
Mamba结构：结合了高效建模与流畅生成；
扩散模型（Diffusion）：逐步生成句子，表现稳定；
大语言模型（LLM）：如ChatGPT、LLaMA用于开放式问答和解释生成。

语言模型与时序遥感图像的结合

本章探讨了如何将大语言模型（LLMs）与遥感图像，尤其是多时相图像结合，推动遥感视觉语言模型能力升级。内容主要围绕模型发展、调优技术、任务适配、基础模型构建与智能体应用等展开。

1 大语言模型的演化（The Evolution of Large Language Models）

回顾LLM的发展历程，从早期的BERT、T5等编码器/编码器-解码器模型，发展到GPT系列、LLaMA、ChatGLM、Gemini、Claude等新一代解码器类大模型；
强调LLMs拥有强大的语言理解与生成能力，是实现遥感图文交互、多任务指令执行的重要基础。

2 高效的参数调优技术（Efficient Parameter Tuning Methods）

为应对LLM参数庞大、训练成本高的问题，介绍了一些轻量化的微调技术：

Prompt Tuning / Prompt Learning：只调整输入提示词，主模型参数保持不变；
Adapter / Prefix Tuning：插入小模块，冻结主模型，仅微调部分参数；
LoRA（Low-Rank Adaptation）：通过低秩矩阵重构权重变化，兼顾精度与效率；

这些技术为RS-STVLMs迁移到特定任务提供了可行途径。

3 大语言模型驱动的任务特定模型（LLM-driven Task-Specific Models）

本节介绍如何使用LLM构建特定任务的遥感模型，典型例子包括：

PromptCC：利用prompt将图像特征转化为语言提示，指导LLM生成变化描述；
Semantic-CC：通过语义标签增强生成内容的细粒度；
KCFI：引入知识增强的变化解释模块；
ChangeChat / CDChat：结合对话式LLM与变化检测模块，实现交互问答；

这些方法通过“视觉+语言+指令”融合，实现了从描述到问答的语义推理升级。

4 统一的遥感时空视觉语言基础模型（Unified Foundation Models for RS-STVLMs）

统一的时空视觉语言基础模型（Unified Spatio-Temporal Vision-Language Foundation Models）旨在用一个模型同时处理遥感中的多种任务，如变化检测、描述、问答和定位，文章介绍了数据的统一表征和代表性方法。

其特点包括：

图像编码器 + 大语言模型联合构建；
自然语言指令驱动，输出格式统一为文本；
无需多个任务模型，提升泛化能力和实际适应性。

代表模型有：TEOChat、RSUniVLM、EarthDial、RingMoGPT等。

5 LLM驱动的遥感智能体（LLM-powered Spatio-temporal Agents for Remote Sensing）

探索遥感领域的“多模态智能体”构建，模型可以“听懂人话、看懂图像、给出解释或行动”；

代表性项目：

RS-Agent：结合图像分析与语言规划，支持连续对话与操作反馈；
GeoTool-GPT：将LLM与遥感工具接口连接，实现数据检索、变化标注、图像绘制等复杂操作；

这些智能体实现从“图像理解”向“智能遥感助手”演进，为未来遥感自动化分析和决策提供了新范式。

评估指标与数据集

1 多任务评估指标（Evaluation Metrics for Multi-tasks）

为支持RS-STVLMs涵盖的多种任务，本节根据不同任务类型，列出了相应的常用评估指标：

1）语言生成指标（Language Generation Metrics）

适用于模型生成文本（如图像描述或问答）时的质量评估，衡量生成文本与人工参考的相似性，注重精确性、召回率及语义一致性。

BLEU：衡量生成文本与参考文本之间的n-gram重合程度，常用BLEU-4，强调精确度并惩罚过短的输出。
ROUGE：注重召回率，衡量参考文本被覆盖的程度，ROUGE-N关注n-gram，ROUGE-L注重句子结构相似性。
METEOR：结合词根、同义词对齐及词序惩罚，适合评估语义准确但语法多变的生成结果。
CIDEr：根据n-gram的权重评估生成文本与参考之间的语义一致性，更加重视少见但重要的表达。
$S^*_m$ 复合指标，综合BLEU-4、ROUGE-L、METEOR 和 CIDEr 的得分，从多个角度评估文本生成的整体质量。

2）检索指标（Retrieve Metrics）

用于评估模型根据文本检索图像或根据图像检索文本的能力，重点考察排序结果的相关性与覆盖度。

Recall@K：衡量前K个结果中被正确检索到的相关项比例，是对检索全面性的评估。
Precision@K：衡量前K个检索结果中真正相关项所占比例，侧重检索结果的准确性。
Mean Recall：在多个K值下的平均召回率，用于提供更全面的检索性能评估。

3）空间定位指标（Localization Metrics）

用于模型输出空间区域（如边框或掩膜）时的评估，主要关注预测区域与真实区域的空间重合程度。

MIoU：衡量所有样本中预测区域与真实区域的平均重叠度，值越高表示定位越准确。
CIoU：在多个重叠阈值下评估模型性能，适用于目标位置偏差较大或多个目标重叠的复杂情况。

2 遥感时空图文任务数据集（RS-STVLM Datasets）

本节概述了用于 RS-STVLMs 研究的代表性多时相图像数据集，包括其来源、内容和任务支持情况：

1）图像与文本配对（Temporal Images + Text）

这类数据集配对时间序列图像和变化描述，支持描述生成和检索。

DUBAI CCD：500对Landsat图像，2,500条简短描述，关注迪拜城市扩张。
LEVIR CCD：500对高分图像，每对5条描述，句子更长更细致。
LEVIR-CC：大规模数据集，10,077对图像，5条描述/对，强调显著变化。

2) 图像、文本与掩膜配对（Temporal Images + Text + Mask）

提供描述和像素级掩膜，支持多任务建模。

LEVIR-MCI：在LEVIR-CC上加入建筑和道路掩膜，适合联合学习。
LEVIR-CDC：仅含建筑掩膜，掩膜来源与LEVIR-CD相似。
WHU-CDC：记录地震后城市变化，覆盖多类地物变化。
SECOND-CC：提供变化前后的语义掩膜，强化语义对齐。

3）图像、指令与响应配对（Temporal Images + Instruction + Response）

支持指令理解和多模态响应，适用于问答和定位任务。

CDVQA：基于SECOND生成12万问答对，涵盖变化类型和范围。
ChangeChat-87k：基于LEVIR-MCI，ChatGPT辅助生成多类型指令响应对。
QAG-360K：6,800多组图像，平均每组53条问答+掩膜。
GeoLLaVA：GPT生成10万组变化描述，来源于fMoW图像。
TEOChatlas：超50万组样本，支持多时相、多任务推理。
EarthDial / UniRS / Falcon-SFT：百万级样本，用于大模型训练。

3 基准性能比较（Benchmark Comparison）

本节汇总了主流模型在多个任务与数据集上的表现，用于横向比较不同方法的优劣

未来展望与讨论

构建高质量数据集

需大规模、覆盖多地理与时间尺度的数据集，提升语言与图像对齐质量。

多模态融合

融合光学、SAR、高光谱等多源遥感数据，增强场景理解能力。

时空泛化与变长推理

模型需具备适应多分辨率、任意时长图像序列的能力。

通用推理模型

构建具备推理能力、适用于多任务多模态的统一模型。

超大图像的细粒度理解

发展可处理超大图像且保持全局-局部兼顾的模型架构。

文本驱动的影像生成

探索文本指导的遥感时序影像合成，丰富训练样本与表达能力。

更多图表分析可见原文