Py学习  »  机器学习算法

太全了!多模态深度学习的大热门idea!

AI算法科研paper • 2 月前 • 90 次点击  

未来AI发展的必然趋势是什么?必然是多模态深度学习。它不仅是当前人工智能领域的热门研究方向之一,也是学术界和工业界共同关注的重点,值得长期投入。

当然,这方向仍存在大量开放性问题,但对论文er来说也意味着更多的创新空间,推荐还没有idea的同学尝试。目前多模态深度学可考虑的热点研究方向有4个:多模态大模型(比如最近爆火的DeepSeek-R1的多模态版Align-Anything)、跨模态生成、低资源多模态学习、多模态因果推理

为方便大家研究的进行,我这边整理好了98篇多模态深度学习最新论文,每个方向都有参考(附代码),不想多花时间找论文的同学可以直接拿~

扫码添加小享,回复“多模态深度”  

免费获取全部论文+代码合集

图片

多模态大模型:

如GPT-4V、LLaVA等结合语言模型与视觉理解的系统。

Reconstructive Visual Instruction Tuning

ICLR 2025

方法:论文介绍了一种多模态大模型的训练方法,名为ROSS,通过视觉中心重构目标对视觉输出进行监督,解决了视觉信号空间冗余问题,并采用去噪目标增强了模型的细粒度理解能力和减少幻觉现象,显著提升了视觉编码器和语言模型的性能。

创新点:

  • ROSS通过视觉中心的重构目标来监督视觉输出,区别于传统的仅监督文本输出的方法。
  • 为解决自然图像视觉信号的空间冗余问题,ROSS引入了一种去噪目标,重构输入图像的潜在表示,避免直接回归原始RGB值。
  • 通过设计内在的视觉重构监督,ROSS在使用单一视觉编码器(例如SigLIP)时,仍能保留输入图像的每个细节。

跨模态生成:

文本生成图像(Stable Diffusion)、视频生成文本描述等。

Cross-Modal Contextualized Diffusion Models for Text-Guided Visual Generation and Editing

ICLR 2024

方法:本文提出了一种新颖且通用的条件扩散模型(CONTEXTDIFF),通过在扩散和逆过程的所有时间步中传播跨模态上下文来适应其轨迹,以增强模型的跨模态合成能力。这种方法在文本到图像和文本到视频的任务中都取得了更好的效果。

创新点:

  • 提出了一种新颖的上下文化扩散模型 (CONTEXTDIFF),首次将跨模态上下文(文本条件与视觉样本之间的交互和对齐)引入到正向和反向扩散过程中。
  • 设计了一个上下文感知轨迹适配器,将其应用于扩散过程的所有时间步,并将其推广到DDPMs和DDIMs。

扫码添加小享,回复“多模态深度”  

免费获取全部论文+代码合集

图片

低资源多模态学习:

少样本/零样本跨模态迁移。

Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning

NeurIPS24

方法:论文提出了一种名为多模态任务向量(MTV)的方法,通过将大量多模态示例压缩到模型的注意力头中,形成紧凑的隐式表示,从而突破模型上下文长度的限制,实现多示例(Many-Shot)的多模态上下文学习。

创新点:

  • 提出了多模态任务向量(MTV),这是一种紧凑的隐式表示法,可以在模型的注意力头中压缩和编码多模态的上下文学习示例。
  • 创新性地将平均激活值的计算与注意力头位置的提取解耦开来。
  • 提出了一种新的MTV提取方法,不需要对大模型进行微调,仅通过推理调用即可实现。

多模态因果推理:

结合因果推断提升模型鲁棒性。

Mitigating modality prior-induced hallucinations in multimodal large language models via deciphering attention causality

ICLR 2025

方法:论文提出了一种名为CAUSALMM的结构因果模型框架,通过在多模态大语言模型中的视觉和语言注意力层应用反事实推理和后门调整,以减轻模态先验的负面影响,从而改进模型输出与输入的对齐,显著提高了模型在多个基准测试中的表现。

创新点:

  • 提出了一个名为CAUSALMM的结构因果模型,用于多模态大型语言模型(MLLMs)。
  • 通过使用反事实推理和后门调整,CAUSALMM在视觉和语言注意力两个层面进行干预,从而有效减轻模态先验对模型性能的负面影响。

扫码添加小享, 回复“多模态深度”  

免费获取全部论文+代码合集

图片

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/178881
 
90 次点击