Py学习  »  机器学习算法

我滴个神嘞!多模态深度学习又冲上一区Top期刊!确定不来了解一下?

学姐带你玩AI • 2 周前 • 64 次点击  

今天跟大家聊聊多模态深度学习这方向,现在它不光学术价值高,工业界需求也很明确,尤其医疗诊断这个关键领域。

比如Nature Communications最近有篇相关应用,能精准区分正常认知、轻度认知障碍、阿尔茨海默病和非阿尔茨海默病痴呆,推荐对这方向感兴趣的朋友阅读。

目前看论文发表情况,多模态深度学习还是比较好出成果的,但简单微调、拼应用肯定不管用了,现在大家都往特定领域定制,或是高效低门槛这些方向发力。

所以我建议大家先从现有优秀工作入手,用我整理好的98篇多模态深度学习论文做复现、确定baseline,以便省出更多精力来快速搞创新。

扫码添加小享,回复“多模态深度”  

免费获取全部论文+代码合集

图片

RECONSTRUCTIVE VISUAL INSTRUCTION TUNING

方法:论文提出重构视觉指令微调(ROSS),在多模态深度学习中,让大型多模态模型通过去噪重构图像潜在表示监督视觉输出,而非仅靠文本,以此提升图像理解、减少幻觉,且单视觉编码器就有好性能。

创新点:

  • 不只监督文本输出,让多模态模型通过重构图像来监督视觉输出,利用图像自身细节。
  • 针对视觉信号冗余,用去噪目标重构图像潜在表示,而非直接回归RGB像素。
  • 无需多个视觉专家提供外部辅助,单视觉编码器就能实现优性能,推理更轻量。

Multi-modal Generation via Cross-Modal In-Context Learning

方法:论文提出MGCC方法,在多模态深度学习中,结合LLM与扩散模型,用跨模态细化模块学图文依赖、上下文目标定位模块生成物体边界框,从复杂多模态提示序列生成精准图像。

创新点:

  • 用跨模态细化模块,在LLM嵌入空间通过交叉注意力学图文依赖,避免生成图像丢失细节。
  • 加上下文目标定位模块,借上下文学习让LLM预测多目标边界框,保证物体数量和序列一致性。
  • 无需大量特殊图文数据和额外资源,仅用图像-标题训练,冻结预训练模型权重,高效实现复杂多模态提示生成。

扫码添加小享,回复“多模态深度”  

免费获取全部论文+代码合集

图片

Towards Multimodal Sentiment Analysis Debiasing via Bias Purification

方法:论文提出MCIS框架,在多模态深度学习中,借因果图识别MSA的标签和上下文偏差,生成两种反事实场景提纯偏差,对比事实与反事实结果消除偏差,让已有MSA模型实现无偏预测。

创新点:

  • 从因果推断角度,拆解多模态情感分析的标签偏差和上下文偏差,用因果图理清变量关系。
  • 设计两种反事实场景:用模态特征均值模拟“无多模态输入”提纯标签偏差,掩盖核心词保留上下文提纯上下文偏差。
  • 用自适应权重对比事实与反事实预测结果,减法消除偏差,且不增参数、适配各类已有模型。

CROSS-MODAL CONTEXTUALIZED DIFFUSION MOD ELS FOR TEXT-GUIDED VISUAL GENERATION AND EDITING

方法: 本文提出了一种多模态深度学习方法,通过将文本与视觉模态之间的交互和对齐作为上下文信息融入扩散模型的正向和逆向过程中,优化了基于文本条件的视觉生成和编辑任务的性能。

创新点:

  • 提出跨模态上下文化扩散模型(CONTEXTDIFF),将文本与视觉模态的交互融入扩散过程,提升语义表达。
  • 将上下文化扩散模型推广到DDPMs和DDIMs,适用于生成和编辑任务。
  • 在文本到图像和视频编辑任务中,实现新的最佳性能,显著提升语义对齐。

扫码添加小享,回复“多模态深度”  

免费获取 全部论文+代码合集

图片

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/188682