CVPR2025 | 用CLIP解决小样本学习中的Logits混淆问题，准确率提升3.6%！

CLIP（Contrastive Language-Image Pretraining）作为视觉-语言模型的代表，通过大规模图像-文本对比学习成功将图像和文本映射到共同的嵌入空间，在零样本学习（Zero-Shot Learning, ZSL）任务中表现出色。然而，当CLIP应用于小样本学习（Few-Shot Learning, FSL）时，其预测的logits存在严重的类间混淆（Inter-class Confusion）问题，导致分类准确率下降。😏

图1：(a) CLIP零样本学习中的logits类间混淆现象；(b) 去除类间混淆后的logits；(c) 本文提出的Logits DeConfusion方法建模并消除类间混淆

西安电子科技大学的研究团队提出了Logits DeConfusion（LDC）方法，通过多级适配器融合模块（MAF）和类间去混淆模块（ICD）的联合设计，有效缓解了CLIP在小样本学习中的类间混淆问题。该方法不仅保留了CLIP丰富的特征表达能力，还显著提升了分类性能。

从零样本学习到小样本学习：CLIP的应用与挑战

CLIP通过对比学习在大规模图像-文本对上预训练，而非直接优化分类边界，这使得其在零样本学习中表现出色。然而，当应用于小样本学习时，由于下游数据与预训练数据的领域差异，以及类别间相似性较高的情况，CLIP的logits会出现明显的类间混淆现象。

类间混淆的表现：不同类别的预测值难以准确区分，特别是在类别相似度较高时更为明显。

主要原因：CLIP的预训练策略未直接优化分类边界，导致在分类任务中区分能力不足。

Logits DeConfusion方法：如何消除类间混淆？

LDC方法的核心思想是通过可学习模块建模并消除logits中的类间混淆。具体来说，该方法假设logits中的类间混淆可以表示为一个额外的噪声项Δs：

其中噪声项Δs通过一个可学习模块EΔ从零样本logits和图像特征中学习得到。

图2：LDC方法的整体架构，包含四个主要模块：ZS-CLIP、ICD、MAF和ALF

ICD模块：通过残差结构学习和消除类间混淆模式，同时引入增强特征作为先验指导。

ALF模块：自适应地融合ICD logits和MAF logits，生成更鲁棒和准确的最终logits。

多级适配器融合模块（MAF）的技术解析

MAF模块旨在充分利用CLIP图像编码器不同层次特征的多样性，通过转换和融合不同层次的特征，构建统一的特征表示。MAF包含多个侧边适配器、融合机制和投影器。

特征提取：从图像编码器EI获取四个不同层次的特征f1i,f2i,f3i和f4i。

特征转换：通过不同的适配器将这四个特征转换为新的特征z1i,z2i,z3i和z4i。

特征融合：通过融合机制将这些特征融合为一个融合特征ẑei，最终通过冻结的投影器得到增强特征zei。

MAF提出了两种不同的融合机制：加权融合（WF）和可学习融合（LF）。实验表明，加权融合（β1=0.1,β2=0.2,β3=0.3,β4=0.4）取得了最佳效果。

类间去混淆模块（ICD）的核心思想

ICD模块的设计灵感来源于一个简单但深刻的观察：CLIP的logits混淆本质上是可预测的噪声。就像老式电视机信号干扰有特定模式，不同类别间的混淆也存在固定规律。😮

残差去噪结构：ICD将原始logits看作"干净信号+噪声"的组合：

其中Δs就是需要学习的类间混淆噪声。这个设计妙在：即使噪声预测有偏差，残差结构也能保证结果不会比原始logits更差。

双路信息融合：ICD不是闭着眼睛猜噪声，而是同时分析两类线索：

1. logits自身模式：通过Adapter分析原始logits的分布规律

2. 视觉特征引导：用MAF提取的增强特征作为先验知识

最终三个Adapter的输出通过残差连接实现噪声消除：

实验结果：显著提升分类性能的验证

在11个主流数据集上的测试表明，LDC方法在小样本场景全面碾压现有方案。当每类只有16个样本时：

LDC以79.78%的平均准确率刷新纪录，比第二名Tip-Adapter-F高出3.6个百分点。更惊人的是在StanfordCars细粒度分类数据集上，相对优势达5.2%！🚗

模块贡献度解剖：消融实验揭示核心组件的价值：

仅ICD模块就让ResNet-50 backbone性能飙升19.07%，证明去混淆机制是小样本学习的关键突破点。

领域泛化挑战：但在ImageNet-Sketch上的测试暴露了局限：

当测试数据与训练集差异过大时（如素描图像），性能下降1.17%。这说明模型仍过度依赖视觉纹理特征，对结构特征理解不足。🎨

未来展望：Logits DeConfusion的潜在应用与发展方向

这项技术有望在三个领域大放异彩：

医疗影像诊断：针对罕见病的小样本识别，可解决不同病症CT影像的相似性混淆问题

工业质检：适应新产品缺陷样本不足的场景，精准区分表面划痕与材质纹理

跨模态检索：提升图文匹配精度，解决"沙滩与沙漠"等易混淆场景

未来研究可朝三个方向突破：

动态噪声建模：当前混淆模式学习是静态的，可引入时序建模适应数据漂移

多模态增强：融合文本描述信息辅助混淆判断，比如利用"企鹅不会飞"的常识约束

轻量化部署：将适配器参数量压缩90%+，适配移动端设备

龙迷三问

下面是龙哥对于大家可能的一些问题的解答：

为什么传统方法解决不了类间混淆？CLIP的对比学习预训练没有显式优化分类边界，就像用渔网捞鱼，类别间隙处的"漏网之鱼"特别多。本文首次提出将混淆建模为可学习的噪声模式。

残差结构有什么妙处？即使噪声预测不准，最差情况也只是Δs=0，结果退回原始logits，相当于内置了性能保障机制，避免越优化越差的风险。

实际部署需要多少资源？在NVIDIA GTX 4090D上训练16-shot任务仅需37分钟，推理阶段增加的MAF和ICD模块计算量不足CLIP主干的3%，适合实时应用。

如果你还有哪些想要了解的，欢迎在评论区留言或者讨论~

龙哥点评

论文创新性分数：★★★★☆

首次将logits混淆建模为可学习噪声，残差设计体现工程智慧

实验合理度：★★★★★

11个数据集+OOD测试，消融实验完整覆盖所有模块

学术研究价值：★★★★☆

开辟CLIP微调新方向，启发性大于实用性

稳定性：★★★☆☆

在领域差异大的场景波动明显，需结合领域自适应技术

适应性及泛化能力：★★★★☆

在细粒度分类场景表现突出，但艺术类数据较弱

硬件需求及成本：★★★★★

仅增加0.3M参数，推理速度媲美原版CLIP

复现难度：★★★★★

代码已开源，提供完整训练脚本和预训练模型

可能的问题：未探索混淆模式的可解释性，论文中混淆矩阵可视化不足，难以分析哪些类别容易相互混淆

主要参考文献

[1] Radford A, et al. Learning transferable visual models from natural language supervision. ICML 2021.

[2] Zhang R, et al. Tipadapter: Training-free adaption of clip for few-shot classification. ECCV 2022.

[3] Zhou K, et al. Learning to prompt for vision-language models. IJCV 2022.

[4] Wu G, et al. Feature adaptation with clip for few-shot classification. ACM MM Asia 2023.

恭喜你！你又跟着龙哥读完了一篇人工智能领域的前沿论文，棒棒哒！

*本文仅代表个人理解及观点。想了解更多原文细节的小伙伴，可以点击左下角的"阅读原文"查看更多原论文细节哦！

龙哥带你飞，论文轻松读！如果觉得对你有帮助，请积极关注、推荐（点小心心）或者转发哦~ helper_wechat

更多算法或者行业讨论，欢迎加入龙哥读论文粉丝群，扫描上方二维码，或者添加龙哥助手微信号加群：kangjinlonghelper，一定要备注：研究方向+地点+学校/公司+昵称（如图像处理+上海+清华+龙哥），根据格式备注，可更快被通过通过且邀请进群: 1478篇去噪、调光、大语言模型等前沿论文原文免费送！