社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Git

CVPR2025 | 用CLIP解决小样本学习中的Logits混淆问题,准确率提升3.6%!

龙哥读论文 • 1 周前 • 45 次点击  
CLIP(Contrastive Language-Image Pretraining)作为视觉-语言模型的代表,通过大规模图像-文本对比学习成功将图像和文本映射到共同的嵌入空间,在零样本学习(Zero-Shot Learning, ZSL)任务中表现出色。然而,当CLIP应用于小样本学习(Few-Shot Learning, FSL)时,其预测的logits存在严重的类间混淆(Inter-class Confusion)问题,导致分类准确率下降。😏

图1:(a) CLIP零样本学习中的logits类间混淆现象;(b) 去除类间混淆后的logits;(c) 本文提出的Logits DeConfusion方法建模并消除类间混淆

西安电子科技大学的研究团队提出了Logits DeConfusion(LDC)方法,通过多级适配器融合模块(MAF)类间去混淆模块(ICD)的联合设计,有效缓解了CLIP在小样本学习中的类间混淆问题。该方法不仅保留了CLIP丰富的特征表达能力,还显著提升了分类性能。


从零样本学习到小样本学习:CLIP的应用与挑战

CLIP通过对比学习在大规模图像-文本对上预训练,而非直接优化分类边界,这使得其在零样本学习中表现出色。然而,当应用于小样本学习时,由于下游数据与预训练数据的领域差异,以及类别间相似性较高的情况,CLIP的logits会出现明显的类间混淆现象。

类间混淆的表现:不同类别的预测值难以准确区分,特别是在类别相似度较高时更为明显。

主要原因:CLIP的预训练策略未直接优化分类边界,导致在分类任务中区分能力不足。


Logits DeConfusion方法:如何消除类间混淆?

LDC方法的核心思想是通过可学习模块建模并消除logits中的类间混淆。具体来说,该方法假设logits中的类间混淆可以表示为一个额外的噪声项Δs:

公式:干净的logits等于原始logits减去噪声项

其中噪声项Δs通过一个可学习模块EΔ从零样本logits和图像特征中学习得到。

图2:LDC方法的整体架构,包含四个主要模块:ZS-CLIP、ICD、MAF和ALF

ICD模块:通过残差结构学习和消除类间混淆模式,同时引入增强特征作为先验指导。

ALF模块:自适应地融合ICD logits和MAF logits,生成更鲁棒和准确的最终logits。


多级适配器融合模块(MAF)的技术解析

MAF模块旨在充分利用CLIP图像编码器不同层次特征的多样性,通过转换和融合不同层次的特征,构建统一的特征表示。MAF包含多个侧边适配器、融合机制和投影器。

图3:MAF模块细节,左侧是图像编码器EI

特征提取:从图像编码器EI获取四个不同层次的特征f1i,f2i,f3i和f4i。

特征转换:通过不同的适配器将这四个特征转换为新的特征z1i,z2i,z3i和z4i。

特征融合:通过融合机制将这些特征融合为一个融合特征ẑei,最终通过冻结的投影器得到增强特征zei。

图4:融合机制细节

MAF提出了两种不同的融合机制:加权融合(WF)和可学习融合(LF)。实验表明,加权融合(β1=0.1,β2=0.2,β3=0.3,β4=0.4)取得了最佳效果。


类间去混淆模块(ICD)的核心思想

ICD模块的设计灵感来源于一个简单但深刻的观察:CLIP的logits混淆本质上是可预测的噪声。就像老式电视机信号干扰有特定模式,不同类别间的混淆也存在固定规律。😮

残差去噪结构:ICD将原始logits看作"干净信号+噪声"的组合:

公式:干净logits = 原始logits - 噪声项

其中Δs就是需要学习的类间混淆噪声。这个设计妙在:即使噪声预测有偏差,残差结构也能保证结果不会比原始logits更差。

双路信息融合:ICD不是闭着眼睛猜噪声,而是同时分析两类线索:

1. logits自身模式:通过Adapter分析原始logits的分布规律

2. 视觉特征引导:用MAF提取的增强特征作为先验知识

最终三个Adapter的输出通过残差连接实现噪声消除:

公式:噪声项计算过程


实验结果:显著提升分类性能的验证


在11个主流数据集上的测试表明,LDC方法在小样本场景全面碾压现有方案。当每类只有16个样本时:
表2:11个数据集上不同方法的比较结果
LDC以79.78%的平均准确率刷新纪录,比第二名Tip-Adapter-F高出3.6个百分点。更惊人的是在StanfordCars细粒度分类数据集上,相对优势达5.2%!🚗
图5:不同方法在11个数据集上的分类性能

模块贡献度解剖:消融实验揭示核心组件的价值:

表4:各模块在11个数据集上的效果分析
仅ICD模块就让ResNet-50 backbone性能飙升19.07%,证明去混淆机制是小样本学习的关键突破点

领域泛化挑战:但在ImageNet-Sketch上的测试暴露了局限:

表3:不同方法在OOD设定下的比较
当测试数据与训练集差异过大时(如素描图像),性能下降1.17%。这说明模型仍过度依赖视觉纹理特征,对结构特征理解不足。🎨

未来展望:Logits DeConfusion的潜在应用与发展方向

这项技术有望在三个领域大放异彩:

医疗影像诊断:针对罕见病的小样本识别,可解决不同病症CT影像的相似性混淆问题

工业质检:适应新产品缺陷样本不足的场景,精准区分表面划痕与材质纹理

跨模态检索:提升图文匹配精度,解决"沙滩与沙漠"等易混淆场景

未来研究可朝三个方向突破:

动态噪声建模:当前混淆模式学习是静态的,可引入时序建模适应数据漂移

多模态增强:融合文本描述信息辅助混淆判断,比如利用"企鹅不会飞"的常识约束

轻量化部署:将适配器参数量压缩90%+,适配移动端设备


龙迷三问

下面是龙哥对于大家可能的一些问题的解答:

为什么传统方法解决不了类间混淆?CLIP的对比学习预训练没有显式优化分类边界,就像用渔网捞鱼,类别间隙处的"漏网之鱼"特别多。本文首次提出将混淆建模为可学习的噪声模式。

残差结构有什么妙处?即使噪声预测不准,最差情况也只是Δs=0,结果退回原始logits,相当于内置了性能保障机制,避免越优化越差的风险。

实际部署需要多少资源?在NVIDIA GTX 4090D上训练16-shot任务仅需37分钟,推理阶段增加的MAF和ICD模块计算量不足CLIP主干的3%,适合实时应用。

如果你还有哪些想要了解的,欢迎在评论区留言或者讨论~

龙哥点评

论文创新性分数:★★★★☆

首次将logits混淆建模为可学习噪声,残差设计体现工程智慧

实验合理度:★★★★★

11个数据集+OOD测试,消融实验完整覆盖所有模块

学术研究价值:★★★★☆

开辟CLIP微调新方向,启发性大于实用性

稳定性:★★★☆☆

在领域差异大的场景波动明显,需结合领域自适应技术

适应性及泛化能力:★★★★☆

在细粒度分类场景表现突出,但艺术类数据较弱

硬件需求及成本:★★★★★

仅增加0.3M参数,推理速度媲美原版CLIP

复现难度:★★★★★

代码已开源,提供完整训练脚本和预训练模型

可能的问题:未探索混淆模式的可解释性,论文中混淆矩阵可视化不足,难以分析哪些类别容易相互混淆


主要参考文献

[1] Radford A, et al. Learning transferable visual models from natural language supervision. ICML 2021.
[2] Zhang R, et al. Tipadapter: Training-free adaption of clip for few-shot classification. ECCV 2022.
[3] Zhou K, et al. Learning to prompt for vision-language models. IJCV 2022.
[4] Wu G, et al. Feature adaptation with clip for few-shot classification. ACM MM Asia 2023.
恭喜你!你又跟着龙哥读完了一篇人工智能领域的前沿论文,棒棒哒!
zhen bu cuo 1.gif
*本文仅代表个人理解及观点。想了解更多原文细节的小伙伴,可以点击左下角的"阅读原文"查看更多原论文细节哦!
end
龙哥带你飞,论文轻松读!如果觉得对你有帮助,请积极关注、推荐(点小心心)或者转发哦~ helper_wechat
更多算法或者行业讨论,欢迎加入龙哥读论文粉丝群,扫描上方二维码,或者添加龙哥助手微信号加群:kangjinlonghelper, 一定要备注:研究方向+地点+学校/公司+昵称(如 图像处理+上海+清华+龙哥),根据格式备注,可更快被通过通过且邀请进群: 1478篇去噪、调光、大语言模型等前沿论文原文免费送!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/182790
 
45 次点击