VQA技术如何演进突破?
第一代:简单特征拼接(2015-2017)
把图片特征和文字特征直接"拼"在一起,只能简单融合,无法处理多步推理。
图片处理:图片 → CNN → 全局特征向量 [2048维]问题处理:文本 → 词嵌入 → LSTM → 问题特征向量 [512维]特征融合:方法1:简单拼接 [图片特征 + 问题特征] → [2560维]方法2:元素相乘 图片特征 ⊙ 问题特征 → [2048维]答案预测:融合特征 → 全连接层 → Softmax → 答案概率分布
第二代:注意力机制登场(2017-2019)
让AI能够"专注"于图片的相关区域,能定位问题相关的视觉区域,显著提升复杂问题准确率,具有一定程度的可解释性。
问题:"这个人穿什么颜色的衣服?"Step 1:问题编码"穿什么颜色衣服" → LSTM → 问题表示 qStep 2:图像区域特征图片 → 目标检测器 → 候选区域特征 {v1, v2, ..., vn}Step 3:注意力计算for each 区域 vi: 注意力分数 = 计算(q, vi) Step 4:加权融合attended_feature = Σ(注意力分数[i] × vi)
第三代:Transformer统一建模(2019-至今)
将视觉和语言统一为序列建模问题
Step 1:统一Token化处理图片处理:输入图片 → 切分patch → 线性投影 → 图像tokens[img_token1, img_token2, ..., img_token196]问题处理:输入文本 → 分词 → 词嵌入 → 文本tokens [这个, 人, 穿, 什么, 颜色, 的, 衣服, ?]Step 2:序列拼接[CLS] + 图像tokens + [SEP] + 文本tokens + [SEP]Step 3:三分支Transformer处理- Object-Relationship Encoder:处理图像目标和关系- Language Encoder:处理文本序列- Cross-Modality Encoder:跨模态交互Step 4:交互机制- Self-Attention:模态内部信息整合- Cross-Attention:模态间信息交换- 多层堆叠:逐步深化理解
什么是视觉常识推理(Visual Commonsense Reasoning,VCR)?
VCR不仅要求AI回答问题,更要求AI能够解释为什么这样回答,展现出类似人类的推理过程。
(1)VQA任务:只要答案对就行
输入:图片 + 问题输出:答案评估:答案正确性示例:图片:一个人拿着雨伞问题:这个人手里拿着什么?答案:雨伞
(2)VCR任务:答案对了还要解释为什么
输入:图片 + 问题 输出:答案 + 推理解释评估:答案正确性 + 推理合理性示例:图片:一个人拿着雨伞,地面湿润问题:为什么这个人拿着雨伞?答案:因为在下雨解释:可以看到地面是湿的,而且天空灰暗,这些都表明正在下雨,所以这个人拿雨伞是为了避免被雨淋湿。
VCR的三个递进任务是什么?
任务1:Q→A(问题到答案)
给定:图片 + 问题要求:从4个选项中选择正确答案图片:办公室场景,一个人在电脑前打哈欠问题:这个人为什么打哈欠?选项:A. 因为很困B. 因为很饿 C. 因为在表演D. 因为在运动正确答案:A
任务2:QA→R(问题+答案到推理)
给定:图片 + 问题 + 正确答案要求:从4个解释中选择最合理的承接上例,给定正确答案A后:问题:为什么选择"因为很困"?解释选项:R1. 可以看出他在办公室环境中,时间应该是工作时间, 打哈欠通常表示困倦,可能是睡眠不足导致的。R2. 他看起来很放松,应该是在休息。R3. 办公室的灯光很亮,会让人感到困倦。R4. 打哈欠是因为空气不好。正确解释:R1
任务3:Q→AR(问题到答案和推理)
端到端任务:给定:图片 + 问题要求:同时预测答案和解释,两者都必须正确这是最困难的任务,因为需要:- 正确理解图像内容- 准确回答问题- 生成合理的解释- 保证答案和解释的一致性
VCR需要构建多步推理链、运用常识知识并生成可解释答案,核心挑战是让机器推理过程符合人类逻辑。主流解决方案是基于知识图谱的增强推理。
外部知识集成:ConceptNet:概念关系图谱"疲惫" → "打哈欠" → "需要休息"知识检索:给定图像和问题 → 提取关键概念 → 检索相关知识"办公室" + "打哈欠" → 检索工作相关的疲惫知识知识融合:视觉推理 + 知识推理 → 综合判断图像证据:观察到打哈欠动作知识证据:工作时间打哈欠通常因为困倦结合推理:因为工作疲劳所以打哈欠
一文搞懂基于知识图谱的多模态推理
多模态推理代表了AI从简单的"看图识物"向复杂的"看图思考"的关键跃升。VQA让AI学会了准确回答图像相关问题,而VCR更进一步要求AI提供推理解释,真正模拟人类的思维过程。
从早期的特征拼接到注意力机制,再到Transformer统一建模,技术演进的每一步都在缩小AI与人类认知能力的差距。
当前基于知识图谱的增强推理方案虽然取得了显著进展,但要实现真正的机器常识推理,仍需要在多步推理链构建、大规模常识知识获取和可解释性生成等方面持续突破。未来的多模态AI将不仅能看懂世界,更能像人类一样理解和解释世界。
日拱一卒,让大脑不断构建深度学习和大模型的神经网络连接。