在数据收集过程中,作者仔细选择提示,并使用能够获取到的最佳模型Qwen2-VL-72b。在训练这个性能卓越的模型时,作者做了大量工作来防止幻觉的产生。然而,数据集中不可避免地会存在一些噪声。因此,作者引入了一些后处理步骤来清理数据集:第一,作者发现,尽管提示描述模型不要描述想象的内容,但模型仍然倾向于输出这类内容,不过会带有一些明显的词,如“indicating”“suggesting”“possibly”。作者直接删除带有推测性词汇的子句。第二,作者还设计了规则来过滤掉无意义的描述,例如“In the image, a man a man a man...(repeating)”或“Sorry, I can not answer the question.”。第三,为了确保描述丰富详细,对于首次生成的描述少于100个标记的图像,作者使用Qwen2-VL-72b重新生成描述。这种双重检查机制确保了数据集的质量。经过后处理,每个描述平均约有115个单词。图2展示了GroundingCap-1M数据集中的一个示例。更多示例见附录。第5.3节给出了一些定量分析。
在图像级描述生成任务中,语言模型将检测器的特征图作为视觉输入,并输出GroundingCap-1M中注释的相应长详细描述。按照训练大型多模态模型的常见做法,作者以对话格式组织大语言模型的输入数据,包括系统消息、用户输入和答案。用户输入包含检测器的视觉特征和提示,例如“Describe the image in detail”。答案是来自GroundingCap-1M的描述。大语言模型旨在根据用户输入,在标准语言建模损失的监督下输出答案。由于输出的答案包含各种细节和对图像的全面理解,这些视觉线索应该在视觉特征中被建模,以便大语言模型能够最小化训练损失并正确生成描述。
然而,由于大语言模型在图像级描述生成中将整个特征图作为输入,它很难将图像级描述中的实体映射回整幅图像中的特定区域。例如,在图2中,“dishes”只是图像的一小部分,并且图像中有许多类似盘子的物体。因此,作者进一步引入区域级描述生成任务作为补充,为大语言模型将区域与相应单词进行映射提供先验。在这个任务中,作者从检测器中选择正对象查询,即与标签分配中的真实边界框匹配的查询,并使用大语言模型分别为它们生成相应的定位短语,如图4中的“young man”“mother”和“dishes”。与图像级生成类似,大语言模型的输入也以对话格式进行格式化,但使用不同的提示来区分不同类型的输入,即“Describe the region in a phrase”。由于单个对象查询中的视觉特征有限,作者在大语言模型中为对象查询添加了一些交叉注意力层,以便从检测器的特征图中收集必要的信息。注意,图像级生成中的文本标记和视觉标记不通过这些交叉注意力层,并且这些层是从头开始训练的。通过为对象查询输出相应的短语,大语言模型可以将实体精确地映射到特定区域。