【论文阅读笔记】【多模态-Referring & Grounding】 Grounded Language-Image Pre-training

发布时间 2023-12-06 20:13:14作者: PanSTARRS

GLIP
CVPR 2022 (Oral, Best Paper Finalist)

读论文思考的问题

  1. 论文试图解决什么问题?写作背景是什么?

    问题:

    • 如何将视觉-语言预训练技术应用在以目标检测为代表的 fine-grained image understanding 上面?

    • 如何在增加训练数据的同时,使目标检测模型具有良好的语义理解能力,能够预测多样的目标,并且有一定的 domain transfer 能力?

    背景:

    • 以往的视觉理解(如目标检测)模型针对图片输入,只能预测一个固定集合中的各个目标类别的概率

    • CLIP 通过 image-text alignment 的方式,能提取包含丰富语义信息的图像特征,但这种特征是全图描述的特征,对于 object-level 的 image understanding 任务来说远远不够

    • fine-grained image understanding 需要提取图片的 object-level 的视觉特征

  2. 文章提出了什么样的解决方法?

    • 使用 phrase grounding 作为模型的预训练任务,即将描述图片的文本中的短语和图片中目标的区域进行对应;将目标检测看作是一种无上下文的 phrase grounding 任务,对应输入文本是通过间隔符分隔的各个类组成的长”句子”

    • 用2个编码器,提取文本短语和图片中不同区域的特征,通过点积计算出两种特征之间对应的alignment score(类似 CLIP 的做法),从而实现以对齐为目标的优化

  3. 你觉得解决方法的关键之处在哪里?

    • 将 object detection 看作是一种 phrase grounding 问题,使得检测器能够同时使用 detection 和 grounding 的数据来进行训练,且通过 teacher GLIP 可以生成大量的 grounding 数据,提升模型能力
  4. 这个解决方法的局限性在哪里?有没有更好的解决方法?

  5. 文章是通过设计什么样的实验来支撑其解决方法的有效性的?这些实验你觉得有效吗?

    实验:

    1. COCO, LVIS 上的 zero-shot 和 few-shot 迁移性能

    2. Flickr30K 上的 grounding 性能

    3. 不同的预训练数据对模型迁移性能的影响

    4. Object Detection in the Wild 实验:数据高效性和 prompt tuning 实验

要点

  1. 两个任务的统一:object detection 可以看作是无上下文的 phase grounding,phase grounding 可以看作是有上下文语义的 object detection 任务

  2. object detection as phrase grounding: Prompt = “Detect: person, bicycle, car, ... , toothbrush”

  3. 提出使用 cross attn 来进行两种模态信息之间的 deep fusion,做更好的特征融合

  4. 针对 GLIP 提出了两种 prompt tuning 方式:人工设计 prompt 以及只对 language model 编码出的特征进行 fine-tune

问题

  1. 之前的固定集合的分类是否能看作是一种 soft 的 visual-language alignment?

  2. region-word alignment score 的 gt 是怎么得到的呢?