【论文阅读笔记】【Referring & Grounding】 Ferret: Refer and Ground Anything Anywhere at Any Granularity

发布时间 2023-10-27 15:39:41作者: PanSTARRS

读论文思考的问题

  1. 论文试图解决什么问题?

    • referring 和 grounding 是图片空间信息理解的两大方面,而以往的模型通常只关注于其中的一个方面

    • 能否根据人类理解图片的能力,将 referring 和 grounding 的能力统一到一个模型中?

      • 如何联合这两个任务?它们能相互促进吗?

      • 如何统一多种区域表示的方式(点、box、scribble、任意形状)而不过度损失空间信息?

      • 如何使得这两种能力具有 open-vocabulary、instruction-following、robust等性质?

    • 能否将这两种能力融入到日常对话中,以自然语言的形式让模型处理这两种任务?

  2. 文章提出了什么样的解决方法?

    • 提出了 hybrid region representation 用于表示不同的区域输入格式(点、box、任意形状)

    • 使用一个sampler,根据区域的 mask 随机均匀采样一些点,聚合再映射成一个连续的特征,作为区域特征的一种(连续的)综合表示,送入到大语言模型中

    • 大语言模型接收的输入包括:图像特征、离散化的坐标、文本特征、采样的连续坐标

  3. 你觉得解决方法的关键之处在哪里?

    • 通过 sampler 的形式很好地对任意的区域中的图像特征进行了综合,对形状进行了较好的表示
  4. 这个解决方法的局限性在哪里?有没有更好的解决方法?

  5. 文章是通过设计什么样的实验来支撑其解决方法的有效性的?(你说有效就有效吗,我不信)这些实验你觉得有效吗?

问题

  1. point sampler 提出的 3 个步骤都是必备的吗?有没有消融实验看看效果?