【论文阅读笔记】【Referring & Grounding】 Ferret: Refer and Ground Anything Anywhere at Any Granularity-526互联

读论文思考的问题

论文试图解决什么问题？
- referring 和 grounding 是图片空间信息理解的两大方面，而以往的模型通常只关注于其中的一个方面
- 能否根据人类理解图片的能力，将 referring 和 grounding 的能力统一到一个模型中？
  - 如何联合这两个任务？它们能相互促进吗？
  - 如何统一多种区域表示的方式（点、box、scribble、任意形状）而不过度损失空间信息？
  - 如何使得这两种能力具有 open-vocabulary、instruction-following、robust等性质？
- 能否将这两种能力融入到日常对话中，以自然语言的形式让模型处理这两种任务？
文章提出了什么样的解决方法？
- 提出了 hybrid region representation 用于表示不同的区域输入格式（点、box、任意形状）
- 使用一个sampler，根据区域的 mask 随机均匀采样一些点，聚合再映射成一个连续的特征，作为区域特征的一种（连续的）综合表示，送入到大语言模型中
- 大语言模型接收的输入包括：图像特征、离散化的坐标、文本特征、采样的连续坐标
你觉得解决方法的关键之处在哪里？
- 通过 sampler 的形式很好地对任意的区域中的图像特征进行了综合，对形状进行了较好的表示
这个解决方法的局限性在哪里？有没有更好的解决方法？
文章是通过设计什么样的实验来支撑其解决方法的有效性的？（你说有效就有效吗，我不信）这些实验你觉得有效吗？

问题

point sampler 提出的 3 个步骤都是必备的吗？有没有消融实验看看效果？

granularity referring grounding anything

grounding_dino seg_anything grounding anything

category-consistent multi-granularity classification

multi-granularity granularity cdeepfuzz deepgauge