Grounding

【论文阅读笔记】【多模态-Referring & Grounding】 Grounded Language-Image Pre-training

GLIP CVPR 2022 (Oral, Best Paper Finalist) 读论文思考的问题论文试图解决什么问题？写作背景是什么？问题：如何将视觉-语言预训练技术应用在以目标检测为代表的 fine-grained image understanding 上面？如何在增加训练数据的同 ......

模态 Language-Image Pre-training Referring Grounding更新时间 2023-12-06

【论文阅读笔记】【Referring & Grounding】 Ferret: Refer and Ground Anything Anywhere at Any Granularity

读论文思考的问题论文试图解决什么问题？ referring 和 grounding 是图片空间信息理解的两大方面，而以往的模型通常只关注于其中的一个方面能否根据人类理解图片的能力，将 referring 和 grounding 的能力统一到一个模型中？如何联合这两个任务？它们能相互促进吗？如 ......

Granularity Referring Grounding Anything Anywhere更新时间 2023-10-27

多模态大模型的grounding能力

数据集 a)QW-VL：Visual Genome, RefCOCO, RefCOCO+, RefCOCOg， b)CogVLM：Visual7W，Flickr30K-Entities c)Kosmos2：GRIT OFA Unifying Architectures, Tasks, and Mod ......

模态 grounding 模型能力更新时间 2023-10-26

Temporally Grounding Natural Sentence in Video

Temporally Grounding Natural Sentence in Video 摘要：我们引入了一种有效且高效的方法，可以在长的、未修剪的视频序列中建立（即本地化）自然句子。具体来说，提出了一种新颖的时间地面网络（TGN）来暂时捕获视频和句子之间不断变化的细粒度逐字交互。 TGN 基 ......

Temporally Grounding Sentence Natural Video更新时间 2023-10-22

meta seg_anything and grounding_dino

https://github.com/IDEA-Research/GroundingDINO https://github.com/facebookresearch/segment-anything ......

grounding_dino seg_anything grounding anything meta更新时间 2023-04-21