Grounding

【论文阅读笔记】【多模态-Referring & Grounding】 Grounded Language-Image Pre-training

GLIP CVPR 2022 (Oral, Best Paper Finalist) 读论文思考的问题 论文试图解决什么问题?写作背景是什么? 问题: 如何将视觉-语言预训练技术应用在以目标检测为代表的 fine-grained image understanding 上面? 如何在增加训练数据的同 ......

【论文阅读笔记】【Referring & Grounding】 Ferret: Refer and Ground Anything Anywhere at Any Granularity

读论文思考的问题 论文试图解决什么问题? referring 和 grounding 是图片空间信息理解的两大方面,而以往的模型通常只关注于其中的一个方面 能否根据人类理解图片的能力,将 referring 和 grounding 的能力统一到一个模型中? 如何联合这两个任务?它们能相互促进吗? 如 ......

多模态大模型的grounding能力

数据集 a)QW-VL:Visual Genome, RefCOCO, RefCOCO+, RefCOCOg, b)CogVLM:Visual7W,Flickr30K-Entities c)Kosmos2:GRIT OFA Unifying Architectures, Tasks, and Mod ......
模态 grounding 模型 能力

Temporally Grounding Natural Sentence in Video

Temporally Grounding Natural Sentence in Video 摘要:我们引入了一种有效且高效的方法,可以在长的、未修剪的视频序列中建立(即本地化)自然句子。 具体来说,提出了一种新颖的时间地面网络(TGN)来暂时捕获视频和句子之间不断变化的细粒度逐字交互。 TGN 基 ......
Temporally Grounding Sentence Natural Video

meta seg_anything and grounding_dino

https://github.com/IDEA-Research/GroundingDINO https://github.com/facebookresearch/segment-anything ......
共5篇  :1/1页 首页上一页1下一页尾页