Language-Image

【论文阅读笔记】【多模态-Vision-Language Pretraining】 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

BLIP ICML 2022 (Spotlight) 读论文思考的问题 论文试图解决什么问题?写作背景是什么? 问题: 在视觉-语言预训练(VLP)中,如何更加高效地利用充斥着噪声的海量图文对数据,提升预训练效果? 如何设计模型,使得预训练后的模型在理解(understanding-based)任务 ......

【论文阅读笔记】【多模态-Referring & Grounding】 Grounded Language-Image Pre-training

GLIP CVPR 2022 (Oral, Best Paper Finalist) 读论文思考的问题 论文试图解决什么问题?写作背景是什么? 问题: 如何将视觉-语言预训练技术应用在以目标检测为代表的 fine-grained image understanding 上面? 如何在增加训练数据的同 ......

GLIP:Grounded Language-Image Pre-training

Grounded Language-Image Pre-training 目录Grounded Language-Image Pre-training简介摘要Introduction统一的损失函数方法总结参考资料 GLIPv1: Grounded Language-Image Pre-trainin ......
共3篇  :1/1页 首页上一页1下一页尾页