Vision-Language

Open-World Object Manipulation using Pre-trained Vision-Language Models

概述提出MOO: Manipulation of Open-World Objects 用预训练的VLM在图像中标记instruction的object的坐标，传入policy进行控制，可以zero-shot泛化到novel object，还支持手指、点击输入指令。问题机器人泛化到训练中没有见 ......

Vision-Language Manipulation Pre-trained Open-World Language更新时间 2023-12-17

《MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models》论文学习

一、ABSTRACT 最新的GPT-4展示了非凡的多模态能力，例如直接从手写文本生成网站和识别图像中的幽默元素。这些特性在以往的视觉-语言模型中很少见。然而，GPT-4背后的技术细节仍然未公开。我们认为，GPT-4增强的多模态生成能力源自于复杂的大型语言模型（LLM）的使用。为了检验这一现象，我们 ......

Vision-language Understanding Enhancing Advanced Language更新时间 2023-12-16

【论文阅读笔记】【多模态-Vision-Language Pretraining】 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

BLIP ICML 2022 (Spotlight) 读论文思考的问题论文试图解决什么问题？写作背景是什么？问题：在视觉-语言预训练（VLP）中，如何更加高效地利用充斥着噪声的海量图文对数据，提升预训练效果？如何设计模型，使得预训练后的模型在理解（understanding-based）任务 ......

Language Vision-Language 模态 Vision Language-Image更新时间 2023-12-14

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

Abstract: 具身人工智能(Embodied AI)让机器人有规划、执行动作序列的能力，以在物理环境中完成长期任务。本文提出EmbodiedGPT，它是一个端到端的多模态基础模型，赋予具身代理多模态理解和执行能力。本文的贡献主要有三点：制作了一个大规模的具身规划数据集EgoCOT。该数据集包 ......

Vision-Language Pre-Training EmbodiedGPT Embodied Language更新时间 2023-05-29

共4篇 :1/1页 首页上一页1下一页尾页

526互联

Vision-Language

Open-World Object Manipulation using Pre-trained Vision-Language Models

《MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models》论文学习

【论文阅读笔记】【多模态-Vision-Language Pretraining】 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought