Open-World Object Manipulation using Pre-trained Vision-Language Models

发布时间 2023-12-17 17:12:27作者: Eirrac

概述

提出MOO: Manipulation of Open-World Objects

用预训练的VLM在图像中标记instruction的object的坐标,传入policy进行控制,可以zero-shot泛化到novel object,还支持手指、点击输入指令。

问题

机器人泛化到训练中没有见过或者操作过的object。

  • perception-planning-control的pipline支持robots处理很多object
    • 这样的pipline太脆弱,因为物体操作依赖精准的物体定位
  • 预训练的图像和语言embedding构造policy,对novel semantic concept没有grounding能力

总之,一些方法可以泛化到很多object但是流程太脆弱,另一些方法没那么脆弱但是泛化能力不足

动机

为了提高对新语义概念的泛化能力,采用open-vocabulary预训练VLM,而不是单modality的模型。

方法

instruction的5种固定模板:pick X, move X near Y, knock X over, place X upright, place X into Y

  • 用Owl-ViT来提取object位置信息,将得到的bounding box的中点pixel置1.0(另一个obj置0.5),作为image的一个channel
    • 采用pixel而不是bounding的好处:对任何大小的可见物体都work,且和各种视觉的方法都适配(都能改成pixel形式)
    • (为了提高及时性)只对第一帧图片进行提取,对位置变化的处理由policy进行
    • 用颜色、大小、形状等信息进行标定,例如:An image of a small blue elephant toy
    • 设置一个统一的threshold对bounding box的score进行筛选
  • 将image序列输入RT-1的policy结构中
    • image序列用EfficientNet处理,结合FiLM对动作embedding的处理
    • 接入Token Learner,再接入一个Transformer

注意instruction的encode只包含verb信息

image

实验

训练数据

对RT-1的数据进行了增广,主要是增加了“pick”技能的object。作者表示只选择pick是因为这个简单,数据收集效率高,方便展现出对各种object的泛化(真会说)。

image

演示数据的分布:

image

泛化能力

49种见过的obj,47种没见过的

作者专门强调了是完全没见过的obj,而不是没见过的instruction组合

image

多种模态输入

image

模型扩展性

image

image

总结和不足

利用了VLM的语义理解能力,实现novel object的泛化。

不足:

  • object的表示在图像出现歧义(例如物体覆盖或者阻挡等)时不再好用
  • skill的泛化仍然需要局限在training data中(对于完全不同的形状和大小的obj无能为力)
  • instruction的格式需要简单清晰且固定化,尤其是对verb的定义。这个问题可能可以通过LLM解决
  • 无法解决instruction中利用空间来定义的object,例如"the small object to the left of the plate"